CN112597966A - 一种基于比赛视频的动作自动识别方法 - Google Patents

一种基于比赛视频的动作自动识别方法 Download PDF

Info

Publication number
CN112597966A
CN112597966A CN202110007893.2A CN202110007893A CN112597966A CN 112597966 A CN112597966 A CN 112597966A CN 202110007893 A CN202110007893 A CN 202110007893A CN 112597966 A CN112597966 A CN 112597966A
Authority
CN
China
Prior art keywords
action
motion
video
lstm
segment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110007893.2A
Other languages
English (en)
Other versions
CN112597966B (zh
Inventor
聂鑫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Ball Road Technology Co ltd
Original Assignee
Wuhan Ball Road Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Ball Road Technology Co ltd filed Critical Wuhan Ball Road Technology Co ltd
Priority to CN202110007893.2A priority Critical patent/CN112597966B/zh
Publication of CN112597966A publication Critical patent/CN112597966A/zh
Application granted granted Critical
Publication of CN112597966B publication Critical patent/CN112597966B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • G06V20/42Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items of sport video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本申请属于网络数据传输技术领域,尤其涉及一种基于比赛视频的动作识别方法。包括如下步骤:赛事视频的预处理和筛选;关键词标注及统计;动作以及语义特征提取;动作和语义特征的关联训练学习。本申请的基于比赛视频的动作识别方法能够减少赛事转播成本,降低对人员及设备需求,为赛事转播直播等内容提供基于机器语言自动识别和语义匹配等内容的基本模型结构,为实现用于赛事转播或直播的基于比赛视频的动作识别提供技术基础。

Description

一种基于比赛视频的动作自动识别方法
技术领域
本申请属于网络数据传输技术领域,尤其涉及一种基于比赛视频的动作自动识别方法。
背景技术
随着网络视数据传输能力的提升,以及各类体育运动在各个年龄段人群中的不断发展,人们对于各类运动赛事的现场以及视频观赛的需求不断提升,由于体育赛事种类众多,赛制循环进行,每次赛事进行过程中,往往不止有一场比赛在进行,除了主赛场往往会进行完备的视频录制播报之外,对于分赛场或者次级赛场的软硬件资源分配并不相同,往往不会配备完整的转播支持和解说团队,但对于一些分赛厂货次级赛场的赛事也有相应的粉丝团队进行关注,因此对该部分粉丝来说忘完更无法给予其良好的转播以及解说的支持,另一方面给予机器AI的语义自动识别技术也在不断发展,为实现现场播报以及解说的自动化提供了技术基础,目前基于该项技术进行各类简单的任务说明、生产线上的线性提示等已经有所应用,但赛事自动播报方面上没有完整的技术方案。
发明内容
本申请的目的在于,基于现状,提供一种能够减少赛事转播成本,降低对人员及设备需求,能够用于赛事转播或直播的基于比赛视频的动作自动识别方法。
为实现上述目的,本申请采用如下技术方案。
本申请的一种基于比赛视频的动作自动识别方法,包括如下步骤:
(1)赛事视频的预处理和筛选:收集足够且充分的原始视频数据,剔除原始视频中评价、回放、慢放、赛事过程中的裁定评分及其他非赛事动作直接相关的视频片段;
依据位置职能的基础动作作为划分依据,对原始视频进行切割分块,并选取不同职能位置对应的基本动作片段、不同位置职能间的互动动作视频片段以及特殊职能单位的特殊动作视频片段分别形成基本动作片段集、互动动作片段集以及特殊动作片段集;
(2)关键词标注及统计:基于前述动作片段集,采用人工统计或者语音识别方式,对各动作片段进行关键词标注;
(3)动作以及语义特征提取:利用卷积神经网络扫描动作片段集以进行动作特征提取;
利用独热编码(onehot)对关键词转化为描述特征,统计关键词词频构建语义词典;
(4)动作和语义特征的关联训练学习:使用长短期记忆人工神经网络(LSTM)完成动作片段与语义特征的学习训练,包括如下步骤:
将前述步骤中的动作特征分解为具有矢量特征并进行编码的动作特征序列,利用神经网络解码该动作特征获取相应动的数据
对于动作特征矢量X={x1、x2、...xn},其在长短期记忆人工神经网络对应的隐藏层输出H={h1、h2、...hn},将动作特征矢量按照顺序输入LSTM,在每个动作片段的所有帧图像均经过LSTM训练后,得到该动作特征矢量的编码映射;解码训练过程中,LSTM将隐藏状态解码为语义序列Y={y1、y2、...ym},其概率为
Figure BDA0002883791420000021
在已知帧序列的隐藏状态以及语义的情况下,持续训练过程直至得到预测中最大的对数似然性
Figure BDA0002883791420000022
对前述基于比赛视频的动作自动识别方法的进一步改进和优化,还包括用于去除冗余的步骤,具体而言,以含有帧图像数目最小的连续帧图像组对应的时长tmin为基数,统计各视频片段相对于tmin的重复次数,剔除同一个视频片段内包含的重复性冗余帧图像,对于画面呈周期性变化的视频片段,所述画面至少保留有一个完整周期内的所有非重复帧图像。
对前述基于比赛视频的动作自动识别方法的进一步改进和优化,数据集的训练使用了随机梯度算法进行优化,以使LSTM的训练过程更加适合动作特征与语义的识别,其中第二层LSTM的输出S在由关键词构成的词库中获得最大可能性的目标关键词G满足
Figure BDA0002883791420000023
对前述基于比赛视频的动作自动识别方法的进一步改进和优化,引入了时间权重比例控制,具体而言:采用时长特征向量的动态加权和,其公式为
Figure BDA0002883791420000024
其中
Figure BDA0002883791420000025
Figure BDA0002883791420000026
是i时刻LSTM隐藏层输出与动作片段向量匹配得到的分值权重且
Figure BDA0002883791420000027
其中score(xihi)是指第i各隐藏层的输出hi在动作片段特征向量中所占的分值,表示在该动作片段中的影响权重。
其有益效果在于:
本申请的基于比赛视频的动作自动识别方法能够减少赛事转播成本,降低对人员及设备需求,为赛事转播直播等内容提供基于机器语言自动识别和语义匹配等内容的基本模型结构,为实现用于赛事转播或直播的基于比赛视频的动作识别提供技术基础。
附图说明
图1基于比赛视频的动作自动识别方法的原理示意图。
具体实施方式
以下结合具体实施例对本申请作详细说明。
基于赛事识别的特殊需求,在比赛过程中,许多专业名词以及常规播报术语往往基于视频内运动员的系列动作来构成,因此本申请的基于比赛视频的动作特征的识别以及特征对应语义的匹配来实现,如图1所示,整个识别方法包括如下步骤:
1、赛事视频的预处理和筛选:收集足够且充分的原始视频数据,剔除原始视频中评价、回放、慢放、赛事过程中的裁定评分及其他非赛事动作直接相关的视频片段;
依据位置职能的基础动作作为划分依据,对原始视频进行切割分块,并选取不同职能位置对应的基本动作片段、不同位置职能间的互动动作视频片段以及特殊职能单位的特殊动作视频片段分别形成基本动作片段集、互动动作片段集以及特殊动作片段集;
2、进一步地,本实施例中,还对于前述动作片段集,采用人工或者帧内比较的方法进行处理,基于动作片段内连续重复的帧图像的数目和时长,以含有帧图像数目最小的连续帧图像组对应的时长tmin为基数,统计各视频片段相对于tmin的重复次数,剔除同一个视频片段内包含的重复性冗余帧图像,对于画面呈周期性变化的视频片段,所述画面至少保留有一个完整周期内的所有非重复帧图像;
3、关键词标注及统计:基于前述动作片段集,采用人工统计或者语音识别方式,对各动作片段进行关键词标注;
4、动作以及语义特征提取:利用卷积神经网络扫描动作片段集以进行动作特征提取;
利用独热编码(onehot)对关键词转化为描述特征,统计关键词词频构建语义词典;
5、动作和语义特征的关联训练学习:使用长短期记忆人工神经网络(LSTM)完成动作片段与语义特征的学习训练,包括如下步骤:
将前述步骤中的动作特征分解为具有矢量特征并进行编码的动作特征序列,利用神经网络解码该动作特征获取相应动的数据
对于动作特征矢量X={x1、x2、...xn},其在长短期记忆人工神经网络对应的隐藏层输出H={h1、h2、...hn},将动作特征矢量按照顺序输入LSTM,在每个动作片段的所有帧图像均经过LSTM训练后,得到该动作特征矢量的编码映射;解码训练过程中,LSTM将隐藏状态解码为语义序列Y={y1、y2、...ym},其概率为
Figure BDA0002883791420000031
在已知帧序列的隐藏状态以及语义的情况下,持续训练过程直至得到预测中最大的对数似然性
Figure BDA0002883791420000041
特别的,本实施例中,数据集的训练使用了随机梯度算法进行优化,以使LSTM的训练过程更加适合动作特征与语义的识别,其中第二层LSTM的输出S在由关键词构成的词库中获得最大可能性的目标关键词G满足
Figure BDA0002883791420000042
特别的,由于动作视频一般由多组相似的帧图像序列构成,对于每一个动作项中多个肢体动作以及运动方向和角度对于确定该动作对应的语义的重要性并不一致,例如在大多数投篮过程中,其必定会有一个加速以角度调节过程,该过程在投篮动作帧序列中可能占时较长,但能够最准确的定义的起跳投篮动作可能时间很短,但该短时间的动作特征则更能够作为动作语义的识别,为此,本申请中还引入了时间权重比例控制,具体而言:
采用时长特征向量的动态加权和,其公式为
Figure BDA0002883791420000043
其中
Figure BDA0002883791420000044
Figure BDA0002883791420000045
是i时刻LSTM隐藏层输出与动作片段向量匹配得到的分值权重且
Figure BDA0002883791420000046
其中score(xihi)是指第i各隐藏层的输出hi在动作片段特征向量中所占的分值,表示在该动作片段中的影响权重。
最后应当说明的是,以上实施例仅用以说明本申请的技术方案,而非对本申请保护范围的限制,尽管参照较佳实施例对本申请作了详细地说明,本领域的普通技术人员应当理解,可以对本申请的技术方案进行修改或者等同替换,而不脱离本申请技术方案的实质和范围。

Claims (4)

1.一种基于比赛视频的动作自动识别方法,其特征在于,包括如下步骤:
(1)赛事视频的预处理和筛选:收集足够且充分的原始视频数据,剔除原始视频中评价、回放、慢放、赛事过程中的裁定评分及其他非赛事动作直接相关的视频片段;
依据位置职能的基础动作作为划分依据,对原始视频进行切割分块,并选取不同职能位置对应的基本动作片段、不同位置职能间的互动动作视频片段以及特殊职能单位的特殊动作视频片段分别形成基本动作片段集、互动动作片段集以及特殊动作片段集;
(2)关键词标注及统计:基于前述动作片段集,采用人工统计或者语音识别方式,对各动作片段进行关键词标注;
(3)动作以及语义特征提取:利用卷积神经网络扫描动作片段集以进行动作特征提取;
利用独热编码对关键词转化为描述特征,统计关键词词频构建语义词典;
(4)动作和语义特征的关联训练学习:使用长短期记忆人工神经网络完成动作片段与语义特征的学习训练,包括如下步骤:
将前述步骤中的动作特征分解为具有矢量特征并进行编码的动作特征序列,利用神经网络解码该动作特征获取相应动的数据
对于动作特征矢量X={x1、x2、...xn},其在长短期记忆人工神经网络对应的隐藏层输出H={h1、h2、...hn},将动作特征矢量按照顺序输入LSTM,在每个动作片段的所有帧图像均经过LSTM训练后,得到该动作特征矢量的编码映射;解码训练过程中,LSTM将隐藏状态解码为语义序列Y={y1、y2、...ym},其概率为
Figure FDA0002883791410000011
在已知帧序列的隐藏状态以及语义的情况下,持续训练过程直至得到预测中最大的对数似然性
Figure FDA0002883791410000012
2.根据权利要求1所述一种基于比赛视频的动作自动识别方法,其特征在于,还包括用于去除冗余的步骤,具体而言,以含有帧图像数目最小的连续帧图像组对应的时长tmin为基数,统计各视频片段相对于tmin的重复次数,剔除同一个视频片段内包含的重复性冗余帧图像,对于画面呈周期性变化的视频片段,所述画面至少保留有一个完整周期内的所有非重复帧图像。
3.根据权利要求1所述一种基于比赛视频的动作自动识别方法,其特征在于,数据集的训练使用了随机梯度算法进行优化,以使LSTM的训练过程更加适合动作特征与语义的识别,其中第二层LSTM的输出S在由关键词构成的词库中获得最大可能性的目标关键词G满足
Figure FDA0002883791410000021
4.根据权利要求1所述一种基于比赛视频的动作自动识别方法,其特征在于,引入了时间权重比例控制,具体而言:采用时长特征向量的动态加权和,其公式为
Figure FDA0002883791410000022
其中
Figure FDA0002883791410000023
Figure FDA0002883791410000024
是i时刻LSTM隐藏层输出与动作片段向量匹配得到的分值权重且
Figure FDA0002883791410000025
其中score(xihi)是指第i各隐藏层的输出hi在动作片段特征向量中所占的分值,表示在该动作片段中的影响权重。
CN202110007893.2A 2021-01-05 2021-01-05 一种基于比赛视频的动作自动识别方法 Active CN112597966B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110007893.2A CN112597966B (zh) 2021-01-05 2021-01-05 一种基于比赛视频的动作自动识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110007893.2A CN112597966B (zh) 2021-01-05 2021-01-05 一种基于比赛视频的动作自动识别方法

Publications (2)

Publication Number Publication Date
CN112597966A true CN112597966A (zh) 2021-04-02
CN112597966B CN112597966B (zh) 2024-05-28

Family

ID=75207341

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110007893.2A Active CN112597966B (zh) 2021-01-05 2021-01-05 一种基于比赛视频的动作自动识别方法

Country Status (1)

Country Link
CN (1) CN112597966B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114630142A (zh) * 2022-05-12 2022-06-14 北京汇智云科技有限公司 一种大型运动会转播信号调度方法和播出制作系统
KR20230059879A (ko) * 2021-10-25 2023-05-04 연세대학교 산학협력단 모방 학습을 이용한 실시간 비디오 동작 검출 장치 및 방법
CN116152711A (zh) * 2022-08-25 2023-05-23 北京凯利时科技有限公司 基于多模态的导播方法和系统以及计算机程序产品
CN113490045B (zh) * 2021-06-30 2024-03-22 北京百度网讯科技有限公司 针对直播视频的特效添加方法、装置、设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160307564A1 (en) * 2015-04-17 2016-10-20 Nuance Communications, Inc. Systems and methods for providing unnormalized language models
CN107038221A (zh) * 2017-03-22 2017-08-11 杭州电子科技大学 一种基于语义信息引导的视频内容描述方法
CN108681712A (zh) * 2018-05-17 2018-10-19 北京工业大学 一种融合领域知识和多阶深度特征的篮球比赛语义事件识别方法
CN110363164A (zh) * 2019-07-18 2019-10-22 南京工业大学 一种基于lstm时间一致性视频分析的统一方法
US20200043483A1 (en) * 2018-08-01 2020-02-06 Google Llc Minimum word error rate training for attention-based sequence-to-sequence models

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160307564A1 (en) * 2015-04-17 2016-10-20 Nuance Communications, Inc. Systems and methods for providing unnormalized language models
CN107038221A (zh) * 2017-03-22 2017-08-11 杭州电子科技大学 一种基于语义信息引导的视频内容描述方法
CN108681712A (zh) * 2018-05-17 2018-10-19 北京工业大学 一种融合领域知识和多阶深度特征的篮球比赛语义事件识别方法
US20200043483A1 (en) * 2018-08-01 2020-02-06 Google Llc Minimum word error rate training for attention-based sequence-to-sequence models
CN110363164A (zh) * 2019-07-18 2019-10-22 南京工业大学 一种基于lstm时间一致性视频分析的统一方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
NIE XIN: "coarse-to-fine luminance estimation for low-light image enhancement in maritime video surveillance", 《ITSC 2019》, pages 299 - 304 *
NIE XIN: "deep neural network-based robust ship detection under different weather conditions", 《ITSC 2019》, pages 47 - 52 *
聂鑫 等: "复杂场景下基于增强YOLOv3的船舶目标检测", 《计算机应用》, vol. 40, no. 9, pages 2561 - 2570 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113490045B (zh) * 2021-06-30 2024-03-22 北京百度网讯科技有限公司 针对直播视频的特效添加方法、装置、设备及存储介质
KR20230059879A (ko) * 2021-10-25 2023-05-04 연세대학교 산학협력단 모방 학습을 이용한 실시간 비디오 동작 검출 장치 및 방법
KR102616236B1 (ko) 2021-10-25 2023-12-21 연세대학교 산학협력단 모방 학습을 이용한 실시간 비디오 동작 검출 장치 및 방법
CN114630142A (zh) * 2022-05-12 2022-06-14 北京汇智云科技有限公司 一种大型运动会转播信号调度方法和播出制作系统
CN114630142B (zh) * 2022-05-12 2022-07-29 北京汇智云科技有限公司 一种大型运动会转播信号调度方法和播出制作系统
CN116152711A (zh) * 2022-08-25 2023-05-23 北京凯利时科技有限公司 基于多模态的导播方法和系统以及计算机程序产品
CN116152711B (zh) * 2022-08-25 2024-03-22 北京凯利时科技有限公司 基于多模态的导播方法和系统以及计算机程序产品

Also Published As

Publication number Publication date
CN112597966B (zh) 2024-05-28

Similar Documents

Publication Publication Date Title
CN112597966A (zh) 一种基于比赛视频的动作自动识别方法
Peng et al. Two-stream collaborative learning with spatial-temporal attention for video classification
CN109145784B (zh) 用于处理视频的方法和装置
CN109063568B (zh) 一种基于深度学习的花样滑冰视频自动打分的方法
Han et al. An integrated baseball digest system using maximum entropy method
CN110837579A (zh) 视频分类方法、装置、计算机以及可读存储介质
CN111263227B (zh) 一种多媒体播放方法、装置、存储介质以及终端
CN110364146A (zh) 语音识别方法、装置、语音识别设备及存储介质
CN110234018B (zh) 多媒体内容描述生成方法、训练方法、装置、设备及介质
CN1393107A (zh) 充实视频的屏幕文字触发字
CN111372141B (zh) 表情图像生成方法、装置及电子设备
CN112132030B (zh) 视频处理方法及装置、存储介质及电子设备
Hu et al. Video2vec: Learning semantic spatio-temporal embeddings for video representation
Dai et al. Video scene segmentation using tensor-train faster-RCNN for multimedia IoT systems
Chen et al. Violent scene detection in movies
CN101339660A (zh) 一种体育视频内容分析方法及装置
CN112800339A (zh) 信息流搜索方法、装置及设备
Gozuacik et al. Turkish movie genre classification from poster images using convolutional neural networks
Farhad et al. Sports-net18: Various sports classification using transfer learning
CN114491152B (zh) 一种摘要视频的生成方法、存储介质、电子装置
CN116229568A (zh) 直播视频手势检测方法、装置、设备及介质
CN114297354B (zh) 一种弹幕生成方法及装置、存储介质、电子装置
CN112040301B (zh) 交互式练习设备动作讲解方法、系统、终端及介质
CN112464856B (zh) 基于人体骨骼关键点的视频流动作检测方法
Yasuda et al. Crossmodal Sound Retrieval Based on Specific Target Co-Occurrence Denoted with Weak Labels.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant