CN112597966A - 一种基于比赛视频的动作自动识别方法 - Google Patents
一种基于比赛视频的动作自动识别方法 Download PDFInfo
- Publication number
- CN112597966A CN112597966A CN202110007893.2A CN202110007893A CN112597966A CN 112597966 A CN112597966 A CN 112597966A CN 202110007893 A CN202110007893 A CN 202110007893A CN 112597966 A CN112597966 A CN 112597966A
- Authority
- CN
- China
- Prior art keywords
- action
- motion
- video
- lstm
- segment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000009471 action Effects 0.000 title claims abstract description 49
- 238000000034 method Methods 0.000 title claims abstract description 39
- 230000033001 locomotion Effects 0.000 claims abstract description 58
- 238000012549 training Methods 0.000 claims abstract description 19
- 238000002372 labelling Methods 0.000 claims abstract description 7
- 238000007781 pre-processing Methods 0.000 claims abstract description 4
- 238000012216 screening Methods 0.000 claims abstract description 4
- 239000013598 vector Substances 0.000 claims description 18
- 230000008569 process Effects 0.000 claims description 16
- 230000006870 function Effects 0.000 claims description 12
- 238000013528 artificial neural network Methods 0.000 claims description 9
- 239000012634 fragment Substances 0.000 claims description 9
- 230000002452 interceptive effect Effects 0.000 claims description 6
- 230000003252 repetitive effect Effects 0.000 claims description 5
- 230000000903 blocking effect Effects 0.000 claims description 3
- 238000013527 convolutional neural network Methods 0.000 claims description 3
- 238000005520 cutting process Methods 0.000 claims description 3
- 238000011156 evaluation Methods 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 230000005540 biological transmission Effects 0.000 abstract description 3
- 230000006872 improvement Effects 0.000 description 4
- 238000005457 optimization Methods 0.000 description 3
- 230000001133 acceleration Effects 0.000 description 2
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
- G06V20/42—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items of sport video content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本申请属于网络数据传输技术领域,尤其涉及一种基于比赛视频的动作识别方法。包括如下步骤:赛事视频的预处理和筛选;关键词标注及统计;动作以及语义特征提取;动作和语义特征的关联训练学习。本申请的基于比赛视频的动作识别方法能够减少赛事转播成本,降低对人员及设备需求,为赛事转播直播等内容提供基于机器语言自动识别和语义匹配等内容的基本模型结构,为实现用于赛事转播或直播的基于比赛视频的动作识别提供技术基础。
Description
技术领域
本申请属于网络数据传输技术领域,尤其涉及一种基于比赛视频的动作自动识别方法。
背景技术
随着网络视数据传输能力的提升,以及各类体育运动在各个年龄段人群中的不断发展,人们对于各类运动赛事的现场以及视频观赛的需求不断提升,由于体育赛事种类众多,赛制循环进行,每次赛事进行过程中,往往不止有一场比赛在进行,除了主赛场往往会进行完备的视频录制播报之外,对于分赛场或者次级赛场的软硬件资源分配并不相同,往往不会配备完整的转播支持和解说团队,但对于一些分赛厂货次级赛场的赛事也有相应的粉丝团队进行关注,因此对该部分粉丝来说忘完更无法给予其良好的转播以及解说的支持,另一方面给予机器AI的语义自动识别技术也在不断发展,为实现现场播报以及解说的自动化提供了技术基础,目前基于该项技术进行各类简单的任务说明、生产线上的线性提示等已经有所应用,但赛事自动播报方面上没有完整的技术方案。
发明内容
本申请的目的在于,基于现状,提供一种能够减少赛事转播成本,降低对人员及设备需求,能够用于赛事转播或直播的基于比赛视频的动作自动识别方法。
为实现上述目的,本申请采用如下技术方案。
本申请的一种基于比赛视频的动作自动识别方法,包括如下步骤:
(1)赛事视频的预处理和筛选:收集足够且充分的原始视频数据,剔除原始视频中评价、回放、慢放、赛事过程中的裁定评分及其他非赛事动作直接相关的视频片段;
依据位置职能的基础动作作为划分依据,对原始视频进行切割分块,并选取不同职能位置对应的基本动作片段、不同位置职能间的互动动作视频片段以及特殊职能单位的特殊动作视频片段分别形成基本动作片段集、互动动作片段集以及特殊动作片段集;
(2)关键词标注及统计:基于前述动作片段集,采用人工统计或者语音识别方式,对各动作片段进行关键词标注;
(3)动作以及语义特征提取:利用卷积神经网络扫描动作片段集以进行动作特征提取;
利用独热编码(onehot)对关键词转化为描述特征,统计关键词词频构建语义词典;
(4)动作和语义特征的关联训练学习:使用长短期记忆人工神经网络(LSTM)完成动作片段与语义特征的学习训练,包括如下步骤:
将前述步骤中的动作特征分解为具有矢量特征并进行编码的动作特征序列,利用神经网络解码该动作特征获取相应动的数据
对于动作特征矢量X={x1、x2、...xn},其在长短期记忆人工神经网络对应的隐藏层输出H={h1、h2、...hn},将动作特征矢量按照顺序输入LSTM,在每个动作片段的所有帧图像均经过LSTM训练后,得到该动作特征矢量的编码映射;解码训练过程中,LSTM将隐藏状态解码为语义序列Y={y1、y2、...ym},其概率为
对前述基于比赛视频的动作自动识别方法的进一步改进和优化,还包括用于去除冗余的步骤,具体而言,以含有帧图像数目最小的连续帧图像组对应的时长tmin为基数,统计各视频片段相对于tmin的重复次数,剔除同一个视频片段内包含的重复性冗余帧图像,对于画面呈周期性变化的视频片段,所述画面至少保留有一个完整周期内的所有非重复帧图像。
对前述基于比赛视频的动作自动识别方法的进一步改进和优化,数据集的训练使用了随机梯度算法进行优化,以使LSTM的训练过程更加适合动作特征与语义的识别,其中第二层LSTM的输出S在由关键词构成的词库中获得最大可能性的目标关键词G满足
对前述基于比赛视频的动作自动识别方法的进一步改进和优化,引入了时间权重比例控制,具体而言:采用时长特征向量的动态加权和,其公式为其中 是i时刻LSTM隐藏层输出与动作片段向量匹配得到的分值权重且其中score(xihi)是指第i各隐藏层的输出hi在动作片段特征向量中所占的分值,表示在该动作片段中的影响权重。
其有益效果在于:
本申请的基于比赛视频的动作自动识别方法能够减少赛事转播成本,降低对人员及设备需求,为赛事转播直播等内容提供基于机器语言自动识别和语义匹配等内容的基本模型结构,为实现用于赛事转播或直播的基于比赛视频的动作识别提供技术基础。
附图说明
图1基于比赛视频的动作自动识别方法的原理示意图。
具体实施方式
以下结合具体实施例对本申请作详细说明。
基于赛事识别的特殊需求,在比赛过程中,许多专业名词以及常规播报术语往往基于视频内运动员的系列动作来构成,因此本申请的基于比赛视频的动作特征的识别以及特征对应语义的匹配来实现,如图1所示,整个识别方法包括如下步骤:
1、赛事视频的预处理和筛选:收集足够且充分的原始视频数据,剔除原始视频中评价、回放、慢放、赛事过程中的裁定评分及其他非赛事动作直接相关的视频片段;
依据位置职能的基础动作作为划分依据,对原始视频进行切割分块,并选取不同职能位置对应的基本动作片段、不同位置职能间的互动动作视频片段以及特殊职能单位的特殊动作视频片段分别形成基本动作片段集、互动动作片段集以及特殊动作片段集;
2、进一步地,本实施例中,还对于前述动作片段集,采用人工或者帧内比较的方法进行处理,基于动作片段内连续重复的帧图像的数目和时长,以含有帧图像数目最小的连续帧图像组对应的时长tmin为基数,统计各视频片段相对于tmin的重复次数,剔除同一个视频片段内包含的重复性冗余帧图像,对于画面呈周期性变化的视频片段,所述画面至少保留有一个完整周期内的所有非重复帧图像;
3、关键词标注及统计:基于前述动作片段集,采用人工统计或者语音识别方式,对各动作片段进行关键词标注;
4、动作以及语义特征提取:利用卷积神经网络扫描动作片段集以进行动作特征提取;
利用独热编码(onehot)对关键词转化为描述特征,统计关键词词频构建语义词典;
5、动作和语义特征的关联训练学习:使用长短期记忆人工神经网络(LSTM)完成动作片段与语义特征的学习训练,包括如下步骤:
将前述步骤中的动作特征分解为具有矢量特征并进行编码的动作特征序列,利用神经网络解码该动作特征获取相应动的数据
对于动作特征矢量X={x1、x2、...xn},其在长短期记忆人工神经网络对应的隐藏层输出H={h1、h2、...hn},将动作特征矢量按照顺序输入LSTM,在每个动作片段的所有帧图像均经过LSTM训练后,得到该动作特征矢量的编码映射;解码训练过程中,LSTM将隐藏状态解码为语义序列Y={y1、y2、...ym},其概率为
特别的,由于动作视频一般由多组相似的帧图像序列构成,对于每一个动作项中多个肢体动作以及运动方向和角度对于确定该动作对应的语义的重要性并不一致,例如在大多数投篮过程中,其必定会有一个加速以角度调节过程,该过程在投篮动作帧序列中可能占时较长,但能够最准确的定义的起跳投篮动作可能时间很短,但该短时间的动作特征则更能够作为动作语义的识别,为此,本申请中还引入了时间权重比例控制,具体而言:
最后应当说明的是,以上实施例仅用以说明本申请的技术方案,而非对本申请保护范围的限制,尽管参照较佳实施例对本申请作了详细地说明,本领域的普通技术人员应当理解,可以对本申请的技术方案进行修改或者等同替换,而不脱离本申请技术方案的实质和范围。
Claims (4)
1.一种基于比赛视频的动作自动识别方法,其特征在于,包括如下步骤:
(1)赛事视频的预处理和筛选:收集足够且充分的原始视频数据,剔除原始视频中评价、回放、慢放、赛事过程中的裁定评分及其他非赛事动作直接相关的视频片段;
依据位置职能的基础动作作为划分依据,对原始视频进行切割分块,并选取不同职能位置对应的基本动作片段、不同位置职能间的互动动作视频片段以及特殊职能单位的特殊动作视频片段分别形成基本动作片段集、互动动作片段集以及特殊动作片段集;
(2)关键词标注及统计:基于前述动作片段集,采用人工统计或者语音识别方式,对各动作片段进行关键词标注;
(3)动作以及语义特征提取:利用卷积神经网络扫描动作片段集以进行动作特征提取;
利用独热编码对关键词转化为描述特征,统计关键词词频构建语义词典;
(4)动作和语义特征的关联训练学习:使用长短期记忆人工神经网络完成动作片段与语义特征的学习训练,包括如下步骤:
将前述步骤中的动作特征分解为具有矢量特征并进行编码的动作特征序列,利用神经网络解码该动作特征获取相应动的数据
对于动作特征矢量X={x1、x2、...xn},其在长短期记忆人工神经网络对应的隐藏层输出H={h1、h2、...hn},将动作特征矢量按照顺序输入LSTM,在每个动作片段的所有帧图像均经过LSTM训练后,得到该动作特征矢量的编码映射;解码训练过程中,LSTM将隐藏状态解码为语义序列Y={y1、y2、...ym},其概率为
2.根据权利要求1所述一种基于比赛视频的动作自动识别方法,其特征在于,还包括用于去除冗余的步骤,具体而言,以含有帧图像数目最小的连续帧图像组对应的时长tmin为基数,统计各视频片段相对于tmin的重复次数,剔除同一个视频片段内包含的重复性冗余帧图像,对于画面呈周期性变化的视频片段,所述画面至少保留有一个完整周期内的所有非重复帧图像。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110007893.2A CN112597966B (zh) | 2021-01-05 | 2021-01-05 | 一种基于比赛视频的动作自动识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110007893.2A CN112597966B (zh) | 2021-01-05 | 2021-01-05 | 一种基于比赛视频的动作自动识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112597966A true CN112597966A (zh) | 2021-04-02 |
CN112597966B CN112597966B (zh) | 2024-05-28 |
Family
ID=75207341
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110007893.2A Active CN112597966B (zh) | 2021-01-05 | 2021-01-05 | 一种基于比赛视频的动作自动识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112597966B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114630142A (zh) * | 2022-05-12 | 2022-06-14 | 北京汇智云科技有限公司 | 一种大型运动会转播信号调度方法和播出制作系统 |
KR20230059879A (ko) * | 2021-10-25 | 2023-05-04 | 연세대학교 산학협력단 | 모방 학습을 이용한 실시간 비디오 동작 검출 장치 및 방법 |
CN116152711A (zh) * | 2022-08-25 | 2023-05-23 | 北京凯利时科技有限公司 | 基于多模态的导播方法和系统以及计算机程序产品 |
CN113490045B (zh) * | 2021-06-30 | 2024-03-22 | 北京百度网讯科技有限公司 | 针对直播视频的特效添加方法、装置、设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160307564A1 (en) * | 2015-04-17 | 2016-10-20 | Nuance Communications, Inc. | Systems and methods for providing unnormalized language models |
CN107038221A (zh) * | 2017-03-22 | 2017-08-11 | 杭州电子科技大学 | 一种基于语义信息引导的视频内容描述方法 |
CN108681712A (zh) * | 2018-05-17 | 2018-10-19 | 北京工业大学 | 一种融合领域知识和多阶深度特征的篮球比赛语义事件识别方法 |
CN110363164A (zh) * | 2019-07-18 | 2019-10-22 | 南京工业大学 | 一种基于lstm时间一致性视频分析的统一方法 |
US20200043483A1 (en) * | 2018-08-01 | 2020-02-06 | Google Llc | Minimum word error rate training for attention-based sequence-to-sequence models |
-
2021
- 2021-01-05 CN CN202110007893.2A patent/CN112597966B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160307564A1 (en) * | 2015-04-17 | 2016-10-20 | Nuance Communications, Inc. | Systems and methods for providing unnormalized language models |
CN107038221A (zh) * | 2017-03-22 | 2017-08-11 | 杭州电子科技大学 | 一种基于语义信息引导的视频内容描述方法 |
CN108681712A (zh) * | 2018-05-17 | 2018-10-19 | 北京工业大学 | 一种融合领域知识和多阶深度特征的篮球比赛语义事件识别方法 |
US20200043483A1 (en) * | 2018-08-01 | 2020-02-06 | Google Llc | Minimum word error rate training for attention-based sequence-to-sequence models |
CN110363164A (zh) * | 2019-07-18 | 2019-10-22 | 南京工业大学 | 一种基于lstm时间一致性视频分析的统一方法 |
Non-Patent Citations (3)
Title |
---|
NIE XIN: "coarse-to-fine luminance estimation for low-light image enhancement in maritime video surveillance", 《ITSC 2019》, pages 299 - 304 * |
NIE XIN: "deep neural network-based robust ship detection under different weather conditions", 《ITSC 2019》, pages 47 - 52 * |
聂鑫 等: "复杂场景下基于增强YOLOv3的船舶目标检测", 《计算机应用》, vol. 40, no. 9, pages 2561 - 2570 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113490045B (zh) * | 2021-06-30 | 2024-03-22 | 北京百度网讯科技有限公司 | 针对直播视频的特效添加方法、装置、设备及存储介质 |
KR20230059879A (ko) * | 2021-10-25 | 2023-05-04 | 연세대학교 산학협력단 | 모방 학습을 이용한 실시간 비디오 동작 검출 장치 및 방법 |
KR102616236B1 (ko) | 2021-10-25 | 2023-12-21 | 연세대학교 산학협력단 | 모방 학습을 이용한 실시간 비디오 동작 검출 장치 및 방법 |
CN114630142A (zh) * | 2022-05-12 | 2022-06-14 | 北京汇智云科技有限公司 | 一种大型运动会转播信号调度方法和播出制作系统 |
CN114630142B (zh) * | 2022-05-12 | 2022-07-29 | 北京汇智云科技有限公司 | 一种大型运动会转播信号调度方法和播出制作系统 |
CN116152711A (zh) * | 2022-08-25 | 2023-05-23 | 北京凯利时科技有限公司 | 基于多模态的导播方法和系统以及计算机程序产品 |
CN116152711B (zh) * | 2022-08-25 | 2024-03-22 | 北京凯利时科技有限公司 | 基于多模态的导播方法和系统以及计算机程序产品 |
Also Published As
Publication number | Publication date |
---|---|
CN112597966B (zh) | 2024-05-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112597966A (zh) | 一种基于比赛视频的动作自动识别方法 | |
Peng et al. | Two-stream collaborative learning with spatial-temporal attention for video classification | |
CN109145784B (zh) | 用于处理视频的方法和装置 | |
CN109063568B (zh) | 一种基于深度学习的花样滑冰视频自动打分的方法 | |
Han et al. | An integrated baseball digest system using maximum entropy method | |
CN110837579A (zh) | 视频分类方法、装置、计算机以及可读存储介质 | |
CN111263227B (zh) | 一种多媒体播放方法、装置、存储介质以及终端 | |
CN110364146A (zh) | 语音识别方法、装置、语音识别设备及存储介质 | |
CN110234018B (zh) | 多媒体内容描述生成方法、训练方法、装置、设备及介质 | |
CN1393107A (zh) | 充实视频的屏幕文字触发字 | |
CN111372141B (zh) | 表情图像生成方法、装置及电子设备 | |
CN112132030B (zh) | 视频处理方法及装置、存储介质及电子设备 | |
Hu et al. | Video2vec: Learning semantic spatio-temporal embeddings for video representation | |
Dai et al. | Video scene segmentation using tensor-train faster-RCNN for multimedia IoT systems | |
Chen et al. | Violent scene detection in movies | |
CN101339660A (zh) | 一种体育视频内容分析方法及装置 | |
CN112800339A (zh) | 信息流搜索方法、装置及设备 | |
Gozuacik et al. | Turkish movie genre classification from poster images using convolutional neural networks | |
Farhad et al. | Sports-net18: Various sports classification using transfer learning | |
CN114491152B (zh) | 一种摘要视频的生成方法、存储介质、电子装置 | |
CN116229568A (zh) | 直播视频手势检测方法、装置、设备及介质 | |
CN114297354B (zh) | 一种弹幕生成方法及装置、存储介质、电子装置 | |
CN112040301B (zh) | 交互式练习设备动作讲解方法、系统、终端及介质 | |
CN112464856B (zh) | 基于人体骨骼关键点的视频流动作检测方法 | |
Yasuda et al. | Crossmodal Sound Retrieval Based on Specific Target Co-Occurrence Denoted with Weak Labels. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |