CN112597966A

CN112597966A - 一种基于比赛视频的动作自动识别方法

Info

Publication number: CN112597966A
Application number: CN202110007893.2A
Authority: CN
Inventors: 聂鑫
Original assignee: Wuhan Ball Road Technology Co ltd
Current assignee: Wuhan Ball Road Technology Co ltd
Priority date: 2021-01-05
Filing date: 2021-01-05
Publication date: 2021-04-02
Anticipated expiration: 2041-01-05
Also published as: CN112597966B

Abstract

本申请属于网络数据传输技术领域，尤其涉及一种基于比赛视频的动作识别方法。包括如下步骤：赛事视频的预处理和筛选；关键词标注及统计；动作以及语义特征提取；动作和语义特征的关联训练学习。本申请的基于比赛视频的动作识别方法能够减少赛事转播成本，降低对人员及设备需求，为赛事转播直播等内容提供基于机器语言自动识别和语义匹配等内容的基本模型结构，为实现用于赛事转播或直播的基于比赛视频的动作识别提供技术基础。

Description

一种基于比赛视频的动作自动识别方法

技术领域

本申请属于网络数据传输技术领域，尤其涉及一种基于比赛视频的动作自动识别方法。

背景技术

随着网络视数据传输能力的提升，以及各类体育运动在各个年龄段人群中的不断发展，人们对于各类运动赛事的现场以及视频观赛的需求不断提升，由于体育赛事种类众多，赛制循环进行，每次赛事进行过程中，往往不止有一场比赛在进行，除了主赛场往往会进行完备的视频录制播报之外，对于分赛场或者次级赛场的软硬件资源分配并不相同，往往不会配备完整的转播支持和解说团队，但对于一些分赛厂货次级赛场的赛事也有相应的粉丝团队进行关注，因此对该部分粉丝来说忘完更无法给予其良好的转播以及解说的支持，另一方面给予机器AI的语义自动识别技术也在不断发展，为实现现场播报以及解说的自动化提供了技术基础，目前基于该项技术进行各类简单的任务说明、生产线上的线性提示等已经有所应用，但赛事自动播报方面上没有完整的技术方案。

发明内容

本申请的目的在于，基于现状，提供一种能够减少赛事转播成本，降低对人员及设备需求，能够用于赛事转播或直播的基于比赛视频的动作自动识别方法。

为实现上述目的，本申请采用如下技术方案。

本申请的一种基于比赛视频的动作自动识别方法，包括如下步骤：

(1)赛事视频的预处理和筛选：收集足够且充分的原始视频数据，剔除原始视频中评价、回放、慢放、赛事过程中的裁定评分及其他非赛事动作直接相关的视频片段；

依据位置职能的基础动作作为划分依据，对原始视频进行切割分块，并选取不同职能位置对应的基本动作片段、不同位置职能间的互动动作视频片段以及特殊职能单位的特殊动作视频片段分别形成基本动作片段集、互动动作片段集以及特殊动作片段集；

(2)关键词标注及统计：基于前述动作片段集，采用人工统计或者语音识别方式，对各动作片段进行关键词标注；

(3)动作以及语义特征提取：利用卷积神经网络扫描动作片段集以进行动作特征提取；

利用独热编码(onehot)对关键词转化为描述特征，统计关键词词频构建语义词典；

(4)动作和语义特征的关联训练学习：使用长短期记忆人工神经网络(LSTM)完成动作片段与语义特征的学习训练，包括如下步骤：

将前述步骤中的动作特征分解为具有矢量特征并进行编码的动作特征序列，利用神经网络解码该动作特征获取相应动的数据

对于动作特征矢量X＝{x₁、x₂、...x_n}，其在长短期记忆人工神经网络对应的隐藏层输出H＝{h₁、h₂、...h_n}，将动作特征矢量按照顺序输入LSTM，在每个动作片段的所有帧图像均经过LSTM训练后，得到该动作特征矢量的编码映射；解码训练过程中，LSTM将隐藏状态解码为语义序列Y＝{y₁、y₂、...y_m}，其概率为

在已知帧序列的隐藏状态以及语义的情况下，持续训练过程直至得到预测中最大的对数似然性

对前述基于比赛视频的动作自动识别方法的进一步改进和优化，还包括用于去除冗余的步骤，具体而言，以含有帧图像数目最小的连续帧图像组对应的时长t_min为基数，统计各视频片段相对于t_min的重复次数，剔除同一个视频片段内包含的重复性冗余帧图像，对于画面呈周期性变化的视频片段，所述画面至少保留有一个完整周期内的所有非重复帧图像。

对前述基于比赛视频的动作自动识别方法的进一步改进和优化，数据集的训练使用了随机梯度算法进行优化，以使LSTM的训练过程更加适合动作特征与语义的识别，其中第二层LSTM的输出S在由关键词构成的词库中获得最大可能性的目标关键词G满足

对前述基于比赛视频的动作自动识别方法的进一步改进和优化，引入了时间权重比例控制，具体而言：采用时长特征向量的动态加权和，其公式为

其中

是i时刻LSTM隐藏层输出与动作片段向量匹配得到的分值权重且

其中score(x_ih_i)是指第i各隐藏层的输出h_i在动作片段特征向量中所占的分值，表示在该动作片段中的影响权重。

其有益效果在于：

本申请的基于比赛视频的动作自动识别方法能够减少赛事转播成本，降低对人员及设备需求，为赛事转播直播等内容提供基于机器语言自动识别和语义匹配等内容的基本模型结构，为实现用于赛事转播或直播的基于比赛视频的动作识别提供技术基础。

附图说明

图1基于比赛视频的动作自动识别方法的原理示意图。

具体实施方式

以下结合具体实施例对本申请作详细说明。

基于赛事识别的特殊需求，在比赛过程中，许多专业名词以及常规播报术语往往基于视频内运动员的系列动作来构成，因此本申请的基于比赛视频的动作特征的识别以及特征对应语义的匹配来实现，如图1所示，整个识别方法包括如下步骤：

1、赛事视频的预处理和筛选：收集足够且充分的原始视频数据，剔除原始视频中评价、回放、慢放、赛事过程中的裁定评分及其他非赛事动作直接相关的视频片段；

2、进一步地，本实施例中，还对于前述动作片段集，采用人工或者帧内比较的方法进行处理，基于动作片段内连续重复的帧图像的数目和时长，以含有帧图像数目最小的连续帧图像组对应的时长t_min为基数，统计各视频片段相对于t_min的重复次数，剔除同一个视频片段内包含的重复性冗余帧图像，对于画面呈周期性变化的视频片段，所述画面至少保留有一个完整周期内的所有非重复帧图像；

3、关键词标注及统计：基于前述动作片段集，采用人工统计或者语音识别方式，对各动作片段进行关键词标注；

4、动作以及语义特征提取：利用卷积神经网络扫描动作片段集以进行动作特征提取；

5、动作和语义特征的关联训练学习：使用长短期记忆人工神经网络(LSTM)完成动作片段与语义特征的学习训练，包括如下步骤：

特别的，本实施例中，数据集的训练使用了随机梯度算法进行优化，以使LSTM的训练过程更加适合动作特征与语义的识别，其中第二层LSTM的输出S在由关键词构成的词库中获得最大可能性的目标关键词G满足

特别的，由于动作视频一般由多组相似的帧图像序列构成，对于每一个动作项中多个肢体动作以及运动方向和角度对于确定该动作对应的语义的重要性并不一致，例如在大多数投篮过程中，其必定会有一个加速以角度调节过程，该过程在投篮动作帧序列中可能占时较长，但能够最准确的定义的起跳投篮动作可能时间很短，但该短时间的动作特征则更能够作为动作语义的识别，为此，本申请中还引入了时间权重比例控制，具体而言：

采用时长特征向量的动态加权和，其公式为

其中

最后应当说明的是，以上实施例仅用以说明本申请的技术方案，而非对本申请保护范围的限制，尽管参照较佳实施例对本申请作了详细地说明，本领域的普通技术人员应当理解，可以对本申请的技术方案进行修改或者等同替换，而不脱离本申请技术方案的实质和范围。

Claims

1.一种基于比赛视频的动作自动识别方法，其特征在于，包括如下步骤：

利用独热编码对关键词转化为描述特征，统计关键词词频构建语义词典；

(4)动作和语义特征的关联训练学习：使用长短期记忆人工神经网络完成动作片段与语义特征的学习训练，包括如下步骤：

2.根据权利要求1所述一种基于比赛视频的动作自动识别方法，其特征在于，还包括用于去除冗余的步骤，具体而言，以含有帧图像数目最小的连续帧图像组对应的时长t_min为基数，统计各视频片段相对于t_min的重复次数，剔除同一个视频片段内包含的重复性冗余帧图像，对于画面呈周期性变化的视频片段，所述画面至少保留有一个完整周期内的所有非重复帧图像。

3.根据权利要求1所述一种基于比赛视频的动作自动识别方法，其特征在于，数据集的训练使用了随机梯度算法进行优化，以使LSTM的训练过程更加适合动作特征与语义的识别，其中第二层LSTM的输出S在由关键词构成的词库中获得最大可能性的目标关键词G满足

4.根据权利要求1所述一种基于比赛视频的动作自动识别方法，其特征在于，引入了时间权重比例控制，具体而言：采用时长特征向量的动态加权和，其公式为

其中