CN115019386B

CN115019386B - 基于深度学习的运动辅助训练方法

Info

Publication number: CN115019386B
Application number: CN202210401468.6A
Authority: CN
Inventors: 单光存; 滕昱坤
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2022-04-15
Filing date: 2022-04-15
Publication date: 2024-06-14
Anticipated expiration: 2042-04-15
Also published as: CN115019386A

Abstract

本发明涉及一种基于深度学习的运动辅助训练方法，包括预处理目标运动员的视频数据、训练运动员目标检测网络、训练关键点检测网络、训练动作检测网络等步骤，通过训练三个不同功能卷积神经网络组合的创新型的深度学习模型，对运动员进行目标检测、关键点识别以及动作识别。本发明提高了检测模型的识别精度以及不同环境下的适用性，减少了模型对数据集参数的依赖性，一定程度上提高模型的鲁棒性。

Description

基于深度学习的运动辅助训练方法

技术领域

本发明涉及计算机视频分析技术领域，具体涉及一种基于深度学习的运动辅助训练方法。

背景技术

近些年来，基于深度学习的视频采集与智能处理技术在各个领域均有建树，随着海量视频数据的产生与采集，人工进行识别与分析的难度与人数要求都在不断上升。随着视频数量与类型的不断上升，工作人员的专注程度以及工作效率会发生下降。因此，针对采集视频的智能视频分析方法有着重要意义。

特别的，花样滑冰运动作为冰上运动的典型项目，在进行日常训练或比赛评分中，需要大量的人工成本以及专业知识进行辅助。同时考虑到花样滑冰中动作的复杂性以及运动员的差异性，有必要发展基于深度学习与机器视觉的动作识别方法进行智能分析识别。

发明内容

有鉴于此，本发明要解决的技术问题在于提供一种基于深度学习的运动辅助训练方法，以深度学习模型为基础，利用多种类、多功能的卷积神经网络进行运动辅助训练。

本发明通过训练三个不同功能卷积神经网络组合的创新型的深度学习模型，对运动员进行目标检测、关键点识别以及动作识别，包括如下步骤：

步骤1：预处理目标运动员的视频数据，将对视频抽帧得到的图像中人体骨架关键点进行标注，形成样本图像，并将动作类别作为标签；

步骤2：构建所述人体骨架关键点的骨架检测网络和动作检测网络，其中所述骨架检测网络由运动员目标检测网络和关键点检测网络组成，进一步包括如下步骤：

步骤2-1：训练运动员目标检测网络，基于所述样本图像进行特征提取和权重更新，得到所述目标运动员的具有权重的人体骨架关键点特征；

步骤2-2：训练关键点检测网络，基于所述样本图像映射得到多分辨率的特征图，通过对不同分辨率的特征图直接相加进行特征融合，将分辨率最高的特征图作为模型输出；

步骤2-3：训练动作检测网络，采取图卷积神经网络对所述人体骨架关键点及连接进行空间域上的图卷积，得到所述人体骨架关键点及连接的空间特征，并采取时序卷积网络对所述人体骨架关键点及连接进行时间域上的卷积，得到所述人体骨架关键点图在叠加下的时序特征和训练时间中人体骨架关键点变化的局部特征，基于对所述空间特征、时序特征和局部特征的分类预测所述目标运动员的对应动作；

步骤3：识别视频动作，得到所述人体骨架关键点与目标运动员之间的对应关系并进行连接，将人体骨架检测结果输入所述动作检测网络进行动作识别，基于对应的所述标签输出动作类别。

本发明与现有技术相比的优点在于：

1.本发明提高了检测模型的识别精度以及不同环境下的适用性，可以有效的解决花样滑冰运动较复杂的问题；

2.本发明允许特征信息沿着空间和时间两个维度进行整合，减少了模型对数据集参数的依赖性，更好的挖掘人体骨架关机点时序集合的特征；

3.本发明可以将大规模常规数据集训练后的模型参数作为预训练权重，弥补数据集数量及类别较少的缺点，一定程度上提高模型的鲁棒性。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的一种基于深度学习的运动辅助训练方法的流程图；

图2为本发明提供的一种使用该基于深度学习的运动辅助训练方法的系统框架图；

图3为本发明的运动员人体骨架关键点的检测结果示意图。

具体实施方式

下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明以冰上运动花样滑冰为例，将高清摄像头录制收集训练和大型花样滑冰比赛(如花样滑冰世界锦标赛)的视频作为网络训练数据集，说明本发明基于深度学习的运动辅助训练方法。

如图1所示，本发明基于深度学习的运动辅助训练方法的具体步骤如下：

步骤1：预处理视频数据。在网络训练数据集中选取每个时长大约为15分钟的视频，采用FFmpeg工具将花样滑冰的关键评分动作部分进行逐帧图像解码与截取。对于不同格式码率的视频，统一按每秒25帧率进行抽帧，拆解得到一系列连续帧的图像。对图像进行截取，并参照COCO人体骨架关键点数据集格式对人体进行标注，形成样本图像。人体骨架关键点优选为包括以眼、耳、鼻、肩膀、手腕、手肘、臀部、膝盖、脚踝等17个部位，若在标注时人体骨架关键点被遮挡或不明确，则对标记人体骨架关键点的数量酌情减少，最少标记10个人体骨架关键点以保持人体骨架完整性。将上述人体骨架关键点数据按时间序列结合，得到一个N×C×T×V×W表示的5维向量，其中N代表样本数，C 代表关键点坐标及置信度，T代表动作时间，V代表关键点数量以及W代表运动员个数，并将该动作类别作为标签。

步骤2：构建人体骨架关键点的骨架检测网络和动作检测网络，其中完整的人体骨架关键点的骨架检测网络主要由运动员目标检测网络以及关键点检测网络组成，包括如下步骤：

步骤2-1：训练运动员目标检测网络。将样本图像与运动员的位置信息及检测框坐标进行多分辨率特征图的特征提取，并将提取结果跨层交叉连接网络进行权重更新。其中，采取3×3卷积核在输入的样本图像上进行特征提取，得到初始特征图。将该初始特征图拆分成x₀＝[x_0′，x_0″]，前者直接连接到阶段末尾，后者经过卷积层进行特征提取，通过x_k叠加获得阶段总输出x_T，并与x_0′连接生成最后输出x_U，训练得到运动员目标检测网络。

特征提取前馈传递方程与权重更新方程如下：

x_k＝w_k*[x_0″，x₁，...，x_k-1]

x_T＝w_T*[x_0″，x₁，...，x_k]

x_U＝w_U*[x_0′，x_T]

w′_k＝f(w_k，g_0″，g₁，g₂，...，g_k-1)

w′_T＝f(w_T，g_0″，g₁，g₂，...，g_k-1)

w′_U＝f(w_U，g_0′，...，g_T)

其中w_k代表权重，g_k代表第k层卷积层的传播梯度。

步骤2-2：训练关键点检测网络。将样本图像以及对应标注的人体骨架关键点坐标进行不同分辨率的特征映射得到多分辨率的特征图。以高分辨率子网M₁₁为第一阶段，通过下采样层，将分辨率减半，逐步增加高分辨率到低分辨率的子网，形成新的阶段，并将多分辨率子网并行连接。其中，后一阶段并行子网的分辨率由前一阶段的分辨率和下一阶段的分辨率组成。以包含4个并行子网的网络结构为例，表示如下：

通过在多分辨率的子网络上反复交换信息来进行多尺度融合更新网络权重，添加跨分辨率的交换模块，使得某一分辨率的子网络得到其他分辨率的子网络的特征信息。对于相同分辨率的特征图直接复制，对需要提升分辨率的特征图采取双线性插值以及1×1卷积核进行上采样，对需要降低分辨率的特征图采取3×3卷积核进行下采样。不同分辨率得到的特征图直接相加进行特征融合，最后将分辨率最高的特征图作为模型输出，训练得到检测人体骨架关键点的高分辨率卷积神经网络。

其中，卷积模块(a为特征图分辨率排序，b为阶段序号)以及交换模块 E结构如下所示：

通过复制，上采样与下采样等方法反复交换高低分辨率特征保持特征信息的完备。

步骤2-3：训练动作检测网络。对人体骨架关键点的时间序列集合的多维向量进行批量归一化以完成参数优化，进一步采取图卷积神经网络对数据集中的人体骨架关键点及连接进行空间域上的图卷积，得到人体骨架关键点及连接的空间特征。通过关键点图的邻接矩阵A与单位矩阵I表示单帧内人体骨架关键点的连接，多个输出通道的权重矢量被堆叠以形成权重矩阵W，在单帧内所述空间域上的图卷积的输出方程如下：

采取时序卷积网络对数据集中的人体骨架关键点及连接进行时间域上的卷积，并采用步长为1的一维卷积核进行在时间维度上进行时序卷积，得到人体骨架关键点图在叠加下的时序特征和训练时间中人体骨架关键点变化的局部特征。在这一过程中采取多通道1×1卷积核对人体骨架关键点的特征维度进行升维，采取全局平均池化方法对关键帧的维度进行降维，后接SoftMax层输出标注好的花样滑冰动作种类评分。通过对该特征进行分类，进一步预测运动员的对应动作，其中标注好的花样滑冰动作种类评分优选有30类。

步骤3：识别视频动作。将需要动作识别的运动员比赛或训练的视频按帧截取图像，输入人体骨架关键点的骨架检测网络。通过返回运动员检测目标及检测框的位置坐标以及人体骨架关键点的坐标，将人体骨架关键点坐标与运动员位置坐标的匹配得到人体骨架关键点与各个运动员之间的对应关系并进行连接，完成自上而下的人体骨架检测。人体骨架的坐标按预设动作时间t进行集合为N×C×T×V×W表示的5维向量，输入动作检测网络进行动作识别，基于对应的所述标签输出动作类别。

如图2所示，本发明使用上述基于深度学习的运动辅助训练方法的系统，是一套在不同运动场景下具有强鲁棒性的滑冰智能辅助训练系统。系统通过硬件模块高清摄像头录制收集训练或者比赛的花样滑冰视频作为数据集，还包括电源系统、嵌入式平台、声光警报和显示屏幕，通过操控面板和软件模块的UI 界面进行控制，还具有API接口和检测算法以执行上述运动辅助训练方法。系统对人体关键点以及连续帧对应的类别进行标注，分别训练滑冰运动员人体关键点骨架检测网络以及花样滑冰动作检测网络组成二阶段的动作识别。

如图3所示，从运动员人体骨架关键点检测结果可以看出，采取二阶段 Top-down的人体关键点检测模型，提高了检测模型的识别精度以及不同环境下的适用性，可以有效地解决花样滑冰运动较复杂的问题。

显然，本发明的上述实施例仅仅是为清楚地说明本发明技术方案所作的举例，而并非是对本发明的具体实施方式的限定。凡在本发明权利要求书的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种基于深度学习的运动辅助训练方法，包括如下步骤：

步骤2-1：训练运动员目标检测网络，将所述样本图像与目标运动员的位置信息及检测框坐标采取3×3卷积核对多分辨率特征图进行特征提取，并将提取结果跨层交叉连接网络进行权重更新，得到所述目标运动员的具有权重的人体骨架关键点特征；其中，所述特征提取将初始特征图拆分成，通过/>叠加获得阶段总输出/>，并与/>连接生成最后输出/>，其前馈传递方程与权重更新方程如下：

，

上式中，代表权重，/>代表第/>层卷积层的传播梯度；

步骤2-2：训练关键点检测网络，基于所述样本图像映射得到多分辨率的特征图，通过跨分辨率的交换模块，使得某一分辨率的子网络得到其他分辨率的子网络的特征信息，并对不同分辨率的特征图直接相加进行特征融合，将分辨率最高的特征图作为模型输出；其中，所述特征融合，还包括对于相同分辨率的特征图直接复制，对需要提升分辨率的特征图采取双线性插值以及1×1卷积核进行上采样，对需要降低分辨率的特征图采取3×3卷积核进行下采样，其中卷积模块以及交换模块E结构如下所示：

，

上式中，a为特征图分辨率排序，b为阶段序号；

步骤2-3：训练动作检测网络，采取图卷积神经网络对所述人体骨架关键点及连接进行空间域上的图卷积，得到所述人体骨架关键点及连接的空间特征，并采取时序卷积网络对所述人体骨架关键点及连接进行时间域上的卷积，得到所述人体骨架关键点图在叠加下的时序特征和训练时间中人体骨架关键点变化的局部特征，基于对所述空间特征、时序特征和局部特征的分类预测所述目标运动员的对应动作；其中，在单帧内所述空间域上的图卷积的输出方程如下：

，

上式中，通过关键点图的邻接矩阵与单位矩阵/>表示单帧内人体骨架关键点的连接，多个输出通道的权重矢量被堆叠以形成权重矩阵/>；

2.根据权利要求1所述的基于深度学习的运动辅助训练方法，其特征在于，所述标注为参照COCO人体骨架关键点数据集格式对至少10个人体骨架关键点进行，将所述人体骨架关键点数据按时间序列结合，得到5维向量。

3.根据权利要求1所述的基于深度学习的运动辅助训练方法，其特征在于，所述时序卷积网络采取多通道1×1卷积核对人体骨架关键点的特征维度进行升维，采取全局平均池化方法对关键帧的维度进行降维，后接SoftMax层输出标注好的动作种类评分。

4.根据权利要求2所述的基于深度学习的运动辅助训练方法，其特征在于，所述动作识别为将人体骨架的坐标按预设动作时间进行集合为5维向量。

5.根据权利要求4所述的基于深度学习的运动辅助训练方法，其特征在于，通过返回运动员检测目标及检测框的位置坐标以及人体骨架关键点的坐标，将人体骨架关键点坐标与运动员位置坐标的匹配得到人体骨架关键点与各个运动员之间的对应关系并进行连接。