CN106709453A

CN106709453A - 一种基于深度学习的体育视频关键姿态提取方法

Info

Publication number: CN106709453A
Application number: CN201611211395.5A
Authority: CN
Inventors: 毋立芳; 张世杰; 贺宇迪; 简萌; 王向东
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2016-12-24
Filing date: 2016-12-24
Publication date: 2017-05-24
Anticipated expiration: 2036-12-24
Also published as: CN106709453B

Abstract

基于深度学习的体育视频关键姿态提取方法应用于体育视频分析领域，具体涉及图像特征提取、图像分割与图像分类。举重视频中背景复杂，且背景区域存在大量的运动信息，使得光流法和背景削减法的结果并不理想；而帧间差分法需要选取合适的阈值，对于大量的举重视频，帧间差分法并不鲁棒。将一段举重视频，通过先用全卷积网络分割出前景，然后用聚类的方法优化分割结果，最后自动的提取出关键姿态的方法，取得了很好的效果。

Description

一种基于深度学习的体育视频关键姿态提取方法

技术领域

本发明应用于体育视频分析领域，具体涉及图像特征提取、图像分割与图像分类。将一段举重视频，通过先用全卷积网络分割出前景，然后用聚类的方法优化分割结果，最后自动的提取出关键姿态的方法。

背景技术

对视频中目标的检测与行为理解，已经成为机器视觉领域的热点问题。如在如人机交互系统，行为监控，体育辅助训练系统等。

体育视频中包含大量与人体运动相关的信息，且人体运动复杂，技巧性高，与人体的日常运动分析相比，体育视频中的人体运动的分析和识别检索具有更大的难度与挑战性。

在一些体育训练中，有些运动员的关键动作及姿态需要详细分析，它辅助运动员的训练、提高比赛成绩等。在诸如田径、剑术、跳水、体操体育运动方面都需要这种分析训练。

在一段体育训练的视频中把关键的姿态自动的检索和提取出来，就是我们所研究问题的来源和目的。

随着体育运动比赛竞争越来越激烈，科学的训练方法也变得越来越重要。

随着2008和2012年两届奥运会上中国举重代表队包揽大部分金牌，使得举重这个奥运会夺牌大项越来越受到人们的关注。

传统的举重训练，教练只能够凭借肉眼和经验等方法对运动员的技术动作进行分析与指导，而运动员也只能进行多次的重复性的训练，慢慢领悟并且掌握技术要领，从而使得效率大大降低。

目前，运动目标的检测技术已经非常成熟，下面是三种比较经典的方法：(1)光流法。三种传统的运动目标检测算法之一。当物体运动时，在图象上对应物体的亮度模式也在运动，从而称光流是图象亮度模式的视在运动。光流法检测采用了目标隨时间变化的光流特性。利用光流法，通过计算位移向量光流场来初始化目标的轮廓，从而使基于轮廓的跟踪算法有效地检测和跟踪目标。特征光流法的主要点在于对目标在帧间的运动的限制较少，可以处理大的帧间位移；主要缺点是大多数光流计算方法相当复杂，且抗噪性能差，如果没有特定的硬件支持，一般很难应用于序列图像中运动目标的实时性操作。

(2)帧间差分法。三种传统的运动目标检测算法之一。帧间差分是检测相邻两帧图象之间变化的最简单、最直接的方法，它是直接比较了两帧图象对应象素点的灰度值的不同，然后通过阈值来提取序列图象中的运动区域，第k帧图象A(x,y)和第k+l帧图象Ux，力之间的变化可用一个二值差分图像来表示。二值图象中为"0"的象素对应在前后两帧图象间没有发生(由于运动而产生的)变化的地方，为"1"的象素对应两帧图象间发生变化的地方，这常是由目标运动而产生的。

(3)背景消减法。三种传统的运动目标检测算法之一。在摄像头固定的情况下，背景消减法是常用的运动目标检测方法。其基本思想是将当前帧图象与事先存储或者实时得到的背景模型比较，根据比较的结果判断此象素点是否属于运动目标区域。背景消减法操作简单，检测位置准确且速度快。但通常的背景消减法对光线、天气等光照条件的变化非常敏感。运动目标的阴影也常常被检测为运动目标的一部分。这将影响检测结果的准确性。因此，在非控环境中需要加入背景图象的更新机制。常见的背景模型有单高斯分布背景模型和多高斯分布背景模型，前者是为每一个象素点建立了一个高斯分布模型，而后者则是根据多个高斯分布共同描述一个象素点上的颜色分布。传统的基于统计模型的背景法，由于需要对每个象素点建立统计模型，计算量大，而且通过该模型进行运动目标检测，无法在短时间内消除运动目标带来的"鬼影"。

综上所述，传统的运动目标的检测方法均存在不同的问题，由于举重视频中背景复杂，且背景区域存在大量的运动信息，使得光流法和背景削减法的结果并不理想；而帧间差分法需要选取合适的阈值，对于大量的举重视频，帧间差分法并不鲁棒。

发明内容

本发明专利基于深度学习的关键姿态提取方法，运用于举重体育视频中，举重过程中一共分为四个关键姿态

图1为本发明实例的申膝关键动作图像。

图2为本发明实例的引膝关键动作图像。

图3为本发明实例的发力关键动作图像。

图4为本发明实例的最高点关键动作图像。

申膝引膝

发力最高点

分别为申膝、引膝、发力和最高点。

首先，利用全卷积网络将举重视频中的运动员前景信息分割提取出来，再用聚类的方法优化分割的结果，最后用卷积神经网络对分割的前景信息进行分类。

进一步，具体步骤如下：

1)、首先将视频进行分帧处理：

2)、利用全卷积网络提取运动员前景信息：

FCN(全卷积网络)将CNN(卷积神经网络)中的全连接层转化成一个个的卷积层；在CNN结构中，前5层是卷积层，第6层和第7层分别是一个长度为4096的一维向量，第8层是长度为1000的一维向量，分别对应1000个类别的概率；FCN将这3层表示为卷积层，卷积核的大小(通道数，宽，高)分别为(4096,1,1)、(4096,1,1)、(1000,1,1)；所有的层都是卷积层，故称为全卷积网络；

(1)训练样本集、验证样本集的制作

1)生成groundtruth；

2)制作标签；将训练集中前景即人体和杠铃标记为1，将背景区域标记为0，作为训练的监督信号；

3)训练模型；

采用全卷积网络对模型进行训练，使用AlexNet网络，利用训练好的模型，经过数万次的迭代，最终得到能够分类举重视频的模型；将AlexNet中第7层的输出参数改为2，对应举重帧图像的前景和背景两类；

(2)将所有的举重视频利用训练好的模型得到分割后的图像

利用训练好的模型，将所有的举重帧图像进行前景和背景的分割，模型对图像的每个像素点进行判断，找到对应前景和背景的像素点的阈值0.85，如果预测值小于0.85，则该像素点被判断背景，如果预测值大于等于0.85，则该像素点被判断为前景，利用这个阈值，生成新的图像，当小于这个阈值的时候，将像素值设置为255，大于等于这个阈值的时候，将像素值设置为0；

3)、将分割的结果进行聚类，优化分割结果：

(1)将视频分割的结果取并集，作为最终的分割依据：

(2)区域粗分割

1)置所有点的标签(label)为0；

2)从左上点开始遍历像素，若该点的四邻域像素值为255，则赋予当前最大的标签值加1的值，否则取四邻域像素的标签值中不为0的最小值为当前像素的标签值：

(3)区域分割微调

分别依次以图像的四角作为开始点对图像进行遍历，更新每个像素点的标签值为四邻域点标签值中不为0的最小值，直到所有点的标签值不再变化：

4)、对原图像切割：

(1)获取最大区域的四周边界

1)找到出现次数最多的两个标签值，确定出现次数最大标签值的四周边界值边界值取的是原图的边界)；

2)对于获得的区域，假设范围为minWidth到maxWidth，图像的宽为Width，如果maxWidth<3/8*Width或者minWidth>5/8*Width，就判定为不在中间区域；，若不在中间区域则取出现次数第二多的标签值对应的区域为最大区域，获取其四周边界值；

(2)切割原图

在数组中检索到实验图像聚类后对应的四周边界，截取图像并保存：

5)、利用卷积神经网络对分割好的图像进行分类：

卷积层后面接入的是全连接层，全连接层后面是分类器；全连接层F1和全连接层F2对数据进行线性变化和非线性变化，把6*6*256维的降维到4096；最后，全连接层F3将数据降维成4维，也就是本发明中申膝、引膝、发力和最高点四类；

(1)制作标签；

将数据分为训练集、验证集合测试集；将训练集和验证集手动制作标签，把申膝、引膝、发力和最高点四类设置标签为0,1,2,3，进行有监督的学习；

(2)训练模型；

将训练集和测试集生成对应的lmdb格式的数据，利用在ImageNet数据集上训练好的模型进行微调，然后输入到卷积神经网络进行训练，经过若干次的迭代，使得准确率loss值稳定在0.1-0.2，最终得到训练好的模型；

(3)测试

将测试集的整个视频用训练好的模型进行测试，视频的每一帧都会有对应的四类的概率，我们选取各个类最大概率作为我们想要的关键姿态，输出对应的帧图像，即为我们想要的关键帧；选取测试集中的一个视频进行测试，下图表为视频各帧图像对应四类的概率变化曲线，其中横坐标为各帧图像，纵坐标为对应的概率值；

进一步，卷积神经网络对分割好的图像进行分类中的卷积神经网络具体如下：

该网络由5个卷积层、3个全连接层组成，C1到C5为5个卷积层，F1到F3为全连接层，并且只给卷积层C1、卷积层C2和卷积层C5加入了pooling层；F1到F3是全连接层，全连接层后跟着一个分类器；在微调的时候，我们将AlexNet中F3的输出由1000改为4，原因是整个举重视频有4个关键姿态分别为：申膝、引膝、发力和最高点；具体的微调过程如下：

首先，网络的输入图像都被resize到227*227,并以lmdb的数据格式输入到网络中，其中图像为三通道，所以数据量大小为227*227*3；

C1到C5为卷积层，以卷积层C1为例，其卷积核的大小为11*11步长为4，C1层共96个卷积核，对输入的图像进行卷积操作，输出为96个55*55大小的图片；在C1卷积滤波后，加入线性纠正函数ReLU来加速收敛，之后用核大小为3，步长为2的max-polling层，最终得到96个27*27大小的图像；

通过卷积核的大小为5、填充为2、卷积步幅为1、共有256个卷积滤波器的卷积层C2，得到256个27*27大小的图像，通过最大池采样层后降维到13*13的图像；通过卷积核大小为3、填充为1、卷积步幅为1、共有384个滤波器的卷积层C3，得到384个27*27大小的图像；通过卷积层C4得到384个13*13大小的图像；通过卷积层C5则得到256个6*6大小的图像.

附图说明

图1为本发明实例的申膝关键动作图像。

图2为本发明实例的引膝关键动作图像。

图3为本发明实例的发力关键动作图像。

图4为本发明实例的最高点关键动作图像。

图5为本发明实例的框架流程图。

图6为本发明实例的分割原图。

图7为本发明实例的分割groundtruth图。

图8为本发明实例的分割原图。

图9为本发明实例的分割结果图。

图10为本发明实例的申膝动作分割结果图。

图11为本发明实例的引膝动作分割结果图。

图12为本发明实例的发力动作分割结果图。

图13为本发明实例的最高点动作分割结果图。

图14为本发明实例的各个关键动作分割并集结果图。

图15为本发明实例的原图。

图16为本发明实例的切割后的图像。

图17为本发明实例的整个视频的概率值统计图。

图18为本发明实例的分类结果准确率。

具体实施方式

为了实现上述问题，本发明专利是这样实现的：

1、首先将视频进行分帧处理：

利用成熟的视频分帧算法，将所有的视频数据分解为连续的帧图像。

2、利用全卷积网络提取运动员前景信息：

FCN(全卷积网络)将传统CNN(卷积神经网络)中的全连接层转化成一个个的卷积层。在传统的CNN结构中，前5层是卷积层，第6层和第7层分别是一个长度为4096的一维向量，第8层是长度为1000的一维向量，分别对应1000个类别的概率。FCN将这3层表示为卷积层，卷积核的大小(通道数，宽，高)分别为(4096,1,1)、(4096,1,1)、(1000,1,1)。所有的层都是卷积层，故称为全卷积网络。

(1)训练样本集、验证样本集的制作

1)生成groundtruth。首先，随机挑选出图像，进行手动分割，

(a)为原始图，(b)为利用Photoshop画图软件手工标注的图像，其中前景人体为红色、杠铃为绿色，背景为蓝色，来作为分割的groundtruth。

2)制作标签。将训练集中前景(人体和杠铃)标记为1，将背景区域标记为0，作为训练的监督信号。由于全卷积网络的训练标签为.mat文件，所以制作标签的时候，可以选择用matlab等工具将标签设计为0和1的矩阵作为训练标签。

3)训练模型。

本发明采用全卷积网络对模型进行训练，使用AlexNet网络，利用训练好的模型，在此基础上对举重帧图像进行微调，得到适合举重视频的模型。我们将AlexNet中第7层的输出参数改为2，对应举重帧图像的前景和背景两类。

(2)将所有的举重视频利用训练好的模型得到分割后的图像

利用训练好的模型，将所有的举重帧图像进行前景和背景的分割，模型对图像的每个像素点进行判断，找到对应前景和背景的像素点的阈值，利用这个阈值，生成新的图像，当大于这个阈值的时候，将像素值设置为255，小于这个阈值的时候，将像素值设置为0。

分割结果

图6为本发明实例的分割原图。

图7为本发明实例的分割groundtruth图。

图8为本发明实例的分割原图。

图9为本发明实例的分割结果图。

3、将分割的结果进行聚类，优化分割结果：

(1)将视频分割的结果取并集，作为最终的分割依据：

各关键动作分割结果

图10为本发明实例的申膝动作分割结果图。图11为本发明实例的引膝动作分割结果图。

图12为本发明实例的发力动作分割结果图。

图13为本发明实例的最高点动作分割结果图。

并集结果

图14为本发明实例的各个关键动作分割并集结果图。

(2)区域粗分割

1)置所有点的标签(label)为0。

(3)区域分割微调

4、对原图像切割：

(1)获取最大区域的四周边界

1)找到出现次数最多的两个标签值，确定出现次数最大标签值的四周边界值(当前上下边界不做考虑，取的是原图的边界)。

2)判断是否正常(出现在比较靠中间的位置)，若不正常则取出现次数第二多的标签值对应的区域为最大区域，获取其四周边界值。

(2)切割原图

在数组中检索到实验图像聚类后对应的四周边界，截取图像并保存

图15为本发明实例的原图。

图16为本发明实例的切割后的图像。

5、利用卷积神经网络对分割好的图像进行分类：

分类采用卷积神经网络(CNN)，利用AlexNet网络在ImageNet数据集上训练好的模型，我们在举重帧图像上进行微调。之所以采用微调的方法，一是因为我们的举重视频数据集有限，二是因为训练模型的时候，初始参数决定着训练的速度和模型的好坏，ImageNet是拥有千万级数量级的图像数据库，在用ImageNet训练好的模型的基础上进行微调，是一个非常好的选择，解决了数据集不够的问题，同时又有一个好的初始参数，完美地解决了我们的问题。

该网络由5个卷积层、3个全连接层组成，C1到C5为5个卷积层，F1到F3为全连接层，并且只给卷积层C1、卷积层C2和卷积层C5加入了pooling层。F1到F3是全连接层，全连接层后跟着一个分类器。在微调的时候，我们将AlexNet中F3的输出由1000改为4，原因是整个举重视频有4个关键姿态分别为：申膝、引膝、发力和最高点。具体的微调过程如下：

首先。网络的输入图像都被resize到227*227,并以lmdb的数据格式输入到网络中，其中图像为三通道，所以数据量大小为227*227*3。

C1到C5为卷积层，以卷积层C1为例，其卷积核的大小为11*11步长为4，C1层共96个卷积核，对输入的图像进行卷积操作，输出为96个55*55大小的图片。在C1卷积滤波后，加入线性纠正函数ReLU来加速收敛，用来防止其过度震荡。之后用核大小为3，步长为2的max-polling层，使得通过卷积获得的特征具有空间不变性，解决了特征的旋转不变形，同时对卷积特征进行降维，大大减少了计算量，最终得到96个27*27大小的图像。

同理，其他卷积层的输出也是如此同理。通过卷积核的大小为5、填充为2、卷积步幅为1、共有256个卷积滤波器的卷积层C2，得到256个27*27大小的图像，通过最大池采样层后降维到13*13的图像。通过卷积核大小为3、填充为1、卷积步幅为1、共有384个滤波器的卷积层C3，得到384个27*27大小的图像。通过卷积层C4得到384个13*13大小的图像。通过卷积层C5则得到256个6*6大小的图像。

卷积层后面接入的是全连接层，全连接层后面是分类器。全连接层由线性部分和非线性部分两部分组成：线性部分是对输入数据做不同角度的分析，得出该角度下对整体输入数据的判断；非线性部分的作用就是打破之前的线性映射关系，作数据的归一化，不管前面的线性部分做了怎样的工作，到了非线性这里，所有的数值将被限制在一个范围内，这样后面的网络层如果要基于前面层的数据继续计算，这个数值就相对可控了。将这两部分合在一起，其目的是将将庞大而杂乱的数据进行降维。全连接层F1和全连接层F2对数据进行线性变化和非线性变化，把6*6*256维的降维到4096。最后，全连接层F3将数据降维成4维，也就是本发明中申膝、引膝、发力和最高点四类。

(1)制作标签。

将数据分为训练集、验证集合测试集。将训练集和验证集手动制作标签，把申膝、引膝、发力和最高点四类设置标签为0,1,2,3，进行有监督的学习。

(2)训练模型。

将训练集和测试集生成对应的lmdb格式的数据，利用在ImageNet数据集上训练好的模型进行微调，然后输入到卷积神经网络进行训练，经过若干次的迭代，使得准确率稳定在一个很小的值，最终得到训练好的模型。

(3)测试

将测试集的整个视频用训练好的模型进行测试，视频的每一帧都会有对应的四类的概率，我们选取各个类最大概率作为我们想要的关键姿态，输出对应的帧图像，即为我们想要的关键帧。选取测试集中的一个视频进行测试，视频各帧图像对应四类的概率变化曲线，其中横坐标为各帧图像，纵坐标为对应的概率值。

图17为本发明实例的整个视频的概率值统计图。

说明一下结果，越具体越好

图18为本发明实例的分类结果准确率。

Claims

1.基于深度学习的体育视频关键姿态提取方法，

举重过程中一共分为四个关键姿态，分别为申膝、引膝、发力和最高点；

其特征在于：

2.根据权利要求1所述的基于深度学习的体育视频关键姿态提取方法，其特征在于：

1)、首先将视频进行分帧处理：

2)、利用全卷积网络提取运动员前景信息：

(1)训练样本集、验证样本集的制作

1)生成groundtruth；

3)训练模型；

(2)将所有的举重视频利用训练好的模型得到分割后的图像

3)、将分割的结果进行聚类，优化分割结果：

(1)将视频分割的结果取并集，作为最终的分割依据：

(2)区域粗分割

1)置所有点的标签(label)为0；

(3)区域分割微调

4)、对原图像切割：

(1)获取最大区域的四周边界

(2)切割原图

5)、利用卷积神经网络对分割好的图像进行分类：

(1)制作标签；

(2)训练模型；

(3)测试

将测试集的整个视频用训练好的模型进行测试，视频的每一帧都会有对应的四类的概率，我们选取各个类最大概率作为我们想要的关键姿态，输出对应的帧图像，即为我们想要的关键帧；选取测试集中的一个视频进行测试，下图表为视频各帧图像对应四类的概率变化曲线，其中横坐标为各帧图像，纵坐标为对应的概率值。

3.根据权利要求2所述的基于深度学习的体育视频关键姿态提取方法，其特征在于：卷积神经网络对分割好的图像进行分类中的卷积神经网络具体如下：

通过卷积核的大小为5、填充为2、卷积步幅为1、共有256个卷积滤波器的卷积层C2，得到256个27*27大小的图像，通过最大池采样层后降维到13*13的图像；通过卷积核大小为3、填充为1、卷积步幅为1、共有384个滤波器的卷积层C3，得到384个27*27大小的图像；通过卷积层C4得到384个13*13大小的图像；通过卷积层C5则得到256个6*6大小的图像。