CN106709453A - 一种基于深度学习的体育视频关键姿态提取方法 - Google Patents

一种基于深度学习的体育视频关键姿态提取方法 Download PDF

Info

Publication number
CN106709453A
CN106709453A CN201611211395.5A CN201611211395A CN106709453A CN 106709453 A CN106709453 A CN 106709453A CN 201611211395 A CN201611211395 A CN 201611211395A CN 106709453 A CN106709453 A CN 106709453A
Authority
CN
China
Prior art keywords
image
value
convolutional
video
label
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201611211395.5A
Other languages
English (en)
Other versions
CN106709453B (zh
Inventor
毋立芳
张世杰
贺宇迪
简萌
王向东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Technology
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN201611211395.5A priority Critical patent/CN106709453B/zh
Publication of CN106709453A publication Critical patent/CN106709453A/zh
Application granted granted Critical
Publication of CN106709453B publication Critical patent/CN106709453B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • G06V20/42Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items of sport video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/23Recognition of whole body movements, e.g. for sport training

Abstract

基于深度学习的体育视频关键姿态提取方法应用于体育视频分析领域,具体涉及图像特征提取、图像分割与图像分类。举重视频中背景复杂,且背景区域存在大量的运动信息,使得光流法和背景削减法的结果并不理想;而帧间差分法需要选取合适的阈值,对于大量的举重视频,帧间差分法并不鲁棒。将一段举重视频,通过先用全卷积网络分割出前景,然后用聚类的方法优化分割结果,最后自动的提取出关键姿态的方法,取得了很好的效果。

Description

一种基于深度学习的体育视频关键姿态提取方法
技术领域
本发明应用于体育视频分析领域,具体涉及图像特征提取、图像分割与图像分类。将一段举重视频,通过先用全卷积网络分割出前景,然后用聚类的方法优化分割结果,最后自动的提取出关键姿态的方法。
背景技术
对视频中目标的检测与行为理解,已经成为机器视觉领域的热点问题。如在如人机交互系统,行为监控,体育辅助训练系统等。
体育视频中包含大量与人体运动相关的信息,且人体运动复杂,技巧性高,与人体的日常运动分析相比,体育视频中的人体运动的分析和识别检索具有更大的难度与挑战性。
在一些体育训练中,有些运动员的关键动作及姿态需要详细分析,它辅助运动员的训练、提高比赛成绩等。在诸如田径、剑术、跳水、体操体育运动方面都需要这种分析训练。
在一段体育训练的视频中把关键的姿态自动的检索和提取出来,就是我们所研究问题的来源和目的。
随着体育运动比赛竞争越来越激烈,科学的训练方法也变得越来越重要。
随着2008和2012年两届奥运会上中国举重代表队包揽大部分金牌,使得举重这个奥运会夺牌大项越来越受到人们的关注。
传统的举重训练,教练只能够凭借肉眼和经验等方法对运动员的技术动作进行分析与指导,而运动员也只能进行多次的重复性的训练,慢慢领悟并且掌握技术要领,从而使得效率大大降低。
目前,运动目标的检测技术已经非常成熟,下面是三种比较经典的方法:(1)光流法。三种传统的运动目标检测算法之一。当物体运动时,在图象上对应物体的亮度模式也在运动,从而称光流是图象亮度模式的视在运动。光流法检测采用了目标隨时间变化的光流特性。利用光流法,通过计算位移向量光流场来初始化目标的轮廓,从而使基于轮廓的跟踪算法有效地检测和跟踪目标。特征光流法的主要点在于对目标在帧间的运动的限制较少,可以处理大的帧间位移;主要缺点是大多数光流计算方法相当复杂,且抗噪性能差,如果没有特定的硬件支持,一般很难应用于序列图像中运动目标的实时性操作。
(2)帧间差分法。三种传统的运动目标检测算法之一。帧间差分是检测相邻两帧图象之间变化的最简单、最直接的方法,它是直接比较了两帧图象对应象素点的灰度值的不同,然后通过阈值来提取序列图象中的运动区域,第k帧图象A(x,y)和第k+l帧图象Ux,力之间的变化可用一个二值差分图像来表示。二值图象中为"0"的象素对应在前后两帧图象间没有发生(由于运动而产生的)变化的地方,为"1"的象素对应两帧图象间发生变化的地方,这常是由目标运动而产生的。
(3)背景消减法。三种传统的运动目标检测算法之一。在摄像头固定的情况下,背景消减法是常用的运动目标检测方法。其基本思想是将当前帧图象与事先存储或者实时得到的背景模型比较,根据比较的结果判断此象素点是否属于运动目标区域。背景消减法操作简单,检测位置准确且速度快。但通常的背景消减法对光线、天气等光照条件的变化非常敏感。运动目标的阴影也常常被检测为运动目标的一部分。这将影响检测结果的准确性。因此,在非控环境中需要加入背景图象的更新机制。常见的背景模型有单高斯分布背景模型和多高斯分布背景模型,前者是为每一个象素点建立了一个高斯分布模型,而后者则是根据多个高斯分布共同描述一个象素点上的颜色分布。传统的基于统计模型的背景法,由于需要对每个象素点建立统计模型,计算量大,而且通过该模型进行运动目标检测,无法在短时间内消除运动目标带来的"鬼影"。
综上所述,传统的运动目标的检测方法均存在不同的问题,由于举重视频中背景复杂,且背景区域存在大量的运动信息,使得光流法和背景削减法的结果并不理想;而帧间差分法需要选取合适的阈值,对于大量的举重视频,帧间差分法并不鲁棒。
发明内容
本发明专利基于深度学习的关键姿态提取方法,运用于举重体育视频中,举重过程中一共分为四个关键姿态
图1为本发明实例的申膝关键动作图像。
图2为本发明实例的引膝关键动作图像。
图3为本发明实例的发力关键动作图像。
图4为本发明实例的最高点关键动作图像。
申膝 引膝
发力 最高点
分别为申膝、引膝、发力和最高点。
首先,利用全卷积网络将举重视频中的运动员前景信息分割提取出来,再用聚类的方法优化分割的结果,最后用卷积神经网络对分割的前景信息进行分类。
进一步,具体步骤如下:
1)、首先将视频进行分帧处理:
2)、利用全卷积网络提取运动员前景信息:
FCN(全卷积网络)将CNN(卷积神经网络)中的全连接层转化成一个个的卷积层;在CNN结构中,前5层是卷积层,第6层和第7层分别是一个长度为4096的一维向量,第8层是长度为1000的一维向量,分别对应1000个类别的概率;FCN将这3层表示为卷积层,卷积核的大小(通道数,宽,高)分别为(4096,1,1)、(4096,1,1)、(1000,1,1);所有的层都是卷积层,故称为全卷积网络;
(1)训练样本集、验证样本集的制作
1)生成groundtruth;
2)制作标签;将训练集中前景即人体和杠铃标记为1,将背景区域标记为0,作为训练的监督信号;
3)训练模型;
采用全卷积网络对模型进行训练,使用AlexNet网络,利用训练好的模型,经过数万次的迭代,最终得到能够分类举重视频的模型;将AlexNet中第7层的输出参数改为2,对应举重帧图像的前景和背景两类;
(2)将所有的举重视频利用训练好的模型得到分割后的图像
利用训练好的模型,将所有的举重帧图像进行前景和背景的分割,模型对图像的每个像素点进行判断,找到对应前景和背景的像素点的阈值0.85,如果预测值小于0.85,则该像素点被判断背景,如果预测值大于等于0.85,则该像素点被判断为前景,利用这个阈值,生成新的图像,当小于这个阈值的时候,将像素值设置为255,大于等于这个阈值的时候,将像素值设置为0;
3)、将分割的结果进行聚类,优化分割结果:
(1)将视频分割的结果取并集,作为最终的分割依据:
(2)区域粗分割
1)置所有点的标签(label)为0;
2)从左上点开始遍历像素,若该点的四邻域像素值为255,则赋予当前最大的标签值加1的值,否则取四邻域像素的标签值中不为0的最小值为当前像素的标签值:
(3)区域分割微调
分别依次以图像的四角作为开始点对图像进行遍历,更新每个像素点的标签值为四邻域点标签值中不为0的最小值,直到所有点的标签值不再变化:
4)、对原图像切割:
(1)获取最大区域的四周边界
1)找到出现次数最多的两个标签值,确定出现次数最大标签值的四周边界值边界值取的是原图的边界);
2)对于获得的区域,假设范围为minWidth到maxWidth,图像的宽为Width,如果maxWidth<3/8*Width或者minWidth>5/8*Width,就判定为不在中间区域;,若不在中间区域则取出现次数第二多的标签值对应的区域为最大区域,获取其四周边界值;
(2)切割原图
在数组中检索到实验图像聚类后对应的四周边界,截取图像并保存:
5)、利用卷积神经网络对分割好的图像进行分类:
卷积层后面接入的是全连接层,全连接层后面是分类器;全连接层F1和全连接层F2对数据进行线性变化和非线性变化,把6*6*256维的降维到4096;最后,全连接层F3将数据降维成4维,也就是本发明中申膝、引膝、发力和最高点四类;
(1)制作标签;
将数据分为训练集、验证集合测试集;将训练集和验证集手动制作标签,把申膝、引膝、发力和最高点四类设置标签为0,1,2,3,进行有监督的学习;
(2)训练模型;
将训练集和测试集生成对应的lmdb格式的数据,利用在ImageNet数据集上训练好的模型进行微调,然后输入到卷积神经网络进行训练,经过若干次的迭代,使得准确率loss值稳定在0.1-0.2,最终得到训练好的模型;
(3)测试
将测试集的整个视频用训练好的模型进行测试,视频的每一帧都会有对应的四类的概率,我们选取各个类最大概率作为我们想要的关键姿态,输出对应的帧图像,即为我们想要的关键帧;选取测试集中的一个视频进行测试,下图表为视频各帧图像对应四类的概率变化曲线,其中横坐标为各帧图像,纵坐标为对应的概率值;
进一步,卷积神经网络对分割好的图像进行分类中的卷积神经网络具体如下:
该网络由5个卷积层、3个全连接层组成,C1到C5为5个卷积层,F1到F3为全连接层,并且只给卷积层C1、卷积层C2和卷积层C5加入了pooling层;F1到F3是全连接层,全连接层后跟着一个分类器;在微调的时候,我们将AlexNet中F3的输出由1000改为4,原因是整个举重视频有4个关键姿态分别为:申膝、引膝、发力和最高点;具体的微调过程如下:
首先,网络的输入图像都被resize到227*227,并以lmdb的数据格式输入到网络中,其中图像为三通道,所以数据量大小为227*227*3;
C1到C5为卷积层,以卷积层C1为例,其卷积核的大小为11*11步长为4,C1层共96个卷积核,对输入的图像进行卷积操作,输出为96个55*55大小的图片;在C1卷积滤波后,加入线性纠正函数ReLU来加速收敛,之后用核大小为3,步长为2的max-polling层,最终得到96个27*27大小的图像;
通过卷积核的大小为5、填充为2、卷积步幅为1、共有256个卷积滤波器的卷积层C2,得到256个27*27大小的图像,通过最大池采样层后降维到13*13的图像;通过卷积核大小为3、填充为1、卷积步幅为1、共有384个滤波器的卷积层C3,得到384个27*27大小的图像;通过卷积层C4得到384个13*13大小的图像;通过卷积层C5则得到256个6*6大小的图像.
附图说明
图1为本发明实例的申膝关键动作图像。
图2为本发明实例的引膝关键动作图像。
图3为本发明实例的发力关键动作图像。
图4为本发明实例的最高点关键动作图像。
图5为本发明实例的框架流程图。
图6为本发明实例的分割原图。
图7为本发明实例的分割groundtruth图。
图8为本发明实例的分割原图。
图9为本发明实例的分割结果图。
图10为本发明实例的申膝动作分割结果图。
图11为本发明实例的引膝动作分割结果图。
图12为本发明实例的发力动作分割结果图。
图13为本发明实例的最高点动作分割结果图。
图14为本发明实例的各个关键动作分割并集结果图。
图15为本发明实例的原图。
图16为本发明实例的切割后的图像。
图17为本发明实例的整个视频的概率值统计图。
图18为本发明实例的分类结果准确率。
具体实施方式
为了实现上述问题,本发明专利是这样实现的:
1、首先将视频进行分帧处理:
利用成熟的视频分帧算法,将所有的视频数据分解为连续的帧图像。
2、利用全卷积网络提取运动员前景信息:
FCN(全卷积网络)将传统CNN(卷积神经网络)中的全连接层转化成一个个的卷积层。在传统的CNN结构中,前5层是卷积层,第6层和第7层分别是一个长度为4096的一维向量,第8层是长度为1000的一维向量,分别对应1000个类别的概率。FCN将这3层表示为卷积层,卷积核的大小(通道数,宽,高)分别为(4096,1,1)、(4096,1,1)、(1000,1,1)。所有的层都是卷积层,故称为全卷积网络。
(1)训练样本集、验证样本集的制作
1)生成groundtruth。首先,随机挑选出图像,进行手动分割,
(a)为原始图,(b)为利用Photoshop画图软件手工标注的图像,其中前景人体为红色、杠铃为绿色,背景为蓝色,来作为分割的groundtruth。
2)制作标签。将训练集中前景(人体和杠铃)标记为1,将背景区域标记为0,作为训练的监督信号。由于全卷积网络的训练标签为.mat文件,所以制作标签的时候,可以选择用matlab等工具将标签设计为0和1的矩阵作为训练标签。
3)训练模型。
本发明采用全卷积网络对模型进行训练,使用AlexNet网络,利用训练好的模型,在此基础上对举重帧图像进行微调,得到适合举重视频的模型。我们将AlexNet中第7层的输出参数改为2,对应举重帧图像的前景和背景两类。
(2)将所有的举重视频利用训练好的模型得到分割后的图像
利用训练好的模型,将所有的举重帧图像进行前景和背景的分割,模型对图像的每个像素点进行判断,找到对应前景和背景的像素点的阈值,利用这个阈值,生成新的图像,当大于这个阈值的时候,将像素值设置为255,小于这个阈值的时候,将像素值设置为0。
分割结果
图6为本发明实例的分割原图。
图7为本发明实例的分割groundtruth图。
图8为本发明实例的分割原图。
图9为本发明实例的分割结果图。
3、将分割的结果进行聚类,优化分割结果:
(1)将视频分割的结果取并集,作为最终的分割依据:
各关键动作分割结果
图10为本发明实例的申膝动作分割结果图。图11为本发明实例的引膝动作分割结果图。
图12为本发明实例的发力动作分割结果图。
图13为本发明实例的最高点动作分割结果图。
并集结果
图14为本发明实例的各个关键动作分割并集结果图。
(2)区域粗分割
1)置所有点的标签(label)为0。
2)从左上点开始遍历像素,若该点的四邻域像素值为255,则赋予当前最大的标签值加1的值,否则取四邻域像素的标签值中不为0的最小值为当前像素的标签值:
(3)区域分割微调
分别依次以图像的四角作为开始点对图像进行遍历,更新每个像素点的标签值为四邻域点标签值中不为0的最小值,直到所有点的标签值不再变化:
4、对原图像切割:
(1)获取最大区域的四周边界
1)找到出现次数最多的两个标签值,确定出现次数最大标签值的四周边界值(当前上下边界不做考虑,取的是原图的边界)。
2)判断是否正常(出现在比较靠中间的位置),若不正常则取出现次数第二多的标签值对应的区域为最大区域,获取其四周边界值。
(2)切割原图
在数组中检索到实验图像聚类后对应的四周边界,截取图像并保存
图15为本发明实例的原图。
图16为本发明实例的切割后的图像。
5、利用卷积神经网络对分割好的图像进行分类:
分类采用卷积神经网络(CNN),利用AlexNet网络在ImageNet数据集上训练好的模型,我们在举重帧图像上进行微调。之所以采用微调的方法,一是因为我们的举重视频数据集有限,二是因为训练模型的时候,初始参数决定着训练的速度和模型的好坏,ImageNet是拥有千万级数量级的图像数据库,在用ImageNet训练好的模型的基础上进行微调,是一个非常好的选择,解决了数据集不够的问题,同时又有一个好的初始参数,完美地解决了我们的问题。
该网络由5个卷积层、3个全连接层组成,C1到C5为5个卷积层,F1到F3为全连接层,并且只给卷积层C1、卷积层C2和卷积层C5加入了pooling层。F1到F3是全连接层,全连接层后跟着一个分类器。在微调的时候,我们将AlexNet中F3的输出由1000改为4,原因是整个举重视频有4个关键姿态分别为:申膝、引膝、发力和最高点。具体的微调过程如下:
首先。网络的输入图像都被resize到227*227,并以lmdb的数据格式输入到网络中,其中图像为三通道,所以数据量大小为227*227*3。
C1到C5为卷积层,以卷积层C1为例,其卷积核的大小为11*11步长为4,C1层共96个卷积核,对输入的图像进行卷积操作,输出为96个55*55大小的图片。在C1卷积滤波后,加入线性纠正函数ReLU来加速收敛,用来防止其过度震荡。之后用核大小为3,步长为2的max-polling层,使得通过卷积获得的特征具有空间不变性,解决了特征的旋转不变形,同时对卷积特征进行降维,大大减少了计算量,最终得到96个27*27大小的图像。
同理,其他卷积层的输出也是如此同理。通过卷积核的大小为5、填充为2、卷积步幅为1、共有256个卷积滤波器的卷积层C2,得到256个27*27大小的图像,通过最大池采样层后降维到13*13的图像。通过卷积核大小为3、填充为1、卷积步幅为1、共有384个滤波器的卷积层C3,得到384个27*27大小的图像。通过卷积层C4得到384个13*13大小的图像。通过卷积层C5则得到256个6*6大小的图像。
卷积层后面接入的是全连接层,全连接层后面是分类器。全连接层由线性部分和非线性部分两部分组成:线性部分是对输入数据做不同角度的分析,得出该角度下对整体输入数据的判断;非线性部分的作用就是打破之前的线性映射关系,作数据的归一化,不管前面的线性部分做了怎样的工作,到了非线性这里,所有的数值将被限制在一个范围内,这样后面的网络层如果要基于前面层的数据继续计算,这个数值就相对可控了。将这两部分合在一起,其目的是将将庞大而杂乱的数据进行降维。全连接层F1和全连接层F2对数据进行线性变化和非线性变化,把6*6*256维的降维到4096。最后,全连接层F3将数据降维成4维,也就是本发明中申膝、引膝、发力和最高点四类。
(1)制作标签。
将数据分为训练集、验证集合测试集。将训练集和验证集手动制作标签,把申膝、引膝、发力和最高点四类设置标签为0,1,2,3,进行有监督的学习。
(2)训练模型。
将训练集和测试集生成对应的lmdb格式的数据,利用在ImageNet数据集上训练好的模型进行微调,然后输入到卷积神经网络进行训练,经过若干次的迭代,使得准确率稳定在一个很小的值,最终得到训练好的模型。
(3)测试
将测试集的整个视频用训练好的模型进行测试,视频的每一帧都会有对应的四类的概率,我们选取各个类最大概率作为我们想要的关键姿态,输出对应的帧图像,即为我们想要的关键帧。选取测试集中的一个视频进行测试,视频各帧图像对应四类的概率变化曲线,其中横坐标为各帧图像,纵坐标为对应的概率值。
图17为本发明实例的整个视频的概率值统计图。
说明一下结果,越具体越好
图18为本发明实例的分类结果准确率。

Claims (3)

1.基于深度学习的体育视频关键姿态提取方法,
举重过程中一共分为四个关键姿态,分别为申膝、引膝、发力和最高点;
其特征在于:
首先,利用全卷积网络将举重视频中的运动员前景信息分割提取出来,再用聚类的方法优化分割的结果,最后用卷积神经网络对分割的前景信息进行分类。
2.根据权利要求1所述的基于深度学习的体育视频关键姿态提取方法,其特征在于:
1)、首先将视频进行分帧处理:
2)、利用全卷积网络提取运动员前景信息:
FCN(全卷积网络)将CNN(卷积神经网络)中的全连接层转化成一个个的卷积层;在CNN结构中,前5层是卷积层,第6层和第7层分别是一个长度为4096的一维向量,第8层是长度为1000的一维向量,分别对应1000个类别的概率;FCN将这3层表示为卷积层,卷积核的大小(通道数,宽,高)分别为(4096,1,1)、(4096,1,1)、(1000,1,1);所有的层都是卷积层,故称为全卷积网络;
(1)训练样本集、验证样本集的制作
1)生成groundtruth;
2)制作标签;将训练集中前景即人体和杠铃标记为1,将背景区域标记为0,作为训练的监督信号;
3)训练模型;
采用全卷积网络对模型进行训练,使用AlexNet网络,利用训练好的模型,经过数万次的迭代,最终得到能够分类举重视频的模型;将AlexNet中第7层的输出参数改为2,对应举重帧图像的前景和背景两类;
(2)将所有的举重视频利用训练好的模型得到分割后的图像
利用训练好的模型,将所有的举重帧图像进行前景和背景的分割,模型对图像的每个像素点进行判断,找到对应前景和背景的像素点的阈值0.85,如果预测值小于0.85,则该像素点被判断背景,如果预测值大于等于0.85,则该像素点被判断为前景,利用这个阈值,生成新的图像,当小于这个阈值的时候,将像素值设置为255,大于等于这个阈值的时候,将像素值设置为0;
3)、将分割的结果进行聚类,优化分割结果:
(1)将视频分割的结果取并集,作为最终的分割依据:
(2)区域粗分割
1)置所有点的标签(label)为0;
2)从左上点开始遍历像素,若该点的四邻域像素值为255,则赋予当前最大的标签值加1的值,否则取四邻域像素的标签值中不为0的最小值为当前像素的标签值:
(3)区域分割微调
分别依次以图像的四角作为开始点对图像进行遍历,更新每个像素点的标签值为四邻域点标签值中不为0的最小值,直到所有点的标签值不再变化:
4)、对原图像切割:
(1)获取最大区域的四周边界
1)找到出现次数最多的两个标签值,确定出现次数最大标签值的四周边界值边界值取的是原图的边界);
2)对于获得的区域,假设范围为minWidth到maxWidth,图像的宽为Width,如果maxWidth<3/8*Width或者minWidth>5/8*Width,就判定为不在中间区域;,若不在中间区域则取出现次数第二多的标签值对应的区域为最大区域,获取其四周边界值;
(2)切割原图
在数组中检索到实验图像聚类后对应的四周边界,截取图像并保存:
5)、利用卷积神经网络对分割好的图像进行分类:
卷积层后面接入的是全连接层,全连接层后面是分类器;全连接层F1和全连接层F2对数据进行线性变化和非线性变化,把6*6*256维的降维到4096;最后,全连接层F3将数据降维成4维,也就是本发明中申膝、引膝、发力和最高点四类;
(1)制作标签;
将数据分为训练集、验证集合测试集;将训练集和验证集手动制作标签,把申膝、引膝、发力和最高点四类设置标签为0,1,2,3,进行有监督的学习;
(2)训练模型;
将训练集和测试集生成对应的lmdb格式的数据,利用在ImageNet数据集上训练好的模型进行微调,然后输入到卷积神经网络进行训练,经过若干次的迭代,使得准确率loss值稳定在0.1-0.2,最终得到训练好的模型;
(3)测试
将测试集的整个视频用训练好的模型进行测试,视频的每一帧都会有对应的四类的概率,我们选取各个类最大概率作为我们想要的关键姿态,输出对应的帧图像,即为我们想要的关键帧;选取测试集中的一个视频进行测试,下图表为视频各帧图像对应四类的概率变化曲线,其中横坐标为各帧图像,纵坐标为对应的概率值。
3.根据权利要求2所述的基于深度学习的体育视频关键姿态提取方法,其特征在于:卷积神经网络对分割好的图像进行分类中的卷积神经网络具体如下:
该网络由5个卷积层、3个全连接层组成,C1到C5为5个卷积层,F1到F3为全连接层,并且只给卷积层C1、卷积层C2和卷积层C5加入了pooling层;F1到F3是全连接层,全连接层后跟着一个分类器;在微调的时候,我们将AlexNet中F3的输出由1000改为4,原因是整个举重视频有4个关键姿态分别为:申膝、引膝、发力和最高点;具体的微调过程如下:
首先,网络的输入图像都被resize到227*227,并以lmdb的数据格式输入到网络中,其中图像为三通道,所以数据量大小为227*227*3;
C1到C5为卷积层,以卷积层C1为例,其卷积核的大小为11*11步长为4,C1层共96个卷积核,对输入的图像进行卷积操作,输出为96个55*55大小的图片;在C1卷积滤波后,加入线性纠正函数ReLU来加速收敛,之后用核大小为3,步长为2的max-polling层,最终得到96个27*27大小的图像;
通过卷积核的大小为5、填充为2、卷积步幅为1、共有256个卷积滤波器的卷积层C2,得到256个27*27大小的图像,通过最大池采样层后降维到13*13的图像;通过卷积核大小为3、填充为1、卷积步幅为1、共有384个滤波器的卷积层C3,得到384个27*27大小的图像;通过卷积层C4得到384个13*13大小的图像;通过卷积层C5则得到256个6*6大小的图像。
CN201611211395.5A 2016-12-24 2016-12-24 一种基于深度学习的体育视频关键姿态提取方法 Active CN106709453B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611211395.5A CN106709453B (zh) 2016-12-24 2016-12-24 一种基于深度学习的体育视频关键姿态提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611211395.5A CN106709453B (zh) 2016-12-24 2016-12-24 一种基于深度学习的体育视频关键姿态提取方法

Publications (2)

Publication Number Publication Date
CN106709453A true CN106709453A (zh) 2017-05-24
CN106709453B CN106709453B (zh) 2020-04-17

Family

ID=58896002

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611211395.5A Active CN106709453B (zh) 2016-12-24 2016-12-24 一种基于深度学习的体育视频关键姿态提取方法

Country Status (1)

Country Link
CN (1) CN106709453B (zh)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107680170A (zh) * 2017-10-12 2018-02-09 北京奇虎科技有限公司 基于虚拟世界的图像实时处理方法及装置、计算设备
CN107680105A (zh) * 2017-10-12 2018-02-09 北京奇虎科技有限公司 基于虚拟世界的视频数据实时处理方法及装置、计算设备
CN108154137A (zh) * 2018-01-18 2018-06-12 厦门美图之家科技有限公司 视频特征学习方法、装置、电子设备及可读存储介质
CN109447168A (zh) * 2018-11-05 2019-03-08 江苏德劭信息科技有限公司 一种基于深度特征和视频目标检测的安全帽佩戴检测方法
CN109447014A (zh) * 2018-11-07 2019-03-08 东南大学-无锡集成电路技术研究所 一种基于双通道卷积神经网络的视频在线行为检测方法
CN109635842A (zh) * 2018-11-14 2019-04-16 平安科技(深圳)有限公司 一种图像分类方法、装置及计算机可读存储介质
CN109871794A (zh) * 2019-01-31 2019-06-11 浙江工业大学 一种基于深度学习的网球发球机发球方法
CN109919036A (zh) * 2019-01-18 2019-06-21 南京理工大学 基于时域分析深度网络的工人作业姿势分类方法
CN110428394A (zh) * 2019-06-14 2019-11-08 北京迈格威科技有限公司 用于目标移动侦测的方法、装置及计算机存储介质
CN110472554A (zh) * 2019-08-12 2019-11-19 南京邮电大学 基于姿态分割和关键点特征的乒乓球动作识别方法及系统
CN111626090A (zh) * 2020-03-03 2020-09-04 湖南理工学院 一种基于深度帧差卷积神经网络的运动目标检测方法
CN112001566A (zh) * 2020-09-11 2020-11-27 成都拟合未来科技有限公司 一种健身训练模型的优化方法、装置、设备和介质
US10878144B2 (en) 2017-08-10 2020-12-29 Allstate Insurance Company Multi-platform model processing and execution management engine
CN114445456A (zh) * 2021-12-23 2022-05-06 西北工业大学 基于部分模型的数据驱动智能机动目标跟踪方法及装置
US11755949B2 (en) 2017-08-10 2023-09-12 Allstate Insurance Company Multi-platform machine learning systems
CN112001566B (zh) * 2020-09-11 2024-04-30 成都拟合未来科技有限公司 一种健身训练模型的优化方法、装置、设备和介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104200455A (zh) * 2014-06-13 2014-12-10 北京工业大学 一种基于运动统计特征分析的关键姿态提取方法
CN105447458A (zh) * 2015-11-17 2016-03-30 深圳市商汤科技有限公司 一种大规模人群视频分析系统和方法
CN105956524A (zh) * 2016-04-22 2016-09-21 北京智芯原动科技有限公司 一种交通标识识别方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104200455A (zh) * 2014-06-13 2014-12-10 北京工业大学 一种基于运动统计特征分析的关键姿态提取方法
CN105447458A (zh) * 2015-11-17 2016-03-30 深圳市商汤科技有限公司 一种大规模人群视频分析系统和方法
CN105956524A (zh) * 2016-04-22 2016-09-21 北京智芯原动科技有限公司 一种交通标识识别方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王向东 等: "一种运动轨迹引导下的举重视频关键姿态提取方法", 《图学学报》 *

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10878144B2 (en) 2017-08-10 2020-12-29 Allstate Insurance Company Multi-platform model processing and execution management engine
US11755949B2 (en) 2017-08-10 2023-09-12 Allstate Insurance Company Multi-platform machine learning systems
CN107680105A (zh) * 2017-10-12 2018-02-09 北京奇虎科技有限公司 基于虚拟世界的视频数据实时处理方法及装置、计算设备
CN107680170A (zh) * 2017-10-12 2018-02-09 北京奇虎科技有限公司 基于虚拟世界的图像实时处理方法及装置、计算设备
CN108154137A (zh) * 2018-01-18 2018-06-12 厦门美图之家科技有限公司 视频特征学习方法、装置、电子设备及可读存储介质
CN109447168A (zh) * 2018-11-05 2019-03-08 江苏德劭信息科技有限公司 一种基于深度特征和视频目标检测的安全帽佩戴检测方法
CN109447014A (zh) * 2018-11-07 2019-03-08 东南大学-无锡集成电路技术研究所 一种基于双通道卷积神经网络的视频在线行为检测方法
CN109635842A (zh) * 2018-11-14 2019-04-16 平安科技(深圳)有限公司 一种图像分类方法、装置及计算机可读存储介质
CN109919036A (zh) * 2019-01-18 2019-06-21 南京理工大学 基于时域分析深度网络的工人作业姿势分类方法
CN109871794A (zh) * 2019-01-31 2019-06-11 浙江工业大学 一种基于深度学习的网球发球机发球方法
CN110428394A (zh) * 2019-06-14 2019-11-08 北京迈格威科技有限公司 用于目标移动侦测的方法、装置及计算机存储介质
CN110472554A (zh) * 2019-08-12 2019-11-19 南京邮电大学 基于姿态分割和关键点特征的乒乓球动作识别方法及系统
CN110472554B (zh) * 2019-08-12 2022-08-30 南京邮电大学 基于姿态分割和关键点特征的乒乓球动作识别方法及系统
CN111626090A (zh) * 2020-03-03 2020-09-04 湖南理工学院 一种基于深度帧差卷积神经网络的运动目标检测方法
CN112001566A (zh) * 2020-09-11 2020-11-27 成都拟合未来科技有限公司 一种健身训练模型的优化方法、装置、设备和介质
CN112001566B (zh) * 2020-09-11 2024-04-30 成都拟合未来科技有限公司 一种健身训练模型的优化方法、装置、设备和介质
CN114445456A (zh) * 2021-12-23 2022-05-06 西北工业大学 基于部分模型的数据驱动智能机动目标跟踪方法及装置

Also Published As

Publication number Publication date
CN106709453B (zh) 2020-04-17

Similar Documents

Publication Publication Date Title
CN106709453A (zh) 一种基于深度学习的体育视频关键姿态提取方法
Jia et al. Detection and segmentation of overlapped fruits based on optimized mask R-CNN application in apple harvesting robot
CN106503693B (zh) 视频封面的提供方法及装置
CN106778604B (zh) 基于匹配卷积神经网络的行人再识别方法
CN106204779B (zh) 基于多人脸数据采集策略和深度学习的课堂考勤方法
CN106778595B (zh) 基于高斯混合模型的人群中异常行为的检测方法
CN109376747A (zh) 一种基于双流卷积神经网络的视频火焰检测方法
CN108830252A (zh) 一种融合全局时空特征的卷积神经网络人体动作识别方法
CN108520223A (zh) 视频图像的分割方法、分割装置、存储介质和终端设备
CN108492319A (zh) 基于深度全卷积神经网络的运动目标检测方法
CN108010034A (zh) 商品图像分割方法及装置
CN105184812B (zh) 一种基于目标跟踪的行人徘徊检测方法
CN107220585A (zh) 一种基于多特征融合镜头聚类的视频关键帧提取方法
CN105279519B (zh) 基于协同训练半监督学习的遥感影像水体提取方法及系统
CN103853724B (zh) 多媒体数据分类方法及装置
CN108961675A (zh) 基于卷积神经网络的跌倒检测方法
CN108830294A (zh) 一种图像数据的增广方法
CN107633226A (zh) 一种人体动作跟踪识别方法及系统
CN107358176A (zh) 基于高分遥感影像区域信息和卷积神经网络的分类方法
CN110390673B (zh) 一种监控场景下基于深度学习的香烟自动检测方法
CN107944459A (zh) 一种rgb‑d物体识别方法
CN104680193B (zh) 基于快速相似性网络融合算法的在线目标分类方法与系统
CN112215795B (zh) 一种基于深度学习的服务器部件智能检测方法
CN110378208A (zh) 一种基于深度残差网络的行为识别方法
CN109635811A (zh) 空间植物的图像分析方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant