CN109886165A

CN109886165A - 一种基于运动目标检测的动作视频提取和分类方法

Info

Publication number: CN109886165A
Application number: CN201910096638.2A
Authority: CN
Inventors: 张学睿; 张帆; 姚远; 郑志浩
Original assignee: Chongqing Institute of Green and Intelligent Technology of CAS
Current assignee: Chongqing Institute of Green and Intelligent Technology of CAS
Priority date: 2019-01-23
Filing date: 2019-01-23
Publication date: 2019-06-14

Abstract

本发明为一种基于运动目标检测的动作视频提取和分类方法，属于大数据人工智能深度学习领域。该方法包含以下步骤：S1：采集多种场景，不同质量的运动视频，建立运动视频数据库，并对运动视频数据库中人体动作进行分类和标注，建立运动动作库；S2：利用深度学习技术，建立基于视频图像的运动目标的检测模型；S3：利用运动动作库对运动目标检测模型进行训练；S4：将用户实时拍摄视频作为运动目标检测模型的输入，判断人体动作类别，并结合用户需求，判断是否需要对该动作视频进行提取并保存。本发明方法能够自动、准确、快速的完成运动类别和运动起始时刻的判断，能够实时的适应不同场景下视频提取和分类任务。

Description

一种基于运动目标检测的动作视频提取和分类方法

技术领域

本发明涉及一种基于运动目标检测的动作视频提取和分类方法，属于大数据人工智能领域，尤其适用于人体动作识别，智能体育，视频剪辑等。

背景技术

动作识别技术广泛应用于竞技体育、健康检查、医学研究、行人导航和救援等领域，例如：婴儿的爬行动作能够是反映婴儿脑瘫疾病的一个重要指标，针对婴儿爬行动作分析婴儿脑瘫疾病以及动作纠正等问题的动作识别技术显得尤为重要。

通常采用视觉识别技术进行人体动作识别。传统的，动作视频的提取和分类工作大量依赖于人工剪辑，效率低下。

现有技术中，首先要建立基于视频流的动作识别模型，然后将采集到的动作视频输入到动作识别模型中，分析出动作类别。然而基于视频流的动作识别模型，在识别时需要预先输入较长一段运动视频流，工作量和复杂度较高，无法实时的进行分析，且不能满足不同场景下运动视频的拍摄需求。

目前，动作识别模型都是基于时间序列图片信息的识别模型，由于相邻帧图片的时空信息的冗余性和现有计算能力不能毫无限制的提高，现有模型都将连续的视频流均匀划分为连续的视频片段，在视频片段的基础上对动作起始时间和动作类型进行判断。例如：对一段5分钟长25fps的视频流进行识别，先将该视频流每25帧划分为一个视频片段，并从这25帧中随机抽取数帧RGB图像或光流图像，代表该片段输入到CNN特征提取网络，进行起始点判定和动作类型识别；显然提取出的特征只代表该片段整体的动作信息，而动作起始点的定位精度最高需要到视频片段的每一帧，故而无法有效定位动作的起始帧，以及每帧图像的动作类型的识别。当然，理论上可以进一步细分该视频片段至每一帧看作一个视频片段进行动作起始点的判读，但这样无疑大幅度加大了计算量和动作识别的难度。

发明内容

有鉴于此，本发明提供一种基于运动目标检测的动作视频提取和分类方法，能够对人体运动动作实时的提取和分类，适应不同的拍摄场景，自动、准确、快速的实现动作视频的提取和分类。

为达到上述目的，本发明提供如下技术方案：

一种基于运动目标检测的动作视频提取和分类方法，包括如下步骤：

S1：采集多种场景，不同质量的运动视频，建立运动视频数据库，并对运动视频数据库中人体动作进行分类和标注，建立运动动作库；

S2：利用深度学习技术，建立基于视频图像的运动目标的检测模型；

S3：利用运动动作库对运动目标检测模型进行训练；

S4：将用户实时拍摄视频作为运动目标检测模型的输入，判断人体动作类别，并结合用户需求，判断是否需要对该动作视频进行提取并保存。

进一步，步骤S1所述的运动视频数据库的种类包括：不同场景下，不同的分辨率、帧率、对比度、拍摄角度，不同被拍摄人数，不同拍摄距离等多种因素下的人体运动视频，可以为现有体育赛事、网络或第三方视频集合等。

进一步，步骤S1所述的对运动视频数据库中人体动作进行分类和标注，建立运动动作库，具体为采用人工对视频段中人体动作判别为跳跃、旋转、滑行、下蹲、站立、行走等中一种或多种动作的组合的动作类别，分类存放到运动动作库，并进行标注。

进一步，步骤S2具体为：

S201：将连续的视频流划分为均匀的，一定帧数的视频片段，其中视频片段的帧数为N，其大小由人为综合考虑计算效率设定，通常为时长2秒左右的视频片段；

S202：对视频片段采用随机均匀分布抽取k帧的RGB图像信息或光流信息(或两者并存)作为该片段的代表信息，其中k的大小为结合检测模型的训练结果人为设定，k＜N；

S203：将该片段的代表信息输入双流卷积网络或C3D(3D convolution)卷积网络进行的特征的提取，得到含有该片段动作信息的特征向量；

S204：将提取出的特征向量通过反卷积网络对特征进行上采样，映射成与原片段的帧数相对应的N维的特征序列；

S205：通过回归算法对N维特征序列进行聚类和拟合，进而判断每帧图像的动作类别和是否为起始动作帧等信息。

进一步，步骤S3具体为：将步骤S1中运动动作库按一定比例分为训练集和测试集，采用梯度下降算法和对步骤S2所建立的运动目标检测模型进行训练和测试，调整运动目标检测模型的参数。

进一步，步骤S4具体为：摄像机对用户的运动过程进行实时拍摄，并通过路由器，将拍摄得到的实时视频传输到计算机，并将实时视频输入运动目标检测模型，判别用户的实时动作所属的动作类别；若用户当前的动作类别是需要的动作分类，则输出当前的动作视频片段及其分类到显示以及存储设备上，否则进行继续判断下一个动作类别。

本发明的有益效果在于：本发明提供了一种基于运动目标检测的动作视频提取和分类方法，建立运动视频数据库，采用卷积网络和反卷积网络的方式自动提取运动特征，能够自动、准确、快速的完成运动类别和运动起始时刻的判断，能够实时的适应不同场景下视频提取和分类任务。

附图说明

为了使本发明的目的、技术方案，本发明提供如下附图进行说明：

图1为一种基于运动目标检测的动作视频提取和分类方法流程图；

图2为本发明实施例的运动目标检测模型的搭建示意图；

图3为本发明实施例的用户使用流程图。

具体实施方式

为使本发明的目的和技术方案更加清晰明白，下面结合附图及实施例对本发明进行详细的描述。

实施例：

花样滑冰教练指导运动员动作要领以及对对手动作进行分析时，常常需要对运动员制作视频锦集，对其感兴趣的动作进行剪辑，例如：前外跳等动作，本实施例提供一种基于运动目标检测的动作视频提取和分类方法，结合图1，该方法包含以下步骤：

步骤一：

从赛事摄像以及网络视频获取不同场景下，不同的分辨率、帧率、对比度、拍摄角度，不同被拍摄人数，不同拍摄距离等多种因素下的花样滑冰视频，建立运动视频数据库，并对运动视频数据库中人体动作进行判别为跳跃、旋转、托举、步法及转体等一种或多种动作的组合的动作类别，分类存放到运动动作库，并进行标注；

步骤二：结合图2，具体步骤如下：

(1)将连续的视频流划分为均匀的，一定帧数的视频片段，其中视频片段的帧数为N＝50；(2)对视频片段采用随机均匀分布抽取k＝10帧的RGB图像信息或光流信息(或两者并存)作为该片段的代表信息，；(3)将该片段的代表信息输入双流卷积网络或C3D(3Dconvolution)卷积网络进行的特征的提取，得到特征向量；(4)将提取出的特征向量通过反卷积网络对特征进行上采样，映射成与原片段的帧数相对应的N维的特征序列；(5)通过回归算法对50维特征序列进行聚类和拟合，进而判断每帧图像的动作类别和是否为起始动作帧等信息

步骤三：

将步骤一中运动动作库按8∶2的比例分为训练集和测试集，采用梯度下降算法和对步骤S2所建立的运动目标检测模型进行训练和测试，调整运动目标检测模型的参数；

步骤四：将用户实时拍摄视频作为运动目标检测模型的输入，判断人体动作类别，并结合用户需求，判断是否需要对该动作视频进行提取并保存。

结合图3，具体为：首先，摄像机将花样滑冰实时拍摄下来，通过路由器将实时运动视频上传到分析计算机上，该分析计算机最好是云服务器集群；然后，分析计算机将实时视频作为运动目标检测模型的输入，进行运动类别判断，判断是否为感兴趣的动作类型，如果不是，则继续输入下一个运动动作，如果是，则提取该动作视频片段，输出到显示设备给教练进行参考。

其中，摄像机的可变焦高速摄像机，安装方式可为固定式、导轨式、云台式，以满足不同场景下用户运动的拍摄需求。其中，动作视频片段能够准确覆盖动作的开始和结束，动作视频片段的动作类型为运动视频数据库的所标注的动作类型之一。

最后说明的是，以上优选实施例仅用以说明本发明的技术方案而非限制，尽管通过上述优选实施例已经对本发明进行了详细的描述，但本领域技术人员应当理解，可以在形式上和细节上对其做出各种各样的改变，而不偏离本发明权利要求书所限定的范围。

Claims

1.一种基于运动目标检测的动作视频提取和分类方法，其特征在于，该方法包含以下步骤：

S3：利用运动动作库对运动目标检测模型进行训练；

2.根据权利要求1所述的一种基于运动目标检测的动作视频提取和分类方法，其特征在于，步骤S1所述的运动视频数据库的种类包括：不同场景下，不同的分辨率、帧率、对比度、拍摄角度，不同被拍摄人数，不同拍摄距离等多种因素下的人体运动视频，可以为现有体育赛事、网络或第三方视频集合等。

3.根据权利要求1所述的一种基于运动目标检测的动作视频提取和分类方法，其特征在于，步骤S1所述的对运动视频数据库中人体动作进行分类和标注，建立运动动作库，具体为采用人工对视频段中人体动作判别为跳跃、旋转、滑行、下蹲、站立、行走等中一种或多种动作的组合的动作类别，分类存放到运动动作库，并进行标注。

4.根据权利要求1所述的一种基于运动目标检测的动作视频提取和分类方法，其特征在于，步骤S2具体为：

5.根据权利要求1所述的一种基于运动目标检测的动作视频提取和分类方法，其特征在于，步骤S3具体为：将步骤S1中运动动作库按一定比例分为训练集和测试集，采用梯度下降算法和对步骤S2所建立的运动目标检测模型进行训练和测试，调整运动目标检测模型的参数。

6.根据权利要求1所述的一种基于运动目标检测的动作视频提取和分类方法，其特征在于，步骤S4具体为：摄像机对用户的运动过程进行实时拍摄，并通过路由器，将拍摄得到的实时视频传输到计算机，并将实时视频输入运动目标检测模型，判别用户的实时动作所属的动作类别；若用户当前的动作类别是需要的动作分类，则输出当前的动作视频片段及其分类到显示以及存储设备上，否则进行继续判断下一个动作类别。