CN107944431B

CN107944431B - 一种基于运动变化的智能识别方法

Info

Publication number: CN107944431B
Application number: CN201711371101.XA
Authority: CN
Inventors: 陈明光; 葛光敏; 车利; 刘晓明; 李晓刚
Original assignee: Tianjin Tianhe Tianhe Technology Co Ltd
Current assignee: Tianjin Tianhe Tianhe Technology Co., Ltd.
Priority date: 2017-12-19
Filing date: 2017-12-19
Publication date: 2019-04-26
Anticipated expiration: 2037-12-19
Also published as: CN107944431A

Abstract

本发明涉及一种基于运动变化的智能识别方法，通过运动视频图像的识别分析，基于用户输入的短视频内容，基于动作语义和衣物覆盖度识别出所属运动类别，在纠错判断后根据类间距离确定类别正确性，之后再根据运动动作特征识别出该类运动下的具体运动项目，后续该方法聚焦运动员的面部表情进行人脸识别后向用户输出查询到的运动相关信息，一方面准确地解决了运动动作识别准确性不高的问题，并且另一方面解决了现有技术中不能实时获得运动所属类别以及运动员的相关信息的技术难题，有效地提升了用户获取运动信息的及时性和准确性。

Description

一种基于运动变化的智能识别方法

技术领域

本发明涉及动作模式识别技术领域，具体的，涉及一种基于运动变化的智能识别方法。

背景技术

伴随着运动风潮的逐渐普遍全民，人们对于运动的追求也不再仅仅局限于对于该项运动的简单参与，一方面，运动迷们的逐渐增多引导诸多运动赛事的广泛举办，电视、网络等转播、直播平台如雨后春笋般盛开，另一方面，相关体育爱好者在从事运动时也更追求专业性的指导和建议，并不单纯地靠自己摸索或看视频学习。

此时，针对运动动作的有效识别显得至关重要，现有的运动动作的识别方式包括采集各类动作的运动特征数据，建立样本数据库，然后采集待测动作的运动特征数据通过特征相似度匹配识别出人体运动动作的识别。但此种运动动作的检测方式计算量巨大，需要依次比较待检测动作特征和样本库中的特征，识别效率不高。

针对某种具体运动，用户还希望获得某运动员的具体信息来增进该体育运动领域的知识水平，用户经常在观看现场或视频电视时会对某运动员的具体信息感兴趣，却有可能在不知运动员的具体信息的情况下没有办法实时查看该运动员具体信息，此时，造成了用户的信息得不到及时的响应。

专利CN106139564公开了一种图像处理方法和装置，通过获取图像帧的姿势信息直接与预设动作进行比较确定匹配程度向用户提示；专利CN107273857则是公开了一种运动动作的识别方法，使用运动信号的若干特征筛选共现概率大的类型作为筛选的识别结果，进而作为运动的识别结果。

但在如上的现有技术的技术方案中，将采集到的图像直接与预设图像进行比较，不仅识别匹配速度较慢，而且匹配成功率也极易出现误差，不能准确地判断出图像内部的动作模式而无法给出准确性地意见，其次，针对运动动作进行分类，单纯的借助于动作的共现概率进行动作分类识别也存在分类不准确，分类特征的比较算法复杂度较高等缺陷。综上，现有技术中存在对视频图像内运动动作的识别准确性不高并且不能实时获得运动所属类别以及运动员的相关信息的问题。

发明内容

为了解决相关技术中存在的对运动动作的识别准确性不高、获取信息不及时方便的问题，本公开提供了另一种基于运动变化的智能识别方法，以提高识别的准确性。

具体的，该基于运动变化的智能识别方法，其特征在于：

步骤101：系统获取拍摄的短视频，基于短视频中的视频帧内容进行帧提取，对视频帧进行图像预处理。

优选的，该方法采用Theta设备拍摄双目和深度短视频，拍摄的速度为每秒25帧，构建有多个类别的人体运动视频序列数据库；

提取短视频V_i的每帧图像，得到帧序列F_i，对f_ij进行预处理，通过背景差分和皮肤模型获取出f_ij中运动帧序列。

优选的，对视频帧进行图像预处理包括对帧序列进行深度运动过程多视角描述，包括正视角下的目标运动动作变化历程、俯视角下的目标运动动作变化历程以及左视角下的目标运动动作变化历程，搭建视角深度模型和多视角RGB模型；

获取不同视角下的视频帧序列的SIFT特征，对输入图像进行灰度化，将输入的RGB通道彩色图像变换为单通道图像，对图像进行畸变校正,将输入图像的检测窗口分割为相同尺寸的网格，然后相邻的构成一个的块，与其他网格之间可以相互重叠，有效地利用重叠区域的边缘特征信息，对输入分割的视频边缘特征序列进行遍历计算出帧序列的输出参数。

步骤201：基于预处理后获得的视频序列的输出参数进行基于运动动作与衣物覆盖度的运动类型聚类识别。

优选的，基于获得的帧图像F_i聚类获取运动序列典型性的帧RF_i；

所有视频运动类别所对应的典型性帧图像组成人体运动典型帧图像数据库；

使用K均值算法对典型帧数据的下层视感动作特征进行聚类生成视感词库，将聚类的中心作为视感单词，然后将图像中的视感特征映射到最近的视感单词生成表示图像的直方图，其中用K均值聚类算法将得到的下层视感动作特征进行聚类，并将聚类得到的聚类中心作为视感词库的单词，那么均值聚类所得到的聚类中心就构成了图像训练集的视感词库，针对帧序列中的服装颜色的聚类和连通域分析法将颜色、亮度相近的域合并，获取运动状态特征，基于所有获得的运动状态特征训练数据的分类，与运动动作库中的动作语义集S；

然后基于比对匹配的动作予以特征类别比对以形成运动员服装的候选区域；在提取到运动员服装的候选区域之后，可能还有一些偏差区域，还需要进一步的精检测来精确定位运动员服装的候选区域，采用局部二值模式来提取纹理信息。

步骤301：对初步识别出运动类型进行判断纠正，如果运动类型识别出现错误，返回步骤201，如果正确，进入步骤401。

优选的，对初步识别出运动类型进行判断纠正，还包括：

将待识别的动作帧序列作为输入队列通过局部衰减模型，得到后续输出，进行线性预测之后，进行样本信号逼近的方式，对特征参数进行估计，其中的特征参数包括多尺度特征变换参数，如果特征参数的相似度与预处理识别出的运动类型的相似度>80％，则判断运动类别识别正确，否则，运动类别识别错误；

优选的，如果运动类型识别出现错误，返回步骤二，如果正确，进入步骤四，还包括：

如果针对待识别的动作帧序列所初步识别的运动类型出现错误，则根据运动动作库中针对运动动作内部之间的类内距离，将与预处理识别的运动类别间类间距离最小的一类运动类别再次识别为待识别的动作帧序列所属的运动类别，如果不符合，则依次计算新识别出的运动类别与其他运动类别的类间距离，选择类间距离最小的一种运动类别作为识别待识别的动作帧序列所属的运动类别，直至识别出待识别的动作帧序列所属的运动类别。

步骤401：基于分类后的运动聚类类型选择合适的分类器获取视频帧中的运动特征，在运动动作库中匹配比对识别出具体运动。

进行尺度不变特征的比对检测，尺度空间方差检测，初步确定特征点所在位置和对应尺度，将输入图像与尺度可变函数的卷积定义为这幅二维图像的尺度，

L(x,y,δ)＝G(x,y,δ)*I(x,y)

其中，G(x，y，δ)是尺度可变函数，如下：

(x，y)是空间坐标，σ称为尺度变化因子，它也是正态分布的方差，其反映了图像平滑的深度，其值越小表示图像被平滑深度越小，相对应的尺度就越小。

I(x，y)为图像数据，L代表了图像的尺度空间；将识别出的尺度变换特征与运动动作库中的运动类型下的运动典型动作集相比对，识别出所属具体运动。

步骤501：获取视频帧序列中的运动员面部表情特征，与运动动作库中进行匹配比对查询出该运动员的信息数据，并向用户输出运动介绍和运动员信息。

优选的，将发生面部表情时最明显且易于区分的若干区域，如眼睛、耳朵、嘴等部位，作为特征区域，删除不具有代表性的面部组织区域；通过尺度方向的K变换方法对面部表情图像中所包含的个特征点进行分析，得到多个K系数。将以上所得K系数开展训练可对表情特征空间进行有效降维；将降维后的表情特征与运动动作数据库中指定运动的运动员的表情进行面部识别匹配，确定出所属的运动员个人；在外部链接数据库中搜寻该运动员的个人信息、参赛数据信息以及运动规范动作展示视频和图片输出展示给用户浏览。

通过上述运动视频图像的识别分析方法，基于用户输入的短视频内容，进行依次识别分析出具体的所属运动类别和具体运动项目，后续聚焦运动员的面部表情进行人脸识别后向用户输出查询到的运动相关信息，一方面准确地解决了运动动作识别准确性不高的问题，并且另一方面解决了现有技术中不能实时获得运动所属类别以及运动员的相关信息的技术难题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

附图1为本发明所述的一种基于运动变化的智能识别方法的流程框图。

附图2为本发明一实施例的运动动作匹配图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参照附图1，为本发明的工作流程图，具体而言，该基于运动变化的智能识别方法，包括：

步骤101：系统获取拍摄的短视频，基于短视频中的视频帧内容进行帧提取，对视频帧进行图像预处理；

步骤201：基于预处理后获得的视频序列的输出参数进行基于运动动作与衣物覆盖度的运动类型聚类识别；

步骤301：对初步识别出运动类型进行判断纠正，如果运动类型识别出现错误，返回步骤二，如果正确，进入步骤四；

步骤401：基于分类后的运动聚类类型选择合适的分类器获取视频帧中的运动特征，在运动动作库中匹配比对识别出具体运动；

其中，优选的，所属步骤101中，系统获取拍摄的短视频，基于短视频中的视频帧内容进行帧提取还包括：

采用Theta设备拍摄双目和深度短视频，拍摄的速度为每秒25帧，构建有多个类别的人体运动视频序列数据库；

使用Theta获取人体运动的RGB彩色与深度图像，去除RGB彩色与深度图像噪声,并对其进行图像校正处理；

根据彩色图像背景的复杂程度采用不同方法去除背景,获得前景彩色图像；

基于前景彩色图像且依据皮肤模型对脸部及手部进行定位并将脸部及手部定位质心作为初始获取的关节点；

基于学习得到的K聚类分类器对彩色图像前景中的运动人体进行部件分类识别；

给定运动序列F_i，使用模糊C均值FCM聚类方法生成代表帧RF_i；

使用四元数来呈现身体姿态，计算两帧间距离；设f_i为第i帧中的运动描述符，f₁和f₂之间的距离计算为：

d(f₁,f₂)＝(f₁-f₂)(f₁-f₂)^T

使用聚类方法来生成c个聚类中心，选择距离聚类中心最短距离的一些帧作为代表帧，代表帧可表示为RF_i＝{rf_k}_k＝1:c，其中rf_k对应于第k个聚类中心。

优选的，所属步骤101中，对视频帧进行图像预处理还包括：

对帧序列进行深度运动过程多视角描述，包括正视角下的目标运动动作变化历程、俯视角下的目标运动动作变化历程以及左视角下的目标运动动作变化历程，搭建视角深度模型和多视角RGB模型；

正视角下的目标运动历史变化过程：为了描述连续运动序列的深度变化过程，针对每个非零像素，计算N帧中该像素位置的最大值和最小值，获得对应的最大值和最小值图像，将这两幅图像做差，并取绝对值，获得对应的正视角下的目标运动历史变化过程；

俯视角下的目标运动历史变化过程；假设存在N帧运动图像序列，图像的分辨率为m*n。首先，计算N帧运动图像序列的相邻两帧的帧差，并取绝对值，这样，可以获得N-1帧图像序列，其次，针对每幅帧差图像的每列，分别计算当前列所有像素值的和，因此，每幅帧差图像变成了1*n的向量，再次，依次对N-1帧图像序列分别处理，并将这些1*n的向量累积，变成了(N-1)*n的图像，该图像被称为俯视角下的目标运动历史变成过程；

获取不同视角下的视频帧序列的SIFT特征，对输入图像进行灰度化，将输入的RGB通道彩色图像变换为单通道图像；

对图像进行畸变校正,将输入图像的检测窗口分割为相同尺寸的网格，然后相邻的构成一个的块，与其他网格之间可以相互重叠，有效地利用重叠区域的边缘特征信息；

对输入分割的视频边缘特征序列进行遍历计算出帧序列的输出参数。

优选的，所述步骤201：基于预处理后获得的视频序列的输出参数进行基于运动动作与衣物覆盖度的运动类型聚类识别，还包括：

基于获得的帧图像F_i聚类获取运动序列典型性的帧RF_i；

使用K均值算法对典型帧数据的下层视感动作特征进行聚类生成视感词库，将聚类的中心作为视感单词，然后将图像中的视感特征映射到最近的视感单词生成表示图像的直方图，其中用K均值聚类算法将得到的下层视感动作特征进行聚类，并将聚类得到的聚类中心作为视感词库的单词，那么均值聚类所得到的聚类中心就构成了图像训练集的视感词库；

针对帧序列中的服装颜色的聚类和连通域分析法将颜色、亮度相近的域合并，获取运动状态特征，基于所有获得的运动状态特征训练数据的分类，与运动动作库中的动作语义集S；

然后基于比对匹配的动作予以特征类别比对以形成运动员服装的候选区域；

在提取到运动员服装的候选区域之后，可能还有一些偏差区域，还需要进一步的精检测来精确定位运动员服装的候选区域，采用局部二值模式来提取纹理信息。

基于上述识别的运动动作语义集和衣服区域的衣物覆盖度，决策出所进行的运动属于个人运动还是集体运动，其中个人运动包括球类运动、田径运动、游泳类运动、其他运动，集体运动包括球类运动、田径运动、其他运动，所述运动动作数据库中的运动样本分类也是基于上述分类标准。其中给予运动动作语义集针对的动作分类可以依据运动场景以及运动人员与外运动器械的接触与否进行划分。

优选的，所述步骤301：对初步识别出运动类型进行判断纠正，还包括：

将待识别的动作帧序列作为输入队列通过局部衰减模型，得到后续输出，进行线性预测之后，进行样本信号逼近的方式，对特征参数进行估计，其中的特征参数包括多尺度特征变换参数，如果特征参数的相似度与预处理识别出的运动类型的相似度>80％，则判断运动类别识别正确，否则，运动类别识别错误。

优选的，所述步骤301：如果运动类型识别出现错误，返回步骤201，如果正确，进入步骤401，还包括：

对于l(l>＝2)类运动动作分类问题，设运动动作训练样本集规模为n，运动动作样本空间维数为m.即运动动作训练样本集为{(xk，yk)|xk∈Rm(m维实空间)， m>0，yk∈{1，…，l}，l>2，k＝1，…，n}.其中，第j类的运动动作样本数为nj，即‖yk|yk＝j，k＝1，…，n‖＝nj，j＝1，…，l，则含有i(i ＝1，…，m)个运动动作特征的运动动作特征子集的区分度定义为DFSi。

DFSi表示了当前i个特征的特征子集的类间距离和与类内方差之比，其值越大表明包含当前i个特征的特征子集的类别辨识力越强。

优选的，参照附图2，所述步骤401：基于分类后的运动聚类类型选择合适的分类器获取视频帧中的运动特征，在运动动作库中匹配比对识别出具体运动，还包括：

L(x，y，δ)＝G(x，y，δ)*I(x，y)

其中，G(x，y，δ)是尺度可变函数，如下：

使用AdaBoost方法从弱学习算法出发,挑选出最能代表人脸的弱分类器,按照加权多数表决的方法,加大分类误差率小的弱分类器的权值,减小分类误差率大的弱分类器的权值,构成强分类器。

将得到的强分类器使用“Cascade”策略组成一个级联结构的强分类器,将图像训练集中每幅图像的主题分布和其相对应的场景类别编号作为训练数据和训练类别编号,用交叉验证的方法训练SVM分类器的模型参数,从而得到参数最优的SVM分类器模型,然后用最优的分类参数对图像测试集中的图像进行分类,得到图像测试集中图像的类别编号,以及运动动作的识别正确率。附图2中为对田径类竞走运动项目中的视频帧图像比对的具体效果图。

优选的，所述步骤501：获取视频帧序列中的运动员面部表情特征，与运动动作库中进行匹配比对查询出该运动员的信息数据，并向用户输出运动介绍和运动员信息。还包括：将发生面部表情时最明显且易于区分的若干区域，如眼睛、耳朵、嘴等部位，作为特征区域，删除不具有代表性的面部组织区域；通过尺度方向的K变换方法对面部表情图像中所包含的个特征点进行分析，得到多个K系数。将以上所得K系数开展训练可对表情特征空间进行有效降维；将降维后的表情特征与运动动作数据库中指定运动的运动员的表情进行面部识别匹配，确定出所属的运动员个人；在外部链接数据库中搜寻该运动员的个人信息、参赛数据信息以及运动规范动作展示视频和图片输出展示给用户浏览。

在识别出具体的运动信息过后，系统会对视频帧图像中的运动员进行分割识别，聚焦面部表情进行人脸识别，在运动动作数据库中进行比对匹配后识别出运动员的实际身份，并在外部链接库中查询出该运动员的个人信息、参赛信息供用户查看浏览，此外，针对该运动员在当时视频帧图像的具体动作在运动动作库中查询出该运动指定动作的具体参考示范，供用户查阅。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种基于运动变化的智能识别方法，其特征在于：

步骤一：系统获取拍摄的短视频，基于短视频中的视频帧内容进行帧提取，对视频帧进行图像预处理；

步骤二：基于预处理后获得的视频序列的输出参数进行基于运动动作与衣物覆盖度的运动类型聚类识别；

步骤三：对初步识别出运动类型进行判断纠正，如果运动类型识别出现错误，返回步骤二，如果正确，进入步骤四；

步骤四：基于分类后的运动聚类类型选择合适的分类器获取视频帧中的运动特征，在运动动作库中匹配比对识别出具体运动；

步骤五：获取视频帧序列中的运动员面部表情特征，与运动动作库中进行匹配比对查询出该运动员的信息数据，并向用户输出运动介绍和运动员信息。

2.如权利要求1所述的基于运动变化的智能识别方法，其特征在于：

所述步骤一中，系统获取拍摄的短视频，基于短视频中的视频帧内容进行帧提取还包括：

采用Theta设备拍摄双目和深度短视频，拍摄的速度为每秒25帧，构建有多个类别的人体运动视频序列数据库；提取短视频V_i的每帧图像，得到帧序列F_i，对f_ij进行预处理，通过背景差分和皮肤模型获取出f_ij中运动帧序列。

3.如权利要求1所述的基于运动变化的智能识别方法，其特征在于：

所述步骤一中，对视频帧进行图像预处理还包括：

对帧序列进行深度运动过程多视角描述，包括正视角下的目标运动动作变化历程、俯视角下的目标运动动作变化历程以及左视角下的目标运动动作变化历程，搭建视角深度模型和多视角RGB模型；获取不同视角下的视频帧序列的SIFT 特征，对输入图像进行灰度化，将输入的RGB通道彩色图像变换为单通道图像，对图像进行畸变校正,将输入图像的检测窗口分割为相同尺寸的网格，然后相邻的网格构成一个块，与其他网格之间可以相互重叠，有效地利用重叠区域的边缘特征信息，对输入分割的视频边缘特征序列进行遍历计算出帧序列的输出参数。

4.如权利要求1所述的基于运动变化的智能识别方法，其特征在于：

所述步骤二：基于预处理后获得的视频序列的输出参数进行基于运动动作与衣物覆盖度的运动类型聚类识别，还包括：

基于获得的帧图像F_i聚类获取运动序列典型性的帧RF_i；所有视频运动类别所对应的典型性帧图像组成人体运动典型帧图像数据库；使用K均值算法对典型帧数据的下层视感动作特征进行聚类生成视感词库，将聚类的中心作为视感单词，然后将图像中的视感特征映射到最近的视感单词生成表示图像的直方图，其中用K均值聚类算法将得到的下层视感动作特征进行聚类，并将聚类得到的聚类中心作为视感词库的单词，那么均值聚类所得到的聚类中心就构成了图像训练集的视感词库，针对帧序列中的服装颜色的聚类和连通域分析法将颜色、亮度相近的域合并，获取运动状态特征，基于所有获得的运动状态特征训练数据的分类，与运动动作库中的动作语义集S；然后基于比对匹配的动作予以特征类别比对以形成运动员服装的候选区域；在提取到运动员服装的候选区域之后，可能还有一些偏差区域，还需要进一步的精检测来精确定位运动员服装的候选区域，采用局部二值模式来提取纹理信息。

5.如权利要求1所述的基于运动变化的智能识别方法，其特征在于：

所述步骤三：对初步识别出运动类型进行判断纠正，还包括：

6.如权利要求1所述的基于运动变化的智能识别方法，其特征在于：

所述步骤三：如果运动类型识别出现错误，返回步骤二，如果正确，进入步骤四，还包括：

7.如权利要求1所述的基于运动变化的智能识别方法，其特征在于：

所述步骤四：基于分类后的运动聚类类型选择合适的分类器获取视频帧中的运动特征，在运动动作库中匹配比对识别出具体运动，还包括：

L(x，y，δ)＝G(x，y，δ)*I(x，y)

其中，G(x，y，δ)是尺度可变函数，如下：

(x，y)是空间坐标，σ称为尺度变化因子，它也是正态分布的方差，其反映了图像平滑的深度，其值越小表示图像被平滑深度越小，相对应的尺度就越小；

8.如权利要求1所述的基于运动变化的智能识别方法，其特征在于：

所述步骤五：获取视频帧序列中的运动员面部表情特征，与运动动作库中进行匹配比对查询出该运动员的信息数据，并向用户输出运动介绍和运动员信息；还包括：

将发生面部表情时最明显且易于区分的若干区域，包括眼睛、耳朵、嘴部位，作为特征区域，删除不具有代表性的面部组织区域；通过尺度方向的K变换方法对面部表情图像中所包含的个特征点进行分析，得到多个K系数；将以上所得K系数开展训练可对表情特征空间进行有效降维；将降维后的表情特征与运动动作数据库中指定运动的运动员的表情进行面部识别匹配，确定出所属的运动员个人；在外部链接数据库中搜寻该运动员的个人信息、参赛数据信息以及运动规范动作展示视频和图片输出展示给用户浏览。