CN107463870A

CN107463870A - 一种运动识别方法

Info

Publication number: CN107463870A
Application number: CN201710424326.0A
Authority: CN
Inventors: 肖秦琨; 司阳; 李兴; 高嵩
Original assignee: Xian Technological University
Current assignee: Xian Technological University
Priority date: 2017-06-07
Filing date: 2017-06-07
Publication date: 2017-12-12

Abstract

本发明公开了一种运动识别方法，包括建立动作数据库；将动作数据库中的帧图像进行叠加，然后将其作为自动编码器的输入，对自动编码器进行训练；然后通过训练模式识别神经网络，建立深度神经网络；在通过提取待识别动作的帧图像，将待识别帧图像与深度神经网络进行对比，并输出识别结果。该方法解决了现有技术中存在的时间成本高、训练时间长、硬件要求高、数据存储空间大以及及时捕获性问题。

Description

一种运动识别方法

技术领域

本发明属于计算机视觉和人工智能技术领域；涉及一种运动识别方法；具体的涉及一种基于自动编码器和模式识别神经网络的人体运动识别方法。

背景技术

人体运动识别是计算机视觉和人工智能领域的热点问题，具有广泛的应用前景，受到很多学者和研究者的关注。同时，由于问题本身的复杂性和不确定性，运动识别仍然是一个非常具有挑战性的课题。

许多动作识别方法着重于构建有效的描述符或特征，并对基于特征匹配进行分类。以前的动作识别方法主要包括两类，即：动作特征表示和分类。其中特征表示是识别动作的关键任务。运动序列特征表示通常被分为全局表示和局部表示。全局功能记录总图像的演示。然而，全局特征经常受到阻塞、角度变化和噪音的干扰。基于全局的特征包括：基于视觉的呈现，基于轮廓的描述符，基于边缘的特征和运动历史图像(MHI)等。局部特征经常用于独立的描述小块，并将小块组合在一起构建时空模型，如HOG和SURF。局部描述符可以更有效地呈现动作视频，特别是对于噪声图像和部分遮挡图像。然而，处理相关的兴趣点会产生高时间成本。

同时很多常规方法被应用于对人类行为进行分类。例如：一种多类SVM分类器，它使用动态规划来分割序列。局部描述符被组合成用于动作识别的SVM。K-最近邻分类器用于预测动作标签。然而，这些常规识别方法都不能及时捕获动态时空序列信息。

此外，已经建立的许多基于深度学习的算法来理解静止图像的含义，卷积神经网络(CNN) 已被证明是识别静止图像的有力工具。但是，相对于动作序列图像识别来说是比较困难。一种运动的二维表示通过将序列组合成单个图像，称为二进制运动图像(BMI)。对于分类技术，CNN还用于动作识别。为了识别运动视频，CNN的时间扩展目的是挖掘动作相关的描述符。另一方面，即使采用计算机并行计算技术，如GPU+CUDA技术，并配备高性能硬件支持，CNN 依然需要几个小时的时间进行培训。如何有效缩短深度网络的培训时间是一个值得考思考的问题。

目前国外公开的文献中，文献[1].H.Jhuang,T.Serre,L.Wolf,T.Poggio,Abiologically inspired system for action recognition,In:ICCV,2007,pp.1–8.m提出基于特征匹配的分类方法；文献[2]. I.Laptev,On space–time interest points,Int.J.Comput.Vis.64(2–3)(2005)107–123.提出利用局部特征构建时空模型的方法；文献[3].M.Hoai,Z.-Z.Lan,F.Dela Torre,Joint segmentation and classification ofhuman actions in video,in:CVPR,2011,pp.3265-3272.提出多类SVM分类器；文献[4].A.A.Efros,A.C.Berg,G.Mori,J.Malik,Recognizing action at a distance,in:ICCV2003,Nice, France,October 14–17,2003,pp.726–733.提出K-最近邻分类器；文献[5].Krizhevsky Alex, Sutskever Ilya,Hinton Geoffrey E.ImageNet classificationwith deep convolutional neural networks. Advances in Neural InformationProcessing Systems,v 2,p 1097-1105,2012.提出卷积神经网络 (CNN)。

但上述文献的预测效果有几点不足：

(1)文献[1][2]主要思想是基于特征匹配进行分类。局部描述符虽然可以更有效地呈现动作视频，特别是对于噪声图像和部分遮挡图像。但是处理相关的兴趣点会产生较高的时间成本；

(2)文献[3][4]中提出的多类SVM分类器和K-最近邻分类器，前者使用动态规划来分割序列，后者用于预测动作标签，它们都不能及时捕获动态时空序列信息；

(3)文献[5]提出的卷积神经网络(CNN)，需配备高性能硬件支持，并且需要几个小时的时间进行培训，训练时间长，硬件要求较高；

(4)文献[5]提出的卷积神经网络(CNN)是一种传统的使用自动编码器的深度网络，其结构不够紧凑，占用的存储空间较大。

发明内容

本发明的目的在于提供一种运动识别方法，该方法基于自动编码器和模式识别神经网络建立，解决了现有技术中存在的时间成本高、训练时间长、硬件要求高、数据存储空间大以及及时捕获性问题。

本发明的技术方案是：一种运动识别方法，包括以下步骤：

步骤1，建立训练动作数据库，并且获取所有训练动作的帧图像；

步骤2，将帧图像的动作图像和背景图像进行分割，得到动作图像；

步骤3，按照区间序列估算动作图像的目标轮廓，并将同一区间序列的目标轮廓排列在一起，得到多个叠加图像集；

步骤4，将叠加图像集作为自动编码器的输入，对自动编码器进行训练；

步骤5，基于特征信号构建和训练模式识别神经网络；

步骤6，组合自动编码器和模式识别神经网络，得到深度神经网络；

步骤7，提取待识别动作所有的帧图像，得到待识别的帧图像；

步骤8，将待识别的帧图像的动作图像和背景图像进行分割，得到待识别的动作图像；

步骤9，按照区间序列估算待识别的动作图像的目标轮廓，并将同一区间序列的目标轮廓排列在一起，得到待识别叠加图像集；

步骤10，通过深度神经网络对待识别叠加图像集进行识别，并输出结果。

更进一步的，本发明的特点还在于：

其中步骤1和步骤7中使用二进制图像表示帧图像。

其中步骤3中将同一区间序列的多个目标轮廓组合成二进制叠加图像，得到二进制的叠加图像集。

其中步骤4中自动编码器包括编码器和解码器。

其中步骤4中自动编码器将叠加图像集作为输入，并且映射特征信号，解码器返回估计值。

其中步骤4中自动编码器将输入与估计值之间的误差控制通过均方误差、正则化和稀疏正则化组成的代价函数表示。

其中步骤5中基于梯度下降算法完成训练模式识别神经网络。

与现有技术相比，本发明的有益效果是：该方法建立的深度神经网络训练时间短，并且在硬件要求和数据存储空间方面都优于CNN方法，并且该深度神经网络模型能够应用于一些具有较低硬件要求和较少训练样本的动作识别领域；使用二进制图像自动编码器能够减少数据的维数，减少计算量，相比CNN缩短了训练时间，硬件要求低；通过将动作序列图像融合为一个叠加图像集，不仅在单个图像上保留了有效的动作信息，而且扩大了训练样本的数量；该方法建立的深度神经网络模型，其结构更加紧凑，占用的存储空间更小。

附图说明

图1为本发明的方法流程图。

具体实施方式

下面结合附图和具体实施例对本发明的技术方案进一步说明。

本发明提供了一种运动识别方法，其具体过程如图1所示，包括以下步骤：

步骤1，建立训练动作数据库，并且获取所有训练动作的帧图像，其中帧图像为二进制图像，且一个二进制帧图像表示一个训练动作。

步骤2，将帧图像的动作图像和背景图像进行分割，得到动作图像。

步骤3，按照区间序列估算动作图像的目标轮廓，并将同一区间序列的目标轮廓排列在一起，组合成二进制叠加图像，得到一个叠加图像集，然后根据其他不同区间序列的目标轮廓建立多个叠加图像集。

步骤4，将叠加图像集作为自动编码器的输入，对自动编码器进行训练；具体的自动解码器包括编码器和解码器，自动编码器将叠加图像集作为输入，并且映射特征信号，解码器将特征信号返回估计值；其中自动解码器将输入与估计值之间的误差通过代价函数表示，代价函数包括均方误差、正则化和稀疏正则化。

步骤5，基于特征信号构建和训练模式识别神经网络，其中基于梯度下降算法完成训练模式识别神经网络。

步骤6，组合自动编码器和模式识别神经网络，得到深度神经网络。

步骤7，提取待识别动作所有的帧图像，得到待识别的帧图像，其中帧图像为二进制图像，且一个二进制帧图像表示一个训练动作。

步骤8，将待识别的帧图像的动作图像和背景图像进行分割，得到待识别的动作图像。

步骤9，按照区间序列估算待识别的动作图像的目标轮廓，并将同一区间序列的目标轮廓排列在一起，组合成二进制叠加图像，得到待识别叠加图像集。

本发明的具体实施例为：在现有的运动数据库的基础上获取训练动作的帧图像，进而建立深度神经网络模型，具体过程是：

步骤1，在训练动作数据集中获取所有帧图像。采用二进制图像来表示动作，假定有一个动作序列：A＝{x_i}_i＝1:n，其中x_i表示运动中的第i帧图像。

步骤3，按照区间序列估算动作图像的目标轮廓，并将同一区间序列的目标轮廓排列在一起，组合成二进制叠加图像，得到一个叠加图像集，然后根据其他不同区间序列的目标轮廓建立多个叠加图像集；具体的计算合并轮廓的计算式为：

其中b_i是第i层的叠加轮廓图像，q是区间值，L是动作序列的长度，k表示叠加轮廓图像是由k个轮廓图像组成的；其中构建叠加图像集B＝{b_i}_i＝1:n。根据区间序列顺序，我们可以将动作序列中的k个轮廓图像组合成二进制叠加图像。例如，通过第1帧，第4帧，第7帧和第 10帧轮廓的组合构成图像的二进制覆盖轮廓。构建的样本越多，每个动作类别中就包含越多的训练样本。

具体的一个自动编码器可以看作是一个神经网络。该网络可以减少输入的维数，并将信号重建作为输出，自动编码器由编码器和解码器组成。假设自动编码器的输入为x，首先，该编码器将原始信号x映射到特征信号z，映射公式如下：

其中：“(e)”表示神经网络编码层，h^(e)为传递函数，W^(e)为加权矩阵，b^(e)为偏置向量。解码器将映射信号z返回到估计，计算公式如下：

其中：“(d)”表示第d层网络层，h^(d)是解码器的传输函数，W^(d)是一个权重矩阵，b^(d)是一个偏置向量。代价函数为输入(表示为x)与其重建之间的误差输出(表示为)需要控制到最小值。通过代价函数来表示：

其中：代价函数E由3部分组成，第一部分是均方误差，第二部分是L₂正则化，第三部分是稀疏正则化，L₂正则化系数是λ，稀疏正则化系数是β。

代价函数中正则化为使L₂正则化，计算公式如下：

其中：在训练数据中，其中：L,n,k分别是训练数据中的隐含层数、观察数和变量数。将上述正则化加入到稀疏项中，若定义第i个激活神经元，计算公式如下：

其中：n是训练样本号，xj是第j个训练样本，w_i ^(1)T和b_i ⁽¹⁾分别是W⁽¹⁾第i行偏置向量；使用Kullback-Leibler散度来呈现稀疏正则化，计算公式及如下：

其中：当ρ_i和相等时，KL散度为0；否则，散度将由于他们彼此背离而更大。

步骤5，基于特征信号构建和训练模式识别神经网络，其中基于梯度下降算法完成训练模式识别神经网络。其中模式识别网络可看作是前馈神经网络。对于训练多层前馈网络，利用一些优化方法来获得最优参数，如基于链规则的反向传播算法。网络的性能可以用均方误差(表示为mse)进行评估，将输出a和目标t之间的误差可定义为：

梯度下降算法用于完成训练任务。该算法的一次迭代可表示为：

x_k+1＝x_k-α_kg_k (9)

其中：g_k是当前梯度，x_k表示当前权重和偏差，α_k是学习率。等式迭代直到网络收敛。

本发明提供的运动识别方法，与现有的CNN和深度网络方法相比，其训练时间和精度等效果如下表所示：

从上表中可知，本发明的方法的训练时间最短能够达到8.33分钟，在比深度网络方式时间更短的情况下精度能够达到96％，同时精度能够达到100％的CNN方法需要的训练时间长大几个小时，并且本发明的方法的网络规模远小于CNN方法，并且比深度网络方法还要小；同时本发明的方法硬件要求低。

Claims

1.一种运动识别方法，其特征在于，包括以下步骤：

步骤5，基于特征信号构建和训练模式识别神经网络；

2.根据权利要求1所述的运动识别方法，其特征在于，所述步骤1和步骤7中使用二进制图像表示帧图像。

3.根据权利要求1所述的运动识别方法，其特征在于，所述步骤3中将同一区间序列的多个目标轮廓组合成二进制叠加图像，得到二进制的叠加图像集。

4.根据权利要求1所述的运动识别方法，其特征在于，所述步骤4中自动编码器包括编码器和解码器。

5.根据权利要求1或4任意一项所述的运动识别方法，其特征在于，所述步骤4中自动编码器将叠加图像集作为输入，并且映射特征信号，解码器返回估计值。

6.根据权利要求5所述的运动识别方法，其特征在于，所述步骤4中自动编码器将输入与估计值之间的误差控制通过均方误差、正则化和稀疏正则化组成的代价函数表示。

7.根据权利要求1所述的运动识别方法，其特征在于，所述步骤5中基于梯度下降算法完成训练模式识别神经网络。