CN107463870A - 一种运动识别方法 - Google Patents
一种运动识别方法 Download PDFInfo
- Publication number
- CN107463870A CN107463870A CN201710424326.0A CN201710424326A CN107463870A CN 107463870 A CN107463870 A CN 107463870A CN 201710424326 A CN201710424326 A CN 201710424326A CN 107463870 A CN107463870 A CN 107463870A
- Authority
- CN
- China
- Prior art keywords
- identified
- autocoder
- motion
- field picture
- recognition method
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种运动识别方法,包括建立动作数据库;将动作数据库中的帧图像进行叠加,然后将其作为自动编码器的输入,对自动编码器进行训练;然后通过训练模式识别神经网络,建立深度神经网络;在通过提取待识别动作的帧图像,将待识别帧图像与深度神经网络进行对比,并输出识别结果。该方法解决了现有技术中存在的时间成本高、训练时间长、硬件要求高、数据存储空间大以及及时捕获性问题。
Description
技术领域
本发明属于计算机视觉和人工智能技术领域;涉及一种运动识别方法;具体的涉及一种基于自动编码器和模式识别神经网络的人体运动识别方法。
背景技术
人体运动识别是计算机视觉和人工智能领域的热点问题,具有广泛的应用前景,受到很多学者和研究者的关注。同时,由于问题本身的复杂性和不确定性,运动识别仍然是一个非常具有挑战性的课题。
许多动作识别方法着重于构建有效的描述符或特征,并对基于特征匹配进行分类。以前的动作识别方法主要包括两类,即:动作特征表示和分类。其中特征表示是识别动作的关键任务。运动序列特征表示通常被分为全局表示和局部表示。全局功能记录总图像的演示。然而,全局特征经常受到阻塞、角度变化和噪音的干扰。基于全局的特征包括:基于视觉的呈现,基于轮廓的描述符,基于边缘的特征和运动历史图像(MHI)等。局部特征经常用于独立的描述小块,并将小块组合在一起构建时空模型,如HOG和SURF。局部描述符可以更有效地呈现动作视频,特别是对于噪声图像和部分遮挡图像。然而,处理相关的兴趣点会产生高时间成本。
同时很多常规方法被应用于对人类行为进行分类。例如:一种多类SVM分类器,它使用动态规划来分割序列。局部描述符被组合成用于动作识别的SVM。K-最近邻分类器用于预测动作标签。然而,这些常规识别方法都不能及时捕获动态时空序列信息。
此外,已经建立的许多基于深度学习的算法来理解静止图像的含义,卷积神经网络(CNN) 已被证明是识别静止图像的有力工具。但是,相对于动作序列图像识别来说是比较困难。一种运动的二维表示通过将序列组合成单个图像,称为二进制运动图像(BMI)。对于分类技术,CNN还用于动作识别。为了识别运动视频,CNN的时间扩展目的是挖掘动作相关的描述符。另一方面,即使采用计算机并行计算技术,如GPU+CUDA技术,并配备高性能硬件支持,CNN 依然需要几个小时的时间进行培训。如何有效缩短深度网络的培训时间是一个值得考思考的问题。
目前国外公开的文献中,文献[1].H.Jhuang,T.Serre,L.Wolf,T.Poggio,Abiologically inspired system for action recognition,In:ICCV,2007,pp.1–8.m提出基于特征匹配的分类方法;文献[2]. I.Laptev,On space–time interest points,Int.J.Comput.Vis.64(2–3)(2005)107–123.提出利用局部特征构建时空模型的方法;文献[3].M.Hoai,Z.-Z.Lan,F.Dela Torre,Joint segmentation and classification ofhuman actions in video,in:CVPR,2011,pp.3265-3272.提出多类SVM分类器;文献[4].A.A.Efros,A.C.Berg,G.Mori,J.Malik,Recognizing action at a distance,in:ICCV2003,Nice, France,October 14–17,2003,pp.726–733.提出K-最近邻分类器;文献[5].Krizhevsky Alex, Sutskever Ilya,Hinton Geoffrey E.ImageNet classificationwith deep convolutional neural networks. Advances in Neural InformationProcessing Systems,v 2,p 1097-1105,2012.提出卷积神经网络 (CNN)。
但上述文献的预测效果有几点不足:
(1)文献[1][2]主要思想是基于特征匹配进行分类。局部描述符虽然可以更有效地呈现动作视频,特别是对于噪声图像和部分遮挡图像。但是处理相关的兴趣点会产生较高的时间成本;
(2)文献[3][4]中提出的多类SVM分类器和K-最近邻分类器,前者使用动态规划来分割序列,后者用于预测动作标签,它们都不能及时捕获动态时空序列信息;
(3)文献[5]提出的卷积神经网络(CNN),需配备高性能硬件支持,并且需要几个小时的时间进行培训,训练时间长,硬件要求较高;
(4)文献[5]提出的卷积神经网络(CNN)是一种传统的使用自动编码器的深度网络,其结构不够紧凑,占用的存储空间较大。
发明内容
本发明的目的在于提供一种运动识别方法,该方法基于自动编码器和模式识别神经网络建立,解决了现有技术中存在的时间成本高、训练时间长、硬件要求高、数据存储空间大以及及时捕获性问题。
本发明的技术方案是:一种运动识别方法,包括以下步骤:
步骤1,建立训练动作数据库,并且获取所有训练动作的帧图像;
步骤2,将帧图像的动作图像和背景图像进行分割,得到动作图像;
步骤3,按照区间序列估算动作图像的目标轮廓,并将同一区间序列的目标轮廓排列在一起,得到多个叠加图像集;
步骤4,将叠加图像集作为自动编码器的输入,对自动编码器进行训练;
步骤5,基于特征信号构建和训练模式识别神经网络;
步骤6,组合自动编码器和模式识别神经网络,得到深度神经网络;
步骤7,提取待识别动作所有的帧图像,得到待识别的帧图像;
步骤8,将待识别的帧图像的动作图像和背景图像进行分割,得到待识别的动作图像;
步骤9,按照区间序列估算待识别的动作图像的目标轮廓,并将同一区间序列的目标轮廓排列在一起,得到待识别叠加图像集;
步骤10,通过深度神经网络对待识别叠加图像集进行识别,并输出结果。
更进一步的,本发明的特点还在于:
其中步骤1和步骤7中使用二进制图像表示帧图像。
其中步骤3中将同一区间序列的多个目标轮廓组合成二进制叠加图像,得到二进制的叠加图像集。
其中步骤4中自动编码器包括编码器和解码器。
其中步骤4中自动编码器将叠加图像集作为输入,并且映射特征信号,解码器返回估计值。
其中步骤4中自动编码器将输入与估计值之间的误差控制通过均方误差、正则化和稀疏正则化组成的代价函数表示。
其中步骤5中基于梯度下降算法完成训练模式识别神经网络。
与现有技术相比,本发明的有益效果是:该方法建立的深度神经网络训练时间短,并且在硬件要求和数据存储空间方面都优于CNN方法,并且该深度神经网络模型能够应用于一些具有较低硬件要求和较少训练样本的动作识别领域;使用二进制图像自动编码器能够减少数据的维数,减少计算量,相比CNN缩短了训练时间,硬件要求低;通过将动作序列图像融合为一个叠加图像集,不仅在单个图像上保留了有效的动作信息,而且扩大了训练样本的数量;该方法建立的深度神经网络模型,其结构更加紧凑,占用的存储空间更小。
附图说明
图1为本发明的方法流程图。
具体实施方式
下面结合附图和具体实施例对本发明的技术方案进一步说明。
本发明提供了一种运动识别方法,其具体过程如图1所示,包括以下步骤:
步骤1,建立训练动作数据库,并且获取所有训练动作的帧图像,其中帧图像为二进制图像,且一个二进制帧图像表示一个训练动作。
步骤2,将帧图像的动作图像和背景图像进行分割,得到动作图像。
步骤3,按照区间序列估算动作图像的目标轮廓,并将同一区间序列的目标轮廓排列在一起,组合成二进制叠加图像,得到一个叠加图像集,然后根据其他不同区间序列的目标轮廓建立多个叠加图像集。
步骤4,将叠加图像集作为自动编码器的输入,对自动编码器进行训练;具体的自动解码器包括编码器和解码器,自动编码器将叠加图像集作为输入,并且映射特征信号,解码器将特征信号返回估计值;其中自动解码器将输入与估计值之间的误差通过代价函数表示,代价函数包括均方误差、正则化和稀疏正则化。
步骤5,基于特征信号构建和训练模式识别神经网络,其中基于梯度下降算法完成训练模式识别神经网络。
步骤6,组合自动编码器和模式识别神经网络,得到深度神经网络。
步骤7,提取待识别动作所有的帧图像,得到待识别的帧图像,其中帧图像为二进制图像,且一个二进制帧图像表示一个训练动作。
步骤8,将待识别的帧图像的动作图像和背景图像进行分割,得到待识别的动作图像。
步骤9,按照区间序列估算待识别的动作图像的目标轮廓,并将同一区间序列的目标轮廓排列在一起,组合成二进制叠加图像,得到待识别叠加图像集。
步骤10,通过深度神经网络对待识别叠加图像集进行识别,并输出结果。
本发明的具体实施例为:在现有的运动数据库的基础上获取训练动作的帧图像,进而建立深度神经网络模型,具体过程是:
步骤1,在训练动作数据集中获取所有帧图像。采用二进制图像来表示动作,假定有一个动作序列:A={xi}i=1:n,其中xi表示运动中的第i帧图像。
步骤2,将帧图像的动作图像和背景图像进行分割,得到动作图像。
步骤3,按照区间序列估算动作图像的目标轮廓,并将同一区间序列的目标轮廓排列在一起,组合成二进制叠加图像,得到一个叠加图像集,然后根据其他不同区间序列的目标轮廓建立多个叠加图像集;具体的计算合并轮廓的计算式为:
其中bi是第i层的叠加轮廓图像,q是区间值,L是动作序列的长度,k表示叠加轮廓图像是由k个轮廓图像组成的;其中构建叠加图像集B={bi}i=1:n。根据区间序列顺序,我们可以将动作序列中的k个轮廓图像组合成二进制叠加图像。例如,通过第1帧,第4帧,第7帧和第 10帧轮廓的组合构成图像的二进制覆盖轮廓。构建的样本越多,每个动作类别中就包含越多的训练样本。
步骤4,将叠加图像集作为自动编码器的输入,对自动编码器进行训练;具体的自动解码器包括编码器和解码器,自动编码器将叠加图像集作为输入,并且映射特征信号,解码器将特征信号返回估计值;其中自动解码器将输入与估计值之间的误差通过代价函数表示,代价函数包括均方误差、正则化和稀疏正则化。
具体的一个自动编码器可以看作是一个神经网络。该网络可以减少输入的维数,并将信号重建作为输出,自动编码器由编码器和解码器组成。假设自动编码器的输入为x,首先,该编码器将原始信号x映射到特征信号z,映射公式如下:
其中:“(e)”表示神经网络编码层,h(e)为传递函数,W(e)为加权矩阵,b(e)为偏置向量。解码器将映射信号z返回到估计,计算公式如下:
其中:“(d)”表示第d层网络层,h(d)是解码器的传输函数,W(d)是一个权重矩阵,b(d)是一个偏置向量。代价函数为输入(表示为x)与其重建之间的误差输出(表示为)需要控制到最小值。通过代价函数来表示:
其中:代价函数E由3部分组成,第一部分是均方误差,第二部分是L2正则化,第三部分是稀疏正则化,L2正则化系数是λ,稀疏正则化系数是β。
代价函数中正则化为使L2正则化,计算公式如下:
其中:在训练数据中,其中:L,n,k分别是训练数据中的隐含层数、观察数和变量数。将上述正则化加入到稀疏项中,若定义第i个激活神经元,计算公式如下:
其中:n是训练样本号,xj是第j个训练样本,wi (1)T和bi (1)分别是W(1)第i行偏置向量;使用Kullback-Leibler散度来呈现稀疏正则化,计算公式及如下:
其中:当ρi和相等时,KL散度为0;否则,散度将由于他们彼此背离而更大。
步骤5,基于特征信号构建和训练模式识别神经网络,其中基于梯度下降算法完成训练模式识别神经网络。其中模式识别网络可看作是前馈神经网络。对于训练多层前馈网络,利用一些优化方法来获得最优参数,如基于链规则的反向传播算法。网络的性能可以用均方误差(表示为mse)进行评估,将输出a和目标t之间的误差可定义为:
梯度下降算法用于完成训练任务。该算法的一次迭代可表示为:
xk+1=xk-αkgk (9)
其中:gk是当前梯度,xk表示当前权重和偏差,αk是学习率。等式迭代直到网络收敛。
步骤6,组合自动编码器和模式识别神经网络,得到深度神经网络。
步骤7,提取待识别动作所有的帧图像,得到待识别的帧图像,其中帧图像为二进制图像,且一个二进制帧图像表示一个训练动作。
步骤8,将待识别的帧图像的动作图像和背景图像进行分割,得到待识别的动作图像。
步骤9,按照区间序列估算待识别的动作图像的目标轮廓,并将同一区间序列的目标轮廓排列在一起,组合成二进制叠加图像,得到待识别叠加图像集。
步骤10,通过深度神经网络对待识别叠加图像集进行识别,并输出结果。
本发明提供的运动识别方法,与现有的CNN和深度网络方法相比,其训练时间和精度等效果如下表所示:
从上表中可知,本发明的方法的训练时间最短能够达到8.33分钟,在比深度网络方式时间更短的情况下精度能够达到96%,同时精度能够达到100%的CNN方法需要的训练时间长大几个小时,并且本发明的方法的网络规模远小于CNN方法,并且比深度网络方法还要小;同时本发明的方法硬件要求低。
Claims (7)
1.一种运动识别方法,其特征在于,包括以下步骤:
步骤1,建立训练动作数据库,并且获取所有训练动作的帧图像;
步骤2,将帧图像的动作图像和背景图像进行分割,得到动作图像;
步骤3,按照区间序列估算动作图像的目标轮廓,并将同一区间序列的目标轮廓排列在一起,得到多个叠加图像集;
步骤4,将叠加图像集作为自动编码器的输入,对自动编码器进行训练;
步骤5,基于特征信号构建和训练模式识别神经网络;
步骤6,组合自动编码器和模式识别神经网络,得到深度神经网络;
步骤7,提取待识别动作所有的帧图像,得到待识别的帧图像;
步骤8,将待识别的帧图像的动作图像和背景图像进行分割,得到待识别的动作图像;
步骤9,按照区间序列估算待识别的动作图像的目标轮廓,并将同一区间序列的目标轮廓排列在一起,得到待识别叠加图像集;
步骤10,通过深度神经网络对待识别叠加图像集进行识别,并输出结果。
2.根据权利要求1所述的运动识别方法,其特征在于,所述步骤1和步骤7中使用二进制图像表示帧图像。
3.根据权利要求1所述的运动识别方法,其特征在于,所述步骤3中将同一区间序列的多个目标轮廓组合成二进制叠加图像,得到二进制的叠加图像集。
4.根据权利要求1所述的运动识别方法,其特征在于,所述步骤4中自动编码器包括编码器和解码器。
5.根据权利要求1或4任意一项所述的运动识别方法,其特征在于,所述步骤4中自动编码器将叠加图像集作为输入,并且映射特征信号,解码器返回估计值。
6.根据权利要求5所述的运动识别方法,其特征在于,所述步骤4中自动编码器将输入与估计值之间的误差控制通过均方误差、正则化和稀疏正则化组成的代价函数表示。
7.根据权利要求1所述的运动识别方法,其特征在于,所述步骤5中基于梯度下降算法完成训练模式识别神经网络。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710424326.0A CN107463870A (zh) | 2017-06-07 | 2017-06-07 | 一种运动识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710424326.0A CN107463870A (zh) | 2017-06-07 | 2017-06-07 | 一种运动识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107463870A true CN107463870A (zh) | 2017-12-12 |
Family
ID=60546508
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710424326.0A Pending CN107463870A (zh) | 2017-06-07 | 2017-06-07 | 一种运动识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107463870A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109726671A (zh) * | 2018-12-27 | 2019-05-07 | 上海交通大学 | 从全局到类别特征表达学习的动作识别方法和系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104077599A (zh) * | 2014-07-04 | 2014-10-01 | 西安电子科技大学 | 基于深度神经网络的极化sar图像分类方法 |
CN104408469A (zh) * | 2014-11-28 | 2015-03-11 | 武汉大学 | 基于图像深度学习的烟火识别方法及系统 |
CN105654509A (zh) * | 2015-12-25 | 2016-06-08 | 燕山大学 | 基于复合深度神经网络的运动跟踪方法 |
-
2017
- 2017-06-07 CN CN201710424326.0A patent/CN107463870A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104077599A (zh) * | 2014-07-04 | 2014-10-01 | 西安电子科技大学 | 基于深度神经网络的极化sar图像分类方法 |
CN104408469A (zh) * | 2014-11-28 | 2015-03-11 | 武汉大学 | 基于图像深度学习的烟火识别方法及系统 |
CN105654509A (zh) * | 2015-12-25 | 2016-06-08 | 燕山大学 | 基于复合深度神经网络的运动跟踪方法 |
Non-Patent Citations (1)
Title |
---|
TUSHAR DOBHAL等: "Human Activity Recognition using Binary Motion Image and Deep Learning", 《PROCEDIA COMPUTER SCIENCE 58(2015)》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109726671A (zh) * | 2018-12-27 | 2019-05-07 | 上海交通大学 | 从全局到类别特征表达学习的动作识别方法和系统 |
CN109726671B (zh) * | 2018-12-27 | 2020-08-04 | 上海交通大学 | 从全局到类别特征表达学习的动作识别方法和系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Khan et al. | A survey of the recent architectures of deep convolutional neural networks | |
Du | Understanding of object detection based on CNN family and YOLO | |
Garcia-Garcia et al. | A survey on deep learning techniques for image and video semantic segmentation | |
CN110458844B (zh) | 一种低光照场景的语义分割方法 | |
Ball et al. | Comprehensive survey of deep learning in remote sensing: theories, tools, and challenges for the community | |
CN107679491B (zh) | 一种融合多模态数据的3d卷积神经网络手语识别方法 | |
US20220215227A1 (en) | Neural Architecture Search Method, Image Processing Method And Apparatus, And Storage Medium | |
CN109063719B (zh) | 一种联合结构相似性和类信息的图像分类方法 | |
Zheng et al. | Improving the generalization ability of deep neural networks for cross-domain visual recognition | |
Das et al. | Where to focus on for human action recognition? | |
Arulprakash et al. | A study on generic object detection with emphasis on future research directions | |
CN110222718B (zh) | 图像处理的方法及装置 | |
CN107767416B (zh) | 一种低分辨率图像中行人朝向的识别方法 | |
CN112597324A (zh) | 一种基于相关滤波的图像哈希索引构建方法、系统及设备 | |
Khanday et al. | Taxonomy, state-of-the-art, challenges and applications of visual understanding: A review | |
CN114419732A (zh) | 基于注意力机制优化的HRNet人体姿态识别方法 | |
Fathalla et al. | A deep learning pipeline for semantic facade segmentation | |
Vaidya et al. | Deep learning architectures for object detection and classification | |
Hammam et al. | DeepPet: A pet animal tracking system in internet of things using deep neural networks | |
Behera et al. | Superpixel-based multiscale CNN approach toward multiclass object segmentation from UAV-captured aerial images | |
CN114492634A (zh) | 一种细粒度装备图片分类识别方法及系统 | |
Li | Parallel two-class 3D-CNN classifiers for video classification | |
Cai et al. | Vehicle detection based on visual saliency and deep sparse convolution hierarchical model | |
CN107463870A (zh) | 一种运动识别方法 | |
Islam et al. | New hybrid deep learning method to recognize human action from video |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20171212 |
|
RJ01 | Rejection of invention patent application after publication |