CN110503053B - 基于循环卷积神经网络的人体动作识别方法 - Google Patents

基于循环卷积神经网络的人体动作识别方法 Download PDF

Info

Publication number
CN110503053B
CN110503053B CN201910794952.8A CN201910794952A CN110503053B CN 110503053 B CN110503053 B CN 110503053B CN 201910794952 A CN201910794952 A CN 201910794952A CN 110503053 B CN110503053 B CN 110503053B
Authority
CN
China
Prior art keywords
layer
neural network
loss function
convolution
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910794952.8A
Other languages
English (en)
Other versions
CN110503053A (zh
Inventor
程建
高银星
汪雯
苏炎洲
白海伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN201910794952.8A priority Critical patent/CN110503053B/zh
Publication of CN110503053A publication Critical patent/CN110503053A/zh
Application granted granted Critical
Publication of CN110503053B publication Critical patent/CN110503053B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/23Recognition of whole body movements, e.g. for sport training

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于循环卷积神经网络的人体动作识别方法,属于图像分类、模式识别与机器学习领域,解决因动作类别内部以及类别之间的变化或视频是由连续帧组成会造成人体动作识别精度低等问题。本发明构建数据集,即从公开数据集中随机选择长度相同的序列对,各序列中的每帧包括RGB图像和光流图像;构建孪生网络,孪生网络中的各网络依次包括CNN层、RNN层和Temporal Pooling层;构建“识别‑验证”联合损失函数;基于数据集训练构建好的深度卷积神经网络和“识别‑验证”联合损失函数;基于待识别的人体动作序列对,依次经过训练好的深度卷积神经网络和训练好的“识别‑验证”联合损失函数,得到序列对的动作类别识别结果。本发明用于图像中的人体动作识别。

Description

基于循环卷积神经网络的人体动作识别方法
技术领域
一种基于循环卷积神经网络的人体动作识别方法,用于图像中的人体动作识别,属于图像分类、模式识别与机器学习领域。
背景技术
人体动作识别是计算机视觉与机器学习领域的热点和前沿研究主题之一,在智能视频监控、智能人机交互、基于内容的视频分析等方面有着广泛的应用前景。
基于视频的人体动作识别要解决的主要问题是通过计算机对传感器(摄像机)采集的原始图像或图像序列数据进行处理和分析,学习并理解其中人的动作和行为。人体动作识别主要包含以下三个步骤:首先是从图像帧中检测表观和运动信息并提取底层特征;然后对行为模式或者动作进行建模;最后是将提取的底层特征与动作行为类别等高层语义信息之间的对应关系,实现对人体动作的分类和识别。尽管近年来国内外人体动作行为识别的研究取得了重要进展,但人体运动的高复杂性和多变化性使得识别的精确性和高效性并没有完全满足相关行业的实用要求。现有技术中的人体动作识别方法存在如下不足之处:(1)动作类型内部以及类型之间的变化。对于同一动作类别,由于人体尺度的变化,即使是同一个人做同一个动作,在视频中的表现也不一样。此外,由于动作类别之间的相似性,也会使得不同动作类别在视频中表现出一定的相似性。如何衡量动作之间的差异性是实现动作分类的关键挑战;(2)由于视频是由连续帧组成,即表征了人体动作的连续性,基于单帧图像的表观信息忽略了动作本身的运动信息,严重影像了动作识别的精度,如何利用帧与帧之间的时序信息实现对人体动作的有效识别是目前面临的又一挑战。
发明内容
针对上述研究的问题,本发明的目的在于提供一种基于循环卷积神经网络的人体动作识别方法,解决现有技术中,因动作类别内部以及类别之间的变化或视频是由连续帧组成会造成人体动作识别精度低等问题。
为了达到上述目的,本发明采用如下技术方案:
一种基于循环卷积神经网络的人体动作识别方法,包括如下步骤:
S1、构建数据集,即从公开数据集中随机选择长度相同的序列对,各序列中的每帧包括RGB图像和光流图像;
S2、构建深度卷积神经网络,即构建孪生网络,孪生网络中的各网络依次包括CNN层、RNN层和Temporal Pooling层,其中,CNN层是指卷积神经网络层,RNN层是指循环神经网络层,Temporal Pooling层是指时序池化层;
S3、构建深度卷积神经网络后,构建“识别-验证”联合损失函数;
S4、基于数据集训练构建好的深度卷积神经网络和“识别-验证”联合损失函数,得到训练好的深度卷积神经网络和训练好的“识别-验证”联合损失函数;
S5、基于待识别的人体动作序列对的RGB图像和光流图像,依次经过训练好的深度卷积神经网络和训练好的“识别-验证”联合损失函数,得到序列对的动作类别相似度识别结果。
进一步,所述步骤S1中的公开数据集为UCF101-split1数据集、HMDB51数据集、UCFSPORT数据集或UCF11数据集,其中,序列对中的两动作片段是来自同一动作类别或来自不同动作类别。
进一步,所述步骤S2中,CNN层依次包括四层,第一层依次包括第一卷积层、第一最大池化层和第一全连接层,第二层依次包括第二卷积层、第二最大池化层和第二全连接层,第三层为第三卷积层,第四层为Dropout层,其中,第一卷积层包括16个卷积核,各卷积核大小为5×5,步长为1,第二卷积层包括32个卷积核,各卷积核大小为5×5,步长为1,第三卷积层包括32个卷积核,各卷积核大小为5×5,步长为1,第一最大池化层和第二最大池化层的核大小为2×2,步长为1,其中,全连接层即为非线性激活函数。
进一步,所述步骤S2中深度卷积神经网络的实现步骤如下:
S2.1、将序列对分别输入到孪生网络中的第一层,即一个序列输入一个网络,将第一层输出的结果输入第二层,其中,第一层和第二层的具体执行公式如下:
C′(S(t))=Tanh(Maxpool(Conv(S(t)))),
其中,S(t)表示输入第一层的第t帧RGB图像和光流图像,或输入第二层的第t帧第一层输出结果,Maxpool(Conv(S(t))表示被卷积层处理后的Conv(S(t))被最大池化层处理,Tanh(Maxpool(Conv(S(t))))表示被最大池化层处理后的Maxpool(Conv(S(t))被全连接层处理;
第二层处理后进行第三层处理,第t帧的RGB图像和光流图像像经过CNN层处理后,Dropout层输出f(t)=C(S(t));
S2.2、将各帧输出f(t)输入RNN层进行处理,得到时间序列{O(1)…O(T)},具体处理公式为:
O(t)=Wif(t)+Wsr(t-1)
r(t)=Tanh(O(t))
其中,输出O(t)∈Re×1,包含当前时刻输入RGB图像和光流图像的信息f(t)∈RN×1和上一时刻RNN的状态信息r(t-1)∈Re×1,Wi∈Re×N和Ws∈Re×e输出通过全连接计算得到,即是对之前CNN以及RNN提取到的特征进行分类得到,Wi为第i个元素的权重,Ws为第s个元素的权重;e为特征向量嵌入的维度,N为CNN层最后一层输出特征向量的维度,r(0)表示RNN层的初始状态,初始化为0向量;
S2.3、将时间序列{O(1)…O(T)}对应的CNN层输出的特征向量进行TemporalPooling层操作,即依次进行mean-pooling操作和max-pooling操作,将特征向量在时间维度上进行聚合得到固定长度的特征表示,时间维度即指时间序列{O(1)…O(T)}。
进一步,所述mean-pooling操作是指将输入的所有特征向量分成几部分后在时间维度进行求平均操作,其中,特征向量为CNN层输出的结果,即:
Figure GDA0003645366110000031
Figure GDA0003645366110000032
表示CNN层输出的第t帧中某一部分的W个特征向量之和,所有特征向量在时间维度进行求平均操作后,得到[O(1),i,O(2),i,…,O(T),i],表示第i部分在时间序列上的平均值;
max-pooling是指最大池化层,用于选取mean-pooling操作后结果中的最大值作为该区域池化后的值,即:
Figure GDA0003645366110000033
其中,
Figure GDA0003645366110000034
是第i个元素分量的特征向量,第i个元素分量即指第i部分,对于任一序列中的一帧RGB图像和光流图像经过深度卷积神经网络的输出记作
Figure GDA0003645366110000035
进一步,所述步骤S3的具体步骤为:
S3.1、构建两个与孪生网络相对应的识别损失函数,即序列对(Sz,Sn)经过深度卷积神经网络得到基于序列对的特征向量表示分别为:vz=R(Sz),vn=R(Sn),采用标准的交叉熵损失或softmax损失作为识别损失函数,即Identification Model损失函数,记作Identification Cost,表示如下:
Figure GDA0003645366110000036
Figure GDA0003645366110000037
其中,k为动作类别数,q为某一动作类别,Wc和Wk表示交叉熵或softmax权重矩阵W的第c和第k分量;
S3.2、构建一个验证损失函数,即序列对(Sz,Sn)经过深度卷积神经网络得到基于序列对的特征向量表示分别为:vz=R(Sz),vn=R(Sn),如下函数作为验证损失函数,即Verification Model损失函数,记作Siamese Cost,表示如下:
Figure GDA0003645366110000041
其中,‖vz-vn‖表示两个特征向量之间的欧式距离,当类别z=n时,上述函数使得vz与vn之间的欧式距离很近;当类别z≠n时,上述函数使得vz与vn之间被margin值m分隔开;
S3.3、构建好识别损失函数和验证损失函数得到“识别-验证”联合损失函数,具体表示如下:
Q(Sz,Sn)=E(R(Sz),R(Sn))+I(R(Sz))+I(R(Sn))
其中,Q(Sz,Sn)表示“识别-验证”联合损失函数,E(R(Sz),R(Sn))表示验证损失函数;I(R(Sz))+I(R(Sn))表示识别损失函数。
进一步,所述步骤S4的具体步骤为:
深度卷积神经网络在训练阶段优化Identification Cost和Siamese Cost。
本发明同现有技术相比,其有益效果表现在:
一、本发明基于RGB图像和光流图像分别提供人体的表观和运动信息,将这两种互补的信息作为深度卷积神经网络的输入,能够较好地捕捉人体动作的时序信息进而提高动作识别的精度;
二、本发明中构建的深度卷积神经网络的CNN层和RNN层,能将任意长度的输入序列转化为特定长度的特征向量输出,最后通过Temporal Pooling层将输出的特征在时间维度上进行聚合,使得提取特征效果更好,从而检测结果更好;
三、本发明通过构建“识别-验证”联合损失函数,预测动作类别的同时,实现动作类内差异最小化、类间差异最大化,可提高动作识别准确度。
四、本发明可以更好的识别动作类别之间的差异性以及相似性,以及更好的利用了帧间的时序信息来更有效的识别。
附图说明
图1是本发明基于深度卷积神经网络的人体动作识别流程图,其中,Seq.feature表示序列特征向量,Siamese cost表示:验证损失函数,Ident.cost表示识别损失函数;
图2是本发明中基于CNN层和RNN层的人体动作识别网络结构图,其中,OpticalFlow表示光流图像,Filters表示核,Filter size表示核大小,Stride表示步长,maxpool或Max-pooling Layer表示最大池化层,Fully Connected或Tanh Activation Funtion表示全连接层,Sequence Vector表示一个序列向量,Convolutional Layer表示CNN层,;
图3是本发明所构建的用于特征向量提取的CNN层的结构图;
图4是本发明所构建的Identification-Verification的示意图,Identification-Verification模型图表示“识别-验证”联合损失函数模型图,其中,oneimage sequence表示一个图像序列,one pair of image sequence表示一对图像序列,Feature Embedding表示特征融合,Extract Local Feature表示提取局部特征,Similarity Measurement表示相似度量,VolleyballSpiking表示打排球特征类别,Typing表示打字特征类别,ThrowDiscus表示扔铁饼特征类别,TennisSwing表示打网球特征类别,TableTennisShot表示打台球特征类别,Same表示相同,Different表示不同;IntermediaLayer表示中间层。
具体实施方式
下面将结合附图及具体实施方式对本发明作进一步的描述。
一种基于循环卷积神经网络的人体动作识别方法能够广泛地应用于基于视频的类别相似度识别,包括如下步骤:
S1、构建数据集,即从公开数据集中随机选择长度相同的序列对,各序列中的每帧包括RGB图像和光流图像;所述公开数据集为UCF101-split1数据集、HMDB51数据集、UCFSPORT数据集或UCF11数据集,其中,序列对中的两动作片段是来自同一动作类别或来自不同动作类别。具体为:首先将公开数据集中的视频序列切割成固定长度的动作片段(segment),得到多个序列,随机选择一对segment,即序列对,此序列对可以是来自同一动作类别(Positive Pairs),如都是化妆的动作类别,也可以是不同动作类别(NegativePairs),如一段是来自化妆的动作类别,一段是来自弹吉他的动作类别。此外,考虑RGB图像和Optical flow(光流图像)对于人体动作的不同描述能力,其中,RGB图像表征人体动作的表观信息,包括颜色、形状等,而光流图像更多的表征人体的运动信息,将两者结合进一步通过深度卷积神经网络挖掘人体动作的表观和运动信息,能够更好的实现对人体动作的判别。
S2、构建深度卷积神经网络,即构建孪生网络,孪生网络中的各网络依次包括CNN层、RNN层和Temporal Pooling层,其中,CNN层是指卷积神经网络层,RNN层是指循环神经网络层(是现有的网络结构),Temporal Pooling层是指时序池化层;
CNN层依次包括四层,第一层依次包括第一卷积层、第一最大池化层和第一全连接层,第二层依次包括第二卷积层、第二最大池化层和第二全连接层,第三层为第三卷积层,第四层为Dropout层,其中,第一卷积层包括16个卷积核,各卷积核大小为5×5,步长为1,第二卷积层包括32个卷积核,各卷积核大小为5×5,步长为1,第三卷积层包括32个卷积核,各卷积核大小为5×5,步长为1,第一最大池化层和第二最大池化层的核大小为2×2,步长为1,其中,全连接层即为非线性激活函数。加入Dropout层,即在CNN层与RNN层之间加入Dropout层,用来防止网络过拟合。
RNN层中的循环卷积神经网络RNN,主要使用卷积神经网络来解决任意长度的时间序列问题。RNN不同于CNN之处在于它能对时间序列的变化进行建模,在CNN中,每层神经元的信号只能向上一层传播,样本的处理在各个时刻是独立的,因此CNN又被称作前向神经网络(Feed-forward Neural Networks)。而在RNN中,神经元的输出可以在下一个时间段直接作用到自身,即第i层神经元在m时刻的输入,除了与第i-1层神经元在该时刻的输出有关外,还包括其自身在m-1时刻的输出。
深度卷积神经网络的实现步骤如下:
S2.1、将序列对分别输入到孪生网络中的第一层,即一个序列输入一个网络将第一层输出的结果输入第二层,其中,第一层和第二层的具体执行公式如下:
C′(S(t))=Tanh(Maxpool(Conv(S(t)))),
其中,S(t)表示输入第一层的第t帧RGB图像和光流图像,或输入第二层的第t帧第一层输出结果,Maxpool(Conv(S(t))表示被卷积层处理后的Conv(S(t))被最大池化层处理,Tanh(Maxpool(Conv(S(t))))表示被最大池化层处理后的Maxpool(Conv(S(t))被全连接层处理;
第二层处理后进行第三层处理,第t帧的RGB图像和光流图像像经过CNN层处理后,Dropout层输出f(t)=C(S(t));
S2.2、将各输出f(t)输入RNN层进行处理,得到时间序列{O(1)…O(T)},具体处理公式为:
O(t)=Wif(t)+Wsr(t-1)
r(t)=Tanh(O(t))
其中,输出O(t)∈Re×1,包含当前时刻输入RGB图像和光流图像的信息f(t)∈RN×1和上一时刻RNN的状态信息r(t-1)∈Re×1,Wi∈Re×N和Ws∈Re×e输出通过全连接计算得到,即是对之前CNN以及RNN提取到的特征进行分类得到,Wi为第i个元素的权重,Ws为第s个元素的权重;e为特征向量嵌入的维度,N为CNN层最后一层输出特征向量的维度,r(0)表示RNN层的初始状态,初始化为0向量;
S2.3、尽管通过RNN层可以捕捉到人体动作的时序信息,由于RNN层的输出更偏向于后面时刻,使得后面时刻序列的信息相比较于前面时刻更占优势,但是与动作相关的显著帧不仅仅出现在序列结尾时刻,它可能出现在序列的任何位置,因此这将会降低RNN层在建模整个时序信息的有效性。其次,对于序列的分析通常需要提取不同时间尺度的信息。
针对RNN层带来的以上问题,我们在网络结构上增加了temporal pooling层,该层可以使得信息在时间维度上聚合,在一定程度上避免了RNN层的输出偏向后面时刻的问题。此外,temporal pooling层通过结合Optical flow短时数据输入和RNN层,可以捕捉到序列中存在的长时间信息,进而实现对输入信号的多尺度时序信息建模。具体如下:
将时间序列{O(1)…O(T)}进行Temporal Pooling层操作,即依次进行mean-pooling操作和max-pooling操作,将特征向量在时间维度上进行聚合得到固定长度的特征表示,时间维度即指时间序列{O(1)…O(T)},其中,特征向量为第一卷积层和第二卷积层输出的结果。
所述mean-pooling操作是指将输入的所有特征向量分成几部分(如4、5或6部分)在时间维度进行求平均操作,其中,特征向量为第一卷积层和第二卷积层输出的结果,即:
Figure GDA0003645366110000071
Figure GDA0003645366110000072
表示CNN层输出的第t帧中某一部分的W个特征向量之和,所有特征向量在时间维度进行求平均操作后,得到[O(1),i,O(2),i,…,O(T),i],表示第i部分在时间序列上的平均值;
max-pooling是指最大池化层,用于选取mean-pooling操作后结果中的最大值作为该区域池化后的值,即:
Figure GDA0003645366110000073
其中,
Figure GDA0003645366110000074
是第i个元素分量的特征向量,第i个元素分量即指第i部分,对于任一序列中的一帧RGB图像和光流图像经过深度卷积神经网络的输出记作
Figure GDA0003645366110000075
S3、如图1所示,网络结构中的CNN层、RNN层以及temporal pooling层作为特征提取器,我们使用双路权值共享的特征提取网络构建孪生网络(Siamese Network)。给定一对序列对输入,用于特征提取的子网络能够分别映射出一对与输入相对应的特征向量,我们使用欧式距离度量两个向量之间的相似性。网络训练阶段,能够使得相同类别的输入更加相似,同时使得不同类别的输入之间的差异性性增大,即达到增大类间、减小类内差异的目的。
构建深度卷积神经网络后,构建“识别-验证”联合损失函数;如图4所示,Siamese网络包括Identification Model和Verification Model,其中Identification Model是识别损失函数的网络结构,用来预测单个输入序列的类别,属于多分类任务;VerificationModel是识别损失函数的网络结构,用欧式距离函数度量两个输入序列的相似性问题,属于二分类任务。
具体步骤为:
S3.1、构建两个与孪生网络相对应的识别损失函数,即序列对(Sz,Sn)经过深度卷积神经网络得到基于序列对的特征向量表示分别为:vz=R(Sz),vn=R(Sn),采用标准的交叉熵损失或softmax损失作为识别损失函数,即Identification Model损失函数,记作Identification Cost,表示如下:
Figure GDA0003645366110000081
Figure GDA0003645366110000082
其中,k为动作类别数,q为某一动作类别,Wc和Wk表示交叉熵或softmax权重矩阵W的第c和第k分量;
S3.2、构建一个验证损失函数,即序列对(Sz,Sn)经过深度卷积神经网络得到基于序列对的特征向量表示分别为:vz=R(Sz),vn=R(Sn),如下函数作为验证损失函数,即Verification Model损失函数,记作Siamese Cost,表示如下:
Figure GDA0003645366110000083
其中,‖vz-vn‖表示两个特征向量之间的欧式距离,当类别z=n时,上述函数使得vz与vn之间的欧式距离很近;当类别z≠n时,上述函数使得vz与vn之间被margin值m分隔开;
S3.3、构建好识别损失函数和验证损失函数得到“识别-验证”联合损失函数,具体表示如下:
Q(Sz,Sn)=E(R(Sz),R(Sn))+I(R(Sz))+I(R(Sn))
其中,Q(Sz,Sn)表示“识别-验证”联合损失函数,E(R(Sz),R(Sn))表示验证损失函数;I(R(Sz))+I(R(Sn))表示识别损失函数。
S4、基于数据集(作为训练集)训练构建好的深度卷积神经网络和“识别-验证”联合损失函数,得到训练好的深度卷积神经网络和训练好的“识别-验证”联合损失函数;
S5、基于待识别的人体动作序列对的RGB图像和光流图像,依次经过训练好的深度卷积神经网络和构建好的“识别-验证”联合损失函数,得到序列对的动作类别相似度识别结果。其中,深度卷积神经网络在训练阶段优化Identification Cost和Siamese Cost。
即从公开数据集中提取数据集作为测试集,将测试集中的人体动作序列对进行动作类别相似度识别。测试后可用于其它序列对的动作类别相似度判断。
以上仅是本发明众多具体应用范围中的代表性实施例,对本发明的保护范围不构成任何限制。凡采用变换或是等效替换而形成的技术方案,均落在本发明权利保护范围之内。

Claims (6)

1.一种基于循环卷积神经网络的人体动作识别方法,其特征在于,包括如下步骤:
S1、构建数据集,即从公开数据集中随机选择长度相同的序列对,各序列中的每帧包括RGB图像和光流图像;
S2、构建深度卷积神经网络,即构建孪生网络,孪生网络中的各网络依次包括CNN层、RNN层和Temporal Pooling层,其中,CNN层是指卷积神经网络层,RNN层是指循环神经网络层,Temporal Pooling层是指时序池化层;
所述步骤S2中深度卷积神经网络的实现步骤如下:
S2.1、将序列对分别输入到孪生网络中的第一层,即一个序列输入一个网络,将第一层输出的结果输入第二层,其中,第一层和第二层的具体执行公式如下:
C′(S(t))=Tanh(Maxpool(Conv(S(t)))),
其中,S(t)表示输入第一层的第t帧RGB图像和光流图像,或输入第二层的第t帧第一层输出结果,Maxpool(Conv(S(t))表示被卷积层处理后的Conv(S(t))被最大池化层处理,Tanh(Maxpool(Conv(S(t))))表示被最大池化层处理后的Maxpool(Conv(S(t))被全连接层处理;
第二层处理后进行第三层处理,第t帧的RGB图像和光流图像经过CNN层处理后,Dropout层输出f(t)=C(S(t));
s2.2、将各帧输出f(t)输入RNN层进行处理,得到时间序列{O(1)...O(T)},具体处理公式为:
O(t)=Wif(t)+Wsr(t-1)
r(t)=Tanh(O(t))
其中,输出O(t)∈Re×1,包含当前时刻输入RGB图像和光流图像的信息f(t)∈RN×1和上一时刻RNN的状态信息r(t-1)∈Re×1,Wi∈Re×N和Ws∈Re×e输出通过全连接计算得到,即是对之前CNN以及RNN提取到的特征进行分类得到,Wi为第i个元素的权重,Ws为第s个元素的权重;e为特征向量嵌入的维度,N为CNN层最后一层输出特征向量的维度,r(0)表示RNN层的初始状态,初始化为0向量;
s2.3、将时间序列{O(1)...O(T)}对应的CNN层输出的特征向量进行Temporal Pooling层操作,即依次进行mean-pooling操作和max-pooling操作,将特征向量在时间维度上进行聚合得到固定长度的特征表示,时间维度即指时间序列{O(1)...O(T)};
S3、构建深度卷积神经网络后,构建“识别-验证”联合损失函数;
S4、基于数据集训练构建好的深度卷积神经网络和“识别-验证”联合损失函数,得到训练好的深度卷积神经网络和训练好的“识别-验证”联合损失函数;
S5、基于待识别的人体动作序列对的RGB图像和光流图像,依次经过训练好的深度卷积神经网络和训练好的“识别-验证”联合损失函数,得到序列对的动作类别相似度识别结果。
2.根据权利要求1所述的一种基于循环卷积神经网络的人体动作识别方法,其特征在于,所述步骤S1中的公开数据集为UCF101-split1数据集、HMDB51数据集、UCF SPORT数据集或UCF11数据集,其中,序列对中的两动作片段是来自同一动作类别或来自不同动作类别。
3.根据权利要求1所述的一种基于循环卷积神经网络的人体动作识别方法,其特征在于,所述步骤S2中,CNN层依次包括四层,第一层依次包括第一卷积层、第一最大池化层和第一全连接层,第二层依次包括第二卷积层、第二最大池化层和第二全连接层,第三层为第三卷积层,第四层为Dropout层,其中,第一卷积层包括16个卷积核,各卷积核大小为5×5,步长为1,第二卷积层包括32个卷积核,各卷积核大小为5×5,步长为1,第三卷积层包括32个卷积核,各卷积核大小为5×5,步长为1,第一最大池化层和第二最大池化层的核大小为2×2,步长为1,其中,全连接层即为非线性激活函数。
4.根据权利要求1所述的一种基于循环卷积神经网络的人体动作识别方法,其特征在于,所述mean-pooling操作是指将输入的所有特征向量分成几部分后在时间维度进行求平均操作,其中,特征向量为CNN层输出的结果,即:
Figure FDA0003645366100000021
Figure FDA0003645366100000022
表示CNN层输出的第t帧中某一部分的W个特征向量之和,所有特征向量在时间维度进行求平均操作后,得到[O(1),i,O(2),i,...,O(T),i],表示第i部分在时间序列上的平均值;
max-pooling是指最大池化层,用于选取mean-pooling操作后结果中的最大值作为该区域池化后的值,即:
Figure FDA0003645366100000023
其中,
Figure FDA0003645366100000024
是第i个元素分量的特征向量,第i个元素分量即指第i部分,对于任一序列中的一帧RGB图像和光流图像经过深度卷积神经网络的输出记作
Figure FDA0003645366100000025
5.根据权利要求4所述的一种基于循环卷积神经网络的人体动作识别方法,其特征在于,所述步骤S3的具体步骤为:
S3.1、构建两个与孪生网络相对应的识别损失函数,即序列对(Sz,Sn)经过深度卷积神经网络得到基于序列对的特征向量表示分别为:vz=R(Sz),vn=R(Sn),采用标准的交叉熵损失或softmax损失作为识别损失函数,即ldentification Model损失函数,记作ldentification Cost,表示如下:
Figure FDA0003645366100000031
Figure FDA0003645366100000032
其中,k为动作类别数,q为某一动作类别,Wc和Wk表示交叉熵或softmax权重矩阵W的第c和第k分量;
S3.2、构建一个验证损失函数,即序列对(Sz,Sn)经过深度卷积神经网络得到基于序列对的特征向量表示分别为:vz=R(Sz),vn=R(Sn),如下函数作为验证损失函数,即Verification Model损失函数,记作Siamese Cost,表示如下:
Figure FDA0003645366100000033
其中,||vz-vn||表示两个特征向量之间的欧式距离,当类别z=n时,上述函数使得vz与vn之间的欧式距离很近;当类别z≠n时,上述函数使得vz与vn之间被margin值m分隔开;
S3.3、构建好识别损失函数和验证损失函数得到“识别-验证”联合损失函数,具体表示如下:
Q(Sz,Sn)=E(R(Sz),R(Sn))+I(R(Sz))+I(R(Sn))
其中,Q(Sz,Sn)表示“识别-验证”联合损失函数,E(R(Sz),R(Sn))表示验证损失函数;I(R(Sz))+I(R(Sn))表示识别损失函数。
6.根据权利要求1所述的一种基于循环卷积神经网络的人体动作识别方法,其特征在于,所述步骤S4的具体步骤为:
深度卷积神经网络在训练阶段优化ldentification Cost和Siamese Cost。
CN201910794952.8A 2019-08-27 2019-08-27 基于循环卷积神经网络的人体动作识别方法 Active CN110503053B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910794952.8A CN110503053B (zh) 2019-08-27 2019-08-27 基于循环卷积神经网络的人体动作识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910794952.8A CN110503053B (zh) 2019-08-27 2019-08-27 基于循环卷积神经网络的人体动作识别方法

Publications (2)

Publication Number Publication Date
CN110503053A CN110503053A (zh) 2019-11-26
CN110503053B true CN110503053B (zh) 2022-07-08

Family

ID=68589690

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910794952.8A Active CN110503053B (zh) 2019-08-27 2019-08-27 基于循环卷积神经网络的人体动作识别方法

Country Status (1)

Country Link
CN (1) CN110503053B (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111079928B (zh) * 2019-12-14 2023-07-07 大连大学 基于对抗学习的循环神经网络用于人体运动预测方法
CN111199202B (zh) * 2019-12-30 2024-04-26 南京师范大学 基于循环注意力网络的人体动作识别方法及识别装置
CN111401422B (zh) * 2020-03-09 2024-03-08 南京览笛信息科技有限公司 一种基于多角度深度推理的深度网络图像分类方法
IT202000011569A1 (it) * 2020-05-19 2021-11-19 Ikonic S R L Sistema e procedimento di profilazione
CN111666852A (zh) * 2020-05-28 2020-09-15 天津大学 一种基于卷积神经网络的微表情双流网络识别方法
CN111985332B (zh) * 2020-07-20 2024-05-10 浙江工业大学 一种基于深度学习的改进损失函数的步态识别方法
CN112345952A (zh) * 2020-09-23 2021-02-09 上海电享信息科技有限公司 动力电池老化程度判断方法
CN112183338B (zh) * 2020-09-28 2021-06-15 广东石油化工学院 一种基于视频的烟雾场景下人的再识别方法、系统及终端
CN112633104B (zh) * 2020-12-15 2023-04-07 西安理工大学 孪生级联柔性最大网络的多主体运动想象识别模型及方法
CN112560784B (zh) * 2020-12-25 2023-06-20 华南理工大学 一种基于动态多尺度卷积神经网络的心电图分类方法
CN112686898B (zh) * 2021-03-15 2021-08-13 四川大学 一种基于自监督学习的放疗靶区自动分割方法
CN113033460A (zh) * 2021-04-09 2021-06-25 昆明理工大学 一种基于孪生网络的联合损失遥感图像分类方法
CN113850243A (zh) * 2021-11-29 2021-12-28 北京的卢深视科技有限公司 模型训练、人脸识别方法、电子设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108805078A (zh) * 2018-06-11 2018-11-13 山东大学 基于行人平均状态的视频行人再识别方法及系统
CN108830157A (zh) * 2018-05-15 2018-11-16 华北电力大学(保定) 基于注意力机制和3d卷积神经网络的人体行为识别方法
CN108921107A (zh) * 2018-07-06 2018-11-30 北京市新技术应用研究所 基于排序损失和Siamese网络的行人再识别方法
CN110084215A (zh) * 2019-05-05 2019-08-02 上海海事大学 一种二值化三元组孪生网络模型的行人重识别方法及系统
CN110110576A (zh) * 2019-01-03 2019-08-09 北京航空航天大学 一种基于孪生语义网络的交通场景热红外语义生成方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10223612B2 (en) * 2016-09-01 2019-03-05 Microsoft Technology Licensing, Llc Frame aggregation network for scalable video face recognition
US9940534B1 (en) * 2016-10-10 2018-04-10 Gyrfalcon Technology, Inc. Digital integrated circuit for extracting features out of an input image based on cellular neural networks

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108830157A (zh) * 2018-05-15 2018-11-16 华北电力大学(保定) 基于注意力机制和3d卷积神经网络的人体行为识别方法
CN108805078A (zh) * 2018-06-11 2018-11-13 山东大学 基于行人平均状态的视频行人再识别方法及系统
CN108921107A (zh) * 2018-07-06 2018-11-30 北京市新技术应用研究所 基于排序损失和Siamese网络的行人再识别方法
CN110110576A (zh) * 2019-01-03 2019-08-09 北京航空航天大学 一种基于孪生语义网络的交通场景热红外语义生成方法
CN110084215A (zh) * 2019-05-05 2019-08-02 上海海事大学 一种二值化三元组孪生网络模型的行人重识别方法及系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Lichao Mou等.Deep Recurrent Neural Networks for Hyperspectral Image Classification.《IEEE transactions on geoscience and remote sensing》.2017,第55卷(第7期), *
Wen Wang等.A Discriminatively Learned CNN Embedding For Remote Sensing Image Scene Classification.《2019 IEEE IGARSS》.2019, *
Wen Wang等.Temporal Action Detection by Joint Identification-Verification.《2018 24th ICPR》.2019, *

Also Published As

Publication number Publication date
CN110503053A (zh) 2019-11-26

Similar Documents

Publication Publication Date Title
CN110503053B (zh) 基于循环卷积神经网络的人体动作识别方法
Fang et al. Pairwise body-part attention for recognizing human-object interactions
Zeng et al. Breaking winner-takes-all: Iterative-winners-out networks for weakly supervised temporal action localization
Sharma et al. Action recognition using visual attention
Wang et al. Actions~ transformations
de Melo et al. Combining global and local convolutional 3d networks for detecting depression from facial expressions
CN108765394B (zh) 基于质量评价的目标识别方法
CN109543602B (zh) 一种基于多视角图像特征分解的行人再识别方法
CN113496217B (zh) 视频图像序列中人脸微表情识别方法
CN111709311B (zh) 一种基于多尺度卷积特征融合的行人重识别方法
Abdelbaky et al. Two-stream spatiotemporal feature fusion for human action recognition
Prakash et al. Face recognition with convolutional neural network and transfer learning
Zhang et al. Facial smile detection based on deep learning features
Manttari et al. Interpreting video features: A comparison of 3D convolutional networks and convolutional LSTM networks
CN111339908A (zh) 基于多模态信息融合与决策优化的组群行为识别方法
CN112200096B (zh) 基于压缩视频实现实时异常行为识别的方法、装置及其存储介质
Gao et al. A novel multiple-view adversarial learning network for unsupervised domain adaptation action recognition
CN115063832A (zh) 一种基于全局与局部特征的对抗学习跨模态行人重识别方法
Engoor et al. Occlusion-aware dynamic human emotion recognition using landmark detection
Rahman et al. Deepgrip: cricket bowling delivery detection with superior cnn architectures
CN115169386A (zh) 一种基于元注意力机制的弱监督增类活动识别方法
Wang et al. Pose-based two-stream relational networks for action recognition in videos
Hou et al. A face detection algorithm based on two information flow block and retinal receptive field block
Shen et al. Recognizing scoring in basketball game from AER sequence by spiking neural networks
Rao et al. Video-based person re-identification using spatial-temporal attention networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant