CN110503053A - 基于循环卷积神经网络的人体动作识别方法 - Google Patents

基于循环卷积神经网络的人体动作识别方法 Download PDF

Info

Publication number
CN110503053A
CN110503053A CN201910794952.8A CN201910794952A CN110503053A CN 110503053 A CN110503053 A CN 110503053A CN 201910794952 A CN201910794952 A CN 201910794952A CN 110503053 A CN110503053 A CN 110503053A
Authority
CN
China
Prior art keywords
layer
identification
layers
verifying
indicate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910794952.8A
Other languages
English (en)
Other versions
CN110503053B (zh
Inventor
程建
高银星
汪雯
苏炎洲
白海伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN201910794952.8A priority Critical patent/CN110503053B/zh
Publication of CN110503053A publication Critical patent/CN110503053A/zh
Application granted granted Critical
Publication of CN110503053B publication Critical patent/CN110503053B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/23Recognition of whole body movements, e.g. for sport training

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于循环卷积神经网络的人体动作识别方法,属于图像分类、模式识别与机器学习领域,解决因动作类别内部以及类别之间的变化或视频是由连续帧组成会造成人体动作识别精度低等问题。本发明构建数据集,即从公开数据集中随机选择长度相同的序列对,各序列中的每帧包括RGB图像和光流图像;构建孪生网络,孪生网络中的各网络依次包括CNN层、RNN层和Temporal Pooling层;构建“识别‑验证”联合损失函数;基于数据集训练构建好的深度卷积神经网络和“识别‑验证”联合损失函数;基于待识别的人体动作序列对,依次经过训练好的深度卷积神经网络和训练好的“识别‑验证”联合损失函数,得到序列对的动作类别识别结果。本发明用于图像中的人体动作识别。

Description

基于循环卷积神经网络的人体动作识别方法
技术领域
一种基于循环卷积神经网络的人体动作识别方法,用于图像中的人体动作识别,属于图 像分类、模式识别与机器学习领域。
背景技术
人体动作识别是计算机视觉与机器学习领域的热点和前沿研究主题之一,在智能视频监 控、智能人机交互、基于内容的视频分析等方面有着广泛的应用前景。
基于视频的人体动作识别要解决的主要问题是通过计算机对传感器(摄像机)采集的原 始图像或图像序列数据进行处理和分析,学习并理解其中人的动作和行为。人体动作识别主 要包含以下三个步骤:首先是从图像帧中检测表观和运动信息并提取底层特征;然后对行为 模式或者动作进行建模;最后是将提取的底层特征与动作行为类别等高层语义信息之间的对 应关系,实现对人体动作的分类和识别。尽管近年来国内外人体动作行为识别的研究取得了 重要进展,但人体运动的高复杂性和多变化性使得识别的精确性和高效性并没有完全满足相 关行业的实用要求。现有技术中的人体动作识别方法存在如下不足之处:(1)动作类型内部 以及类型之间的变化。对于同一动作类别,由于人体尺度的变化,即使是同一个人做同一个 动作,在视频中的表现也不一样。此外,由于动作类别之间的相似性,也会使得不同动作类 别在视频中表现出一定的相似性。如何衡量动作之间的差异性是实现动作分类的关键挑战; (2)由于视频是由连续帧组成,即表征了人体动作的连续性,基于单帧图像的表观信息忽略 了动作本身的运动信息,严重影像了动作识别的精度,如何利用帧与帧之间的时序信息实现 对人体动作的有效识别是目前面临的又一挑战。
发明内容
针对上述研究的问题,本发明的目的在于提供一种基于循环卷积神经网络的人体动作识 别方法,解决现有技术中,因动作类别内部以及类别之间的变化或视频是由连续帧组成会造 成人体动作识别精度低等问题。
为了达到上述目的,本发明采用如下技术方案:
一种基于循环卷积神经网络的人体动作识别方法,包括如下步骤:
S1、构建数据集,即从公开数据集中随机选择长度相同的序列对,各序列中的每帧包括 RGB图像和光流图像;
S2、构建深度卷积神经网络,即构建孪生网络,孪生网络中的各网络依次包括CNN层、RNN层和Temporal Pooling层,其中,CNN层是指卷积神经网络层,RNN层是指循环神经网络层,Temporal Pooling层是指时序池化层;
S3、构建深度卷积神经网络后,构建“识别-验证”联合损失函数;
S4、基于数据集训练构建好的深度卷积神经网络和“识别-验证”联合损失函数,得到训 练好的深度卷积神经网络和训练好的“识别-验证”联合损失函数;
S5、基于待识别的人体动作序列对的RGB图像和光流图像,依次经过训练好的深度卷积 神经网络和训练好的“识别-验证”联合损失函数,得到序列对的动作类别相似度识别结果。
进一步,所述步骤S1中的公开数据集为UCF101-split1数据集、HMDB51数据集、UCFSPORT 数据集或UCF11数据集,其中,序列对中的两动作片段是来自同一动作类别或来自不同动作 类别。
进一步,所述步骤S2中,CNN层依次包括四层,第一层依次包括第一卷积层、第一最大 池化层和第一全连接层,第二层依次包括第二卷积层、第二最大池化层和第二全连接层,第 三层为第三卷积层,第四层为Dropout层,其中,第一卷积层包括16个卷积核,各卷积核大 小为5×5,步长为1,第二卷积层包括32个卷积核,各卷积核大小为5×5,步长为1,第三 卷积层包括32个卷积核,各卷积核大小为5×5,步长为1,第一最大池化层和第二最大池化 层的核大小为2×2,步长为1,其中,全连接层即为非线性激活函数。
进一步,所述步骤S2中深度卷积神经网络的实现步骤如下:
S2.1、将序列对分别输入到孪生网络中的第一层,即一个序列输入一个网络,将第一层 输出的结果输入第二层,其中,第一层和第二层的具体执行公式如下:
C′(S(t))=Tanh(Maxpool(Conv(S(t)))),
其中,S(t)表示输入第一层的第t帧RGB图像和光流图像,或输入第二层的第t帧第一层输 出结果,Maxpool(Conv(S(t))表示被卷积层处理后的Conv(S(t))被最大池化层处理,Tanh(Maxpool(Conv(S(t))))表示被最大池化层处理后的Maxpool(Conv(S(t))被全连接层处理;
第二层处理后进行第三层处理,第t帧的RGB图像和光流图像像经过CNN层处理后,Dropout层输出f(t)=C(S(t));
S2.2、将各帧输出f(t)输入RNN层进行处理,得到时间序列{O(1)...O(T)},具体处理公式 为:
O(t)=Wif(t)+Wsr(t-1)
r(t)=Tanh(O(t))
其中,输出O(t)∈Re×1,包含当前时刻输入RGB图像和光流图像的信息f(t)∈RN×1和上一时 刻RNN的状态信息r(t-1)∈Re×1,Wi∈Re×N和Ws∈Re×e输出通过全连接计算得到,即是对之前 CNN以及RNN提取到的特征进行分类得到,Wi为第i个元素的权重,Ws为第s个元素的权重;e为 特征向量嵌入的维度,N为CNN层最后一层输出特征向量的维度,r(0)表示RNN层的初始状态, 初始化为0向量;
s2.3、将时间序列{O(1)...O(T)}对应的CNN层输出的特征向量进行TemporalPooling层 操作,即依次进行mean-pooling操作和max-pooling操作,将特征向量在时间维度上进行聚 合得到固定长度的特征表示,时间维度即指时间序列{O(1)...O(T)}。
进一步,所述mean-pooling操作是指将输入的所有特征向量分成几部分后在时间维度进 行求平均操作,其中,特征向量为CNN层输出的结果,即:
表示CNN层输出的第t帧中某一部分的W个特征向量之和,所有特征向量在时间 维度进行求平均操作后,得到[O(1),i,O(2),i,...,O(T),i],表示第i部分在时间序列上的平均值;
max-pooling是指最大池化层,用于选取mean-pooling操作后结果中的最大值作为该区 域池化后的值,即:
其中,是第i个元素分量的特征向量,第i个元素分量即指第i部分,对于任一序列中的 一帧RGB图像和光流图像经过深度卷积神经网络的输出记作
进一步,所述步骤S3的具体步骤为:
S3.1、构建两个与孪生网络相对应的识别损失函数,即序列对(Sz,Sn)经过深度卷积神 经网络得到基于序列对的特征向量表示分别为:vz=R(Sz),vn=R(Sn),采用标准的交叉熵 损失或softmax损失作为识别损失函数,即Identif ication Model损失函数,记作Identification Cost,表示如下:
其中,k为动作类别数,q为某一动作类别,Wc和Wk表示交叉熵或softmax权重矩阵W的 第c和第k分量;
S3.2、构建一个验证损失函数,即序列对(Sz,Sn)经过深度卷积神经网络得到基于序列 对的特征向量表示分别为:vz=R(Sz),vn=R(Sn),如下函数作为验证损失函数,即Verification Model损失函数,记作Siamese Cost,表示如下:
其中,||vz-vn||表示两个特征向量之间的欧式距离,当类别z=n时,上述函数使得vz与 vn之间的欧式距离很近;当类别z≠n时,上述函数使得vz与vn之间被margin值m分隔开;
S3.3、构建好识别损失函数和验证损失函数得到“识别-验证”联合损失函数,具体表示 如下:
Q(Sz,Sn)=E(R(Sz),R(Sn))+I(R(Sz))+I(R(Sn))
其中,Q(Sz,Sn)表示“识别-验证”联合损失函数,E(R(Sz),R(Sn))表示验证损失函数; I(R(Sz))+I(R(Sn))表示识别损失函数。
进一步,所述步骤S4的具体步骤为:
深度卷积神经网络在训练阶段优化Identification Cost和Siamese Cost。
本发明同现有技术相比,其有益效果表现在:
一、本发明基于RGB图像和光流图像分别提供人体的表观和运动信息,将这两种互补的 信息作为深度卷积神经网络的输入,能够较好地捕捉人体动作的时序信息进而提高动作识别 的精度;
二、本发明中构建的深度卷积神经网络的CNN层和RNN层,能将任意长度的输入序列转 化为特定长度的特征向量输出,最后通过Temporal Pooling层将输出的特征在时间维度上进 行聚合,使得提取特征效果更好,从而检测结果更好;
三、本发明通过构建“识别-验证”联合损失函数,预测动作类别的同时,实现动作类内 差异最小化、类间差异最大化,可提高动作识别准确度。
四、本发明可以更好的识别动作类别之间的差异性以及相似性,以及更好的利用了帧间 的时序信息来更有效的识别。
附图说明
图1是本发明基于深度卷积神经网络的人体动作识别流程图,其中,Seq.feature表示序 列特征向量,Siamese cost表示:验证损失函数,Ident.cost表示识别损失函数;
图2是本发明中基于CNN层和RNN层的人体动作识别网络结构图,其中,OpticalFlow 表示光流图像,Filters表示核,Filter size表示核大小,Stride表示步长,maxpool或 Max-pooling Layer表示最大池化层,Fully Connected或Tanh Activation Funtion表示全 连接层,Sequence Vector表示一个序列向量,Convolutional Layer表示CNN层,;
图3是本发明所构建的用于特征向量提取的CNN层的结构图;
图4是本发明所构建的Identification-Verification的示意图,Identification-Verification模型图表示“识别-验证”联合损失函数模型图,其中,oneimage sequence表示一个图象序列,one pair of image sequence表示一对图像序列,Feature Embedding表示特征融合,Extract Local Feature表示提取局部特征,Similarity Measurement表示相似度量,Volleyball Spiking表示打排球特征类别,Typing表示打字特 征类别,ThrowDiscus表示扔铁饼特征类别,TennisSwing表示打网球特征类别, TableTennisShot表示打台球特征类别,Same表示相同,Different表示不同;Intermedia Layer表示中间层。
具体实施方式
下面将结合附图及具体实施方式对本发明作进一步的描述。
一种基于循环卷积神经网络的人体动作识别方法能够广泛地应用于基于视频的类别相似 度识别,包括如下步骤:
S1、构建数据集,即从公开数据集中随机选择长度相同的序列对,各序列中的每帧包括 RGB图像和光流图像;所述公开数据集为UCF101-split1数据集、HMDB51数据集、UCFSPORT 数据集或UCF11数据集,其中,序列对中的两动作片段是来自同一动作类别或来自不同动作 类别。具体为:首先将公开数据集中的视频序列切割成固定长度的动作片段(segment),得到 多个序列,随机选择一对segment,即序列对,此序列对可以是来自同一动作类别(Positive Pairs),如都是化妆的动作类别,也可以是不同动作类别(NegativePairs),如一段是来自 化妆的动作类别,一段是来自弹吉他的动作类别。此外,考虑RGB图像和Optical flow(光 流图像)对于人体动作的不同描述能力,其中,RGB图像表征人体动作的表观信息,包括颜 色、形状等,而光流图像更多的表征人体的运动信息,将两者结合进一步通过深度卷积神经 网络挖掘人体动作的表观和运动信息,能够更好的实现对人体动作的判别。
S2、构建深度卷积神经网络,即构建孪生网络,孪生网络中的各网络依次包括CNN层、 RNN层和Temporal Pooling层,其中,CNN层是指卷积神经网络层,RNN层是指循环神经网 络层(是现有的网络结构),Temporal Pooling层是指时序池化层;
CNN层依次包括四层,第一层依次包括第一卷积层、第一最大池化层和第一全连接层,第 二层依次包括第二卷积层、第二最大池化层和第二全连接层,第三层为第三卷积层,第四层 为Dropout层,其中,第一卷积层包括16个卷积核,各卷积核大小为5×5,步长为1,第二 卷积层包括32个卷积核,各卷积核大小为5×5,步长为1,第三卷积层包括32个卷积核, 各卷积核大小为5×5,步长为1,第一最大池化层和第二最大池化层的核大小为2×2,步长 为1,其中,全连接层即为非线性激活函数。加入Dropout层,即在CNN层与RNN层之间加入Dropout层,用来防止网络过拟合。
RNN层中的循环卷积神经网络RNN,主要使用卷积神经网络来解决任意长度的时间序列问 题。RNN不同于CNN之处在于它能对时间序列的变化进行建模,在CNN中,每层神经元的信 号只能向上一层传播,样本的处理在各个时刻是独立的,因此CNN又被称作前向神经网络 (Feed-forward Neural Networks)。而在RNN中,神经元的输出可以在下一个时间段直接作 用到自身,即第i层神经元在m时刻的输入,除了与第i-1层神经元在该时刻的输出有关外, 还包括其自身在m-1时刻的输出。
深度卷积神经网络的实现步骤如下:
S2.1、将序列对分别输入到孪生网络中的第一层,即一个序列输入一个网络将第一层输 出的结果输入第二层,其中,第一层和第二层的具体执行公式如下:
C′(S(t))=Tanh(Maxpool(Conv(S(t)))),
其中,S(t)表示输入第一层的第t帧RGB图像和光流图像,或输入第二层的第t帧第一层输 出结果,Maxpool(Conv(S(t))表示被卷积层处理后的Conv(S(t))被最大池化层处理,Tanh(Maxpool(Conv(S(t))))表示被最大池化层处理后的Maxpool(Conv(S(t))被全连接层处理;
第二层处理后进行第三层处理,第t帧的RGB图像和光流图像像经过CNN层处理后,Dropout层输出f(t)=C(S(t));
S2.2、将各输出f(t)输入RNN层进行处理,得到时间序列{O(1)...O(T)},具体处理公式为:
O(t)=Wif(t)+Wsr(t-1)
r(t)=Tanh(O(t))
其中,输出O(t)∈Re×1,包含当前时刻输入RGB图像和光流图像的信息f(t)∈RN×1和上一时 刻RNN的状态信息r(t-1)∈Re×1,Wi∈Re×N和Ws∈Re×e输出通过全连接计算得到,即是对之前 CNN以及RNN提取到的特征进行分类得到,Wi为第i个元素的权重,Ws为第s个元素的权重;e为 特征向量嵌入的维度,N为CNN层最后一层输出特征向量的维度,r(0)表示RNN层的初始状态, 初始化为0向量;
S2.3、尽管通过RNN层可以捕捉到人体动作的时序信息,由于RNN层的输出更偏向于后 面时刻,使得后面时刻序列的信息相比较于前面时刻更占优势,但是与动作相关的显著帧不 仅仅出现在序列结尾时刻,它可能出现在序列的任何位置,因此这将会降低RNN层在建模整 个时序信息的有效性。其次,对于序列的分析通常需要提取不同时间尺度的信息。
针对RNN层带来的以上问题,我们在网络结构上增加了temporal pooling层,该层可以 使得信息在时间维度上聚合,在一定程度上避免了RNN层的输出偏向后面时刻的问题。此外, temporal pooling层通过结合Optical flow短时数据输入和RNN层,可以捕捉到序列中存 在的长时间信息,进而实现对输入信号的多尺度时序信息建模。具体如下:
将时间序列{O(1)...O(T)}进行Temporal Pooling层操作,即依次进行mean-pooling操作 和max-pooling操作,将特征向量在时间维度上进行聚合得到固定长度的特征表示,时间维 度即指时间序列{O(1)...O(T)},其中,特征向量为第一卷积层和第二卷积层输出的结果。
所述mean-pooling操作是指将输入的所有特征向量分成几部分(如4、5或6部分)在 时间维度进行求平均操作,其中,特征向量为第一卷积层和第二卷积层输出的结果,即:
表示CNN层输出的第t帧中某一部分的W个特征向量之和,所有特征向量在时间 维度进行求平均操作后,得到[O(1),i,O(2),i,...,O(T),i],表示第i部分在时间序列上的平均值;
max-pooling是指最大池化层,用于选取mean-pooling操作后结果中的最大值作为该区 域池化后的值,即:
其中,是第i个元素分量的特征向量,第i个元素分量即指第i部分,对于任一序列中的 一帧RGB图像和光流图像经过深度卷积神经网络的输出记作S3、如 图1所示,网络结构中的CNN层、RNN层以及temporalpooling层作为特征提取器,我们使 用双路权值共享的特征提取网络构建孪生网络(Siamese Network)。给定一对序列对输入,用 于特征提取的子网络能够分别映射出一对与输入相对应的特征向量,我们使用欧式距离度量 两个向量之间的相似性。网络训练阶段,能够使得相同类别的输入更加相似,同时使得不同 类别的输入之间的差异性性增大,即达到增大类间、减小类内差异的目的。
构建深度卷积神经网络后,构建“识别-验证”联合损失函数;如图4所示,Siamese网 络包括Identification Model和Verification Model,其中Identification Model是识别 损失函数的网络结构,用来预测单个输入序列的类别,属于多分类任务;Verification Model 是识别损失函数的网络结构,用欧式距离函数度量两个输入序列的相似性问题,属于二分类 任务。
具体步骤为:
S3.1、构建两个与孪生网络相对应的识别损失函数,即序列对(Sz,Sn)经过深度卷积神 经网络得到基于序列对的特征向量表示分别为:vz=R(Sz),vn=R(Sn),采用标准的交叉熵 损失或softmax损失作为识别损失函数,即Identification Model损失函数,记作Identification Cost,表示如下:
其中,k为动作类别数,q为某一动作类别,Wc和Wk表示交叉熵或softmax权重矩阵W的 第c和第k分量;
S3.2、构建一个验证损失函数,即序列对(Sz,Sn)经过深度卷积神经网络得到基于序列 对的特征向量表示分别为:vz=R(Sz),vn=R(Sn),如下函数作为验证损失函数,即Verification Model损失函数,记作Siamese Cost,表示如下:
其中,||vz-vn||表示两个特征向量之间的欧式距离,当类别z=n时,上述函数使得vz与 vn之间的欧式距离很近;当类别z≠n时,上述函数使得vz与vn之间被margin值m分隔开;
S3.3、构建好识别损失函数和验证损失函数得到“识别-验证”联合损失函数,具体表示 如下:
Q(Sz,Sn)=E(R(Sz),R(Sn))+I(R(Sz))+I(R(Sn))
其中,Q(Sz,Sn)表示“识别-验证”联合损失函数,E(R(Sz),R(Sn))表示验证损失函数; I(R(Sz))+I(R(Sn))表示识别损失函数。
S4、基于数据集(作为训练集)训练构建好的深度卷积神经网络和“识别-验证”联合损 失函数,得到训练好的深度卷积神经网络和训练好的“识别-验证”联合损失函数;
S5、基于待识别的人体动作序列对的RGB图像和光流图像,依次经过训练好的深度卷积 神经网络和构建好的“识别-验证”联合损失函数,得到序列对的动作类别相似度识别结果。 其中,深度卷积神经网络在训练阶段优化Identifi cation Cost和Si amese Cost。
即从公开数据集中提取数据集作为测试集,将测试集中的人体动作序列对进行动作类别 相似度识别。测试后可用于其它序列对的动作类别相似度判断。
以上仅是本发明众多具体应用范围中的代表性实施例,对本发明的保护范围不构成任何 限制。凡采用变换或是等效替换而形成的技术方案,均落在本发明权利保护范围之内。

Claims (7)

1.一种基于循环卷积神经网络的人体动作识别方法,其特征在于,包括如下步骤:
S1、构建数据集,即从公开数据集中随机选择长度相同的序列对,各序列中的每帧包括RGB图像和光流图像;
S2、构建深度卷积神经网络,即构建孪生网络,孪生网络中的各网络依次包括CNN层、RNN层和Temporal Pooling层,其中,CNN层是指卷积神经网络层,RNN层是指循环神经网络层,Temporal Pooling层是指时序池化层;
S3、构建深度卷积神经网络后,构建“识别-验证”联合损失函数;
S4、基于数据集训练构建好的深度卷积神经网络和“识别-验证”联合损失函数,得到训练好的深度卷积神经网络和训练好的“识别-验证”联合损失函数;
S5、基于待识别的人体动作序列对的RGB图像和光流图像,依次经过训练好的深度卷积神经网络和训练好的“识别-验证”联合损失函数,得到序列对的动作类别相似度识别结果。
2.根据权利要求1所述的一种基于循环卷积神经网络的人体动作识别方法,其特征在于,所述步骤S1中的公开数据集为UCF101-split1数据集、HMDB51数据集、UCF SPORT数据集或UCF11数据集,其中,序列对中的两动作片段是来自同一动作类别或来自不同动作类别。
3.根据权利要求1所述的一种基于循环卷积神经网络的人体动作识别方法,其特征在于,所述步骤S2中,CNN层依次包括四层,第一层依次包括第一卷积层、第一最大池化层和第一全连接层,第二层依次包括第二卷积层、第二最大池化层和第二全连接层,第三层为第三卷积层,第四层为Dropout层,其中,第一卷积层包括16个卷积核,各卷积核大小为5×5,步长为1,第二卷积层包括32个卷积核,各卷积核大小为5×5,步长为1,第三卷积层包括32个卷积核,各卷积核大小为5×5,步长为1,第一最大池化层和第二最大池化层的核大小为2×2,步长为1,其中,全连接层即为非线性激活函数。
4.根据权利要求2或3所述的一种基于循环卷积神经网络的人体动作识别方法,其特征在于,所述步骤S2中深度卷积神经网络的实现步骤如下:
S2.1、将序列对分别输入到孪生网络中的第一层,即一个序列输入一个网络,将第一层输出的结果输入第二层,其中,第一层和第二层的具体执行公式如下:
C′(S(t))=Tanh(Maxpool(Conv(S(t)))),
其中,S(t)表示输入第一层的第t帧RGB图像和光流图像,或输入第二层的第t帧第一层输出结果,Maxpool(Conv(S(t))表示被卷积层处理后的Conv(S(t))被最大池化层处理,Tanh(Maxpool(Conv(S(t))))表示被最大池化层处理后的Maxpool(Conv(S(t))被全连接层处理;
第二层处理后进行第三层处理,第t帧的RGB图像和光流图像像经过CNN层处理后,Dropout层输出f(t)=C(S(t));
s2.2、将各帧输出f(t)输入RNN层进行处理,得到时间序列{O(1)...O(T)},具体处理公式为:
O(t)=Wif(t)+Wsr(t-1)
r(t)=Tanh(O(t))
其中,输出O(t)∈Re×1,包含当前时刻输入RGB图像和光流图像的信息f(t)∈RN×1和上一时刻RNN的状态信息r(t-1)∈Re×1,Wi∈Re×N和Ws∈Re×e输出通过全连接计算得到,即是对之前CNN以及RNN提取到的特征进行分类得到,Wi为第i个元素的权重,Ws为第s个元素的权重;e为特征向量嵌入的维度,N为CNN层最后一层输出特征向量的维度,r(0)表示RNN层的初始状态,初始化为0向量;
S2.3、将时间序列{O(1)...O(T)}对应的CNN层输出的特征向量进行Temporal Pooling层操作,即依次进行mean-pooling操作和max-pooling操作,将特征向量在时间维度上进行聚合得到固定长度的特征表示,时间维度即指时间序列{O(1)...O(T)}。
5.根据权利要求4所述的一种基于循环卷积神经网络的人体动作识别方法,其特征在于,所述mean-pooling操作是指将输入的所有特征向量分成几部分后在时间维度进行求平均操作,其中,特征向量为CNN层输出的结果,即:
表示CNN层输出的第t帧中某一部分的W个特征向量之和,所有特征向量在时间维度进行求平均操作后,得到[O(1),i,O(2),i,...,O(T),i],表示第i部分在时间序列上的平均值;
max-pooling是指最大池化层,用于选取mean-pooling操作后结果中的最大值作为该区域池化后的值,即:
其中,是第i个元素分量的特征向量,第i个元素分量即指第i部分,对于任一序列中的一帧RGB图像和光流图像经过深度卷积神经网络的输出记作
6.根据权利要求5所述的一种基于循环卷积神经网络的人体动作识别方法,其特征在于,所述步骤S3的具体步骤为:
S3.1、构建两个与孪生网络相对应的识别损失函数,即序列对(Sz,Sn)经过深度卷积神经网络得到基于序列对的特征向量表示分别为:vz=R(Sz),vn=R(Sn),采用标准的交叉熵损失或softmax损失作为识别损失函数,即Identification Model损失函数,记作Identification Cost,表示如下:
其中,k为动作类别数,q为某一动作类别,Wc和Wk表示交叉熵或softmax权重矩阵W的第c和第k分量;
S3.2、构建一个验证损失函数,即序列对(Sz,Sn)经过深度卷积神经网络得到基于序列对的特征向量表示分别为:vz=R(Sz),vn=R(Sn),如下函数作为验证损失函数,即Verification Model损失函数,记作Siamese Cost,表示如下:
其中,||vz-vn||表示两个特征向量之间的欧式距离,当类别z=n时,上述函数使得vz与vn之间的欧式距离很近;当类别z≠n时,上述函数使得vz与vn之间被margin值m分隔开;
S3.3、构建好识别损失函数和验证损失函数得到“识别-验证”联合损失函数,具体表示如下:
Q(Sz,Sn)=E(R(Sz),R(Sn))+I(R(Sz))+I(R(Sn))
其中,Q(Sz,Sn)表示“识别-验证”联合损失函数,E(R(Sz),R(Sn))表示验证损失函数;I(R(Sz))+I(R(Sn))表示识别损失函数。
7.根据权利要求7所述的一种基于循环卷积神经网络的人体动作识别方法,其特征在于,所述步骤S4的具体步骤为:
深度卷积神经网络在训练阶段优化Identification Cost和Siamese Cost。
CN201910794952.8A 2019-08-27 2019-08-27 基于循环卷积神经网络的人体动作识别方法 Active CN110503053B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910794952.8A CN110503053B (zh) 2019-08-27 2019-08-27 基于循环卷积神经网络的人体动作识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910794952.8A CN110503053B (zh) 2019-08-27 2019-08-27 基于循环卷积神经网络的人体动作识别方法

Publications (2)

Publication Number Publication Date
CN110503053A true CN110503053A (zh) 2019-11-26
CN110503053B CN110503053B (zh) 2022-07-08

Family

ID=68589690

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910794952.8A Active CN110503053B (zh) 2019-08-27 2019-08-27 基于循环卷积神经网络的人体动作识别方法

Country Status (1)

Country Link
CN (1) CN110503053B (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111079928A (zh) * 2019-12-14 2020-04-28 大连大学 基于对抗学习的循环神经网络用于人体运动预测方法
CN111199202A (zh) * 2019-12-30 2020-05-26 南京师范大学 基于循环注意力网络的人体动作识别方法及识别装置
CN111401422A (zh) * 2020-03-09 2020-07-10 南京览笛信息科技有限公司 一种基于多角度深度推理的深度网络图像分类方法
CN111666852A (zh) * 2020-05-28 2020-09-15 天津大学 一种基于卷积神经网络的微表情双流网络识别方法
CN111985332A (zh) * 2020-07-20 2020-11-24 浙江工业大学 一种基于深度学习的改进损失函数的步态识别方法
CN112183338A (zh) * 2020-09-28 2021-01-05 广东石油化工学院 一种基于视频的烟雾场景下人的再识别方法、系统及终端
CN112345952A (zh) * 2020-09-23 2021-02-09 上海电享信息科技有限公司 动力电池老化程度判断方法
CN112560784A (zh) * 2020-12-25 2021-03-26 华南理工大学 一种基于动态多尺度卷积神经网络的心电图分类方法
CN112633104A (zh) * 2020-12-15 2021-04-09 西安理工大学 孪生级联柔性最大网络的多主体运动想象识别模型及方法
CN112686898A (zh) * 2021-03-15 2021-04-20 四川大学 一种基于自监督学习的放疗靶区自动分割方法
CN113033460A (zh) * 2021-04-09 2021-06-25 昆明理工大学 一种基于孪生网络的联合损失遥感图像分类方法
IT202000011569A1 (it) * 2020-05-19 2021-11-19 Ikonic S R L Sistema e procedimento di profilazione
CN113850243A (zh) * 2021-11-29 2021-12-28 北京的卢深视科技有限公司 模型训练、人脸识别方法、电子设备及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180060698A1 (en) * 2016-09-01 2018-03-01 Microsoft Technology Licensing, Llc Frame aggregation network for scalable video face recognition
US20180101743A1 (en) * 2016-10-10 2018-04-12 Gyrfalcon Technology, Inc. Digital Integrated Circuit For Extracting Features Out Of An Input Image Based On Cellular Neural Networks
CN108805078A (zh) * 2018-06-11 2018-11-13 山东大学 基于行人平均状态的视频行人再识别方法及系统
CN108830157A (zh) * 2018-05-15 2018-11-16 华北电力大学(保定) 基于注意力机制和3d卷积神经网络的人体行为识别方法
CN108921107A (zh) * 2018-07-06 2018-11-30 北京市新技术应用研究所 基于排序损失和Siamese网络的行人再识别方法
CN110084215A (zh) * 2019-05-05 2019-08-02 上海海事大学 一种二值化三元组孪生网络模型的行人重识别方法及系统
CN110110576A (zh) * 2019-01-03 2019-08-09 北京航空航天大学 一种基于孪生语义网络的交通场景热红外语义生成方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180060698A1 (en) * 2016-09-01 2018-03-01 Microsoft Technology Licensing, Llc Frame aggregation network for scalable video face recognition
US20180101743A1 (en) * 2016-10-10 2018-04-12 Gyrfalcon Technology, Inc. Digital Integrated Circuit For Extracting Features Out Of An Input Image Based On Cellular Neural Networks
CN108830157A (zh) * 2018-05-15 2018-11-16 华北电力大学(保定) 基于注意力机制和3d卷积神经网络的人体行为识别方法
CN108805078A (zh) * 2018-06-11 2018-11-13 山东大学 基于行人平均状态的视频行人再识别方法及系统
CN108921107A (zh) * 2018-07-06 2018-11-30 北京市新技术应用研究所 基于排序损失和Siamese网络的行人再识别方法
CN110110576A (zh) * 2019-01-03 2019-08-09 北京航空航天大学 一种基于孪生语义网络的交通场景热红外语义生成方法
CN110084215A (zh) * 2019-05-05 2019-08-02 上海海事大学 一种二值化三元组孪生网络模型的行人重识别方法及系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
LICHAO MOU等: "Deep Recurrent Neural Networks for Hyperspectral Image Classification", 《IEEE TRANSACTIONS ON GEOSCIENCE AND REMOTE SENSING》, vol. 55, no. 7, 30 July 2017 (2017-07-30), XP011654096, DOI: 10.1109/TGRS.2016.2636241 *
WEN WANG等: "A Discriminatively Learned CNN Embedding For Remote Sensing Image Scene Classification", 《2019 IEEE IGARSS》, 1 July 2019 (2019-07-01) *
WEN WANG等: "Temporal Action Detection by Joint Identification-Verification", 《2018 24TH ICPR》, 1 August 2019 (2019-08-01) *

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111079928A (zh) * 2019-12-14 2020-04-28 大连大学 基于对抗学习的循环神经网络用于人体运动预测方法
CN111079928B (zh) * 2019-12-14 2023-07-07 大连大学 基于对抗学习的循环神经网络用于人体运动预测方法
CN111199202B (zh) * 2019-12-30 2024-04-26 南京师范大学 基于循环注意力网络的人体动作识别方法及识别装置
CN111199202A (zh) * 2019-12-30 2020-05-26 南京师范大学 基于循环注意力网络的人体动作识别方法及识别装置
CN111401422A (zh) * 2020-03-09 2020-07-10 南京览笛信息科技有限公司 一种基于多角度深度推理的深度网络图像分类方法
CN111401422B (zh) * 2020-03-09 2024-03-08 南京览笛信息科技有限公司 一种基于多角度深度推理的深度网络图像分类方法
IT202000011569A1 (it) * 2020-05-19 2021-11-19 Ikonic S R L Sistema e procedimento di profilazione
CN111666852A (zh) * 2020-05-28 2020-09-15 天津大学 一种基于卷积神经网络的微表情双流网络识别方法
CN111985332B (zh) * 2020-07-20 2024-05-10 浙江工业大学 一种基于深度学习的改进损失函数的步态识别方法
CN111985332A (zh) * 2020-07-20 2020-11-24 浙江工业大学 一种基于深度学习的改进损失函数的步态识别方法
CN112345952A (zh) * 2020-09-23 2021-02-09 上海电享信息科技有限公司 动力电池老化程度判断方法
CN112183338A (zh) * 2020-09-28 2021-01-05 广东石油化工学院 一种基于视频的烟雾场景下人的再识别方法、系统及终端
CN112633104A (zh) * 2020-12-15 2021-04-09 西安理工大学 孪生级联柔性最大网络的多主体运动想象识别模型及方法
CN112633104B (zh) * 2020-12-15 2023-04-07 西安理工大学 孪生级联柔性最大网络的多主体运动想象识别模型及方法
CN112560784B (zh) * 2020-12-25 2023-06-20 华南理工大学 一种基于动态多尺度卷积神经网络的心电图分类方法
CN112560784A (zh) * 2020-12-25 2021-03-26 华南理工大学 一种基于动态多尺度卷积神经网络的心电图分类方法
CN112686898B (zh) * 2021-03-15 2021-08-13 四川大学 一种基于自监督学习的放疗靶区自动分割方法
CN112686898A (zh) * 2021-03-15 2021-04-20 四川大学 一种基于自监督学习的放疗靶区自动分割方法
CN113033460A (zh) * 2021-04-09 2021-06-25 昆明理工大学 一种基于孪生网络的联合损失遥感图像分类方法
CN113850243A (zh) * 2021-11-29 2021-12-28 北京的卢深视科技有限公司 模型训练、人脸识别方法、电子设备及存储介质

Also Published As

Publication number Publication date
CN110503053B (zh) 2022-07-08

Similar Documents

Publication Publication Date Title
CN110503053A (zh) 基于循环卷积神经网络的人体动作识别方法
CN107330362B (zh) 一种基于时空注意力的视频分类方法
CN110188637A (zh) 一种基于深度学习的行为识别技术方法
Sun et al. Lattice long short-term memory for human action recognition
Molchanov et al. Online detection and classification of dynamic hand gestures with recurrent 3d convolutional neural network
CN110414432A (zh) 对象识别模型的训练方法、对象识别方法及相应的装置
CN106022220B (zh) 一种体育视频中对参赛运动员进行多人脸跟踪的方法
Tran et al. Two-stream flow-guided convolutional attention networks for action recognition
CN109101896A (zh) 一种基于时空融合特征和注意力机制的视频行为识别方法
CN109255284B (zh) 一种基于运动轨迹的3d卷积神经网络的行为识别方法
Cai et al. Deep historical long short-term memory network for action recognition
CN107741781A (zh) 无人机的飞行控制方法、装置、无人机及存储介质
CN110728183A (zh) 一种基于注意力机制的神经网络的人体动作识别方法
CN106909938A (zh) 基于深度学习网络的视角无关性行为识别方法
CN111339908A (zh) 基于多模态信息融合与决策优化的组群行为识别方法
CN108460399A (zh) 一种儿童积木搭建辅助方法及系统
Li et al. Modelling human body pose for action recognition using deep neural networks
Liu et al. Gaze-assisted multi-stream deep neural network for action recognition
CN110287829A (zh) 一种结合深度q学习和注意模型的视频人脸识别方法
Wang et al. Pose-based two-stream relational networks for action recognition in videos
Rahman et al. Deepgrip: cricket bowling delivery detection with superior cnn architectures
Makantasis et al. Privileged information for modeling affect in the wild
Liu et al. Action recognition for sports video analysis using part-attention spatio-temporal graph convolutional network
Tur et al. Isolated sign recognition with a siamese neural network of RGB and depth streams
Yip et al. Badminton smashing recognition through video performance by using deep learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant