CN110503053A

CN110503053A - 基于循环卷积神经网络的人体动作识别方法

Info

Publication number: CN110503053A
Application number: CN201910794952.8A
Authority: CN
Inventors: 程建; 高银星; 汪雯; 苏炎洲; 白海伟
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2019-08-27
Filing date: 2019-08-27
Publication date: 2019-11-26
Anticipated expiration: 2039-08-27
Also published as: CN110503053B

Abstract

本发明公开了一种基于循环卷积神经网络的人体动作识别方法，属于图像分类、模式识别与机器学习领域，解决因动作类别内部以及类别之间的变化或视频是由连续帧组成会造成人体动作识别精度低等问题。本发明构建数据集，即从公开数据集中随机选择长度相同的序列对，各序列中的每帧包括RGB图像和光流图像；构建孪生网络，孪生网络中的各网络依次包括CNN层、RNN层和Temporal Pooling层；构建“识别‑验证”联合损失函数；基于数据集训练构建好的深度卷积神经网络和“识别‑验证”联合损失函数；基于待识别的人体动作序列对，依次经过训练好的深度卷积神经网络和训练好的“识别‑验证”联合损失函数，得到序列对的动作类别识别结果。本发明用于图像中的人体动作识别。

Description

基于循环卷积神经网络的人体动作识别方法

技术领域

一种基于循环卷积神经网络的人体动作识别方法，用于图像中的人体动作识别，属于图像分类、模式识别与机器学习领域。

背景技术

人体动作识别是计算机视觉与机器学习领域的热点和前沿研究主题之一，在智能视频监控、智能人机交互、基于内容的视频分析等方面有着广泛的应用前景。

基于视频的人体动作识别要解决的主要问题是通过计算机对传感器(摄像机)采集的原始图像或图像序列数据进行处理和分析，学习并理解其中人的动作和行为。人体动作识别主要包含以下三个步骤：首先是从图像帧中检测表观和运动信息并提取底层特征；然后对行为模式或者动作进行建模；最后是将提取的底层特征与动作行为类别等高层语义信息之间的对应关系，实现对人体动作的分类和识别。尽管近年来国内外人体动作行为识别的研究取得了重要进展，但人体运动的高复杂性和多变化性使得识别的精确性和高效性并没有完全满足相关行业的实用要求。现有技术中的人体动作识别方法存在如下不足之处：(1)动作类型内部以及类型之间的变化。对于同一动作类别，由于人体尺度的变化，即使是同一个人做同一个动作，在视频中的表现也不一样。此外，由于动作类别之间的相似性，也会使得不同动作类别在视频中表现出一定的相似性。如何衡量动作之间的差异性是实现动作分类的关键挑战； (2)由于视频是由连续帧组成，即表征了人体动作的连续性，基于单帧图像的表观信息忽略了动作本身的运动信息，严重影像了动作识别的精度，如何利用帧与帧之间的时序信息实现对人体动作的有效识别是目前面临的又一挑战。

发明内容

针对上述研究的问题，本发明的目的在于提供一种基于循环卷积神经网络的人体动作识别方法，解决现有技术中，因动作类别内部以及类别之间的变化或视频是由连续帧组成会造成人体动作识别精度低等问题。

为了达到上述目的，本发明采用如下技术方案：

一种基于循环卷积神经网络的人体动作识别方法，包括如下步骤：

S1、构建数据集，即从公开数据集中随机选择长度相同的序列对，各序列中的每帧包括 RGB图像和光流图像；

S2、构建深度卷积神经网络，即构建孪生网络，孪生网络中的各网络依次包括CNN层、RNN层和Temporal Pooling层，其中，CNN层是指卷积神经网络层，RNN层是指循环神经网络层，Temporal Pooling层是指时序池化层；

S3、构建深度卷积神经网络后，构建“识别-验证”联合损失函数；

S4、基于数据集训练构建好的深度卷积神经网络和“识别-验证”联合损失函数，得到训练好的深度卷积神经网络和训练好的“识别-验证”联合损失函数；

S5、基于待识别的人体动作序列对的RGB图像和光流图像，依次经过训练好的深度卷积神经网络和训练好的“识别-验证”联合损失函数，得到序列对的动作类别相似度识别结果。

进一步，所述步骤S1中的公开数据集为UCF101-split1数据集、HMDB51数据集、UCFSPORT 数据集或UCF11数据集，其中，序列对中的两动作片段是来自同一动作类别或来自不同动作类别。

进一步，所述步骤S2中，CNN层依次包括四层，第一层依次包括第一卷积层、第一最大池化层和第一全连接层，第二层依次包括第二卷积层、第二最大池化层和第二全连接层，第三层为第三卷积层，第四层为Dropout层，其中，第一卷积层包括16个卷积核，各卷积核大小为5×5，步长为1，第二卷积层包括32个卷积核，各卷积核大小为5×5，步长为1，第三卷积层包括32个卷积核，各卷积核大小为5×5，步长为1，第一最大池化层和第二最大池化层的核大小为2×2，步长为1，其中，全连接层即为非线性激活函数。

进一步，所述步骤S2中深度卷积神经网络的实现步骤如下：

S2.1、将序列对分别输入到孪生网络中的第一层，即一个序列输入一个网络，将第一层输出的结果输入第二层，其中，第一层和第二层的具体执行公式如下：

C′(S^(t))＝Tanh(Maxpool(Conv(S^(t))))，

其中，S^(t)表示输入第一层的第t帧RGB图像和光流图像，或输入第二层的第t帧第一层输出结果，Maxpool(Conv(S^(t))表示被卷积层处理后的Conv(S^(t))被最大池化层处理，Tanh(Maxpool(Conv(S^(t))))表示被最大池化层处理后的Maxpool(Conv(S^(t))被全连接层处理；

第二层处理后进行第三层处理，第t帧的RGB图像和光流图像像经过CNN层处理后，Dropout层输出f^(t)＝C(S^(t))；

S2.2、将各帧输出f^(t)输入RNN层进行处理，得到时间序列{O⁽¹⁾...O^(T)}，具体处理公式为：

O^(t)＝W_if^(t)+W_sr^(t-1)

r^(t)＝Tanh(O^(t))

其中，输出O(^t)∈R^e×1，包含当前时刻输入RGB图像和光流图像的信息f^(t)∈R^N×1和上一时刻RNN的状态信息r^(t-1)∈R^e×1，W_i∈R^e×N和W_s∈R^e×e输出通过全连接计算得到，即是对之前 CNN以及RNN提取到的特征进行分类得到，W_i为第i个元素的权重，W_s为第s个元素的权重；e为特征向量嵌入的维度，N为CNN层最后一层输出特征向量的维度，r⁽⁰⁾表示RNN层的初始状态，初始化为0向量；

s2.3、将时间序列{O⁽¹⁾...O^(T)}对应的CNN层输出的特征向量进行TemporalPooling层操作，即依次进行mean-pooling操作和max-pooling操作，将特征向量在时间维度上进行聚合得到固定长度的特征表示，时间维度即指时间序列{O⁽¹⁾...O^(T)}。

进一步，所述mean-pooling操作是指将输入的所有特征向量分成几部分后在时间维度进行求平均操作，其中，特征向量为CNN层输出的结果，即：

表示CNN层输出的第t帧中某一部分的W个特征向量之和，所有特征向量在时间维度进行求平均操作后，得到[O^(1)，i，O^(2)，i，...，O^(T)，i]，表示第i部分在时间序列上的平均值；

max-pooling是指最大池化层，用于选取mean-pooling操作后结果中的最大值作为该区域池化后的值，即：

其中，是第i个元素分量的特征向量，第i个元素分量即指第i部分，对于任一序列中的一帧RGB图像和光流图像经过深度卷积神经网络的输出记作

进一步，所述步骤S3的具体步骤为：

S3.1、构建两个与孪生网络相对应的识别损失函数，即序列对(S_z，S_n)经过深度卷积神经网络得到基于序列对的特征向量表示分别为：v_z＝R(S_z)，v_n＝R(S_n)，采用标准的交叉熵损失或softmax损失作为识别损失函数，即Identif ication Model损失函数，记作Identification Cost，表示如下：

其中，k为动作类别数，q为某一动作类别，W_c和W_k表示交叉熵或softmax权重矩阵W的第c和第k分量；

S3.2、构建一个验证损失函数，即序列对(S_z，S_n)经过深度卷积神经网络得到基于序列对的特征向量表示分别为：v_z＝R(S_z)，v_n＝R(S_n)，如下函数作为验证损失函数，即Verification Model损失函数，记作Siamese Cost，表示如下：

其中，||v_z-v_n||表示两个特征向量之间的欧式距离，当类别z＝n时，上述函数使得v_z与 v_n之间的欧式距离很近；当类别z≠n时，上述函数使得v_z与v_n之间被margin值m分隔开；

S3.3、构建好识别损失函数和验证损失函数得到“识别-验证”联合损失函数，具体表示如下：

Q(S_z，S_n)＝E(R(S_z)，R(S_n))+I(R(S_z))+I(R(S_n))

其中，Q(S_z，S_n)表示“识别-验证”联合损失函数，E(R(S_z)，R(S_n))表示验证损失函数； I(R(S_z))+I(R(S_n))表示识别损失函数。

进一步，所述步骤S4的具体步骤为：

深度卷积神经网络在训练阶段优化Identification Cost和Siamese Cost。

本发明同现有技术相比，其有益效果表现在：

一、本发明基于RGB图像和光流图像分别提供人体的表观和运动信息，将这两种互补的信息作为深度卷积神经网络的输入，能够较好地捕捉人体动作的时序信息进而提高动作识别的精度；

二、本发明中构建的深度卷积神经网络的CNN层和RNN层，能将任意长度的输入序列转化为特定长度的特征向量输出，最后通过Temporal Pooling层将输出的特征在时间维度上进行聚合，使得提取特征效果更好，从而检测结果更好；

三、本发明通过构建“识别-验证”联合损失函数，预测动作类别的同时，实现动作类内差异最小化、类间差异最大化，可提高动作识别准确度。

四、本发明可以更好的识别动作类别之间的差异性以及相似性，以及更好的利用了帧间的时序信息来更有效的识别。

附图说明

图1是本发明基于深度卷积神经网络的人体动作识别流程图，其中，Seq.feature表示序列特征向量，Siamese cost表示：验证损失函数，Ident.cost表示识别损失函数；

图2是本发明中基于CNN层和RNN层的人体动作识别网络结构图，其中，OpticalFlow 表示光流图像，Filters表示核，Filter size表示核大小，Stride表示步长，maxpool或 Max-pooling Layer表示最大池化层，Fully Connected或Tanh Activation Funtion表示全连接层，Sequence Vector表示一个序列向量，Convolutional Layer表示CNN层，；

图3是本发明所构建的用于特征向量提取的CNN层的结构图；

图4是本发明所构建的Identification-Verification的示意图，Identification-Verification模型图表示“识别-验证”联合损失函数模型图，其中，oneimage sequence表示一个图象序列，one pair of image sequence表示一对图像序列，Feature Embedding表示特征融合，Extract Local Feature表示提取局部特征，Similarity Measurement表示相似度量，Volleyball Spiking表示打排球特征类别，Typing表示打字特征类别，ThrowDiscus表示扔铁饼特征类别，TennisSwing表示打网球特征类别， TableTennisShot表示打台球特征类别，Same表示相同，Different表示不同；Intermedia Layer表示中间层。

具体实施方式

下面将结合附图及具体实施方式对本发明作进一步的描述。

一种基于循环卷积神经网络的人体动作识别方法能够广泛地应用于基于视频的类别相似度识别，包括如下步骤：

S1、构建数据集，即从公开数据集中随机选择长度相同的序列对，各序列中的每帧包括 RGB图像和光流图像；所述公开数据集为UCF101-split1数据集、HMDB51数据集、UCFSPORT 数据集或UCF11数据集，其中，序列对中的两动作片段是来自同一动作类别或来自不同动作类别。具体为：首先将公开数据集中的视频序列切割成固定长度的动作片段(segment)，得到多个序列，随机选择一对segment，即序列对，此序列对可以是来自同一动作类别(Positive Pairs)，如都是化妆的动作类别，也可以是不同动作类别(NegativePairs)，如一段是来自化妆的动作类别，一段是来自弹吉他的动作类别。此外，考虑RGB图像和Optical flow(光流图像)对于人体动作的不同描述能力，其中，RGB图像表征人体动作的表观信息，包括颜色、形状等，而光流图像更多的表征人体的运动信息，将两者结合进一步通过深度卷积神经网络挖掘人体动作的表观和运动信息，能够更好的实现对人体动作的判别。

S2、构建深度卷积神经网络，即构建孪生网络，孪生网络中的各网络依次包括CNN层、 RNN层和Temporal Pooling层，其中，CNN层是指卷积神经网络层，RNN层是指循环神经网络层(是现有的网络结构)，Temporal Pooling层是指时序池化层；

CNN层依次包括四层，第一层依次包括第一卷积层、第一最大池化层和第一全连接层，第二层依次包括第二卷积层、第二最大池化层和第二全连接层，第三层为第三卷积层，第四层为Dropout层，其中，第一卷积层包括16个卷积核，各卷积核大小为5×5，步长为1，第二卷积层包括32个卷积核，各卷积核大小为5×5，步长为1，第三卷积层包括32个卷积核，各卷积核大小为5×5，步长为1，第一最大池化层和第二最大池化层的核大小为2×2，步长为1，其中，全连接层即为非线性激活函数。加入Dropout层，即在CNN层与RNN层之间加入Dropout层，用来防止网络过拟合。

RNN层中的循环卷积神经网络RNN，主要使用卷积神经网络来解决任意长度的时间序列问题。RNN不同于CNN之处在于它能对时间序列的变化进行建模，在CNN中，每层神经元的信号只能向上一层传播，样本的处理在各个时刻是独立的，因此CNN又被称作前向神经网络 (Feed-forward Neural Networks)。而在RNN中，神经元的输出可以在下一个时间段直接作用到自身，即第i层神经元在m时刻的输入，除了与第i-1层神经元在该时刻的输出有关外，还包括其自身在m-1时刻的输出。

深度卷积神经网络的实现步骤如下：

S2.1、将序列对分别输入到孪生网络中的第一层，即一个序列输入一个网络将第一层输出的结果输入第二层，其中，第一层和第二层的具体执行公式如下：

C′(S^(t))＝Tanh(Maxpool(Conv(S^(t))))，

S2.2、将各输出f^(t)输入RNN层进行处理，得到时间序列{O⁽¹⁾...O^(T)}，具体处理公式为：

O^(t)＝W_if^(t)+W_sr^(t-1)

r^(t)＝Tanh(O^(t))

其中，输出O^(t)∈R^e×1，包含当前时刻输入RGB图像和光流图像的信息f^(t)∈R^N×1和上一时刻RNN的状态信息r^(t-1)∈R^e×1，W_i∈R^e×N和W_s∈R^e×e输出通过全连接计算得到，即是对之前 CNN以及RNN提取到的特征进行分类得到，W_i为第i个元素的权重，W_s为第s个元素的权重；e为特征向量嵌入的维度，N为CNN层最后一层输出特征向量的维度，r⁽⁰⁾表示RNN层的初始状态，初始化为0向量；

S2.3、尽管通过RNN层可以捕捉到人体动作的时序信息，由于RNN层的输出更偏向于后面时刻，使得后面时刻序列的信息相比较于前面时刻更占优势，但是与动作相关的显著帧不仅仅出现在序列结尾时刻，它可能出现在序列的任何位置，因此这将会降低RNN层在建模整个时序信息的有效性。其次，对于序列的分析通常需要提取不同时间尺度的信息。

针对RNN层带来的以上问题，我们在网络结构上增加了temporal pooling层，该层可以使得信息在时间维度上聚合，在一定程度上避免了RNN层的输出偏向后面时刻的问题。此外， temporal pooling层通过结合Optical flow短时数据输入和RNN层，可以捕捉到序列中存在的长时间信息，进而实现对输入信号的多尺度时序信息建模。具体如下：

将时间序列{O⁽¹⁾...O^(T)}进行Temporal Pooling层操作，即依次进行mean-pooling操作和max-pooling操作，将特征向量在时间维度上进行聚合得到固定长度的特征表示，时间维度即指时间序列{O⁽¹⁾...O^(T)}，其中，特征向量为第一卷积层和第二卷积层输出的结果。

所述mean-pooling操作是指将输入的所有特征向量分成几部分(如4、5或6部分)在时间维度进行求平均操作，其中，特征向量为第一卷积层和第二卷积层输出的结果，即：

其中，是第i个元素分量的特征向量，第i个元素分量即指第i部分，对于任一序列中的一帧RGB图像和光流图像经过深度卷积神经网络的输出记作S3、如图1所示，网络结构中的CNN层、RNN层以及temporalpooling层作为特征提取器，我们使用双路权值共享的特征提取网络构建孪生网络(Siamese Network)。给定一对序列对输入，用于特征提取的子网络能够分别映射出一对与输入相对应的特征向量，我们使用欧式距离度量两个向量之间的相似性。网络训练阶段，能够使得相同类别的输入更加相似，同时使得不同类别的输入之间的差异性性增大，即达到增大类间、减小类内差异的目的。

构建深度卷积神经网络后，构建“识别-验证”联合损失函数；如图4所示，Siamese网络包括Identification Model和Verification Model，其中Identification Model是识别损失函数的网络结构，用来预测单个输入序列的类别，属于多分类任务；Verification Model 是识别损失函数的网络结构，用欧式距离函数度量两个输入序列的相似性问题，属于二分类任务。

具体步骤为：

S3.1、构建两个与孪生网络相对应的识别损失函数，即序列对(S_z，S_n)经过深度卷积神经网络得到基于序列对的特征向量表示分别为：v_z＝R(S_z)，v_n＝R(S_n)，采用标准的交叉熵损失或softmax损失作为识别损失函数，即Identification Model损失函数，记作Identification Cost，表示如下：

其中，||v_z-v_n||表示两个特征向量之间的欧式距离，当类别z＝n时，上述函数使得vz与 v_n之间的欧式距离很近；当类别z≠n时，上述函数使得v_z与v_n之间被margin值m分隔开；

Q(S_z，S_n)＝E(R(S_z)，R(S_n))+I(R(S_z))+I(R(S_n))

S4、基于数据集(作为训练集)训练构建好的深度卷积神经网络和“识别-验证”联合损失函数，得到训练好的深度卷积神经网络和训练好的“识别-验证”联合损失函数；

S5、基于待识别的人体动作序列对的RGB图像和光流图像，依次经过训练好的深度卷积神经网络和构建好的“识别-验证”联合损失函数，得到序列对的动作类别相似度识别结果。其中，深度卷积神经网络在训练阶段优化Identifi cation Cost和Si amese Cost。

即从公开数据集中提取数据集作为测试集，将测试集中的人体动作序列对进行动作类别相似度识别。测试后可用于其它序列对的动作类别相似度判断。

以上仅是本发明众多具体应用范围中的代表性实施例，对本发明的保护范围不构成任何限制。凡采用变换或是等效替换而形成的技术方案，均落在本发明权利保护范围之内。

Claims

1.一种基于循环卷积神经网络的人体动作识别方法，其特征在于，包括如下步骤：

S1、构建数据集，即从公开数据集中随机选择长度相同的序列对，各序列中的每帧包括RGB图像和光流图像；

2.根据权利要求1所述的一种基于循环卷积神经网络的人体动作识别方法，其特征在于，所述步骤S1中的公开数据集为UCF101-split1数据集、HMDB51数据集、UCF SPORT数据集或UCF11数据集，其中，序列对中的两动作片段是来自同一动作类别或来自不同动作类别。

3.根据权利要求1所述的一种基于循环卷积神经网络的人体动作识别方法，其特征在于，所述步骤S2中，CNN层依次包括四层，第一层依次包括第一卷积层、第一最大池化层和第一全连接层，第二层依次包括第二卷积层、第二最大池化层和第二全连接层，第三层为第三卷积层，第四层为Dropout层，其中，第一卷积层包括16个卷积核，各卷积核大小为5×5，步长为1，第二卷积层包括32个卷积核，各卷积核大小为5×5，步长为1，第三卷积层包括32个卷积核，各卷积核大小为5×5，步长为1，第一最大池化层和第二最大池化层的核大小为2×2，步长为1，其中，全连接层即为非线性激活函数。

4.根据权利要求2或3所述的一种基于循环卷积神经网络的人体动作识别方法，其特征在于，所述步骤S2中深度卷积神经网络的实现步骤如下：

C′(S^(t))＝Tanh(Maxpool(Conv(S^(t))))，

O^(t)＝W_if^(t)+W_sr^(t-1)

r^(t)＝Tanh(O^(t))

其中，输出O^(t)∈R^e×1，包含当前时刻输入RGB图像和光流图像的信息f^(t)∈R^N×1和上一时刻RNN的状态信息r^(t-1)∈R^e×1，W_i∈R^e×N和W_s∈R^e×e输出通过全连接计算得到，即是对之前CNN以及RNN提取到的特征进行分类得到，W_i为第i个元素的权重，W_s为第s个元素的权重；e为特征向量嵌入的维度，N为CNN层最后一层输出特征向量的维度，r⁽⁰⁾表示RNN层的初始状态，初始化为0向量；

S2.3、将时间序列{O⁽¹⁾...O^(T)}对应的CNN层输出的特征向量进行Temporal Pooling层操作，即依次进行mean-pooling操作和max-pooling操作，将特征向量在时间维度上进行聚合得到固定长度的特征表示，时间维度即指时间序列{O⁽¹⁾...O^(T)}。

5.根据权利要求4所述的一种基于循环卷积神经网络的人体动作识别方法，其特征在于，所述mean-pooling操作是指将输入的所有特征向量分成几部分后在时间维度进行求平均操作，其中，特征向量为CNN层输出的结果，即：

6.根据权利要求5所述的一种基于循环卷积神经网络的人体动作识别方法，其特征在于，所述步骤S3的具体步骤为：

其中，||v_z-v_n||表示两个特征向量之间的欧式距离，当类别z＝n时，上述函数使得v_z与v_n之间的欧式距离很近；当类别z≠n时，上述函数使得v_z与v_n之间被margin值m分隔开；

Q(S_z，S_n)＝E(R(S_z)，R(S_n))+I(R(S_z))+I(R(S_n))

其中，Q(S_z，S_n)表示“识别-验证”联合损失函数，E(R(S_z)，R(S_n))表示验证损失函数；I(R(S_z))+I(R(S_n))表示识别损失函数。

7.根据权利要求7所述的一种基于循环卷积神经网络的人体动作识别方法，其特征在于，所述步骤S4的具体步骤为：