CN107292247A

CN107292247A - 一种基于残差网络的人体行为识别方法及装置

Info

Publication number: CN107292247A
Application number: CN201710413546.3A
Authority: CN
Inventors: 桂江生; 迟元峰; 包晓安
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2017-06-05
Filing date: 2017-06-05
Publication date: 2017-10-24

Abstract

本发明公开了一种基于残差网络的人体行为识别方法及装置，首先通过opencv将视频转换为RGB图像和光流图像，然后使用残差网络提取空间特征和时间特征，再将这两个特征融合后送入分类器分类，确定视频中人体行为分类。本发明的装置包括转换模块、空间特征提取模块、时间特征提取模块、融合模块和分类模块。本发明的方法及装置，增加了网络的深度并提高了识别的准确度，同时降低了算法的时间复杂度。

Description

一种基于残差网络的人体行为识别方法及装置

技术领域

本发明属于视频识别技术领域，尤其涉及一种基于残差网络的人体行为识别方法。

背景技术

伴随着互联网技术的发展进步，网络环境的完善，以及数码相机、摄像录影机等视频获取设备的普及，网络视频、手机视频、监控视频数据呈现爆炸性的增长。为了迎接视频数据极速增长的挑战，解决大规模计算需求与高配硬件、海量视频数据与有效数据之间的矛盾，对视频内容的分析研究迫在眉睫。

对视频中人体行为的分析识别，是视频内容分析的重要组成部分。基于视频的人体行为识别是通过计算机对采集得到的未知视频序列进行处理，能自动地对视频中包含的人体行为进行检测、跟踪、分类和识别，从而使得计算机能够对人的行为进行描述和理解。由于视频中大部分有意义的信息都与人类活动有关，因此人体行为识别是智能监控、基于内容的视频检索、人机交互等应用的重要研究内容。

现有的人体行为识别方法主要有深度学习表示方法，其不需要像传统方法那样对特征提取方法进行人工设计，可以在视频数据上进行训练和学习，得到最有效的表征方法。这种思路对数据具有很强的适应性，尤其在标定数据较少的情况下能够获得更好的效果。

但是深度学习表示仍然存在一些缺点。首先深度学习表示一般直接从视频像素数据中学习特征，需要训练大量的网络参数，这造成了对行为视频样本的巨大的需求问题。其次，这些深度学习表示在训练学习的过程中，需要对海量视频数据执行卷积操作。在二维图像中，卷积操作计算量比较小，但是在三维视频中，该操作的复杂度呈指数级增长。最后，真实的行为视频场景一般都比较复杂，而大部分的行为特征对混杂背景、遮挡、镜头变换、服饰变化等因素比较敏感。那么，针对复杂场景中的行为识别，学习稳定鲁棒的不变特征，也是一个亟待解决的问题。

发明内容

本发明的目的是提供一种基于残差网络的人体行为识别方法，以避免卷积神经网络在使用高质量视频时产生的巨大计算量问题。

为了实现上述目的，本发明技术方案如下：

一种基于残差网络的人体行为识别方法，所述人体行为识别方法包括：

将视频转换为RGB图像和光流图像；

采用RGB图像作为输入，利用设定的残差网络的卷积网络提取视频的空间特征；

采用光流图像作为输入，利用所述残差网络的卷积网络提取视频的时间特征；

在卷积网络的最后一个卷积层之后，通过融合策略将视频的空间特征和时间特征融合；

将融合的空间特征和时间特征，经过残差网络的池化层和全连接层后，输入到分类器中进行分类，确定视频所属的人体行为类别。

本发明的一种实施方式，所述残差网络的卷积网络中各个卷积层为线性结构，每两层增加一个捷径连接。

本发明的另一种实施方式，所述残差网络的卷积网络包括第一个卷积层和至少两个分支结构，每个分支结构上的每两个卷积层增加一个捷径连接，并且相邻的分支结构之间的捷径连接交叉连接。

进一步地，所述将视频转换为光流图像，采用Brox光流算法，所述 Brox光流算法，包括：

将视频帧序列表示为其中表示一帧视频图像，x，y 表示视频图像中像素点的坐标；

基于图像亮度恒定假设：简记为：

其中其中和就是要求的光流图像；

构造相应的能量泛函为：

其中递增凹函数ε为健壮因子；

采用欧拉-拉格朗日方程：

求解光流图像。

进一步地，所述通过融合策略将视频的空间特征和时间特征融合，采用相加融合。相加融合效率最高，并且准确度也很高。

本发明还公开了一种基于残差网络的人体行为识别装置，所述人体行为识别装置包括：

转换模块，用于将视频转换为RGB图像和光流图像；

空间特征提取模块，用于采用RGB图像作为输入，利用设定的残差网络的卷积网络提取视频的空间特征；

时间特征提取模块，用于采用光流图像作为输入，利用所述残差网络的卷积网络提取视频的时间特征；

融合模块，用于在卷积网络的最后一个卷积层之后，通过融合策略将视频的空间特征和时间特征融合；

分类模块，用于将融合的空间特征和时间特征，经过残差网络的池化层和全连接层后，输入到分类器中进行分类，确定视频所属的人体行为类别。

进一步地，所述转换模块将视频转换为光流图像，采用Brox光流算法，执行如下步骤：

基于图像亮度恒定假设：简记为：

其中其中和就是要求的光流图像；

构造相应的能量泛函为：

其中递增凹函数ε为健壮因子；

采用欧拉-拉格朗日方程：

求解光流图像。

进一步地，所述融合模块通过融合策略将视频的空间特征和时间特征融合，采用相加融合。

本发明提出的一种基于残差网络的人体行为识别方法，通过残差网络分别提取视频的空间特征和时间特征，并将融合后的特征向量输入到训练好的分类其中进行分类，识别出视频中的人体行为，具有更好的鲁棒性，识别准确。增加了网络的深度并提高了识别的准确度，同时降低了算法的时间复杂度。

附图说明

图1为本发明人体行为行识别方法的流程图；

图2为本发明实施例残差网络示意图；

图3为本发明实施例空间特征和时间特征融合网络示意图；

图4为本发明另一实施例的残差网络示意图；

图5为本发明人体识别装置的结构示意图。

具体实施方式

下面结合附图和实施例对本发明技术方案做进一步详细说明，以下实施例不构成对本发明的限定。

本发明利用深度学习中的卷积神经网络技术提取视频中的人体行为的时间特征与空间特征，实现对视频中的人体行为快速准确地分类，最终构建新的行为识别解决方案与高效的识别方法，从而提高场景理解能力和准确率。

如图1所示，本技术方案一种基于残差网络的人体行为识别方法，包括如下步骤：

步骤S1、将视频转换为RGB图像和光流图像。

本实施例将需要进行识别的视频转换为RGB图像和光流图像，具体如何将YUV格式视频图像转换为RGB格式图像，在现有技术中已经比较成熟，这里不再赘述。光流是视频图像亮度模式的表面运动，光流计算是视频图像动态分析的主要方法之一。计算光流图像的方法很多，如基本的时空梯度法、Lucas-Kanade方法、高阶梯度方法等等。

本实施例首先利用opencv将视频流转换为RGB图像序列，然后利用 Brox算法转换为Brox光流图像。

Brox光流算法是基于亮度恒定假设，且假设光流场平滑，是一种全局方法，转换方法如下：

将视频帧序列表示为其中表示一帧视频图像，x，y 表示视频图像中像素点的坐标。

基于图像亮度恒定假设：

简记为：

其中其中和就是要求的光流图像。在Brox算法中，相应的能量泛函为：

其中第一项和第二项是数据项，第三项是平滑项(先验项)。对应的欧拉-拉格朗日(Euler-Lagrange)方程：

其中

为了使结果更加具有鲁棒性，本实施例在能量泛函中增加递增凹函数其中包含健壮因子ε，定义能量泛函为：

其中，递增凹函数可以产生一个L1范数最小化，健壮因子ε＝0.001，从而使结果更加健壮。

此时对应的欧拉-拉格朗日方程为：

其中因此对上式中的微分离散化，并利用Gauss-Seidel 迭代方法求得和

步骤S2、采用RGB图像作为输入，利用设定的残差网络的卷积网络提取视频的空间特征。

本实施例预先设计了一种残差网络，如图2所示：包括卷积网络、池化层和全连接层，卷积网络中的长方形图形表示一个卷积层。

首先设计基准卷积网络，基准卷积网络主要是受VGG网络理论的启发，保持了简洁的网络设计风格，共有25个卷积层，除了在第一个卷积层使用7×7卷积核之外，基准卷积网络中其余卷积层的卷积核大小为3×3。该基准卷积网络为线性结构，并且在设计时遵从下列两条简单的规则：(1) 对于相同大小的输出特征图尺寸，层中的卷积核也需要一致；(2)若特征图尺寸减半时，则需要倍增卷积核数量来保持各层的时间复杂度。通过这两个策略，使得卷积网络与VGG相比具有较少的卷积核，较低的复杂度。在每一个卷积层后都连接一个组归一化层以及激励层，其中激励层使用 ReLu函数。

残差网络的卷积层在基准卷积网络的基础上每两层卷积层增加一个捷径连接，通过步长(stride)为2的卷积层直接进行降采样，从而将网络转化为相应的残差网络。步长的设定为2，是较佳的设定，为了降低计算量。当输入和输出具有相同的维度时，使用简单的标准捷径连接(恒等映射)。而在维数增加时，使用以下操作：利用投影捷径连接来匹配维数(通过1×1 的卷积层实现)。当捷径连接了两个不同尺寸的特征图时，它们将依步长2 进行排布。

最后一个卷积层的激励层后连接池化层后再接入全连接层。

残差网络设计完成后，将S1中获取的RGB图像序列作为残差网络的输入，经过残差网络的卷积网络，卷积网络的输出可以叫做特征图，在本实施例中就是提取得到的空间特征向量。本实施例空间特征包含形状特征、空间关系特征等。

需要说明的是，本实施例残差网络的卷积层的数量以及卷积核的大小，根据实际计算性能来设计，例如还可以采用14层卷积层、或38层卷积层来进行特征提取。

为了获得更加鲁棒性的技术效果，本实施例进一步对上述残差网络进行了改造，将卷积网络中的线性结构转换为多分支结构，如图4所示。对于25层卷积层的残差网络，包括第一个卷积层以及三个分支结构，每个分支结构上具有8个卷积层。第一个卷积层使用7×7卷积核之外，三个分支结构的卷积层的卷积核大小为3×3。每个分支结构上每两个卷积层增加一个捷径连接，并且相邻的分支结构之间的捷径连接交叉连接。如图4所示，第一个分支结构与第二分支结构之间，各自对应的捷径连接相连接；第二分支结构与第三分支结构之间，各自对应的捷径连接相连接。

改造后的卷积网络，降低了卷积层之间的相关性，从而提高了组合网络的多样性。在相同的层数下，本实施例残差网络的深度要远远低于相对应版本的卷积网络。

步骤S3、采用光流图像作为输入，利用残差网络的卷积网络提取视频的时间特征。

本实施例提取时间特征时所采用的残差网络与提取空间特征的残差网络使用了同样的网络结构。

不同的是，在利用残差网络来提取视频的时间特征时，通过堆叠连续几帧之间的光流位移场来构建残差网络的输入。这样的输入可以清晰的描述视频帧间的运动，这使得识别可以变得更加容易。

一个稠密光流可以看做是由一对连续帧t和t+1间的一组位移向量场dt。本实施例将dt(m,n)用来表示点(m,n)在t帧移动到t+1帧相对应的位置时的位移向量。和是向量场的水平和垂直分量部分，可以看作是图像的通道，非常适合利用残差网络识别。为了表示序列帧间的运动，堆叠了 L个连续帧的光流图，和用来构造2L输入，w和h表示视频的宽度和高度，对于任意帧t的卷积层输入I_t∈R^w×h×2L:

其中m＝[1；w],n＝[1；h],k＝[1；L]。对于任意点(m,n),I_t(m,n,f),f＝[1；2L] 编码了这点在L序列帧间的运动。本实施例中的L取10，并且使用步骤 S1中所获取的光流图像。

最后提取的时间特征包含视频中的人体运动特征。

步骤S4、在残差网络的最后一个卷积层之后，通过融合策略将视频的空间特征和时间特征融合。

对于空间特征和时间特征的融合，融合方式可以有相加融合、拼接融合、卷积融合、双线性融合等方式，本实施例采用相加融合方式。假设融合函数为f：

其中f在时刻t将两个特征图和融合产生了输出图y_t∈R^{H″×W″×D″}。H、H′和H″表示高度，W、W′和W″表示宽度， D、D′和D″表示对应特征图的通道数。为了简单起见，将H＝H'＝H”， W＝W'＝W”，D＝D'。并且将t舍弃。

相加融合：y^sum＝f^sum(x^a,x^b)采用了相加的策略，在相同的网络位置i， j将对应的两个特征图相加，这两个特征图都有相同的特征通道d：

其中1≤i≤H，1≤j≤W，1≤d≤D，并且x^a，x^b，y∈R^H×W×D。因为通道的编号是任意的，相加融合简单地定义了一个任意的网络之间的对应关系。

本实施例相加融合策略在残差网络的最后一个卷积层的激励函数ReLu后开始融合，之所以这样选择是因为，在初步实验中，它提供了比其他层后融合更好的结果。在这一点上的特征已经高度信息化，同时仍然可以提供粗略的位置信息。

步骤S5、将融合的空间特征和时间特征，经过残差网络的池化层和全连接层后，输入到分类器中进行分类，确定视频所属的人体行为类别。

通过融合策略将空间特征和时间特征融合后，将空间特征和时间特征融合的特征向量，经过池化层输入到全连接层，可以获得输出的特征向量，最后将其送入分类器中分类，确定视频所属的人体行为类别。

需要说明的是，本实施例残差网络实际是一种神经网络，其中分类器可以使用支持向量机、softmax等分类器，本实施例选择softmax分类器，速度比较快，softmax分类器是已经训练好的分类器，可以根据输入的视频图像的特征，识别出视频所属的人体行为类别，这里不再赘述。

如图5所示，本技术方案还提出了一种基于残差网络的人体行为识别装置，与上述方法对应地，本技术方案人体行为识别装置包括：

转换模块，用于将视频转换为RGB图像和光流图像；

需要说明的是，本装置采用的残差网络，以及转换模块对视频进行转换所执行的步骤在前文已经进行了详细说明，这里不再赘述。

本发明技术方案，基于残差网络，分别提取视频的空间特征和时间特征，并将融合后的特征向量输入到训练好的分类其中进行分类，识别出视频中的人体行为，具有更好的鲁棒性，识别准确。

以上实施例仅用以说明本发明的技术方案而非对其进行限制，在不背离本发明精神及其实质的情况下，熟悉本领域的技术人员当可根据本发明作出各种相应的改变和变形，但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

Claims

1.一种基于残差网络的人体行为识别方法，其特征在于，所述人体行为识别方法包括：

将视频转换为RGB图像和光流图像；

2.根据权利要求书1中所述的人体行为识别方法，其特征在于，所述残差网络的卷积网络中各个卷积层为线性结构，每两层增加一个捷径连接。

3.根据权利要求书1中所述的人体行为识别方法，其特征在于，所述残差网络的卷积网络包括第一个卷积层和至少两个分支结构，每个分支结构上的每两个卷积层增加一个捷径连接，并且相邻的分支结构之间的捷径连接交叉连接。

4.根据权利要求书1中所述的人体行为识别方法，其特征在于，所述将视频转换为光流图像，采用Brox光流算法，所述Brox光流算法，包括：

将视频帧序列表示为其中表示一帧视频图像，x，y表示视频图像中像素点的坐标；

基于图像亮度恒定假设：简记为：

其中其中和就是要求的光流图像；

构造相应的能量泛函为：

<mrow> <mi>E</mi> <mrow> <mo>(</mo> <mover> <mi>v</mi> <mo>&OverBar;</mo> </mover> <mo>)</mo> </mrow> <mo>=</mo> <msub> <mo>&Integral;</mo> <mi>&Omega;</mi> </msub> <mi>&psi;</mi> <mrow> <mo>(</mo> <mo>|</mo> <mo>|</mo> <msub> <mo>&dtri;</mo> <mn>3</mn> </msub> <mi>I</mi> <mo>&CenterDot;</mo> <mover> <mi>v</mi> <mo>&OverBar;</mo> </mover> <mo>|</mo> <msup> <mo>|</mo> <mn>2</mn> </msup> <mo>+</mo> <mi>&gamma;</mi> <mo>|</mo> <mo>|</mo> <msub> <mi>H</mi> <mn>3</mn> </msub> <mo>(</mo> <mi>I</mi> <mo>)</mo> <mover> <mi>v</mi> <mo>&OverBar;</mo> </mover> <mo>|</mo> <msup> <mo>|</mo> <mn>2</mn> </msup> <mo>)</mo> </mrow> <mi>d</mi> <mover> <mi>x</mi> <mo>&OverBar;</mo> </mover> <mo>+</mo> <mi>&alpha;</mi> <msub> <mo>&Integral;</mo> <mi>&Omega;</mi> </msub> <mi>&psi;</mi> <mrow> <mo>(</mo> <mo>|</mo> <mo>|</mo> <msub> <mo>&dtri;</mo> <mn>3</mn> </msub> <mover> <mi>v</mi> <mo>&OverBar;</mo> </mover> <mo>|</mo> <msub> <msup> <mo>|</mo> <mn>2</mn> </msup> <mi>F</mi> </msub> <mo>)</mo> </mrow> <mi>d</mi> <mover> <mi>x</mi> <mo>&OverBar;</mo> </mover> <mo>;</mo> </mrow>

其中递增凹函数ε为健壮因子；

采用欧拉-拉格朗日方程：

<mrow> <msup> <mi>&Psi;</mi> <mo>,</mo> </msup> <mrow> <mo>(</mo> <mo>|</mo> <mo>|</mo> <msub> <mo>&dtri;</mo> <mn>3</mn> </msub> <mi>I</mi> <mo>&CenterDot;</mo> <mover> <mi>v</mi> <mo>&OverBar;</mo> </mover> <mo>|</mo> <msup> <mo>|</mo> <mn>2</mn> </msup> <mo>+</mo> <mi>&gamma;</mi> <mo>|</mo> <mo>|</mo> <msub> <mi>H</mi> <mn>3</mn> </msub> <mo>(</mo> <mi>I</mi> <mo>)</mo> <mover> <mi>v</mi> <mo>&OverBar;</mo> </mover> <mo>|</mo> <msup> <mo>|</mo> <mn>2</mn> </msup> <mo>)</mo> </mrow> <mrow> <mo>(</mo> <msub> <mo>&dtri;</mo> <mn>3</mn> </msub> <mi>I</mi> <msubsup> <mo>&dtri;</mo> <mn>3</mn> <mi>T</mi> </msubsup> <mi>I</mi> <mo>+</mo> <msubsup> <mi>&gamma;H</mi> <mn>3</mn> <mi>T</mi> </msubsup> <mo>(</mo> <mi>I</mi> <mo>)</mo> <msub> <mi>H</mi> <mn>3</mn> </msub> <mo>(</mo> <mi>I</mi> <mo>)</mo> <mo>)</mo> </mrow> <mover> <mi>v</mi> <mo>&OverBar;</mo> </mover> <mo>-</mo> <mi>&alpha;</mi> <mi>d</mi> <mi>i</mi> <mi>v</mi> <mrow> <mo>(</mo> <msup> <mi>&Psi;</mi> <mo>,</mo> </msup> <mo>|</mo> <mo>|</mo> <msub> <mo>&dtri;</mo> <mn>3</mn> </msub> <mover> <mi>v</mi> <mo>&OverBar;</mo> </mover> <mo>|</mo> <msubsup> <mo>|</mo> <mi>F</mi> <mn>2</mn> </msubsup> <msub> <mo>&dtri;</mo> <mn>3</mn> </msub> <mover> <mi>v</mi> <mo>&OverBar;</mo> </mover> <mo>)</mo> </mrow> <mo>=</mo> <mn>0</mn> </mrow>

求解光流图像。

5.根据权利要求书1中所述的人体行为识别方法，其特征在于，所述通过融合策略将视频的空间特征和时间特征融合，采用相加融合。

6.一种基于残差网络的人体行为识别装置，其特征在于，所述人体行为识别装置包括：

转换模块，用于将视频转换为RGB图像和光流图像；

7.根据权利要求书6中所述的人体行为识别装置，其特征在于，所述残差网络的卷积网络中各个卷积层为线性结构，每两层增加一个捷径连接。

8.根据权利要求书6中所述的人体行为识别装置，其特征在于，所述残差网络的卷积网络包括第一个卷积层和至少两个分支结构，每个分支结构上的每两个卷积层增加一个捷径连接，并且相邻的分支结构之间的捷径连接交叉连接。

9.根据权利要求书6中所述的人体行为识别装置，其特征在于，所述转换模块将视频转换为光流图像，采用Brox光流算法，执行如下步骤：

基于图像亮度恒定假设：简记为：

<mrow> <mo>&dtri;</mo> <mi>I</mi> <mo>&CenterDot;</mo> <mover> <mi>d</mi> <mo>&OverBar;</mo> </mover> <mo>+</mo> <msub> <mi>I</mi> <mi>t</mi> </msub> <mo>=</mo> <msub> <mo>&dtri;</mo> <mn>3</mn> </msub> <mi>I</mi> <mo>&CenterDot;</mo> <mover> <mi>v</mi> <mo>&OverBar;</mo> </mover> <mo>=</mo> <mn>0</mn> <mo>;</mo> </mrow>

其中其中和就是要求的光流图像；

构造相应的能量泛函为：

其中递增凹函数ε为健壮因子；

采用欧拉-拉格朗日方程：

<mrow> <msup> <mi>&Psi;</mi> <mo>,</mo> </msup> <mrow> <mo>(</mo> <mo>|</mo> <mo>|</mo> <msub> <mo>&dtri;</mo> <mn>3</mn> </msub> <mi>I</mi> <mo>&CenterDot;</mo> <mover> <mi>v</mi> <mo>&OverBar;</mo> </mover> <mo>|</mo> <msup> <mo>|</mo> <mn>2</mn> </msup> <mo>+</mo> <mi>&gamma;</mi> <mo>|</mo> <mo>|</mo> <msub> <mi>H</mi> <mn>3</mn> </msub> <mo>(</mo> <mi>I</mi> <mo>)</mo> </mrow> <mover> <mi>v</mi> <mo>&OverBar;</mo> </mover> <mo>|</mo> <msup> <mo>|</mo> <mn>2</mn> </msup> <mo>)</mo> <mrow> <mo>(</mo> <msub> <mo>&dtri;</mo> <mn>3</mn> </msub> <mi>I</mi> <msubsup> <mo>&dtri;</mo> <mn>3</mn> <mi>T</mi> </msubsup> <mi>I</mi> <mo>+</mo> <msubsup> <mi>&gamma;H</mi> <mn>3</mn> <mi>T</mi> </msubsup> <mo>(</mo> <mi>I</mi> <mo>)</mo> <msub> <mi>H</mi> <mn>3</mn> </msub> <mo>(</mo> <mi>I</mi> <mo>)</mo> <mo>)</mo> </mrow> <mover> <mi>v</mi> <mo>&OverBar;</mo> </mover> <mo>-</mo> <mi>&alpha;</mi> <mi>d</mi> <mi>i</mi> <mi>v</mi> <mrow> <mo>(</mo> <msup> <mi>&Psi;</mi> <mo>,</mo> </msup> <mo>|</mo> <mo>|</mo> <msub> <mo>&dtri;</mo> <mn>3</mn> </msub> <mover> <mi>v</mi> <mo>&OverBar;</mo> </mover> <mo>|</mo> <msubsup> <mo>|</mo> <mi>F</mi> <mn>2</mn> </msubsup> <msub> <mo>&dtri;</mo> <mn>3</mn> </msub> <mover> <mi>v</mi> <mo>&OverBar;</mo> </mover> <mo>)</mo> </mrow> <mo>=</mo> <mn>0</mn> </mrow>

求解光流图像。

10.根据权利要求书6中所述的人体行为识别装置，其特征在于，所述融合模块通过融合策略将视频的空间特征和时间特征融合，采用相加融合。