CN110032942A

CN110032942A - 基于时域分段及特征差分的动作识别方法

Info

Publication number: CN110032942A
Application number: CN201910199608.4A
Authority: CN
Inventors: 袁陶希; 郑慧诚; 吕怡静
Original assignee: National Sun Yat Sen University
Current assignee: Sun Yat Sen University; National Sun Yat Sen University
Priority date: 2019-03-15
Filing date: 2019-03-15
Publication date: 2019-07-19
Anticipated expiration: 2039-03-15
Also published as: CN110032942B

Abstract

本发明公开了一种基于时域分段及特征差分的动作识别方法，包括：S1.将训练集中的动作视频等间隔分成多个片段，并在每个片段中随机提取一帧RGB图像以及光流图像；S2.构建双流网络；S3.将所有RGB图像以及光流图像分别对应输入双流网络进行训练；S4.将目标动作视频输入训练好的双流网络进行动作识别，并将其中所有网络流得到的结果进行融合从而得到动作视频的识别结果。通过将动作视频在时域上进行分段，整合动作视频中不同时段的特征，并进行特征差分融合得到动作视频的差分融合特征，从而有效提取长时动态信息；同时对双流网络中的空间流特征以及时间流特征进行时空相关融合，在保留原有时空信息的同时，进一步提取具有时空一致性的重要局部信息。

Description

基于时域分段及特征差分的动作识别方法

技术领域

本发明涉及图像处理与分析技术领域，更具体地，涉及基于时域分段及特征差分的动作识别方法。

背景技术

由于视频中的人体动作识别有重要的应用价值，因此视频中的人体动作识别已经成为计算机视觉领域内的一个研究热点，在过去的一段时间内涌现了大量的研究成果。

近年来已经涌现了不少结合深度卷积神经网络的动作识别方法，目前主要的研究工作集中于如何在卷积神经网络的基础上进行时间信息的建模，代表性的工作为3D卷积网络、双流网络、TSN等。其中双流网络在动作识别中取得很大成功，之后的许多动作识别框架都基于该结构。双流网络将视频中的时空信息解耦，分别采用空间流网络和时间流网络进行特征提取，其中空间流网络以视频的某一帧作为输入，捕捉静态的表观信息，而时间流网络则用连续多帧(一般5～10帧)堆叠的光流帧作为输入，以有效利用视频中的时间信息。

然而，在经典的双流网络框架中，时间流网络只采用连续数帧光流作为一个堆叠输入，因此只能学到短时的动态信息。而3D卷积由于计算量较大，能同时处理的帧数有限。TSN虽然能表达长时间的运动信息，但由于其将不同时段信息的融合放在网络的得分层，没有充分利用各段信息之间的关联。

综上所述，现有用于视频中动作识别的双流网络结构存在无法有效利用长范围多时段的时间结构信息，对长时动态特性刻画不足，因此无法实现高精度的人体动作识别的问题。

发明内容

本发明的目的在于克服现有的动作识别方法中不能有效利用多时段的时间结构信息，无法实现高精度的人体动作识别的弊端，提供一种基于时域分段及特征差分的动作识别方法。

为实现以上发明目的，而采用的技术手段是：

基于时域分段及特征差分的动作识别方法，包括以下步骤：

S1.将训练集中的动作视频等间隔分成多个片段，并在每个片段中随机提取一帧RGB图像以及光流图像；

S2.构建双流网络，其包括空间流网络和时间流网络，空间流网络的输入为RGB图像；时间流网络的输入为光流图像；

S3.将所有RGB图像以及光流图像分别对应输入双流网络进行训练，具体步骤如下：

S31.分别利用所述双流网络中的空间流网络和时间流网络对所有RGB图像以及光流图像进行特征提取，得到训练集中动作视频的空间流特征及时间流特征；

S32.对动作视频的空间流特征进行差分融合操作，得到差分融合特征；将得到的差分融合特征与原始的空间流特征进行串联操作得到空间流融合特征；

S33.利用空间流融合特征及时间流特征对双流网络进行训练，并将双流网络中所有网络流得到的结果进行融合从而得到动作视频的识别结果；

S4.将目标动作视频输入训练好的双流网络进行动作识别，并将其中所有网络流得到的结果进行融合从而得到动作视频的识别结果。

上述方案中，在双流网络中的空间流网络部分，通过对动作视频进行分段，并利用不同时段间的特征构建特征差分，然后将特征差分和原始特征串联起来形成描述动作的长时动态特征，从而利用了多时段的时间结构信息，有效地提取动作视频中的长时动态信息。

优选的，定义训练集中的动作视频分段数为K，则双流网络每次输入包含有K个RGB图像，输入的K个RGB图像经过双流网络后得到的空间流特征X为：X＝(x₁,x₂,...,x_K)；其中x_k表示第k个输入RGB图像对应的空间流特征，即为第k个时段的空间流特征；

则步骤S32中所述的差分融合操作的定义如下：

通过特征差分的方式得到相邻帧间的差异

从而得到差分融合特征Y^diff：

该优选方案中，由于RGB帧差网络和原始空间流网络具有一定互补性，对应的特征图和特征图差分之间也应该具有互补性，所以将原始特征和经过计算得到的特征差分串联起来以便后续层能用到其互补信息。

优选的，所述步骤S33还包括以下步骤：将同一时刻的空间流特征及时间流特征通过双线性融合法进行融合得到时空融合特征，然后将时空融合特征与空间流融合特征及时间流特征进行串联操作后对所述双流网络进行训练。该优选方案中，由于进行串联操作后得到的网络特征由三部分信息组成，即原时间流的运动信息，原空间流的表观信息，以及时空融合所得到的细粒度信息，使得在不破坏原有的特征信息的情况下，同时又加入新的辅助信息，最大化利用时空信息。同时，本优选方案亦可在空间流网络部分不加入差分融合操作时，直接应用于双流网络，即将同一时刻的空间流特征及时间流特征使用双线性融合法进行融合得到时空融合特征，然后将其与原始的空间流特征及时间流特征进行串联操作后对所述双流网络进行训练，同样能实现最大化利用时空信息的效果。

优选的，所述双线性融合法为Compact Bilinear的双线性融合方法。本优选方案的双线性融合方法该种能够将特征维数降低至数千大小且最大程度的保留原始双线性融合特征的性能。

优选的，所述步骤S1和S2之间还包括数据增强操作，所述数据增强操作包括对提取得到的所有RGB图像以及光流图像进行随机裁剪操作、水平抖动操作、角落裁剪操作以及尺度抖动操作；

所述角落裁剪操作具体包括随机裁剪和角落裁剪，角落裁剪将裁剪集中于RGB图像及光流图像的四个角落或中心；

所述尺度抖动操作具体包括水平抖动和尺度抖动，其中尺度抖动指对输入大小为256*340的RGB图像及光流图像，选取256、224、192、168中任一数字作为裁剪区域的宽度和高度，并将被裁剪区域缩放到大小为224*224。该优选方案通过数据增强技术生成多种多样的训练样本来防止过拟合的现象。

优选的，所述步骤S3中所述训练前还包括：首先采用在ImageNet数据集上训练好的网络参数来初始化双流网络。该优选方案可以在很大程度上避免双流网络在训练过程中出现过拟合的现象。

优选的，所述双流网络由BN-Inception V2网络构建。

与现有技术相比，本发明技术方案的有益效果是：

1、通过对原始的动作视频在时域上进行分段，通过整合动作视频中不同时段的特征，并进行特征差分融合得到动作视频的差分融合特征，提取了互补的高层语义特征，构建了动作的长时动态表达，进一步提取动作视频的长范围时间结构信息。

2、基于双流网络进行了时空融合操作，利用同步的时间流和空间流之间的相关性，实现对时空重要区域的关注，构建了包含时间流、空间流和融合流的三元特征，利用时空联合信息提高了动作识别准确率。

本发明解决了现有用于视频中动作识别的双流网络结构不能有效利用多时段的时间结构信息的问题，实现了高精度的人体动作识别；同时还利用了双流网络中的时空相关性，利用时空联合信息进一步提高了动作识别准确率。

附图说明

图1为本发明方法的流程图。

图2为实施例2中的空间流网络结构图。

图3为实施例4中的时空融合网络结构图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；

对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

下面结合附图和实施例对本发明的技术方案做进一步的说明。

实施例1

基于时域分段及特征差分的动作识别方法，如图1所示，包括以下步骤：

然后对提取得到的所有RGB图像以及光流图像进行数据增强操作，具体为对提取得到的所有RGB图像以及光流图像进行随机裁剪操作、水平抖动操作、角落裁剪操作以及尺度抖动操作；

所述尺度抖动操作具体包括水平抖动和尺度抖动，其中尺度抖动指对输入大小为256*340的RGB图像及光流图像，选取256、224、192、168中任一数字作为裁剪区域的宽度和高度，并将被裁剪区域缩放到大小为224*224；

S2.构建双流网络，其包括空间流网络和时间流网络，空间流网络的输入为RGB图像；时间流网络的输入为光流图像；其中所述双流网络由BN-Inception V2网络构建；

首先采用在ImageNet数据集上训练好的网络参数来初始化双流网络；再完成以下训练步骤：

定义训练集中的动作视频分段数为K，则双流网络每次输入包含有K个RGB图像，输入的K个RGB图像经过双流网络后得到的空间流特征X为：X＝(x₁,x₂,...,x_K)；其中x_k表示第k个输入RGB图像对应的空间流特征，即为第k个时段的空间流特征；

则步骤S32中所述的差分融合操作的定义如下：

通过特征差分的方式得到相邻帧间的差异

从而得到差分融合特征Y^diff：

S33.利用空间流融合特征及时间流特征对双流网络进行训练，并将双流网络中所有网络流得到的结果进行融合从而得到动作视频的识别结果；关于进行双线性融合的位置，本实施例1选择了双流网络中的最后一个卷积层。由于所用的基础网络为BN-InceptionV2，它的最后一层inception5b层的输出大小是1024×7×7，其中1024是通道数，7×7是空间分辨率，此时特征图的尺寸大小适中。

双线性融合方式是指对同样大小的两张特征图作外积运算，可以表示为：

其中表示的是外积操作，特征图和转置后的特征图进行矩阵乘法运算，得到了双线性融合特征双线性融合特征用乘积的形式捕捉了时间流特征图和空间流特征图在所有通道和所有空间位置的相关性。

实施例2

由于特征融合的方式有多种，本实施例2对带有特征差分结构的特征差分网络与简单特征融合网络在HMDB51 Split 1空间流上的效果进行对比实验，如图2所示为该实验中包含特征差分融合的空间流网络结构。HMDB51动作识别数据库包含51种动作类别，共6766个视频，针对每类动作，数据集都有至少有100个视频与其对应。实验采用的双流网络的基础网络架构为BN-Inception V2版本，评估方式采用的是数据库作者提供的标准评估策略，对原始数据集进行了三种训练集的划分，最终准确率取三者的平均值。

在本对比实验中，将动作视频等间隔分成24个片段后提取了24帧RGB图像以及24个光流图像，对于提取的每一帧RGB图像或光流图像，通过数据增强操作后都可以得到十个样本，分别是四个角落和一个中心区域的裁剪以及它们的水平翻转。

由于本发明的双流网络架构不能提供帧级别的预测，因此对动作视频的分段数将24帧RGB图像或光流图像进行分组，例如视频分段数为3，则会得到8组预测得分，然后对这8组得分进行取平均作为这个动作视频的预测得分。

对比实验结果如表1所示：Inception V2表示不使用任何融合方式，即和现有的双流网络一样最原始的方法；V2-MAX表示最大融合；V2-AVG表示平均融合；V2-CONCAT表示串联融合；DIFFNet表示带有特征差分的特征差分网络。如表1所示，在空间流网络上采用多时段特征融合比不进行时域分段的原始方法52.0％有不同程度的提升，其中串联和特征差分网络效果最为明显，在分段数为3时，串联比原始方法提升了约4.0％，特征差分比原始方法提升了约6.3％，可见这种多时段特征融合操作对于动作识别的准确率提升是有效的。同时也可以得出，对空间流特征进行特征差分融合操作确实比简单串联融合的方式更好，在分段数为3时，特征差分网络能够比串联融合进一步提升2.3％，说明了差分融合对于挖掘长范围时间结构信息更彻底。与之相比，最大融合与平均融合因为损失了一部分信息而导致提升并不明显。

方法	准确率(％)	分段数
			Inception V2	52.0	1
V2-MAX	52.2	2
			V2-AVG	52.5	2
V2-CONCAT	54.1	2
			DIFFNet	56.5	2
V2-MAX	53.2	3
			V2-AVG	53.0	3
V2-CONCAT	56.0	3
			DIFFNet	58.3	3

表1

实施例3

为了进一步证明特征差分结构在空间流上的有效性，本实施例3在HMDB51数据集的3个split上进行实验，实验中选择了串联融合和特征差分网络两种效果显著的方法。表2为HMDB51数据集上的实验结果，从结果可以看出这两种方法对于HMDB51都有不同程度的提升，在HMDB51上不分段时3个split的平均准确率只有49.7％，当分段数为3时，特征差分网络的平均准确率提升到了56.9％，提升了约7.2％，和直接串联融合相比提升了约1.6％。以上这些实验结果说明了通过时域分段与对动作视频的空间流特征进行差分融合操作的方式确实能够有效提升空间流的准确率。特征差分中包含了与原始特征互补的长时动态信息，通过传统的融合方法很难提取出这种信息。

方法	Split 1	Split 2	Split 3	平均准确率	分段数
						Inception V2	52.0	47.3	49.9	49.7	1
V2-CONCAT	54.1	52.2	53.3	53.2	2
						DIFFNet	56.5	55.1	55.1	55.6	2
V2-CONCAT	56.0	54.2	55.6	55.3	3
						DIFFNet	58.3	55.6	56.7	56.9	3

表2

实施例4

本实施例4为了说明本发明提出的时空融合网络的有效性，本实施例4实验将与同样将动作视频分为3段的TSN网络进行对比，并且在空间流网络部分不加入差分操作，如图3所示为该实验中的进行时空融合操作的时空融合网络结构。在HMDB51三个split上的结果如表3所示，其中ST Fusion代表时空融合网络。时空融合网络在三个split上的准确率均高于TSN方法，三个split的平均准确率达到了69.9％，比TSN的平均准确率68.5％高了1.4％，说明了结合时空联合信息比单独使用二者能取得更好的效果，证明了本发明所提出方法的有效性。

方法	Split	准确率(％)
			TSN	Split 1	69.5
ST Fusion	Split 1	71.2
			TSN	Split 2	67.4
ST Fusion	Split 2	69.7
			TSN	Split 3	68.5
ST Fusion	Split 3	68.8
			TSN	average	68.5
ST Fusion	average	69.9

表3

附图中描述位置关系的用语仅用于示例性说明，不能理解为对本专利的限制；

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.基于时域分段及特征差分的动作识别方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的动作识别方法，其特征在于，定义训练集中的动作视频分段数为K，则双流网络每次输入包含有K个RGB图像，输入的K个RGB图像经过双流网络后得到的空间流特征X为：X＝(x₁,x₂,...,x_K)；其中x_k表示第k个输入RGB图像对应的空间流特征，即为第k个时段的空间流特征；

则步骤S32中所述的差分融合操作的定义如下：

通过特征差分的方式得到相邻帧间的差异

从而得到差分融合特征

3.根据权利要求1所述的动作识别方法，其特征在于，所述步骤S33还包括以下步骤：将同一时刻的空间流特征及时间流特征通过双线性融合法进行融合得到时空融合特征，然后将时空融合特征与空间流融合特征及时间流特征进行串联操作后对所述双流网络进行训练。

4.根据权利要求3所述的动作识别方法，其特征在于，所述双线性融合法为CompactBilinear的双线性融合方法。

5.根据权利要求1所述的动作识别方法，其特征在于，所述步骤S1和S2之间还包括数据增强操作，所述数据增强操作包括对提取得到的所有RGB图像以及光流图像进行随机裁剪操作、水平抖动操作、角落裁剪操作以及尺度抖动操作；

所述尺度抖动操作具体包括水平抖动和尺度抖动，其中尺度抖动指对输入大小为256*340的RGB图像及光流图像，选取256、224、192、168中任一数字作为裁剪区域的宽度和高度，并将被裁剪区域缩放到大小为224*224。

6.根据权利要求3所述的动作识别方法，其特征在于，所述步骤S3中所述训练前还包括：首先采用在ImageNet数据集上训练好的网络参数来初始化双流网络。

7.根据权利要求1～6任一项所述的动作识别方法，其特征在于，所述双流网络由BN-Inception V2网络构建。