CN110516540B

CN110516540B - 基于多流架构与长短时记忆网络的组群行为识别方法

Info

Publication number: CN110516540B
Application number: CN201910646216.8A
Authority: CN
Inventors: 宋波; 王传旭; 胡小悦
Original assignee: Qingdao Keda Youzhi Information Technology Co ltd; Qingdao University of Science and Technology
Current assignee: Qingdao Keda Youzhi Information Technology Co ltd; Qingdao University of Science and Technology
Priority date: 2019-07-17
Filing date: 2019-07-17
Publication date: 2022-04-29
Anticipated expiration: 2039-07-17
Also published as: CN110516540A

Abstract

本发明公开了一种基于多流架构与长短时记忆网络的组群行为识别方法，涉及图像识别技术领域，包括以下步骤：数据预处理；B、通过双路TSN网络分别对主要人物候选框和整张图片的外观和运动特征进行提取，得到单人局部空间外观信息

单人局部时序运动信息

全局空间外观信息

和全局时序运动信息

C、特征融合及组群行为识别；D、对模型进行训练和测试。本发明的有益效果是，特征提取方面，进一步保证其提取的全面性；特征融合方面，使用通道注意力模型，以获得更具区分性的特征，来提高组群行为的准确率。

Description

基于多流架构与长短时记忆网络的组群行为识别方法

技术领域

本发明涉及图像识别技术领域，特别是一种基于多流架构与长短时记忆网络的组群行为识别方法。

背景技术

近年来，视频中的人类行为识别在计算机视觉领域取得了举世瞩目的成就。组群行为分析在现实生活中也得到了广泛应用，如智能视频监控、异常事件检测、体育分析、理解社会行为等，这些应用都使得组群行为识别具有重要的科学实用性和巨大的经济价值。随着深度学习逐渐在计算机视觉领域取得了巨大成功，卷积神经网络(CNN)也逐渐被应用于基于视频的人类行为识别，并取得了显著成效。

给定一段视频序列，简单的行为识别即单人动作的分类，只需将其中每个人的动作准确分类到已知的动作类别中。较复杂的人体行为即组群行为识别，往往给定的视频中包含多个目标多个动作类别，多个目标可能在同时做相同的动作，或者多个目标正在共同完成同一个行为(行为)，我们将这些由多人完成的相同动作或者共同完成的行为(行为)称为“组群行为”。本申请涉及的内容是基于视频中的多人行为识别问题。

一般来讲，用于行为识别的融合方法主要有两种：前期融合和后期融合。前期融合也叫特征融合，特征融合又分为级联融合、最大值融合和平均融合。后期融合主要是指分数融合。早期融合是通过将它们整合到单个流中进行训练，连接来自不同流的特征，其融合方式如图1所示；后期融合是通过平均或使用线性分类器来组合两个网络的softmax分数，如图2所示。这种融合方法也称为决策级融合或语义级融合，该方法已广泛用于图像和视频分析。

在组群行为识别任务中，目前还存在两方面的问题。(1)在特征提取方面，通常先对视频中的关键人物进行定位，关注局部信息从而忽略全局特征，关注外观特征从而忽略其运动特征，从而导致特征提取的不全面性。(2)在特征融合方面，通常仅采用特征融合或分数融合，或既采用分数融合又采用特征融合，但若将提取的特征仅进行简单的融合，那么将不能有效提高组群行为识别的准确率。

发明内容

本发明的目的是为了保证对输入视频特征提取的全面性，有效保证视频序列中的组群行为识别的准确性，设计了一种基于多流架构与长短时记忆网络的组群行为识别方法。

为了实现上述目的，本发明的技术方案为，一种基于多流架构与长短时记忆网络的组群行为识别方法，包括以下步骤：

A、数据预处理

根据数据集中主要人物候选框的标注信息，形成主要人物候选框序列；

分别提取视频中整张图片和主要人物候选框的光流时序信息；

B、通过双路TSN网络分别对主要人物候选框和整张图片的外观和运动特征进行提取，得到单人局部空间外观信息

单人局部时序运动信息

全局空间外观信息

和全局时序运动信息

C、特征融合及组群行为识别

将

和

进行融合，得到特征f_A；将

和

进行融合，得到特征f_B；将

和

进行融合，得到特征f_C；将

和

进行融合，得到特征f_D；

在融合后的特征f_A、f_B、f_C和f_D上分别加一个通道注意力模型，并让每个通道的特征学习一个权重系数，特征的重要性越大，则学习到的权重系数就大；反之，则小；

经过通道注意力模型输出的四路特征后面分别连接LSTM网络，捕获视频中长期依赖关系；每个LSTM网络直接连接softmax层，并进行分数融合，得出视频序列中的组群行为类别，根据组群行为类别获得整个组群行为的标签；

D、对模型进行训练和测试。

进一步的，所述双路TSN网络包括局部TSN网络TSN_L和全局TSN网络TSN_G，所述局部TSN网络TSN_L对主要人物候选框的外观和运动特征进行提取，所述全局TSN网络TSN_G对整张图片的外观和运动特征进行提取。

进一步的，在所述步骤B中，所述TSN网络采用稀疏采样的方法提取视频序列中的短片段，短片段沿时间维均匀分布，并采用分段结构从短片段中聚合信息。

进一步的，在所述步骤B中，将视频平均分成k段{S1，S2，...，Sk}，利用双路TSN网络的公式表示为：

TSN(T₁,T₂,...,T_K)＝G(F(T₁；W),F(T₂；W),...,F(T_K；W))

式中，(T₁,T₂,...,T_K)为短片段序列，每一个短片段T_K为其对应的段Sk中随机采样得到；F(T_K；W)函数表示在短片段T_K上进行操作并且具有参数W的卷积网络，提取每个子片段中随机采样的图像的特征；G为结合多个短片段特征的段共识函数。

进一步的，在所述步骤B中，结合标准的分类交叉熵损失，得到关于段共识函数G的最终损失函数。

进一步的，用标准的反向传播算法联合优化模型参数W。

进一步的，在所述步骤D中，将TSN网络与LSTM网络分别进行训练，并将数据集按照3：1的比例进行划分，将数据集中3/4的数据进行训练，1/4的数据进行测试与验证，得出数据集中各类行为的准确率以及平均识别精度。

进一步的，所述数据集为CAD数据集或者排球数据集。

本发明的有益效果是：

(1)在特征提取方面，添加多重视觉线索，以获得更具区分性的特征。将从特征提取的输入端来解决这些问题，既关注局部特征和全局特征，又关注外观特征和运动特征，从而保证特征提取的全面性。

(2)提出了一种新的混合融合策略。对整张图片和主要人物候选框提取局部光流特征、局部空间特征、全局光流特征、全局空间特征，利用TSN网络完成特征提取任务，并提出了一种新的混合融合策略，在前期进行级联融合，中期采用通道注意力模型给TSN网络的四路特征分配权重，后期经过LSTM网络后进行分数融合。在进行级联融合之后，采用通道注意力模型，使之能够对前期提取的特征进行进一步的处理，从而保证对视频序列中的组群行为识别的准确性。

综上两点有益效果：(1)特征提取方面，进一步保证其提取的全面性；(2)特征融合方面，使用通道注意力模型，以获得更具区分性的特征，来提高组群行为的准确率。

附图说明

图1是现有技术中前期融合方式的结构示意图；

图2是现有技术中后期融合方式的结构示意图；

图3是本申请组群识别过程流程图；

图4是CAD数据集中其中一种行为的剪辑帧示例，包括边界框、单人行为和组群行为的标定；

图5是两种输入模态：左边上下两图是主要人物候选框及其对应的X,Y两个方向光流图；后边上下两图是整张图片及其对应的X,Y两个方向光流图；

图6是本申请整体网络架构图。

具体实施方式

为更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效，以下结合附图及较佳实施例，对依据本发明的具体实施方式、结构、特征及其功效，详细说明如下：

组群行为识别的关键是捕获更高层级的特征表示，从而实现组群行为识别。本申请的构思如下：

由于现在的大多数文献都是基于视频中关键人物的候选框进行特征提取，这就忽略了背景信息，在行为识别中，不光要关注关键人物的时空信息，还需将其周围环境考虑在内。因此，针对这些缺点，本申请的第一个创新点就是在考虑特征提取网络输入端时，既考虑整张图片的时空信息，又考虑关键人物的时空信息。

本发明在组群行为识别方面，对其整体框架进行结构性创新，不仅关注局部个人的外观和运动特征，还关注背景信息，得到全局外观和运动特征。并提出了一种新的混合融合策略，在整个组群行为识别过程中进行了各种交叉性的级联融合，并赋予通道注意力模型，将重要特征进行重点关注，最后进行四路分数融合，进而提高组群识别的准确性。

本文提高了一种基于多流架构与长短时记忆网络的组群行为识别方法，如图3所示，包括四步。具体包括以下步骤：

A、数据预处理

如图4所示，利用数据集中已经提供的主要人物候选框的标注信息，形成主要人物候选框序列，完成对视频中主要人物的跟踪。

提取光流特征，利用TVL1(TotalVariation-L1)光流算法分别提取视频中整张图片和主要人物候选框的光流时序信息，得到整张图片和主要人物候选框的X方向和Y方向的光流信息，作为TSN网络时间网的输入。本申请重点考虑多个输入的视觉线索，由于在真实复杂的环境中，除了人在运动之外，还有好多其余物体的运动，例如：数据集中的“Crossing”类，人在等待过马路的过程中车在运动，光流场可能不会全部集中在人的动作上。因此，使用翘曲光流的提取方法，提取视频中人物的X方向和Y方向的光流信息，其中深浅代表运动速度，将捕获的短期运动特征作为TSN网络时间网的输入。本文提取的X和Y两个方向的光流如图5所示。

B、通过双路TSN网络进行时空特征提取

双路TSN网络包括局部TSN网络TSN_L和全局TSN网络TSN_G，局部TSN网络TSN_L对主要人物候选框的外观和运动特征进行提取，全局TSN网络TSN_G对整张图片的外观和运动特征进行提取。

假设给定一段输入视频，将输入视频平均分成k段{S1，S2，...，Sk}，利用双路TSN网络的公式表示为：

TSN(T₁,T₂,...,T_K)＝G(F(T₁；W),F(T₂；W),...,F(T_K；W))

式中，(T₁,T₂,...,T_K)为短片段序列，每一个短片段T_K为其对应的段Sk中随机采样得到；F(T_K；W)函数表示在短片段T_K上进行操作并且具有参数W的卷积网络，提取每个子片段中随机采样的图像的特征；G为结合多个短片段特征的段共识函数，以获得他们之间关于类别假设的共识。

结合标准的分类交叉熵损失，得到关于段共识函数G的最终损失函数η(y,G)为：

式中，C是动作类别的总数，y_i是第i类对应的真实值，G_i是第i类的段共识函数，G_j是第j类的段共识函数。

由于TSN网络是可微的，这使得我们可以利用多个片段，用标准的反向传播算法联合优化模型参数W。用标准的反向传播算法联合优化模型参数W，在迭代过程中，模型参数W相对于损失值L的梯度可以推导为：

式中，L是指模型在训练过程中每迭代一次所产生的损失值。

在步骤B中，TSN网络采用稀疏采样的方法提取视频序列中的短片段，短片段沿时间维均匀分布，并采用分段结构从短片段中聚合信息，使时间网能够对整个视频进行长时间建模。

局部TSN_L网络空间网的输入是将主要人物候选框序列等间隔均匀分段，然后从每一段中随机挑选N张送入到局部TSN_L网络空间网中，捕获单人局部空间外观信息

局部TSN_L网络时间网的输入是将主要人物候选框序列所对应的光流信息等间隔均匀分段，然后从每一段中随机挑选连续M帧光流图像送入局部TSN_L网络时间网中，得到单人局部时序运动信息

全局TSN_G网络空间网的输入是将整段视频序列进行等间隔均匀分段，然后从每一段中随机挑选N张送入到全局TSN_G网络空间网中，捕获整张图片的全局空间外观信息

全局TSN_G网络时间网的输入是将整段视频所对应的光流图像进行等间隔分段，然后从每一段中随机挑选连续M帧光流图像送入到全局TSN_G网络时间网中，得到整张图片全局时序运动信息

因此，本申请特征提取网络输入端形成四条支路，这样既提取了全局和局部的外观信息，又提取了全局和局部的运动信息。本申请整体网络架构图如图6所示：

本申请用随机梯度下降(SGD)法来学习模型参数，这种方式使得TSN网络可以从整个视频而不是一小段视频中学习模型参数，通过稀疏时间采样策略，其中只采样视频帧中的一小部分，大大降低了计算成本。TSN获得的时空特征也分别用整个视频时空特征的稀疏表示。

C、特征融合及组群行为识别

在前期，将

和

进行融合，融合后的特征用f_A表示；将

和

进行融合，融合后的特征用f_B表示；将

和

进行融合，融合后的特征用f_C表示；将

和

进行融合，融合后的特征用f_D表示。

在中期，在四路融合后的特征f_A、f_B、f_C和f_D上分别加一个通道注意力模型，让每个通道的特征学习一个权重系数，特征的重要性越大，则学习到的权重系数就大；反之，则小，四路融合后的特征f_A、f_B、f_C和f_D在分别通过注意力模型之后的输出为：

W₁×f_A，W₂×f_B，W₃×f_C，W₄×f_D

式中，W1、W2、W3、W4为权重系数。

在后期，经过注意力模型输出的四路特征后面分别连接LSTM网络，捕获视频中长期依赖关系，从而获得帧与帧之间的时序上下文关系，生成组群级特征表示；每个LSTM网络直接连接softmax层，经过softmax层之后的四路特征分别用Q₁、Q₂、Q₃和Q₄表示：

Q₁＝softmax(W₁×f_A)

Q₂＝softmax(W₂×f_B)

Q₃＝softmax(W₃×f_C)

Q₄＝softmax(W₄×f_D)

将Q₁、Q₂、Q₃和Q₄进行分数融合，得出视频序列中的组群行为类别。以视频中大多数人的行为作为组群行为类别，最终获得整个组群行为的标签。

给定场景中每个人的边界框，通过使用LSTM网络来表示每个人动作上的时间信息，这些时间信息是空间特征的补充，对性能至关重要。LSTMs中的存储内容使其适合于建模复杂的时间关系，这些时间关系可能跨越很长的范围。LSTM网络存储单元的内容由几个控制进出存储单元信息流的控制单元控制，这些控制单元提供的控制有助于避免假的梯度更新，这通常发生在训练RNNs时，由于时间输入长度很大，这个属性使我们能够堆叠大量这样的层，以便学习在不同范围的输入中呈现的复杂动态。

假定x_t为LSTM网络在t时刻的输入，激活单元公式可以表示为：

i_t＝σ(W_xix_t+W_hih_t-1+b_i)

f_t＝σ(W_xfx_t+W_hfh_t-1+b_f)

o_t＝σ(W_xox_t+W_hoh_t-1+b_o)

g_t＝φ(W_xcx_t+W_hch_t-1+b_c)

c_t＝f_t☉c_t-1+i_t☉g_t

h_t＝o_t☉φ(c_t)

其中，σ表示sigmoid函数，φ表示tanh函数，x_t表示输入，h_t∈R^N表示隐藏层状态，里面有N个隐藏单元，c_t∈R^N表示存储单元，i_t∈R^N,f_t∈R^N,o_t∈R^N以及g_t∈R^N分别表示输入门，遗忘门，输出门，在t时刻的输入调制门；☉表示表示数组元素依次相乘。

由于LSTM网络具有捕获长期时序信息的能力，因此，本申请在经过通道注意力模型输出的四路特征后面分别连接LSTM网络，捕获帧与帧之间的上下文时序信息，生成组群级特征表示，直接连接softmax层，经过softmax层的四路特征进行分数融合，以得出视频序列中的组群行为类别。更具体地说，本申请将四路通道注意力模型模型的输出作为LSTM网络的输入，LSTM网络的输出维数设置为类的数量。并以视频中大多数人的行为作为组群行为类别，最终获得整个组群行为的标签。

D、对模型进行训练和测试。

本申请在训练整个模型时，采用分段训练来学习模型参数。将TSN网络与LSTM网络分别进行训练，并将数据集按照3：1的比例进行划分，将数据集中3/4的数据进行训练，1/4的数据进行测试与验证，得出数据集中各类行为的准确率以及平均识别精度。

本申请训练部分使用CAD或者排球两个公开数据集。其中，CAD数据集包含由低分辨率手持相机收集的44个视频片段，五类行为标签：Crossing，Waiting，Queuing，Walking，Talking；八种姿势标签(实验中未使用)；五种组群行为标签：Crossing，Waiting，Queuing，Walking，Talking。根据大多数人在场景中所做的事情，场景被赋予小组行为的标签，以及每个人都有一个行为标签，每一帧图像都有一个场景行为标签。在CAD数据集中，由于“Walking”与“Crossing”类具有相似的视觉特征，因此我们将“Walking”和“Crossing”合并为“Moving”。因此，本申请的CAD数据集中共有四类行为标签：Moving，Waiting，Queuing，Talking。

Volleyball数据集包含55个视频和4830个带注释的帧，每一帧都标注了每个球员的位置、所属行为类别(例如：Waiting，Setting，Digging，Failing，Spiking，Blocking，Jumping，Moving，Standing)和小组行为类别(例如：Leftpass，Rightpass，Left set，Rightset，Left spike，Right spike，Left win point，Right win point)。

以上参考了优选实施例对本发明进行了描述，但本发明的保护范围并不限制于此，在不脱离本发明的范围的情况下，可以对其进行各种改进并且可以用等效物替换其中的部件，只要不存在结构冲突，各个实施例中所提到的各项技术特征均可以任意方式组合起来，且不应将权利要求中的任何附图标记视为限制所涉及的权利要求，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的。因此，任何落入权利要求的范围内的所有技术方案均在本发明的保护范围内。