CN111339908B

CN111339908B - 基于多模态信息融合与决策优化的组群行为识别方法

Info

Publication number: CN111339908B
Application number: CN202010111024.XA
Authority: CN
Inventors: 王传旭; 胡小悦; 闫春娟
Original assignee: Qingdao University of Science and Technology
Current assignee: Shenzhen Iteng Information Technology Co.,Ltd.
Priority date: 2020-02-24
Filing date: 2020-02-24
Publication date: 2023-08-15
Anticipated expiration: 2040-02-24
Also published as: CN111339908A

Abstract

本发明公开一种基于多模态信息融合与决策优化的组群行为识别方法，首先针对待进行组群行为识别的视频，获取组群成员候选框序列，提取其对应的光流特征，并提取人体姿态分割特征作为第三重视觉线索；然后获取人体目标时空特征的双流模型并将其进行多模态信息融合(MMF)；最后将经过MMF融合后得到的两条支路分别连接GRU，并采用基于自适应类别权重的多分类器融合方法进行决策优化，进而获得组群行为标签。本发明方案在特征融合时，设计MMF特征融合算法使得时空两路特征相辅相成，信息互为补充，最终获得更好的特征表示；在决策优化方面，设计基于自适应类别权重的多分类融合方法，对分类器取舍与各类别权重进行更加精确的计算，从而取得较高的识别精度。

Description

基于多模态信息融合与决策优化的组群行为识别方法

技术领域

本发明属于计算机视觉技术领域，具体的涉及一种基于多模态信息融合与决策优化的组群行为识别方法，以实现视频序列中的组群行为识别。

背景技术

近年来，视频中的人类行为识别在计算机视觉领域取得了举世瞩目的成就。人体行为识别在现实生活中也得到了广泛应用，如智能视频监控、异常事件检测、体育分析、理解社会行为等，这些应用都使得组群行为识别具有重要的科学实用性和巨大的经济价值。随着深度学习逐渐在计算机视觉领域取得了巨大成功，各类神经网络架构也逐渐被应用于基于视频的人类行为识别，并取得了显著成效。

申请公布号为【CN110188637A】的发明专利公开一种基于深度学习的行为识别技术方法；通过采用双流卷积神经网络和GRU网络相结合的方式搭建更深层次的时空双流CNN-GRU神经网络模型；提取视频的时间域和空间域特征；根据GRU网络能记忆信息的能力，提取时空特征序列的长时间序列化特征，利用softmax分类器进行视频的行为识别；提出新的基于相关熵的损失函数；借鉴人脑视觉神经注意力机制处理海量信息的方法，在时空双流CNN-GRU神经网络模型进行时空特征融合之前引入注意力机制，在一定程度上提高了识别率。

但是，在现有组群行为识别研究算法中，仍然存在以下缺陷：(1)在特征提取方面，仅考虑视频序列中人物的空间外观特征，没有考虑人物的光流运动特征；(2)采用双流输入提取特征时，仅将空间特征和光流运动特征进行简单的前期或后期融合；(3)在决策优化方面，仅采用加权平均的决策优化方法进行决策优化时，往往将不同特征所得到的分类结果同等看待，无法判别每种分类性能的好坏，因此很难对复杂问题进行有效分类。因此，现有技术对组群行为的识别所考虑的因素少，不够全面，容易产生误判，影响组群识别精度。

发明内容

本发明针对现有组群行为识别方法考虑的因素少、容易误判，影响识别精度的缺陷，提出一种基于多模态信息融合与决策优化的组群行为识别方法，能够取得更高的识别精度。

本发明是采用以下的技术方案实现的：一种基于多模态信息融合与决策优化的组群行为识别方法，包括以下步骤：

步骤A、针对待进行组群行为识别的视频，获取组群成员候选框序列，提取其对应的光流特征，并提取人体姿态分割特征作为第三重视觉线索；

步骤B、获取人体目标时空特征的双流模型并将其进行MMF融合；

步骤B1、根据步骤A中得到组群成员候选框序列、光流特征以及人体姿态分割特征进行多重视觉线索的特征提取，基于I3D网络分别对应的提取视频序列中组群成员的RGB空间外观特征、时间运动特征和空间姿态特征；

步骤B2、将经过I3D网络提取的两组时空特征进行MMF融合，通过压缩和激励操作，利用多模态输入重新校准每条特征支路中的通道特征，将RGB空间外观特征支路和时间运动特征支路互为补充，同时使空间姿态特征支路和时间运动特征支路也互为补充，实现多模态特征融合；

步骤C、经过MMF融合后得到的两条支路分别连接GRU网络，基于GRU网络的时序模型捕获视频中组群成员的长期时序关系；

步骤D、最后基于自适应类别权重的多分类器决策优化，获得组群行为标签，完成组群行为识别。

进一步的，所述步骤B2中MMF融合采用以下原理：

(1)首先利用压缩操作，利用全局平均池化将每个支路的时空信息压缩到信道描述符中；

(2)然后通过级联不同信道描述符和全连接层操作，产生具有重新校准输入功能的激励信号E_A和E_B，用于控制每种模态中的通道特征；

(3)最后通过激励函数并在通道方向使用点乘操作，融合后的特征通过σ函数激发更重要的卷积核并抑制不重要的卷积核，通过一种模态的特征重新校准另一模态的特征。

进一步的，所述RGB空间外观特征和时间运动特征进行MMF融合与空间姿态特征和时间运动特征进行MMF融合采用相同的原理，对于组群成员候选框序列与光流特征两种输入模态来说，RGB空间外观特征和时间运动特征MMF融合的过程如下：

(1)设和/>分别表示经过I3D网络提取的RGB空间外观特征和时间运动特征，其中，N_i和M_i表示空间维度和时间维度，C和C'表示空间网和时间网的通道方向特征；

(2)压缩操作：首先通过在输入特征的空间维度与时间维度上使用全局平均池化将空间信息与时间信息分别压缩到各自信道描述符中：

(3)激励操作产生激励信号，重新校准输入；

E_A∈R^C和E_B∈R^C'具有重新校准输入的功能，A和B通过简单的门控机制：

其中，☉表示通道方向点乘操作，σ(.)表示sigmoid函数；

将MMF正则化权重设置为2×σ(E_A)，使得门控信号更接近于1，以限制门控信号对每条支路产生的影响；所述门控信号为两个输入的函数，且具有独立预测的能力，因为每种模态需要彼此不同地变化：

首先，通过从压缩信号中联合表示来实现预测：

Z＝W[S_A,S_B]+b (5)

其次，通过两个独立的全连接层预测每种模态的激励信号：

E_A＝W_AZ+b_A (6)

E_B＝W_BZ+b_B (7)

其中，[.,.]表示级联操作；表示权重；b_A∈R^C,b_B∈R^C'表示全连接层的偏置。

进一步的，所述步骤D中，将RGB空间外观特征和时间运动特征经MMF融合后再通过GRU单元的支路记为P1支路；输入样本经过该支路提取的特征记为y1；将时间运动特征和空间姿态特征经MMF融合后再通过GRU单元的支路记为P2支路，输入样本经过该支路提取的特征记为y2，则具体进行决策优化时，包括：

步骤D1、给定训练样本集，首先将输入样本特征y1和y2与训练样本集的特征集进行相似度比对，根据聚类相似程度分别得到对应y1和y2的替代样本精简子集；

步骤D2：然后将得到的y1和y2的替代样本精简子集特征分别输入各自的softmax分类器，依据这2个softmax的分类结果计算各自的混淆矩阵H₁和混淆矩阵H₂，假设一共有Q种组群行为类别，则有：

(2)分别分析计算第1个和第2个分类器的置信度λ₁和λ₂：

(3)最后得到最终的组群行为类别，即输出结果M：

M＝λ₁H₁+λ₂H₂ (14)

进而完成组群行为识别。

进一步的，所述步骤C1中，在GRU网络中引入两个门函数，分别为更新门和重置门，由于每个隐藏单元都有单独的重置门和更新门，因此每个隐藏单元将学会捕获不同时间范围内的依赖关系；

假定x_t为GRU网络在t时刻的输入，重置门r_j和更新门z_j的公式表示为：

r_j＝σ([W_rx]_j+[U_rh_<t-1>]_j) (8)

z_j＝σ([W_zx]_j+[U_zh_<t-1〉]_j) (9)

其中，σ表示sigmoid函数，[.]_j表示向量的第j个元素，x和h_<t-1>分别表示输入和上一时刻的隐藏状态，W_r，U_r，W_z和U_z表示学习到的权重矩阵；

实际激活建议单元公式表示为：

其中，φ表示tanh函数；x表示输入，表示隐藏层状态；☉表示数组元素依次相乘。

进一步的，所述步骤A具体采用以下方式实现：

(1)获取组群成员候选框序列：基于Faster R-CNN网络对视频序列中的组群成员进行定位与跟踪，形成被跟踪人物的边界框序列；

(2)光流特征提取：基于Flownet 2.0网络对视频中的组群成员提取相邻两帧的光流信息；

(3)人体姿态分割特征提取：基于Fast-Net人体部位分割网络提取视频中组群成员的身体姿势信息，作为空间特征的进一步补充。

与现有技术相比，本发明的优点和积极效果在于：

(1)在特征提取方面，本方案在获得组群成员候选框序列和光流特征的基础上，结合人体姿态分割特征作为第三重视觉线索，以期获得更具区分的特征；

(2)在进行时空特征融合方面，设计MMF特征融合算法，通过压缩和激励操作，利用多模态输入特征来重新校准每个CNN流中的通道特征，使得时空两路特征相辅相成，互为补充，从而实现每个多模态特征融合，最终会获得更好的特征表示，用于组群行为的判别；

(3)在决策优化方面，设计基于自适应类别权重的多分类融合方法，即结合经过I3D网络提取的RGB空间外观特征、时间运动特征及空间姿态特征，构建两路特征互补的行为识别通道，根据测试样本(输入样本)和训练样本的聚类相似程度来确定测试样本的替代样本精简集合，结合其在不同支路分类器性能优劣评价，实现各类别权重的计算，从而取得决策优化后的识别结果。

附图说明

图1为本发明实施例所述组群行为识别流程示意图；

图2为本发明实施例CAD数据集中某一帧的标注信息，包括候选框、单人行为和组群行为的标定；

图3为本发明实施例所述CAD数据集中某一帧人体目标候选框图像经Flownet 2.0网络提取的光流图像；

图4为本发明实施例所述的Fast-Net网络架构结构示意图；

图5为本发明实施例所述I3D网络模型结构示意图；

图6为本发明实施例利用I3D网络进行特征提取的整体网络架构图；

图7为本发明实施例所述MMF融合网络架构结构示意图；

图8为本发明实施例整体融合网络架构结构示意图；

图9为本发明实施例基于自适应类别权重的决策优化原理示意图。

具体实施方式

为了能够更加清楚地理解本发明的上述目的、特征和优点，下面结合附图及实施例对本发明做进一步说明。在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是，本发明还可以采用不同于在此描述的其他方式来实施，因此，本发明并不限于下面公开的具体实施例。

本实施例提出一种基于多模态信息融合与决策优化的组群行为识别方法，如图1所示，包括以下步骤：

第一步：针对待进行组群行为识别的视频，获取组群成员候选框序列，提取其对应的光流特征，并提取人体姿态分割特征，具体的：

1、获取组群成员候选框序列

通过Faster R-CNN网络对视频序列中的组群成员进行定位与跟踪，形成被跟踪人物的边界框序列，完成对视频中组群成员的跟踪；

2、对视频中的组群成员提取相邻两帧的光流特征信息；

3、提取视频中组群成员的人体姿态分割特征作为第三重视觉线索；

第二步：获取人体目标时空特征的双流模型并将其进行MMF融合；

1、根据第一步中得到组群成员候选框序列、光流特征以及人体姿态分割特征进行多重视觉线索的特征提取，基于I3D网络分别对应的提取视频序列中组群成员的RGB空间外观特征、时间运动特征和空间姿态特征；

2、将经过I3D网络提取的两组时空特征进行MMF融合，即将RGB空间外观特征支路和时间运动特征支路进行MMF融合，时间运动特征支路和空间姿态特征支路进行MMF融合；

第三步：经过MMF融合后得到的两条支路分别连接GRU网络单元，通过GRU网络的时序模型捕获视频中组群成员的长期时序关系；

第四步：最后基于自适应类别权重的多分类器决策优化，获得组群行为标签，完成组群行为识别

本方案的重点在于保证对待识别的视频特征提取的准确性；其中，在特征融合方面，提出了一种多模态特征融合方法，通过压缩和激励操作，利用多模态输入重新校准每条特征支路中的通道特征，将RGB空间外观特征支路和时间运动特征支路互为补充，同时希望空间姿态特征支路和时间运动特征支路也互为补充，实现多模态特征融合，从而更好地为最终组群行为判别做铺垫；另外，在决策优化方面，基于自适应类别权重的多分类融合方法，结合经过I3D网络提取的RGB空间外观特征，时间运动特征及空间姿态特征，根据输入样本和训练样本的聚类相似程度来确定测试样本的替代样本精简集合，结合其在不同支路分类器性能优劣评价，实现各类别权重的计算，从而取得决策优化后的识别结果。

下面结合具体的实施方式进行详细的介绍：

第一步：获取组群成员候选框序列，提取其对应的光流特征，并将提取到的人体姿态分割特征，具体的：

1、获取组群成员候选框序列

组群行为识别的关键是捕获更高层级的特征表示，实现组群行为识别。因此，在进行特征提取之前，必须对视频序列中的组群成员进行定位与跟踪，以获取组群成员候选框序列，具体可通过Faster R-CNN网络等成熟网络模型实现。

比如，目前公认的组群行为数据集包括Volleyball数据集和CAD数据集。对于CAD数据集来说，利用CAD数据集中已经提供的候选框(bounding box)人体目标标注信息，形成被跟踪人物的边界框序列，完成对视频中人物目标的跟踪，如图2所示，以CAD数据集中某一帧的标注信息为例，其中包括候选框、单人行为和组群行为的标定。而对于Volleyball数据集来说，由于Volleyball数据集中没有提供人体目标候选框的标注信息，因此，可通过Faster R-CNN网络对每一帧图像中的重点人物进行检测与定位，计算Faster R-CNN标注的候选框与输入序列的候选框之间的损失，并对这个损失进行训练，实现更加精准的定位，从而形成被跟踪人物的候选框序列，完成对视频中组群成员的跟踪。

2、提取光流特征

本实施例重点考虑多个输入的视频线索，在光流特征提取方面，比如可通过Flownet 2.0网络对视频中的组群成员提取相邻两帧的光流信息，经过Flownet 2.0网络提取的光流图像是和原图像大小相等的双通道图像。

以CAD数据集中的某一帧图像为例，光流数据可视化结果如图3所示，深浅表示运动的速度；由光流图可知图中人的手和脚的颜色偏深，说明脚和手的运动速度较快，即该人的脚在走路，手在前后摆动。

3、提取人体姿态分割特征

本实施例在获取组群成员候选框序列和光流特征的基础上，添加人体姿态分割特征作为第三重视觉线索，以期获得更具区分的特征。

在提取人体姿态分割特征方面，本实施例利用Fast-Net人体部位分割网络提取视频中组群成员的身体姿势信息，作为空间特征的进一步补充，该网络架构使用VGG网络初始化编码器部分，从编码器到解码器部分采用跳跃连接(Skip connections)方式，确保输出中的细节重建到原始输入分辨率，为最终的行为识别提供身体姿势信息。其体系结构如图4所示，其中，最左边为输入图像，经过卷积操作、池化操作和反卷积操作等，通过softmax层，最终输出人体身体姿态分割结果。

第二步、获取人体目标时空特征的双流模型并将其进行MMF融合；

1、根据第一步中得到组群成员候选框序列、光流特征以及人体姿态分割特征进行多重视觉线索的特征提取，基于I3D网络分别对应的提取视频序列中组群成员的空间外观特征、时间运动特征和空间姿态特征；

多重视觉线索在复杂的人类行为识别中起着越来越重要的作用。目前，多流架构大致可以分为两大类：一类是双流网络，即以RGB视频帧和光流图像作为2D网络两条分支的输入，利用空间特征和运动特征进行初步行为识别，然后通过简单地融合概率分数，行为识别准确性得到显著提升。另一类则是将RGB视频帧看作是3D输入，然后使用3D卷积网络进行处理，如典型的C3D网络。最初针对图像识别主要使用2D卷积，而对于视频分析问题，2D卷积不能很好的捕获时序上的信息，因此提出了C3D网络。虽然3D类方法的效率远远高于其他方法，在行为识别方面取得了不错的进展，但也存在以下两方面问题：一是3D卷积核的计算开销比较大；二是在效果上距离双流类方法有一定的距离。

本方案在传统双流网络和C3D网络的基础上，利用一种基于2D膨胀卷积的双流3D膨胀卷积网络(I3D)，将卷积核由2D扩展为3D，从而可以从视频中无缝学习时空特征，并能够在行为识别领域取得不错的效果。I3D网络属于双流网络，一路空间网，其输入是组群成员候选框序列，其输出的特征称为RGB空间外观特征(人体姿态分割特征输入后作为空间特征的补充，经I3D输出后记为空间姿态特征)；一路时间网，其输入是经过Flownet 2.0网络提取的光流特征，其输出的特征称为时序运动特征。

具体的，本实施例中，I3D网络使用Inception V1架构，输入为5帧连续的RGB视频帧(相隔10帧采样一次)以及相应的光流片段，在Inception-V1网络的最后一个平均池化层(5×7×7，分别对应于时间，x和y维度)之前，空间特征和运动特征先通过具有512个输出通道的3×3×3的3D卷积层，然后再通过3×3×3的3D最大池化层，最后通过全连接层，相较于原始C3D网络，I3D网络在所有卷积和全连接层之后进行批处理归一化操作，并在第一层池化层中，将时间跨度设置为2，减少了内存占用并允许更大的批处理，I3D网络模型如图5所示。

利用I3D网络进行特征提取的整体网络架构图如图6所示，组群成员候选框序列(Image)、光流特征(Optical)及人体姿态分割特征(Body Part Segmentation)都作为I3D网络的输入，并将这三条支路分别对应的记为RGB空间外观特征支路、时间运动特征支路和空间姿态特征支路。

组群成员候选框序列(Image)和人体姿态分割特征(Body Part Segmentation)属于空间特征，进入I3D的空间网中，光流特征(Optical)属于时序特征，进入I3D网络的时间网中；将组群成员候选框序列和其对应的光流图像分别输入到I3D的空间网和时间网中，得到RGB空间外观特征和时间运动特征；将带有候选框的人体姿态分割特征输入到I3D的空间网中，提取人体目标的辅助空间姿态特征作为空间特征进一步的补充，进而得到人体目标时空特征的双流模型。

2、将经过I3D网络提取的两组时空特征进行MMF融合

在已有的人类行为识别工作中，特征融合方法大致分为两类：一类是连接(串联)融合(concate)，直接将两个特征进行级联。设两个输入特征x和y的维数分别为p和q，则输出特征z的维数表示为p+q；一类是并行策略(add)，将这两个特征向量组合成复向量，对于输入特征x和y，则z＝x+iy，其中，i为虚数单位。对于以上两类特征融合方法，其两条支路特征都是相互独立，互不干扰的，但在本方案中，则是将两条支路特征逐帧实现相辅相成、互为补充。

本实施例中，在特征融合方面创造性的提出一种多模态特征优化(MultimodalFusion，MMF)方法，通过压缩和激励操作，利用多模态输入重新校准每条特征支路中的通道特征。

对于RGB空间外观特征支路和时间运动特征支路进行MMF融合，以及时间运动特征支路和空间姿态特征支路进行MMF融合时，若某一条支路特征不理想，首先基于压缩操作利用全局平均池化将时空信息压缩到信道描述符中；然后通过激励操作，产生具有重新校准输入功能的激励信号E_A和E_B，用于控制每种模态中的通道特征；最后在通道方向使用点乘操作，融合后的特征通过σ函数激发更重要的卷积核并抑制不重要的卷积核，即赋予较重要的特征更大的权重，赋予相对不重要的特征较小的权重，该路卷积核(权重)通过学习迭代调整，使得时空两路特征相辅相成，互为补充，即这种融合方式可允许通过一种模态的特征重新校准另一模态的特征。从而实现多模态特征融合，最终获得更好的特征表示，用于组群行为的判别。

所述的多模态的特征融合(MMF，Multimodal Fusion)方法，通过压缩和激励操作，利用多模态输入重新校准每条特征支路中的通道特征，其网络架构如图7所示，图8为整体融合网络架构图。

以组群成员候选框序列与光流特征两种输入模态为例，和分别表示经过I3D网络提取的空间特征和运动特征，其中，N_i和M_i表示空间维度和时间维度，C和C'表示空间网和时间网的通道方向(channel-wise)特征。MMF通过压缩操作从每个张量A和B中获得全局特征描述子，Z表示通过全连接层将两支路特征进行级联，激励信号E_A和E_B通过级联过程产生，最后激励信号用于控制每种模态中的通道特征。

(1)压缩操作：卷积层特征受局部接受域大小限制，无法利用该区域之外的上下文信息。因此，首先通过在输入特征的空间维度与时间维度上使用全局平均池化将空间信息与时间信息分别压缩到各自信道描述符中：

(2)激励操作：该单元的功能是产生激励信号，E_A∈R^C和E_B∈R^C'具有重新校准输入的功能，A和B通过门控机制：

其中，☉表示通道方向(channel-wise)点乘操作，σ(.)表示sigmoid函数，这就允许抑制或激励每条支路中的不同卷积核。这里，MMF权重经正规化后，使得可以控制E_A和E_B保持接近零的程度。因此，将正则化权重设置为2×σ(E_A)，会使得门控信号更接近于1，这就限制了门控信号对每条支路产生的影响。

门控信号是两个输入的函数，且具有独立预测的能力，因为每种模态需要彼此不同地变化。首先，通过从压缩信号中联合表示来实现预测：

Z＝W[S_A,S_B]+b (5)

其次，通过两个独立的全连接层预测每种模态的激励信号：

E_A＝W_AZ+b_A (6)

E_B＝W_BZ+b_B (7)

其中，[.,.]表示级联操作；表示权重；b_A∈R^C,b_B∈R^C'表示全连接层的偏置；并使用C_Z＝(C+C')/4来提高模型的泛化能力。

第三步：经过MMF融合的两条支路分别连接GRU网络单元，通过GRU网络的时序模型捕获视频中组群成员的长期时序关系；

对于给定场景中每个人的人体目标候选框，使用门控循环单元(Gated RecurrentUnit，GRU)模型来表示每个人在动作上的长期时序依赖关系，这些长时间信息是对空间特征及微观时序特征的补充，对性能提升至关重要。

本实施例基于GRU来捕获视频中人物的长期时序关系。将经过I3D网络提取的RGB空间外观特征和时间运动特征进行MMF融合，并将其经过I3D网络提取的时间运动特征和空间姿态特征也进行MMF融合后，两组时空特征经MMF融合后的特征中，其空间特征不具有时序关联性，而光流运动信息及3D卷积提取的时间信息都仅仅具有短期时序关系，由于视频序列中的组群行为相较于个人行为需要获得长期时序关系，因此，本实施例在经MMF融合后的两条支路后面，分别连接GRU单元，获得组群行为视频中的长时序上下文关系。

具体的，在GRU模型中引入两个门函数，分别为更新门和重置门。更新门用于控制前一时刻状态信息被带入到当前状态中的程度，它决定丢弃哪些信息以及添加哪些新信息，其值越大，说明前一时刻状态信息带入越多；重置门控制前一状态有多少信息被写入到当前候选集上，它决定忘记过去信息量的多少，其值越小，说明前一状态的信息被写入的越少。

r_j＝σ([W_rx]_j+[U_rh_<t-1>]_j) (8)

z_j＝σ([W_zx]_j+[U_zh_<t-1>]_j) (9)

其中，σ表示sigmoid函数，[.]_j表示向量的第j个元素，x和h_<t-1>分别表示输入和上一时刻的隐藏状态，W_r，U_r，W_z和U_z表示学习到的权重矩阵。

实际激活建议单元公式表示为：

其中，φ表示tanh函数；x表示输入，表示隐藏层状态；☉表示数组元素依次相乘。在该公式中，当重置门关闭为0时，隐藏状态被迫忽略先前的隐藏状态，仅重置当前输入状态，这使得隐藏状态可以丢弃将来发现的任何不相关信息，从而允许更紧凑的表示。另一方面，更新门可以控制先前隐藏状态将有多少信息转移到当前隐藏状态。

由于每个隐藏单元都有单独的重置门和更新门，因此每个隐藏单元将学会捕获不同时间范围内的依赖关系。那些学会捕获短期依赖性的单元将倾向于具有经常激活的重置门，而那些捕获长期依赖性的单元将具有大多数处于激活状态的更新门。

本实施例结合I3D+MMF+GRU架构，在前端利用Flownet2.0网络提取光流微观运动信息，并通过3D卷积提取微观时序信息，作为后续LSTM网络的补充；在后端借助GRU提取宏观时序运动特征，相比较CNN+LSTM网络架构提取的时序特征更全面和细致。且采用I3D+MMF+GRU架构，前端采用三流输入，除RGB及光流特征外，还提取了视频中组群成员的人体姿态分割信息，作为空间特征的进一步补充，之后各支路特征之间进行MMF融合，使得各支路特征之间可以相辅相成，互为补充，因此，该I3D+MMF+GRU架构提取的时空特征更全面、更精准，可进一步提高组群行为识别准确率。

第四步、基于自适应类别权重的多分类器进行决策优化，获得组群行为标签，完成组群行为识别；

在进行决策优化时，具体通过基于自适应类别权重的多分类器决策优化算法，结合经过I3D网络提取的RGB空间外观特征，时间运动特征及空间姿态特征，具体原理为根据输入样本y(待识别数据或测试样本)和训练样本集的聚类相似程度来确定输入样本的替代样本精简集合，并结合其在不同支路分类器性能优劣评价，实现各类别权重的计算，从而取得决策优化后的行为识别结果。本实施例中，将第三步中RGB空间外观特征和时间运动特征经MMF融合后再通过GRU单元的支路记为P1支路，输入样本y经过该支路提取的特征记为y1；将时间运动特征和空间姿态特征经MMF融合后再通过GRU单元的支路记为P2支路，输入样本y经过该支路提取的特征记为y2。

在进行决策优化时，具体包括步骤：

1、给定训练样本集，首先将输入样本特征y1和y2分别与训练样本集的特征集进行相似度比对，根据聚类相似程度分别得到对应y1和y2的替代样本特征精简子集；比如，可采用闵可夫斯基距离(Minkowski Distance)计算特征之间的相似度，在同一阈值下，可以得到与y1最相似的j1个带标签的训练样本特征子集J1，同理也可以得到与y2最相似的j2个带标签的训练样本特征子集J2。本实施例中，所采用的训练样本集可以以CAD数据集为基础，当然，也可以拍摄得到的实际的视频等数据作为训练样本集，具体可根据实际情况选择。

训练阶段的大致思路如下：

(1)首先，对训练样本集X进行候选框标注，提取其光流特征及姿态分割特征；

(2)其次，通过I3D网络提取两组时空特征，将提取的RGB视频帧特征及运动特征进行MMF融合，然后连接GRU单元，得到第一路特征；类似地，通过I3D网络提取的运动特征及姿态特征进行MMF融合，然后连接GRU单元，得到第二路特征。

(3)最后，把上述两路特征分别连接2个softmax分类器进行训练，得到最终的标签。

2、将y1和y2的替代样本精简子集(如上述的J1和J2)分别输入到各自的softmax分类器实现行为识别，再依据这2路softmax的分类结果计算各自的混淆矩阵H₁和混淆矩阵H₂，假设一共有Q种组群行为类别，则这2个分类器的混淆矩阵如下：

然后，分别分析计算第1个和第2个分类器的置信度λ₁和λ₂：

最后得到最终的组群行为类别，即输出结果M：

M＝λ₁H₁+λ₂H₂ (14)

在决策优化方面，结合经过I3D网络提取的RGB空间外观特征，时间运动特征及空间姿态特征，构建两路特征互补的行为识别通道；通过在两个支路确定测试样本的相似性特征精简集合，进而得到两个支路上的相应精简训练样本特征集合；再将这两个精简训练样本集合分别输入各自的softmax分类器得到两个混淆矩阵分类结果，通过计算其对角线上的分类得分计算它们的加权系数，最后，利用加权系数优化两个混淆矩阵得到最终的分类结果，从而取得较高的识别精度。

另外，为了进一步证明本发明方案的有效性，使用CAD数据集对本专利方法进行验证与分析，在训练整个模型时，采用分段训练来学习模型参数。本专利将I3D网络与GRU网络分别进行训练，每一部分的训练都是独立的。并将数据集按照3:1的比例进行划分，3/4的数据进行训练，1/4的数据进行测试与验证，得出各类的准确率以及平均识别精度(MPCA)。

本实施例中所采用的CAD数据集包含由低分辨率手持相机收集的44个视频片段，五类行为标签：Crossing，Waiting，Queuing，Walking，Talking；八种姿势标签(实验中未使用)；五种组群行为标签：Crossing，Waiting，Queuing，Walking，Talking。根据大多数人在场景中所做的事情，场景被赋予小组行为的标签，以及每个人都有一个行为标签，每一帧图像都有一个场景行为标签。在CAD数据集中，由于“Walking”与“Crossing”类具有相似的视觉特征，因此我们将“Walking”和“Crossing”合并为“Moving”。因此，本专利CAD数据集中共有四类行为标签：Moving，Waiting，Queuing，Talking。

需要说明的是，在训练时和测试时有所不同，训练时按照常规思路得到最终的标签即可，而在测试时，正如方案具体实施方式所阐述的内容，在决策优化时，需要根据测试样本和训练样本的聚类相似程度来确定测试样本的替代样本精简集合，结合其在不同支路分类器性能优劣评价来实现各类别权重的计算，从而取得决策优化后的识别结果，这也是本发明所述决策优化核心内容体现之一。

通过实验将本发明方法与现有技术相比较，得到以下结果：

表1模型在CAD数据集上的平均识别准确率(％)以及与其他方法的比较

“Two-stage Hierarchical Model”利用双层LSTM网络分层模型，实现对组群行为的识别；“HANs+HCNs”是在“Two-stage Hierarchical Model”的基础上，对于部分/人级别特征提取上应用“分级注意网络”，该网络对于不同的人及其身体部位给与不同程度的关注度，并利用两层级LSTM网络对组群间的上下文关系进行建模，从而生成组群识别的高级特征表示，取得了不错的效果。但本专利的I3D+MMF+GRU模型在CAD上的识别率均高于上述两个方法，主要是因为本方案在捕获长期依赖的同时，更加注重多重视觉线索的输入，加入了人物的光流信息及姿态特征表示，通过MMF特征融合获得更好的特征表示，从而提高了识别的准确率。同时，本专利模型明显高于传统手工制作特征(hand-crafted feature)的方法，说明在进行视频中组群成员的特征提取和行为识别方面，本专利的I3D+MMF+GRU模型还是取得了不错的结果。

以上所述，仅是本发明的较佳实施例而已，并非是对本发明作其它形式的限制，任何熟悉本专业的技术人员可能利用上述揭示的技术内容加以变更或改型为等同变化的等效实施例应用于其它领域，但是凡是未脱离本发明技术方案内容，依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与改型，仍属于本发明技术方案的保护范围。

Claims

1.基于多模态信息融合与决策优化的组群行为识别方法，其特征在于，包括以下步骤：

步骤A、针对待进行组群行为识别的视频，获取组群成员的候选框序列，提取其对应的光流特征，并提取组群成员的人体姿态分割特征作为第三重视觉线索；

步骤B、获取组群成员人体目标时空特征的双流模型并将其进行MMF融合；

步骤B1、根据步骤A中得到的组群成员的候选框序列、光流特征以及人体姿态分割特征进行多重视觉线索的特征提取，基于I3D网络分别提取对应的视频序列中组群成员的RGB空间外观特征、时间运动特征和空间姿态特征；

2.根据权利要求1所述的基于多模态信息融合与决策优化的组群行为识别方法，其特征在于：所述步骤B2中，在进行MMF融合时采用以下方式实现：

(3)最后通过激励函数并在通道方向使用点乘操作，融合后的特征通过σ函数激发更重要的卷积核并抑制不重要的卷积核，以通过一种模态的特征重新校准另一模态的特征。

3.根据权利要求2所述的基于多模态信息融合与决策优化的组群行为识别方法，其特征在于：所述RGB空间外观特征和时间运动特征进行MMF融合与空间姿态特征和时间运动特征进行MMF融合采用相同的原理，对于组群成员候选框序列与光流特征两种输入模态来说，RGB空间外观特征和时间运动特征MMF融合的过程如下：

(2)压缩操作：首先通过在输入特征的空间维度与时间维度上使用全局平均池化将空间信息与时间信息分别压缩到各自信道描述符中；

(3)激励操作产生激励信号，重新校准输入；

激励信号E_A∈R^C和E_B∈R^C'具有重新校准输入的功能，A和B通过门控机制校准：

其中，☉表示通道方向点乘操作，σ(.)表示sigmoid函数；

门控信号为两个输入的函数，且具有独立预测的能力，因为每种模态需要彼此不同地变化：

首先，通过从压缩信号中联合表示来实现预测：

Z＝W[S_A,S_B]+b (5)

其次，通过两个独立的全连接层预测每种模态的激励信号：

E_A＝W_AZ+b_A (6)

E_B＝W_BZ+b_B (7)

其中，[.,.]表示级联操作；表示权重；/>b_A∈R^C,b_B∈R^C'表示全连接层的偏置。

4.根据权利要求1所述的基于多模态信息融合与决策优化的组群行为识别方法，其特征在于：所述步骤D中，将RGB空间外观特征和时间运动特征经MMF融合后再通过GRU单元的支路记为P1支路；将时间运动特征和空间姿态特征经MMF融合后再通过GRU单元的支路记为P2支路，输入样本分别经过P1支路和P2支路，获得两路输入样本的特征，则具体进行决策优化时，包括：

步骤D1、给定训练样本集，首先根据两路输入样本的特征和训练样本集的特征集的聚类相似程度来确定输入样本的两个替代样本精简集合；

步骤D2：然后将上述得到的两个替代样本精简集合分别连接各自的softmax分类器，依据这2个softmax的分类结果，计算各自的混淆矩阵H₁和混淆矩阵H₂；设一共有Q种组群行为类别，则：

(2)分别分析计算2个分类器的置信度λ₁和λ₂：

(3)最后得到最终的组群行为类别，即输出结果M：

M＝λ₁H₁+λ₂H₂ (14)

进而完成组群行为识别。

5.根据权利要求1所述的基于多模态信息融合与决策优化的组群行为识别方法，其特征在于：所述步骤C中，在GRU网络中引入两个门函数，分别为更新门和重置门，由于每个隐藏单元都有单独的重置门和更新门，因此每个隐藏单元将捕获不同时间范围内的依赖关系，进而可捕获视频中组群成员的长期时序关系；

假定x_t为GRU网络在t时刻的输入，重置门r_j和更新门z_j分别表示为：

r_j＝σ([W_rx]_j+[U_rh_<t-1>]_j) (8)

z_j＝σ([W_zx]_j+[U_zh_<t-1>]_j) (9)

6.根据权利要求1所述的基于多模态信息融合与决策优化的组群行为识别方法，其特征在于：所述步骤A具体采用以下方式实现：