CN110532862B

CN110532862B - 基于门控融合单元的特征融合组群识别方法

Info

Publication number: CN110532862B
Application number: CN201910655552.9A
Authority: CN
Inventors: 宋波; 王传旭; 薛豪
Original assignee: Qingdao Keda Youzhi Information Technology Co ltd; Qingdao University of Science and Technology
Current assignee: Qingdao Keda Youzhi Information Technology Co ltd; Qingdao University of Science and Technology
Priority date: 2019-07-19
Filing date: 2019-07-19
Publication date: 2022-02-25
Anticipated expiration: 2039-07-19
Also published as: CN110532862A

Abstract

本发明公开一种基于门控融合单元的特征融合组群识别方法，通过识别出组群中的关键人物，并利用组群中个人之间的交互特征对组群行为进行识别；包括：(1)首先将跟踪到的每个人的边界框和场景级图像分别输入到CNN进行视觉特征提取；(2)然后对关键人物进行建模，并基于LSTM进行时序特征提取；(3)最后将步骤(2)中提取的时序特征信息输入到门控融合单元，进行特征融合，寻找单人和单人以及单人和场景级特征之间交互关系，进而实现对组群行为的识别；该方案通过确定关键人物来抑制噪声对组群行为识别的影响，并基于门控融合单元更好的表达组群中的交互关系来识别组群行为，组群行为识别精度高，应用范围广。

Description

基于门控融合单元的特征融合组群识别方法

技术领域

本发明属于计算机视觉技术领域，具体涉及一种基于门控融合单元的特征融合组群识别方法。

背景技术

当前行为识别是一个非常活跃的研究领域，人体行为识别是对包含人的图像序列进行检测、跟踪、目标分类、异常检测、以及对人的行为理解与识别。视频中组群活动识别是一项非常具有挑战性的任务，不同于单人视频，多人视频中不仅要考虑单个人的特征还要考虑多人之间的交互关系，需要通过模拟每个人之间的交互关系来对组群行为进行识别。就目前而言，绝大部分的监控系统只局限于简单的视频图像处理，无法进行人体异常行为识别，对于人群行为的识别以及在人群发生异常行为时能够及时报警的的研究相对较少。

比如，Rui Yan等人发表在国际计算机协会(ACM)上的“Participation-Contributed Temporal Dynamic Model for GroupActivity Recognition”，该方案根据个人在整个活动过程中移动时间的顺序，将每个人的个体动态提供给交互Bi-LSTM；然后，通过聚合LSTM将来自交互LSTM的所有隐藏状态与时变注意权重相整合，并且将两侧的聚合状态连接为每个时间步的softmax层的输入；最后，将来自每个时间步的softmax分数平均作为组活动识别的最终预测概率向量。

但是，该方案中，第一步CNN的输入是每个人的边界框，缺少了场景级别的特征，丢失了一部分特征信息，丢失信息会对整个网络框架造成损失；在“One to Key”网络中使用的交互LSTM没有明确的指出是根据何种特征进行交互关系的强弱，进而会对整个算法的识别精度造成影响。

发明内容

本发明针对现有技术中仅使用单人级的特征，不足以完全实现组群行为识别、组群识别精度低的缺陷，提出一种基于门控融合单元的特征融合组群识别方法，通过单人、场景、组群三个层面进行研究，识别出关键人物，并基于门控融合单元更好的表达组群中的交互关系来识别组群行为。

本发明是采用以下的技术方案实现的：一种基于门控融合单元的特征融合组群识别方法，包括以下步骤：

步骤A、针对待识别视频，跟踪视频中每个人的边界框信息和场景级图片特征，并分别输入到CNN模型进行视觉特征提取，获得个人视觉特征和场景级视觉特征；

步骤B、对组群活动中的关键人物进行建模，并基于LSTM进行个人和场景的时序特征提取，具体包括：

步骤B1、对关键人物进行建模：

提取光流特征，通过堆叠每个人的光流图像并测量每个人的运动强度，根据运动强度按照从大到小的方式对步骤A中提取的个人视觉特征进行排序，以作为LSTM网络的输入；

步骤B2、基于LSTM网络提取时序特征：

分别将场景级视觉特征和排序后的个人视觉特征输入到LSTM网络进行时序特征提取，以分别得到场景级时序特征和个人时序特征；

步骤C、将步骤B中提取的场景级时序特征和个人时序特征信息输入到门控融合单元进行特征融合，以获得人与人之间和人与场景之间的交互关系，进而实现组群行为识别。

进一步的，所述步骤A中进行视觉特征提取具体通过以下方式实现：

基于DSST跟踪算法对组群活动中的个人信息进行跟踪，将跟踪到的边界框作为CNN模型的输入；设所跟踪到的个人边界框

N代表场景中的人数，场景输入为

将跟踪到的个人边界框与场景输入连接起来作为整体CNN模型的输入I_G，即：

提取的场景级视觉特征为：

提取的个人视觉特征为:

进一步的，所述步骤B1具体通过以下方式实现：

将待识别视频划分为T帧，每一帧的分辨率是w*h，在第t帧视频中使用

和

分别表示在点(u,v)(u＝1,2,3,...,w,v＝1,2,3,...,h)处的水平和垂直位移矢量，按如下方式堆叠连续T帧的光流向量

和

其中i＝(1,2,3,.....,T)，SF^k(u,v,c)(c＝1,2,3,...,2T)表示在一个完整的T帧视频序列上对点(u,v)处第k个人的运动进行编码，则第k个人的运动强度定义如下：

其中

表示第k个人在第t帧的运动强度，MI^k表示整个视频中第k个人的运动强度。

进一步的，所述步骤B2中：

所述LSTM网络的输入门i_t、遗忘门f_t、输出门o_t和输入调制门

以及存储单元C_t的定义如下：

i_t＝σ(W_ix[h_t-1,θ_t]+b_i)

f_t＝σ(W_fx[h_t-1,θ_t]+b_f)

o_t＝σ(W_ox[h_t-1,θ_t]+b_o)

h_t＝o_t*tanh(C_t)

其中，σ(Θ)为一个激活函数，W_·x是权重矩阵，b_∧是偏置向量，*表示元素乘，h_t是隐藏状态，包含该人在第t时刻的动态特征。

则通过LSTM网络获得的场景级时序特征

和个人时序特征Zⁿ表示如下：

进一步的，所述步骤C中进行组群行为识别时具体包括以下步骤：

(1)将LSTM网络提取的个人时序特征输入到具有tanh激活函数的神经元，该函数对其进行编码，所得到的编码的特征hⁿ表示如下：

hⁿ＝tanh(WⁿZⁿ)

其中Wⁿ是编码的权重向量；

(2)门控融合单元中用符号σ表示门神经元，使用sigmoid函数设计，考虑到全局特性，与第n个人连接的门神经元会接收所有的时序特征作为输入，从而确定第n个人的门控输出qⁿ：

(3)将编码的特征hⁿ和门控输出qⁿ相乘，即个人时序特征和其他所有人的时序特征进行连接，表示人与人之间的交互关系：

rⁿ＝hⁿ×qⁿ

其中rⁿ表示第n个人的门控单元的输出；

同理，将场景时序特征

做为输入，生成场景级的门控输出

将经过计算的个人时序特征和场景时序特征按如下方式连接做为门控融合单元的总输出：

(4)将门控融合单元的输出C作为全连接层的输入，表示当前组群的行为特征：

y＝FC(C)

连接soft max分类器进行分类输出：

Yⁱ＝softmax(y)

其中Yⁱ为组群行为分类预测的标签；

(5)模型训练

基于交叉熵损失函数训练softmax分类器：

其中Y^G表示分类的真实标签，Yⁱ表示模型的预测标签，通过训练模型最小化L值，使模型性能达到最优，进而将最终训练所得到的预测标签作为组群识别结果。

与现有技术相比，本发明的优点和积极效果在于：

(1)在进行时序特征提取时，一个组群中虽有多个人，但并不是每个人对组群行为识别都是有帮助的，本方案为解决该问题，对个人长时间稳定运动的建模，对每两帧之间对应的单人的光流信息进行计算平均，得出单人的运动强度信息，然后根据光流值得大小对每个人的运动强度进行排序，确定出关键人物，增大关键人员的权重，减小无关人员的权重，从而可以有效的提高组群行为识别的精度；

(2)为了识别整个组群行为，提出了一种基于LSTM网络的方案，以分层次的方法学习单人特征和场景级特征，将单人特征和场景级特征分别输入到LSTM网络，表示不同层级的特征，然后根据不同层级之间的特征融合对组群行为进行识别；使用新型的门控融合单元，可以自动学习单人与单人之间的交互关系，以及单人和场景之间的特征匹配，进而可以根据其对组群行为识别所做的贡献的程度分配权重，能够有效的解决交互关系的问题。

附图说明

图1为本发明实施例所述组群行为识别方法原理示意图；

图2为本发明实施例排球比赛中关键参与者的插图示意图；

图3为本发明实施例所使用的排球数据集可视化示意图。

具体实施方式

为了能够更清楚的理解本发明的上述目的和优点，下面结合附图对本发明的具体实施方式做详细地描述：

实施例，一种基于门控融合单元的特征融合组群识别方法，包括如图1所示，包括以下步骤：

第一步：针对待识别视频，跟踪视频中每个人的边界框信息和场景级图片特征，并分别输入到CNN进行视觉特征提取；

第二步：对组群活动中的关键人物进行建模，并基于LSTM网络进行个人和场景的时序特征提取；

第三步：将第二步提取的时序特征信息输入到门控融合单元进行特征融合，以获得人与人之间和人与场景之间的交互关系，进而实现组群行为识别。

具体的，本实施例是通过以下方式实现的：

第一步：针对待识别视频，跟踪视频中每个人的边界框信息和场景级图像特征，并分别输入到CNN进行视觉特征提取，具体的：

本实施例采用DSST跟踪算法对组群活动中的个人信息进行跟踪，将跟踪到的边界框作为CNN模型的输入，根据跟踪到的边界框提取CNN特征。

设所跟踪到的个人边界框

N代表场景中的人数，当N＝1时，代表场景中第一个人的特征序列；场景输入为

基于Image-Net上预训练的ResNet-50模型进行特征提取：

提取的场景级视觉特征为：

提取的个人视觉特征为:

本步骤以分层次的方法提取了单人特征和场景级特征，进行特征融合组成组群级别特征进行组群行为识别，以此方法做到模型所提取的特征更加详尽，提高组群行为识别精度。

第二步：对关键人物进行建模，并使用LSTM网络提取时序特征：

(1)对关键人物进行建模：

对具有长时间稳定运动的人物进行建模，一个人在场景中运动的时间越长，对组群行为识别所做出的贡献也就越大。本实施例中，通过堆叠每个人的光流图像并测量每个人的运动强度来计算每个人的运动时间。

光流特征提取：

给定T帧的视频，每一帧的分辨率是w*h，在第t帧视频中使用

和

和

其中

表示第k个人在第t帧的运动强度，MI^k表示整个视频中第k个人的运动强度。显然，一个人的运动强度MI^k越大，表明他经常随时间运动，对组群行为识别所作出的贡献也就越大，根据运动强度按照从大到小的方式对个人视觉特征进行排序作为LSTM网络的输入。

(2)使用LSTM网络提取时序特征：

分别将场景级视觉特征输入到场景LSTM网络以及将排序后的个人视觉特征输入到单人LSTM网络进行时序特征提取：

本实施例中，基于LSTM网络进行时序特征提取，具体如下：

所述LSTM网络模型的输入门i_t、遗忘门f_t、输出门o_t和输入调制门

以及存储单元C_t的定义如下：

i_t＝σ(W_ix[h_t-1,θ_t]+b_i)

f_t＝σ(W_fx[h_t-1,θ_t]+b_f)

o_t＝σ(W_ox[h_t-1,θ_t]+b_o)

h_t＝o_t*tanh(C_t)

则通过LSTM网络获得的场景级时序特征

和个人时序特征Zⁿ表示如下：

本方案为了确定对组群行为识别做出突出贡献的人，计算了每个人的的光流值，该值表示了每个人的运动强度，并且对每个人的运动强度进行排序，若一个人在整个视频当中有稳定的长时间的运动强度，那么就认为其对组群行为识别做出了突出贡献，还有些人员在某一个瞬间做出了强烈的运动，则同样认为这种瞬时运动也对组群行为识别做出了突出贡献，将排序后的个人特征输入到门控融合单元时，该单元会对排序靠前的人员分配一个相对较大的权重，使门控融合单元训练更加简单，减少训练时间，提高识别精度。

第三步：基于门控融合单元GFU，对单人和场景级特征融合，进行组群行为识别；

本实施例提出了一种新型的门控融合单元(GFU)用于特征融合，将上一步提取的单人和场景的时序特征进行特征融合，表示组群活动特征，用于组群行为识别，具体如下：

(1)将LSTM网络提取的个人时序特征输入到具有tanh激活函数的神经元，该函数对其进行编码，所得到的编码特征hⁿ表示如下：

hⁿ＝tanh(WⁿZⁿ)

其中Wⁿ是编码的权重向量；

(2)门控融合单元中用符号σ表示门神经元，使用sigmoid函数设计，其作用是计算单人特征和场景级特征对门控融合单元总输出的贡献，若此人对组群行为识别贡献大，此时会获得一个较大权重。考虑到全局特性，与第n个人连接的门神经元会接收所有的时序特征作为输入，从而确定第n个人的门控输出qⁿ：

rⁿ＝hⁿ×qⁿ

其中rⁿ表示第n个人的门控单元的输出；

因为一个组群行为是由多人来决定的，所以本实施例在训练所述门控单元的权重时考虑全局的因素，即要考虑整个组群活动中这个人和其他所有人之间关系，所以每一个门神经元是和所有人的特征进行相连。

同样的，基于上述原理，将场景级时序特征

做为输入，生成场景级的门控输出

将经过计算后的的单人特征和场景级特征按如下方式连接做为门控融合单元的总输出：

y＝FC(C)

连接soft max分类器进行分类输出：

Yⁱ＝softmax(y)

其中Yⁱ为组群行为分类预测的标签；

(5)模型训练

使用交叉熵损失函数训练softmax分类器：

其中Y^G表示分类的真实标签，Yⁱ表示模型的预测标签，交叉熵损失描述的是预测标签与实际标签之间的距离，也就是说交叉熵损失越小，两个概率分布也就越近，通过训练模型最小化L值，使模型性能达到最优，进而将最终训练所得到的预测标签作为组群识别结果。

下面以排球运动为例，对本发明方案的效果做进一步说明：

如图3所示，实验采用的组群行为识别数据集是排球数据集，由55个视频组成，包含4830个注释帧。此数据集有9类行为标签：waiting，setting，digging，falling，spiking，blocking，jumping，moving，standing。每帧活动中N个人共同完成的组群行为标签分为8类：right set，right spike，right pass，right winpoint，left winpoint，left pass，left spike，left set。每个人都有一个行为标签，每帧图像都有一个组群活动标签。

具体实施过程中，为了表现本方案模型的有效性，将数据集按照2：1进行划分训练集与测试集，其中2/3用于训练，1/3用于测试与验证，使用多类分类准确的(MCA)和平均分类精度(MPCA)做为性能指标。

具体实施细节如下：

本实施例中CNN模型的输入是由对象跟踪器在T帧上跟踪的每个人周围的一组边界框(轨迹)以及整张场景图片。首先采用预先训练的ResNet-50模型来提取每个人以及场景图片的视觉特征，在特征提取之前，每个输入帧得大小调整为224*224，作为预处理的步骤，这些特征从ResNet50的第40层提取，然后将这些特征输入到具有10个时间步的LSTM网络的第一层，如果数据集中的边界框的最大数量是N，则第一层LSTM由(N+1)个LSTM组成，即每个人一个LSTM加上一个场景级的LSTM，设定排球数据集N＝12。这些LSTM的输入通过门控融合单元映射人级和场景级之间的对应关系，对于所有的LSTM，将隐藏状态嵌入维度设置为300个单位；对于排球数据集，本实施例将FC(K)的维度设置为8，因为组群行为类别有8类。

总结来说：首先以端到端的方式训练由CNN和LSTM组成的网络，以识别个人的行为。然后将视觉特征和时间特征的串联传递到门控融合单元进行特征融合实现组群行为识别；所有的实验代码使用pytorch深度学习框架，使用Adam算法最小化成本函数，网络的学习率为0.001，并且学习率在每10次迭代之后降低到原始值得1/10。

如图2所示，在排球比赛的“左集”场景中，A人穿过球场并参加“左集”的活动。并且，B人在重要时刻只有突然的动作(击球)。虽然这种突然运动很短，但它与活动密切相关。两种类型的关键角色都可以为组群行为识别做出突出贡献。从图2中可以看出，绘制两条曲线以分别反映人A和人B的运动强度和移动时间，人A在该视频剪辑的整个过程中保持移动，而人B在某一时刻以强烈动作击中球。显然，具有这两种类型的时间运动的参与者与排球比赛的“左集”活动更相关。因此，这些参与者被称为此活动的主要参与者。

实验结果如表1所示：

表1：本方案与2-layerLSTMs、CERN、SRNN方法的精度比较表

识别方法	MCA	MPCA
			2-layerLSTMs	81.9	82.9
CERN	83.3	83.6
			SRNN	83.47	NA
本方案	85.4	86.7

表1中所给出的对比方法为当前主流的组群行为识别方法，MCA(multi-classclassification accuracy)表示多类分类精度，MPCA(mean per-class accuracy)表示平均分类精度。由表中实验结果可以看出本方案的模型与现有方法对比有更高的精度。

以上所述，仅是本发明的较佳实施例而已，并非是对本发明作其它形式的限制，任何熟悉本专业的技术人员可能利用上述揭示的技术内容加以变更或改型为等同变化的等效实施例应用于其它领域，但是凡是未脱离本发明技术方案内容，依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与改型，仍属于本发明技术方案的保护范围。