CN110532862B - 基于门控融合单元的特征融合组群识别方法 - Google Patents

基于门控融合单元的特征融合组群识别方法 Download PDF

Info

Publication number
CN110532862B
CN110532862B CN201910655552.9A CN201910655552A CN110532862B CN 110532862 B CN110532862 B CN 110532862B CN 201910655552 A CN201910655552 A CN 201910655552A CN 110532862 B CN110532862 B CN 110532862B
Authority
CN
China
Prior art keywords
scene
person
group
time sequence
personal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910655552.9A
Other languages
English (en)
Other versions
CN110532862A (zh
Inventor
宋波
王传旭
薛豪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qingdao Keda Youzhi Information Technology Co ltd
Qingdao University of Science and Technology
Original Assignee
Qingdao Keda Youzhi Information Technology Co ltd
Qingdao University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qingdao Keda Youzhi Information Technology Co ltd, Qingdao University of Science and Technology filed Critical Qingdao Keda Youzhi Information Technology Co ltd
Priority to CN201910655552.9A priority Critical patent/CN110532862B/zh
Publication of CN110532862A publication Critical patent/CN110532862A/zh
Application granted granted Critical
Publication of CN110532862B publication Critical patent/CN110532862B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24147Distances to closest patterns, e.g. nearest neighbour classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • G06V20/53Recognition of crowd images, e.g. recognition of crowd congestion

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开一种基于门控融合单元的特征融合组群识别方法,通过识别出组群中的关键人物,并利用组群中个人之间的交互特征对组群行为进行识别;包括:(1)首先将跟踪到的每个人的边界框和场景级图像分别输入到CNN进行视觉特征提取;(2)然后对关键人物进行建模,并基于LSTM进行时序特征提取;(3)最后将步骤(2)中提取的时序特征信息输入到门控融合单元,进行特征融合,寻找单人和单人以及单人和场景级特征之间交互关系,进而实现对组群行为的识别;该方案通过确定关键人物来抑制噪声对组群行为识别的影响,并基于门控融合单元更好的表达组群中的交互关系来识别组群行为,组群行为识别精度高,应用范围广。

Description

基于门控融合单元的特征融合组群识别方法
技术领域
本发明属于计算机视觉技术领域,具体涉及一种基于门控融合单元的特征融合组群识别方法。
背景技术
当前行为识别是一个非常活跃的研究领域,人体行为识别是对包含人的图像序列进行检测、跟踪、目标分类、异常检测、以及对人的行为理解与识别。视频中组群活动识别是一项非常具有挑战性的任务,不同于单人视频,多人视频中不仅要考虑单个人的特征还要考虑多人之间的交互关系,需要通过模拟每个人之间的交互关系来对组群行为进行识别。就目前而言,绝大部分的监控系统只局限于简单的视频图像处理,无法进行人体异常行为识别,对于人群行为的识别以及在人群发生异常行为时能够及时报警的的研究相对较少。
比如,Rui Yan等人发表在国际计算机协会(ACM)上的“Participation-Contributed Temporal Dynamic Model for GroupActivity Recognition”,该方案根据个人在整个活动过程中移动时间的顺序,将每个人的个体动态提供给交互Bi-LSTM;然后,通过聚合LSTM将来自交互LSTM的所有隐藏状态与时变注意权重相整合,并且将两侧的聚合状态连接为每个时间步的softmax层的输入;最后,将来自每个时间步的softmax分数平均作为组活动识别的最终预测概率向量。
但是,该方案中,第一步CNN的输入是每个人的边界框,缺少了场景级别的特征,丢失了一部分特征信息,丢失信息会对整个网络框架造成损失;在“One to Key”网络中使用的交互LSTM没有明确的指出是根据何种特征进行交互关系的强弱,进而会对整个算法的识别精度造成影响。
发明内容
本发明针对现有技术中仅使用单人级的特征,不足以完全实现组群行为识别、组群识别精度低的缺陷,提出一种基于门控融合单元的特征融合组群识别方法,通过单人、场景、组群三个层面进行研究,识别出关键人物,并基于门控融合单元更好的表达组群中的交互关系来识别组群行为。
本发明是采用以下的技术方案实现的:一种基于门控融合单元的特征融合组群识别方法,包括以下步骤:
步骤A、针对待识别视频,跟踪视频中每个人的边界框信息和场景级图片特征,并分别输入到CNN模型进行视觉特征提取,获得个人视觉特征和场景级视觉特征;
步骤B、对组群活动中的关键人物进行建模,并基于LSTM进行个人和场景的时序特征提取,具体包括:
步骤B1、对关键人物进行建模:
提取光流特征,通过堆叠每个人的光流图像并测量每个人的运动强度,根据运动强度按照从大到小的方式对步骤A中提取的个人视觉特征进行排序,以作为LSTM网络的输入;
步骤B2、基于LSTM网络提取时序特征:
分别将场景级视觉特征和排序后的个人视觉特征输入到LSTM网络进行时序特征提取,以分别得到场景级时序特征和个人时序特征;
步骤C、将步骤B中提取的场景级时序特征和个人时序特征信息输入到门控融合单元进行特征融合,以获得人与人之间和人与场景之间的交互关系,进而实现组群行为识别。
进一步的,所述步骤A中进行视觉特征提取具体通过以下方式实现:
基于DSST跟踪算法对组群活动中的个人信息进行跟踪,将跟踪到的边界框作为CNN模型的输入;设所跟踪到的个人边界框
Figure GDA0003276250320000021
N代表场景中的人数,场景输入为
Figure GDA0003276250320000022
将跟踪到的个人边界框与场景输入连接起来作为整体CNN模型的输入IG,即:
Figure GDA0003276250320000023
提取的场景级视觉特征为:
Figure GDA0003276250320000024
提取的个人视觉特征为:
Figure GDA0003276250320000025
进一步的,所述步骤B1具体通过以下方式实现:
将待识别视频划分为T帧,每一帧的分辨率是w*h,在第t帧视频中使用
Figure GDA0003276250320000026
Figure GDA0003276250320000027
分别表示在点(u,v)(u=1,2,3,...,w,v=1,2,3,...,h)处的水平和垂直位移矢量,按如下方式堆叠连续T帧的光流向量
Figure GDA0003276250320000028
Figure GDA0003276250320000029
Figure GDA00032762503200000210
Figure GDA00032762503200000211
其中i=(1,2,3,.....,T),SFk(u,v,c)(c=1,2,3,...,2T)表示在一个完整的T帧视频序列上对点(u,v)处第k个人的运动进行编码,则第k个人的运动强度定义如下:
Figure GDA00032762503200000212
Figure GDA0003276250320000031
其中
Figure GDA0003276250320000032
表示第k个人在第t帧的运动强度,MIk表示整个视频中第k个人的运动强度。
进一步的,所述步骤B2中:
所述LSTM网络的输入门it、遗忘门ft、输出门ot和输入调制门
Figure GDA0003276250320000033
以及存储单元Ct的定义如下:
it=σ(Wix[ht-1t]+bi)
Figure GDA0003276250320000034
ft=σ(Wfx[ht-1t]+bf)
ot=σ(Wox[ht-1t]+bo)
Figure GDA0003276250320000035
ht=ot*tanh(Ct)
其中,σ(Θ)为一个激活函数,W·x是权重矩阵,b是偏置向量,*表示元素乘,ht是隐藏状态,包含该人在第t时刻的动态特征。
则通过LSTM网络获得的场景级时序特征
Figure GDA0003276250320000036
和个人时序特征Zn表示如下:
Figure GDA0003276250320000037
Figure GDA0003276250320000038
进一步的,所述步骤C中进行组群行为识别时具体包括以下步骤:
(1)将LSTM网络提取的个人时序特征输入到具有tanh激活函数的神经元,该函数对其进行编码,所得到的编码的特征hn表示如下:
hn=tanh(WnZn)
其中Wn是编码的权重向量;
(2)门控融合单元中用符号σ表示门神经元,使用sigmoid函数设计,考虑到全局特性,与第n个人连接的门神经元会接收所有的时序特征作为输入,从而确定第n个人的门控输出qn
Figure GDA0003276250320000039
(3)将编码的特征hn和门控输出qn相乘,即个人时序特征和其他所有人的时序特征进行连接,表示人与人之间的交互关系:
rn=hn×qn
其中rn表示第n个人的门控单元的输出;
同理,将场景时序特征
Figure GDA0003276250320000041
做为输入,生成场景级的门控输出
Figure GDA0003276250320000042
将经过计算的个人时序特征和场景时序特征按如下方式连接做为门控融合单元的总输出:
Figure GDA0003276250320000043
(4)将门控融合单元的输出C作为全连接层的输入,表示当前组群的行为特征:
y=FC(C)
连接soft max分类器进行分类输出:
Yi=softmax(y)
其中Yi为组群行为分类预测的标签;
(5)模型训练
基于交叉熵损失函数训练softmax分类器:
Figure GDA0003276250320000044
其中YG表示分类的真实标签,Yi表示模型的预测标签,通过训练模型最小化L值,使模型性能达到最优,进而将最终训练所得到的预测标签作为组群识别结果。
与现有技术相比,本发明的优点和积极效果在于:
(1)在进行时序特征提取时,一个组群中虽有多个人,但并不是每个人对组群行为识别都是有帮助的,本方案为解决该问题,对个人长时间稳定运动的建模,对每两帧之间对应的单人的光流信息进行计算平均,得出单人的运动强度信息,然后根据光流值得大小对每个人的运动强度进行排序,确定出关键人物,增大关键人员的权重,减小无关人员的权重,从而可以有效的提高组群行为识别的精度;
(2)为了识别整个组群行为,提出了一种基于LSTM网络的方案,以分层次的方法学习单人特征和场景级特征,将单人特征和场景级特征分别输入到LSTM网络,表示不同层级的特征,然后根据不同层级之间的特征融合对组群行为进行识别;使用新型的门控融合单元,可以自动学习单人与单人之间的交互关系,以及单人和场景之间的特征匹配,进而可以根据其对组群行为识别所做的贡献的程度分配权重,能够有效的解决交互关系的问题。
附图说明
图1为本发明实施例所述组群行为识别方法原理示意图;
图2为本发明实施例排球比赛中关键参与者的插图示意图;
图3为本发明实施例所使用的排球数据集可视化示意图。
具体实施方式
为了能够更清楚的理解本发明的上述目的和优点,下面结合附图对本发明的具体实施方式做详细地描述:
实施例,一种基于门控融合单元的特征融合组群识别方法,包括如图1所示,包括以下步骤:
第一步:针对待识别视频,跟踪视频中每个人的边界框信息和场景级图片特征,并分别输入到CNN进行视觉特征提取;
第二步:对组群活动中的关键人物进行建模,并基于LSTM网络进行个人和场景的时序特征提取;
第三步:将第二步提取的时序特征信息输入到门控融合单元进行特征融合,以获得人与人之间和人与场景之间的交互关系,进而实现组群行为识别。
具体的,本实施例是通过以下方式实现的:
第一步:针对待识别视频,跟踪视频中每个人的边界框信息和场景级图像特征,并分别输入到CNN进行视觉特征提取,具体的:
本实施例采用DSST跟踪算法对组群活动中的个人信息进行跟踪,将跟踪到的边界框作为CNN模型的输入,根据跟踪到的边界框提取CNN特征。
设所跟踪到的个人边界框
Figure GDA0003276250320000051
N代表场景中的人数,当N=1时,代表场景中第一个人的特征序列;场景输入为
Figure GDA0003276250320000052
将跟踪到的个人边界框与场景输入连接起来作为整体CNN模型的输入IG,即:
Figure GDA0003276250320000053
基于Image-Net上预训练的ResNet-50模型进行特征提取:
提取的场景级视觉特征为:
Figure GDA0003276250320000054
提取的个人视觉特征为:
Figure GDA0003276250320000055
本步骤以分层次的方法提取了单人特征和场景级特征,进行特征融合组成组群级别特征进行组群行为识别,以此方法做到模型所提取的特征更加详尽,提高组群行为识别精度。
第二步:对关键人物进行建模,并使用LSTM网络提取时序特征:
(1)对关键人物进行建模:
对具有长时间稳定运动的人物进行建模,一个人在场景中运动的时间越长,对组群行为识别所做出的贡献也就越大。本实施例中,通过堆叠每个人的光流图像并测量每个人的运动强度来计算每个人的运动时间。
光流特征提取:
给定T帧的视频,每一帧的分辨率是w*h,在第t帧视频中使用
Figure GDA0003276250320000061
Figure GDA0003276250320000062
分别表示在点(u,v)(u=1,2,3,...,w,v=1,2,3,...,h)处的水平和垂直位移矢量,按如下方式堆叠连续T帧的光流向量
Figure GDA0003276250320000063
Figure GDA0003276250320000064
Figure GDA0003276250320000065
Figure GDA0003276250320000066
其中i=(1,2,3,.....,T),SFk(u,v,c)(c=1,2,3,...,2T)表示在一个完整的T帧视频序列上对点(u,v)处第k个人的运动进行编码,则第k个人的运动强度定义如下:
Figure GDA0003276250320000067
Figure GDA0003276250320000068
其中
Figure GDA0003276250320000069
表示第k个人在第t帧的运动强度,MIk表示整个视频中第k个人的运动强度。显然,一个人的运动强度MIk越大,表明他经常随时间运动,对组群行为识别所作出的贡献也就越大,根据运动强度按照从大到小的方式对个人视觉特征进行排序作为LSTM网络的输入。
(2)使用LSTM网络提取时序特征:
分别将场景级视觉特征输入到场景LSTM网络以及将排序后的个人视觉特征输入到单人LSTM网络进行时序特征提取:
本实施例中,基于LSTM网络进行时序特征提取,具体如下:
所述LSTM网络模型的输入门it、遗忘门ft、输出门ot和输入调制门
Figure GDA00032762503200000610
以及存储单元Ct的定义如下:
it=σ(Wix[ht-1t]+bi)
Figure GDA00032762503200000611
ft=σ(Wfx[ht-1t]+bf)
ot=σ(Wox[ht-1t]+bo)
Figure GDA00032762503200000612
ht=ot*tanh(Ct)
其中,σ(Θ)为一个激活函数,W·x是权重矩阵,b是偏置向量,*表示元素乘,ht是隐藏状态,包含该人在第t时刻的动态特征。
则通过LSTM网络获得的场景级时序特征
Figure GDA00032762503200000613
和个人时序特征Zn表示如下:
Figure GDA0003276250320000071
Figure GDA0003276250320000072
本方案为了确定对组群行为识别做出突出贡献的人,计算了每个人的的光流值,该值表示了每个人的运动强度,并且对每个人的运动强度进行排序,若一个人在整个视频当中有稳定的长时间的运动强度,那么就认为其对组群行为识别做出了突出贡献,还有些人员在某一个瞬间做出了强烈的运动,则同样认为这种瞬时运动也对组群行为识别做出了突出贡献,将排序后的个人特征输入到门控融合单元时,该单元会对排序靠前的人员分配一个相对较大的权重,使门控融合单元训练更加简单,减少训练时间,提高识别精度。
第三步:基于门控融合单元GFU,对单人和场景级特征融合,进行组群行为识别;
本实施例提出了一种新型的门控融合单元(GFU)用于特征融合,将上一步提取的单人和场景的时序特征进行特征融合,表示组群活动特征,用于组群行为识别,具体如下:
(1)将LSTM网络提取的个人时序特征输入到具有tanh激活函数的神经元,该函数对其进行编码,所得到的编码特征hn表示如下:
hn=tanh(WnZn)
其中Wn是编码的权重向量;
(2)门控融合单元中用符号σ表示门神经元,使用sigmoid函数设计,其作用是计算单人特征和场景级特征对门控融合单元总输出的贡献,若此人对组群行为识别贡献大,此时会获得一个较大权重。考虑到全局特性,与第n个人连接的门神经元会接收所有的时序特征作为输入,从而确定第n个人的门控输出qn
Figure GDA0003276250320000073
(3)将编码的特征hn和门控输出qn相乘,即个人时序特征和其他所有人的时序特征进行连接,表示人与人之间的交互关系:
rn=hn×qn
其中rn表示第n个人的门控单元的输出;
因为一个组群行为是由多人来决定的,所以本实施例在训练所述门控单元的权重时考虑全局的因素,即要考虑整个组群活动中这个人和其他所有人之间关系,所以每一个门神经元是和所有人的特征进行相连。
同样的,基于上述原理,将场景级时序特征
Figure GDA0003276250320000074
做为输入,生成场景级的门控输出
Figure GDA0003276250320000075
将经过计算后的的单人特征和场景级特征按如下方式连接做为门控融合单元的总输出:
Figure GDA0003276250320000076
(4)将门控融合单元的输出C作为全连接层的输入,表示当前组群的行为特征:
y=FC(C)
连接soft max分类器进行分类输出:
Yi=softmax(y)
其中Yi为组群行为分类预测的标签;
(5)模型训练
使用交叉熵损失函数训练softmax分类器:
Figure GDA0003276250320000081
其中YG表示分类的真实标签,Yi表示模型的预测标签,交叉熵损失描述的是预测标签与实际标签之间的距离,也就是说交叉熵损失越小,两个概率分布也就越近,通过训练模型最小化L值,使模型性能达到最优,进而将最终训练所得到的预测标签作为组群识别结果。
下面以排球运动为例,对本发明方案的效果做进一步说明:
如图3所示,实验采用的组群行为识别数据集是排球数据集,由55个视频组成,包含4830个注释帧。此数据集有9类行为标签:waiting,setting,digging,falling,spiking,blocking,jumping,moving,standing。每帧活动中N个人共同完成的组群行为标签分为8类:right set,right spike,right pass,right winpoint,left winpoint,left pass,left spike,left set。每个人都有一个行为标签,每帧图像都有一个组群活动标签。
具体实施过程中,为了表现本方案模型的有效性,将数据集按照2:1进行划分训练集与测试集,其中2/3用于训练,1/3用于测试与验证,使用多类分类准确的(MCA)和平均分类精度(MPCA)做为性能指标。
具体实施细节如下:
本实施例中CNN模型的输入是由对象跟踪器在T帧上跟踪的每个人周围的一组边界框(轨迹)以及整张场景图片。首先采用预先训练的ResNet-50模型来提取每个人以及场景图片的视觉特征,在特征提取之前,每个输入帧得大小调整为224*224,作为预处理的步骤,这些特征从ResNet50的第40层提取,然后将这些特征输入到具有10个时间步的LSTM网络的第一层,如果数据集中的边界框的最大数量是N,则第一层LSTM由(N+1)个LSTM组成,即每个人一个LSTM加上一个场景级的LSTM,设定排球数据集N=12。这些LSTM的输入通过门控融合单元映射人级和场景级之间的对应关系,对于所有的LSTM,将隐藏状态嵌入维度设置为300个单位;对于排球数据集,本实施例将FC(K)的维度设置为8,因为组群行为类别有8类。
总结来说:首先以端到端的方式训练由CNN和LSTM组成的网络,以识别个人的行为。然后将视觉特征和时间特征的串联传递到门控融合单元进行特征融合实现组群行为识别;所有的实验代码使用pytorch深度学习框架,使用Adam算法最小化成本函数,网络的学习率为0.001,并且学习率在每10次迭代之后降低到原始值得1/10。
如图2所示,在排球比赛的“左集”场景中,A人穿过球场并参加“左集”的活动。并且,B人在重要时刻只有突然的动作(击球)。虽然这种突然运动很短,但它与活动密切相关。两种类型的关键角色都可以为组群行为识别做出突出贡献。从图2中可以看出,绘制两条曲线以分别反映人A和人B的运动强度和移动时间,人A在该视频剪辑的整个过程中保持移动,而人B在某一时刻以强烈动作击中球。显然,具有这两种类型的时间运动的参与者与排球比赛的“左集”活动更相关。因此,这些参与者被称为此活动的主要参与者。
实验结果如表1所示:
表1:本方案与2-layerLSTMs、CERN、SRNN方法的精度比较表
识别方法 MCA MPCA
2-layerLSTMs 81.9 82.9
CERN 83.3 83.6
SRNN 83.47 NA
本方案 85.4 86.7
表1中所给出的对比方法为当前主流的组群行为识别方法,MCA(multi-classclassification accuracy)表示多类分类精度,MPCA(mean per-class accuracy)表示平均分类精度。由表中实验结果可以看出本方案的模型与现有方法对比有更高的精度。
以上所述,仅是本发明的较佳实施例而已,并非是对本发明作其它形式的限制,任何熟悉本专业的技术人员可能利用上述揭示的技术内容加以变更或改型为等同变化的等效实施例应用于其它领域,但是凡是未脱离本发明技术方案内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与改型,仍属于本发明技术方案的保护范围。

Claims (3)

1.基于门控融合单元的特征融合组群识别方法,其特征在于,包括以下步骤:
步骤A、针对待识别视频,跟踪视频中每个人的边界框信息和场景级图片特征,并分别输入到CNN模型进行视觉特征提取,获得个人视觉特征和场景级视觉特征;
步骤B、对组群活动中的关键人物进行建模,并基于LSTM进行个人和场景的时序特征提取,具体包括:
步骤B1、对关键人物进行建模:
提取光流特征,通过堆叠每个人的光流图像并测量每个人的运动强度,根据运动强度按照从大到小的方式对步骤A中提取的个人视觉特征进行排序,以作为LSTM网络的输入;
步骤B2、基于LSTM网络提取时序特征:
分别将场景级视觉特征和排序后的个人视觉特征输入到LSTM网络进行时序特征提取,以得到场景级时序特征和个人时序特征,具体包括:
所述LSTM网络的输入门it、遗忘门ft、输出门ot和输入调制门
Figure FDA0003343365040000011
以及存储单元Ct的定义如下:
Figure FDA0003343365040000012
Figure FDA0003343365040000013
Figure FDA0003343365040000014
ot=σ(Wox[ht-1t]+bo)
Figure FDA0003343365040000015
ht=ot*tanh(Ct)
其中,σ(Θ)为一个激活函数,W·x是权重矩阵,b是偏置向量,*表示元素乘,ht是隐藏状态,包含该人在第t时刻的动态特征;
则通过LSTM网络获得的场景级时序特征
Figure FDA0003343365040000016
和个人时序特征Zn表示如下:
Figure FDA0003343365040000017
Figure FDA0003343365040000018
步骤C、将步骤B中提取的场景级时序特征和个人时序特征信息输入到门控融合单元进行特征融合,以获得人与人之间和人与场景之间的交互关系,进而实现组群行为识别,包括以下步骤:
(1)将LSTM网络提取的个人时序特征输入到具有tanh激活函数的神经元,并得到其编码的特征hn
hn=tanh(WnZn)
其中Wn是编码的权重向量;
(2)门控融合单元中用符号σ表示门神经元,使用sigmoid函数设计,考虑到全局特性,与第n个人连接的门神经元会接收所有的时序特征作为输入,从而确定第n个人的门控输出qn
Figure FDA0003343365040000021
(3)将编码的特征hn和门控输出qn相乘,即个人时序特征和其他所有人的时序特征进行连接,表示人与人之间的交互关系:
rn=hn×qn
其中rn表示第n个人的门控单元的输出;
同理,将场景时序特征
Figure FDA0003343365040000022
做为输入,生成场景级的门控输出
Figure FDA0003343365040000023
并将rn
Figure FDA0003343365040000024
做如下处理做为门控融合单元的总输出:
Figure FDA0003343365040000025
其中,j表示第j个人体目标N表示场景中人体目标的总数;
(4)将门控融合单元的总输出C作为全连接层的输入,表示当前组群的行为特征:
y=FC(C)
连接soft max分类器进行分类输出:
Yi=soft max(y)
其中Yi为组群行为分类预测的标签;
(5)模型训练
基于交叉熵损失函数训练softmax分类器:
Figure FDA0003343365040000026
其中YG表示分类的真实标签,Yi表示模型的预测标签,通过训练模型最小化L值,使模型性能达到最优,进而将最终训练所得到的预测标签作为组群识别结果。
2.根据权利要求1所述的基于门控融合单元的特征融合组群识别方法,其特征在于:所述步骤A中进行视觉特征提取具体通过以下方式实现:
基于DSST跟踪算法对组群活动中的个人信息进行跟踪,将跟踪到的边界框作为CNN模型的输入;设所跟踪到的个人边界框
Figure FDA0003343365040000027
N代表场景中的人数,场景输入为
Figure FDA0003343365040000028
将跟踪到的个人边界框与场景输入连接起来作为整体CNN模型的输入IG,即:
Figure FDA0003343365040000029
提取的场景级视觉特征为:
Figure FDA0003343365040000031
提取的个人视觉特征为:
Figure FDA0003343365040000032
3.根据权利要求1所述的基于门控融合单元的特征融合组群识别方法,其特征在于:所述步骤B1具体通过以下方式实现:
将待识别视频划分为T帧,每一帧的分辨率是w*h,在第t帧视频中使用
Figure FDA0003343365040000033
Figure FDA0003343365040000034
分别表示在点(u,v)处的水平和垂直位移矢量,u=1,2,3,...,w,v=1,2,3,...,h,按如下方式堆叠连续T帧的光流向量
Figure FDA0003343365040000035
Figure FDA0003343365040000036
Figure FDA0003343365040000037
Figure FDA0003343365040000038
其中i=1,2,3,.....,T,SFk(u,v,c),c=1,2,3,...,2T,表示在一个完整的T帧视频序列上对点(u,v)处第k个人的运动进行编码,则第k个人的运动强度定义如下:
Figure FDA0003343365040000039
Figure FDA00033433650400000310
其中
Figure FDA00033433650400000311
表示第k个人在第t帧的运动强度,MIk表示整个视频中第k个人的运动强度。
CN201910655552.9A 2019-07-19 2019-07-19 基于门控融合单元的特征融合组群识别方法 Active CN110532862B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910655552.9A CN110532862B (zh) 2019-07-19 2019-07-19 基于门控融合单元的特征融合组群识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910655552.9A CN110532862B (zh) 2019-07-19 2019-07-19 基于门控融合单元的特征融合组群识别方法

Publications (2)

Publication Number Publication Date
CN110532862A CN110532862A (zh) 2019-12-03
CN110532862B true CN110532862B (zh) 2022-02-25

Family

ID=68660720

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910655552.9A Active CN110532862B (zh) 2019-07-19 2019-07-19 基于门控融合单元的特征融合组群识别方法

Country Status (1)

Country Link
CN (1) CN110532862B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111859018A (zh) * 2020-01-21 2020-10-30 北京嘀嘀无限科技发展有限公司 车辆视频检测方法、车辆视频检测装置和可读存储介质
CN111339908B (zh) * 2020-02-24 2023-08-15 青岛科技大学 基于多模态信息融合与决策优化的组群行为识别方法
CN113946758B (zh) * 2020-06-30 2023-09-19 腾讯科技(深圳)有限公司 一种数据识别方法、装置、设备及可读存储介质
CN112329541B (zh) * 2020-10-10 2022-02-11 南京理工大学 基于故事板关系模型的人群行为识别方法
CN113378657B (zh) * 2021-05-24 2024-03-01 汇纳科技股份有限公司 行人组群关系识别方法、装置及系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108764011A (zh) * 2018-03-26 2018-11-06 青岛科技大学 基于图形化交互关系建模的组群识别方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6047903B2 (ja) * 2012-03-27 2016-12-21 富士通株式会社 グループ作業支援方法、グループ作業支援プログラム、グループ作業支援サーバ及びグループ作業支援システム

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108764011A (zh) * 2018-03-26 2018-11-06 青岛科技大学 基于图形化交互关系建模的组群识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
G ATED M ULTIMODAL U NITS FOR I NFORMATION fusion;Arevalo, John etal.;《http://arXiv:1702.01992v1》;20170228;全文 *
基于注意力机制的群组行为识别方法;王传旭等;《Journal of Data Acquisition and Processing 》;20190531;第34卷(第3期);全文 *

Also Published As

Publication number Publication date
CN110532862A (zh) 2019-12-03

Similar Documents

Publication Publication Date Title
CN110532862B (zh) 基于门控融合单元的特征融合组群识别方法
Qi et al. StagNet: An attentive semantic RNN for group activity and individual action recognition
Fan et al. Video anomaly detection and localization via gaussian mixture fully convolutional variational autoencoder
Zhang et al. Discriminative dictionary learning with motion weber local descriptor for violence detection
Elfeki et al. Video summarization via actionness ranking
US9846845B2 (en) Hierarchical model for human activity recognition
CN110348364B (zh) 一种无监督聚类与时空域深度网络相结合的篮球视频群体行为识别方法
Fernando et al. Memory augmented deep generative models for forecasting the next shot location in tennis
Tay et al. Abnormal behavior recognition using CNN-LSTM with attention mechanism
Xu et al. Group activity recognition by using effective multiple modality relation representation with temporal-spatial attention
An Human action recognition algorithm based on adaptive initialization of deep learning model parameters and support vector machine
Fang et al. Traffic police gesture recognition by pose graph convolutional networks
Ahmad et al. SDIGRU: spatial and deep features integration using multilayer gated recurrent unit for human activity recognition
Zhou et al. Research on fast pedestrian detection algorithm based on autoencoding neural network and adaboost
Weng et al. Action recognition using length-variable edge trajectory and spatio-temporal motion skeleton descriptor
Sheeba et al. Hybrid features-enabled dragon deep belief neural network for activity recognition
Ding et al. Machine learning model for feature recognition of sports competition based on improved TLD algorithm
Vainstein et al. Modeling video activity with dynamic phrases and its application to action recognition in tennis videos
Fan et al. Video anomaly detection using CycleGan based on skeleton features
Sharif et al. Deep crowd anomaly detection: state-of-the-art, challenges, and future research directions
Serpush et al. Complex human action recognition in live videos using hybrid FR-DL method
Shen et al. Recognizing scoring in basketball game from AER sequence by spiking neural networks
CN113762041A (zh) 视频分类方法、装置、计算机设备和存储介质
Sun et al. Weak supervised learning based abnormal behavior detection
Alafif et al. Hybrid classifiers for spatio-temporal real-time abnormal behaviors detection, tracking, and recognition in massive hajj crowds

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant