CN111597929A - 基于通道信息融合和组群关系空间结构化建模的组群行为识别方法 - Google Patents

基于通道信息融合和组群关系空间结构化建模的组群行为识别方法 Download PDF

Info

Publication number
CN111597929A
CN111597929A CN202010359666.1A CN202010359666A CN111597929A CN 111597929 A CN111597929 A CN 111597929A CN 202010359666 A CN202010359666 A CN 202010359666A CN 111597929 A CN111597929 A CN 111597929A
Authority
CN
China
Prior art keywords
behavior
group
fusion
feature
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010359666.1A
Other languages
English (en)
Other versions
CN111597929B (zh
Inventor
王传旭
刘帅
邓海刚
丰艳
闫春娟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanxi Huaxin Huizhi Information Technology Co.,Ltd.
Shenzhen Litong Information Technology Co ltd
Original Assignee
Qingdao University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qingdao University of Science and Technology filed Critical Qingdao University of Science and Technology
Priority to CN202010359666.1A priority Critical patent/CN111597929B/zh
Publication of CN111597929A publication Critical patent/CN111597929A/zh
Application granted granted Critical
Publication of CN111597929B publication Critical patent/CN111597929B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • G06V20/53Recognition of crowd images, e.g. recognition of crowd congestion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明提出一种基于通道信息融合和组群关系空间结构化建模的组群行为识别方法;首先将待识别视频分段并等距离采样若干帧,通过改进的STM网络模块提取包含时空与运动信息的融合特征;然后将每帧的融合特征进行帧内区域划分和高维映射,形成图结构数据;最后通过包含核心组群关系演化模型的图卷积‑LSTM网络,整合出全局行为判别特征和局部行为判别特征作为组群行为描述符来判别行为分类,通过softmax得到最终的行为标签;本方案加入通道选择模块来融合空间和运动特征,以同时提取包含空间和运动信息的特征表示,增强特征的关联性;结合组群关系空间结构化建模,保证提取时空信息特征的的完整性和全面性,并重点考量了对行为判别起到决定性作用的组群交互关系这一关键对象,可有效的提高识别精度。

Description

基于通道信息融合和组群关系空间结构化建模的组群行为识 别方法
技术领域
本发明涉及组群行为识别领域,具体涉及一种基于通道信息融合和组群关系空间结构化建模的组群行为识别方法。
背景技术
近年来,视频中的人类行为识别在计算机视觉领域取得了举世瞩目的成就。行为分析在现实生活中也得到了广泛应用,如智能视频监控、异常事件检测、体育分析、理解社会行为等,这些应用都使得行为识别具有重要的科学实用性和巨大的经济价值。随着深度学习逐渐在计算机视觉领域取得了巨大成功,神经网络也逐渐被应用于基于视频的人类行为识别,并取得了显著成效。
如名称为“Region based multi-stream convolutional neural networks forcollective activity recognition”的方案提出了一种基于多区域信息提取的多流卷积神经网络结构,针对集体行为识别问题、采用多流网络和多区域相结合的方法;包括(1)利用现有的目标检测网络,对每一帧图像中的感兴趣区域进行检测与定位;(2)利用VGG16网络,提取视频中感兴趣区域和每帧图像的空间特征和运动特征;(3)对经过VGG16网络提取的4路特征进行简单的分数融合,最终实现组群行为识别。该方案在特征提取部分,虽然既提取了关键人物的局部空间信息和运动信息,又提取了整张图像的全局空间信息和运动信息,但该方案只是在网络最后一层进行融合,此种融合方式并不能很好地聚合空间与运动信息,而且仅仅使用双流网络只能捕获短时间的信息,而视频中的组群行为识别强调长时间的时序信息,因此该方案的行为识别准确率并不理想。
发明内容
本发明为提高组群行为识别的精度问题,提出一种基于通道信息融合和组群关系空间结构化建模的组群行为识别方法,采用运动信息和空间信息的通道选择融合方式,以及通过空间区域权重划分获得全局和局部行为判别特征实现组群行为的识别,保证提取时空信息特征的的完整性和全面性,并重点考量了对行为判别起到决定性作用的关键对象,有效的提高识别精度。
本发明是采用以下的技术方案实现的:一种基于通道信息融合和组群关系空间结构化建模的组群行为识别方法,其特征在于,包括以下步骤:
步骤A、特征提取及通道信息融合:对待识别视频采样,提取每帧图像的时空信息和运动信息并重构为融合特征U';
步骤B、组群关系结构化建模:
步骤B1、将融合特征U'进行空间区域划分并映射为图结构数据,同时得到图结构算子,具体的:
(1)将每帧的融合特征U'在帧内从空间维度上划分为n个特征区域,令Nt={Vt,Et}表示时间t在单个帧上划分后的融合特征;其中,Vt是n个特征区域映射到高维特征节点的集合,表示图结构的端点;Et是各个相邻节点交互关系的集合,表示图结构的边;进而实现将每帧的融合特征转化为图结构数据;
(2)设计Vt→{1,2,...,n},将标记{1,2,...,n}一一对应地分配给图节点vti,i∈n,vti∈Vt,进而实现将图节点vti的集合N(vti)分成固定数量的n个子集,将图卷积算子表示为:
Figure BDA0002474611270000021
其中,X(vtj)是第j个图节点vtj的特征,Wv是权重函数,Wv从n个权重中分配一个由标签l(vtj)索引的权重,Zti(vtj)是相应子集的编号,用于标准化特征表示,Yout(vti)表示图卷积在图节点vti处的输出;
步骤B2、将每帧的图结构数据输入至图卷积-LSTM网络,所述图卷积-LSTM网络采用上述图卷积算子代替传统LSTM的内部算子,结合核心组群关系演化过程确定关键区域并得到全局行为判别特征和局部行为判别特征;
步骤C、网络训练及行为识别:基于全局行为判别特征和局部行为判别特征通过softmax得到最终行为标签,完成组群行为识别。
进一步的,所述步骤A中,通过改进STM网络提取连续帧的时空信息与运动信息的特征并融合,所述改进STM网络包括CSTM模块、CMM模块和SC通道选择模块,具体采用以下方式实现:
步骤A1、对待识别视频进行稀疏采样,以捕捉长视频序列;
步骤A2、基于改进STM网络的CSTM模块提取每帧时空信息;同时,经改进STM网络的另一支路CMM模块获得帧间运动信息;
步骤A3、经SC通道选择模块将每帧的时空信息与运动信息进行融合,以得到具有高层级表征的融合特征,并实现对融合特征各个通道的权重控制。
进一步的,所述步骤A3中,进行特征融合时,具体通过以下方式:
(1)首先将步骤A2得到的时空信息和运动信息进行逐通道叠加,得到叠加特征U,对叠加特征U进行全局平均池化操作,将多通道的叠加特征转化为长度为通道数的一维向量;
Figure BDA0002474611270000022
其中uc代表叠加特征U中通道数为c的二维信息,H和W表示视频帧的高和宽,zc代表uc所对应转化的实数,C表示通道数,C个通道对应的C个实数zc就组合成一个长度为C的一维向量z,z的个数为N*T个,N代表视频段,T代表时间帧数;
(2)将得到的向量z通过反向传播进行学习训练,得到表示融合特征U内每个通道重要程度的权重向量s:
s=Fe(z,W)=σ(W2δ(W1*z))
W1、W2为参数矩阵,δ为线性整流层,σ为激活函数;
(3)将权重向量s通过乘法逐通道加权到叠加特征U上,完成对不同通道维度的重标定:
u′c=Fscale(uc,sc)=sc·uc
其中,uc代表叠加特征U中通道数为c的特征信息,sc为权重向量s的第c维的权重,uc'为重标定后的第c维融合特征,最终融合特征表示为U'。
进一步的,所述步骤B2中具体通过以下方式实现:
(1)将步骤B1得到每帧的图结构数据中所有区域节点的信息聚合为一个检验特征:
Figure BDA0002474611270000031
其中,W'是可学习的参数矩阵,
Figure BDA0002474611270000032
表示t时刻中第i个LSTM的中间隐含状态,其各个区域节点的权重表示为:
Figure BDA0002474611270000033
其中αt=(αt1,αt2,...,αtn),Us,Wh,Wq为可学习的参数矩阵,bs,bu表示偏差;
(2)连接多层图卷积-LSTM,并在最后一层图卷积-LSTM中,将所有的区域节点特征将表示为全局行为判别特征Ft g,而聚焦区域节点的加权和表示为一个局部行为判别特征Ft l,则得到:
Figure BDA0002474611270000034
进一步的,所述步骤C中,进行组群行为识别具体采用以下方式:
(1)设计损失函数:
Figure BDA0002474611270000035
其中y是训练所需真实数据的标签,
Figure BDA0002474611270000036
Figure BDA0002474611270000037
分别对应所预测的全局和区域类别标签,ε表示时间步长长度,κ代表行为的类别数,N代表区域节点数,αt对应区域节点权重,Tε表示最后一个时间步长,Tj表示第j个图卷积-LSTM层上的时间序列长度,λ和β是权重衰减系数;
(2)结合全局行为判别特征Ft g和局部行为判别特征Ft l,通过softmax层转化为行为类别的对应全局得分
Figure BDA0002474611270000041
和局部得分
Figure BDA0002474611270000042
其中Ot=(ot1,ot2,...,o),再进行决策融合得到最终的行为判别得分Ot
Figure BDA0002474611270000043
(3)最终输出每个行为标签对应的得分,最后将行为得分转化为归属第k类行为的概率,即:
Figure BDA0002474611270000044
其中κ代表行为的类别数,
Figure BDA0002474611270000045
即为最终输出的视频序列中时间为t的帧内人物对象所处的组群行为类别。
与现有技术相比,本发明的优点和积极效果在于:
本方案采用运动信息和空间信息的通道选择融合方式,及特征映射图卷积LSTM和全局、局部行为判别特征的区域权重划分实现组群行为的识别;利用STM网络的特征提取部分,提取从视频中采样的每帧图像的时空信息和运动信息,并采用通道选择模块融合时空与运动信息;然后将融合的每帧特征信息输入到图卷积-LSTM中,通过核心组群关系演化模型捕获空间配置和时间动态的判别特征,探索空间域和时域之间的关联性,结合通过区域权重划分得到的全局和局部特征作为组群行为描述符来判别行为分类,从而提高最终输出行为判别精度。
附图说明
图1为本发明实施例所述组群行为识别的网络架构示意图;
图2为本发明实施例所述组群行为识别方法流程示意图;
图3为本发明实施例CSTM、CMM结构示意图;
图4为本发明实施例所述SC通道选择模块的结构示意图;
图5为本发明实施例区域特征映射为图结构示意图;
图6为本发明实施例图卷积-LSTM单元结构示意图;
图7位本发明实施例核心组群关系演化过程示意图。
具体实施方式
为了能够更加清楚地理解本发明的上述目的、特征和优点,下面结合附图及实施例对本发明做进一步说明。在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用不同于在此描述的其他方式来实施,因此,本发明并不限于下面公开的具体实施例。
本实施例所提出的组群行为识别方法主要基于以下思路实现:首先对待识别视频进行采样操作,即将整个视频分段并等距离采样若干帧;然后通过改进的STM网络模块提取每帧图像包含时空与运动信息的融合特征(所述改进的STM网络是指截去传统STM网络全连接层与判别部分,保留特征提取部分,并加入通道选择模块来融合空间和运动特征,以同时提取包含空间和运动信息的特征表示,增强特征的关联性);再将每帧的融合特征进行区域划分和高维映射,形成图结构数据,最后通过包含核心组群关系演化模型的三层图卷积-LSTM整合出全局行为判别特征和局部行为判别特征,作为组群行为识别描述符来判别行为分类(其中LSTM的每个门都是图卷积算子获得的,通过核心组群关系演化模型自适应地关注关键区域,却不削弱非关键区域,保持空间信息的完整性),如图1和2所示,包括以下步骤:
第一步,特征提取:对待识别视频采样,提取每帧图像的时空信息和运动信息并将时空信息和运动信息重构为融合特征;
第二步,组群关系空间结构化建模:
(1)将每帧融合特征U'进行帧内空间区域划分并映射为图结构数据,同时得到图结构算子;
(2)将每帧图结构数据输入至图卷积-LSTM网络,所述图卷积-LSTM网络采用图卷积算子代替传统LSTM的内部算子,结合核心组群关系演化过程确定关键区域并得到全局行为判别特征和局部行为判别特征;
第三步,网络训练及行为识别:基于全局行为判别特征和局部行为判别特征通过softmax得到最终行为标签,完成组群行为识别。
具体的,下面结合具体的实现过程对本方案进行详细的介绍:
第一步:特征提取
组群行为识别的关键之一是捕获更高层级的时空特征,本实施例通过改进STM网络的特征提取部分来提取每帧包含空间信息与运动信息的融合特征;具体说来,先对视频稀疏采样,以捕捉长视频序列;利用STM网络中的CSTM(Channel-wise Spatio TemporalModule)模块对每个通道(如RGB视频输入,则可以视为R、G、B三通道)提取每帧空间信息;同时,再经STM中的另一支路CMM(Channel-wise Motion Module)获得帧间运动信息;最后再经过通道选择模块SC(Selective Channel Module)将空间特征与运动特征进行融合,以得到具有高层级表征的融合时空信息,采用ResNet的基础结构,将该STM模块代替到ResNet中的残差(即使用该模块代替传统卷积神经网络的卷积层),通过这种形式提取出空间与运动的融合信息。1.CSTM时空特征提取模块
CSTM模块的作用是提取视频序列中的时空信息,如图3(a)所示,对于给定输入的特征F∈RN*T*C*H*W,其中N代表视频段,T代表时间帧数,C为特征通道数(如RGB图像的通道数为三通道),H和W表示高和宽。
首先进行一步重构操作:F→F*∈RNHW*C*T,接着运用一个作用在T上一维的卷积去融合时序上的信息。在F*上,语义信息在不同的通道上是不同的,因此对于每个通道学习独立的卷积核。
其次通道范围的卷积相当于分组卷积,G的值即卷积核个数,也就是等于输入的通道数量,在图3(a)中,时序上步长为3。经过上述的操作后,因为每次都会在时间T维度和某一个通道上进行卷积,如果不考虑重构后的N、H、W的话,其实就是一个C*T的小矩阵,卷积的过程就是特征更新的一个过程。因此得出的结果可以如下公式表示:
Figure BDA0002474611270000061
Gc,t是更新后的特征,而上述已经描述了不同的通道存在不同的信息,因此Ki c就类似于加权系数。将F*的特征融合起来,紧接着,将其重构回去[N,T,C,H,W],建立初步的时序关系。
2.CMM运动特征提取模块
CMM模块的作用是提取视频序列相邻帧之间的运动信息,对于给定的特征F∈RN *T*C*H*W,如图3(b)所示:
首先利用1*1的卷积去降低特征通道上的维度,以降低计算量,本实施例将维度设置为16,即将特征的通道数缩小16倍;然后采用二维卷积计算两个连续帧的特征图的运动信息,表征为:
Figure BDA0002474611270000062
c,t,h,w表示特征的不同维度,
Figure BDA0002474611270000063
的表示与上述相同,类似于一个加权系数。本实施例中设置的卷积核大小是3x3,i,j∈[-1,1],在相邻的时序特征之间产生一组运动信息,产生T-1组运动信息,为了使得最后维度T保持住,在最后使用0来表示最后一步的特征,接着将所有特征连接起来,然后采用1x1的2D卷积将C恢复回去,获得视频序列中时序上的运动信息。
3.SC通道选择特征融合
SC通道选择模块为对STM的关键改进,其作用是将上面CSTM提取的时空信息和CMM提取的运动信息融合在一起,并实现对融合特征各个通道的权重控制,以达到增强有效信息,抑制无效信息的目的,最后输出包含视频序列中时空和运动信息的融合特征。
(1)首先将上面所提取的每帧时空信息和运动信息逐通道直接叠加,得到叠加特征,再通过帧内全局平均池化(Global Average Pooling,GAP)将叠加特征U在空间维度上进行压缩,使每帧叠加特征内各个通道上的二维空间信息转化为一个实数,即每个通道对应一个实数,而这个实数具有全局的感受野,表示特征在通道上相应的全局数值分布情况,也可以一定程度上代表该通道的属性,这样一个多通道的特征就被转化为长度为通道数的一维向量,具体操作可用公式表示为:
Figure BDA0002474611270000071
其中uc代表叠加特征U中通道数为c的二维信息,zc代表uc所对应转化的实数,C个通道对应的C个实数就组合成一个长度为C的一维向量z,z的个数为N*T个。
(2)然后,将得到的向量z通过反向传播进行学习训练,来得到可以表示融合特征U内每个通道重要程度的权重向量s。具体过程可用公式表示:
s=Fe(z,W)=σ(W2δ(W1z))
长度为C的向量z首先与一个维度为C/r*C的参数矩阵W1相乘,其中r是一个固定值,起到减少通道数从而降低计算量的作用;然后再经过一个线性整流层δ,输出维度变化结果;后面再进行一次全连接层操作,与一个维度为C*C/r的参数矩阵W2相乘,这里输出的向量长度就变回C;最后再经过sigmoid激活函数σ,得到长度为C的权重向量s,SC通道选择模块的内部结构如下图4所示:
(3)将权重向量s通过乘法逐通道加权到先前的叠加特征U上,完成对不同通道维度的重标定(Refactoring):
u′c=Fscale(uc,sc)=sc·uc
uc代表叠加特征U中通道数为c的特征信息,sc为权重向量s的第c维的权重,uc'为重标定后的第c维融合特征,最终融合特征表示为U'。经过该部分就得到了具有视频序列中高层次时空与运动信息的融合特征。
本方案中,在特征提取方面,通过加入通道选择模块改进STM网络,提取出每帧同时包含空间和运动信息的特征,其在网络的每一层都有融合,并在融合的同时通过学习训练特征每个通道的权重参数,实现对每帧融合特征各个通道的权重控制,可以达到增强有效信息,抑制无效信息的目的,有效提高了空间与运动信息之间的关联性和紧密性,从而保证了信息的完整性和全面性。
第二步:组群关系空间结构化建模
1.融合空间区域划分并映射为图结构数据
为了将第一步所得到的每帧时空与运动融合特征转化为图结构信息,本实施例首先将每帧的融合特征U'从帧内空间维度上平均划分为25个区域,每个区域作为融合特征的局部表示,再映射到高维空间,作为图结构数据的端点。本实施例中,令Nt={Vt,Et}表示时间t在单个帧上的融合特征,其中Vt是n个特征区域映射到高维特征节点的集合,即图结构的“端点”,比如,本实施例中,Vt的个数为25(为实验中的经验值);Et是各个相邻节点交互关系的集合,即图结构的“边”,这样融合特征就被转化为图结构数据,具体过程如图5所示:
设计Vt→{1,2,...,n},将标记{1,2,...,n}一一对应地分配给图节点vti,i∈n,vti∈Vt,从而可以划分邻居集将图节点vti的集合N(vti)分成固定数量的n个子集,所以图卷积算子表示为:
Figure BDA0002474611270000081
其中X(vtj)是节点vtj的特征,Wv是权重函数,它从n个权重中分配一个由标签l(vtj)索引的权重,Zti(vtj)是相应子集的编号,用于标准化特征表示,Yout(vti)表示图卷积在图节点vti处的输出,得到图卷积算子后,作为LSTM的内部算子进行时序建模。
2.图卷积-LSTM网络
本实施例为了突出组群行为识别所需要的空间区域相关性,采用图卷积-LSTM来建立强的时间特征序列,采用上述图卷积算子来代替传统LSTM的内部算子,并将每帧的融合特征所转化的图结构数据作为输入,图卷积-LSTM不仅可以捕获空间配置和时间动态的判别特征,还可以提取空间域和时域之间的关联性。
如图6所示,与LSTM一样的是,图卷积-LSTM也包含三个门:输入门it,遗忘门ft,输出门ot。这些门是用图卷积算子获得的,也就是说图卷积-LSTM的输入Xt,隐藏状态Ht和单元存储器Ct是图结构数据,图卷积-LSTM内的图卷积算子,单元存储器Ct和隐藏状态Ht能够表现出时间动态,并且包含空间结构信息。
为了加强关键区域节点的信息,而不削弱非聚焦区域节点的信息,从而保持空间信息完整性,本实施例加入了核心组群关系演化模型,该模型可以在图卷积-LSTM的隐含层内通过学习训练自适应地关注关键区域节点,自动计算区域节点的重要性并分配权重。
核心组群关系演化过程如图7所示,图卷积-LSTM的中间隐藏状态包含丰富的空间结构信息和时间动态,有利于关键节点的选择:
(1)首先将得到的每帧图结构数据中所有区域节点的信息聚合为一个检验特征:
Figure BDA0002474611270000082
其中,W'是可学习的参数矩阵,
Figure BDA0002474611270000083
表示t时刻中第i个LSTM的中间隐含状态,其各个区域节点的权重表示为:
Figure BDA0002474611270000084
其中αt=(αt1,αt2,...,αtn),而Us,Wh,Wq是可学习的参数矩阵,bs,bu是偏差;由于可能存在多个关键关节,因此使用Sigmoid的非线性函数;节点vti的隐藏状态Hti也可以表示为(1+αti)·Hbti
(2)连接多层图卷积-LSTM,并在最后一层图卷积-LSTM中,将所有的区域节点特征将表示为全局行为判别特征Ft g,而聚焦节点的加权和将表示为一个局部行为判别特征Ft l,这样就得到了可进行行为识别的判别特征。
Figure BDA0002474611270000091
本方案对每帧图像提取空间与运动信息融合特征,并对融合特征帧内划分区域,将每个区域映射到高维特征空间,并作为图卷积输入的一个节点。使用基于LSTM(LongShort-Term Memory Networks)的模型学习特征序列的时间动态,其中LSTM的每个门都是图卷积算子获得的,并通过核心组群关系演化模型,自适应地关注关键区域(包括关键人物与关键背景信息),却不削弱非关键区域,保持空间信息的完整性,在最后一层将未加权的所有的区域特征聚合为全局行为判别特征,而将聚焦区域的加权后作为一个局部行为判别特征,进而可以将全局行为判别特征和局部行为判别特征作为组群行为描述符通过softmax转化为行为类别的得分,进行决策融合后得到最终的行为判别结果。
第三步:网络训练及行为识别
(1)网络训练需要损失函数进行反向传播,网络内部的损失函数可表示为:
Figure BDA0002474611270000092
其中y是训练所需真实数据的标签,
Figure BDA0002474611270000093
Figure BDA0002474611270000094
分别对应所预测的全局和区域类别标签,ε表示时间步长长度,κ代表行为的类别数,N代表区域节点数,αt对应区域节点权重,Tε表示最后一个时间步长,Tγ表示第γ个图卷积-LSTM层上的时间序列长度,第三项旨在关注不同的区域节点,最后一项则是为了限制聚焦区域节点的数量即衰减项,λ和β是权重衰减系数,其中只使用最后一层的全局和局部行为判别特征来预测和估计人类行为类别。
(2)使用上面输出的全局行为判别特征Ft g和局部行为判别特征Ft l,通过softmax层被转化为行为类别的对应全局得分
Figure BDA0002474611270000095
和局部得分
Figure BDA0002474611270000096
其中Ot=(ot1,ot2,...,o),网络最终的行为判别得分Ot取全局得分
Figure BDA0002474611270000097
和局部得分
Figure BDA0002474611270000098
的平均值:
Figure BDA0002474611270000099
(3)网络最终输出每个行为标签对应的得分,最后再将行为得分转化为归属第k类行为的概率,公式如下:
Figure BDA0002474611270000101
其中κ代表行为的类别数,
Figure BDA0002474611270000102
就是最终输出的视频序列中时间为t的帧内人物对象所处的组群行为类别。
以上所述,仅是本发明的较佳实施例而已,并非是对本发明作其它形式的限制,任何熟悉本专业的技术人员可能利用上述揭示的技术内容加以变更或改型为等同变化的等效实施例应用于其它领域,但是凡是未脱离本发明技术方案内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与改型,仍属于本发明技术方案的保护范围。

Claims (5)

1.基于通道信息融合和组群关系空间结构化建模的组群行为识别方法,其特征在于,包括以下步骤:
步骤A、特征提取及通道信息融合:对待识别视频采样,提取每帧图像的时空信息和运动信息并重构为融合特征U';
步骤B、组群关系结构化建模:
步骤B1、将融合特征U'进行帧间空间区域划分并映射为图结构数据,同时得到图结构算子,具体的:
(1)将每帧的融合特征U'在帧内从空间维度上划分为n个特征区域,令Nt={Vt,Et}表示时间t在单个帧上的划分后的融合特征;其中,Vt是n个特征区域映射到高维特征节点的集合,表示图结构的端点;Et是各个相邻节点交互关系的集合,表示图结构的边;进而实现将每帧的融合特征转化为图结构数据;
(2)设计Vt→{1,2,...,n},将标记{1,2,...,n}一一对应地分配给图节点vti,i∈n,vti∈Vt,进而实现将图节点vti的集合N(vti)分成固定数量的n个子集,将图卷积算子表示为:
Figure FDA0002474611260000011
其中,X(vtj)是第j个图节点vtj的特征,Wv是权重函数,Wv从n个权重中分配一个由标签l(vtj)索引的权重,Zti(vtj)是相应子集的编号,用于标准化特征表示,Yout(vti)表示图卷积在图节点vti处的输出;
步骤B2、将图结构数据输入至图卷积-LSTM网络,所述图卷积-LSTM网络采用上述图卷积算子代替传统LSTM的内部算子,结合核心组群关系演化模型确定关键区域,并得到全局行为判别特征和局部行为判别特征;
步骤C、网络训练及行为识别:基于全局行为判别特征和局部行为判别特征通过softmax得到最终行为标签,完成组群行为识别。
2.根据权利要求1所述的基于通道信息融合和组群关系空间结构化建模的组群行为识别方法,其特征在于:所述步骤A中,通过改进STM网络提取连续帧的时空信息与运动信息的特征并融合,所述改进STM网络包括CSTM模块、CMM模块和SC通道选择模块,具体采用以下方式实现:
步骤A1、对待识别视频进行稀疏采样,以捕捉长视频序列;
步骤A2、基于改进STM网络的CSTM模块提取每帧时空信息;同时,经改进STM网络的另一支路CMM模块获得帧间运动信息;
步骤A3、经SC通道选择模块将时空信息与运动信息进行融合,以得到具有高层级表征的融合特征,并实现对融合特征各个通道的权重控制。
3.根据权利要求2所述的基于通道信息融合和组群关系空间结构化建模的组群行为识别方法,其特征在于:所述步骤A3中,进行特征融合时,具体通过以下方式:
(1)首先将步骤A2得到的时空信息和运动信息进行逐通道叠加,得到叠加特征U,对叠加特征U进行全局平均池化操作,将多通道的叠加特征转化为长度为通道数的一维向量;
Figure FDA0002474611260000021
其中uc代表叠加特征U中通道数为c的二维信息,H和W表示视频帧的高和宽,zc代表uc所对应转化的实数,C表示通道数,C个通道对应的C个实数zc就组合成一个长度为C的一维向量z,z的个数为N*T个,N代表视频段,T代表时间帧数;
(2)将得到的向量z通过反向传播进行学习训练,得到表示融合特征U内每个通道重要程度的权重向量s:
s=Fe(z,W)=σ(W2δ(W1*z))
W1、W2为参数矩阵,δ为线性整流层,σ为激活函数;
(3)将权重向量s通过乘法逐通道加权到叠加特征U上,完成对不同通道权重的重标定:
u′c=Fscale(uc,sc)=sc·uc
其中,uc代表叠加特征U中通道数为c的特征信息,sc为权重向量s的第c维的权重,uc'为重标定后的第c维融合特征,最终融合特征表示为U'。
4.根据权利要求3所述的基于通道信息融合和组群关系空间结构化建模的组群行为识别方法,其特征在于:所述步骤B2中具体通过以下方式实现:
(1)将步骤B1得到每帧图结构数据中所有区域节点的信息聚合为一个检验特征:
Figure FDA0002474611260000022
其中,W'是可学习的参数矩阵,
Figure FDA0002474611260000023
表示t时刻中第i个LSTM的中间隐含状态,其各个区域节点的权重表示为:
Figure FDA0002474611260000024
其中αt=(αt1,αt2,...,αtn),Us,Wh,Wq为可学习的参数矩阵,bs,bu表示偏差;
(2)连接多层图卷积-LSTM,并在最后一层图卷积-LSTM中,将所有的区域节点特征将表示为全局行为判别特征Ft g,而聚焦区域节点的加权和表示为一个局部行为判别特征Ft l,则得到:
Figure FDA0002474611260000025
5.根据权利要求4所述的基于通道信息融合和组群关系空间结构化建模的组群行为识别方法,其特征在于:所述步骤C中,进行组群行为识别具体采用以下方式:
(1)设计损失函数:
Figure FDA0002474611260000031
其中y是训练所需真实数据的标签,
Figure FDA0002474611260000032
Figure FDA0002474611260000033
分别对应所预测的全局和区域类别标签,ε表示时间步长长度,κ代表行为的类别数,N代表区域节点数,αt对应区域节点权重,Tε表示最后一个时间步长,Tj表示第j个图卷积-LSTM层上的时间序列长度,λ和β是权重衰减系数;
(2)结合最后一层的全局行为判别特征Ft g和局部行为判别特征Ft l,通过softmax层转化为行为类别的对应全局得分
Figure FDA0002474611260000034
和局部得分
Figure FDA0002474611260000035
其中Ot=(ot1,ot2,...,o),再进行决策融合得到最终的行为判别得分Ot
Figure FDA0002474611260000036
(3)最终输出每个行为标签对应的得分,最后将行为得分转化为归属第k类行为的概率,即:
Figure FDA0002474611260000037
其中κ代表行为的类别数,
Figure FDA0002474611260000038
即为最终输出的视频序列中时间为t的帧内人物对象所处的组群行为类别。
CN202010359666.1A 2020-04-30 2020-04-30 基于通道信息融合和组群关系空间结构化建模的组群行为识别方法 Active CN111597929B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010359666.1A CN111597929B (zh) 2020-04-30 2020-04-30 基于通道信息融合和组群关系空间结构化建模的组群行为识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010359666.1A CN111597929B (zh) 2020-04-30 2020-04-30 基于通道信息融合和组群关系空间结构化建模的组群行为识别方法

Publications (2)

Publication Number Publication Date
CN111597929A true CN111597929A (zh) 2020-08-28
CN111597929B CN111597929B (zh) 2023-05-05

Family

ID=72189501

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010359666.1A Active CN111597929B (zh) 2020-04-30 2020-04-30 基于通道信息融合和组群关系空间结构化建模的组群行为识别方法

Country Status (1)

Country Link
CN (1) CN111597929B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112149618A (zh) * 2020-10-14 2020-12-29 紫清智行科技(北京)有限公司 适用于巡检车的行人异常行为检测方法与装置
CN112633260A (zh) * 2021-03-08 2021-04-09 北京世纪好未来教育科技有限公司 视频动作分类方法、装置、可读存储介质及设备
CN113688801A (zh) * 2021-10-22 2021-11-23 南京智谱科技有限公司 一种基于光谱视频的化工气体泄漏检测方法及系统
CN113963202A (zh) * 2021-10-19 2022-01-21 郑州大学 一种骨骼点动作识别方法、装置、电子设备及存储介质
CN114842554A (zh) * 2022-04-22 2022-08-02 北京昭衍新药研究中心股份有限公司 一种基于局部和全局时空特征的群体猴子动作识别方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109101896A (zh) * 2018-07-19 2018-12-28 电子科技大学 一种基于时空融合特征和注意力机制的视频行为识别方法
US10289912B1 (en) * 2015-04-29 2019-05-14 Google Llc Classifying videos using neural networks
CN111079578A (zh) * 2019-12-02 2020-04-28 海信集团有限公司 行为检测方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10289912B1 (en) * 2015-04-29 2019-05-14 Google Llc Classifying videos using neural networks
CN109101896A (zh) * 2018-07-19 2018-12-28 电子科技大学 一种基于时空融合特征和注意力机制的视频行为识别方法
CN111079578A (zh) * 2019-12-02 2020-04-28 海信集团有限公司 行为检测方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王传旭,龚玉婷: "基于注意力机制的群组行为识别方法" *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112149618A (zh) * 2020-10-14 2020-12-29 紫清智行科技(北京)有限公司 适用于巡检车的行人异常行为检测方法与装置
CN112633260A (zh) * 2021-03-08 2021-04-09 北京世纪好未来教育科技有限公司 视频动作分类方法、装置、可读存储介质及设备
CN112633260B (zh) * 2021-03-08 2021-06-22 北京世纪好未来教育科技有限公司 视频动作分类方法、装置、可读存储介质及设备
CN113963202A (zh) * 2021-10-19 2022-01-21 郑州大学 一种骨骼点动作识别方法、装置、电子设备及存储介质
CN113688801A (zh) * 2021-10-22 2021-11-23 南京智谱科技有限公司 一种基于光谱视频的化工气体泄漏检测方法及系统
CN114842554A (zh) * 2022-04-22 2022-08-02 北京昭衍新药研究中心股份有限公司 一种基于局部和全局时空特征的群体猴子动作识别方法
CN114842554B (zh) * 2022-04-22 2024-05-14 北京昭衍新药研究中心股份有限公司 一种基于局部和全局时空特征的群体猴子动作识别方法

Also Published As

Publication number Publication date
CN111597929B (zh) 2023-05-05

Similar Documents

Publication Publication Date Title
Huang et al. Location-aware graph convolutional networks for video question answering
CN111597929A (zh) 基于通道信息融合和组群关系空间结构化建模的组群行为识别方法
CN110737801B (zh) 内容分类方法、装置、计算机设备和存储介质
WO2021042828A1 (zh) 神经网络模型压缩的方法、装置、存储介质和芯片
Chen et al. Relation attention for temporal action localization
CN107330362B (zh) 一种基于时空注意力的视频分类方法
CN106250915B (zh) 一种融合深度特征和语义邻域的自动图像标注方法
CN111401174B (zh) 一种基于多模态信息融合的排球群体行为识别方法
CN111652066A (zh) 基于多自注意力机制深度学习的医疗行为识别方法
CN111626116B (zh) 基于融合多注意力机制和Graph的视频语义分析方法
CN112036276A (zh) 一种人工智能视频问答方法
CN111178319A (zh) 基于压缩奖惩机制的视频行为识别方法
Cherian et al. Spatio-temporal ranked-attention networks for video captioning
CN116311483B (zh) 基于局部面部区域重构和记忆对比学习的微表情识别方法
CN114817663A (zh) 一种基于类别感知图神经网络的服务建模与推荐方法
CN114970517A (zh) 一种基于多模态交互的上下文感知的面向视觉问答的方法
He et al. DepNet: An automated industrial intelligent system using deep learning for video‐based depression analysis
Toor et al. Biometrics and forensics integration using deep multi-modal semantic alignment and joint embedding
CN115510322A (zh) 一种基于深度学习的多目标优化推荐方法
CN115408603A (zh) 一种基于多头自注意力机制的在线问答社区专家推荐方法
CN113657272B (zh) 一种基于缺失数据补全的微视频分类方法及系统
Jiang et al. Cross-level reinforced attention network for person re-identification
CN114241606A (zh) 一种基于自适应集学习预测的人物交互检测方法
CN113762041A (zh) 视频分类方法、装置、计算机设备和存储介质
Zhao et al. Human action recognition based on improved fusion attention CNN and RNN

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20240411

Address after: One bungalow in the dormitory of Electronic Equipment Company, No. 27, West Erxiang, Pingyang Road, Xiaodian District, Taiyuan City, Shanxi Province, 030000

Patentee after: Shanxi Huaxin Huizhi Information Technology Co.,Ltd.

Country or region after: China

Address before: 509 Kangrui Times Square, Keyuan Business Building, 39 Huarong Road, Gaofeng Community, Dalang Street, Longhua District, Shenzhen, Guangdong Province, 518000

Patentee before: Shenzhen Litong Information Technology Co.,Ltd.

Country or region before: China

Effective date of registration: 20240410

Address after: 509 Kangrui Times Square, Keyuan Business Building, 39 Huarong Road, Gaofeng Community, Dalang Street, Longhua District, Shenzhen, Guangdong Province, 518000

Patentee after: Shenzhen Litong Information Technology Co.,Ltd.

Country or region after: China

Address before: 266000 Songling Road, Laoshan District, Qingdao, Shandong Province, No. 99

Patentee before: QINGDAO University OF SCIENCE AND TECHNOLOGY

Country or region before: China

TR01 Transfer of patent right