CN110516540B - 基于多流架构与长短时记忆网络的组群行为识别方法 - Google Patents

基于多流架构与长短时记忆网络的组群行为识别方法 Download PDF

Info

Publication number
CN110516540B
CN110516540B CN201910646216.8A CN201910646216A CN110516540B CN 110516540 B CN110516540 B CN 110516540B CN 201910646216 A CN201910646216 A CN 201910646216A CN 110516540 B CN110516540 B CN 110516540B
Authority
CN
China
Prior art keywords
tsn
network
fusion
group behavior
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910646216.8A
Other languages
English (en)
Other versions
CN110516540A (zh
Inventor
宋波
王传旭
胡小悦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qingdao Keda Youzhi Information Technology Co ltd
Qingdao University of Science and Technology
Original Assignee
Qingdao Keda Youzhi Information Technology Co ltd
Qingdao University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qingdao Keda Youzhi Information Technology Co ltd, Qingdao University of Science and Technology filed Critical Qingdao Keda Youzhi Information Technology Co ltd
Priority to CN201910646216.8A priority Critical patent/CN110516540B/zh
Publication of CN110516540A publication Critical patent/CN110516540A/zh
Application granted granted Critical
Publication of CN110516540B publication Critical patent/CN110516540B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/23Recognition of whole body movements, e.g. for sport training

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Multimedia (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于多流架构与长短时记忆网络的组群行为识别方法,涉及图像识别技术领域,包括以下步骤:数据预处理;B、通过双路TSN网络分别对主要人物候选框和整张图片的外观和运动特征进行提取,得到单人局部空间外观信息
Figure DDA0002133665570000011
单人局部时序运动信息
Figure DDA0002133665570000012
全局空间外观信息
Figure DDA0002133665570000013
和全局时序运动信息
Figure DDA0002133665570000014
C、特征融合及组群行为识别;D、对模型进行训练和测试。本发明的有益效果是,特征提取方面,进一步保证其提取的全面性;特征融合方面,使用通道注意力模型,以获得更具区分性的特征,来提高组群行为的准确率。

Description

基于多流架构与长短时记忆网络的组群行为识别方法
技术领域
本发明涉及图像识别技术领域,特别是一种基于多流架构与长短时记忆网络的组群行为识别方法。
背景技术
近年来,视频中的人类行为识别在计算机视觉领域取得了举世瞩目的成就。组群行为分析在现实生活中也得到了广泛应用,如智能视频监控、异常事件检测、体育分析、理解社会行为等,这些应用都使得组群行为识别具有重要的科学实用性和巨大的经济价值。随着深度学习逐渐在计算机视觉领域取得了巨大成功,卷积神经网络(CNN)也逐渐被应用于基于视频的人类行为识别,并取得了显著成效。
给定一段视频序列,简单的行为识别即单人动作的分类,只需将其中每个人的动作准确分类到已知的动作类别中。较复杂的人体行为即组群行为识别,往往给定的视频中包含多个目标多个动作类别,多个目标可能在同时做相同的动作,或者多个目标正在共同完成同一个行为(行为),我们将这些由多人完成的相同动作或者共同完成的行为(行为)称为“组群行为”。本申请涉及的内容是基于视频中的多人行为识别问题。
一般来讲,用于行为识别的融合方法主要有两种:前期融合和后期融合。前期融合也叫特征融合,特征融合又分为级联融合、最大值融合和平均融合。后期融合主要是指分数融合。早期融合是通过将它们整合到单个流中进行训练,连接来自不同流的特征,其融合方式如图1所示;后期融合是通过平均或使用线性分类器来组合两个网络的softmax分数,如图2所示。这种融合方法也称为决策级融合或语义级融合,该方法已广泛用于图像和视频分析。
在组群行为识别任务中,目前还存在两方面的问题。(1)在特征提取方面,通常先对视频中的关键人物进行定位,关注局部信息从而忽略全局特征,关注外观特征从而忽略其运动特征,从而导致特征提取的不全面性。(2)在特征融合方面,通常仅采用特征融合或分数融合,或既采用分数融合又采用特征融合,但若将提取的特征仅进行简单的融合,那么将不能有效提高组群行为识别的准确率。
发明内容
本发明的目的是为了保证对输入视频特征提取的全面性,有效保证视频序列中的组群行为识别的准确性,设计了一种基于多流架构与长短时记忆网络的组群行为识别方法。
为了实现上述目的,本发明的技术方案为,一种基于多流架构与长短时记忆网络的组群行为识别方法,包括以下步骤:
A、数据预处理
根据数据集中主要人物候选框的标注信息,形成主要人物候选框序列;
分别提取视频中整张图片和主要人物候选框的光流时序信息;
B、通过双路TSN网络分别对主要人物候选框和整张图片的外观和运动特征进行提取,得到单人局部空间外观信息
Figure GDA0003465376900000021
单人局部时序运动信息
Figure GDA0003465376900000022
全局空间外观信息
Figure GDA0003465376900000023
和全局时序运动信息
Figure GDA0003465376900000024
C、特征融合及组群行为识别
Figure GDA0003465376900000025
Figure GDA0003465376900000026
进行融合,得到特征fA;将
Figure GDA0003465376900000027
Figure GDA0003465376900000028
进行融合,得到特征fB;将
Figure GDA0003465376900000029
Figure GDA00034653769000000210
进行融合,得到特征fC;将
Figure GDA00034653769000000211
Figure GDA00034653769000000212
进行融合,得到特征fD
在融合后的特征fA、fB、fC和fD上分别加一个通道注意力模型,并让每个通道的特征学习一个权重系数,特征的重要性越大,则学习到的权重系数就大;反之,则小;
经过通道注意力模型输出的四路特征后面分别连接LSTM网络,捕获视频中长期依赖关系;每个LSTM网络直接连接softmax层,并进行分数融合,得出视频序列中的组群行为类别,根据组群行为类别获得整个组群行为的标签;
D、对模型进行训练和测试。
进一步的,所述双路TSN网络包括局部TSN网络TSN_L和全局TSN网络TSN_G,所述局部TSN网络TSN_L对主要人物候选框的外观和运动特征进行提取,所述全局TSN网络TSN_G对整张图片的外观和运动特征进行提取。
进一步的,在所述步骤B中,所述TSN网络采用稀疏采样的方法提取视频序列中的短片段,短片段沿时间维均匀分布,并采用分段结构从短片段中聚合信息。
进一步的,在所述步骤B中,将视频平均分成k段{S1,S2,...,Sk},利用双路TSN网络的公式表示为:
TSN(T1,T2,...,TK)=G(F(T1;W),F(T2;W),...,F(TK;W))
式中,(T1,T2,...,TK)为短片段序列,每一个短片段TK为其对应的段Sk中随机采样得到;F(TK;W)函数表示在短片段TK上进行操作并且具有参数W的卷积网络,提取每个子片段中随机采样的图像的特征;G为结合多个短片段特征的段共识函数。
进一步的,在所述步骤B中,结合标准的分类交叉熵损失,得到关于段共识函数G的最终损失函数。
进一步的,用标准的反向传播算法联合优化模型参数W。
进一步的,在所述步骤D中,将TSN网络与LSTM网络分别进行训练,并将数据集按照3:1的比例进行划分,将数据集中3/4的数据进行训练,1/4的数据进行测试与验证,得出数据集中各类行为的准确率以及平均识别精度。
进一步的,所述数据集为CAD数据集或者排球数据集。
本发明的有益效果是:
(1)在特征提取方面,添加多重视觉线索,以获得更具区分性的特征。将从特征提取的输入端来解决这些问题,既关注局部特征和全局特征,又关注外观特征和运动特征,从而保证特征提取的全面性。
(2)提出了一种新的混合融合策略。对整张图片和主要人物候选框提取局部光流特征、局部空间特征、全局光流特征、全局空间特征,利用TSN网络完成特征提取任务,并提出了一种新的混合融合策略,在前期进行级联融合,中期采用通道注意力模型给TSN网络的四路特征分配权重,后期经过LSTM网络后进行分数融合。在进行级联融合之后,采用通道注意力模型,使之能够对前期提取的特征进行进一步的处理,从而保证对视频序列中的组群行为识别的准确性。
综上两点有益效果:(1)特征提取方面,进一步保证其提取的全面性;(2)特征融合方面,使用通道注意力模型,以获得更具区分性的特征,来提高组群行为的准确率。
附图说明
图1是现有技术中前期融合方式的结构示意图;
图2是现有技术中后期融合方式的结构示意图;
图3是本申请组群识别过程流程图;
图4是CAD数据集中其中一种行为的剪辑帧示例,包括边界框、单人行为和组群行为的标定;
图5是两种输入模态:左边上下两图是主要人物候选框及其对应的X,Y两个方向光流图;后边上下两图是整张图片及其对应的X,Y两个方向光流图;
图6是本申请整体网络架构图。
具体实施方式
为更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明的具体实施方式、结构、特征及其功效,详细说明如下:
组群行为识别的关键是捕获更高层级的特征表示,从而实现组群行为识别。本申请的构思如下:
由于现在的大多数文献都是基于视频中关键人物的候选框进行特征提取,这就忽略了背景信息,在行为识别中,不光要关注关键人物的时空信息,还需将其周围环境考虑在内。因此,针对这些缺点,本申请的第一个创新点就是在考虑特征提取网络输入端时,既考虑整张图片的时空信息,又考虑关键人物的时空信息。
本发明在组群行为识别方面,对其整体框架进行结构性创新,不仅关注局部个人的外观和运动特征,还关注背景信息,得到全局外观和运动特征。并提出了一种新的混合融合策略,在整个组群行为识别过程中进行了各种交叉性的级联融合,并赋予通道注意力模型,将重要特征进行重点关注,最后进行四路分数融合,进而提高组群识别的准确性。
本文提高了一种基于多流架构与长短时记忆网络的组群行为识别方法,如图3所示,包括四步。具体包括以下步骤:
A、数据预处理
如图4所示,利用数据集中已经提供的主要人物候选框的标注信息,形成主要人物候选框序列,完成对视频中主要人物的跟踪。
提取光流特征,利用TVL1(TotalVariation-L1)光流算法分别提取视频中整张图片和主要人物候选框的光流时序信息,得到整张图片和主要人物候选框的X方向和Y方向的光流信息,作为TSN网络时间网的输入。本申请重点考虑多个输入的视觉线索,由于在真实复杂的环境中,除了人在运动之外,还有好多其余物体的运动,例如:数据集中的“Crossing”类,人在等待过马路的过程中车在运动,光流场可能不会全部集中在人的动作上。因此,使用翘曲光流的提取方法,提取视频中人物的X方向和Y方向的光流信息,其中深浅代表运动速度,将捕获的短期运动特征作为TSN网络时间网的输入。本文提取的X和Y两个方向的光流如图5所示。
B、通过双路TSN网络进行时空特征提取
双路TSN网络包括局部TSN网络TSN_L和全局TSN网络TSN_G,局部TSN网络TSN_L对主要人物候选框的外观和运动特征进行提取,全局TSN网络TSN_G对整张图片的外观和运动特征进行提取。
假设给定一段输入视频,将输入视频平均分成k段{S1,S2,...,Sk},利用双路TSN网络的公式表示为:
TSN(T1,T2,...,TK)=G(F(T1;W),F(T2;W),...,F(TK;W))
式中,(T1,T2,...,TK)为短片段序列,每一个短片段TK为其对应的段Sk中随机采样得到;F(TK;W)函数表示在短片段TK上进行操作并且具有参数W的卷积网络,提取每个子片段中随机采样的图像的特征;G为结合多个短片段特征的段共识函数,以获得他们之间关于类别假设的共识。
结合标准的分类交叉熵损失,得到关于段共识函数G的最终损失函数η(y,G)为:
Figure GDA0003465376900000051
式中,C是动作类别的总数,yi是第i类对应的真实值,Gi是第i类的段共识函数,Gj是第j类的段共识函数。
由于TSN网络是可微的,这使得我们可以利用多个片段,用标准的反向传播算法联合优化模型参数W。用标准的反向传播算法联合优化模型参数W,在迭代过程中,模型参数W相对于损失值L的梯度可以推导为:
Figure GDA0003465376900000052
式中,L是指模型在训练过程中每迭代一次所产生的损失值。
在步骤B中,TSN网络采用稀疏采样的方法提取视频序列中的短片段,短片段沿时间维均匀分布,并采用分段结构从短片段中聚合信息,使时间网能够对整个视频进行长时间建模。
局部TSN_L网络空间网的输入是将主要人物候选框序列等间隔均匀分段,然后从每一段中随机挑选N张送入到局部TSN_L网络空间网中,捕获单人局部空间外观信息
Figure GDA0003465376900000053
局部TSN_L网络时间网的输入是将主要人物候选框序列所对应的光流信息等间隔均匀分段,然后从每一段中随机挑选连续M帧光流图像送入局部TSN_L网络时间网中,得到单人局部时序运动信息
Figure GDA0003465376900000054
全局TSN_G网络空间网的输入是将整段视频序列进行等间隔均匀分段,然后从每一段中随机挑选N张送入到全局TSN_G网络空间网中,捕获整张图片的全局空间外观信息
Figure GDA0003465376900000055
全局TSN_G网络时间网的输入是将整段视频所对应的光流图像进行等间隔分段,然后从每一段中随机挑选连续M帧光流图像送入到全局TSN_G网络时间网中,得到整张图片全局时序运动信息
Figure GDA0003465376900000056
因此,本申请特征提取网络输入端形成四条支路,这样既提取了全局和局部的外观信息,又提取了全局和局部的运动信息。本申请整体网络架构图如图6所示:
本申请用随机梯度下降(SGD)法来学习模型参数,这种方式使得TSN网络可以从整个视频而不是一小段视频中学习模型参数,通过稀疏时间采样策略,其中只采样视频帧中的一小部分,大大降低了计算成本。TSN获得的时空特征也分别用整个视频时空特征的稀疏表示。
C、特征融合及组群行为识别
在前期,将
Figure GDA0003465376900000061
Figure GDA0003465376900000062
进行融合,融合后的特征用fA表示;将
Figure GDA0003465376900000063
Figure GDA0003465376900000064
进行融合,融合后的特征用fB表示;将
Figure GDA0003465376900000065
Figure GDA0003465376900000066
进行融合,融合后的特征用fC表示;将
Figure GDA0003465376900000067
Figure GDA0003465376900000068
进行融合,融合后的特征用fD表示。
在中期,在四路融合后的特征fA、fB、fC和fD上分别加一个通道注意力模型,让每个通道的特征学习一个权重系数,特征的重要性越大,则学习到的权重系数就大;反之,则小,四路融合后的特征fA、fB、fC和fD在分别通过注意力模型之后的输出为:
W1×fA,W2×fB,W3×fC,W4×fD
式中,W1、W2、W3、W4为权重系数。
在后期,经过注意力模型输出的四路特征后面分别连接LSTM网络,捕获视频中长期依赖关系,从而获得帧与帧之间的时序上下文关系,生成组群级特征表示;每个LSTM网络直接连接softmax层,经过softmax层之后的四路特征分别用Q1、Q2、Q3和Q4表示:
Q1=softmax(W1×fA)
Q2=softmax(W2×fB)
Q3=softmax(W3×fC)
Q4=softmax(W4×fD)
将Q1、Q2、Q3和Q4进行分数融合,得出视频序列中的组群行为类别。以视频中大多数人的行为作为组群行为类别,最终获得整个组群行为的标签。
给定场景中每个人的边界框,通过使用LSTM网络来表示每个人动作上的时间信息,这些时间信息是空间特征的补充,对性能至关重要。LSTMs中的存储内容使其适合于建模复杂的时间关系,这些时间关系可能跨越很长的范围。LSTM网络存储单元的内容由几个控制进出存储单元信息流的控制单元控制,这些控制单元提供的控制有助于避免假的梯度更新,这通常发生在训练RNNs时,由于时间输入长度很大,这个属性使我们能够堆叠大量这样的层,以便学习在不同范围的输入中呈现的复杂动态。
假定xt为LSTM网络在t时刻的输入,激活单元公式可以表示为:
it=σ(Wxixt+Whiht-1+bi)
ft=σ(Wxfxt+Whfht-1+bf)
ot=σ(Wxoxt+Whoht-1+bo)
gt=φ(Wxcxt+Whcht-1+bc)
ct=ft☉ct-1+it☉gt
ht=ot☉φ(ct)
其中,σ表示sigmoid函数,φ表示tanh函数,xt表示输入,ht∈RN表示隐藏层状态,里面有N个隐藏单元,ct∈RN表示存储单元,it∈RN,ft∈RN,ot∈RN以及gt∈RN分别表示输入门,遗忘门,输出门,在t时刻的输入调制门;☉表示表示数组元素依次相乘。
由于LSTM网络具有捕获长期时序信息的能力,因此,本申请在经过通道注意力模型输出的四路特征后面分别连接LSTM网络,捕获帧与帧之间的上下文时序信息,生成组群级特征表示,直接连接softmax层,经过softmax层的四路特征进行分数融合,以得出视频序列中的组群行为类别。更具体地说,本申请将四路通道注意力模型模型的输出作为LSTM网络的输入,LSTM网络的输出维数设置为类的数量。并以视频中大多数人的行为作为组群行为类别,最终获得整个组群行为的标签。
D、对模型进行训练和测试。
本申请在训练整个模型时,采用分段训练来学习模型参数。将TSN网络与LSTM网络分别进行训练,并将数据集按照3:1的比例进行划分,将数据集中3/4的数据进行训练,1/4的数据进行测试与验证,得出数据集中各类行为的准确率以及平均识别精度。
本申请训练部分使用CAD或者排球两个公开数据集。其中,CAD数据集包含由低分辨率手持相机收集的44个视频片段,五类行为标签:Crossing,Waiting,Queuing,Walking,Talking;八种姿势标签(实验中未使用);五种组群行为标签:Crossing,Waiting,Queuing,Walking,Talking。根据大多数人在场景中所做的事情,场景被赋予小组行为的标签,以及每个人都有一个行为标签,每一帧图像都有一个场景行为标签。在CAD数据集中,由于“Walking”与“Crossing”类具有相似的视觉特征,因此我们将“Walking”和“Crossing”合并为“Moving”。因此,本申请的CAD数据集中共有四类行为标签:Moving,Waiting,Queuing,Talking。
Volleyball数据集包含55个视频和4830个带注释的帧,每一帧都标注了每个球员的位置、所属行为类别(例如:Waiting,Setting,Digging,Failing,Spiking,Blocking,Jumping,Moving,Standing)和小组行为类别(例如:Leftpass,Rightpass,Left set,Rightset,Left spike,Right spike,Left win point,Right win point)。
以上参考了优选实施例对本发明进行了描述,但本发明的保护范围并不限制于此,在不脱离本发明的范围的情况下,可以对其进行各种改进并且可以用等效物替换其中的部件,只要不存在结构冲突,各个实施例中所提到的各项技术特征均可以任意方式组合起来,且不应将权利要求中的任何附图标记视为限制所涉及的权利要求,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的。因此,任何落入权利要求的范围内的所有技术方案均在本发明的保护范围内。

Claims (8)

1.一种基于多流架构与长短时记忆网络的组群行为识别方法,其特征在于,包括以下步骤:
A、数据预处理
根据数据集中主要人物候选框的标注信息,形成主要人物候选框序列;
分别提取视频中整张图片和主要人物候选框的光流时序信息;
B、通过双路TSN网络分别对主要人物候选框和整张图片的外观和运动特征进行提取,得到单人局部空间外观信息
Figure FDA0003465376890000011
单人局部时序运动信息
Figure FDA0003465376890000012
全局空间外观信息
Figure FDA0003465376890000013
和全局时序运动信息
Figure FDA0003465376890000014
C、特征融合及组群行为识别
Figure FDA0003465376890000015
Figure FDA0003465376890000016
进行融合,得到特征fA;将
Figure FDA0003465376890000017
Figure FDA0003465376890000018
进行融合,得到特征fB;将
Figure FDA0003465376890000019
Figure FDA00034653768900000110
进行融合,得到特征fC;将
Figure FDA00034653768900000111
Figure FDA00034653768900000112
进行融合,得到特征fD
在融合后的特征fA、fB、fC和fD上分别加一个通道注意力模型,并让每个通道的特征学习一个权重系数,特征的重要性越大,则学习到的权重系数就大;反之,则小;
经过通道注意力模型输出的四路特征后面分别连接LSTM网络,捕获视频中长期依赖关系;每个LSTM网络直接连接softmax层,并进行分数融合,得出视频序列中的组群行为类别,根据组群行为类别获得整个组群行为的标签;
D、对模型进行训练和测试。
2.根据权利要求1所述的基于多流架构与长短时记忆网络的组群行为识别方法,其特征在于,所述双路TSN网络包括局部TSN网络TSN_L和全局TSN网络TSN_G,所述局部TSN网络TSN_L对主要人物候选框的外观和运动特征进行提取,所述全局TSN网络TSN_G对整张图片的外观和运动特征进行提取。
3.根据权利要求1所述的基于多流架构与长短时记忆网络的组群行为识别方法,其特征在于,在所述步骤B中,所述TSN网络采用稀疏采样的方法提取视频序列中的短片段,短片段沿时间维均匀分布,并采用分段结构从短片段中聚合信息。
4.根据权利要求1所述的基于多流架构与长短时记忆网络的组群行为识别方法,其特征在于,在所述步骤B中,将视频平均分成k段{S1,S2,...,Sk},利用双路TSN网络的公式表示为:
TSN(T1,T2,...,TK)=G(F(T1;W),F(T2;W),...,F(TK;W))
式中,(T1,T2,...,TK)为短片段序列,每一个短片段TK为其对应的段Sk中随机采样得到;F(TK;W)函数表示在短片段TK上进行操作并且具有参数W的卷积网络,提取每个子片段中随机采样的图像的特征;G为结合多个短片段特征的段共识函数。
5.根据权利要求4所述的基于多流架构与长短时记忆网络的组群行为识别方法,其特征在于,在所述步骤B中,结合标准的分类交叉熵损失,得到关于段共识函数G的最终损失函数。
6.根据权利要求5所述的基于多流架构与长短时记忆网络的组群行为识别方法,其特征在于,用标准的反向传播算法联合优化模型参数W。
7.根据权利要求1所述的基于多流架构与长短时记忆网络的组群行为识别方法,其特征在于,在所述步骤D中,将TSN网络与LSTM网络分别进行训练,并将数据集按照3:1的比例进行划分,将数据集中3/4的数据进行训练,1/4的数据进行测试与验证,得出数据集中各类行为的准确率以及平均识别精度。
8.根据权利要求1所述的基于多流架构与长短时记忆网络的组群行为识别方法,其特征在于,所述数据集为CAD数据集或者排球数据集。
CN201910646216.8A 2019-07-17 2019-07-17 基于多流架构与长短时记忆网络的组群行为识别方法 Active CN110516540B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910646216.8A CN110516540B (zh) 2019-07-17 2019-07-17 基于多流架构与长短时记忆网络的组群行为识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910646216.8A CN110516540B (zh) 2019-07-17 2019-07-17 基于多流架构与长短时记忆网络的组群行为识别方法

Publications (2)

Publication Number Publication Date
CN110516540A CN110516540A (zh) 2019-11-29
CN110516540B true CN110516540B (zh) 2022-04-29

Family

ID=68622981

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910646216.8A Active CN110516540B (zh) 2019-07-17 2019-07-17 基于多流架构与长短时记忆网络的组群行为识别方法

Country Status (1)

Country Link
CN (1) CN110516540B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111476408B (zh) * 2020-03-26 2023-07-25 国网江苏省电力有限公司信息通信分公司 一种电力通信设备状态预测方法及系统
CN112686194B (zh) * 2021-01-06 2023-07-18 中山大学 第一人称视角动作识别方法、系统及存储介质
CN113919292B (zh) * 2021-09-29 2024-07-02 北京搜狗科技发展有限公司 一种用于公式识别的模型训练方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108280406A (zh) * 2017-12-30 2018-07-13 广州海昇计算机科技有限公司 一种基于分段双流模型的行为识别方法、系统及装置
CN108647641A (zh) * 2018-05-10 2018-10-12 北京影谱科技股份有限公司 基于双路模型融合的视频行为分割方法和装置
CN109993077A (zh) * 2019-03-18 2019-07-09 南京信息工程大学 一种基于双流网络的行为识别方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108280406A (zh) * 2017-12-30 2018-07-13 广州海昇计算机科技有限公司 一种基于分段双流模型的行为识别方法、系统及装置
CN108647641A (zh) * 2018-05-10 2018-10-12 北京影谱科技股份有限公司 基于双路模型融合的视频行为分割方法和装置
CN109993077A (zh) * 2019-03-18 2019-07-09 南京信息工程大学 一种基于双流网络的行为识别方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
《Detecting evebts and key actors in multi-person video》;Ramanathan V et.al;《Proceeding of CVPR》;20161212;全文 *
《RPAN: An end-to-end recurrent pose-attention network for action recognition in videos》;Wenbin Du et.al;《IEEE international conference on computer vision》;20171225;全文 *
《Temporal segment networks: towards good practices for deep action recognition》;Wang L et.al;《European Conference on Computer Vision》;20160802;全文 *
《TS-LSTM and temporal-inception: Exploiting spatiotemporal dynamics for activity recognition》;Chih-Yao Ma et.al;《Signal processing : Image Communication》;20190228;全文 *
基于多流CNN-LSTM网络的群体情绪识别;卿粼波等;《计算机应用研究》;20180208(第12期);全文 *

Also Published As

Publication number Publication date
CN110516540A (zh) 2019-11-29

Similar Documents

Publication Publication Date Title
CN110472531B (zh) 视频处理方法、装置、电子设备及存储介质
Sun et al. Deep affinity network for multiple object tracking
CN109961034B (zh) 基于卷积门控循环神经单元的视频目标检测方法
Li et al. Tracking in low frame rate video: A cascade particle filter with discriminative observers of different life spans
Cao et al. Large scale crowd analysis based on convolutional neural network
CN110516540B (zh) 基于多流架构与长短时记忆网络的组群行为识别方法
CN112446342B (zh) 关键帧识别模型训练方法、识别方法及装置
Khan et al. Deep cnn based data-driven recognition of cricket batting shots
Zhang et al. Coarse-to-fine object detection in unmanned aerial vehicle imagery using lightweight convolutional neural network and deep motion saliency
Gammulle et al. Multi-level sequence GAN for group activity recognition
CN111339908A (zh) 基于多模态信息融合与决策优化的组群行为识别方法
Imran et al. Deep residual infrared action recognition by integrating local and global spatio-temporal cues
Turaga et al. From videos to verbs: Mining videos for activities using a cascade of dynamical systems
CN115063832A (zh) 一种基于全局与局部特征的对抗学习跨模态行人重识别方法
Elharrouss et al. Drone-SCNet: Scaled cascade network for crowd counting on drone images
Hou et al. Enhancing and dissecting crowd counting by synthetic data
Kumar Crowd behavior monitoring and analysis in surveillance applications: a survey
Wang et al. Deep learning for scene-independent crowd analysis
Zhang et al. DSNet: A vehicle density estimation network based on multi-scale sensing of vehicle density in video images
Ding et al. A systematic survey of data mining and big data in human behavior analysis: Current datasets and models
Ke et al. Prediction algorithm and simulation of tennis impact area based on semantic analysis of prior knowledge
CN113920470B (zh) 一种基于自注意力机制的行人检索方法
Zhang et al. A scale adaptive network for crowd counting
CN112883868B (zh) 一种基于关系建模的弱监督视频动作定位模型的训练方法
US20220207366A1 (en) Action-Actor Detection with Graph Neural Networks from Spatiotemporal Tracking Data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant