CN111709306B - 基于多层次时空特征融合增强的双流网络行为识别方法 - Google Patents

基于多层次时空特征融合增强的双流网络行为识别方法 Download PDF

Info

Publication number
CN111709306B
CN111709306B CN202010441559.3A CN202010441559A CN111709306B CN 111709306 B CN111709306 B CN 111709306B CN 202010441559 A CN202010441559 A CN 202010441559A CN 111709306 B CN111709306 B CN 111709306B
Authority
CN
China
Prior art keywords
network
space
features
time
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010441559.3A
Other languages
English (en)
Other versions
CN111709306A (zh
Inventor
孔军
王圣全
蒋敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangnan University
Original Assignee
Jiangnan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangnan University filed Critical Jiangnan University
Priority to CN202010441559.3A priority Critical patent/CN111709306B/zh
Publication of CN111709306A publication Critical patent/CN111709306A/zh
Application granted granted Critical
Publication of CN111709306B publication Critical patent/CN111709306B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/254Fusion techniques of classification results, e.g. of results related to same input data
    • G06F18/256Fusion techniques of classification results, e.g. of results related to same input data of results relating to different input data, e.g. multimodal recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

一种基于多层次时空特征融合增强的双流网络行为识别方法。该方法采用了一种基于时空双流网络的网络架构,称作多层次时空特征融合增强网络。针对传统双流网络仅仅在最后层融合两个流的类别概率分布导致浅层特征的作用被忽视以及双流网络的互补特点无法被充分利用的问题,本发明提出多层次时空特征融合模块,在双流不同深度层级通过时空特征融合模块捕获多深度级别的混合特征以充分利用双流网络。此外,在网络中,平等地对待所有特征会削弱那些对分类贡献大的特征的作用。本发明在网络中提出分组增强注意力模块,自动增强特征上的有效区域以及通道的显著性。最终本发明通过汇集双流网络以及特征融合的分类结果,进一步提高了行为识别模型的鲁棒性。

Description

基于多层次时空特征融合增强的双流网络行为识别方法
技术领域
本发明属于机器视觉领域,特别涉及一种基于多层次时空特征融合增强的双流网络行为识别方法。
背景技术
动作识别已成为计算机视觉界的活跃领域,并广泛应用于视频监视,暴力检测,人机交互等各个领域。视频动作识别是为了挖掘可以表达视频所代表的目标动作的关键特征,相比于静态图像,它包含了丰富的运动信息,然而动作场景的多样性仍使得有效特征的提取具有挑战性。因此,本发明以视频为研究对象,针对网络提取视频中的空间和时间特征所面临的问题,提出独特的特征融合方法和注意力方法来有效地提取辨别性特征用于行为识别。
目前,面向视频的行为识别主要使用双流网络,并且发展趋势十分良好。在双流网络中,双流架构通过在外观上和光流堆上分别训练各自的卷积网络来捕获外观信息和运动信息,最后使用分数融合两个卷积网络的分类结果。但是传统双流网络仍旧面临以下问题:(1)如何有效利用两个流分别捕获的信息?(2)网络中平等的对待特征的每个区域与通道会削弱那些对分类有用的区域与通道的作用,如何有效地对捕获特征进行提炼?(3)如何有效地融合获取的空间信息和时间信息?
基于以上考虑,本发明提出一个基于多层次时空特征融合增强的双流网络行为识别方法。首先,使用提出的时空特征融合模块对双流网络不同深度层模块的特征进行融合来提取多深度级别混合特征。其次,利用提出的分组增强注意力模块对提取的混合特征进一步提炼,使网络自动关注特征中对于分类有作用的区域与通道。
发明内容
本发明的主要目的是提出一种基于多层次时空特征融合增强的双流网络(Multiple depth-levels feature fusion enhanced Network,MDFFEN)行为识别方法,更好地获取视频的有效特征以及特征上的辨别性信息,以进行高效的行为识别。
为了实现上述目的,本发明提供如下技术方案:
一种基于多层次时空特征融合增强的双流网络行为识别方法,步骤如下:
步骤一、获取RGB帧:对于数据集中的每个视频进行取帧处理,获得RGB原始帧
Figure GDA0004085207380000021
N为帧数;
步骤二、计算光流图:应用TVL1[Coloma Ballester,Lluis Garrido,VanelLazcano,and VicentCaselles.Atv-l1 optical flow method with occlusion detection.In JointDagm,2013.]算法对RGB原始帧frgb两两进行计算得到光流图
Figure GDA0004085207380000022
步骤三、对提取的所有RGB帧与光流图分段:将步骤一、步骤二获取的所有RGB帧与光流图平均分成三段
Figure GDA0004085207380000023
每段时序上连续,且任意两段间不重叠。
步骤四、从srgb中每段分别随机获取RGB帧构建空间网络的输入:
Figure GDA0004085207380000024
其中/>
Figure GDA0004085207380000025
步骤五、从sopt中每段分别随机获取多张光流图构建时间的网络输入:
Figure GDA0004085207380000026
其中/>
Figure GDA0004085207380000027
步骤六、基于空间网络Ns计算空间类别概率分布OS:将步骤四构建的空间网络的输入
Figure GDA0004085207380000028
分别送入空间网络Ns提取特征,空间网络Ns基于InceptionV3[2]网络构建,再经过全局平均池化操作和全连接操作得到空间类别概率分布/>
Figure GDA0004085207380000031
其中
Figure GDA0004085207380000032
表示步骤三的第i个RGB帧分段RGBi对应的空间类别概率分布;
步骤七、基于时间网络Nt计算时间类别概率分布OT:将步骤五构建的时间网络的输入
Figure GDA0004085207380000033
分别送入时间网络Nt提取特征,时间网络Nt基于InceptionV3[ChristianSzegedy,Vincent Vanhoucke,Sergey Ioffe,Jonathon Shlens,and ZbigniewWojna.Rethinking the inception architecture for computervision.In ComputerVision&Pattern Recognition,2016.]网络构建,再经过全局平均池化操作和全连接操作得到时间类别概率分布/>
Figure GDA0004085207380000034
其中/>
Figure GDA0004085207380000035
表示步骤三中第i个光流图分段OPTi对应的时间类别概率;
步骤八、基于双流融合网络NTSFF计算特征融合类别概率分布OF:使用多层次时空特征融合模块将时空特征融合模块STFF分别嵌入至空间网络Ns和时间网络Nt的InceptionV3的多个子模块中以融合提取多深度级别混合特征,然后通过分组增强注意力模块对提取的特征进一步提炼,最后通过全局平均池化操作和全连接操作得到特征融合类别概率分布
Figure GDA0004085207380000036
其中/>
Figure GDA0004085207380000037
表示步骤三的第i个RGB帧分段RGBi和第i个光流图分段OPTi对应的特征融合类别概率分布;
步骤九、计算多段融合的类别概率分布:根据步骤六、步骤七和步骤八得到的多段类别概率分布
Figure GDA0004085207380000038
与/>
Figure GDA0004085207380000039
通过三段平均值得到多段融合的类别概率分布/>
Figure GDA00040852073800000310
步骤十、计算三个流加权融合的类别概率分布δ:在双流网络的基础上融合步骤九得到的多段融合的空间类别概率分布δs、多段融合的时间类别概率分布δt和多段融合的特征融合类别概率分布δf,本发明使用加权平均融合方法。
步骤十一、计算最终分类结果P:P=argmax(δ),其中argmax(δ)为计算δ向量中最大值的索引值,即计算所有行为类别中类别概率分布最高的类别。
与现有的技术相比,本发明具有以下有益效果:
1.通过步骤八构建的双流特征融合网络,在双流的不同深度层进行特征融合获取多深度级别的时空混合特征,充分利用了浅层特征以及双流互补的特点。
2.步骤八构建的双流特征融合网络提出了分组增强注意力模块对提取的混合特征进行进一步提炼局部信息以及全局信息,有效提升了行为识别精度。
附图说明
图1为本发明的算法流程图;
图2为本发明的算法模型图;
图3为双流特征融合网络NTSFF图;
图4为时空特征融合图;
图5为分组增强注意力模块。
具体实施方式
图2为本发明的整体模型图;
图2表示本发明的算法模型图。算法以多段RGB图像与光流图为输入,模型包括空间网络,时间网络,特征融合网络,多段类别概率分布融合及多流类别概率分布融合五个关键部分。空间网络和时间网络均基于InceptionV3构建的,而特征融合网络是通过空间网络和时间网络构建的,简单来说使用提出的多层次时空特征融合模块以融合不同深度级别的时空混合特征,其中时空混合特征是利用提出的时空特征融合模块融合分别从空间网络和时间网络提取的特征,然后通过提出的分组增强注意力模块以进一步提炼多深度级别混合特征,同空间网络和时间网络一样,使用全局平均池化与全连接操作获得特征融合类别概率分布。然后将每个流的三个分段输入提取的对应的类别概率分布进行融合获取对应流的多段融合类别概率分布,最终,采用加权平均方法融合三个流对应的多段融合类别概率分布。
为了对本发明进行更好的说明,下面以公开的行为数据集UCF101为例进行阐述。
上述技术方案中步骤四中从srgb中每段分别随机获取RGB帧的具体方法为:
从步骤三中获得的第i段RGB帧序列RGBi的随机位置获取连续的Ls张RGB帧得到
Figure GDA0004085207380000051
其中Ls在本示例中为1。
上述技术方案中步骤五中从sopt中每段分别随机获取多张光流图的具体方法为:
从步骤三获得的第i段多张光流图OPTi的随机位置开始获取连续的Lt张光流图得到
Figure GDA0004085207380000052
其中Lt在本示例中为5。
上述技术方案中步骤八中双流特征融合方法具体为:
传统的双流网络行为识别方法通常是在最后层融合类别概率分布。由于常规特征融合在最终层融合最深层次的特征,浅层的特征对于分类的作用常常被忽视。因此本发明提出多层次时空特征融合模块。具体实现如图3所示。与传统方法不同的是,本发明提出的多层次时空特征融合模块考虑了深度网络的浅层特征,以捕获具有多个深度级别的混合特征。此外,本发明提出了分组增强注意力模块以进一步优化从多层次时空特征融合模块中提取的混合特征。最后,类别概率分布是通过完全连接层FC对特征向量的操作生成的,其中特征向量是通过全局平均池化操作对特征图进行汇总生成的。双流特征融合的全过程从形式上写成如下公式:
Figure GDA0004085207380000061
其中MMDFF(·,·)表示多层次时空特征融合模块,MGSCE(·)表示分组增强注意力模块的输出特征。FC表示完全连接操作,GAP表示全局平均池化操作。
上述技术方案中步骤八中应用的多层次时空特征融合方法为:
InceptionV3由11个串联的子模块组成,分别为Inc.1-Inc.11,可以从中提取不同的深度级别特征。为了进一步提升InceptionV3网络的分类能力,本发明将时空特征融合模块STFF嵌入至空间网络和时间网络的各个子模块中,以捕获具有不同深度层次的新颖特征。本实例选择最后四个子模块,即从Inc.8到Inc.11的子模块,在具体应用中子模块的选择可以根据实际应用进行调整。通过将网络的多个深度的子模块生成的所有混合时空特征进行级联,从而获取具有多个深度级别的抽象卷积混合时空特征。多层次时空特征融合模块MMDFF(·,·)的流程如下式所示:
Figure GDA0004085207380000062
其中MSTFF(·,·)表示时空特征融合模块。
Figure GDA0004085207380000063
和/>
Figure GDA0004085207380000064
分别表示将/>
Figure GDA0004085207380000065
和/>
Figure GDA0004085207380000066
送入空间网络和时间网络并从其中的inc.j模块中提取的特征。从Inc.8到Inc.11生成的混合特征的级联由/>
Figure GDA0004085207380000067
表示。Conv(·)表示卷积运算,本实例使用2048个内核大小为3*3的卷积滤波器,以从具有不同深度级别的混合特征中进一步提取抽象特征,同时获得的特征的通道数将转变为2048。
上述技术方案中步骤八中时空特征融合模块STFF的具体构建方法为:
时空特征融合模块的输出特征是由三种类型的特征(即初步混合时空特征,空间特征和时间特征)融合而成。
图4为时空特征融合模块。每个方框上的标识表示特征图的名称以及特征图的大小。
Figure GDA0004085207380000071
表示逐元素求和运算,NFilter是卷积滤波器的数量。
如图4中详细介绍的那样,首先通过逐元素求和与卷积运算将从空间网络中子模块提取的空间特征与从时间网络子模块中提取的时间特征进行融合,以获得初级的混合抽象特征。通过忽略等式(2)中的上标i和下标inc.j,可以将
Figure GDA0004085207380000072
和/>
Figure GDA0004085207380000073
书写为/>
Figure GDA0004085207380000074
和/>
Figure GDA0004085207380000075
以便于表达,其中C,H和W分别表示特征图的通道数、高度和宽度。然后,将初步混合抽象特征F正式表示为以下公式:
Figure GDA0004085207380000076
其中Ψk,n表示卷积核大小为k及过滤器数目为n的ReLU(BN(Conv(·)))操作序列,其中ReLU和BN分别表示ReLU激活函数和批量归一化操作,Conv(·)表示卷积运算。另外,为了进一步抑制无效信息并提取有效信息,本发明提出特征提取器MFE(·)。MFE(·)由两个具有不同过滤器数目n的Ψ3*3,n运算组成,其中第一个的过滤器数目是输入通道数C的一半,而另一个与输入通道数相同。然后通过特征提取器MFE(·),将所有三种类型(空间特征S,时间特征T和初级时空混合特征F)的特征进一步独立提取非线性抽象特征。特征提取器MFE(·)的详细过程表示为以下公式:
MFE(Z)=ZFE2=Ψ3*3,C(ZFE1) (4)
Figure GDA0004085207380000077
其中Z∈{S,T,F}表示MFE(·)的输入特征,S,T,F分别表示空间特征,时间特征和初级时空混合特征。
然后,将通过特征提取器MFE(·)提炼的空间特征SFE2和时间特征TFE2分别与提炼过的混合特征FFE2融合,以获得更深层次的融合特征FS和FT,如下所示:
FS=Φ(SFE2,FFE2) (6)
FT=Φ(TFE2,FFE2) (7)
此处的Φ(·,·)与公式(3)相同。
最后,通过Φ(·,·)运算将FS和FT融合,得到时空特征融合模块STFF的最终混合时空特征:
MSTFF(S,T)=Φ(FS,FT) (8)
上述技术方案中步骤八中分组增强注意力模块具体如下:
为了通过全局和局部信息获取更有效的时空特征,本发明构建了分组增强注意力模块以进一步完善混合特征。图5展示了模块的详细结构。模块中的两个注意力模块的连接是并行的,这使得该模块可以同时提取空间信息和时间信息。
图5为分组增强注意力模块。组级空间注意模块用于挖掘感兴趣的各个局部区域,而通道关注模块则用于捕获通道维度中的全局响应。然后将它们连接,通过与原输入特征图逐元素相乘来增强空间显著性和通道显著性。最后,利用残差连接来减小梯度消失的可能。图中GAP和GMP表示全局平均池化操作和全局最大池化操作。它们都分别在空间注意模块中的空间维度和通道注意模块中的时间维度上操作。
与SGE[Xiang Li,Xiaolin Hu,and Jian Yang.Spatial group-wise enhance:Enhancing semantic feature learning in convolutional networks.2019.]模块类似,本发明以捕获空间特征与通道特征间的响应为目标,即包含全局特征和每个分组中局部特征之间的相似性。因此,本发明将分组策略引入到空间注意力(SA)模块中,从而生成组级空间注意力(GSA)模块,该模块可用于捕获局部信息,以对通道注意力(CA)模块提取的全局信息进行补充。此处提及的SA模块和CA模块在CBAM[Sanghyun Woo,Jongchan Park,Joon-Young Lee,and In So Kweon.Cbam:Convolutional block attention module.2018.]中进行了详细说明。形式上将输入特征图定义为
Figure GDA0004085207380000091
本发明通过GSA模块和CA模块获取空间注意/>
Figure GDA0004085207380000092
和通道响应/>
Figure GDA0004085207380000093
进一步通过
Figure GDA0004085207380000094
操作分配融合的权重/>
Figure GDA0004085207380000095
来细化原始输入特征Q。此外,为了降低梯度消失的可能性并加快训练进度,本发明还引入了注意力残差,即通过
Figure GDA0004085207380000096
操作直接建立了Q和最终提炼后的特征之间的连接。最后,分组增强注意力模块输出的显著性增强特征/>
Figure GDA0004085207380000097
的生成过程如下式(9)所示。
Figure GDA0004085207380000098
Figure GDA0004085207380000099
表示逐元素乘法,其中MC(Q)和MGS(Q)之间的/>
Figure GDA00040852073800000910
操作包含广播操作,该操作在逐元素乘法运算时自动将MC(Q)的大小C*1*1转换为与MGS(Q)的大小C*H*W一致。
上述技术方案中步骤八中组级空间注意力GSA模块的构建方法如下:
一般注意力模块输入的完整特征由以组的形式分布在特征的多个通道中的子特征组成。而且这些子特征以相同的方式处理,因此很可能会带来背景噪声的影响,很容易导致错误的识别和定位结果。考虑到这一点,本发明提出了一个组级空间注意力GSA模块,用于在从原始特征图划分的每个独立组中生成局部空间响应。即通过分组策略将输入特征图Q划分为
Figure GDA00040852073800000911
其中/>
Figure GDA00040852073800000912
表示组号为l的特征图组。G表示划分的总组数,在本实例中为16。它通过有针对性的学习和噪声抑制有效地从子特征中捕获信息。然后利用SA模块得到组l的局部空间响应/>
Figure GDA00040852073800000913
其中SA模块在CBAM[Sanghyun Woo,Jongchan Park,Joon-Young Lee,and In So Kweon.Cbam:Convolutional blockattention module.2018.]中进行了详细说明。最后,组级空间注意力模块的输出响应
Figure GDA0004085207380000101
的生成如下式所示:
Figure GDA0004085207380000102
其中Expand(·)操作表示将特征在通道维度上重复
Figure GDA0004085207380000103
次。
上述技术方案中步骤十中空间类别概率分布、时间类别概率分布和特征融合类别概率分布融合方法为:
本发明使用加权平均融合方法,即δ=δs*wst*wtf*wf,ws,wt,wf分别表示空间流,时间流和特征融合流的权重,其三个流默认的融合权重分别是0.4、2.7、2.4,可根据实际应用需要调整融合权重。
为验证本发明的准确性和鲁棒性,本发明在公开的UCF101和HMDB51数据集上进行了实验。
UCF101是典型的有挑战性的人类动作识别数据集,它包含从YouTube视频网站收集的13320个分辨率为320*240的视频。它总共包含101个动作类别,其中每个类别包含25个人。UCF101数据集在运动获取方面具有很大的多样性,包括相机操作,外观变化,姿态变化,物体比例变化,背景变化,光线变化等。101种动作可以大致分为五类:人与物的交互,人与人的交互,人与人的交互,乐器演奏和运动。
HMDB51数据集包含6849个320*240分辨率的视频样本,它由51个类别组成,其中每个类别至少包含101个样本。大多数视频来自电影,一些来自公共数据集或在线视频库(例如YouTube)。操作类别可以分为五种类型:一般的面部动作,面部动作和对象操纵,一般的身体动作,身体动作和对象互动,人类动作。背景混乱和光线条件的变化使识别视频所代表的目标动作非常具有挑战性。
表1是两个数据集在实验中的各个参数设置:
表1数据库实验参数设置
Figure GDA0004085207380000111
表2为本发明提出的方法MDFFEN在UCF101和HMDB51数据集上的测试结果,本发明在这两个数据集上都取得了较高的识别率。尽管这两个数据集存在着遮挡,变形,背景混乱,低分辨率等困难,但本发明提出的方法对这些困难具有很好的鲁棒性,因此表现相对较好。
表2在UCF101和HMDB51上的识别率
数据集 UCF101 HMDB51
MDFFEN 95.3% 71.6%
本发明主要提出了两个机制,多层次时空特征融合以及分组增强注意力。从表3中可以看出,针对UCF101数据集,单纯使用双流网络的精度达到93.61%。在基础网络中添加多层次时空特征融合,精度提升至94.63%。在此基础上再加入分组增强注意力,精度进一步提升至95.31%。实验结果显示多层次时空特征融合方法有效提取了多深度级别混合特征,分组增强注意力进一步提起了混合特征中的辨别性特征,这两种机制都对行为识别的性能有好的影响,有效提高识别精度。
表3在UCF101数据集上两个机制的影响
Figure GDA0004085207380000112
上面结合附图对本发明的具体实施方式做了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下做出各种变化。

Claims (7)

1.一种基于多层次时空特征融合增强的双流网络行为识别方法,其特征在于,步骤如下:
步骤一、获取RGB帧:对于数据集中的每个视频进行取帧处理,获得RGB原始帧
Figure FDA0004085207360000011
N为帧数;
步骤二、计算光流图:应用TVL1算法对RGB原始帧frgb两两进行计算得到光流图
Figure FDA0004085207360000012
步骤三、对提取的所有RGB帧与光流图分段:将步骤一、步骤二获取的所有RGB帧与光流图平均分成三段
Figure FDA0004085207360000013
每段时序上连续,且任意两段间不重叠;
步骤四、从srgb中每段分别随机获取RGB帧构建空间网络的输入:
Figure FDA0004085207360000014
其中/>
Figure FDA0004085207360000015
步骤五、从sopt中每段分别随机获取多张光流图构建时间的网络输入:
Figure FDA0004085207360000016
其中/>
Figure FDA0004085207360000017
步骤六、基于空间网络Ns计算空间类别概率分布OS:将步骤四构建的空间网络的输入
Figure FDA0004085207360000018
分别送入空间网络Ns提取特征,空间网络Ns基于InceptionV3网络构建,再经过全局平均池化操作和全连接操作得到空间类别概率分布/>
Figure FDA0004085207360000019
其中/>
Figure FDA00040852073600000110
表示步骤三的第i个RGB帧分段RGBi对应的空间类别概率分布;
步骤七、基于时间网络Nt计算时间类别概率分布OT:将步骤五构建的时间网络的输入
Figure FDA00040852073600000111
分别送入时间网络Nt提取特征,时间网络Nt基于InceptionV3网络构建,再经过全局平均池化操作和全连接操作得到时间类别概率分布/>
Figure FDA00040852073600000112
其中/>
Figure FDA00040852073600000113
表示步骤三中第i个光流图分段OPTi对应的时间类别概率;
步骤八、基于双流融合网络NTSFF计算特征融合类别概率分布OF:使用多层次时空特征融合模块将时空特征融合模块STFF分别嵌入至空间网络Ns和时间网络Nt的InceptionV3的多个子模块中以融合提取多深度级别混合特征,然后通过分组增强注意力模块对提取的特征提炼,最后通过全局平均池化操作和全连接操作得到特征融合类别概率分布
Figure FDA0004085207360000021
其中/>
Figure FDA0004085207360000022
表示步骤三的第i个RGB帧分段RGBi和第i个光流图分段OPTi对应的特征融合类别概率分布;
步骤九、计算多段融合的类别概率分布:根据步骤六、步骤七和步骤八得到的多段类别概率分布
Figure FDA0004085207360000023
与/>
Figure FDA0004085207360000024
通过三段平均值得到多段融合的类别概率分布/>
Figure FDA0004085207360000025
步骤十、计算三个流加权融合的类别概率分布δ:在双流网络的基础上融合步骤九得到的多段融合的空间类别概率分布δs、多段融合的时间类别概率分布δt和多段融合的特征融合类别概率分布δf,采用加权平均融合方法计算类别概率分布δ;
步骤十一、计算最终分类结果P:P=argmax(δ),其中argmax(δ)为计算δ向量中最大值的索引值,该索引值为计算所有行为类别中类别概率分布最高的类别。
2.根据权利要求1所述的一种基于多层次时空特征融合增强的双流网络行为识别方法,其特征在于,完成双流网络行为识别方法的模型包括空间网络、时间网络、特征融合网络、多段类别概率分布融合和多流类别概率分布融合;空间网络和时间网络均是基于InceptionV3构建的,而特征融合网络是通过空间网络和时间网络构建的;使用多层次时空特征融合模块以融合不同深度级别的时空混合特征,其中时空混合特征是利用时空特征融合模块融合分别从空间网络和时间网络提取的特征,然后通过分组增强注意力模块提炼多深度级别混合特征,同空间网络和时间网络一样,使用全局平均池化与全连接操作获得特征融合类别概率分布;然后将每个流的三个分段输入提取的对应的类别概率分布进行融合,获取对应流的多段融合类别概率分布,最终,采用加权平均方法融合三个流对应的多段融合类别概率分布。
3.根据权利要求1所述的一种基于多层次时空特征融合增强的双流网络行为识别方法,其特征在于,所述步骤八的全过程从形式上写成如下公式:
Figure FDA0004085207360000031
其中MMDFF(·,·)表示多层次时空特征融合模块,MGSCE(·)表示分组增强注意力模块的输出特征;FC表示完全连接操作,GAP表示全局平均池化操作。
4.根据权利要求3所述的一种基于多层次时空特征融合增强的双流网络行为识别方法,其特征在于,所述步骤八中应用的多层次时空特征融合方法为:InceptionV3由j个串联的子模块组成,分别为Inc.1-Inc.j,能够从中提取不同的深度级别特征;将时空特征融合模块STFF嵌入至空间网络和时间网络的各个子模块中,以捕获具有不同深度层次的新颖特征;通过将网络的多个深度的子模块生成的所有混合时空特征进行级联,从而获取具有多个深度级别的抽象卷积混合时空特征;多层次时空特征融合模块MMDFF(·,·)的流程如下式所示:
Figure FDA0004085207360000032
其中MSTFF(·,·)表示时空特征融合模块;
Figure FDA0004085207360000033
和/>
Figure FDA0004085207360000034
分别表示将/>
Figure FDA0004085207360000035
和/>
Figure FDA0004085207360000036
送入空间网络和时间网络并从其中的inc.j模块中提取的特征;/>
Figure FDA0004085207360000037
表示从inc.l1到inc.l2生成的混合特征的级联;Conv(·)表示卷积运算。
5.根据权利要求4所述的一种基于多层次时空特征融合增强的双流网络行为识别方法,其特征在于,时空特征融合模块的输出特征是由初步混合时空特征、空间特征和时间特征三种类型的特征融合而成;时空特征融合模块的具体过程为:首先通过逐元素求和与卷积运算将从空间网络中子模块提取的空间特征与从时间网络子模块中提取的时间特征进行融合,以获得初级的混合抽象特征;通过忽略等式(2)中的上标i和下标inc.j,将
Figure FDA0004085207360000041
Figure FDA0004085207360000042
书写为/>
Figure FDA0004085207360000043
和/>
Figure FDA0004085207360000044
以便于表达,其中C,H和W分别表示特征图的通道数、高度和宽度;然后,将初步混合抽象特征F正式表示为以下公式:
Figure FDA0004085207360000045
其中Ψk,n表示卷积核大小为k及过滤器数目为n的ReLU(BN(Conv(·)))操作序列,其中ReLU和BN分别表示ReLU激活函数和批量归一化操作,Conv(·)表示卷积运算,⊕表示逐元素求和运算;
为了抑制无效信息并提取有效信息,采用特征提取器MFE(·);MFE(·)由两个具有不同过滤器数目n的Ψ3*3,n运算组成,其中第一个的过滤器数目是输入通道数C的一半,而另一个与输入通道数相同;然后通过特征提取器MFE(·),将所有空间特征S、时间特征T和初级时空混合特征F独立提取非线性抽象特征;特征提取器MFE(·)的详细过程表示为以下公式:
MFE(Z)=ZFE2=Ψ3*3,C(ZFE1) (4)
Figure FDA0004085207360000046
其中Z∈{S,T,F}表示MFE(·)的输入特征,S,T,F分别表示空间特征、时间特征和初级时空混合特征;
然后,将通过特征提取器MFE(·)提炼的空间特征SFE2和时间特征TFE2分别与提炼过的混合特征FFE2融合,以获得更深层次的融合特征FS和FT,如下所示:
FS=Φ(SFE2,FFE2) (6)
FT=Φ(TFE2,FFE2) (7)
此处的Φ(·,·)与公式(3)相同;
最后,通过Φ(·,·)运算将FS和FT融合,得到时空特征融合模块STFF的最终混合时空特征:
MSTFF(S,T)=Φ(FS,FT) (8)。
6.根据权利要求1所述的一种基于多层次时空特征融合增强的双流网络行为识别方法,其特征在于,所述步骤八中分组增强注意力模块包括组级空间注意模块和通道关注模块,两个注意力模块的连接是并行的;组级空间注意模块用于挖掘感兴趣的各个局部区域,而通道关注模块则用于捕获通道维度中的全局响应;将两个注意力模块连接,通过与原输入特征图逐元素相乘来增强空间显著性和通道显著性;最后,利用残差连接来减小梯度消失的可能;其中,全局平均池化操作GAP和全局最大池化操作GMP分别在空间注意模块中的空间维度和通道注意模块中的时间维度上操作;具体如下:
将分组策略引入到空间注意力SA模块中,从而生成组级空间注意力GSA模块,该模块用于捕获局部信息,以对通道注意力CA模块提取的全局信息进行补充;SA模块和CA模块形式上将输入特征图定义为
Figure FDA0004085207360000051
通过GSA模块和CA模块获取空间注意/>
Figure FDA0004085207360000052
和通道响应/>
Figure FDA0004085207360000053
通过
Figure FDA0004085207360000054
操作分配融合的权重/>
Figure FDA0004085207360000055
来细化原始输入特征Q;引入注意力残差,通过/>
Figure FDA0004085207360000056
操作直接建立Q和最终提炼后的特征之间的连接;最后,分组增强注意力模块输出的显著性增强特征/>
Figure FDA0004085207360000057
的生成过程如下式(9)所示;
Figure FDA0004085207360000058
其中,
Figure FDA0004085207360000059
表示逐元素乘法,其中MC(Q)和MGS(Q)之间的/>
Figure FDA00040852073600000510
操作包含广播操作,该操作在逐元素乘法运算时自动将MC(Q)的大小C*1*1转换为与MGS(Q)的大小C*H*W一致。
7.根据权利要求6所述的一种基于多层次时空特征融合增强的双流网络行为识别方法,其特征在于,组级空间注意力GSA模块的构建方法:组级空间注意力GSA模块,用于在从原始特征图划分的每个独立组中生成局部空间响应;通过分组策略将输入特征图Q划分为
Figure FDA0004085207360000061
其中/>
Figure FDA0004085207360000062
表示组号为l的特征图组;G表示划分的总组数,它通过有针对性的学习和噪声抑制有效地从子特征中捕获信息;然后利用SA模块得到组l的局部空间响应/>
Figure FDA0004085207360000063
最后,组级空间注意力模块的输出响应/>
Figure FDA0004085207360000064
的生成如下式所示:
Figure FDA0004085207360000065
其中Expand(·)操作表示将特征在通道维度上重复
Figure FDA0004085207360000066
次。/>
CN202010441559.3A 2020-05-22 2020-05-22 基于多层次时空特征融合增强的双流网络行为识别方法 Active CN111709306B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010441559.3A CN111709306B (zh) 2020-05-22 2020-05-22 基于多层次时空特征融合增强的双流网络行为识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010441559.3A CN111709306B (zh) 2020-05-22 2020-05-22 基于多层次时空特征融合增强的双流网络行为识别方法

Publications (2)

Publication Number Publication Date
CN111709306A CN111709306A (zh) 2020-09-25
CN111709306B true CN111709306B (zh) 2023-06-09

Family

ID=72537459

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010441559.3A Active CN111709306B (zh) 2020-05-22 2020-05-22 基于多层次时空特征融合增强的双流网络行为识别方法

Country Status (1)

Country Link
CN (1) CN111709306B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112489092B (zh) * 2020-12-09 2023-10-31 浙江中控技术股份有限公司 细粒度工业运动模态分类方法、存储介质、设备和装置
CN112712124B (zh) * 2020-12-31 2021-12-10 山东奥邦交通设施工程有限公司 一种基于深度学习的多模块协同物体识别系统及方法
CN112381072B (zh) * 2021-01-11 2021-05-25 西南交通大学 一种基于时空信息及人、物交互的人体异常行为检测方法
CN113066022B (zh) * 2021-03-17 2022-08-16 天津大学 一种基于高效时空信息融合的视频比特增强方法
CN113111822B (zh) * 2021-04-22 2024-02-09 深圳集智数字科技有限公司 用于拥堵识别的视频处理方法、装置与电子设备
CN113393521B (zh) * 2021-05-19 2023-05-05 中国科学院声学研究所南海研究站 一种基于双语义注意力机制的高精度火焰定位方法及系统
CN114677704B (zh) * 2022-02-23 2024-03-26 西北大学 一种基于三维卷积的时空特征多层次融合的行为识别方法
CN115348215B (zh) * 2022-07-25 2023-11-24 南京信息工程大学 一种基于时空注意力机制的加密网络流量分类方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110188239B (zh) * 2018-12-26 2021-06-22 北京大学 一种基于跨模态注意力机制的双流视频分类方法和装置
CN109993077A (zh) * 2019-03-18 2019-07-09 南京信息工程大学 一种基于双流网络的行为识别方法
CN110119703B (zh) * 2019-05-07 2022-10-04 福州大学 一种安防场景下融合注意力机制和时空图卷积神经网络的人体动作识别方法
CN110569773B (zh) * 2019-08-30 2020-12-15 江南大学 基于时空显著性行为注意力的双流网络行为识别方法

Also Published As

Publication number Publication date
CN111709306A (zh) 2020-09-25

Similar Documents

Publication Publication Date Title
CN111709306B (zh) 基于多层次时空特征融合增强的双流网络行为识别方法
Zhuge et al. Salient object detection via integrity learning
Liu et al. SwinNet: Swin transformer drives edge-aware RGB-D and RGB-T salient object detection
Qian et al. Thinking in frequency: Face forgery detection by mining frequency-aware clues
Shao et al. Temporal interlacing network
Nguyen et al. A neural network based on SPD manifold learning for skeleton-based hand gesture recognition
Li et al. Selective kernel networks
Kim et al. Fully deep blind image quality predictor
Gao et al. MSCFNet: A lightweight network with multi-scale context fusion for real-time semantic segmentation
Wang et al. NAS-guided lightweight multiscale attention fusion network for hyperspectral image classification
Li et al. Micro-expression action unit detection with spatial and channel attention
Huang et al. Multi-level cross-modal interaction network for RGB-D salient object detection
Fang et al. Deep3DSaliency: Deep stereoscopic video saliency detection model by 3D convolutional networks
CN111242181B (zh) 基于图像语义和细节的rgb-d显著性物体检测器
CN113343950B (zh) 一种基于多特征融合的视频行为识别方法
Jia et al. Stacked denoising tensor auto-encoder for action recognition with spatiotemporal corruptions
Pan et al. No-reference image quality assessment via multibranch convolutional neural networks
Liu et al. APSNet: Toward adaptive point sampling for efficient 3D action recognition
Li et al. ConvTransNet: A CNN-transformer network for change detection with multi-scale global-local representations
Zhao et al. Alignment-guided temporal attention for video action recognition
Shi et al. A pooling-based feature pyramid network for salient object detection
Huang et al. Region-based non-local operation for video classification
Zhai et al. Exploring figure-ground assignment mechanism in perceptual organization
Ning et al. Enhancement, integration, expansion: Activating representation of detailed features for occluded person re-identification
Yin et al. Dynamic difference learning with spatio-temporal correlation for deepfake video detection

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant