CN111709306B - 基于多层次时空特征融合增强的双流网络行为识别方法 - Google Patents
基于多层次时空特征融合增强的双流网络行为识别方法 Download PDFInfo
- Publication number
- CN111709306B CN111709306B CN202010441559.3A CN202010441559A CN111709306B CN 111709306 B CN111709306 B CN 111709306B CN 202010441559 A CN202010441559 A CN 202010441559A CN 111709306 B CN111709306 B CN 111709306B
- Authority
- CN
- China
- Prior art keywords
- network
- space
- features
- time
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000004927 fusion Effects 0.000 title claims abstract description 95
- 238000000034 method Methods 0.000 title claims abstract description 34
- 238000009826 distribution Methods 0.000 claims abstract description 51
- 230000002123 temporal effect Effects 0.000 claims description 23
- 238000011176 pooling Methods 0.000 claims description 15
- 238000010586 diagram Methods 0.000 claims description 14
- 230000003287 optical effect Effects 0.000 claims description 14
- 230000004044 response Effects 0.000 claims description 9
- 238000010276 construction Methods 0.000 claims description 7
- 238000007500 overflow downdraw method Methods 0.000 claims description 7
- 239000000284 extract Substances 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 4
- 239000013598 vector Substances 0.000 claims description 4
- 101100194606 Mus musculus Rfxank gene Proteins 0.000 claims description 2
- 230000004913 activation Effects 0.000 claims description 2
- 230000008033 biological extinction Effects 0.000 claims description 2
- 230000006870 function Effects 0.000 claims description 2
- 238000010606 normalization Methods 0.000 claims description 2
- 238000012545 processing Methods 0.000 claims description 2
- 230000011218 segmentation Effects 0.000 claims description 2
- 239000013589 supplement Substances 0.000 claims description 2
- 230000001629 suppression Effects 0.000 claims description 2
- 230000006735 deficit Effects 0.000 claims 1
- 230000002708 enhancing effect Effects 0.000 claims 1
- 238000005065 mining Methods 0.000 claims 1
- 230000000694 effects Effects 0.000 abstract description 5
- 230000000295 complement effect Effects 0.000 abstract description 2
- 230000033001 locomotion Effects 0.000 description 14
- 230000009471 action Effects 0.000 description 4
- 230000003993 interaction Effects 0.000 description 4
- 230000007246 mechanism Effects 0.000 description 3
- 238000001514 detection method Methods 0.000 description 2
- 230000009977 dual effect Effects 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 230000001815 facial effect Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 241001351225 Sergey Species 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000007670 refining Methods 0.000 description 1
- 230000003014 reinforcing effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/254—Fusion techniques of classification results, e.g. of results related to same input data
- G06F18/256—Fusion techniques of classification results, e.g. of results related to same input data of results relating to different input data, e.g. multimodal recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Probability & Statistics with Applications (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
一种基于多层次时空特征融合增强的双流网络行为识别方法。该方法采用了一种基于时空双流网络的网络架构,称作多层次时空特征融合增强网络。针对传统双流网络仅仅在最后层融合两个流的类别概率分布导致浅层特征的作用被忽视以及双流网络的互补特点无法被充分利用的问题,本发明提出多层次时空特征融合模块,在双流不同深度层级通过时空特征融合模块捕获多深度级别的混合特征以充分利用双流网络。此外,在网络中,平等地对待所有特征会削弱那些对分类贡献大的特征的作用。本发明在网络中提出分组增强注意力模块,自动增强特征上的有效区域以及通道的显著性。最终本发明通过汇集双流网络以及特征融合的分类结果,进一步提高了行为识别模型的鲁棒性。
Description
技术领域
本发明属于机器视觉领域,特别涉及一种基于多层次时空特征融合增强的双流网络行为识别方法。
背景技术
动作识别已成为计算机视觉界的活跃领域,并广泛应用于视频监视,暴力检测,人机交互等各个领域。视频动作识别是为了挖掘可以表达视频所代表的目标动作的关键特征,相比于静态图像,它包含了丰富的运动信息,然而动作场景的多样性仍使得有效特征的提取具有挑战性。因此,本发明以视频为研究对象,针对网络提取视频中的空间和时间特征所面临的问题,提出独特的特征融合方法和注意力方法来有效地提取辨别性特征用于行为识别。
目前,面向视频的行为识别主要使用双流网络,并且发展趋势十分良好。在双流网络中,双流架构通过在外观上和光流堆上分别训练各自的卷积网络来捕获外观信息和运动信息,最后使用分数融合两个卷积网络的分类结果。但是传统双流网络仍旧面临以下问题:(1)如何有效利用两个流分别捕获的信息?(2)网络中平等的对待特征的每个区域与通道会削弱那些对分类有用的区域与通道的作用,如何有效地对捕获特征进行提炼?(3)如何有效地融合获取的空间信息和时间信息?
基于以上考虑,本发明提出一个基于多层次时空特征融合增强的双流网络行为识别方法。首先,使用提出的时空特征融合模块对双流网络不同深度层模块的特征进行融合来提取多深度级别混合特征。其次,利用提出的分组增强注意力模块对提取的混合特征进一步提炼,使网络自动关注特征中对于分类有作用的区域与通道。
发明内容
本发明的主要目的是提出一种基于多层次时空特征融合增强的双流网络(Multiple depth-levels feature fusion enhanced Network,MDFFEN)行为识别方法,更好地获取视频的有效特征以及特征上的辨别性信息,以进行高效的行为识别。
为了实现上述目的,本发明提供如下技术方案:
一种基于多层次时空特征融合增强的双流网络行为识别方法,步骤如下:
步骤二、计算光流图:应用TVL1[Coloma Ballester,Lluis Garrido,VanelLazcano,and VicentCaselles.Atv-l1 optical flow method with occlusion detection.In JointDagm,2013.]算法对RGB原始帧frgb两两进行计算得到光流图
步骤六、基于空间网络Ns计算空间类别概率分布OS:将步骤四构建的空间网络的输入分别送入空间网络Ns提取特征,空间网络Ns基于InceptionV3[2]网络构建,再经过全局平均池化操作和全连接操作得到空间类别概率分布/>其中表示步骤三的第i个RGB帧分段RGBi对应的空间类别概率分布;
步骤七、基于时间网络Nt计算时间类别概率分布OT:将步骤五构建的时间网络的输入分别送入时间网络Nt提取特征,时间网络Nt基于InceptionV3[ChristianSzegedy,Vincent Vanhoucke,Sergey Ioffe,Jonathon Shlens,and ZbigniewWojna.Rethinking the inception architecture for computervision.In ComputerVision&Pattern Recognition,2016.]网络构建,再经过全局平均池化操作和全连接操作得到时间类别概率分布/>其中/>表示步骤三中第i个光流图分段OPTi对应的时间类别概率;
步骤八、基于双流融合网络NTSFF计算特征融合类别概率分布OF:使用多层次时空特征融合模块将时空特征融合模块STFF分别嵌入至空间网络Ns和时间网络Nt的InceptionV3的多个子模块中以融合提取多深度级别混合特征,然后通过分组增强注意力模块对提取的特征进一步提炼,最后通过全局平均池化操作和全连接操作得到特征融合类别概率分布其中/>表示步骤三的第i个RGB帧分段RGBi和第i个光流图分段OPTi对应的特征融合类别概率分布;
步骤十、计算三个流加权融合的类别概率分布δ:在双流网络的基础上融合步骤九得到的多段融合的空间类别概率分布δs、多段融合的时间类别概率分布δt和多段融合的特征融合类别概率分布δf,本发明使用加权平均融合方法。
步骤十一、计算最终分类结果P:P=argmax(δ),其中argmax(δ)为计算δ向量中最大值的索引值,即计算所有行为类别中类别概率分布最高的类别。
与现有的技术相比,本发明具有以下有益效果:
1.通过步骤八构建的双流特征融合网络,在双流的不同深度层进行特征融合获取多深度级别的时空混合特征,充分利用了浅层特征以及双流互补的特点。
2.步骤八构建的双流特征融合网络提出了分组增强注意力模块对提取的混合特征进行进一步提炼局部信息以及全局信息,有效提升了行为识别精度。
附图说明
图1为本发明的算法流程图;
图2为本发明的算法模型图;
图3为双流特征融合网络NTSFF图;
图4为时空特征融合图;
图5为分组增强注意力模块。
具体实施方式
图2为本发明的整体模型图;
图2表示本发明的算法模型图。算法以多段RGB图像与光流图为输入,模型包括空间网络,时间网络,特征融合网络,多段类别概率分布融合及多流类别概率分布融合五个关键部分。空间网络和时间网络均基于InceptionV3构建的,而特征融合网络是通过空间网络和时间网络构建的,简单来说使用提出的多层次时空特征融合模块以融合不同深度级别的时空混合特征,其中时空混合特征是利用提出的时空特征融合模块融合分别从空间网络和时间网络提取的特征,然后通过提出的分组增强注意力模块以进一步提炼多深度级别混合特征,同空间网络和时间网络一样,使用全局平均池化与全连接操作获得特征融合类别概率分布。然后将每个流的三个分段输入提取的对应的类别概率分布进行融合获取对应流的多段融合类别概率分布,最终,采用加权平均方法融合三个流对应的多段融合类别概率分布。
为了对本发明进行更好的说明,下面以公开的行为数据集UCF101为例进行阐述。
上述技术方案中步骤四中从srgb中每段分别随机获取RGB帧的具体方法为:
上述技术方案中步骤五中从sopt中每段分别随机获取多张光流图的具体方法为:
上述技术方案中步骤八中双流特征融合方法具体为:
传统的双流网络行为识别方法通常是在最后层融合类别概率分布。由于常规特征融合在最终层融合最深层次的特征,浅层的特征对于分类的作用常常被忽视。因此本发明提出多层次时空特征融合模块。具体实现如图3所示。与传统方法不同的是,本发明提出的多层次时空特征融合模块考虑了深度网络的浅层特征,以捕获具有多个深度级别的混合特征。此外,本发明提出了分组增强注意力模块以进一步优化从多层次时空特征融合模块中提取的混合特征。最后,类别概率分布是通过完全连接层FC对特征向量的操作生成的,其中特征向量是通过全局平均池化操作对特征图进行汇总生成的。双流特征融合的全过程从形式上写成如下公式:
其中MMDFF(·,·)表示多层次时空特征融合模块,MGSCE(·)表示分组增强注意力模块的输出特征。FC表示完全连接操作,GAP表示全局平均池化操作。
上述技术方案中步骤八中应用的多层次时空特征融合方法为:
InceptionV3由11个串联的子模块组成,分别为Inc.1-Inc.11,可以从中提取不同的深度级别特征。为了进一步提升InceptionV3网络的分类能力,本发明将时空特征融合模块STFF嵌入至空间网络和时间网络的各个子模块中,以捕获具有不同深度层次的新颖特征。本实例选择最后四个子模块,即从Inc.8到Inc.11的子模块,在具体应用中子模块的选择可以根据实际应用进行调整。通过将网络的多个深度的子模块生成的所有混合时空特征进行级联,从而获取具有多个深度级别的抽象卷积混合时空特征。多层次时空特征融合模块MMDFF(·,·)的流程如下式所示:
其中MSTFF(·,·)表示时空特征融合模块。和/>分别表示将/>和/>送入空间网络和时间网络并从其中的inc.j模块中提取的特征。从Inc.8到Inc.11生成的混合特征的级联由/>表示。Conv(·)表示卷积运算,本实例使用2048个内核大小为3*3的卷积滤波器,以从具有不同深度级别的混合特征中进一步提取抽象特征,同时获得的特征的通道数将转变为2048。
上述技术方案中步骤八中时空特征融合模块STFF的具体构建方法为:
时空特征融合模块的输出特征是由三种类型的特征(即初步混合时空特征,空间特征和时间特征)融合而成。
如图4中详细介绍的那样,首先通过逐元素求和与卷积运算将从空间网络中子模块提取的空间特征与从时间网络子模块中提取的时间特征进行融合,以获得初级的混合抽象特征。通过忽略等式(2)中的上标i和下标inc.j,可以将和/>书写为/>和/>以便于表达,其中C,H和W分别表示特征图的通道数、高度和宽度。然后,将初步混合抽象特征F正式表示为以下公式:
其中Ψk,n表示卷积核大小为k及过滤器数目为n的ReLU(BN(Conv(·)))操作序列,其中ReLU和BN分别表示ReLU激活函数和批量归一化操作,Conv(·)表示卷积运算。另外,为了进一步抑制无效信息并提取有效信息,本发明提出特征提取器MFE(·)。MFE(·)由两个具有不同过滤器数目n的Ψ3*3,n运算组成,其中第一个的过滤器数目是输入通道数C的一半,而另一个与输入通道数相同。然后通过特征提取器MFE(·),将所有三种类型(空间特征S,时间特征T和初级时空混合特征F)的特征进一步独立提取非线性抽象特征。特征提取器MFE(·)的详细过程表示为以下公式:
MFE(Z)=ZFE2=Ψ3*3,C(ZFE1) (4)
其中Z∈{S,T,F}表示MFE(·)的输入特征,S,T,F分别表示空间特征,时间特征和初级时空混合特征。
然后,将通过特征提取器MFE(·)提炼的空间特征SFE2和时间特征TFE2分别与提炼过的混合特征FFE2融合,以获得更深层次的融合特征FS和FT,如下所示:
FS=Φ(SFE2,FFE2) (6)
FT=Φ(TFE2,FFE2) (7)
此处的Φ(·,·)与公式(3)相同。
最后,通过Φ(·,·)运算将FS和FT融合,得到时空特征融合模块STFF的最终混合时空特征:
MSTFF(S,T)=Φ(FS,FT) (8)
上述技术方案中步骤八中分组增强注意力模块具体如下:
为了通过全局和局部信息获取更有效的时空特征,本发明构建了分组增强注意力模块以进一步完善混合特征。图5展示了模块的详细结构。模块中的两个注意力模块的连接是并行的,这使得该模块可以同时提取空间信息和时间信息。
图5为分组增强注意力模块。组级空间注意模块用于挖掘感兴趣的各个局部区域,而通道关注模块则用于捕获通道维度中的全局响应。然后将它们连接,通过与原输入特征图逐元素相乘来增强空间显著性和通道显著性。最后,利用残差连接来减小梯度消失的可能。图中GAP和GMP表示全局平均池化操作和全局最大池化操作。它们都分别在空间注意模块中的空间维度和通道注意模块中的时间维度上操作。
与SGE[Xiang Li,Xiaolin Hu,and Jian Yang.Spatial group-wise enhance:Enhancing semantic feature learning in convolutional networks.2019.]模块类似,本发明以捕获空间特征与通道特征间的响应为目标,即包含全局特征和每个分组中局部特征之间的相似性。因此,本发明将分组策略引入到空间注意力(SA)模块中,从而生成组级空间注意力(GSA)模块,该模块可用于捕获局部信息,以对通道注意力(CA)模块提取的全局信息进行补充。此处提及的SA模块和CA模块在CBAM[Sanghyun Woo,Jongchan Park,Joon-Young Lee,and In So Kweon.Cbam:Convolutional block attention module.2018.]中进行了详细说明。形式上将输入特征图定义为本发明通过GSA模块和CA模块获取空间注意/>和通道响应/>
进一步通过操作分配融合的权重/>来细化原始输入特征Q。此外,为了降低梯度消失的可能性并加快训练进度,本发明还引入了注意力残差,即通过操作直接建立了Q和最终提炼后的特征之间的连接。最后,分组增强注意力模块输出的显著性增强特征/>的生成过程如下式(9)所示。
上述技术方案中步骤八中组级空间注意力GSA模块的构建方法如下:
一般注意力模块输入的完整特征由以组的形式分布在特征的多个通道中的子特征组成。而且这些子特征以相同的方式处理,因此很可能会带来背景噪声的影响,很容易导致错误的识别和定位结果。考虑到这一点,本发明提出了一个组级空间注意力GSA模块,用于在从原始特征图划分的每个独立组中生成局部空间响应。即通过分组策略将输入特征图Q划分为其中/>表示组号为l的特征图组。G表示划分的总组数,在本实例中为16。它通过有针对性的学习和噪声抑制有效地从子特征中捕获信息。然后利用SA模块得到组l的局部空间响应/>其中SA模块在CBAM[Sanghyun Woo,Jongchan Park,Joon-Young Lee,and In So Kweon.Cbam:Convolutional blockattention module.2018.]中进行了详细说明。最后,组级空间注意力模块的输出响应的生成如下式所示:
上述技术方案中步骤十中空间类别概率分布、时间类别概率分布和特征融合类别概率分布融合方法为:
本发明使用加权平均融合方法,即δ=δs*ws+δt*wt+δf*wf,ws,wt,wf分别表示空间流,时间流和特征融合流的权重,其三个流默认的融合权重分别是0.4、2.7、2.4,可根据实际应用需要调整融合权重。
为验证本发明的准确性和鲁棒性,本发明在公开的UCF101和HMDB51数据集上进行了实验。
UCF101是典型的有挑战性的人类动作识别数据集,它包含从YouTube视频网站收集的13320个分辨率为320*240的视频。它总共包含101个动作类别,其中每个类别包含25个人。UCF101数据集在运动获取方面具有很大的多样性,包括相机操作,外观变化,姿态变化,物体比例变化,背景变化,光线变化等。101种动作可以大致分为五类:人与物的交互,人与人的交互,人与人的交互,乐器演奏和运动。
HMDB51数据集包含6849个320*240分辨率的视频样本,它由51个类别组成,其中每个类别至少包含101个样本。大多数视频来自电影,一些来自公共数据集或在线视频库(例如YouTube)。操作类别可以分为五种类型:一般的面部动作,面部动作和对象操纵,一般的身体动作,身体动作和对象互动,人类动作。背景混乱和光线条件的变化使识别视频所代表的目标动作非常具有挑战性。
表1是两个数据集在实验中的各个参数设置:
表1数据库实验参数设置
表2为本发明提出的方法MDFFEN在UCF101和HMDB51数据集上的测试结果,本发明在这两个数据集上都取得了较高的识别率。尽管这两个数据集存在着遮挡,变形,背景混乱,低分辨率等困难,但本发明提出的方法对这些困难具有很好的鲁棒性,因此表现相对较好。
表2在UCF101和HMDB51上的识别率
数据集 | UCF101 | HMDB51 |
MDFFEN | 95.3% | 71.6% |
本发明主要提出了两个机制,多层次时空特征融合以及分组增强注意力。从表3中可以看出,针对UCF101数据集,单纯使用双流网络的精度达到93.61%。在基础网络中添加多层次时空特征融合,精度提升至94.63%。在此基础上再加入分组增强注意力,精度进一步提升至95.31%。实验结果显示多层次时空特征融合方法有效提取了多深度级别混合特征,分组增强注意力进一步提起了混合特征中的辨别性特征,这两种机制都对行为识别的性能有好的影响,有效提高识别精度。
表3在UCF101数据集上两个机制的影响
上面结合附图对本发明的具体实施方式做了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下做出各种变化。
Claims (7)
1.一种基于多层次时空特征融合增强的双流网络行为识别方法,其特征在于,步骤如下:
步骤六、基于空间网络Ns计算空间类别概率分布OS:将步骤四构建的空间网络的输入分别送入空间网络Ns提取特征,空间网络Ns基于InceptionV3网络构建,再经过全局平均池化操作和全连接操作得到空间类别概率分布/>其中/>表示步骤三的第i个RGB帧分段RGBi对应的空间类别概率分布;
步骤七、基于时间网络Nt计算时间类别概率分布OT:将步骤五构建的时间网络的输入分别送入时间网络Nt提取特征,时间网络Nt基于InceptionV3网络构建,再经过全局平均池化操作和全连接操作得到时间类别概率分布/>其中/>表示步骤三中第i个光流图分段OPTi对应的时间类别概率;
步骤八、基于双流融合网络NTSFF计算特征融合类别概率分布OF:使用多层次时空特征融合模块将时空特征融合模块STFF分别嵌入至空间网络Ns和时间网络Nt的InceptionV3的多个子模块中以融合提取多深度级别混合特征,然后通过分组增强注意力模块对提取的特征提炼,最后通过全局平均池化操作和全连接操作得到特征融合类别概率分布其中/>表示步骤三的第i个RGB帧分段RGBi和第i个光流图分段OPTi对应的特征融合类别概率分布;
步骤十、计算三个流加权融合的类别概率分布δ:在双流网络的基础上融合步骤九得到的多段融合的空间类别概率分布δs、多段融合的时间类别概率分布δt和多段融合的特征融合类别概率分布δf,采用加权平均融合方法计算类别概率分布δ;
步骤十一、计算最终分类结果P:P=argmax(δ),其中argmax(δ)为计算δ向量中最大值的索引值,该索引值为计算所有行为类别中类别概率分布最高的类别。
2.根据权利要求1所述的一种基于多层次时空特征融合增强的双流网络行为识别方法,其特征在于,完成双流网络行为识别方法的模型包括空间网络、时间网络、特征融合网络、多段类别概率分布融合和多流类别概率分布融合;空间网络和时间网络均是基于InceptionV3构建的,而特征融合网络是通过空间网络和时间网络构建的;使用多层次时空特征融合模块以融合不同深度级别的时空混合特征,其中时空混合特征是利用时空特征融合模块融合分别从空间网络和时间网络提取的特征,然后通过分组增强注意力模块提炼多深度级别混合特征,同空间网络和时间网络一样,使用全局平均池化与全连接操作获得特征融合类别概率分布;然后将每个流的三个分段输入提取的对应的类别概率分布进行融合,获取对应流的多段融合类别概率分布,最终,采用加权平均方法融合三个流对应的多段融合类别概率分布。
4.根据权利要求3所述的一种基于多层次时空特征融合增强的双流网络行为识别方法,其特征在于,所述步骤八中应用的多层次时空特征融合方法为:InceptionV3由j个串联的子模块组成,分别为Inc.1-Inc.j,能够从中提取不同的深度级别特征;将时空特征融合模块STFF嵌入至空间网络和时间网络的各个子模块中,以捕获具有不同深度层次的新颖特征;通过将网络的多个深度的子模块生成的所有混合时空特征进行级联,从而获取具有多个深度级别的抽象卷积混合时空特征;多层次时空特征融合模块MMDFF(·,·)的流程如下式所示:
5.根据权利要求4所述的一种基于多层次时空特征融合增强的双流网络行为识别方法,其特征在于,时空特征融合模块的输出特征是由初步混合时空特征、空间特征和时间特征三种类型的特征融合而成;时空特征融合模块的具体过程为:首先通过逐元素求和与卷积运算将从空间网络中子模块提取的空间特征与从时间网络子模块中提取的时间特征进行融合,以获得初级的混合抽象特征;通过忽略等式(2)中的上标i和下标inc.j,将和书写为/>和/>以便于表达,其中C,H和W分别表示特征图的通道数、高度和宽度;然后,将初步混合抽象特征F正式表示为以下公式:
其中Ψk,n表示卷积核大小为k及过滤器数目为n的ReLU(BN(Conv(·)))操作序列,其中ReLU和BN分别表示ReLU激活函数和批量归一化操作,Conv(·)表示卷积运算,⊕表示逐元素求和运算;
为了抑制无效信息并提取有效信息,采用特征提取器MFE(·);MFE(·)由两个具有不同过滤器数目n的Ψ3*3,n运算组成,其中第一个的过滤器数目是输入通道数C的一半,而另一个与输入通道数相同;然后通过特征提取器MFE(·),将所有空间特征S、时间特征T和初级时空混合特征F独立提取非线性抽象特征;特征提取器MFE(·)的详细过程表示为以下公式:
MFE(Z)=ZFE2=Ψ3*3,C(ZFE1) (4)
其中Z∈{S,T,F}表示MFE(·)的输入特征,S,T,F分别表示空间特征、时间特征和初级时空混合特征;
然后,将通过特征提取器MFE(·)提炼的空间特征SFE2和时间特征TFE2分别与提炼过的混合特征FFE2融合,以获得更深层次的融合特征FS和FT,如下所示:
FS=Φ(SFE2,FFE2) (6)
FT=Φ(TFE2,FFE2) (7)
此处的Φ(·,·)与公式(3)相同;
最后,通过Φ(·,·)运算将FS和FT融合,得到时空特征融合模块STFF的最终混合时空特征:
MSTFF(S,T)=Φ(FS,FT) (8)。
6.根据权利要求1所述的一种基于多层次时空特征融合增强的双流网络行为识别方法,其特征在于,所述步骤八中分组增强注意力模块包括组级空间注意模块和通道关注模块,两个注意力模块的连接是并行的;组级空间注意模块用于挖掘感兴趣的各个局部区域,而通道关注模块则用于捕获通道维度中的全局响应;将两个注意力模块连接,通过与原输入特征图逐元素相乘来增强空间显著性和通道显著性;最后,利用残差连接来减小梯度消失的可能;其中,全局平均池化操作GAP和全局最大池化操作GMP分别在空间注意模块中的空间维度和通道注意模块中的时间维度上操作;具体如下:
将分组策略引入到空间注意力SA模块中,从而生成组级空间注意力GSA模块,该模块用于捕获局部信息,以对通道注意力CA模块提取的全局信息进行补充;SA模块和CA模块形式上将输入特征图定义为通过GSA模块和CA模块获取空间注意/>和通道响应/>
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010441559.3A CN111709306B (zh) | 2020-05-22 | 2020-05-22 | 基于多层次时空特征融合增强的双流网络行为识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010441559.3A CN111709306B (zh) | 2020-05-22 | 2020-05-22 | 基于多层次时空特征融合增强的双流网络行为识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111709306A CN111709306A (zh) | 2020-09-25 |
CN111709306B true CN111709306B (zh) | 2023-06-09 |
Family
ID=72537459
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010441559.3A Active CN111709306B (zh) | 2020-05-22 | 2020-05-22 | 基于多层次时空特征融合增强的双流网络行为识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111709306B (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112489092B (zh) * | 2020-12-09 | 2023-10-31 | 浙江中控技术股份有限公司 | 细粒度工业运动模态分类方法、存储介质、设备和装置 |
CN112712124B (zh) * | 2020-12-31 | 2021-12-10 | 山东奥邦交通设施工程有限公司 | 一种基于深度学习的多模块协同物体识别系统及方法 |
CN112381072B (zh) * | 2021-01-11 | 2021-05-25 | 西南交通大学 | 一种基于时空信息及人、物交互的人体异常行为检测方法 |
CN113066022B (zh) * | 2021-03-17 | 2022-08-16 | 天津大学 | 一种基于高效时空信息融合的视频比特增强方法 |
CN113111822B (zh) * | 2021-04-22 | 2024-02-09 | 深圳集智数字科技有限公司 | 用于拥堵识别的视频处理方法、装置与电子设备 |
CN113393521B (zh) * | 2021-05-19 | 2023-05-05 | 中国科学院声学研究所南海研究站 | 一种基于双语义注意力机制的高精度火焰定位方法及系统 |
CN114677704B (zh) * | 2022-02-23 | 2024-03-26 | 西北大学 | 一种基于三维卷积的时空特征多层次融合的行为识别方法 |
CN115348215B (zh) * | 2022-07-25 | 2023-11-24 | 南京信息工程大学 | 一种基于时空注意力机制的加密网络流量分类方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110188239B (zh) * | 2018-12-26 | 2021-06-22 | 北京大学 | 一种基于跨模态注意力机制的双流视频分类方法和装置 |
CN109993077A (zh) * | 2019-03-18 | 2019-07-09 | 南京信息工程大学 | 一种基于双流网络的行为识别方法 |
CN110119703B (zh) * | 2019-05-07 | 2022-10-04 | 福州大学 | 一种安防场景下融合注意力机制和时空图卷积神经网络的人体动作识别方法 |
CN110569773B (zh) * | 2019-08-30 | 2020-12-15 | 江南大学 | 基于时空显著性行为注意力的双流网络行为识别方法 |
-
2020
- 2020-05-22 CN CN202010441559.3A patent/CN111709306B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN111709306A (zh) | 2020-09-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111709306B (zh) | 基于多层次时空特征融合增强的双流网络行为识别方法 | |
Zhuge et al. | Salient object detection via integrity learning | |
Liu et al. | SwinNet: Swin transformer drives edge-aware RGB-D and RGB-T salient object detection | |
Qian et al. | Thinking in frequency: Face forgery detection by mining frequency-aware clues | |
Shao et al. | Temporal interlacing network | |
Nguyen et al. | A neural network based on SPD manifold learning for skeleton-based hand gesture recognition | |
Li et al. | Selective kernel networks | |
Kim et al. | Fully deep blind image quality predictor | |
Gao et al. | MSCFNet: A lightweight network with multi-scale context fusion for real-time semantic segmentation | |
Wang et al. | NAS-guided lightweight multiscale attention fusion network for hyperspectral image classification | |
Li et al. | Micro-expression action unit detection with spatial and channel attention | |
Huang et al. | Multi-level cross-modal interaction network for RGB-D salient object detection | |
Fang et al. | Deep3DSaliency: Deep stereoscopic video saliency detection model by 3D convolutional networks | |
CN111242181B (zh) | 基于图像语义和细节的rgb-d显著性物体检测器 | |
CN113343950B (zh) | 一种基于多特征融合的视频行为识别方法 | |
Jia et al. | Stacked denoising tensor auto-encoder for action recognition with spatiotemporal corruptions | |
Pan et al. | No-reference image quality assessment via multibranch convolutional neural networks | |
Liu et al. | APSNet: Toward adaptive point sampling for efficient 3D action recognition | |
Li et al. | ConvTransNet: A CNN-transformer network for change detection with multi-scale global-local representations | |
Zhao et al. | Alignment-guided temporal attention for video action recognition | |
Shi et al. | A pooling-based feature pyramid network for salient object detection | |
Huang et al. | Region-based non-local operation for video classification | |
Zhai et al. | Exploring figure-ground assignment mechanism in perceptual organization | |
Ning et al. | Enhancement, integration, expansion: Activating representation of detailed features for occluded person re-identification | |
Yin et al. | Dynamic difference learning with spatio-temporal correlation for deepfake video detection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |