CN111709304B - 一种基于时空注意力增强特征融合网络的行为识别方法 - Google Patents

一种基于时空注意力增强特征融合网络的行为识别方法 Download PDF

Info

Publication number
CN111709304B
CN111709304B CN202010437298.8A CN202010437298A CN111709304B CN 111709304 B CN111709304 B CN 111709304B CN 202010437298 A CN202010437298 A CN 202010437298A CN 111709304 B CN111709304 B CN 111709304B
Authority
CN
China
Prior art keywords
fusion
rgb
attention
channel
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010437298.8A
Other languages
English (en)
Other versions
CN111709304A (zh
Inventor
蒋敏
庄丹枫
孔军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangnan University
Original Assignee
Jiangnan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangnan University filed Critical Jiangnan University
Priority to CN202010437298.8A priority Critical patent/CN111709304B/zh
Publication of CN111709304A publication Critical patent/CN111709304A/zh
Application granted granted Critical
Publication of CN111709304B publication Critical patent/CN111709304B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/254Fusion techniques of classification results, e.g. of results related to same input data
    • G06F18/256Fusion techniques of classification results, e.g. of results related to same input data of results relating to different input data, e.g. multimodal recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于时空注意力增强特征融合网络的行为识别方法,属于机器视觉领域。该方法采用了基于外观流和运动流双流网络的网络架构,称作时空注意力增强特征融合网络。针对传统双流网络对不同分支采用简单特征或分数融合,本发明构建了一个注意力增强的多层特征融合流作为第三个分支以补充双流结构。同时,针对传统深度网络忽略对通道特征的建模、无法充分利用通道间的相互关系,本发明引入不同层级的通道注意力模块,以建立通道间的相互关系来增强通道特征的表达能力。此外,时序信息在分段融合中起着重要的作用,通过对帧序列进行时序建模增强了重要时序特征的代表性。最终本发明通过对不同支流的分类得分进行加权融合。

Description

一种基于时空注意力增强特征融合网络的行为识别方法
技术领域
本发明属于机器视觉领域,特别涉及一种基于时空注意力增强特征融合网络的行为识别方法。
背景技术
随着机器视觉在理论上和实践上的广泛研究,基于RGB视频的行为识别也逐渐成为具有挑战性的一个分支。目前,面向RGB视频的行为识别主要使用双流网络架构,并且发展趋势十分良好。在双流架构中,深度神经网络通过在RGB外观流上和光流运动流上分别训练各自的深度卷积网络来得到有效特征。但是传统的联合RGB外观流和光流运动流训练的双流网络仍旧面临以下问题:(1)对双流网络中不同分支中得到的特征或分数进行简单融合不能有效地利用不同分支的特性,同时在单个分支中会存在特征过拟合的情况。(2)网络中具有丰富细节特征的初始输入空间特征和具有高层语义信息的高层空间特征沿着通道维度聚合。如何增强重要通道特征的代表性是一个重要的问题。(3)在通过时序分段网络TSN分段随机采样策略选择的帧序列中,包含了长距离的时序信息。因此,需要建立帧与帧之间的相互关系得到有效的时序特征,从而提升网络中帧序列进行分段融合方法的效果。
基于以上考虑,本发明提出一种基于时空注意力增强的特征融合网络用于人体行为识别。首先,本发明设计了一种新型的联合训练分支,称为注意力增强的多层特征融合流,其中RGB特征和光流特征共同训练从而得到补充特征。其次,本发明提出了作用在不同层级上的通道注意力模块,利用初始输入通道特征和经过深度特征提取的高层通道特征生成自适应权重来对深度网络中特征提取过程进行引导和增强,以提高重要通道特征的代表性。最后,本发明通过对分段随机采样策略选择的帧序列中包含的时序信息进行建模,增强重要的时序特征对分段融合方法的影响。
发明内容
本发明的主要目的是提出一种时空注意力增强特征融合网络(SpatiotemporalAttention Enhanced Features Fusion Network,ST-AEFFNet)以进行行为识别,对于基于RGB视频的行为识别任务,能够更好地提取出RGB视频中有效的外观特征和运动特征以进行多分类的行为识别。
为了实现上述目的,本发明提供如下技术方案:
一种基于时空注意力增强特征融合网络的行为识别方法,步骤如下:
步骤一、获取外观流的RGB静态帧:将数据集中的每个视频等分成N1个片段,从每一个片段中随机选择
Figure BDA0002502766370000021
帧,这些从不同片段中选出的RGB静态帧构成帧序列
Figure BDA0002502766370000022
N′1为RGB帧序列中的帧数,其中
Figure BDA0002502766370000023
步骤二、计算运动流的光流帧:对于每个数据集中的每个视频等分成N2个片段,在每一个片段中随机选择连续的
Figure BDA0002502766370000024
帧RGB静态帧,在这些连续的RGB静态帧上两两应用TV-L1算法进行计算,在每一个片段中得到x方向和y方向上共
Figure BDA0002502766370000025
帧堆叠的光流帧,最终得到整个视频的光流帧:
Figure BDA0002502766370000026
Figure BDA0002502766370000027
N′2为光流帧序列中的帧数,其中
Figure BDA0002502766370000028
步骤三、通过输入通道注意力引导模块ICGA分别计算RGB外观流和光流运动流的输入通道自适应权重:将原始特征Frgb和Fopt分别输入RGB外观流和光流运动流对应的输入通道注意力引导模块(Input channel guided attention,ICGA)。ICGA通过全局池化和非局部建模形成RGB外观流输入通道和光流运动流输入通道的自适应权重,然后分别将自适应权重与对应支流的输入特征相加,得到该模块的输出结果,RGB外观流和光流运动流中的输入通道注意力引导模块ICGA的结果,分别表示为ICGArgb和ICGAopt
步骤四、通过IceptionV3深度特征提取网络对RGB特征和光流特征进行深度特征提取:将步骤三得到的ICGArgb和ICGAopt分别输入对应的RGB外观流和光流运动流中的IceptionV3深度特征提取网络,得到具有丰富语义信息的高层特征。在使用IceptionV3提取特征的过程中,选取4层对应的高层RGB特征和高层光流特征,分别表示为
Figure BDA0002502766370000031
Figure BDA0002502766370000032
步骤五、通过高层通道分组注意力模块HCGA对RGB外观流和光流运动流中的高层通道特征进行增强:将步骤四中选择的第四个高层特征
Figure BDA0002502766370000033
Figure BDA0002502766370000034
分别输入RGB外观流和光流运动流对应的高层通道分组注意力模块(High-level channel groupedattention,HCGA)。HCGA首先将C个高层通道分成G组,在每组中执行组内局部通道关系建模。然后,建立G个分组之间的全局关系,再将其映射到每个高层通道上,得到全局通道自适应权重,再与输入该模块的原始高层特征相乘。RGB外观流和光流运动流中的高层通道分组注意力模块HCGA的输出结果,分别表示为HCGArgb和HCGAopt
步骤六、在RGB外观流和光流运动流中通过时序注意力增强模块TEA对分段融合进行增强并且分别计算单个流的分类得分:将步骤四中选择的第四个高层特征
Figure BDA0002502766370000035
Figure BDA0002502766370000036
分别输入RGB外观流和光流运动流的时序注意力增强模块(Temporal enhancedattention,TEA),通过时序卷积网络TCN进行时序特征建模,得到不同帧的自适应权重值,增强重要的帧在分段融合中的作用,获得的时序注意力增强的特征表示为TEArgb和TEAopt。再将步骤五中得到的高层通道分组注意力模块HCGA的结果和时序注意力增强模块TEA得到的结果分别相加,即在RGB外观流中将特征HCGArgb和TEArgb相加得到FLrgb,在光流运动流中将特征HCGAopt和TEAopt相加得到FLopt。将FLrgb和FLopt通过平均融合的方法对帧序列进行分段融合,分别得到Finalrgb和Finalopt。之后将Finalrgb和Finalopt输入线性分类层中分别得到RGB外观流和光流运动流的分类得分scorergb和scoreopt
步骤七、通过多层特征融合块MFBlock对RGB外观流和光流运动流IceptionV3深度特征提取过程中的3个高层中间层特征进行融合:将从步骤四IceptionV3深度网络中提取的3个高层中间层特征
Figure BDA0002502766370000041
Figure BDA0002502766370000042
对应层相加之后使用多层特征融合块(Multi-layer Fusion Block,MFBlock)得到
Figure BDA0002502766370000043
将三层融合结果相加得到中间层融合特征J1
步骤八、通过注意力融合块AFBlock对RGB外观流和光流运动流IceptionV3深度特征提取过程中的最后一层高层特征进行注意力融合:将步骤四中得到第四层特征
Figure BDA0002502766370000044
Figure BDA0002502766370000045
通过注意力融合块(Attention Fusion Block,AFBlock)进行融合得到融合特征J2
步骤九、计算注意力增强的多层特征融合流中的高层特征:将步骤七和步骤八中得到的中间层融合特征J1和注意力增强的融合特征J2相加得到融合高层特征J。
步骤十、通过高层通道分组注意力模块HCGA对特征融合流上的通道特征进行增强:将步骤九的融合高层特征J输入高层通道分组注意力模块中得到通道自适应权重,该模块增强的高层通道特征表示为HCGAfusion
步骤十一、通过时序注意力增强模块TEA对特征融合流上的分段融合进行增强并且计算分类得分:将步骤九得到的融合高层特征J输入时序注意力增强模块TEA得到每一帧的自适应权重,该模块增强的高层时序特征表示为TEAfusion。将步骤十的结果HCGAfusion和时序注意力增强模块TEA的结果TEAfusion相加得到融合流中注意力模块增强后的高层特征FLfusion。之后将FLfusion通过平均融合方式对帧序列进行分段融合得到Finalfusion,最后输入到线性分类层中得到特征融合流分类得分scorefusion
步骤十二、计算RGB外观流,光流运动流和特征融合流的分类得分加权平均融合结果:将步骤六得到的RGB外观流分类概率分布scorergb和光流运动流分类概率分布scoreopt与步骤十一得到的特征融合流分类概率分布scorefusion进行加权平均融合。
与现有的技术相比,本发明具有以下有益效果:
1.通过步骤三、步骤五和步骤十采用的通道注意力机制,对通道关系进行建模,增强了深度网络提取有效通道特征的能力。通过处理不同层级的通道特征,充分利用了网络不同层级通道特征的特性。
2.通过步骤六和步骤十一中采用的时序注意力机制,通过处理时序特征,对不同时段时序信息的重要性进行评估,使得重要的时序信息在分段融合中起到更加重要的作用。
3.步骤七和步骤八构建联合RGB外观特征和光流运动特征的特征融合方法,有效改善了传统双流网络框架在单流上容易特征过拟合的问题。通过IceptionV3深度特征提取的中间层的特征融合得到不同高层的代表性特征,同时对IceptionV3深度特征提取的最后一层高层特征采用注意力机制进行融合,使得网络提取到有效的补充特征。
4.步骤十二中,基于双流网络,本发明充分利用RGB外观特征和光流运动特征,同时充分考虑外观特征和运动特征之间的互补性。通过对RGB外观流,光流运动流和特征融合流的分类得分进行加权融合,该行为识别网络的分类能力被极大地提高。
附图说明
图1为本发明的算法流程图;
图2为本发明的算法模型图;
图3为本发明中的输入通道注意力引导模块结构图;
图4为本发明中的高层通道分组注意力模块结构图;
图5为本发明中的时序注意力增强模块和分段融合结构图;
图6为本发明中特征融合流中的多层特征融合块;
图7为本发明中特征融合流中的注意力融合块。
具体实施方式
图2表示本发明的算法模型图。算法以RGB帧和光流帧为输入,通过三个分支RGB外观流、光流运动流和注意力增强的多层特征融合流进行联合判断,其中特征融合流通过多层特征融合块MFBlock和注意力融合块AFBlock对RGB外观流特征和光流运动流特征进行融合。同时在三个分支网络中增加了多种注意力模块,分别是输入通道注意力引导模块ICGA,高层通道分组注意力模块HCGA和时序注意力增强模块TEA,以进行网络引导和特征增强。最后,将三个流得到的分类得分进行加权融合。
为了对本发明进行更好的说明,下面以公开的行为数据UCF101数据集为例进行阐述。
上述技术方案步骤一中外观流的RGB静态帧具体获取方法如下:
通过分段随机采样得到RGB静态帧序列,N1值的确定可以根据经验选择,以UCF101数据集为例,其中每个视频被等分成7个分段,即N1=7,在每个分段中选取1帧RGB静态帧,即
Figure BDA0002502766370000061
通过计算得到N′1=7。
上述技术方案步骤二中运动流的光流帧具体计算方法如下:
通过分段随机连续采样得到光流帧序列,N2值的确定可以根据经验选择,以UCF101数据集为例,其中每个视频被等分成7个分段,即N2=7,在每个分段中选取连续的6帧RGB静态帧,即
Figure BDA0002502766370000071
将6帧RGB静态帧按顺序每两张计算得到光流图,则在每个片段中通过TV-L1算法提取x方向和y方向的光流图序列共10帧,通过计算得到N′2=70。
上述技术方案步骤三中RGB外观流和光流运动流中输入通道注意力引导模块ICGA的设计如下:
图3所示为本发明提出的输入通道注意力引导模块ICGA的结构图。这里,需要处理的原始特征O∈RC×H×W通过拷贝得到三个一样的原始特征O1∈RC×H×W,O2∈RC×H×W和O3∈RC ×H×W。本模块采用两种不同的特征压缩处理方法将空间信息压缩得到原始特征的通道描述符。
1)O1采用的处理方式是将原始特征O1∈RC×H×W通过全局最大池化得到PMAX∈RC×1×1和全局平均池化得到PAVG∈RC×1×1,通过全局池化可以将每个二维通道特征转换为一个通道描述符。将PMAX和PAVG相加得到A∈RC×1×1表示输入空间汇聚得到的通道信息;其中,C、H、W分别表示通道数、高度、宽度。
2)O2采用的处理方式是通过简化的非局部建模方法对原始特征O2∈RC×H×W进行空间建模。非局部建模方法在空间特征的每个位置之间建立相互关系,然后通过简化的非局部函数汇总所有位置的相互关系以形成通道描述符。通过对O2调整形状后得到B1∈RC×HW,HW表示H×W的乘积。同时通过对O2进行卷积操作将C个通道变为1个通道,再经过softmax函数和变形得到B2∈RHW×1。再将B2和B1相乘并且经过变形得到第二种通道描述符B∈RC×1×1来表示原始特征。
在此,详细描述B2中每个位置的参数计算。B2每个位置i的特征值更新公式如下:
Figure BDA0002502766370000081
i是空间特征中需要进行非局部建模的位置索引,
Figure BDA0002502766370000082
是经过非局部建模之后得到的第i个位置上的特征值。
Figure BDA0002502766370000083
是原始特征O2中第j个位置的特征值。ωk和ωv是线性变换矩阵。N是要素图中的所有位置数。
最后将以上空间特征进行压缩得到的通道描述符A和B相加,得到通道自适应注意力权重S,再与原始特征O3相加得到输入通道引导注意力模块的输出Z。
步骤三中RGB外观流对应的输入通道注意力引导模块ICGA以原始特征Frgb为图3中的输入原始特征O,其输出Z对应为ICGArgb;光流运动流对应的输入通道注意力引导模块ICGA以原始特征Fopt为图3中的输入原始特征O,其输出Z对应为ICGAopt
上述技术方案步骤四中的深度特征提取的具体方法如下:
本发明采用了IceptionV3网络提取深度特征,如图2所示,本发明分别对步骤三得到的ICGArgb和ICGAopt利用IceptionV3网络提取深度特征。在深度特征提取网络中,后面几层提取的是高层语义特征,网络中不同的高层能够提取到不同的代表性特征。所以本发明选择RGB外观流和光流运动流中IceptionV3深度特征提取网络的最后四层高层特征,可以代表提取到的不同层次的高层语义特征。在步骤四RGB外观流和光流运动流中选择的高层特征分别对应表示为
Figure BDA0002502766370000084
Figure BDA0002502766370000085
上述技术方案步骤五中的RGB外观流和光流运动流中的高层通道分组注意力模块HCGA设计如下:
图4中所示的是高层通道分组注意力模块HCGA的结构。在高层特征中,C个通道被分为G组,在每组内首先执行组内局部通道建模。然后,对G个分组进行组间全局分组建模,最后映射到每个通道上,得到每个通道的自适应权重,从而提高通道特征的代表性。具体操作如下:首先,将高层特征E∈RC×1×1进行通道分组,沿着通道C分成G个组。G值的确定可以根据经验选择,以UCF101数据集为例,G=4。在每个组中,1×1卷积运算操作被用来对组内通道特征进行建模并且获得每个组的融合通道描述符,该描述符大小为1×1×1,它们代表了每个组的融合特征表示。再将所有分组得到的代表特征拼接得到Q∈RG×1×1。其次,调整Q的形状得到Q1∈RG×1和Q2∈R1×G,将Q1和Q2矩阵相乘得到H∈RG×G来表示G个分组之间的相互关系,之后与Q进行张量相乘从而得到每个分组的全局建模特征。最后,通过1×1卷积运算操作得到具有C个通道的特征F∈RC×1×1,将F作为通道自适应权重,通过与原始特征E相加得到高层通道分组注意力模块HCGA的结果I。
步骤五中RGB外观流对应的高层通道分组注意力模块HCGA以步骤四中得到的第四层RGB高层特征
Figure BDA0002502766370000091
为输入特征E,其输出I对应为HCGArgb;光流运动流对应的高层通道分组注意力模块HCGA以步骤四中得到的第四层光流高层特征
Figure BDA0002502766370000092
为输入特征E,其输出I对应为HCGAopt
上述技术方案步骤六中的RGB外观流和光流运动流中的时序注意力增强模块TEA和分段融合设计如下:
图5所示的时序注意力增强模块TEA和分段融合中,时序信息由时序卷积网络TCN进行建模,并评估每个帧的重要性来增强每一帧在RGB外观流分段融合和光流运动流分段融合中的作用。
首先,将高层特征X∈RT×C×1输入到时序卷积网络中,得到经过时序卷积网络建模后的结果,然后与原始特征X相乘得到时序注意力增强的结果Y∈RT×C×1
其次,将Y与高层分组通道注意力I′∈RT×C×1相加。最后,我们通过对维度T进行平均融合,得到最后的特征L∈R1×C×1
针对RGB外观流,维度T=N1;N1为步骤一每个视频等分的片段数。以步骤四中得到的第四层RGB高层特征
Figure BDA0002502766370000101
为输入特征X,经过时序注意力增强模块TEA的特征表示Y对应TEArgb。以步骤五中得到的高层通道分组注意力模块HCGA的结果HCGArgb为输入特征I′,中间特征Z对应为步骤六中的FLrgb,其计算公式如下:FLrgb=HCGArgb+TEArgb。FLrgb可以表示为
Figure BDA0002502766370000102
Figure BDA0002502766370000103
输出L对应为Finalrgb,由分段融合得到,计算公式如下:
Figure BDA0002502766370000104
最后通过全连接层根据数据集的类别数计算分类得分得到scorergb
针对光流运动流,维度T=N2;N2为步骤二每个视频等分的片段数。以步骤四中得到的第四层光流高层特征
Figure BDA0002502766370000105
为输入特征X,经过时序注意力增强模块TEA的特征表示Y对应TEAopt。以步骤五中得到的高层通道分组注意力模块HCGA的结果HCGAopt为输入特征I′,中间特征Z对应为步骤六中的FLopt,其计算公式如下:FLopt=HCGAopt+TEAopt。FLopt可以表示为
Figure BDA0002502766370000106
输出L对应为Finalrgb,由分段融合得到,计算公式如下:
Figure BDA0002502766370000107
最后通过全连接层根据数据集的类别数计算分类得分得到scoreopt
上述技术方案步骤七中的特征融合流中的多层特征融合块MFBlock设计如下:
图6中所示的是特征融合流中的多层特征融合块MFBlock。在多层特征融合过程中,选取RGB外观流和光流运动流中IceptionV3特征提取网络得到的多层特征
Figure BDA0002502766370000111
Figure BDA0002502766370000112
其中,通过卷积运算操作融合生成
Figure BDA0002502766370000113
公式表示为:
Figure BDA0002502766370000114
其中,Conv(·)是1×1的卷积操作,ReLU(·)是ReLU激活函数,G(·)是全局池化操作,然后将三层融合特征相加得到多层特征融合结果J1∈RC×1×1
上述技术方案中步骤八的特征融合流中的注意力融合块AFBlock设计如下:
图7中所示的是特征融合流中的注意力融合块AFBlock,融合过程如下:选取双流网络中通过IceptionV3网络提取的最后一层的特征
Figure BDA0002502766370000115
Figure BDA0002502766370000116
通过卷积操作、ReLU激活函数等得到进行注意力融合生成J2,公式表示为:
Figure BDA0002502766370000117
其中,Conv(·)是1×1的卷积操作,ReLU(·)是ReLU激活函数。
上述技术方案中步骤十中的高层通道分组注意力模块HCGA的设计如下:
该步骤中高层通道分组注意力模块HCGA的设计如步骤五中图4所示。特征融合流中的对应的高层通道分组注意力模块HCGA以步骤十中得到的融合流中的注意力增强的多层融合特征J为输入特征E,其输出I对应为HCGAfusion
上述技术方案步骤十一中的特征融合流中的时序注意力增强模块TEA和分段融合的设计如下:
该步骤中时序注意力增强模块TEA和分段融合的设计如图5所示。针对特征融合流,维度T=N1=N2;N1为步骤一每个视频等分的片段数,N2为步骤二每个视频等分的片段数。在特征融合流中,步骤一和步骤二中选取的片段数相等,即N1=N2。以步骤九中得到的融合流中的注意力增强的多层融合特征J为输入特征X;经过时序注意力增强模块TEA后的特征Y对应TEAfusion。以步骤十中得到的高层通道分组注意力模块HCGA的结果HCGAfusion为输入特征I′,中间特征Z对应为FLfusion,其计算公式如下:FLfusion=HCGAfusion+TEAfusion。FLfusion可以表示为
Figure BDA0002502766370000121
Figure BDA0002502766370000122
输出L对应为Finalfusion;计算公式如下:
Figure BDA0002502766370000123
Figure BDA0002502766370000124
最后通过全连接层根据数据集的类别数进行分类得到scorefusion
上述技术方案中步骤十二中的外观流类别概率分布、运动流类别概率分布和特征融合流概率分布融合方法设计如下:
本发明使用加权平均融合方法,三个流融合权重分别是ωrgb,ωopt和ωfusion,即Scorelast=ωrgb×Scorergbopt×Scoreoptfusion×Scorefusion,可根据实际应用需要调整融合权重。在本发明中,根据经验,针对UCF101数据集,三个流的权重设置为1∶0.5∶0.5。
为验证本发明的准确性和鲁棒性,本发明在公开的UCF101和HMDB51数据集上进行了实验。
UCF101数据集总共包含13320个视频剪辑和101个动作类别。每个视频包含一个动作。它有101种动作,每个动作由25个人执行。动作的类别主要是人与物体的交互,人与人的交互,人的身体运动,人与乐器的交互等行为。UCF101数据集目前的挑战在于相机运动、杂乱的背景、光照条件等变化因素。HMDB51数据集中的视频选自电影、公共数据库和视频库(例如YouTube)。它包含51个动作类别和6849个视频序列。它的挑战性在于这些视频具有不同的比例尺、不同的视角、视频来源丰富以及低分辨率。
表1是两个数据集在实验中的各个参数设置。其中分别包括类别数、训练样本和测试样本所占的比例、处理后的图片大小、初始学习率以及总的迭代次数。
表1数据库实验参数设置
数据集 类别数 训练样本数 测试样本数 图片大小 学习率 迭代次数
UCF101 101 占2/3 占1/3 299*299 0.01 400
HMDB51 51 占2/3 占1/3 299*299 0.01 400
为验证本发明中设计的通道注意力模块和时序注意力模块对于网络的提升效果,输入通道注意力引导模块(I)、高层通道分组注意力模块(H)和时序增强注意力模块(T)的消融实验对比如表2所示:
表2通道注意力机制和时序注意力机制的效果
对比网络 RGB网络(精度) 光流网络(精度)
原始双流网络 86.8% 89.3%
双流网络+I 87.4% 89.6%
双流网络+H 87.8% 89.8%
双流网络+T 87.4% 89.8%
双流网络+I+H+T 88.0% 89.9%
表2是在UCF101上测试通道注意力模块和时序注意力模块的效果。其中包括了每个注意力模块单独加入网络后对结果的提升,以及同时加入三个注意力模块后对结果的提升。I表示输入通道注意力引导模块ICGA,H表示高层通道分组注意力模块HCGA,T表示时序注意力增强模块TEA。
表3为本发明提出的一种基于时空注意力增强的特征融合网络ST-AMFFNet在UCF101和HMDB51数据集上的测试结果,本发明在这两个具有挑战性的行为识别数据集上都取得了较高的准确率。UCF101具有背景复杂、类别繁多、视角多变等困难,HMDB51具有视频来源复杂、低分辨率等特点,而本发明提出的方法对于这两个数据集存在的问题都有很好的鲁棒性,取得了较好的识别效果。
表3在UCF101和HMDB51上的识别率
数据集 UCF101 HMDB51
本发明方法 95.2% 71.9%
本发明提出的方法主要包含两个部分,时空注意力机制以及特征融合流。从表4中可以看出,针对UCF101数据集,使用传统双流网络的精度为93.74%。在传统双流网络中加入输入通道注意力引导模块ICGA、高层通道分组注意力模块HCGA、时序增强注意力模块TEA后,精度达到95.0%。在此基础上再加入注意力增强的多层特征融合流,精度达到95.2%。这表明两种方法都对基于双流网络的行为识别的性能有了一定的提升。时空注意力机制可以有效地引导和增强特征提取过程中的通道特征和时序特征,注意力增强的多层特征融合流可以对传统的双流网络特征有一定程度的补充作用,从而提高识别精度。
表4在UCF101数据集上两个方法的影响
Figure BDA0002502766370000141
上面结合附图对本发明的具体实施方式做了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下做出各种变化。

Claims (4)

1.一种基于时空注意力增强特征融合网络的行为识别方法,其特征在于,步骤如下:
步骤一、获取外观流的RGB静态帧:将数据集中的每个视频等分成N1个片段,从每一个片段中随机选择
Figure FDA0004107171790000011
帧,这些从不同片段中选出的RGB静态帧构成帧序列
Figure FDA0004107171790000012
N′1为RGB帧序列中的帧数,其中
Figure FDA0004107171790000013
步骤二、计算运动流的光流帧:对于每个数据集中的每个视频等分成N2个片段,在每一个片段中随机选择连续的
Figure FDA0004107171790000014
帧RGB静态帧,在这些连续的RGB静态帧上两两应用TV-L1算法进行计算,在每一个片段中得到x方向和y方向上共
Figure FDA0004107171790000015
帧堆叠的光流帧,最终得到整个视频的光流帧:
Figure FDA0004107171790000016
Figure FDA0004107171790000017
N′2为光流帧序列中的帧数,其中
Figure FDA0004107171790000018
步骤三、通过输入通道注意力引导模块ICGA分别计算RGB外观流和光流运动流的输入通道自适应权重:将原始特征Frgb和Fopt分别输入RGB外观流和光流运动流对应的输入通道注意力引导模块ICGA;ICGA通过全局池化和非局部建模形成RGB外观流输入通道和光流运动流输入通道的自适应权重,然后分别将自适应权重与对应支流的输入特征相加,得到该模块的输出结果,RGB外观流和光流运动流中的输入通道注意力引导模块ICGA的结果,分别表示为ICGArgb和ICGAopt
步骤四、通过IceptionV3深度特征提取网络对RGB特征和光流特征进行深度特征提取:将步骤三得到的ICGArgb和ICGAopt分别输入对应的RGB外观流和光流运动流中的IceptionV3深度特征提取网络,得到具有丰富语义信息的高层特征;在使用IceptionV3提取特征的过程中,选取4层对应的高层RGB特征和高层光流特征,分别表示为
Figure FDA0004107171790000019
Figure FDA00041071717900000110
步骤五、通过高层通道分组注意力模块HCGA对RGB外观流和光流运动流中的高层通道特征进行增强:将步骤四中选择的第四个高层特征
Figure FDA0004107171790000021
Figure FDA0004107171790000022
分别输入RGB外观流和光流运动流对应的高层通道分组注意力模块HCGA;HCGA首先将C个高层通道分成G组,在每组中执行组内局部通道关系建模;然后,建立G个分组之间的全局关系,再将其映射到每个高层通道上,得到全局通道自适应权重,再与输入该模块的原始高层特征相乘;RGB外观流和光流运动流中的高层通道分组注意力模块HCGA的输出结果,分别表示为HCGArgb和HCGAopt
步骤六、在RGB外观流和光流运动流中通过时序注意力增强模块TEA对分段融合进行增强并且分别计算单个流的分类得分:将步骤四中选择的第四个高层特征
Figure FDA0004107171790000023
Figure FDA0004107171790000024
分别输入RGB外观流和光流运动流的时序注意力增强模块TEA;通过时序卷积网络TCN进行时序特征建模,得到不同帧的自适应权重值,增强重要的帧在分段融合中的作用,获得的时序注意力增强的特征表示为TEArgb和TEAopt;再将步骤五中得到的高层通道分组注意力模块HCGA的结果和时序注意力增强模块TEA得到的结果分别相加,即在RGB外观流中将特征HCGArgb和TEArgb相加得到FLrgb,在光流运动流中将特征HCGAopt和TEAopt相加得到FLopt;将FLrgb和FLopt通过平均融合的方法对帧序列进行分段融合,分别得到Finalrgb和Finalopt;之后将Finalrgb和Finalopt输入线性分类层中分别得到RGB外观流和光流运动流的分类得分scorergb和scoreopt
步骤七、通过多层特征融合块MFBlock对RGB外观流和光流运动流IceptionV3深度特征提取过程中的3个高层中间层特征进行融合:将从步骤四IceptionV3深度网络中提取的3个高层中间层特征
Figure FDA0004107171790000025
Figure FDA0004107171790000026
对应层相加之后使用多层特征融合块MFBlock得到
Figure FDA0004107171790000027
将三层融合结果相加得到中间层融合特征J1
所述步骤七中通过卷积运算操作融合生成
Figure FDA0004107171790000031
公式表示为:
Figure FDA0004107171790000032
Figure FDA0004107171790000033
其中,Conv(■)是1×1的卷积操作,ReLU(■)是ReLU激活函数,G(■)是全局池化操作,然后将三层融合特征相加得到多层特征融合结果J1∈RC×1×1
步骤八、通过注意力融合块AFBlock对RGB外观流和光流运动流IceptionV3深度特征提取过程中的最后一层高层特征进行注意力融合:将步骤四中得到第四层特征
Figure FDA0004107171790000034
Figure FDA0004107171790000035
通过注意力融合块AFBlock进行融合得到融合特征J2
所述步骤八中融合特征J2计算公式为:
Figure FDA0004107171790000036
Figure FDA0004107171790000037
其中,Conv(■)是1×1的卷积操作,ReLU(■)是ReLU激活函数;
步骤九、计算注意力增强的多层特征融合流中的高层特征:将步骤七和步骤八中得到的中间层融合特征J1和注意力增强的融合特征J2相加得到融合高层特征J;
步骤十、通过高层通道分组注意力模块HCGA对特征融合流上的通道特征进行增强:将步骤九的融合高层特征J输入高层通道分组注意力模块中得到通道自适应权重,该模块增强的高层通道特征表示为HCGAfusion
步骤十一、通过时序注意力增强模块TEA对特征融合流上的分段融合进行增强并且计算分类得分:将步骤九得到的融合高层特征J输入时序注意力增强模块TEA得到每一帧的自适应权重,该模块增强的高层时序特征表示为TEAfusion;将步骤十的结果HCGAfusion和时序注意力增强模块TEA的结果TEAfusion相加得到融合流中注意力模块增强后的高层特征FLfusion;之后将FLfusion通过平均融合方式对帧序列进行分段融合得到Finalfusion,最后输入到线性分类层中得到特征融合流分类得分scorefusion
步骤十二、计算RGB外观流,光流运动流和特征融合流的分类得分加权平均融合结果:将步骤六得到的RGB外观流分类概率分布socrergb和光流运动流分类概率分布socreopt与步骤十一得到的特征融合流分类概率分布scorefusion进行加权平均融合。
2.根据权利要求1所述的一种基于时空注意力增强特征融合网络的行为识别方法,其特征在于,所述步骤三中:设需要处理的原始特征为O∈RC×H×W,通过拷贝得到三个一样的原始特征O1∈RC×H×W,O2∈RC×H×W和O3∈RC×H×W;输入通道注意力引导模块ICGA采用两种不同的特征压缩处理方法将空间信息压缩得到原始特征的通道描述符:
1)O1采用的处理方式是将原始特征O1∈RC×H×W通过全局最大池化得到PMAX∈RC×1×1和全局平均池化得到PAVG∈RC×1×1,通过全局池化将每个二维通道特征转换为一个通道描述符;将PMAX和PAVG相加得到A∈RC×1×1表示输入空间汇聚得到的通道信息;其中,C、H、W分别表示通道数、高度、宽度;
2)O2采用的处理方式是通过简化的非局部建模方法对原始特征O2∈RC×H×W进行空间建模;非局部建模方法在空间特征的每个位置之间建立相互关系,然后通过简化的非局部函数汇总所有位置的相互关系以形成通道描述符;通过对O2调整形状后得到B1∈RC×HW,HW表示H×W的乘积;同时通过对O2进行卷积操作将C个通道变为1个通道,再经过softmax函数和变形得到B2∈RHW×1;再将B2和B1相乘并且经过变形得到第二种通道描述符B∈RC×1×1来表示原始特征;其中,B2每个位置i的特征值更新公式为:
Figure FDA0004107171790000051
Figure FDA0004107171790000052
i是空间特征中需要进行非局部建模的位置索引,
Figure FDA0004107171790000053
是经过非局部建模之后得到的第i个位置上的特征值;
Figure FDA0004107171790000054
是原始特征O2中第j个位置的特征值;ωk和ωv是线性变换矩阵;N是要素图中的所有位置数;
最后将以上空间特征进行压缩得到的通道描述符A和B相加,得到通道自适应注意力权重S,再与原始特征O3相加得到输入通道引导注意力模块的输出Z;
当O对应Frgb时,Z为ICGArgb;当O对应Fopt时,Z为ICGAopt
3.根据权利要求1所述的一种基于时空注意力增强特征融合网络的行为识别方法,其特征在于,所述步骤五具体过程为:首先,设高层特征为E∈RC×1×1,将其进行通道分组,沿着通道C分成G个组;在每个组中,1×1卷积运算操作被用来对组内通道特征进行建模并且获得每个组的融合通道描述符,该描述符大小为1×1×1,它们代表了每个组的融合特征表示;再将所有分组得到的代表特征拼接得到Q∈RG×1×1;其次,调整Q的形状得到Q1∈RG×1和Q2∈R1×G,将Q1和Q2矩阵相乘得到H∈RG×G来表示G个分组之间的相互关系,之后与Q进行张量相乘从而得到每个分组的全局建模特征;最后,通过1×1卷积运算操作得到具有C个通道的特征F∈RC×1×1,将F作为通道自适应权重,通过与原始特征E相加得到高层通道分组注意力模块HCGA的结果I;当高层特征E对应为
Figure FDA0004107171790000055
时,I为HCGArgb;当高层特征E对应为
Figure FDA0004107171790000056
时,I为HCGAopt
4.根据权利要求1所述的一种基于时空注意力增强特征融合网络的行为识别方法,其特征在于,所述步骤六具体过程为:首先,设高层特征为X∈RT×C×1,将其输入到时序卷积网络TCN中,得到经过时序卷积网络建模后的结果,然后与原始特征X相乘得到时序注意力增强的结果Y∈RT×C×1;其次,将Y与高层分组通道注意力I′∈RT×C×1相加;最后,通过对维度T进行平均融合,得到最后的特征L∈R1×C×1
当高层特征X对应为
Figure FDA0004107171790000061
时,维度T=N1,Y对应为TEArgb,I′为HCGArgb,中间特征Z对应为FLrgb,其计算公式为:FLrgb=HCGArgb+TEArgb;FLrgb表示为
Figure FDA0004107171790000062
输出L对应为Finalrgb,由分段融合得到,计算公式为:
Figure FDA0004107171790000063
最后通过全连接层根据数据集的类别数计算分类得分得到scorergb
当高层特征X对应为
Figure FDA0004107171790000064
时,维度T=N2,Y对应为TEAopt,i′为HCGAopt,中间特征Z对应为FLopt,其计算公式为:FLopt=HCGAopt+TEAopt;FLopt表示为
Figure FDA0004107171790000065
输出L对应为Finalrgb,由分段融合得到,计算公式如下:
Figure FDA0004107171790000066
最后通过全连接层根据数据集的类别数计算分类得分得到scoreopt
CN202010437298.8A 2020-05-21 2020-05-21 一种基于时空注意力增强特征融合网络的行为识别方法 Active CN111709304B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010437298.8A CN111709304B (zh) 2020-05-21 2020-05-21 一种基于时空注意力增强特征融合网络的行为识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010437298.8A CN111709304B (zh) 2020-05-21 2020-05-21 一种基于时空注意力增强特征融合网络的行为识别方法

Publications (2)

Publication Number Publication Date
CN111709304A CN111709304A (zh) 2020-09-25
CN111709304B true CN111709304B (zh) 2023-05-05

Family

ID=72538792

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010437298.8A Active CN111709304B (zh) 2020-05-21 2020-05-21 一种基于时空注意力增强特征融合网络的行为识别方法

Country Status (1)

Country Link
CN (1) CN111709304B (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112257911B (zh) * 2020-10-13 2024-03-26 杭州电子科技大学 基于并行时空注意力机制的tcn多元时间序列预测方法
CN112434608B (zh) * 2020-11-24 2023-02-28 山东大学 一种基于双流结合网络的人体行为识别方法及系统
CN112598620B (zh) * 2020-11-25 2022-11-15 哈尔滨工程大学 尿沉渣中透明管型、病理管型以及粘液丝的识别方法
CN112633077B (zh) * 2020-12-02 2024-05-24 特斯联科技集团有限公司 一种基于层内多尺度特征增强的人脸检测方法、系统、存储介质及终端
CN112464835A (zh) * 2020-12-03 2021-03-09 北京工商大学 一种基于时序增强模块的视频人体行为识别方法
CN112446372B (zh) * 2020-12-08 2022-11-08 电子科技大学 基于通道分组注意力机制的文本检测方法
CN112489092B (zh) * 2020-12-09 2023-10-31 浙江中控技术股份有限公司 细粒度工业运动模态分类方法、存储介质、设备和装置
CN112818843B (zh) * 2021-01-29 2022-08-26 山东大学 基于通道注意力导向时间建模的视频行为识别方法及系统
CN112926453B (zh) * 2021-02-26 2022-08-05 电子科技大学 基于运动特征增强和长时时序建模的考场作弊行为分析方法
CN113222904B (zh) * 2021-04-21 2023-04-07 重庆邮电大学 改进PoolNet网络结构的混凝土路面裂缝检测方法
CN114037930B (zh) * 2021-10-18 2022-07-12 苏州大学 基于时空增强网络的视频动作识别方法
CN115100740B (zh) * 2022-06-15 2024-04-05 东莞理工学院 一种人体动作识别和意图理解方法、终端设备及存储介质
CN117079352A (zh) * 2023-10-17 2023-11-17 山东大学 一种基于视频序列的人体动作识别方法、系统及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109101896A (zh) * 2018-07-19 2018-12-28 电子科技大学 一种基于时空融合特征和注意力机制的视频行为识别方法
CN110188239A (zh) * 2018-12-26 2019-08-30 北京大学 一种基于跨模态注意力机制的双流视频分类方法和装置
CN110188637A (zh) * 2019-05-17 2019-08-30 西安电子科技大学 一种基于深度学习的行为识别技术方法
CN110569773A (zh) * 2019-08-30 2019-12-13 江南大学 基于时空显著性行为注意力的双流网络行为识别方法
CN110909658A (zh) * 2019-11-19 2020-03-24 北京工商大学 一种基于双流卷积网络的视频中人体行为识别方法
CN111178319A (zh) * 2020-01-06 2020-05-19 山西大学 基于压缩奖惩机制的视频行为识别方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109101896A (zh) * 2018-07-19 2018-12-28 电子科技大学 一种基于时空融合特征和注意力机制的视频行为识别方法
CN110188239A (zh) * 2018-12-26 2019-08-30 北京大学 一种基于跨模态注意力机制的双流视频分类方法和装置
CN110188637A (zh) * 2019-05-17 2019-08-30 西安电子科技大学 一种基于深度学习的行为识别技术方法
CN110569773A (zh) * 2019-08-30 2019-12-13 江南大学 基于时空显著性行为注意力的双流网络行为识别方法
CN110909658A (zh) * 2019-11-19 2020-03-24 北京工商大学 一种基于双流卷积网络的视频中人体行为识别方法
CN111178319A (zh) * 2020-01-06 2020-05-19 山西大学 基于压缩奖惩机制的视频行为识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
An Tran 等.Two-Stream Flow-Guided Convolutional Attention Networks for Action Recognition.《IEEE》.2017,全文. *

Also Published As

Publication number Publication date
CN111709304A (zh) 2020-09-25

Similar Documents

Publication Publication Date Title
CN111709304B (zh) 一种基于时空注意力增强特征融合网络的行为识别方法
Zhu et al. Aaformer: Auto-aligned transformer for person re-identification
CN109685072B (zh) 一种基于生成对抗网络的复合降质图像高质量重建方法
CN110378208B (zh) 一种基于深度残差网络的行为识别方法
CN111274921B (zh) 一种利用姿态掩模进行人体行为识别的方法
CN112669325A (zh) 一种基于主动式学习的视频语义分割方法
CN112418095A (zh) 一种结合注意力机制的面部表情识别方法及系统
CN109978021B (zh) 一种基于文本不同特征空间的双流式视频生成方法
CN110135386B (zh) 一种基于深度学习的人体动作识别方法和系统
CN111709306A (zh) 一种基于多层次时空特征融合增强的双流网络行为识别方法
CN113807176B (zh) 一种基于多知识融合的小样本视频行为识别方法
CN109948721A (zh) 一种基于视频描述的视频场景分类方法
Ma et al. Boosting broader receptive fields for salient object detection
CN115147456B (zh) 一种基于时序自适应卷积与注意力机制的目标跟踪方法
Jia et al. Stacked denoising tensor auto-encoder for action recognition with spatiotemporal corruptions
Gui et al. Learning multi-level domain invariant features for sketch re-identification
CN108259893B (zh) 基于双流卷积神经网络的虚拟现实视频质量评价方法
CN108446605B (zh) 复杂背景下双人交互行为识别方法
CN114373194A (zh) 基于关键帧与注意力机制的人体行为识别方法
CN110415261B (zh) 一种分区域训练的表情动画转换方法及系统
CN115439884A (zh) 一种基于双分支自注意力网络的行人属性识别方法
CN113326748B (zh) 一种采用多维相关注意力模型的神经网络行为识别方法
CN113850182A (zh) 基于DAMR_3DNet的动作识别方法
CN110070023A (zh) 一种基于运动顺序性回归的自监督学习方法及装置
Jiang et al. Cross-level reinforced attention network for person re-identification

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant