CN113326748A - 一种采用多维相关注意力模型的神经网络行为识别方法 - Google Patents

一种采用多维相关注意力模型的神经网络行为识别方法 Download PDF

Info

Publication number
CN113326748A
CN113326748A CN202110534440.5A CN202110534440A CN113326748A CN 113326748 A CN113326748 A CN 113326748A CN 202110534440 A CN202110534440 A CN 202110534440A CN 113326748 A CN113326748 A CN 113326748A
Authority
CN
China
Prior art keywords
dimensional
feature map
input
multiplication
activation function
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110534440.5A
Other languages
English (en)
Other versions
CN113326748B (zh
Inventor
李晓潮
詹健浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen University
Original Assignee
Xiamen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen University filed Critical Xiamen University
Priority to CN202110534440.5A priority Critical patent/CN113326748B/zh
Publication of CN113326748A publication Critical patent/CN113326748A/zh
Application granted granted Critical
Publication of CN113326748B publication Critical patent/CN113326748B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Software Systems (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

一种采用多维相关注意力模型的神经网络行为识别方法,属于计算机视觉、深度学习和行为识别技术领域。首先利用三维卷积神经网络对动作视频提取的RGB图像序列或者RGB图像和光流序列进行自动特征提取;然后利用多维相关注意力模型在特征图的基础上对多维注意力进行自动提取,利用提取到的时间、空间和特征通道上的显著区域,对生成的特征图进行加权融合并得到预测值,产生最后的行为识别结果。进一步探索时间、空间和特征通道三个维度间的多维相关性,进一步学习和增强时间、空间和特征通道上的显著性,从而提高视频分类的准确率。实验证明,在UCF‑101和HMDB‑51数据集上取得很好的效果,提高行为识别的准确率。

Description

一种采用多维相关注意力模型的神经网络行为识别方法
技术领域
本发明属于计算机视觉、深度学习和行为识别技术领域,尤其是涉及一种采用多维相关注意力模型的神经网络行为识别方法。
背景技术
在计算机视觉领域,人体行为识别技术主要是让计算机能够自动地判断和理解人体目前正在执行的动作。由于行为识别需要计算机具备类似于人的高层理解能力,因此是一项极具挑战性的工作。其在人机交互、视频检索、智能安全监控等场合发挥重要的作用和有着广泛的应用,所以人体行为识别技术的研究也是十分必要的。
行为识别已经成为计算机视觉领域的一个重点发展的方向。但是,目前还没有一个比较完善的行为识别系统,同时现有的行为识别效果还远达不到人脑的识别能力。由于卷积神经网络(CNN)在图像领域中的巨大成功以及其强大的学习能力,近年来越来越多研究将深度卷积神经网络应用于视频行为识别领域中,尤其是3维卷积神经网络(3D CNN)、RGB流和光流融合的双流技术和注意力机制等技术被广泛采用。Tran等人在2015年ICCV(International Conference on Computer Vision)会议文章“Learning spatiotemporalfeatures with 3d convolutional networks”中使用了3D CNN实现对时空信息的直接建模从而解决了传统2D CNN无法直接对时空信息进行直接建模的问题;Simonyan等人在2014年NIPS(Conference and Workshop on Neural Information Processing Systems)上发表的“Two-stream convolutional networks for action recognition in videos”提出了分别使用RGB图像对视频外观信息建模以及使用光流序列对运动信息进行建模,并将双流信息融合来进行预测;Crasto等人在2019年CVPR(IEEE Conference on ComputerVision and Pattern Recognition)上发表的“Mars:Motion-augmented rgb stream foraction recognition”中提出将单独训练好的光流模型在RGB模型训练过程中对其进行指导从而使RGB模型可以同时更好地学习外观信息和运动信息。3D CNN和双流技术被证明可以有效提升识别的准确率。
注意力机制的引入是为了解决视频中冗余或干扰信息影响视频分类预测结果的问题。对于行为识别任务来说,时间、空间、特征维度上不同部分对正确预测结果的贡献是不同的,如关键帧上包含正确识别该行为的特征信息,无动作或有其它动作的非关键帧上的信息甚至会误导分类结果,影响网络性能。为了解决这个问题,研究人员将注意力机制引入以关注显著性信息,有选择地提取时间、空间以及特征信息,抑制干扰信息。近年来在行为识别论文中采用注意力机制的有:Li等人在2020年IEEE Transactions on Multimedia上的“Spatio-temporal attention networks for action recognition and detection”中引入时空注意力机制来关注视频中的关键时间帧和空间位置;Meng等人在2019ICCVW(International Conference on Computer Vision Workshops)上的“Interpretablespatio-temporal attention for video action recognition”设计了时空注意力机制和一系列正则化器来注意力机制聚焦于时空相关部分。上述论文实验证明注意力机制的引入可以有效地提取显著性信息,提升模型性能。
采用注意力机制的行为识别专利有:授权号为CN107330362B的中国专利:“一种基于时空注意力的视频分类方法”提出一种基于时空注意力的视频分类方法,其时空注意力模型包括由卷积神经网络构成的空域注意力网络、有循环神经网络构成的时域注意力网络以及连接时域、空域注意力网络的连接网络,并对这三个组成部分进行联合训练。本发明与其不同之处在于:1.该专利采用2D CNN+LSTM结构进行视频分类,其中的空间注意力通过2DCNN、时间注意力通过LSTM分别提取。对比而言,而本发明采用3D CNN结构同时对空间、时间和特征通道进行注意力提取;2.该专利仅使用空间和时间注意力机制,而本发明提取空间、时间和特征通道上的注意力。对比而言,本发明增加了特征通道注意力模型;3.该专利的权利要求2中,空域注意力机制从特征通道和空间信息中提取,未包含时间信息;时域注意力机制从时间和特征通道信息中提取,未包含空间信息。对比而言,本发明的时间、空间和特征通道注意力模型在时间、空间和特征通道三个维度间分别提取三维相关性和二维相关性并融合得到时间、空间和特征通道多维相关性;4.由于该专利采用2D CNN+LSTM网络结构,无法同时对空间和时间注意力进行建模,因此该专利的权利要求3中使用连接网络来进行联合训练来建模时域空域显著性的联系,而本发明可以直接对时间和空间之间的相关性进行建模,不需要连接网络。授权号为CN107273800B的专利:“一种基于注意机制的卷积递归神经网络的动作识别方法”,提出一种基于注意机制的卷积递归神经网络的动作识别方法,首先通过卷积神经网络提取特征,并将特征输入到空间转换网络提取显著区域,最后将输出特征图输入到卷积递归神经网络进行视频分类。本发明与其不同之处在于:1.该专利采用2D CNN提取单帧图片特征并用LSTM进行时序建模的结构,注意力通过2D CNN最后一层的空间转换网络提取,而本发明整体结构采用3D CNN直接对时空信息进行建模,注意力通过提出的多维相关注意力模型进行提取;2.该专利的权利要求1中将最后卷积层输出的特征图输入空间转换网络提取显著区域后输入卷积递归神经网络进行视频分类,注意力的提取无法放在网络其他位置,而本发明提出的是在3D CNN中通用的注意力模型,可以插入到网络的任意层或堆叠使用以加强注意力的建模能力;3.该专利的权利要求1、2中将最后一个卷积层的特征图加上时间序列直接输入到含定位网络和网格生成器的空间转换网络中进行注意力提取,输入信息仅含时间、特征通道2个维度信息,而本发明的时间、空间和特征通道注意力模型在时间、空间和特征通道三个维度间分别提取三维相关性和二维相关性并融合得到时间、空间和特征通道多维相关性。
由于视频信息包含时间、空间和特征通道三个维度的信息,三个维度之间互相具有相关性,本专利基于3D CNN和RGB/光流融合结构提出了一种采用多维相关注意力模型的神经网络行为识别方法,用于提取时间、空间和特征通道三个维度之间的多维相关性,其包含二维相关性和三维相关性的融合,并利用提取到的时间、空间和特征通道上的显著区域,对生成的特征图进行加权融合并得到预测值,产生最后的行为识别结果。
发明内容
本发明的目的是提供进一步探索时间、空间和特征通道三个维度间的多维相关性,进一步学习和增强时间、空间和特征通道上的显著性,从而提高视频分类准确率的一种采用多维相关注意力模型的神经网络行为识别方法。本发明基于三维卷积神经网络,而三维卷积神经网络主要由多个3维卷积层和一个全连接层组成,可以同时对空间和时间维度进行卷积。
本发明包括以下步骤:
1)将动作视频对应的单独RGB图像序列(单流输入)或RGB图像与光流序列(双流输入)输入到三维卷积神经网络(3D-CNN)通过N个3维卷积层进行特征提取,获得对应的特征图;
2)将提取到的特征图输入到K个结合多维相关注意力模型的3维卷积层进行处理,输出经注意力加权处理后的特征图;
3)经注意力加权处理后的特征图经过全局平均池化并将其经过全连接层输出得到一个长度与视频分类数相同的预测矩阵,该矩阵对应位值即为该类行为识别的得分;然后将预测矩阵通过非线性softmax函数计算得到各类视频行为识别的预测概率值。
4)对于双流输入,将RGB图像和光流序列得到的预测概率值求平均值即可得到该动作视频的双流预测结果。
在步骤2)中,所述将提取到的特征图输入到K个结合多维相关注意力模型的3维卷积层进行处理的具体步骤如下:
(1)将输入特征图作为特征图1输入到时间多维相关注意力模型,得到时间多维相关注意力权重,并利用该权重对特征图1进行加权处理得到特征图2;
(2)将特征图2输入到空间多维相关注意力模型,得到空间多维相关注意力权重,并利用该权重对特征图2进行加权处理得到特征图3;
(3)将特征图3输入到特征通道多维相关注意力模型,得到特征通道多维相关注意力权重,并利用该权重对特征图3进行加权处理得到特征图4,作为下一层卷积网络的输入。
在步骤(1)中,所述时间多维相关注意力模型包括3个分支:分支1将输入特征图Xt调整成
Figure BDA0003069258660000041
三维数组,而后采用平均池化(P)生成
Figure BDA0003069258660000042
二维数组,将其分别与参数矩阵At1、Et1相乘后输入到ReLU激活函数,再与参数矩阵St1相乘后输入到Sigmoid激活函数得到时间和特征通道二维相关注意力权重Wt,c;分支2将输入特征图Xt调整成
Figure BDA0003069258660000043
二维数组,将其分别与参数矩阵At2、Et2相乘后输入到ReLU激活函数,再与参数矩阵St2相乘后输入到Sigmoid激活函数得到时间、特征通道和空间三维相关注意力权重Wt,c,s;分支3将输入特征图Xt调整成
Figure BDA0003069258660000044
三维数组,通过平均池化(P)生成
Figure BDA0003069258660000045
二维数组,将其分别与参数矩阵At3、Et3相乘后输入到ReLU激活函数,再与参数矩阵St3相乘后输入到Sigmoid激活函数得到时间和空间二维相关注意力权重Wt,s;将Wt,c、Wt,c,s、Wt,s融合(F)后得到时间多维相关注意力权重Wt;对于输入特征图
Figure BDA0003069258660000046
Figure BDA0003069258660000047
其中,C表示特征通道数,T表示时间,H、W表示特征图的高和宽。
在步骤(2)中,所述空间多维相关注意力模型包括3个分支:分支1将输入特征图Xs调整成
Figure BDA0003069258660000048
三维数组,接着通过平均池化(P)生成
Figure BDA0003069258660000049
数组,将其分别与参数矩阵As1、Es1相乘后输入到ReLU激活函数,再与参数矩阵Ss1相乘后输入到Sigmoid激活函数得到时间和特征通道二维相关注意力权重Ws,t;分支2将输入特征图Xs调整成
Figure BDA00030692586600000410
二维数组,将其分别与参数矩阵As2、Es2相乘后输入到ReLU激活函数,再与参数矩阵Ss2相乘后输入到Sigmoid激活函数得到时间、特征通道和空间三维相关注意力权重Ws,t,c;分支3将输入特征图Xs调整成
Figure BDA00030692586600000411
三维数组,通过平均池化(P)生成
Figure BDA00030692586600000412
二维数组,将其分别与参数矩阵As3、Es3相乘后输入到ReLU激活函数,再与参数矩阵Ss3相乘后输入到Sigmoid激活函数得到时间和空间二维相关注意力权重Wx,c;将Ws,t、Ws,t,c、Ws,c融合(F)后得到空间多维相关注意力权重Ws
在步骤(3)中,所述特征通道多维相关注意力模型包括3个分支:分支1将输入特征图Xc调整成
Figure BDA0003069258660000051
三维数组,接着通过平均池化(P)生成
Figure BDA0003069258660000052
二维数组,将其分别与参数矩阵Ac1、Ec1相乘后输入到ReLU激活函数,再与参数矩阵Sc1相乘后输入到Sigmoid激活函数得到时间和特征通道二维相关注意力权重Wc,t;分支2将输入特征图Xc调整成
Figure BDA0003069258660000053
二维数组,将其分别与参数矩阵Ac2、Ec2相乘后输入到ReLU激活函数,再与参数矩阵Sc2相乘后输入到Sigmoid激活函数得到时间、特征通道和空间三维相关注意力权重Wc,t,s;分支3将输入特征图Xc调整成
Figure BDA0003069258660000054
三维数组,并通过平均池化(P)生成
Figure BDA0003069258660000055
二维数组,将其分别与参数矩阵Ac3、Ec3相乘后输入到ReLU激活函数,再与参数矩阵Sc3相乘后输入到Sigmoid激活函数得到时间和空间二维相关注意力权重Wc,s;将Wc,t、Wc,t,s、Wc,s融合(F)后得到特征通道多维相关注意力权重Wc。
本发明首先利用三维卷积神经网络对动作视频提取的RGB图像序列或者RGB图像和光流序列进行自动特征提取;然后利用多维相关注意力模型在特征图的基础上对多维注意力进行自动提取,利用提取到的时间、空间和特征通道上的显著区域,对生成的特征图进行加权融合并得到预测值,产生最后的行为识别结果。
与现有方法相比,本发明可以取得更高的行为识别的准确率。行为识别的准确率指标是指测试数据集中被正确识别的视频数量和测试数据集的视频总数量之间的比值,准确率越高,说明行为识别的结果越好。实验证明,本发明方法在UCF-101和HMDB-51数据集上取得很好的效果,提高行为识别的准确率。
附图说明
图1为本发明方法整体结构示意图。
图2为本发明的时间多维相关注意力模型的具体设计示意图。
图3为本发明的空间多维相关注意力模型的具体设计示意图。
图4为本发明的特征通道多维相关注意力的模型具体设计示意图。
具体实施方式
下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进。
本发明提出一种采用多维相关注意力模型的神经网络行为识别方法,包括时间、空间、特征通道多维相关注意力模型,参考图2~4所示。下面结合附图和具体实施例对本发明作进一步详细的描述。
本发明提出的一种采用多维相关注意力模型的神经网络行为识别方法的整体结构如图1所示,包括以下步骤:
1)输入动作视频对应的单独RGB图像序列(单流输入)或者RGB图像和光流序列(双流输入)到N个3维卷积层的进行特征提取,获得对应的特征图。其中,RGB和光流序列分别用图1中标号中首位的1、2来表示,N表示3维卷积层的层数,K表示结合多维相关注意力模型的3维卷积层个数,在本实施例中,K=3。
2)将提取到的特征图输入到K个结合多维相关注意力模型的3维卷积层进行处理,输出经注意力加权处理后的特征图。
3)结合多维相关注意力模型的3维卷积层如图1中1(N+1)虚线框展开所示,将3维卷积得到的特征图1输入到时间多维相关注意力模型,得到时间多维相关注意力权重,并用该权重对特征图1进行加权处理得到特征图2;将特征图2输入到空间多维相关注意力模型,得到空间多维相关注意力权重,并用该权重对特征图2进行加权处理得到特征图3;将特征图3输入到特征通道多维相关注意力模型,得到特征通道多维相关注意力权重,并用该权重对特征图3进行加权处理得到特征图4,作为下一层卷积网络的输入。时间、空间和特征通道多维相关注意力模型之间的顺序在实际实施时可以改变。
4)经注意力加权处理后的特征图经过全局平均池化并将其经过全连接层输出得到一个长度与视频分类数相同的预测矩阵,该矩阵对应位值即为该类行为识别的得分;最后将预测矩阵通过非线性softmax函数计算得到各类视频行为识别的预测概率值。
5)对于双流输入而言,将RGB图像和光流序列得到的预测概率值求平均值即可得到该动作视频的双流预测结果。
上述技术方案步骤3)中的时间多维相关注意力模型如图2所示,它包括3个分支:
(1)分支1:将输入特征图
Figure BDA0003069258660000061
进行转置调整得到
Figure BDA0003069258660000062
而后采用平均池化(P)进行对Xt,c的空间维度进行映射,得到
Figure BDA0003069258660000071
Figure BDA0003069258660000072
然后将X′t,c分别与参数矩阵At1、Et1相乘后输入到ReLU激活函数,再与参数矩阵St1相乘后输入到Sigmoid激活函数得到时间和特征通道二维相关注意力权重
Figure BDA0003069258660000073
Figure BDA0003069258660000074
其中,下标t,c,s分别表示时间、空间、特征通道维度,S、E、A分别代表用于相关性建模的参数矩阵,r是一个进行参数缩放的尺度参数,这里的
Figure BDA0003069258660000075
表示矩阵乘,ψ、δ分别代表ReLU和Sigmoid非线性激活函数,W代表相关性建模的结果权重。
(2)分支2:将输入特征图Xt进行转置调整得到
Figure BDA0003069258660000076
将Xt,c,s分别与参数矩阵At2、Et2相乘后输入到ReLU激活函数,再与参数矩阵St2相乘后输入到Sigmoid激活函数得到时间、特征通道和空间三维相关注意力权重
Figure BDA0003069258660000077
Figure BDA0003069258660000078
(3)分支3:将输入特征图Xt进行转置调整得到
Figure BDA0003069258660000079
而后采用平均池化(P)对Xt,s的特征通道维度信息进行映射,得到
Figure BDA00030692586600000710
Figure BDA00030692586600000711
将X′t,s分别与参数矩阵At3、Et3相乘后输入到ReLU激活函数,再与参数矩阵St3相乘后输入到Sigmoid激活函数得到时间和空间二维相关注意力权重
Figure BDA00030692586600000712
Figure BDA00030692586600000713
将Wt,c、Wt,c,s和Wt,s通过各注意力权重按位加并取均值的方法进行融合(F)得到时间多维相关注意力权重
Figure BDA00030692586600000714
Figure BDA00030692586600000715
其中,
Figure BDA00030692586600000716
表示按位加操作。
上述技术方案步骤3)中的空间多维相关注意力模型如图3所示,它包括3个分支:
(1)分支1:将输入特征图
Figure BDA0003069258660000081
进行转置调整得到
Figure BDA0003069258660000082
而后采用平均池化(P)对Xs,t的特征通道维度信息进行映射,得到
Figure BDA0003069258660000083
Figure BDA0003069258660000084
将Xs,t分别与参数矩阵As1、Es1相乘后输入到ReLU激活函数,再与参数矩阵Ss1相乘后输入到Sigmoid激活函数得到空间和时间二维相关注意力权重
Figure BDA0003069258660000085
Figure BDA0003069258660000086
(2)分支2:将输入特征图Xs进行转置后得到
Figure BDA0003069258660000087
将Xs,t,c分别与参数矩阵As2、Es2相乘后输入到ReLU激活函数,再与参数矩阵Ss2相乘后输入到Sigmoid激活函数得到空间、时间和特征通道三维相关注意力权重
Figure BDA0003069258660000088
Figure BDA0003069258660000089
(3)分支3:将输入特征图Xs进行转置后得到
Figure BDA00030692586600000810
而后采用平均池化(P)对Xs,c的时间维度信息进行映射,得到
Figure BDA00030692586600000811
Figure BDA00030692586600000812
将X′s,c分别与参数矩阵As3、Es3相乘后输入到ReLU激活函数,再与参数矩阵Ss3相乘后输入到Sigmoid激活函数得到空间和特征通道二维相关注意力权重
Figure BDA00030692586600000813
Figure BDA00030692586600000814
将Ws,t、Ws,t,c和Ws,c通过各注意力权重按位加并取均值的方法进行融合(F)得到空间多维相关注意力权重
Figure BDA00030692586600000815
Figure BDA00030692586600000819
其中,
Figure BDA00030692586600000820
表示按位加操作。
上述技术方案步骤3)中的特征通道多维相关注意力模型如图4所示,它包括3个分支:
(1)分支1:将输入特征图
Figure BDA00030692586600000816
进行转置调整得到
Figure BDA00030692586600000817
而后采用平均池化(P)对Xc,t的空间维度信息进行映射,得到
Figure BDA00030692586600000818
Figure BDA0003069258660000091
将X′c,t分别与参数矩阵Ac1、Ec1相乘后输入到ReLU激活函数,再与参数矩阵Sc1相乘后输入到Sigmoid激活函数得到特征通道和时间二维相关注意力权重
Figure BDA0003069258660000092
Figure BDA0003069258660000093
(2)分支2:将输入特征图Xc进行转置调整得到
Figure BDA0003069258660000094
将Xc,t,s分别与参数矩阵Ac2、Ec2相乘后输入到ReLU激活函数,再与参数矩阵Sc2相乘后输入到Sigmoid激活函数得到特征通道、时间和空间三维相关注意力权重
Figure BDA0003069258660000095
Figure BDA0003069258660000096
(3)分支3:将输入特征图Xc进行转置后得到
Figure BDA0003069258660000097
而后采用平均池化(P)对Xc,s的时间维度信息进行映射,得到
Figure BDA0003069258660000098
Figure BDA0003069258660000099
将X′c,s分别与参数矩阵Ac3、Ec3相乘后输入到ReLU激活函数,再与参数矩阵Sc3相乘后输入到Sigmoid激活函数得到特征通道和空间二维相关注意力权重
Figure BDA00030692586600000910
Figure BDA00030692586600000911
将Wc,t、Wc,t,s和Wc,s通过权重按位加并取均值方法进行融合(F)得到特征通道多维相关注意力权重
Figure BDA00030692586600000912
Figure BDA00030692586600000915
其中,
Figure BDA00030692586600000916
表示按位加操作。
此外,本发明对使用的参数矩阵进行初始化,解决训练难以收敛的问题。图2~4中的参数矩阵At、As、Ac,初始化值分别为:
Figure BDA00030692586600000913
X.shape[0]代表矩阵X(此处指At、As、Ac)的行数;对于Et、Es、Ec、St、Ss、Sc而言,初始化值为:
Figure BDA00030692586600000914
X.shape[1]代表矩阵X的列数;该初始化可使初始状态下输入特征图经各参数矩阵相乘后的尺度稳定在原范围,经过Sigmoid激活函数后不会出现梯度消失导致难以训练的情况。
此外,由于多个相关性权重的融合会导致权重尺度的变化,为避免模型难以训练、减少训练震荡的情况,本发明对经注意力权重融合后得到的时间、空间、特征通道多维相关注意力权重进行尺度缩放:
Figure BDA0003069258660000101
其中,n为权重矩阵W的元素个数,W′为尺度缩放后的权重矩阵。尺度缩放可以使得输入特征图经过多个多维相关注意力模型加权后的尺度也能保持一致,加快训练速度,减少训练的震荡。
本发明使用公开的、在行为识别通用的UCF-101和HMDB-51数据集进行有效性验证。其中,所有对比实验皆采用双流结果进行对比。
现有方法1:Simonyan等人在2014年NIPS(Conference and Workshop on NeuralInformation Processing Systems)上发表的“Two-stream convolutional networks foraction recognition in videos”中提出的方法。
现有方法2:Crasto等人在2019年CVPR(IEEE Conference on Computer Visionand Pattern Recognition)上发表的“Mars:Motion-augmented rgb stream for actionrecognition”中提出的方法。
现有方法3:Li等人在2020年IEEE Transactions on Multimedia中发表的“Spatio-temporal attention networks for action recognition and detection”中提出的方法。
表1行为识别准确率对比结果
方法 UCF101 HMDB51
现有方法一 88.0% 59.4%
现有方法二 98.1% 80.9%
现有方法三 98.4% 81.4%
本发明实施例方法 98.4% 81.9%
从表1可见,采用本发明提出的多维相关注意力模型的神经网络行为识别方法,在UCF101和HMDB51数据集上的行为识别准确率分别提高到98.4%和81.9%,证明本发明提出的多维相关注意力模型可以更加有效、全面地从时间、空间以及特征通道信息中提取对分类有效的关键注意力信息,从而提高行为识别准确率;在实现原理上看,与现有方法相比,本发明不仅从输入特征图的三个维度中提取三维相关性,还提取其中两两维度间的二维相关性,并对它们进行融合得到多维相关性,从而使得视频在时间、空间、特征通道上的显著性信息更加准确。

Claims (5)

1.一种采用多维相关注意力模型的神经网络行为识别方法,其特征在于包括以下步骤:
1)将动作视频对应的单独RGB图像序列或RGB图像与光流序列输入到三维卷积神经网络通过N个3维卷积层进行特征提取,获得对应的特征图;
2)将提取到的特征图输入到K个结合多维相关注意力模型的3维卷积层进行处理,输出经注意力加权处理后的特征图;
3)经注意力加权处理后的特征图经过全局平均池化并将其经过全连接层输出得到一个长度与视频分类数相同的预测矩阵,该矩阵对应位值即为该类行为识别的得分;然后将预测矩阵通过非线性softmax函数计算得到各类视频行为识别的预测概率值;
4)对于双流输入,将RGB图像和光流序列得到的预测概率值求平均值即得到该动作视频的双流预测结果。
2.如权利要求1所述一种采用多维相关注意力模型的神经网络行为识别方法,其特征在于在步骤2)中,所述将提取到的特征图输入到K个结合多维相关注意力模型的3维卷积层进行处理的具体步骤如下:
(1)将输入特征图作为特征图1输入到时间多维相关注意力模型,得到时间多维相关注意力权重,并利用该权重对特征图1进行加权处理得到特征图2;
(2)将特征图2输入到空间多维相关注意力模型,得到空间多维相关注意力权重,并利用该权重对特征图2进行加权处理得到特征图3;
(3)将特征图3输入到特征通道多维相关注意力模型,得到特征通道多维相关注意力权重,并利用该权重对特征图3进行加权处理得到特征图4,作为下一层卷积网络的输入。
3.如权利要求2所述一种采用多维相关注意力模型的神经网络行为识别方法,其特征在于在步骤(1)中,所述时间多维相关注意力模型包括3个分支:分支1将输入特征图Xt调整成
Figure FDA0003069258650000011
三维数组,而后采用平均池化(P)生成
Figure FDA0003069258650000012
二维数组,将其分别与参数矩阵At1、Et1相乘后输入到ReLU激活函数,再与参数矩阵St1相乘后输入到Sigmoid激活函数得到时间和特征通道二维相关注意力权重Wt,c;分支2将输入特征图Xt调整成Xt,c,s
Figure FDA0003069258650000013
二维数组,将其分别与参数矩阵At2、Et2相乘后输入到ReLU激活函数,再与参数矩阵St2相乘后输入到Sigmoid激活函数得到时间、特征通道和空间三维相关注意力权重Wt,c,s;分支3将输入特征图Xt调整成
Figure FDA0003069258650000021
三维数组,通过平均池化(P)生成
Figure FDA0003069258650000022
二维数组,将其分别与参数矩阵At3、Et3相乘后输入到ReLU激活函数,再与参数矩阵St3相乘后输入到Sigmoid激活函数得到时间和空间二维相关注意力权重Wt,s;将Wt,c、Wt,c,s、Wt,s融合(F)后得到时间多维相关注意力权重Wt;对于输入特征图
Figure FDA0003069258650000023
其中,C表示特征通道数,T表示时间,H、W表示特征图的高和宽。
4.如权利要求2所述一种采用多维相关注意力模型的神经网络行为识别方法,其特征在于在步骤(2)中,所述空间多维相关注意力模型包括3个分支:分支1将输入特征图Xs调整成
Figure FDA0003069258650000024
三维数组,接着通过平均池化(P)生成
Figure FDA0003069258650000025
数组,将其分别与参数矩阵As1、Es1相乘后输入到ReLU激活函数,再与参数矩阵Ss1相乘后输入到Sigmoid激活函数得到时间和特征通道二维相关注意力权重Ws,t;分支2将输入特征图Xs调整成
Figure FDA0003069258650000026
二维数组,将其分别与参数矩阵As2、Es2相乘后输入到ReLU激活函数,再与参数矩阵Ss2相乘后输入到Sigmoid激活函数得到时间、特征通道和空间三维相关注意力权重Ws,t,c;分支3将输入特征图Xs调整成
Figure FDA0003069258650000027
三维数组,通过平均池化(P)生成
Figure FDA0003069258650000028
二维数组,将其分别与参数矩阵As3、Es3相乘后输入到ReLU激活函数,再与参数矩阵Ss3相乘后输入到Sigmoid激活函数得到时间和空间二维相关注意力权重Ws,c;将Ws,t、Ws,t,c、Ws,c融合(F)后得到空间多维相关注意力权重Ws
5.如权利要求2所述一种采用多维相关注意力模型的神经网络行为识别方法,其特征在于在步骤(3)中,所述特征通道多维相关注意力模型包括3个分支:分支1将输入特征图Xc调整成
Figure FDA0003069258650000029
三维数组,接着通过平均池化(P)生成
Figure FDA00030692586500000210
二维数组,将其分别与参数矩阵Ac1、Ec1相乘后输入到ReLU激活函数,再与参数矩阵Sc1相乘后输入到Sigmoid激活函数得到时间和特征通道二维相关注意力权重Wc,t;分支2将输入特征图Xc调整成
Figure FDA00030692586500000211
二维数组,将其分别与参数矩阵Ac2、Ec2相乘后输入到ReLU激活函数,再与参数矩阵Sc2相乘后输入到Sigmoid激活函数得到时间、特征通道和空间三维相关注意力权重c,t,s;分支3将输入特征图Xc调整成
Figure FDA00030692586500000212
三维数组,并通过平均池化(P)生成
Figure FDA00030692586500000213
二维数组,将其分别与参数矩阵Ac3、Ec3相乘后输入到ReLU激活函数,再与参数矩阵Sc3相乘后输入到Sigmoid激活函数得到时间和空间二维相关注意力权重Wc,s;将Wc,tc,t,s、Wc,s融合(F)后得到特征通道多维相关注意力权重Wc
CN202110534440.5A 2021-05-17 2021-05-17 一种采用多维相关注意力模型的神经网络行为识别方法 Active CN113326748B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110534440.5A CN113326748B (zh) 2021-05-17 2021-05-17 一种采用多维相关注意力模型的神经网络行为识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110534440.5A CN113326748B (zh) 2021-05-17 2021-05-17 一种采用多维相关注意力模型的神经网络行为识别方法

Publications (2)

Publication Number Publication Date
CN113326748A true CN113326748A (zh) 2021-08-31
CN113326748B CN113326748B (zh) 2022-06-14

Family

ID=77415673

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110534440.5A Active CN113326748B (zh) 2021-05-17 2021-05-17 一种采用多维相关注意力模型的神经网络行为识别方法

Country Status (1)

Country Link
CN (1) CN113326748B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115116134A (zh) * 2022-06-15 2022-09-27 北京市地铁运营有限公司 基于2维和3维cnn的人体行为检测方法及系统
WO2023060459A1 (en) * 2021-10-13 2023-04-20 Intel Corporation Sample-adaptive 3d feature calibration and association agent
WO2023097423A1 (en) * 2021-11-30 2023-06-08 Intel Corporation Apparatus and method for dynamic quadruple convolution in 3d cnn

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107330362A (zh) * 2017-05-25 2017-11-07 北京大学 一种基于时空注意力的视频分类方法
CN107609460A (zh) * 2017-05-24 2018-01-19 南京邮电大学 一种融合时空双重网络流和attention机制的人体行为识别方法
CN110188637A (zh) * 2019-05-17 2019-08-30 西安电子科技大学 一种基于深度学习的行为识别技术方法
CN111627052A (zh) * 2020-04-30 2020-09-04 沈阳工程学院 一种基于双流时空注意力机制的动作识别方法
CN111931602A (zh) * 2020-07-22 2020-11-13 北方工业大学 基于注意力机制的多流分段网络人体动作识别方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107609460A (zh) * 2017-05-24 2018-01-19 南京邮电大学 一种融合时空双重网络流和attention机制的人体行为识别方法
CN107330362A (zh) * 2017-05-25 2017-11-07 北京大学 一种基于时空注意力的视频分类方法
CN110188637A (zh) * 2019-05-17 2019-08-30 西安电子科技大学 一种基于深度学习的行为识别技术方法
CN111627052A (zh) * 2020-04-30 2020-09-04 沈阳工程学院 一种基于双流时空注意力机制的动作识别方法
CN111931602A (zh) * 2020-07-22 2020-11-13 北方工业大学 基于注意力机制的多流分段网络人体动作识别方法及系统

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
LILI MENG ET AL.: "Interpretable spatio-temporal attention for video action recognition", 《2019 IEEE/CVF INTERNATIONAL CONFERENCE ON COMPUTER VISION WORKSHOP (ICCVW)》, 5 March 2020 (2020-03-05) *
XIAOCHAO LI ET AL.: "Inter-Dimensional Correlations Aggregated Attention Network for Action Recognition", 《IEEE ACESS》, vol. 9, 26 July 2021 (2021-07-26), XP011869914, DOI: 10.1109/ACCESS.2021.3099163 *
宦睿智: "基于注意力机制的长时程特征融合的视频行为识别研究与实现", 《中国优秀硕士学位论文全文数据库 信息科技辑》, no. 2, 15 February 2020 (2020-02-15), pages 138 - 1812 *
张家想 等: "结合时空注意力机制和自适应图卷积网络的骨架行为识别", 《工业控制计算机》, vol. 33, no. 7, 23 April 2021 (2021-04-23) *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023060459A1 (en) * 2021-10-13 2023-04-20 Intel Corporation Sample-adaptive 3d feature calibration and association agent
WO2023097423A1 (en) * 2021-11-30 2023-06-08 Intel Corporation Apparatus and method for dynamic quadruple convolution in 3d cnn
CN115116134A (zh) * 2022-06-15 2022-09-27 北京市地铁运营有限公司 基于2维和3维cnn的人体行为检测方法及系统
CN115116134B (zh) * 2022-06-15 2024-08-02 北京市地铁运营有限公司 基于2维和3维cnn的人体行为检测方法及系统

Also Published As

Publication number Publication date
CN113326748B (zh) 2022-06-14

Similar Documents

Publication Publication Date Title
CN113326748B (zh) 一种采用多维相关注意力模型的神经网络行为识别方法
CN109961034B (zh) 基于卷积门控循环神经单元的视频目标检测方法
CN110706157B (zh) 一种基于身份先验生成对抗网络的人脸超分辨率重建方法
CN113496217B (zh) 视频图像序列中人脸微表情识别方法
CN108229338B (zh) 一种基于深度卷积特征的视频行为识别方法
US20230196633A1 (en) Method of image reconstruction for cross-modal communication system and device thereof
Ge et al. An attention mechanism based convolutional LSTM network for video action recognition
CN111709304B (zh) 一种基于时空注意力增强特征融合网络的行为识别方法
CN110516536B (zh) 一种基于时序类别激活图互补的弱监督视频行为检测方法
Ma et al. Boosting broader receptive fields for salient object detection
CN113011329A (zh) 一种基于多尺度特征金字塔网络及密集人群计数方法
CN113743269B (zh) 一种轻量化识别视频人体姿态的方法
Weiyao et al. Fusion of skeleton and RGB features for RGB-D human action recognition
CN107392131A (zh) 一种基于人体骨骼节点距离的动作识别方法
CN112036276A (zh) 一种人工智能视频问答方法
CN111311702A (zh) 一种基于BlockGAN的图像生成和识别模块及方法
CN116311353A (zh) 基于特征融合的密集行人多目标跟踪方法、计算机设备和存储介质
CN111242003B (zh) 一种基于多尺度受约束自注意机制的视频显著性物体检测的方法
CN111242181B (zh) 基于图像语义和细节的rgb-d显著性物体检测器
CN105956604B (zh) 一种基于两层时空邻域特征的动作识别方法
Gao et al. Adaptive random down-sampling data augmentation and area attention pooling for low resolution face recognition
CN117275095A (zh) 基于伪三维残差卷积网络的视频人体异常行为识别方法
CN111274901B (zh) 一种基于深度门控递归单元的手势深度图像连续检测方法
CN108711147A (zh) 一种基于卷积神经网络的显著性融合检测算法
CN116935316A (zh) 联合高分辨率CNN和轻量级Transformer的密集人群计数方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant