CN113326748A - 一种采用多维相关注意力模型的神经网络行为识别方法 - Google Patents
一种采用多维相关注意力模型的神经网络行为识别方法 Download PDFInfo
- Publication number
- CN113326748A CN113326748A CN202110534440.5A CN202110534440A CN113326748A CN 113326748 A CN113326748 A CN 113326748A CN 202110534440 A CN202110534440 A CN 202110534440A CN 113326748 A CN113326748 A CN 113326748A
- Authority
- CN
- China
- Prior art keywords
- dimensional
- feature map
- input
- multiplication
- activation function
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 41
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 21
- 230000004927 fusion Effects 0.000 claims abstract description 14
- 230000003287 optical effect Effects 0.000 claims abstract description 12
- 238000000605 extraction Methods 0.000 claims abstract description 7
- 239000011159 matrix material Substances 0.000 claims description 71
- 230000004913 activation Effects 0.000 claims description 56
- 238000011176 pooling Methods 0.000 claims description 21
- 238000012545 processing Methods 0.000 claims description 19
- 238000012935 Averaging Methods 0.000 claims description 17
- 230000009471 action Effects 0.000 claims description 15
- 238000003491 array Methods 0.000 claims description 12
- 230000002123 temporal effect Effects 0.000 claims description 11
- 101100400452 Caenorhabditis elegans map-2 gene Proteins 0.000 claims description 9
- 101150064138 MAP1 gene Proteins 0.000 claims description 6
- 230000001419 dependent effect Effects 0.000 claims description 2
- 230000006399 behavior Effects 0.000 abstract description 36
- 238000002474 experimental method Methods 0.000 abstract description 4
- NVNSXBXKNMWKEJ-UHFFFAOYSA-N 5-[[5-(2-nitrophenyl)furan-2-yl]methylidene]-1,3-diphenyl-2-sulfanylidene-1,3-diazinane-4,6-dione Chemical compound [O-][N+](=O)C1=CC=CC=C1C(O1)=CC=C1C=C1C(=O)N(C=2C=CC=CC=2)C(=S)N(C=2C=CC=CC=2)C1=O NVNSXBXKNMWKEJ-UHFFFAOYSA-N 0.000 abstract description 3
- 230000000694 effects Effects 0.000 abstract description 3
- 238000013135 deep learning Methods 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 40
- 238000013527 convolutional neural network Methods 0.000 description 20
- 230000007246 mechanism Effects 0.000 description 13
- 239000000284 extract Substances 0.000 description 9
- 230000017105 transposition Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 7
- 238000012549 training Methods 0.000 description 7
- 238000013507 mapping Methods 0.000 description 5
- 238000006243 chemical reaction Methods 0.000 description 4
- 238000013461 design Methods 0.000 description 3
- 230000000306 recurrent effect Effects 0.000 description 3
- 239000004576 sand Substances 0.000 description 3
- 230000035582 behavioral recognition Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000010365 information processing Effects 0.000 description 2
- 230000001537 neural effect Effects 0.000 description 2
- 238000003909 pattern recognition Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 210000004556 brain Anatomy 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000010355 oscillation Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000035939 shock Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Software Systems (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Human Computer Interaction (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
一种采用多维相关注意力模型的神经网络行为识别方法,属于计算机视觉、深度学习和行为识别技术领域。首先利用三维卷积神经网络对动作视频提取的RGB图像序列或者RGB图像和光流序列进行自动特征提取;然后利用多维相关注意力模型在特征图的基础上对多维注意力进行自动提取,利用提取到的时间、空间和特征通道上的显著区域,对生成的特征图进行加权融合并得到预测值,产生最后的行为识别结果。进一步探索时间、空间和特征通道三个维度间的多维相关性,进一步学习和增强时间、空间和特征通道上的显著性,从而提高视频分类的准确率。实验证明,在UCF‑101和HMDB‑51数据集上取得很好的效果,提高行为识别的准确率。
Description
技术领域
本发明属于计算机视觉、深度学习和行为识别技术领域,尤其是涉及一种采用多维相关注意力模型的神经网络行为识别方法。
背景技术
在计算机视觉领域,人体行为识别技术主要是让计算机能够自动地判断和理解人体目前正在执行的动作。由于行为识别需要计算机具备类似于人的高层理解能力,因此是一项极具挑战性的工作。其在人机交互、视频检索、智能安全监控等场合发挥重要的作用和有着广泛的应用,所以人体行为识别技术的研究也是十分必要的。
行为识别已经成为计算机视觉领域的一个重点发展的方向。但是,目前还没有一个比较完善的行为识别系统,同时现有的行为识别效果还远达不到人脑的识别能力。由于卷积神经网络(CNN)在图像领域中的巨大成功以及其强大的学习能力,近年来越来越多研究将深度卷积神经网络应用于视频行为识别领域中,尤其是3维卷积神经网络(3D CNN)、RGB流和光流融合的双流技术和注意力机制等技术被广泛采用。Tran等人在2015年ICCV(International Conference on Computer Vision)会议文章“Learning spatiotemporalfeatures with 3d convolutional networks”中使用了3D CNN实现对时空信息的直接建模从而解决了传统2D CNN无法直接对时空信息进行直接建模的问题;Simonyan等人在2014年NIPS(Conference and Workshop on Neural Information Processing Systems)上发表的“Two-stream convolutional networks for action recognition in videos”提出了分别使用RGB图像对视频外观信息建模以及使用光流序列对运动信息进行建模,并将双流信息融合来进行预测;Crasto等人在2019年CVPR(IEEE Conference on ComputerVision and Pattern Recognition)上发表的“Mars:Motion-augmented rgb stream foraction recognition”中提出将单独训练好的光流模型在RGB模型训练过程中对其进行指导从而使RGB模型可以同时更好地学习外观信息和运动信息。3D CNN和双流技术被证明可以有效提升识别的准确率。
注意力机制的引入是为了解决视频中冗余或干扰信息影响视频分类预测结果的问题。对于行为识别任务来说,时间、空间、特征维度上不同部分对正确预测结果的贡献是不同的,如关键帧上包含正确识别该行为的特征信息,无动作或有其它动作的非关键帧上的信息甚至会误导分类结果,影响网络性能。为了解决这个问题,研究人员将注意力机制引入以关注显著性信息,有选择地提取时间、空间以及特征信息,抑制干扰信息。近年来在行为识别论文中采用注意力机制的有:Li等人在2020年IEEE Transactions on Multimedia上的“Spatio-temporal attention networks for action recognition and detection”中引入时空注意力机制来关注视频中的关键时间帧和空间位置;Meng等人在2019ICCVW(International Conference on Computer Vision Workshops)上的“Interpretablespatio-temporal attention for video action recognition”设计了时空注意力机制和一系列正则化器来注意力机制聚焦于时空相关部分。上述论文实验证明注意力机制的引入可以有效地提取显著性信息,提升模型性能。
采用注意力机制的行为识别专利有:授权号为CN107330362B的中国专利:“一种基于时空注意力的视频分类方法”提出一种基于时空注意力的视频分类方法,其时空注意力模型包括由卷积神经网络构成的空域注意力网络、有循环神经网络构成的时域注意力网络以及连接时域、空域注意力网络的连接网络,并对这三个组成部分进行联合训练。本发明与其不同之处在于:1.该专利采用2D CNN+LSTM结构进行视频分类,其中的空间注意力通过2DCNN、时间注意力通过LSTM分别提取。对比而言,而本发明采用3D CNN结构同时对空间、时间和特征通道进行注意力提取;2.该专利仅使用空间和时间注意力机制,而本发明提取空间、时间和特征通道上的注意力。对比而言,本发明增加了特征通道注意力模型;3.该专利的权利要求2中,空域注意力机制从特征通道和空间信息中提取,未包含时间信息;时域注意力机制从时间和特征通道信息中提取,未包含空间信息。对比而言,本发明的时间、空间和特征通道注意力模型在时间、空间和特征通道三个维度间分别提取三维相关性和二维相关性并融合得到时间、空间和特征通道多维相关性;4.由于该专利采用2D CNN+LSTM网络结构,无法同时对空间和时间注意力进行建模,因此该专利的权利要求3中使用连接网络来进行联合训练来建模时域空域显著性的联系,而本发明可以直接对时间和空间之间的相关性进行建模,不需要连接网络。授权号为CN107273800B的专利:“一种基于注意机制的卷积递归神经网络的动作识别方法”,提出一种基于注意机制的卷积递归神经网络的动作识别方法,首先通过卷积神经网络提取特征,并将特征输入到空间转换网络提取显著区域,最后将输出特征图输入到卷积递归神经网络进行视频分类。本发明与其不同之处在于:1.该专利采用2D CNN提取单帧图片特征并用LSTM进行时序建模的结构,注意力通过2D CNN最后一层的空间转换网络提取,而本发明整体结构采用3D CNN直接对时空信息进行建模,注意力通过提出的多维相关注意力模型进行提取;2.该专利的权利要求1中将最后卷积层输出的特征图输入空间转换网络提取显著区域后输入卷积递归神经网络进行视频分类,注意力的提取无法放在网络其他位置,而本发明提出的是在3D CNN中通用的注意力模型,可以插入到网络的任意层或堆叠使用以加强注意力的建模能力;3.该专利的权利要求1、2中将最后一个卷积层的特征图加上时间序列直接输入到含定位网络和网格生成器的空间转换网络中进行注意力提取,输入信息仅含时间、特征通道2个维度信息,而本发明的时间、空间和特征通道注意力模型在时间、空间和特征通道三个维度间分别提取三维相关性和二维相关性并融合得到时间、空间和特征通道多维相关性。
由于视频信息包含时间、空间和特征通道三个维度的信息,三个维度之间互相具有相关性,本专利基于3D CNN和RGB/光流融合结构提出了一种采用多维相关注意力模型的神经网络行为识别方法,用于提取时间、空间和特征通道三个维度之间的多维相关性,其包含二维相关性和三维相关性的融合,并利用提取到的时间、空间和特征通道上的显著区域,对生成的特征图进行加权融合并得到预测值,产生最后的行为识别结果。
发明内容
本发明的目的是提供进一步探索时间、空间和特征通道三个维度间的多维相关性,进一步学习和增强时间、空间和特征通道上的显著性,从而提高视频分类准确率的一种采用多维相关注意力模型的神经网络行为识别方法。本发明基于三维卷积神经网络,而三维卷积神经网络主要由多个3维卷积层和一个全连接层组成,可以同时对空间和时间维度进行卷积。
本发明包括以下步骤:
1)将动作视频对应的单独RGB图像序列(单流输入)或RGB图像与光流序列(双流输入)输入到三维卷积神经网络(3D-CNN)通过N个3维卷积层进行特征提取,获得对应的特征图;
2)将提取到的特征图输入到K个结合多维相关注意力模型的3维卷积层进行处理,输出经注意力加权处理后的特征图;
3)经注意力加权处理后的特征图经过全局平均池化并将其经过全连接层输出得到一个长度与视频分类数相同的预测矩阵,该矩阵对应位值即为该类行为识别的得分;然后将预测矩阵通过非线性softmax函数计算得到各类视频行为识别的预测概率值。
4)对于双流输入,将RGB图像和光流序列得到的预测概率值求平均值即可得到该动作视频的双流预测结果。
在步骤2)中,所述将提取到的特征图输入到K个结合多维相关注意力模型的3维卷积层进行处理的具体步骤如下:
(1)将输入特征图作为特征图1输入到时间多维相关注意力模型,得到时间多维相关注意力权重,并利用该权重对特征图1进行加权处理得到特征图2;
(2)将特征图2输入到空间多维相关注意力模型,得到空间多维相关注意力权重,并利用该权重对特征图2进行加权处理得到特征图3;
(3)将特征图3输入到特征通道多维相关注意力模型,得到特征通道多维相关注意力权重,并利用该权重对特征图3进行加权处理得到特征图4,作为下一层卷积网络的输入。
在步骤(1)中,所述时间多维相关注意力模型包括3个分支:分支1将输入特征图Xt调整成三维数组,而后采用平均池化(P)生成二维数组,将其分别与参数矩阵At1、Et1相乘后输入到ReLU激活函数,再与参数矩阵St1相乘后输入到Sigmoid激活函数得到时间和特征通道二维相关注意力权重Wt,c;分支2将输入特征图Xt调整成二维数组,将其分别与参数矩阵At2、Et2相乘后输入到ReLU激活函数,再与参数矩阵St2相乘后输入到Sigmoid激活函数得到时间、特征通道和空间三维相关注意力权重Wt,c,s;分支3将输入特征图Xt调整成三维数组,通过平均池化(P)生成二维数组,将其分别与参数矩阵At3、Et3相乘后输入到ReLU激活函数,再与参数矩阵St3相乘后输入到Sigmoid激活函数得到时间和空间二维相关注意力权重Wt,s;将Wt,c、Wt,c,s、Wt,s融合(F)后得到时间多维相关注意力权重Wt;对于输入特征图 其中,C表示特征通道数,T表示时间,H、W表示特征图的高和宽。
在步骤(2)中,所述空间多维相关注意力模型包括3个分支:分支1将输入特征图Xs调整成三维数组,接着通过平均池化(P)生成数组,将其分别与参数矩阵As1、Es1相乘后输入到ReLU激活函数,再与参数矩阵Ss1相乘后输入到Sigmoid激活函数得到时间和特征通道二维相关注意力权重Ws,t;分支2将输入特征图Xs调整成二维数组,将其分别与参数矩阵As2、Es2相乘后输入到ReLU激活函数,再与参数矩阵Ss2相乘后输入到Sigmoid激活函数得到时间、特征通道和空间三维相关注意力权重Ws,t,c;分支3将输入特征图Xs调整成三维数组,通过平均池化(P)生成二维数组,将其分别与参数矩阵As3、Es3相乘后输入到ReLU激活函数,再与参数矩阵Ss3相乘后输入到Sigmoid激活函数得到时间和空间二维相关注意力权重Wx,c;将Ws,t、Ws,t,c、Ws,c融合(F)后得到空间多维相关注意力权重Ws。
在步骤(3)中,所述特征通道多维相关注意力模型包括3个分支:分支1将输入特征图Xc调整成三维数组,接着通过平均池化(P)生成二维数组,将其分别与参数矩阵Ac1、Ec1相乘后输入到ReLU激活函数,再与参数矩阵Sc1相乘后输入到Sigmoid激活函数得到时间和特征通道二维相关注意力权重Wc,t;分支2将输入特征图Xc调整成二维数组,将其分别与参数矩阵Ac2、Ec2相乘后输入到ReLU激活函数,再与参数矩阵Sc2相乘后输入到Sigmoid激活函数得到时间、特征通道和空间三维相关注意力权重Wc,t,s;分支3将输入特征图Xc调整成三维数组,并通过平均池化(P)生成二维数组,将其分别与参数矩阵Ac3、Ec3相乘后输入到ReLU激活函数,再与参数矩阵Sc3相乘后输入到Sigmoid激活函数得到时间和空间二维相关注意力权重Wc,s;将Wc,t、Wc,t,s、Wc,s融合(F)后得到特征通道多维相关注意力权重Wc。
本发明首先利用三维卷积神经网络对动作视频提取的RGB图像序列或者RGB图像和光流序列进行自动特征提取;然后利用多维相关注意力模型在特征图的基础上对多维注意力进行自动提取,利用提取到的时间、空间和特征通道上的显著区域,对生成的特征图进行加权融合并得到预测值,产生最后的行为识别结果。
与现有方法相比,本发明可以取得更高的行为识别的准确率。行为识别的准确率指标是指测试数据集中被正确识别的视频数量和测试数据集的视频总数量之间的比值,准确率越高,说明行为识别的结果越好。实验证明,本发明方法在UCF-101和HMDB-51数据集上取得很好的效果,提高行为识别的准确率。
附图说明
图1为本发明方法整体结构示意图。
图2为本发明的时间多维相关注意力模型的具体设计示意图。
图3为本发明的空间多维相关注意力模型的具体设计示意图。
图4为本发明的特征通道多维相关注意力的模型具体设计示意图。
具体实施方式
下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进。
本发明提出一种采用多维相关注意力模型的神经网络行为识别方法,包括时间、空间、特征通道多维相关注意力模型,参考图2~4所示。下面结合附图和具体实施例对本发明作进一步详细的描述。
本发明提出的一种采用多维相关注意力模型的神经网络行为识别方法的整体结构如图1所示,包括以下步骤:
1)输入动作视频对应的单独RGB图像序列(单流输入)或者RGB图像和光流序列(双流输入)到N个3维卷积层的进行特征提取,获得对应的特征图。其中,RGB和光流序列分别用图1中标号中首位的1、2来表示,N表示3维卷积层的层数,K表示结合多维相关注意力模型的3维卷积层个数,在本实施例中,K=3。
2)将提取到的特征图输入到K个结合多维相关注意力模型的3维卷积层进行处理,输出经注意力加权处理后的特征图。
3)结合多维相关注意力模型的3维卷积层如图1中1(N+1)虚线框展开所示,将3维卷积得到的特征图1输入到时间多维相关注意力模型,得到时间多维相关注意力权重,并用该权重对特征图1进行加权处理得到特征图2;将特征图2输入到空间多维相关注意力模型,得到空间多维相关注意力权重,并用该权重对特征图2进行加权处理得到特征图3;将特征图3输入到特征通道多维相关注意力模型,得到特征通道多维相关注意力权重,并用该权重对特征图3进行加权处理得到特征图4,作为下一层卷积网络的输入。时间、空间和特征通道多维相关注意力模型之间的顺序在实际实施时可以改变。
4)经注意力加权处理后的特征图经过全局平均池化并将其经过全连接层输出得到一个长度与视频分类数相同的预测矩阵,该矩阵对应位值即为该类行为识别的得分;最后将预测矩阵通过非线性softmax函数计算得到各类视频行为识别的预测概率值。
5)对于双流输入而言,将RGB图像和光流序列得到的预测概率值求平均值即可得到该动作视频的双流预测结果。
上述技术方案步骤3)中的时间多维相关注意力模型如图2所示,它包括3个分支:
其中,下标t,c,s分别表示时间、空间、特征通道维度,S、E、A分别代表用于相关性建模的参数矩阵,r是一个进行参数缩放的尺度参数,这里的表示矩阵乘,ψ、δ分别代表ReLU和Sigmoid非线性激活函数,W代表相关性建模的结果权重。
(2)分支2:将输入特征图Xt进行转置调整得到将Xt,c,s分别与参数矩阵At2、Et2相乘后输入到ReLU激活函数,再与参数矩阵St2相乘后输入到Sigmoid激活函数得到时间、特征通道和空间三维相关注意力权重
上述技术方案步骤3)中的空间多维相关注意力模型如图3所示,它包括3个分支:
(2)分支2:将输入特征图Xs进行转置后得到将Xs,t,c分别与参数矩阵As2、Es2相乘后输入到ReLU激活函数,再与参数矩阵Ss2相乘后输入到Sigmoid激活函数得到空间、时间和特征通道三维相关注意力权重
上述技术方案步骤3)中的特征通道多维相关注意力模型如图4所示,它包括3个分支:
(2)分支2:将输入特征图Xc进行转置调整得到将Xc,t,s分别与参数矩阵Ac2、Ec2相乘后输入到ReLU激活函数,再与参数矩阵Sc2相乘后输入到Sigmoid激活函数得到特征通道、时间和空间三维相关注意力权重
此外,本发明对使用的参数矩阵进行初始化,解决训练难以收敛的问题。图2~4中的参数矩阵At、As、Ac,初始化值分别为:X.shape[0]代表矩阵X(此处指At、As、Ac)的行数;对于Et、Es、Ec、St、Ss、Sc而言,初始化值为:X.shape[1]代表矩阵X的列数;该初始化可使初始状态下输入特征图经各参数矩阵相乘后的尺度稳定在原范围,经过Sigmoid激活函数后不会出现梯度消失导致难以训练的情况。
此外,由于多个相关性权重的融合会导致权重尺度的变化,为避免模型难以训练、减少训练震荡的情况,本发明对经注意力权重融合后得到的时间、空间、特征通道多维相关注意力权重进行尺度缩放:
其中,n为权重矩阵W的元素个数,W′为尺度缩放后的权重矩阵。尺度缩放可以使得输入特征图经过多个多维相关注意力模型加权后的尺度也能保持一致,加快训练速度,减少训练的震荡。
本发明使用公开的、在行为识别通用的UCF-101和HMDB-51数据集进行有效性验证。其中,所有对比实验皆采用双流结果进行对比。
现有方法1:Simonyan等人在2014年NIPS(Conference and Workshop on NeuralInformation Processing Systems)上发表的“Two-stream convolutional networks foraction recognition in videos”中提出的方法。
现有方法2:Crasto等人在2019年CVPR(IEEE Conference on Computer Visionand Pattern Recognition)上发表的“Mars:Motion-augmented rgb stream for actionrecognition”中提出的方法。
现有方法3:Li等人在2020年IEEE Transactions on Multimedia中发表的“Spatio-temporal attention networks for action recognition and detection”中提出的方法。
表1行为识别准确率对比结果
方法 | UCF101 | HMDB51 |
现有方法一 | 88.0% | 59.4% |
现有方法二 | 98.1% | 80.9% |
现有方法三 | 98.4% | 81.4% |
本发明实施例方法 | 98.4% | 81.9% |
从表1可见,采用本发明提出的多维相关注意力模型的神经网络行为识别方法,在UCF101和HMDB51数据集上的行为识别准确率分别提高到98.4%和81.9%,证明本发明提出的多维相关注意力模型可以更加有效、全面地从时间、空间以及特征通道信息中提取对分类有效的关键注意力信息,从而提高行为识别准确率;在实现原理上看,与现有方法相比,本发明不仅从输入特征图的三个维度中提取三维相关性,还提取其中两两维度间的二维相关性,并对它们进行融合得到多维相关性,从而使得视频在时间、空间、特征通道上的显著性信息更加准确。
Claims (5)
1.一种采用多维相关注意力模型的神经网络行为识别方法,其特征在于包括以下步骤:
1)将动作视频对应的单独RGB图像序列或RGB图像与光流序列输入到三维卷积神经网络通过N个3维卷积层进行特征提取,获得对应的特征图;
2)将提取到的特征图输入到K个结合多维相关注意力模型的3维卷积层进行处理,输出经注意力加权处理后的特征图;
3)经注意力加权处理后的特征图经过全局平均池化并将其经过全连接层输出得到一个长度与视频分类数相同的预测矩阵,该矩阵对应位值即为该类行为识别的得分;然后将预测矩阵通过非线性softmax函数计算得到各类视频行为识别的预测概率值;
4)对于双流输入,将RGB图像和光流序列得到的预测概率值求平均值即得到该动作视频的双流预测结果。
2.如权利要求1所述一种采用多维相关注意力模型的神经网络行为识别方法,其特征在于在步骤2)中,所述将提取到的特征图输入到K个结合多维相关注意力模型的3维卷积层进行处理的具体步骤如下:
(1)将输入特征图作为特征图1输入到时间多维相关注意力模型,得到时间多维相关注意力权重,并利用该权重对特征图1进行加权处理得到特征图2;
(2)将特征图2输入到空间多维相关注意力模型,得到空间多维相关注意力权重,并利用该权重对特征图2进行加权处理得到特征图3;
(3)将特征图3输入到特征通道多维相关注意力模型,得到特征通道多维相关注意力权重,并利用该权重对特征图3进行加权处理得到特征图4,作为下一层卷积网络的输入。
3.如权利要求2所述一种采用多维相关注意力模型的神经网络行为识别方法,其特征在于在步骤(1)中,所述时间多维相关注意力模型包括3个分支:分支1将输入特征图Xt调整成三维数组,而后采用平均池化(P)生成二维数组,将其分别与参数矩阵At1、Et1相乘后输入到ReLU激活函数,再与参数矩阵St1相乘后输入到Sigmoid激活函数得到时间和特征通道二维相关注意力权重Wt,c;分支2将输入特征图Xt调整成Xt,c,s∈二维数组,将其分别与参数矩阵At2、Et2相乘后输入到ReLU激活函数,再与参数矩阵St2相乘后输入到Sigmoid激活函数得到时间、特征通道和空间三维相关注意力权重Wt,c,s;分支3将输入特征图Xt调整成三维数组,通过平均池化(P)生成二维数组,将其分别与参数矩阵At3、Et3相乘后输入到ReLU激活函数,再与参数矩阵St3相乘后输入到Sigmoid激活函数得到时间和空间二维相关注意力权重Wt,s;将Wt,c、Wt,c,s、Wt,s融合(F)后得到时间多维相关注意力权重Wt;对于输入特征图其中,C表示特征通道数,T表示时间,H、W表示特征图的高和宽。
4.如权利要求2所述一种采用多维相关注意力模型的神经网络行为识别方法,其特征在于在步骤(2)中,所述空间多维相关注意力模型包括3个分支:分支1将输入特征图Xs调整成三维数组,接着通过平均池化(P)生成数组,将其分别与参数矩阵As1、Es1相乘后输入到ReLU激活函数,再与参数矩阵Ss1相乘后输入到Sigmoid激活函数得到时间和特征通道二维相关注意力权重Ws,t;分支2将输入特征图Xs调整成二维数组,将其分别与参数矩阵As2、Es2相乘后输入到ReLU激活函数,再与参数矩阵Ss2相乘后输入到Sigmoid激活函数得到时间、特征通道和空间三维相关注意力权重Ws,t,c;分支3将输入特征图Xs调整成三维数组,通过平均池化(P)生成二维数组,将其分别与参数矩阵As3、Es3相乘后输入到ReLU激活函数,再与参数矩阵Ss3相乘后输入到Sigmoid激活函数得到时间和空间二维相关注意力权重Ws,c;将Ws,t、Ws,t,c、Ws,c融合(F)后得到空间多维相关注意力权重Ws。
5.如权利要求2所述一种采用多维相关注意力模型的神经网络行为识别方法,其特征在于在步骤(3)中,所述特征通道多维相关注意力模型包括3个分支:分支1将输入特征图Xc调整成三维数组,接着通过平均池化(P)生成二维数组,将其分别与参数矩阵Ac1、Ec1相乘后输入到ReLU激活函数,再与参数矩阵Sc1相乘后输入到Sigmoid激活函数得到时间和特征通道二维相关注意力权重Wc,t;分支2将输入特征图Xc调整成二维数组,将其分别与参数矩阵Ac2、Ec2相乘后输入到ReLU激活函数,再与参数矩阵Sc2相乘后输入到Sigmoid激活函数得到时间、特征通道和空间三维相关注意力权重c,t,s;分支3将输入特征图Xc调整成三维数组,并通过平均池化(P)生成二维数组,将其分别与参数矩阵Ac3、Ec3相乘后输入到ReLU激活函数,再与参数矩阵Sc3相乘后输入到Sigmoid激活函数得到时间和空间二维相关注意力权重Wc,s;将Wc,t、c,t,s、Wc,s融合(F)后得到特征通道多维相关注意力权重Wc。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110534440.5A CN113326748B (zh) | 2021-05-17 | 2021-05-17 | 一种采用多维相关注意力模型的神经网络行为识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110534440.5A CN113326748B (zh) | 2021-05-17 | 2021-05-17 | 一种采用多维相关注意力模型的神经网络行为识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113326748A true CN113326748A (zh) | 2021-08-31 |
CN113326748B CN113326748B (zh) | 2022-06-14 |
Family
ID=77415673
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110534440.5A Active CN113326748B (zh) | 2021-05-17 | 2021-05-17 | 一种采用多维相关注意力模型的神经网络行为识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113326748B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115116134A (zh) * | 2022-06-15 | 2022-09-27 | 北京市地铁运营有限公司 | 基于2维和3维cnn的人体行为检测方法及系统 |
WO2023060459A1 (en) * | 2021-10-13 | 2023-04-20 | Intel Corporation | Sample-adaptive 3d feature calibration and association agent |
WO2023097423A1 (en) * | 2021-11-30 | 2023-06-08 | Intel Corporation | Apparatus and method for dynamic quadruple convolution in 3d cnn |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107330362A (zh) * | 2017-05-25 | 2017-11-07 | 北京大学 | 一种基于时空注意力的视频分类方法 |
CN107609460A (zh) * | 2017-05-24 | 2018-01-19 | 南京邮电大学 | 一种融合时空双重网络流和attention机制的人体行为识别方法 |
CN110188637A (zh) * | 2019-05-17 | 2019-08-30 | 西安电子科技大学 | 一种基于深度学习的行为识别技术方法 |
CN111627052A (zh) * | 2020-04-30 | 2020-09-04 | 沈阳工程学院 | 一种基于双流时空注意力机制的动作识别方法 |
CN111931602A (zh) * | 2020-07-22 | 2020-11-13 | 北方工业大学 | 基于注意力机制的多流分段网络人体动作识别方法及系统 |
-
2021
- 2021-05-17 CN CN202110534440.5A patent/CN113326748B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107609460A (zh) * | 2017-05-24 | 2018-01-19 | 南京邮电大学 | 一种融合时空双重网络流和attention机制的人体行为识别方法 |
CN107330362A (zh) * | 2017-05-25 | 2017-11-07 | 北京大学 | 一种基于时空注意力的视频分类方法 |
CN110188637A (zh) * | 2019-05-17 | 2019-08-30 | 西安电子科技大学 | 一种基于深度学习的行为识别技术方法 |
CN111627052A (zh) * | 2020-04-30 | 2020-09-04 | 沈阳工程学院 | 一种基于双流时空注意力机制的动作识别方法 |
CN111931602A (zh) * | 2020-07-22 | 2020-11-13 | 北方工业大学 | 基于注意力机制的多流分段网络人体动作识别方法及系统 |
Non-Patent Citations (4)
Title |
---|
LILI MENG ET AL.: "Interpretable spatio-temporal attention for video action recognition", 《2019 IEEE/CVF INTERNATIONAL CONFERENCE ON COMPUTER VISION WORKSHOP (ICCVW)》, 5 March 2020 (2020-03-05) * |
XIAOCHAO LI ET AL.: "Inter-Dimensional Correlations Aggregated Attention Network for Action Recognition", 《IEEE ACESS》, vol. 9, 26 July 2021 (2021-07-26), XP011869914, DOI: 10.1109/ACCESS.2021.3099163 * |
宦睿智: "基于注意力机制的长时程特征融合的视频行为识别研究与实现", 《中国优秀硕士学位论文全文数据库 信息科技辑》, no. 2, 15 February 2020 (2020-02-15), pages 138 - 1812 * |
张家想 等: "结合时空注意力机制和自适应图卷积网络的骨架行为识别", 《工业控制计算机》, vol. 33, no. 7, 23 April 2021 (2021-04-23) * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023060459A1 (en) * | 2021-10-13 | 2023-04-20 | Intel Corporation | Sample-adaptive 3d feature calibration and association agent |
WO2023097423A1 (en) * | 2021-11-30 | 2023-06-08 | Intel Corporation | Apparatus and method for dynamic quadruple convolution in 3d cnn |
CN115116134A (zh) * | 2022-06-15 | 2022-09-27 | 北京市地铁运营有限公司 | 基于2维和3维cnn的人体行为检测方法及系统 |
CN115116134B (zh) * | 2022-06-15 | 2024-08-02 | 北京市地铁运营有限公司 | 基于2维和3维cnn的人体行为检测方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN113326748B (zh) | 2022-06-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113326748B (zh) | 一种采用多维相关注意力模型的神经网络行为识别方法 | |
CN109961034B (zh) | 基于卷积门控循环神经单元的视频目标检测方法 | |
CN110706157B (zh) | 一种基于身份先验生成对抗网络的人脸超分辨率重建方法 | |
CN113496217B (zh) | 视频图像序列中人脸微表情识别方法 | |
CN108229338B (zh) | 一种基于深度卷积特征的视频行为识别方法 | |
US20230196633A1 (en) | Method of image reconstruction for cross-modal communication system and device thereof | |
Ge et al. | An attention mechanism based convolutional LSTM network for video action recognition | |
CN111709304B (zh) | 一种基于时空注意力增强特征融合网络的行为识别方法 | |
CN110516536B (zh) | 一种基于时序类别激活图互补的弱监督视频行为检测方法 | |
Ma et al. | Boosting broader receptive fields for salient object detection | |
CN113011329A (zh) | 一种基于多尺度特征金字塔网络及密集人群计数方法 | |
CN113743269B (zh) | 一种轻量化识别视频人体姿态的方法 | |
Weiyao et al. | Fusion of skeleton and RGB features for RGB-D human action recognition | |
CN107392131A (zh) | 一种基于人体骨骼节点距离的动作识别方法 | |
CN112036276A (zh) | 一种人工智能视频问答方法 | |
CN111311702A (zh) | 一种基于BlockGAN的图像生成和识别模块及方法 | |
CN116311353A (zh) | 基于特征融合的密集行人多目标跟踪方法、计算机设备和存储介质 | |
CN111242003B (zh) | 一种基于多尺度受约束自注意机制的视频显著性物体检测的方法 | |
CN111242181B (zh) | 基于图像语义和细节的rgb-d显著性物体检测器 | |
CN105956604B (zh) | 一种基于两层时空邻域特征的动作识别方法 | |
Gao et al. | Adaptive random down-sampling data augmentation and area attention pooling for low resolution face recognition | |
CN117275095A (zh) | 基于伪三维残差卷积网络的视频人体异常行为识别方法 | |
CN111274901B (zh) | 一种基于深度门控递归单元的手势深度图像连续检测方法 | |
CN108711147A (zh) | 一种基于卷积神经网络的显著性融合检测算法 | |
CN116935316A (zh) | 联合高分辨率CNN和轻量级Transformer的密集人群计数方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |