CN113326748A

CN113326748A - 一种采用多维相关注意力模型的神经网络行为识别方法

Info

Publication number: CN113326748A
Application number: CN202110534440.5A
Authority: CN
Inventors: 李晓潮; 詹健浩
Original assignee: Xiamen University
Current assignee: Xiamen University
Priority date: 2021-05-17
Filing date: 2021-05-17
Publication date: 2021-08-31
Anticipated expiration: 2041-05-17
Also published as: CN113326748B

Abstract

一种采用多维相关注意力模型的神经网络行为识别方法，属于计算机视觉、深度学习和行为识别技术领域。首先利用三维卷积神经网络对动作视频提取的RGB图像序列或者RGB图像和光流序列进行自动特征提取；然后利用多维相关注意力模型在特征图的基础上对多维注意力进行自动提取，利用提取到的时间、空间和特征通道上的显著区域，对生成的特征图进行加权融合并得到预测值，产生最后的行为识别结果。进一步探索时间、空间和特征通道三个维度间的多维相关性，进一步学习和增强时间、空间和特征通道上的显著性，从而提高视频分类的准确率。实验证明，在UCF‑101和HMDB‑51数据集上取得很好的效果，提高行为识别的准确率。

Description

一种采用多维相关注意力模型的神经网络行为识别方法

技术领域

本发明属于计算机视觉、深度学习和行为识别技术领域，尤其是涉及一种采用多维相关注意力模型的神经网络行为识别方法。

背景技术

在计算机视觉领域，人体行为识别技术主要是让计算机能够自动地判断和理解人体目前正在执行的动作。由于行为识别需要计算机具备类似于人的高层理解能力，因此是一项极具挑战性的工作。其在人机交互、视频检索、智能安全监控等场合发挥重要的作用和有着广泛的应用，所以人体行为识别技术的研究也是十分必要的。

行为识别已经成为计算机视觉领域的一个重点发展的方向。但是，目前还没有一个比较完善的行为识别系统，同时现有的行为识别效果还远达不到人脑的识别能力。由于卷积神经网络(CNN)在图像领域中的巨大成功以及其强大的学习能力，近年来越来越多研究将深度卷积神经网络应用于视频行为识别领域中，尤其是3维卷积神经网络(3D CNN)、RGB流和光流融合的双流技术和注意力机制等技术被广泛采用。Tran等人在2015年ICCV(International Conference on Computer Vision)会议文章“Learning spatiotemporalfeatures with 3d convolutional networks”中使用了3D CNN实现对时空信息的直接建模从而解决了传统2D CNN无法直接对时空信息进行直接建模的问题；Simonyan等人在2014年NIPS(Conference and Workshop on Neural Information Processing Systems)上发表的“Two-stream convolutional networks for action recognition in videos”提出了分别使用RGB图像对视频外观信息建模以及使用光流序列对运动信息进行建模，并将双流信息融合来进行预测；Crasto等人在2019年CVPR(IEEE Conference on ComputerVision and Pattern Recognition)上发表的“Mars:Motion-augmented rgb stream foraction recognition”中提出将单独训练好的光流模型在RGB模型训练过程中对其进行指导从而使RGB模型可以同时更好地学习外观信息和运动信息。3D CNN和双流技术被证明可以有效提升识别的准确率。

注意力机制的引入是为了解决视频中冗余或干扰信息影响视频分类预测结果的问题。对于行为识别任务来说，时间、空间、特征维度上不同部分对正确预测结果的贡献是不同的，如关键帧上包含正确识别该行为的特征信息，无动作或有其它动作的非关键帧上的信息甚至会误导分类结果，影响网络性能。为了解决这个问题，研究人员将注意力机制引入以关注显著性信息，有选择地提取时间、空间以及特征信息，抑制干扰信息。近年来在行为识别论文中采用注意力机制的有：Li等人在2020年IEEE Transactions on Multimedia上的“Spatio-temporal attention networks for action recognition and detection”中引入时空注意力机制来关注视频中的关键时间帧和空间位置；Meng等人在2019ICCVW(International Conference on Computer Vision Workshops)上的“Interpretablespatio-temporal attention for video action recognition”设计了时空注意力机制和一系列正则化器来注意力机制聚焦于时空相关部分。上述论文实验证明注意力机制的引入可以有效地提取显著性信息，提升模型性能。

采用注意力机制的行为识别专利有：授权号为CN107330362B的中国专利：“一种基于时空注意力的视频分类方法”提出一种基于时空注意力的视频分类方法，其时空注意力模型包括由卷积神经网络构成的空域注意力网络、有循环神经网络构成的时域注意力网络以及连接时域、空域注意力网络的连接网络，并对这三个组成部分进行联合训练。本发明与其不同之处在于：1.该专利采用2D CNN+LSTM结构进行视频分类，其中的空间注意力通过2DCNN、时间注意力通过LSTM分别提取。对比而言，而本发明采用3D CNN结构同时对空间、时间和特征通道进行注意力提取；2.该专利仅使用空间和时间注意力机制，而本发明提取空间、时间和特征通道上的注意力。对比而言，本发明增加了特征通道注意力模型；3.该专利的权利要求2中，空域注意力机制从特征通道和空间信息中提取，未包含时间信息；时域注意力机制从时间和特征通道信息中提取，未包含空间信息。对比而言，本发明的时间、空间和特征通道注意力模型在时间、空间和特征通道三个维度间分别提取三维相关性和二维相关性并融合得到时间、空间和特征通道多维相关性；4.由于该专利采用2D CNN+LSTM网络结构，无法同时对空间和时间注意力进行建模，因此该专利的权利要求3中使用连接网络来进行联合训练来建模时域空域显著性的联系，而本发明可以直接对时间和空间之间的相关性进行建模，不需要连接网络。授权号为CN107273800B的专利：“一种基于注意机制的卷积递归神经网络的动作识别方法”，提出一种基于注意机制的卷积递归神经网络的动作识别方法，首先通过卷积神经网络提取特征，并将特征输入到空间转换网络提取显著区域，最后将输出特征图输入到卷积递归神经网络进行视频分类。本发明与其不同之处在于：1.该专利采用2D CNN提取单帧图片特征并用LSTM进行时序建模的结构，注意力通过2D CNN最后一层的空间转换网络提取，而本发明整体结构采用3D CNN直接对时空信息进行建模，注意力通过提出的多维相关注意力模型进行提取；2.该专利的权利要求1中将最后卷积层输出的特征图输入空间转换网络提取显著区域后输入卷积递归神经网络进行视频分类，注意力的提取无法放在网络其他位置，而本发明提出的是在3D CNN中通用的注意力模型，可以插入到网络的任意层或堆叠使用以加强注意力的建模能力；3.该专利的权利要求1、2中将最后一个卷积层的特征图加上时间序列直接输入到含定位网络和网格生成器的空间转换网络中进行注意力提取，输入信息仅含时间、特征通道2个维度信息，而本发明的时间、空间和特征通道注意力模型在时间、空间和特征通道三个维度间分别提取三维相关性和二维相关性并融合得到时间、空间和特征通道多维相关性。

由于视频信息包含时间、空间和特征通道三个维度的信息，三个维度之间互相具有相关性，本专利基于3D CNN和RGB/光流融合结构提出了一种采用多维相关注意力模型的神经网络行为识别方法，用于提取时间、空间和特征通道三个维度之间的多维相关性，其包含二维相关性和三维相关性的融合，并利用提取到的时间、空间和特征通道上的显著区域，对生成的特征图进行加权融合并得到预测值，产生最后的行为识别结果。

发明内容

本发明的目的是提供进一步探索时间、空间和特征通道三个维度间的多维相关性，进一步学习和增强时间、空间和特征通道上的显著性，从而提高视频分类准确率的一种采用多维相关注意力模型的神经网络行为识别方法。本发明基于三维卷积神经网络，而三维卷积神经网络主要由多个3维卷积层和一个全连接层组成，可以同时对空间和时间维度进行卷积。

本发明包括以下步骤：

1)将动作视频对应的单独RGB图像序列(单流输入)或RGB图像与光流序列(双流输入)输入到三维卷积神经网络(3D-CNN)通过N个3维卷积层进行特征提取，获得对应的特征图；

2)将提取到的特征图输入到K个结合多维相关注意力模型的3维卷积层进行处理，输出经注意力加权处理后的特征图；

3)经注意力加权处理后的特征图经过全局平均池化并将其经过全连接层输出得到一个长度与视频分类数相同的预测矩阵，该矩阵对应位值即为该类行为识别的得分；然后将预测矩阵通过非线性softmax函数计算得到各类视频行为识别的预测概率值。

4)对于双流输入，将RGB图像和光流序列得到的预测概率值求平均值即可得到该动作视频的双流预测结果。

在步骤2)中，所述将提取到的特征图输入到K个结合多维相关注意力模型的3维卷积层进行处理的具体步骤如下：

(1)将输入特征图作为特征图1输入到时间多维相关注意力模型，得到时间多维相关注意力权重，并利用该权重对特征图1进行加权处理得到特征图2；

(2)将特征图2输入到空间多维相关注意力模型，得到空间多维相关注意力权重，并利用该权重对特征图2进行加权处理得到特征图3；

(3)将特征图3输入到特征通道多维相关注意力模型，得到特征通道多维相关注意力权重，并利用该权重对特征图3进行加权处理得到特征图4，作为下一层卷积网络的输入。

在步骤(1)中，所述时间多维相关注意力模型包括3个分支：分支1将输入特征图X_t调整成

三维数组，而后采用平均池化(P)生成

二维数组，将其分别与参数矩阵A_t1、E_t1相乘后输入到ReLU激活函数，再与参数矩阵S_t1相乘后输入到Sigmoid激活函数得到时间和特征通道二维相关注意力权重W_t，c；分支2将输入特征图X_t调整成

二维数组，将其分别与参数矩阵A_t2、E_t2相乘后输入到ReLU激活函数，再与参数矩阵S_t2相乘后输入到Sigmoid激活函数得到时间、特征通道和空间三维相关注意力权重W_t，c，s；分支3将输入特征图X_t调整成

三维数组，通过平均池化(P)生成

二维数组，将其分别与参数矩阵A_t3、E_t3相乘后输入到ReLU激活函数，再与参数矩阵S_t3相乘后输入到Sigmoid激活函数得到时间和空间二维相关注意力权重W_t，s；将W_t，c、W_t，c，s、W_t，s融合(F)后得到时间多维相关注意力权重W_t；对于输入特征图

其中，C表示特征通道数，T表示时间，H、W表示特征图的高和宽。

在步骤(2)中，所述空间多维相关注意力模型包括3个分支：分支1将输入特征图X_s调整成

三维数组，接着通过平均池化(P)生成

数组，将其分别与参数矩阵A_s1、E_s1相乘后输入到ReLU激活函数，再与参数矩阵S_s1相乘后输入到Sigmoid激活函数得到时间和特征通道二维相关注意力权重W_s，t；分支2将输入特征图X_s调整成

二维数组，将其分别与参数矩阵A_s2、E_s2相乘后输入到ReLU激活函数，再与参数矩阵S_s2相乘后输入到Sigmoid激活函数得到时间、特征通道和空间三维相关注意力权重W_s，t，c；分支3将输入特征图X_s调整成

三维数组，通过平均池化(P)生成

二维数组，将其分别与参数矩阵A_s3、E_s3相乘后输入到ReLU激活函数，再与参数矩阵S_s3相乘后输入到Sigmoid激活函数得到时间和空间二维相关注意力权重Wx_，c；将W_s，t、W_s，t，c、W_s，c融合(F)后得到空间多维相关注意力权重W_s。

在步骤(3)中，所述特征通道多维相关注意力模型包括3个分支：分支1将输入特征图X_c调整成

三维数组，接着通过平均池化(P)生成

二维数组，将其分别与参数矩阵A_c1、E_c1相乘后输入到ReLU激活函数，再与参数矩阵S_c1相乘后输入到Sigmoid激活函数得到时间和特征通道二维相关注意力权重W_c，t；分支2将输入特征图X_c调整成

二维数组，将其分别与参数矩阵A_c2、E_c2相乘后输入到ReLU激活函数，再与参数矩阵S_c2相乘后输入到Sigmoid激活函数得到时间、特征通道和空间三维相关注意力权重W_c，t，s；分支3将输入特征图X_c调整成

三维数组，并通过平均池化(P)生成

二维数组，将其分别与参数矩阵A_c3、E_c3相乘后输入到ReLU激活函数，再与参数矩阵S_c3相乘后输入到Sigmoid激活函数得到时间和空间二维相关注意力权重W_c，s；将W_c，t、W_c，t，s、W_c，s融合(F)后得到特征通道多维相关注意力权重Wc。

本发明首先利用三维卷积神经网络对动作视频提取的RGB图像序列或者RGB图像和光流序列进行自动特征提取；然后利用多维相关注意力模型在特征图的基础上对多维注意力进行自动提取，利用提取到的时间、空间和特征通道上的显著区域，对生成的特征图进行加权融合并得到预测值，产生最后的行为识别结果。

与现有方法相比，本发明可以取得更高的行为识别的准确率。行为识别的准确率指标是指测试数据集中被正确识别的视频数量和测试数据集的视频总数量之间的比值，准确率越高，说明行为识别的结果越好。实验证明，本发明方法在UCF-101和HMDB-51数据集上取得很好的效果，提高行为识别的准确率。

附图说明

图1为本发明方法整体结构示意图。

图2为本发明的时间多维相关注意力模型的具体设计示意图。

图3为本发明的空间多维相关注意力模型的具体设计示意图。

图4为本发明的特征通道多维相关注意力的模型具体设计示意图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进。

本发明提出一种采用多维相关注意力模型的神经网络行为识别方法，包括时间、空间、特征通道多维相关注意力模型，参考图2～4所示。下面结合附图和具体实施例对本发明作进一步详细的描述。

本发明提出的一种采用多维相关注意力模型的神经网络行为识别方法的整体结构如图1所示，包括以下步骤：

1)输入动作视频对应的单独RGB图像序列(单流输入)或者RGB图像和光流序列(双流输入)到N个3维卷积层的进行特征提取，获得对应的特征图。其中，RGB和光流序列分别用图1中标号中首位的1、2来表示，N表示3维卷积层的层数，K表示结合多维相关注意力模型的3维卷积层个数，在本实施例中，K＝3。

2)将提取到的特征图输入到K个结合多维相关注意力模型的3维卷积层进行处理，输出经注意力加权处理后的特征图。

3)结合多维相关注意力模型的3维卷积层如图1中1(N+1)虚线框展开所示，将3维卷积得到的特征图1输入到时间多维相关注意力模型，得到时间多维相关注意力权重，并用该权重对特征图1进行加权处理得到特征图2；将特征图2输入到空间多维相关注意力模型，得到空间多维相关注意力权重，并用该权重对特征图2进行加权处理得到特征图3；将特征图3输入到特征通道多维相关注意力模型，得到特征通道多维相关注意力权重，并用该权重对特征图3进行加权处理得到特征图4，作为下一层卷积网络的输入。时间、空间和特征通道多维相关注意力模型之间的顺序在实际实施时可以改变。

4)经注意力加权处理后的特征图经过全局平均池化并将其经过全连接层输出得到一个长度与视频分类数相同的预测矩阵，该矩阵对应位值即为该类行为识别的得分；最后将预测矩阵通过非线性softmax函数计算得到各类视频行为识别的预测概率值。

5)对于双流输入而言，将RGB图像和光流序列得到的预测概率值求平均值即可得到该动作视频的双流预测结果。

上述技术方案步骤3)中的时间多维相关注意力模型如图2所示，它包括3个分支：

(1)分支1：将输入特征图

进行转置调整得到

而后采用平均池化(P)进行对X_t，c的空间维度进行映射，得到

然后将X′_t，c分别与参数矩阵A_t1、E_t1相乘后输入到ReLU激活函数，再与参数矩阵S_t1相乘后输入到Sigmoid激活函数得到时间和特征通道二维相关注意力权重

其中，下标t，c，s分别表示时间、空间、特征通道维度，S、E、A分别代表用于相关性建模的参数矩阵，r是一个进行参数缩放的尺度参数，这里的

表示矩阵乘，ψ、δ分别代表ReLU和Sigmoid非线性激活函数，W代表相关性建模的结果权重。

(2)分支2：将输入特征图X_t进行转置调整得到

将X_t，c，s分别与参数矩阵A_t2、E_t2相乘后输入到ReLU激活函数，再与参数矩阵S_t2相乘后输入到Sigmoid激活函数得到时间、特征通道和空间三维相关注意力权重

(3)分支3：将输入特征图X_t进行转置调整得到

而后采用平均池化(P)对X_t，s的特征通道维度信息进行映射，得到

将X′_t，s分别与参数矩阵A_t3、E_t3相乘后输入到ReLU激活函数，再与参数矩阵S_t3相乘后输入到Sigmoid激活函数得到时间和空间二维相关注意力权重

将W_t，c、W_t，c，s和W_t，s通过各注意力权重按位加并取均值的方法进行融合(F)得到时间多维相关注意力权重

其中，

表示按位加操作。

上述技术方案步骤3)中的空间多维相关注意力模型如图3所示，它包括3个分支：

(1)分支1：将输入特征图

进行转置调整得到

而后采用平均池化(P)对X_s，t的特征通道维度信息进行映射，得到

将X_s，t分别与参数矩阵A_s1、E_s1相乘后输入到ReLU激活函数，再与参数矩阵S_s1相乘后输入到Sigmoid激活函数得到空间和时间二维相关注意力权重

(2)分支2：将输入特征图X_s进行转置后得到

将X_s，t，c分别与参数矩阵A_s2、E_s2相乘后输入到ReLU激活函数，再与参数矩阵S_s2相乘后输入到Sigmoid激活函数得到空间、时间和特征通道三维相关注意力权重

(3)分支3：将输入特征图X_s进行转置后得到

而后采用平均池化(P)对X_s，c的时间维度信息进行映射，得到

将X′_s，c分别与参数矩阵A_s3、E_s3相乘后输入到ReLU激活函数，再与参数矩阵S_s3相乘后输入到Sigmoid激活函数得到空间和特征通道二维相关注意力权重

将W_s，t、W_s，t，c和W_s，c通过各注意力权重按位加并取均值的方法进行融合(F)得到空间多维相关注意力权重

其中，

表示按位加操作。

上述技术方案步骤3)中的特征通道多维相关注意力模型如图4所示，它包括3个分支：

(1)分支1：将输入特征图

进行转置调整得到

而后采用平均池化(P)对X_c，t的空间维度信息进行映射，得到

将X′_c，t分别与参数矩阵A_c1、E_c1相乘后输入到ReLU激活函数，再与参数矩阵S_c1相乘后输入到Sigmoid激活函数得到特征通道和时间二维相关注意力权重

(2)分支2：将输入特征图X_c进行转置调整得到

将X_c，t，s分别与参数矩阵A_c2、E_c2相乘后输入到ReLU激活函数，再与参数矩阵S_c2相乘后输入到Sigmoid激活函数得到特征通道、时间和空间三维相关注意力权重

(3)分支3：将输入特征图X_c进行转置后得到

而后采用平均池化(P)对X_c，s的时间维度信息进行映射，得到

将X′_c，s分别与参数矩阵A_c3、E_c3相乘后输入到ReLU激活函数，再与参数矩阵S_c3相乘后输入到Sigmoid激活函数得到特征通道和空间二维相关注意力权重

将W_c，t、W_c，t，s和W_c，s通过权重按位加并取均值方法进行融合(F)得到特征通道多维相关注意力权重

其中，

表示按位加操作。

此外，本发明对使用的参数矩阵进行初始化，解决训练难以收敛的问题。图2～4中的参数矩阵A_t、A_s、A_c，初始化值分别为：

X.shape[0]代表矩阵X(此处指A_t、A_s、A_c)的行数；对于E_t、E_s、E_c、S_t、S_s、S_c而言，初始化值为：

X.shape[1]代表矩阵X的列数；该初始化可使初始状态下输入特征图经各参数矩阵相乘后的尺度稳定在原范围，经过Sigmoid激活函数后不会出现梯度消失导致难以训练的情况。

此外，由于多个相关性权重的融合会导致权重尺度的变化，为避免模型难以训练、减少训练震荡的情况，本发明对经注意力权重融合后得到的时间、空间、特征通道多维相关注意力权重进行尺度缩放：

其中，n为权重矩阵W的元素个数，W′为尺度缩放后的权重矩阵。尺度缩放可以使得输入特征图经过多个多维相关注意力模型加权后的尺度也能保持一致，加快训练速度，减少训练的震荡。

本发明使用公开的、在行为识别通用的UCF-101和HMDB-51数据集进行有效性验证。其中，所有对比实验皆采用双流结果进行对比。

现有方法1：Simonyan等人在2014年NIPS(Conference and Workshop on NeuralInformation Processing Systems)上发表的“Two-stream convolutional networks foraction recognition in videos”中提出的方法。

现有方法2：Crasto等人在2019年CVPR(IEEE Conference on Computer Visionand Pattern Recognition)上发表的“Mars:Motion-augmented rgb stream for actionrecognition”中提出的方法。

现有方法3：Li等人在2020年IEEE Transactions on Multimedia中发表的“Spatio-temporal attention networks for action recognition and detection”中提出的方法。

表1行为识别准确率对比结果

方法	UCF101	HMDB51
			现有方法一	88.0％	59.4％
现有方法二	98.1％	80.9％
			现有方法三	98.4％	81.4％
本发明实施例方法	98.4％	81.9％

从表1可见，采用本发明提出的多维相关注意力模型的神经网络行为识别方法，在UCF101和HMDB51数据集上的行为识别准确率分别提高到98.4％和81.9％，证明本发明提出的多维相关注意力模型可以更加有效、全面地从时间、空间以及特征通道信息中提取对分类有效的关键注意力信息，从而提高行为识别准确率；在实现原理上看，与现有方法相比，本发明不仅从输入特征图的三个维度中提取三维相关性，还提取其中两两维度间的二维相关性，并对它们进行融合得到多维相关性，从而使得视频在时间、空间、特征通道上的显著性信息更加准确。

Claims

1.一种采用多维相关注意力模型的神经网络行为识别方法，其特征在于包括以下步骤：

1)将动作视频对应的单独RGB图像序列或RGB图像与光流序列输入到三维卷积神经网络通过N个3维卷积层进行特征提取，获得对应的特征图；

3)经注意力加权处理后的特征图经过全局平均池化并将其经过全连接层输出得到一个长度与视频分类数相同的预测矩阵，该矩阵对应位值即为该类行为识别的得分；然后将预测矩阵通过非线性softmax函数计算得到各类视频行为识别的预测概率值；

4)对于双流输入，将RGB图像和光流序列得到的预测概率值求平均值即得到该动作视频的双流预测结果。

2.如权利要求1所述一种采用多维相关注意力模型的神经网络行为识别方法，其特征在于在步骤2)中，所述将提取到的特征图输入到K个结合多维相关注意力模型的3维卷积层进行处理的具体步骤如下：

3.如权利要求2所述一种采用多维相关注意力模型的神经网络行为识别方法，其特征在于在步骤(1)中，所述时间多维相关注意力模型包括3个分支：分支1将输入特征图X_t调整成

三维数组，而后采用平均池化(P)生成

二维数组，将其分别与参数矩阵A_t1、E_t1相乘后输入到ReLU激活函数，再与参数矩阵S_t1相乘后输入到Sigmoid激活函数得到时间和特征通道二维相关注意力权重W_t,c；分支2将输入特征图X_t调整成X_t,c,s∈

二维数组，将其分别与参数矩阵A_t2、E_t2相乘后输入到ReLU激活函数，再与参数矩阵S_t2相乘后输入到Sigmoid激活函数得到时间、特征通道和空间三维相关注意力权重W_t,c,s；分支3将输入特征图X_t调整成

三维数组，通过平均池化(P)生成

二维数组，将其分别与参数矩阵A_t3、E_t3相乘后输入到ReLU激活函数，再与参数矩阵S_t3相乘后输入到Sigmoid激活函数得到时间和空间二维相关注意力权重W_t,s；将W_t,c、W_t,c,s、W_t,s融合(F)后得到时间多维相关注意力权重W_t；对于输入特征图

4.如权利要求2所述一种采用多维相关注意力模型的神经网络行为识别方法，其特征在于在步骤(2)中，所述空间多维相关注意力模型包括3个分支：分支1将输入特征图X_s调整成

三维数组，接着通过平均池化(P)生成

数组，将其分别与参数矩阵A_s1、E_s1相乘后输入到ReLU激活函数，再与参数矩阵S_s1相乘后输入到Sigmoid激活函数得到时间和特征通道二维相关注意力权重W_s,t；分支2将输入特征图X_s调整成

二维数组，将其分别与参数矩阵A_s2、E_s2相乘后输入到ReLU激活函数，再与参数矩阵S_s2相乘后输入到Sigmoid激活函数得到时间、特征通道和空间三维相关注意力权重W_s,t,c；分支3将输入特征图X_s调整成

三维数组，通过平均池化(P)生成

二维数组，将其分别与参数矩阵A_s3、E_s3相乘后输入到ReLU激活函数，再与参数矩阵S_s3相乘后输入到Sigmoid激活函数得到时间和空间二维相关注意力权重W_s,c；将W_s,t、W_s,t,c、W_s,c融合(F)后得到空间多维相关注意力权重W_s。

5.如权利要求2所述一种采用多维相关注意力模型的神经网络行为识别方法，其特征在于在步骤(3)中，所述特征通道多维相关注意力模型包括3个分支：分支1将输入特征图X_c调整成

三维数组，接着通过平均池化(P)生成

二维数组，将其分别与参数矩阵A_c1、E_c1相乘后输入到ReLU激活函数，再与参数矩阵S_c1相乘后输入到Sigmoid激活函数得到时间和特征通道二维相关注意力权重W_c,t；分支2将输入特征图X_c调整成

二维数组，将其分别与参数矩阵A_c2、E_c2相乘后输入到ReLU激活函数，再与参数矩阵S_c2相乘后输入到Sigmoid激活函数得到时间、特征通道和空间三维相关注意力权重_c,t,s；分支3将输入特征图X_c调整成

三维数组，并通过平均池化(P)生成

二维数组，将其分别与参数矩阵A_c3、E_c3相乘后输入到ReLU激活函数，再与参数矩阵S_c3相乘后输入到Sigmoid激活函数得到时间和空间二维相关注意力权重W_c,s；将W_c,t、_c,t,s、W_c,s融合(F)后得到特征通道多维相关注意力权重W_c。