CN112131943B

CN112131943B - 一种基于双重注意力模型的视频行为识别方法及系统

Info

Publication number: CN112131943B
Application number: CN202010844141.7A
Authority: CN
Inventors: 李岩山; 刘燕; 谢维信
Original assignee: Shenzhen University
Current assignee: Shenzhen University
Priority date: 2020-08-20
Filing date: 2020-08-20
Publication date: 2023-07-11
Anticipated expiration: 2040-08-20
Also published as: CN112131943A

Abstract

本发明公开了一种基于双重注意力模型的视频行为方法及系统，利用空间注意力模型将图像的全局特征和局部特征间的依赖关系进行结合，对特征信息进行筛选，抑制非目标区域的特征，使得网络在特征提取过程中更关注目标区域特征；利用通道注意力模型对特征的通道信息进行建模，捕获每个特征图中各通道之间的依赖性，增强重要特征并抑制次要特征。因此本申请提供的视频行为识别方法，不仅考虑到了视频图像中不同像素之间的关联信息，同时也考虑到特征图中各通道间的依赖性，一定程度上提升特征的判别能力和特征的表示能力，提高单人行为和群体行为的识别准确率，并且具有更高的精度和鲁棒性。

Description

一种基于双重注意力模型的视频行为识别方法及系统

技术领域

本发明涉及行为识别技术领域，具体涉及一种基于双重注意力模型的视频行为识别方法及系统。

背景技术

近年来，行为识别算法发展迅速，基于深度学习的群体行为识别也取得了良好的效果。邓等提出了分层图模型组合，在神经网络层之间使用了多步信息传递方法。Li和Chuah提出了一种基于语义的方法，该方法为每个视频帧生成字幕，使用two-stage LSTM模型基于每个视频的语义字幕识别群体行为。Bagautdinov等建立了一个统一的框架来理解多人的社会行为。他们的框架能够共同检测多个人，推断他们的社交行为，并通过神经网络进一步预测群体行为。

行为识别既包括单人执行一系列动作以完成某项任务，即个人行为识别，也包括许多人分散在一个大的空间里，共同努力完成一个共同的任务，即群体行为识别。在群体识别任务中，层次化的框架被广泛应用于表征个体之间以及个体与对应群体之间的关系，取得了较好的识别性能。但是，现有的方法只是简单的应用全局特征到网络框架，忽略了加强全局特征和局部特征中相对重要的特征，这导致图像或视频的重要部分不能被重点关注，使得行为识别结果准确率较低。

发明内容

因此，本发明要解决的技术问题在于克服现有技术中视频行为识别方法导致重要部分不能被重点关注，使得行为识别准确率结果较低的缺陷，从而提供一种双重注意力模型的视频行为识别方法及系统。

为达到上述目的，本发明提供如下技术方案：

第一方面，本发明实施例提供基于双重注意力模型的视频行为识别方法，包括如下步骤：

获取待识别视频的初始特征A输入到双重注意力模型，其中双重注意力模型包括：空间注意力模型和通道注意力模型；

基于空间注意力模型对初始特征A的处理，包括：将初始特征A经过卷积层后输出空间注意力矩阵，所述空间注意力矩阵和初始特征进行矩阵乘法得到矩阵相乘矩阵，将矩阵相乘矩阵和初始特征执行基于元素的加法操作，生成新特征M_S；

基于通道注意力模型对初始特征A的处理，包括：将初始特征A分别进行全局平均池化和全局最大池化，合并生成全局描述符；将全局描述符全局描述符经过级联的全连接层和激活函数处理，获取通道间的相关性；基于通道间的相关性获取初始特征A的各个通道的权重；将注意力权重与初始特征A进行融合，生成新特征M_C；

将新特征M_S和新特征M_C进行加权融合到初始特征A中，获得新特征D；

基于所述新特征D对待识别视频分别进行单体行为和群体行为识别。

在一实施例中，将初始特征A经过卷积层后输出空间注意力矩阵，所述空间注意力矩阵和初始特征进行矩阵乘法得到矩阵相乘矩阵，将矩阵相乘矩阵和初始特征执行基于元素的加法操作，生成新特征M_S的过程，包括：

将初始特征

输入卷积层中，分别生成两个新的特征图B和C，其中

将特征图B和特征图C变维为/>

其中N＝H×W是像素数，H为像素高度，W为像素宽度，C为特征图的通道；

对特征图B的转置和特征图C执行矩阵乘法，得到转置矩阵；

基于转置矩阵利用Softmax激活函数计算空间注意力特征图

将初始特征

输入卷积网络，生成新的特征图/>

矩阵变维成

在特征图D和特征图S的转置之间执行矩阵乘法，并将矩阵乘法的结果变维

将变维后的结果乘以预设尺度参数，并用初始特征A进行基于元素的加运算，得到新特征

，如以下公式：

其中，α为尺度参数，

被初始化为0，在学习中α逐渐被分配更多的权重。

在一实施例中，初始特征A分别进行全局平均池化和全局最大池化，合并生成全局描述符；将全局描述符全局描述符经过级联的全连接层和激活函数，获取通道间的相关性；基于通道间的相关性获取初始特征A的各个通道的权重；将注意力权重与初始特征A进行融合，生成新特征M_C的过程，包括：

将原始特征

通过全局平均池化和最大池化获取通道描述

通过以下公式计算：

其中，A_C为初始特征A的第c个通道，A_c(i，j)为第c个通道内位置为(i，j)的图像像素值，F_pool为全局池化，z_avg，z_max为两路不同池化方法输出的全局描述符；

将全局描述符

经过全连接层后缩放变成/>

其中r为缩放参数，得到经过缩放的全局描述来捕获初始特征A中通道间的相关性S，通过以下公式计算：

s＝F_ex(z，W)＝σ(g(z，W))＝σ(W₂δ(W₁z))

其中，

为第一层全连接层的权值，δ表示ReLU激活函数，/>

为第二层全连接层的权值，σ为Sigmod激活函数；

将相关性S与初始特征A通道矩阵相乘，得到通过通道注意力模型的特征表示M_C，通过以下公式表示：

M_C＝F_scale(A_c，s_c)＝s_cA_c

其中，F_scale(A_c，s_c)表示标量s_c与特征图

之间的通道方向乘法。

在一实施例中，获取待识别视频的初始特征A的过程，包括：对待识别视频进行多级特征提取后，利用深度全卷积网络对ROI进行初检测；利用马尔科夫随机场进行ROI的微调，获得最终ROI集合作为初始特征A。

在一实施例中，基于所述新特征D对于单人行为识别，将目标识别对象的ROI时间序列进行时序推理，通过接入两个全连接层和Softmax层得到单人行为的预测结果。

在一实施例中，基于所述新特征D对于群体行为识别，使用ROI匹配递归卷积网络进行群体行为的时序建模，生成群体行为的预测结果。

第二方面，本发明实施例提供基于双重注意力模型的视频行为识别系统，包括：

初始特征获取模块，用于获取待识别视频的初始特征A输入到双重注意力模型，其中双重注意力模型包括：空间注意力模型和通道注意力模型；

空间注意力模型处理模块，用于基于空间注意力模型对初始特征A的处理，包括：将初始特征A经过卷积层后输出空间注意力矩阵，所述空间注意力矩阵和初始特征进行矩阵乘法得到矩阵相乘矩阵，将矩阵相乘矩阵和初始特征执行基于元素的加法操作，生成新特征M_S；

通道注意力模型处理模块，用于基于通道注意力模型对初始特征A的处理，包括：将初始特征A分别进行全局平均池化和全局最大池化，合并生成全局描述符；将全局描述符全局描述符经过级联的全连接层和激活函数，获取通道间的相关性；基于通道间的相关性获取初始特征A的各个通道的权重；将注意力权重与初始特征A进行融合，生成新特征M_C；

特征融合模块，用于将新特征M_S和新特征M_C进行加权融合到初始特征A中，获得新特征D；

行为识别模块，用于基于所述新特征D对待识别视频分别进行单体行为和群体行为识别。

第三方面，本发明实施例提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使所述计算机执行本发明实施例第一方面的基于双重注意力模型的视频行为识别方法。

第四方面，本发明实施例提供一种计算机设备，包括：存储器和处理器，所述存储器和所述处理器之间互相通信连接，所述存储器存储有计算机指令，所述处理器通过执行所述计算机指令，从而执行本发明实施例第一方面的基于双重注意力模型的视频行为识别方法。

本发明技术方案，具有如下优点：

本发明提供的一种基于双重注意力模型的视频行为方法及系统，利用空间注意力模型将图像的全局特征和局部特征间的依赖关系进行结合，对特征信息进行筛选，抑制非目标区域的特征，使得网络在特征提取过程中更关注目标区域特征；利用通道注意力模型对特征的通道信息进行建模，捕获每个特征图中各通道之间的依赖性，增强重要特征并抑制次要特征。因此本申请提供的视频行为识别方法，不仅考虑到了视频图像中不同像素之间的关联信息，同时也考虑到特征图中各通道间的依赖性，一定程度上提升特征的判别能力和特征的表示能力，提高单人行为和群体行为的识别准确率，并且具有更高的精度和鲁棒性。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例中基于双重注意力模型的视频行为识别方法的一个具体示例的工作流程图；

图2为本发明实施例中空间注意力模型的示意图；

图3为本发明实施例中通道注意力模型的示意图；

图4为本发明实施例中双重注意力模型的示意图；

图5为本发明实施例中基于双重注意力模型的视频行为系统的一个具体示例的模块组成图；

图6为本发明实施例提供的计算机设备一个具体示例的组成图。

具体实施方式

下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

此外，下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。

实施例1

本发明实施例提供一种基于双重注意力模型的视频行为识别方法，可以应用于多种视频行为识别等场景，比如体育视频，包括精彩片断提取与传输、视频摘要、视频浏览与检索、球和运动员的检测与跟踪、行为与动作分析及索引、战术统计与策略分析、虚拟内容插入以及虚拟场景构造等等，几乎在所有运动中，例如棒球、足球、网球、排球等，都存在着体育视频行为识别，在这些体育比赛中，行为识别既包括单人执行一系列动作以完成某项任务，即个人行为识别，也包括许多人分散在一个大的空间里，共同努力完成一个共同的任务，即群体行为识别。

如图1所示，该方法具体包括如下步骤：

步骤S10：获取待识别视频的初始特征A输入到双重注意力模型，其中双重注意力模型包括：空间注意力模型和通道注意力模型。

本发明实施例中以排球比赛视频作为待识别视频作为举例，在排球运动中，由于不同队伍间的行为变化不同，队伍内部整体队员的运动方向具有一定的规律性，队员间的队服颜色一致。例如在排球比赛视频图像中，左侧队伍防守，右侧队伍处于进攻状态，右侧队员的整体进攻方向为从右向左，且右侧队伍的队服为白色，在运动方向相同的局部图像斑块中，它们具有相似的局部图案和纹理特征，基于此，本发明认为具有可区分性的特征表示对于行为识别是至关重要的。本发明提供的双重注意力模型，如图4所示，包括：空间注意力模型和通道注意力模型，其不仅仅考虑到了视频图像中不同像素之间的关联信息，同时也考虑到特征图中各通道间的依赖性，一定程度上提升特征的判别能力和特征的表示能力。

其中，空间注意力模型如图2所示，该模型能够将图像的全局特征和局部特征间的依赖关系进行结合，对特征信息进行筛选，抑制非目标区域的特征，使得网络在特征提取过程中更关注目标区域特征。目前的大多数卷积神经网络中融合不同特征的普遍方法是相加或者拼接，这样会造成对特征图的各个通道信息均采用了同样的权重，目标的特征信息没有被增强。本发明实施例引入面向视频的通道注意力模型，该模型如图3所示，对特征的通道信息进行建模，捕获每个特征图中各通道之间的依赖性，增强重要特征并抑制次要特征。

本发明实施例对待识别视频进行多级特征提取后，利用深度全卷积网络对ROI进行初检测；利用马尔科夫随机场进行ROI的微调，获得最终ROI集合作为初始特征A，并行输入到空间注意力模型和通道注意力模型。

步骤S20：基于空间注意力模型对初始特征A的处理，包括：将初始特征A经过卷积层后输出空间注意力矩阵，所述空间注意力矩阵和初始特征进行矩阵乘法得到矩阵相乘矩阵，将矩阵相乘矩阵和初始特征执行基于元素的加法操作，生成新特征M_S。

本发明实施例中，首先将初始特征

输入卷积层中，分别生成两个新的特征图B和C，其中/>

将特征图B和特征图C变维为/>

其中N＝H×W是像素数，H为像素高度，W为像素宽度，C为特征图的通道。其中，新的特征图B和C分别如式(1)(2)所示。

其中，A_c、B_c、C_c表示第c个通道的特征图，K表示卷积核，f(·)表示激活函数，b_c是卷积后特征图的偏置。

然后，将特征图B和C变维为

其中N＝H×W是像素数，在此之后，对B的转置和C执行矩阵乘法，即B^T*C。

在此基础上，利用特征相关函数s_ji度量第i^th位置对j^th位置的影响，如下式(3)所示，应用Softmax激活函数计算空间注意力特征图

两个位置的特征表示越相似，表征它们之间的相关性就越大，Softmax激活函数多用于分类过程中，它的作用是将神经元节点的输出映射为一列取值为(0，1)区间的概率向量，然后计算每一分类的概率进行多分类，选取对应概率最大的节点作为预测目标。

如图2所示，在将初始特征

经过卷积层生成两个新的特征图B和C的同时，也将初始特征/>

输入卷积网络，生成新的特征图/>

如式(4)所示：

并把矩阵变维成

然后在特征图D和特征图S的转置之间执行矩阵乘法，并将结果变维/>

即reshape(D*S^T，H，W，C)。

，如式(5)：

其中，α为尺度参数，被初始化为0，在学习中α逐渐被分配更多的权重。从式(5)可以看出，每个位置的特征

是所有位置和原始特征的加权和，逐像素相乘的方式获取到了不同像素之间的关联信息。因此空间注意力模型在语义信息方面具有全局性，并根据空间注意力矩阵选择性地聚合语义信息，相似的语义特征实现了相互增益，从而增强了类内紧凑性和语义一致性。

步骤S30：基于通道注意力模型对初始特征A的处理，包括：将初始特征A分别进行全局平均池化和全局最大池化，合并生成全局描述符；将全局描述符全局描述符经过级联的全连接层和激活函数处理，获取通道间的相关性；基于通道间的相关性获取初始特征A的各个通道的权重；将注意力权重与初始特征A进行融合，生成新特征M_C。

本发明实施例如图3所示，将输入特征

通过全局平均池化和最大池化获取通道描述/>

z_avg，z_max可通过公式(6)计算。

其中A_c为输入特征图A的第c个通道，A_c(i，j)指第c个通道内位置为(i，j)的图像像素值，F_pool为全局池化，z_avg，z_max为两路不同池化方法输出的全局描述符，特征图A的输出为全局描述符的集合，这些全局描述符的统计信息表示整个图像。

经过上述操作后，网络仅仅得到了一个全局描述符，这个描述符并不能作为该通道的权重，描述符用于描述各个通道，为了利用全局描述生成的信息，将全局描述符经过级联的两个全连接层即FC层、ReLu激活函数、Sigmod激活函数，获取通道间的相关性，详细过程为：

输入全局描述

经过全连接层，将其缩放变成

其中r为缩放参数。两个全连接层一个RELU函数和Sigmoid激活函数用来获取通道间的相关性，全连接层能够很好的融合全部的输入特征信息，而Sigmoid函数也能够很好的将输入映射到0～1区间。最终得到经过缩放的全局描述，该操作旨在捕获特征图中通道间的相关性S，如式(7)所示。

s＝F_ex(z，W)＝σ(g(z，W))＝σ(W₂δ(W₁z)) (7)

其中，

为第一层FC的权值，δ表示ReLU激活函数，/>

为第二次FC后的权值，σ为Sigmod激活函数，ReLU与Sigmod为两种不同的激活函数。

获取到通道间的相关性S之后，将S与原输入A逐通道Hadamard相乘，得到通过通道注意力模型的特征表示M_C：

M_C＝F_scale(A_c，s_c)＝s_cA_c (8)

其中F_scale(A_c，s_c)表示标量s_c与特征图

之间的通道方向乘法。

将特征图进行融合之后，原来的特征输入信息就融合了通道信息权重，然后将新得到的特征图M_C作为该模型的输出传入到网络的下一层。

步骤S40：将新特征MS和新特征MC进行加权融合到初始特征A中，获得新特征D。

该步骤如图4所示，将两个注意力模型的输出的新特征

和/>

进行加权融合到网络特征/>

中，获得新特征/>

该特征既融合了不同像素之间的关联信息，也融合了各特征中通道间的依赖性，提高了特征表示能力。

步骤S50：

基于所述新特征D对待识别视频分别进行单体行为和群体行为识别

本发明实施例基于新特征D对于单人行为识别，将目标识别对象的ROI时间序列进行时序推理，通过接入两个全连接层和Softmax层得到单人行为的预测结果；

基于所述新特征D对于群体行为识别，使用ROI匹配递归卷积网络进行群体行为的时序建模，生成群体行为的预测结果。

本发明实施例提供的基于双重注意力模型的视频行为方法，利用空间注意力模型将图像的全局特征和局部特征间的依赖关系进行结合，对特征信息进行筛选，抑制非目标区域的特征，使得网络在特征提取过程中更关注目标区域特征；利用通道注意力模型对特征的通道信息进行建模，捕获每个特征图中各通道之间的依赖性，增强重要特征并抑制次要特征。因此本申请提供的视频行为识别方法，不仅考虑到了视频图像中不同像素之间的关联信息，同时也考虑到特征图中各通道间的依赖性，一定程度上提升特征的判别能力和特征的表示能力，提高单人行为和群体行为的识别准确率，并且具有更高的精度和鲁棒性。

实施例2

本发明实施例提供一种基于双重注意力模型的视频行为系统，如图5所示，包括：

初始特征获取模块10，用于获取待识别视频的初始特征A输入到双重注意力模型，其中双重注意力模型包括：空间注意力模型和通道注意力模型。此模块执行实施例1中的步骤S10所描述的方法，在此不再赘述。

空间注意力模型处理模块20，用于基于空间注意力模型对初始特征A的处理，包括：将初始特征A经过卷积层后输出空间注意力矩阵，所述空间注意力矩阵和初始特征进行矩阵乘法得到矩阵相乘矩阵，将矩阵相乘矩阵和初始特征执行基于元素的加法操作，生成新特征M_S。此模块执行实施例1中的步骤S20所描述的方法，在此不再赘述。

通道注意力模型处理模块30，用于基于通道注意力模型对初始特征A的处理，包括：将初始特征A分别进行全局平均池化和全局最大池化，合并生成全局描述符；将全局描述符全局描述符经过级联的全连接层和激活函数，获取通道间的相关性；基于通道间的相关性获取初始特征A的各个通道的权重；将注意力权重与初始特征A进行融合，生成新特征M_C。此模块执行实施例1中的步骤30所描述的方法，在此不再赘述。

特征融合模块40，用于将新特征M_S和新特征M_C进行加权融合到初始特征A中，获得新特征D；此模块执行实施例1中的步骤40所描述的方法，在此不再赘述。

行为识别模块50，用于基于所述新特征D对待识别视频分别进行单体行为和群体行为识别。此模块执行实施例1中的步骤50所描述的方法，在此不再赘述。

本发明实施例提供的基于双重注意力模型的视频行为识别系统，利用空间注意力模型将图像的全局特征和局部特征间的依赖关系进行结合，对特征信息进行筛选，抑制非目标区域的特征，使得网络在特征提取过程中更关注目标区域特征；利用通道注意力模型对特征的通道信息进行建模，捕获每个特征图中各通道之间的依赖性，增强重要特征并抑制次要特征。因此本申请提供的视频行为识别方法，不仅考虑到了视频图像中不同像素之间的关联信息，同时也考虑到特征图中各通道间的依赖性，一定程度上提升特征的判别能力和特征的表示能力，提高单人行为和群体行为的识别准确率，并且具有更高的精度和鲁棒性。

实施例3

本发明实施例提供一种计算机设备，如图6所示，该设备可以包括处理器51和存储器52，其中处理器51和存储器52可以通过总线或者其他方式连接，图6以通过总线连接为例。

处理器51可以为中央处理器(Central Processing Unit，CPU)。处理器51还可以为其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片，或者上述各类芯片的组合。

存储器52作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块，如本发明实施例中的对应的程序指令/模块。处理器51通过运行存储在存储器52中的非暂态软件程序、指令以及模块，从而执行处理器的各种功能应用以及数据处理，即实现上述方法实施例1中的基于多接入点的毫米波室内定位与角度估计方法。

存储器52可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储处理器51所创建的数据等。此外，存储器52可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中，存储器52可选包括相对于处理器51远程设置的存储器，这些远程存储器可以通过网络连接至处理器51。上述网络的实例包括但不限于互联网、企业内部网、企业内网、移动通信网及其组合。

一个或者多个模块存储在存储器52中，当被处理器51执行时，执行实施例1中的基于多接入点的毫米波室内定位与角度估计方法。

上述计算机设备具体细节可以对应参阅实施例1中对应的相关描述和效果进行理解，此处不再赘述。

本领域技术人员可以理解，实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)、随机存储记忆体(Random Access Memory，RAM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive，缩写：HDD)或固态硬盘(Solid-StateDrive，SSD)等；存储介质还可以包括上述种类的存储器的组合。

显然，上述实施例仅仅是为清楚地说明所作的举例，而并非对实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引申出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims

1.一种基于双重注意力模型的视频行为识别方法，其特征在于，包括如下步骤：

基于空间注意力模型对初始特征A的处理，包括：将初始特征A经过卷积层后输出空间注意力矩阵，所述空间注意力矩阵和初始特征进行矩阵乘法得到矩阵相乘矩阵，将矩阵相乘矩阵和初始特征执行基于元素的加法操作，生成新特征M_S，包括：

将初始特征

输入卷积层中，分别生成两个新的特征图B和C，其中

将特征图B和特征图C变维为/>

对特征图B的转置和特征图C执行矩阵乘法，得到转置矩阵；

基于转置矩阵利用Softmax激活函数计算空间注意力特征图

将初始特征

输入卷积网络，生成新的特征图/>

矩阵变维成

如以下公式：

其中，α为尺度参数，被初始化为0，在学习中α逐渐被分配更多的权重；

基于通道注意力模型对初始特征A的处理，包括：将初始特征A分别进行全局平均池化和全局最大池化，合并生成全局描述符；将全局描述符全局描述符经过级联的全连接层和激活函数处理，获取通道间的相关性；基于通道间的相关性获取初始特征A的各个通道的权重；将注意力权重与初始特征A进行融合，生成新特征M_C，包括：

将原始特征

通过全局平均池化和最大池化获取通道描述

通过以下公式计算：

其中，A_C为初始特征A的第c个通道，A_c(i,j)为第c个通道内位置为(i,j)的图像像素值，F_pool为全局池化，z_avg,z_max为两路不同池化方法输出的全局描述符；

将全局描述符

经过全连接层后缩放变成/>

s＝F_ex(z,W)＝σ(g(z,W))＝σ(W₂δ(W₁z))

其中，

为第一层全连接层的权值，δ表示ReLU激活函数，/>

为第二层全连接层的权值，σ为Sigmod激活函数；

M_C＝F_scale(A_c,s_c)＝s_c A_c

其中，F_scale(A_c,s_c)表示标量s_c与特征图

之间的通道方向乘法；

2.根据权利要求1所述的基于双重注意力模型的视频行为识别方法，其特征在于，获取待识别视频的初始特征A的过程，包括：

对待识别视频进行多级特征提取后，利用深度全卷积网络对ROI进行初检测；

利用马尔科夫随机场进行ROI的微调，获得最终ROI集合作为初始特征A。

3.根据权利要求2所述的基于双重注意力模型的视频行为识别方法，其特征在于，基于所述新特征D对于单人行为识别，将目标识别对象的ROI时间序列进行时序推理，通过接入两个全连接层和Softmax层得到单人行为的预测结果。

4.根据权利要求3所述的基于双重注意力模型的视频行为识别方法，其特征在于，基于所述新特征D对于群体行为识别，使用ROI匹配递归卷积网络进行群体行为的时序建模，生成群体行为的预测结果。

5.一种基于双重注意力模型的视频行为识别系统，其特征在于，包括：

空间注意力模型处理模块，用于基于空间注意力模型对初始特征A的处理，包括：将初始特征A经过卷积层后输出空间注意力矩阵，所述空间注意力矩阵和初始特征进行矩阵乘法得到矩阵相乘矩阵，将矩阵相乘矩阵和初始特征执行基于元素的加法操作，生成新特征M_S，包括：

将初始特征

输入卷积层中，分别生成两个新的特征图B和C，其中

将特征图B和特征图C变维为/>

对特征图B的转置和特征图C执行矩阵乘法，得到转置矩阵；

基于转置矩阵利用Softmax激活函数计算空间注意力特征图

将初始特征

输入卷积网络，生成新的特征图/>

矩阵变维成

如以下公式：

通道注意力模型处理模块，用于基于通道注意力模型对初始特征A的处理，包括：将初始特征A分别进行全局平均池化和全局最大池化，合并生成全局描述符；将全局描述符全局描述符经过级联的全连接层和激活函数，获取通道间的相关性；基于通道间的相关性获取初始特征A的各个通道的权重；将注意力权重与初始特征A进行融合，生成新特征M_C，包括：

将原始特征