CN112613356B

CN112613356B - 一种基于深度注意力融合网络的动作检测方法及装置

Info

Publication number: CN112613356B
Application number: CN202011417147.2A
Authority: CN
Inventors: 甘明刚; 何玉轩; 刘洁玺; 陈杰; 窦丽华; 陈文颉; 陈晨
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2020-12-07
Filing date: 2020-12-07
Publication date: 2023-01-10
Anticipated expiration: 2040-12-07
Also published as: CN112613356A

Abstract

本发明提供一种基于深度注意力融合网络的动作检测方法及装置，所述方法包括获取待检测视频；提取一个帧序列的初始特征；将所述初始特征输入残差通道‑空间注意力模块；所述初始特征经所述残差通道‑空间注意力模块处理，输出注意力机制调制后的特征；对所述注意力机制调制后的特征进行分层融合和迭代融合，得到融合特征；将所述融合特征的映射依次送入中心检测分支、位移检测分支、框检测分支处理，获得若干帧级检测窗口；基于ACT时间链接算法将所述若干帧级检测窗口连接成时空动作管道。根据本发明的方案，从通道和空间两个维度增强提取的初始特征，输出的特征不仅具有高级语义信息，也保留了低层次的空间信息。

Description

一种基于深度注意力融合网络的动作检测方法及装置

技术领域

本发明涉及动作检测领域，尤其涉及一种基于深度注意力融合网络的动作检测方法及装置。

背景技术

目前，动作检测是计算机视觉的一个重要研究领域。大多数现有的动作检测方法使用标准卷积神经网络从输入视频帧中提取特征。然而，标准卷积神经网络输出的特征不能很好地表示动作的空间信息和语义信息。为了获得更丰富的信息，现有技术中常采用加深或拓宽网络的方法，但加深或拓宽网络的方法将导致网络模型参数数量和计算成本的大幅增加。

发明内容

为解决上述技术问题，本发明提出了一种基于深度注意力融合网络的动作检测方法及装置，所述方法及装置，用以解决现有技术中获得更丰富的信息，现有技术中常采用加深或拓宽网络的方法，但加深或拓宽网络的方法将导致网络模型参数数量和计算成本的大幅增加的技术问题。

根据本发明的第一方面，提供一种基于深度注意力融合网络的动作检测方法，所述方法包括以下步骤：

步骤S101：获取一个帧序列作为输入，将所述帧序列输入到基础层，提取初始特征；

步骤S102：将所述初始特征输入残差通道-空间注意力模块；所述残差通道-空间注意力模块包括通道维度上的注意力模块和空间维度上的注意力模块；所述初始特征经所述残差通道-空间注意力模块处理，计算调制特征，输出注意力机制调制后的特征；

步骤S103：对所述注意力机制调制后的特征进行分层融合和迭代融合，得到融合特征；

步骤S104：将所述融合特征的映射依次送入中心检测分支、位移检测分支、框检测分支处理，获得若干帧级检测窗口；

步骤S105：基于ACT时间链接算法将所述若干帧级检测窗口连接成时空动作管道。

根据本发明第二方面，提供一种基于深度注意力融合网络的动作检测装置，所述装置包括：

初始特征获取模块：配置为获取一个帧序列作为输入，将所述帧序列输入到基础层，提取初始特征；

调制模块：配置为将所述初始特征输入残差通道-空间注意力模块；所述残差通道-空间注意力模块包括通道维度上的注意力模块和空间维度上的注意力模块；所述初始特征经所述残差通道-空间注意力模块处理，计算调制特征，输出注意力机制调制后的特征；

特征融合模块：配置为对所述注意力机制调制后的特征进行分层融合和迭代融合，得到融合特征；

检测窗口获取模块：配置为将所述融合特征的映射依次送入中心检测分支、位移检测分支、框检测分支处理，获得若干帧级检测窗口；

连接模块：配置为基于ACT时间链接算法将所述若干帧级检测窗口连接成时空动作管道。

根据本发明第三方面，提供一种基于深度注意力融合网络的动作检测系统，包括：

处理器，用于执行多条指令；

存储器，用于存储多条指令；

其中，所述多条指令，用于由所述存储器存储，并由所述处理器加载并执行如前所述的基于深度注意力融合网络的动作检测方法。

根据本发明第四方面，提供一种计算机可读存储介质，所述存储介质中存储有多条指令；所述多条指令，用于由处理器加载并执行如前所述的基于深度注意力融合网络的动作检测方法。

根据本发明的上述方案，构造了一个残差通道-空间注意力模块，对特征提取网络提取的初始特征执行残差通道-空间注意力调制，将注意力机制应用到特征提取网络中，从通道和空间两个维度上增强提取的初始特征。该方案中的注意力机制，是与深度融合网络相结合的注意力机制。深度融合网络遵循深度网络和广度网络的思想。通过迭代深度融合和分层深度融合，输出的特征不仅具有高级语义信息，也保留了低层次的空间信息，这可以提供丰富的特征表示。本方案使用注意力机制来衡量特征的重要性。注意力机制能够生成一个注意力掩膜来加权信息，在增强有用特征信息的同时抑制无用信息。通过使用轻量级的注意力模块，本方案在参数数量略有增加的情况下，显著提高了网络的性能。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，并可依照说明书的内容予以实施，以下以本发明的较佳实施例并配合附图详细说明如后。

附图说明

构成本发明的一部分的附图用来提供对本发明的进一步理解，本发明提供如下附图进行说明。在附图中：

图1为本发明一个实施方式的基于深度注意力融合网络的动作检测方法流程图；

图2为本发明一个实施方式的基于深度注意力融合网络的结构示意图；

图3A-3C为本发明残差通道-空间注意力模块结构示意图；

图4为本发明一个实施方式的基于深度注意力融合网络的动作检测装置结构框图。

具体实施方式

首先结合图1说明本发明一个实施方式的基于深度注意力融合网络的动作检测方法流程；图2为本发明一个实施方式的基于深度注意力融合网络的结构。如图1-2所示，所述方法包括以下步骤：

所述步骤S101：获取一个帧序列作为输入，将所述帧序列输入到基础层，提取初始特征，其中：

本实施例中，使用动作检测器基于已有的网络结构提取初始特征，例如，使用DLA结构作为特征提取器，提取初始特征。

所述步骤S102：将所述初始特征输入残差通道-空间注意力模块；所述残差通道-空间注意力模块包括通道维度上的注意力模块和空间维度上的注意力模块；所述初始特征经所述残差通道-空间注意力模块处理，计算调制特征，输出注意力机制调制后的特征，其中：

输入的初始特征输入残差通道-空间注意力模块，计算调制特征，计算调制特征的方式有以下三种，如图3A-图3C所示：

(1)输入的初始特征通过通道维度上的注意力模块和空间维度上的注意力模块，分别得到通道维度上的注意力掩模和空间维度上的注意力掩模，然后将这通道维度上的注意力掩模和空间维度上的注意力掩模合并，得到调制特征FE'_cs，

FE'_cs＝α*M_s(F)+β*M_c(F)

其中，FE'_cs表示调制特征，其本身是特征图，M_c是通道维度上的注意力模块，M_s是空间维度上的注意力模块，F是输入的初始特征，也是特征图，α和β是可以学习的权重参数。

所述通道维度上的注意力模块和空间维度上的注意力模块按顺序串联放置或并行放置。

(2)所述通道维度上的注意力模块和空间维度上的注意力模块按顺序串联放置，初始特征先通过通道维度上的注意力模块，得到通道注意力增强的特征，再通过空间维度上的注意力模块，得到通道-空间注意力增强的特征，作为调制特征FE'_cs；

FE'_cs＝F'_sc＝M_s(M_c(F))

(3)所述通道维度上的注意力模块和空间维度上的注意力模块按顺序串联放置，初始特征先通过空间维度上的注意力模块，得到空间注意力增强的特征，再通过通道维度上的注意力模块，得到空间-通道注意力增强的特征，作为调制特征FE'_cs；

FE'_cs＝F'_cs＝M_c(M_s(F))

本实施例中，以上三种方式计算出的调制特征FE'_cs并不相同，但都可以用于后续的计算。

本实施例中，所述初始特征经所述残差通道-空间注意力模块处理，输出注意力机制调制后的特征为：

F”_cs＝F+γ*FE'_cs

其中，F”_cs是残差通道-空间注意力模块的输出，即注意力机制调制后的特征，F是残差通道-空间注意力模块输入的初始特征，γ是可学习参数。这样，通过这个残差连接，保留了输入的初始特征F的原始信息。

所述通道维度上的注意力模块利用最大池化和平均池化来压缩输入的特征的空间维度，输入的特征由生成的通道维度上的注意力掩模调制，

F'_c＝W_c⊙F＝σ(G_c(SGAP(F),SGMP(F)))⊙F

其中，σ是sigmoid激活函数，Gc是卷积操作，SGAP是平均池化，SGMP是最大池化，F是输入的特征图。⊙是通道间乘法，W_c为通道维度上的注意力掩膜。

所述空间维度上的注意力模块遵循自注意力机制的思想，使用自注意力的方法来捕捉空间位置之间的长距离依赖性。

标准卷积层对于输入信息的响应如下：

其中，j是i的邻域位置

本实施例中，对卷积层对输入信息的响应进行了改进，改进如下：

其中i是空间位置，j是全局任意位置，x为卷积层的输入，x_i为位置i的输入信息，x_j为位置j的输入信息；s'(x_i)是输出信息，N是标准化因子，c(x_i,x_j)是i和j的关系，g(x_j)是计算位置j的输入响应。这样可以更好的捕捉输入视觉信息中空间维度的长距离依赖性。

给定K帧长的视频的特征

F为特征图，使用全局空间信息建模空间相关性：

其中，

为实数域，C为特征层数，H为特征图的高度，W为特征图的宽度，HW为H乘以W得到的值，scale是一个能够调整的比例值，

为F_r的转置。

所述空间维度上的注意力模块具有查询分支、键分支和值分支。

首先在空间维度上对输入的特征图进行整形，得到特征图

在第一次乘以一个比例值后，使用softmax函数在空间维度对F_r正则化，作为查询；然后再用F_r作为键和值；在查询和键相乘之后，使用softmax函数来调整空间维度，以获得空间维度上的注意力掩模；然后，将空间维度上的注意力掩模乘以F_r，并整形为C×H×W大小，得到空间注意力调制的特征图。

所述步骤S104：将所述融合特征的映射依次送入中心检测分支、位移检测分支、框检测分支处理，获得若干帧级检测窗口，其中：

中心检测分支从关键帧的特征图中定位动作实例的中心点，并预测其动作类别。位移检测分支的预测管道中心点在相邻帧上沿时间维的运动。框检测分支根据每一帧上检测到的中心点返回每一帧上动作实例的边界框。

本实施例是一种使用注意力增强的动作检测方法。该动作检测方法利用注意力机制来对从输入视频中提取的特征编码并输出时空动作管道。本实施例提出的残差通道-空间注意力模块，将通道维度上的注意力和空间维度上的注意力应用于特征提取器。遵循迭代深度融合(IDA)和分层深度融合(HDA)的思想来融合深度卷积网络的浅层特征和深层特征。提取特征后，采用一种无锚管道检测器(MOC)作为动作管道检测器，并采用一种链接算法(ACT)将得到的检测窗口连接成动作管。

进一步地，获得注意力机制调制后的特征后，进一步将通道-空间注意力与深度融合结构相结合，从系统的底层到顶层，使用注意力掩膜逐层增强特征。将残差通道-空间注意力模块应用于融合节点的每一级，使得注意力调制特征可以通过HDA逐步融合，并通过IDA迭代改进，同时以学习的方式关注有利的特征通道和空间位置。

本实施例的方法有着更好的检测效果，验证了该方法的有效性。

本发明实施例进一步给出一种基于深度注意力融合网络的动作检测装置，如图4所示，所述装置包括：

本发明实施例进一步给出一种基于深度注意力融合网络的动作检测系统，包括：

处理器，用于执行多条指令；

存储器，用于存储多条指令；

本发明实施例进一步给出一种计算机可读存储介质，所述存储介质中存储有多条指令；所述多条指令，用于由处理器加载并执行如前所述的基于深度注意力融合网络的动作检测方法。

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

在本发明所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机装置(可以是个人计算机，实体机服务器，或者网络云服务器等，需安装Windows或者Windows Server操作系统)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(RandomAccess Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅是本发明的较佳实施例而已，并非对本发明作任何形式上的限制，依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰，均仍属于本发明技术方案的范围内。

Claims

1.一种基于深度注意力融合网络的动作检测方法，其特征在于，包括以下步骤：

步骤S105：基于ACT时间链接算法将所述若干帧级检测窗口连接成时空动作管道；

所述初始特征经所述残差通道-空间注意力模块处理，计算调制特征，输出注意力机制调制后的特征，包括两种方式，方式一为：

输入的初始特征通过通道维度上的注意力模块和空间维度上的注意力模块，分别得到通道维度上的注意力掩模和空间维度上的注意力掩模，然后将这通道维度上的注意力掩模和空间维度上的注意力掩模合并，得到调制特征FE′_cs，

FE′_cs＝α*M_s(F)+β*M_c(F)

其中，FE′_cs表示调制特征，其本身是特征图，M_c是通道维度上的注意力模块，M_s是空间维度上的注意力模块，F是输入的初始特征，也是特征图，α和β是可以学习的权重参数；

方式二为：

所述通道维度上的注意力模块和空间维度上的注意力模块按顺序串联放置，初始特征先通过空间维度上的注意力模块，得到空间注意力增强的特征，再通过通道维度上的注意力模块，得到空间-通道注意力增强的特征，作为调制特征FE′_cs，

FE′_cs＝M_c(M_s(F))

其中，FE′_cs表示调制特征，其本身是特征图，F是输入的初始特征；

所述空间维度上的注意力模块，卷积层对输入信息的响应进行改进：

其中，i是空间位置，j是全局任意位置，x为卷积层的输入，x_i为位置i的输入信息，x_j为位置j的输入信息；s'(x_i)是输出信息，N是标准化因子，c(x_i,x_j)是i和j的关系，g(x_j)是计算位置j的输入响应。

2.如权利要求1所述的基于深度注意力融合网络的动作检测方法，其特征在于，所述初始特征经所述残差通道-空间注意力模块处理，输出注意力机制调制后的特征为：

F″_cs＝F+γ*FE′_cs

其中，F″_cs是残差通道-空间注意力模块的输出，即注意力机制调制后的特征，F是残差通道-空间注意力模块输入的初始特征，γ是能够学习的参数。

3.如权利要求1所述的基于深度注意力融合网络的动作检测方法，其特征在于，所述通道维度上的注意力模块利用最大池化和平均池化来压缩输入的特征的空间维度，输入的特征由生成的通道维度上的注意力掩模调制，

F′_c＝W_c⊙F＝σ(G_c(SGAP(F),SGMP(F)))⊙F

其中，σ是sigmoid激活函数，Gc是卷积操作，SGAP是平均池化，SGMP是最大池化，F是输入的特征图；⊙是通道间乘法，W_c为通道维度上的注意力掩膜。

4.一种基于深度注意力融合网络的动作检测系统，其特征在于，包括：

处理器，用于执行多条指令；

存储器，用于存储多条指令；

其中，所述多条指令，用于由所述存储器存储，并由所述处理器加载并执行如权利要求1-3之任一项所述的基于深度注意力融合网络的动作检测方法。

5.一种计算机可读存储介质，其特征在于，所述存储介质中存储有多条指令；所述多条指令，用于由处理器加载并执行如权利要求1-3之任一项所述的基于深度注意力融合网络的动作检测方法。