CN113902926A

CN113902926A - 一种基于自注意力机制的通用图像目标检测方法和装置

Info

Publication number: CN113902926A
Application number: CN202111477045.4A
Authority: CN
Inventors: 李特; 王世杰; 朱世强; 顾建军; 王兴刚
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2021-12-06
Filing date: 2021-12-06
Publication date: 2022-01-07
Anticipated expiration: 2041-12-06
Also published as: CN113902926B

Abstract

本发明公开一种基于自注意力机制的通用图像目标检测方法，该方法是基于DETR模型的改进，其包括对将含边界框标注的训练集图像输入图像特征提取网络，获得图像特征；将图像特征依次通过多头十字交叉注意力模块和多方向交叉注意力模块，获得解码器输出增强目标查询向量；将增强目标查询向量分别通过模型的分类层和回归层得到目标图像物体边界框和物体类别概率；计算网络整体损失对模型进行训练，得到目标检测模型；利用上述模型对待检测图像进行目标检测。本发明相比于DETR模型，在保证目标检测准确的同时，加快模型训练速度，减小模型的计算复杂度，提高模型灵活性与实用性。

Description

一种基于自注意力机制的通用图像目标检测方法和装置

技术领域

本发明涉及计算机视觉技术领域，尤其涉及一种基于自注意力机制的通用图像目标检测方法和装置。

背景技术

在计算机视觉领域，目标检测是一项基本任务，其目的是将图像中待检测对象与背景区分开，并预测图像中待检测对象的位置和类别。现有的流行技术基于卷积神经网络。基于该技术目标检测算法可以分为两大类：一类是one-stage算法。其思路是直接产生待检测物体类别概率和坐标位置，不需要产生候选框。另一类算法是two-stage算法。其思路是将检测问题划分为两个部分：首先产生候选区域，然后基于候选区域进行分类和边框回归，得到待检测物体类别概率和坐标位置。

Transformer架构最初应用于自然语言处理领域。其关键的自注意力机制（Self-attention mechanism）使得Transformer架构在不同任务上取得了不错的效果。2020年，Facebook提出DETR模型首次将Transformer架构应用于目标检测领域。它针对基于卷积神经网络的目标检测模型需要不同人工设计步骤的问题。以更加直接的方法简化整个目标检测流程，实现真正地端到端解决目标检测问题。

然而，DETR模型也有其自身地问题：第一：模型收敛速度慢，训练时间长；第二：模型计算量大，这使得DETR模型现阶段难以用于实际应用。

发明内容

针对现有技术的不足，本发明基于Transformer架构，提供了一种基于自注意力机制的通用图像目标检测方法和装置。该方法基于Transformer架构得到图像目标检测模型，收敛速度更快，训练时间更短，计算量更少。

本发明的目的通过如下的技术方案来实现：

一种基于自注意力机制的通用图像目标检测方法，该方法包括如下步骤：

步骤一：将含边界框标注的训练集图像输入图像特征提取网络，获得维度为

的图像特征；

步骤二：将所述图像特征，输入由L个十字交叉注意力层串联而成的多头十字交叉注意力模块，获得编码器输出特征图；

其中，所述十字交叉注意力层首先通过该层输入的图像特征获得该层多组编码器归一化后的注意力权重A和对应的编码器值向量V；然后通过A和V求出该层初步增强特征图

；接着，将所述

替换该层输入的图像特征，再次经过上述步骤，得到中间结果增强特征图；最后将中间结果增强特征图与输入的图像特征对应元素相加，经过该层编码器前馈网络和该层编码器层归一化后，得到该多头十字交叉注意力层输出的增强特征；

步骤三：将所述编码器输出特征图，通过由L个多方向交叉注意力层串联而成的多方向交叉注意力模块，获得解码器输出增强目标查询向量；

所述多方向交叉注意力层首先通过编码器输出特征图获得该层多组解码器归一化后的注意力权重

和对应的解码器值向量

，然后通过所述

和

求出该层融合后的增强目标查询特征

；最后，改变所述

维度为

，依次经过该层解码器前馈网络和该层解码器层归一化后，得到该层多方向交叉注意力层输出的目标查询向量；

步骤四：将所述解码器输出增强目标查询向量分别通过分类层和回归层得到训练集图像的预测边界框类别概率和位置；

步骤五：将所述训练集图像的预测边界框类别概率和位置，与训练集图像的真实边界框类别和位置信息计算网络整体损失函数，通过反向传播方法对模型进行训练，得到目标检测模型；

步骤六：利用所述目标检测模型对待检测图像进行目标检测，以检测出所述待检测图像中待检测物体。

进一步地，每个多头十字交叉注意力层的操作具体如下：

S2.1：对于第一层多头十字交叉注意力层，将所述图像特征按照第1个维度等分为M组维度为

子图像特征；对于第i层多头十字交叉注意力层，

，将第i-1层多头十字交叉注意力层输出的维度为

的增强特征

按照第1个维度等分为M组子图像特征，其中第i层输入的第m组子图像特征

的维度为

，

；将第L层多头十字交叉注意力层输出的增强特征

作为编码器输出特征图；

S2.2：将所述

分别经过第i层第m组

编码器查询向量卷积

和第i层第m组

编码器匹配键值卷积

，分别得到第i层第m组编码器查询向量

、第i层第m组的编码器匹配键值

；所述

，

维度为

；

S2.3：采用下式计算第i层第m组第u个位置编码器未归一化注意力权重

：

其中，

表示

的第u个位置向量，其维度为

；

表示

第u个位置同行同列向量，其维度为

；u表示在分辨率维度上的一个位置，

；

将所有位置

拼接成为第i层第m组编码器未归一化注意力权重

，其维度为

；

将

每一元素除以

后，在第1个维度上进行softmax操作，得到第i层第m组编码器归一化后的注意力权重

；

S2.4：将所述

经过第i层第m组

编码器值向量卷积

，得到第i层第m组的编码器值向量

，其维度为

；

S2.5：根据下式计算第i层第m组第u个位置初步增强特征图

：

其中，

表示

第u个位置向量，其维度为

；

表示所述

第u个位置同行同列向量，其维度为

；

将所有位置

拼接后经过第i层

编码器融合卷积

，从而得到第i层初步增强特征图

，其维度为

；

S2.6：将所述

替换步骤S2.1中的

，在所有卷积参数权值共享下，重复S2.1~S2.5后，将其输出的第i层第m组中间结果增强特征图的对应元素加上

，最终获得第i层第m组再次增强特征图

；

S2.7：将所述

在第1个维度拼接，经过第i层编码器前馈网络和第i层编码器层归一化，得到第i层多头十字交叉注意力层输出的增强特征

。

进一步地，所述步骤三中的每个多方向交叉注意力层进行如下操作：

S3.1：对于第一层多方向交叉注意力层，输入维度为

的可学习的目标查询向量，并对所述目标查询向量进行标准正态分布的随机初始化；对于第i层多方向交叉注意力层，

，将第i-1层多方向交叉注意力层输出的目标查询向量

作为第i层多方向交叉注意力层输入的目标查询向量；将第L层多方向交叉注意力层输出的目标查询向量

作为解码器输出增强目标查询向量；

S3.2：将所述

输入到两层的多层感知机网络，生成维度为

的第i层建议框；将所述第L层多头十字交叉注意力层输出的增强特征

按照第1个维度等分为M组，第L层多头十字交叉注意力层输出的第m组的子图像特征

的维度为

；

S3.3：从N个第i层建议框中心出发，对所述

均匀向外张开M个方向，在每个方向上使用双线性插值均匀采样K个点，得到维度为

的第i层第m组采样视觉特征向量

；通过改变维度的方式将所述

变成维度为

的第i层第m组目标查询特征

；

S3.4：将所述

经过第i层第m组

解码器查询向量卷积

，得到第i层第m组解码器查询向量

，维度为

；将所述

经过第i层第m组

解码器匹配键值卷积

，得到第i层第m组解码器匹配键值

，维度为

；

S3.5：通过下式计算得到第i层第m组第j个解码器未归一化注意力权重

：

其中，

为所述

的第2个维度第j个矩阵，维度为

；

为所述

的第2个维度第j个矩阵，维度为

；其中，

；

将所有维度

在第2个维度进行拼接，成为第i层第m组解码器未归一化注意力权重

，其维度为

；

将

每一元素除以

后，在第1个维度上进行softmax操作，得到第i层第m组解码器归一化后的注意力权重

；

S3.6：将所述

经过第i层第m组

解码器值向量卷积

，得到第i层第m组的解码器值向量

，其维度为

；

S3.7：通过下式计算得到第i层第m组第j个增强目标查询特征

：

其中，

表示所述

第2个维度的第j个向量，其维度为

；

为所述

第2个维度取出第j个向量，其维度为

；

将所有

在第2个维度拼接，成为第i层第m组增强目标查询特征

，其维度为

；

S3.8：将上述所有第i层每组增强目标查询特征在第3个维度拼接后，通过第i层

解码器融合卷积

，第i层得到融合后的增强目标查询特征

，改变维度为

，之后经过第i层解码器前馈网络和第i层解码器层归一化，得到第i层多方向交叉注意力层输出的目标查询向量

，维度为

。

进一步地，所述步骤四包括：将所述解码器输出增强目标查询向量分别输入到由两个不同全连接网络组成的分类层和回归层，输出训练集图像的预测边界框类别概率和位置。

进一步地，所述步骤五包括：将所述输出训练集图像的预测边界框类别概率和位置与真实边界框类别和位置信息通过匈牙利匹配算法获得最佳匹配，然后计算分类损失函数和位置回归损失函数之和作为网络整体损失；网络整体损失表达式如下所示：

其中，

表示分类损失函数，计算预测边界框类别概率和真实边界框类别的焦点损失；

表示预测边界框位置和真实边界框位置的L1损失，

表示预测边界框位置和真实边界框位置的广义的IoU损失，

和

之和表示位置回归损失函数；

、

和

分别表示分类损失函数、L1损失和广义的IoU损失对应的权重系数；

最后使用反向传播方法对整个模型进行训练，当网络整体损失不再降低时，得到目标检测模型。

一种基于自注意力机制的通用图像目标检测装置，包括一个或多个处理器，用于实现上述的基于自注意力机制的通用图像目标检测方法。

一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时，实现上述的基于自注意力机制的通用图像目标检测方法。

本发明具有如下的有益效果：

本发明提供的基于自注意力机制的通用图像目标检测方法，其中多头十字交叉注意力模块和多方向交叉注意力模块使得图像特征中空间信息更好的保留下来。特别地，多方向交叉注意力模块更好地聚集了第L层多头十字交叉注意力层输出的增强特征

中局部信息，更加有利于检测框的定位。由于上述所设计的适合目标检测任务的操作，模型在一定程度上降低计算量；在保持精度一定的情况下，加快模型训练速度和收敛速度。

附图说明

图1为本发明提供的基于自注意力机制的通用图像目标检测方法的流程示意图；

图2为本发明提供的基于自注意力机制的通用图像目标检测方法的网络架构图；

图3为多方向交叉注意力模块采样示例图（图示张开16个方向，每个方向采样3个点）。

图4为本发明提供的基于自注意力机制的通用图像目标检测装置的结构框图。

具体实施方式

下面根据附图和优选实施例详细描述本发明，本发明的目的和效果将变得更加明白，应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

首先就本发明的技术术语进行解释说明：

ResNet50，ResNet50-DC5：ResNet是残差神经网络，由2015年提出并获得同年ILSVRC冠军。其主要贡献是通过快捷连接（Shortcut connection），消除了深度过大网络训练困难的问题；ResNet50表示50层的ResNet网络。ResNet50-DC5中DC5表示最后一个stage采用空洞率和stride相同的设置。目的是在不进行下采样基础上扩大感受野，输出特征图保持不变。

FPN:FPN是特征金字塔网络，于2017年提出，目的是采用特征金字塔做目标检测，通过自下而上网络提取不同网络层特征图，然后经过自上而下的网络融合特征图，最后在每一不同分辨率特征图上进行目标检测任务。这种特征融合和分而治之的思路被证明能够有效提高目标检测任务效果。

DETR：DEtection TRansformer模型的简称，于2020年提出。该模型将网络简化为图像特征提取模块，编码器和解码器模块，其中编码器模块使用多头自注意力机制获得编码后的序列特征；解码器模块通过输入可学习的目标查询向量和编码后的序列特征，使用多头自注意力机制获得增强的目标查询向量，最后通过两个不同的前馈网络获得待检测对象类别概率和边界框位置，从而实现端到端的目标检测流程。

请参阅图1，本发明实施例提供的基于自注意力机制的通用图像目标检测方法包括以下步骤：

S100、将含边界框标注的训练集图像输入图像特征提取网络，获得维度为

的图像特征；

在本实例中，所述输入图像特征提取网络可以使用不同种类的卷积神经网络来提取图像特征。

S200、将所述图像特征，通过由L个十字交叉注意力层串联而成的多头十字交叉注意力模块，获得编码器输出特征图；

在本发明中，考虑到编码器设计应该关注全局信息的同时，针对DETR模型将二维图像特征转化为一维序列进行预测的设计会损失图像空间信息这一问题。本发明在该部分使用十字交叉注意力来进行改进。进一步地，考虑模型训练和其实际计算效率，本发明设计了多头十字交叉注意力模块来优化该部分。

所述多头十字交叉注意力模块请参阅图2，该模块由L个多头十字交叉注意力层组成，整体模块输入S100的图像特征，输出第L层多头十字交叉注意力层输出的增强特征，即编码器输出特征图。

所述十字交叉注意力层的操作用公式表达如下：

首先，通过下述公式的计算得到该层第m组分辨率维度上第u个空间位置编码器归一化后的注意力权重

：

上述公式中，

是该层第m组

编码器查询向量卷积，

是该层第u个位置输入图像特征，

是该层第u个位置同行同列输入图像特征，

是该层第m组

编码器匹配键值卷积，C为输出输入图像特征通道数，M是该层分组的总组数。

然后采用下列公式得到该层初步增强特征图

：

上述公式中，

是该层第m组

编码器融合卷积，

是该层

编码器值向量卷积。

接着，将所述该层初步增强特征图

再重复上述步骤，得到中间结果增强特征图。将中间结果增强特征图与输入图像特征对应元素相加，得到该层再次增强特征图

。

最后，将所述

依次经过该层编码器前馈网络（feed-forward network）和该层编码器层归一化（Layer Normalization），得到该层多头十字交叉注意力层输出的增强特征。

具体地，每一个多头十字交叉注意力层具体步骤如下所述：

（1）对于第一层多头十字交叉注意力层，将所述图像特征按照第1个维度等分为M组维度为

子图像特征；对于第i层多头十字交叉注意力层，

，将第i-1层多头十字交叉注意力层输出的维度为

的增强特征

按照第1个维度等分为M组子图像特征，其中第i层输入第m组子图像特征

的维度为

，

；将第L层多头十字交叉注意力层输出的增强特征

作为编码器输出特征图。

（2）将所述

分别经过第i层第m组

编码器查询向量卷积

和第i层第m组

编码器匹配键值卷积

，分别得到第i层第m组编码器查询向量

、第i层第m组的编码器匹配键值

；所述

，

维度为

。

（3）采用下式计算第i层第m组第u个位置编码器未归一化注意力权重

：

其中，

表示

的第u个位置向量，其维度为

；

表示

第u个位置同行同列向量，其维度为

；u表示在分辨率维度上的一个位置，

；

将所有位置

拼接成为第i层第m组编码器未归一化注意力权重

，其维度为

；

将

每一元素除以

。

（4）将所述

经过第i层第m组

编码器值向量卷积

，得到第i层第m组的编码器值向量

，其维度为

；

（5）根据下式计算i层第m组第u个位置初步增强特征图

：

其中，

表示

第u个位置向量，其维度为

；

表示所述

第u个位置同行同列向量，其维度为

；

将所有位置

拼接后经过第i层

编码器融合卷积

，从而得到第i层初步增强特征图

，其维度为

。

（6）将所述

替换步骤（1）中的

，在所有卷积参数权值共享下，重复（1）~（5）后，将其输出的第i层第m组中间结果增强特征图的对应元素加上

，最终获得第i层第m组再次增强特征图

。

（7）将所述

。

S300、将所述编码器输出特征图，通过由L个多方向交叉注意力层串联而成的多方向交叉注意力模块，获得解码器输出增强目标查询向量；

本发明该部分是针对DETR在解码器中将全局信息作为序列进行处理的操作进行优化。动机在于考虑到图像空间信息和上下文语义信息对于目标检测任务的重要性。从而本发明解码器的设计更关注于局部的上下文语义信息而不是全局信息。从而本发明提出了多方向交叉注意力模块。

所述多方向交叉注意力模块请参阅图2和3，该模块包括L个多方向交叉注意力层组成。整体模块输入编码器输出特征图，输出第L层多方向交叉注意力层输出的目标查询向量，即解码器输出增强目标查询向量。

所述多方向交叉注意力层的执行过程通过公式表达如下：

首先，由下述公式计算得到该层第m组第2维度第j个解码器归一化后的注意力权重

：

上述公式中，

是该层第m组

解码器查询向量卷积，

是该层多方向交叉注意力层输入第2维度第j个的目标查询向量；

是该层第m组

解码器匹配键值卷积，

是该层采样视觉特征向量，即编码器输出特征图；

然后采用下列公式得到该层融合后的增强目标查询特征

：

上述公式中，

是该层第m组

解码器值向量卷积，

是该层第m组

解码器融合卷积。

最后，改变所述

维度为

，之后依次经过该层解码器前馈网络和该层解码器层归一化，得到该层多方向交叉注意力层输出的目标查询向量。

进一步地，每个多方向交叉注意力层具体步骤如下所述：

（1）对于第一层多方向交叉注意力层，输入维度为

，将第i-1层多方向交叉注意力层输出的目标查询向量

作为解码器输出增强目标查询向量。

（2）将所述

输入到两层的多层感知机网络，生成维度为

的维度为

。

（3）从N个第i层建议框中心出发，对所述

的第i层第m组采样视觉特征向量

；通过改变维度的方式将所述

变成维度为

的第i层第m组目标查询特征

。

（4）将所述

经过第i层第m组

解码器查询向量卷积

，得到第i层第m组解码器查询向量

，维度为

；将所述

经过第i层第m组

解码器匹配键值卷积

，得到第i层第m组解码器匹配键值

，维度为

。

（5）通过下式计算得到第i层第m组第j个解码器未归一化注意力权重

：

其中，

为所述

的第2个维度第j个矩阵，维度为

；

为所述

的第2个维度第j个矩阵，维度为

；其中，

；

将所有维度

，其维度为

；

将

每一元素除以

。

（6）将所述

经过第i层第m组

解码器值向量卷积

，得到第i层第m组的解码器值向量

，其维度为

。

（7）通过下式计算得到第i层第m组第j个增强目标查询特征

：

其中，

表示所述

第2个维度的第j个向量，其维度为

；

为所述

第2个维度取出第j个向量，其维度为

；

将所有

在第2个维度拼接，成为第i层第m组增强目标查询特征

，其维度为

。

（8）将上述所有第i层每组增强目标查询特征在第3个维度拼接后，通过第i层

解码器融合卷积

，第i层得到融合后的增强目标查询特征

，改变维度为

，维度为

。

S400、将所述解码器输出增强目标查询向量分别通过分类层和回归层得到训练集图像的预测边界框类别概率和位置。

在本实例中，请参阅图2，将解码器输出增强目标查询向量分别输出到由两个不同全连接网络组成的分类层和回归层输出训练集图像的预测边界框类别概率和位置。其中，解码器输出增强目标查询向量即所述第L层多方向交叉注意力层输出的目标查询向量

。

S500、将所述训练集图像的预测边界框类别概率和位置和训练集图像的真实边界框类别和位置信息计算网络整体损失，通过反向传播方法对模型进行训练，得到目标检测模型；

在本实例中，将所述输出训练集图像的预测边界框类别概率和位置与真实边界框类别和位置信息通过匈牙利匹配算法获得最佳匹配，然后计算分类损失函数和位置回归损失函数之和作为网络整体损失。网络整体损失表达式如下所示：

其中，

表示分类损失函数，计算预测边界框类别概率和真实边界框类别的焦点损失。

表示预测边界框位置和真实边界框位置的L1损失，

表示预测边界框位置和真实边界框位置的广义的IoU损失，

和

之和表示位置回归损失函数。

、

和

分别表示分类损失函数、L1损失和广义的IoU损失对应的权重系数。

S600、利用所述目标检测模型对待检测图像进行目标检测，以检测出所述待检测图像中待检测物体。

与前述基于自注意力机制的通用图像目标检测方法的实施例相对应，本发明还提供了基于自注意力机制的通用图像目标检测装置的实施例。

参见图4，本发明实施例提供的一种基于自注意力机制的通用图像目标检测装置，包括一个或多个处理器，用于实现上述实施例中的基于自注意力机制的通用图像目标检测方法。

本发明基于自注意力制的通用图像目标检测装置的实施例可以应用在任意具备数据处理能力的设备上，该任意具备数据处理能力的设备可以为诸如计算机等设备或置。装置实施例可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。

以软件实现为例，作为一个逻辑意义上的装置，是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言，如图4所示，为本发明基于自注意力机制的通用图像目标检测装置所在任意具备数据处理能力的设备的一种硬件结构图，除了图4所示的处理器、内存、网络接口、以及非易失性存储器之外，实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能，还可以包括其他硬件，对此不再赘述。

上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

本发明实施例还提供一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时，实现上述实施例中的基于自注意力机制的通用图像目标检测方法。

所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元，例如硬盘或内存。所述计算机可读存储介质也可以是外部存储设备，例如所述设备上配备的插接式硬盘、智能存储卡(SmartMedia card, SMC)、SD卡、闪存卡(Flash card)等。进一步的，所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算仉程序以及所述任意具备数据处理能力的设备所需的其他程序和数据，还可以用于暂时地存储己经输出或者将要输出的数据。

为了验证本发明有效性，将本发明在COCO 2017训练集上进行训练，使用

层多头十字交叉注意力层和多方向交叉注意力层。在所述多头十字交叉注意力模块和多方向交叉注意力模块中取

。网络整体损失表达式中

。为了更好对比，同时实现了已有的同规模DETR作为参考。将以上模型训练好在COCO 2017验证集上进行测试，结果如下表所示。

实验结果表明，本发明（CCTR）在保证检测准确率的前提下，模型训练迭代次数由原来的500轮减少到50轮，模型参数量与计算量有一定程度减少。对比表中CCTR-ResNet-5-FPN和DETR-DC5的结果，可以发现本发明在获取更好的物体检测精度（AP）的情况下，模型计算量（FLOPs）更小，且训练迭代次数减少了90%。

表1 本发明方案模型与DETR模型在COCO 2017验证集结果对比表

本领域普通技术人员可以理解，以上所述仅为发明的优选实例而已，并不用于限制发明，尽管参照前述实例对发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实例记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在发明的精神和原则之内，所做的修改、等同替换等均应包含在发明的保护范围之内。