CN111275688B

CN111275688B - 基于注意力机制的上下文特征融合筛选的小目标检测方法

Info

Publication number: CN111275688B
Application number: CN202010068011.9A
Authority: CN
Inventors: 赵仲秋; 班名洋; 沈浩; 黄德双
Original assignee: Hefei University of Technology
Current assignee: Hefei University of Technology
Priority date: 2020-01-19
Filing date: 2020-01-19
Publication date: 2023-12-12
Anticipated expiration: 2040-01-19
Also published as: CN111275688A

Abstract

本发明公开了一种基于注意力机制的上下文特征融合筛选的小目标检测方法，该方法包括四个步骤：（1）将基于弱监督学习的图像分割标注与目标检测标注匹配，然后构造适用于基于注意力机制的上下文特征融合和筛选的小目标检测数据集；（2）构建基于语义分割和目标检测的多任务深度网络及其交互共享结构；（3）通过语义可视化分析优化小目标检测网络上下文特征融合和筛选能力；（4）训练基于注意力机制的上下文特征融合和筛选的神经网络模型进行小目标检测。本发明对图像中的小目标检测具有较好准确度，优于其它小目标检测方法。

Description

基于注意力机制的上下文特征融合筛选的小目标检测方法

技术领域

本发明涉及图像中小目标检测，特别涉及一种基于注意力机制的上下文特征融合筛选的小目标检测方法。

背景技术

实时、高精度的目标检测是实现计算机有效视觉感知的关键步骤和必须克服的难点。近年来，深度学习和卷积神经网络的发展使计算机视觉研究和技术取得了突破性进展，尤其针对目标检测任务，实现了将检测任务与识别任务统一到一个神经网络框架中，在实时性与精度两个方面均远远超越了传统目标检测方法。然而，当待检测目标在不同视距与场景中尺度变化较大时，现有的深度网络模型仍不能有效地检测出小尺度目标。

在实际应用场景中，目前的深度网络模型对小目标的检测与识别性能仍无法满足大量应用场景中的实际需求，提高深度网络模型对小目标的检测和识别精度具有重要的应用前景，该方向的研究成果可以推广应用到人脸和行人检测、智能交通、公共安全、机器人导航、医疗辅助诊断等，从而促进深度学习技术在机器视觉和人工智能领域的更广泛应用。

融合目标候选区及附近上下文信息，挖掘并利用小目标与场景之间的相互关系，提高小目标的检测精度。可以将目标上下文信息较全面地概括为三类：①语义上下文(Semantic context),即目标与其他目标类别及场景等相关联的语义信息；②尺度上下文(Scale context),即目标之间的尺度大小关系；③空间上下文(Spatial context),即目标与附近其它目标的空间位置关系。DeepIDNet通过融合图像分类与目标检测，利用目标与图像全局场景相关的语义上下文信息提高检测精度；ION利用RNN(Recurrent NeuralNetworks)学习空间上下文特征即各候选局部区域之间位置关系信息。然而，这些方法只是将上下文语义特征与目标候选区的卷积特征简单串接，而未从目标检测网络提取的卷积特征中充分挖掘上下文语义信息。

但是目前神经网络模型用于小目标方法存在以下问题：

(1)常用的目标检测训练集缺乏像素级别的标注，而仅对目标的位置坐标与类别作了标注，这就会导致目标检测网络训练时不能充分挖掘目标上下文信息，而深度网络模型从低分辨率的小目标上提取的特征比较粗糙，尺寸较小的目标相比较于预设大小的目标候选框，其特征信息所占比例比较小。

(2)已有上下文信息挖掘模型大多只能从某一方面(语义上下文或空间上下文)挖掘语义特征，为候选目标特征补充更全面的上下文信息(比如，目标候选区内多个目标的遮挡关系、多类别间的关联、尺度大小关系等)，筛选与待检测目标相关的上下文特征，去除上下文特征中噪声对目标检测的干扰等仍是尚未解决的问题。

本发明技术主要针对小目标检测现有问题，采用图像语义分割网络学习细粒度语义分割特征，并从语义、尺度、空间等多个方面挖掘和分析其包含的目标上下文信息；研究基于注意力机制的软参数共享机制，实现对RoI卷积特征的筛选、融合，提出一种基于注意力机制的上下文特征融合和筛选的小目标检测方法。

发明内容

本发明目的在于针对图像检测实际应用中存在的检测准确度和检测困难等问题，提出一种基于注意力机制的上下文特征融合和筛选的小目标检测，利用目标上下文信息作为先验信息，可提升小目标检测精度。考虑图像语义分割与目标检测任务的相似性与差异性，本项目将从融合目标检测特征和图像语义分割特征的角度，设计多任务深度网络结构，抽取与目标检测高度相关的图像语义分割特征，并从语义、空间、尺度三方面分析其中包含的上下文信息的特点，并研究有效的上下文特征融合方法；研究基于注意力机制的软参数共享机制，有效筛选、融合两任务互补、冗余的特征，用于提升模型小目标检测能力。

本发明是通过以下技术方案实现的：

基于注意力机制的上下文特征融合筛选的小目标检测方法，包括以下步骤：

(1)将基于弱监督学习的图像分割标注与目标检测标注匹配，然后构造适用于基于注意力机制的上下文特征融合和筛选的小目标检测数据集；

(2)构建基于语义分割和目标检测的多任务深度网络及其交互共享结构；

(3)通过语义可视化分析优化小目标检测网络上下文特征融合和筛选能力；

(4)训练基于注意力机制的上下文特征融合和筛选的神经网络模型进行小目标检测。

所述步骤(1)的具体实现步骤为：

利用两任务目标的相似性，根据目标检测训练数据集的位置坐标与目标类别的标注信息，按像素级图像分割需求对目标检测训练图像集进行粗略标注。设计小目标C位整体分割标注方法，将仅含目标候选区域及目标类别标注(弱监督)信息的图像集中的所有图像i_w，分割标注为包含弱监督信息的语义分割图像m_w。记C表示目标类别的集合，且其中包含背景(background)类别c⁰；分割图像m_w的任一位置像素u标记为类别c的概率为/>且使用不同的颜色标记该像素以区别不同类别。用全部m_w构成的弱监督训练集/>训练语义分割网络分支/>。用数据集/>弱监督学习的网络模型/>预测的任一图像i_w在像素位置u处的类别为c的概率为/>

所述步骤(2)的具体实现步骤为：

1)在参数共享的多尺度特征重建模块基础上，串接全卷积网络(FCN)作为图像语义分割分支的主体，浅层特征(多尺度特征重建输出的多尺度特征)通过Skip-Connection残差模块(含一组卷积层Conv_α)与深卷积层输出的语义分割特征相加融合，预测语义分割图像；深卷积层输出的语义分割特征通过注意力机制(与Skip-Connection残差模块共享卷积层参数)计算语义分割注意力概率得分，再根据注意力概率得分筛选浅层卷积特征；将筛选后不同尺度大小的浅层特征按不同池化核自适应池化为同一尺寸，最终合并联结为用于目标检测的特征，并经RPN生成候选框(同一尺度大小的候选框可对应不同尺度特征，也就对应着不同尺寸的感受区域)；再对候选框样本逐个进行多类别分类以及候选框坐标回归。

2)利用目标检测的训练集训练语义分割网络分支，以最小化注意力分割损失函数，更新Skip-Connection残差模块卷积层参数，浅层的多尺度特征通过Skip-Connection残差模块直接与深层分割语义特征融合可提升语义分割精度，与此同时，注意力概率分布的通道与目标类别建立对应关系；通过注意力机制，多尺度特征与语义分割特征筛选、融合为用于目标检测的特征，提升目标检测精度。因此，这一交互共享结构能融合语义分割特征和目标检测特征，互为促进和补充，协同提升图像语义分割与目标检测精度。

3)在RPN生成的候选框中，不包含目标(IoU＜0.5)的候选框总要远比包含目标的候选框多。为平衡正负候选框样本和不同尺度候选框样本，有效训练目标分类器，同时又不额外增加多任务深度网络结构的复杂性，在RPN生成多尺度候选框过程中，按训练数据集上不同尺度目标出现频数的分布经验值设定不同尺度候选框样本的权重。另外，对二分类损失值以及坐标回归损失值排序，当RPN预测的候选框内是否存在目标的概率值p在区间0.2≤p≤0.7即认定该候选框为难检测样本，否则为易检测样本。为进一步平衡难检测样本和易检测样本对损失值的贡献，定义平衡损失函数BLoss：

BL(p_t,γ)＝w(p_t)·CL(p_t). (1)

其中，w(p_t)＝(1-p_t)^γ是权值调整函数，γ∈[0,5]是经验值，CL(p_t)＝-log(p_t)是交叉熵损失函数，p_t定义为：

其中，p是目标检测网络预测的候选框内是否存在目标的概率。

所述步骤(3)的具体实现步骤为：

1)为去除浅层特征(多尺度特征)与深层特征(语义分割特征)之间的冗余，通过注意力机制(与Skip-Connection残差模块共享卷积层参数Conv_α)计算语义分割特征(F^s)关于多尺度特征(F^m)的注意力概率得分atten_i，经soft-max归一化(σ)后的注意力概率筛选、融合得到不同尺度的特征F_i，再经过AdaptPooling(自适应池化)为直接用于目标检测的特征F_o。注意力机制的计算过程如下所示：

atten_i＝σ(Conv_α(F_i ^s)) (3)

F_o＝AdaptPooling([F₁,F₂,F₃]) (5)

2)目标检测网络分支利用目标类别与位置等信息监督学习后，注意力概率分布则表达了对目标的位置分布、注意力区域大小、注意力强度(注意力概率值所处范围)等方面的信息。图像语义分割网络分支更新Skip-Connection残差模块卷积层参数以最小化注意力分割损失函数，又使注意力概率分布的通道与目标类别建立对应关系。总之，注意力机制能从目标的空间分布、尺度大小、类别语义等方面，将浅层多尺度特征与语义分割特征深度筛选融合为用于目标检测的特征。

3)将各通道的注意力概率分布用热力图可视化，统计注意力概率值在可视化图像中作用的位置分布、注意力区域大小、注意力强度，并将其与待检测图像目标的位置分布、尺度大小、类别信息等作对比分析，以验证注意力机制对目标位置、尺度、类别等特征的筛选作用；通过比较细粒度的低层特征图及其筛选后的特征图间的差异，验证语义分割特征中包含的目标位置、尺度、类别语义等上下文信息及其具体对应关系。

所述步骤(4)的具体实现步骤为：

将步骤(1)中图像分割标注与目标检测标注匹配后的数据集，输入步骤(2)中构建的神经网络，训练小目标检测模型，通过步骤(3)不断优化模型小目标检测能力，最终得到基于注意力机制的上下文特征融合和筛选的小目标检测模型。

本发明的优点是：本发明在传统目标检测研究基础上，基于目标上下文特征分析，构建语义分割特征和目标检测特征的信息交互共享结构，创新性地提出基于注意力机制的上下文特征融合和筛选的小目标检测模型，将有效提高其在图像小目标检测的精度，在小目标检测实际应用中具有重要意义；面向小目标检测，提出图像训练集的小目标C位整体分割标注方法，解决了图像分割标注与目标检测标注的匹配问题。

附图说明

图1为目标检测标注图和小目标c位整体分割标注图。

图2为本发明提出的小目标检测深度网络模型结构示意图。

图3为本发明提出的基于注意力机制的上下文特征融合和筛选的小目标检测方法流程图。

具体实施方式

如图3所示，基于注意力机制的上下文特征融合筛选的小目标检测方法，包括以下步骤：

步骤(1)的具体实现步骤为：

利用两任务目标的相似性，根据目标检测训练数据集的位置坐标与目标类别的标注信息，按像素级图像分割需求对目标检测训练图像集进行粗略标注。设计小目标C位整体分割标注方法(如图1(a)(b))，将仅含目标候选区域及目标类别标注(弱监督)信息的图像集中的所有图像i_w，分割标注为包含弱监督信息的语义分割图像m_w。记C表示目标类别的集合，且其中包含背景(background)类别c₀；分割图像m_w的任一位置像素u标记为类别c的概率为/>且使用不同的颜色标记该像素以区别不同类别。用全部m_w构成的弱监督训练集/>训练语义分割网络分支/>用数据集/>弱监督学习的网络模型/>预测的任一图像i_w在像素位置u处的类别为c的概率为/>

步骤(2)的具体实现步骤为：

1)在参数共享的多尺度特征重建模块(如图2(b))基础上，串接全卷积网络(FCN)作为图像语义分割分支的主体(如图2(c)所示)，浅层特征(多尺度特征重建输出的多尺度特征)通过Skip-Connection残差模块(含一组卷积层Conv_α)与深卷积层输出的语义分割特征相加融合，预测语义分割图像；深卷积层输出的语义分割特征通过注意力机制(与Skip-Connection残差模块共享卷积层参数)计算语义分割注意力概率得分，再根据注意力概率得分筛选浅层卷积特征；将筛选后不同尺度大小的浅层特征按不同池化核自适应池化为同一尺寸，最终合并联结为用于目标检测的特征，并经RPN生成候选框(同一尺度大小的候选框可对应不同尺度特征，也就对应着不同尺寸的感受区域)；再对候选框样本逐个进行多类别分类以及候选框坐标回归(如图2(a)所示)。

BL(p_t,γ)＝w(p_t)·CL(p_t). (1)

步骤(3)的具体实现步骤为：

atten_i＝σ(Conv_α(F_i ^s)) (3)

F_o＝AdaptPooling([F₁,F₂,F₃]) (5)

步骤(4)的具体实现步骤为：

Claims

1.一种基于注意力机制的上下文特征融合筛选的小目标检测方法，其特征在于，包括以下步骤：

(4)训练基于注意力机制的上下文特征融合和筛选的神经网络模型进行小目标检测；

步骤(1)所述的将基于弱监督学习的图像分割标注与目标检测标注匹配，然后构造适用于基于注意力机制的上下文特征融合和筛选的小目标检测数据集，具体实现步骤为：

利用两任务目标的相似性，根据目标检测训练数据集的位置坐标与目标类别的标注信息，按像素级图像分割需求对目标检测训练图像集进行标注；将仅含目标候选区域及目标类别标注信息的图像集中的所有图像i_w，分割标注为包含弱监督信息的语义分割图像m_w，记C表示目标类别的集合，且其中包含背景类别c₀；分割图像m_w的任一位置像素u标记为类别c的概率为/>且使用不同的颜色标记该像素以区别不同类别，用全部语义分割图像m_w构成的弱监督训练集/>训练语义分割网络分支/>用网络模型/>预测的任一图像i_w在像素位置u处的类别为c的概率为/>

步骤(2)所述的构建基于语义分割和目标检测的多任务深度网络及其交互共享结构，具体实现步骤为：

1)在参数共享的多尺度特征重建模块基础上，串接全卷积网络作为图像语义分割分支的主体，浅层特征通过Skip-Connection残差模块与深卷积层输出的语义分割特征相加融合，预测语义分割图像，所述的残差模块含一组卷积层Conv_α；深卷积层输出的语义分割特征通过注意力机制计算语义分割注意力概率得分，注意力机制与Skip-Connection残差模块共享卷积层参数，再根据注意力概率得分筛选浅层卷积特征；将筛选后不同尺度大小的浅层特征按不同池化核自适应池化为同一尺寸，最终合并联结为用于目标检测的特征，并经RPN生成候选框；再对候选框样本逐个进行多类别分类以及候选框坐标回归；

2)利用目标检测的训练集训练语义分割网络分支，以最小化注意力分割损失函数，更新Skip-Connection残差模块卷积层参数，浅层的多尺度特征通过Skip-Connection残差模块直接与深层分割语义特征融合提升语义分割精度，与此同时，注意力概率分布的通道与目标类别建立对应关系；通过注意力机制，多尺度特征与语义分割特征筛选、融合为用于目标检测的特征，提升目标检测精度；

3)在RPN生成的候选框中，不包含目标的候选框总要远比包含目标的候选框多，为平衡正负候选框样本和不同尺度候选框样本，在RPN生成多尺度候选框过程中，按训练数据集上不同尺度目标出现频数的分布经验值设定不同尺度候选框样本的权重；另外，对二分类损失值以及坐标回归损失值排序，当RPN预测的候选框内是否存在目标的概率值p在区间0.2≤p≤0.7即认定该候选框为难检测样本，否则为易检测样本；定义平衡损失函数BLoss：

BL(p_t,γ)＝w(p_t)·CL(p_t). (1)

其中，p是目标检测网络预测的候选框内是否存在目标的概率；

步骤(3)所述的通过语义可视化分析优化小目标检测网络上下文特征融合和筛选能力，具体实现步骤为：

1)为去除浅层特征与深层特征之间的冗余，通过注意力机制计算语义分割特征F^s关于多尺度特征F^m的注意力概率得分atten_i，经soft-max归一化σ后的注意力概率筛选、融合得到不同尺度的特征F_i，再经过自适应池化AdaptPooling为直接用于目标检测的特征F_o；注意力机制的计算过程如下所示：

atten_i＝σ(Conv_α(F_i ^s)) (3)

F_o＝AdaptPooling([F₁,F₂,F₃]) (5)；

2)图像语义分割网络分支更新Skip-Connection残差模块卷积层参数以最小化注意力分割损失函数，又使注意力概率分布的通道与目标类别建立对应关系，因此注意力机制能从目标的空间分布、尺度大小、类别语义方面，将浅层多尺度特征与语义分割特征深度筛选融合为用于目标检测的特征；

3)将各通道的注意力概率分布用热力图可视化，统计注意力概率值在可视化图像中作用的位置分布、注意力区域大小、注意力强度，并将其与待检测图像目标的位置分布、尺度大小、类别信息作对比分析，以验证注意力机制对目标位置、尺度、类别特征的筛选作用；通过比较细粒度的低层特征图及其筛选后的特征图间的差异，验证语义分割特征中包含的目标位置、尺度、类别语义上下文信息及其具体对应关系；

步骤(4)所述的训练基于注意力机制的上下文特征融合和筛选的神经网络模型进行小目标检测，具体实现步骤为：