CN114677571A

CN114677571A - 一种基于双边注意力机制的复杂背景下目标检测方法

Info

Publication number: CN114677571A
Application number: CN202210317817.6A
Authority: CN
Inventors: 李春国; 罗顺; 刘周勇; 杨绿溪
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2022-03-29
Filing date: 2022-03-29
Publication date: 2022-06-28

Abstract

本发明公开了一种基于双边注意力机制的复杂背景下的目标检测方法，可用于在复杂背景下进行精确的前景目标检测。该发明主要包括：根据公开的复杂背景下目标检测数据集，构建训练集、验证集和测试集；构建基于双边注意力机制的人工神经网络检测模型Bi‑SINet；在Pytorch深度学习平台上运用SGD优化器优化Bi‑SINet模型；在所构建的测试集上评估收敛的Bi‑SINet网络模型的检测性能。本发明相比当前主要的复杂背景下的目标检测算法SINet能取得更好的检测性能。本发明在降低了平均绝对误差的同时，实现了更高的增强‑对齐指标、结构指标及加权的F指标，是一种更加精确的复杂背景下的目标检测算法。

Description

一种基于双边注意力机制的复杂背景下目标检测方法

技术领域

本发明涉及一种基于双边注意力机制的复杂背景下的目标检测方法，适用于计算机视觉中复杂背景下的目标检测技术领域。

背景技术

图像和视频是人类获取信息的重要来源，因此利用计算机针对海量图像和视频进行分析处理的应用也得到了大力发展。目标检测作为计算机视觉领域的基本任务之一，是帮助计算机理解图像数据的重要手段，在行人检测、车辆检测、自动驾驶、安防系统和医疗等领域都有着广泛的应用前景。

得益于深度学习技术的发展，目标检测在最近几年吸引了广泛的注意力，并取得了巨大的成功，一大批高效的检测算法被提出。现有的基于卷积神经网络(ConvolutionNeural Networks，CNN)的目标检测算法主要分为两大类：单阶段检测算法和两阶段检测算法。单阶段检测算法的代表性算法有YOLO和SSD，两阶段算法的代表性算法有Faster R-CNN和Cascade R-CNN。当前的通用目标检测已经取得了长足的发展，能够达到较高的检测准确率，但是由于现实中的场景的复杂性，以及目标的伪装色和遮挡情况对高精度检测带来了很大的挑战。一些应用领域例如医疗、农业、海洋、军事等采集到的图像数据中，背景的复杂程度往往较高。由于光照强度、色彩复杂度以及物体本身的伪装颜色等因素，待检测目标往往与周围环境融为一体，前景与背景之前的差距极小，物体的边缘难以区分，导致通用的目标检测算法无法直接应用。因此开展复杂背景下的目标检测算法的研究具有重要的意义。

发明内容

针对现有复杂背景下的目标检测算法检测精确度不足的问题，本发明在当前算法SINet的基础上，提出了一种基于双边注意力机制的复杂背景下的目标检测方法，被命名为Bi-SINet。本发明中的Bi-SINet网络模型采用渐进式的检测框架，由粗到细地对待检测目标进行推理检测。同时，利用双边注意力来提高特征融合的效率。训练好的Bi-SINet网络模型的检测性能优于Bi-SINet模型，在降低平均绝对误差(Mean Absolute Error,MAE)的同时，提高了检测结果的增强-对齐指标(Enhanced-alignment Measure,EM)、结构指标(Structure Measure,SM)和加权的F指标(Weighted F Measure,WFM)，说明本发明有效提高了复杂背景下的目标检测精度。

为了实现上述目的，本发明提供如下技术方案：

一种基于双边注意力机制的复杂背景下的目标检测方法，其特征在于，包括如下步骤：

步骤S1：根据公开的复杂背景下的目标检测数据集，构建训练集、验证集和测试集；

步骤S2：构建基于双边注意力机制的Bi-SINet网络模型，利用所构建的训练集对Bi-SINet网络模型进行监督训练，直到模型收敛到最优性能；

步骤S3：将待检测图像输入步骤S2得到的收敛的Bi-SINet网络模型进行前向运算，即可得到检测结果。将收敛的Bi-SINet网络模型在所构建的测试集上进行检测，根据检测结果评估模型性能。

进一步地，所述步骤S1具体包括：

步骤S101：获取公开的复杂背景下的目标检测数据集，包含COD10K数据集、CAMO数据集和CHAMELEON数据集；

步骤S102：所构建的训练集4040对图像标签对，所构建的验证集包含101对图像标签对，所构建的测试集包含2352对图像标签对。

进一步地，所述步骤S2具体包括：

步骤S203：在训练阶段，采用交叉熵损失函数和交并比损失函数对模型输出的5个检测结果进行监督训练，总体损失函数可以用L_overall来表示，其计算公式为：

其中，

表示第k层检测结果与真实标签之间的结构加权后的交叉熵损失，而

则表示第k层检测结果与真实标签之间的结构加权后的交并比损失，它们的计算表达式分别为：

其中，H表示图像高度，W表示图像宽度，

和mask_GT(x,y)分别表示第k层预测结果和真实标签中位置坐标为(x,y)的值，γ是和结构权重相关的参数，设置为γ＝5，w(x,y)表示坐标为(x,y)的位置对应的结构权重，其表达式如下：

其中，A_xy表示以坐标为(x,y)的像素为中心的周围像素的集合；

步骤S204：在训练过程中，采用随机梯度下降优化算法对网络参数进行迭代更新，同时以多项式法对学习率进行衰减。训练过程中，间隔200次迭代使用所构建的验证集对模型性能进行验证，确保模型收敛到最优性能；

步骤S205：利用优化收敛后固定参数的Bi-SINet网络模型对输入的待检测图像进行前向计算，即可获得前景目标分割图作为检测结果。

进一步地，所述步骤S3具体包括：

步骤S301：将待检测图片归一化后，输入收敛的Bi-SINet网络模型进行检测，在输出的5个不同尺度的检测结果中，选择尺度最大的

作为模型的最终检测结果mask_pred。

步骤S302：根据模型的检测结果mask_pred和对应的真实标签mask_GT，计算平均绝对误差MAE，计算公式如下：

其中，H表示图像高度，W表示图像宽度，mask_pred(x,y)和mask_GT(x,y)分别表示预测结果和真实标签中位置坐标为(x,y)的值；

步骤S303：根据模型的检测结果mask_pred和对应的真实标签mask_GT，计算客观评价指标EM，计算公式如下：

其中，H代表图像高度，W表示图像宽度，φ_FM表示增强的对齐矩阵；

步骤S304：根据模型的检测结果mask_pred和对应的真实标签mask_GT，计算客观评价指标SM，计算公式如下：

SM＝αS₀+(1-α)S_r (7)

其中S₀表示针对目标的结构相似度，S_r表示针对区域的结构相似度，平衡两者的权重a通常取值0.5；

步骤S305：根据模型的检测结果mask_pred和对应的真实标签mask_GT，计算客观评价指标WFM，计算公式如下：

其中P^w表示加权修正后的准确率，R^w表示加权修正后的召回率，β是平衡准确率和召回率的因子，设置为0.3；

最后，可以通过收敛的Bi-SINet网络模型进行复杂背景下的目标检测，输入待检测图像进行前向计算，输出预测的前景目标分割图作为检测结果。

本发明的有益效果是：本发明提出的Bi-SINet网络模型采用双边注意力机制模拟人脑的信号处理机制，对目标特征进行筛选和强化，从而提高特征融合的效率。渐进式的检测框架输出的多层检测结果在训练阶段增强了对模型各层特征的监督和约束能力，同时在检测时能够由粗到细地检测复杂背景下的目标。相比于当前主要的复杂背景下的目标检测模型，本发明所提出的Bi-SINet网络模型能够实现更加精确的检测结果，同时有效缓解误检和漏检的现象，具体体现在：检测结果的平均绝对误差MAE显著降低，同时结构指标SM、增强-对齐指标EM和加权的F指标WFM也有显著提高。

附图说明

图1为实施例1中基于双边注意力机制的复杂背景下的目标检测方法的流程图。

图2为实施例1中Bi-SINet网络模型结构图。

图3为实施例1中基于双边注意力的特征融合模块结构图。

图4为实施例1中双边注意力机制的内部结构图。

图5为实施例1中Bi-SINet网络训练与预测流程图。

图6为实施例1中本发明方法与当前主要方法检测性能在评估指标上的对比。

图7为实施例1中本发明方法与当前主要方法检测性能在图像效果上的对比。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

参见图1-图5，本实施提供一种基于双边注意力机制的复杂背景下目标检测方法。

具体的说，参见图1，本方法具体包括：

步骤S1：获取公开的复杂背景下的目标检测数据集，包括：COD10K数据集、CAMO数据集和CHAMELEON数据集，据此构建训练集、验证集和测试集；

更具体的说，所构建的训练集包含COD10K数据集中的3040对图像数据对和CAMO对数据集中的100对图像数据对，共4040条数据；所构建的验证集包含COD10K数据集中的101对图像数据对；所构建的测试集包含COD10K中的2026对图像数据对、CAMO数据集中的250对图像数据对和CHAMELEON数据集中的76对图像数据对，共2352条数据。

步骤S2：构建基于双边注意力机制的Bi-SINet网络模型。

更具体的说，所构建的Bi-SINet网络模型的具体结构如图2所示，Bi-SINet网络模型主要由特征提取器和渐进式的检测框架组成。其中特征提取器采用ResNet-50网络，特征提取器输出4层不同尺度的特征到渐进式的检测框架中进行检测。如图2所示，渐进式的检测框架主要由感受野增强模块、基于双边注意力的特征融合模块和检测模块组成。

a)感受野增强模块包含4重不同感受野尺度的卷积分支和一个残差连接分支，每个感受野分支使用两层卷积层和一层膨胀卷积层模拟不同尺度的感受野，经过不同感受野分支增强后的特征通过拼接和卷积的方式进行融合。

b)基于双边注意力的特征融合模块中包含双边注意力机制，辅助高层特征与本层特征的融合。其主要结构如图3所示，对于第k层(k＝1,2,3)的特征融合，高层增强特征f_k′₊₁首先经过双边注意力模块进行特征增强，随后与高层检测结果pred_k+1一同上采样2倍后相乘得到增强后的前景目标特征F，再与本层特征在通道维度拼接后，经过一层卷积层输出本层的特征融合结果f_k″。

c)检测模块的主要结构是一个小型的Unet网络，在编码阶段和解码阶段分别只进行一次下采样和上采样。

更具体的说，双边注意力机制的内部结构如图4所示，其主要组成部分为值注意力和距离注意力两个分支。输入特征分别在两个注意力分支上完成编码，编码后的特征经过特征拼接和卷积操作后输出。其中，在计算某像素点特征的值注意力编码时，需要综合考虑当前像素点特征与周围像素点特征在值方面的相关性，用特征的点积运算来衡量。其计算表达式如下所示：

其中，

表示像素点i的值注意力编码结果，x_i表示周围像素点对应的特征，v表示以像素点i为中心，3×3范围内像素点的集合，f(x,y)表示两个间的点积运算，C(x)表示归一化因此，对应点积结果在j维度上进行softmax运算。

在计算某像素点特征的距离注意力编码时，需要考虑当前像素点为中心，周围像素点特征与当前像素店特征在距离方面的相关性，利用欧几里得距离和高斯分布函数来刻画。距离注意力编码过程可以用下式表示：

其中，

表示当前像素点i的距离注意力特征编码结果，p_i表示像素点i的位置坐标，p_j表示周围像素点的位置坐标。x_j表示周围像素点的输入特征，s表示当前像素点i为中心周围5×5范围内像素点的集合，C(x)表示归一化因子，对应集合s中元素的数量。

为高斯函数，其表达式为：

其中，d表示两像素点之间的欧几里得距离，α_s是一个平滑参数，在模型中设置为a_s＝1.5。

步骤S3：在Pytorch深度学习框架上，利用所构建的训练集对Bi-SINet网络模型进行监督训练，每隔一定迭代次数利用验证集验证模型性能，直到模型收敛到最优性能；

更具体的说，Bi-SINet网络模型的训练和预测流程如图3所示，包括：

步骤S301：对训练数据进行预处理，首先利用双线性插值法将原始图像及对应的真实标签的大小修改为384×384，随后进行随机放缩、随机旋转等图像数据增强处理，最后将图像进行归一化处理后出入Bi-SINet网络模型进行训练；

步骤S302：Bi-SINet网络模型对输入图像进行特征提取，随后将提取到的多层特征输入渐进式的检测框架中进行检测。渐进式的检测框架会基于每层特征进行前景目标分割，共输出5个不同尺度的检测结果用于多层监督训练，用

来表示Bi-SINet网络模型输出的5个检测结果；

步骤S303：在训练阶段，采用交叉熵损失函数和交并比损失函数对模型输出的5个检测结果进行监督训练，总体损失函数可以用L_overall来表示，其计算公式为：

其中，

其中，H表示图像高度，W表示图像宽度，

步骤S304：在训练过程中，采用SGD优化器对网络参数进行迭代更新，同时以多项式法对学习率进行衰减。训练过程中，间隔一定迭代次数使用所构建的验证集对模型性能进行验证，确保模型收敛到最优性能；

步骤S305：利用收敛后固定参数的Bi-SINet网络模型对输入的待检测图像进行前向计算，即可获得前景目标分割图作为检测结果。

需要说明的是，本实施例提供的Bi-SINet网络模型并不局限于Pytorch深度学习框架，只要能对所构建的训练数据集进行训练，且在训练过程中迭代若干次达到收敛，最终能够实现复杂背景下的目标检测即可。

步骤S4：将归一化后的待检测图像输入步骤S3得到的收敛的Bi-SINet网络模型进行前向运算，得到检测结果。将收敛的Bi-SINet网络模型在所构建的测试集上进行检测，根据检测结果评估模型性能。

更具体的说，将待检测图片归一化后，输入收敛的Bi-SINet网络模型进行检测，在输出的5个不同尺度的检测结果中，选择尺度最大的

作为模型的最终检测结果mask_pred。计算评估模型性能的四种评价指标的公式如下：

1)根据模型的检测结果mask_pred和对应的真实标签mask_GT，计算平均绝对误差MAE，计算公式如下：

2)根据模型的检测结果mask_pred和对应的真实标签mask_GT，计算客观评价指标EM，计算公式如下：

3)根据模型的检测结果mask_pred和对应的真实标签mask_GT，计算客观评价指标SM，计算公式如下：

SM＝αS₀+(1-α)S_r (7)

其中S₀表示针对目标的结构相似度，S_r表示针对区域的结构相似度，平衡两者的权值a通常取值0.5；

4)根据模型的检测结果mask_pred和对应的真实标签mask_GT，计算客观评价指标WFM，计算公式如下：

其中P^w表示加权修正后的准确率，R^w表示加权修正后的召回率，β是平衡准确率和召回率的因子，通常设置为0.3；

需要说明的是，平均绝对误差M越小，结构指标S、增强-对齐指标E和加权的F指标

越大，表示输出的检测结果越精确。此外，衡量目标检测效果的指标不止上述4种评价指标，只要能够表现出所预测的前景目标分割图与真实标签的相似程度或者区分程度即可。

图6展示了本发明所提出方法与SINet网络模型在所构建测试集上目标检测性能的对比。由图可知，本发明提出的Bi-SINet网络模型相比SINet模型在降低了平均绝对误差的同时，SM、EM和WFM指标均有提升，说明本发明能有效提高复杂背景下目标检测的精确度，缓解误检和漏检现象。

图7为本发明所提出方法与SINet网络模型在图像效果上的检测性能对比，从第1列图片对比可知，Bi-SINet网络模型能够在复杂背景下保证检测结果的完整性，这得益于渐进式的检测框架和由粗到细的检测过程。从第2列和第3列图片可以看出，Bi-SINet网络模型能够在前景目标部分边缘区域模糊不清的情况下，依然将待检测目标准确地与背景目标进行区分，有效提高检测结果的精确程度。由图7中第四列图片的对比可知，本发明提出的Bi-SINet网络模型能够有效避免复杂背景带来的干扰，准确地检测感兴趣目标。

本发明未详述之处，均为本领域技术人员的公知技术。

以上详细描述了本发明的较佳具体实施例。应当理解，本领域的普通技术人员无需创造性劳动就可以根据本发明的构思做出诸多修改和变化。因此，凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案，皆应在由权利要求书所确定的保护范围内。

Claims

1.一种基于双边注意力机制的复杂背景下的目标检测方法，其特征在于，该方法包括如下步骤：

步骤S3：将收敛的Bi-SINet网络模型在所构建的测试集上进行测试，根据检测结果评估模型性能。

2.根据权利要求1所述一种基于双边注意力机制的复杂背景下的目标检测方法，其特征在于，所述步骤S1中目标检测数据集包含数据集COD10K、数据集CAMO和数据集CHAMELEON。

3.根据权利要求1所述一种基于双边注意力机制的复杂背景下的目标检测方法，其特征在于，所述步骤S2具体包括：

步骤S201：对训练数据进行预处理，首先利用双线性插值法将原始图像大小调整为384×384，并调整对应的真实标签，随后进行图像数据增强处理，最后将图像进行归一化处理后输入Bi-SINet网络模型进行训练；

步骤S202：Bi-SINet网络模型对输入图像进行特征提取，随后将提取到的多层特征输入渐进式的检测框架中进行检测；渐进式的检测框架会基于每层特征进行前景目标分割，共输出N个不同尺度的检测结果，用

来表示，k＝0，1，...，N-1；

步骤S203：在训练阶段，采用交叉熵损失函数和交并比损失函数对模型输出的N个检测结果进行监督训练，总体损失函数可以用L_overall来表示，其计算公式为：

其中，

表示第k层检测结果与真实标签之间的结构加权后的交叉熵损失，

其中，H表示图像高度，W表示图像宽度，

和mask_GT(x,y)分别表示第k层预测结果和真实标签中位置坐标为(x,y)的值，γ是和结构权重相关的参数，w(x,y)表示坐标为(x,y)的位置对应的结构权重，其表达式如下：

其中，A_xy表示坐标为(x,y)的像素周围像素的集合；

步骤S204：在训练过程中，采用随机梯度下降优化算法对网络参数进行迭代更新，同时以多项式法对学习率进行衰减；训练过程中，间隔若干次迭代使用所构建的验证集对模型性能进行验证，确保模型收敛到最优性能；

4.根据权利要求1所述一种基于双边注意力机制的复杂背景下的目标检测方法，其特征在于，所述步骤S3具体包括：

步骤S301：将待检测图片归一化后，输入收敛的Bi-SINet网络模型进行检测，在输出的N个不同尺度的检测结果中，选择尺度最大的

作为模型的最终检测结果mask_pred；

SM＝αS₀+(1-α)S_r (7)

其中P^w表示加权修正后的准确率，R^w表示加权修正后的召回率，β是平衡准确率和召回率的因子。