CN115035361A

CN115035361A - 基于注意力机制和特征交叉融合的目标检测方法及系统

Info

Publication number: CN115035361A
Application number: CN202210532337.1A
Authority: CN
Inventors: 李松斌; 阳祥芝; 刘鹏
Original assignee: Nanhai Research Station Institute Of Acoustics Chinese Academy Of Sciences
Current assignee: Nanhai Research Station Institute Of Acoustics Chinese Academy Of Sciences
Priority date: 2022-05-11
Filing date: 2022-05-11
Publication date: 2022-09-09

Abstract

本发明公开了一种基于注意力机制及特征交叉融合的目标检测方法及系统，该系统包括骨干网、颈层、特征交叉融合模块和检测头。具体地：首先，通过骨干网对输入图像提取多层次特征。然后，颈层采用特征金字塔网络(FPN)和路径融合网络(PAN)，分别自顶向下和自底向上地对不同层次的特征进行融合。特征金字塔网络自顶向下传达强语义特征，而路径融合网络自底向上传达强定位特征。此外，在特征融合过程中，引入注意力机制，从通道维度以及空间维度全方位地学习更丰富的语义信息和细节信息。紧接着，通过特征交叉融合模块，将高层次特征与低层次特征交叉融合，进一步提高特征之间的信息利用率。最后，将融合的特征送至检测头，预测目标类别及目标所在位置。

Description

基于注意力机制和特征交叉融合的目标检测方法及系统

技术领域

本发明涉及计算机视觉及深度学习技术领域，特别涉及一种基于注意力机制及特征交叉融合的目标检测方法及系统。

背景技术

目标检测作为当前计算机视觉领域的研究热点之一，主要任务是找出图像中感兴趣的目标，并确定目标的类别和位置。

传统目标检测方法大概分为区域选择(滑动窗)、特征提取(SIFT、HOG等)、分类器(SVM、Adaboost等)三部分。即首先在给定图像上选择候选区域，然后提取这些区域的特征，最后使用训练的分类器进行分类。传统目标检测存在两个主要问题：一是基于滑动窗口的区域选择策略没有针对性，时间复杂度高，窗口冗余；另一方面是手工设计的特征鲁棒性较差，没法适应多样性的变化。

近年来，深度学习席卷了语音、图像、视觉等各大领域，传统方法遇到的瓶颈也随着深度学习方法的引入而被打破。深度神经网络具有强大的表达能力和数据拟合能力，能够自动提取并学习图像中的关键信息，具有很强的鲁棒性和信息综合能力，能够适应多样性的变化。

现有基于图像的目标检测主要集中在对陆地上的目标进行检测，如：室内环境中的人脸检测、行李安检，室外道路检测、车辆检测、行人检测等等，而很少有针对海上目标的检测，但他们本质上都有相同之处，都是通过深度学习模型提取特征直接预测目标类别及其位置，因此，海上目标检测可以借鉴现有其他目标检测任务的方法。事实上，海上目标检测意义重大。设计一个海面目标监测系统，不仅可以实时的监控过往船只的航行安全，保障航行及运输安全，而且可以跟踪并判断目标船只(如敌船、海盗船)的意图，便于及时制定对策，对海防事业也有很大帮助。

目前，我国主要通过对卫星遥感图像、红外图像和雷达图像进行分析、处理，实现海上目标检测。但这些方法在实际应用中，容易受到海上复杂天气、光照变化等因素的影响，存在监测距离短、监控范围小、清晰度低、夜视能力差等问题，极大地影响着检测精度和定位效果。

发明内容

本发明的目的在于克服现有海上目标检测方法的技术缺陷，提出了一种基于注意力机制和特征交叉融合的海上目标检测方法及系统，该方法能够进行像素级别的目标检测，实现对目标的定位，提高目标检测率，降低误检率，也更适用于复杂情况下的海上目标检测。

为了实现上述目的，本发明提出了一种基于注意力机制及特征交叉融合的目标检测方法，所述方法首先基于对经过预处理的训练集图片提取特征，并对提取的特征分别通过特征金字塔网络、路径融合网络以及特征交叉融合模块进行交叉提炼，并在提炼时引入多种注意力机制，由此得到输出特征后，将输出特征送入检测头得到预测结果，计算预测结果与真实标签之间的损失，根据计算的损失反复训练调整模型参数，直至得到最优模型参数后输出目标检测网络模型，然后将待检测图片输入网络模型得到预测结果，最后，对预测结果进行解码得到待检测图片中目标的位置、类别及其置信度。多种注意力机制指的是Transformer结构和CBAM(Convolutional Block Attention Module，卷积注意力模块)。Transformer结构本身也包含注意力机制，而CBAM包含通道注意和空间注意两种注意力。

作为上述技术方案的改进之一，所述方法在建立目标检测网络模型时包括以下步骤：

步骤1)数据预处理，将训练所需图片进行缩放增强后按每组B张随机分成M组；

步骤2)随机读取一组图片，通过N层骨干网对输入图片逐层递进的提取和压缩特征，得到每一层的特征图，形成第一个特征金字塔；

步骤3)对步骤2)中最后一层的层级特征，通过上采样的方式，自顶向下地逐个融合第一个特征金字塔的低层次特征，以获得包含更多语义信息的特征，形成第二个特征金字塔；

步骤4)对步骤3)中最后一层特征，通过卷积操作对特征图下采样，自底向上地对第二个特征金字塔的高层次特征进行逐层融合，以获得包含更多定位信息的特征；

步骤5)对步骤4)中分辨率较低的两个特征图通过上采样与各自上面层中分辨率相同的特征图进行交叉融合，得到输出特征；

步骤6)将步骤5)中的输出特征送至检测头中进行检测和解码，得到目标在原始输入图像上的预测坐标以及预测类别和置信度；

步骤7)计算网络预测与真实值之间的损失函数，采用梯度下降法对上述模型中的参数进行更新；反复迭代，直至训练出最优参数组合，输出目标检测网络模型。

作为上述技术方案的改进之一，所述步骤2)中的骨干网包括浅层特征提取块，三个普通卷积层级特征提取块以及一个基于Transformer结构和快速空间金字塔池化的层级特征提取块；其中，浅层特征提取操作包含2次下采样，每个普通卷积层级特征提取操作及基于Transformer结构和快速空间金字塔池化的层级特征提取操作都分别只包含1次下采样；每次下采样的倍数都为2；具体地，包括以下步骤：

步骤2-1)随机读取一组图片X_in，通过浅层特征提取块，得到浅层特征F_s；

步骤2-2)将得到的浅层特征F_s通过第一个普通卷积层级特征提取块，得到特征金字塔的第一层特征图F_a；

步骤2-3)再将F_a通过第二个普通卷积层级特征提取块，得到特征金字塔的第二层特征图F_b，再将F_b通过第三个普通卷积层级特征提取块，得到特征金字塔的第三层特征图F_c；

步骤2-4)将F_c通过基于Transformer结构和快速空间金字塔池化的层级特征提取块，得到特征金字塔的最上面一层特征图F_N-1。

作为上述技术方案的改进之一，所述步骤3)中的特征金字塔网络包括一个常规卷积块，两个卷积融合块，以及一个全局注意力融合块；

其中，所述卷积融合块包括：上采样层、拼接层、C3层以及Conv层；所述全局注意力融合块包括上采样层、拼接层、C3层和全局注意力层；所述上采样层中的上采样因子为2；所述Conv层中卷积核大小为1，步长为1；具体地，对特征图F_a、F_b、F_c和F_N-1，自顶向下地执行以下步骤：

步骤3-1)先将F_N-1通过第一个常规卷积块后得到特征图F′_N-1，接着通过第一个卷积融合块，即将F′_N-1上采样后与F_c进行拼接，随后依次通过C3层和Conv层进行特征融合得到特征图F′_c；

步骤3-2)将F′_c通过第二个卷积融合块融合F_b得到特征图F′_b；

步骤3-3)将F′_b通过全局注意力融合块融合F_a得到特征图F′_a；

作为上述技术方案的改进之一，所述步骤4)中的路径融合网络包含两个全局注意力卷积块以及一个多重注意力块；

其中，所述全局注意力卷积块包括：Conv层、拼接层和C3层和全局注意力层；所述多重注意力块包括：Conv层、拼接层、基于Transformer结构的C3层和全局注意力层；Conv层的卷积核大小为3，步长为2；具体地，对特征图F′_N-1、F′_c、F′_v和F′_a，自底向上地执行以下步骤：

步骤4-1)先将F′_a通过第一个全局注意力卷积块，即对F′_a采用Conv层下采样后与F′_b拼接，然后依次通过C3层和全局注意力层进行特征融合得到特征图F″_b；

步骤4-2)将F″_b通过第二个全局注意力卷积块融合F′_c得到特征图F″_c；

步骤4-3)将F″_c通过多重注意力块融合F′_N-1得到特征图F″_N-1。

作为上述技术方案的改进之一，所述步骤5)包含两个特征交叉融合单元；

所述特征交叉融合单元包括：上采样层、拼接层、Conv层；其中，上采样层的上采样因子为4；Conv层的卷积核大小为3，步长为1；具体地，对特征图F′_a、F″_b、F″_c和F″_N-1，执行以下步骤：

步骤5-1)将特征F″_c通过第一个特征交叉融合单元，即将F″_c上采样后与F′_a拼接，然后通过Conv层进行特征融合得到特征图F″_ca；

步骤5-2)将特征F″_N-1通过另一个特征交叉融合单元得到特征图F″_(N-1)b。

作为上述技术方案的改进之一，步骤6)中检测头的个数对应输出特征数；其中，每个检测头包含一个1×1的Conv层和两个平行分支，所述平行分支是两个3×3的Conv层；两个分支分别用于分类任务和回归任务；目标分支被添加到回归任务分支上；

通过1×1的二维卷积操作得到最终的分类预测、回归预测和目标预测；其中，其中，分类预测判断检测到的目标属于哪个类别，通道数为目标类别数；回归预测判断检测到的目标在图像中所处的相对位置(以矩形框的形式表示)，通道数为4，4个通道分别对应目标的中心坐标(x，y)以及目标的高度h和宽度w；目标预测的通道数为1，预测的值为置信度，其中，所述置信度表示该预测是目标的概率；具体地，对输出特征图F′_a、F″_b、F″_c、F″_N-1、F″_ca和F″_(N-1)b，执行以下步骤：

步骤6-1)将特征F′_a通过对应的检测头后得到三个预测Y_a，Reg、Y_a，Obj、Y_a，Cls，然后将三个预测在通道维度进行拼接，得到预测Y_a；

步骤6-2)取步骤6-1)中预测Y_a的前4个通道，将其投影到输入图像上；

步骤6-3)对其余5个特征F″_b、F″_c、F″_N-1、F″_ca和F″_(N-1)b分别依次进行步骤6-1)和6-2)中对于特征F′_a的处理，得到预测Y_b、Y_c、Y_N-1、Y_ca和Y_(N-1)b。

作为上述技术方案的改进之一，所述步骤7)具体包括：

步骤7-1)根据预测Y_a、Y_b、Y_c、Y_N-1、Y_ca和Y_(N-1)b分别计算回归损失、目标损失和分类损失；所述回归损失，通过回归损失函数对图像中的每个目标计算，计算公式为：

loss_reg＝loss_iou

loss_iou＝-ln(iou)

其中，loss_reg是回归损失，loss_iou是回归损失函数，iou是指每个目标的预测框A和真实框B的交并比；所述目标的预测框A是目标的预测位置，所述真实框B是目标的真实位置；

所述目标损失，对预测特征图的每个网格计算；所述分类损失，对每个目标计算；目标损失和分类损失均采用二进制交叉熵损失函数求得，计算方式分别为：

loss_obj＝loss(x_obj，y_obj)

loss_cls＝loss(x_cls，y_cls)

loss(x，y)＝mean{l_n，...，l_N-1}

l_n＝-ω_n[y_nlogσ(x_n)+(1-y_n)·log(1-σ(x_n))]

其中，loss_obj是目标损失，loss_cls是分类损失，loss(x，y)是二进制交叉熵损失函数，x_obj是预测特征图每个网格的置信度，y_obj是每个网格的真实置信度；x_cls是目标的预测类别，y_cls是目标的真实类别；N表示样本数量，x_n表示预测第n个样本为正例的得分，y_n表示第n个样本的标签，σ表示Sigmoid函数，l_n是第n个样本的损失，ω_n是第n个样本的损失权重系数；

并根据回归损失、目标损失和分类损失计算模型的输出结果与真实标签之间的损失loss，计算公式为：

loss＝loss_reg+loss_obj+loss_cls

根据计算的损失loss更新模型参数；

步骤7-2)采用步骤7-1)得到的模型参数作为本次迭代的权重值；从剩余的图片中随机选取一组图片，经步骤2)、步骤3)、步骤4)、步骤5)、步骤6)和步骤7-1)，得到新的参数组合；反复迭代，直至M组图片全部训练完成；

步骤7-3)对训练图片进行重新洗牌，转至步骤1)；反复执行步骤1)至步骤7-2)，直至训练出最优参数组合。

作为上述技术方案的改进之一，将待检测的图片输入目标检测网络模型进行检测时，具体包括以下步骤：

步骤8-1)对于待检测的图片，利用双线性插值将待测图片的尺寸调整至模型输入所需大小；

步骤8-2)将调整后的图片输入至最优参数模型，前向推理后得到预测结果；

步骤8-3)对预测结果采用Sigmoid函数进行归一化处理，然后再将回归预测的坐标投影到输入图像上；

步骤8-4)对步骤8-3)中的预测结果执行非极大值抑制得到最终的预测结果，所述最终预测结果包含图片中目标所在位置，类别及其置信度得分；

步骤8-5)换另一张待检测图片，重复步骤8-1)-8-4)，直到全部待测图片检测完毕；

对于全部图片的最终预测结果，如果是有真实标签的待测图片，直接通过比较预测结果和真实标签进行定量评估；如果是没有真实标签的实测图片，通过将预测结果可视化在图片上定性衡量。

本发明还提出了一种基于注意力机制及特征交叉融合的目标检测系统，通过根据以上任一所述方法构建的目标检测网络模型实现，所述系统包括：

骨干网，用于对输入图像进行多层次的特征提取；

颈层，用于进一步融合骨干网提取的多层次特征，提高更具代表性的上下文信息，得到全方位的语义融合特征；

特征金字塔网络，用于自顶向下传达强语义特征；

路径融合网络，用于自底向上传达强定位特征；

特征交叉融合模块，用于交叉融合高层次特征与低层次特征，提高特征之间的关联性与信息利用率；和

检测头，用于解码最终的特征并输出预测类别及位置信息。

与现有方法相比，本发明的技术优势在于：

本发明提供的海上目标检测技术方案，通过骨干网中对输入图像提取多层次的特征；然后，在颈层中采用特征金字塔和路径融合网络，分别自顶向下和自底向上地对不同层次的特征进行融合；特征金字塔网络自顶向下传达强语义特征，而路径融合网络自底向上传达强定位特征，进一步提高了网络的特征提取能力；在将特征送至检测头之前，还采用了上采样的方式将高层次特征与低层次特征交叉融合，进一步提高特征之间的信息利用率；最后，将特征送入解耦检测头，对特征进行解码操作，直接预测目标的类别及位置。此外，在实施细节上，骨干网以及颈层中都引入了注意力机制，能够从像素上、通道上以及空间上全方位地学习更丰富的语义信息和细节信息，使得深度学习模型对海上目标具有更强的学习能力及鲁棒性。在基准数据集上测试时，本发明取得了超过现有方法的性能。

附图说明

图1为本发明提供的海上目标检测网络模型示意图；

图2为本发明提供的特征金字塔网络结构示意图；

图3为本发明提供的路径融合网络结构示意图；

图4为本发明提供的特征交叉融合模块示意图。

图5为本发明提供的检测头模块结构示意图。

具体实施方式

下面结合附图和具体实施来对本发明作进一步描述。

图1所示的海上目标检测网络主要由骨干网、特征金字塔网络(FPN)和路径融合网络(PAN)组成的颈层、特征交叉融合模块以及检测头构成，其中骨干网包括：浅层特征提取(SFE)块，三个普通卷积层级特征提取(CFE)块以及一个基于Transformer结构和快速空间金字塔池化的层级特征提取(TFPE)块。该网络的数据处理过程具体包括：

步骤1)数据预处理，将训练所需图片按每组B张随机分成M组，并执行相应的数据增强；

步骤2)随机读取一组图片，通过骨干网对输入图片逐层递进的提取和压缩特征，得到每一层的特征图F_i＝B×C_i×H_i×W_i,i∈[0,N-1]，其中，F_i为第i层的层级特征，C_i为第i层的特征通道数，H_i为第i层特征图的高，W_i为第i层特征图的宽；此处的特征图指的是F_a,F_b,F_c及F_N-1，该表达式并不是计算公式，只是描述大小的表述。

步骤3)对步骤2)中最后一层的层级特征F_N-1，通过上采样的方式，自顶向下地逐个融合第一个特征金字塔的低层次特征F_a，F_b，F_c，0≤a＜b＜c≤(N-1)，以获得包含更多语义信息的特征F′_i；

步骤4)对步骤3)中最后一层特征F′_a，通过卷积操作对特征图下采样，自底向上地对第二个特征金字塔的高层次特征F′_b，F′_c，F′_N-1进行逐层融合，以获得包含更多定位信息的特征，并构成了第三个特征金字塔F′_a，F″_b，F″_c，F″_N-1；

步骤5)对步骤4)中分辨率较低的两个特征图F″_c，F″_N-1通过上采样与各自上面层中分辨率相同的特征图进行交叉融合，得到输出特征F′_a，F″_ca，F″_b，F″_(N-1)b，F″_c，F″_N-1；

步骤7)计算网络预测与真实值之间的损失函数，采用梯度下降法对上述模型中的参数进行更新；反复迭代，直至训练出最优参数组合；

步骤8)基于最优参数模型实现海面上各类目标的检测(Detect)。

所述步骤1)具体包括：

步骤1-1)将读入的训练集图片进行自适应缩放，缩放后的图片大小为1280×1280×3；

步骤1-2)采用Mosaic数据增强，即：对每张图片，随机选取训练集中额外的三张图片，以随机缩放、随机裁剪、随机排布的方式进行拼接，得到增强后的图片；

步骤1-3)将图片按每组B张随机分成M组。

在上述实施例的基础上，所述步骤2)中的骨干网包括浅层特征提取(SFE)块，三个普通卷积层级特征提取(CFE)块以及一个基于Transformer结构和快速空间金字塔池化的层级特征提取(TFPE)块。除了浅层特征提取操作包含2次下采样，其余步骤都分别只包含1次下采样，每次下采样的倍数都为2。具体地：

步骤2-1)随机读取一组图片X_in，通过浅层特征提取得到F_s，计算公式如下：

F_s＝SFE(X_in)

其中，

C_s为第s层的特征通道数，s∈[0，N-1]，SFE(·)表示浅层特征提取操作。

步骤2-3)再将F_a通过第二个普通卷积层级特征提取块，得到特征金字塔的第二层特征图F_b，同理可得第三层特征图F_c，计算公式如下：

F_a＝CFE₁(F_s)，F_b＝CFE₂(F_a)，F_c＝CFE₃(F_b)

其中，

C_a为第a层的特征通道数，C_b为第b层的特征通道数，a，b∈[0，N-1]，CFE_i(·)表示第i(i＝1，2，3)个普通卷积层级特征提取操作。

步骤2-4)将F_c通过基于Transformer结构和快速空间金字塔池化的层级特征提取块，得到特征金字塔的最上面一层特征图F_N-1，计算公式如下：

F_N-1＝TFPE(F_c)

其中，

C_N-1为第N-1层的特征通道数，TFPE(·)表示基于Transformer结构和快速空间金字塔池化的层级特征提取操作。

至此，通过骨干网后得到了四层分辨率从大到小的金字塔形状的特征组F_a，F_b，F_c，F_N-1。

图2为本发明提供的特征金字塔网络结构示意图，即图1中的“FPN”模块。FPN包括一个常规卷积块“Conv”，两个UCCC块(卷积融合块)，以及一个带全局注意的UCC-CBAM块(全局注意力融合块)。其中“UCCC”分别对应于上采样“Upsample”，拼接“Concat”，“C3”以及卷积“Conv”层；“Cony”层中卷积核大小为1，步长为1，“CBAM”则表示卷积块的注意力机制模块，是一种结合了空间和通道的全局注意力机制模块。如图2所示，步骤3)对骨干网输出的金字塔特征F_a，F_b，F_c，F_N-1，自顶向下地执行：

步骤3-1)先将F_N-1通过第一个常规“Conv”块后得到特征F′_N-1，接着通过第一个UCCC块，即，将F′_N-1上采样后与金字塔中的第二层特征F_c进行“Concat”，随后依次通过“C3”层和“Conv”层进行特征融合得到F′_c；

步骤3-2)将F′_c通过第二个UCCC块融合F_b得到F′_b；

步骤3-3)将F′_b通过带全局注意的UCC-CBAM融合F_a得到F′_a；

计算公式如下：

F′_N-1＝Conv(F_N-1)

F′_c＝UCCC₁(F′_N-1)

F′_b＝UCCC₂(F_c)

F′_a＝UCC-CBAM(F_b)

在上述过程中，上采样因子为2，除了上采样操作改变了特征图大小，其余操作只改变特征通道数并不改变大小。因此特征组F′_N-1大小是20×20，F′_c的大小是40×40，F′_b的大小是80×80，及F′_a的大小是160×160，仍旧构成金字塔状。

图3为本发明提供的路径融合网络(PAN)结构示意图。PAN包含两个CCC-CBAM块(全局注意力卷积块)以及一个基于Transformer结构的CCTF-CBAM块(多重注意力块)。其中，“CCC”分别对应于“Conv”，“Concat”，“C3”；“CCTF”分别对应于“Conv”，“Concat”，“C3TR”。“Conv”中卷积核大小为3，步长为2，“C3TR”是带Transformer结构的“C3”。如图3所示，步骤4)对金字塔特征F′_N-1，F′_c，F′_b，F′_a，自底向上地执行：

步骤4-1)先将F′_a通过第一个CCC-CBAM块。即，对F′_a采用“Conv”下采样后再与F′_b“Concat“，然后依次通过“C3”和“CBAM”进行特征融合得到F″_b；

步骤4-2)将F″_b通过第二个CCC-CBAM块融合F′_c得到F″_c；

步骤4-3)将F″_c通过基于Transformer结构的CCTF-CBAM块融合F′_N-1得到F″_N-1；

计算公式如下：

F″_b＝CCC-CBAM₁(F′_a)

F″_c＝CCC-CBAM₂(F″_b)

F″_N-1＝CCTF-CBAM(F″_c)

至此，通过网络的颈层部分后得到了四层分辨率从大到小的金字塔形状的特征组F′_a，F″_b，F″_c，F″_N-1。

图4为本发明提供的特征交叉融合模块示意图。特征交叉融合模块包含两个特征交叉融合单元UCC。其中，“U”表示上采样，上采样因子为4；第一个“C”表示“Concat”，第二个“C”表示核大小为3，步长为1的卷积，目的是融合拼接后的特征。如图4所示，步骤5)包括：

步骤5-1)将特征F″_c通过第一个特征交叉融合单元UCC。即，将F″_c上采样后与F′_a“Concat”，然后通过“Conv”进行特征得到F″_ca；

步骤5-2)同理，将特征F″_N-1通过另一个UCC融合F″_b得到F″_(N-1)b；

计算公式如下：

F″_ca＝UCC₁(F″_c，F′_a)

F″_(N-1)b＝UCC₂(F″_N-1，F″_b)

至此，得到输出特征F′_a，F″_b，F″_c，F″_N-1，F″_ca，F″_(N-1)b。其中，F″_N-1的大小是20×20，F″_c的大小是40×40，F″_b和F″_(N-1)b的大小是80×80，F′_a和F″_ca的大小是160×160。

图5为本发明提供的检测头模块结构示意图。图5所示图片上的检测头是其中一个。检测头模块中检测头的个数对应输出特征数，共有6个检测头，每个检测头包含一个1×1的“Conv”层(Con，1，其输出大小为H×W×128)来减小通道维数，然后是两个平行分支，分别是两个3×3的“Conv”层(Con，3，其输出大小为H×W×128)。两个分支分别用于分类任务(“Cls.”)和回归(“Reg.”)任务，目标分支(“Obj.”)添加到回归分支上，通过1×1的二维卷积“Conv2d”(Conv2d，1)得到最终的Cls(其输出大小为H×W×C_cls)、Reg(其输出大小为H×W×4)和Obj(其输出大小为H×W×1)预测。其中，Cls的通道数为目标类别数，Reg的通道数为4，对应目标的中心坐标(x，y)以及目标的高度h和宽度w，Obj的通道数为1。Obj预测的值表示该预测是目标的概率，即置信度。H和W表示的是特征图的大小，h和w是特征图中目标的大小，h＜H，w＜W。

因此，对输出特征F′_a，F″_b，F″_c，F″_N-1，F″_ca，F″_(N-1)b，如图5所示，步骤6)具体包括：

步骤6-1)将特征F′_a通过对应的检测头后得到三个预测Y_a，Reg，Y_a，obj，Y_a，Cls，然后将三个预测在通道维度进行拼接，得到预测Y_a：

Y_a＝Cat([Y_a，Reg，Y_a，Obj，Y_a，Cls]，1)

其中，“Cat”表示拼接操作，“1”表示通道维度。

步骤6-2)取步骤6-1)中预测Y_a的前4个通道，即目标的预测坐标，将其投影到输入图像上；

步骤6-3)对其余5个特征重复上述步骤，可得预测

Y_a，Y_b，Y_c，Y_N-1，Y_ca，Y_(N-1)b。其中，Y_N-1的大小是20×20，Y_c的大小是40×40，Y_b和Y_(N-1)b的大小是80×80，Y_a和Y_ca的大小是160×160。

在上述实施例的基础上，步骤7具体包括：

根据预测Y_a、Y_b、Y_c、Y_N-1、Y_ca和Y_(N-1)b分别计算回归损失、目标损失和分类损失；所述回归损失，通过回归损失函数对图像中的每个目标计算，计算公式为：

loss_reg＝loss_iou

loss_iou＝-ln(iou)

loss_obj＝loss(x_obj，y_obj)

loss_cls＝loss(x_cls，y_cls)

loss(x，y)＝mean{l_n，...，l_N-1}

l_n＝-ω_n[y_nlogσ(x_n)+(1-y_n)·log(1-σ(x_n))]

其中，loss_obj是目标损失，loss_cls是分类损失，loss(x，y)是二进制交叉熵损失函数，x_obj是预测特征图每个网格的置信度，y_obj是每个网格的真实置信度；x_cls是目标的预测类别，v_cls是目标的真实类别；N表示样本数量，x_n表示预测第n个样本为正例的得分，y_n表示第n个样本的标签，σ表示Sigmoid函数，l_n是第n个样本的损失，ω_n是第n个样本的损失权重系数；

loss＝loss_reg+loss_obj+loss_cls

根据计算的损失loss更新模型参数。

步骤7-3)对训练图片进行重新洗牌，转至步骤1；反复执行，直至训练出最优参数组合。

在上述技术方案的基础上，所述步骤8)具体包括：

步骤8-1)对于待检测的图片，利用双线性插值将待测图片的尺寸调整至模型输入所需大小1280×1280×3；

步骤8-3)对预测结果采用Sigmoid函数进行归一化处理，然后再将预测的坐标“Reg”预测投影到输入图像上；

步骤8-4)对步骤8-3)中的预测结果执行非极大值抑制(NMS)得到最终的预测结果，包含图片中目标所在位置，类别及其置信度得分。

步骤8-5)重复上述步骤，直到全部待测图片检测完毕。

如果是有真实标签的待测图片，可以直接通过比较预测结果和真实标签进行定量评估；如果是没有真实标签的实测图片，可以通过将预测结果可视化在图片上定性衡量。

本发明还提供了一种基于注意力机制及特征交叉融合的海上目标检测系统，根据上述任一方法构建的海上目标检测网络模型实现，所述系统包括：

骨干网，用于对输入图像进行多层次的特征提取；

特征金字塔网络和路径融合网络，分别用于自顶向下传达强语义特征和自底向上传达强定位特征；

特征交叉融合模块，用于交叉融合高层次特征与低层次特征，提高特征之间的关联性与信息利用率；

检测头，用于解码最终的特征并输出预测类别及位置信息。

从上述对本发明的具体描述可以看出，本发明实现过程中在骨干网以及颈层中都引入了注意力机制，能够从像素上、通道上以及空间上全方位的地学习更丰富的语义信息和细节信息，此外，在检测头之前增加特征交叉融合模块，再一次交叉地融合高低层次特征，提高特征之间的信息利用率，进一步优化特征，使得深度学习模型对海上目标具有更强的学习能力及鲁棒性，能够更精确的识别与定位海上目标。

需要特别指出的是，本发明的目的是为了检测海上目标，但本发明的适用范围不只限于进行海上目标检测，同样也适用于其他基于图像/视觉的目标检测，例如，对陆地上的目标进行检测时也可以选择采用本发明提出的方法进行检测。

最后所应说明的是，以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，对本发明的技术方案进行修改或者等同替换，都不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于注意力机制及特征交叉融合的目标检测方法，所述方法首先对经过预处理的训练集图片提取特征，并对提取的特征分别通过特征金字塔网络、路径融合网络以及特征交叉融合模块进行交叉提炼，并在提炼时引入多种注意力机制，由此得到输出特征后，将输出特征送入检测头得到预测结果，计算预测结果与真实标签之间的损失，根据计算的损失反复训练调整模型参数，直至得到最优模型参数后输出目标检测网络模型，然后将待检测图片输入网络模型得到预测结果，最后，对预测结果进行解码得到待检测图片中目标的位置、类别及其置信度。

2.根据权利要求1所述的基于注意力机制及特征交叉融合的目标检测方法，其特征在于，所述方法在建立目标检测网络模型时包括以下步骤：

步骤2)随机读取一组图片，通过N层骨干网对输入图片逐层递进的提取和压缩特征，得到每一层的特征图；

步骤3)对步骤2)中最后一层的层级特征，通过上采样的方式，自顶向下地逐个融合低层次特征，以获得包含更多语义信息的特征；

步骤4)对步骤3)中最后一层特征，通过卷积操作对特征图下采样，自底向上地对高层次特征进行逐层融合，以获得包含更多定位信息的特征；

3.根据权利要求2所述的基于注意力机制及特征交叉融合的目标检测方法，其特征在于，所述步骤2)中的骨干网包括浅层特征提取块，三个普通卷积层级特征提取块以及一个基于Transformer结构和快速空间金字塔池化的层级特征提取块；其中，浅层特征提取操作包含2次下采样，每个普通卷积层级特征提取操作及基于Transformer结构和快速空间金字塔池化的层级特征提取操作都分别只包含1次下采样；每次下采样的倍数都为2；具体地，包括以下步骤：

步骤2-3)将F_a通过第二个普通卷积层级特征提取块，得到特征金字塔的第二层特征图F_b，再将F_b通过第三个普通卷积层级特征提取块，得到特征金字塔的第三层特征图F_c；

4.根据权利要求2所述的基于注意力机制及特征交叉融合的目标检测方法，其特征在于，所述步骤3)中的特征金字塔网络包括一个常规卷积块，两个卷积融合块，以及一个全局注意力融合块；

步骤3-3)将F′_b通过全局注意力融合块融合F_a得到特征图F′_a。

5.根据权利要求2所述的基于注意力机制及特征交叉融合的目标检测方法，其特征在于，所述步骤4)中的路径融合网络包含两个全局注意力卷积块以及一个多重注意力块；

其中，所述全局注意力卷积块包括：Conv层、拼接层和C3层和全局注意力层；所述多重注意力块包括：Conv层、拼接层、基于Transformer结构的C3层和全局注意力层；Conv层的卷积核大小为3，步长为2；具体地，对特征图F′_N-1、F′_c、F′_b和F′_a，自底向上地执行以下步骤：

6.根据权利要求2所述的基于注意力机制及特征交叉融合的目标检测方法，其特征在于，所述步骤5)包含两个特征交叉融合单元；

7.根据权利要求2所述的基于注意力机制及特征交叉融合的目标检测方法，其特征在于，步骤6)中检测头的个数对应输出特征数；其中，每个检测头包含一个1×1的Conv层和两个平行分支，所述平行分支是两个3×3的Conv层；两个分支分别用于分类任务和回归任务；目标分支被添加到回归任务分支上；

通过1×1的二维卷积操作得到最终的分类预测、回归预测和目标预测；其中，分类预测判断检测到的目标属于哪个类别，通道数为目标类别数；回归预测判断检测到的目标在图像中所处的相对位置，并以矩形框的形式表示，通道数为4，4个通道分别对应目标的中心坐标(x，y)以及目标的高度h和宽度w；目标预测的通道数为1，预测的值为置信度，其中，所述置信度表示该预测是目标的概率；具体地，对输出特征图F′_a、F″_b、F″_c、F″_N-1、F″_ca和F″_(N-1)b，执行以下步骤：

8.根据权利要求2所述的基于注意力机制及特征交叉融合的目标检测方法，其特征在于，所述步骤7)具体包括：

loss_reg＝loss_iou

loss_iou＝-ln(iou)

loss_obj＝loss(x_obj，y_obj)

loss_cls＝loss(x_cls，y_cls)

loss(x，y)＝mean{l_n，...，l_N-1}

l_n＝-ω_n[y_nlogσ(x_n)+(1-y_n)·log(1-σ(x_n))]

loss＝loss_reg+loss_obj+loss_cls

根据计算的损失loss更新模型参数；

9.根据权利要求1所述的基于注意力机制及特征交叉融合的目标检测方法，其特征在于，将待检测的图片输入目标检测网络模型进行检测时，具体包括以下步骤：

10.一种基于注意力机制及特征交叉融合的目标检测系统，通过根据权利要求1-9任一所述方法构建的目标检测网络模型实现，其特征在于，所述系统包括：

骨干网，用于对输入图像进行多层次的特征提取；

特征金字塔网络，用于自顶向下传达强语义特征；

路径融合网络，用于自底向上传达强定位特征；

检测头，用于解码最终的特征并输出预测类别及位置信息。