CN116363415A

CN116363415A - 一种基于自适应特征层融合的船舶目标检测方法

Info

Publication number: CN116363415A
Application number: CN202310176499.0A
Authority: CN
Inventors: 苏丽; 尹航
Original assignee: Harbin Engineering University
Current assignee: Harbin Engineering University
Priority date: 2023-02-28
Filing date: 2023-02-28
Publication date: 2023-06-30

Abstract

本发明公开了一种基于自适应特征层融合的船舶目标检测方法，采用YOLOv4检测模型进行目标检测，模型包括特征提取主干网络、特征融合增强网络以及输出检测网络；特征融合增强网络采用ASFF网络结构进行不同尺寸的特征图的融合；包括：将待检测图像输入检测模型，并通过特征提取主干网络进行特征提取，得到三个不同尺度的特征；将三个不同尺度的特征图输入特征融合网络的ASFF网络结构进行自适应融合，ASFF网络结构自适应调整各尺度特征在融合时的空间权重；将三个不同尺度的经过融合后的特征图分别送入对应的输出检测网络。本发明使不同特征图之间有效信息的充分利用，增强算法模型有效特征提取能力，提升检测模型检测精度。

Description

一种基于自适应特征层融合的船舶目标检测方法

技术领域

本发明属于计算机视觉的图像检测领域，涉及到一种基于自适应特征层融合的船舶目标检测方法。

背景技术

图像的目标检测是计算机视觉的基础问题。给定一个输入图像，目标检测需要确定图像中所有待检测目标的位置以及对应的类别信息。例如，对于船舶图像输入需要对其中的所有待检测的船舶目标进行检测标记，用刚好符合船舶目标大小的矩形检测框包围待检测船舶目标，并在检测框上注明对应船舶类别信息。

图像目标检测算法主要分为两阶段算法和单阶段算法，其中二阶段算法大部分采用先筛选区域再进行检测回归的方式，达到较高检测精度的同时却因为需要二次回归导致速度较慢，并不利于实时目标检测任务。而单阶段算法省去了区域回归这一步骤，因此大幅度提升了检测速度，并且单阶段检测算法的精度也在不断提升，这些有利因素使得目前单阶段算法是实时应用任务的首选。YOLOv4作为单阶段检测算法的佼佼者，在检测速度以及检测精度上都有着显著优势。但是，在将YOLOv4利用在船舶数据集上时，会出现小目标漏检、误检等现象，分析原因得出，YOLOv4的特征层融合时采用的是线性相加，导致不同层的特征图之间的有效信息并未充分得到利用，因此导致了YOLOv4检测模型的精度不高。

发明内容

针对上述现有技术，本发明要解决的技术问题是提供一种基于自适应特征层融合的船舶目标检测方法，提升不同特征图之间有效信息的充分利用，增强算法模型对于有效特征的提取能力，进而提升检测模型的检测精度。

为解决上述技术问题，本发明的一种基于自适应特征层融合的船舶目标检测方法，包括：采用YOLOv4检测模型进行目标检测，所述模型包括特征提取主干网络、特征融合增强网络以及输出检测网络；所述特征融合增强网络采用ASFF网络结构进行不同尺寸的特征图的融合；检测方法包括：

步骤一、将待检测图像输入YOLOv4检测模型，并通过特征提取主干网络进行特征提取，得到三个不同尺度的特征；

步骤二、将三个不同尺度的特征图输入特征融合网络的ASFF网络结构进行自适应融合，所述ASFF网络结构自适应调整各尺度特征在融合时的空间权重；

步骤三、将三个不同尺度的经过融合后的特征图分别送入对应的输出检测网络。

进一步的，所述特征提取主干网络采用CSPDarknet53结构。

进一步的，步骤二中所述自适应融合的公式为：

其中，l＝1，2，3，X₁、X₂和X₃分别为来自三个不同尺度的特征，α^l、β^l和γ^l分别为第l尺度特征与不同尺度特征对应的权重参数，且在训练过程中会动态地调节数值，α^l、β^l和γ^l之和为1。

进一步的，权重参数具体为：

其中，A＝α,β,γ，

和/>

是/>

和/>

分别经过ASFF网络的1x1卷积对应得到的结果，/>

表示特征图像中第i行和第j列的权重，则A^l就是由图像中所有的像素点对应的概率值/>

构成的权重矩阵。

本发明的有益效果：

针对现有的YOLOv4检测模型，本发明主要针对YOLOv4用于船舶目标检测任务时出现的小目标漏检以及误检问题。为此本发明提出一种不同特征图之间自适应融合的方法，可以有效提升不同特征图之间有效信息的充分利用，增强算法模型对于有效特征的提取能力，进而提升检测模型的检测精度。

与现有技术相比，本发明的改进效果表现为：

1.本发明通过添加自适应加权参数动态融合不同尺度的特征图解决了YOLOv4算法对于船舶目标检测出现的小目标漏检或者误检问题。

2.不同尺度特征图之间包含的有效信息可以得到更充分、合理的融合，使得每个特征图都含有更多的有效信息。

附图说明

图1是本发明中未改进的原版本的YOLOv4网络框架；

图2是本发明一种由CSPDarknet53构成的特征提取网络；

图3是本发明一种PANet网络结构；

图4是本发明一种基于自适应特征融合的特征金字塔网络；

图5是本发明一种基于自适应特征融合的改进YOLOv4网络结构。

具体实施方式

下面结合说明书附图和实施例对本发明做进一步说明。

目标检测需要对图像中待检测而所有目标进行分类表明目标所属类别并且用矩形框紧密包围住被检测到的目标。作为一阶段目标检测算法代表的YOLOv4模型主要分为三个组成部分：特征提取主干网络、特征融合增强网络以及输出检测网络。一张任意大小的图像首先输入到由CSPDarknet53构成的特征提取主干网络，分别得到输入图像尺寸的1/8、1/16以及1/32的三个尺度不同的特征图。然后将得到的三个不同尺度的特征图通过特征融合网络进行特征融合，最后将三个不同尺度的经过融合后的特征图分别送入对应的检测网络，进行预测输出。YOLOv4的三个组成部分各自保持独立且互不影响，其中在特征融合网络的设计上采用的是简单直接的元素相加的方式，经实验分析证明这种特征图融合方式并没有充分地考虑到不同尺度的特征图含有的不同有效信息，导致融合后的特征图非但没有获得额外的有效信息还引入不必要的噪声干扰。本发明针对这一问题提出使用自适应融合网络进行特征图之间的融合，即通过引入动态系数，自动调整每个特征图相加时的权重系数。通过引入动态系数使得每次特征融合时都会根据之前的反馈结果自动调节数值大小，使得每次的相加结果不断趋近于最理想的状态，不同特征图在保留自身有效信息的同时引入了来自其他特征图的有效信息，因此经过改进特征融合网络输出的特征图的有效特征更明显，利于后续预测网络的判断，进而提升检测模型的整体检测精度。

本发明是按照以下流程实现的：

步骤一、输入图像的特征提取过程，具体为：

首先将任意大小的二维图像输入到YOLOv4的特征提取模块中并得到三个不同尺度的特征。YOLOv4使用CSPDarknet53作为特征提取网络，通过残差网络的堆叠增强了对于输入图像的特征提取能力，最后输出了三个具有不同尺度的特征图，用于后续特征图之间的融合。

步骤二、不同尺度特征图之间的融合，具体为：

经过步骤一得到的三个具有不同尺度的特征图，其中我们将经过较少层特征提取模块得到的特征图称之为浅层特征图，而经过较多层特征提取模块的特征图称为深层特征图。经研究，浅层特征图含有更丰富的细节信息，深层特征图则有着更丰富的语义信息。特征融合网络的目的是使得不同特征图之间充分利用对应有效信息，使得每个特征图都包含一定的细节信息以及语义信息。改进后的特征融合网络采用自适应融合方式将三个具有不同尺度的特征图进行相加融合，具体方法为在三个不同尺度的特征图前各自添加一个参数再进行相加融合，而特征图前的参数则由训练过程中自动调节，参数范围是0到1之间。

步骤三、利用获得的特征图进行预测，具体为：

步骤二得到融合后的三个特征图，然后根据各自特征图的大小将特征图分割为对应大小的网格，每个网格点负责一个区域的预测，得到预测框的位置，然后经过得分排序以及非极大值抑制筛选得到最终的预测框，在输出图像上进行标注。

下面结合具体参数给出实施例：

本发明包括以下步骤：

1、输入图像的特征提取

特征提取主干网络如图1所示。YOLOv4的特征提取主干网络包含5个基本组件：①CBM，Yolov4网络结构中最小的组件，由三个激活函数组成，Conv+Bn+Mish；②CBL，由三个激活函数组成，Conv+Bn+Leaky_Relu；③Res unit，残差结构使网络构建更深入；④CSPX，由卷积层和n个单元模块Res unit相连接。输入图像在经过特征提取主干网络的提取时，分别保留了P1、P2以及P3三个不同尺度的特征图，其中P1是原输入图像尺寸的1/8，P2是原输入图像尺寸的1/16，P3是原输入图像尺寸的1/32，输出三个不同尺度特征图的目的是为了更好的获取输入图像的高层语义信息以及低层细节信息。

2、改进特征融合网络

在通过特征提取模块得到三个不同尺度的特征图后，YOLOv4使用PANet(如图3)进行不同尺寸的特征图的融合，PANet网络结构通过将输入的不同尺寸的、具有不同分辨率的特征图进行多次反复的特征提取以及拼接操作，以此实现浅层特征图与深层特征图各自有效信息的充分融合。在YOLOv4中，三个不同尺度的特征图上输入到PANet模块，经过上采样、卷积、下采样以及拼接等操作，得到三个全新的不同尺度的的特征图，最后将这三个特征图输出到YOLOv4的Head检测网络。

YOLOv4算法希望通过PANet网络结构将不同尺寸的特征图进行有效融合来解决多尺度目标检测问题，但是在PANet网络结构中，不同尺寸的特征图是以concat或者add这种线性固定方式进行融合，这会导致不同特征图的相加部分存在明显的语义冲突，进而影响了训练过程中的梯度反馈计算，降低了这种金字塔融合的有效性。

为了解决上述提到的问题，本文提出用ASFF结构替换原有的PANet网络结构，ASFF网络结构中不同尺寸的特征图融合方式从原先固定的线性相加方式改为动态自适应相加方式，替换后的网络结构可以动态学习不同特征图之间如何高效融合有用信息，自适应地调整各尺度特征在融合时的空间权重，以此实现整个融合网络结构的自适应融合效果。图4为改进ASFF网络结构图。

其中，ASFF网络结构具体实现了不同尺度特征图的自适应融合。以ASFF-3为例，特征融合的公式为

其中X₁、X₂和X₃分别为来自Leve1，Level2，Level3的特征，与来自不同层的特征对应的权重参数α、β和γ相乘并相加后，即可得到融合后的特征图。

对于权重系数α^l、β^l、γ^l，作为第l层特征图学习到的参数，在训练过程中会动态地调节各自数值，而三者之间又同时满足相加和为1。这里以系数α^l为例，详细介绍其值的由来。如公式

所示，/>

以及/>

是/>

和/>

分别经过1x1卷积对应得到的结果，i和j表示图像中第i行和第j列，而整体的公式则基于softmax分类函数：

其中z_i表示第i个节点输出值，C为总共结点数。整体输出结果/>

就是某一个特征图中第i行第j列对应的权重，而α^l就是由图像中所有的像素点对应的概率值/>

构成的权重矩阵，也就表示为某一个特征图在整组特征图中占有的概率。

最后，经过改进ASFF网络结构输出的三个不同尺度的特征图分别送入对应的YoloHead输出检测网络进行预测回归输出。三个不同尺度的特征图上都有着对应的长度偏移量、宽度偏移量以及对应的物体类别信息的概率，配合训练之前的得到的先验框的数值最终得到预测输出框的真实大小。