CN113052006A

CN113052006A - 一种基于卷积神经网络的图像目标检测方法，系统及可读存储介质

Info

Publication number: CN113052006A
Application number: CN202110188935.7A
Authority: CN
Inventors: 唐琎; 陶思萌; 李志勇; 朱立军
Original assignee: Central South University
Current assignee: Central South University
Priority date: 2021-02-19
Filing date: 2021-02-19
Publication date: 2021-06-29
Anticipated expiration: 2041-02-19
Also published as: CN113052006B

Abstract

本发明公开了一种基于卷积神经网络的图像目标检测方法、系统及可读存储介质，该方法包括如下步骤：采集图像样本，并对图像样本中的目标进行标记；构建基于一阶段网络的轻量型深度卷积网络；所述轻量型深度卷积网络的FPN网络架构中增设空间辅助激励模块AE、通道注意力模块SE、轻量型的卷积模块ConvSet；将图像样本进行聚类获得k个瞄框Anchor；将图像样本输入轻量型深度卷积网络，并基于所述瞄框Anchor进行模型训练得到目标检测模型；利用构建的目标检测模型识别待检测图像中的所述目标。本发明该方法可以应用于图像中的船舶检测，提高了检测速率以及精度，保证了实际应用中实时性检测需求。

Description

一种基于卷积神经网络的图像目标检测方法，系统及可读存储介质

技术领域

本发明属于计算机视觉、模式识别以及目标检测技术领域，具体涉及一种基于卷积神经网络的图像目标检测方法，系统及可读存储介质。

背景技术

近年以来，各种涉海、用海等活动越来越多，并且规模越来越大，海上各种安全事故、违章、违法船行为相应也越来越多，海上船舶检测工作日益繁重。

现在船舶检测技术主要有船舶自动识别系统(简称AIS)与岸基雷达，但是AIS信息存在主观错误，而雷达目标存在信息缺失等问题，因此在各种港口、沿海以及江河沿岸都布置了大量的视频摄像头，对上述技术进行辅助监控。但是现有视频监控主要以人工监控为主，效率和利用率较低。针对上述问题，相关研究人员利用图像处理与机器学习结合等方法进行船舶的检测以及监控。比较经典的方法是首先使用灰度直方图统计，以获得船舶的边缘信息，然后根据形状分析提取特征，然后利用支持向量机等分类方法对候选特征区域进行鉴别。这种检测方法泛化性能较差，在环境、光照等因素影响下容易导致误检和漏检问题。

卷积神经网络能够从数据中逐层自动地提取特征，不需要人工设计特征，在各种图像处理领域有着广泛的作用。在目标检测领域，从2014年由微软亚洲研究员RossGirshick首次提出R-CNN开始，深度学习技术应用到目标检测开启了崭新的篇章，其在输入图像上使用选择搜索算法得到可能是目标的候选区域，然后将每个候选区域送入CNN网络中，提取一个固定长度的特征向量，最后使用支持向量机对特征向量进行分类。其在VOC 2012数据集上平均准确率达到53.3％，随后针对R-CNN存在的问题，后续提出了FastR-CNN和Faster R-CNN 等网络，这些网络由于其检测算法的特点统称为两阶段检测网络，它们具有较高的准确率，但是检测速度非常慢基本达不到实时性的要求。针对上诉问题，2016年Joseph Redmon等人相继提出YOLO v1、SSD、YOLO v2、RetinaNet、YOLOv3等检测网络，这些网络由于其检测算法输入图片直接输出物体位置和类别，统称为一阶段网络。以YOLOV3为例子，其首先对输入的图片使用CNN网络进行特征提取，对于提取到的特征使用FPN进行语义信息和尺度信息的融合重组以得到不能尺度大小的三层特征层，分别利用这些特征层进行分类和回归多任务学习。它的检测速度相比两阶段检测网络快速，在CPU上测试基本能达到实时性要求，但是它的缺点是相比两阶段检测精度较低。

因此，如何应用卷积神经网络中YOLOV3来实现图像中类似船舶等目标的检测，并提高检测精度的问题是本发明亟需解决的。

发明内容

本发明的目的是提供一种基于卷积神经网络的图像目标检测方法，系统及可读存储介质，所述方法可以应用于图像中的船舶检测，能够实现全天候海上船舶检测的功能，解决原有传统方法受环境因素影响大、抗干扰能力弱，以及现有深度学习方法检测精度低等问题。

一方面，本发明提供的一种基于卷积神经网络的图像目标检测方法，包括如下步骤：

采集图像样本，并对图像样本中的目标进行标记；

构建基于一阶段网络的轻量型深度卷积网络；

所述轻量型深度卷积网络的FPN网络架构中增设空间辅助激励模块AE、通道注意力模块SE、轻量型的卷积模块ConvSet；

将图像样本进行聚类获得k个瞄框Anchor；

将图像样本输入轻量型深度卷积网络，并基于所述瞄框Anchor进行模型训练得到目标检测模型；

利用构建的目标检测模型识别待检测图像中的所述目标。

所述FPN网络的输入值为所述轻量型深度卷积网络中特征提取网络的输出的特征层，将输出的每个特征层分别作为一条支路最终得到输出值，相邻支路之间自顶向下上采样。所述空间辅助激励模块AE设置于所述轻量型深度卷积网络中特征提取网络中C3特征层之前，通道注意力模块SE设置在轻量型的卷积模块ConvSet之前，轻量型的卷积模块ConvSet中部分卷积层为深度可分离卷积SeparableConv，最后一层卷积层为普通卷积层。轻量型的卷积模块 ConvSet的最后输出所述轻量型深度卷积网络的输出特征量。

本发明利用上述网络结构，一方面利用了一阶段网络的速度优势，以保证实时性的需求；另一方面，本发明利用增设的空间辅助激励模块AE，通道注意力模块SE可以有效的提高检测精度，轻量型的卷积模块ConvSet可以降低计算量进而提高检测效率。

可选地，所述空间辅助激励模块AE设置于所述轻量型深度卷积网络中特征提取网络中 C3特征层之前，所述C3特征层为所述特征提取网络的第一个输出特征，其他输出特征层基于所述C3特征层依次输出；

所述空间辅助激励模块AE用于增加特征层在目标框区域的信息，若输入所述空间辅助激励模块AE的为特征层F_in，对应输出值F_out满足：

F_out(i,j,c)＝F_in(i,j,c)+F_a'_e(i,j)

F'_ae(i,j)＝F_ae(i,j)×η(t)

F_ae(i,j)＝F_mask(i,j)F_avg(i,j)

其中，F_out(i,j,c)为输出值F_out中通道c中像素点(i,j)对应的输出值，F_in(i,j,c)为特征层F_in中通道c中像素点(i,j)的对应值，F'_ae(i,j)为辅助激励层F_a'_e中通道c中像素点(i,j) 的对应值，η(t)为当前训练迭代次数t对应的课程学习系数η，F_ae(i,j)为辅助激励层F_ae中像素点(i,j)的对应值，F_mask(i,j)为掩膜层F_mask中像素点(i,j)的对应值，F_avg(i,j)为特征层F_avg中像素点(i,j)的对应值，C为通道总数。

可选地，所述通道注意力模块SE包括Squeeze子模块、Excitation子模块和Scale子模块；

所述Squeeze子模模块由卷积网络构成，利用卷积运算后得到特征层F'_in，然后通过全局平均池化层将每个二维的特征通道进行压缩使变成一个实数得到特征层F_sq；

所述Excitation子模块通过全连接的形式学习每个特征通道的权重得到权重层F_ex，即利用特征层F_sq通过全连接的形式学习得到权重层F_ex；

所述Scale子模块将权重层F_ex通过乘法的形式逐通道加权到特征层F_i'_n上完成在通道维度对特征的重标定。

可选地，所述轻量型的卷积模块ConvSet中部分卷积层为深度可分离卷积，所述深度可分离卷积由分组卷积dw以及卷积核大小为1的普通卷积pw构成，所述分组卷积dw的输入通道数、输出通道数和组数相等。

可选地，若所述FPN网络的输入值为所述轻量型深度卷积网络中特征提取网络输出的特征层C3、C4、C5、C6；所述FPN网络输出为P3、P4、P5和P6，其中，将每个特征层分别作为一条支路最终得到所述FPN网络的输出量，相邻支路之间自顶向下上采样，所述空间辅助激励模块AE设置于所述特征提取网络中C3特征层之前；

其中，若输入特征层C6，经过深度可分离卷积，空间辅助激励模块AE模块、ConvSet模块后输出特征为P6，以及将经过ConvSet模块中前5个深度可分离卷积后的特征层保存为T5；

若输入特征层C5，将T5特征层与特征层C5按通道拼接，并经过SE模块、ConvSet模块后输出特征为P5，以及将经过ConvSet前5个深度可分离卷积后的特征层保存为T4；

若输入特征层C4，将T4特征层与特征层C4按通道拼接，并经过SE模块、ConvSet模块后输出特征为P4，以及将经过ConvSet前5个深度可分离卷积后的特征层保存为T3；

若输入特征层C3，将T3特征层与特征层3按通道拼接，并经过SE模块、ConvSet模块后输出特征为P3。

可选地，所述轻量型深度卷积网络中的特征提取网络为轻量化网络EfficientNet，所述轻量化网络EfficientNet由一个卷积层和若干个不同卷积核大小的MBConv层组成；

所述MBConv层包含：Expansion Conv、Depthwise Conv和Pointwise Conv；

所述Expansion Conv由卷积核为1×1的2D conv、BN层以及swish激活函数层组成；所述Depthwise Conv由卷积核为3×3的2D depthwise conv、BN层以及swish激活函数层组成；所述Pointwise Conv由卷积核为1×1的2D conv和BN层组成。

可选地，将图像样本输入轻量型深度卷积网络进行模型训练得到目标检测模型的过程，包括如下规则：

计算每张图像样本中每个目标框box与每个瞄框Anchor的IoU，并将IoU大于预设阈值的anchor用于检测对应所述目标框box；若目标框box与每个瞄框Anchor的IoU都小于预设阈值，则选择最大的IoU的anchor用于检测对应所述目标框box。

可选地，将图像样本输入轻量型深度卷积网络进行模型训练得到目标检测模型的过程中，基于损失函数GIOU loss进行模型训练，所述损失函数GIOU loss如下所示：

GIOUloss＝loss_conf+loss_coord

存在：

式中conf做上下标表置信度相关参数，coord做上下标表回归相关参数，pred为预测框， gt为真实框，λ_coord为平衡参数；W、H、A指的是当前特征层的宽、高以及负责的anchor数量，

表示在特征层中位置为i和j的网格第k个anchor存在目标时为1，否则为0；loss_coord为评估预测坐标框位置的损失，w和h表示预测框宽、高相对于原图的比值，(2-w_ijkh_ijk)部分用来平衡不同尺度大小的目标对回归损失的影响，

loss_conf、

分别表示前景背景置信度损失、前景置信度损失、背景置信度损失；

和

分别表示前景置信度和背景置信度的平衡参数；

表示背景预测值与所有真实框IoU中最大值小于预设值thresh才计算当前背景，满足为1，否则为0；

定义为表示在特征层中位置为i和j的网格第k个anchor不存在目标时为1，否则为0；α和λ为系数，α用于平衡前景背景本身的比例不均，λ用于调节简单样本权重下降的速度。

二方面，本发明还提供一种基于所述检测方法的检测系统，其包括：

图像样本采集模块：用于采集图像样本，并对图像样本中的目标进行标记；

轻量型深度卷积网络构建模块，用于构建基于一阶段网络的轻量型深度卷积网络；

瞄框Anchor构建模块，用于将图像样本进行聚类获得k个瞄框Anchor；

目标检测模型构建模块，用于将图像样本输入轻量型深度卷积网络，并基于所述瞄框 Anchor进行模型训练得到目标检测模型；

检测模块，用于利用构建的目标检测模型识别待检测图像中的所述目标。

三方面，本发明还提供一种终端设备，包括处理器和存储器，该存储器存储了计算机程序，所述处理器调用计算机程序以执行所述一种基于卷积神经网络的图像目标检测方法的步骤。

四方面，本发明还提供一种可读存储介质，存储了计算机程序，所述计算机程序被处理器调用以执行：所述一种基于卷积神经网络的图像目标检测方法的步骤。

有益效果

本发明公开的一种基于卷积神经网络的图像目标检测方法，该方法在一阶段网络的基础上通过改进网络结构，一方面，利用了一阶段网络的速度优势，以保证图像目标检测在实际应用中的实时性需求；二方面，利用增设的空间辅助激励模块AE，通道注意力模块SE，轻量型的卷积模块ConvSet提高了检测精度以及检测效率，具有运行速度快、检测效果好、鲁棒性强等优点。三方面，该方法可以有效应用于图像中的船舶检测，能够实现全天候海上船舶检测的功能，解决原有传统方法检测船舶时受环境因素影响大、抗干扰能力弱，以及现有深度学习方法检测精度低等问题。

附图说明

图1为本发明实例中基于卷积神经网络的红外与可见光图像船舶检测方法流程图；

图2为本发明实例中基于卷积神经网络的红外与可见光图像船舶检测方法的整体网络模型框架；

图3为本发明实例中基于卷积神经网络的红外与可见光图像船舶检测方法的特征提取网络EfficientNet；

图4为本发明实例中基于卷积神经网络的红外与可见光图像船舶检测方法的辅助激励模块结构；

图5为本发明实例中基于卷积神经网络的红外与可见光图像船舶检测方法的SEBlock结构，其主要用于FPN结构中；

图6为本发明实例中基于卷积神经网络的红外与可见光图像船舶检测方法的MBConv结构，其主要用于EfficientNet中。

图7为本发明实例中基于卷积网络的红外与可见光图像船舶检测方法的ConvSet结构。

图8为本发明实例中基于卷积网络的红外与可见光图像船舶检测方法的训练数据与测试结果。其中图a为原始红外图像，图b为图a的检测结果，图c为原始可见光图像，图d为图c的检测结果，图e为通过PS生成的伪红外图像；

具体实施方式

本发明提供的一种基于卷积神经网络的图像目标检测方法是应用于图像中的目标检测，本发明在一阶段网络的基础上进行网络结构的改进，使得检测方法兼具一阶段网络的检测效率高的优势下，还具有检测精度高的优势。下述实施例中，本发明以图像中船舶检测以及一阶段网络中的YOLOV3为例进行阐述，其他可行的实施例中对其不进行具体的限定。下面将结合实施例对本发明做进一步的说明。

实施例1：

本实施例中对YOLOV3进行优化，主要包含了特征提取网络以及FPN网络，下述将对两者进行具体的描述。

1)特征提取网络

原YOLOV3网络中的特征提取网络采用的是Darknet53，从前向特征中选择52×52×256、 26×26×512和13×13×1024三层作为FPN的输入特征层。Darknet53主要由卷积层和残差层组成，在每个卷积层中，使用各种卷积核完成卷积运算后，都进行了一次批标准化，之后再使用Leaky RELU函数进行激活。Darknet53的参数量为155M。

考虑到实时性要求，本实施例中将Darknet53替换成轻量化网络EfficientNet进行特征的提取。EfficientNet由一个卷积层和16个不同卷积核大小的MBConv层组成，总参数量为5.3M。其中，MBConv层同MobileNetV2的反向残差瓶颈结构类似，并且结合了SENet中的SEBlock 进行通道信息的增强。

MBConv主要由三部分组成：Expansion Conv、Depthwise Conv和Pointwise Conv。其中 Expansion Conv由卷积核为1×1的2D conv、BN层以及swish激活函数层组成，通过该卷积层后输入特征的通道数扩张到指定层数以便获取更高维度的特征信息；DepthwiseConv由卷积核为3×3的2D depthwise conv、BN层以及swish激活函数层组成，该卷积层主要用于提取经过Expansion Conv后的特征信息，由于利用到depthwise conv，其相比普通卷积参数量和计算量大大减少；Pointwise Conv由卷积核为1×1的2D conv和BN层组成，该卷积层主要对 Depthwise Conv的输出特征进行通道降维操作，并且为了防止非线性激活函数对低维特征的破坏该层不使用激活函数。除此之外MBConv还集成了SEBlock用于对输出特征进行通道维度的信息增强，以及将输出特征与输入特征进行相加得到最终的输出值。

本实施例将EfficientNet作为特征提取网络，以输入尺度为416×416×3为例，提取经过 EfficientNet后尺度分别为52×52×80、26×26×112、13×13×320和13×13×1280的特征层，分别命名为C3、C4、C5和C6，它们相对于输入图片具有{8，16，32，32}像素的步长。这些特征层将作为后续FPN模块的输入。

需要说明的是，其他可行的实施例中，引用原YOLOV3网络中的特征提取网络Darknet53 也是能基本满足需求的，其根据实时性的要求，可以进行适应性修改。且上述网络尺寸大小的设置也是可以适应性调整的。

2)FPN网络

本发明改进了原有YOLOV3的FPN网络，引入了空间辅助激励模块与课程学习策略、通道注意力机制和模型轻量化。

2.1：空间辅助激励模块与课程学习策略

增设空间辅助激励模块AE(Spacial Assisted Excitation Module)可以增强特征层在目标框区域的信息，起到一种类似空间注意力的辅助作用。

假设输入特征层F_in的尺度为W×H×C(对应宽*高*通道数)，按通道方向取均值得到尺度为W×H×1的特征层F_avg。另一方面，通过训练样本的标签，即目标框的左上角点以及右下角点，可以确定该目标框box粗略的矩形分割区域。通过上述操作可以得到每张图片的二值掩膜层，矩形分割区域内的像素点为1表示当前存在目标，为0则表示当前像素点为背景。通过最近邻插值算法得到尺度为W×H×1的掩膜层F_mask。然后将特征层F_avg与掩膜层F_mask按像素点点乘得到尺度为W×H×1的辅助激励层F_ae。具体公式如下：

F_ae(i,j)＝F_mask(i,j)F_avg(i,j)

其中，C为输入特征通道数；i,j为当前特征点位置。

然后将F_ae与课程学习系数α相乘得到最终的辅助激励层F_a'_e，其中α为关于训练迭代周期的余弦函数，随着训练起始到结束α从1逐渐下降到0，间接使得F_a'_e也逐渐减小。最后将F_a'_e与输入特征层F_in的每个通道相加得到尺度为W×H×C的输出值F_out。具体的公式如下：

F_a'_e(i,j)＝F_ae(i,j)×η(t)

F_out(i,j,c)＝F_in(i,j,c)+F_a'_e(i,j)

其中，系数η为课程学习系数；t和T分别为当前训练迭代次数和整个训练迭代次数。由于随着训练起始到结束η从1逐渐下降到0，即学习系数随着随着训练起始到结束逐渐下降，训练前期辅助力度大一点，系数就大一点，后期辅助力度逐渐减小。

2.2通道注意力模块SE

通道注意力机制主要利用网络去学习特征权重，以增强或者抑制输入特征层中的通道信息。本发明主要借鉴SENet中的SEBlock模块实现通道注意力功能。模块的输入是由低层特征和高层特征拼接后的特征层F_in，其尺度定义为W×H×C₁。模块主要由三部分组成Squeeze、 Excitation和Scale。首先Squeeze由卷积网络构成，通过一系列卷积运算后得到尺度为 W×H×C₂的特征层F_i'_n，然后通过全局平均池化层将每个二维的特征通道进行压缩使变成一个实数，这个实数在某种程度上具有全局的感受野，表征在特征通道上响应的全局分布，由此得到的尺度为1×1×C₂特征层F_sq。Excitation类似于循环神经网络中门的机制，通过全连接的形式学习每个特征通道的权重，该权重可以用于表示特征通道之间的相关性，通过该层后得到尺度为1×1×C₂的权重层F_ex。最后Scale主要将由Excitation输出的权重层通过乘法的形式逐通道加权到F_i'_n上，完成在通道维度对原始特征的重标定。

2.3轻量型的卷积模块ConvSet

本发明将FPN网络进行轻量化处理以进一步减少模型大小，主要通过将普通卷积替换成深度可分离卷积实现。原始FPN网络使用的卷积层由conv-bn-leakyRelu组成，而深度可分离卷积由dw和pw两层卷积组成，其中dw为分组卷积，结构为dw_conv-bn-leakyRelu，其输入通道数、输出通道数和组数相等以实现将输入特征按通道分解为单通道特征，然后进行卷积运算，这样可以大大减少参数量。pw为卷积核大小为1的普通卷积，结构为 pw_conv-bn-leakyRelu，主要的作用是使经过dw卷积输出的特征进行通道间信息的交互以及实现特征降维。本发明将FPN每条分支中最后一层卷积层保持不变，其他卷积层均用深度可分离卷积代替，即若ConvSet由7个卷积组成，前6个为深度可分离卷积SeparableConv，最后一个为普通卷积Conv。

基于引入的三个模块，本实施例中FPN网络结构输入值为特征提取网络EfficientNet输出的四个特征层C3、C4、C5和C6，输出值为P3、P4、P5和P5四层用于后于解码以及损失计算。定义四条支路为Branch0、Branch1、Branch2和Branch3。Branch支路以Ci为输入，输出Pi，同时支路之间自顶向下通过上采样加SeparableConv的方式传递信息。为了减少计算量，这里将一个AE模块置于EfficientNet网络C3层前，由此C4、C5和C6都会包含AE的辅助信息。

输出特征层一共有四个维度，表示为H×W×[N×(4+1+Z)]，其中H×W表示输出特征图的单元格数，N为anchor框数，每个anchor框需要预测四维边界框的中心点和长宽信息t_x， t_w，t_w，t_h，一维置信度信息t_o，以及Z维目标框类别概率。

基于上述网络结构的理论性描述，本实施例体提供的一种基于卷积神经网络的图像目标检测方法，包括如下步骤：

S1:采集图像样本，并对图像样本中的目标进行标记。

本实施例中，根据船舶的实际应用情况中经常面临的红外和彩色图像中目标检测，故选择红外和彩色图像构建样本。

其主要包括彩色相机、红外相机、云台、工业电脑、电源等设备并将其搭载在拍摄轮船上。彩色相机主要用于采集白天船舶图片，红外相机则采集晚上船舶图片，云台与工业电脑分别负责相机的移动和数据采集和保存。其中对采集到的图像进行标注，标注的内容包括彩色图像和红外图像中船舶的位置以及类别，红外图片与可见光图片如图8(a)、(c)所示。

其次进行船舶数据的扩充，主要包括利用爬虫脚本爬取百度图片库中船舶的图片并且进行筛选，去除冗余以及其他图片；收集Kaggle、COCO、Pasacl Voc等船舶数据集。针对红外图像，考虑其特殊性以及开源红外图像的稀少性，借助PS软件将可见光图像“变成”红外图像。除此之外，在训练的过程中通过使用图像几何变换如平移、旋转、切割、反转等方式以及图像颜色变换如HSV变换、改变色差对比度等方法进行数据的扩充。

譬如，借助PS软件将彩色图像“变成”红外图像，首先创建调整图层1，并且调整其色相和饱和度，将色相设置为-20并且适当增大饱和度；然后创建调整图层2，打开黑白工具将其中的黄色和绿色设置到200以上同时降低红色、青色和蓝色值至-100以下，并且再进行色相和饱和度的二次调整，最后得到红外图像。通过上诉方法，可以将原始彩色图像转换成红外图像，平衡彩色图像和红外图像两者之间的比例，提高模型对于不同图像形式的泛化性能。伪红外图可见图8中的e图。

步骤2：构建基于一阶段网络的轻量型深度卷积网络。

本实施例中特征提取网络选用轻量化网络EfficientNet。如本实施例中，EfficientNet由一个卷积层和16个不同卷积核大小的MBConv层组成，总参数量为5.3M。EfficientNet网络结构可见图3所示，MBConv结构如图6所示。以输入尺度为416×416×3为例，提取经过 EfficientNet后尺度分别为52×52×80、26×26×112、13×13×320和13×13×1280的特征层，分别命名为C3、C4、C5和C6，它们相对于输入图片具有{8，16，32，32}像素的步长。这些特征层将作为后续FPN模块的输入。

如同2所示，FPN网络架构中增设空间辅助激励模块AE，通道注意力模块SE，轻量型的卷积模块ConvSet。输入值为特征提取网络EfficientNet输出的四个特征层C3、C4、C5和C6，输出值为P3、P4、P5和P6四层用于后于解码以及损失计算。

其中，ConvSet模块由7个卷积组成，前6个为深度可分离卷积SeparableConv，最后一个为普通卷积Conv，定义四条支路为Branch0、Branch1、Branch2和Branch3。其中ConvSet如图7所示。为了减少计算量，将一个AE模块放置于EfficientNet网络C3层前，由此C4、 C5和C6都会包含AE的辅助信息。以输入训练图片尺度为416举例，则C3、C4、C5、C6 的尺度为52×52×80、26×26×112、13×13×320和13×13×1280。

对于Branch0，输入特征为C6，然后经过stride为2的深度可分离卷积SeparableConv 后特征尺度变为6×6×640，随后经过AE模块、ConvSet模块后输出特征为P6，其尺度大小为6×6×3×5。同时将经过ConvSet前5个SeparableConv后的特征层保存为T5。

对于Branch1，输入特征为C5，将其与经过上采样和单个SeparableConv的T5按通道拼接为13×13×640的特征层，然后经过SE模块、ConvSet模块后输出特征为P5，其尺度大小为13×13×3×5。同时将经过ConvSet前5个SeparableConv后的特征层保存为T4。

对于Branch2，输入特征为C4，将其与经过上采样和单个SeparableConv的T4按通道拼接为26×26×224的特征层，然后经过SE模块、ConvSet模块后输出特征为P4，其尺度大小为26×26×3×5。同时将经过ConvSet前5个SeparableConv后的特征层保存为T3。

对于Branch3，输入特征为C3，将其与经过上采样和单个SeparableConv的T3按通道拼接为52×52×160的特征层，然后经过SE模块、ConvSet模块后输出特征为P3，其尺度大小为52×52×3×5。

步骤3:将图像样本进行K-means聚类获得k个瞄框Anchor。

其中，将图像样本中每个图像的矩形框box标记出来构建数据集，并从中选择簇心(簇心表示的是anchor的长和宽)；然后计算每个矩形框与每个簇心的IoU，当前框与某一簇心越接近则IoU越大距离越小，选择距离最短的簇作为每个目标框box的簇，再分别计算每个簇的簇心进行更新，循环迭代直至簇心不在变化时得到最终的簇心结果。

本实施例中，初始化4个簇心，通过聚类的方式得到簇心大小为35×35、90×90、157×157 和224×224，再分别分配给P3、P4、P5和P6四条分支。每条分支定义三个比例1:1、1:2和 2:1，由此每条支路共3个anchor，整个网络共12个anchor。

步骤4：将图像样本输入轻量型深度卷积网络，并基于所述瞄框Anchor进行模型训练得到目标检测模型；

从上述陈述可知，将图像输入至轻量型深度卷积网络中得到输出特征量P3、P4、P5和 P6，每个支路上存在多个瞄框Anchor，每个输出特征量表示为H×W×[N×(4+1+Z)]，即预测值。利用如下公式可以对预测值进行解码。

设预测值t_x、t_y、t_w、t_h和t_o，其中t_x和t_y表示为当前特征点的预测框相对于特征点位置 c_x和c_y(也称网格左上角)的相对坐标；t_w和t_h表示为当前特征点的预测框相对于该点anchor 在尺度p_w和p_h上的比值；t_o表示为当前特征点的预测框置信度大小。具体的公式如下：

b_x＝σ(t_x)+c_x

b_y＝σ(t_y)+c_y

b_o＝σ(t_o)

其中，b_x,b_y,b_w,b_h,b_o分别表示为当前特征点的预测值，该预测值分别为相对于原图尺度的框的中心点坐标、宽、高和框的置信度大小；σ(·)指sigmoid函数，e^(·)指指数函数。

因此，模型训练过程中，利用图像样本的目标标记、预测值的解码以及Z维目标框类

别概率进行模型的训练。其中，选用的损失函数loss如下：

loss＝loss_conf+loss_coord

本发明中训练的损失包括两个部分目标框的回归损失以及前景背景置信度损失。针对原 YOLOV3采用L2范式计算回归损失所存在的问题，即L2无法准确表示回归效果的好坏，本发明采用GIOU loss来代替L2损失。GIOU loss主要由预测框和真实框之间的GIOU所决定，而GIOU则是在IoU的基础上减去一个惩罚项，这个惩罚项定义为两个框的最小闭包区域中不属于这两个框的区域与总的闭包区域的比值，具体的计算公式如下：

其中，pred为预测框，gt为真实框；D表示预测框与真实框的最小闭包区域。

使用GIOU loss来评估预测坐标框位置的损失函数如下所示：

其中，λ_coord为平衡参数；W,H,A指的是当前特征层的宽、高以及负责的anchor数量；

表示在特征层中位置为i和j的网格第k个anchor存在目标；w和h表示预测框宽、高相对于原图的比值，通过2-wh可以用来平衡不同尺度大小的目标对回归损失的影响。

针对YOLOV3中存在负责前景和背景的anchor数量比例严重失衡的问题，本发明采用 focal loss改进原二值交叉熵损失(Binary Cross Entropy)。评估置信度损失函数如下所示：

其中，

和

分别表示前景置信度和背景置信度的平衡参数；α和λ为focalloss的系数，α用于平衡前景背景本身的比例不均，λ用于调节简单样本权重下降的速度；

表示背景预测值与所有真实框IoU中最大值小于阈值thresh(0.5)才计算当前背景。

最终，本发明涉及的整个网络模型是损失函数表示为loss。

loss＝loss_conf+loss_coord

从上述公式可知，损失函数的大小与瞄框Anchor是相关的，在一些实施例中，可以选择现有的规则，如原YOLOV3中的规则，本实施例中选择GT分配策略。主要的过程是对于每张图片中所有的目标框boxes，依次与12个anchor计算IoU，将IoU大于阈值的anchor都用于检测当前的目标框box，这里阈值定义为0.3；当IoU都小于阈值，则选择其中IoU最大的anchor负责检测当前目标框box。这样的好处是可以适当解决物体相互靠近时漏检的问题。

步骤5：利用构建的目标检测模型识别待检测图像中的所述目标。

模型训练采用的优化器为ADAM，β₀、β₁分别为0.9和0.999，初始学习率为0.0001，终止学习率为0.000001，并且使用Warmup和Cosine降火等方式实时调整学习率大小。在训练过程中采用多尺度训练，即每10个batches更新输入图像的尺度。整个训练周期为120个epochs，batchsize为8。

得到预测值后，进行预测值解码、排序及异常过滤、去除重叠框等步骤。

其中，排序及异常过滤过程主要是先将对当前输入图片的所有预测框根据置信度从大到小排序，选择置信度大于阈值0.5的预测框作为候选目标；随后，在这些候选目标中排除尺度超出图像边界或者尺度过小等异常值。

去除重叠框过程主要是将过滤后的候选目标去除相互靠近重叠度较大的冗余框，具体使用的方法是非极大值抑制(nms)。其基本步骤为每次选择置信度得分最高的预测框，依次与剩余的框进行IoU的计算，当IoU大于一定阈值则将该框删除，然后从未处理框中继续选择得分最高的框，重复上述过程。

综上所述，本实施例提供的一种基于卷积神经网络的图像目标检测方法，应用于船舶检测时能够实现全天候海上船舶检测的功能，解决原有传统方法检测船舶时受环境因素影响大、抗干扰能力弱，以及现有深度学习方法检测精度低等问题。尤其是本实施例中图像样本包含了彩色图像以及红外图像，进一步扩展了所述方法的应用空间以及检测精度。

需要说明的是，其他一些可行的实施例中，在本发明对FPN网络进行优化的基础上，可以根据实际应用的需求对损失函数，特征提取网络，瞄框Anchor选取规则等方面进行适应性修改。

在一些可行的方式中，本发明还提供一种基于所述检测方法的检测系统，其包括：

其中，各个单元模块的具体实现过程请参照前述方法的对应过程。应当理解，上述单元模块的具体实现过程参照方法内容，本发明在此不进行具体的赘述，且上述功能模块单元的划分仅仅是一种逻辑功能的划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。同时，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

在一些可行的方式中，本发明还提供一种终端设备，包括处理器和存储器，该存储器存储了计算机程序，所述处理器调用计算机程序以执行所述一种基于卷积神经网络的图像目标检测方法的步骤。

其中，各个步骤的具体实现过程请参照前述方法内容。

在一些可行的方式中，本发明还提供一种可读存储介质，存储了计算机程序，所述计算机程序被处理器调用以执行：所述一种基于卷积神经网络的图像目标检测方法的步骤。

其中，各个步骤的具体实现过程请参照前述方法内容。

应当理解，在本发明实施例中，所称处理器可以是中央处理单元(CentralProcessing Unit， CPU)，该处理器还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列 (Field-Programmable GateArray，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。存储器可以包括只读存储器和随机存取存储器，并向处理器提供指令和数据。存储器的一部分还可以包括非易失性随机存取存储器。例如，存储器还可以存储设备类型的信息。

所述可读存储介质为计算机可读存储介质，其可以是前述任一实施例所述的控制器的内部存储单元，例如控制器的硬盘或内存。所述可读存储介质也可以是所述控制器的外部存储设备，例如所述控制器上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字 (Secure Digital,SD)卡，闪存卡(Flash Card)等。进一步地，所述可读存储介质还可以既包括所述控制器的内部存储单元也包括外部存储设备。所述可读存储介质用于存储所述计算机程序以及所述控制器所需的其他程序和数据。所述可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。

基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的可读存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，RandomAccess Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

需要强调的是，本发明所述的实例是说明性的，而不是限定性的，因此本发明不限于具体实施方式中所述的实例，凡是由本领域技术人员根据本发明的技术方案得出的其他实施方式，不脱离本发明宗旨和范围的，不论是修改还是替换，同样属于本发明的保护范围。

Claims

1.一种基于卷积神经网络的图像目标检测方法，其特征在于：包括如下步骤：

采集图像样本，并对图像样本中的目标进行标记；

构建基于一阶段网络的轻量型深度卷积网络；

将图像样本进行聚类获得k个瞄框Anchor；

利用构建的目标检测模型识别待检测图像中的所述目标。

2.根据权利要求1所述的方法，其特征在于：所述空间辅助激励模块AE设置于所述轻量型深度卷积网络中特征提取网络中C3特征层之前，所述C3特征层为所述特征提取网络的第一个输出特征，其他输出特征层基于所述C3特征层依次输出；

F_out(i,j,c)＝F_in(i,j,c)+F′_ae(i,j)

F′_ae(i,j)＝F_ae(i,j)×η(t)

F_ae(i,j)＝F_mask(i,j)F_avg(i,j)

其中，F_out(i,j,c)为输出值F_out中通道c中像素点(i,j)对应的输出值，F_in(i,j,c)为特征层F_in中通道c中像素点(i,j)的对应值，F′_ae(i,j)为辅助激励层F′_ae中通道c中像素点(i,j)的对应值，η(t)为当前训练迭代次数t对应的课程学习系数η，F_ae(i,j)为辅助激励层F_ae中像素点(i,j)的对应值，F_mask(i,j)为掩膜层F_mask中像素点(i,j)的对应值，F_avg(i,j)为特征层F_avg中像素点(i,j)的对应值，C为通道总数。

3.根据权利要求1所述的方法，其特征在于：所述通道注意力模块SE包括Squeeze子模块、Excitation子模块和Scale子模块；

所述Squeeze子模模块由卷积网络构成，利用卷积运算后得到特征层F′_in，然后通过全局平均池化层将每个二维的特征通道进行压缩使变成一个实数得到特征层F_sq；

所述Excitation子模块通过全连接的形式学习每个特征通道的权重得到权重层F_ex；

所述Scale子模块将权重层F_ex通过乘法的形式逐通道加权到特征层F′_in上完成在通道维度对特征的重标定。

4.根据权利要求1所述的方法，其特征在于：所述轻量型的卷积模块ConvSet中部分卷积层为深度可分离卷积，所述深度可分离卷积由分组卷积dw以及卷积核大小为1的普通卷积pw构成，所述分组卷积dw的输入通道数、输出通道数和组数相等。

5.根据权利要求1所述的方法，其特征在于：若所述FPN网络的输入值为所述轻量型深度卷积网络中特征提取网络输出的特征层C3、C4、C5、C6；所述FPN网络输出P3、P4、P5和P6，其中，将每个特征层分别作为一条支路最终得到所述FPN网络的输出量，相邻支路之间自顶向下上采样，所述空间辅助激励模块AE设置于所述特征提取网络中C3特征层之前；

6.根据权利要求1所述的方法，其特征在于：所述轻量型深度卷积网络中的特征提取网络为轻量化网络EfficientNet，所述轻量化网络EfficientNet由一个卷积层和若干个不同卷积核大小的MBConv层组成；

所述MBConv层包含：Expansion Conv、Depthwise Conv和Pointwise Conv；

7.根据权利要求1所述的方法，其特征在于：将图像样本输入轻量型深度卷积网络进行模型训练得到目标检测模型的过程，包括如下规则：

8.根据权利要求1所述的方法，其特征在于：将图像样本输入轻量型深度卷积网络进行模型训练得到目标检测模型的过程中，基于损失函数GIOU loss进行模型训练，所述损失函数GIOU loss如下所示：

GIOUloss＝loss_conf+loss_coord

存在：