CN110069987B

CN110069987B - 基于改进vgg网络的单阶段船舶检测算法及装置

Info

Publication number: CN110069987B
Application number: CN201910192265.9A
Authority: CN
Inventors: 孟春宁; 赵蓬辉; 冯明奎
Original assignee: Chinese People's Armed Police Force Sea Police Academy
Current assignee: Chinese People's Armed Police Force Sea Police Academy
Priority date: 2019-03-14
Filing date: 2019-03-14
Publication date: 2022-12-30
Anticipated expiration: 2039-03-14
Also published as: CN110069987A

Abstract

本发明针对基于深度神经网络的船舶检测算法难以兼顾精度与速度的问题，为提高检测精度，提出一种基于改进VGG网络的单阶段船舶检测算法及装置，在原有VGG底层网络的基础上加入异步卷积和最大池化交替连接的结构，保证实时处理的同时提高船舶检测的平均精度。为保证实时的计算效率，摒弃复杂的残差神经网络和inception神经网络，在底层网络结构采用多种特征降维方式的单链卷积神经网络。为解决船舶目标数据缺乏问题，建立了针对水上目标检测的数据集。在网络训练过程中，通过参数迁移的方式，提高大类船舶和七类船舶检测的平均精度，对大类船舶检测的平均精度超过84%，对七类船舶检测的平均精度均值超过89%，领先现有同类船舶检测算法。

Description

基于改进VGG网络的单阶段船舶检测算法及装置

技术领域

本发明属于目标检测技术领域，具体涉及一种基于改进VGG网络的单阶段船舶检测算法及装置。

背景技术

船舶的数量和水运经济总量逐年增长，给传统的水运交通管理体系带来越来越多的挑战。智能水运交通相关技术的发展逐渐成为未来交通系统的发展方向，而船舶检测技术则是智能水运交通领域的核心技术之一。迄今，海上目标检测主要采用雷达等无线电技术。相控阵雷达适用于超视距目标的探测和跟踪，在检测速度与准确度方面达到了军用水平，但其系统大、技术复杂并且价格昂贵，不利于全天时检测，难以民用推广。机械扫描雷达虽然应用广泛，但对近距木质等非金属的小船检测存在盲区。遥感卫星同样是重要的检测工具，可在万米高空实现大范围的海上目标检测，但难以达到实时处理要求，并且太空资源极其有限，无法满足全天时检测要求。红外图像检测技术虽然能够在一定程度上穿透烟、雾、雨等，适合在各种天气条件下全天候工作，但观测距离较近，易受空气湿度影响。与上述检测技术相比，可见光图像检测虽然易受雨雾天气影响，但在较为理想的天气情况下，观测距离可达30km。更重要的是，可见光传感器获取的细节信息远比雷达和红外线等检测技术丰富，适合对近视距离目标进行有效探测。因此，发展基于可见光波段的船舶检测技术，可与雷达、卫星等适用于远视距离的检测技术形成高低搭配，进一步提高海上船舶监管能力。当前常用的可见光波段船舶检测的技术可分为两大类，分别是基于传统算法和基于深度神经网络的船舶检测算法。

基于传统算法的船舶检测方法主要以海面背景、船舶显著特征和图像纹理为先验知识设计模型。徐芳等人以海面遥感背景知识建立的背景模型计算量较小，可迅速检测舰艇目标。Borghgraef等人结合动态背景的时空关联性，提出基于ViBe和BehaviourSubtraction的海面漂浮物检测算法，运算速度快，可在复杂的动态场景检测漂浮的潜在危险物。王金武等人提取目标相对应的相位谱和频率协调作为显著特征，提出一种海上场景显著性特征检测方法，有效排除了反射光和海浪对检测的干扰。李敏等人根据人类视觉特征构建了基于图像显著特征检测算法。Fefilatyev等人根据天际线在图像中的纹理特征提出一种检测海面监控算法，在平行视角场景下可有效检测高于天际线的船舶。然而，上述基于背景建模的检测算法对静止目标的检测精度不高，难以满足动态场景下的检测要求；基于显著特征的船舶检测算法存在信息处理过程复杂和计算冗余大等问题，难以满足实时检测目标要求。此外，舰艇观测的海面背景与海面遥感背景差别较大，且前者更加复杂多变，在各种复杂背景下过度依赖人工设定的海面背景知识及人工特征的设计和提取，易受海浪、鳞光、雨雾等因素影响，难以满足多种场景下的检测要求，导致算法鲁棒性不理想。

基于深度神经网络的船舶检测主要应用卷积神经网络自动提取和筛选目标特征，进行两阶段回归计算出船舶的类别和位置，或单阶段一次性回归计算出船舶的类别和位置。基于深度神经网络的海上目标检测算法能够充分利用大型数据集自动获取目标的有效特征。Xue和Hao等人基于特征金字塔网络提出旋转密集特征金字塔网络(R-DFPN)，这种检测算法通过在预测建议框中增加旋转维度，提高复杂港口场景下的船舶召回率。然而，R-DFPN属于两阶段目标检测网络，网络结构复杂，处理速度小于15fps，难以满足现代船速对海面摄像监控要求的实时性。王新立等人对单阶段多框架检测算法(Single ShotMultiBox Detector，简称SSD)进行了网络结构改进，提出基于SSD的船舶检测算法。该算法虽一定程度上提高了检测平均精度，但改造后的残差神经网络的参数规模仍然较大，难以实现实时检测。此外，王新立等人提出的算法仅在自建数据中达到69.53％的平均精度，并没有提供在公共检测数据集中的测试结果。

与KITTI、Torontocity、RobotCar等公开的陆地交通类数据集相比，针对智能水运交通的公开数据库严重缺乏。公开的大众型数据集，诸如MS COCO和Pascoval VOC，虽然有近9000个船舶目标数量，但船只种类单一，且目标场景简单。在缺乏针对水上目标检测的数据集的情况下，难以发挥卷积神经网络的优势，且不利于对比船舶检测算法的性能。因此，建立水上船舶数据集成为深度神经网络在船舶检测领域发挥优势的关键。

SSD底层网络结构VGG是单链卷积神经网络(单链十五层卷积层的神经网络)，与复杂的残差神经网络或Inception网络相比，是保证实时目标检测的结构基础。底层结构为VGG结构的SSD网络结构如图1所示。在图1中，block4、fc7、block8、block9、block10和block11分别表示神经网络中每个卷积命名区域中最后的特征图层，block4与fc7之间的虚线表示省略的非回归特征图层fc6，“DETECTIONS(21 CLASSES)”表示筛选后的20类目标和一个背景向量；圆表示卷积(conv)，采用大小为“3×3”，步长为(1,1)的两层卷积核，即2kernal3×3_s1；三角形表示池化(pool)，采用大小为“2×2”，步长为(2,2)的一层最大池化，即pool2×2_s2。多框架多层次的回归特征图为指向“DETECTIONS(21 CLASSES)”的特征图层，在每个特征图中回归出目标的位置和类别。

SSD检测目标的总体计算流程示例如图2所示，其中图2(a)到图2(b)阶段表示以图像划分的单元格为中心生成建议框；图2(b)到图2(c)阶段表示根据目标(狗)的标注标签训练后，生成的预测框和预测类别，一共生成两个向量，分别为“location”和“confidence”；图2(b)表示多层回归特征图把分类任务与位置回归任务统一为回归问题，在多层次特征图上分别应用不同尺寸的锚箱生成特定长宽比例的建议框，并在建议框上一次性回归物体类别与位置信息，其中生成的建议框长宽比为“1、2、3、0.5或0.333”。

SSD底层网络结构VGG共有五层最大池化层，高层网络结构共有四层用于降维的卷积层。图3为SSD中特征图的降维方式示意图。如图3所示，图3(a)表示卷积核大小为3×3，卷积步长为(2,2)的卷积核kernal3×3s(2,2)的卷积降维过程，图3(b)表示最大池化的降维过程，两者是SSD的主要特征降维方式。与高层网络结构中的卷积降维方式相比，最大池化层仅对比出覆盖视野中的最大值，运算方式简单，但容易忽略其他区域的信息，因此在降维过程中在一定程度上会造成图像信息损失。如果在底层网络中采用普通卷积核将大幅增加网络规模，例如采用kernal3×3s(2,2)进行降维，将增加8640个网络参数。

虽然VGG底层网络结构相对简单，但特征图大小在底层网络处理过程中缩小了16倍，损失了较多的图像信息。虽然采用更大分辨率的图像训练，可提升平均精度，但增加图像分辨率后难以保证实时检测。实验表明在相同数据和训练方法的情况下，SSD检测图像大小为“512×512”的平均精度均值高于图片大小为“300×300”的平均精度均值，两者相差约3％，但检测速度低于25fps。原因在于“512×512”的图片较“300×300”的图片，能够向高层网络传递更多信息的同时，计算负担大幅增加。因此本发明提出一种基于改进VGG网络的单阶段船舶检测算法及装置，采用混合降维方式对底层网络进行改进，改进后的底层网络能够在保证实时检测的同时，向高层网络尽可能多地传递有效图像信息。

发明内容

本发明所要解决的技术问题是：针对基于深度神经网络的船舶检测算法难以兼顾精度与速度的问题，为提高检测精度，提出一种基于改进VGG网络的单阶段船舶检测算法(Single Stage Ship Detector Based on Improved VGG Network，简称SSSD)及装置。实验将公开数据集VOC2007和VOC2012中的图片缩小至300×300训练后，SSSD在VOC2007test中的平均检测精度均值可达79.3％，平均检测速度超过40fps。通过迁移参数的方法，在自建数据集中训练后，对大类船舶检测的平均精度超过84％，对七类船舶检测的平均精度均值超过89％，领先现有同类船舶检测算法。

本发明解决上述技术问题所采用的技术方案为：基于改进VGG网络的单阶段船舶检测算法，包括以下步骤：

(1)搭建SSSD网络

搭建的SSSD网络包括底层网络和高层网络，所述的底层网络为单链卷积神经网络VGG，所述的底层网络采用最大池化和异步卷积交替连接的结构；

所述的底层网络用于对输入的图像进行两层异步卷积分解；

所述的高层网络用于对所述的底层网络输出的特征进行卷积降维，得到多个卷积特征，并合并得到的多个卷积特征，在回归特征图上计算、筛选并输出船舶目标的位置和类别；

(2)构建数据库

应用python语言和谷歌浏览器及插件，在百度图片搜索引擎中爬取数万张船舶图片；

通过人工筛选方式删除画质较差的图片，根据筛选的图片进行船舶类别分类，同时以阿拉伯数字批量命名图片名称；其中，船舶类别分为大类船舶数据集VOC_boat和大类船舶数据集VOC_boat下的细分的七类船舶数据VOC_ship，大类船舶数据集VOC_boat仅标记为一个类别标签“boat”，七类船舶数据VOC_ship分别标记为七个类别标签，即“engineering_ship”、“freighter”、“passenger_ship”、“public_service_vessel”、“sailboat”、“speedboat”、“submarine”；

利用GitHub网页资源，下载labelimg软件包，在筛选的图片中打标签制作数据集；

利用python调用xml库函数批量处理标签文件，剔除无目标类别的标签文件，最后删除无标签文件对应的图片，获得带有标签的船舶目标的标准数据集；

(3)网络训练

采用双线性内插法将标准数据集中的图片统一压缩为300×300的图像作为训练样本，使用训练样本对搭建的SSSD网络进行训练，得到训练后的SSSD网络；

(4)网络测试

利用训练后的SSSD网络对待检测的船舶图像提取特征向量，计算、筛选并输出位置和类别两种向量。

作为优选，所述的底层网络包括依次连接的通道一、通道二、通道三和通道四，所述的通道一包括卷积层一和池化层一，所述的通道二包括卷积层二和串联结构一，所述的串联结构一包括异步卷积核一、BN批量规范单元一和ReLu修正线性单元一，所述的通道三包括卷积层三和池化层二，所述的通道四包括卷积层四和串联结构二，所述的串联结构二包括异步卷积核二、BN批量规范单元二和ReLu修正线性单元二，所述的底层网络的输入端、所述的卷积层一、池化层一、卷积层二、异步卷积核一、BN批量规范单元一、ReLu修正线性单元一、卷积层三、池化层二、卷积层四、异步卷积核二、BN批量规范单元二、ReLu修正线性单元二、所述的底层网络的输出端和所述的高层网络的输入端沿通道方向依次连接；

所述的异步卷积核一和所述的异步卷积核二分别基于不同方向上不同步长的异步卷积策略进行两次异步卷积分解构造得到两层异步卷积分解的卷积层，每次异步卷积分解操作过程为：首先采用在B方向上大小为3步长为2、A方向上大小为1步长为1的异步卷积核对输入特征图进行卷积处理，在B方向实现降维；之后采用在A方向上大小为3步长为2、B方向上大小为1步长为1的异步卷积核对上一步卷积处理的输出结果进行卷积处理，提取特征的同时在两个方向上实现降维。

作为优选，步骤(2)中，获得的标准数据集中包含22507个船舶目标，其中包括15605个船舶目标的大类船舶数据VOC_boat和6902个船舶目标的七类船舶数据VOC_ship。

作为优选，为增加所用训练样本的价值，步骤(3)中，对标准数据集中的图片压缩前，先对图片进行预处理：对图片进行包括随机地颜色扰动操作和翻转操作，所述的颜色扰动操作包括图片颜色的亮度、对比度、饱和度、色相的调整这四种操作。这四种图像颜色操作的前后顺序可随机改变。

进一步地，所述的翻转操作方法为：调用TensorFlow图像处理模块image，以50％的概率对图片执行从左向右翻转180度的水平翻转操作；所述的亮度调整方法为：调用TensorFlow图像处理模块image，在[-32/255，32/255]的范围内随机调整图像的亮度；所述的对比度调整方法为：调用TensorFlow图像处理模块image，在[0.5，1.5]的范围内随机调整图像对比度；所述的饱和度调整方法为：调用TensorFlow图像处理模块image，对图片饱和度随机增加0.5；所述的色相调整方法为：调用TensorFlow图像处理模块image，在[0.5，1.5]的范围内随机调整图像色相。

基于改进VGG网络的单阶段船舶检测装置，包括：

SSSD网络模块，该SSSD网络模块包括底层网络模块和高层网络模块，其中，

所述的底层网络模块为单链卷积神经网络VGG模块，所述的底层网络模块采用最大池化和异步卷积交替连接的结构；

所述的底层网络模块用于对输入的图像进行两层异步卷积分解；

所述的高层网络模块用于对所述的底层网络模块输出的特征进行卷积降维，得到多个卷积特征，并合并得到的多个卷积特征，在回归特征图上计算、筛选并输出船舶目标的位置和类别。

作为优选，所述的底层网络模块包括依次连接的通道一、通道二②、通道三和通道四，所述的通道一包括卷积层一和池化层一，所述的通道二②包括卷积层二和串联结构一，所述的串联结构一包括异步卷积核一、BN批量规范单元一和ReLu修正线性单元一，所述的通道三包括卷积层三和池化层二，所述的通道四包括卷积层四和串联结构二，所述的串联结构二包括异步卷积核二、BN批量规范单元二和ReLu修正线性单元二，所述的底层网络模块的输入端、所述的卷积层一、池化层一、卷积层二、异步卷积核一、BN批量规范单元一、ReLu修正线性单元一、卷积层三、池化层二、卷积层四、异步卷积核二、BN批量规范单元二、ReLu修正线性单元二、所述的底层网络模块的输出端和所述的高层网络模块的输入端沿通道方向依次连接；

与现有技术相比，本发明的优点在于：本发明针对基于深度神经网络的船舶检测算法难以兼顾精度与速度的问题，为提高检测精度，提出一种基于改进VGG网络的单阶段船舶检测算法(Single Stage Ship Detector Based on Improved VGG Network，简称SSSD)及装置，在原有VGG底层网络的基础上加入异步卷积和最大池化交替连接的结构，保证实时处理的同时提高船舶检测的平均精度。为保证实时的计算效率，摒弃复杂的残差神经网络和inception神经网络，在底层网络结构采用多种特征降维方式的单链卷积神经网络。为解决船舶目标数据缺乏问题，建立了针对水上目标检测的数据集。具体地，自建数据集包括15605个船舶目标的大类船舶数据VOC_boat和6902个船舶目标的七类船舶数据VOC_ship。在网络训练过程中，通过参数迁移的方式，提高大类船舶和七类船舶检测的平均精度。实验将公开数据集VOC2007和VOC2012中的图片缩小至300×300训练后，SSSD在VOC2007test中的平均检测精度均值可达79.3％，平均检测速度超过40fps。通过迁移参数的方法，在自建数据集中训练后，对大类船舶检测的平均精度超过84％，对七类船舶检测的平均精度均值超过89％，领先现有同类船舶检测算法。

附图说明

图1为底层结构为VGG结构的SSD网络结构示意图；

图2为SSD检测目标的总体计算流程示例；

图3为SSD中特征图的降维方式示意图；

图4为异步卷积降维过程示意图；

图5为搭建的SSSD网络结构示意图；

图6为K-Pool_BN-ReLu结构的依次连接顺序示意图；

图7为网络测试的输出结果；

图8为用于训练的VOC2007trainval和VOC2012trainval的类别和对应目标个数图；

图9为VOC07+12包含船舶的图片及目标的大小分布图；

图10为VOC_boat图片及其目标大小分布图；

图11为VOC_ship和VOC_ship test的每类船舶数量及具体类别；

图12为VOC_ship整体图像及目标大小分布情况；

图13为损失曲线图；

图14为改进网络的检测结果；

图15为迁移参数情况后船舶检测的平均精度均值；

图16为各类算法的大类船舶检测结果；

图17为是否迁移参数对七类船舶检测的影响；

图18为SSSD的部分检测结果展示。

具体实施方式

以下结合附图实施例对本发明作进一步详细描述。

实施例的基于改进VGG网络的单阶段船舶检测算法，包括以下(1)～(4)四个步骤：

(1)搭建SSSD网络，该SSSD网络包括底层网络和高层网络，底层网络为单链卷积神经网络VGG，底层网络采用最大池化和异步卷积交替连接的结构。

底层网络用于对输入的图像进行两层异步卷积分解；底层网络包括依次连接的通道一、通道二、通道三和通道四，通道一包括卷积层一和池化层一，通道二包括卷积层二和串联结构一，串联结构一包括异步卷积核一、BN批量规范单元一和ReLu修正线性单元一，通道三包括卷积层三和池化层二，通道四包括卷积层四和串联结构二，串联结构二包括异步卷积核二、BN批量规范单元二和ReLu修正线性单元二，底层网络的输入端、卷积层一、池化层一、卷积层二、异步卷积核一、BN批量规范单元一、ReLu修正线性单元一、卷积层三、池化层二、卷积层四、异步卷积核二、BN批量规范单元二、ReLu修正线性单元二、底层网络的输出端和高层网络的输入端沿通道方向依次连接；异步卷积核一和异步卷积核二分别基于不同方向上不同步长的异步卷积策略进行两次异步卷积分解构造得到两层异步卷积分解的卷积层，每次异步卷积分解操作过程为：首先采用在B方向上大小为3步长为2、A方向上大小为1步长为1的异步卷积核对输入特征图进行卷积处理，在B方向实现降维；之后采用在A方向上大小为3步长为2、B方向上大小为1步长为1的异步卷积核对上一步卷积处理的输出结果进行卷积处理，提取特征的同时在两个方向上实现降维。

图4为异步卷积降维过程示意图。图4展示了两种异步卷积降维其中一层的计算过程，其中Kernel3×1s(2,1)表示大小为“3×1”的卷积核，在B方向上大小与步长分别为3和2，在A方向上的大小和步长分别为1和1。特征图在经过一层异步卷积降维后，仅在B方向实现降维。再次经过卷积核kernal1×3s(1,2)处理后，特征图在A与B方向分别降低了维度，类似pool2×2_s2对特征图进行处理的效果。与网络底层结构中均kernal3×3_2的降维方式相比，kernal3×1_s(2,1)与kernal1×3_s(1,2)的结合压缩了三分之一的参数规模，同时提高了网络的非线性表达能力。与pool2×2_s2的最大池化层相比，两层异步卷积分解中的卷积计算既在卷积核大小为“3”方向上保证了像素之间的重叠，也在步长为“2”方向上保证了感受野之间的重叠，能够保证更多的图像信息传递到高层网络结构。

高层网络用于对底层网络输出的特征进行卷积降维，得到多个卷积特征，并合并得到的多个卷积特征，在回归特征图上计算、筛选并输出船舶目标的位置和类别。

搭建的SSSD网络结构如图5所示。图5中的通道上的圆表示卷积操作(Conv)、三角形表示池化操作(Pool)、正方形表示异步卷积核(K-Pool)、BN批量规范单元(BN)和ReLu修正线性单元(ReLu)三者的串联结构(K-Pool_BN-ReLu)。图5中，①、②、③、④分别表示通道一、通道二、通道三、通道四；①上的圆和三角形分别表示卷积层一和池化层一，②上的圆和正方形分别表示卷积层二和K-Pool_BN-ReLu串联结构一，③上的圆和三角形分别表示卷积层三和池化层二，④上的圆和正方形分别表示卷积层四和K-Pool_BN-ReLu串联结构二。“DETECTIONS”表示筛选后的20类目标和一个背景向量。

图5中，block1、block2、block3、block4、fc7、block8、block9、block10和block11分别表示SSSD网络中的每层模块的特征图层，通道上的虚线表示省略的非回归特征图层fc6，该虚线左侧部分为SSSD网络的底层网络，右侧部分为SSSD网络的高层网络，高层网络部分仅展示出用于回归计算的特征图层。SSSD网络中的每层模块的特征图层的大小和个数分别为：block1特征图层中共有64张150×150的图片；block2特征图层中共有128张75×75的图片；block3特征图层中共有512张38×38的图片；block4特征图层中共有512张19×19的图片；fc6特征图层中共有1024张19×19的图片；fc7特征图层中共有1024张19×19的图片；block8特征图层中共有512张10×10的图片；block9特征图层中共有256张5×5的图片；block10特征图层中共有256张3×3的图片；block11特征图层中共有256张1×1的图片。

K-Pool_BN-ReLu结构的依次连接顺序示意图如图6所示。异步卷积降维过程K-Pool包含前后两种异步卷积层，分别是卷积核为kernal3×1s(2,1)和kernal1×3s(1,2)的卷积层；K-Pool之后的BN和ReLu起到加速收敛和缩短训练时间的作用。

(2)构建数据库

应用python语言和谷歌浏览器及插件，在百度图片搜索引擎中爬取5万余张船舶图片；通过人工筛选方式删除画质较差的图片，根据筛选的图片进行船舶类别分类，同时以阿拉伯数字批量命名图片名称；其中，船舶类别分为大类船舶数据集VOC_boat和大类船舶数据集VOC_boat下的细分的七类船舶数据VOC_ship，大类船舶数据集VOC_boat仅标记为一个类别标签“boat”，七类船舶数据VOC_ship分别标记为七个类别标签，即“engineering_ship”、“freighter”、“passenger_ship”、“public_service_vessel”、“sailboat”、“speedboat”、“submarine”；利用GitHub网页资源，下载labelimg软件包，在筛选的图片中打标签制作数据集；利用python调用xml库函数批量处理标签文件，剔除无目标类别的标签文件，最后删除无标签文件对应的图片，获得带有标签的船舶目标的标准数据集中包含22507个船舶目标，其中包括15605个船舶目标的大类船舶数据VOC_boat和6902个船舶目标的七类船舶数据VOC_ship。

(3)网络训练

先对图片进行预处理：对图片进行包括随机地颜色扰动操作和翻转操作，所述的颜色扰动操作包括图片颜色的亮度、对比度、饱和度、色相的调整这四种操作，每种操作的详细操作方法如下：翻转操作方法为：调用TensorFlow图像处理模块image，以50％的概率对图片执行从左向右翻转180度的水平翻转操作；亮度调整方法为：调用TensorFlow图像处理模块image，在[-32/255，32/255]的范围内随机调整图像的亮度；对比度调整方法为：调用TensorFlow图像处理模块image，在[0.5，1.5]的范围内随机调整图像对比度；饱和度调整方法为：调用TensorFlow图像处理模块image，对图片饱和度随机增加0.5；色相调整方法为：调用TensorFlow图像处理模块image，在[0.5，1.5]的范围内随机调整图像色相；采用双线性内插法将预处理后的标准数据集中的图片统一压缩为300×300的图像作为训练样本，使用训练样本对搭建的SSSD网络进行训练，得到训练后的SSSD网络。

(4)网络测试

利用训练后的SSSD网络对待检测的船舶图像提取特征向量，计算、筛选并输出位置和类别两种向量。图7为网络测试的输出结果。如图7所示，“loc”表示位置向量，“conf”表示类别向量。位置向量包含的cx、cy两个维度分别表示目标位置的中心坐标X和Y；w和h两个维度分别表示目标宽和高。类别向量共有P个维度，分别为C₁至C_P。其中，数字P与训练所有船舶的类别个数有关，用大类船舶数据和七类数据训练后，P分别为2和8，即数据集中的类别个数加上非目标背景“1”。

Pascoval VOC数据集是目标检测领域常用的公开数据库，包含VOC2007和VOC2012，共20个目标类别，每张图片都有对应的xml格式的标签文件。仅用于训练的VOC2007trainval和VOC2012trainval的类别和对应目标个数图如图8所示，数目最多的前三种目标分别是“person”，“chair”，“car”，仅“person”共有两万余个。而VOC2007trainval与VOC2012trainval(简称VOC07+12)仅有1457个“boat”目标。VOC07+12包含船舶的图片及目标的大小分布图如图9所示，图9中，纵轴的绝对值为图片和目标的宽度，横轴的绝对值为相应的高度，单位距离均为一个像素。图9中，每个右上角的点和左下角的点分别表示一张图片和一个目标；右上角为图片大小的分布情况，左下角为船舶目标大小的分布情况，整体颜色的深浅表示分布的集中程度。由整体颜色的深浅程度可知，图片的长或宽大约集中在500，呈线状均匀分布，而相应的船舶大小过度集中在“200×200”的区域，虽然符合远视角场景的要求，但目标大小分布单一。由上述数据统计结果可知，VOC07+12中的船舶数目较少，目标大小分布过于集中，缺乏大小多样性分布的目标。若仅用VOC07+12中的船舶做训练集，网络训练易出现过拟合现象，不利于检测不同大小和不同长宽比例的目标。因此，针对水上环境建立船舶目标数目可观、大小多样分布、类别更具体的船舶数据集是提高基于卷积神经网络的船舶目标检测平均精度的必要条件。

为在公共数据库VOC2007test中客观对比同类算法，尽量保证制作数据方法的科学性，本实施例建立了包含22507个船舶目标的数据集，其中包含目标统一标记为“boat”大类船舶的VOC-boat数据集，和细分为七小类船舶的VOC_ship数据集。VOC_boat和VOC_ship均为Pascoval VOC格式的数据。大类船舶数据库VOC_boat共包含帆船、渔船、客轮等15605个目标，但统一标注类别标签“boat”。VOC_boat图片及其目标大小分布图如图10所示，图片大小均匀分布在长或高为500和600的范围，相对图9呈现大小多样化分布的特点，提高大小多样性的同时，增加了长宽比例较大的目标个数。

VOC_ship共细分了7种目标类别，分别是帆船(sailboat)、客船(passenger_ship)、货轮(freighter)、公务船(public_service_vessel)、快艇(speedboat)、工程船(engineering_ship)和漂浮潜艇(submarine)，一共6902个目标。七类船舶数据集VOC_ship在保证大小及比例多样化的同时，融入雨雾、光照、密集遮挡等因素。VOC_ship test为七类船舶检测数据集，同样考虑上述因素。VOC_ship和VOC_ship test的每类船舶数量及具体类别如图11所示，两个数据集均包含七种船舶类别，且快艇数目最多，达到1252个目标。VOC_ship整体图像及目标大小分布情况如图12所示，图片集中分布在“500×500”附近的区域，目标集中分布在长或宽为“0-500”的区域。与图9相比，VOC_ship目标在小区域“300×300”分布更加均匀，同时增加了长宽比例较大的目标数量，符合远距离场景和部分局部目标场景下的检测要求。与图10分布相比，VOC_ship整体目标大小在“600×600”区域分布更加全面，进一步增加长宽比例较大的目标个数，提高了目标大小和长宽比例的多样性。

以下从两个部分进行实验与分析，即在公共数据集上的对比实验与分析和在自建数据集上的检测结果。

实验所用的公开数据集为Pascoval VOC数据库，训练数据集为VOC07 trainval与VOC12trainval，检测数据集为VOC2007test和VOC_shiptest；训练船舶数据集为VOC_boat和VOC_ship，检测船舶数据集为VOC_ship test。实验软件配置为Ubuntu 16.04.4、TensorFlow1.7.0、TensorFlow Layers API、CUDA9.0，硬件配置为NVIDIA GeForce GTX1080Ti、

Xeon(R)CPU E5-2609v4@1.70GHz×16。

实验中所有网络的训练和检测的图像大小为“300×300”，回归特征图的大小分别为“19×19”、“10×10”、“5×5”、“3×3”和“1×1”，在上述六种回归特征图上采用锚箱分别生成建议框。每层特征回归图中建议框尺寸S_k设置参照公式(1)～(4)公式：

其中S_min和S_max表示建议框最大和最小尺寸，分别等于0.2和0.9。S′_k表示每层特征图固定添加的默认框尺寸。m表示需要进行预测回归的特征图的个数，k为具体特征图层。

和

表示根据建议框尺寸设置的宽和高。a_r∈{1，2，3，0.5，0.334}，表示建议框长宽比的控制参数。

所有网络训练批次为30，共训练150000步(除无特殊说明外)，学习率初始设置为0.01，采用分阶段控制方式间接调整目标函数优化器。衰减步长边界设置为：“3000、80000、110000、130000、140000”，学习率衰减设置为：“1、0.5、0.1、0.05、0.01、0.005”。

为增加所用训练样本的价值，在图像预处理阶段对样本进行随机地裁剪，颜色扰动、翻转等数据增广方式。颜色扰动过程包括图片颜色的“亮度、对比度、饱和度、色相”四种调整操作，并且随机改变这4种图像颜色操作的前后顺序，最后统一压缩为300×300的图像进行网络训练。

未迁移参数的情况下，采用VOC07+12训练SSD和SSSD的损失变化曲线如图13中的点号曲线和星号曲线所示。仅迁移fc6和fc7层参数情况下，采用VOC_boat训练SSSD的损失曲线如图13中的三角号曲线SSSD_1，采用VOC07+12数据训练的SSD和SSSD损失变化曲线如图13中的上面两条曲线所示。SSD损失曲线在10000步左右收敛在9附近，损失震荡宽度约为1。SSSD在8000步左右收敛于8，损失震荡宽度约为0.5。SSSD_1在10000步左右收敛在7附近，损失震荡宽度约为0.4。图13展示的损失变化曲线说明改进后的SSSD可通过迁移参数的方法更迅速更稳定地达到收敛状态。

一、在公共数据集上的对比实验与分析

SSSD的底层结构是保证实时目标检测的结构基础。为进一步减少计算量，SSSD底层结构采用最大池化和异步卷积交替连接的降维方式。实验过程中共搭建三种船舶检测网络，第一种是在图5中①至④位置处均采用K-Pool的4KP网络结构，第二种是在“①、②”位置处采用K-Pool和“③、④”处采用Pool的2P2KP网络结构，第三种是在“③、④”处采用Pool和“①、②”处采用K-Pool的2KP2P网络结构。网络结构命名中的“P”表示最大池化，“KP”表示K-Pool。

图14为改进网络的检测结果。在VOC2007test中未迁移VGG底层网络参数训练后的检测结果如图14所示，SSD处理速度最高，达到46fps，但平均精度均值最低，仅有74.3％。与SSD相比，底层网络均采用K-Pool的4KP的平均精度均值提高到77.3％。4KP平均精度均值的提高表明异步卷积降维保证了更多的图像信息传递到高层网络结构，提高了非线性表达能力。采用Pool与K-Pool交替连接的降维方式后，2P2KP和2KP2P相对SSD提高了约5％的平均精度，处理速度相对4KP提高约3fps。对比2P2KP与2KP2P的检测结果可知，K-Pool与Pool交替搭配的位置对检测精度与速度影响较小。2P2KP与2KP2P网络均能满足实时检测要求，本实施例选择精度更高的2P2KP为SSSD网络结构。

两阶段目标检测算法对VOC2007test中刚体目标类别的检测结果对比如表1所示，带下划线的数值表示所在类别中的最高平均精度；R-FCN的刚体目标检测结果均达到最高平均精度，但处理速度仅有5.8fps，难以满足实时船舶检测要求。单阶段目标检测算法对VOC2007test中刚体目标类别的检测结果对比如表2所示，带下划线的数值表示所在类别中的最高平均精度；在单阶段目标检测算法中，SSSD的刚体目标检测平均精度均值达到最高值78.0％，共有包括船舶等6个刚体目标的检测平均精度达到最高，同时满足实时检测要求。

二、在自建数据集上的检测结果

在VOC_boat数据库和VOC_ship数据库中训练SSSD网络均进行10000步，每训练3000步分别在VOC2007test和VOC_shiptest中检测平均精度均值。在大类船舶数据训练过程中，采用迁移VOC07+12训练后的SSSD参数的训练方法。在七类船舶数据训练过程中，采用迁移VOC-boat训练后的SSSD参数的训练方法。图15为迁移参数情况后船舶检测的平均精度均值。如图15所示，“single”和“7classes”曲线表示在未迁移参数情况下，在VOC_boat和VOC_ship中训练SSSD时，分别在VOC2007test和VOC_ship test中的平均精度均值变化。“single_T”表示迁移VOC07+12训练的SSSD参数后，在VOC2007test中的平均精度均值变化曲线，“7classes_T”表示迁移VOC-boat训练的SSSD参数后，在VOC_ship test中的平均精度均值变化曲线。在single曲线中，SSSD的平均精度均值以约35％为起点，于第84001步达到最高值约83％。在single_T曲线中，SSSD的平均精度均值以约77％为起点，于第42001步达到最高值84.9％，此后平均精度均值出现波动式缓慢下降，出现过拟合现象。在7classes曲线中，SSSD的平均精度均值以约30％为起点，于第81001步达到最高值约86％。在7classes_T曲线中，SSSD的平均精度均值以约83.3％为起点，于第42001步达到最高值89.12％，此后同样出现缓慢下降趋势。图15展示的四条平均精度均值曲线说明建立水上船舶数据集和采用迁移参数方法的必要性。

基于深度神经网络的各种目标检测算法的大类船舶检测结果如图16所示，其中“Fast”和“Faster”表示Fast RCNN和Faster RCNN；SSSD′表示仅经过VOC07+12训练后的SSSD；SSSD″表示迁移VOC07+12训练后的SSSD′参数后，在VOC_boat数据中训练后的SSSD；SSD*表示王新立等人提出的算法。FastRCNN、Faster RCNN和R-FCN采用的显卡为K40型，SSD和DSSD321采用的显卡为Titan X，SSSD采用的显卡是1080Ti。SSD*在自建数据集中训练和检测；SSSD″在VOC_boat中训练，在VOC2007test中进行大类船舶检测；其他算法均在公开数据集VOC07+12中进行训练，并在VOC2007test中进行船舶检测。在图16的两阶段目标检测网络中，R-FCN船舶检测精度达到最高值，但处理速度仅有5.8fps，难以满足实时处理要求。SSD的船舶检测平均精度与DSSD321基本相同，但检测速度远高于DSSD321。SSSD′在保证实时检测船舶的同时，相比SSD提高了0.7％，证明底层网络结构采用最大池化和异步卷积分解的降维方式能够有效提高平均精度均值。迁移VOC07+12训练后的SSSD′参数，并经过VOC_boat数据集训练后，SSSD″在VOC2007test中的“boat”平均精度达到84.9％，相对SSSD′的船舶检测平均精度提高了14.7％，证明了自建数据集方法的科学性。SSD*仅在自建数据集中的平均精度均值达到69.5％，同时难以保证实时检测。SSSD不但保证了43fps的实时处理速度，而且船舶检测平均精度达到约85％，为图16中的最高值。

经过VOC_ship数据库的训练后，SSSD在VOC_ship test中的具体类别检测结果如图17所示，实心柱形图表示未迁移参数情况下，SSSD经过VOC_ship训练后于VOC_ship test中的各类船舶检测平均精度；空心梯状柱形图表示迁移VOC_boat训练后的SSSD参数后，SSSD检测各类船舶的平均精度。迁移参数后，仅公务船的检测平均精度下降0.7％，货运船、公务船和水面潜艇均超过90％，其他船舶检测平均精度均提高了约3％，证明迁移VOC07+12及VOC_boat训练后的SSSD参数能够有效提升船舶检测的平均精度。改进底层网络并在自建数据集上采用迁移参数方法训练后，SSSD在类别数量和检测平均精度两个方面均超过同类船舶检测算法

SSSD的部分检测结果如图18所示，图18(a)至图18(l)共展示了7种船舶类别的检测结果，“ship”表示成功识别但无法具体分类的船舶，通常为具体类别特征不明显的船舶。在图18(a)中正确检测出与陆地建筑物类似的客轮；在图18(h)中正确检测出了所有帆船，在密集遮挡场景下未出现漏检现象；在图18(j)中正确检测出虚拟环境中多个大小不同的船舶画像，证明SSSD具有较好的鲁棒性和泛化能力。

综上，为向SSD高层网络传递更多的信息特征，本发明提出基于改进VGG网络的单阶段船舶检测算法SSSD及装置，其底层网络结构采用最大池化和异步卷积降维交替连接的降维方式。将公开数据库VOC2007和VOC2012中的图片缩小至300×300进行训练，SSSD在VOC2007test中的平均精度均值相对SSD提高约5％，处理速度下降约3fps。建立了大类船舶数据集VOC_boat和7类船舶数据集VOC_ship，详细分析并对比了Passcoval VOC数据集及目标大小分布情况，对比结果显示两种自建数据集的图片及目标大小的分布相对PasscovalVOC更加多样化。在VOC_boat上训练后，SSSD在公开数据集VOC_2007test中的船舶平均精度达到84.9％，远高于同类神经网络检测算法，并且处理速度满足检测各类航速船舶的要求。在VOC_ship上训练后，SSSD在VOC_shiptest中的平均精度均值超过86％，采用迁移参数的方式后，平均精度均值超过89％，其中货运船、公务船和快艇的检测平均精度分别达到97.5％、95.1％和95.4％，证明采用迁移参数方法训练SSSD有望在目标检测领域取得应用。

Claims

1.基于改进VGG网络的单阶段船舶检测算法，其特征在于，包括以下步骤：

(1)搭建SSSD网络

所述的底层网络用于对输入的图像进行两层异步卷积分解；

(2)构建数据库

(3)网络训练

(4)网络测试

2.根据权利要求1所述的基于改进VGG网络的单阶段船舶检测算法，其特征在于，所述的底层网络包括依次连接的通道一、通道二、通道三和通道四，所述的通道一包括卷积层一和池化层一，所述的通道二包括卷积层二和串联结构一，所述的串联结构一包括异步卷积核一、BN批量规范单元一和ReLu修正线性单元一，所述的通道三包括卷积层三和池化层二，所述的通道四包括卷积层四和串联结构二，所述的串联结构二包括异步卷积核二、BN批量规范单元二和ReLu修正线性单元二，所述的底层网络的输入端、所述的卷积层一、池化层一、卷积层二、异步卷积核一、BN批量规范单元一、ReLu修正线性单元一、卷积层三、池化层二、卷积层四、异步卷积核二、BN批量规范单元二、ReLu修正线性单元二、所述的底层网络的输出端和所述的高层网络的输入端沿通道方向依次连接；

3.根据权利要求1所述的基于改进VGG网络的单阶段船舶检测算法，其特征在于，步骤(2)中，获得的标准数据集中包含22507个船舶目标，其中包括15605个船舶目标的大类船舶数据VOC_boat和6902个船舶目标的七类船舶数据VOC_ship。

4.根据权利要求1所述的基于改进VGG网络的单阶段船舶检测算法，其特征在于，步骤(3)中，对标准数据集中的图片压缩前，先对图片进行预处理：对图片进行包括随机地颜色扰动操作和翻转操作，所述的颜色扰动操作包括图片颜色的亮度、对比度、饱和度、色相的调整这四种操作。

5.根据权利要求4所述的基于改进VGG网络的单阶段船舶检测算法，其特征在于，所述的翻转操作方法为：调用TensorFlow图像处理模块image，以50％的概率对图片执行从左向右翻转180度的水平翻转操作；所述的亮度调整方法为：调用TensorFlow图像处理模块image，在[-32/255，32/255]的范围内随机调整图像的亮度；所述的对比度调整方法为：调用TensorFlow图像处理模块image，在[0.5，1.5]的范围内随机调整图像对比度；所述的饱和度调整方法为：调用TensorFlow图像处理模块image，对图片饱和度随机增加0.5；所述的色相调整方法为：调用TensorFlow图像处理模块image，在[0.5，1.5]的范围内随机调整图像色相。

6.基于改进VGG网络的单阶段船舶检测装置，其特征在于，包括：

7.根据权利要求6所述的基于改进VGG网络的单阶段船舶检测装置，其特征在于，所述的底层网络模块包括依次连接的通道一、通道二、通道三和通道四，所述的通道一包括卷积层一和池化层一，所述的通道二包括卷积层二和串联结构一，所述的串联结构一包括异步卷积核一、BN批量规范单元一和ReLu修正线性单元一，所述的通道三包括卷积层三和池化层二，所述的通道四包括卷积层四和串联结构二，所述的串联结构二包括异步卷积核二、BN批量规范单元二和ReLu修正线性单元二，所述的底层网络模块的输入端、所述的卷积层一、池化层一、卷积层二、异步卷积核一、BN批量规范单元一、ReLu修正线性单元一、卷积层三、池化层二、卷积层四、异步卷积核二、BN批量规范单元二、ReLu修正线性单元二、所述的底层网络模块的输出端和所述的高层网络模块的输入端沿通道方向依次连接；