CN113610178A

CN113610178A - 一种基于视频监控图像的内河船舶目标检测方法和装置

Info

Publication number: CN113610178A
Application number: CN202110942756.8A
Authority: CN
Inventors: 任永梅; 贾雅琼; 俞斌; 李欣; 杜鸣笛; 吴乐; 盛昌飞
Original assignee: Hunan Institute of Technology
Current assignee: Hunan Institute of Technology
Priority date: 2021-08-17
Filing date: 2021-08-17
Publication date: 2021-11-05

Abstract

一种基于视频监控图像的内河船舶目标检测方法和装置，涉及计算机视觉检测技术领域，本发明采用语义聚合模块将语义信息丰富的深层特征与位置信息丰富的浅层特征进行聚合，提高了模型对船舶目标的分类和定位能力，在此基础上，通过增加一个较大尺度的目标检测层，保证了模型对渔船等小目标的检测精度，通过使用DIoU设计损失函数，克服了IoU在预测边框和真实边框之间没有重叠时不能回传梯度的缺点，进一步提升了模型对船舶目标的检测性能，其运算速度能够满足实时性检测的要求，在海事安全和海事管理等领域具有广阔的应用前景。

Description

一种基于视频监控图像的内河船舶目标检测方法和装置

技术领域

本发明涉及计算机视觉检测技术领域，特别涉及一种基于视频监控图像的内河船舶目标检测方法和装置。

背景技术

当前，船舶目标检测技术已经成为计算机视觉领域的研究热点。视频监控图像可以从连续的视频序列中获得，并且包含丰富的细节纹理信息。与以单一海洋和天空为背景的图像不同，内河视频监控船舶图像容易受成像尺寸变化、成像视角和距离的影响，并且其背景往往是建筑物、树木以及草丛等复杂背景。因此，内河视频监控图像中的船舶目标检测的难度要大得多。

目前的船舶目标检测方法主要有两大类，一类是传统的船舶目标检测方法，另一类是基于深度学习的船舶目标检测方法。传统的船舶目标检测方法包括候选区域提取和目标识别两个阶段，目标识别阶段主要结合人工特征提取和支持向量机等机器学习方法来实现。传统的船舶目标检测方法的泛化能力差，在复杂背景情况下，检测精度不高。目前大部分学者都致力于研究基于深度学习的船舶目标检测方法。譬如，Faster R-CNN方法的检测精度较高，但检测速度没有达到实时性的需求，并且在候选区域选取上和SSD方法一样依赖人工设计的锚框，而实际场景中的船舶目标大小不一，在训练过程中会出现边框回归收敛慢的问题。SSD方法在多个尺度的特征图上找锚框，使用不同位置的特征进行回归，船舶目标检测的精度优于YOLOv1方法，但其忽略了较低层次特征图的有效信息，所以对小目标的检测效果仍然比较差。YOLOv2方法在卷积层后增加了批量归一化层,以加快网络的训练速度，并使用了多尺度训练来提升目标检测的精度。YOLOv3方法使用Darknet-53网络进行特征提取，并利用多尺度特征进行预测，能够提升对小目标检测的精度，但检测速度比YOLOv2方法的检测速度慢。YOLOv2方法也有不足之处，一方面是仅考虑了将浅层的特征抽取后融合到深层特征，却忽略了将对检测小目标船舶有利的深层特征融合到浅层特征中，另一方面，在检测网络部分，YOLOv2方法只用13×13像素大小的(输入视频监控图像大小为416×416像素时)特征图进行预测，感受野大小受限，在处理渔船等小目标时会出现漏检或误检的现象，导致对渔船等小目标检测的平均精确度低。

发明内容

本发明目的是提供一种基于视频监控图像的内河船舶目标检测方法，以解决现有检测方法因检测精度或检测速度不够而难以满足实时性检测要求的问题。

为了实现上述目的，本发明采用如下技术方案：一种基于视频监控图像的内河船舶目标检测方法，包括以下步骤：

S1、从现有的视频监控图像数据集中获取船舶图像及相应的xml标注文件作为训练集，从待检测视频监控图像数据集中获取船舶图像及相应的xml标注文件作为测试集；

S2、使用K-means聚类方法对训练集的真实标注边框进行聚类计算得到最优的初始锚框的宽高和数量；

S3、将训练集的视频监控图像进行预处理和数据增强后输入到Darknet-19网络中进行特征提取，采用语义聚合模块将包含语义信息的深层特征与包含位置信息的浅层特征进行融合，同时使用特征融合模块将浅层特征经过直通层融合到深层特征，并增加一个多尺度目标检测层；

S4、使用DIoU设计损失函数，采用多尺度输入训练策略训练网络模型，通过不断的迭代训练更新权重参数，直到损失函数收敛，保存最优训练模型；

S5、将预处理后的测试集船舶图像输入到Darknet-19网络中进行特征提取，利用所述最优训练模型对待检测船舶图像进行检测，得到船舶目标的预测边框，滤除掉低于阈值的预测边框，使用非极大值抑制算法对预测结果进行后处理，得到目标的类别和边框位置参数。

其中，步骤S1中所获取的船舶图像大小为1920×1080像素，每张船舶图像的xml标注文件中包含对应图片的名称、路径、原始图像的分辨率、类别信息和所有边框的坐标信息。

在步骤S2中，利用距离度量指标公式：

d(box,centroid)＝1-IoU(box,centroid)；

其中，box为船舶目标的真实边框，centroid为聚类的中心锚框，IoU(box,centroid)为船舶目标的真实边框与聚类的中心锚框的交并比，d为船舶目标边框与聚类的中心锚框的距离；

并结合下式计算所有的船舶目标的真实边框与聚类的中心锚框的IoU值的最大平均值，得到平均IoU：

其中，q表示船舶目标的总数，k表示聚类的个数，q_k表示第k个聚类中心中的船舶目标的个数；

通过多次聚类试验及综合考虑检测模型的召回率和复杂度来确定k值，进而得到最优的初始锚框的宽高和数量。

进一步地，在步骤S3和步骤S5中还包括对视频监控图像进行预处理的步骤，对视频监控图像进行预处理时，将训练集图像每隔10个epoch缩放到固定尺寸N×N像素，N∈[320,608]，步长为32，测试集图像下采样为480×480像素。

此外，在步骤S3中还包括将预处理后的视频监控图像进行数据增强的步骤，训练集的视频监控图像经预处理后再进行随机翻转、色调变化、饱和度和曝光变化处理，以实现数据增强。

其中，所述Darknet-19网络由19个卷积层和5个最大池化层组成，卷积核大小为3×3和1×1两种，在3×3大小的卷积核之间使用1×1大小的卷积核来压缩特征并加深网络深度，在批量归一化之后使用leaky ReLU激活函数以避免深层网络出现梯度消失的现象。

在步骤S3中，语义聚合模块是先对深层特征进行1×1卷积和2倍上采样后再与浅层特征进行聚合；特征融合模块是将浅层特征先经过1×1卷积进行降维，并使用reorg层进行变形，再将其和深层特征进行融合；多尺度目标检测层是在13×13大小的目标检测层的基础上增加了由语义聚合模块和特征融合模块组成的26×26大小的目标检测层。

在步骤S4中，使用DIoU(Distance Intersection over Union)设计损失函数，具体为：

其中，L_confidence表示背景的置信度误差，L_coord表示锚框和预测边框的坐标误差，L_groundtruth表示与每个真实边框匹配的预测边框的坐标误差、置信度误差以及分类误差的总和；W为特征图的宽，H为特征图的高，A为每个网格对应的锚框的数目，i,j,k分别表示当前船舶目标中心所在的行、列以及当前船舶目标所属的类别；

表示当前网格中没有船舶目标，λ_noobj表示没有船舶目标的权重系数，l′＝1_{MaxDIoU＜Thresh}表示预测边框与真实边框的最大DIoU小于设定的阈值时，预测边框标记为背景；λ_prior表示锚框的权重系数，

表示第k类的锚框坐标，

表示第k类的预测边框的坐标，r表示锚框和预测边框的位置，l＝1_t＜12800表示计算前12800个batches的锚框和预测边框的坐标误差，以促使在网络训练前期，预测边框可以快速学习到锚框的形状；λ_coord为坐标误差的权重系数，truth^r表示真实边框的坐标，

表示第k类的预测边框的坐标，λ_obj表示有船舶目标的权重系数，λ_class表示类别的权重系数，c表示当前的船舶目标所属类别，C_T表示总类别数，truth^c表示船舶目标的真实类别，

表示预测边框的船舶目标所属类别，

表示真实边框与预测边框的DIoU。

在步骤S4中，采用多尺度输入训练策略训练网络模型的过程中，每隔10个batches之后，从{320,352,384,416,448,480,512,544,576,608}中随机选择输入视频监控图像的大小，与之对应的检测输出特征图的大小为{10,11,12,13,14,15,16,17,18,19}；采用随机梯度下降优化算法求解损失函数的最小值，得到最优训练模型。

最后，本发明还涉及一种基于视频监控图像的内河船舶目标检测装置，其包括处理器、显卡以及存储器，所述存储器上存储有计算机程序，所述计算机程序被所述处理器和显卡执行时，实现如上面所述的内河船舶目标检测方法。

与现有技术相比，本发明采用语义聚合模块将语义信息丰富的深层特征与位置信息丰富的浅层特征进行聚合，能够提高模型对船舶目标的分类和定位能力。在此基础上，结合增加的多尺度目标检测层并使用DIoU来设计损失函数，既保证了模型对渔船等小目标的检测精度，又克服了IoU在预测边框和真实边框之间没有重叠时不能回传梯度的缺点，并进一步提升了对船舶目标检测的平均精确度均值，从而使得本发明兼具较高的检测速度和检测精度，能够满足实时性检测的要求。

附图说明

图1为实施例1中基于视频监控图像的内河船舶目标检测方法的流程图；

图2为实施例1中网络模型的具体参数图；

图3为多尺度目标检测层的结构图；

图4为现有YOLOv2方法和实施例所涉方法在部分样本上的可视化检测结果；其中，图4(a)、图4(c)、图4(e)、图4(g)为现有YOLOv2方法的检测结果，图4(b)、图4(d)、图4(f)、图4(h)为实施例所涉方法的检测结果。

具体实施方式

为了便于本领域技术人员更好地理解本发明相对于现有技术的改进之处，下面结合附图和实施例对本发明作进一步的说明。

实施例1

本实施例1涉及的是基于视频监控图像的内河船舶目标检测方法，以下简称为“本方法”，其实施流程如图1所示。

1、从现有的视频监控图像数据集中获取船舶图像及xml标注文件，将其划分为训练集和测试集。需要说明的是，在将本方法进行实际应用时，测试集应当要从待检测视频监控图像数据集中进行获取，由于本实施例仅仅是用于对本方法进行说明和验证，可以将现有的视频监控图像数据集中获取的船舶图像及xml标注文件作为测试集。

从视频监控图像数据集中随机选取视频监控图像，并将选取的视频图像按照4:1的比例划分为训练集和测试集，其中，训练集包括5600张大小为1920×1080像素的视频监控图像以及与视频监控图像对应的5600个xml文件，测试集包括1400张视频监控图像以及与之对应的1400个xml文件。上述每张视频监控图像的xml文件中均包含对应图片的名称、路径、原始图像的分辨率、类别信息和所有边框的坐标信息。上述获取的数据集包含6种类别，分别为：bulk cargo carrier,container ship,fishing boat,general cargo ship,ore carrier和passenger ship。

2、使用K-means聚类方法对训练集的真实标注边框进行聚类计算得到最优的初始锚框的宽高和数量。

使用K-means聚类方法对训练集的真实标注边框进行聚类计算时，用到的距离度量指标的公式为：

d(box,centroid)＝1-IoU(box,centroid)；

其中，box为船舶目标的真实边框，centroid为聚类的中心锚框，IoU(box,centroid)为船舶目标的真实边框与聚类的中心锚框的交并比(Intersection overUnion,IoU)，d为船舶目标边框与聚类的中心锚框的距离。使用该距离度量指标能够实现通过预设锚框得到高的IoU值，并且IoU值和预设锚框的尺寸无关的目标。计算所有的船舶目标的真实边框与聚类的中心锚框的IoU值的最大平均值得到平均IoU，其目标函数如下式所示：

其中，q表示船舶目标的总数，k表示聚类的个数，q_k表示第k个聚类中心中的船舶目标的个数。经过多次聚类试验，聚类数k取不同值时得到表1所示的平均IoU值，在k＜5时，平均IoU的值增大的比较快，在k＞5时，平均IoU的值变得相对平稳。综合考虑检测模型的召回率和复杂度，取k＝5时的初始锚框，不仅可以加快训练过程中损失函数的收敛，还可以减小真实边框与预测边框之间的误差。k＝5时，初始锚框分别为：(0.982，0.457)，(2.085，0.831)，(3.683，1.396)，(6.371，1.998)，(8.849，3.298)，括号中的第一项表示锚框的宽，第二项表示锚框的高。

表1聚类数k取不同值时的平均IoU

3、将训练集的视频监控图像进行预处理和数据增强后输入到Darknet-19网络中进行特征提取，采用语义聚合模块将语义信息丰富的深层特征与位置信息丰富的浅层特征进行融合，同时使用特征融合模块将浅层特征经过直通层融合到深层特征，并增加多尺度目标检测层。具体方式为：

将训练集图像每隔10个epoch预处理为N×N像素，其中，N∈[320,608]，步长为32。再将预处理后的视频监控图像通过随机翻转、色调变化、饱和度和曝光变化等方法进行数据增强，随机翻转的概率为1/2，色调的变化范围为-0.1～0.1，饱和度和曝光变化大小为1～1.5倍。

Darknet-19网络由19个卷积层和5个最大池化层组成，卷积核大小为3×3和1×1两种，在3×3大小的卷积核之间使用1×1大小的卷积核来压缩特征，加深网络深度，使得在每个最大池化层后卷积滤波器数变为原来的2倍，并在批量归一化之后使用了leaky ReLU激活函数以避免深层网络出现梯度消失的现象。leaky ReLU函数的表达式如下：

其中x表示输入值，i表示不同的通道，a_i是一个固定值，取值范围为(1，+∞)，本方法中，a_i取10。

图2示出了本方法中所采用的YOLOv2网络模型参数，YOLOv2方法中先去掉Darknet-19网络的最后一个卷积层，增加3层卷积层，其中，卷积核大小为3×3，卷积核个数为1024；在增加的第2层卷积层(序号为24)后是route层，该层将第16层输出的大小为26×26×512的特征图直接连接到第26层的前面。第26层是卷积核个数为64，卷积核大小为1×1的卷积层，第27层是reorg层，该层的作用是把第26层输出的26×26×64的特征图变形为13×13×256的特征图，以利用模型的细粒度特征。第28层是route层，该层将第24层和第27层的输出特征图进行拼接，得到13×13×1280的特征图，最后使用卷积核个数为1024，卷积核大小为3×3的卷积层进行跨通道的信息融合，得到13×13×1024的特征图。第30层是卷积核个数为55，卷积核大小为1×1的卷积层。这里的55可以表示为5×(6+5)，括号外面的5为每个像素点格子预测的锚框数量，括号中的6为视频监控图像数据集中的船舶类别数，括号中的5表示每个边框的4个坐标值(中心点坐标、高和宽)和置信度分数。

语义聚合模块是先对第24层的深层特征(尺寸为：13×13×1024)进行1×1卷积和2倍上采样后再与第16层的浅层特征(尺寸为：26×26×512)进行聚合。在本方法中使用了两次特征融合模块，特征融合模块1是将第16层的浅层特征先经过卷积核个数为64，卷积核大小1×1的卷积进行降维，并使用reorg层进行变形，得到13×13×256的特征图，再将该特征图和第24层的深层特征(尺寸为：13×13×1024)进行融合。特征融合模块2是将第10层的浅层特征使用reorg层进行变形，得到26×26×1024的特征图，再将该特征图和第16层的浅层特征(尺寸为：26×26×512)进行融合。

本方法中的多尺度目标检测层的结构图如图3所示。13×13大小的目标检测层的构成与所述特征融合模块1的过程一致。26×26大小的目标检测层由所述语义聚合模块和特征融合模块2组成。图3中的Convs表示先采用卷积核个数为1024，卷积核大小为3×3的卷积层进行跨通道的信息融合，再采用1×1卷积对特征图进行降维。

4、使用DIoU(Distance Intersection over Union)设计损失函数，采用多尺度输入训练策略训练网络模型，通过不断的迭代训练更新权重参数，直到损失函数收敛，保存最优的训练模型。

首先，通过DIoU方法直接最小化预测边框和真实边框中心点之间的归一化距离，用公式表示为：

其中，b_p为预测边框B_p的中心点，b_gt为真实边框B_gt的中心点，ρ(·)为欧式距离，c_d表示同时包含预测框和真实框的最小闭包区域的对角线距离。DIoU更加符合目标边框回归的机制。

使用DIoU(Distance Intersection over Union)设计的损失函数可以用公式表示为：

其中，L_confidence表示背景的置信度误差，L_coord表示锚框和预测边框的坐标误差，L_groundtruth表示与每个真实边框匹配的预测边框的坐标误差、置信度误差以及分类误差的总和。W为特征图的宽，H为特征图的高，A为每个网格对应的锚框的数目，i,j,k分别表示当前船舶目标中心所在的行、列以及当前船舶目标所属的类别；

表示当前网格中没有船舶目标，λ_noobj表示没有船舶目标的权重系数，l′＝1_{MaxDIoU＜Thresh}表示预测边框与真实边框的最大DIoU小于设定的阈值时，预测边框标记为背景。λ_prior表示锚框的权重系数，

表示第k类的锚框坐标，

表示第k类的预测边框的坐标，r表示锚框和预测边框的位置，l＝1_t＜12800表示计算前12800个batches的锚框和预测边框的坐标误差，以促使在网络训练前期，预测边框可以快速学习到锚框的形状。λ_coord为坐标误差的权重系数，truth^r表示真实边框的坐标，

表示预测边框的船舶目标所属类别。

表示真实边框与预测边框的DIoU。

采用多尺度输入训练策略训练网络模型时，在训练过程中每隔10个batches之后，从{320,352,384,416,448,480,512,544,576,608}中随机选择输入视频监控图像的大小，与之对应的检测输出特征图的大小为{10,11,12,13,14,15,16,17,18,19}。对于训练得到的同一个模型，可以对不同尺寸的测试集视频监控图像进行测试。

前述通过不断的迭代训练更新权重参数，直到损失函数收敛，保存最优的训练模型的具体方式为：采用随机梯度下降优化算法优化损失函数，直到损失函数收敛，得到优化后的最优训练模型。本实施例的参数设置为：输入的训练集视频监控图像的尺寸为416×416像素，批处理样本数量为64，最大迭代次数为17500次，动量为0.9，权重衰减系数为0.0005，初始学习率为0.0001，学习率衰减步长边界分别为：“400,700,900,1000,15000”，与步长边界对应的学习率分别为：“0.0001,0.0005,0.0005,0.001,0.0001”。λ_prior为1，λ_coord为1，λ_obj为5，λ_noobj为1，

为0，Thresh为0.6。置信度阈值为0.1，DIoU阈值为0.5，N_t设为0.45。

5、将预处理后的测试集船舶图像输入到Darknet-19网络中进行特征提取，利用所述最优训练模型对待检测船舶图像进行检测，得到船舶目标的预测边框，滤除掉低于阈值的预测边框，使用非极大值抑制算法对预测结果进行后处理，得到目标的类别和边框位置参数。

非极大值抑制过程为：将所有预测边框按照置信度分数进行排序，选中分数最高的预测边框，接着遍历其余的预测边框，如果某个预测边框和当前置信度分数最高的预测边框的IoU大于设定的阈值N_t，就将这个预测边框删除，再从未处理的其余预测边框中继续选一个分数最高的预测边框，重复上述过程，最终保留下来的预测边框就是最优的预测边框。非极大值抑制的衰减函数的公式如下：

其中，b_i为预测边框，

为当前置信度分数最高的预测边框，s_i为预测边框的目标分数，N_t为IoU阈值。

本实施例用测试集的1400张视频监控图像测试得到的平均精确度均值的结果是89.30％，每秒帧率(FPS)是28，对bulk cargo carrier的平均精确度为0.8920,对container ship的平均精确度为0.9091,对fishing boat的平均精确度为0.8694,对general cargo ship的平均精确度为0.8991,对ore carrier的平均精确度为0.9024，对passenger ship的平均精确度为0.8863。而传统的YOLOv2方法的平均精确度均值为85.15％，对bulk cargo carrier的平均精确度为0.8664,对container ship的平均精确度为0.9085,对fishing boat的平均精确度为0.7681,对general cargo ship的平均精确度为0.8681,对ore carrier的平均精确度为0.8979，对passenger ship的平均精确度为0.7998。相比之下，本发明的方法不仅平均精确度均值高，对fishing boat的平均精确度提升了13.19％，是6种船型中平均精确度提高的最多的船型。

现有YOLOv2方法和本发明方法在部分样本上的可视化检测结果如图4所示，其中图4(a)、图4(c)、图4(e)、图4(g)为现有YOLOv2方法的检测结果，图4(b)、图4(d)、图4(f)、图4(h)为本发明方法的检测结果。从图4可以看出，本方法能够避免将相似背景检测为船舶目标，且在船舶目标之间有遮挡和渔船等小目标情况下，能够得到更好的检测结果，定位也更准确。

综上，本方法通过采用语义聚合模块将语义信息丰富的深层特征与位置信息丰富的浅层特征进行聚合，提高了模型对船舶目标的分类和定位能力。在此基础上，通过增加一个较大尺度的目标检测层，保证了模型对渔船等小目标的检测精度，通过使用DIoU设计损失函数，克服了IoU在预测边框和真实边框之间没有重叠时不能回传梯度的缺点，进一步提升了模型对船舶目标的检测性能，其运算速度能够满足实时性检测的要求，可以应用在海事安全和海事管理等领域。

实施例2

本实施例2涉及基于视频监控图像的内河船舶目标检测装置，其包括处理器、显卡以及存储器，所述存储器上存储有计算机程序，所述计算机程序被所述处理器和显卡执行时，实现实施例1提供的基于视频监控图像的内河船舶目标检测方法。

具体的，处理器可采用Inter(R)Core(TM)i9-7980XE@2.6GHz处理器，32GB内存，显卡为NVIDIA TITAN Xp Pascal，使用python3.7在Pytorch框架上进行软件编程。

上述基于视频监控图像的内河船舶目标检测装置，用于实现实施例1中基于视频监控图像的内河船舶目标检测方法，因此，基于视频监控图像的内河船舶目标检测方法所具备的技术效果，该基于视频监控图像的内河船舶目标检测装置同样具备，在此不再赘述。

上述实施例为本发明较佳的实现方案，除此之外，本发明还可以其它方式实现，在不脱离本技术方案构思的前提下任何显而易见的替换均在本发明的保护范围之内。

为了让本领域普通技术人员更方便地理解本发明相对于现有技术的改进之处，本发明的一些附图和描述已经被简化，并且为了清楚起见，本申请文件还省略了一些其它要素，本领域普通技术人员应该意识到这些省略的要素也可构成本发明的内容。

Claims

1.一种基于视频监控图像的内河船舶目标检测方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的内河船舶目标检测方法，其特征在于：步骤S1中所获取的船舶图像大小为1920×1080像素，每张船舶图像的xml标注文件中包含对应图片的名称、路径、原始图像的分辨率、类别信息和所有边框的坐标信息。

3.根据权利要求1所述的内河船舶目标检测方法，其特征在于，步骤S2中，利用距离度量指标公式：

d(box,centroid)＝1-IoU(box,centroid)；

4.根据权利要求2所述的内河船舶目标检测方法，其特征在于：步骤S3和步骤S5中还包括对视频监控图像进行预处理的步骤，对视频监控图像进行预处理时，将训练集图像每隔10个epoch缩放到固定尺寸N×N像素，N∈[320,608]，步长为32，测试集图像下采样为480×480像素。

5.根据权利要求1所述的内河船舶目标检测方法，其特征在于：步骤S3中还包括将预处理后的视频监控图像进行数据增强的步骤，训练集的视频监控图像经预处理后再进行随机翻转、色调变化、饱和度和曝光变化处理，以实现数据增强。

6.根据权利要求4所述的内河船舶目标检测方法，其特征在于：所述Darknet-19网络由19个卷积层和5个最大池化层组成，卷积核大小为3×3和1×1两种，在3×3大小的卷积核之间使用1×1大小的卷积核来压缩特征并加深网络深度，在批量归一化之后使用leaky ReLU激活函数以避免深层网络出现梯度消失的现象。

7.根据权利要求1中所述的内河船舶目标检测方法，其特征在于：在步骤S3中，语义聚合模块是先对深层特征进行1×1卷积和2倍上采样后再与浅层特征进行聚合；特征融合模块是将浅层特征先经过1×1卷积进行降维，并使用reorg层进行变形，再将其和深层特征进行融合；多尺度目标检测层是在13×13大小的目标检测层的基础上增加了由语义聚合模块和特征融合模块组成的26×26大小的目标检测层。

8.根据权利要求1所述的内河船舶目标检测方法，其特征在于：步骤S4中，使用DIoU设计损失函数，具体为：

表示第k类的锚框坐标，

表示预测边框的船舶目标所属类别，

表示真实边框与预测边框的DIoU。

9.根据权利要求1所述的内河船舶目标检测方法，其特征在于：步骤S4中，采用多尺度输入训练策略训练网络模型的过程中，每隔10个batches之后，从{320,352,384,416,448,480,512,544,576,608}中随机选择输入视频监控图像的大小，与之对应的检测输出特征图的大小为{10,11,12,13,14,15,16,17,18,19}；采用随机梯度下降优化算法求解损失函数的最小值，得到最优训练模型。

10.一种基于视频监控图像的内河船舶目标检测装置，其特征在于：包括处理器、显卡以及存储器，所述存储器上存储有计算机程序，所述计算机程序被所述处理器和显卡执行时，实现如权利要求1-9中任意一项所述的内河船舶目标检测方法。