CN110610165A

CN110610165A - 一种基于yolo模型的船舶行为分析方法

Info

Publication number: CN110610165A
Application number: CN201910881856.7A
Authority: CN
Inventors: 陈信强; 齐雷; 杨勇生; 吴华锋; 凌峻; 赵建森; 许学谦; 傅俊杰; 陆锦泉
Original assignee: Shanghai Maritime University
Current assignee: Shanghai Maritime University
Priority date: 2019-09-18
Filing date: 2019-09-18
Publication date: 2019-12-24

Abstract

本发明公开了一种基于YOLO模型的船舶行为分析方法，包括制作现有船舶类型图像的数据集；通过YOLO模型的卷积神经网络提取数据集中船舶的多尺度特征，并训练神经网络识别船舶图像的能力；将船舶的视频序列作为YOLO模型的输入参数，对视频序列中的船舶进行识别，并获得船舶位置信息；根据待检测船舶在视频序列每帧中的位置，应用时空约束条件和几何知识分析待检测船舶的行为。本发明提供的方法具有较高的鲁棒性，可以对船舶的行为进行分析，并能识别历史船舶行为，有助于海事工作人员识别和预测潜在的危险船舶行为，从而采取早期的主动活动来改善海上交通安全。

Description

一种基于YOLO模型的船舶行为分析方法

技术领域

本发明涉及一种海事视频监控技术领域，尤其涉及一种基于YOLO船舶检测的行为分析方法。

背景技术

目前，以往的船舶行为分析研究主要通过探索自动识别系统(AIS)数据的时空信息来关注船舶行为分析，而对海事监控视频的关注则较少。船舶行为识别和预测对于风险行为的早期预警，识别潜在的船舶碰撞，提高海上交通效率等非常重要。随着海上交通量的快速增长和船队规模的迅速扩张，这些传统的船舶类型获取方法需要人工干预的工作越来越大。因此，利用传统的技术手段获取船舶类型信息是一项非常耗时的工作。基于可视化数据信息的船舶类型自动化识别，是无人船舶时代和智能航行时代的需要应对的重要挑战之一。

发明内容

本发明提出一种级联式由粗到精的深度卷积神经网络船舶类型识别方法，并获取每个船舶图像中的船舶位置，再基于船舶运动信息分析连续海事图像中的时空船舶行为，有助于船上的海事工作人员识别和预测潜在的危险船舶行为，从而采取早期的主动活动改善海上交通。

为达到上述目的，本发明提供了一种基于YOLO模型的船舶行为分析方法，包括以下步骤：

S1、制作现有船舶类型图像的数据集；

S2、通过YOLO模型的卷积神经网络提取数据集中船舶的多尺度特征，并训练卷积神经网络识别船舶图像的能力；

S3、将船舶的视频序列作为YOLO模型的输入参数，对视频序列中的待检测船舶进行识别，并获得待检测船舶位置信息；

S4、根据待检测船舶在视频序列每一帧中的位置信息，应用时空约束条件和几何知识分析视频序列中待检测船舶的行为。

所述的步骤S1包含以下步骤：

使用数据增强的方式扩大现有船舶类型的初始图像数据，并标注出初始图像数据中的船舶；

将初始图像数据的分辨率裁剪为固定大小，裁剪后的船舶类型图像匹配初始图像数据的标签，得到标注的格式化的船舶类型图像和图像标签作为现有船舶类型的数据集；

进一步，所述的现有船舶类型的数据集分为训练集和测试集，测试集用来测试YOLO模型的鲁棒性。

进一步，通过召回率(Re)和准确率(Pr)评估YOLO模型的鲁棒性，其中，召回率Re表示检测到船舶且是实际船舶的正确率，Re值越高表示检测结果越好，准确率参数Pr表示YOLO模型的精度，Pr值越高，YOLO模型的鲁棒性越好，召回率和准确率定义如下式所示：

其中，T表示YOLO模型正确检测到的船舶数量，F_T表示YOLO模型漏检的船舶数量，T_F并表示YOLO模型误检测的船舶数量。

所述的步骤S2包含以下步骤：

S2.1、YOLO模型的卷积神经网络对输入的训练集的船舶图像进行不同大小的卷积运算，形成船舶图像的不同尺度的特征图；

S2.2、卷积神经网络学习船舶图像不同尺度的特征，实现对船舶多个尺度的检测。

进一步，通过YOLO模型的卷积神经网络获得的船舶的特征为：

式中，是来自第(t-1)卷积层的第k个输入船特征，是第v个和第k个船特征层之间的权重矩阵，参数是第t个卷积网络层的第v个输出船特征的偏差，f表示用于激活第t层的神经元的激活模型，是同一层的第v个输出特征。

所述的步骤S3包含以下步骤：

S3.1、视频序列输入到YOLO模型中，使用K-均值方法产生视频序列图像中的待检测船舶的先验边界框；

S3.2、将视频序列图像划分为M×M个网格单元，每个网格单元输出待检测船舶类别的置信度分数；

S3.3、选择置信度分数值最大的先验框，通过逻辑回归函数对视频序列图像中的船舶位置进行预测；

S3.4、使用二元交叉熵损失函数LOSS识别待检测船舶的类别。

进一步，所述的K-均值方法产生视频序列图像中的船舶边界框先验的具体过程为：

S3.1.1、随机K个边界框作为初始聚类中心；

S3.1.2、计算每个边界框和每个聚类中心之间的距离d(bbox,center)，将每个边界框分配给距离最近的聚类中心，形成K个簇，边界框与聚类中心的距离计算公式为：

d(bbox,center)＝1-IOU(bbox,center)

其中，S_gth表示真实的船舶边界框，S_bbox表示预测的船舶边界框；

S3.1.3、所有的边界框分配完毕后，重新计算每个簇的聚类中心点，并求出该簇中所有边界框的宽和高的平均值；

S3.1.4、重复上述S3.1.1-S3.3.3过程，直至聚类中心改变量为0。

进一步，神经网络对船舶图像进行卷积降采样形成船舶特征图的同时，视频序列图像被划分为M×M个网格单元，所述的M值与卷积神经网络得到的船舶图像特征图的尺度相等，该网格单元用于预测待检测船舶边界框的位置和类别。

进一步，所述的待检测船舶类别的置信度分数定义为其中，表示预测的待测船舶边界框与真实的船舶边界框交集和并集的比值，当待检测船舶先验边界框的几何中心落入网格单元时，参数Cr设置为1，否则参数Cr设置为0，因此网格单元的检测结果与IOU值正相关，IOU值越大，则表示待检测船舶先验边界框更接近船舶在图像中的真实位置。

进一步，所述的船舶位置预测结果的表达式如下：

其中，是负责预测待检测船舶位置的网格单元中心的x坐标，是该网格单元中心的y坐标，是该网格单元的宽度，是该网格单元的高度，v_x和v_y分别是该网格单元中心点与视频序列图像左上角之间的水平和垂直距离，和分别是待检测船舶先验边界框的中心坐标，和分别是待检测船舶先验边界框的宽度和高度，和分别是通过k-均值方法产生的待检测船舶先验边界框映射到待检测船舶特征图中的宽和高，和是基于网格单元的预测待检测船舶先验边界框信息的回归函数输出。

进一步，回归函数表达式为：

进一步，二元交叉熵损失函数其表达式如下所示：

其中，N是视频序列图像中边界框的数量，y_z是标注的船舶类型数据集中图像的第z个边界框的标签，p(y_z)是边界框属于船舶的预测概率。

所述的时空约束条件可以用以下表达式表示：

d(x)＝|l_xi-l_x(i+1)|＜α

d(y)＝|l_yi-l_y(i+1)|＜β

其中，l_xi和l_yi分别表示视频序列图像第i帧海事图像中的待检测船舶边界框中心点的x坐标和y坐标，d(x)、d(y)分别表示待检测船舶在视频序列相邻帧中的水平方向x和垂直方向y上的移动距离的改变量，d(s)表示待检测船舶在视频序列相邻帧中的位移改变量，d(θ)表示待检测船舶在视频序列相邻帧中航行方向的改变量，θ_i是船舶航行方向，参数α和β分别是待检测船舶在视频序列相邻帧中x轴和y轴上的移动距离改变量的阈值，参数γ是待检测船舶移动位移量的阈值，参数是待检测船舶航行方向变化的阈值。

进一步，通过分析连续图像序列中θ_i的变化趋势来实现船舶行为分析，当θ_i具有减小趋势的变化，表明船向左转；当θ_i具有增大趋势，标明船向右转；当θ_i变化保持在6度范围内时，标明船直行。

本发明具有以下优点：

本发明提出一种级联式由粗到精的深度卷积神经网络船舶类型识别方法，该方法在YOLO模型中使用卷积神经网络从输入船舶图像中提取多尺度船舶特征，同时抑制了背景边界干扰，并确定了具有交叉联合(IOU)标准的船舶检测结果，从而获得了每个船舶图像中的船舶位置，然后基于运动船舶的位置信息运用时空约束条件分析了连续海事图像中的船舶行为，并能识别历史船舶行为。该发明有助于船上的海事工作人员识别和预测潜在的危险船舶行为，从而采取早期的主动活动来改善海上交通。

附图说明

图1为本发明提供的一种基于YOLO模型的船舶行为分析方法的流程图；

图2为本发明提供的图像数据增强方法生成的船舶图像；

图3为本发明通过k-均值所产生的船舶边界框的先验；

图4为本发明提供的案例1中船舶的检测结果；

图5为本发明提供的案例1中船舶在不同采样时间间隔下的时空约束条件信息；

图6为本发明提供的案例1中目标船舶在采样时间间隔为1s时的时空信息；

图7为本发明提供的案例2中船舶的检测结果；

图8为本发明提供的案例2中目标船舶在采样时间间隔为1s时的时空信息；

图9为本发明提供的案例2中目标船舶在采样间隔为1s时的角度变化。

具体实施方式

为了更好地理解本发明的技术特征、目的和效果，下面结合附图对本发明进行更为详细地描述。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明专利。需要说明的是，这些附图中均采用非常简化的形式且均使用非精准的比率，仅用于方便、清晰地辅助说明本发明专利。

本实例提供了一种基于YOLO模型的船舶行为分析方法，如图1所示的总体流程示意图，该方法包括以下步骤：

S1、制作现有船舶类型图像的数据集；

所述的S1包括以下步骤：

将初始图像数据的分辨率裁剪为固定大小，裁剪后的船舶类型图像匹配初始图像数据的标签，得到标注的格式化的船舶类型图像和图像标签作为现有船舶类型的数据集。

具体地，使用图像几何变化、增加噪声、颜色变换等图像处理方法扩大现有船舶类型的初始图像数据，并人工标注出船舶图像中的船舶位置，将初始图像数据的分辨率裁剪成416×416的固定大小，裁剪后的船舶类型图像匹配初始图像的标签，得到手工标注的格式化的船舶类型图像和图像标签，其中手工标注的格式化的图像标签包括船舶类型图像的标签和船舶类型图像中船舶位置的信息。

优选地，现有船舶类型的数据集按一定比例分为训练集和测试集，测试集用来测试YOLO模型的鲁棒性。

通过召回率(Re)和准确率(Pr)评估YOLO模型的鲁棒性，其中，召回率Re表示检测到船舶且是实际船舶的正确率，Re值越高表示检测结果越好，准确率参数Pr表示YOLO模型的精度，Pr值越高，YOLO模型的鲁棒性越好。召回率和准确率定义如下式所示：

其中T表示YOLO模型正确检测到的船舶数量，F_T表示YOLO模型漏检的船舶数量，T_F表示YOLO模型误检测的船舶数量。

具体地，将数据集按照7:3的比例分为训练集和测试集。

所述的步骤S2包括以下步骤：

通过YOLO模型的卷积神经网络获得的船舶的特征为：

式中，是来自第(t-1)卷积层的第k个输入船特征，是第v个和第k个船特征层之间的权重矩阵，参数是第t个卷积网络层的第v个输出船特征的偏差，f表示用于激活第t层的神经元的激活模型，是同一层的第v个输出特征；

具体地，当YOLO模型的卷积神经网络的输入图像序列的分辨率为416×416时，神经网络通过步长为2的卷积运算实现对船舶图像序列采样，分别形成了13×13，26×26，52×52的特征图。

具体地，将船舶不同尺度的特征图逐步相加，进行特征融合，因此卷积神经网络可以同时学习船舶的多个尺度的特征，对于一副输入图像，YOLO模型将其映射到3个不同的输出张量，再通过逻辑回归实现对船舶多个尺度的检测。

所述的步骤S3包含以下步骤：

通过K-均值方法聚类统计到K个聚类中心，并将每个聚类中心视为待检测船舶的先验边界框，K-均值方法的具体过程为：

S3.1.1、随机选择K个边界框作为初始聚类中心；

d(bbox,center)＝1-IOU(bbox,center)

其中，IOU表示为“预测的船舶边界框”和“真实的船舶边界框”的交集和并集的比值，S_gth表示真实的船舶边界框，S_bbox表示预测的船舶边界框；

S3.1.3、所有的边界框分配完毕后，重新计算每个簇的聚类中心点，并求出该簇中所有边界框的宽和高的平均值，将该平均值作为聚类中心；

重复上述过程，直至聚类中心改变量为0为止。如图3所示为，本发明提供的K-均值方法产生的船舶先验边界框。

步骤S2中卷积神经网络对船舶图像进行卷积运算形成船舶特征图的同时，图像被划分为M×M个网格单元，M的个数与船舶特征图的尺度规格相对应，该网格单元用于预测待检测船舶边界框的位置和类别，即网格单元输出待检测船舶类型的置信度分数当待检测船舶先验边界框的几何中心落入网格单元时，参数Cr的值为1，否则参数Cr值为零，因此网格单元的检测结果与IOU值正相关，IOU值越大，则表示待检测船舶先验边界框更接近船舶在图像中真实的位置。

具体地，将分辨率为416×416的船舶图像通过卷积运算分别得到为13×13，26×26，52×52个单元格。

S3.3、选择置信度分数值最大的船舶先验边界框，通过逻辑回归函数对视频序列图像中的待检测船舶位置进行预测；

对船舶位置预测结果的表达式如下：

其中，是负责预测待检测船舶位置的网格单元中心的x坐标，是该网格单元中心的y坐标，是该网格单元的宽度，是该网格单元的高度，v_x和v_y分别是该网格单元中心点与视频序列图像左上角之间的水平和垂直距离，和分别是待检测船舶先验边界框的中心坐标，和分别是待检测船舶先验边界框的宽度和高度，和分别是通过k-均值方法产生的待检测船舶先验边界框映射到待检测船舶特征图中的宽和高，和是基于网格单元的预测待检测船舶先验边界框信息的回归函数输出，回归函数表达式为：

S3.4、使用二元交叉熵损失函数LOSS识别待检测船舶的类别。

二元交叉熵损失函数是一个非负实值函数，用来表征YOLO模型对船舶类型识别的预测值与真实值的不一致程度，损失函数值越小，则表明YOLO模型的鲁棒性越好。

二元交叉熵损失函数其表达式如下所示：

其中N是视频序列图像中边界框的数量，y_z是标注的船舶类型数据集中图像的第z个边界框的标签，p(y_z)是边界框属于船舶的预测概率。通过多次训练的迭代应用神经网络的反向传播算法，使LOSS函数的值最可能的接近0，获得神经网络的权重矩阵和偏差进而得到神经网络的模型，通过已经获得的权重矩阵和偏差实现对待检测船舶类别的识别。

S4、根据待检测船舶在视频序列每一帧中的位置信息，应用时空约束条件和几何知识分析待检测船舶的行为。

考虑到船舶是刚性物体，同一艘船舶的边界框应该共享相同的运动，因此，从视频序列图像中获取待检测船舶的位置信息后，使用基于时空约束的方法确定待检测船舶的行为。具体的，我们通过4个条件对待检测船舶的运动加以约束，包括待检测船舶在视频序列相邻帧中的水平方向x和垂直方向y上的移动距离的改变量d(x)、d(y)；待检测船舶在视频序列相邻帧中的位移改变量d(s)、待检测船舶在视频序列相邻帧中航行方向的改变量d(θ)，其中航行方向可以用待检测船舶移动的角度来表示。时空约束条件可以用以下表达式表示：

d(x)＝|l_xi-l_x(i+1)|＜α

d(y)＝|l_yi-l_y(i+1)|＜β

其中，l_xi和l_yi分别表示视频序列图像第i帧海事图像中的待检测船舶边界框中心点的x坐标和y坐标，θ_i是船舶航行方向，参数α和β分别是待检测船舶在视频序列相邻帧中x轴和y轴上的移动距离改变量的阈值，参数γ是待检测船舶移动位移量的阈值，参数表示待检测船舶航行方向变化的阈值。

视频序列第i帧和第(i+1)帧海事图像序列中邻近的位置属于同一艘船，通过分析连续图像序列中θ_i的变化趋势来实现船舶行为分析。当θ_i具有减小趋势的变化，表明船向左转；当θ_i具有增大趋势，意味着船向右转；当θ_i变化保持在6度范围内时，标明船是直行。

下面对本发明的一个具体应用例进行详细介绍：

本实施例的YOLO模型基于Win10 OS上开发，仿真平台是在Python上实现的Tensorflow。考虑到时间消耗和检测性能之间的权衡，将先验框的数量设置为3，考虑到船舶，辅助设施(浮标，灯塔等)和障碍物(岩石，桥梁等)是海事图像中三种常见类型的物体，将聚类中心的数量设置为3。

现有船舶类型图像的初始图像数据共有3000张图片，使用数据增强的方式扩大图像数据，增强YOLO模型神经网络的泛化能力，如图2所示，常用的数据增强方法为图像处理，包括图像的几何变换，如镜像；颜色变换，如提取RGB通道；增加噪声，如加入高斯噪声。之后将扩大的图像数据的分辨率手动校正为416×416，以满足神经网络的输入。将数据集按照7:3的比例分为训练集和测试集，其中训练集包含2100张图像，测试集包含有900张图像。

神经网络通过步长为2的卷积实现对训练接的图像序列采样，分别形成了13×13，26×26，52×52的深层和浅层特征图，把三个特征图拼接在一起，让神经网络同时学习船舶的深层和浅层特征。实施例中设置了1000个训练周期，学习率为0.01，经过训练后LOSS值达到0.00032。实施例中待检测的两个视频序列均为900帧，帧率为30fps，视频序列的时长分别为10s和20s，将时长10s的视频序列命名为案列1，时长20s的视频序列命名为案例2。

从视频序列的每一帧去分析待检测船舶d(x)，d(y)，d(s)，θ_i的变化情况，由于不合理的参数设置会严重影响本发明提出的一种基于YOLO船舶检测的行为分析方法，因此，本实施例对提取船舶位置的采样时间间隔分别为0.34s、0.50s、0.67s、1.00s，通过改变时间间隔观察待检测船舶d(x)，d(y)，d(s)，θ_i的变化，并通过该变化去识别船舶的行为。

案例1中待检测船舶的检测结果如图4所示，视频序列图像中，大多数船舶被神经网络成功检测到，而小部分船舶错过检测。如图5所示，案例1中的成功检测到的船舶在采样时间间隔为别为0.34s、0.50s、0.67s、1.00s时，其d(x)，d(y)，d(s)，θ_i的变化情况，通过计算，可将时空约束条件的四个参数阈值设置为：α＝16.5、β＝2.5、γ＝16.7、如图6所示，当采样时间间隔为1s时，目标船舶的θ_i变化为一条直线，可以认为该船舶在此案例下是处于直行状态。

案例2中待检测船舶的检测结果如图7所示，视频序列图像中，大多数船舶被神经网络成功检测到，而小部分船舶错过检测。如图8、9所示，案例2中目标船舶在采样时间间隔为1s时的时空信息和角度变换，可以看出，目标船舶的行为分为三个阶段，即直行、右转再左转。此外，对案例2的初始海事视频进行研究分析，观察到在同一航道中的跟随船舶动速度较快，可能引发交通事故。两个案例中，船舶的召回率(Re)和准确率(Pr)结果如表1所示，在两种案例下平均召回率和准确率达到了0.95和0.97，表明实施例中的YOLO模型具有较高的鲁棒性。

表1船舶的召回率(Re)和准确率(Pr)

本发明提出一种级联式由粗到精的深度卷积神经网络船舶类型识别方法，该方法在YOLO模型中使用卷积神经网络从输入船舶图像中提取多尺度船舶特征，同时抑制了背景边界干扰，并确定了具有交叉联合标准的船舶检测结果，从而获得了每个船舶图像中的船舶位置，然后基于运动船舶的位置信息运用时空约束条件分析了连续海事图像中的船舶行为。将该分析方法应用于两个历史视频序列中，实验结果表明船舶被准确地检测到并且成功地识别了历史船舶行为。该研究的结果可以帮助船上的海事工作人员识别和预测潜在的危险船舶行为，从而采取早期的主动活动来改善海上交通。

尽管本发明的内容已经通过上述优选实施例作了详细介绍，但应当认识到上述的描述不应被认为是对本发明的限制。在本领域技术人员阅读了上述内容后，对于本发明的多种修改和替代都将是显而易见的。因此，本发明的保护范围应由所附的权利要求来限定。

Claims

1.一种基于YOLO模型的船舶行为分析方法，其特征在于，包含以下步骤：

S1、制作现有船舶类型图像的数据集；

2.如权利要求1所述的一种基于YOLO模型的船舶行为分析方法，其特征在于，所述的步骤S1包含以下步骤：

3.如权利要求2所述的一种基于YOLO模型的船舶行为分析方法，其特征在于，所述的现有船舶类型的数据集分为训练集和测试集，测试集用来测试YOLO模型的鲁棒性。

4.如权利要求1所述的一种基于YOLO模型的船舶行为分析方法，其特征在于，所述的步骤S2包含以下步骤：

通过YOLO模型的卷积神经网络获得的船舶的特征为：

5.如权利要求1所述的一种基于YOLO模型的船舶行为分析方法，其特征在于，所述的步骤S3包含以下步骤：

所述的M值与卷积神经网络得到的船舶图像特征图的尺度相等；

所述的待检测船舶类别的置信度分数定义为其中，表示预测的待测船舶边界框与真实的船舶边界框交集和并集的比值，当待检测船舶先验边界框的几何中心落入网格单元时，参数Cr设置为1，否则参数Cr设置为0，因此网格单元的检测结果与IOU值正相关，IOU值越大，则表示待检测船舶先验边界框更接近船舶在图像中的真实位置；

对船舶位置预测结果的表达式如下：

其中，是负责预测待检测船舶位置的网格单元中心的x坐标，是该网格单元中心的y坐标，是该网格单元的宽度，是该网格单元的高度，v_x和v_y分别是该网格单元中心点与视频序列图像左上角之间的水平和垂直距离，和分别是待检测船舶先验边界框的中心坐标，和分别是待检测船舶先验边界框的宽度和高度，和分别是通过k-均值方法产生的待检测船舶先验边界框映射到待检测船舶特征图中的宽和高，和是基于网格单元的预测待检测船舶先验边界框信息的回归函数输出；

S3.4、使用二元交叉熵损失函数LOSS识别待检测船舶的类别；

6.如权利要求5所述的一种基于YOLO模型的船舶行为分析方法，其特征在于，所述的K-均值方法产生视频序列图像中的船舶边界框先验的具体过程为：

S3.1.1、随机K个边界框作为初始聚类中心；

S3.1.2、计算每个边界框和每个聚类中心之间的距离d(bbox，center)，将每个边界框分配给距离最近的聚类中心，形成K个簇，边界框与聚类中心的距离计算公式为：

d(bbox，center)＝1-IOU(bbox，center)

S3.1.4、重复上述S3.1.1-S3.3.3过程，直至聚类中心改变量为0。

7.如权利要求1所述的一种基于YOLO模型的船舶行为分析方法，其特征在于，步骤S4中所述的时空约束条件用以下表达式表示：

d(x)＝|l_xi-l_x(i+1)|＜α

d(y)＝|l_yi-l_y(i+1)|＜β

8.如权利要求7所述的一种基于YOLO模型的船舶行为分析方法，其特征在于，通过分析连续图像序列中θ_i的变化趋势来实现船舶行为分析，当θ_i具有减小趋势，表明船向左转；当θ_i具有增大趋势，表明船向右转；当θ_i变化保持在6度范围内时，表明船直行。