CN110472572A

CN110472572A - 一种复杂环境下海上目标的快速识别和分类方法

Info

Publication number: CN110472572A
Application number: CN201910750642.6A
Authority: CN
Inventors: 刘明雍; 石廷超; 李赛楠; 杨扬; 王旭辰; 黄宇轩
Original assignee: Northwest University of Technology
Current assignee: Northwestern Polytechnical University; Northwest University of Technology
Priority date: 2019-08-14
Filing date: 2019-08-14
Publication date: 2019-11-19

Abstract

本发明提出一种复杂环境下海上目标的快速识别和分类方法，基于YOLOv3目标检测算法，根据自制海上目标数据集的特点，改进了Darknet‑53的网络结构以及YOLOv3算法的激活函数，以获得更高的检测和识别精度，加快模型的训练速度；采用K‑Means++算法对海上目标数据集中标定好的真实目标框的宽高维度进行聚类，以获得最佳的先验框的个数和宽高维度，提高模型的训练速度以及识别的精确度和实时性。

Description

一种复杂环境下海上目标的快速识别和分类方法

技术领域

本发明涉及一种复杂环境下海上目标的快速识别和分类方法，属于目标识别领域。

背景技术

水面无人艇在复杂不定的水面环境上高速运行时，需要时刻完成目标识别和避障等复杂而有序的自主操作任务，因此，解决视觉系统中对水面不同目标的快速识别和准确分类是最基本和最首要的问题。

常规目标检测可使用帧间差分法和背景差分法，但仅适用于运动目标检测。对于静止目标检测可以运用机器学习方法，如支持向量机和随机森林等，在给定图像上选择兴趣区域(RoI)作为进一步识别的候选区域，提取候选区域特征，如区域二值模式(LBP)特征和方向梯度直方图(HOG)特征，并通过训练的分类器对区域进行分类识别。但在大数据环境下，这些传统依赖预设模型的机器学习方法己无法准确和全面地描述应用场景下的数据特征。

卷积神经网络(CNN)是一种基于通过对海量训练数据构建多层结构模型进行表征学习的机器学习方法，先后发展了R-CNN,Fast R-CNN和Faster R-CNN等检测器。这些检测器检测精度较高，但将目标识别任务分为目标区域预测和类别预测等多个流程，检测速度很慢，难以满足水面无人艇在高速航行的状态下，对海上目标检测的实时性要求。与R-CNN系列方法不同，YOLOv3作为一种全新的神经网络算法，其中采用Darknet-53网络结构，可同时预测检测对象的类别和位置，将目标检测视为简单的回归问题，可以显著提高目标检测的速度，满足实时性要求。

目前，YOLOv3网络结构是基于COCO数据集的，COCO数据集是一个大型的图像数据集，该数据集共包含328,000张图像，要完成对如此庞大的一个数据集的训练，因此YOLOv3网络结构的参数量很大。但针对复杂环境下海上目标的快速识别和分类这一具体问题，目前能够获得有效海上目标数据集只有几千张图片，相比于COCO数据集而言还是很少的，因此如果直接使用YOLOv3的神经网络算法进行复杂环境下海上目标的快速识别和分类，会因为YOLOv3的模型参数量过多，导致模型在训练过程中因为数据量不足出现过拟合的问题。

发明内容

针对YOLOv3目标检测算法在自制海上目标数据集进行网络训练时，模型参数量过大，导致训练出现过拟合的问题；同时，为了获得更高的检测速度与检测精度，本发明基于YOLOv3目标检测算法，根据自制海上目标数据集的特点，改进了Darknet-53的网络结构以及YOLOv3算法的激活函数，优化了数据集的聚类方法，提出了一种基于改进YOLOv3算法的海上目标快速识别和分类方法。通过对YOLOv3算法改进，提高了模型的检测速度和检测精度。

本发明的技术方案为：

所述一种复杂环境下海上目标的快速识别和分类方法，其特征在于：包括以下步骤：

步骤1：建立改进的网络模型Darknet-ship：

其中网络模型Darknet-ship的网络结构与传统的Darknet-53网络结构相比，改进之处在于：在1阶残差模块与2阶残差模块之间、2阶残差模块与3阶残差模块之间、3阶残差模块与4阶残差模块之间、4阶残差模块与5阶残差模块之间增加过渡模块，并在每个3阶残差模块、4阶残差模块和5阶残差模块前串联一个SE模块；

网络模型Darknet-ship的激活函数采用SELU：

其中λ为设定的比例系数，α为设定常数；

步骤2：制作海上目标数据集：

获取若干包含不同海上目标的图像，对每个图像中的目标区域画目标标记框，并建立记录每个图像的属性文件，所述属性文件中记载包括图像中目标的类别、目标在图像中的位置信息，所述目标在图像中的位置信息指所画目标标记框的宽高信息，所画目标标记框的对角点在图像坐标系下的坐标信息；

步骤3：采用K-Means++算法对海上目标数据集中标定好的真实目标框的宽高维度进行聚类，得到先验框的数量及参数：

步骤3.1：首先根据海上目标数据集中的每一个属性文件中的目标标记框左上角坐标(x_min,y_min)和右下角坐标(x_max,y_max)进行计算得到真实目标框的中心坐标(x_j,y_j)和宽高(w_j,h_j)，j∈{1,2,...,N}；N是所有目标标记框的个数；

步骤3.2：随机选择海上目标数据集中一个属性文件中的目标标记框(x_i,y_i,w_i,h_i)作为初始种子，将初始种子放入种子集合中；

步骤3.3：计算海上目标数据集其他属性文件中的目标标记框(x_j,y_j,w_j,h_j)与种子集合的距离D_j：计算海上目标数据集其他属性文件中的目标标记框(x_j,y_j,w_j,h_j)与种子集合中每个种子的距离，取其中最短的距离作为目标标记框(x_j,y_j,w_j,h_j)与种子集合的距离；其中目标标记框(x_j,y_j,w_j,h_j)与种子集合中某一种子(x_i,y_i,w_i,h_i)的距离d_i,j通过公式

d_i,j＝1-IOU[(x_j,y_j,w_j,h_j),(x_i,y_i,w_i,h_i)]

计算，其中IOU[(x_j,y_j,w_j,h_j),(x_i,y_i,w_i,h_i)]表示目标标记框(x_i,y_i,w_i,h_i)与目标标记框(x_j,y_j,w_j,h_j)之间交集面积与并集面积的比值：

步骤3.4：将步骤3.3中的所有D_j求和得到sumD，并随机取一个小于sumD的正数random，然后迭代计算random＝random-D_j，直到random≤0，将此时D_j值对应的目标标记框(x_j,y_j,w_j,h_j)将作为新的种子，并将其加入到种子集合中；

步骤3.5：重复步骤:3.3和步骤3.4，直至确定k个种子，并将其作为k个聚类中心；

步骤3.6：计算海上目标数据集中其他属性文件中的目标标记框(x_j,y_j,w_j,h_j)与每个聚类中心的距离，将其分配到距离最小的聚类中心中，形成k个聚类簇，记k个聚类簇的聚类中心为(X_i,Y_i,W_i,H_i)，i＝1,2,…,k；

步骤3.7：对每个簇重新计算聚类中心点，其中聚类中心的坐标(X_i,Y_i)不变，取聚类中心的宽高(W_i,H_i)分别为该簇中所有目标标记框的宽和高的平均值；

步骤3.8：重复步骤3.6和步骤3.7，直至达到迭代截止条件；最终得到k个聚类中心的宽高(W_i,H_i)即为最佳的k个先验框宽高维度；

步骤4：采用海上目标数据集中的图像对网络模型Darknet-ship进行训练：

将图像划分成S*S的网格，并确定网络训练参数；以步骤3中确定的先验框个数和宽高维度作为预测目标框初始值进行预测，并在学习中对预测目标框位置及宽高维度进行回归，其中如果图片中某一个目标中心落入某一网格中，则该网格还需要对目标类别进行预测；

步骤5：将实际采集的图像输入训练好的网络模型Darknet-ship中，实现海上目标的识别和分类。

进一步的优选方案，所述一种复杂环境下海上目标的快速识别和分类方法，其特征在于：步骤1中，所述过渡模块是由若干步长为1的1×1卷积核和若干步长为2的3×3卷积核组成。

进一步的优选方案，所述一种复杂环境下海上目标的快速识别和分类方法，其特征在于：先验框个数k＝7。

进一步的优选方案，所述一种复杂环境下海上目标的快速识别和分类方法，其特征在于：步骤4训练过程中采用随机梯度下降算法更新网络模型参数，减小损失函数直至收敛。

有益效果

本发明对传统的Darknet-53的网络结构和激活函数进行了改进，以获得更高的检测和识别精度，加快模型的训练速度；采用K-Means++算法对海上目标数据集中标定好的真实目标框的宽高维度进行聚类，以获得最佳的先验框的个数和宽高维度，提高模型的训练速度以及识别的精确度和实时性。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

附图1是本发明提出的Darknet-ship网络结构示意图；

附图2是本发明改进的YOLOv3-ship算法结构示意图；

附图3是不同数量Anchor boxes对应的平均交并比变化曲线；

附图4是目标检测流程图；

附图5是对海上不同目标的识别和分类效果图。

具体实施方式

下面详细描述本发明的实施例，所述实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

1、基于Darknet-53的网络结构优化

YOLOv3网络结构是基于COCO数据集的，COCO数据集是一个大型的图像数据集，该数据集共包含328,000张图像，要完成对如此庞大的一个数据集的训练，因此YOLOv3网络结构的参数量很大。但是，我们自制的海上目标数据集共4937张图片，因为自制海上目标数据集的图像数量相对COCO数据集较少，如果直接使用YOLOv3的网络结构会因为YOLOv3的模型参数量过多，导致模型在训练过程中因为数据量不足出现过拟合的问题。因此，为了获得更高的识别速度与识别精度，我们必须要适当减少模型的参数量，同时对Darknet-53的网络结构进行优化，以满足我们自制数据集的训练要求。

传统的Darknet-53网络结构由两个CBR3模块、一个1阶残差模块、两个2阶残差模块、六个3阶残差模块、六个4阶残差模块和四个5阶残差模块依次组成。

本申请在1阶残差模块与2阶残差模块之间、2阶残差模块与3阶残差模块之间、3阶残差模块与4阶残差模块之间、4阶残差模块与5阶残差模块之间增加过渡模块(TransitionModule)，所述过渡模块是由若干步长(stride)为1的1×1卷积核和若干步长(stride)为2的3×3卷积核组成。

在本网络中，使用步长(stride)为1的1×1卷积核主要是为了降维，当输入和输出的通道数很大时，网络运算后会使得卷积核的参数变的很多，加入1×1卷积后可以大大减少卷积核的参数，降低网络的运算复杂度，提高模型的检测和识别速度。

本申请在每个3阶残差模块、4阶残差模块和5阶残差模块前还串联一个SE模块(Squeeze-and-Excitation Module)

加入了SE模块(Squeeze-and-Excitation Module)，使得网络模型具有更强的非线性表达能力，可以更好地拟合通道间复杂的相关性，使得模型具有更强的泛化能力，提高模型的检测和识别精度。

基于以上方法，改进后的网络模型Darknet-ship如图1所示。

YOLOv3采用的激活函数为Leaky-ReLU(Leaky Rectified Linear Unit)，如公式(1)所示：

在Leaky-ReLU中，当x为0或负值时，其输出采用一个斜率较小的线性函数，此时存在噪声鲁棒性较差的问题。

因此，我们改进了YOLOv3的激活函数，采用SELU作为激活函数，如公式(2)所示：

其中λ为设定的比例系数，α为设定常数，经过该激活函数后使得样本分布自动归一化到零均值和单位方差，保证训练过程中梯度不会爆炸或消失，同时噪声鲁棒性也较好。改进后的YOLOv3-ship结构如图2所示。

2、海上数据集制作

首先获得包含不同海上目标的图像。然后，使用LabelImg可视化图像标定工具对每一张图像中的海上目标进行标定，标定方法如下：

(1)点击界面“Open Dir”打开需要标注的样本图片文件夹，此时会自动打开文件夹中的第一张图片，开始进行标注；

(2)点击“Create RectBox”开始在图像的目标区域画框；

(3)完成一张图片后点击“Save”，标记生成的属性文件将会被保存；

(4)点击“Next Image”转到下一张图片，重复步骤(2)、步骤(3)。

在对图像标记完成后，每一张图像都会生成一个与之对应的属性文件，属性文件遵循PASCAL VOC格式，其包含的内容主要有：图像的保存位置、图像的名称、属性文件保存的位置、图像中目标的类别、目标在图像中的位置信息(包括所画框的长宽信息，所画框的对角点在图像坐标系下的坐标信息)。标定过程中可随时返回进行修改，修改后保存的属性文件会覆盖之前的属性文件。

每一类海上目标标定完成后，将该类海上目标的若干原始图像与该图像对应的属性文件保存在同一文件夹下，在对全部类别的不同海上目标标定完成后，就可以获得若干不同文件夹，每个文件夹内包含属于同一类的海上目标原始图像和该图像对应的属性文件，这样海上目标数据集就制作完成了。

3、基于自制海上数据集的聚类优化

YOLOv3使用Anchor boxes作为先验框对图像中的目标进行检测。但我们在训练模型测试的过程中发现Anchor boxes的个数和宽高维度对模型的训练速度以及识别的精确度和实时性具有很大影响。因此，需要根据自制海上目标数据集，选择合适的Anchor boxes的个数和宽高维度。

本发明中通过对自制海上目标数据集进行聚类分析，以获得最佳的Anchor boxes的宽高维度。聚类是一种无监督的学习，它根据相似性原则，将具有较高相似度的数据对象划分至同一类簇，将具有较高相异度的数据对象划分至不同类簇。

K-Means算法是一种非常典型的聚类算法，因其算法简单易实现，被广泛应用到深度学习中。但是，K-Means算法开始时随机确定K个初始点的质心位置，而K个初始点的质心位置对最后的聚类结果和程序运行时间都有很大的影响，因此需要选择合适的K个初始点的质心位置。如果仅仅是完全随机的选择，有可能导致算法收敛很慢。K-Means++算法对K-Means算法随机初始化K个初始点质心位置的方法进行了有效的优化。因此，我们选择了K-Means++算法作为获得最佳Anchor boxes个数和宽高维度的聚类方法。

K-Means++算法中的K代表类簇个数，Means代表类簇内数据对象的均值(这种均值是一种对类簇中心的描述)。K-Means++算法是一种基于划分的聚类算法，以距离作为数据对象间相似性度量的标准，即数据对象间的距离越小，则它们的相似性越高，则它们越有可能在同一个类簇。

K-means++算法的输入：海上目标数据集中的每一个属性文件的目标标记框标注信息(x_min,y_min,x_max,y_max),，簇的数目k，最大迭代次数，常数c(停止条件)。

K-means++算法的输出：k个簇及其对应的矩形框。

K-Means++算法的工作流程如下：

(1)首先对海上目标数据集中的每一个属性文件中的目标标记框左上角坐标(x_min,y_min)和右下角坐标(x_max,y_max)进行计算得到真实目标框的中心坐标(x_j,y_j)和宽高(w_j,h_j)，(x_j,y_j,w_j,h_j),j∈{1,2,...,N}是真实目标框(ground truth boxes)相对于原图的坐标；N是所有标注框的个数；

(2)随机选择海上目标数据集中一个属性文件中的目标标记框(x_i,y_i,w_i,h_i)作为初始种子，将初始种子放入种子集合中；

(3)计算海上目标数据集其他属性文件中的目标标记框(x_j,y_j,w_j,h_j)与种子集合的距离D_j，即计算海上目标数据集其他属性文件中的目标标记框(x_j,y_j,w_j,h_j)与种子集合中每个种子的距离，取其中最短的距离作为海上目标数据集其他属性文件中的目标标记框(x_j,y_j,w_j,h_j)与种子集合的距离；其中目标标记框(x_j,y_j,w_j,h_j)与种子集合中某一种子(x_i,y_i,w_i,h_i)的距离d_i,j通过我们改进的距离计算公式

d_i,j＝1-IOU[(x_j,y_j,w_j,h_j),(x_i,y_i,w_i,h_i)]

(4)将步骤(3)中的所有D_j求和得到sumD，并随机取一个小于sumD的数random，然后迭代计算random＝random-D_j，直到random≤0，将此时D_j值对应的目标标记框(x_j,y_j,w_j,h_j)将作为新的种子，并将其加入到种子集合中；

(5)重复步骤(3)和步骤(4)，直至确定k个种子，并将其作为k个聚类中心；

(6)计算海上目标数据集中其他属性文件中的目标标记框(x_j,y_j,w_j,h_j)与每个聚类中心的距离，将其分配到距离最小的聚类中心中，形成k个聚类簇，记k个聚类簇的聚类中心为(X_i,Y_i,W_i,H_i)，i＝1,2,…,k；

(7)对每个簇重新计算聚类中心点，其中聚类中心的坐标(X_i,Y_i)不变，取聚类中心的宽高(W_i,H_i)分别为该簇中所有目标标记框的宽和高的平均值；

(8)重复步骤(6)和步骤(7)，直至达到迭代截止条件；最终得到k个聚类中心的宽高(W_i,H_i)即为最佳的Anchor boxes的宽高维度。

上面设置先验框的主要目的是为了使得预测目标框与真实目标框的交集与并集的比值更大，即交并比(IOU)的值更大，IOU的值越大，模型的识别精度越高。为了更好的通过Anchor boxes获得更大的IOU值，如上步骤(3)所述，我们改进了K-Means++算法的距离计算公式。并且我们计算了不同数量Anchor boxes对应的平均交并比变化曲线如图3所示，最终我们综合考虑精度要求和计算实时性要求，选择k＝7，作为Anchor boxes数量。

4、目标检测

YOLOv3是一种基于回归的目标检测算法，其首先将输入的图片划分为S*S个网格；每一个网格会根据上面得出的7个Anchor boxes初始参数进行预测。因此对于一张待预测的图片，其预测目标框数量为S*S*7。每一个预测目标框均需要对五个值进行预测，分别为:x，y，w，h，C。其中x，y表示预测目标框的中心点的横纵坐标，w，h表示的是预测目标框的宽和高。C表示的是预测目标框的置信度，如公式(3)所示：

其中Pre(object)表示的是网格中存在目标的概率值，若对于一个网格中出现了目标物体，则Pre(object)的值为1；若没有出现目标物体，则Pre(object)的值为0，即置信度C的值也为0。为预测目标框与真实目标框的面积交并比，如公式(4)所示：

当网格中存在目标时，其还需要对目标类别进行预测，用条件概率Pre(class_M|object)进行表示。将类别预测得到的值与预测目标框置信度C相乘，最终得到的是某个类别M的置信度C(M)，当Pre(object)的值为0时，C(M)的值也为0，当Pre(object)的值为1时，C(M)的值如公式(5)所示

其中，Pre(class_M)表示的是网格中存在该类目标的概率值，若对于一个网格中出现了该类目标物体，则Pre(class_M)的值为1；若没有出现该类目标物体，则Pre(class_M)的值为0，即类别置信度C(M)的值也为0。

基于上述分析，本发明的具体步骤为：

1、为了获得更高的检测和识别精度，加快模型的训练速度，必须要对Darknet-53的网络结构进行改进，以适应根据复杂环境下海上目标而制备的海上目标数据集，改进后的网络结构为Darknet-ship。

2、获得包含不同海上目标的图像，使用例如LabelImg的可视化图像标定工具对每一张图像中的海上目标进行标定，得到自制海上目标数据集。

3、采用K-Means++算法对海上目标数据集中标定好的真实边框的宽高维度进行聚类，得到先验框的数量及参数。

4、对于给定一个视频帧输入图像，首先将图像划分成S*S的网格，确定网络训练参数，将步骤(3)中先验框的的数量及参数作为预测目标框初始值进行预测，并在不断学习中对预测目标框位置及宽高维度进行回归。其中如果图片中某一个目标的中心落在了其中的某一个网格中，那么该网格便需要对这个目标类别进行预测。目标检测流程图如图4所示。

5、在训练过程中，采用随机梯度下降算法(SGD)更新网络模型参数，减小损失函数直至收敛，并结合冲量使训练过程具有更好的收敛速度与收敛性。

对于训练后得到的模型，本发明进行了海上不同目标的测试，测试结果如图5所示。说明本方法能够快速且高精度的对海上目标进行检测。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在不脱离本发明的原理和宗旨的情况下在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种复杂环境下海上目标的快速识别和分类方法，其特征在于：包括以下步骤：

步骤1：建立改进的网络模型Darknet-ship：

网络模型Darknet-ship的激活函数采用SELU：

其中λ为设定的比例系数，α为设定常数；

步骤2：制作海上目标数据集：

d_i,j＝1-IOU[(x_j,y_j,w_j,h_j),(x_i,y_i,w_i,h_i)]

2.根据权利要求1所述一种复杂环境下海上目标的快速识别和分类方法，其特征在于：步骤1中，所述过渡模块是由若干步长为1的1×1卷积核和若干步长为2的3×3卷积核组成。

3.根据权利要求1所述一种复杂环境下海上目标的快速识别和分类方法，其特征在于：先验框个数k＝7。

4.根据权利要求1所述一种复杂环境下海上目标的快速识别和分类方法，其特征在于：步骤4训练过程中采用随机梯度下降算法更新网络模型参数，减小损失函数直至收敛。