CN111222574A

CN111222574A - 基于多模型决策级融合的舰船与民船目标检测与分类方法

Info

Publication number: CN111222574A
Application number: CN202010013691.4A
Authority: CN
Inventors: 粟嘉; 李大伟; 陶明亮; 张顺; 谢坚; 张兆林; 王伶; 韩闯; 宫延云; 范一飞
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2020-01-07
Filing date: 2020-01-07
Publication date: 2020-06-02
Anticipated expiration: 2040-01-07
Also published as: CN111222574B

Abstract

本发明提供了一种基于多模型决策级融合的舰船与民船目标检测与分类方法，在充分分析Faster‑RCNN和YOLOv3模型对不同场景中目标检测的差异性后，通过构造符合舰船识别具体适用场景的决策树，对各模型输出结果进行决策级融合，从而实现多模型对近景和遥感图像内目标检测与识别的优势互补，提高了舰船目标的定位及分类准确度。整个过程脱离人工干预，减少人力成本，使得针对舰船目标的实时检测与识别成为可能。

Description

基于多模型决策级融合的舰船与民船目标检测与分类方法

技术领域

本发明涉及人工智能领域，尤其是一种基于人工智能的图像处理方法。

背景技术

海上目标的检测与识别，对来往船只的安全行驶、及时避难至关重要。目前海面目标的获取主要通过常规技术手段，例如脉冲雷达、声纳等进行目标检测和识别，但这些非成像手段检测的结果一般只给出检测目标的距离、方位、类型(如水面、水下和空中)等，无法对目标的种类进行识别，而现有的基于图像域的舰船目标识别方法人工干预成分较多，成本较高，需要根据经选择所使用的特征、确定特征向量维数，难以形成从特征到类别的一套完整的体系。因此，本项目结合现有多种主流的人工智能方法和模型，采用多模型决策级融合的策略，以提高舰船目标的自动检测和识别的精度，从而达到降低人工参与力度及系统工程化应用的目的。

现有针对舰船目标识别的专利，多着眼于单一场景下(光学遥感或近景自然光场景)单一深度学习模型的提升研究，而本发明着眼于对应用场景及模型检测结果的分析提升，综合考虑了两大应用场景下，对军舰与民船两类目标进行精确的检测与识别。同时针对多模型检测结果，提出了一种基于多模型决策级融合的舰船目标检测与识别方法，充分利用Faster-RCNN的检测性能优势与YOLOv3的识别性能优势，经实验验证，准确度有很大提升。

发明内容

为了克服现有技术的不足，本发明提供一种基于多模型决策级融合的舰船与民船目标检测与分类方法。针对舰船目标的检测与识别，考虑在两大应用场景(近景自然光和光学遥感应用场景)下，对军舰与民船两类目标进行精确的检测与识别。考虑到场景的复杂性及模型的适应性问题，在充分分析Faster-RCNN和YOLOv3模型对不同场景中目标检测的差异性后，提出了一种基于多模型决策级融合的舰船目标检测与识别方法，通过构造符合舰船识别具体适用场景的决策树，对各模型输出结果进行决策级融合，从而实现多模型对近景和遥感图像内目标检测与识别的优势互补，提高了舰船目标的定位及分类准确度。

本发明解决其技术问题所采用的技术方案包括以下步骤：

步骤1：样本数据采集及标注，构造神经网络的数据集，包括训练集和测试集；分为三步完成：

步骤1.1：搜集舰船数据集并进行目标标注，目标来源包括m类军舰及n类民船，涵盖实际应用中所有目标种类，后续通过模型的迁移学习，增加更多的舰船种类；提供一套目标自动标注工具，目标标注工具分为两步：

首先，在每种类别中随机挑选部分图片进行人工标注，包含目标的位置坐标和类别信息，训练神经网络初步模型；然后，利用神经网络初步模型对剩余图片进行自动标注；

其次，对模型标注后的图片通过人工参与的方式进行二次修正，包括目标位置的精修与舰船类别的确认；

最后，将二次修正后的图片再一次进行训练，如此反复，直到目标类别信息全部正确，位置坐标人眼可区分为止；

步骤1.2：从现有公开数据集中挑选出船只类别，按照预定的m类军舰及n类民船标签进行分类，增加数据集中不同背景目标的数目；

步骤1.3：使用所有遥感图片单独建立遥感数据集，使用YOLOv3神经网络预训练一个针对遥感数据集的神经网络模型，对于人眼无法辨认的目标类别，采用自动标注工具，经过多次训练，直至测试集检测与识别的AP值不再提升，进一步提升对遥感目标标注准确率；

步骤2：模型训练及参数调节；

采用多模型训练方法，分为两大类，Faster-RCNN和YOLOv3，两个神经网络独立训练；其中，Faster-RCNN采用残差网络resnet-101和resnet-152，通过使用残差网络，减少神经网络训练过拟合的现象；为了增加输入图片的特征信息，同时将YOLOv3的输入图片尺寸从416×416改为608×608，并改变模型训练的batchsize的大小，batchsize为每次输入神经网络的图片数目，即每次迭代同时输入batchsize张图片，使得在相同硬件条件下神经网络模型抓取到舰船目标更详细的特征属性；

步骤2.1：分别针对Faster-RCNN与YOLOv3两类网络进行训练调参；

其中，Faster-RCNN将目标检测与分类分为两步进行：

第一步，通过卷积神经网络得到输入图片的特征图，将特征图输入区域选择网络得出舰船参考位置；

Input：带标注的训练样本集；

Output：每张图片上预测到的舰船目标的坐标位置，包括左上角(xmin，ymin)和右下角(xmax，ymax)以及目标属于舰船的概率(Obiect probability)；

第二步，根据第一步输出的舰船目标位置坐标，将舰船特征图输入目标分类网络，得到目标的军舰/民船具体分类；

Input：根据第一步输出的位置坐标将目标传入分类网络；

Output：每个目标的具体分类标签(label)和分类概率(Cls probability)；

区域选择网络与目标分类网络共享网络参数，通过两步之间的相互迭代达到收敛，收敛条件为准确度AP值不再变化；

其中，YOLOv3将目标的位置检测当成回归问题，同时预测目标的位置信息和类别信息：

Input：带标注的训练样本集；

Output：每张图片上预测到的舰船目标的坐标位置(xmin，ymin，xmax，ymax)、每个预测框的score；

其中，score是目标概率(Obiect probability)、分类概率(Cls probability)以及IOU三者相乘积的结果，IOU为预测框与真实框交并比；

针对舰船目标尺寸大小的跨度较大问题，使用K-means聚类算法重新聚类，得到适合于舰船目标识别的锚点(anchors)；

步骤2.2：通过使用Faster-RCNN和YOLOv3训练好的神经网络，对测试集图片进行检测，统计分析测试结果，对所有类别中准确度AP低于0.8的舰船类别，通过扩充训练样本量及添加负样本，负样本指与舰船目标特征类似，对模型产生干扰的目标，包括大桥、堤坝、飞机和建筑物，通过对测试结果进行分析，将错误识别成舰船的其他目标作为负样本加入训练集；

步骤2.3：使用YOLOv3单独训练一个分类模型，将数据集中标注的舰船目标从原始图片中截取出来，预设目标位置信息为固定值重新组成新的数据集；

步骤3：针对Faster-RCNN与YOLOv3不同类型网络，提出基于多模型融合的决策树算法，详细步骤如下：

首先针对神经网络目标检测模型得到的输出结果，使用内插值平均正确率(AP，Interpolated average precision)作为指标对其进行简单评估，AP表达式如下：

式(1)中，max_k1≥kp(k1)表示在所有大于k的阈值k1中，阈值k1所对应的最大准确度值，Δr(k)表示召回的变化值，N代表测试集中所有目标的个数；

提出基于多模型融合的决策树算法，通过决策树的搭建，分析摄像头传回照片的舰船分类，综合多模型处理结果，得出更具针对性的检测识别结果，决策树具体实现步骤如下：

步骤3.1对从模型得出的识别结果进行清洗：

针对同一目标不同模型输出的多个军舰民船识别结果，对目标检测框之间的交并比(IOU)超过阈值的检测框，选取概率分数最高的作为标签，保证同一目标只存在一个标签；

步骤3.2：统计每张图片目标识别情况的军舰占比P：

式中，舰船目标数代表经过步骤3.1清洗后图片中全部预测框的总数，军舰目标数代表所有预测框中，标签为军舰的预测框数目，根据计算得到的P，设定阈值，超过阈值且目标数大于一个即证明图片中包含军舰，输出为军舰；

军舰占比P低于阈值或识别目标数仅为一个时，进入步骤3.4，其余图片进入步骤3.3；

步骤3.3：对进入步骤3.3的图片，使用按照目标尺寸占比原则进一步计算分类分数S：

式(3)中，N代表图片中所检测到的舰船目标总数，Pr_n代表第n个军舰目标的预测概率值，由神经网络模型给出，λ_n代表第n个军舰目标尺寸占所有检测到的军舰目标尺寸之和的比例，S_A,S_B,S_C,S_D,S_E代表经过步骤3.1后每个目标分数最高的检测框的面积，Pr_A,Pr_B,Pr_C,Pr_D,Pr_E代表每个检测框的概率，S计算如下：

根据计算得到的新的概率分数，大于阈值的输出图片中包含军舰；

步骤3.4：针对步骤3.2挑选的单目标图片，使用训练好的YOLOv3单分类网络，对多模型输出分类结果不同的单目标图片重新进行检测，将该图片中预测的目标截取出来送入单分类网络进行识别，用此结果替换目标原有的标签，若最终结果为军舰则证明输出图片中包含军舰，从而解决单目标的分类错误高风险问题；

步骤3.5：最后，整个系统返回包含有军舰和民船目标位置及类别信息的结果图。

所述步骤1中训练集和测试集，按照8：2的比例构成神经网络。

所述步骤2中batchsize取值64。

所述步骤3.2中P的阈值取值0.8。

本发明的有益效果在于相比于以往传统的图片处理技术，摆脱了人工干预对目标检测结果的影响，采用基于人工智能的图像处理技术，利用人工智能神经网络在抓取图像特征方面的优异表现，同时考虑了Faster-RCNN和YOLOv3两种神经网络方法，进一步提高舰船目标检测与识别的精度。针对检测识别算法的具体应用，提出一套基于多模型融合的决策树算法，充分利用不同模型在检测能力与识别能力上的优势，考虑舰船目标识别在应用中的具体情况，提高了军舰目标的检测与识别概率。同时，端到端的人工智能神经网络也大大加快了目标检测的速度，整个过程脱离人工干预，减少人力成本，使得针对舰船目标的实时检测与识别成为可能，使我国的舰船目标识别技术具备理论基础和关键技术支撑，为我国现代智能海面监控的发展奠定基础。

附图说明

图1是本发明基于人工智能的图像处理与舰船识别系统流程图。

图2是本发明针对多模型融合结果的决策树算法流程图。

图3是本发明模型对同一目标出现标签不同的预测框展示图。

图4是本发明单张图片分类结果分数计算示意图。

图5是本发明多方案军舰目标识别准确率展示图。

图6是本发明基于人工智能的舰船目标识别效果展示图。

具体实施方式

下面结合附图和实施例对本发明进一步说明。

本发明解决其技术问题所采用的技术方案包括以下步骤(相应流程如图1所示)：

步骤1：样本数据采集及标注，构造神经网络的数据集，包括训练集和测试集，按照8:2的比例构成神经网络；分为三步完成：

步骤1.1：搜集尽可能多的舰船数据集并进行目标标注，目标来源包括15类军舰及4类民船，涵盖实际应用中所有目标种类，后续也可以通过模型的迁移学习，增加更多的舰船种类；为了降低图像标注中人工参与的程度，在现有目标手动标注工具的基础上，设计了一套目标自动标注工具，该目标标注工具分为两步：

最后，将二次修正后的图片再一次进行训练，如此反复，直到目标类别信息全部正确，位置坐标人眼可区分为止，最终形成一套可靠、稳健的舰船目标自动标注工具；通过目标自动标注工具，大大降低了样本搜集过程中的人力成本，提升了标注的准确率；

步骤1.2：从现有公开数据集中挑选出船只类别，按照预定的15类军舰与4类民船标签进行分类，增加数据集中不同背景目标的数目，从而提高数据集在不同复杂背景环境下的普适性；

步骤1.3：针对遥感数据集目标小，特征不易抓取，类别标注困难的问题，使用所有遥感图片单独建立遥感数据集，使用YOLOv3神经网络预训练一个针对遥感数据集的神经网络模型，对于人眼无法辨认的目标类别，采用自动标注工具，经过多次训练，直至测试集检测与识别的AP值不再提升，来进一步提升对遥感目标标注准确率；

步骤2：模型训练及参数调节；

针对复杂环境下的舰船检测与识别问题，采用多模型训练方法，分为两大类，Faster-RCNN和YOLOv3，两个神经网络独立训练；其中，Faster-RCNN采用残差网络resnet-101和resnet-152，通过使用残差网络，减少了神经网络训练过拟合的现象；为了增加输入图片的特征信息，同时将YOLOv3的输入图片尺寸从416×416改为608×608，并改变模型训练的batchsize(每次输入神经网络的图片数目，由硬件配置决定)的大小，本发明改为64，即每次迭代同时输入64张图片，使得在相同硬件条件下神经网络模型抓取到舰船目标更详细的特征属性；

步骤2.1：分别针对Faster-RCNN与YOLOv3两类网络进行训练调参；

Faster-RCNN将目标检测与分类分为两步进行：

第一步，通过卷积神经网络得到输入图片的特征图，将特征图输入区域选择网络(用以训练得出舰船目标的参考坐标)得出舰船参考位置；

Input：带标注的训练样本集；

Input：根据第一步输出的位置坐标将目标传入分类网络；

区域选择网络与目标分类网络共享网络参数，通过两步之间的相互迭代达到收敛，收敛条件为准确度AP值不再变化，Faster-RCNN对于目标的位置预测相对准确。

YOLOv3一步到位，将目标的位置检测当成回归问题，同时预测目标的位置信息和类别信息：

Input：带标注的训练样本集；

其中，score是目标概率(Obiect probability)、分类概率(Cls probability)以及预测框与真实框交并比(IOU)相乘积的结果。

YOLOv3的一大特点是将整张图片的特征输入网络，在抓取舰船目标特征的同时会考虑整张图片背景对目标的影响，这样做的结果使得YOLOv3对于背景的误检率相比Faster-RCNN少了一半。

由于YOLOv3的单步策略，没有多余的网络分支，其处理速度相比分类网络有很大的提升。同时针对舰船目标尺寸大小的跨度较大问题，使用K-means聚类算法重新聚类，得到适合于舰船目标识别的锚点(anchors)，从而提升了模型对于舰船目标检测与识别的准确度。但YOLOv3对于小目标的位置检测相对较差；

步骤2.2：通过使用Faster-RCNN和YOLOv3训练好的神经网络，对测试集图片进行检测，统计分析测试结果，对所有类别中准确度AP低于0.8的舰船类别，通过扩充尽可能多的训练样本量及添加负样本，负样本指与舰船目标特征类似，容易对模型产生干扰的目标，包括大桥、堤坝、飞机和建筑物，通过对测试结果进行分析，把错误识别成舰船的其他目标作为负样本加入训练集，提升识别准确率；

步骤2.3：为了进一步提升舰船目标识别的准确度，使用YOLOv3单独训练一个分类模型，将数据集中标注的舰船目标从原始图片中截取出来，预设目标位置信息为固定值(即整个图片为一个舰船目标，不包含背景信息)重新组成新的数据集，从而使YOLOv3模型对于目标类别的预测进一步收敛，分类准确度进一步提升；

步骤3：由于Faster-RCNN与YOLOv3采用不同的目标锚点(anchor)选择方式，Faster-RCNN对目标特征图的每个特征点都预测K个anchor，相比于YOLOv3针对整张图片的网格分割选取方法，anchor数目更多，目标位置参考框更多，成就了Faster-RCNN对目标位置的精确预测能力。而YOLOv3由于其独特地将目标位置预测问题当成回归问题解决，将整张图片输入网络，在输出层回归边界框的位置及其所属的类别，充分考虑目标与背景的关系，成就了YOLOv3对目标类别的精确预测能力，也不可避免的带来其对目标位置尤其是小目标位置的预测能力缺陷。针对不同类型网络的优劣势，提出基于多模型融合的决策树算法(如图2所示)。

式(1)中，max_k1≥kp(k1)表示在所有大于k的阈值k1中，阈值k1所对应的最大准确度值，Δr(k)表示Recall的变化值，N代表测试集中所有目标的个数；经过统计测试集，YOLOv3结果，军舰AP为0.944，民船AP为0.926。Faster-RCNN结果，军舰AP为0.953，民船AP为0.935。根据AP结果，本发明所制作的数据集在Faster-RCNN和YOLOv3模型上表现良好。

之后为了进一步提高舰船目标检测与识别的准确度，提出基于多模型融合的决策树算法。通过决策树的搭建，分析摄像头传回照片的舰船分类，综合多模型处理结果，得出更具针对性的检测识别结果，本发明以军舰目标为例，输出针对军舰识别准确度更高的结果。决策树具体实现步骤如下：

步骤3.1对从模型得出的识别结果进行清洗：

针对同一目标不同模型输出的多个军舰民船识别结果，对目标检测框之间的交并比(IOU)超过阈值的检测框，选取概率分数最高的作为标签，保证同一目标只会存在一个标签。如图3所示，模型对单个目标可能会预测两个不同标签的边界框(多集中在巡逻艇、补给舰、货船等军舰民船特征类似的类别)，但概率值不同，通过第一步清洗，对IOU超过阈值的检测框，只选取概率最高的标签及检测框，从而保证了单个目标只会存在概率最高的一个标签。

步骤3.2：统计每张图片目标识别情况的军舰占比P：

上式中，舰船目标数代表经过步骤3.1清洗后，图片中全部预测框的总数，军舰目标数代表所有预测框中，标签为军舰的预测框数目，根据计算得到的P，设定合适的阈值，本发明的阈值取值0.8，超过阈值且目标数大于一个即证明图片中包含军舰，输出为军舰，阈值的选择根据测试集的识别结果进行修改，寻求最高的识别准确度。这次筛选对图片识别结果要求最高，系统响应速度最快，在多军舰情况下提高模型的响应速度。军舰占比P低于阈值或识别目标数仅为一个(相对多目标的情况，单目标的错误代价更高。因为单目标一旦识别错误，没有其余检测框对其概率进行冲淡，会直接导致最终结果出现错误)时，进入步骤3.4，其余图片进入步骤3.3；

式(3)中，N代表图片中所检测到的舰船目标总数，Pr_n代表第n个军舰目标的预测概率值(由神经网络模型给出)，λ_n代表第n个军舰目标尺寸占所有检测到的军舰目标尺寸之和的比例，图4展示一张图片的S值计算，S_A,S_B,S_C,S_D,S_E代表经过步骤3.1后每个目标分数最高的检测框的面积，Pr_A,Pr_B,Pr_C,Pr_D,Pr_E代表每个检测框的概率，S计算如下：

步骤3.4：针对步骤3.2挑选的单目标图片，使用之前训练好的YOLOv3单分类网络，对多模型输出分类结果不同的单目标图片重新进行检测，将该图片中预测的目标截取出来送入单分类网络进行识别，用此结果替换目标原有的标签，若最终结果为军舰则证明输出图片中包含军舰，从而解决单目标的分类错误高风险问题；

步骤3.5：最后，整个系统返回包含有军舰和民船目标位置及类别信息的结果图；

如图6所示，在测试集随机挑选的2000张图片样本(军舰民船按照1：1比例分布)中，采用多模型融合加决策树、多模型融合无决策树和单模型检测三种方案，所述多模型融合是指采用Faster-RCNN和YOLOv3两种模型，所述决策树指步骤3的决策算法，单模型检测是指从Faster-RCNN和YOLOv3两种模型中任选其一，军舰预警信号的准确率结果如图5所示，由图中可以看出，训练好的两类神经网络模型对舰船检测识别的结果，resnet152准确度98.5％，YOLOv3准确度96.9％，相比resnet152，使用多模型结果融合的方案准确率提升0.2％，多模型融合加决策树，准确率提升0.6％，相比YOLOv3提升更大。说明基于多模型决策级融合的方案对舰船检测识别准确度有积极作用，且算法复杂度低，工程应用性强。