CN110837870B

CN110837870B - 基于主动学习的声呐图像目标识别方法

Info

Publication number: CN110837870B
Application number: CN201911099760.1A
Authority: CN
Inventors: 邓雨田; 姜龙玉
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2019-11-12
Filing date: 2019-11-12
Publication date: 2023-05-12
Anticipated expiration: 2039-11-12
Also published as: CN110837870A

Abstract

本发明公开了一种基于主动学习的声呐图像目标识别方法，包括如下步骤：步骤1：对声呐图像数据集进行数据增强处理以扩充数据集；步骤2：从步骤1划分的训练集中选出一组样本进行标注，构成初始训练集，并将这些初始训练集的样本从总的训练集中剔除；步骤3.使用初始训练集训练YOLO模型；步骤4：在剔除初始训练集后的剩余样本训练集中利用主动学习样本选择策略挑选一组样本，将选择出的样本进行人工标注，加入训练集训练YOLO模型；步骤5：重复步骤4，直至剩余样本训练集中所有的样本都被选择；步骤6：YOLO模型训练结束，保存权重、经测试集测试以后输出YOLO模型的精度。本发明极大地降低标注成本，并得到理想的精度。

Description

基于主动学习的声呐图像目标识别方法

技术领域：

本发明涉及一种基于主动学习的声呐图像目标识别方法，属于计算机视觉、海洋学等多学科交叉领域。

背景技术：

声呐图像目标识别技术拥有十分广阔的应用场景，如海洋生物的定位、分类与跟踪，尸体、沉船、飞机残骸等物体的打捞，海洋环境探测等，也多用于军事方面，如潜艇、鱼雷、蛙人等军事目标的识别，具有很高的研究价值。

深度学习是一种使用多层网络结构以习得目标更抽象、本质的特征的机器学习模式。相对于浅层学习来说，由于网络结构更为复杂，深度学习更加有利于目标识别任务。当输入训练数据时，深度学习利用其网络结构特性，逐层提取输入数据的特征，从而使目标识别中的分类和定位任务的准确性得到较大的提升。近年来，深度学习在计算机视觉领域取得了重大突破，得到了广泛的应用。

目前，深度学习技术已被用于声呐图像目标识别，但它的性能依赖于训练样本的数量和质量，要求训练样本数量大、标记准确。获取大量标记样本是一件耗时且昂贵的工作，在声呐领域还需要有一定的专业背景知识的专家才能完成标注。另一方面，由于声呐设备、传感器等硬件的发展，获取大量未标记样本越来越容易。另外，过多的较低质量的标记样本反而会降低模型的性能，甚至导致“过学习”问题。对于这样一个问题，主动学习给出了其解决方案：在大量未标记样本中依据一定的样本选择算法，从中挑选对模型的训练价值较高的样本交由专家标注后加入训练集来提高模型的精度，以降低领域专家的工作量，而并非将所有的样本进行标记后训练模型。

发明内容

针对上述存在的问题，本发明提出了一种基于主动学习的声呐图像目标识别方法。通过主动学习策略，根据不同数据样本对于学习模型的贡献度不一样的基本原理，制定多种选择标记样本的标准，选取一部分最有价值的数据交给人工进行标注，极大地降低标注成本，并得到理想的精度。

上述的目的通过以下技术方案实现：

一种基于主动学习的声呐图像目标识别方法，该方法包括如下步骤：

步骤1：对声呐图像数据集进行数据增强处理以扩充数据集，采用“留出法”将数据集划分为两个互斥的集合，一个作为训练集，一个作为测试集；

步骤2：从步骤1划分的训练集中选出一组样本进行标注，构成初始训练集，并将这些初始训练集的样本从总的训练集中剔除；

步骤3.使用初始训练集训练YOLO模型；

步骤4：在剔除初始训练集后的剩余样本训练集中利用主动学习样本选择策略挑选一组样本，将选择出的样本进行人工标注，加入训练集训练YOLO模型，并将选出的样本从剩余样本训练集中剔除；

步骤5：重复步骤4，直至剩余样本训练集中所有的样本都被选择；

步骤6：YOLO模型训练结束，保存权重、经测试集测试以后输出YOLO模型的精度。

所述的基于主动学习的声呐图像目标识别方法，步骤1中所述对声呐图像数据集进行数据增强处理以扩充数据集，所述的数据增强处理的方法包括：随机裁剪、调整曝光度、调整饱和度、调整色调、左右翻转、上下翻转、顺时针旋转90°、顺时针旋转180°、顺时针旋转270°。

所述的基于主动学习的声呐图像目标识别方法，步骤1中所述采用“留出法”将数据集划分为两个互斥的集合，一个作为训练集，一个作为测试集的具体方法是：先将扩充后的数据集中的图片随机排列；然后随机抽取75％的图片及对应标签作为训练集，剩下的25％作为测试集。

所述的基于主动学习的声呐图像目标识别方法，步骤2中所述从步骤1划分的训练集中选出一组样本进行标注，构成初始训练集的过程中，首先根据边缘方向直方图用k-medoids算法对训练集进行聚类，选取最具代表性的100张图像作为初始训练样本集。

所述的基于主动学习的声呐图像目标识别方法，步骤4中所述利用主动学习样本选择策略挑选一组样本，其中所述主动学习样本选择策略包括：基于分类不确定性的样本选择策略；改进的基于分类不确定性样本选择策略；基于数据增强一致性的样本选择策略。

所述的基于主动学习的声呐图像目标识别方法，所述基于分类不确定性的样本选择策略的具体步骤是：是从未标注样本集中选择此时模型最难预测的样本，即选择后验概率最低的样本，对于样本预测结果的每一个边界框，定义评价指标分类不确定性U_V(V)，其计算公式如下所示：

U_B(B)＝1-P_max(B)

其中，P_max(B)表示该边界框中预测类别概率中最大的概率值，

在一个样本中，往往有多个预测边界框，取所有预测边界框分类不确定性最大的边界框的U_B(B)值来代表此样本的分类不确定性U_C(I)，其算法流程如下：

a.用此时的模型检测未标注样本集中的所有样本，每个样本得到其边界框的预测值；

b.对于每个样本，计算其分类不确定性U_C(I)；

c.将所有未标记样本按照分类不确定性U_C(I)从大到小的顺序排序；

d.根据排序选择前n个样本，交给专家标注后加入训练集，其中，n为此轮规定的选择样本的数量。

所述的基于主动学习的声呐图像目标识别方法，所述改进的基于分类不确定性样本选择策略的具体步骤是：

定义分类不确定性指标为

对于其计算公式如下所示：

U_Cnew＝|log(P_max)+αlog(s²)|

其中，P_max(B)表示该边界框中预测类别概率中最大的概率值；α是一个权重参数，表示最大概率值与各类概率值离散程度在此指标中所占的权重，经过实验验证，α设置为0.2；s²表示预测所有类的概率的方差，表示各类概率值的离散程度，其计算公式如下所示：

其中，n表示总类别数，x_i表示边界框中第i类的概率，

为概率值的均值，其计算公式如下所示：

对于一个样本来说，取所有预测边界框分类不确定性最大的边界框的

值来代表此样本的新的分类不确定性

所述的基于主动学习的声呐图像目标识别方法，所述基于数据增强一致性的样本选择策略的具体步骤为：选择数据增强的方式为左右翻转，计算原图I以及其翻转图像I′的预测误差的算法的基本流程为：

a.将翻转图像I′的预测边界框的位置做相应的翻转处理，翻转图像I′是图像I经过左右翻转得到的，那么就需要将I′的预测边界框也进行左右翻转处理；

b.根据图像I与其翻转图像I′预测边界框，计算预测类别和位置的误差，得到两者误差；

其中，若图像I只需预测一个目标，则可将两张图像的预测边界框直接进行计算，但是对于一张图像预测多个目标的情况，需要判断翻转图像中的预测框与原图像中的预测框如何一一对应，对于一张图像I，有n个预测边界框B₁，B₂，...，B_n；其翻转图像I′，有m个预测边界框B₁，B₂，...，B_m，其中，翻转图像I′的m个预测边界框已经过翻转处理，对于每个预测边界框，都有坐标(x，y)表示边界框中心的位置，判断流程如下：

b1.计算图像I的n个预测边界框B₁，B₂，...，B_n与翻转图像I′的m个预测边界框B₁，B₂，...，B_m的距离，得到dis(B_i，B_j)，其中，1≤i≤n，1≤j≤m。dis(B_i，B_j)的计算如下所示：

b2.将步骤b1中计算所得的这m×n组距离按从小到大的顺序排序，得到距离数组Dis；

b3.选取距离最小的一组边界框B_p，B_q(1≤p≤n，1≤q≤m)，认为原图I的边界框B_p与翻转图像I′的边界框B_q是相对应的一组边界框；

b4.将m×n组dis(B_i，B_j)距离中i＝p或j＝q的距离删去；

b5.重复步骤b3-b4，直至数组Dis为空；

原图与其翻转图像预测的类别误差记为L_class(I，I′)，类别误差的计算如下所示：

其中，N为类别总数(实验中N＝3)；max(m，n)为m，n中较大的值；p_ij为原图中第i(i＝1,2,3，...，max(m，n))个预测框对于第j(j＝1,2，...，N)类的预测概率值，若n<m，则p_ij＝0(n＜i＜m)；p_i′j为翻转图像中第i′(i′＝1，2，3，...，max(m，n))个预测框对于第j(j＝1,2，...，N)类的预测概率值；若m＜n，则p_i′j＝0(m＜i′＜n)；若n＜m，则p_ij＝0(m＜i＜n)；

原图与其翻转图像预测的定位误差记为L_location(I，I′)，类别误差的计算如下所示，其中，IoU(B_i，B_i′)为边界框B_i，B_i′的交并比值：

定义基于数据增强一致性的样本评价指标S_DA(I)，其值为原图以及其翻转图像的类别误差与预测框的定位误差之和，计算公式如下所示：

S_DA(I)＝L_class(I，I′)+αL_location(I，I′)

其中，α是一个权重参数，表示类别误差与定位误差在此指标中所占的权重，经过实验验证，在本发明中α设置为1。

有益效果：

1.本发明将主动学习技术与深度学习技术相结合，构建了一个基于主动学习的目标识别框架。较之与传统的声呐图像目标识别方法提升了准确率，识别mAP值在95％以上。

2.本发明的三种主动学习样本选择策略较之传统方法能有效节省标注样本，只用较少的样本对模型进行训练就可以达到用大量经过随机选择的样本训练的样本相同的性能。其中，基于分类不确定性的改进样本选择方法比未改进时在节省样本方面有更优的表现，改进方法的平均节省样本比例为0.3440，未改进的方法平均节省样本比例为0.1952。在这三种样本选择方法中，本发明提出的基于数据增强一致性的样本选择方法平均节省样本数最多，平均节省样本比例为0.4232。

附图说明

图1为本发明整体框架示意图；

图2为本发明流程示意图；

图3为本发明目标识别YOLO网络结构示意图。

具体实施方式

下面对本发明技术方案进行详细说明，但是本发明的保护范围不局限于所述实施例。

图1为本发明提出的基于主动学习的声呐图像目标识别框架示意图。此框架主要分为三个模块：数据预处理模块、主动选择模块、目标识别模块。

其中，数据预处理模块是对每一张声呐数据图像做数据增强处理，包括随机裁剪、调整曝光度、调整饱和度、调整色调、左右翻转、上下翻转、顺时针旋转90°、顺时针旋转180°、顺时针旋转270°等操作，使得数据集样本的数量得到扩充。

其中，w、h分别为图片的宽、高，图片原始左上角坐标为(x_min,y_min)，右下角坐标为(x_max,y_max)，经过变换后左上角坐标为(x_min′,y_min′)，右下角坐标为(x_max′,y_max′)：

随机裁剪：按照原图80％的比例进行随机裁剪，生成5张图像，再resize为原图600*600的大小。对于其标签，进行手动标注。

调整曝光度：对原图的曝光度进行调整。将图像从RGB(Red，Green，Blue)色彩空间转换到HSV(Hue，Saturation，Value)色彩空间，调整图像在HSV色彩空间的第三个通道Value(明度)的数值，生成3张曝光度不同的图像。其标注信息与原图一致。

调整饱和度：对原图的饱和度进行调整。将图像从RGB(Red，Green，Blue)色彩空间转换到HSV(Hue，Saturation，Value)色彩空间，调整图像在HSV色彩空间的第二个通道Saturation(饱和度)的数值，生成3张饱和度不同的图像。其标注信息与原图一致。

调整色调：对原图的色调进行调整。将图像从RGB(Red，Green，Blue)色彩空间转换到HSV(Hue，Saturation，Value)色彩空间，调整图像在HSV色彩空间的第一个通道Hue(色调)的数值，生成3张色调不同的图像。其标注信息与原图一致。

左右翻转：将原图进行左右镜面翻转。其标注信息目标类别名称不变，边界框的坐标变换如下所示：

上下翻转：将原图进行上下镜面翻转。其标注信息目标类别名称不变，边界框的坐标变换如下所示：

顺时针旋转90°：将原图顺时针旋转90°。其标注信息目标类别名称不变，边界框的坐标变换如下所示：

顺时针旋转180°：将原图顺时针旋转180°。其标注信息目标类别名称不变，边界框的坐标变换如下所示：

顺时针旋转270°：将原图顺时针旋转270°。其标注信息目标类别名称不变，边界框的坐标变换如下所示：

目标识别模块包括训练模块和测试模块。

训练模块的功能是用训练集中已标记的样本对模型进行训练，测试模块的功能是计算模型的精度和测试未标记样本的主动学习指标(例如类别不确定性等)。主动学习模块包括样本选择模块和人工标注模块。样本选择模块是本框架的核心，此框架中实现了四种不同的样本选择策略，包括随机选择策略、基于分类不确定性的选择策略、改进的基于分类不确定性的选择策略、基于数据增强一致性的选择策略。此模块需要用目标识别模块当时已训练好的来计算未标记样本的主动学习相关指标。人工标注模块的功能是将由样本选择模块选出的样本进行人工标注，并加入到训练集中。

图2为本发明提出的基于主动学习的声呐图像目标识别框架具体流程示意图。本发明的流程为：

步骤3.使用初始训练集训练YOLO模型；

在步骤2中，本发明采用的是YOLO模型，其结构示意图如图3所示。此网络包含了53个卷积层来提取图像的特征，并在一些层之间设置了shortcut层，用来连接两层不相邻的网络的输入和输出，使得网络层次变得更深。同时，此网络在多个尺度上对物体进行了检测，提升了模型的mAP值。

在实验过程中，原数据集描述如表1所示：

表1原数据集描述

经过步骤1中的数据增强操作后，数据集图片数量扩充为原数量的20倍。采用“留出法”(hold-out)，将数据集划分为两个互斥的集合，一个作为训练集，一个作为测试集。具体划分流程如下：

(1)为了保持数据分布的一致性，先将数据集中的2180张图片随机排列；

(2)随机抽取75％的图片及对应标签作为训练集，剩下的25％作为测试集。训练集一共1635个样本，测试集一共545个样本。

在步骤2中，为了比较几种主动学习中的样本选择算法在YOLO目标识别框架上的性能，设置了4组实验：

(1)基于分类不确定性的样本选择策略；

(2)改进的基于分类不确定性的样本选择策略；

(3)基于数据增强一致性的样本选择策略；

(4)随机样本选择策略(作为对照)。

所述基于分类不确定性的样本选择策略的具体步骤是：是从未标注样本集中选择此时模型最难预测的样本，即选择后验概率最低的样本，对于样本预测结果的每一个边界框，定义评价指标分类不确定性U_B(B)，其计算公式如下所示：

U_B(B)＝1-P_max(B)

b.对于每个样本，计算其分类不确定性U_C(I)；

所述改进的基于分类不确定性样本选择策略的具体步骤是：

定义分类不确定性指标为

对于其计算公式如下所示：

U_Cnew＝|log(P_max)+αlog(s²)|

其中，n表示总类别数，x_i表示边界框中第i类的概率，

为概率值的均值，其计算公式如下所示：

值来代表此样本的新的分类不确定性

所述基于数据增强一致性的样本选择策略的具体步骤为：选择数据增强的方式为左右翻转，计算原图I以及其翻转图像I′的预测误差的算法的基本流程为：

b4.将m×n组dis(B_i，B_j)距离中i＝p或j＝q的距离删去；

b5.重复步骤b3-b4，直至数组Dis为空；

其中，N为类别总数(实验中N＝3)；max(m，n)为m，n中较大的值；p_ij为原图中第i(i＝1,2,3，...，max(m，n))个预测框对于第j(j＝1，2，...，N)类的预测概率值，若n<m，则p_ij＝0(n＜i＜m)；p_i′j为翻转图像中第i′(i′＝1,2,3，...，max(m，n))个预测框对于第j(j＝1,2，...，N)类的预测概率值；若m<n，则p_i′j＝0(m＜i′＜n)；若n＜m，则p_ij＝0(m＜i＜n)；

S_DA(I)＝L_class(I,I′)+αL_location(I,I′)

首先根据边缘方向直方图用k-medoids算法对训练集进行聚类，选取最具代表性的100张图像作为初始训练样本集，并对初始模型进行训练。随后，根据本发明所选择和提出的样本选择策略，迭代地从剩余的训练集中每次选择100张图像标记后加入训练集中对模型进行重新训练，直至剩余训练集为空。在计算模型的精度时，当测试集经模型预测后检测出的边界框与真实边界框的IoU大于0.5时，记为正确标记。当样本选择策略为随机选择时，由于随机选择的不确定性导致实验结果的波动，故进行了10次实验，结果取其平均值。

实验对本发明的三种样本选择算法以及随机样本选择对数据集进行15次选择(第一次为初始选择)，每次选择100个样本，将选择出的样本标记后加入训练集，重新训练模型，每次得到新模型后都用包含436个样本的训练集对模型精度进行评估，模型的mAP值随选择样本次数变化结果表2所示。其中，Random表示随机选择样本策略，CU old表示未改进的基于分类不确定性的样本选择策略，CU new表示改进后的基于分类不确定性的样本选择策略，DA表示基于数据增强一致性的样本选择策略。

表2模型mAP值随选择样本次数变化表

随着选择样本次数的增加，训练集中的样本越来越多，四种方法都能使模型最终达到相同且较为稳定的mAP值，但三种主动学习样本选择算法明显比被动学习的随机样本选择方法利用更少的样本达到更高的精度，这证明了主动学习算法是有效的。在选择样本次数(即训练集中标记样本的数量)一致时，改进后的基于分类不确定性的样本选择方法相较于未改进时的基于分类不确定性的样本选择方法而言，在达到稳定之前能达到更高的精度，这证明改进后的分类不确定性的样本选择方法相较于原方法性能有了一定的提升。在三种主动学习算法中，性能最优的是本发明提出的基于数据增强一致性的样本选择方法，此方法利用200张样本就使模型的mAP值达到了82.24％，相较于两种基于分类不确定性的样本选择方法性能有较大的提升。基于数据增强一致性的样本选择方法与基于分类不确定性的样本选择方法最大的不同是考虑了模型对于原图及其数据增广集预测的定位框位置的差异，这种对于定位的考虑改善了模型对于定位的预测，从而使得在计算mAP值时，大于正确预测阈值的边界框的数量增多，从而提升了mAP值。

以传统的随机样本选择策略为基线，表3计算了16轮样本选择中主动学习相对于传统学习节省样本比例的平均值。可以看出，三种主动学习样本选择方法都能有效地节省标记样本。其中，基于分类不确定性的改进样本选择方法比未改进时在节省样本方面有更优的表现，改进方法的平均节省样本比例为0.3440，未改进的方法平均节省样本比例为0.1952。在这三种样本选择方法中，本发明提出的基于数据增强一致性的样本选择方法平均节省样本数最多，平均节省样本比例为0.4232。

表3主动学习算法平均节省样本比例

本发明提出了一种基于主动学习的声呐图像目标识别方法，具体实现该方案的方法途径有很多，以上所述仅为本发明的优选实施方案，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明的前提下，还可做出若干改进和润饰，这些改进和润饰也应当视为本发明的保护范围内。本实施例中为明确的部分均可用现有技术加以实现。

Claims

1.一种基于主动学习的声呐图像目标识别方法，其特征在于，该方法包括如下步骤：

步骤3.使用初始训练集训练YOLO模型；

步骤6：YOLO模型训练结束，保存权重、经测试集测试以后输出YOLO模型的精度；

步骤4中所述利用主动学习样本选择策略挑选一组样本，其中所述主动学习样本选择策略包括：基于分类不确定性的样本选择策略；改进的基于分类不确定性样本选择策略；基于数据增强一致性的样本选择策略；

U_B(B)＝1-P_max(B)

b.对于每个样本，计算其分类不确定性U_C(I)；

d.根据排序选择前n个样本，交给专家标注后加入训练集，其中，n为此轮规定的选择样本的数量；

所述改进的基于分类不确定性样本选择策略的具体步骤是：

定义分类不确定性指标为对于其计算公式如下所示：

U_Cnew＝|log(P_max)+αlog(s²)|

其中，α是一个权重参数，表示最大概率值与各类概率值离散程度在此指标中所占的权重，经过实验验证，α设置为0.2；s²表示预测所有类的概率的方差，s²用来表示各类概率值的离散程度，其计算公式如下所示：

其中，n表示总类别数，x_i表示边界框中第i类的概率，为概率值的均值，其计算公式如下所示：

对于一个样本来说，取所有预测边界框分类不确定性最大的边界框的值来代表此样本的新的分类不确定性

b1.计算图像I的n个预测边界框B₁，B₂，...，B_n与翻转图像I′的m个预测边界框B₁，B₂，...，B_m的距离，得到dis(B_i，B_j)，其中，1≤i≤n，1≤j≤m，dis(B_i，B_j)的计算如下所示：

其中1≤i≤n，1≤j≤m

b4.将m×n组dis(B_i，B_j)距离中i＝p或j＝q的距离删去；

b5.重复步骤b3-b4，直至数组Dis为空；

其中，N为类别总数，实验中N＝3；max(m，n)为m，n中较大的值；p_ij为原图中第i个预测框，i＝1,2,3，...，max(m，n)，对于第j类的预测概率值，j＝1,2，...，N，若n<m，则p_ij＝0；p_i′j为翻转图像中第i′个预测框对于第j类的预测概率值，i′＝1,2,3，...，max(m，n)；若m<n，贝p_i′j＝0，m<i′<n；若n<m，则p_ij＝0；

S_DA(I)＝L_class(I，I′)+αL_location(I，I′)

2.根据权利要求1所述的基于主动学习的声呐图像目标识别方法，其特征在于，步骤1中所述对声呐图像数据集进行数据增强处理以扩充数据集，所述的数据增强处理的方法包括：随机裁剪、调整曝光度、调整饱和度、调整色调、左右翻转、上下翻转、顺时针旋转90°、顺时针旋转180°、顺时针旋转270°。

3.根据权利要求1所述的基于主动学习的声呐图像目标识别方法，其特征在于，步骤1中所述采用“留出法”将数据集划分为两个互斥的集合，一个作为训练集，一个作为测试集的具体方法是：先将扩充后的数据集中的图片随机排列；然后随机抽取75％的图片及对应标签作为训练集，剩下的25％作为测试集。

4.根据权利要求1所述的基于主动学习的声呐图像目标识别方法，其特征在于，步骤2中所述从步骤1划分的训练集中选出一组样本进行标注，构成初始训练集的过程中，首先根据边缘方向直方图用k-medoids算法对训练集进行聚类，选取最具代表性的100张图像作为初始训练样本集。