CN113052200A

CN113052200A - 一种基于yolov3网络的声呐图像目标检测方法

Info

Publication number: CN113052200A
Application number: CN202011453739.XA
Authority: CN
Inventors: 曾庆军; 马启星; 戴晓强
Original assignee: Jiangsu University of Science and Technology
Current assignee: Jiangsu University of Science and Technology
Priority date: 2020-12-09
Filing date: 2020-12-09
Publication date: 2021-06-29
Anticipated expiration: 2040-12-09
Also published as: CN113052200B

Abstract

本发明公开了一种基于yolov3网络声呐图像目标识别方法，该方法对于海底小目标或有遮挡物的目标起到很好的识别效果，本发明属于一种计算机视觉深度学习目标检测、多特征融合的目标检测方法，通过多尺度跨层检测并结合深层语义信息与浅层语义信息，更好适应了对小目标检测。针对原始yolov3算法在声呐图像目标检测上的检测精度不高、目标框出现误检和小目标漏检的问题，本发明提出了改进检测算法MY‑YOLOV3，并在多尺度特征融合中加入DCA融合策略，提高模型对声呐目标的检测能力。本发明以MY‑YOLOV3为算法框架，采用GIOU作为边框损失函数的参数，提升模型对边界框位置信息的预测准确度。本发明加强了模型的鲁棒性，使得目标框的定位误差大大的减小。

Description

一种基于yolov3网络的声呐图像目标检测方法

技术领域

本发明涉及一种水下ROV所携带的多波束声呐，尤其涉及一种基于yolov3网络的目标检测方法，属于计算机视觉深度学习声呐图像目标检测领域。

背景技术

随着声呐技术的快速发展，水下声呐图像分类领域的研究正在不断深入。基于声呐图像的水下目标识别技术应用广泛，民用和军用技术等都有巨大需求。声呐图像的目标检测与识别是目标检测领域的重要研究课题。传统声呐图像目标检测识别基于特征方法，如水下目标形状、纹理等特征，识别的效果往往取决于特征选取的好坏。然而由于海洋环境的复杂性以及水下目标的多变性，这类方法已经无法满足现今水下目标检测和识别的新要求。近年来，随着深度学习方法的发展，基于深度学习的方法被广泛应用到目标检测中并发展出一系列检测模型，深度学习模型是通过内部网络结构自动提取图像特征，对图像分类有着重要影响。这些模型在光学图像检测领域中取得了巨大成功，相比之下，在声呐图像目标检测中的应用较少。

随着现代光电技术的快速发展，声呐的成像精度得到了很大提高，目标探测距离也大大提升。因此，以声呐作为核心传感器，结合图像信息处理技术，可以建立一个大范围水下目标探测系统。

但是由于声信息传输信道水声信道具有复杂和多变的特性，以及声波本身的透射特性，使得前视声呐图像具有明显的自身特性。由于声学阴影和旁瓣效应，单个目标在前视声呐图像上可能分裂成多个亮斑，水中其它物体以及不平整的水下等区域会在声图像中形成弧线状的亮区，导致声呐图像目标检测的困难性，随着卷积神经网络技术迅速发展，其主要特点是前端输入采用了若干层局部互联的神经元用于提取图像信息，充分考虑了图像目标在空间中符合的平移、旋转和缩放不变性，由相同结构的神经元组成,且只接受前一层该神经元对应领域内少部分神经元的输入，使神经网络既保持较大的前端规模，又能减少可变调整参数的数量，大大降低了计算量和参数优化的负担，较人工神经网络有更好的学习能力和智能性。此外，深层卷积神经网络是一个自动学习滤波器,能够发现更多可用特征,且嵌套功能的深层结构网络会产生高度非线性决策,越来越多的可用水下图像数据能够提升其分类能力。当大量数据和充足的计算资源相协调时，深层神经网络可以实现很好的水下目标分类效果。据此，很多研究将深度卷积神经网络的方法用于声呐图像的分类方面，通过不断改进使其在有大量参数存在的情况下不产生过度拟合的现象。水下目标检测针对小目标的检测、有遮挡物和相互靠近物体的检测效果会不太好。其中大多会通过训练过程扩大学习过程中可用训练数据的数量，自动学习相似水下目标类之间的有用差异，增强水下目标分类的精度。

声呐图像好坏可以说是一切工作的前提，由于多波束前视声呐所扫描形成的图像自身的局限性，以及水下环境的复杂性，因此对于声呐的去噪、特征增强显得格外重要。申请号为“201711036788.1”的专利文献公开了一种“基于深度学习技术的声呐图像目标识别方法”，由于采用深度学习的方法，需要大量的数据进行支撑，使得声呐图像的处理变得复杂。申请号为“200810064436.1”的专利文献公开了一种“基于分层MRF的声呐图像自适应分割方法”，但是此算法的可靠性需要大量的测试、图像处理的自适应性需要进一步提高。

发明内容

本发明的目的在于提供一种基于yolov3网络的声呐图像目标检测方法，深度学习目标检测模型在光学影像中都具有很好的表现，但是不一定和声学图像适配，和针对原始yolov3 算法在声呐图像目标检测精度不高、目标框出现误检和小目标漏检的问题，因此需要改进模型的网络结构和参数来保证水下目标检测的准确、稳定、高效。通过多尺度跨层检测结合深层语义信息和浅层语义信息，对不同大小的特征层进行独立预测，更好适应了对小目标的检测。

本发明的目的通过以下技术方案予以实现：

一种基于yolov3网络的声呐图像目标检测方法，该方法包含下列步骤：首先增加了 26*26和52*52尺度特征图提高对中等以及偏小目标预测精度以及对锚框个数的选取，接着 YOLOv3采用了没全连接层的Darknet-53主干网络并通过上采样结合了多层特征图进行多尺度检测，然后设置的Set conv模块和Yolo layer模块是由1*1和3*3的卷积层组成，concat层表示拼接层将上采样的特征图拼接起来用于检测目标，在多尺度特征融合中加入DCA融合策略(Discriminant Correlation Analysis判别相关分析)，提高检测能力，最后，以本发明网络MY-YOLOV3为算法框架，采用GIOU(Generalized Intersection over Unio泛化版交并比)作为边框损失函数的参数，提升模型对边界框位置信息的预测准确度。

如前述的基于yolov3网络的声呐图像目标检测方法中锚边框聚类方法选取，所述其中锚边框聚类方法选取包括以下六个步骤：

步骤1：将所有的bounding box(预测框)坐标提取出来，同时需要无区别的将所有图片的所有框提取出来；

步骤2：获得所有训练数据bounding boxes(预测框)的宽高数据，训练数据往往是其bounding box的4个坐标，将坐标数据转换为框的宽高大小；

步骤3：初始化k个anchor boxes(锚边框)，通过在所有的bounding boxes(预测框)中随机选取k个值作为k个anchor boxes(锚边框)的初始值；

步骤4：计算每个bounding box(预测框)与每个anchor box(锚边框)的IOU值，并更新anchor box(锚边框)；

YOLOv3通过k-means聚类出锚边框用来逻辑回归边界框，为了减小锚框大小对检测的影响采用矩形框的平均交并比(Avg IOU)对训练集所有目标使用k-means聚类获得锚框的大小，聚类的平均交并比目标函数p可由以下公式表示：

d(bos,cen)＝1-IOU(box,cen) (2)

公式中IOU表示真实框和预测框交集面积和并集面积的比值，公式2为利用 k-means聚类算法的距离度量，其中box表示矩形框大小，cen表示一个簇中心矩形框的大小，公式3中b表示样本，c表示通过k-means算法选择的簇中心，mk表示第k个聚类中样本的个数，m表示样本总个数，k表示聚类中心个数，i和j分别表示样本序号和聚类中的样本序号；

步骤5：重复步骤4，直到anchor box不再变化，或者达到了最大迭代次数；

步骤6：本发明方法重新筛选制作了包括声呐目标检测的大、中、小三个类别的数据集进行实验，根据数据集中目标宽高的分布，分析锚框个数k＝1～9对数据集聚类分析得到 k和Avg IOU的关系，平均交并比随着锚框个数增加而增加，由于本发明模型保留三层检测层，最终选取9个锚框。

如前述的所述的结合多层特征图进行多尺度检测，针对实时目标检测精度不佳的问题，本发明提出了一种新的yolov3网络结构，加强了yolov3实时目标检测和小目标的性能。深层特征语义信息更加丰富但是目标位置较粗略，而浅层特征虽然语义信息少但是目标位置更准确，yolov3通过多尺度跨层检测结合深层语义信息和浅层语义信息，对不同大小的特征层进行独立预测，更好适应了对小目标的检测。其中针对卷积层特征网络改进包括以下两个步骤：

步骤1：YOLOv3网络采用了三个尺度特征图对应不同大小的锚框。尺度越小，感受野越大，分辨率越小，对小目标越不敏感，输入为416pixel*416pixel时，尺度13*13可以用来预测大目标，而对于小目标检测精度将会大幅下降，所以增加了26*26和52*52尺度特征图提高对中等以及偏小目标预测精度；

步骤2：为了进一步适应对小目标的检测进而提高其检测精度，将Darketnet-53网络的第36层、11层和第8层拼接融合到小目标检测层。以输入为256pixel*256pixel为例，通过上采样将36层的32pixel*32pixel与11层、8层的64pixel*64pixel拼接作为第三个yolo检测层，同时加入两层3*3卷积层和三层1*1卷积层增加网络深度，这些操作虽然提高了检测精度但是也增加了检测时间。

如前述的基于DCA特征融合策略方法，YOLOV3对于融合高低层特征图，采用的是concat通道拼接算法，即将高低层特征图的通道数直接相加，尺度不变，结果作为局部特征交互模块的输入，这种做法简单，但是，两特征层相关不强而产生冗余信息，这些信息影响后续其他策略的执行，从而造成目标漏检的问题。为此，引入DCA特征融合策略，此策略在CCA(Canonical Correlation Analysis典范相关分析)的基础做了改进，使得两个特征层之间的差异更为突出，同时最大化两者之间的相关性，更好的融合不同模式下提取的信息，进而使得经过交互模块的待检测输入的特征信息更加丰富。其中DCA特征融合策略包括以下三个步骤：

步骤1：首先假设样本数矩阵来C个单独的类，为此，n列数据可以分为C个单独的类。假设n_i列属于第i类，对于i类的第j个样本，即特征向量，记为x_ij。

和

分别表示所有特征集合的平均值和第i类特征的平均值。由此得到的类间散布矩阵如下：

其中有：

步骤2：为了更好的区分类别，

应该是一个对角化矩阵，满足定义：

其中P是正交特征向量矩阵，

是实非负特征值正交矩阵，r是由公式表示的最大非零特征向量矩阵

那么矩阵P的定义如公式(6)所示：

r的最显著特征

可以通过

映射得到，

为转移矩阵，归一化S_bx并对数据矩阵进行降维P→r，记输入的其中一个特征集为 X，则X在空间上的投影X′的求解如公式(7)和(8)所示：

W_bx ^TS_bxW_bx＝I (7)

同理可得另一输入特征集Y在空间上的投影Y′，公式如下(9)和(10)：

W_by ^TS_byW_by＝I (9)

步骤3：为了让X与Y的特征保持非零相关，利用SVD(Singular ValueDecompostion 奇异值分解)对两者的协方差矩阵进行对角化，先定义S′_xy＝X′Y′^T，那么对角化推算如下：

紧接着定义W_cx＝U∑^-1/2，W_cy＝U∑^-1/2，这样就能得到(v∑^-1/2)S′_xy(U∑^-1/2)^T＝I,最后进行转换，得到新的特征集X^*,Y^*,如公式(12)和(13)所示：

X^*＝W_cx ^TX′＝W_cx ^TW_bx ^TX＝W_xX (12)

Y^*＝W_cy ^TY′＝W_cy ^TW_by ^TY＝W_xY (13) 如前述的边框损失函数损参数优化，边框损失函数使用GIOU之后，模型平均损失收敛更快，所述其中损失优化方法选取包括以下三步骤：

步骤1：对网络模型超参数的设定，损失优化，在训练过程中，首先通过预测值与真实值比较得到loss函数，判断训练次数，当次数小于设定的次数，再根据loss反向传播更新模型参数。本发明引入GIOU(Generalized Intersection over Unio泛化版交并比)，对于预测框A和真实框B，先求出A和B的最小凸包(包含AB框的最小包围圈)C，再根据交并比IOU的值得到泛化版交并比GIOU，具体的计算公式如下(14)和(15)所示：

式中，C表示预测框和真实框的最小包围框的面积，A∪B表示真实框和预测框的面积之和减去两者的重叠面积；

步骤2：由上述式，GIOU总是小于等于IOU，其值位于区间[0,1]，所以GIOU的值位于区间[-1,1]，当预测框和真实框完全重合的时候，GIOU＝1。当预测框和真实框不重合，即IOU 为零值，GIOU越接近-1，两者的距离越远。GIOU作为边框评价指标时，边框代价函数如公式(16)所示。

Loss_box＝1-GIOU (16)

步骤3：最后，整个模型的损失函数如公式(17)所示：

其中，第一部分为边框损失；第二部分为类别损失，

的取值是由网络单元代表的边界框是否负责预测某个对象决定。

为参与预测的边界框含有目标的置信度。若边界框不参与目标预测，但是其与真实框的IOU值大于设定的阈值，那么G_ij值为0，其他的情况下，其值为1。第三部分为置信度损失，同样

也表示边界框是否预测对象。

本发明的有益效果为：

本发明针对水下环境低对比度、高噪声的特性，解决水下数据集不足的情况,防止过拟合，本方法可以用于多目标多特征的检测当中，通过基于yolov3的网络模型很好的完成目标分类任务，提高目标分辨力，提高鲁棒性，并且yolov3通过多尺度跨层检测结合深层语义信息和浅层语义信息，对不同大小的特征层进行独立预测，更好适应了对小目标的检测，改进模型的网络结构和参数来保证水下目标检测的准确、稳定、高效。针对原始YOLOV3算法在声呐图像目标检测上的检测精度不高、目标框出现误检和小目标漏检的问题，本发明提出了改进检测算法MY-YOLOV3，并在多尺度特征融合中加入DCA融合策略(Discriminant Correlation Analysis判别相关分析)，提高模型对声呐目标的检测能力。最后，以MY-YOLOV3 为算法框架，采用GIOU(Generalized Intersection over Union泛化版交并比)作为边框损失函数的参数，提升模型对边界框位置信息的预测准确度。同时加入的GIOU(Generalized Intersection over Union泛化版交并比)边框损失，拉低了模型的平均损失，加强了模型的鲁棒性，使得目标框的定位误差大大的减小。

附图说明

图1是本发明的网络模型改进图；

图2是本发明目标检测流程图；

图3是本发明网络结构连接图；

图4是本发明加入DCA策略流程图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步说明。

如图1所示，提出了一种基于YOLOv3网络结构，加强了YOLOv3实时目标检测的性能，该网络结构深层特征语义信息更加丰富但是目标位置较粗略，而浅层特征虽然语义信息少但是目标位置更准确，YOLOv3通过多尺度跨层检测结合深层语义信息和浅层语义信息，对不同大小的特征层进行独立预测，更好适应了对小目标的检测。在保留三层采样检测的前提下，为了进一步适应对小目标的检测进而提高其检测精度，将Darketnet-53网络的第36层、第11层和第8层拼接融合到小目标检测层。以输入为416pixel*416pixel为例，通过上采样将36层的52pixel*52pixel与11层的104pixel*104pixel拼接作为第三个YOLO检测层，同时加入两层3*3卷积层和三层1*1卷积层增加网络深度，这些操作虽然提高了检测精度但是也增加了检测时间。

如图2所示，是模型训练的过程流程图，首先构建目标数据集，同时对数据集进行聚类分析选取合适数量的锚选框，接着对网络进行构建，对于网络参数进行初始化操作，输入目标图像预训练，然后调整网络模型的结构，并采用DCA策略结合不同特征层的特征做训练，对预测层默认框的参数设定，再对训练集进行数据加强，接着比较默认框和真实框配对值，计算损失函数，最后通过GIOU策略和利用反向传播更新网络权重最后完成训练。

如图3所示，首先增加了26*26和52*52尺度特征图提高对中等以及偏小目标预测精度以及对锚点的选取，接着YOLOv3采用了没全连接层的Darknet-53并通过上采样结合了多层特征图进行多尺度检测，然后设置的Set conv模块和Yolo layer模块是由1*1和3*3的卷积层组成，concat表示拼接层将上采样的特征图拼接起来用于检测目标。

如图4所示，首先假设样本数矩阵来C个单独的类，为此，n列数据可以分为C个单独的类。记输入的其中一个特征集为X，则X在空间上的投影X′，同理可得另一输入特征集Y在空间上的投影Y′，为了让X与Y的特征保持非零相关，利用SVD(Singular ValueDecompostion奇异值分解)对两者的协方差矩阵进行对角化，最后进行转换，得到新的特征集X^*,Y^*，融合新的特征集。

除上述实施例外，本发明还可以有其他实施方式，凡采用等同替换或等效变换形成的技术方案，均落在本发明要求的保护范围内。

Claims

1.一种基于yolov3网络的声呐图像目标检测方法，其特征在于，主要包括以下步骤：首先增加尺度特征图以及对锚边框聚类方法个数的选取，接着采用了没全连接层的Darknet-53主干网络并通过上采样结合多层特征图进行多尺度检测，在此基础上中加入DCA融合策略(Discriminant Correlation Analysis判别相关分析)，最后，采用GIOU(GeneralizedIntersection over Unio泛化版交并比)作为边框损失函数的参数，提升模型对边界框位置信息的预测准确度。

2.如权利要求1所述的基于yolov3网络的声呐图像目标检测方法中锚边框聚类方法个数的选取，其特征在于，所述其中锚边框聚类方法选取包括以下六个步骤：

d(box,cen)＝1-IOU(box,cen) (2)

公式中IOU表示真实框box_tru和预测框box_pre交集面积和并集面积的比值，area表示面积函数，公式2为利用k-means聚类算法的距离度量，其中box表示矩形框大小，cen表示一个簇中心矩形框的大小，公式3中b表示样本，c表示通过k-means算法选择的簇中心，mk表示第k个聚类中样本的个数，m表示样本总个数，k表示聚类中心个数，i和j分别表示样本序号和聚类中的样本序号；

步骤6：本发明方法重新筛选制作了包括声呐目标检测的大、中、小三个类别的数据集进行实验，根据数据集中目标宽高的分布，分析锚框个数k＝1～9对数据集聚类分析得到k和Avg IOU的关系，平均交并比随着锚框个数增加而增加，由于本发明模型保留三层检测层，最终选取9个锚框。

3.如权利要求1所述的结合多层特征图进行多尺度检测，其特征在于，通过多尺度跨层检测结合深层语义信息和浅层语义信息，对不同大小的特征层进行独立预测，更好适应了对小目标的检测，其中针对卷积层特征网络改进包括以下两个步骤：

步骤1：YOLOv3网络采用了三个尺度特征图对应不同大小的锚框，尺度越小，感受野越大，分辨率越小，对小目标越不敏感，输入为416pixel*416pixel时，尺度13*13可以用来预测大目标，而对于小目标检测精度将会大幅下降，所以增加了26*26和52*52尺度特征图提高对中等以及偏小目标预测精度；

步骤2：为了进一步适应对小目标的检测进而提高其检测精度，将Darketnet-53网络的第36层、11层和第8层拼接融合到小目标检测层；以输入为256pixel*256pixel为例，通过上采样将36层的32pixel*32pixel与11层、8层的64pixel*64pixel拼接作为第三个YOLO检测层，同时加入两层3*3卷积层和三层1*1卷积层增加网络深度，这些操作虽然提高了检测精度但是也增加了检测时间。

4.如权利要求1所述的基于DCA特征融合策略方法，其特征在于，yolov3对于高低层特征融合采用concat(拼接层)通道拼接，两特征层相关不强而产生冗余信息，从而造成目标漏检的问题。为此，引入DCA特征融合策略，使得两个特征层之间的差异更为突出，同时最大化两者之间的相关性，更好的融合不同模式下提取的信息，进而使得经过交互模块的待检测输入的特征信息更加丰富。其中DCA特征融合策略包括以下三个步骤：

步骤1：首先假设样本数矩阵来C个单独的类，为此，n列数据可以分为C个单独的类。假设n_i列属于第i类，对于i类的第j个样本，即特征向量，记为x_ij；

和

分别表示所有特征集合的平均值和第i类特征的平均值，由此得到的类间散布矩阵如下：

其中有：

步骤2：为了更好的区分类别，式(4)中

是一个对角化矩阵，满足定义：

其中P是正交特征向量矩阵，

那么矩阵P的定义如公式(6)所示：

r的最显著特征

可以通过

映射得到，

为转移矩阵，归一化S_bx并对数据矩阵进行降维P→r，记输入的其中一个特征集为X，则X在空间上的投影X′的求解如公式(7)和(8)所示：

W_bx ^TS_bxW_bx＝I (7)

W_by ^TS_byW_by＝I (9)

步骤3：为了让X与Y的特征保持非零相关，利用SVD(Singular Value Decompostion奇异值分解)对两者的协方差矩阵进行对角化，先定义S′_xy＝X′Y′^T，那么对角化推算如下：

X^*＝W_cx ^TX′＝W_cx ^TW_bx ^TX＝W_xX (12)

Y^*＝W_cy ^TY′＝W_cy ^TW_by ^TY＝W_xY (13) 。

5.如权利要求1所述的边框损失函数参数优化，其特征在于，边框损失函数使用GIOU之后，模型平均损失收敛更快，所述其中损失优化方法选取包括以下三步骤：

步骤2：生成边框代价函数，由上述式，GIOU值总是小于等于IOU，其值位于区间[0,1]，所以GIOU值位于区间[-1,1]，当预测框和真实框完全重合的时候，GIOU＝1。当预测框和真实框不重合，即IOU为零值，GIOU越接近-1，两者的距离越远。GIOU作为边框评价指标时，边框代价函数如公式(16)所示：

Loss_box＝1-CIOU (16)

步骤3：最后，整个模型的损失函数如公式(17)所示：

其中，第一部分为边框损失，第二部分为类别损失，

的取值是由网络单元代表的边界框是否负责预测某个对象决定，

为参与预测的边界框含有目标的置信度；若边界框不参与目标预测，但是其与真实框的IOU值大于设定的阈值，那么G_ij值为0，其他的情况下，其值为1，第三部分为置信度损失，同样

也表示边界框是否预测对象。