CN114219998A

CN114219998A - 一种基于目标检测神经网络的声纳图像实时检测方法

Info

Publication number: CN114219998A
Application number: CN202111664998.1A
Authority: CN
Inventors: 杨金晶; 秦飞巍; 谭成灏; 於勤翔
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2021-12-31
Filing date: 2021-12-31
Publication date: 2022-03-22

Abstract

本发明公开了一种基于目标检测神经网络的声纳图像实时检测方法。本发明步骤：步骤(1)、构建声呐图像数据集，并划分为训练集和测试集；步骤(2)、数据预处理：对构建的训练集和测试集进行降噪、数据归一化、全分辨率数据增广处理；步骤(3)、构建水下声呐图像实时检测网络；步骤(4)、基于训练集对声呐图像实时检测网络进行训练；步骤(5)、基于测试集验证声呐图像实时检测网络的准确性和实时性。本发明借鉴了YOLO系列、SSD与RetinaNet等网络的框架，设计并使用骨干网络，并最大限度增加输入信息量，通过数据扩充增加样本量，降噪预处理和设计损失函数等方法进行改进，以满足检测网络准确性的要求。最终设计了在保持速度优势的前提下并且提升了预测精度的SonarDet系统。

Description

一种基于目标检测神经网络的声纳图像实时检测方法

技术领域

本发明属于海洋图像检测领域，具体涉及一种基于目标检测神经网络的声纳图像实时检测方法。

背景技术

随着海洋的经济价值和国防价值日益彰显，对海洋资源的有效利用以及海洋权益的保护也日益迫切，对提高声呐目标检测技术已是刻不容缓。美国对声呐目标自动识别技术尤为重视，并且投入了大量的物力和人力，获得了不错的成果。但是声呐目标识别技术的研究具有复杂性和长期性的特点，而且需要不断跟进声呐设备的发展，导致声呐目标识别技术在很长的时间内发展缓慢，到目前为止，声呐目标识别仍然是研究的难点和热点。而国内由于声呐目标检测和识别技术研究起步时间较晚，相比美国等一些发达国家存在落后现象。因此能准确检测和识别水下目标的技术实现意义非凡。

目前对水下目标检测和识别的最佳方式就是利用声呐采集的数据来得到海底的图像，可是声呐设备采集到的数据并没有光学图像那样直观，人工进行观测效率又很低。因此，在声呐设备对目标进行检测的过程中，还需要有与之相匹配的目标识别算法及系统。声呐目标的自动识别既可以提高目标检测的效率，又可以对检测结果做出及时的反馈，符合现代军事实时监测、实时打击的海上应用需求。随着近年来提高我国海军作战能力的客观需求急剧增加，加强对声呐目标识别技术的研究就显得的尤为重要。

随着深度学习模型的广泛应用，不少研究学者开始将其应用到水下目标识别与检测上，以弥补传统统计机器学习方法在水下目标识别上的不足。Kamal S在2013年提出了一种基于深度信念网络(Deep BeliefNetwork，,DBN)的深度学习方法对水下多目标进行分类，检测结果显示，在拥有40个类别的分类问题上取得了90.23％的分类准确率。EricL.Ferguson等人提出将卷积神经网络应用于浅水环境水下船只噪声识别，实验发现，此网络可以识别超过180米的目标，相比传统统计学习方法有了很大的提高。Valdenegro-ToroM等人将卷积神经网络应用于水下声呐目标检测，使用水声图像做训练样本，通过实验发现，目标分类准确率可达90％以上。

基于深度神经网络的模型，具有强大的非线性特征学习能力，并且可以以原始数据为输入，实现端到端的处理；所以课题将以深度神经网络为技术途径。对深度神经网络进行针对性的改进，以适配声呐图像目标检测这一具体应用场景，具有很好的理论意义。

本项目与水声技术国防科技重点实验室合作。该实验室在90年代末期，采取引进技术和自主创新相结合的方式开展了矢量声学传感器及其应用技术的研究，开辟了水声技术新领域，先后研制出多种结构具有自主知识产权的传感器，获得了4项国家专利，并成功应用于多种水声监测系统，从而使我国成为继极少数发达国家之后掌握这项技术的国家。

水声重点实验室开创了国内声学传感器的研发工作，成为新型换能器技术自主创新的重要基地之一，引领了国内水声同行开展该研究的高潮。近年来，实验室通过“211工程”、保障条件建设的支持，完成了一批高水平的科研项目，使水声重点实验室的基础设施和竞争能力明显增强，在水声关键技术研究领域取得了显著成果，许多技术成果处于国际先进水平。

本研究小组已经完成了基于Faster RCNN耦合难样本冲训练的深度神经网络模型并用于声呐图像的目标检测任务。

但是，该模型仍需要在数据处理阶段对声呐图像进行候选感兴趣区域(ROI,Region ofInterests)的生成，因此我们希望使用纯端到端(End-to-End)的深度网络来进行学习，以减少此阶段的工作量。于是我们基于Ross Girshick的残差学习的思想，借鉴了YOLO系列网络、RetinaNet与SSD等网络，使用one-stage的结构，设计出我们的SonarDet网络，并对其进行一定的改进，以更好适应声呐目标检测任务。初步研究结果显示测量结果与上一阶段相比无明显差异。

发明内容

本发明的目的是针对现有技术的不足，提供一种一种基于目标检测神经网络的声纳图像实时检测方法。

本发明提出基于Ross Girshick的残差学习的思想，借鉴YOLO系列、SSD与RetinaNet等网络的框架，设计one-stage的SonarDet网络。本发明一种基于目标检测神经网络的声纳图像实时检测方法，包括如下步骤：

步骤(1)、构建声呐图像数据集，并划分为训练集和测试集；

步骤(2)、数据预处理：对构建的训练集和测试集进行降噪、数据归一化、全分辨率数据增广处理；

步骤(3)、构建水下声呐图像实时检测网络，包括骨干网络、多尺度融合模块、kmeans算法模块、目标检测模块以及Loss函数设计模块；骨干网络选取改进的darknet-53网络，预处理后训练集中的图像经过骨干网络处理后得到两张尺度不同的高通道维度低分辨率的特征图；多尺度融合模块对得到的两个尺度的特征图进行融合，得到融合特征图；使用kmeans聚类模块对训练集数据中的标注框进行聚类，得到6个母先验框；通过母先验框的比例和位置随机生成多个先验框；目标检测模块基于kmeans聚类模块得到的先验框，对两个尺度的融合特征图进行预测，通过预测框坐标相对于先验框的四个偏移量，识别出融合特征图中声呐目标位置；

步骤(4)、基于训练集对声呐图像实时检测网络进行训练；

步骤(5)、基于测试集验证声呐图像实时检测网络的准确性和实时性。

进一步的，步骤(1)具体实现如下：

声呐图像数据集来自中船重工715所提供的数据集，将数据集按照8：2分成训练集和测试集，并对训练集数据进行标注，其中训练集包含4002张，测试集包含1000张图片，目标检测物类别包含柱状、线状两种外形。

进一步的，步骤(3)中的骨干网络具体结构如下：

骨干网络使用darknet-53的前52层，即去除全连接层并保留残差通路以及LeakyReLU激活函数；

经过预处理后的图像大小为1024*1024*1，将其输入骨干网络：首先是进入一个32个过滤器的卷积核，输出的图像大小为1024*1024*32，再将其一次输入到5组重复的残差单元residual block中，这5组残差单元的每个残差单元都由一个单独的卷积层与一组重复执行的卷积层构成，重复执行的卷积层分别重复1次、2次、8次、8次、4次；在每个重复执行的卷积层中，先执行1×1的卷积操作，再执行3×3的卷积操作，过滤器数量先减半再恢复，一共是52层；最后选取骨干网络最后两层的特征图分别进行输出，得到两张尺度不同的高通道维度低分辨率的特征图。

进一步的，步骤(3)中的kmeans算法模块具体实现如下：

先将融合后的特征图划为九宫格，每个小格2个尺度，每个尺度3个母先验框，基于这54个母先验框的比例和位置随机生成总共两千个先验框；每小格的6个母先验框是相同的，由kmeans算法模块统计训练集中的声呐图像的标注框的大小及长宽比，聚为6个类别。

进一步的，步骤(3)中Loss函数设计模块具体实现如下：

在类别与交叉熵部分引用Focal Loss函数来解决one-stage目标检测中正负样本比例严重失衡的问题，并在Focal Loss函数的基础上设计增加了加速因子α，因此最终的Loss函数的具体公式如下：

其中，λ_coord为用于平衡坐标损失影响力的超参，λ_cls为用于平衡分类损失影响力的超参，K表示网络输出层网格数目，M表示先验框的数目，

表示第i个网格中第j个先验框与检测目标的负责度，β为用于放大对小框的坐标损失的超参，x_i和y_i分别表示第i个标注框的中心点的横坐标和纵坐标，

和

分别表示第i个预测框的中心点的横坐标和纵坐标，ω_i和h_i分别表示第i个标注框的宽和高，

和

分别表示第i个预测框的宽和高，FocalLoss表示FocalLoss函数，用于计算其分类损失程度。

进一步的，加速因子α的设计如下：

首先定义数据集图像中任意区域的白点值为该区域像素数组中平均每元素数值大小；针对声呐图像中绝大多数目标区域的白点值比背景更高的特点，加速因子α能够绕过网络计算出额外的loss来影响梯度的计算，进而加速网络的收敛；加速因子α的具体公式如下：

x＝平均像素数值

在加速因子α的公式中，a为超参，用于增大惩罚力度，即平衡数值分布，x表示平均像素数值；加速因子α的输入值为网络生成的预测框的白点值x；输出值范围为(1,a]，与输入值负相关。

本发明有益效果如下：

1.本发明选用one-stage的全卷积网络框架，实现了声呐图像实时目标检测的实时性。

2.本发明设计了SonarDet网络，设计并使用针对本项目的backbone，并最通过对多尺度融合技术以及kmeans聚类算法的应用和对损失函数进行针对性设计等方法，提高了检测网络的准确性，使其对目标的检测。

3.本发明对损失函数进行针对性改进，设计了加速因子α，它通过影响loss函数的梯度计算进而加速网络的收敛，提高网络的正确度，也实现了网络的实时性。

4.本发明在SonarDet网络训练时使采用余弦退火的学习率下降方式，通过突然提高学习率，来“跳出”局部最小值并找到通向全局最小值的路径，提高网络的准确性。

附图说明

图1为SonarDet网络结构图；

图2为声呐图像；

图3为降噪处理前后对比图；

图4为水下声呐图像实时检测系统流程图；

图5为测试结果声呐AP结果图；

图6为测试结果声呐F1的结果图；

图7为测试结果声呐精准度的结果图；

图8为测试结果Recall的结果图；

图9为检测结果图；

图10为测试结果Ground truth的结果图；

图11为测试结果Log average miss rate的结果图；

图12位测试结果mAP值；

具体实施方式

下面结合附图对本发明作进一步说明。

本发明提出一种基于目标检测神经网络的水下声呐图像实时检测系统，基于RossGirshick的残差学习的思想，借鉴YOLO系列、SSD与RetinaNet等网络的框架，设计one-stage的SonarDet网络，该系统的流程图如图4所示；水下声呐图像实时检测系统的具体设计步骤如下：

步骤(1)、基于声呐图像数据集，建立用于训练和测试的声呐图像数据集

本发明的数据集来自中船重工715所提供的数据集，将数据集按照8：2分成训练集和测试集，并对训练集数据进行标注，其中训练集包含4002张，测试集包含1000张图片，原始图像如图2所示，目标检测物类别包含柱状、线状两种外形。

步骤(2)、进行数据预处理：降噪处理、数据归一化、全分辨率数据增广处理；

对获得的原始声呐图像进行预处理。由于存在原始声呐图像模糊且带有很多噪点，样本量少，图像通道与传统图像通道不同的问题，可能对数据标注和目标检测网络学习造成困难，因此对图像进行降噪处理、归一化处理、数据增广处理，预处理具体步骤如下：

2-1降噪处理

采用高斯模糊，去除噪声背景，降低噪点对特征提取的影响，以获取更高质量的图像，尽可能的保持原始信息完整性的同时，去除信号中无用的信息，以增强后续检测效果，降噪前后对比如下图3所示。

2-2归一化处理

使用归一化对16位的源输入数据进行标准化处理，消除量纲影响，使网络更容易提取出有效的特征。

2-3数据增广处理

声呐样本较自然图像而言更难以获取，样本较少。因此，我们通过一些数据增广(DataAugmentation)的方法增加样本量，以对深度网络进行更加充分的训练。

步骤(3)、构建水下声呐图像实时检测网络SonarDet，包括骨干网络、多尺度融合模块、kmeans算法模块、目标检测模块以及Loss函数设计模块；

水下声呐图像实时检测系统流程图如图4所示，将输入的声呐图像经过降噪、归一化、全分辨率的图像预处理后送入SonarDet网络中，最终得到输出结果。SonarDet网络的设计步骤具体如下：

3-1.声呐图像实时检测网络的骨干网络使用darknet-53的前52层，即去除全连接层并保留残差通路以及Leaky ReLU激活函数。

如图1所示，经过图像预处理后的图像大小为1024*1024*1，将其输入骨干网络。首先是进入一个32个过滤器的卷积核，输出的图像大小为1024*1024*32，再将其一次输入到5组重复的残差单元residualblock中，这5组残差单元的每个残差单元都由一个单独的卷积层与一组重复执行的卷积层构成，重复执行的卷积层分别重复1次、2次、8次、8次、4次；在每个重复执行的卷积层中，先执行1×1的卷积操作，再执行3×3的卷积操作，过滤器数量先减半再恢复，一共是52层。预处理后的图像经过骨干网络处理后得到两张尺度不同的高通道维度低分辨率的特征图。

3-2.为了减低冗余计算量，多尺度融合模块对得到的两个尺度的特征图进行融合，得到融合特征图。

从骨干网络的最后几层中选取指定数量的层，将较高位置处层的输出按较低位置处层的输出大小进行下采样，最终将各输出相加，进行融合特征，由于本声呐数据集的标注框尺度只有两种，因此仅选取两层，达到减低冗余计算量的目的。本发明通过统计数据集标注框尺度，最终选取骨干网络最后两层的特征图进行输出，多尺度融合模块对得到的两个尺度的特征图进行融合，得到融合特征图；

3-3.为增强网络的检测精确度，使用kmeans聚类模块对训练集数据中的标注框进行聚类，得到6个母先验框；通过母先验框的比例和位置随机生成多个先验框；

由于声呐图像实时检测网络是基于先验框来进行目标检测的，设置先验框时先将融合后的特征图划为九宫格，每个小格2个尺度，每个尺度3个母先验框，基于这54个母先验框的比例和位置随机生成总共两千个先验框。每小格的6个母先验框是相同的，由kmeans算法统计训练集中的声呐图像的标注框的大小及长宽比，聚为6个类，减少锚框数量，并针对性的更改了其长宽比，以更适应声呐图像中检测目标的特点，增强识别准确度。

3-4.目标检测模块的实现是基于kmeans聚类模块得到的先验框，对两个尺度的融合特征图进行预测，通过预测框坐标相对于先验框的四个偏移量，识别出融合特征图中声呐目标位置。

3-5.Loss函数设计模块；在网络训练过程中，由于水下声呐图像实时检测网络属于one-stage网络，因此存在简单负样本过多、占用loss比例过大导致的准确度不高的问题，本发明对Loss函数进行了针对性的设计。本网络在类别与交叉熵部分引用Focal Loss函数来解决one-stage目标检测中正负样本比例严重失衡的问题，并在Focal Loss函数的基础上，针对声呐图像具有的特点，对Loss函数进行进一步的优化，并设计增加了加速因子α。本发明的Loss函数的具体公式如下：

在Loss函数中，λ_coord为用于平衡坐标损失影响力的超参，λ_cls为用于平衡分类损失影响力的超参，K表示网络输出层网格数目，M表示先验框的数目，

和

和

将步骤2预处理后的数据集图像分成3×3的格子，其中

表示将数据集划分成S×S个格子后，其中第i个网格里第j个先验框与检测目标的负责度。即第i个格子的第j个先验框与该目标的真实值的交并比IOU在所有的先验框中最大时，这个先验框的形状、尺寸最符合当前这个目标，那么就用这个先验框来负责预测这个目标，此时

其余为0。

由于本实验中有的先验框很小，所以该检测目标的坐标损失很小，因此设置超参β与坐标损失相减，即得到β-ω_i×h_i，来放大对小框的坐标损失。在本发明中，经过多次实验，最终设置参数β为2。

最终的坐标损失通过先分别计算每个先验框的中心点偏移量

以及尺寸偏移量

再将其与坐标损失系数相乘，然后将每一个框的坐标损失相加，最后引用FocalLoss函数计算其分类损失，并乘以分类损失系数λ_cls后，与坐标损失相加而得到。

在前面得到的损失函数基础上，本发明还设计了一个加速因子α。首先定义数据集图像中任意区域的白点值为该区域像素数组中平均每元素数值大小。针对声呐图像中绝大多数目标区域的白点值比背景更高的特点，加速因子α通过绕过网络计算出额外的loss来影响梯度的计算，进而加速网络的收敛。加速因子α的具体公式如下：

x＝平均像素数值

在加速因子α的公式中，a为超参，用于增大惩罚力度，即平衡数值分布，x表示平均像素数值。

加速因子α函数的输入值为网络生成的预测框的白点值x；输出值范围为(1,a]，与输入值负相关。通过修改加速因子α的函数曲线可以控制其对loss的影响程度。根据梯度计算的链式法则，使用加速因子α与原有loss得到的结果相乘得到的loss可以成倍数地并可控地增大反向传播所计算出的网络参数梯度，从而在学习率为定值的情况下有效鼓励网络向白点值高的区域收敛。

利用这个加速因子α可以通过减少易分类样本的权重，使得模型在训练时更专注于难分类的样本。通过这一改进，可以使本网络在保持one-stage网络的速度的同时，使准确率更接近于two-stage网络的准确率，从而提升了本网络的准确性。

步骤(4)、用预处理后的声呐数据集对SonarDet网络进行训练；

基于步骤(2)预处理后的声呐数据集，对SonarDet神经网络架构进行训练。由于使用梯度下降算法来优化目标函数的时候，会使loss的值越来越接近全局最小值，本发明使用了余弦退火的学习率下降方式，通过突然提高学习率，来“跳出”局部最小值并找到通向全局最小值的路径。这种下降模式能和学习率进行配合，以一种十分有效的计算方式来产生很好的效果，提高网络准确性。

步骤(5)、验证模型的准确性和实时性。

将步骤(4)训练过后的SonarDet模型用数据测试集进行测试，用来验证模型的准确性和实时性。经过测试以后columnar和linear声呐AP结果如图5所示，F1如图6所示，精准度如图7所示，Recall值如图8所示，检测结果如图9所示，Ground truth如图10所示，Logaverage miss rate如图11所示，mAP如图12所示。

Claims

1.一种基于目标检测神经网络的声纳图像实时检测方法，其特征在于包括如下步骤：

步骤(1)、构建声呐图像数据集，并划分为训练集和测试集；

步骤(4)、基于训练集对声呐图像实时检测网络进行训练；

2.根据权利要求1所述的一种基于目标检测神经网络的声纳图像实时检测方法，其特征在于步骤(1)具体实现如下：

3.根据权利要求1所述的一种基于目标检测神经网络的声纳图像实时检测方法，其特征在于步骤(3)中的骨干网络具体结构如下：

骨干网络使用darknet-53的前52层，即去除全连接层并保留残差通路以及Leaky ReLU激活函数；

经过预处理后的图像大小为1024*1024*1，将其输入骨干网络：首先是进入一个32个过滤器的卷积核，输出的图像大小为1024*1024*32，再将其一次输入到5组重复的残差单元residualblock中，这5组残差单元的每个残差单元都由一个单独的卷积层与一组重复执行的卷积层构成，重复执行的卷积层分别重复1次、2次、8次、8次、4次；在每个重复执行的卷积层中，先执行1×1的卷积操作，再执行3×3的卷积操作，过滤器数量先减半再恢复，一共是52层；最后选取骨干网络最后两层的特征图分别进行输出，得到两张尺度不同的高通道维度低分辨率的特征图。

4.根据权利要求3所述的一种基于目标检测神经网络的声纳图像实时检测方法，其特征在于步骤(3)中的kmeans算法模块具体实现如下：

5.根据权利要求3所述的一种基于目标检测神经网络的声纳图像实时检测方法，其特征在于步骤(3)中Loss函数设计模块具体实现如下：

在类别与交叉熵部分引用Focal Loss函数来解决one-stage目标检测中正负样本比例严重失衡的问题，并在FocalLoss函数的基础上设计增加了加速因子α，因此最终的Loss函数的具体公式如下：

和

和

6.根据权利要求5所述的一种基于目标检测神经网络的声纳图像实时检测方法，其特征在于加速因子α的设计如下：

x＝平均像素数值