CN109655815A

CN109655815A - 基于ssd的声呐目标检测方法

Info

Publication number: CN109655815A
Application number: CN201811407252.0A
Authority: CN
Inventors: 孔万增; 洪吉晨; 贾明洋; 陈威; 于金帅
Original assignee: Hangzhou Dianzi University
Current assignee: Shanghai Weiyi Mingda Information Technology Co ltd; Yunnan Poly Tiantong Underwater Equipment Technology Co ltd
Priority date: 2018-11-23
Filing date: 2018-11-23
Publication date: 2019-04-19
Anticipated expiration: 2038-11-23
Also published as: CN109655815B

Abstract

本发明公开了基于SSD的声呐目标检测方法。当下的水下目标检测识别方法难以精准的同步识别多个目标。本发明如下：一、建立SSD神经网络模型。二、用需要被识别的声呐数据生成n张被测声呐图像。三、将被测声呐图像送入SSD神经网络模型，获取特征图。四、对特征图设置检测框。五、将检测框输入两个卷积核，获取检测框针对各个目标类别的类别分数以及形状偏移量。六、确定被测声呐图像含有的目标类型，并框选出所有目标。本发明将深度学习技术融入到声呐目标检测中，将声呐数据生成的声呐图像输入SSD神经网络模型中，在模型中一次性完成特征提取、目标检测、目标分类，从而大大提高检测速度。

Description

基于SSD的声呐目标检测方法

技术领域

本发明属于人工智能与水声电子信息的交叉技术领域，具体涉及一种基于深度学习的三维成像声呐目标检测方法。

背景技术

随着科技信息技术的不断迭代与发展，近年来水下探测技术得到了极大的促进，有着广泛的应用领域，如军事方面的小目标防御、危险目标排查、目标跟踪等；在其他领域还有海底资源勘探测量，濒危生物的跟踪与保护，海床建模等重大作用。

水下目标检测识别是现代声呐系统和水声对抗的重要部分，是每个国家海上安防的研究重点，一直受到学者，技术人员和军事部门的广泛关注，也是我国海军目前急需解决的关键技术之一。水下目标检测识别是基于声呐，信息科学，计算机科学，人工智能等领域的一项不断发展的重要技术。为了提高海底不同大小，形状目标检测的精度和效率，谋求军事和民用优势，声呐目标检测识别方法在不断创新。近年来，水下目标检测识别方法主要如下：

1)基于经验论断的目标识别

2)基于信号分析专家系统的目标识别

3)基于模板匹配的目标识别

4)基于浅层神经网络的目标识别

由于水下环境复杂，声呐设备的非线性成像，采集到的水下三维成像声呐

对比度和信噪比较低，受噪声影响大，当下的水下目标检测识别方法在这种情况下仍然有着许多瓶颈，如声呐图像目标特征提取不彻底或提取速度慢、水下小目标因对比度和信噪比低被误检或漏检，无法取得高精度，强鲁棒性，系统实时性的同时兼顾，针对其他传统深度学习目标检测网络模型过大，参数庞大，运行内存较高，速度较慢，应用范围狭隘的问题，本设计以mobilenet网络为特征提取的基础网络，采用一种流线型结构使用深度可分离卷积(,Depthwise Separable convolutions)来构造轻型权重深度神经网络，在保证精度的前提下，有效减少了模型参数量，加快了检测速度，满足移动端应用的要求。

2006年，Geoffrey Hinton提出了深度学习。之后深度学习在诸多领域取得了巨大成功，受到广泛关注。2012年，Hinton的研究小组采用深度学习赢得了ImageNet图像分类的比赛，把错误率大幅降到15.315％，遥遥领先于传统图像处理方法，完成了深度学习在计算机领域最具影响力的突破。同时，深度学习在目标识别领域的应用不断取得发展，在ILSVRC2014比赛中，获胜者GooLeNet将top5错误率降到6.656％。时至2017年7月，深度学习算法SE-ResNeXt-152的该数据集的Top-5错误率仅为2.251％，已经远远超越了人工标注的错误率(5％)。不光在图像分类领域，深度学习在人脸识别、物体检测、视频分析等多个领域均取得令人惊叹的效果。现如今，Google、微软、百度等知名的拥有大数据的高科技公司争相投入资源，占领深度学习的技术制高点，应用于各种领域取得了许多优秀的成果。以上种种证明了深度学习技术有着巨大的潜力和优越性。通过对前沿深度学习方法的调研分析，为了解决近年来水下目标检测识别的瓶颈问题，本发明提出基于深度学习技术的三维成像声呐图像目标检测方法，并在普通深度学习目标检测方法上对特征提取网络进行了改进，选取速度较快，参数较小的轻量级网络mobilenet，有效减小了检测时间。

发明内容

本发明的目的在于提供基于Single Shot MultiBox Detector mobilenet的声呐图像小目标检测识别方法。

本发明具体如下：

步骤一、建立SSD神经网络模型，SSD神经网络模型包括共享卷积层、卷积层conv12、卷积层conv13、卷积层conv14、卷积层conv15、卷积层conv16、卷积层conv17和全连接层。将大于1000张训练用的声呐图像输入SSD神经网络模型进行训练。训练用的声呐图像中共包含有a种类别的目标。

步骤二、用需要被识别的声呐数据生成n张被测声呐图像，并将n张被测声呐图像缩放至相同大小。i＝1,2,…,n，依次执行步骤三至七。

步骤三、将第i张被测声呐图像送入SSD的共享卷积层，得到第一层特征图。

步骤四、将步骤二所得的第一层特征图依次通入卷积层conv12、卷积层conv13、卷积层conv14、卷积层conv15、卷积层conv16、卷积层conv17。卷积层conv13、卷积层conv14、卷积层conv15、卷积层conv16、卷积层conv17分别输出第二层特征图、第三层特征图、第四层特征图、第五层特征图、第六层特征图。

步骤五、对第一层特征图、第二层特征图、第三层特征图、第四层特征图、第五层特征图、第六层特征图上的每个像素点均设置六个检测框。第k层特征图内所有像素点对应的前五个检测框的大小均为S_k；S_k的表达式如下：

其中，S_min的取值为0.2；S_max的取值为0.9；S_k为四舍五入所得值。

第k层特征图内所有像素点对应的第六个检测框的大小均为其中，S₇＝312。

前五个检测框的长宽比分别为1、2、3、1/2、1/3。第六个检测框的长宽比分别为1。

步骤六、j＝1,2,…,6，依次执行步骤七。

步骤七、将步骤五所得的第j层特征图内所有的检测框分别通入第一卷积核和第二卷积核。第一卷积核的尺寸为3×3×p_j×2，p_j为被第j层特征图的层数；第二卷积核的尺寸为3×3×p_j×4，p_j为被第j层特征图的层数。每个检测框均输出一个特征向量。特征向量包括对应检测框针对各个目标类别的类别分数以及形状偏移量。形状偏移量包括横坐标偏移量、纵坐标偏移量、长度偏移量和宽度偏移量。

步骤八、将步骤六和七所得的所有特征向量均送入全连接层。全连接层将所有特征向量内的类别分数归一化，得到各检测框中获得针对a个目标类别的a个概率。保留各检测框的a个概率中的最大值，将其余a-1个概率均置为0。

步骤九、将1赋值给j。

步骤十、若存在一个或多个检测框针对第j个目标类别的概率大于阈值s，则判断第i张被测声呐图像中存在属于第j个目标类别的目标，针对第j个目标类别的概率大于阈值s的检测框作为特征检测框，进入步骤十一。s的值取0.8～0.97。否则直接进入步骤十四。

步骤十一、将步骤十获得的多个特征检测框分为b_j个特征框群。互相之间相交的特征检测框组成一个特征框群。将1赋值给l进入步骤十二。

步骤十二、通过非极大值抑制算法选取第l个特征框群中针对第j个目标类别的概率最大的特征检测框作为第l个目标检测框。在第i张被测声呐图像上框选出几何中心位于第行第列，长度为g^w，宽度为g^w的目标框。之后进入步骤十三。

其中，为第l个目标检测框的横坐标偏移量；为第l个目标检测框的纵坐标偏移量；为第l个目标检测框的长度偏移量；为第l个目标检测框的宽度偏移量；均在步骤七中计算得到。为特征检测框集合中心的横坐标；为特征检测框几何中心的纵坐标；为特征检测框的长度；为特征检测框的宽度。

步骤十三、若l＜b_j，则将l增大1，并重复执行步骤十二；否则，进入步骤十四。

步骤十四、若j＜a，则将j增大1，并重复执行步骤十至十三；否则，识别结束。

进一步地，所述的共享卷积层选用MobileNet。

进一步地，所述训练用的声呐图像中目标的类别和位置已知。

进一步地，步骤一中，将训练用的声呐图像导入SSD神经网络模型进行训练的步骤具体如下：将训练用的声呐图像输入共享卷积层，依次传输经过卷积层conv12、卷积层conv13、卷积层conv14、卷积层conv15、卷积层conv16、卷积层conv17、全连接层，得到概率和偏置数值，从而完成目标分类和边框回归；通过与训练用的声呐图像的真实类别和边框位置计算损失值；再用反向传播算法和梯度下降算法对SSD神经网络模型内所有的权值进行更新。

本发明具有的有益效果是：

1、本发明将深度学习技术融入到声呐目标检测中，将声呐数据生成的声呐图像输入SSD神经网络模型中，在模型中一次性完成特征提取、目标检测、目标分类，从而大大提高检测速度。

2、本发明使用的SSD神经网络模型对声呐图像进行多次卷积、池化，相比于传统方法和浅层神经网络，可以提取到更多的深层次特征，从根本上优化了目标分类，回归。

3、本发明选取的MobileNet网络，运用深度可分离卷积，在保证精度的前提下，具有计算量小，速度快，效率高的特点。

4、本发明从不同层抽取抽取不同尺度特征图进行多尺度预测，在不增加额外计算量的同时，大大增加小目标的检测概率。

5、本发明将水下目标检测识别一体化，通过一个深度网络模型完成水下目标检测识别，相较于需要在多个处理流程分开处理来进行目标识别的传统方法，大大简化水下目标检测的流程。

附图说明

图1为本发明针对单张声呐图像的识别流程图；

图2为本发明总体损失曲线图；

图3(a)-3(h)为中船重工715研究所在南海实验做采集的海底线状及柱状目标声呐图，其中包括油管，掩埋雷以及海底现状威胁设施。

图4(a)-4(h)分别为通过本发明对图3(a)-3(h)进行目标识别定位的效果图。

具体实施方式

以下结合附图对本发明作进一步说明。

如图1所示，基于SSD的声呐目标检测方法具体如下：

步骤一、如图1所示，建立SSD神经网络模型(Single Shot MultiBox Detector)，SSD神经网络模型包括共享卷积层(base network网络)、卷积层conv12、卷积层conv13、卷积层conv14、卷积层conv15、卷积层conv16、卷积层conv17和全连接层。共享卷积层选用MobileNet。用2000张训练用的声呐图像输入SSD神经网络模型进行150000轮训练，完成SSD神经网络模型的训练。2000张训练用的声呐图像中共包含有a种类别的目标。训练用的声呐图像中目标的类别和位置已知。从图2可以看出，本发明的SSD网络模型在训练过程中，总体损失随着训练迭代次数的增加不断下降，说明模型参数不断被修正。

将训练用的声呐图像导入SSD神经网络模型进行训练的步骤具体如下：将训练用的声呐图像输入共享卷积层，依次传输经过卷积层conv12、卷积层conv13、卷积层conv14、卷积层conv15、卷积层conv16、卷积层conv17、全连接层，得到概率(Softmax)和偏置数值，从而完成目标分类和边框回归；通过与训练用的声呐图像的真实类别和边框位置计算损失值loss；再用反向传播算法(Back-Propagation，BP)和梯度下降算法(StochasticGradient descent，SGD)对SSD神经网络模型内所有的权值进行更新。

步骤二、三维成像声呐数据预处理。针对三维成像声呐采集到的声呐数据，通过指定协议格式，使用MATLAB软件编写的解析数程序，生成n张被测声呐图像。从原始声呐数据中解析出声呐图像属于现有成熟技术，故不详解。并将n张被测声呐图像缩放至相同大小。i＝1,2,…,n，依次执行步骤三至七。

步骤三、将第i张被测声呐图像送入SSD的共享卷积层，得到第一层特征图。共享卷积层对第i张被测声呐图像进行了多次卷积、池化操作。

步骤四、将步骤二所得的第一层特征图依次通入卷积层conv12、卷积层conv13、卷积层conv14、卷积层conv15、卷积层conv16、卷积层conv17分别得到第二层特征图、第三层特征图(卷积层conv14_2输出)、第四层特征图(卷积层conv15_2输出)、第五层特征图(卷积层conv16_2输出)、第六层特征图(卷积层conv17_2输出)。

步骤五、对第一层特征图、第二层特征图、第三层特征图、第四层特征图、第五层特征图、第六层特征图上的每个像素点分别设置六个检测框。第k层特征图内所有像素点对应的前五个检测框的大小(即分辨率，单位为像素)均为S_k；S_k的表达式如下：

第k层特征图内所有像素点对应的第六个检测框的大小均为其中，

步骤六、j＝1,2,…,6，依次执行步骤七。

步骤七、将步骤五所得的第j层特征图内所有的检测框分别通入第一卷积核和第二卷积核。第一卷积核的尺寸为3×3×p_j×2，p_j为被第j层特征图的层数(即通道数)；第二卷积核的尺寸为3×3×p_j×4，p_j为被第j层特征图的层数(即通道数)。第一卷积核用于输出分类用的置信度(confidence)；第二卷积核用于输出回归用的边框定位(localization)。每个检测框均输出一个特征向量。特征向量包括对应检测框针对各个目标类别的类别分数score(即置信度，若训练时输入了十个不同类别的目标，则每个检测框输出与十个类别分别对应的十个分数)以及形状偏移量offset。形状偏移量offset包括横坐标偏移量、纵坐标偏移量、长度偏移量和宽度偏移量。

步骤八、将步骤六和七所得的所有特征向量均送入用于分类和回归的全连接层。全连接层通过归一化指数函数(Softmax函数)将所有特征向量内的类别分数score归一化，得到各检测框中获得针对a个目标类别的a个概率(一个检测框具有分别针对a个目标类别的a个概率)。保留各检测框的a个概率中的最大值，以及其对应的目标类别，将其余a-1个概率均置为0。

步骤九、将1赋值给j。确定出第i张被测声呐图像内所含目标的类别并框选出各个目标。

步骤十、若存在一个或多个检测框针对第j个目标类别的概率大于阈值s，则判断第i张被测声呐图像中存在属于第j个目标类别的目标，针对第j个目标类别的概率大于阈值s的检测框作为特征检测框，进入步骤十一。s的值取0.95。否则直接进入步骤十四。

步骤十一、将步骤十获得的多个特征检测框分为b_j个特征框群。互相之间相交的特征检测框组成一个特征框群(即两个特征框群内的特征检测框互不相交)。将1赋值给l进入步骤十二。

步骤十二、通过非极大值抑制算法(NMS)选取第l个特征框群中针对第j个目标类别的概率最大的特征检测框作为第l个目标检测框。在第i张被测声呐图像上框选出几何中心位于第行第列(即坐标为)，长度为g^w，宽度为g^w的目标框。目标框对应第j个目标类别的目标。之后进入步骤十三。

Claims

1.基于SSD的声呐目标检测方法，其特征在于：步骤一、建立SSD神经网络模型，SSD神经网络模型包括共享卷积层、卷积层conv12、卷积层conv13、卷积层conv14、卷积层conv15、卷积层conv16、卷积层conv17和全连接层；将大于1000张训练用的声呐图像输入SSD神经网络模型进行训练；训练用的声呐图像中共包含有a种类别的目标；

步骤二、用需要被识别的声呐数据生成n张被测声呐图像，并将n张被测声呐图像缩放至相同大小；i＝1,2,…,n，依次执行步骤三至七；

步骤三、将第i张被测声呐图像送入SSD的共享卷积层，得到第一层特征图；

步骤四、将步骤二所得的第一层特征图依次通入卷积层conv12、卷积层conv13、卷积层conv14、卷积层conv15、卷积层conv16、卷积层conv17；卷积层conv13、卷积层conv14、卷积层conv15、卷积层conv16、卷积层conv17分别输出第二层特征图、第三层特征图、第四层特征图、第五层特征图、第六层特征图；

步骤五、对第一层特征图、第二层特征图、第三层特征图、第四层特征图、第五层特征图、第六层特征图上的每个像素点均设置六个检测框；第k层特征图内所有像素点对应的前五个检测框的大小均为S_k；S_k的表达式如下：

其中，S_min的取值为0.2；S_max的取值为0.9；S_k为四舍五入所得值；

第k层特征图内所有像素点对应的第六个检测框的大小均为k＝1,2...,6，其中，S₇＝312；

前五个检测框的长宽比分别为1、2、3、1/2、1/3；第六个检测框的长宽比分别为1；

步骤六、j＝1,2,…,6，依次执行步骤七；

步骤七、将步骤五所得的第j层特征图内所有的检测框分别通入第一卷积核和第二卷积核；第一卷积核的尺寸为3×3×p_j×2，p_j为被第j层特征图的层数；第二卷积核的尺寸为3×3×p_j×4，p_j为被第j层特征图的层数；每个检测框均输出一个特征向量；特征向量包括对应检测框针对各个目标类别的类别分数以及形状偏移量；形状偏移量包括横坐标偏移量、纵坐标偏移量、长度偏移量和宽度偏移量；

步骤八、将步骤六和七所得的所有特征向量均送入全连接层；全连接层将所有特征向量内的类别分数归一化，得到各检测框中获得针对a个目标类别的a个概率；保留各检测框的a个概率中的最大值，将其余a-1个概率均置为0；

步骤九、将1赋值给j；

步骤十、若存在一个或多个检测框针对第j个目标类别的概率大于阈值s，则判断第i张被测声呐图像中存在属于第j个目标类别的目标，针对第j个目标类别的概率大于阈值s的检测框作为特征检测框，进入步骤十一；s的值取0.8～0.97；否则直接进入步骤十四；

步骤十一、将步骤十获得的多个特征检测框分为b_j个特征框群；互相之间相交的特征检测框组成一个特征框群；将1赋值给l进入步骤十二；

步骤十二、通过非极大值抑制算法选取第l个特征框群中针对第j个目标类别的概率最大的特征检测框作为第l个目标检测框；在第i张被测声呐图像上框选出几何中心位于第行第列，长度为g^w，宽度为g^w的目标框；之后进入步骤十三；

其中，为第l个目标检测框的横坐标偏移量；为第l个目标检测框的纵坐标偏移量；为第l个目标检测框的长度偏移量；为第l个目标检测框的宽度偏移量；均在步骤七中计算得到；为特征检测框集合中心的横坐标；为特征检测框几何中心的纵坐标；为特征检测框的长度；为特征检测框的宽度；

步骤十三、若l＜b_j，则将l增大1，并重复执行步骤十二；否则，进入步骤十四；

2.根据权利要求1所述的基于SSD的声呐目标检测方法，其特征在于：所述的共享卷积层选用MobileNet。

3.根据权利要求1所述的基于SSD的声呐目标检测方法，其特征在于：所述训练用的声呐图像中目标的类别和位置已知。

4.根据权利要求1所述的基于SSD的声呐目标检测方法，其特征在于：步骤一中，将训练用的声呐图像导入SSD神经网络模型进行训练的步骤具体如下：将训练用的声呐图像输入共享卷积层，依次传输经过卷积层conv12、卷积层conv13、卷积层conv14、卷积层conv15、卷积层conv16、卷积层conv17、全连接层，得到概率和偏置数值，从而完成目标分类和边框回归；通过与训练用的声呐图像的真实类别和边框位置计算损失值；再用反向传播算法和梯度下降算法对SSD神经网络模型内所有的权值进行更新。