CN110781924A

CN110781924A - 一种基于全卷积神经网络的侧扫声纳图像特征提取方法

Info

Publication number: CN110781924A
Application number: CN201910932848.0A
Authority: CN
Inventors: 王宏健; 高娜; 陈涛; 肖瑶; 阮力; 李本银
Original assignee: Harbin Engineering University
Current assignee: Harbin Engineering University
Priority date: 2019-09-29
Filing date: 2019-09-29
Publication date: 2020-02-11
Anticipated expiration: 2039-09-29
Also published as: CN110781924B

Abstract

本发明提供一种基于全卷积神经网络的侧扫声纳图像特征提取方法，利用原有的声纳图像进行数据增广，获得模型训练和测试所需的样本集；对样本集中的每幅图像的海底地形的边缘区域进行人工标注，区分目标和背景，获得模型训练和测试标签图；构建FCNs模型；将海底地形图像及对应的标签图输入网络，采用带动量项的小批量梯度下降法训练网络，保存最优网络模型；对比随机梯度下降法与小批量梯度下降法下网络的收敛性、稳定性；对地形边缘轮廓特征提取并输出特征提取结果，对结果进行定性评价。本发明方法无需复杂的预处理，声纳特征特征提取方法速度快、效率高，具有较强的抗散斑噪声的能力；提高了网络的性能，确保了FCNs各个网络模型的收敛性和稳定性。

Description

一种基于全卷积神经网络的侧扫声纳图像特征提取方法

技术领域

本发明属于声纳图像特征提取领域，具体涉及一种基于全卷积神经网络的侧扫声纳图像特征提取方法。

背景技术

由于海洋环境的特殊性，在海底目标的探测、海洋矿产资源的勘探以及海洋调查中，声纳相对于光学摄像而言，是水下探测最有效的传感器。侧扫声纳系统诞生于上个世纪50年代末期，目前已被广泛应用于水下军事目标的跟踪和识别、海底矿产资源的勘探和开发、海底地形图的自动绘制、鱼群探测以及海底自然环境的调查等众多领域。为准确高效的完成特定任务，往往需要对声纳图像中的目标进行特征提取。然而，由于成像机理以及复杂海洋环境的影响，声纳图像所受干扰噪声要比光学图像强的多；

且像素灰度主要分布在低灰度区，对比度较低；另外，侧扫声纳图像的成像分辨率较低，且往往目标边缘模糊、轮廓不连续。这些特点导致声纳图像海底地形的边缘轮廓特征提取极为困难，传统的特征提取技术大都是针对具体问题的，泛化性较差，步骤复杂，计算量较大，特征提取效果的优劣受图像去噪效果的直接影响，抗散斑噪声的能力较差。

在本世纪初深度学习方法及神经网络模型优化方法层出不穷，应用深度学习技术进行水下目标特征的自动提取已经成为水声领域的研究热点，对于声识别、信号识别以及图像识别具有借鉴与参考意义。目前，研究人员已经将卷积神经网络应用于侧扫声纳的图像处理中，利用卷积神经网络AlexNet提取声纳图像的目标特征，然后通过支持向量机(SVM)对目标特征进行分类。但是，使用卷积神经网络进行目标特征提取时，CNN需要固定尺寸的图像输入，所以需要将原始图像分割成大量的图像块作为网络的输入，导致计算效率较低，网络不能充分利用图像中上下文之间的联系；网络结构与输入数据严格相关，且不能直观的输出所提取到的特征信息，不利于广泛应用。有研究人员提出了基于带有相对损失函数(RLF)的FCN模型(FCN-RLF)，用于小型潜艇声纳图像分割，该方法改进了传统的均方误差损失函数，实现了声纳图像像素级分割。虽然该文献的方法相对于使用均方误差损失函数的FCN网络(FCN-MSE)提高了分割精度，但该网络只利用了第5池化层的特征信息，在最后一个卷积层之后利用反卷积层直接将得到的预测图恢复到了原图尺寸，并没有利用跳层结构融合浅层的细节信息，这样得到的结果较粗糙，在测试集上的mean IU只有62.69％，分割性能有待提高。

基于以上分析，本发明提出一种基于全卷积神经网络的侧扫声纳图像特征提取方法，该方法基于跳层结构构建了能够有效融合深层与浅层特征信息的FCN网络，保留了更多的海底地形轮廓的细节信息；利用带动量项的小批量梯度下降算法优化网络参数，针对FCN三个不同的网络结构，分别采用不同的批量大小完成了整个网络的训练，得到了准确的声纳图像海底地形轮廓特征提取结果，该训练方法确保了训练过程中损失函数的收敛性，减小震荡，提高了网络的性能；另外，本发明方法无需复杂的预处理，克服了传统声纳特征特征提取方法速度慢、效率低的缺点，具有较强的抗散斑噪声的能力；同时，该方法克服了传统的CNN网络架构与输入图像尺寸严格相关的缺点，有利于广泛应用。

发明内容

本发明的目的在于提供了一种基于全卷积神经网络的侧扫声纳图像特征提取方法，克服传统的人工特征提取技术速度慢、效率低以及抗散斑噪声能力差等缺陷，提出一种无需复杂图像预处理的声纳图像自动特征提取技术。

本发明的目的是这样实现的：

一种基于全卷积神经网络的侧扫声纳图像特征提取方法，具体的实现步骤为：

步骤1.利用原有的声纳图像进行数据增广，获得模型训练和测试所需的样本集；对样本集中的每幅图像的海底地形的边缘区域进行人工标注，将目标和背景用不同的类别区分，获得模型训练和测试所需的标签图；

步骤2.构建全卷积神经网络模型，即构建FCNs模型；

步骤3.将海底地形图像及对应的标签图输入网络，采用带动量项的小批量梯度下降法训练网络，保存最优的网络模型；

步骤4.利用训练好的网络模型进行声纳图像海底地形边缘轮廓的特征提取并输出特征提取结果。

所述步骤1的具体步骤为：

步骤1.1.将原有的海底地形图像通过旋转、翻转变化进行扩充；

步骤1.2.模拟实现声纳图像噪声，声纳图像噪声大部分为服从瑞利分布的散斑噪声，模拟实现散斑噪声的公式为

其中a表示噪声强度，b表示光斑大小，U(0,1)代表平均噪声，z代表散斑噪声；

步骤1.3.利用labelme标注图像，将海底地形的轮廓用像素1表示，海底地形的背景用像素0表示，得到标签图。

所述步骤2的FCNs模型以VGG16为基础网络，利用与对应全连接层输入数据尺寸相同的卷积核，将VGG16的全连接层转化为三个卷积层，其中最后一层卷积层输出结果为热图，热图个数对应类别个数；FCNs模型在热图之后增加反卷积层，对热图进行上采样以恢复原始图像尺寸；FCNs模型增加跳层结构，通过跳层结构融合浅层与深层的特征信息，获得更加准确的特征输出；FCNs网络设计为3种模型，分别为FCN-32s、FCN-16s和FCN-8s；在网络模型的搭建过程中将数据输入层改进为可以直接输入JPG、PNG格式的图像的数据层；网络的前端网络采用已训练好的FCN-32s模型参数进行初始化；所有的反卷积层都采用双线性插值的方式进行初始化，中间的反卷积层设置为学习的方式，在网络的训练过程中不断的更新参数，最后的反卷积层的参数在网络的训练过程中保持不变。

所述步骤3的训练网络分为三个阶段，第一阶段为FCN-32s模型的训练，网络的前端网络采用已训练好的FCN-32s模型参数进行初始化，批量大小设置为8，学习率为1e-10；第二阶段为FCN-16s模型的训练，采用第一阶段训练好的网络模型初始化网络，批量大小设置为16，学习率为1e-12；第三阶段为FCN-8s模型的训练，采用第二阶段训练好的网络模型初始化网络，批量大小设置为8，学习率为1e-14；三个阶段的权值的正则化系数设置为0.0005，动量项的值为0.99，偏置项的学习率为权值的两倍；网络模型中所有的反卷积层都采用双线性插值的方式进行初始化，中间的反卷积层的参数在网络的训练过程中作为网络的学习参数不断进行更新，最后的反卷积层的参数为固定值，训练过程中不学习。

本发明的有益效果在于：本发明方法无需复杂的预处理，克服了传统声纳特征特征提取方法速度慢、效率低的缺点，具有较强的抗散斑噪声的能力；同时，该方法克服了传统的CNN网络架构与输入图像尺寸严格相关的缺点，有利于广泛应用；保留了更多的海底地形轮廓的细节信息，确保了训练过程中损失函数的收敛性，减小震荡，提高了网络的性能；用带动量项的小批量梯度下降算法优化网络参数，选取合适的批量大小，确保了FCNs各个网络模型的收敛性和稳定性。

附图说明

图1为FCN网络的模型结构。

图2为基于全卷积网络的海底地形轮廓特征提取流程图。

图3(a)为FCN-32s损失函数在两种优化方法下的对比图。

图3(b)为FCN-32s在两种优化方法下类别平均区域重合度的变化曲线图。

图3(c)为FCN-16s损失函数在两种优化方法下的对比图。

图3(d)为FCN-16s在两种优化方法下类别平均区域重合度的变化曲线图。

图3(e)为FCN-8s损失函数在两种优化方法下的对比图。

图3(f)为FCN-8s在两种优化方法下类别平均区域重合度的变化曲线图。

图4为FCN各网络模型对部分图片的特征提取结果。

具体实施方式

下面结合附图对本发明做进一步的描述：

实施例1

本发明的具体实施方式的流程图如图2所示。首先构建模型训练所需的样本集并制作标签图。然后分别搭建三种模式的网络结构，利用带动量项的小批量梯度下降法分别训练三个网络，保存最优的网络模型；将测试样本输入训练好的网络模型中，得到样本的特征提取结果，对特征提取结果进行定性的评价。下面对本发明技术方案的具体实施过程加以说明。

步骤1.构建模型训练所需的样本集并制作标签图。

步骤1.1.将原有的50张海底地形图像通过旋转、翻转变化扩充为200张；

步骤1.2.声纳图像噪声大部分为服从瑞利分布的散斑噪声，这种噪声可由平均噪声利用以下公式模拟实现：

其中，a和b分别表示噪声强度和光斑大小，U(0,1)代表平均噪声，z代表散斑噪声。故在200张图像的基础上通过加入九种不同强度和光斑大小的噪声使数据集扩充为2000张。其中a和b的取值分别为-0.1、-0.2、-0.3和0.02、0.03、0.04。

步骤1.3.利用labelme标注图像，将海底地形的轮廓与背景分别用像素1和0表示，得到标签图，其中加入噪声的1800张作为训练图片，未加噪声的200张作为测试图片。

步骤2.构建全卷积神经网络。

本发明在windows10操作系统下，基于GPU为NVIDIA GeForce GTX 1060的硬件平台上搭建Caffe深度学习框架，在Caffe平台上搭建FCN网络模型。

FCN网络模型以VGG16为基础网络，提取目标特征。其中前5层为卷积层和池化层的组合，每个卷积层都采用3×3的卷积核，步长为1；池化层采用窗口大小为2×2，步长为2的最大值池化。每个卷积层之后接一个relu非线性激活函数层，增强模型的表达能力。FCN将VGG16的全连接层fc6、fc7以及fc8分别改为卷积核大小为7×7、1×1、1×1，深度分别为4096、4096、2的卷积层。巻积层依次把输入的海底地形图像与卷积核进行卷积操作，提取不同目标的特征，形成特征图。池化层对海底地形的特征图进行降维，获得更大的感受野，使模型学习全局信息，减少模型整体及后续层所需参数，缩短训练时间。每次经过池化层操作后，特征图分辨率会分别降低为原来的1/2、1/4、1/8、1/16、1/32。为使输出的特征图与原图尺寸相同，FCN设计了三种模式，如图1所示，第一行为第一模式(FCN-32s)：直接对最后一个卷积层的输出结果以双线性插值的方式进行上采样，步长为32，一步将预测大小恢复为原图像大小，这样做导致损失过多的细节信息，结果不够精细，为了解决此问题，引入了跳级连接的策略；第二行(FCN-16s)：首先将最后一层上采样，步长为2，然后和池化层4的预测结合起来，最后再上采样，步长为16，恢复为原图大小，使网络能够更好地预测细节，同时保留高级别的语义信息；第三行(FCN-8s)：同样的，先上采样再结合高层信息，最后再上采样，步长为8，恢复为原图大小，可获得更高的精度。

FCNs的网络模型结构如图1所示。该网络以VGG16为基础网络，在此基础上利用与对应全连接层输入数据尺寸相同的卷积核，将VGG16的全连接层转化为三个卷积层，保证FCNs网络可以接收任意尺寸的图像输入。其中最后一层卷积层输出结果称为热图，热图个数对应类别个数。本发明中的热图个数为2；增加反卷积层，图像经过VGG16网络中5次下采样，输出热图的长和宽分别是原图的1/32。FCNs在热图之后增加反卷积层，对热图进行上采样以恢复原始图像尺寸；FCNs增加跳层结构，通过跳层结构融合浅层与深层的特征信息，已获得更加准确的特征输出。FCNs网络设计为3种模型，分别为：FCN-32s、FCN-16s和FCN-8s。

步骤3.将海底地形图像及对应的标签图输入网络，采用带动量项的小批量梯度下降法训练网络，保存最优的网络模型。

步骤3.1.网络的训练过程可以抽象为寻找最佳的参数值使得损失函数值最小。损失函数采用caffe框架中的softmaxwithloss。softmaxwithLos是由两部分组成，softmax和Loss组成，softmax的形式如下：

其中，a_k(x)表示在x点上第k类的输出值；

表示在x点上所有类的输出值之和；p_k(x)表示在x点上第k类的概率。

loss＝-logp_j(x)

p_j(x)表示在x点上最大的概率值。

步骤3.2.采用冲量项的小批量梯度下降算法优化损失函数。小批量梯度下降算法的核心思想是利用梯度确定参数更新的方向，即在每次迭代中，对每个变量，按照目标函数在该变量梯度的相反方向，更新对应的参数值，通过对目标函数中的参数不断迭代更新，使得目标函数逐渐靠近最小值。该算法每次计算一小部分训练数据的损失函数，根据这一部分数据的平均梯度更新参数；该方法集合了随机梯度下降法与批量梯度下降法的优势，降低了更新参数的方差，使得收敛过程更为稳定。

为了便于理解，这里将使用一个线性回归问题叙述该方法的基本原理。假设数据样本的样本值取自于：

y＝3×x₁+4×x₂

x₁和x₂是样本值，y是预测目标。待拟合函数为：

h(Θ)＝Θ₁x₁+Θ₂x₂

目的就是求出Θ₁和Θ₂的值，让h(Θ)尽量逼近目标值y。

步骤3.2.1.首先，确定损失函数为：

其中，J(Θ)是损失函数，m代表每次取多少样本进行训练，即批量大小。Θ是参数，对应于Θ₁和Θ₂。

步骤3.2.1.利用损失函数对要优化的参数Θ₁和Θ₂求偏导：

步骤3.2.3.由于是要最小化损失函数，所以参数Θ按其负梯度方向来更新：

其中，α为学习率。

在普通的梯度下降算法中，参数x+＝v，每次参数x的更新量v为v＝-dx×lr，lr为学习率，dx为损失函数对参数x的一阶导数。当使用冲量时，则把每次x的更新量v考虑为本次的梯度下降量-dx×lr与上次x的更新量v乘上一个介于[0,1]的因子momentum的和，即v＝-dx×lr+v×momemtum。从公式上可看出：当本次梯度下降-dx×lr的方向与上次更新量v的方向相同时，上次的更新量能够对本次的搜索起到一个正向加速的作用；当本次梯度下降-dx×lr的方向与上次更新量v的方向相反时，上次的更新量能够对本次的搜索起到一个减速的作用。

步骤3.3网络的训练分为三个阶段，第一阶段为FCN-32s模型的训练，网络的前端网络采用已训练好的FCN-32s模型参数进行初始化；第二阶段为FCN-16s模型的训练，采用第一阶段训练好的网络模型初始化网络；第三阶段为FCN-8s模型的训练，采用第二阶段训练好的网络模型初始化网络。

步骤3.4.网络模型中所有的反卷积层都采用双线性插值的方式进行初始化，中间的反卷积层的参数在网络的训练过程中作为网络的学习参数不断进行更新，最后的反卷积层的参数为固定值，训练过程中不学习。

步骤3.5.第一阶段的批量大小设置为8，学习率为1e-10；第二阶段的批量大小设置为16，学习率为1e-12；第三阶段的批量大小设置为8，学习率为1e-14；三个阶段的权值的正则化系数设置为0.0005，动量项的值为0.99，偏置项的学习率为权值的两倍。

步骤4.对比分析两种优化算法下网络的收敛性和稳定性；

图3(a)至图3(f)是本发明中FCN网络模型的损失函数与类别平均区域重合度分别在带动量项的小批量梯度下降算法与带动量项的随机梯度下降法下的对比图。图3(a)为FCN-32s损失函数在两种优化方法下的对比图，灰色与黑色实线分别为训练集的损失函数在随机梯度下降算法与批量大小为8小批量梯度下降算法下的曲线图，黑色虚线与灰色双化线分别为测试集的损失函数在随机梯度下降算法与批量大小为8小批量梯度下降算法下的曲线图；图3(b)黑色实线为FCN-32s在批量大小为8的优化方法下类别平均区域重合度的变化曲线图，灰色实线为FCN-32s在随机梯度下降优化方法下类别平均区域重合度的变化曲线图。图3(c)、图3(d)图3(e)、图3(f)分别为FCN-16s与FCN-8s的各项指标曲线变化图，各曲线所代表指标的意义与第一行相同。由图3(a)至图3(f)可以看出采用带动量项的小批量梯度下降法相比于带动量项的随机梯度下降法在提高网络的稳定性、减小震荡的同时也大大提高了准确率，类别平均区域重合度达到了77.57％，相比于随机梯度下降法下的76.16％提高了1.41％。

步骤5.利用训练好的网络模型进行声纳图像海底地形边缘轮廓的特征提取，输出特征提取结果，对输出结果进行定性评价。

本发明采用统计像素准确率(pixel acc)、类别平均准确率(mean acc)、平均区域重合度(mean IU,intersection over union)和频率加权区域重合度(fw IU)，进行特征提取结果的定性评价。各指标的定义如下：

式中n_ij表示属于i类被判为j类的像素点个数，n_cl表示类别个数(n_cl＝2)，t_i＝∑_jn_ji表示i类像素点总个数,k表示类别。由于平均IU反映分割区域的完整性和分割位置的准确性，通常被用来作为最终评价指标。

本实验在windows10操作系统下，基于GPU为NVIDIA GeForce GTX 1060的硬件平台上搭建Caffe深度学习框架，进行声纳图像特征提取的FCN模型训练和测试。实验数据包含2000张图片，其中1800张加入噪声的图片作为训练集，未加噪声的200张图片作为测试集。

本声明方法可以实现声纳图像中海底地形轮廓特征的自动提取，而不需要复杂的图像预处理。本发明致力于利用带动量项的小批量梯度下降算法优化网络参数，选取合适的批量大小，确保FCNs各个网络模型的收敛性和稳定性。本发明的关键点：1.在声纳图像数据较少的情况下，通过加模拟散斑噪声的方式扩充数据集，确保网络训练所需的数据量，避免过拟合现象的发生；2.网络中的反卷积层采用双线性插值的方式初始化，最后的反卷积层的参数固定不变，中间的反卷积层参数作为网络的学习参数，在训练过程中不断更新，以获取最优的网络模型；3采用带动量项的小批量梯度下降法优化网络参数，FCNs三个网络模型的训练分别选取的批量大小为8、16、8，不同的批量大小确保网络的各个模型具有最优的收敛性和稳定性。

对本发明的效果验证：

表1为FCN三种不同模型的性能比较。由表可见，本发明所使用的三个网络模型中FCN-8s的性能最优，在测试集上的平均区域重合度达到了77.57％，这表明该网络的泛化能力较好，可以较为准确的提取到侧扫声纳图像中海底地形的边缘轮廓特征。该网络模型明显优于其他两个网络模型，主要是由于FCN-8s相比FCN-16s和FCN-32s融合了更低层网络的特征，保留了更多细节特征；

表1 FCN三种网络模型的性能比较(％)

图4是在带动量项的小批量梯度下降算法下，FCN三种不同的网络模型得到的部分声纳图片的海底地形特征图，由图可以看到，FCN-8s的特征提取结果明显优于FCN-16s和FCN-32s，可以较为准确的获得海底地形的轮廓特征。但对于部分图片，仍存在细节丢失问题，这也是后续工作要解决的主要问题。

Claims

1.一种基于全卷积神经网络的侧扫声纳图像特征提取方法，其特征在于，具体的实现步骤为：

步骤2.构建全卷积神经网络模型，即构建FCNs模型；

2.根据权利要求1所述的一种基于全卷积神经网络的侧扫声纳图像特征提取方法，其特征在于，所述步骤1的具体步骤为：

步骤1.1.将原有海底地形图像通过旋转、翻转变化进行扩充；

3.根据权利要求1所述的一种基于全卷积神经网络的侧扫声纳图像特征提取方法，其特征在于，所述步骤2的FCNs模型以VGG16为基础网络，利用与对应全连接层输入数据尺寸相同的卷积核，将VGG16的全连接层转化为三个卷积层，其中最后一层卷积层输出结果为热图，热图个数对应类别个数；FCNs模型在热图之后增加反卷积层，对热图进行上采样以恢复原始图像尺寸；FCNs模型增加跳层结构，通过跳层结构融合浅层与深层的特征信息，获得更加准确的特征输出；FCNs网络设计为3种模型，分别为FCN-32s、FCN-16s和FCN-8s；在网络模型的搭建过程中将数据输入层改进为可以直接输入JPG、PNG格式的图像的数据层；网络的前端网络采用已训练好的FCN-32s模型参数进行初始化；所有的反卷积层都采用双线性插值的方式进行初始化，中间的反卷积层设置为学习的方式，在网络的训练过程中不断的更新参数，最后的反卷积层的参数在网络的训练过程中保持不变。

4.根据权利要求1所述的一种基于全卷积神经网络的侧扫声纳图像特征提取方法，其特征在于，所述步骤3的训练网络分为三个阶段，第一阶段为FCN-32s模型的训练，网络的前端网络采用已训练好的FCN-32s模型参数进行初始化，批量大小设置为8，学习率为1e-10；第二阶段为FCN-16s模型的训练，采用第一阶段训练好的网络模型初始化网络，批量大小设置为16，学习率为1e-12；第三阶段为FCN-8s模型的训练，采用第二阶段训练好的网络模型初始化网络，批量大小设置为8，学习率为1e-14；三个阶段的权值的正则化系数设置为0.0005，动量项的值为0.99，偏置项的学习率为权值的两倍；网络模型中所有的反卷积层都采用双线性插值的方式进行初始化，中间的反卷积层的参数在网络的训练过程中作为网络的学习参数不断进行更新，最后的反卷积层的参数为固定值，训练过程中不学习。