CN110827238A

CN110827238A - 一种改进的全卷积神经网络的侧扫声纳图像特征提取方法

Info

Publication number: CN110827238A
Application number: CN201910932903.6A
Authority: CN
Inventors: 王宏健; 高娜; 肖瑶; 张勋; 班喜程; 牛韶源
Original assignee: Harbin Engineering University
Current assignee: Harbin Engineering University
Priority date: 2019-09-29
Filing date: 2019-09-29
Publication date: 2020-02-21
Anticipated expiration: 2039-09-29
Also published as: CN110827238B

Abstract

本发明提供一种改进的全卷积神经网络的侧扫声纳图像特征提取方法，数据集的获取，并将数据集分为训练集和测试集，对数据集的目标区域进行标注；以VGG16网络为基础网络，搭建全卷积网络模型，并改进FCN模型的跳层结构；训练改进的全卷积网络模型，即训练FCNB模型；用训练好的网络对测试集的数据进行特征提取；定性评价特征提取结果，对比分析改进后与改进前的网络的特征提取结果。本发明保留了更多的细节信息，克服了传统方法抗散斑能力差、效率低、速度慢以及准确率低的缺点；有利于方法的泛化使用；特征提取效果得到了明显提升，该方法收敛性更好，稳定性更高。

Description

一种改进的全卷积神经网络的侧扫声纳图像特征提取方法

技术领域

本发明属于声纳图像特征提取技术领域，具体涉及一种改进的全卷积神经网络的侧扫声纳图像特征提取方法。

背景技术

侧扫声纳系统作为是水下探测最有效的传感器之一，诞生于上个世纪50年代末期，是探测海底地形地貌的重要工具。海底地形的声学探测与特征提取一直是水下工程、海洋渔业及水下通讯等领域的重要研究内容。因此，对声纳图像海底地形边缘轮廓特征提取方法的研究具有十分重要的意义。但直至目前，对声纳图像的特征提取和判读主要还是以人工为主，该方法速度慢、效率低且难以精确勾勒出海底地形的轮廓。随着科学技术的发展，大量获取高质量的海底地形的图像已经不再成为问题。面对数据量的迅速增加，人工判读的方式已经不能满足迅猛发展的现代科学技术的需求，因此探索一种智能化的声纳图像特征提取方法已经成为当前研究的热点问题。

近年来，深度学习技术飞速发展，研究人员已经将卷积神经网络应用到声纳图像的分类问题中。例如研究人员分别训练了四个不同的CNN网络用于声纳图像的二分类问题，然后采用4个网络融合的方式提升网络的性能，该方法虽然取得了较好的分类效果，但计算量大，网络结构与输入图片的尺寸相关，难以广泛运用。而且本发明中所研究的对声纳图像中的海底地形边缘轮廓的特征提取问题与普通的目标分类问题有所不同，该问题是对声纳图像中特定目标的特征提取，即实现声纳图像的像素级分类并且可视化分类的结果。从本质上来说该问题类似于计算机视觉的图像语义分割问题。针对视觉图像的语义分割问题，国内外学者提出了很多效果显著的深度学习网络。有研究人员首次提出全卷积神经网络(FCN)的语义分割算法，与经典的CNN在卷积层之后使用全连接层得到固定长度的特征向量进行分类不同，FCN可以接受任意尺寸的输入图像，采用反卷积层对最后一个卷积层的特征图进行上采样,使它恢复到输入图像相同的尺寸，从而可以对每个像素都产生一个预测,同时保留了原始输入图像中的空间信息,最后在上采样的特征图上进行逐像素分类，该网络的提出取得了图像分割领域的新突破，之后很多成功用于语义分割的深度学习模型均为该网络的变体。虽然这些深度模型在视觉图像领域的性能较好，但并不完全适合声纳图像的特征提取，主要有两方面的原因：首先由于水下探测环境的复杂性和特殊性，声纳图像相比于视觉图像，散斑噪声污染严重，且往往图像边缘残缺、轮廓不连续，这会导致获得准确的边缘特征十分困难。其次，FCN等深度网络的输出分辨率较低，存在信息丢失的问题，这对本就不连续的边缘轮廓的特征提取更加不利。

鉴于此，本发明从改进FCN网络结构的角度出发，提出一种基于改进的全卷积神经网络的侧扫声纳图像特征提取方法，通过在跳层结构中加入批量归一化层，预防梯度消失现象的发生，保留了更多的细节信息，改善了传统FCN方法边缘细节信息丢失严重的现象，能够准确定位目标边缘并使错断的目标边缘变得连续。

发明内容

本发明的目的在于提供了一种改进的全卷积神经网络的侧扫声纳图像特征提取方法，避免全卷积神经网络应用于海底地形边缘轮廓的特征提取时存在的严重细节信息丢失问题。

本发明的目的是这样实现的：

一种改进的全卷积神经网络的侧扫声纳图像特征提取方法，具体的实现步骤为：

步骤1.数据集的获取，并将数据集分为训练集和测试集，对数据集的目标区域进行标注；

步骤2.以VGG16网络为基础网络，搭建全卷积网络模型，即FCN模型，并改进FCN模型的跳层结构；

步骤3.训练改进的全卷积网络模型，即训练FCNB模型；

步骤4.用训练好的网络对测试集的数据进行特征提取。

步骤1的具体步骤为：

步骤1.1.在少量的声纳图像的基础上通过旋转、翻转变化以及加噪的方式实现声纳数据集的扩充；

步骤1.2.标注海底地形的边缘轮廓，制作标签图；生成的标签图中色彩值0代表背景，1代表目标；在数据集中，原图保存为JPG格式，标签图保存为PNG格式。

步骤2的具体步骤为：

步骤2.1.以VGG16网络模型作为基础网络结构，将VGG16的全连接层转化为全卷积层；

步骤2.2.改进原FCN网络中的跳层结构，即在跳层结构中卷积核大小为1×1的类别预测层之后添加一个BatchNormal层，在信息融合层之后添加RELU激活函数，加入非线性因素；

步骤2.3.在VGG16网络之后添加反卷积层以及两个跳层结构，融合池化层3、池化层4的细节信息。

步骤3所述的训练FCNB模型具体内容为采用已经训练好的FCN-32s的网络参数初始化改进的FCN网络的前端网络，所有的反卷积层采用双线性插值的方式初始化，所有的类别预测层采用均值为0、方差为2/n的高斯分布的方式初始化；采用带动量项的小批量梯度下降法优化网络，批量大小为8，动量项为0.99，学习率设置为1e-10，权值的正则化系数设置为0.0005。

本发明的有益效果在于：针对现有的侧扫声纳图像海底地形边缘轮廓特征提取网络精度不高、边缘不连续和细节丢失的问题，本发明致力于全卷积神经网络跳层结构的改进，通过加入批量归一化层，预防梯度消失现象的发生，使网络得到更加充分的训练，保留了更多的细节信息；本方法可以实现海底地形边缘轮廓特征的准确提取，克服了传统方法抗散斑能力差、效率低、速度慢以及准确率低的缺点；避免了传统CNN方法与输入图片尺寸严格相关的缺陷，有利于方法的泛化使用；通过改进跳层结构，保留了更多的细节信息，改善了FCN网络严重的细节丢失现象，可以使错断的目标边缘变得连续，特征提取效果得到了明显提升，在测试集上的评价指标mean IU达到了80.57％；与改进之前的网络相比，该方法收敛性更好，稳定性更高。

附图说明

图1是卷积层基本计算原理示意图。

图2是池化层基本原理示意图

图3(a)是改进前的跳层结构图。

图3(b)是改进后的跳层结构图。

图4是改进后的FCN网络模型图。

图5(a)是网络模型的训练集的损失函数和测试集的损失函数曲线变化图。

图5(b)是网络模型在测试集上的类别平均区域重合度的曲线变化图。

图6(a)是损失函数在网络训练过程中的变化曲线图。

图6(b)是平均区域重合度在网络训练过程中的变化曲线图。

图7是改进前与改进后的海底地形边缘轮廓特征提取的效果图。

具体实施方式

下面结合附图对本发明做进一步的描述：

实施例1

本发明为基于改进的全卷积神经网络的侧扫声纳图像特征提取方法，即一种通过改进的全卷积神经网络对声纳图像中海底地形的边缘轮廓进行特征提取的方法，下面结合附图及具体实施例对本发明的实施过程和实施效果加以详细说明。

本发明技术方案的实施步骤：

步骤1.构建数据集并进行数据标注；

步骤2.搭建改进的全卷神经网络模型；

步骤3.训练网络；

步骤4.利用训练好的网络对海底地形图进行特征提取；

步骤5.对比分析改进前与改进后的网络性能，展示最终的特征提取结果。

步骤1.构建数据集并进行数据标注。

步骤1.1.直接获取大量的声纳图像作为实验数据十分困难，本发明在少量的声纳图像的基础上通过旋转、翻转变化以及加噪的方式实现声纳数据集的扩充；

步骤1.2.扩充后的数据集总共有2000张海底地形图，其中的1800张作为训练集，200张作为测试集。

步骤1.3.标注海底地形的边缘轮廓，制作标签图。生成的标签图中色彩值0代表背景，1代表目标。在数据集中，原图保存为JPG格式，标签图保存为PNG格式。

步骤2.构建改进的全卷积神经网络。

本发明的网络模型是基于开源的caffe框架搭建的。

步骤2.1.首先以经典的VGG16网络模型作为基础网络结构，将VGG16的全连接层转化为全卷积层；在VGG16中前5层为卷积层，第6层和第7层分别是一个长度为4096的一维向量，第8层是长度为1000的一维向量，分别对应1000个类别的概率。在本发明中对应的类别个数为2，FCN将这3层表示为卷积层，卷积核的大小(通道数，宽，高)分别为(4096,1,1)、(4096,1,1)、(2,1,1)。基础网络通过卷积层、池化层和Relu激活函数的反复组合实现对特征的提取。

卷积层的基本原理：

为了便于理解，这里通过一个样例具体说明卷积层的计算原理。在样例中展示了如何通过卷积层将一个2×2×3的节点矩阵变化为一个1×1×5的单位节点矩阵。

假设是使用

来表示该卷积层对于输出单位节点矩阵中的第i个节点和输入节点(x,y,z)的权重，使用bⁱ表示对于第i个输出节点对应的偏置项参数，那么单位节点矩阵中的第i个节点的取值g(i)为：

其中a_x,y,z为该层输入节点(x,y,z)的取值，f为激活函数。本发明中的激活函数为relu激活函数。故

f(x)＝max(x,0)

图1展示了在给定a，w⁰和b⁰的情况下，g(0)的计算过程。在图2的左侧给出了a和w⁰的取值，这里通过3个二维矩阵来表示一个三维矩阵的取值，其中每二维矩阵表示三维矩阵在某一个深度上的取值。图中·符号表示点积，也就是矩阵中对应元素乘积的和。图2的右侧展示了g(0)的计算过程，如果给出了w¹到w⁴和b¹到b⁴，也可以类似的计算出g(1)到g(4)。

池化层的基本原理：

池化会对输入的特征图进行压缩，一方面使特征图变小，简化网络计算复杂度；一方面进行特征压缩，提取主要特征。本发明采用最常用的最大值池化，滤波器的尺寸为2×2，步长为2。最大值池化的示意图如图2所示。

步骤2.2.改进FCN网络中的跳层结构。改进前与改进后的跳层结构如图1所示，即在跳层结构中卷积核大小为1×1的类别预测层之后添加一个BatchNorm层，有效克服跳层结构中梯度较难反向传播的问题，在加快网络收敛速度的同时使网络的浅层结构能够获得更充分的训练，获取更多的细节信息。在信息融合层之后添加Relu激活函数，加入更多的非线性因素，增强模型的表达能力。

如图3(a)所示，F表示跳层结构中输入的特征图，H′代表其他分支输入的特征图，H代表F和H′融合后的特征图。改进前，在反向传播的过程中损失函数L对跳层结构的输入F的梯度为：

其中，W为类别预测层的参数，由于原网络中类别预测层采用零初始化的方式，所以W本身为一个很小的值，如果

项也为一个很小的值，则会出现梯度消失现象，这对网络的训练十分不利。如果跳层结构训练不充分，会导致浅层网络层学习不到准确的参数，从而使网络的特征提取结果中细节信息丢失。为了预防这种现象的发生，在跳成结构中加入BatchNorm层。改进后的结构如图3(b)所示。BatchNorm通过对数据的归一化和平移缩放操作来对抗梯度消失的问题。

BatchNorm中的数据归一化方法，就是对输入数据分布变换到0均值，单位方差的正态分布，具体公式如下：

这里的x^(k)不是指原始输入，也不是某层每个神经元的输出，而是该层这个神经元的线性激活x＝WU+B，这里的U才是上一层神经元的输出。E[x^(k)]指的是每一批训练数据神经元x^(k)的平均值；然后分母就是每一批数据神经元x^(k)的一个标准差了。

归一化后某个神经元的激活x^(k)形成了均值为0,方差为1的正态分布，目的是使大部分的激活值落入非线性函数的线性区内，其对应的导数远离导数饱和区，增强反向传播信息流动性，加快训练收敛速度。但是这样会破坏网络特征分布，为了防止这一点，增加了变换重构，即每个神经元增加两个调节参数(scale和shift)，这两个参数是通过训练来学习到的，用来对归一化后的激活反变换，使得网络表达能力增强，即对变换后的激活进行如下的scale和shift操作：

其中，γ和β为学习参数。

步骤2.3.改进后的网络结构如图4所示。图中conv以及所有的白色框代表卷积层，pool代表池化层，deconv代表反卷积层，bn代表批量归一化层，eltwise代表特征融合层，Prediction为类别预测层。首先对原图像进行卷积conv1、池化pool1操作后原图像缩小为1/2；之后对图像进行第二次卷积conv2、池化pool2操作后图像缩小为1/4；接着继续对图像进行第三次卷积conv3、池化pool3操作缩小为原图像的1/8，此时保留pool3的特征图；接着继续对图像进行第四次卷积conv4、池化pool4操作，缩小为原图像的1/16，保留pool4的特征图；最后对图像进行第五次卷积conv5、池化pool5操作，缩小为原图像的1/32；最后经过三个卷积层，特征图数量改变但大小不变，仍为原图的1/32，此时的图像叫热图。在conv8之后增加反卷积层，使热图的大小扩大两倍，首先通过跳层结构与pool4的特征图融合，再通过反卷积层和跳层结构与pool3的特征图融合，最后通过反卷积层恢复原图大小。跳层结构的存在融合了浅层和深层的特征信息，使特征提取结果更加精细。

步骤3.训练神经网络的主要步骤：

步骤3.1.仿照VOC2012数据集建立自己的数据集，将所有的训练集、测试集的图片及标签图放入对应的文件夹。

步骤3.2.训练网络时，采用已经训练好的FCN-32s的网络参数初始化改进的FCN网络的前端网络，所有的反卷积层采用双线性插值的方式初始化，所有的类别预测层采用均值为0方差为2/n的高斯分布的方式初始化。采用带动量项的小批量梯度下降法优化网络，批量大小为8，动量项为0.99，学习率设置为1e-10，权值的正则化系数设置为0.0005。网络总迭代次数为60000次，每迭代1000次保存一个网络模型。

步骤4.将测试集的图片输入训练好的网络模型中，获取海底地形的边缘轮廓的特征提取结果。

步骤5.改进后网络模型(FCNB)的效果验证；对特征提取结果进行定性评价；对比改进前与改进后的网络性能。

本发明采用统计像素准确率(pixel acc)、类别平均准确率(mean acc)、平均区域重合度(mean IU,intersection over union)和频率加权区域重合度(fw IU)，进行特征提取结果的定性评价。各指标的定义如下：

式中n_ij表示属于i类被判为j类的像素点个数，n_cl表示类别个数(n_cl＝2)，t_i＝∑_jn_ji表示i类像素点总个数，k表示类别。由于平均IU反映分割区域的完整性和分割位置的准确性，通常被用来作为最终评价指标。

本实验在windows10操作系统下，基于GPU为NVIDIA GeForce GTX 1060的硬件平台上搭建Caffe深度学习框架，进行改进后的FCN模型训练和测试。

对本发明的效果验证：

采用FCN-8s网络模型做改进后网络模型的效果验证试验，实验结果如图5(a)所示。图5(a)中黑色实线和灰色双化线分别表示改进后网络模型的训练集的损失函数和测试集的损失函数曲线变化图；灰色实线和黑色虚线分别表示改进前网络模型的训练集的损失函数和测试集的损失函数曲线变化图；图5(b)的黑色和灰色实线分别代表改进前与改进后的网络模型在测试集上的类别平均区域重合度(mean IU)的曲线变化图。由实验对比结果可以看出，改进后的网络结构可以大大提高网络的性能。

验证了改进结构的良好性能后，采用已训练好的FCN-32s初始化网络模型，完成改进后网络模型(FCNB)的总体训练，整个训练过程共迭代60000次。

表1展示了本发明方法(FCNB)与FCN-8s网络的性能比较，可见本发明方法的各项指标均高于FCN-8s，其中最终的评价指标类别平均区域重合度(mean IU)达到了80.57％，相比于改进之前的77.57％提高了3％。

图6(a)、图6(b)展示了本发明方法的损失函数以及平均区域重合度(mean IU)在网络训练过程中的变化曲线图。图7展示了改进前(FCN-8s)与改进后(FCNB)的海底地形边缘轮廓特征提取的效果图。由图6(a)、图6(b)和图7可以看出，本发明方法具有良好的收敛性，网络的稳定性较高，且改进后的网络比改进前的网络获取了更加准确的细节信息，特征提取效果更精细。

表1改进前后网络模型的性能比较(％)

Claims

1.一种改进的全卷积神经网络的侧扫声纳图像特征提取方法，其特征在于，具体的实现步骤为：

步骤3.训练改进的全卷积网络模型，即训练FCNB模型；

步骤4.用训练好的网络对测试集的数据进行特征提取。

2.根据权利要求1所述的一种改进的全卷积神经网络的侧扫声纳图像特征提取方法，其特征在于，步骤1的具体步骤为：

3.根据权利要求1所述的一种改进的全卷积神经网络的侧扫声纳图像特征提取方法，其特征在于，步骤2的具体步骤为：

4.根据权利要求1所述的一种改进的全卷积神经网络的侧扫声纳图像特征提取方法，其特征在于，步骤3所述的训练FCNB模型具体内容为采用已经训练好的FCN-32s的网络参数初始化改进的FCN网络的前端网络，所有的反卷积层采用双线性插值的方式初始化，所有的类别预测层采用均值为0、方差为2/n的高斯分布的方式初始化；采用带动量项的小批量梯度下降法优化网络，批量大小为8，动量项为0.99，学习率设置为1e-10，权值的正则化系数设置为0.0005。