CN110084234B

CN110084234B - 一种基于实例分割的声呐图像目标识别方法

Info

Publication number: CN110084234B
Application number: CN201910236980.8A
Authority: CN
Inventors: 徐方进; 姜龙玉; 马琪翔; 於文雪
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2019-03-27
Filing date: 2019-03-27
Publication date: 2023-04-18
Anticipated expiration: 2039-03-27
Also published as: CN110084234A

Abstract

本发明公开一种基于实例分割的声呐图像目标识别方法，属于数字图像处理领域。包含如下步骤：设计具有抗噪声能力的改进深度残差网络作为主干网络，结合检测模型与全卷积网络，构建基于实例分割的声呐图像目标识别的网络模型；使用有监督的方法训练网络模型；使用一种基于简单线性迭代聚类的方法对分割边界进行优化。

Description

一种基于实例分割的声呐图像目标识别方法

技术领域

本发明涉及一种基于实例分割的声呐图像目标识别方法，属于数字图像处理领域。

背景技术

声呐是水声学中最重要的装置，用于军事，商业，科研等各个领域。声呐和雷达等成像系统的原理不同，由于电磁波在水下衰减速度很快，而声波在水下具有良好的传播性质。因此声呐利用声波作为信息载体。声呐通过声波的发射与接收，以及声、电信号转换的工作方式完成水下目标的探测、定位等任务。除此之外，也常用于水下信息的传输通讯。随着声呐系统的广泛应用，对声呐设备智能化的要求也逐渐提高。目前，水下目标识别技术的应用逐渐增多。例如在军事中对水下鱼雷，潜艇的识别，渔业中对于鱼群的识别等，其中目标识别都是其中的关键技术。

以往传统的声呐图像分割方法大多以基于图像灰度值，空间信息，边缘信息等，传统方法主要有灰度阈值法，空间区域信息分割法，边缘检测算法等。但声呐图像具有质量差，边缘模糊，噪声多的特点。因此若是基于图像空间信息或颜色等进行识别，不能取得很好的效果，并且难以满足高效率，智能化的要求。

深度卷积神经网络近年来发展迅速。通过卷积的方式，可以提取声呐图像中的局部特征。且随着网络深度的增加，特征的抽象程度也随之增加。因此，对于抽象的特征学习效果更好。并且在效率方面，深度学习方法可以达到实时检测的效果。

目前基于深度卷积神经网络的声呐图像目标识别大多以分类，检测为主。但对于多个目标，边界框可能会较大程度的重叠，影响检测效果。而且面对越来越多的水下应用场景，有时需要得到水下目标更加精确的位置信息，仅仅进行分类或是检测是不够直观的。在此背景下，本发明提出基于实例分割的声呐图像目标识别技术，提供更精确的目标位置同时，对不同实例进行标注。通过此方法可以有效解决分类或检测任务中存在的上述缺陷。

本发明采用基于实例分割的目标识别技术，对比以往传统的分类检测任务，该方法对图像完成目标分割，定位更加准确，同时可以区分出图像中不同的实例。使用具有抗噪声特性的改进深度残差神经网络作为主干网络，性能与准确率相比于浅层网络更优。通过该发明对声呐图像进行基于实例分割的目标识别，有助于加速对水下目标的判断，实现水下作业的智能化。

发明内容

发明目的：本发明的目的在于解决现有技术中存在的不足，提供一种基于实例分割的声呐图像目标识别方法。

技术方案：本发明所述的一种基于实例分割的声呐图像目标识别方法，具体包括以下步骤：

步骤1：设计具有抗噪声能力的改进深度残差网络作为主干网络，将检测模型与全卷积网络结合，构建基于实例分割的声呐图像目标识别的网络模型；

步骤2：使用有监督的方法训练网络模型；

步骤3：使用基于简单线性迭代聚类的方法对分割边界进行优化。

作为本发明基于实例分割的声呐图像目标识别方法的进一步优选方案，在步骤1中，基于实例分割的声呐图像目标识别的网络模型包括检测模型和全卷积网络；

其中，检测模型为一个含有区域建议网络的二阶段模型，全卷积网络位于主干网络后，用于为每个特征图预测分割掩膜，并根据图像尺寸、目标尺寸设计参数包含区域建议网络锚区域、区域建议数量、以及主干网络的卷积核尺寸、卷积步长。

作为本发明基于实例分割的声呐图像目标识别方法的进一步优选方案，在步骤1中，改进深度残差网络由具有抗噪声能力的卷积自编码器与深度残差网络组成。

作为本发明基于实例分割的声呐图像目标识别方法的进一步优选方案，在步骤2中，使用有监督的方法分别对自编码器、全卷积网络、区域建议网络、深度残差网络进行训练，具体包括以下步骤：

步骤2.1：使用原始声呐图像与添加模拟噪声的声呐图像训练自编码器；

步骤2.2：使用预训练参数初始化深度残差网络，固定深度残差网络的参数；

步骤2.3：训练全卷积网络，包括前四层卷积层、反卷积层、1*1卷积核的卷积层，使用像素分类的平均二值交叉熵损失作为目标函数：

L＝-(y log(p)+(1-y)log(1-p))

其中，y为标记的掩膜的真实值0或1，p为预测值；

步骤2.4：训练区域建议网络网络，区域建议网络网络包括共享卷积层，以及两个并列的卷积层，分别用于分类和回归，区域建议网络将对主干网络中产生的特征图进行处理，并进行分类和回归，目标函数为：

其中，i为锚区域的下标，p_i是第i个锚区域被预测为目标的预测概率，若锚区域表示的区域为正样本，标签值

为1，若锚区域表示的区域为负样本，

为0；t_i表示预测的边界框坐标，

是边界框坐标的真实值；

步骤2.5：固定自编码器的参数，并取消对深度残差网络参数的固定，对深度残差网络进行训练。

作为本发明基于实例分割的声呐图像目标识别方法的进一步优选方案，在步骤3中，使用基于简单线性迭代聚类的阈值方法对每个类别的分割结果进行优化，具体包括以下步骤：

步骤3.1：对图像进行简单线性迭代聚类；

步骤3.2：计算图像中实例的分割掩膜在每个超像素中的覆盖率；

步骤3.3：对每个类别k设置阈值t_k1，t_k2，若分割掩膜在该超像素的覆盖率大于等于t_k1，则将该超像素包含的像素点合并到分割掩膜中，若分割掩膜在该超像素的覆盖率小于t_k2，则在分割掩膜中删除该超像素包含的像素点。

本发明采用以上技术方案与现有技术相比，具有以下技术效果：

(1)本发明采用深度神经网络对声呐图像进行目标识别，可通过该模型提取声呐图像中的抽象特征，较之于传统的声呐图像目标识别方法提升了效率和准确性，三种目标的分类平均准确率在95％以上，分割IoU可达80％。

(2)现有基于深度学习的声呐图像目标识别技术中，对声呐图像进行目标识别的手段仍处于分类、检测、语义分割的水平上，通过本发明提出的方法，可实现对图像中不同实例的识别。

(3)本发明采用具有抗噪声能力的改进深度残差网络作为主干网络，相较于现有技术，改进后的深度残差卷积网络具有抗噪声的特性，更适用于声呐图像的目标识别任务。

(4)本发明采用简单线性迭代聚类算法改进分割后的边界保持性。通过该方法可改进卷积神经网络的分割结果。在沉船类目标中使用该方法的效果明显，可提高约3％的IoU。

附图说明

图1为本发明整体架构示意图；

图2为本发明自编码器结构示意图；

图3(a)为本发明深度残差网络结构示意图；

图3(b)为本发明深度残差网络卷积块结构示意图；

图3(c)为本发明深度残差网络恒等块结构示意图；

图4为本发明区域建议网络结构示意图；

图5为本发明全卷积网络结构示意图；

图6(a)为未添加噪声原图像；

图6(b)为添加模拟高斯噪声后的图像；

图6(c)为添加噪声后的图像经过自编码器重建后的图像；

图7(a)为尸体类单实例分割结果图；其中彩色半透明区域为实例分割结果，虚线矩形框为边界框，文字为分类结果，数字代表该分类的预测概率；

图7(b)为沉船类单实例分割结果图；其中彩色半透明区域为实例分割结果，虚线矩形框为边界框，文字为分类结果，数字代表该分类的预测概率；

图7(c)为本发明多实例分割结果图。其中彩色半透明区域为实例分割结果，不同颜色代表不同实例；

图8(a)为本发明使用SLIC聚类的结果图；

图8(b)为本发明分割待优化的结果图；

图8(c)为本发明使用基于SLIC聚类优化分割后的结果图。

具体实施方式

下面对本发明技术方案进行详细说明，但是本发明的保护范围不局限于所述实施例。

步骤一中，构建一个用于基于实例分割的目标识别模型，该过程部署在ubuntu1604下，配置TensorFlow1.3的GPU版本作为框架。显卡为GeForce 1050Ti，显卡驱动为Cuda8.0、Cudnn6.0。模型由一个二阶段的目标检测网络与一个全卷积神经网络组成，采用具有抗噪声能力的改进残差网络作为主干网络。

在本实施例中，原始图像尺寸为256*256，进入训练后的深度残差神经网络，分别完成卷积滤波、正则化、输入激活函数引入非线性因素、最大池化处理。并将数据输入至堆叠的结构块中，完成特征提取工作。

主干网络为改进具有抗噪声能力的深度残差神经网络，由卷积自编码器与深度残差网络结合。卷积自编码器具有良好的抗噪声性能，本发明将自编码器运用与深度残差神经网络中，设计出有抗噪声能力的改进残差网络。卷积自编码器由具有两层卷积结构的编码器与两层卷积结构的解码器组成，如图2，编码器与解码器的尺寸如下：

编码器共两层。卷积核尺寸为3*3*64。卷积操作后采用填充的方式使图像维持原尺寸，池化核尺寸为2*2，激活函数使用relu。

解码器共三层。前两层卷积核尺寸为3*3*64，上采样池化核尺寸为2*2。第三层卷积层卷积核尺寸为3*3*3，激活函数使用sigmoid。

损失函数使用交叉熵损失，并训练。训练后的卷积自编码器具有良好的抗噪声性能。图6(a)为未加噪声的原始图像，图6(b)为将原始图像添加模拟高斯噪声后的图像，经过自编码器后输出结果为图6(c)。将解码器的输出作为深度残差网络的输入。深度残差网络结构如图3(a)，尺寸如下：

第一部分共1层，尺寸为：卷积核尺寸7*7*64，步长为2。激活函数为relu。池化方式为最大池化，池化核尺寸为3*3，步长为2。

第二部分共3个结构块，9个卷积层。其中，一个结构块为卷积块(convolutionblock)，如图3(b)。其余为恒等块(identity block)，如图3(c)。每个结构块有3个卷积层，尺寸为：卷积核尺寸1*1*64，卷积核尺寸3*3*64，卷积核尺寸1*1*256。卷积步长均为1，激活函数均为relu。

第三部分共4个结构块，12个卷积层。其中，一个结构块为卷积块，其余为恒等块。每个结构块有3个卷积层，尺寸为：卷积核尺寸1*1*128，卷积核尺寸3*3*128，卷积核尺寸1*1*512。卷积步长均为1，激活函数均为relu。

第四部分共23个结构块，69个卷积层。其中，一个结构块为卷积块其余为恒等块。每个结构块有3个卷积层，尺寸为：卷积核尺寸1*1*256，卷积核尺寸3*3*256，卷积核尺寸1*1*1024。卷积步长均为1，激活函数均为relu。

第五部分共3个结构块，9个卷积层。其中，一个结构块为卷积块其余为恒等块。每个结构块有3个卷积层，尺寸为：卷积核尺寸1*1*512，卷积核尺寸3*3*512，卷积核尺寸1*1*2048。卷积步长均为1，激活函数均为relu。

主干网络输出的特征图输入区域建议网络。区域建议网络结构如图4。

在区域建议网络的锚区域(anchor)选取中，选取长宽比为1：2，2：1，1：1三种，面积选取16²,32²,64²,128²四种。区域建议网络与主干网络的共享卷积层，卷积核尺寸为3*3*512，步长为1，激活函数为relu。共享层下分为两个分支分别为分类和边界框回归分支，卷积核尺寸分别为1*1*6，1*1*12，卷积步长均为1，采用线性激活函数。其中，分类分支用于预测每个像素点的前景或背景的概率，边界框回归分支根据锚区域中心预测边界框的偏移量。

区域建议层根据分类概率得分进行排序，将得分前6000的像素点对应的预测边界框的偏移量计算为原图像中的真实坐标。用非极大值抑制算法选取2000个RoI区域送入池化层。

采用RoI对齐的方式对RoI区域做14*14的池化操作。将需要池化的RoI区域划分为14*14个区域，共196个；在每个小区域中选择4个采样点，寻找距离该采样点最近的4个特征图上点的像素值，对这4个像素值使用双线性插值的方法，得到每个采样点的像素值；对每个小区域进行最大池化的运算；最终生成14*14大小的特征图。

在池化后将特征图送入全链接层。全链接层共2层，卷积核尺寸均为1*1*1024，步长为1，激活函数为relu。并采用softmax归一化分类，预测特征图对应的类别。

将池化后的特征图送入全卷积网络，结构如图5。该网络共4层卷积层，1层反卷积层，以及1层用于像素分类的卷积层，尺寸如下：

4层卷积层，卷积核尺寸均为3*3*256，步长为1，激活函数为relu。反卷积核尺寸为256*2*2，步长为2，激活函数为relu，反卷积后输出28*28*256维度的特征图。

根据之前RoI区域预测的分类，选择对应掩膜预测的特征层，对每个像素使用sigmoid激活函数。具体的操作方式为，使用4*1*1的卷积核，步长为1，进行卷积操作，激活函数使用sigmoid。使用平均二值交叉熵损失函数作为目标函数。最终输出直观的预测结果，需要把对应分类的掩膜映射为原图大小，并将超过边界框的掩膜部分移除，得到图像掩膜的预测结果。

步骤二中，首先使用模拟噪声的声呐图像与原图像训练自编码器，并使用自然图像预训练结果初始化深度残差网络的参数。

固定深度残差网络参数，并训练网络全卷积网络与区域建议网络。采用经过标记的声呐图像进行训练。其中使用的训练集共748张，尺寸为256*256像素，其中尸体类124张，沉船类419张，飞机残骸类205张。验证集图像共100张，其中尸体类18张，沉船类61张，飞机残骸类21张。具体训练的网络层如下：

全卷积网络，包括前四层卷积层、反卷积层、卷积核为1*1卷积层。使用所有像素的平均二值交叉熵损失作为目标函数：

L＝-(y log(p)+(1-y)log(1-p)) (1)

其中，y为标记的掩膜的真实值(0或1)，p为预测值。

区域建议网络，包括共享卷积层，以及其下的两个并行卷积层。区域建议网络将对主干网络中产生的特征图进行处理，并进行分类和回归。其目标函数可表示为：

为1，若锚区域表示的区域为负样本，

为0；t_i表示预测的边界框坐标，

是边界框坐标的真实值。

其中分类目标函数是交叉熵损失：

对于回归任务，目标函数为：

训练过程中采用学习率为0.001，每个epoch后区域建议网络和全卷积网络根据上式计算出的损失如下表：

表1

取消对深度残差网络参数的固定，对整个网络模型进行训练。此过程采用步骤三中标记的训练集与验证集，对网络进行有监督训练。训练过程中每个epoch后损失如下表：

表2

测试过程使用测试集对训练后的网络模型进行评估，测试集共100张，尸体类18张，沉船类61张，飞机残骸类21张。数据在网络中的流向可参考图1。

该实施例的输出结果图包含目标的分类、分类概率、边界框、以及分割掩膜，不同的实例以不同颜色的掩膜进行区分，如图7(a)为尸体类单实例分割结果图，图7(b)为沉船类单实例分割结果图，图7(c)为多个沉船实例分割的结果图。对比标记的真实值，可评估每张图像分类和分割的效果。在该方法下，经过30次epoch后，该模型对目标分类准确率达95％以上，平均分割交并比(mean intersection-over-union，mIoU)为80％左右。

步骤三中，为基于简单线性迭代聚类对分割结果进行优化方法，该方法可优化分割结果的边缘保持性。

在该实施例中，对图像进行简单线性迭代聚类，图像大小为256*256，将图像分为300个超像素，如图8(a)。

该实施例中设置船类阈值t₁＝t₂＝0.5，即若分割掩膜在该超像素的覆盖率大于等于0.5，则将该超像素包含的像素点合并到分割掩膜中。若分割掩膜在该超像素的覆盖率小于0.5，则在分割掩膜中删除该超像素包含的像素点。未优化前的结果可见8(b)，经过优化的分割效果可见图8(c)。

本发明提供了一种基于实例分割的声呐图像目标识别方法，具体实现该方案的方法途径有很多，以上所述仅为本发明的优选实施方案，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明的前提下，还可做出若干改进和润饰，这些改进和润饰也应当视为本发明的保护范围内。本实施例中为明确的部分均可用现有技术加以实现。

Claims

1.一种基于实例分割的声呐图像目标识别方法，其特征在于，具体包括以下步骤：

步骤2：使用有监督的方法训练网络模型；

步骤3：使用基于简单线性迭代聚类的方法对分割边界进行优化；

基于实例分割的声呐图像目标识别的网络模型由一个二阶段的目标检测网络与一个全卷积神经网络组成，采用具有抗噪声能力的改进残差网络作为主干网络；原始图像进入训练后的深度残差神经网络，分别完成卷积滤波、正则化、输入激活函数引入非线性因素、最大池化处理，并将数据输入至堆叠的结构块中，完成特征提取工作；

主干网络为改进具有抗噪声能力的深度残差神经网络，由卷积自编码器与深度残差网络结合；卷积自编码器由具有两层卷积结构的编码器与两层卷积结构的解码器组成，编码器与解码器的尺寸如下：

编码器共两层，卷积核尺寸为3*3*64，卷积操作后采用填充的方式使图像维持原尺寸，池化核尺寸为2*2，激活函数使用relu；

解码器共三层，前两层卷积核尺寸为3*3*64，上采样池化核尺寸为2*2，第三层卷积层卷积核尺寸为3*3*3，激活函数使用sigmoid；损失函数使用交叉熵损失，并训练；将解码器的输出作为深度残差网络的输入；深度残差网络结构为：

第一部分共1层，尺寸为：卷积核尺寸7*7*64，步长为2，激活函数为relu，池化方式为最大池化，池化核尺寸为3*3，步长为2；

第二部分共3个结构块，9个卷积层，其中，一个结构块为卷积块，其余为恒等块；每个结构块有3个卷积层，尺寸为：卷积核尺寸1*1*64，卷积核尺寸3*3*64，卷积核尺寸1*1*256，卷积步长均为1，激活函数均为relu；

第三部分共4个结构块，12个卷积层，其中，一个结构块为卷积块，其余为恒等块；每个结构块有3个卷积层，尺寸为：卷积核尺寸1*1*128，卷积核尺寸3*3*128，卷积核尺寸1*1*512，卷积步长均为1，激活函数均为relu；

第四部分共23个结构块，69个卷积层，其中，一个结构块为卷积块，其余为恒等块；每个结构块有3个卷积层，尺寸为：卷积核尺寸1*1*256，卷积核尺寸3*3*256，卷积核尺寸1*1*1024，卷积步长均为1，激活函数均为relu；

第五部分共3个结构块，9个卷积层，其中，一个结构块为卷积块，其余为恒等块；每个结构块有3个卷积层，尺寸为：卷积核尺寸1*1*512，卷积核尺寸3*3*512，卷积核尺寸1*1*2048，卷积步长均为1，激活函数均为relu；

主干网络输出的特征图输入区域建议网络；在区域建议网络的锚区域选取中，选取长宽比为1：2，2：1，1：1三种，面积选取162,322,642,1282四种；区域建议网络与主干网络的共享卷积层，卷积核尺寸为3*3*512，步长为1，激活函数为relu；共享层下分为两个分支分别为分类和边界框回归分支，卷积核尺寸分别为1*1*6，1*1*12，卷积步长均为1，采用线性激活函数；其中，分类分支用于预测每个像素点的前景或背景的概率，边界框回归分支根据锚区域中心预测边界框的偏移量。

2.根据权利要求1所述的基于实例分割的声呐图像目标识别方法，其特征还在于，在步骤1中，基于实例分割的声呐图像目标识别的网络模型包括检测模型和全卷积网络；

其中，检测模型为一个含有区域建议网络的二阶段模型，全卷积网络位于主干网络后，用于为每个特征图预测分割掩膜，并根据图像尺寸、目标尺寸设计参数包含区域建议网络锚区域、区域建议数量、以及主干网络的卷积核尺寸、卷积步长参数。

3.根据权利要求1所述的基于实例分割的声呐图像目标识别方法，其特征还在于，在步骤1中，改进深度残差网络由具有抗噪声能力的卷积自编码器与深度残差网络组成。

4.根据权利要求1所述的基于实例分割的声呐图像目标识别方法，其特征还在于，在步骤2中，使用有监督的方法分别对自编码器、全卷积网络、区域建议网络、深度残差网络进行训练，具体包括以下步骤：

L＝-(ylog(p)+(1-y)log(1-p))

其中，y为标记的掩膜的真实值，p为预测值；

步骤2.4：训练区域建议网络网络，区域建议网络包括共享卷积层，以及两个并列的卷积层，分别用于分类和回归，区域建议网络将对主干网络中产生的特征图进行处理，并进行分类和回归，目标函数为：

其中，i为锚区域的下标，p_i是第i个锚区域被预测为目标的预测概率，若锚区域表示的区域为正样本，标签值为1，若锚区域表示的区域为负样本，为0；t_i表示预测的边界框坐标，是边界框坐标的真实值；

5.根据权利要求1所述的基于实例分割的声呐图像目标识别方法，其特征还在于，在步骤3中，使用基于简单线性迭代聚类的阈值方法对每个类别的分割结果进行优化，具体包括以下步骤：

步骤3.1：对图像进行简单线性迭代聚类；