CN110084234B - 一种基于实例分割的声呐图像目标识别方法 - Google Patents

一种基于实例分割的声呐图像目标识别方法 Download PDF

Info

Publication number
CN110084234B
CN110084234B CN201910236980.8A CN201910236980A CN110084234B CN 110084234 B CN110084234 B CN 110084234B CN 201910236980 A CN201910236980 A CN 201910236980A CN 110084234 B CN110084234 B CN 110084234B
Authority
CN
China
Prior art keywords
network
convolution
size
kernel size
segmentation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910236980.8A
Other languages
English (en)
Other versions
CN110084234A (zh
Inventor
徐方进
姜龙玉
马琪翔
於文雪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN201910236980.8A priority Critical patent/CN110084234B/zh
Publication of CN110084234A publication Critical patent/CN110084234A/zh
Application granted granted Critical
Publication of CN110084234B publication Critical patent/CN110084234B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开一种基于实例分割的声呐图像目标识别方法,属于数字图像处理领域。包含如下步骤:设计具有抗噪声能力的改进深度残差网络作为主干网络,结合检测模型与全卷积网络,构建基于实例分割的声呐图像目标识别的网络模型;使用有监督的方法训练网络模型;使用一种基于简单线性迭代聚类的方法对分割边界进行优化。

Description

一种基于实例分割的声呐图像目标识别方法
技术领域
本发明涉及一种基于实例分割的声呐图像目标识别方法,属于数字图像处理领域。
背景技术
声呐是水声学中最重要的装置,用于军事,商业,科研等各个领域。声呐和雷达等成像系统的原理不同,由于电磁波在水下衰减速度很快,而声波在水下具有良好的传播性质。因此声呐利用声波作为信息载体。声呐通过声波的发射与接收,以及声、电信号转换的工作方式完成水下目标的探测、定位等任务。除此之外,也常用于水下信息的传输通讯。随着声呐系统的广泛应用,对声呐设备智能化的要求也逐渐提高。目前,水下目标识别技术的应用逐渐增多。例如在军事中对水下鱼雷,潜艇的识别,渔业中对于鱼群的识别等,其中目标识别都是其中的关键技术。
以往传统的声呐图像分割方法大多以基于图像灰度值,空间信息,边缘信息等,传统方法主要有灰度阈值法,空间区域信息分割法,边缘检测算法等。但声呐图像具有质量差,边缘模糊,噪声多的特点。因此若是基于图像空间信息或颜色等进行识别,不能取得很好的效果,并且难以满足高效率,智能化的要求。
深度卷积神经网络近年来发展迅速。通过卷积的方式,可以提取声呐图像中的局部特征。且随着网络深度的增加,特征的抽象程度也随之增加。因此,对于抽象的特征学习效果更好。并且在效率方面,深度学习方法可以达到实时检测的效果。
目前基于深度卷积神经网络的声呐图像目标识别大多以分类,检测为主。但对于多个目标,边界框可能会较大程度的重叠,影响检测效果。而且面对越来越多的水下应用场景,有时需要得到水下目标更加精确的位置信息,仅仅进行分类或是检测是不够直观的。在此背景下,本发明提出基于实例分割的声呐图像目标识别技术,提供更精确的目标位置同时,对不同实例进行标注。通过此方法可以有效解决分类或检测任务中存在的上述缺陷。
本发明采用基于实例分割的目标识别技术,对比以往传统的分类检测任务,该方法对图像完成目标分割,定位更加准确,同时可以区分出图像中不同的实例。使用具有抗噪声特性的改进深度残差神经网络作为主干网络,性能与准确率相比于浅层网络更优。通过该发明对声呐图像进行基于实例分割的目标识别,有助于加速对水下目标的判断,实现水下作业的智能化。
发明内容
发明目的:本发明的目的在于解决现有技术中存在的不足,提供一种基于实例分割的声呐图像目标识别方法。
技术方案:本发明所述的一种基于实例分割的声呐图像目标识别方法,具体包括以下步骤:
步骤1:设计具有抗噪声能力的改进深度残差网络作为主干网络,将检测模型与全卷积网络结合,构建基于实例分割的声呐图像目标识别的网络模型;
步骤2:使用有监督的方法训练网络模型;
步骤3:使用基于简单线性迭代聚类的方法对分割边界进行优化。
作为本发明基于实例分割的声呐图像目标识别方法的进一步优选方案,在步骤1中,基于实例分割的声呐图像目标识别的网络模型包括检测模型和全卷积网络;
其中,检测模型为一个含有区域建议网络的二阶段模型,全卷积网络位于主干网络后,用于为每个特征图预测分割掩膜,并根据图像尺寸、目标尺寸设计参数包含区域建议网络锚区域、区域建议数量、以及主干网络的卷积核尺寸、卷积步长。
作为本发明基于实例分割的声呐图像目标识别方法的进一步优选方案,在步骤1中,改进深度残差网络由具有抗噪声能力的卷积自编码器与深度残差网络组成。
作为本发明基于实例分割的声呐图像目标识别方法的进一步优选方案,在步骤2中,使用有监督的方法分别对自编码器、全卷积网络、区域建议网络、深度残差网络进行训练,具体包括以下步骤:
步骤2.1:使用原始声呐图像与添加模拟噪声的声呐图像训练自编码器;
步骤2.2:使用预训练参数初始化深度残差网络,固定深度残差网络的参数;
步骤2.3:训练全卷积网络,包括前四层卷积层、反卷积层、1*1卷积核的卷积层,使用像素分类的平均二值交叉熵损失作为目标函数:
L=-(y log(p)+(1-y)log(1-p))
其中,y为标记的掩膜的真实值0或1,p为预测值;
步骤2.4:训练区域建议网络网络,区域建议网络网络包括共享卷积层,以及两个并列的卷积层,分别用于分类和回归,区域建议网络将对主干网络中产生的特征图进行处理,并进行分类和回归,目标函数为:
Figure BDA0002008483140000031
其中,i为锚区域的下标,pi是第i个锚区域被预测为目标的预测概率,若锚区域表示的区域为正样本,标签值
Figure BDA0002008483140000032
为1,若锚区域表示的区域为负样本,
Figure BDA0002008483140000033
为0;ti表示预测的边界框坐标,
Figure BDA0002008483140000034
是边界框坐标的真实值;
步骤2.5:固定自编码器的参数,并取消对深度残差网络参数的固定,对深度残差网络进行训练。
作为本发明基于实例分割的声呐图像目标识别方法的进一步优选方案,在步骤3中,使用基于简单线性迭代聚类的阈值方法对每个类别的分割结果进行优化,具体包括以下步骤:
步骤3.1:对图像进行简单线性迭代聚类;
步骤3.2:计算图像中实例的分割掩膜在每个超像素中的覆盖率;
步骤3.3:对每个类别k设置阈值tk1,tk2,若分割掩膜在该超像素的覆盖率大于等于tk1,则将该超像素包含的像素点合并到分割掩膜中,若分割掩膜在该超像素的覆盖率小于tk2,则在分割掩膜中删除该超像素包含的像素点。
本发明采用以上技术方案与现有技术相比,具有以下技术效果:
(1)本发明采用深度神经网络对声呐图像进行目标识别,可通过该模型提取声呐图像中的抽象特征,较之于传统的声呐图像目标识别方法提升了效率和准确性,三种目标的分类平均准确率在95%以上,分割IoU可达80%。
(2)现有基于深度学习的声呐图像目标识别技术中,对声呐图像进行目标识别的手段仍处于分类、检测、语义分割的水平上,通过本发明提出的方法,可实现对图像中不同实例的识别。
(3)本发明采用具有抗噪声能力的改进深度残差网络作为主干网络,相较于现有技术,改进后的深度残差卷积网络具有抗噪声的特性,更适用于声呐图像的目标识别任务。
(4)本发明采用简单线性迭代聚类算法改进分割后的边界保持性。通过该方法可改进卷积神经网络的分割结果。在沉船类目标中使用该方法的效果明显,可提高约3%的IoU。
附图说明
图1为本发明整体架构示意图;
图2为本发明自编码器结构示意图;
图3(a)为本发明深度残差网络结构示意图;
图3(b)为本发明深度残差网络卷积块结构示意图;
图3(c)为本发明深度残差网络恒等块结构示意图;
图4为本发明区域建议网络结构示意图;
图5为本发明全卷积网络结构示意图;
图6(a)为未添加噪声原图像;
图6(b)为添加模拟高斯噪声后的图像;
图6(c)为添加噪声后的图像经过自编码器重建后的图像;
图7(a)为尸体类单实例分割结果图;其中彩色半透明区域为实例分割结果,虚线矩形框为边界框,文字为分类结果,数字代表该分类的预测概率;
图7(b)为沉船类单实例分割结果图;其中彩色半透明区域为实例分割结果,虚线矩形框为边界框,文字为分类结果,数字代表该分类的预测概率;
图7(c)为本发明多实例分割结果图。其中彩色半透明区域为实例分割结果,不同颜色代表不同实例;
图8(a)为本发明使用SLIC聚类的结果图;
图8(b)为本发明分割待优化的结果图;
图8(c)为本发明使用基于SLIC聚类优化分割后的结果图。
具体实施方式
下面对本发明技术方案进行详细说明,但是本发明的保护范围不局限于所述实施例。
步骤一中,构建一个用于基于实例分割的目标识别模型,该过程部署在ubuntu1604下,配置TensorFlow1.3的GPU版本作为框架。显卡为GeForce 1050Ti,显卡驱动为Cuda8.0、Cudnn6.0。模型由一个二阶段的目标检测网络与一个全卷积神经网络组成,采用具有抗噪声能力的改进残差网络作为主干网络。
在本实施例中,原始图像尺寸为256*256,进入训练后的深度残差神经网络,分别完成卷积滤波、正则化、输入激活函数引入非线性因素、最大池化处理。并将数据输入至堆叠的结构块中,完成特征提取工作。
主干网络为改进具有抗噪声能力的深度残差神经网络,由卷积自编码器与深度残差网络结合。卷积自编码器具有良好的抗噪声性能,本发明将自编码器运用与深度残差神经网络中,设计出有抗噪声能力的改进残差网络。卷积自编码器由具有两层卷积结构的编码器与两层卷积结构的解码器组成,如图2,编码器与解码器的尺寸如下:
编码器共两层。卷积核尺寸为3*3*64。卷积操作后采用填充的方式使图像维持原尺寸,池化核尺寸为2*2,激活函数使用relu。
解码器共三层。前两层卷积核尺寸为3*3*64,上采样池化核尺寸为2*2。第三层卷积层卷积核尺寸为3*3*3,激活函数使用sigmoid。
损失函数使用交叉熵损失,并训练。训练后的卷积自编码器具有良好的抗噪声性能。图6(a)为未加噪声的原始图像,图6(b)为将原始图像添加模拟高斯噪声后的图像,经过自编码器后输出结果为图6(c)。将解码器的输出作为深度残差网络的输入。深度残差网络结构如图3(a),尺寸如下:
第一部分共1层,尺寸为:卷积核尺寸7*7*64,步长为2。激活函数为relu。池化方式为最大池化,池化核尺寸为3*3,步长为2。
第二部分共3个结构块,9个卷积层。其中,一个结构块为卷积块(convolutionblock),如图3(b)。其余为恒等块(identity block),如图3(c)。每个结构块有3个卷积层,尺寸为:卷积核尺寸1*1*64,卷积核尺寸3*3*64,卷积核尺寸1*1*256。卷积步长均为1,激活函数均为relu。
第三部分共4个结构块,12个卷积层。其中,一个结构块为卷积块,其余为恒等块。每个结构块有3个卷积层,尺寸为:卷积核尺寸1*1*128,卷积核尺寸3*3*128,卷积核尺寸1*1*512。卷积步长均为1,激活函数均为relu。
第四部分共23个结构块,69个卷积层。其中,一个结构块为卷积块其余为恒等块。每个结构块有3个卷积层,尺寸为:卷积核尺寸1*1*256,卷积核尺寸3*3*256,卷积核尺寸1*1*1024。卷积步长均为1,激活函数均为relu。
第五部分共3个结构块,9个卷积层。其中,一个结构块为卷积块其余为恒等块。每个结构块有3个卷积层,尺寸为:卷积核尺寸1*1*512,卷积核尺寸3*3*512,卷积核尺寸1*1*2048。卷积步长均为1,激活函数均为relu。
主干网络输出的特征图输入区域建议网络。区域建议网络结构如图4。
在区域建议网络的锚区域(anchor)选取中,选取长宽比为1:2,2:1,1:1三种,面积选取162,322,642,1282四种。区域建议网络与主干网络的共享卷积层,卷积核尺寸为3*3*512,步长为1,激活函数为relu。共享层下分为两个分支分别为分类和边界框回归分支,卷积核尺寸分别为1*1*6,1*1*12,卷积步长均为1,采用线性激活函数。其中,分类分支用于预测每个像素点的前景或背景的概率,边界框回归分支根据锚区域中心预测边界框的偏移量。
区域建议层根据分类概率得分进行排序,将得分前6000的像素点对应的预测边界框的偏移量计算为原图像中的真实坐标。用非极大值抑制算法选取2000个RoI区域送入池化层。
采用RoI对齐的方式对RoI区域做14*14的池化操作。将需要池化的RoI区域划分为14*14个区域,共196个;在每个小区域中选择4个采样点,寻找距离该采样点最近的4个特征图上点的像素值,对这4个像素值使用双线性插值的方法,得到每个采样点的像素值;对每个小区域进行最大池化的运算;最终生成14*14大小的特征图。
在池化后将特征图送入全链接层。全链接层共2层,卷积核尺寸均为1*1*1024,步长为1,激活函数为relu。并采用softmax归一化分类,预测特征图对应的类别。
将池化后的特征图送入全卷积网络,结构如图5。该网络共4层卷积层,1层反卷积层,以及1层用于像素分类的卷积层,尺寸如下:
4层卷积层,卷积核尺寸均为3*3*256,步长为1,激活函数为relu。反卷积核尺寸为256*2*2,步长为2,激活函数为relu,反卷积后输出28*28*256维度的特征图。
根据之前RoI区域预测的分类,选择对应掩膜预测的特征层,对每个像素使用sigmoid激活函数。具体的操作方式为,使用4*1*1的卷积核,步长为1,进行卷积操作,激活函数使用sigmoid。使用平均二值交叉熵损失函数作为目标函数。最终输出直观的预测结果,需要把对应分类的掩膜映射为原图大小,并将超过边界框的掩膜部分移除,得到图像掩膜的预测结果。
步骤二中,首先使用模拟噪声的声呐图像与原图像训练自编码器,并使用自然图像预训练结果初始化深度残差网络的参数。
固定深度残差网络参数,并训练网络全卷积网络与区域建议网络。采用经过标记的声呐图像进行训练。其中使用的训练集共748张,尺寸为256*256像素,其中尸体类124张,沉船类419张,飞机残骸类205张。验证集图像共100张,其中尸体类18张,沉船类61张,飞机残骸类21张。具体训练的网络层如下:
全卷积网络,包括前四层卷积层、反卷积层、卷积核为1*1卷积层。使用所有像素的平均二值交叉熵损失作为目标函数:
L=-(y log(p)+(1-y)log(1-p))           (1)
其中,y为标记的掩膜的真实值(0或1),p为预测值。
区域建议网络,包括共享卷积层,以及其下的两个并行卷积层。区域建议网络将对主干网络中产生的特征图进行处理,并进行分类和回归。其目标函数可表示为:
Figure BDA0002008483140000071
其中,i为锚区域的下标,pi是第i个锚区域被预测为目标的预测概率,若锚区域表示的区域为正样本,标签值
Figure BDA0002008483140000072
为1,若锚区域表示的区域为负样本,
Figure BDA0002008483140000073
为0;ti表示预测的边界框坐标,
Figure BDA0002008483140000074
是边界框坐标的真实值。
其中分类目标函数是交叉熵损失:
Figure BDA0002008483140000075
对于回归任务,目标函数为:
Figure BDA0002008483140000081
Figure BDA0002008483140000082
训练过程中采用学习率为0.001,每个epoch后区域建议网络和全卷积网络根据上式计算出的损失如下表:
表1
Figure BDA0002008483140000083
取消对深度残差网络参数的固定,对整个网络模型进行训练。此过程采用步骤三中标记的训练集与验证集,对网络进行有监督训练。训练过程中每个epoch后损失如下表:
表2
Figure BDA0002008483140000084
Figure BDA0002008483140000091
测试过程使用测试集对训练后的网络模型进行评估,测试集共100张,尸体类18张,沉船类61张,飞机残骸类21张。数据在网络中的流向可参考图1。
该实施例的输出结果图包含目标的分类、分类概率、边界框、以及分割掩膜,不同的实例以不同颜色的掩膜进行区分,如图7(a)为尸体类单实例分割结果图,图7(b)为沉船类单实例分割结果图,图7(c)为多个沉船实例分割的结果图。对比标记的真实值,可评估每张图像分类和分割的效果。在该方法下,经过30次epoch后,该模型对目标分类准确率达95%以上,平均分割交并比(mean intersection-over-union,mIoU)为80%左右。
步骤三中,为基于简单线性迭代聚类对分割结果进行优化方法,该方法可优化分割结果的边缘保持性。
在该实施例中,对图像进行简单线性迭代聚类,图像大小为256*256,将图像分为300个超像素,如图8(a)。
该实施例中设置船类阈值t1=t2=0.5,即若分割掩膜在该超像素的覆盖率大于等于0.5,则将该超像素包含的像素点合并到分割掩膜中。若分割掩膜在该超像素的覆盖率小于0.5,则在分割掩膜中删除该超像素包含的像素点。未优化前的结果可见8(b),经过优化的分割效果可见图8(c)。
本发明提供了一种基于实例分割的声呐图像目标识别方法,具体实现该方案的方法途径有很多,以上所述仅为本发明的优选实施方案,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明的前提下,还可做出若干改进和润饰,这些改进和润饰也应当视为本发明的保护范围内。本实施例中为明确的部分均可用现有技术加以实现。

Claims (5)

1.一种基于实例分割的声呐图像目标识别方法,其特征在于,具体包括以下步骤:
步骤1:设计具有抗噪声能力的改进深度残差网络作为主干网络,将检测模型与全卷积网络结合,构建基于实例分割的声呐图像目标识别的网络模型;
步骤2:使用有监督的方法训练网络模型;
步骤3:使用基于简单线性迭代聚类的方法对分割边界进行优化;
基于实例分割的声呐图像目标识别的网络模型由一个二阶段的目标检测网络与一个全卷积神经网络组成,采用具有抗噪声能力的改进残差网络作为主干网络;原始图像进入训练后的深度残差神经网络,分别完成卷积滤波、正则化、输入激活函数引入非线性因素、最大池化处理,并将数据输入至堆叠的结构块中,完成特征提取工作;
主干网络为改进具有抗噪声能力的深度残差神经网络,由卷积自编码器与深度残差网络结合;卷积自编码器由具有两层卷积结构的编码器与两层卷积结构的解码器组成,编码器与解码器的尺寸如下:
编码器共两层,卷积核尺寸为3*3*64,卷积操作后采用填充的方式使图像维持原尺寸,池化核尺寸为2*2,激活函数使用relu;
解码器共三层,前两层卷积核尺寸为3*3*64,上采样池化核尺寸为2*2,第三层卷积层卷积核尺寸为3*3*3,激活函数使用sigmoid;损失函数使用交叉熵损失,并训练;将解码器的输出作为深度残差网络的输入;深度残差网络结构为:
第一部分共1层,尺寸为:卷积核尺寸7*7*64,步长为2,激活函数为relu,池化方式为最大池化,池化核尺寸为3*3,步长为2;
第二部分共3个结构块,9个卷积层,其中,一个结构块为卷积块,其余为恒等块;每个结构块有3个卷积层,尺寸为:卷积核尺寸1*1*64,卷积核尺寸3*3*64,卷积核尺寸1*1*256,卷积步长均为1,激活函数均为relu;
第三部分共4个结构块,12个卷积层,其中,一个结构块为卷积块,其余为恒等块;每个结构块有3个卷积层,尺寸为:卷积核尺寸1*1*128,卷积核尺寸3*3*128,卷积核尺寸1*1*512,卷积步长均为1,激活函数均为relu;
第四部分共23个结构块,69个卷积层,其中,一个结构块为卷积块,其余为恒等块;每个结构块有3个卷积层,尺寸为:卷积核尺寸1*1*256,卷积核尺寸3*3*256,卷积核尺寸1*1*1024,卷积步长均为1,激活函数均为relu;
第五部分共3个结构块,9个卷积层,其中,一个结构块为卷积块,其余为恒等块;每个结构块有3个卷积层,尺寸为:卷积核尺寸1*1*512,卷积核尺寸3*3*512,卷积核尺寸1*1*2048,卷积步长均为1,激活函数均为relu;
主干网络输出的特征图输入区域建议网络;在区域建议网络的锚区域选取中,选取长宽比为1:2,2:1,1:1三种,面积选取162,322,642,1282四种;区域建议网络与主干网络的共享卷积层,卷积核尺寸为3*3*512,步长为1,激活函数为relu;共享层下分为两个分支分别为分类和边界框回归分支,卷积核尺寸分别为1*1*6,1*1*12,卷积步长均为1,采用线性激活函数;其中,分类分支用于预测每个像素点的前景或背景的概率,边界框回归分支根据锚区域中心预测边界框的偏移量。
2.根据权利要求1所述的基于实例分割的声呐图像目标识别方法,其特征还在于,在步骤1中,基于实例分割的声呐图像目标识别的网络模型包括检测模型和全卷积网络;
其中,检测模型为一个含有区域建议网络的二阶段模型,全卷积网络位于主干网络后,用于为每个特征图预测分割掩膜,并根据图像尺寸、目标尺寸设计参数包含区域建议网络锚区域、区域建议数量、以及主干网络的卷积核尺寸、卷积步长参数。
3.根据权利要求1所述的基于实例分割的声呐图像目标识别方法,其特征还在于,在步骤1中,改进深度残差网络由具有抗噪声能力的卷积自编码器与深度残差网络组成。
4.根据权利要求1所述的基于实例分割的声呐图像目标识别方法,其特征还在于,在步骤2中,使用有监督的方法分别对自编码器、全卷积网络、区域建议网络、深度残差网络进行训练,具体包括以下步骤:
步骤2.1:使用原始声呐图像与添加模拟噪声的声呐图像训练自编码器;
步骤2.2:使用预训练参数初始化深度残差网络,固定深度残差网络的参数;
步骤2.3:训练全卷积网络,包括前四层卷积层、反卷积层、1*1卷积核的卷积层,使用像素分类的平均二值交叉熵损失作为目标函数:
L=-(ylog(p)+(1-y)log(1-p))
其中,y为标记的掩膜的真实值,p为预测值;
步骤2.4:训练区域建议网络网络,区域建议网络包括共享卷积层,以及两个并列的卷积层,分别用于分类和回归,区域建议网络将对主干网络中产生的特征图进行处理,并进行分类和回归,目标函数为:
其中,i为锚区域的下标,pi是第i个锚区域被预测为目标的预测概率,若锚区域表示的区域为正样本,标签值为1,若锚区域表示的区域为负样本,为0;ti表示预测的边界框坐标,是边界框坐标的真实值;
步骤2.5:固定自编码器的参数,并取消对深度残差网络参数的固定,对深度残差网络进行训练。
5.根据权利要求1所述的基于实例分割的声呐图像目标识别方法,其特征还在于,在步骤3中,使用基于简单线性迭代聚类的阈值方法对每个类别的分割结果进行优化,具体包括以下步骤:
步骤3.1:对图像进行简单线性迭代聚类;
步骤3.2:计算图像中实例的分割掩膜在每个超像素中的覆盖率;
步骤3.3:对每个类别k设置阈值tk1,tk2,若分割掩膜在该超像素的覆盖率大于等于tk1,则将该超像素包含的像素点合并到分割掩膜中,若分割掩膜在该超像素的覆盖率小于tk2,则在分割掩膜中删除该超像素包含的像素点。
CN201910236980.8A 2019-03-27 2019-03-27 一种基于实例分割的声呐图像目标识别方法 Active CN110084234B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910236980.8A CN110084234B (zh) 2019-03-27 2019-03-27 一种基于实例分割的声呐图像目标识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910236980.8A CN110084234B (zh) 2019-03-27 2019-03-27 一种基于实例分割的声呐图像目标识别方法

Publications (2)

Publication Number Publication Date
CN110084234A CN110084234A (zh) 2019-08-02
CN110084234B true CN110084234B (zh) 2023-04-18

Family

ID=67413590

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910236980.8A Active CN110084234B (zh) 2019-03-27 2019-03-27 一种基于实例分割的声呐图像目标识别方法

Country Status (1)

Country Link
CN (1) CN110084234B (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110648337A (zh) * 2019-09-23 2020-01-03 武汉联影医疗科技有限公司 髋关节分割方法、装置、电子设备和存储介质
CN110827238B (zh) * 2019-09-29 2023-07-21 哈尔滨工程大学 一种改进的全卷积神经网络的侧扫声纳图像特征提取方法
CN110660066B (zh) * 2019-09-29 2023-08-04 Oppo广东移动通信有限公司 网络的训练方法、图像处理方法、网络、终端设备及介质
CN110826558B (zh) * 2019-10-28 2022-11-11 桂林电子科技大学 图像分类方法、计算机设备和存储介质
CN111445395B (zh) * 2020-03-03 2023-03-21 哈尔滨工程大学 一种基于深度学习的侧扫声呐瀑布图像中间区域修复方法
CN111340796B (zh) * 2020-03-10 2023-07-21 创新奇智(成都)科技有限公司 一种缺陷检测方法、装置、电子设备及存储介质
CN111461127B (zh) * 2020-03-30 2023-06-06 华南理工大学 基于一阶段目标检测框架的实例分割方法
CN112529072A (zh) * 2020-12-07 2021-03-19 中国船舶重工集团公司七五0试验场 一种基于声呐图像处理的水下沉埋物识别与定位方法
CN112686254B (zh) * 2020-12-31 2022-08-09 山西三友和智慧信息技术股份有限公司 一种基于红外卫星云图的台风中心定位方法
CN112926380B (zh) * 2021-01-08 2022-06-24 浙江大学 一种新型水下激光目标智能识别系统
CN113674304A (zh) * 2021-08-05 2021-11-19 桂林日盛水务有限公司 一种基于缺陷协同训练和特征融合的水下图像分割算法
CN114821580A (zh) * 2022-05-09 2022-07-29 福州大学 一种分阶段融入去噪模块的含噪图像分割方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107273828A (zh) * 2017-05-29 2017-10-20 浙江师范大学 一种基于区域的全卷积神经网络的路牌检测方法
US10679351B2 (en) * 2017-08-18 2020-06-09 Samsung Electronics Co., Ltd. System and method for semantic segmentation of images
CN107808386A (zh) * 2017-09-26 2018-03-16 上海大学 一种基于图像语义分割的海天线检测方法
CN107909082B (zh) * 2017-10-30 2020-07-31 东南大学 基于深度学习技术的声呐图像目标识别方法
CN109063723B (zh) * 2018-06-11 2020-04-28 清华大学 基于迭代挖掘物体共同特征的弱监督图像语义分割方法

Also Published As

Publication number Publication date
CN110084234A (zh) 2019-08-02

Similar Documents

Publication Publication Date Title
CN110084234B (zh) 一种基于实例分割的声呐图像目标识别方法
CN109271856B (zh) 基于扩张残差卷积的光学遥感图像目标检测方法
CN108491854B (zh) 基于sf-rcnn的光学遥感图像目标检测方法
CN111079739B (zh) 一种多尺度注意力特征检测方法
CN112464911A (zh) 基于改进YOLOv3-tiny的交通标志检测与识别方法
CN111523553A (zh) 一种基于相似度矩阵的中心点网络多目标检测方法
CN113344932B (zh) 一种半监督的单目标视频分割方法
CN111666854B (zh) 融合统计显著性的高分辨率sar影像车辆目标检测方法
CN110310241A (zh) 一种融合深度区域分割的多大气光值交通图像去雾方法
CN110458160A (zh) 一种基于深度压缩神经网络的无人艇水面目标识别算法
CN109741340B (zh) 基于fcn-aspp网络的冰盖雷达图像冰层精细化分割方法
CN110163207A (zh) 一种基于Mask-RCNN船舶目标定位方法及存储设备
CN113850783B (zh) 一种海面船舶检测方法及系统
CN112419333B (zh) 一种遥感影像自适应特征选择分割方法及系统
CN110852327A (zh) 图像处理方法、装置、电子设备及存储介质
Long et al. Underwater forward-looking sonar images target detection via speckle reduction and scene prior
CN115471746A (zh) 一种基于深度学习的船舶目标识别检测方法
CN116468995A (zh) 一种联合slic超像素和图注意力网络的声呐图像分类方法
CN110647977B (zh) 一种用于星上对舰船目标检测的Tiny-YOLO网络的优化方法
Stephens et al. Using three dimensional convolutional neural networks for denoising echosounder point cloud data
Sun et al. IRDCLNet: Instance segmentation of ship images based on interference reduction and dynamic contour learning in foggy scenes
CN108764465B (zh) 一种进行神经网络运算的处理装置
Dong et al. ShipGAN: Generative Adversarial Network based simulation-to-real image translation for ships
Qiu et al. Underwater sea cucumbers detection based on pruned SSD
CN108647781B (zh) 一种人工智能芯片处理装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant