CN116468995A - 一种联合slic超像素和图注意力网络的声呐图像分类方法 - Google Patents

一种联合slic超像素和图注意力网络的声呐图像分类方法 Download PDF

Info

Publication number
CN116468995A
CN116468995A CN202210860920.5A CN202210860920A CN116468995A CN 116468995 A CN116468995 A CN 116468995A CN 202210860920 A CN202210860920 A CN 202210860920A CN 116468995 A CN116468995 A CN 116468995A
Authority
CN
China
Prior art keywords
image
sonar
pixel
network
graph
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210860920.5A
Other languages
English (en)
Inventor
王惠刚
雷灿
刘志宏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shaanxi Dahuizhi Robot Technology Co ltd
Shenzhen Institute of Northwestern Polytechnical University
Original Assignee
Shaanxi Dahuizhi Robot Technology Co ltd
Shenzhen Institute of Northwestern Polytechnical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shaanxi Dahuizhi Robot Technology Co ltd, Shenzhen Institute of Northwestern Polytechnical University filed Critical Shaanxi Dahuizhi Robot Technology Co ltd
Priority to CN202210860920.5A priority Critical patent/CN116468995A/zh
Publication of CN116468995A publication Critical patent/CN116468995A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/05Underwater scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/762Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
    • G06V10/7635Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks based on graphs, e.g. graph cuts or spectral clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/30Assessment of water resources

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)

Abstract

本发明公开了一种联合SLIC超像素和图注意力网络的声呐图像分类方法。包括以下步骤:根据二维前视声呐和侧扫声呐各自的成像原理以及成像时的先验信息:对校正后的声呐图像进行基于改进DeepLabV3+网络的图像预分割,利用SLIC超像素算法进行Graph(图)结构数据构建:构建基于GAT(图注意力网络)的声呐图像分类模型,将构建好的声呐图结构数据送入到网络中完成模型的训练与测试;验证像素特征与空间位置特征的重要程度。本发明一种联合SLIC超像素和图注意力网络的声呐图像分类方法通过SLIC超像素法和图注意力网络充分利用声影区,以及目标区域和阴影区域的空间位置关系,从而联合像素特征和空间几何特征实现声呐图像更高精度的声呐图像分类识别。

Description

一种联合SLIC超像素和图注意力网络的声呐图像分类方法
技术领域
本发明属于水下分类识别领域,具体涉及一种联合SLIC超像素和图注意力网络的声呐图像分类方法。
背景技术
声呐是非常重要的水下精细探测手段,主要应用于水下目标探测识别,海洋测绘,水声通信,海上作业等方面。其中水下目标分类识别是较为关键的一项技术,可以用作探雷扫雷、水下打捞与搜救、无人平台自主避障、海底管道和裂缝检测等,水下目标分类从图像处理的角度进行分析识别更具有直观性,因而本发明的重心在于基于声呐图像的水下目标分类识别。
声呐回波成像受海洋环境以及海底地形影响较大,越是环境噪声小,地形平坦的海底成像质量越高。成像后的声呐图像包含三大部分:目标区域,声影区和混响背景。其中目标区域为水下强反射体形成的目标回波,声影区为声波受到目标阻挡而无法到达的区域,背景为海底噪声和混响。相较于光学图像,声呐图像存在分辨率低、噪声严重、目标边缘模糊等问题,导致分类识别的效果较差。针对以上问题,基于深度学习的图神经网络将像素特征和空间位置特征进行联合从而提取更加丰富的特征,非常适合应用于声呐图像分类识别领域。其中图注意力网络引入注意力机制,通过聚合邻居信息,实现对邻域特征和空间特征的学习,且模型对特定的输入具有更大的灵活性和鲁棒性,因此采用该网络作为声呐图像分类的主模型在提升分类识别的精度上是非常有效的。
声呐图像中的阴影区域包含了声呐目标的形状和高度等信息,因而将目标区域和阴影区域进行联合特征提取可以获得更多有效的目标信息。简单线性迭代聚类(SLIC)算法通过对像素进行聚类,不仅实现了信息聚合和冗余信息的去除,还更加准确的确定了声呐目标的亮区位置信息和阴影区域位置信息。且在进行图卷积运算时,超像素能够获得更加全局范围的知识,扩大了卷积操作的感受野,从而在声呐图像识别效率和性能上拥有更好的效果。
基于以上考虑,本方法针对声呐图像分类展开研究,提出一种联合SLIC超像素和图注意力网络的声呐图像分类方法。根据声呐的成像原理,将声呐图像进行阴影和亮区的预分割,再利用SLIC超像素聚类算法将分割结果转换为图结构数据,从像素特征和空间几何特征角度对声呐特征进行多方位提取,最后利用图注意力网络实现声呐图像的分类识别。
发明内容
针对上述存在的技术问题,本发明公开了一种联合SLIC超像素和图注意力网络的声呐图像分类方法。
本发明目的在于一种联合SLIC超像素和图注意力网络的声呐图像分类方法,该方法的步骤如下:
S1:根据二维前视声呐和侧扫声呐各自的成像原理以及成像时的先验信息,采用不同的预处理方法实现声呐图像的自主校正和补偿。
S2:对校正后的声呐图像进行基于改进DeepLabV3+网络的图像预分割,实现声呐目标高亮区和声影区的同步分割。
S3:利用SLIC超像素算法进行Graph(图)结构数据构建,并将像素特征和空间位置特征联合考虑,形成最终的图属性。
S4:构建基于GAT(图注意力网络)的声呐图像分类模型,将构建好的声呐图结构数据送入到网络中完成模型的训练与测试。
S5:消融实验设置,验证像素特征与空间位置特征的重要程度,声呐图像预分割的有效性以及声呐目标阴影区域信息的重要性。
进一步,所述步骤S1包括以下步骤:
S11:前视声呐图像重建技术和增强算法:
更进一步,所述步骤S11包括以下步骤:
S111:前视声呐图像重建技术:
前视声呐图像有两种表现形式,一种是极坐标下,这种坐标系为原始采集到的数据格式,以(r,θ)作为坐标轴的扇形图形式呈现。另一种是经过坐标变换得到的常规图像坐标系(x,y)下。两种坐标系间的转换公式如下:
其中φ、R分别表示前视声呐水平开角和斜距量程大小,W、H分别表示图像水平和垂直尺寸。
S112:前视声呐图像增强:
为解决大面积高频噪声特性情况,前视声呐图像具体采用以下预处理步骤:
(1)坐标转换,将扇形极坐标系下的声呐图像转换到二维常规坐标系中。
(2)进行中值滤波,噪声得到抑制,且更好地保护目标进入阴影区的灰度值突变区域。
(3)进行直方图均衡,从而有助于图像显示以及对声呐图像的直观题解。
(4)采用伪色彩处理,将灰度图转换为彩色图像,提高前视声呐图像内容的可辨识度。
S12:侧扫声呐图像灰度校正算法和分辨率校正(几何校正)算法:
更进一步,所述步骤S12包括以下步骤:
S121:侧扫声呐图像灰度校正:
进行灰度校正之前,需获得声呐图像中的海底线位置。成像中的海底线位置与拖鱼高度相关,因而根据预先采集的高度信息按照以下换算即可得到海底线位置点:
lineorig=Ns-(altitude*Ns/range) (2)
式中altitude表示高度信息,range表示声呐的工作范围,Ns表示单侧舷获取的某一条(ping(n))声强数据采样点数。接下来对区域宽度内所有像素点进行灰度校正,先统计图像高度方向统计各ping断面的灰度均值:
式中Nmin表示高度最大时所对应声呐图像的区域宽度再统计图像宽度方向的灰度均值,最后得到所有像素点的灰度校正因子序列:
S122:侧扫声呐图像分辨率校正(几何校正):
根据斜距、水平距离和深度三者间的几何关系获得由斜距点组成的声呐图像与由平距点组成的声呐图像间像素点位置对应关系如下:
左舷分辨率校正因子:
右舷分辨率校正因子:其中,Res表示图像的分辨率,width表示图像宽度,PlantRange表示平距,SlantRange表示斜距,TowfishAlt表示拖鱼高度。
进一步,所述步骤S2包括以下步骤:
S21:构建基于改进DeepLabV3+网络的声呐图像预分割模型:
构建基于改进DeepLabV3+网络的声呐图像预分割模型,将校正过的图像进行亮区与声影区的预分割。由于在本步骤中只需要对声呐图像进行目标亮区与声影区的预分割,因而网络的特征提取能力不需太强,但对算法的实时性要求较高。基于以上考虑,在原来的DeepLabV3+网络模型,替换掉训练速度慢的Xception系列,采用参数量小的mobilenetV2作为主干提取网络。
在完成主干网络特征提取后,对获得的初步有效特征进行加强特征提取。在Encoder阶段,采用多个不同扩张率的空洞卷积进行并行特征提取,从而对于初步有效特征x在第i个位置点的输出特征y如下:
式中r表示扩张率,w表示卷积核,kernel-size表示卷积核大小。在Decoder阶段,利用1x1卷积进行通道数的调整,调整结果与Encoder阶段获得的特征结果进行堆叠,最后采用两次深度可分离卷积获得最终的特征提取结果。
修改完网络结构后,在对训练过程中使用到的损失函数进行改进。为了解决声呐图像样本非平衡性带来的模型训练效果不佳等问题,在交叉熵损失函数上做出改进,提出Focal loss函数:
FL(pt)=-αt(1-pt)λlog(pt) (10)
式中pt表示预测概率,在本发明涉及的多分类任务中,预测概率即为SoftMax输出端的概率,αt表示各类的权重因子,λ表示调节因子。针对语义分割结果的好坏,引入Diceloss函数对分割结果进行评价。
S22:制作声呐图像分割数据集,完成预分割模型的训练:
在预分割步骤中,只对声呐图像中的目标高亮区域和声影区进行预分割,不对图像类别进行区分,因而在声呐图像标注时只需标注亮区和阴影两种类型。通过实验和网上数据搜集,再利用数据扩增技术,共获得声呐图像695张。再将获得的图像进行数据集分割,其中训练集488张,验证集71张,测试集136张。整理完所有的数据集后将其按照亮区和阴影分别标注,至此完成所有数据集的准备工作。数据集准备完毕后,再进行模型的训练,修改好相应的参数后将标注好的数据集送入到网络中,最终完成关于声呐图像预分割模型的训练。
S23:利用训练好的模型对待分割的声呐图像进行实时预分割:
为了解决实际采集到的声呐图像目标边缘模糊导致后续识别效果较差的问题,且方便识别过程中能够有效提取出声影区的信息,预先将声呐图像进行目标亮区与声影区的分割。训练好预分割模型后,将测试程序中的权重路径修改为训练结果最佳的权重文件,将实际收集的待分割声呐图像送入程序中进行实时目标亮区与阴影的预分割。预分割结果中,图像只存在3种不同像素值大小的像素点,3种取值分别代表:目标回波区、声影区和混响背景。
进一步的,所述步骤S3包括以下步骤:
S31:将经过预处理和预分割后的声呐图像进行基于SLIC算法的超像素分割:
经过以上图像预处理和预分割后,改善了声呐目标边缘模糊等问题,实现了目标阴影信息的精确提取。接下来采用SLIC算法将像素数据转换为几百个超像素块,最后将超像素转换为图结构数据。
SLIC算法中每个像素均有一个5维向量V[I,a,b,x,y]T表示,其中[l,a,b]T表示CIE-LAB颜色空间的像素颜色特征坐标,[x,y]T表示像素空间特征坐标。将SLIC算法应用于经过预处理和预分割后的声呐图像的具体步骤如下:
(1)初始化聚类中心:
将经过预分割的声呐图像划分为多个区域面积一致的超像素块,预先设定需要生成的超像素个数为M,那么每个超像素聚类中心初始定义为Ci=[li,ai,bi,xi,yi]T(i=1,…,M),令其在图像内均匀分布。设定原图的总像素点数为N,且各个超像素的尺寸相同,那么每个超像素所包含的像素个数(超像素面积)为N/M,从而相邻超像素聚类中心的距离近似为
(2)重新选择聚类中心位置:
初始聚类中心定义为Ci=[li,ai,bi,xi,yi]T(i=1,…,M),但由于初始定义效果不佳容易导致中心点落在梯度较大的轮廓边界上,从而影响后续的聚类效果,所以需在初始点的n×n(一般n取3)局部邻域范围内重新选择最优聚类中心。
(3)初始化像素点,为每个像素点分配初始类标签:
当得到声呐全图的聚类中心位置后,需对每个超像素聚类中心邻域内的每个像素点进行标签分配。SLIC算法中超像素面积近似为S×S,且其搜索范围局限在聚类中心附近,所以将搜索范围设置为2S×2S。由于SLIC限制了搜索区域的大小,相较于传统的k-means聚类算法大大减少了距离计算的数量。
(4)距离相似度测量:
将像素特征距离和空间位置特征距离都进行归一化后合并为一个单独的度量,分别取各自簇内的最大特征距离Ns和Nc,得到像素点与聚类中心间的距离度量D表达如下:
式中
(5)迭代优化聚类结果:
在定义完像素点与聚类中心间的距离相似度测量规则后,需对超像素中心的2S×2S邻域范围内进行局部搜索,根据度量规则计算区域内像素点到超像素中心的距离,若小于该像素点到原来所属聚类中心的距离,则判定该点属于目前的超像素,反之亦然。进而完成所有像素点的计算对比后更新distance数组和label数组,同时重新计算区域中心点的坐标完成超像素聚类中心位置的更新。
S32:SLIC超像素聚类结果存储与文件生成:
在完成SLIC超像素聚类后,需将结果存储为标准格式用做后续的Graph(图)结构数据生成。其中存储内容包括4大部分:各张图像的标签,每张图像中所有超像素的序列号,像素均以及中心位置坐标。其中图像标签分为4种类型,别为:溺水者,水雷,飞机和沉船。在搜集完所有数据集后,将其划分为训练集、验证集和测试集,再将各个数据集中每张图像生成的SLIC聚类结果按照4种特征顺序写入到各自的文件中。
S33:根据超像素分割结果构建基于声呐图像的Graph(图)结构数据:
更进一步的,所述步骤33包括以下步骤:
S331:声呐图像下的Graph(图)结构数据表示:
Graph(图)是一种非欧几里得数据结构,记为G={V,E},其中V={v1,…vM}表示节点的集合;E={e1,…eP}表示边的集合。图定义为声呐图像所表示的目标类别标签信息;图中的各个节点定义为SLIC聚类得到的各个超像素中心;节点间的边定义为两个超像素间的连接关系。
定义完节点和边后,还无法利用这些信息进行图结构数据的完整构建,需引入邻接矩阵来定义所有节点间的关系。邻接矩阵是一个体现了两两节点间关联程度的二维数组,在无权无向图中,将邻接矩阵定义为W∈RN×N,Wi,j=wi,j表示从节点vi到vj的边的权重,该权重定义非常灵活,本文中定义为超像素间的像素特征距离以及空间位置特征距离联合计算出的系数大小,Wi,j=0则表示vi和vj两节点间的边不存在。
S332:声呐图像下的Graph(图)结构属性定义:
与欧几里得空间下的深度学习方法相比,基于非欧几里得空间的图神经网络在进行图结构数据构建时引入了空间位置特征,从而可以非常有效地提取并利用声呐图像中包含了声呐目标高度形状等重要信息的阴影区域信息。本发明利用图结构数据同时将声呐目标的亮区以及声影区的像素特征和位置特征进行联合考虑,从而达到更高的图像识别效果。
更进一步的,所述步骤332包括以下步骤:
S3321:Graph(图)结构中节点属性的定义:
图中的节点除了自身的编号定义外,还可以包含其他很多种类的属性。在本发明中,节点定义为了各个超像素点,节点的属性定义为了两种类型特征:位置特征和像素特征,其中位置信息为各个超像素的中心位置坐标,像素信息为各个超像素的像素均值。节点及其属性具体表示为:
S3322:Graph(图)结构中邻接矩阵的计算:
邻接矩阵存储了所有两两节点间的连接关系。在本发明中,对于两两节点间的连接关系,同时考虑了位置特征和像素特征间的关联,也即将两节点间的像素差和位置差进行相加形成最终的矩阵值。由于位置坐标的取值范围为[0,200),像素大小的取值范围为[0,1],因而需先将位置坐标进行归一化处理,具体计算为:
S333:Graph(图)结构中边属性的定义:
图中的边除了包含表示连接性的边序号对外,还可以包含其他很多种类的属性。在本发明中,边的属性定义为联合像素特征以及空间位置特征计算出的超像素距离大小。边及其属性具体表示为:
对于整个图结构数据的属性定义总结如下:
S333:转换为DGL数据:
本发明编写的图注意力网络是基于DGL框架下完成的,因而构建完图结构数据后需将其转换为DGL框架下的标准DGLGraph数据。DGL框架下采用整数表示一个节点,叫做节点ID;采用一对整数ei(u,v)表示一条边,u和v分别对应边的起始和终点的节点ID,ei表示该条边的边ID。节点和边都可以包含若干自定义名字的特征,分别通过ndata和edata属性访问。因而在本发明中,将每张声呐图像经过SLIC聚类后的超像素编号sp-order作为节点ID,两两连接的超像素间的编号对作为边ID对,节点的像素特征f(xi,yi)和位置特征(xi,yi)写入ndata属性中,边的权重特征Wi,j写入edata属性中,从而完成DGLGraph数据的完整构建。
进一步的,所述步骤S4包括以下步骤:
S41:基于声呐数据的图注意力网络构建:
将经过SLIC超像素聚类的结果转换为图结构数据后,将其送入到图注意力网络中进行模型的训练和测试。在图注意力网络模型中,采用了注意力模块对图中的节点进行嵌入,通过计算当前节点与邻居节点间的注意力系数聚合邻居信息,实现对不同邻居权重的自适应分配,从而学习邻域特征和空间特征,在该网络中最关键的是图注意力层的构建。
图注意力层的输入是各个节点的特征组合,表示为:其中M为节点的个数,hi为第i个节点的特征向量,F为各个节点的特征个数。输入通过注意力层后,输出得到新的节点特征组合将输入与输出间每个节点的具有共享性的线性变换定义为一个参数化的权重矩阵由于图注意力层加入了注意力机制,对当前节点与邻居节点间分配了不同的系数权重,因而整个图注意力层的输入与输出间可表示为如下:
式中αij表示节点i与节点j之间的注意力系数(系数权重),Q为权重矩阵由后向传播获得,σ为非线性激活函数。其中注意力系数α的确定为图注意力网络的核心,首先对各个节点实施自注意力机制a:从而计算得到表征节点j的特征对节点i的重要程度的注意系数eij
再需使用负斜率为0.2的LeakyReLU函数进行非线性处理,引入SoftMax对所有注意系数进行正则化。同时通过执行隐藏注意只对节点的某个邻域范围内所包含的其他节点进行注意系数的计算,从而完整的注意力机制计算的系数表示为:
式中,T表示转置,||表示拼接操作。
在上述表达式中,仍存在2个未知点:邻域选取的具体位置以及邻域所包含的节点个数k。在本发明中,邻域内节点个数k的取值与KNN算法中κ的取值一致,具体哪k个邻近节点由KNN算法获得的边连接属性决定。算法执行过程中选取合适的k值,执行K最近邻算法更新邻接矩阵以及边的权重。在获得邻接矩阵以及边的连接关系后,需对每个节点上连接性弱的边进行删除,留下关联性最强的k条边,从而获得了更新后的邻接矩阵W和边权重Wi,j。再进行SoftMax归一化前将矩阵W与注意力系数矩阵相乘,即可确定k的取值以及具体k所指代的边,从而获得最终的注意力机制系数的表达式为:
经过以上一列的变换和计算后,得到了不同节点间的注意力互相关系数,将该系数带入到图注意力层的输入与输出间的计算式中,获得每个节点的最终输出特征。以上完成了图注意力层的搭建,最后选取合适的注意力层层数实现网络模型的完整构建。
S42:数据集的搜集,准备与构建:
在上述将构建完的图结构数据转换为DGL框架下的标准DGLGraph数据后,还需将数据集划分为训练集、验证集和测试集。在DGLGraph结构转换过程中,将该数据直接存储到划分的集合中。共有4类图结构数据,分别为溺水者、水雷、飞机和沉船,训练集共488个图结构,其中溺水者占98个,水雷目标占119个,飞机占87个,沉船占184个;验证集共71个图结构,其中溺水者占17个,水雷目标占18个,飞机占13个,沉船占23个;测试集共136个图结构,其中溺水者占13个,水雷目标占35个,飞机占23个,沉船占64个。
S43:实验设置以及模型训练:
参数设置:设置图注意力层层数,隐藏单元数,输出特征向量单元数,residual状态,readout状态,多头注意力中独立的注意力机制数,输入特征的随机丢弃数,整个的dropout的数值,batch-norm层的状态,自环的状态。以及设置网络模型,数据集,分类种类(number of classes),随机种子seed,epochs数,batch-size大小,初始学习率,学习率衰减系数,学习率的容忍性能不提升的次数,学习率的下限,权重衰减系数,epoch时间间隔,最大执行时间。
模型训练:完成各项参数的修改与设置后,将基于SLIC超像素聚类算法结果制作为的图结构数据送入到网络中进行模型的训练。首先载入图结构数据,再定义网络模型以及前向传播过程,利用GAT卷积(图注意力层)进行图结构的特征提取与消息传递,紧接着定义损失函数以及优化器,再根据定义好的损失函数计算得到预测值与标签真值间的误差,通过优化函数更新前向传播中的模型参数,从而减小预测值与标签真值间的误差,迭代结束时,将损失值最小时所对应的模型参数替换到前向传播中,对待分类的声呐图像进行类别的识别。
S44:模型测试与结果分析:
基于声呐图像的GAT模型完成训练后,选取训练趋于稳定后的权重参数对测试集中的数据进行声呐图像类别的分类,最后利用测试集的识别精度对模型进行评价。具体来说,网络模型在这该步骤中需转换为测试模式,关闭网络模型中的Batch Normalization和Dropout,使用evaluate-network实现模型的测试。
进一步的,所述步骤S5包括以下步骤:
S51:验证图像预分割以及声呐目标阴影区域信息的有效性:
为了验证图像预分割和声呐目标声影区信息的有效性,制作了3类数据集。其中第一类为原始声呐图像不做图像预分割,也不做目标阴影区域信息的提取,直接将原始图像经过SLIC超像素分割算法转换为图结构数据,再将构建的图结构数据集送入到GAT网络中进行模型的训练,获得相应的训练损失函数随着迭代次数变化的曲线,训练完后对测试集中的数据进行声呐图像的分类,最终计算出测试集下的识别率,获得最优的识别效果。
第二类为原始声呐图像只进行图像预分割,不进行声影区信息的提取。具体来讲,将原始声呐图像先进行预处理和预分割操作,再将预分割后的图像应用SLIC聚类算法,获得完整的图结构数据,从而完成GAT模型所需数据集的构建,同样后续完成模型的训练以及测试。
第三类为原始声呐图像既要进行图像预分割,又要进行声影区信息的提取,在完成预分割后,对目标亮区和阴影区域进行不同颜色的标注,再利用SLIC聚类算法,从像素特征和空间位置特征上完成目标边缘信息以及亮区和阴影的关联性的存储,形成具有更丰富属性的图结构数据集,最后同样将数据集送入到网络中完成模型的训练以及测试。将以上3类数据集获得的模型训练曲线和测试结果进行两两对比,从而完成图像预分割以及声呐目标阴影区域信息的有效性的验证。
S52:测试像素特征和空间位置特征间的相对权重γ对识别效果的影响:
由于权重因子γ的取值为[0,1],权值越大表示空间位置特征占的比重越大,权值越小表示像素特征所占比重越大,为了探究空间位置特征与像素特征间最合适的权重分配,也即最佳的相对权重γ取值,本发明对γ分别不同取值为[0,0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9,1],从而完成像素特征和空间位置特征间的相对权重γ对识别效果影响的测试。
S53:测试不同属性计算方式对识别效果的影响:
不同属性计算方式会导致计算出的属性值范围不同,虽然后续可以进行归一化处理,但相同像素值和相同空间位置下计算出的边权重不一致,即使进行归一化后值的分布也不相同。例如采用Sigmoid函数下的计算方式,在±5范围内的数值变化很大,该范围外计算出的权重值几乎没有变化,或采用e的负指数计算方式下,在[0,1]范围内的数值变化较大,该范围外的变化缓慢。因而为了寻找最合适的属性计算方式,本项目选取了4种计算属性的函数,分别为Sigmoid函数形式,Sigmoid函数进行对称处理的形式,e的负指数形式,直接相加的形式,根据函数表达式计算出各函数下的识别率,再对各种方式下计算出的识别结果进行比较,从而选取最优的属性计算方式。其中4种属性计算方式具如下式所示:
S54:测试节点邻域范围内所包含节点个数k的不同取值对识别效果的影响:
k的不同取值直接影响了图注意力网络中注意机制系数的计算,k值若过小会导致信息量损失巨大,聚合的邻域信息过少,从而很难发挥基于邻域信息的图注意力网络的性能,k值若超过某一阈值,可能会引入过多噪声而导致模型性能下降,所以需要寻找较优的k值使得模型性能达到最优。在本发明中,对k分别取值为[5,10,20,30,50,100],对比不同k值下模型的训练效果与识别精度,从而完成节点邻域范围内所包含节点个数k的不同取值对识别效果影响的测试。
本发明一种联合SLIC超像素和图注意力网络的声呐图像分类方法通过SLIC超像素法和图注意力网络充分利用声影区,以及目标区域和阴影区域的空间位置关系,从而联合像素特征和空间几何特征实现声呐图像更高精度的声呐图像分类识别。具体首先根据声呐成像原理以及成像时的先验信息,实现声呐图像的自主校正和补偿,再将校正过的声呐图像进行基于改进DeepLabV3+模型的图像预分割,分割出声呐目标的高亮区域和阴影区域。经过以上一系列预处理后,利用SLIC超像素聚类法将图像信息转换为图结构数据,并将像素特征和空间位置特征联合考虑,形成相应的图属性,最后利用图注意力网络对形成的图结构数据进行声呐图像的分类,由于图网络同时考虑了声影区信息以及声呐目标的空间位置特征,从而很大幅度提升了声呐图像的识别性能。
该方法针对二维前视声呐和侧扫声呐,通过SLIC超像素法和图注意力网络充分利用声呐目标声影区信息以及目标区域和阴影区域的空间位置关系,联合像素特征和空间几何特征,实现高精度的声呐图像分类识别。首先根据二维图像声呐各自的成像原理以及成像时的先验信息,采用不同的预处理方法实现声呐图像的自主校正和补偿,再将校正过的声呐图像进行基于改进DeepLabV3+模型的图像预分割,分割出声呐目标的高亮区域和声影区,从而改善声呐目标边缘模糊等问题,实现目标阴影信息的精确提取。预处理和预分割后,利用SLIC超像素聚类法将图像信息转换为图结构数据,并将像素特征和空间几何特征联合考虑,形成相应的图属性,最后利用图注意力网络通过聚合邻域信息,自适应分配不同邻居的权重,达到学习邻域特征和空间特征的目的,最终实现基于图结构的声呐图像分类。本发明中提出的基于非欧几里得空间下的图神经网络同时考虑了声呐目标的声影区信息以及亮区和阴影的空间位置关联,从而大幅提升了声呐图像的识别性能,且除去预处理过程不相同,后续聚类与识别可以同时应用于多款图像声呐,从而有效提升了模型的通用性。
附图说明
图1为本发明的流程框图;
图2为本发明的原始声呐图像进行预处理和预分割后的结果示意图;
图3为本发明的溺水者、水雷、飞机和沉船4种声呐目标通过SLIC算法生成的超像素聚类结果示意图;
图4为本发明的某张声呐图像生成的DGLGraph图结构数据示意图;
图5为本发明的训练过程中训练集和验证集的损失函数以及识别率随迭代次数变化的曲线;
图6为本发明的测试集的识别精度随迭代次数变化的曲线以及最佳识别结果示意图;
图7为本发明的验证图像预分割以及声呐目标阴影区域信息有效性下的对比结果示意图;
图8为本发明的像素特征和空间位置特征间的相对权重不同取值下的识别效果对比示意图。
图9为本发明的不同属性计算方式下的识别效果对比示意图;
图10为本发明的节点邻域范围内所包含节点个数k的不同取值下的识别效果对比示意图。
具体实施方式
下面结合附图对本发明实施方式作详细说明。
参考图1,图1为本发明提供的一种联合SLIC超像素和图注意力网络的声呐图像分类方法流程图,包括以下步骤:
S1:根据二维前视声呐和侧扫声呐各自的成像原理以及成像时的先验信息,采用不同的预处理方法实现声呐图像的自主校正和补偿。
S2:对校正后的声呐图像进行基于改进DeepLabV3+网络的图像预分割,实现声呐目标高亮区和声影区的同步分割。
S3:利用SLIC超像素算法进行Graph(图)结构数据构建,并将像素特征和空间位置特征联合考虑,形成最终的图属性。
S4:构建基于GAT(图注意力网络)的声呐图像分类模型,将构建好的声呐图结构数据送入到网络中完成模型的训练与测试。
S5:消融实验设置,验证像素特征与空间位置特征的重要程度,声呐图像预分割的有效性以及声呐目标阴影区域信息的重要性。
进一步,所述步骤S1包括以下步骤:
S11:前视声呐图像重建技术和增强算法:
针对前视声呐图像预处理,主要包含:图像重建和图像增强。其中图像重建为根据前视声呐成像原理,对原始声呐数据的存储结构进行重组。图像增强部分首先使用中值滤波对降质图像进行改善,去除部分无意义噪声同时又最大限度的保留了必要的目标信息及阴影信息;其次利用直方图均衡和添加伪色彩进行增强,使得目标区域像素灰度更加明显。最后对图像进行基于标记文件的目标与阴影预分割,为后续的特征提取及分割匹配打下基础。
更进一步,所述步骤S11包括以下步骤:
S111:前视声呐图像重建技术:
前视声呐图像重建过程总体上是一个坐标变换的过程。前视声呐图像有两种表现形式,一种是极坐标下,这种坐标系为原始采集到的数据格式,以(r,θ)作为坐标轴的扇形图形式呈现。另一种是经过坐标变换得到的常规图像坐标系(x,y)下。两种坐标系间的转换公式如下:
其中φ、R分别表示前视声呐水平开角和斜距量程大小,W、H分别表示图像水平和垂直尺寸。
S112:前视声呐图像增强:
原始前视声呐图像总体质量较差。主要由于两大原因所致:水下环境的复杂和声呐设备未经增益调整,这两大原因使得原始图像有大面积高频噪声特性,显示为近全黑的图像。为解决大面积高频噪声特性情况,前视声呐图像具体采用以下预处理步骤:
(1)坐标转换,将扇形极坐标系下的声呐图像转换到二维常规坐标系中。
(2)进行中值滤波,噪声得到抑制,且更好地保护目标进入阴影区的灰度值突变区域。
(3)进行直方图均衡,从而有助于图像显示以及对声呐图像的直观题解。
(4)采用伪色彩处理,将灰度图转换为彩色图像,提高前视声呐图像内容的可辨识度。
S12:侧扫声呐图像灰度校正算法和分辨率校正(几何校正)算法:
针对侧扫声呐图像预处理,主要包括:灰度校正和几何校正。增益补偿的目的是对灰度均值较小的区域(即远距离区域)进行补偿,对灰度均值较大的区域(即近距离区域)进行抑制;分辨率校正则是针对远端单个像素点对应的物理尺寸大,近端单个点对应的物理尺寸小,校正后的像素是等距的。利用侧扫声呐成像时的高度、角度等先验信息,自主对图像进行增益补偿和分辨率校正,更有利于后续对感兴趣目标的分割匹配。
更进一步,所述步骤S12包括以下步骤:
S121:侧扫声呐图像灰度校正:
进行灰度校正之前,需获得声呐图像中的海底线位置。成像中的海底线位置与拖鱼高度相关,因而根据预先采集的高度信息按照以下换算即可得到海底线位置点:
lineorig=Ns-(altitude*Ns/range) (2)
式中altitude表示高度信息,range表示声呐的工作范围,Ns表示单侧舷获取的某一条(ping(n))声强数据采样点数。接下来对区域宽度内所有像素点进行灰度校正,先统计图像高度方向统计各ping断面的灰度均值:
式中Nmin表示高度最大时所对应声呐图像的区域宽度再统计图像宽度方向的灰度均值,最后得到所有像素点的灰度校正因子序列:
S122:侧扫声呐图像分辨率校正(几何校正):
根据斜距、水平距离和深度三者间的几何关系获得由斜距点组成的声呐图像与由平距点组成的声呐图像间像素点位置对应关系如下:
左舷分辨率校正因子:
右舷分辨率校正因子:其中,Res表示图像的分辨率,width表示图像宽度,PlantRange表示平距,SlantRange表示斜距,TowfishAlt表示拖鱼高度。本发明中width=2000,TowfishAlt=a,Res=1。由于转换后的x1为非整数,因而在进行几何变化后需采用基于双线性插值原理的像素校正:
进一步,所述步骤S2包括以下步骤:
S21:构建基于改进DeepLabV3+网络的声呐图像预分割模型:
构建基于改进DeepLabV3+网络的声呐图像预分割模型,将校正过的图像进行亮区与声影区的预分割,网络的主干特征提取网络替换为更加轻量级的MobilenetV2,特征提取时在Encoder和Decoder阶段进行加强特征提取,损失函数修改为Focal loss函数和Diceloss函数的联合,具体如下:
由于在本步骤中只需要对声呐图像进行目标亮区与声影区的预分割,因而网络的特征提取能力不需太强,但对算法的实时性要求较高。基于以上考虑,在原来的DeepLabV3+网络模型,替换掉训练速度慢的Xception系列,采用参数量小的mobilenetV2作为主干提取网络。其中在进行卷积计算后均采用新的激活函数ReLU6:
y=ReLU6(x)=min(max(x,0),6) (8)
在完成主干网络特征提取后,对获得的初步有效特征进行加强特征提取。在Encoder阶段,采用多个不同扩张率的空洞卷积进行并行特征提取,从而对于初步有效特征x在第i个位置点的输出特征y如下:
式中r表示扩张率,w表示卷积核,kernel-size表示卷积核大小。采用每种扩张率下的空洞卷积进行特征提取后,将得到的各个特征结果进行合并,并进行1x1卷积压缩从而获得最终的特征提取结果。在Decoder阶段,利用1x1卷积进行通道数的调整,调整结果与Encoder阶段获得的特征结果进行堆叠,最后采用两次深度可分离卷积获得最终的特征提取结果。
修改完网络结构后,在对训练过程中使用到的损失函数进行改进。声呐采集效果受水下环境影响较大,在不同水域或不同设备环境下采集到的声呐图像质量参差不齐,从而导致分类任务的难易程度不一致。因而为了解决声呐图像样本非平衡性带来的模型训练效果不佳等问题,在交叉熵损失函数上做出改进,提出Focal loss函数:
FL(pt)=-αt(1-pt)λlog(pt) (10)
式中pt表示预测概率,在本发明涉及的多分类任务中,预测概率即为SoftMax输出端的概率,αt表示各类的权重因子,λ表示调节因子。针对语义分割结果的好坏,引入Diceloss函数对分割结果进行评价。
S22:制作声呐图像分割数据集,完成预分割模型的训练:
在预分割步骤中,只对声呐图像中的目标高亮区域和声影区进行预分割,不对图像类别进行区分,因而在进行声呐图像标注时只需标注亮区和阴影两种类型。通过实验和网上数据搜集,再加上数据扩增技术,共获得声呐图像695张。再将获得的图像进行数据集分割,其中训练集488张,验证集71张,测试集136张。整理完所有的数据集后将其按照亮区和阴影分别标注,至此完成所有图像数据集的准备工作。
接下来进行模型的训练,将网络中的类别参数修改为2,主干模型修改为MobilenetV2,预训练权重路径修改为deeplab-mobilenetv2.pth,学习率设置为5e-5,图片大小设置为640x640,再将标注好的数据集送入到网络中,最终完成关于声呐图像预分割模型的训练。
S23:利用训练好的模型对待分割的声呐图像进行实时预分割:
为了解决实际采集到的声呐图像目标边缘模糊导致后续识别效果较差的问题,且方便识别过程中能够有效提取出声影区的信息,预先将声呐图像进行目标亮区与声影区的分割。训练好预分割模型后,将测试程序中的权重路径修改为训练结果最佳的权重文件,将实际收集的待分割声呐图像送入程序中进行实时目标亮区与阴影的预分割。预分割结果中,图像只存在3种不同像素值大小的像素点,3种取值分别代表:目标回波区、声影区和混响背景。
参考图2显示了溺水者、水雷、飞机和沉船4种声呐目标经过预处理和预分割后的图像,通过预处理校正和3种区域的预分割,很大程度上改善了声呐目标边缘模糊的缺点,且很好的去除了声呐图像中比较严重的噪点。从结果中还可以看出,预分割非常有效地提取出了声呐目标的阴影信息,且阴影边缘非常清晰,从而非常有利于后续针对声影区的特征提取。
进一步的,所述步骤S3包括以下步骤:
S31:将经过预处理和预分割后的声呐图像进行基于SLIC算法的超像素分割:
经过以上图像预处理和预分割后,改善了声呐目标边缘模糊等问题,实现了目标阴影信息的精确提取。但图像数据需转换为图网络能够识别的图结构数据,最为直观的方式是将图像中的每个像素均视作为图结构中的节点,每个像素点间的欧式距离作为连接节点间的边,但此方法下的声呐信息非常冗余,在后续卷积中计算量庞大。因而本发明在将图像转换为图结构数据之前,采用SLIC算法将像素数据转换为几百个超像素块从而极大地减小了任务复杂程度。
SLIC算法中每个像素均有一个5维向量V[I,a,b,x,y]T表示,其中[l,a,b]T表示CIE-LAB颜色空间的像素颜色特征坐标,[x,y]T表示像素空间特征坐标。将SLIC算法应用于经过预处理和预分割后的声呐图像的具体步骤如下:
(1)初始化聚类中心:
将经过预分割的声呐图像划分为多个区域面积一致的超像素块,预先设定需要生成的超像素个数为M,那么每个超像素聚类中心初始定义为Ci=[li,ai,bi,xi,yi]T(i=1,…,M),令其在图像内均匀分布。设定原图的总像素点数为N,且各个超像素的尺寸相同,那么每个超像素所包含的像素个数(超像素面积)为N/M,从而相邻超像素聚类中心的距离近似为
在本发明中,声呐图像大小为200×200,N=40000,取M=200,
(2)重新选择聚类中心位置:
初始聚类中心定义为Ci=[li,ai,bi,xi,yi]T(i=1,…,M),但由于初始定义效果不佳容易导致中心点落在梯度较大的轮廓边界上,从而影响后续的聚类效果,所以需在初始点的n×n(一般n取3)局部邻域范围内重新选择最优聚类中心。
具体寻优的方法为:以初始聚类中心点为中心的3×3范围内,计算该范围内所有像素点的梯度值,选择梯度最小的像素点并将聚类中心移动到该点上。
(3)初始化像素点,为每个像素点分配初始类标签:
当得到声呐全图的聚类中心位置后,需对每个超像素聚类中心邻域内的每个像素点进行标签分配。SLIC算法中超像素面积近似为S×S,且其搜索范围局限在聚类中心附近,所以将搜索范围设置为2S×2S。由于SLIC限制了搜索区域的大小,相较于传统的k-means聚类算法大大减少了距离计算的数量。
具体标签分配的方法为:定义一个label数组保存每个像素点所属超像素的序号值,distance数组保存每个像素点到它所属超像素中心的距离。由于SLIC算法将图像初始按照均匀分布划分,因而本步骤按照初始超像素划分区域将label数组和distance数组更新。
(4)距离相似度测量:
在分配完所有像素点的标签后,需对聚类中心向量进行重新计算,由原始的Ci=[li,ai,bi,xi,yi]T(i=1,…,M)更新为各个超像素包含所有像素点的平均度量[l,a,b,x,y]T
式中Ni表示第i个超像素包含的像素个数,那么
再将像素特征距离和空间位置特征距离都进行归一化后合并为一个单独的度量,分别取各自簇内的最大特征距离Ns和Nc,得到像素点与聚类中心间的距离度量D表达如下:
式中Nc固定为一个常数τ用来表示颜色相似度和空间邻近度之间相对重要性的度量,从而上式可写为:
当τ较大时,空间邻近度为主要角色,聚类结果中的超像素更为紧凑;当τ较小时,颜色相似度为主要角色,聚类形成的超像素可以很好的保持图像边缘信息。在本发明中,针对彩色声呐图像取τ=10,针对声呐灰度图像取τ=0.25。
(5)迭代优化聚类结果:
在定义完像素点与聚类中心间的距离相似度测量规则后,需对每个超像素中心的2S×2S邻域范围内进行局部搜索,根据度量规则计算区域内像素点到超像素中心的距离,若小于该像素点到原来所属聚类中心的距离,则判定该像素点属于目前的超像素,反之亦然。进而完成所有像素点的计算对比后更新distance数组和label数组,同时重新计算区域中心点的坐标完成超像素聚类中心位置的更新。
与此同时,将目前计算得到的距离与上一次迭代计算得到的结果进行误差计算,从而得到迭代误差residual,并对误差residual进行迭代优化直至收敛。经过多次实验验证,绝大多数聚类在10次迭代后即可达到理想的分割效果,因而综合考虑运算效率和超像素分割效果,将迭代次数固定为10。
参考图3显示了溺水者、水雷、飞机和沉船4种声呐目标通过SLIC算法生成的超像素聚类结果,其中第一排为原始声呐图像,第二排为由原始声呐图像生成的超像素结果,第三排为经过改进DeepLabV3+网络预分割得到的声呐目标高亮区域所生成的超像素结果,第四排为通过预分割获得的声呐目高亮区域和阴影区域联合所生成的超像素结果。从SLIC聚类结果可以得到,原始声呐图像由于目标边缘较为模糊,因而生成的超像素点较为杂乱,不能很好的体现声呐目标信息;而通过预分割后的声呐图像边缘清晰,目标边界与混响背景区别很大,在分割结果中,背景区域的超像素点排列规整,目标区域的超像素很好的保持了目标边缘信息。此外,在包含声影区的聚类结果中,很好的保留了目标阴影的边界信息,同时超像素内存储的像素值大小有效地区分了目标高亮区域和阴影区域,为后续识别工作提供了更为丰富的声呐目标信息。
S32:SLIC超像素聚类结果存储与文件生成:
在完成SLIC超像素聚类后,需将结果存储为标准格式用做后续的Graph(图)结构数据生成。其中存储内容包括4大部分:各张图像的标签,每张图像中所有超像素的序列号,像素均以及中心位置坐标。其中图像标签分为4种类型,别为:溺水者,水雷,飞机和沉船,由于所有内容需写入到二进制文件中,因而各种标签类型分别定义为数字0,1,2,3。各个超像素的像素均值定义为:
各个超像素的中心位置坐标定义为:
所有超像素的序列号sp-order按照上述像素均值计算顺序进行排序,该序列号用作后续识别过程中标准DGL图结构数据的构建。在搜集完所有数据集后,将其划分为训练集、验证集和测试集,再将各个数据集中每张图像生成的SLIC聚类结果按照4种特征顺序写入到各自的文件中,最终生成train.pkl,val.pkl和test.pkl三个数据文件。
S33:根据超像素分割结果构建基于声呐图像的Graph(图)结构数据:
在获得由SLIC聚类结果生成的3个文件后,利用这些文件构建Graph(图)结构数据。更进一步的,所述步骤33包括以下步骤:
S331:声呐图像下的Graph(图)结构数据表示:
Graph(图)是一种非欧几里得数据结构,记为G={V,E},其中V={v1,…vM}表示节点的集合;E={e1,…eP}表示边的集合。在本发明中,图定义为声呐图像所表示的目标类别标签信息,包含溺水者、水雷、飞机和沉船四种类型;图中的各个节点定义为SLIC聚类得到的各个超像素中心,节点信息即为超像素所包含的属性信息;节点间的边定义为两个超像素间的连接关系,边的信息即为两个超像素间的距离信息。
定义完节点和边后,还无法利用这些信息进行图结构数据的完整构建,需引入邻接矩阵来定义所有节点间的关系。邻接矩阵是一个体现了两两节点间关联程度的二维数组,在无权无向图中,将邻接矩阵定义为A∈{0,1}M×M。在本发明中,采取具有另一种表现形式的有权有向图,对应的邻接矩阵变换为W∈RN×N,Wi,j=wi,j表示从节点vi到vj的边的权重,该权重定义非常灵活,本文中定义为超像素间的像素特征距离以及空间位置特征距离联合计算出的系数大小,Wi,j=0则表示vi和vj两节点间的边不存在。
S332:声呐图像下的Graph(图)结构属性定义:
与欧几里得空间下的深度学习方法相比,基于非欧几里得空间的图神经网络在进行图结构数据构建时引入了空间位置特征,从而可以非常有效地提取并利用声呐图像中包含了声呐目标高度形状等重要信息的阴影区域信息。传统的声呐分类识别算法都是从像素特征入手,对声呐目标亮区内的像素进行多层特征提取,忽略了声呐目标的声影区信息以及声呐图像中亮区和阴影的位置信息特征,且没有建立起亮区和阴影的关联性。为了解决以上问题,本发明利用图结构数据同时将声呐目标的亮区以及声影区的像素特征和位置特征进行联合考虑,从而达到更高的图像识别效果。
更进一步的,所述步骤332包括以下步骤:
S3321:Graph(图)结构中节点属性的定义:
图中的节点除了自身的编号定义外,还可以包含其他很多种类的属性。在本发明中,节点定义为了各个超像素点,节点的属性定义为了两种类型特征:位置特征和像素特征,其中位置信息为各个超像素的中心位置坐标,像素信息为各个超像素的像素均值。由于声呐图像进行了预分割,分割结果中亮区由一种颜色标识,阴影由另一种颜色标识,因而在进行像素均值计算时,包含背景区域的超像素块的像素均值接近于0,包含阴影和亮区的超像素块的像素均值相对较大但两个数值间差距也较大,从而可以在像素特征方面将三种声呐回波区分开。节点及其属性具体表示为:
S3322:Graph(图)结构中邻接矩阵的计算:
邻接矩阵存储了所有两两节点间的连接关系。在本发明中,对于两两节点间的连接关系,同时考虑了位置特征和像素特征间的关联。由于位置坐标的取值范围为[0,200),像素大小的取值范围为[0,1],因而需先将位置坐标进行归一化处理,具体计算为:
在对像素差值进行计算时,由于超像素的像素值采用了RGB三通道存储,因而包含亮区的超像素与包含阴影的超像素间的像素差值最大,其次再是亮区与背景间的像素差以及阴影与背景间的像素差。在空间位置较近的超像素点间,根据以上现象,可以很好的区分开声呐目标亮区与阴影的边界,亮区与背景的边界以及阴影与背景的边界,从而达到了声呐目标阴影的信息有效融入到图结构数据中去的目的。
S3323:Graph(图)结构中边属性的定义:
图中的边除了包含表示连接性的边序号对外,还可以包含其他很多种类的属性。在本发明中,边的属性定义为联合像素特征以及空间位置特征计算出的超像素距离大小。根据上面邻接矩阵的定义,由于远距离节点的连接性很弱,因而矩阵存储的边信息几乎无效,为了消除冗余性,对于距离很远的两个节点的边序号对以及边属性不进行存储,判断规则由K最近邻算法(KNN)决定。远和近的相对界限由超像素点数M决定,在本发明中M=200,远近的相对界限值取κ=8,15,30,50,100,那么总共存储的边个数为κ×200=200κ。由于不同取值下最终的识别结果好坏不一样,因而在后续消融实验中进行进一步分析验证。具体边的权重计算公式为:
式中,(xi,yi)是超像素vi的位置坐标,f(xi,yi)是超像素vi的平均像素值,δx是一个尺度参数,表示每个节点vi到最邻近κ个节点间的平均距离,δf也是一个尺度参数,表示每个节点vi与最邻近κ个节点间的平均像素差值,γ是相对重要性的度量,表示像素特征和空间位置特征间的相对权重。边及其属性具体表示为:
对于整个图结构数据的属性定义总结如下:
S333:转换为DGL数据:
本发明编写的图注意力网络是基于DGL框架下完成的,因而构建完图结构数据后需将其转换为DGL框架下的标准DGLGraph数据。
DGL框架下采用整数表示一个节点,叫做节点ID;采用一对整数ei(u,v)表示一条边,u和v分别对应边的起始和终点的节点ID,ei表示该条边的边ID。节点和边都可以包含若干自定义名字的特征,分别通过ndata和edata属性访问。因而在本发明中,将每张声呐图像经过SLIC聚类后的超像素编号sp-order作为节点ID,两两连接的超像素间的编号对作为边ID对,节点的像素特征f(xi,yi)和位置特征(xi,yi)写入ndata属性中,边的权重特征Wi,j写入edata属性中,从而完成DGLGraph数据的完整构建。
参考图4显示了其中一张声呐图像所生成的DGLGraph数据,各个顶点进行了ID编号,该ID编号的总数为SLIC聚类得到的超像素个数,具有连接关系的两个顶点间用线进行了连接,且显示了连接边所包含的边ID对。从图中可以得到,图结构与原始图像结构完全不一致,很难直观地从图结构数据中观察到该图所表示的声呐目标类型,因而在后期识别中,必须引用节点和边的属性以及邻接矩阵。
进一步的,所述步骤S4包括以下步骤:
S41:基于声呐数据的图注意力网络构建:
将经过SLIC超像素聚类的结果转换为图结构数据后,将其送入到图注意力网络中进行模型的训练和测试。在图注意力网络模型中,采用了注意力模块对图中的节点进行嵌入,通过计算当前节点与邻居节点间的注意力系数聚合邻居信息,实现对不同邻居权重的自适应分配,从而学习邻域特征和空间特征。图注意力网络的实现就是多个注意力层的堆叠,因而在该网络中最关键的是图注意力层的构建。
图注意力层的输入是各个节点的特征组合,表示为:其中M为节点的个数,hi为第i个节点的特征向量,F为各个节点的特征个数。在本发明中,节点为由声呐图像获得的各个超像素点,节点特征为像素聚合得到的像素特征和空间位置特征,输入通过注意力层后,输出得到新的节点特征组合将输入与输出间每个节点的具有共享性的线性变换定义为一个参数化的权重矩阵由于图注意力层加入了注意力机制,对当前节点与邻居节点间分配了不同的系数权重,因而整个图注意力层的输入与输出间可表示为如下:
式中αij表示节点i与节点j之间的注意力系数(系数权重),Q为权重矩阵由后向传播获得,σ为非线性激活函数。其中注意力系数α的确定为图注意力网络的核心,系数具体计算过程如下:
首先对各个节点实施自注意力机制a:从而计算得到表征节点j的特征对节点i的重要程度的注意系数eij
再使用负斜率为0.2的LeakyReLU函数进行非线性处理,引入SoftMax对所有注意系数进行正则化。同时通过执行隐藏注意只对节点的某个邻域范围内所包含的其他节点进行注意系数的计算,从而完整的注意力机制计算的系数表示为:
式中,T表示转置,||表示拼接操作。
在最终的注意力系数表达式中,仍存在2个未知点:邻域选取的具体位置以及邻域所包含的节点个数k。在本发明中,邻域内节点个数k的取值与KNN算法中κ的取值一致,具体哪k个邻近节点由KNN算法获得的边连接属性决定。具体过程如下:
选取合适的k值,执行KNN最近邻算法更新邻接矩阵以及边的权重:
其中矩阵中的第i行第j列具体计算式为:
式中表示节点i到节点j的边权重,KNN表示K最近邻算法。
在获得邻接矩阵以及边的连接关系后,需对每个节点上连接性弱的边进行删除,留下关联性最强的k条边。针对每个节点,将该点与剩余节点的连接性(边权重值)按照从强到弱的顺序进行排序,将连接性强的前k条边进行保留,为了计算简便以及加强差异性,将连接性强的前k条边的权重Wi,j赋为1,剩余边的权重赋为负无穷,从而获得了更新后的邻接矩阵W和边权重Wi,j。在进行SoftMax归一化前将矩阵W与注意力系数矩阵相乘,即可确定k的取值以及具体k所指代的边,从而获得最终的注意力机制系数的表达式为:
经过计算后得到不同节点间的注意力系数,将系数带入到卷积层的输入与输出间的计算式中,获得每个节点的最终输出特征。此外,为了使自注意力的学习过程更稳定,采用多头注意力来扩展机制。具体为使用Ω个独立的注意机制执行上述输入与输出间的变换,然后将各个变换获得的特征进行特征拼接,从而获得最终的输出特征如下所示:
式中表示由第ω个注意机制下的归一化注意力系数,Qω为相应的权重矩阵,||为拼接操作。当完成了图注意力层的搭建,最后选取合适的注意力层层数实现网络模型的完整构建。整个网络通过利用图注意力模块实现节点与其邻域的注意系数动态生成,再根据节点间的关联性将注意力系数和更新后的边权重系数进行相乘,使模型对特定的输入样本具有更大的灵活性,最后通过迭代训练,获得最终的权重系数,从而实现基于声呐图像的图结构分类。
S42:数据集的搜集,准备与构建:
在上述将构建完的图结构数据转换为DGL框架下的标准DGLGraph数据后,还需将数据集划分为训练集、验证集和测试集。在DGLGraph结构转换过程中,将该数据直接存储到划分的集合中。共有4类图结构数据,分别为溺水者、水雷、飞机和沉船,训练集共488个图结构,其中溺水者占98个,水雷目标占119个,飞机占87个,沉船占184个;验证集共71个图结构,其中溺水者占17个,水雷目标占18个,飞机占13个,沉船占23个;测试集共136个图,其中溺水者占13个,水雷目标占35个,飞机占23个,沉船占64个。具体如下所示:
S43:实验设置以及模型训练:
实验环境配置:本发明的网络模型均采用Python作为编程语言,使用PyTorch作为深度学习框架,采用DGL作为图神经网络框架,在CPU型号为silver 4110CPU@2.10Ghz,内存为64G,GPU型号为NVIDIA GeForce RTX 3080,GPU加速库为CUDA 11.4的Ubuntu系统下完成模型的训练与测试。
网络参数设置:图注意力层层数L设置为4,隐藏单元数hidden-dim为19,输出特征向量单元数out-dim为152,设置residual为true,也即使用层内部的剩余连接,readout设置为mean,也即通过平均聚合节点特征的方式来获得整图的特征表示,多头注意力中独立的注意力机制数n-heads设置为8,输入特征的随机丢弃in-feat dropout为0,整个的dropout也为0,batch-norm层设置为true,自环self-loop为true。
模型训练参数设置:修改网络模型为GAT,dataset设置为制作好的声呐数据集,分类种类(number of classes)为4,随机种子seed设置为41,epochs为250,batch-size为4,初始学习率为0.001,学习率衰减系数为0.5,学习率的容忍性能不提升的次数为10,学习率的下限设置为1e-8,权重衰减系数为0,epoch时间间隔设置为5,最大执行时间为12。
模型训练:完成各项参数的修改与设置后,将基于SLIC超像素聚类算法结果制作为的图结构数据送入到网络中进行模型的训练。具体用于声呐图像分类的GAT模型训练步骤如下:
(1)载入图结构数据。载入包含训练集,验证集和测试集的DGLGraph数据文件,从中读取节点、边、图和标签的信息以及表征节点关联度的邻接矩阵,并根据knn最邻近算法更新边的权重和邻接矩阵。
(2)定义网络模型以及前向传播过程。网络模型定义为图注意力网络(GAT),并在网络模型中定义好前向传播函数,选择Glorot均匀分布对模型中的参数进行初始化。前向传播过程中,利用GAT卷积(图注意力层)进行图结构的特征提取与消息传递,最终将残差进行迭代优化。
(3)定义损失函数以及优化器。由于本发明为基于GAT模型的多分类情况,因而使用Pytorch中封装好的nn.CrossEntropyLoss交叉熵损失函数作为模型的损失函数,优化器选择具有非常高效计算的Adam,模型训练时所需的学习率在优化器中进行定义。
(4)计算误差。根据定义好的损失函数计算得到预测值与标签真值间的误差。
(5)参数更新。通过optimizer.step()函数更新前向传播中的模型参数,从而达到减小预测值与标签真值间的误差的目的。当误差小于一定阈值后,记录损失值最小时所对应的模型参数。
(6)类别预测。将迭代结束记录的损失值最小时所对应的模型参数替换到前向传播中,对待分类的声呐图像进行类别的识别。
参考图5显示了训练过程中训练集和验证集的损失函数以及识别率随迭代次数变化的曲线。第一排第一幅为训练集的损失函数随epoch变化的曲线,整个曲线较为平稳,损失值最终降到0.1附近,且函数迭代到100次左右趋于稳定,说明模型的训练效果较好。第一排第二幅为训练集的识别精度随迭代次数变化的曲线,曲线变化波动较小,也大致在迭代次数为100的附近趋于平稳,最终的识别率达到了0.96左右,虽然离1还有差距,但可以说明在该模式下的网络模型训练效果较好。第二排为验证集的损失函数和识别精度随迭代次数变化的曲线,两条曲线波动较大,虽然可以明显看出收敛的趋势,但最终达到的损失值以及识别率效果都不是很好。
S44:模型测试与结果分析:
基于声呐图像的GAT模型完成训练后,选取训练趋于稳定后的权重参数对测试集中的数据进行声呐图像类别的分类,最后利用测试集的识别精度对模型进行评价。具体来说,网络模型在这该步骤中需转换为测试模式,关闭网络模型中的Batch Normalization和Dropout,使用evaluate-network实现模型的测试。
参考图6显示了测试集的识别精度随迭代次数变化的曲线以及最佳识别结果示意图。观察测试集的识别曲线,在迭代收敛的过程中波动幅度较大,但当迭代次数达到70次后,整个曲线趋于平稳,且识别精度最终稳定在0.9附近。接下来对各次识别效果进行了统计,得到最佳识别结果示意图,从结果中可知最优的识别精度为91.2%,平均测试效果为89.5%,也即在数据集仅包含几百张声呐图像的情况下,其测试识别率就达到了90%附近。
进一步的,所述步骤S5包括以下步骤:
S51:验证图像预分割以及声呐目标阴影区域信息的有效性:
为了验证图像预分割和声呐目标声影区信息的有效性,制作了3类数据集。其中第一类为原始声呐图像不做图像预分割,也不做目标阴影区域信息的提取,直接将原始图像经过SLIC超像素分割算法转换为图结构数据,再将构建的图结构数据集送入到GAT网络中进行模型的训练,获得相应的训练损失函数随着迭代次数变化的曲线,训练完后对测试集中的数据进行声呐图像的分类,最终计算出测试集下的识别率,获得最优的识别效果。
第二类为原始声呐图像只进行图像预分割,不进行声影区信息的提取。具体来讲,将原始声呐图像先进行预处理和预分割操作,再将预分割后的图像应用SLIC聚类算法,获得完整的图结构数据,从而完成GAT模型所需数据集的构建,同样后续完成模型的训练以及测试。
第三类为原始声呐图像既要进行图像预分割,又要进行声影区信息的提取,在完成预分割后,对目标亮区和阴影区域进行不同颜色的标注,再利用SLIC聚类算法,从像素特征和空间位置特征上完成目标边缘信息以及亮区和阴影的关联性的存储,形成具有更丰富属性的图结构数据集,最后同样将数据集送入到网络中完成模型的训练以及测试。将以上3类数据集获得的模型训练曲线和测试结果进行两两对比,从而完成图像预分割以及声呐目标阴影区域信息的有效性的验证。
参考图7显示了验证图像预分割以及声呐目标阴影区域信息有效性下的对比结果示意图。首先从模型训练的角度出发,3类数据集的损失函数收敛趋势大致相似,3种情形下的损失曲线都较为平稳,且均在迭代次数为100次附近趋于稳定,但平稳后达到的损失值不同,基于原始声呐图像下的损失值在0.7附近趋于稳定,基于图像预分割下的损失值稳定在0.4附近,基于联合图像预分割和声呐目标阴影区域信息下的损失值在0.1附近到达平稳,因而从训练效果的角度上验证了算法中提出的联合图像预分割以及声呐目标阴影区域信息的正确性和有效性。最后再从模型识精度的角度出发,不做任何处理下的平均识别率为67.8%,最优的识别结果为70.6%;只进行图像预分割操作下的平均识别率为73.4%,最优识别精度为77.9%;同时进行图像预分割以及声呐目标声影区信息提取与利用下的平均识别精度为89.5%,最优识别效果为91.2%。对比最优识别效果,图像预分割以及声呐目标阴影区域信息同时作用下大的模型识别精度提升了20.6%,从而非常有力地验证了联合图像预分割以及声呐目标阴影区域信息的有效性。
S52:测试像素特征和空间位置特征间的相对权重γ对识别效果的影响:
由于权重因子γ的取值为[0,1],权值越大表示空间位置特征占的比重越大,权值越小表示像素特征所占比重越大,为了探究空间位置特征与像素特征间最合适的权重分配,也即最佳的相对权重γ取值,本发明对γ分别不同取值为[0,0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9,1],从而完成像素特征和空间位置特征间的相对权重γ对识别效果影响的测试。
参考图8显示了像素特征和空间位置特征间的相对权重γ不同取值下的识别效果对比示意图。γ的大小决定了像素特征与空间位置特征各自对声呐分类效果的影响,首先观察模型训练过程中的损失函数变化曲线,所有不同取值下的曲线收敛趋势大致相同,都在迭代次数为100附近趋于稳定,γ取0.6和0.7时平稳后的损失值达到最小,γ取0训练效果最差,因而初步可以说明,只依靠像素特征很难取得较好的识别效果,模型的性能发挥也较差。最后观察模型测试过程中的识别结果,随着γ的增大,识别精度也逐渐升高,当γ取0.7时,识别效果达到最优,γ再增大,识别效果反而变差,因而模型的性能随着γ的增大而先增后减,且在0.7处模型达到最优性能,也即声呐图像分类任务中,空间位置特征主导着整个模型的训练,而像素特征起到辅助识别的作用。
S53:测试不同属性计算方式对识别效果的影响:
不同属性计算方式会导致计算出的属性值范围不同,虽然后续可以进行归一化处理,但相同像素值和相同空间位置下计算出的边权重不一致,即使进行归一化后值的分布也不相同。例如采用Sigmoid函数下的计算方式,在±5范围内的数值变化很大,该范围外计算出的权重值几乎没有变化,或采用e的负指数计算方式下,在[0,1]范围内的数值变化较大,该范围外的变化缓慢。因而为了寻找最合适的属性计算方式,本项目选取了4种计算属性的函数,分别为Sigmoid函数形式,Sigmoid函数进行对称处理的形式,e的负指数形式,直接相加的形式,根据函数表达式计算出各函数下的识别率,再对各种方式下计算出的识别结果进行比较,从而选取最优的属性计算方式。其中4种属性计算方式具如下式所示:
参考图9显示了不同属性计算方式下的识别效果对比示意图。首先从模型训练损失的角度出发,所有计算方式下的训练结果大致相似,最好的为Sigmoid函数下的训练效果,再从模型识别精度的角度出发,识别效果最佳的仍为Sigmoid函数下的属性计算方式。在最佳识别效果上,Sigmoid函数形相较于识别效果最差的e负指数形式提升了5.9%。
S54:测试节点邻域范围内所包含节点个数k的不同取值对识别效果的影响:
k的不同取值直接影响了图注意力网络中注意机制系数的计算,k值若过小会导致信息量损失巨大,聚合的邻域信息过少,从而很难发挥基于邻域信息的图注意力网络的性能,k值若超过某一阈值,可能会引入过多噪声而导致模型性能下降,所以需要寻找较优的k值使得模型性能达到最优。在本发明中,对k分别取值为[5,10,20,30,50,100],对比不同k值下模型的训练效果与识别精度,从而完成节点邻域范围内所包含节点个数k的不同取值对识别效果影响的测试。
参考图10显示了节点邻域范围内所包含节点个数k的不同取值下的识别效果对比示意图。可以看出,参数k对模型的识别性能影响非常大,随着k值的增大模型的性能逐渐下降,当k取8时,模型达到最优的性能,这与我们所设想的效果一致,当邻域个数较小时,随着k值的增大,模型能够对邻域提取更多有用的信息,从而达到更好的识别效果,但当k一旦超过某个阈值,邻域的有用信息已经饱和,再过多引入邻域信息反倒会引入多余的噪声,从而导致模型的识别性能下降。
以上对本发明的优选实施例及原理进行了详细说明,对本领域的普通技术人员而言,依据本发明提供的思想,在具体实施方式上会有改变之处,而这些改变也应视为本发明的保护范围。

Claims (6)

1.一种联合SLIC超像素和图注意力网络的声呐图像分类方法,其特征在于,包括以下步骤:
S1:根据二维前视声呐和侧扫声呐各自的成像原理以及成像时的先验信息,采用不同的预处理方法实现声呐图像的自主校正和补偿;
S2:对校正后的声呐图像进行基于改进DeepLabV3+网络的图像预分割,实现声呐目标高亮区和声影区的同步分割;
S3:利用SLIC超像素算法进行Graph(图)结构数据构建,并将像素特征和空间位置特征联合考虑,形成最终的图属性;
S4:构建基于GAT(图注意力网络)的声呐图像分类模型,将构建好的声呐图结构数据送入到网络中完成模型的训练与测试;
S5:消融实验设置,验证像素特征与空间位置特征的重要程度,声呐图像预分割的有效性以及声呐目标阴影区域信息的重要性。
2.根据权利要求1所述的一种联合SLIC超像素和图注意力网络的声呐图像分类方法,其特征在于,所述步骤S1包括以下步骤:
S11:前视声呐图像重建技术和增强算法:
前视声呐图像有两种表现形式,一种是极坐标下,这种坐标系为原始采集到的数据格式,以(r,θ)作为坐标轴的扇形图形式呈现;另一种是经过坐标变换得到的常规图像坐标系(x,y)下;两种坐标系间的转换公式如下:
其中φ、R分别表示前视声呐水平开角和斜距量程大小,W、H分别表示图像水平和垂直尺寸;再采用以下预处理步骤:
(1)坐标转换,将扇形极坐标系下的声呐图像转换到二维常规坐标系中;
(2)进行中值滤波,噪声得到抑制,且更好地保护目标进入阴影区的灰度值突变区域;
(3)进行直方图均衡,从而有助于图像显示以及对声呐图像的直观题解;
(4)采用伪色彩处理,将灰度图转换为彩色图像,提高前视声呐图像内容的可辨识度;
S12:侧扫声呐图像灰度校正算法和分辨率校正(几何校正)算法:
对区域宽度内所有像素点进行灰度校正,先统计图像高度方向统计各ping断面的灰度均值:
式中Nmin表示高度最大时所对应声呐图像的区域宽度,a(n)为第n条数据的海底线位置,再统计宽度方向的灰度均值,最后得到所有像素点的灰度校正因子序列:
根据斜距、水平距离和深度三者间的几何关系获得由斜距点组成的声呐图像与由平距点组成的声呐图像间像素点位置对应关系如下:
左舷分辨率校正因子:
右舷分辨率校正因子:
其中,Res表示图像的分辨率,width表示图像宽度,PlantRange表示平距,SlantRange表示斜距,TowfishAlt表示拖鱼高度。
3.根据权利要求1所述的一种联合SLIC超像素和图注意力网络的声呐图像分类方法,其特征在于,所述步骤S2包括以下步骤:
S21:构建基于改进DeepLabV3+网络的声呐图像预分割模型:
构建基于改进DeepLabV3+网络的声呐图像预分割模型,将校正过的图像进行亮区与声影区的预分割,网络的主干特征提取网络替换为更加轻量级的MobilenetV2,特征提取时在Encoder和Decoder阶段进行加强特征提取,损失函数修改为Focalloss函数和Dice loss函数的联合;
S22:制作声呐图像分割数据集,完成预分割模型的训练:
在预分割步骤中,只对声呐图像中的目标高亮区域和声影区进行预分割,不对图像类别进行区分,因而在进行声呐图像标注时只需标注亮区和阴影两种类型;通过实验和网上数据搜集,再加上数据扩增技术,共获得声呐图像695张;再将获得的图像进行数据集分割,其中训练集488张,验证集71张,测试集136张;整理完所有的数据集后将其按照亮区和阴影分别标注,至此完成所有图像数据集的准备工作,再将标注好的数据集送入到网络中,最终完成关于声呐图像预分割模型的训练;
S23:利用训练好的模型对待分割的声呐图像进行实时预分割:
为了解决实际采集到的声呐图像目标边缘模糊导致后续识别效果较差的问题,且方便识别过程中能够有效提取出声影区的信息,预先将声呐图像进行目标亮区与声影区的分割;训练好预分割模型后,将测试程序中的权重路径修改为训练结果最佳的权重文件,将实际收集的待分割声呐图像送入程序中进行实时目标亮区与阴影的预分割;预分割结果中,图像只存在3种不同像素值大小的像素点,3种取值分别代表:目标回波区、声影区和混响背景。
4.根据权利要求1所述的一种联合SLIC超像素和图注意力网络的声呐图像分类方法,其特征在于,所述步骤S3包括以下步骤:
S31:将经过预处理和预分割后的声呐图像进行基于SLIC算法的超像素分割:
经过以上图像预处理和预分割后,改善了声呐目标边缘模糊等问题,实现了目标阴影信息的精确提取;但图像数据需转换为图网络能够识别的图结构数据,最为直观的方式是将图像中的每个像素均视作为图结构中的节点,每个像素点间的欧式距离作为连接节点间的边,但此方法下的声呐信息非常冗余,在后续卷积中计算量庞大;因而在将图像转换为图结构数据之前,采用SLIC算法将像素数据转换为几百个超像素块,从而极大地减小了任务复杂程度;
S32:SLIC超像素聚类结果存储与文件生成:
在完成SLIC超像素聚类后,需将结果存储为标准格式用做后续的Graph(图)结构数据生成;其中存储内容包括4大部分:各张图像的标签,每张图像中所有超像素的序列号,像素均以及中心位置坐标;其中图像标签分为4种类型,别为:溺水者,水雷,飞机和沉船,在搜集完所有数据集后,将其划分为训练集、验证集和测试集,再将各个数据集中每张图像生成的SLIC聚类结果按照4种特征顺序写入到各自的文件中;
S33:根据超像素分割结果构建基于声呐图像的Graph(图)结构数据:
图定义为声呐图像所表示的目标类别标签信息,包含溺水者、水雷、飞机和沉船四种类型;图中的各个节点定义为SLIC聚类得到的各个超像素中心,节点信息即为超像素所包含的属性信息;节点间的边定义为两个超像素间的连接关系,边的信息即为两个超像素间的距离信息;对于整个图结构数据的属性定义总结如下:
5.根据权利要求1所述的一种联合SLIC超像素和图注意力网络的声呐图像分类方法,其特征在于,所述步骤S4包括以下步骤:
S41:基于声呐数据的图注意力网络构建:
将经过SLIC超像素聚类的结果转换为图结构数据后,将其送入到图注意力网络中进行模型的训练和测试;采用注意力模块对图中的节点进行嵌入,通过计算当前节点与邻居节点间的注意力系数聚合邻居信息,实现对不同邻居权重的自适应分配,从而学习邻域特征和空间特征;再将多个注意力层的堆叠,完成GAT的搭建;当完成了图注意力层的搭建后,选取合适的注意力层层数实现网络模型的完整构建;整个网络通过利用图注意力模块实现节点与其邻域的注意系数动态生成,再根据节点间的关联性将注意力系数和更新后的边权重系数进行相乘,使模型对特定的输入样本具有更大的灵活性,最后通过迭代训练,获得最终的权重系数,从而实现基于声呐图像的图结构分类;
S42:数据集的搜集,准备与构建:
将构建完的图结构数据转换为DGL框架下的标准DGLGraph数据后,还需将数据集划分为训练集、验证集和测试集;在DGLGraph结构转换过程中,将该数据直接存储到划分的集合中;共有4类图结构数据,分别为溺水者、水雷、飞机和沉船,训练集共488个图结构,其中溺水者占98个,水雷目标占119个,飞机占87个,沉船占184个;验证集共71个图结构,其中溺水者占17个,水雷目标占18个,飞机占13个,沉船占23个;测试集共136个图结构,其中溺水者占13个,水雷目标占35个,飞机占23个,沉船占64个;
S43:实验设置以及模型训练:
参数设置:设置图注意力层层数,隐藏单元数,输出特征向量单元数,residual状态,readout状态,多头注意力中独立的注意力机制数,输入特征的随机丢弃数,整个的dropout的数值,batch-norm层的状态,自环的状态;以及设置网络模型,数据集,分类种类(numberof classes),随机种子seed,epochs数,batch-size大小,初始学习率,学习率衰减系数,学习率的容忍性能不提升的次数,学习率的下限,权重衰减系数,epoch时间间隔,最大执行时间;
模型训练:完成各项参数的修改与设置后,将基于SLIC超像素聚类算法结果制作为的图结构数据送入到网络中进行模型的训练;首先载入图结构数据,再定义网络模型以及前向传播过程,利用GAT卷积(图注意力层)进行图结构的特征提取与消息传递,紧接着定义损失函数以及优化器,再根据定义好的损失函数计算得到预测值与标签真值间的误差,通过优化函数更新前向传播中的模型参数,从而减小预测值与标签真值间的误差,迭代结束时,将损失值最小时所对应的模型参数替换到前向传播中,对待分类的声呐图像进行类别的识别;
S44:模型测试与结果分析:
基于声呐图像的GAT模型完成训练后,选取训练趋于稳定后的权重参数对测试集中的数据进行声呐图像类别的分类,最后利用测试集的识别精度对模型进行评价;也即网络模型在这该步骤中需转换为测试模式,关闭网络模型中的Batch Normalization和Dropout,使用evaluate-network实现模型的测试。
6.根据权利要求1所述的一种联合SLIC超像素和图注意力网络的声呐图像分类方法,其特征在于,所述步骤S5包括以下步骤:
S51:验证图像预分割以及声呐目标阴影区域信息的有效性:
为了验证图像预分割和声呐目标声影区信息的有效性,制作了3类数据集;第一类为原始声呐图像不做图像预分割和目标阴影区域信息的提取,直接将原始图像经过SLIC超像素分割算法转换为图结构数据;第二类为原始声呐图像只进行图像预分割,不进行声影区信息的提取,也即将原始声呐图像先进行预处理和预分割操作,再将预分割后的图像应用SLIC聚类算法,获得完整的图结构数据;第三类为原始声呐图像既进行图像预分割,又进行声影区信息的提取,在完成预分割后,对目标亮区和声影区进行不同颜色的标注,再利用SLIC聚类算法,从像素特征和空间特征上完成目标边缘信息以及亮区和阴影的关联性的存储,形成具有更丰富属性的图结构数据;将构建的3类图结构数据集送入到GAT网络中进行模型的训练,获得相应的训练损失函数随着迭代次数变化的曲线,训练完后对测试集中的数据进行声呐图像的分类,最终计算出测试集下的识别率,获得最优的识别效果;将以上3类数据集获得的训练曲线和测试结果进行对比,从而完成图像预分割和声呐目标阴影区域信息的有效性的验证;
S52:测试像素特征和空间位置特征间的相对权重γ对识别效果的影响:
由于权重因子γ的取值为[0,1],权值越大表示空间位置特征占的比重越大,权值越小表示像素特征所占比重越大,为了探究空间位置特征与像素特征间最合适的权重分配,也即最佳的相对权重γ取值,本发明对γ分别不同取值为[0,0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9,1],从而完成像素特征和空间位置特征间的相对权重γ对识别效果影响的测试;
S53:测试不同属性计算方式对识别效果的影响:
不同属性计算方式会导致计算出的属性值范围不同,虽然后续可以进行归一化处理,但相同像素值和相同空间位置下计算出的边权重不一致,即使进行归一化后值的分布也不相同;因而为了寻找最合适的属性计算方式,本项目选取了4种计算属性的函数,分别为Sigmoid函数形式,Sigmoid函数进行对称处理的形式,e的负指数形式,直接相加的形式,根据函数表达式计算出各函数下的识别率,再对各种方式下计算出的识别结果进行比较,从而选取最优的属性计算方式;其中4种属性计算方式具如下式所示:
S54:测试节点邻域范围内所包含节点个数k的不同取值对识别效果的影响:
k的不同取值直接影响了图注意力网络中注意机制系数的计算,k值若过小会导致信息量损失巨大,聚合的邻域信息过少,从而很难发挥基于邻域信息的图注意力网络的性能,k值若超过某一阈值,可能会引入过多噪声而导致模型性能下降,所以需要寻找较优的k值使得模型性能达到最优;在本发明中,对k分别取值为[5,10,20,30,50,100],对比不同k值下模型的训练效果与识别精度,从而完成节点邻域范围内所包含节点个数k的不同取值对识别效果影响的测试。
CN202210860920.5A 2022-07-21 2022-07-21 一种联合slic超像素和图注意力网络的声呐图像分类方法 Pending CN116468995A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210860920.5A CN116468995A (zh) 2022-07-21 2022-07-21 一种联合slic超像素和图注意力网络的声呐图像分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210860920.5A CN116468995A (zh) 2022-07-21 2022-07-21 一种联合slic超像素和图注意力网络的声呐图像分类方法

Publications (1)

Publication Number Publication Date
CN116468995A true CN116468995A (zh) 2023-07-21

Family

ID=87181237

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210860920.5A Pending CN116468995A (zh) 2022-07-21 2022-07-21 一种联合slic超像素和图注意力网络的声呐图像分类方法

Country Status (1)

Country Link
CN (1) CN116468995A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116934754A (zh) * 2023-09-18 2023-10-24 四川大学华西第二医院 基于图神经网络的肝脏影像识别方法及装置
CN117499596A (zh) * 2023-11-15 2024-02-02 岳阳华润燃气有限公司 一种基于智能ar眼镜的燃气场站巡检系统及方法
CN117809169A (zh) * 2024-03-01 2024-04-02 中国海洋大学 一种小样本水下声呐图像分类方法及其模型搭建方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116934754A (zh) * 2023-09-18 2023-10-24 四川大学华西第二医院 基于图神经网络的肝脏影像识别方法及装置
CN116934754B (zh) * 2023-09-18 2023-12-01 四川大学华西第二医院 基于图神经网络的肝脏影像识别方法及装置
CN117499596A (zh) * 2023-11-15 2024-02-02 岳阳华润燃气有限公司 一种基于智能ar眼镜的燃气场站巡检系统及方法
CN117809169A (zh) * 2024-03-01 2024-04-02 中国海洋大学 一种小样本水下声呐图像分类方法及其模型搭建方法
CN117809169B (zh) * 2024-03-01 2024-04-30 中国海洋大学 一种小样本水下声呐图像分类方法及其模型搭建方法

Similar Documents

Publication Publication Date Title
CN110472627B (zh) 一种端到端的sar图像识别方法、装置及存储介质
CN110335290B (zh) 基于注意力机制的孪生候选区域生成网络目标跟踪方法
CN109086824B (zh) 一种基于卷积神经网络的海底底质声呐图像分类方法
CN109740665B (zh) 基于专家知识约束的遮挡图像船只目标检测方法及系统
CN111652321B (zh) 一种基于改进yolov3算法的海上船舶检测方法
CN110084234B (zh) 一种基于实例分割的声呐图像目标识别方法
CN116468995A (zh) 一种联合slic超像素和图注意力网络的声呐图像分类方法
CN109101897A (zh) 水下机器人的目标检测方法、系统及相关设备
CN111626993A (zh) 一种基于嵌入式FEFnet网络的图像自动检测计数方法及系统
CN111028327A (zh) 一种三维点云的处理方法、装置及设备
CN113963117B (zh) 一种基于可变卷积深度网络的多视图三维重建方法及装置
CN110334645B (zh) 一种基于深度学习的月球撞击坑识别方法
CN115439694A (zh) 一种基于深度学习的高精度点云补全方法及装置
CN113052200A (zh) 一种基于yolov3网络的声呐图像目标检测方法
CN111241970A (zh) 基于yolov3算法与滑动窗口策略的SAR影像海面舰船检测方法
CN110647977B (zh) 一种用于星上对舰船目标检测的Tiny-YOLO网络的优化方法
CN112613504A (zh) 一种声呐水下目标检测方法
Stephens et al. Using three dimensional convolutional neural networks for denoising echosounder point cloud data
CN113408340A (zh) 基于增强型特征金字塔的双极化sar小型船只检测方法
CN115170943A (zh) 一种基于迁移学习的改进视觉Transformer海底底质声呐图像分类方法
CN115937552A (zh) 一种基于融合手工特征与深度特征的图像匹配方法
CN115439738A (zh) 一种基于自监督协同重构的水下目标检测方法
CN114663880A (zh) 基于多层级跨模态自注意力机制的三维目标检测方法
CN113989612A (zh) 基于注意力及生成对抗网络的遥感影像目标检测方法
CN116863293A (zh) 一种基于改进YOLOv7算法的可见光下海上目标检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination