CN113139573A - 一种基于条件双分支注意力机制的鲁棒声纳图像生成方法 - Google Patents
一种基于条件双分支注意力机制的鲁棒声纳图像生成方法 Download PDFInfo
- Publication number
- CN113139573A CN113139573A CN202110257704.7A CN202110257704A CN113139573A CN 113139573 A CN113139573 A CN 113139573A CN 202110257704 A CN202110257704 A CN 202110257704A CN 113139573 A CN113139573 A CN 113139573A
- Authority
- CN
- China
- Prior art keywords
- matrix
- attention mechanism
- sonar image
- dimension
- characteristic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)
Abstract
本发明公开了一种基于条件双分支注意力机制的鲁棒声纳图像生成方法。本发明采用深度学习技术对复杂水下环境进行声纳图像仿真成像。本发明打破了传统的声纳仿真技术注重底层的物理建模,在多类别、多背景的情况下存在着图像可调性差、逼真度低的局限。该方法能够利用条件信息有效地控制特定条件声纳图像的生成,通过一种双分支注意特征融合机制,依次完成信道级和像素级的注意操作,增强相应元素之间的相关性,从而生成更加清晰、逼真的声纳图像。通过实验发现,该方法在声纳图像仿真上取得很好的表现,且在噪声干扰环境下具有鲁棒的成像效果,说明深度学习方法在声呐图像仿真上的可行性,为复杂水声环境数据中的图像仿真提供了新的研究手段。
Description
技术领域
本发明属于人工智能与水声电子信息的交叉领域,具体涉及一种基于条件双分支注意力生成对抗网络的鲁棒声纳图像生成方法
背景技术
近年来,随着现代水声信号处理技术和水声设备研发技术的巨大进步,水下声纳图像生成技术已成为国内外研究的热点。声纳图像仿真技术在军事和民用领域都有着重要的地位。特别是在军事领域,复杂环境下对敌方军事目标(潜艇、鱼雷、危险障碍物)的探测与识别、海底地形匹配导航等领域迫切需要高保真声纳图像仿真技术的应用。
声纳图像仿真技术是指在已有声纳图像数据的基础上,生成遵循真实数据分布的水底声纳图像。在海上进行水底图像数据收集的日常成本很高,使得为了验证假设或尝试新算法而获取特定图像的成本往往过高,难以实现。由于水下数据采集的操作限制,模拟真实的声纳图像,对于传感器设置、地形设计、调整探测和分类算法等至关重要。综上所述,声纳数据仿真技术作为一种有效的声纳数据扩充手段,通过已有声纳数据进行复杂环境下声纳图像仿真,可以产生许多特定的图像数据集,用于声纳相关评估或预测算法的鲁棒性,对于后续声纳相关算法研究至关重要。
随着计算机计算性能的不断提高,声纳仿真技术也需要向智能化方向发展。计算机声纳仿真产生的数据可应用于图像处理、水下目标检测、性能监测、故障检测等领域,大大降低了操作人员对成像声纳硬件设备的依赖性。目前,神经网络的研究取得了显著的进展,它与计算机技术和信号处理技术相结合,使声纳数据模拟智能化。
传统的图像仿真技术对操作人员的理论知识要求很高。仿真模型在复杂环境下需要考虑仿真精度和仿真计算效率之间的矛盾,导致声纳图像分布不全面,模型的智能化程度较低。随着计算机硬件计算能力的快速提高和超级计算机的大规模应用,深度学习方法得到了迅速发展,并在医学、雷达、声纳等领域的计算机视觉任务中得到了应用。
例如,卷积神经网络(CNN)已经被应用到静态医学图像和雷达图像的分析和特征提取中,并取得了很好的效果。自Goodfellow于2014年提出生成对抗网络方法(GAN)以来,已成为各领域的热门研究对象。近年来,生成对抗网络已在小范围内用于医学成像的降噪和图像仿真。在雷达领域,也提出了一种利用生成对抗网络实现的图像到图像转换技术,成功地实现了低分辨率SAR成像到高分辨率SAR成像的转换。生成对抗网络在声纳领域,已应用于水下声纳图像仿真任务,但这些方法没有融合网络结构的类别条件信息,并且忽略了像素之间的相关性和渠道,导致生成的声纳图像可控性差,保真度低。
生成对抗网络方法最早由Goodfellow在2014年提出,随后研究者从网络结构、损失函数等方向对传统生成对抗网络进行了改进,实现了从噪声到图像的转换。这些方法使用的卷积神经网络结构在卷积操作过程中具有有限的接受域,不能提取出远处像素之间的相关性,也忽略了通道之间的相关性。以往的研究方法没有同时考虑到这些问题。
由于声纳数据环境的特殊性,声纳图像中的目标经常受到背景噪声的干扰。相对于图像背景中的其他像素,我们更关注图像中的声纳目标像素。卷积运算受接收域的限制,不能很好地提取图像的结构特征。注意机制可以更好地计算不同位置之间的关联度。为了提高复杂环境下声纳数据仿真的效率和逼真度,并更好地解决传统声纳数据仿真技术中仿真图像的低智能化、低保真度的问题,本发明提出基于条件双分支注意力生成对抗网络的鲁棒声纳图像生成方法。
发明内容
为了解决上述技术问题,本发明提出了一种基于条件双分支注意力生成对抗网络的鲁棒声纳图像生成方法。
本发明的具体步骤如下:
步骤1、获取原始声呐图像,并在原始声呐图像中加入随机噪声Z。
步骤2、设置条件信息标签L,并将条件信息标签L与随机噪声Z融合,得到输入向量C。
步骤3、仿真声纳图像的生成。
3-1.将输入向量C经过两个反卷积层后生成特征图,通道级注意力机制层利用该特征图降维得到特征矩阵;再将特征矩阵转换后得到通道级权值矩阵;利用通道级权值矩阵和特征矩阵想成得到通道级注意力机制层的输出结果。
3-2.通过像素级注意力机制层将通道级注意力机制层的输出结果转换为两个降维特征矩阵和一个原始特征矩阵。利用两张降维特征图得到像素级权重矩阵。像素级权值矩阵和原始特征矩阵相乘,得到像素级注意力机制层的输出结果。该输出结果依次通过三个反卷积层,得到仿真声呐图像。
步骤4、将原始声纳图像作为真样本和步骤3得到的仿真声纳图像作为假样本,各真样本和假样本分别与条件信息标签L进行融合,并得到输入向量D。
步骤5、对仿真声呐图像进行评分。
5-1.将输入向量D经过三个卷积层后生成特征图,通道级注意力机制层利用该特征图降维得到特征矩阵;再将特征矩阵转换后得到通道级权值矩阵;利用通道级权值矩阵和特征矩阵想成得到通道级注意力机制层的输出结果。
5-2.通过像素级注意力机制层将通道级注意力机制层的输出结果转换为两个降维特征矩阵和一个原始特征矩阵。利用两张降维特征图得到像素级权重矩阵。像素级权值矩阵和原始特征矩阵相乘,得到像素级注意力机制层的输出结果。该输出结果依次通过两个卷积层,得到仿真声呐图像质量评分。
步骤6、根据步骤5中的真样本和假样本的评分情况和各假样本的评分高低进行参数优化,最终通过步骤3得到满足要求的仿真声呐图像。
作为优选,本发明采用的网络模型为基于条件双分支注意力生成对抗网络,其包括generator网络结构和discriminator网络结构。generator网络结构用于生成新的声呐图像。discriminator网络结构用于对新的声呐图像的质量进行评价,并反馈给generator网络。generator网络结构和discriminator网络结构中均包括条件信息融合模块和注意力机制模块。条件信息融合模块用于融合原始输入信号与条件信息;注意力机制模块包含了通道级注意力模块和像素级注意力模块。注意力机制模块包括通道级注意力机制层和像素级注意力机制层。
通道级注意力机制层将特征矩阵与其转置矩阵相乘,再通过softmax函数得到通道级权值矩阵;最后用通道级权值矩阵乘以初始的特征矩阵,得到通道级注意力机制层的输出结果。
像素级注意力机制层将特征图转换呈两张降维特征图和一张原始特征图;两张降维特征图重构成矩阵后相乘并通过softmax函数得到像素级权值矩阵;最后用通道级权值矩阵乘以原始特征图重构成的矩阵,得到通道级注意力机制层的输出结果。
作为优选,步骤1的具体过程如下:针对三维成像声呐采集到的原始声呐数据进行解析,得到原始声呐图像;并在原始声呐图像中加入随机噪声Z;随机噪声Z包括高斯和椒盐噪声。
作为优选,步骤2的具体过程如下:
2-1.在步骤1得到的原始声呐图像中设置条件信息标签L,并将条件信息标签L的维度转化到和随机噪音Z的维度相等。
2-2.将维度相同的随机噪音Z与条件信息标签L按元素相乘,得到输入向量C。
作为优选,步骤3-1的具体过程如下:
3-1-1.将步骤2得到的输入向量C输入两个反卷积层,得到特征图;再将所得的特征图的三个维度中的行、列维度重构转换为一个维度,得到特征矩阵;将所得的特征矩阵和其转置矩阵相乘,得到转换矩阵A。
3-1-2.将转换矩阵A输入softmax函数,得到通道级权值矩阵。
3-1-3.将步骤3-1-2得到的通道级权值矩阵乘以步骤3-1-1得到的特征矩阵,得到通道级注意力机制层的输出结果。
作为优选,步骤3-2的具体步骤如下:
3-2-1.将通道级注意力机制层的输出结果转换为两张维度降至初始维度的1/8的降维特征图和一张维度不变的原始特征图;
3-2-2.将步骤3-2-1得到的原始特征图和两张降维特征图的三个维度中的行、列维度重构转换为一个维度,得到两个降维特征矩阵和一个原始特征矩阵;将两个降维特征矩阵相乘,得到转换矩阵B。
3-2-3.对步骤3-2-2得到的转换矩阵B输入softmax函数,计算得到像素级权值矩阵。
3-2-4.将步骤3-2-3得到的像素级权值矩阵和步骤3-2-2得到的原始特征矩阵相乘,得到像素级注意力机制层的输出结果。
3-2-5.将像素级注意力机制层的输出结果依次通过三个反卷积层,得到仿真声呐图像。
作为优选,步骤3-2-1通过1×1卷积运算来获得两张降维特征图和一张原始特征图。
作为优选,步骤4的具体操作过程如下:
4-1.将原始声纳图像和仿真声纳图像均作为样本图像;将各样本图像分别平铺成一列,并将条件信息标签L的维度转化到和原始声纳图像平铺后得到的列向量维度相等。
4-2.各样本图像平铺后的列向量均与条件信息标签L按元素相乘,得到各样本图像对应的过渡向量,通过对过渡向量重构运算得到输入向量D。
作为优选,步骤5-1的具体步骤如下:
5-1-1.将步骤4得到的输入向量D输入三个卷积层,得到特征图;再将所得的特征图三个维度中的行、列维度重构转换为一个维度,得到特征矩阵;将重构后的特征矩阵和其转置矩阵相乘,得到转换矩阵E。
5-1-2.将步骤5-1-1得到的转换矩阵E输入softmax函数,得到通道级权值矩阵。
5-1-3.将步骤5-1-2得到的通道级权值矩阵乘以步骤5-1-1重构得到的特征矩阵E,得到通道级注意力机制层的输出结果。
作为优选,步骤5-2的具体步骤如下:
5-2-1.将步骤5-1-3得到的通道级注意力机制层的输出结果转换为两张维度降至初始维度的1/8的降维特征图和一张维度不变的原始特征图;
5-2-2.将步骤5-2-1得到的原始特征图和两张降维特征图的三个维度中的行、列维度重构转换为一个维度,得到两个降维特征矩阵和原始特征矩阵;将两个降维特征矩阵相乘,得到转换矩阵F。
5-2-3.对步骤5-2-2得到的转换矩阵F输入softmax函数,计算得到像素级权值矩阵。
5-2-4.将像素级权值矩阵和步骤5-2-2得到的原始特征矩阵相乘,得到像素级注意力机制层的输出结果。
5-2-5.将像素级注意力机制层的输出结果依次通过两个卷积层,得到仿真声呐图像的质量评分。
作为优选,步骤5-2-1中均通过1×1卷积运算来获得两张降维特征图和一张原始特征图。
本发明的有益效果:
1、声纳图像受到复杂水下环境的影响,存在着目标与背景重叠、难以识别等问题。本发明提出的双分支注意特征融合机制,由通道级注意模块和像素级注意模块组成。首先通过通道级注意模块计算不同通道之间的相关性,本发明中通道注意力设计更关注通道之间的关系,该方法通过softmax功能计算各通道占所有通道的比例,获得通道注意力权重矩阵的声纳图像特征,增强了特征模型的表达能力,并提高了生成的图像的保真度;然后通过像素级注意模块进一步计算目标像素与背景像素之间的相关性。该网络可以弥补原卷积运算过程中感受野有限、图像通道和结构特征提取能力不足的问题,增强声纳特征图像的结构信息。最后,通过跳层操作,进一步融合前一层和当前层的信道注意特征,提高特征的表达能力,从而提高合成声纳图像的保真度。
2、复杂环境下的声纳图像仿真,需要考虑不同类型的声纳目标和背景信息来生成特定条件下的声纳图像,使用传统条件融合方法生成的图像效果较差,存在着噪声干扰、保真度低以及结构奇怪等问题;而本发明提出的条件融合模块,在生成器和鉴别器的输入端将编码后的声纳图像的条件信息与网络的原始输入信息进行融合后再输入网络中,大大提高了生成的声纳图像的质量。
3、不同于传统声纳图像生成方法,本发明通过引入生成对抗网络技术进行声纳图像数据仿真。设计了条件信息融合模块,将编码后的声纳图像的条件信息与网络的原始输入信息进行融合,再将融合后的信息输入网络,用以生成特定条件下的声纳图像。提出了一种双分支注意特征融合机制,该机制由通道级注意模块和像素级注意模块组成,用以更好地计算不同位置之间的关联度。通过本发明的生成对抗网络模型可以弥补原卷积运算过程中感受野有限、图像通道和结构特征提取能力不足的问题,增强声纳特征图像的结构信息,提高特征的表达能力,从而提高合成声纳图像的保真度。
附图说明
图1为本发明使用的基于条件双分支注意力生成对抗网络的声纳图像生成总体流程图。
图2为本发明使用的基于条件双分支注意力生成对抗网络的结构流程图。
图3为本发明步骤3和5中的注意力机制模块的总体流程图。
图4为本发明中通道级注意力机制层的结构图。
图5为本发明中像素级注意力机制层的结构图。
图6为经过预处理过后作为输入的真实声呐图像。图6中(a)-(h)表示中船重工715研究所在南海实验做采集的海底线状及柱状目标声呐图,其中主要包括油管,掩埋雷,以及海底现状威胁设施等。
图7为本发明使用的基于条件双分支注意力生成对抗网络和其他较为优秀的生成对抗网络的生成效果对比图,可以看出本发明提出的方法生成效果明显优于其他几种网络。图7中(a)-(d)是目前较为先进的生成对抗网络生成的声纳图像,从上至下前三行图像均没有加入噪声,最底部一行的图片加入了均值为0、方差为0-041的高斯噪声。(e)所在列的图片是本发明设计的生成对抗网络仿真出的声纳图像,明显优于其他几种生成对抗网络。
具体实施方式
下面结合具体实施例对本发明做进一步的实施分析。
一种基于条件双分支注意力机制的鲁棒声纳图像生成方法,采用的网络模型为基于条件双分支注意力生成对抗网络,其包括generator网络结构和discriminator网络结构。generator网络结构用于生成新的声呐图像。discriminator网络结构用于对新的声呐图像的质量进行评价,并反馈给generator网络,从而优化generator网络。generator网络结构和discriminator网络结构中均包括条件信息融合模块和注意力机制模块。条件信息融合模块用于融合原始输入信号与条件信息;注意力机制模块包含了通道级注意力模块和像素级注意力模块,用于计算各通道以及像素的相关性。注意力机制模块包括通道级注意力机制层和像素级注意力机制层。通道级注意力机制层的结构如图4所示;像素级注意力机制层的结构如图5所示。
在generator网络结构中,条件信息融合模块与注意力机制模块之间设置有串联的两个反卷积层,注意力机制模块与用于输出的全连接层之间设置有串联的三个反卷积层。在discriminator网络结构中,条件信息融合模块与注意力机制模块之间设置有串联的三个卷积层,注意力机制模块与用于输出的全连接层之间设置有串联的两个卷积层。
如图1和2所示,一种基于条件双分支注意力机制的鲁棒声纳图像生成方法,具体步骤如下:
步骤1、三维成像声呐数据预处理
针对三维成像声呐采集到的声呐数据,通过特定协议格式,使用MATLAB软件编写批量解析程序,从原始声呐数据中解析出原始声呐图像;从原始声呐数据中解析出声呐图像属于现有成熟技术,故不详解。在所得的原始声呐图像添加随机噪声Z;随机噪声Z包括高斯和椒盐噪声,使得声呐图像更符合真实采集得到的形式,从而提高本发明生成的图像的质量,并证明本发明提供的方法的有效性。
步骤2、如图2所示,在原始声呐图像中设置标签,并根据标签和随机噪声生成用于输入generator网络结构的注意力机制模块的输入向量C。在generator网络结构中,条件信息融合模块位于网络的输入端;随机噪音Z作为原始输入信息,融合的具体过程是:
2-1.在步骤1得到的原始声呐图像中设置条件信息标签L,并通过嵌入操作将条件信息标签L的维度转化到和随机噪音Z的维度相等。条件信息标签L对应原始声呐图像上的目标。
2-2.原始步骤1输入的随机噪音Z和转换维度后的条件信息标签L按元素相乘,得到输入向量C。
步骤3、声纳图像的生成;如图2和3所示,本发明中该步骤提出一种双分支注意特征融合机制,依次完成通道级和像素级的注意操作,分别建立像素级和通道级的权值矩阵,从而更好地生成声呐图像:
3-1.首先通过通道级注意模块计算不同通道之间的相关性,经过卷积层的特征图作为输入,具体过程如下:
3-1-1.将步骤2得到的输入向量C输入两个反卷积层,得到特征图;再将所得的特征图的三个维度中的行、列维度重构转换为一个维度,得到特征矩阵;将重构后的特征矩阵和其转置矩阵相乘,得到转换矩阵A。
3-1-2.在通道级注意力机制层中,将步骤3-1-1得到的转换矩阵A输入softmax函数,得到通道级权值矩阵。
3-1-3.将通道级权值矩阵乘以步骤3-1-1重构得到的特征矩阵,得到通道级注意力机制层的输出结果。该输出结果是通过添加输入特征映射得到的特征图。
3-2.通过像素级注意力机制层计算目标像素与背景像素之间的相关性,经过通道注意力操作后的特征图作为输入,具体过程如下:
3-2-1.对通道级注意力机制层的输出结果进行1×1卷积运算,分别得到两张通道维度降为初始维度的1/8的降维特征图和一张维度不变的原始特征图;
3-2-2.将步骤3-2-1得到的原始特征图和两张降维特征图的三个维度中的行、列维度重构转换为一个维度,得到通道维度降为初始维度的1/8的两个降维特征矩阵和通道维度与初始维度相同的原始特征矩阵;将两个降维特征矩阵相乘,得到转换矩阵B。
3-2-3.对步骤3-2-2得到的转换矩阵B输入softmax函数,计算得到像素级权值矩阵。
3-2-4.将像素级权值矩阵和步骤3-2-2得到的原始特征矩阵相乘,得到像素级注意力机制层的输出结果,该输出结果是通过添加输入特征映射得到的特征图。
3-2-5.将像素级注意力机制层的输出结果依次通过三个反卷积层,得到模拟出的仿真声呐图像。
步骤4、如图2所示,在discriminator网络结构中,条件信息融合模块位于discriminator网络的输入端;将步骤1预处理得到的原始声纳图像作为真样本和步骤3得到的仿真声纳图像作为假样本;真样本和假样本同时作为原始输入信息,与步骤2中设置的条件信息标签L进行融合,融合的具体过程是:
4-1.通过Flatten操作将原始声纳图像平铺成一列,维度为图像中所有元素的个数,并通过嵌入操作将条件信息标签L的维度转化到和原始声纳图像平铺后得到的列向量维度相等。
4-2.将原始声呐图像平铺后的列向量和转换维度后的条件信息标签L按元素相乘,得到过渡向量,通过对该过渡向量进一步的重构运算得到discriminator网络的输入向量D(维度和步骤4-1所得的列向量相同)。
步骤5、利用discriminator网络对仿真声呐图像进行评分,如图2所示。
5-1.首先通过通道级注意模块计算不同通道之间的相关性,经过卷积层的特征图作为输入,具体过程如下:
5-1-1.将步骤4得到的输入向量D输入discriminator网络中的三个卷积层,得到特征图;再将所得的特征图三个维度中的行、列维度重构转换为一个维度,得到特征矩阵;将重构后的特征矩阵和其转置矩阵相乘,得到转换矩阵E。
5-1-2.在通道级注意力机制层中,将步骤5-1-1得到的转换矩阵E输入softmax函数,得到通道级权值矩阵。
5-1-3.将步骤5-1-2得到的通道级权值矩阵乘以步骤5-1-1重构得到的特征矩阵E,得到通道级注意力机制层的输出结果。该输出结果是通过添加输入特征映射得到的特征图。
5-2.通过像素级注意力机制层计算目标像素与背景像素之间的相关性,经过通道注意力操作后的特征图作为输入,具体过程如下:
5-2-1.对步骤5-1-3得到的通道级注意力机制层的输出结果进行1×1卷积运算,分别得到两张通道维度降为初始维度的1/8的降维特征图和一张维度不变的原始特征图;
5-2-2.将步骤5-2-1得到的原始特征图和两张降维特征图的三个维度中的行、列维度重构转换为一个维度,得到通道维度降为初始维度的1/8的两个降维特征矩阵和通道维度与初始维度相同的原始特征矩阵;将两个降维特征矩阵相乘,得到转换矩阵F。
5-2-3.对步骤5-2-2得到的转换矩阵F输入softmax函数,计算得到像素级权值矩阵。
5-2-4.将像素级权值矩阵和步骤5-2-2得到的原始特征矩阵相乘,得到像素级注意力机制层的输出结果,该输出结果是通过添加输入特征映射得到的特征图。
5-2-5.将像素级注意力机制层的输出结果依次通过两个卷积层,得到仿真声呐图像的质量评分。
步骤6、根据discriminator网络得到的质量评分优化generator网络的参数;根据真样本与假样本在discriminator网络中的评分高低来优化discriminator网络的参数;进而能够通过不断循环训练更新参数,最终由generator网络输出符合真实声呐图像分布的仿真声呐图像。
根据上述技术方案,声呐数据经过步骤1的预处理得到训练用的声呐图像,经过条件信息融合后输入到条件双分支注意力生成对抗网络模型进行训练,最终保存训练完成的模型,从而可以长久使用。最后利用现有的FID评价指标对训练好的网络生成的声纳图像逼真度进行评判。
其中条件双分支注意力生成对抗网络模型训练的具体过程如下:
1.通过在声纳数据集上测试及验证,设计并搭建了条件双分支注意力生成对抗网络。条件信息融合模块将噪声与不同类别的已编码条件信息进行融合,然后将融合后的信息发送给Generator网络。Generator主网络由多个反卷积模块和一个双分支注意特征融合模块组成。反卷积模块生成的特征图由双分支注意力特征融合模块处理后传递给下一个反卷积模块。双分支注意特征融合模块通过两种不同的注意力计算结合跳层操作完成特征级融合操作。条件信息融合模块将图像信息与类别信息融合并传输到Discriminator网络。Discriminator主网络由多个卷积模块和一个双分支注意特征融合模块组成,试图完成真、假分布的差异测量。图3为通道级和像素级注意力机制总体流程图;图4为通道级注意力机制结构流程图;图5为像素级注意力机制结构流程图。
2.初始化Generator网络和Discriminator网络的参数后,从训练集抽取n个样本,以及生成器利用定义的噪声分布生成n个样本。固定生成器Generator,训练辨别器Discriminator,使其尽可能区分真假。循环更新k次辨别器Discriminator之后,更新1次生成器Generator,使辨别器尽可能区分不了真假。多次更新迭代后,理想状态下,最终辨别器Discriminator无法区分图片到底是来自真实的训练样本集合,还是来自生成器Generator生成的样本即可,此时辨别的概率为0-5,完成训练。此过程属于现有成熟技术,故不做详解。
图6中的(a)-(h)部分为经过预处理过后作为输入的原始声呐图像,其来自中船重工715研究所在南海实验做采集的海底线装及柱状目标声呐图;其中主要包括油管,掩埋雷,以及海底现状威胁设施等目标。
图7为现有技术和本发明基于原始声呐图像生成的仿真声呐图像的生成效果对比图,图7中(a)-(d)所在列是目前较为先进的生成对抗网络生成的声纳图像(分别为DCGAN方法:在生成器和判别器特征提取层用卷积神经网络代替了原始GAN中的多层感知机,该方法生成的声纳图像不够清晰,受噪声影响较大;WGAN方法:在DCGAN的基础上增加了EM距离评价标准,可以更好地衡量真实和虚假分布的差异,生成的图像清晰度优于DCGAN,但对图像细节的处理能力不强;SAGAN方法:通过引入自我注意机制来增强像素之间的相关性,但随着噪声强度的增加,模型的训练能力受到噪声干扰问题的限制,缺少一些细节;With-CAM方法:通过计算通道级的自我注意度来获得通道间的权值矩阵,加强了通道间的连接,相较于WGAN提高了生成图像的质量,但同时也存在噪声干扰下模型训练不良的问题),图7中的(e)部分所在列的图片是本发明生成的仿真声纳图像。此外,图7中从上至下前三行图像均没有加入噪声,最底部一行的图片加入了均值为0、方差为0-041的高斯噪声。可以看出,本发明生成的仿真声呐图像明显优于其他几种生成方法。
Claims (10)
1.一种基于条件双分支注意力机制的鲁棒声纳图像生成方法,其特征在于:步骤1、获取原始声呐图像,并在原始声呐图像中加入随机噪声Z;
步骤2、设置条件信息标签L,并将条件信息标签L与随机噪声Z融合,得到输入向量C;
步骤3、仿真声纳图像的生成;
3-1.将输入向量C经过两个反卷积层后生成特征图,通道级注意力机制层利用该特征图降维得到特征矩阵;再将特征矩阵转换后得到通道级权值矩阵;利用通道级权值矩阵和特征矩阵想成得到通道级注意力机制层的输出结果;
3-2.通过像素级注意力机制层将通道级注意力机制层的输出结果转换为两个降维特征矩阵和一个原始特征矩阵;利用两张降维特征图得到像素级权重矩阵;像素级权值矩阵和原始特征矩阵相乘,得到像素级注意力机制层的输出结果;该输出结果依次通过三个反卷积层,得到仿真声呐图像;
步骤4、将原始声纳图像作为真样本和步骤3得到的仿真声纳图像作为假样本,各真样本和假样本分别与条件信息标签L进行融合,并得到输入向量D;
步骤5、对仿真声呐图像进行评分;
5-1.将输入向量D经过三个卷积层后生成特征图,通道级注意力机制层利用该特征图降维得到特征矩阵;再将特征矩阵转换后得到通道级权值矩阵;利用通道级权值矩阵和特征矩阵想成得到通道级注意力机制层的输出结果;
5-2.通过像素级注意力机制层将通道级注意力机制层的输出结果转换为两个降维特征矩阵和一个原始特征矩阵;利用两张降维特征图得到像素级权重矩阵;像素级权值矩阵和原始特征矩阵相乘,得到像素级注意力机制层的输出结果;该输出结果依次通过两个卷积层,得到仿真声呐图像质量评分;
步骤6、根据步骤5中的真样本和假样本的评分情况和各假样本的评分高低进行参数优化,最终通过步骤3得到满足要求的仿真声呐图像。
2.根据权利要求1所述的一种基于条件双分支注意力机制的鲁棒声纳图像生成方法,其特征在于:采用的网络模型为基于条件双分支注意力生成对抗网络,其包括generator网络结构和discriminator网络结构;generator网络结构用于生成新的声呐图像;discriminator 网络结构用于对新的声呐图像的质量进行评价,并反馈给generator网络;generator网络结构和discriminator网络结构中均包括条件信息融合模块和注意力机制模块;条件信息融合模块用于融合原始输入信号与条件信息;注意力机制模块包含了通道级注意力模块和像素级注意力模块;注意力机制模块包括通道级注意力机制层和像素级注意力机制层;
通道级注意力机制层将特征矩阵与其转置矩阵相乘,再通过softmax函数得到通道级权值矩阵;最后用通道级权值矩阵乘以初始的特征矩阵,得到通道级注意力机制层的输出结果;
像素级注意力机制层将特征图转换呈两张降维特征图和一张原始特征图;两张降维特征图重构成矩阵后相乘并通过softmax函数得到像素级权值矩阵;最后用通道级权值矩阵乘以原始特征图重构成的矩阵,得到通道级注意力机制层的输出结果。
3.根据权利要求1所述的一种基于条件双分支注意力机制的鲁棒声纳图像生成方法,其特征在于:步骤1的具体过程如下:针对三维成像声呐采集到的原始声呐数据进行解析,得到原始声呐图像;并在原始声呐图像中加入随机噪声Z;随机噪声Z包括高斯和椒盐噪声。
4.根据权利要求1所述的一种基于条件双分支注意力机制的鲁棒声纳图像生成方法,其特征在于:步骤2的具体过程如下:
2-1.在步骤1得到的原始声呐图像中设置条件信息标签L,并将条件信息标签L的维度转化到和随机噪音Z的维度相等;
2-2.将维度相同的随机噪音Z与条件信息标签L按元素相乘,得到输入向量C。
5.根据权利要求1所述的一种基于条件双分支注意力机制的鲁棒声纳图像生成方法,其特征在于:步骤3-1的具体过程如下:
3-1-1.将步骤2得到的输入向量C输入两个反卷积层,得到特征图;再将所得的特征图的三个维度中的行、列维度重构转换为一个维度,得到特征矩阵;将所得的特征矩阵和其转置矩阵相乘,得到转换矩阵A;
3-1-2.将转换矩阵A输入softmax函数,得到通道级权值矩阵;
3-1-3.将步骤3-1-2得到的通道级权值矩阵乘以步骤3-1-1得到的特征矩阵,得到通道级注意力机制层的输出结果。
6.根据权利要求1所述的一种基于条件双分支注意力机制的鲁棒声纳图像生成方法,其特征在于:步骤3-2的具体步骤如下:
3-2-1.将通道级注意力机制层的输出结果转换为两张维度降至初始维度的1/8的降维特征图和一张维度不变的原始特征图;
3-2-2.将步骤3-2-1得到的原始特征图和两张降维特征图的三个维度中的行、列维度重构转换为一个维度,得到两个降维特征矩阵和一个原始特征矩阵;将两个降维特征矩阵相乘,得到转换矩阵B;
3-2-3.对步骤3-2-2得到的转换矩阵B输入softmax函数,计算得到像素级权值矩阵;
3-2-4.将步骤3-2-3得到的像素级权值矩阵和步骤3-2-2得到的原始特征矩阵相乘,得到像素级注意力机制层的输出结果;
3-2-5.将像素级注意力机制层的输出结果依次通过三个反卷积层,得到仿真声呐图像。
7.根据权利要求6所述的一种基于条件双分支注意力机制的鲁棒声纳图像生成方法,其特征在于:步骤3-2-1通过1×1卷积运算来获得两张降维特征图和一张原始特征图。
8.根据权利要求1所述的一种基于条件双分支注意力机制的鲁棒声纳图像生成方法,其特征在于:步骤4的具体操作过程如下:
4-1.将原始声纳图像和仿真声纳图像均作为样本图像;将各样本图像分别平铺成一列,并将条件信息标签L的维度转化到和原始声纳图像平铺后得到的列向量维度相等;
4-2.各样本图像平铺后的列向量均与条件信息标签L按元素相乘,得到各样本图像对应的过渡向量,通过对过渡向量重构运算得到输入向量D。
9.根据权利要求1所述的一种基于条件双分支注意力机制的鲁棒声纳图像生成方法,其特征在于:步骤5-1的具体步骤如下:
5-1-1.将步骤4得到的输入向量D输入三个卷积层,得到特征图;再将所得的特征图三个维度中的行、列维度重构转换为一个维度,得到特征矩阵;将重构后的特征矩阵和其转置矩阵相乘,得到转换矩阵E;
5-1-2.将步骤5-1-1得到的转换矩阵E输入softmax函数,得到通道级权值矩阵;
5-1-3.将步骤5-1-2得到的通道级权值矩阵乘以步骤5-1-1重构得到的特征矩阵E,得到通道级注意力机制层的输出结果。
10.根据权利要求1所述的一种基于条件双分支注意力机制的鲁棒声纳图像生成方法,其特征在于:步骤5-2的具体步骤如下:
5-2-1.将步骤5-1-3得到的通道级注意力机制层的输出结果转换为两张维度降至初始维度的1/8的降维特征图和一张维度不变的原始特征图;
5-2-2.将步骤5-2-1得到的原始特征图和两张降维特征图的三个维度中的行、列维度重构转换为一个维度,得到两个降维特征矩阵和原始特征矩阵;将两个降维特征矩阵相乘,得到转换矩阵F;
5-2-3.对步骤5-2-2得到的转换矩阵F输入softmax函数,计算得到像素级权值矩阵;
5-2-4.将像素级权值矩阵和步骤5-2-2得到的原始特征矩阵相乘,得到像素级注意力机制层的输出结果;
5-2-5.将像素级注意力机制层的输出结果依次通过两个卷积层,得到仿真声呐图像的质量评分。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110257704.7A CN113139573A (zh) | 2021-03-09 | 2021-03-09 | 一种基于条件双分支注意力机制的鲁棒声纳图像生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110257704.7A CN113139573A (zh) | 2021-03-09 | 2021-03-09 | 一种基于条件双分支注意力机制的鲁棒声纳图像生成方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113139573A true CN113139573A (zh) | 2021-07-20 |
Family
ID=76811246
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110257704.7A Pending CN113139573A (zh) | 2021-03-09 | 2021-03-09 | 一种基于条件双分支注意力机制的鲁棒声纳图像生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113139573A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113886992A (zh) * | 2021-10-21 | 2022-01-04 | 大连理工大学 | 一种基于多保真度数据的数字孪生建模方法 |
WO2023169508A1 (en) * | 2022-03-09 | 2023-09-14 | Nvidia Corporation | Robust vision transformers |
-
2021
- 2021-03-09 CN CN202110257704.7A patent/CN113139573A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113886992A (zh) * | 2021-10-21 | 2022-01-04 | 大连理工大学 | 一种基于多保真度数据的数字孪生建模方法 |
CN113886992B (zh) * | 2021-10-21 | 2024-05-07 | 大连理工大学 | 一种基于多保真度数据的数字孪生建模方法 |
WO2023169508A1 (en) * | 2022-03-09 | 2023-09-14 | Nvidia Corporation | Robust vision transformers |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113298818B (zh) | 基于注意力机制与多尺度特征的遥感图像建筑物分割方法 | |
CN113139573A (zh) | 一种基于条件双分支注意力机制的鲁棒声纳图像生成方法 | |
CN113792641A (zh) | 一种结合多谱注意力机制的高分辨率轻量级的人体姿态估计方法 | |
CN115713679A (zh) | 基于多源信息融合、热红外和三维深度图的目标检测方法 | |
CN115359372A (zh) | 一种基于光流网络的无人机视频运动目标检测方法 | |
CN115410081A (zh) | 一种多尺度聚合的云和云阴影辨识方法、系统、设备及存储介质 | |
CN112560865A (zh) | 一种室外大场景下点云的语义分割方法 | |
CN112149526A (zh) | 一种基于长距离信息融合的车道线检测方法及系统 | |
CN116665148A (zh) | 基于合成孔径雷达数据的海上船舶检测方法 | |
CN115861756A (zh) | 基于级联组合网络的大地背景小目标识别方法 | |
CN116309348A (zh) | 一种基于改进TransUnet网络的月球南极撞击坑检测方法 | |
Sun et al. | IRDCLNet: Instance segmentation of ship images based on interference reduction and dynamic contour learning in foggy scenes | |
CN113222824B (zh) | 一种红外图像超分辨率及小目标检测方法 | |
Xi et al. | A multilevel-guided curriculum domain adaptation approach to semantic segmentation for high-resolution remote sensing images | |
Patil et al. | Semantic Segmentation of Satellite Images using Modified U-Net | |
CN112597956B (zh) | 基于人体锚点集合与感知增强网络的多人姿态估计方法 | |
CN113988164A (zh) | 一种面向代表点自注意力机制的轻量级点云目标检测方法 | |
CN116659516B (zh) | 基于双目视差机制的深度立体注意力视觉导航方法及装置 | |
CN117475145A (zh) | 融合多重注意力机制的多尺度遥感影像语义分割方法及系统 | |
Ni et al. | Edge Guidance Network for Semantic Segmentation of High Resolution Remote Sensing Images | |
CN116863241A (zh) | 一种道路场景下基于计算机视觉的端到端语义鸟瞰图生成方法、模型及设备 | |
CN116863285A (zh) | 多尺度生成对抗网络的红外与可见光图像融合方法 | |
CN115080903B (zh) | 一种基于智能优化算法的海上多目标多模态匹配融合方法 | |
CN115984443A (zh) | 一种可见光相机的空间卫星目标图像仿真方法 | |
CN115482463A (zh) | 一种生成对抗网络矿区土地覆盖识别方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |