CN116129117B - 基于多头注意力的声呐小目标半监督语义分割方法及系统 - Google Patents

基于多头注意力的声呐小目标半监督语义分割方法及系统 Download PDF

Info

Publication number
CN116129117B
CN116129117B CN202310054506.XA CN202310054506A CN116129117B CN 116129117 B CN116129117 B CN 116129117B CN 202310054506 A CN202310054506 A CN 202310054506A CN 116129117 B CN116129117 B CN 116129117B
Authority
CN
China
Prior art keywords
matrix
sonar
semantic segmentation
semi
loss function
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310054506.XA
Other languages
English (en)
Other versions
CN116129117A (zh
Inventor
范越
唐劲松
张智圣
张鹏
张国平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Naval University of Engineering PLA
Original Assignee
Naval University of Engineering PLA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Naval University of Engineering PLA filed Critical Naval University of Engineering PLA
Priority to CN202310054506.XA priority Critical patent/CN116129117B/zh
Publication of CN116129117A publication Critical patent/CN116129117A/zh
Application granted granted Critical
Publication of CN116129117B publication Critical patent/CN116129117B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Image Analysis (AREA)
  • Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)

Abstract

本发明公开了一种基于多头注意力的声呐小目标半监督语义分割方法及系统,其方法包括:获取声呐小目标数据集;将多头注意力机制引入循环生成对抗网络中,并将引入后的循环生成对抗网络应用于半监督语义分割网络模型中;基于半监督语义分割网络模型对所述声呐小目标数据集进行分割;因此可将声呐小目标分割出来,并提升对声呐小目标的半监督语义分割效果的鲁棒性。

Description

基于多头注意力的声呐小目标半监督语义分割方法及系统
技术领域
本发明涉及声呐图像领域,具体是涉及一种基于多头注意力的声呐小目标半监督语义分割方法及系统。
背景技术
水下目标通常很小并且在声呐图像中的位置不确定,因此对声呐图像准确的语义分割结果可以帮助识别和追踪水下移动的小目标。
近年来,深度学习已经被广泛使用于声学图像处理,相较于传统的基于统计学理论的方法,深度学习方法取得了更为出色的表现。在相关现有技术中,有的技术将传统的马尔科夫随机场模型(MRF)与卷积神经网络(CNN)相结合,并用于侧扫声呐图像的分割,但是由于算法在大量迭代中耗时较长,因此该方法并不满足实时性的需求。有的技术将最先进的网络结构,比如YOLO v3-SPP、 SegNet 以及 U-Net,部署到前视多波束声呐,用于提升潜水员的跟踪效果以及海底的跟踪效果,但是这种方法需要依赖于大量的训练数据。有的技术尝试设计一种小型的网络,并且结合迁移学习,用于适应缺乏训练数据的情况,但这种方法以牺牲语义分割精度为代价,避免了过拟合。
有监督的语义分割方法依赖于大量的像素级标注数据,这是一件费时且需要专业领域知识的工作,因此半监督学习的方法是解决这一难题的重要研究领域;现有的许多半监督学习算法有一个重要的假设:结构假设,结构假设指出,拥有相同结构的样本可能会有相同的语义分割结果,但是由于投影成像原理,同一类别的声呐目标之间形状差距很大,这导致了一些未标注的样本并不满足结构假设。
针对上述问题,近年来出现了许多全新的半监督语义分割网络结构,有的技术提出了BAS4Net网络结构来解决复杂场景下、遥感图像中存在的边缘模糊问题。有的技术提出了一种多尺度的生成对抗网络结构,来提取遥感图像中小目标的关键特征。有的技术设计了DNetUnet,它将具备不同下采样级别的U-Net网络与密集模块相结合,用于提取更准确的大型医学图像中的图像特征。然而,上述方法都是为遥感图像与医学图像设计的,由于存在多径效应,混响噪声以及缺乏像素信息等问题,上述方法在声学小目标数据集上的半监督语义分割效果也不佳。
因此,由于声呐图像中的目标通常包含的像素信息很少,并且大小、形状、位置各不相同,这意味着声呐目标不满足现有的许多半监督学习算法的基础-结构假设;此外,声呐小目标通常具有与背景相似的亮度和形状,这导致声呐小目标难以被分割。
发明内容
本发明的目的是为了克服上述背景技术的不足,提供一种基于多头注意力的声呐小目标半监督语义分割方法及系统,将多头自注意力机制结合到循环生成对抗网络CycleGAN中,使得网络能更好地建立图像中远距离的图像特征间的依赖联系,将声呐小目标分割出来。
第一方面,提供一种基于多头注意力的声呐小目标半监督语义分割方法,包括以下步骤:
获取声呐小目标数据集;
将多头注意力机制引入循环生成对抗网络中,并将引入后的循环生成对抗网络应用于半监督语义分割网络模型中;
基于半监督语义分割网络模型对所述声呐小目标数据集进行分割。
根据第一方面,在第一方面的第一种可能的实现方式中,所述将多头注意力机制引入循环生成对抗网络中步骤,包括以下步骤:
根据声呐小目标数据集中的输入图像张量
Figure SMS_1
将所述输入图像张量展开为矩阵
Figure SMS_2
将输入图像张量中的每一个像素点
Figure SMS_3
分别通过查询向量参数矩阵/>
Figure SMS_4
、键向量参数矩阵/>
Figure SMS_5
、值向量参数矩阵/>
Figure SMS_6
线性映射至三个不同空间,对应获取查询向量/>
Figure SMS_7
、键向量/>
Figure SMS_8
、值向量/>
Figure SMS_9
根据所述查询向量、所述键向量及所述值向量,对应构建矩阵如下:
查询矩阵
Figure SMS_10
键矩阵
Figure SMS_11
值矩阵
Figure SMS_12
将查询矩阵Q和键矩阵K进行矩阵处理,获取注意力打分函数A:
根据所述注意力打分函数与所述值矩阵,获取单头注意力在循环生成对抗网络中的输出
Figure SMS_14
Figure SMS_15
设多头注意力的个数为N,根据单头注意力的输出结果,获取多头注意力在循环生成对抗网络中的输出
Figure SMS_16
Figure SMS_17
式中,
Figure SMS_19
为高度;/>
Figure SMS_20
为宽度;/>
Figure SMS_24
为通道数目;/>
Figure SMS_25
表示像素点的位置;/>
Figure SMS_26
为按列进行归一化的函数;/>
Figure SMS_27
为注意力概率;/>
Figure SMS_28
为/>
Figure SMS_18
的转置矩阵;/>
Figure SMS_21
为/>
Figure SMS_22
的转置矩阵;/>
Figure SMS_23
为线性变换矩阵。
根据第一方面,在第一方面的第二种可能的实现方式中,所述将引入后的循环生成对抗网络应用于半监督语义分割网络模型中步骤,包括以下步骤:
获取总损失函数:
Figure SMS_29
根据所述总损失函数,获取半监督语义分割网络模型:
Figure SMS_30
式中,
Figure SMS_36
为图像生成器;/>
Figure SMS_37
为标注生成器;/>
Figure SMS_38
为图像鉴别器,/>
Figure SMS_39
为标注鉴别器;/>
Figure SMS_40
为标注生成器的损失函数; />
Figure SMS_41
为图像生成器的损失函数;
Figure SMS_42
为关于标注生成器和图像生成器相关的循环损失函数;/>
Figure SMS_31
为关于标注生成器和图像生成器相关的循环损失函数;/>
Figure SMS_32
为关于标注生成器和标注鉴别器相关的鉴别器损失函数;/>
Figure SMS_33
为关于图像生成器和图像鉴别器相关的鉴别器损失函数;/>
Figure SMS_34
~/>
Figure SMS_35
分别代表各损失函数对应的权重系数;arg min 表示使总损失函数取最小值时的变量值;arg max表示使总损失函数取最大值时的变量值。
根据第一方面,在第一方面的第三种可能的实现方式中,所述基于半监督语义分割网络模型对所述声呐小目标数据集进行分割步骤,包括以下步骤:
基于谱归一化方法对半监督语义分割网络模型的生成器和鉴别器进行处理,以使循环生成对抗网络满足利普西茨收敛。
第二方面,提供一种基于多头注意力的声呐小目标半监督语义分割系统,其特征在于,包括:
数据获取模块,用于获取声呐小目标数据集;
多头注意力引入模块,与所述数据获取模块通信连接,用于根据所述声呐小目标数据集,将多头注意力机制引入循环生成对抗网络中,并将引入后的循环生成对抗网络应用于半监督语义分割网络模型中;以及,
语义分割模块,与所述多头注意力引入模块通信连接,用于基于半监督语义分割网络模型对所述声呐小目标数据集进行分割。
一些实施例中,所述多头注意力引入模块用于,
根据声呐小目标数据集中的输入图像张量
Figure SMS_43
将所述输入图像张量展开为矩阵
Figure SMS_44
将输入图像张量中的每一个像素点
Figure SMS_45
分别通过查询向量参数矩阵/>
Figure SMS_46
、键向量参数矩阵/>
Figure SMS_47
、值向量参数矩阵/>
Figure SMS_48
线性映射至三个不同空间,对应获取查询向量/>
Figure SMS_49
、键向量/>
Figure SMS_50
、值向量/>
Figure SMS_51
根据所述查询向量、所述键向量及所述值向量,对应构建矩阵如下:
查询矩阵
Figure SMS_52
键矩阵
Figure SMS_53
值矩阵
Figure SMS_54
将查询矩阵Q和键矩阵K进行矩阵处理,获取注意力打分函数A:
Figure SMS_55
根据所述注意力打分函数与所述值矩阵,获取单头注意力在循环生成对抗网络中的输出
Figure SMS_56
Figure SMS_57
设多头注意力的个数为N,根据单头注意力的输出结果,获取多头注意力在循环生成对抗网络中的输出
Figure SMS_58
Figure SMS_59
式中,
Figure SMS_61
为高度;/>
Figure SMS_65
为宽度;/>
Figure SMS_66
为通道数目;/>
Figure SMS_67
表示像素点的位置;/>
Figure SMS_68
为按列进行归一化的函数;/>
Figure SMS_69
为注意力概率;/>
Figure SMS_70
为/>
Figure SMS_60
的转置矩阵;/>
Figure SMS_62
为/>
Figure SMS_63
的转置矩阵;/>
Figure SMS_64
为线性变换矩阵。
一些实施例中,所述多头注意力引入模块用于,
获取总损失函数:
Figure SMS_71
根据所述总损失函数,获取半监督语义分割网络模型:
Figure SMS_72
式中,
Figure SMS_74
为图像生成器;/>
Figure SMS_76
为标注生成器;/>
Figure SMS_78
为图像鉴别器,/>
Figure SMS_81
为标注鉴别器;/>
Figure SMS_82
为标注生成器的损失函数; />
Figure SMS_83
为图像生成器的损失函数;
Figure SMS_84
为关于标注生成器和图像生成器相关的循环损失函数;/>
Figure SMS_73
为关于标注生成器和图像生成器相关的循环损失函数;/>
Figure SMS_75
为关于标注生成器和标注鉴别器相关的鉴别器损失函数;/>
Figure SMS_77
为关于图像生成器和图像鉴别器相关的鉴别器损失函数;/>
Figure SMS_79
~/>
Figure SMS_80
分别代表各损失函数对应的权重系数;arg min 表示使总损失函数取最小值时的变量值;arg max表示使总损失函数取最大值时的变量值。
一些实施例中,所述语义分割模块,用于基于谱归一化方法对半监督语义分割网络模型的生成器和鉴别器进行处理,以使循环生成对抗网络满足利普西茨收敛。
与现有技术相比,本发明将多头自注意力机制结合到循环生成对抗网络CycleGAN中,使得网络能更好地建立图像中远距离的图像特征间的依赖联系,将声呐小目标分割出来,并提升对声呐小目标的半监督语义分割效果的鲁棒性。
附图说明
图1是本发明一实施例提供的一种基于多头注意力的声呐小目标半监督语义分割方法的流程示意图;
图2是本发明与现有技术的一对比语义分割结果示意图;
图3是多头注意力机制引入循环生成对抗网络中的示意图;
图4是循环生成对抗网络第四层的每个注意力头的注意力中心在训练过程中的变化示意图;
图5是半监督语义分割网络模型的结构示意图;
图6是生成器的网络结构模型示意图;
图7是鉴别器的网络结构模型示意图;
图8是本发明一实施例提供的一种基于多头注意力的声呐小目标半监督语义分割系统的结构示意图。
附图标号
100、基于多头注意力的声呐小目标半监督语义分割系统;110、数据获取模块;120、多头注意力引入模块;130、语义分割模块。
具体实施方式
现在将详细参照本发明的具体实施例,在附图中例示了本发明的例子。尽管将结合具体实施例描述本发明,但将理解,不是想要将本发明限于所述的实施例。相反,想要覆盖由所附权利要求限定的在本发明的精神和范围内包括的变更、修改和等价物。应注意,这里描述的方法步骤都可以由任何功能块或功能布置来实现,且任何功能块或功能布置可被实现为物理实体或逻辑实体、或者两者的组合。
为了使本领域技术人员更好地理解本发明,下面结合附图和具体实施方式对本发明作进一步详细说明。
注意:接下来要介绍的示例仅是一个具体的例子,而不作为限制本发明的实施例必须为如下具体的步骤、数值、条件、数据、顺序等等。本领域技术人员可以通过阅读本说明书来运用本发明的构思来构造本说明书中未提到的更多实施例。
参见图1所示,本发明实施例提供一种基于多头注意力的声呐小目标半监督语义分割方法,包括以下步骤:
S100,获取声呐小目标数据集;
声呐小目标图像数据集SCTD包含800张声呐小目标图像,所有图像都像素值都是320×320,每个像素点占据9.6bit;
S200,将多头注意力机制引入循环生成对抗网络中,并将引入后的循环生成对抗网络应用于半监督语义分割网络模型中;
S300,基于半监督语义分割网络模型对所述声呐小目标数据集进行分割。
具体的,本实施例中,由于声呐图像中的目标通常包含的像素信息很少,并且大小、形状、位置各不相同,这意味着声呐目标不满足现有的许多半监督学习算法的基础-结构假设;此外,声呐小目标通常具有与背景相似的亮度和形状,这导致声呐小目标难以被分割;在现有的相关技术中,半监督语义分割方法在声呐小目标数据集SCTD上的分割效果较差,为了解决这一问题,本发明将多头自注意力机制结合到循环生成对抗网络CycleGAN中,使得网络能更好地建立图像中远距离的图像特征间的依赖联系,将声呐小目标分割出来,并提升对声呐小目标的半监督语义分割效果的鲁棒性。
参见图2所示,(a)和(b)分别是一张来自于SCTD数据集中的声呐图像和对应的人工标注,(c)、(d)和(e)展示了现有技术中提出的半监督语义分割方法的分割结果。(f)是本发明提出的方法的分割结果,显然它更准确地分割出了目标的形状,并且将每个像素点都分到了准确的类别。
参见图3所示,优选地,在本申请另外的实施例中,所述S200,将多头注意力机制引入循环生成对抗网络中步骤,包括以下步骤:
根据声呐小目标数据集中的输入图像张量
Figure SMS_85
将所述输入图像张量展开为矩阵
Figure SMS_86
将输入图像张量中的每一个像素点
Figure SMS_87
分别通过查询向量参数矩阵
Figure SMS_88
、键向量参数矩阵/>
Figure SMS_89
、值向量参数矩阵/>
Figure SMS_90
线性映射至三个不同空间,对应获取查询向量/>
Figure SMS_91
、键向量/>
Figure SMS_92
、值向量/>
Figure SMS_93
根据所述查询向量、所述键向量及所述值向量,对应构建矩阵如下:
查询矩阵
Figure SMS_94
键矩阵
Figure SMS_95
值矩阵
Figure SMS_96
将查询矩阵Q和键矩阵K进行矩阵处理,获取注意力打分函数A:
Figure SMS_97
根据所述注意力打分函数与所述值矩阵,获取单头注意力在循环生成对抗网络中的输出
Figure SMS_98
Figure SMS_99
设多头注意力的个数为N,根据单头注意力的输出结果,获取多头注意力在循环生成对抗网络中的输出
Figure SMS_100
Figure SMS_101
式中,
Figure SMS_102
为高度;/>
Figure SMS_107
为宽度;/>
Figure SMS_108
为通道数目;/>
Figure SMS_109
表示像素点的位置;/>
Figure SMS_110
为按列进行归一化的函数;/>
Figure SMS_111
为注意力概率;/>
Figure SMS_112
为/>
Figure SMS_103
的转置矩阵;/>
Figure SMS_104
为/>
Figure SMS_105
的转置矩阵;/>
Figure SMS_106
为线性变换矩阵。
具体的,本实施例中,单头注意力机制的原理可以完全替代卷积层的作用,并且在各类视觉任务中取得了最先进的效果,当应用于生成对抗网络中时,网络会通过训练学习如何根据颜色和纹理的相似性来分配注意力。而本发明将多头自注意机制引入CycleGAN中,来防止自注意力机制应用于半监督任务时会出现的注意力分散问题。
为了进一步描述多头注意力机制的作用,图4展示在半监督语义分割网络的训练过程中,分割网络第四层的多注意头的位置是如何变化的,注意力头的个数分别为1,3,9;其中,中央的黑色正方形为查询像素点,使用了基于高斯分布的区域注意力机制(GaussianNeighbor Attention),图中实心框和虚线框代表高斯值分别取50%和90%;结果显示了,经过训练后,各个头部专注于图像的特定像素,多头注意力机制相比单头注意力机制,能关注到更多的图像细节信息。
为了进一步研究多头注意力机制的作用,将其引入CycleGAN的生成器的不同阶段,实验结果表明,在生成器的深层(即,第四层和第五层之间,以及第三层和第四层之间)引入多头注意力机制取得的半监督意义分割效果要胜过在生成器浅层引入(即,第一层和第二层之间,以及第二层和第三层之间),参见如下表(一)所示:多头注意力机制部署在生成器不同阶段取得的半监督语义分割结果对比。
表(一)
Figure SMS_113
优选地,在本申请另外的实施例中,所述S200,将引入后的循环生成对抗网络应用于半监督语义分割网络模型中步骤,包括以下步骤:
获取总损失函数:
Figure SMS_114
根据所述总损失函数,获取半监督语义分割网络模型:
Figure SMS_115
式中,
Figure SMS_117
为图像生成器;/>
Figure SMS_120
为标注生成器;/>
Figure SMS_123
为图像鉴别器,/>
Figure SMS_124
为标注鉴别器;/>
Figure SMS_125
为标注生成器的损失函数; />
Figure SMS_126
为图像生成器的损失函数;
Figure SMS_127
为关于标注生成器和图像生成器相关的循环损失函数;/>
Figure SMS_116
为关于标注生成器和图像生成器相关的循环损失函数;/>
Figure SMS_118
为关于标注生成器和标注鉴别器相关的鉴别器损失函数;/>
Figure SMS_119
为关于图像生成器和图像鉴别器相关的鉴别器损失函数;/>
Figure SMS_121
~/>
Figure SMS_122
分别代表各损失函数对应的权重系数;arg min 表示使总损失函数取最小值时的变量值;arg max表示使总损失函数取最大值时的变量值。
具体的,本实施例中,参见图5所示,从语义分割的角度,可以将生成器与鉴别器分成图像生成器
Figure SMS_129
、标注生成器/>
Figure SMS_131
,图像鉴别器/>
Figure SMS_134
,标注鉴别器/>
Figure SMS_136
;此外,可以将训练数据分为被标注过的图像/>
Figure SMS_137
,未被标注过的图像/>
Figure SMS_138
,真实标注/>
Figure SMS_139
;生成器的输出可以分为生成标注/>
Figure SMS_128
和/>
Figure SMS_130
,生成图像/>
Figure SMS_132
,重建图像/>
Figure SMS_133
和重建标注
Figure SMS_135
优选地,在本申请另外的实施例中,所述S300,基于半监督语义分割网络模型对所述声呐小目标数据集进行分割步骤,包括以下步骤:
基于谱归一化方法对半监督语义分割网络模型的生成器和鉴别器进行处理,以使循环生成对抗网络满足利普西茨收敛。
具体的,本实施例中,参见图6和图7所示,图6中,为了节省显存,将输出的尺寸裁剪到了41×41;图7中是二分类语义分割任务,输入的标注的通道数为2,输入图像的通道数为3;为了稳定CycleGAN的训练,对生成器和鉴别器均使用了谱归一化方法。
生成器和鉴别器都采用了残差结构和谱归一化,即将生成器和鉴别器的输入层、残差网络层均除以对应的谱范数,具体实现时,在生成器中,将谱归一化和原始的卷积层结合,得到谱归一化卷积层;在鉴别器中则直接使用谱归一化;谱归一化能保证网络满足利普西茨收敛,有利于循环生成对抗网络CycleGAN的训练稳定。
本发明实施例提供的一种基于多头注意力的声呐小目标半监督语义分割方法,表(二)(不同的半监督语义分割方法在SCTD数据集上的分割结果对比)对比了本发明与其他最先进的方法在SCTD数据集上的半监督语义分割准确度(
Figure SMS_140
)。实验结果表明,本发明在使用各种标注程度的训练数据时,均产生了超越现有技术中最先进的半监督语义分割方法的实验结果;此外,当标注数据稀缺时候(即,使用10%和20%标注程度的训练数据的情况下),这一差距更加大,本发明大约能产生7%-8%的提升。
表(二)
Figure SMS_141
表中,AdvSemSeg是2018年发表在BMVC2018的深度对抗网络用于分割(语义分割)算法; MT-CutMix是2019年发表在BMVC2020的关于半监督学习算法;CycleGAN是发表在ICCV2017关于将GAN应用在无监督的图像到图像翻译(image-to-image translation)的算法。
为了进一步分析本发明的CycleGAN网络结构中不同组成模块的作用,进行了消融实验。表(三)(在 SCTD数据集上使用了10%标注程度的训练数据的消融实验)展示了消融实验结果,CycleGAN作为实验的基准模型,方法1指的是在CycleGAN的鉴别器中引入谱归一化;方法2指的是在CycleGAN的生成器和鉴别器中均使用谱归一化;方法3、方法4(本发明方法)分别指的是在对应方法1、方法2的基础上引入多头自注意力机制;方法5指的是在CycleGAN上单独引入多头自注意力机制。
表(三)
Figure SMS_142
实验表明:本发明的CycleGAN模型的半监督语义分割准确度(
Figure SMS_143
)为0.6814;如果我们移除了谱归一化方法,这一数值降至0.6038;但是,移除了多头自注意力机制会导致这一数值进一步降至0.5439;因此多头自注意力机制在声呐小目标半监督语义分割任务中的作用比谱归一化更加重要。此外,在生成器和鉴别器中同时使用谱归一化方法可以帮助提升半监督语义分割准确度。这一提升为从方法3的0.6402提升至方法4的0.6814,以及从方法1的0.5217提升至方法2的0.5439。
参见图8所示,本发明还提供了一种基于多头注意力的声呐小目标半监督语义分割系统100,包括:数据获取模块110、多头注意力引入模块120、语义分割模块130;
数据获取模块110,用于获取声呐小目标数据集;
多头注意力引入模块120,与所述数据获取模块110通信连接,用于根据所述声呐小目标数据集,将多头注意力机制引入循环生成对抗网络中,并将引入后的循环生成对抗网络应用于半监督语义分割网络模型中;以及,
语义分割模块130,与所述多头注意力引入模块120通信连接,用于基于半监督语义分割网络模型对所述声呐小目标数据集进行分割。
所述多头注意力引入模块120用于,
根据声呐小目标数据集中的输入图像张量
Figure SMS_144
将所述输入图像张量展开为矩阵
Figure SMS_145
将输入图像张量中的每一个像素点
Figure SMS_146
分别通过查询向量参数矩阵/>
Figure SMS_147
、键向量参数矩阵/>
Figure SMS_148
、值向量参数矩阵/>
Figure SMS_149
线性映射至三个不同空间,对应获取查询向量/>
Figure SMS_150
、键向量/>
Figure SMS_151
、值向量/>
Figure SMS_152
根据所述查询向量、所述键向量及所述值向量,对应构建矩阵如下:
查询矩阵
Figure SMS_153
键矩阵
Figure SMS_154
值矩阵
Figure SMS_155
将查询矩阵Q和键矩阵K进行矩阵处理,获取注意力打分函数A:
Figure SMS_156
根据所述注意力打分函数与所述值矩阵,获取单头注意力在循环生成对抗网络中的输出
Figure SMS_157
Figure SMS_158
设多头注意力的个数为N,根据单头注意力的输出结果,获取多头注意力在循环生成对抗网络中的输出
Figure SMS_159
Figure SMS_160
式中,
Figure SMS_162
为高度;/>
Figure SMS_164
为宽度;/>
Figure SMS_166
为通道数目;/>
Figure SMS_168
表示像素点的位置;/>
Figure SMS_169
为按列进行归一化的函数;/>
Figure SMS_170
为注意力概率;/>
Figure SMS_171
为/>
Figure SMS_161
的转置矩阵;/>
Figure SMS_163
为/>
Figure SMS_165
的转置矩阵;/>
Figure SMS_167
为线性变换矩阵。
所述多头注意力引入模块120用于,
获取总损失函数:
Figure SMS_172
根据所述总损失函数,获取半监督语义分割网络模型:
Figure SMS_173
式中,
Figure SMS_175
为图像生成器;/>
Figure SMS_177
为标注生成器;/>
Figure SMS_179
为图像鉴别器,/>
Figure SMS_180
为标注鉴别器;/>
Figure SMS_181
为标注生成器的损失函数; />
Figure SMS_184
为图像生成器的损失函数;
Figure SMS_185
为关于标注生成器和图像生成器相关的循环损失函数;/>
Figure SMS_174
为关于标注生成器和图像生成器相关的循环损失函数;/>
Figure SMS_176
为关于标注生成器和标注鉴别器相关的鉴别器损失函数;/>
Figure SMS_178
为关于图像生成器和图像鉴别器相关的鉴别器损失函数;/>
Figure SMS_182
~/>
Figure SMS_183
分别代表各损失函数对应的权重系数;arg min 表示使总损失函数取最小值时的变量值;arg max表示使总损失函数取最大值时的变量值。
所述语义分割模块130,用于基于谱归一化方法对半监督语义分割网络模型的生成器和鉴别器进行处理,以使循环生成对抗网络满足利普西茨收敛。
具体的,本实施例与上述方法实施例一一对应,各个模块的功能在相应的方法实施例中已经进行详细说明,因此不再一一赘述。
基于同一发明构思,本申请实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述方法的所有方法步骤或部分方法步骤。
基于同一发明构思,本申请实施例还提供一种基于图像拼接的全景相机,包括基于多角度镜头的视频流获取模块和算法处理器模块,存储器上储存有在处理器上运行的计算机程序,处理器执行计算机程序时实现上述方法中的所有方法步骤或部分方法步骤。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、服务器或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、服务器和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (6)

1.一种基于多头注意力的声呐小目标半监督语义分割方法,其特征在于,包括以下步骤:
获取声呐小目标数据集;
将多头注意力机制引入循环生成对抗网络中,并将引入后的循环生成对抗网络应用于半监督语义分割网络模型中;
基于半监督语义分割网络模型对所述声呐小目标数据集进行分割;
所述将引入后的循环生成对抗网络应用于半监督语义分割网络模型中步骤,包括以下步骤:
获取总损失函数:
Figure QLYQS_1
根据所述总损失函数,获取半监督语义分割网络模型:
Figure QLYQS_2
式中,
Figure QLYQS_3
为图像生成器;/>
Figure QLYQS_9
为标注生成器;/>
Figure QLYQS_12
为图像鉴别器,/>
Figure QLYQS_6
为标注鉴别器;
Figure QLYQS_8
为标注生成器的损失函数; />
Figure QLYQS_11
为图像生成器的损失函数;
Figure QLYQS_14
为关于标注生成器和图像生成器相关的循环损失函数;/>
Figure QLYQS_4
为关于标注生成器和图像生成器相关的循环损失函数;/>
Figure QLYQS_7
为关于标注生成器和标注鉴别器相关的鉴别器损失函数;/>
Figure QLYQS_10
为关于图像生成器和图像鉴别器相关的鉴别器损失函数;/>
Figure QLYQS_13
~/>
Figure QLYQS_5
分别代表各损失函数对应的权重系数;argmin 表示使总损失函数取最小值时的变量值;arg max表示使总损失函数取最大值时的变量值。
2.如权利要求1所述的基于多头注意力的声呐小目标半监督语义分割方法,其特征在于,所述将多头注意力机制引入循环生成对抗网络中步骤,包括以下步骤:
根据声呐小目标数据集中的输入图像张量
Figure QLYQS_15
将所述输入图像张量展开为矩阵
Figure QLYQS_16
将输入图像张量中的每一个像素点
Figure QLYQS_17
分别通过查询向量参数矩阵/>
Figure QLYQS_18
、键向量参数矩阵/>
Figure QLYQS_19
、值向量参数矩阵/>
Figure QLYQS_20
线性映射至三个不同空间,对应获取查询向量
Figure QLYQS_21
、键向量/>
Figure QLYQS_22
、值向量/>
Figure QLYQS_23
根据所述查询向量、所述键向量及所述值向量,对应构建矩阵如下:
查询矩阵
Figure QLYQS_24
键矩阵
Figure QLYQS_25
值矩阵
Figure QLYQS_26
将查询矩阵Q和键矩阵K进行矩阵处理,获取注意力打分函数A:
Figure QLYQS_27
根据所述注意力打分函数与所述值矩阵,获取单头注意力在循环生成对抗网络中的输出
Figure QLYQS_28
Figure QLYQS_29
设多头注意力的个数为N,根据单头注意力的输出结果,获取多头注意力在循环生成对抗网络中的输出
Figure QLYQS_30
Figure QLYQS_31
式中,
Figure QLYQS_32
为高度;/>
Figure QLYQS_35
为宽度;/>
Figure QLYQS_38
为通道数目;/>
Figure QLYQS_34
表示像素点的位置;/>
Figure QLYQS_37
为按列进行归一化的函数;/>
Figure QLYQS_40
为注意力概率;/>
Figure QLYQS_42
为/>
Figure QLYQS_33
的转置矩阵;/>
Figure QLYQS_36
为/>
Figure QLYQS_39
的转置矩阵;/>
Figure QLYQS_41
为线性变换矩阵。
3.如权利要求1所述的基于多头注意力的声呐小目标半监督语义分割方法,其特征在于,所述基于半监督语义分割网络模型对所述声呐小目标数据集进行分割步骤,包括以下步骤:
基于谱归一化方法对半监督语义分割网络模型的生成器和鉴别器进行处理,以使循环生成对抗网络满足利普西茨收敛。
4.一种基于多头注意力的声呐小目标半监督语义分割系统,其特征在于,包括:
数据获取模块,用于获取声呐小目标数据集;
多头注意力引入模块,与所述数据获取模块通信连接,用于根据所述声呐小目标数据集,将多头注意力机制引入循环生成对抗网络中,并将引入后的循环生成对抗网络应用于半监督语义分割网络模型中;以及,
语义分割模块,与所述多头注意力引入模块通信连接,用于基于半监督语义分割网络模型对所述声呐小目标数据集进行分割;
所述多头注意力引入模块用于,
获取总损失函数:
Figure QLYQS_43
根据所述总损失函数,获取半监督语义分割网络模型:
Figure QLYQS_44
式中,
Figure QLYQS_46
为图像生成器;/>
Figure QLYQS_51
为标注生成器;/>
Figure QLYQS_54
为图像鉴别器,/>
Figure QLYQS_47
为标注鉴别器;
Figure QLYQS_50
为标注生成器的损失函数; />
Figure QLYQS_53
为图像生成器的损失函数;
Figure QLYQS_56
为关于标注生成器和图像生成器相关的循环损失函数;/>
Figure QLYQS_45
为关于标注生成器和图像生成器相关的循环损失函数;/>
Figure QLYQS_49
为关于标注生成器和标注鉴别器相关的鉴别器损失函数;/>
Figure QLYQS_52
为关于图像生成器和图像鉴别器相关的鉴别器损失函数;/>
Figure QLYQS_55
~/>
Figure QLYQS_48
分别代表各损失函数对应的权重系数;arg min 表示使总损失函数取最小值时的变量值;arg max表示使总损失函数取最大值时的变量值。
5.如权利要求4所述的基于多头注意力的声呐小目标半监督语义分割系统,其特征在于,所述多头注意力引入模块用于,
根据声呐小目标数据集中的输入图像张量
Figure QLYQS_57
将所述输入图像张量展开为矩阵
Figure QLYQS_58
将输入图像张量中的每一个像素点
Figure QLYQS_59
分别通过查询向量参数矩阵/>
Figure QLYQS_60
、键向量参数矩阵/>
Figure QLYQS_61
、值向量参数矩阵/>
Figure QLYQS_62
线性映射至三个不同空间,对应获取查询向量
Figure QLYQS_63
、键向量/>
Figure QLYQS_64
、值向量/>
Figure QLYQS_65
根据所述查询向量、所述键向量及所述值向量,对应构建矩阵如下:
查询矩阵
Figure QLYQS_66
键矩阵
Figure QLYQS_67
值矩阵
Figure QLYQS_68
将查询矩阵Q和键矩阵K进行矩阵处理,获取注意力打分函数A:
Figure QLYQS_69
根据所述注意力打分函数与所述值矩阵,获取单头注意力在循环生成对抗网络中的输出
Figure QLYQS_70
Figure QLYQS_71
设多头注意力的个数为N,根据单头注意力的输出结果,获取多头注意力在循环生成对抗网络中的输出
Figure QLYQS_72
Figure QLYQS_73
式中,
Figure QLYQS_74
为高度;/>
Figure QLYQS_79
为宽度;/>
Figure QLYQS_82
为通道数目;/>
Figure QLYQS_76
表示像素点的位置;/>
Figure QLYQS_78
为按列进行归一化的函数;/>
Figure QLYQS_81
为注意力概率;/>
Figure QLYQS_84
为/>
Figure QLYQS_75
的转置矩阵;/>
Figure QLYQS_77
为/>
Figure QLYQS_80
的转置矩阵;/>
Figure QLYQS_83
为线性变换矩阵。
6.如权利要求4所述的基于多头注意力的声呐小目标半监督语义分割系统,其特征在于,所述语义分割模块,用于基于谱归一化方法对半监督语义分割网络模型的生成器和鉴别器进行处理,以使循环生成对抗网络满足利普西茨收敛。
CN202310054506.XA 2023-02-03 2023-02-03 基于多头注意力的声呐小目标半监督语义分割方法及系统 Active CN116129117B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310054506.XA CN116129117B (zh) 2023-02-03 2023-02-03 基于多头注意力的声呐小目标半监督语义分割方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310054506.XA CN116129117B (zh) 2023-02-03 2023-02-03 基于多头注意力的声呐小目标半监督语义分割方法及系统

Publications (2)

Publication Number Publication Date
CN116129117A CN116129117A (zh) 2023-05-16
CN116129117B true CN116129117B (zh) 2023-07-14

Family

ID=86309696

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310054506.XA Active CN116129117B (zh) 2023-02-03 2023-02-03 基于多头注意力的声呐小目标半监督语义分割方法及系统

Country Status (1)

Country Link
CN (1) CN116129117B (zh)

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020227971A1 (en) * 2019-05-15 2020-11-19 Microsoft Technology Licensing, Llc Image generation
CN111027575B (zh) * 2019-12-13 2022-06-17 广西师范大学 一种自注意对抗学习的半监督语义分割方法
US11741318B2 (en) * 2021-03-25 2023-08-29 Nec Corporation Open information extraction from low resource languages
CN113298815A (zh) * 2021-06-21 2021-08-24 江苏建筑职业技术学院 一种半监督遥感图像语义分割方法、装置和计算机设备
CN114782471A (zh) * 2022-04-12 2022-07-22 首都医科大学附属北京天坛医院 一种用于甲状腺结节的超声二维图像的分割方法
CN115346047A (zh) * 2022-08-03 2022-11-15 中国矿业大学 一种基于元学习框架的弱监督小样本语义分割方法

Also Published As

Publication number Publication date
CN116129117A (zh) 2023-05-16

Similar Documents

Publication Publication Date Title
Melekhov et al. Dgc-net: Dense geometric correspondence network
Nirkin et al. Fsgan: Subject agnostic face swapping and reenactment
Li et al. A closed-form solution to photorealistic image stylization
Hong et al. Learning transferrable knowledge for semantic segmentation with deep convolutional neural network
Yang et al. Reference-guided deep super-resolution via manifold localized external compensation
Rani et al. Social media video summarization using multi-Visual features and Kohnen's Self Organizing Map
Ling et al. Virtual contour guided video object inpainting using posture mapping and retrieval
CN110930310B (zh) 全景图像拼接方法
Lu et al. Learning transform-aware attentive network for object tracking
Khan et al. Face segmentation: A journey from classical to deep learning paradigm, approaches, trends, and directions
Saribas et al. TRAT: Tracking by attention using spatio-temporal features
Yan et al. Change-based image cropping with exclusion and compositional features
Khan et al. A framework for head pose estimation and face segmentation through conditional random fields
Jabberi et al. 68 landmarks are efficient for 3D face alignment: what about more? 3D face alignment method applied to face recognition
Liu et al. Soft SVM and its application in video-object extraction
Fu et al. Learning heavily-degraded prior for underwater object detection
Ruiz et al. IDA: Improved data augmentation applied to salient object detection
Ramakanth et al. FeatureMatch: A general ANNF estimation technique and its applications
CN116129117B (zh) 基于多头注意力的声呐小目标半监督语义分割方法及系统
Hu et al. Now you see me: Deep face hallucination for unviewed sketches
Huang et al. Learning context restrained correlation tracking filters via adversarial negative instance generation
Zhang et al. Fast visual tracking with lightweight Siamese network and template-guided learning
Mumuni et al. Robust appearance modeling for object detection and tracking: a survey of deep learning approaches
Žižakić et al. Efficient local image descriptors learned with autoencoders
Zhong et al. Jointly feature learning and selection for robust tracking via a gating mechanism

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant