CN116129117B

CN116129117B - 基于多头注意力的声呐小目标半监督语义分割方法及系统

Info

Publication number: CN116129117B
Application number: CN202310054506.XA
Authority: CN
Inventors: 范越; 唐劲松; 张智圣; 张鹏; 张国平
Original assignee: Naval University of Engineering PLA
Current assignee: Naval University of Engineering PLA
Priority date: 2023-02-03
Filing date: 2023-02-03
Publication date: 2023-07-14
Anticipated expiration: 2043-02-03
Also published as: CN116129117A

Abstract

本发明公开了一种基于多头注意力的声呐小目标半监督语义分割方法及系统，其方法包括：获取声呐小目标数据集；将多头注意力机制引入循环生成对抗网络中，并将引入后的循环生成对抗网络应用于半监督语义分割网络模型中；基于半监督语义分割网络模型对所述声呐小目标数据集进行分割；因此可将声呐小目标分割出来，并提升对声呐小目标的半监督语义分割效果的鲁棒性。

Description

基于多头注意力的声呐小目标半监督语义分割方法及系统

技术领域

本发明涉及声呐图像领域，具体是涉及一种基于多头注意力的声呐小目标半监督语义分割方法及系统。

背景技术

水下目标通常很小并且在声呐图像中的位置不确定，因此对声呐图像准确的语义分割结果可以帮助识别和追踪水下移动的小目标。

近年来，深度学习已经被广泛使用于声学图像处理，相较于传统的基于统计学理论的方法，深度学习方法取得了更为出色的表现。在相关现有技术中，有的技术将传统的马尔科夫随机场模型（MRF）与卷积神经网络（CNN）相结合，并用于侧扫声呐图像的分割，但是由于算法在大量迭代中耗时较长，因此该方法并不满足实时性的需求。有的技术将最先进的网络结构，比如YOLO v3-SPP、 SegNet 以及 U-Net，部署到前视多波束声呐，用于提升潜水员的跟踪效果以及海底的跟踪效果，但是这种方法需要依赖于大量的训练数据。有的技术尝试设计一种小型的网络，并且结合迁移学习，用于适应缺乏训练数据的情况，但这种方法以牺牲语义分割精度为代价，避免了过拟合。

有监督的语义分割方法依赖于大量的像素级标注数据，这是一件费时且需要专业领域知识的工作，因此半监督学习的方法是解决这一难题的重要研究领域；现有的许多半监督学习算法有一个重要的假设：结构假设，结构假设指出，拥有相同结构的样本可能会有相同的语义分割结果，但是由于投影成像原理，同一类别的声呐目标之间形状差距很大，这导致了一些未标注的样本并不满足结构假设。

针对上述问题，近年来出现了许多全新的半监督语义分割网络结构，有的技术提出了BAS4Net网络结构来解决复杂场景下、遥感图像中存在的边缘模糊问题。有的技术提出了一种多尺度的生成对抗网络结构，来提取遥感图像中小目标的关键特征。有的技术设计了DNetUnet，它将具备不同下采样级别的U-Net网络与密集模块相结合，用于提取更准确的大型医学图像中的图像特征。然而，上述方法都是为遥感图像与医学图像设计的，由于存在多径效应，混响噪声以及缺乏像素信息等问题，上述方法在声学小目标数据集上的半监督语义分割效果也不佳。

因此，由于声呐图像中的目标通常包含的像素信息很少，并且大小、形状、位置各不相同，这意味着声呐目标不满足现有的许多半监督学习算法的基础-结构假设；此外，声呐小目标通常具有与背景相似的亮度和形状，这导致声呐小目标难以被分割。

发明内容

本发明的目的是为了克服上述背景技术的不足，提供一种基于多头注意力的声呐小目标半监督语义分割方法及系统，将多头自注意力机制结合到循环生成对抗网络CycleGAN中，使得网络能更好地建立图像中远距离的图像特征间的依赖联系，将声呐小目标分割出来。

第一方面，提供一种基于多头注意力的声呐小目标半监督语义分割方法，包括以下步骤：

获取声呐小目标数据集；

将多头注意力机制引入循环生成对抗网络中，并将引入后的循环生成对抗网络应用于半监督语义分割网络模型中；

基于半监督语义分割网络模型对所述声呐小目标数据集进行分割。

根据第一方面，在第一方面的第一种可能的实现方式中，所述将多头注意力机制引入循环生成对抗网络中步骤，包括以下步骤：

根据声呐小目标数据集中的输入图像张量

；

将所述输入图像张量展开为矩阵

；

将输入图像张量中的每一个像素点

分别通过查询向量参数矩阵/>

、键向量参数矩阵/>

、值向量参数矩阵/>

线性映射至三个不同空间，对应获取查询向量/>

、键向量/>

、值向量/>

；

根据所述查询向量、所述键向量及所述值向量，对应构建矩阵如下：

查询矩阵

；

键矩阵

；

值矩阵

；

将查询矩阵Q和键矩阵K进行矩阵处理，获取注意力打分函数A：

；

根据所述注意力打分函数与所述值矩阵，获取单头注意力在循环生成对抗网络中的输出

：

；

设多头注意力的个数为N，根据单头注意力的输出结果，获取多头注意力在循环生成对抗网络中的输出

：

；

式中，

为高度；/>

为宽度；/>

为通道数目；/>

表示像素点的位置；/>

为按列进行归一化的函数；/>

为注意力概率；/>

为/>

的转置矩阵；/>

为/>

的转置矩阵；/>

为线性变换矩阵。

根据第一方面，在第一方面的第二种可能的实现方式中，所述将引入后的循环生成对抗网络应用于半监督语义分割网络模型中步骤，包括以下步骤：

获取总损失函数：

；

根据所述总损失函数，获取半监督语义分割网络模型：

；

式中，

为图像生成器；/>

为标注生成器；/>

为图像鉴别器，/>

为标注鉴别器；/>

为标注生成器的损失函数； />

为图像生成器的损失函数；

为关于标注生成器和图像生成器相关的循环损失函数；/>

为关于标注生成器和图像生成器相关的循环损失函数；/>

为关于标注生成器和标注鉴别器相关的鉴别器损失函数；/>

为关于图像生成器和图像鉴别器相关的鉴别器损失函数；/>

~/>

分别代表各损失函数对应的权重系数；arg min 表示使总损失函数取最小值时的变量值；arg max表示使总损失函数取最大值时的变量值。

根据第一方面，在第一方面的第三种可能的实现方式中，所述基于半监督语义分割网络模型对所述声呐小目标数据集进行分割步骤，包括以下步骤：

基于谱归一化方法对半监督语义分割网络模型的生成器和鉴别器进行处理，以使循环生成对抗网络满足利普西茨收敛。

第二方面，提供一种基于多头注意力的声呐小目标半监督语义分割系统，其特征在于，包括：

数据获取模块，用于获取声呐小目标数据集；

多头注意力引入模块，与所述数据获取模块通信连接，用于根据所述声呐小目标数据集，将多头注意力机制引入循环生成对抗网络中，并将引入后的循环生成对抗网络应用于半监督语义分割网络模型中；以及，

语义分割模块，与所述多头注意力引入模块通信连接，用于基于半监督语义分割网络模型对所述声呐小目标数据集进行分割。

一些实施例中，所述多头注意力引入模块用于，

根据声呐小目标数据集中的输入图像张量

；

将所述输入图像张量展开为矩阵

；

将输入图像张量中的每一个像素点

分别通过查询向量参数矩阵/>

、键向量参数矩阵/>

、值向量参数矩阵/>

线性映射至三个不同空间，对应获取查询向量/>

、键向量/>

、值向量/>

；

查询矩阵

；

键矩阵

；

值矩阵

；

；

：

；

：

；

式中，

为高度；/>

为宽度；/>

为通道数目；/>

表示像素点的位置；/>

为按列进行归一化的函数；/>

为注意力概率；/>

为/>

的转置矩阵；/>

为/>

的转置矩阵；/>

为线性变换矩阵。

一些实施例中，所述多头注意力引入模块用于，

获取总损失函数：

；

根据所述总损失函数，获取半监督语义分割网络模型：

；

式中，

为图像生成器；/>

为标注生成器；/>

为图像鉴别器，/>

为标注鉴别器；/>

为标注生成器的损失函数； />

为图像生成器的损失函数；

为关于标注生成器和图像生成器相关的循环损失函数；/>

为关于标注生成器和图像生成器相关的循环损失函数；/>

为关于标注生成器和标注鉴别器相关的鉴别器损失函数；/>

为关于图像生成器和图像鉴别器相关的鉴别器损失函数；/>

~/>

一些实施例中，所述语义分割模块，用于基于谱归一化方法对半监督语义分割网络模型的生成器和鉴别器进行处理，以使循环生成对抗网络满足利普西茨收敛。

与现有技术相比，本发明将多头自注意力机制结合到循环生成对抗网络CycleGAN中，使得网络能更好地建立图像中远距离的图像特征间的依赖联系，将声呐小目标分割出来，并提升对声呐小目标的半监督语义分割效果的鲁棒性。

附图说明

图1是本发明一实施例提供的一种基于多头注意力的声呐小目标半监督语义分割方法的流程示意图；

图2是本发明与现有技术的一对比语义分割结果示意图；

图3是多头注意力机制引入循环生成对抗网络中的示意图；

图4是循环生成对抗网络第四层的每个注意力头的注意力中心在训练过程中的变化示意图；

图5是半监督语义分割网络模型的结构示意图；

图6是生成器的网络结构模型示意图；

图7是鉴别器的网络结构模型示意图；

图8是本发明一实施例提供的一种基于多头注意力的声呐小目标半监督语义分割系统的结构示意图。

附图标号

100、基于多头注意力的声呐小目标半监督语义分割系统；110、数据获取模块；120、多头注意力引入模块；130、语义分割模块。

具体实施方式

现在将详细参照本发明的具体实施例，在附图中例示了本发明的例子。尽管将结合具体实施例描述本发明，但将理解，不是想要将本发明限于所述的实施例。相反，想要覆盖由所附权利要求限定的在本发明的精神和范围内包括的变更、修改和等价物。应注意，这里描述的方法步骤都可以由任何功能块或功能布置来实现，且任何功能块或功能布置可被实现为物理实体或逻辑实体、或者两者的组合。

为了使本领域技术人员更好地理解本发明，下面结合附图和具体实施方式对本发明作进一步详细说明。

注意：接下来要介绍的示例仅是一个具体的例子，而不作为限制本发明的实施例必须为如下具体的步骤、数值、条件、数据、顺序等等。本领域技术人员可以通过阅读本说明书来运用本发明的构思来构造本说明书中未提到的更多实施例。

参见图1所示，本发明实施例提供一种基于多头注意力的声呐小目标半监督语义分割方法，包括以下步骤：

S100，获取声呐小目标数据集；

声呐小目标图像数据集SCTD包含800张声呐小目标图像，所有图像都像素值都是320×320，每个像素点占据9.6bit；

S200，将多头注意力机制引入循环生成对抗网络中，并将引入后的循环生成对抗网络应用于半监督语义分割网络模型中；

S300，基于半监督语义分割网络模型对所述声呐小目标数据集进行分割。

具体的，本实施例中，由于声呐图像中的目标通常包含的像素信息很少，并且大小、形状、位置各不相同，这意味着声呐目标不满足现有的许多半监督学习算法的基础-结构假设；此外，声呐小目标通常具有与背景相似的亮度和形状，这导致声呐小目标难以被分割；在现有的相关技术中，半监督语义分割方法在声呐小目标数据集SCTD上的分割效果较差，为了解决这一问题，本发明将多头自注意力机制结合到循环生成对抗网络CycleGAN中，使得网络能更好地建立图像中远距离的图像特征间的依赖联系，将声呐小目标分割出来，并提升对声呐小目标的半监督语义分割效果的鲁棒性。

参见图2所示，(a)和(b)分别是一张来自于SCTD数据集中的声呐图像和对应的人工标注，(c)、(d)和(e)展示了现有技术中提出的半监督语义分割方法的分割结果。(f)是本发明提出的方法的分割结果，显然它更准确地分割出了目标的形状，并且将每个像素点都分到了准确的类别。

参见图3所示，优选地，在本申请另外的实施例中，所述S200，将多头注意力机制引入循环生成对抗网络中步骤，包括以下步骤：

根据声呐小目标数据集中的输入图像张量

；

将所述输入图像张量展开为矩阵

；

将输入图像张量中的每一个像素点

分别通过查询向量参数矩阵

、键向量参数矩阵/>

、值向量参数矩阵/>

线性映射至三个不同空间，对应获取查询向量/>

、键向量/>

、值向量/>

；

查询矩阵

；

键矩阵

；

值矩阵

；

；

：

；

：

；

式中，

为高度；/>

为宽度；/>

为通道数目；/>

表示像素点的位置；/>

为按列进行归一化的函数；/>

为注意力概率；/>

为/>

的转置矩阵；/>

为/>

的转置矩阵；/>

为线性变换矩阵。

具体的，本实施例中，单头注意力机制的原理可以完全替代卷积层的作用，并且在各类视觉任务中取得了最先进的效果，当应用于生成对抗网络中时，网络会通过训练学习如何根据颜色和纹理的相似性来分配注意力。而本发明将多头自注意机制引入CycleGAN中，来防止自注意力机制应用于半监督任务时会出现的注意力分散问题。

为了进一步描述多头注意力机制的作用，图4展示在半监督语义分割网络的训练过程中，分割网络第四层的多注意头的位置是如何变化的，注意力头的个数分别为1,3,9；其中，中央的黑色正方形为查询像素点，使用了基于高斯分布的区域注意力机制（GaussianNeighbor Attention），图中实心框和虚线框代表高斯值分别取50%和90%；结果显示了，经过训练后，各个头部专注于图像的特定像素，多头注意力机制相比单头注意力机制，能关注到更多的图像细节信息。

为了进一步研究多头注意力机制的作用，将其引入CycleGAN的生成器的不同阶段，实验结果表明，在生成器的深层（即，第四层和第五层之间，以及第三层和第四层之间）引入多头注意力机制取得的半监督意义分割效果要胜过在生成器浅层引入（即，第一层和第二层之间，以及第二层和第三层之间），参见如下表（一）所示：多头注意力机制部署在生成器不同阶段取得的半监督语义分割结果对比。

表（一）

优选地，在本申请另外的实施例中，所述S200，将引入后的循环生成对抗网络应用于半监督语义分割网络模型中步骤，包括以下步骤：

获取总损失函数：

；

根据所述总损失函数，获取半监督语义分割网络模型：

；

式中，

为图像生成器；/>

为标注生成器；/>

为图像鉴别器，/>

为标注鉴别器；/>

为标注生成器的损失函数； />

为图像生成器的损失函数；

为关于标注生成器和图像生成器相关的循环损失函数；/>

为关于标注生成器和图像生成器相关的循环损失函数；/>

为关于标注生成器和标注鉴别器相关的鉴别器损失函数；/>

为关于图像生成器和图像鉴别器相关的鉴别器损失函数；/>

~/>

具体的，本实施例中，参见图5所示，从语义分割的角度，可以将生成器与鉴别器分成图像生成器

、标注生成器/>

，图像鉴别器/>

，标注鉴别器/>

；此外，可以将训练数据分为被标注过的图像/>

，未被标注过的图像/>

，真实标注/>

；生成器的输出可以分为生成标注/>

和/>

，生成图像/>

，重建图像/>

和重建标注

。

优选地，在本申请另外的实施例中，所述S300，基于半监督语义分割网络模型对所述声呐小目标数据集进行分割步骤，包括以下步骤：

具体的，本实施例中，参见图6和图7所示，图6中，为了节省显存，将输出的尺寸裁剪到了41×41；图7中是二分类语义分割任务，输入的标注的通道数为2，输入图像的通道数为3；为了稳定CycleGAN的训练，对生成器和鉴别器均使用了谱归一化方法。

生成器和鉴别器都采用了残差结构和谱归一化，即将生成器和鉴别器的输入层、残差网络层均除以对应的谱范数，具体实现时，在生成器中，将谱归一化和原始的卷积层结合，得到谱归一化卷积层；在鉴别器中则直接使用谱归一化；谱归一化能保证网络满足利普西茨收敛，有利于循环生成对抗网络CycleGAN的训练稳定。

本发明实施例提供的一种基于多头注意力的声呐小目标半监督语义分割方法，表（二）（不同的半监督语义分割方法在SCTD数据集上的分割结果对比）对比了本发明与其他最先进的方法在SCTD数据集上的半监督语义分割准确度（

）。实验结果表明，本发明在使用各种标注程度的训练数据时，均产生了超越现有技术中最先进的半监督语义分割方法的实验结果；此外，当标注数据稀缺时候（即，使用10%和20%标注程度的训练数据的情况下），这一差距更加大，本发明大约能产生7%-8%的提升。

表（二）

表中，AdvSemSeg是2018年发表在BMVC2018的深度对抗网络用于分割(语义分割)算法； MT-CutMix是2019年发表在BMVC2020的关于半监督学习算法；CycleGAN是发表在ICCV2017关于将GAN应用在无监督的图像到图像翻译（image-to-image translation）的算法。

为了进一步分析本发明的CycleGAN网络结构中不同组成模块的作用，进行了消融实验。表（三）（在 SCTD数据集上使用了10%标注程度的训练数据的消融实验）展示了消融实验结果，CycleGAN作为实验的基准模型，方法1指的是在CycleGAN的鉴别器中引入谱归一化；方法2指的是在CycleGAN的生成器和鉴别器中均使用谱归一化；方法3、方法4（本发明方法）分别指的是在对应方法1、方法2的基础上引入多头自注意力机制；方法5指的是在CycleGAN上单独引入多头自注意力机制。

表（三）

实验表明：本发明的CycleGAN模型的半监督语义分割准确度（

）为0.6814；如果我们移除了谱归一化方法，这一数值降至0.6038；但是，移除了多头自注意力机制会导致这一数值进一步降至0.5439；因此多头自注意力机制在声呐小目标半监督语义分割任务中的作用比谱归一化更加重要。此外，在生成器和鉴别器中同时使用谱归一化方法可以帮助提升半监督语义分割准确度。这一提升为从方法3的0.6402提升至方法4的0.6814，以及从方法1的0.5217提升至方法2的0.5439。

参见图8所示，本发明还提供了一种基于多头注意力的声呐小目标半监督语义分割系统100，包括：数据获取模块110、多头注意力引入模块120、语义分割模块130；

数据获取模块110，用于获取声呐小目标数据集；

多头注意力引入模块120，与所述数据获取模块110通信连接，用于根据所述声呐小目标数据集，将多头注意力机制引入循环生成对抗网络中，并将引入后的循环生成对抗网络应用于半监督语义分割网络模型中；以及，

语义分割模块130，与所述多头注意力引入模块120通信连接，用于基于半监督语义分割网络模型对所述声呐小目标数据集进行分割。

所述多头注意力引入模块120用于，

根据声呐小目标数据集中的输入图像张量

；

将所述输入图像张量展开为矩阵

；

将输入图像张量中的每一个像素点

分别通过查询向量参数矩阵/>

、键向量参数矩阵/>

、值向量参数矩阵/>

线性映射至三个不同空间，对应获取查询向量/>

、键向量/>

、值向量/>

；

查询矩阵

；

键矩阵

；

值矩阵

；

；

：

；

：

；

式中，

为高度；/>

为宽度；/>

为通道数目；/>

表示像素点的位置；/>

为按列进行归一化的函数；/>

为注意力概率；/>

为/>

的转置矩阵；/>

为/>

的转置矩阵；/>

为线性变换矩阵。

所述多头注意力引入模块120用于，

获取总损失函数：

；

根据所述总损失函数，获取半监督语义分割网络模型：

；

式中，

为图像生成器；/>

为标注生成器；/>

为图像鉴别器，/>

为标注鉴别器；/>

为标注生成器的损失函数； />

为图像生成器的损失函数；

为关于标注生成器和图像生成器相关的循环损失函数；/>

为关于标注生成器和图像生成器相关的循环损失函数；/>

为关于标注生成器和标注鉴别器相关的鉴别器损失函数；/>

为关于图像生成器和图像鉴别器相关的鉴别器损失函数；/>

~/>

所述语义分割模块130，用于基于谱归一化方法对半监督语义分割网络模型的生成器和鉴别器进行处理，以使循环生成对抗网络满足利普西茨收敛。

具体的，本实施例与上述方法实施例一一对应，各个模块的功能在相应的方法实施例中已经进行详细说明，因此不再一一赘述。

基于同一发明构思，本申请实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述方法的所有方法步骤或部分方法步骤。

基于同一发明构思，本申请实施例还提供一种基于图像拼接的全景相机，包括基于多角度镜头的视频流获取模块和算法处理器模块，存储器上储存有在处理器上运行的计算机程序，处理器执行计算机程序时实现上述方法中的所有方法步骤或部分方法步骤。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、服务器或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器和光学存储器等）上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备（系统）、服务器和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。