CN115170934B

CN115170934B - 一种图像分割方法、系统、设备及存储介质

Info

Publication number: CN115170934B
Application number: CN202211077602.8A
Authority: CN
Inventors: 张�浩; 李峰; 徐怀哲; 黄仕嘉; 刘世隆; 张磊
Original assignee: International Digital Economy Academy IDEA
Current assignee: International Digital Economy Academy IDEA
Priority date: 2022-09-05
Filing date: 2022-09-05
Publication date: 2022-12-23
Anticipated expiration: 2042-09-05
Also published as: CN115170934A

Abstract

本发明涉及图像分割技术领域，具体是涉及一种图像分割方法、系统、设备及存储介质。本发明首先提取出待分割图像中的图像特征向量，以及对待分割图像进行像素编码而得到像素特征图。然后将图像特征向量作为查询向量和像素特征图输入到转换解码器，转换解码器利用图像特征向量在像素特征图中查找与目标物体所对应的目标物体特征向量，目标物体特征向量与像素特征图进行点乘后输出与目标物体所对应的分割掩码，目标物体所对应的分割掩码就可以用于构建需要分割出来的目标物体图像。从上述分析可知，由于本申请将图像特征向量和像素特征图输入到转换解码器中能够准确得到需要分割出来的目标物体的图像。

Description

一种图像分割方法、系统、设备及存储介质

技术领域

本发明涉及图像分割技术领域，具体是涉及一种图像分割方法、系统、设备及存储介质。

背景技术

图像分割的目标是确定图像中每个像素属于什么物体，即对所有像素进行分类，是一个逐像素预测的密集预测问题。通常，图像分割可以根据不同的语义分为三个任务，包括实例分割、语义分割和全景分割。

传统上，研究人员为每项任务开发专门的模型和优化目标。实例分割是预测一组二元掩码mask及其相关类别。先前的方法通常基于由检测模型产生的检测框来预测mask，即通过添加与检测分支并行的mask分支，在检测模型上更快地构建分割。之后又提出将两个分支交错，并添加掩码信息流，以提高分割性能。语义分割关注类别级语义，而不区分实例。全卷积网络FCN为每个像素生成一个标签来解决图像分割问题。全景分割是上述两个分割任务的组合，用于分割前景实例和背景语义。

上述现有技术只关注待分割图像所具有的像素特征而忽视图像中的特征向量，因此导致分割出来的物体并不是实际真正需要分割出来的物体。

综上所述，现有技术中的图像分割方法难以准确分割出目标物体。

因此，现有技术还有待改进和提高。

发明内容

为解决上述技术问题，本发明提供了一种图像分割方法、系统、设备及存储介质，解决了现有技术中的图像分割方法难以准确分割出目标物体的问题。

为实现上述目的，本发明采用了以下技术方案：

第一方面，本发明提供一种图像分割方法，其中，包括：

将待分割图像输入到特征提取网络中，得到所述特征提取网络输出的用于反映所述待分割图像特征的图像特征向量；

将所述图像特征向量输入到像素编码器，得到所述像素编码器输出的多个尺寸的像素特征图；

将所述图像特征向量输入到已训练的转换解码器，所述已训练的转换解码器包括匹配部分，具有交叉注意力机制、自注意力机制；

将所述图像特征向量作为所述匹配部分的查询向量，并作为转换解码器交叉注意力机制中的输入值和权重系数，在所述多个尺寸的像素特征图中查找用于反映目标物体的目标物体特征向量和预测类别；

依据所述目标物体特征向量与最大尺寸的像素特征图进行点乘，计算目标物体的分割掩码。

在一种实现方式中，转换解码器包括多层解码器，分别为从第一层的解码器至最后一层的解码器，所述依据所述目标物体特征向量与最大尺寸的像素特征图进行点乘，计算目标物体的分割掩码，包括：

从最小尺寸的像素特征图中开始查找，依据最后一层的解码器输出的目标物体特征向量与最大尺寸的像素特征图进行点乘，得到所述目标物体的分割掩码。

在一种实现方式中，所述从最小尺寸的像素特征图中开始查找，依据最后一层的解码器输出的目标物体特征向量与最大尺寸的像素特征图进行点乘，得到所述目标物体的分割掩码，包括：

以最小尺寸的像素特征图和所述图像特征向量作为所述第一层的解码器的输入，将所述图像特征向量作为查询向量，在所述最小尺寸的像素特征图中查找，得到所述第一层的解码器输出的预测物体特征向量；

所述第一层的解码器输出的预测物体特征向量与所述最小尺寸的像素特征图进行点乘，获得所述第一层的解码器输出的预测分割掩码；

将比最小尺寸的像素特征图大设定尺寸的像素特征图和所述第一层的解码器输出的预测物体特征向量作为下一层的解码器的输入，以所述第一层的解码器输出的预测分割掩码作为下一中间层的交叉注意力掩码，直至最后一层的解码器输出目标物体特征向量和类别；

依据最大尺寸的像素特征图与最后一层的解码器输出的目标物体特征向量进行点乘，得到所述目标物体的分割掩码。

在一种实现方式中，转换解码器包括每一层的解码器，所述图像分割方法还包括：

每一层的解码器输出的预测类别通过转换解码器的线性层和比较器得到每种类别的概率；

将最大概率对应的类别作为每一层的解码器输出的预测类别，每一层的解码器输出的预测类别用于最后一层的解码器输出所述目标物体的类别。

在一种实现方式中，所述已训练的转换解码器还包括引导部分，具有交叉注意力机制、自注意力机制，所述图像分割方法还包括：

将样本图像中目标物体的真实类别嵌入向量作为所述引导部分的查询向量、所述目标物体的真实分割掩码加上噪声分割掩码后输入到转换解码器中，经过交叉注意力机制输出所述引导部分的目标物体所对应的预测分割掩码，所述样本图像为用于训练转换解码器的图像。

所述已训练的转换解码器包括自注意力掩膜矩阵，在训练转换解码器的过程中，使用所述自注意力掩膜矩阵阻碍转换解码器中匹配部分与引导部分的自注意力机制的传递。

每一层的解码器的引导部分和匹配部分输出的预测类别通过转换解码器的线性层和比较器得到每种类别的概率；

将最大概率对应的类别作为每一层的引导部分和匹配部分输出的预测类别，每一层的引导部分和匹配部分输出的预测类别用于最后一层的解码器输出所述目标物体的类别。

在一种实现方式中，已训练的转换解码器的训练方式包括：

生成样本分割图像中的样本特征向量和多尺寸的样本像素特征图；

将所述样本特征向量、所述多尺寸的样本像素特征图输入所述转换解码器的匹配部分，将所述样本目标物体所对应的真实分割掩码和噪声分割掩码、所述样本目标物体所对应的真实类别输入到所述转换解码器的引导部分，分别得到所述转换解码器匹配部分和引导部分输出的训练目标掩码和训练目标类别；

分别计算所述转换解码器的匹配部分和引导部分的所述训练目标掩码所对应的掩码损失函数、所述训练目标类别所对应的类别损失函数；

依据所述掩码损失函数和所述类别损失函数，调整转换解码器的参数，直至所述掩码损失函数和所述类别损失函数满足设定条件，得到已训练的转换解码器。

在一种实现方式中，将所述样本目标物体所对应的真实分割掩码和噪声分割掩码、所述样本目标物体所对应的真实类别输入所述转换解码器的引导部分，包括：

所述真实分割掩码是一个矩阵，矩阵的每个元素为0或1，1代表像素属于与所述目标物体对应的预测类别，0代表像素不属于与所述目标物体对应的预测类别；

所述噪声分割掩码在所述真实分割掩码随机采样一些点，被采样到的点如果是0就变成1，若是1就变成0。

在一种实现方式中，将所述样本特征向量、所述多尺寸的样本像素特征图输入所述转换解码器的匹配部分，将所述样本目标物体所对应的真实分割掩码和噪声分割掩码、所述样本目标物体所对应的真实类别输入所述转换解码器的引导部分，分别得到所述转换解码器匹配部分和引导部分输出的训练目标掩码和训练目标类别，包括：

将所述样本特征向量输入至第一层的匹配部分，得到所述第一层的匹配部分输出的训练匹配预测类别和训练匹配预测特征向量，所述第一层为所述转换解码器的第一层；

将所述训练匹配预测特征向量与所述多尺寸的样本像素特征图中的最小尺寸样本像素特征图进行点乘，得到所述第一层的匹配部分所对应的训练匹配预测掩码，以所述第一层的匹配部分所对应的训练匹配预测掩码作为所述第一层的匹配部分所对应的训练匹配交叉注意力掩码；

将所述第一层的匹配部分输出的训练匹配预测类别、所述训练匹配预测特征向量、所述训练匹配交叉注意力掩码输入到下一中间层解码器的匹配部分，以此类推，直至最后一层的匹配部分输出训练匹配目标特征向量和训练目标类别中的训练匹配目标类别，所述最后一层为所述转换解码器的最后一层；

将所述训练匹配目标特征向量与所述样本像素特征图进行点乘，得到所述训练目标掩码中的训练匹配目标掩码；

将所述真实分割掩码和噪声分割掩码、所述真实类别输入到所述第一层的引导部分，得到所述第一层的引导部分输出的训练引导预测类别和训练引导预测特征向量；

将所述训练引导预测特征向量与所述样本像素特征图进行点乘，得到所述第一层的引导部分所对应的训练引导预测掩码；

将所述训练引导预测掩码加上带噪声的分割掩码，得到训练引导交叉注意力掩码；

将所述第一层的引导部分输出的所述训练引导预测类别、所述训练引导预测特征向量和所述训练引导交叉注意力掩码输入到所述下一中间层的引导部分，以此类推，直至所述最后一层的引导部分输出训练引导目标特征向量以及训练目标类别中的训练引导目标类别；

将所述训练引导目标特征向量与所述样本像素特征图进行点乘，得到所述训练目标掩码中的训练引导目标掩码。

在一种实现方式中，所述引导部分和所述匹配部分的掩码损失函数相同，所述引导部分和所述匹配部分的类别损失函数相同，用于计算掩码损失函数的所述训练匹配预测掩码为所述匹配部分的训练匹配预测掩码经过二分图匹配得到的预测掩码，所述依据所述掩码损失函数和所述类别损失函数，调整转换解码器的参数，直至所述掩码损失函数和所述类别损失函数满足设定条件，得到已训练的转换解码器，包括：

依据所述第一层的训练匹配预测掩码所对应的掩码损失函数、所述第一层输出的训练匹配预测类别所对应的类别损失函数、所述第一层的训练引导预测掩码所对应的掩码损失函数、所述第一层输出的训练引导预测类别所对应的类别损失函数，调整转换解码器的第一层的参数；

依据所述中间层的所述训练匹配预测掩码所对应的掩码损失函数、所述中间层输出的所述训练匹配预测类别所对应的类别损失函数、所述中间层的所述训练引导预测掩码所对应的掩码损失函数、所述中间层输出的所述训练引导预测类别所对应的类别损失函数，调整转换解码器的中间层的参数；

依据所述最后一层的训练引导目标掩码所对应的掩码损失函数、所述最后一层的训练匹配目标掩码所对应的掩码损失函数、所述最后一层输出的训练引导目标类别所对应的类别损失函数、所述最后一层输出的训练匹配目标类别所对应的类别损失函数，调整转换解码器的最后一层的参数；

依据调整参数之后的所述第一层、所述中间层、所述最后一层，得到已训练的转换解码器。

在一种实现方式中，转换解码器包括自注意力掩膜矩阵，在训练转换解码器的过程中，使用自注意力掩膜矩阵阻碍转换解码器中匹配部分与引导部分的自注意力机制的传递。

在一种实现方式中，转换解码器还包括引导部分，所述计算所述训练目标掩码所对应的掩码损失函数、所述训练目标类别所对应的类别损失函数，之后还包括：转换解码器上一层输出的训练预测掩码加上带有噪声的真实分割掩码作为转换解码器下一层的引导部分的交叉注意力掩码输入至转换解码器下一层。

第二方面，本发明实施例还提供一种图像分割系统，其中，所述系统包括如下组成部分：

特征提取网络，用于提取待分割图像中用于反映所述待分割图像特征的的图像特征向量；

像素编码器，输入端与所述特征提取网络的输出端相连接，用于根据所述图像特征向量，得到实测像素特征图；

转换解码器，内部设置有注意力掩膜矩阵，输入端分别与所述特征提取网络的输出端、所述像素编码器的输出端连接，用于根据所述图像特征向量和所述实测像素特征图，得到实测目标掩码。

第三方面，本发明实施例还提供一种终端设备，其中，所述终端设备包括存储器、处理器及存储在所述存储器中并可在所述处理器上运行的图像分割程序，所述处理器执行所述图像分割程序时，实现上述所述的图像分割方法的步骤。

第四方面，本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有图像分割程序，所述图像分割程序被处理器执行时，实现上述所述的图像分割方法的步骤。

有益效果：本发明首先提取出待分割图像中的图像特征向量，以及对待分割图像进行像素编码而得到像素特征图。然后将图像特征向量输入至转换解码器，转换解码器利用图像特征向量在像素特征图中查找与目标物体所对应的目标物体特征向量和预测类别，然后目标物体特征向量与像素特征图进行点乘后输出与目标物体所对应的分割掩码，输出的分割掩码就可以用于构建需要分割出来的目标物体图像。从上述分析可知，由于本发明综合利用了图像特征向量和像素特征图，使得本发明能够准确得到需要分割出来的目标物体的图像。

附图说明

图1为本发明的整体流程图；

图2为本发明的实施例中的分割系统示意图；

图3为本发明实施例提供的终端设备的内部结构原理框图。

具体实施方式

以下结合实施例和说明书附图，对本发明中的技术方案进行清楚、完整地描述。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

经研究发现，图像分割的目标是确定图像中每个像素属于什么物体，即对所有像素进行分类，是一个逐像素预测的密集预测问题。通常，图像分割可以根据不同的语义分为三个任务，包括实例分割、语义分割和全景分割。传统上，研究人员为每项任务开发专门的模型和优化目标。实例分割是预测一组二元掩码mask及其相关类别。先前的方法通常基于由检测模型产生的检测框来预测mask，即通过添加与检测分支并行的mask分支，在检测模型上更快地构建分割。之后又提出将两个分支交错，并添加掩码信息流，以提高分割性能。语义分割关注类别级语义，而不区分实例。全卷积网络FCN为每个像素生成一个标签来解决图像分割问题。全景分割是上述两个分割任务的组合，用于分割前景实例和背景语义。上述现有技术只关注待分割图像所具有的像素特征而忽视图像中的特征向量，因此导致分割出来的物体并不是实际真正需要分割出来的物体。

为解决上述技术问题，本发明提供了一种图像分割方法、系统、设备及存储介质，解决了现有技术中的图像分割方法难以准确分割出目标物体的问题。具体实施时，首先将待分割图像输入到特征提取网络中，得到特征提取网络输出的图像特征向量；然后将图像特征向量输入到像素编码器，得到像素编码器输出的多个尺寸的像素特征图；之后将图像特征向量输入到已训练的转换解码器，以图像特征向量作为查询向量，通过交叉注意力机制在像素特征图中查找目标物体特征向量和预测类别，将目标物体特征向量与像素特征图进行点乘就得到分割掩码；最后依据分割掩码从待分割图像中分割出目标物体。

举例说明，一张图像中含有一匹马、草地及树木，其中马是目标物体，需要从图像中分割出马这个目标物体所在的图像。首先将该图像输入到特征提取网络中，特征提取网络识别出该图像的全图的图像特征向量，然后再将图像特征向量输入到像素编码器中，像素编码器对特征向量进行编码，输出了该图像所对应的多个尺寸的像素特征图，多个尺寸的像素特征图既包括了马这个物体的像素也包括了草地、树木的像素。之后将图像特征向量输入至转换解码器中，以图像特征向量作为查询向量，转换解码器就会通过交叉注意力机制在像素特征图中查找类别属于马的像素，并以掩码的形式输出，最后通过输出的掩码（分割掩码）就可以构建出马的图像（目标物体）。

示例性方法

本实施例的图像分割方法，可应用于终端设备中，所述终端设备可为具有图像采集功能的终端产品，比如手机、电脑等。在本实施例中，如图1中所示，所述图像分割方法，具体包括如下步骤：

S100，训练转换解码器Transformer。

本实施例在训练转换解码器，共分为掩码引导部分（MP）和匹配部分这两部分对转换解码器进行训练，而且在转换解码器中还设置了注意力掩膜矩阵（self-attentionmask），用于阻止MP部分到匹配部分的信息泄漏，即在训练转换解码器的过程中，使用自注意力掩膜矩阵阻碍转换解码器中匹配部分与引导部分的自注意力传递，其中引导部分如图2中的虚线部分，匹配部分如图2中的实线部分。

MP部分仅在训练的时候出现，而且MP部分包含了真实分割mask的信息，所以转换解码器在做自注意力（self-attention）的时候，MP部分可能会把真实分割mask的信息泄漏给匹配部分，导致匹配部分很容易得到真实分割mask，从而使得匹配部分（就是转换解码器根据样本特征向量和样本像素特征图输出的部分）学习不到有用的东西，本实施例设置了注意力掩膜矩阵，能够避免上述问题的出现。

步骤S100包括如下的步骤S101至S107：

S101，生成样本分割图像中的样本特征向量和多尺寸的样本像素特征图，所述样本特征向量用于反映所述样本分割图像的特征。

本实施例中，将样本分割图像（COCO、 ade20k、cityscapes的图片）输入到图2中的主干网络（如ResNet或Swin Transformer），主干网络用于提取样本分割图像的样本特征向量。在一个实施例中，从主干网络中提取的多尺度的样本特征向量会展开并合并起来，之后再将样本特征向量输入到像素编码器中（例如，一个Transformer编码器），像素编码器通过自注意力机制进行图像特征融合，输出多尺寸的样本像素特征图。在一个实施例中，样本像素特征图包括四种尺寸像素，分别是相对于样本分割图像的1/32像素的样本像素特征图、1/16像素的样本像素特征图、1/8像素的样本像素特征图、1/4像素的样本像素特征图，为了匹配四种尺寸的样本像素特征图，转换解码器Transformer共包括第一层、第二层、最后一层这三层。

S102，将所述样本特征向量、所述多尺寸的样本像素特征图输入所述转换解码器的匹配部分，将所述样本目标物体所对应的真实分割掩码和噪声分割掩码、所述样本目标物体所对应的真实类别输入所述转换解码器的引导部分，分别得到所述转换解码器匹配部分和引导部分输出的训练目标掩码和训练目标类别。

在一个实施例中，步骤S102包括如下的步骤S102a至S102i：

S102a，将所述样本特征向量输入至第一层的匹配部分，得到所述第一层的匹配部分输出的训练匹配预测类别和训练匹配预测特征向量，所述第一层为所述转换解码器的第一层。

S102b，将所述训练匹配预测特征向量与所述多尺寸的所述样本像素特征图中的最小尺寸样本像素特征图进行点乘，得到所述第一层的匹配部分所对应的训练匹配预测掩码，以所述第一层的匹配部分所对应的训练匹配预测掩码作为所述第一层的匹配部分所对应的训练匹配交叉注意力掩码。

在一个实施例中，将样本特征向量输入到第一层（输入层）的匹配部分，第一层的匹配部分以样本特征向量作为查询向量，通过交叉注意力机制在1/32像素的样本像素特征图进行查找，输出训练匹配预测类别和训练匹配预测特征向量，训练匹配预测特征向量与1/32像素的样本像素特征图进行点乘得到第一层训练匹配预测掩码。

S102c，将所述第一层的匹配部分输出的训练匹配预测类别、所述训练匹配预测特征向量、所述训练匹配交叉注意力掩码输入到下一中间层解码器的匹配部分，以此类推，直至最后一层的匹配部分输出训练匹配目标特征向量和训练目标类别中的训练匹配目标类别，所述最后一层为所述转换解码器的最后一层。

本实施例中，类别是以嵌入向量的形式输入到转换解码器，这是因为转换解码器只能识别数字形式的向量而不能识别文字形式的类别。

S102d，将所述训练匹配目标特征向量与所述样本像素特征图进行点乘，得到所述训练目标掩码中的训练匹配目标掩码。

在一个实施例中，转换解码器包括三层：第一层、中间层和最后一层，中间层即为第二层。

将第一层输出的训练匹配预测特征向量、训练匹配预测类别、训练匹配交叉注意力掩码输入到第二层的匹配部分，以训练匹配预测特征向量作为查询向量，通过交叉注意力机制在1/16像素的样本像素特征图进行查找，输出训练匹配预测类别和训练匹配预测特征向量，训练匹配预测特征向量与1/16像素的样本像素特征图进行点乘得到第二层训练匹配预测掩码，第二层训练匹配预测掩码作为第二层匹配部分的训练匹配交叉注意力掩码，以此类推，直至所述转换解码器的最后一层的匹配部分输出训练匹配目标掩码。

S102e，将所述真实分割掩码和噪声分割掩码、所述真实类别输入到所述第一层的引导部分，得到所述第一层的引导部分输出的训练引导预测类别和训练引导预测特征向量。

本实施例中，真实分割掩码是一个矩阵，矩阵的每个元素为0或1，1代表像素属于与目标物体对应的预测类别，0代表像素不属于与目标物体对应的预测类别。噪声分割掩码在所述真实分割掩码上随机采样一些点，被采样到的点如果是0就变成1，若是1就变成0。

将真实分割掩码、噪声分割掩码同时输入到转换解码器的引导部分可以提高转换解码器的学习能力，提高转换解码器的表现。

S102f，将所述训练引导预测特征向量与所述样本像素特征图进行点乘，得到所述第一层的引导部分所对应的训练引导预测掩码。

S102g，将所述训练引导预测掩码加上带噪声的分割掩码，得到训练引导交叉注意力掩码。

在一个实施例中，将样本分割图像（COCO、 ade20k、cityscapes的图片）的真实分割掩码、真实类别输入到所述第一层的引导部分，以真实类别对应的样本特征向量作为查询向量，通过交叉注意力机制得到所述第一层的引导部分输出的训练引导预测类别和训练引导预测特征向量，训练引导预测特征向量与1/32像素的样本像素特征图进行点乘得到第一层训练引导预测掩码。

S102h，将所述第一层的引导部分输出的所述训练引导预测类别、所述训练引导预测特征向量和所述训练引导交叉注意力掩码输入到所述下一中间层的引导部分，以此类推，直至所述最后一层的引导部分输出训练引导目标特征向量以及训练目标类别中的训练引导目标类别。

S102i，将所述训练引导目标特征向量与所述样本像素特征图进行点乘，得到所述训练目标掩码中的训练引导目标掩码。

将第一层的训练引导预测特征向量、训练引导预测类别输入第二层，以训练引导预测特征向量作为查询向量，但以真实分割掩码作为第二层的交叉注意力（训练引导预测掩码加上带噪声的分割掩码就是作为真实分割掩码的训练引导交叉注意力掩码），获得第二层的引导部分输出的训练引导预测类别和训练引导预测掩码。以真实分割掩码作为引导在训练过程中可以给出较强的提示，使转换解码器可以聚焦在特定物体上，利于其学习过程，能够加速收敛，进而降低了整个转换解码器训练所需要的时间。

步骤S102中每一层是基于如下原理输出预测分割掩码：

将可学习的查询向量queries（初始化为样本特征向量）、真实类别嵌入向量、真实分割掩码masks输入第一层解码器，每一层解码器输出物体的预测特征向量和预测类别，预测特征向量与样本像素特征图进行点乘后获得预测分割掩码mask。第一层解码器输出的预测特征向量作为第二层解码器的query、预测类别和交叉注意力掩码cross-attentionmask输入到第二层解码器，此时cross-attention mask是解码器每一层输出的预测分割掩码加上带噪声的分割掩码mask。这里的每个分割mask是一个矩阵，矩阵的每个元素为0或1，1代表这个像素属于这个分割对应的真实类别，0代表不属于真实类别。步骤S102是将样本像素特征图和真实分割掩码以及上一层的输出作为下一层的输入，使得下一层输出预测分割掩码和预测类别，直至传递到最后一层，使得最后一层输出训练引导目标特征向量和训练匹配目标特征向量、训练引导目标类别、训练匹配目标类别。

在一个实施例中，最后一层输出的训练匹配目标特征向量与最大尺寸的样本像素特征图（例如本实施例中，1/4像素的样本像素特征图）进行点乘，以得到训练匹配目标掩码。

举例说明，如图2所示，第一层输出的虚线部分的掩码和类别（虚线对应引导部分）以及实线部分的掩码和类别（实线对应匹配部分）再结合真实分割掩码、1/16像素的样本像素特征图输入到第二层（中间层），第二层又会输出不同于第一层输出的两种掩码和两种类别，直至最后一层输出训练引导目标掩码和训练匹配目标掩码、训练引导目标类别和训练匹配目标类别。

步骤S102是基于如下原理获得训练引导目标掩码和训练匹配目标掩码、训练引导目标类别和训练匹配目标类别。

在训练过程中，在每一层的输出中把引导部分（MP部分）的预测分割掩码mask用带噪声的真实分割掩码mask取代。由于每层都会输出预测分割掩码mask，但一个实施例中把每一层MP部分输出的预测分割掩码mask用带噪声的真实分割掩码mask取代。但是每一层匹配部分的query还是沿用上一层输出的预测分割掩码。在每一层，都会使用预测分割掩码mask和预测类别与真实分割掩码mask和真实类别求损失函数，求完损失函数后，把MP部分的预测分割掩码mask替换成相应的噪声真实mask（即将预测分割掩码加速带噪声的分割掩码mask作为注意力掩码输入至下一层），而匹配部分不做替换。求目标分割掩码mask的方法是用最后一层输出的目标物体特征向量在最大的特征图上做点乘。求分类的方法是用每层的输出通过一个线性层然后再通过softmax得到在每种类别上的概率，取最大概率值的类别为预测类别。

在一个实施例中，每一层的解码器的引导部分和匹配部分输出的预测类别通过转换解码器Transformer的线性层和归一化处理后得到每种类别的概率；将最大概率对应的类别作为每一层的引导部分和匹配部分输出的预测类别，每一层的引导部分和匹配部分输出的预测类别用于最后一层的解码器输出所述目标物体的类别。

S103，分别计算所述转换解码器匹配部分和引导部分所述训练目标掩码所对应的掩码损失函数、所述训练目标类别所对应的类别损失函数。

S104，依据所述掩码损失函数和所述类别损失函数，调整转换解码器的参数，直至所述掩码损失函数和所述类别损失函数满足设定条件，得到已训练的转换解码器。

步骤S104包括如下的步骤S104a、S104b、S104c和S104d：

S104a，依据所述第一层的训练匹配预测掩码所对应的掩码损失函数、所述第一层输出的训练匹配预测类别所对应的类别损失函数、所述第一层的训练引导预测掩码所对应的掩码损失函数、所述第一层输出的训练引导预测类别所对应的类别损失函数，调整转换解码器的第一层的参数。

S104b，依据所述中间层的所述训练匹配预测掩码所对应的掩码损失函数、所述中间层输出的所述训练匹配预测类别所对应的类别损失函数、所述中间层的所述训练引导预测掩码所对应的掩码损失函数、所述中间层输出的所述训练引导预测类别所对应的类别损失函数，调整转换解码器的中间层的参数。

S104c，依据所述最后一层的训练引导目标掩码所对应的掩码损失函数、所述最后一层的训练匹配目标掩码所对应的掩码损失函数、所述最后一层输出的训练引导目标类别所对应的类别损失函数、所述最后一层输出的训练匹配目标类别所对应的类别损失函数，调整转换解码器的最后一层的参数。

本实施例是计算了各层所对应的损失函数，然后依据各层的损失函数调整各层的参数，完成对所有层参数的调整就完成了对转换解码器的训练。该实施例能够提高最后训练之后的转换解码器的准确度。

在另一个实施例中，只根据最后一层输出的目标掩码和目标类别所对应的损失函数，根据损失函数调整各层的参数。该实施例可以减少计算量。

在一个实施例中，采用交叉熵损失计算类别损失，采用dice损失和sigmoid损失计算掩码损失，而在计算最后一层的训练匹配目标掩码的损失时，是先将训练匹配目标掩码与样本像素特征图进行点乘之后再二值化得到分割掩码（即最后一层的匹配部分的预测掩码并不是直接与真实的分割掩码相比较以计算其损失函数，而是对匹配部分的预测掩码经过二分图匹配之后再去计算其相对真实分割掩码的损失函数。或者说匹配部分经过二分图匹配将真实的分割mask分配给预测分割mask，而MP部分不经过二分图匹配，而是直接把预测的分割mask分配到相应的真实分割mask），计算分割掩码与真实分割掩码之间的损失。而计算训练引导目标掩码的损失时，不经过二分图匹配，而是直接把预测的分割mask分配到相应的真实分割mask以计算训练引导目标掩码的损失。

而转换解码器中设置的自注意力掩膜矩阵（self-attention mask）也能提高上述计算出来的损失的准确性，原因如下：

假定一张图片中有7个物体（需要分割出来的目标物体），那么MP部分的一组queries有7个queries，代指7个目标物体的特征向量，若匹配部分有100个queries（这里的100个是预设的值，代指全图的图像特征向量），共107个。匹配部分输出的预测的100个queries与MP部分的7个预测queries进行相似度计算，并不断调整损失对解码器进行训练。其中自注意力掩膜矩阵self attention mask是个107x107的布尔类型矩阵，True表示没有信息传递，假设前7行（列）表示MP部分，后100行（列）表示匹配部分，那么，self attentionmask的后100行的前7列为True，表示匹配部分看不到MP部分。由于匹配部分和引导部分之间不会进行信息传递，因此，计算出来的匹配部分的掩码损失代表掩码真实的损失。

S104d，依据调整参数之后的所述第一层、所述中间层、所述最后一层，得到已训练的转换解码器。

S200，将待分割图像输入到特征提取网络中，得到所述特征提取网络输出的用于反映所述待分割图像特征的图像特征向量。

本实施例中，特征提取网络提取的是待分割图像整幅图像所具有的特征，而不是仅仅针对目标物体的特征。

本实施例中的特征提取网络为主干网络，如ResNet或Swin Transformer。将待分割图像输入到主干网络中，并且在主干网络中设置需要提取的目标物体的类型，比如设置目标物体为马和人，当待分割图像为包括人、马、河流、草地的图像时，主干网络就会从待分割图像中提取出所有的图像特征向量。

S300，将所述图像特征向量输入到像素编码器，得到所述像素编码器输出的多个尺寸的像素特征图。

本实施例中的像素编码器是只有一个Transformer（转换器）的编码器，像素编码器中具有self-attention（自注意力）机制进行图像特征融合，从主干网络中提取的多尺度的特征图会展开并合并起来，一起输入到像素编码器中，进行self-attention，然后输出混合后多尺寸的像素特征图。步骤S300包括如下的步骤：

S301，统计转换解码器所包含的解码器层数。

本实施例中的转换解码器为Transformer解码器，如图2所示，假如Transformer解码器有四层，分别为第一层、第二层、第三层和最后一层，前一层的输出作为下一层的输入。

S302，将所述图像特征向量输入到像素编码器，得到所述像素编码器输出的像素特征图中的与所述解码器层数相等数量的像素第一特征图、像素第二特征图，所述像素第一特征图的尺寸异于所述像素第二特征图的尺寸。

当如图2所示的Transformer解码器有三层时，就控制像素编码器根据输入的图像特征向量输出四种尺寸的像素特征图，分别是待分割图像的1/32像素特征图、1/16像素特征图、1/8像素特征图、1/4像素特征图，其中1/32像素特征图、1/16像素特征图、1/8像素特征图都属于像素第一特征图（即有四个像素第一特征图，该数量与Transformer解码器的层数三相等），1/4像素特征图属于像素第二特征图，1/4像素特征图用于与后续Transformer解码器输出的目标掩码做点乘以得到目标物体的实例分割（分割掩码）。

S400，将所述图像特征向量作为所述匹配部分的初始化查询向量queries，并作为转换解码器交叉注意力机制中的输入值（键值key）和权重系数（注意力权重系数的值value），在所述多个尺寸的像素特征图中查找用于反映预测物体的目标物体特征向量和目标类别。

在一个实施例中，像素特征图包括1/32像素特征图、1/16像素特征图、1/8像素特征图、1/4像素特征图，转换解码器包括作为输入层的第一层和作为中间层的第二层、以及作为输出层的最后一层（转换解码器的总层数为3的倍数，比如6层）。

将1/32像素特征图和图像特征向量（图像特征向量作为初始化查询queries）输入到第一层，第一层根据图像特征向量在1/32像素特征图中查找与预测物体对应的预测物体特征向量和预测类别（所谓的类别就是目标物体属于什么类型，比如草地、树木都属于植物这个类别），该预测物体特征向量与1/32像素特征图进行点乘获得预测物体的预测分割掩码，第一层输出如图2所示实线部分的预测分割掩码。

将第一层输出的预测物体特征向量和预测类别输入至第二层，以第一层的预测分割掩码作为第二层的交叉注意力掩码，在1/16像素特征图查找与预测物体对应的预测物体特征向量和预测类别，该预测物体特征向量与1/16像素特征图进行点乘获得第二层预测物体的预测分割掩码。

然后将1/8像素特征图以及第二层输出的预测物体特征向量和预测类别输入到第三层，以此类推，上一层的预测分割掩码作为下一层的的交叉注意力掩码，使得最后一层输出目标物体的目标物体特征向量和目标物体的类别（目标类别），将目标物体特征向量与最大尺寸的1/4像素特征图点乘就是目标物体所对应的分割掩码。通常，解码器总层数为3的倍数，比如6层，那么第1、2、3层分别在1/32、1/16、1/8的特征图上做交叉注意力的查询，然后4、5、6层也是分别在1/32、1/16、1/8的特征图上做交叉注意力的查询。图二中画出了3层，那么可以理解为第三层就是最后一层。

将第三层向最后一层输入的预测物体特征向量（每一层输出的向量都是这一层的图像特征经过注意力机制加权求和后经过变换得到的，都会做为下一层的查询向量query，因为query是可学习的参数，在不断的学习过程中使得下一层输出质量更好的图像特征向量）与向最后一层输入的1/8像素特征图在最后一层做点乘运算，得到最后一层输出的目标掩码。

在一个实施例中，将转换解码器的上一层输出的各个类别通过一个线性层再通过softmax得到在每种类别上的概率，将每种类别对应的概率作为下一层解码器的输入，最后一层解码器输出的预测类别，然后再通过softmax得到在每种类别上的概率，取概率最大的类别作为求得的类别。

举例说明，第一层输出了目标物体属于马的概率、目标物体属于人的概率，将第一层输出的马的概率、人的概率输入到第二层，之后上一层的输出的概率作为下一层的输入，直至最后一层选择概率最大的类别作为实测目标类别，比如最后一层通过比较发现马的概率比人的概率大，因此最后一层输出的类别为马。

S500，依据所述目标物体特征向量与最大尺寸的像素特征图，计算目标物体的分割掩码。

在一个实施例中，分割掩码是一个矩阵，矩阵的每个元素为0或1，1代表像素属于与所述目标物体对应的类别，0代表像素不属于与所述目标物体对应的类别。

在一个实施例中，转换解码器包括多层解码器，分别为从第一层的解码器至最后一层的解码器，依据所述目标物体特征向量与最大尺寸的像素特征图，从最小尺寸的像素特征图中开始查找预测，以最后一层的解码器输出的目标物体特征向量与1/8像素特征图进行点乘，得到目标掩码，目标物体特征向量再与最大尺寸的像素特征图（1/4像素特征图）进行点乘，输出所述目标物体的分割掩码和类别。

最后一层输出目标物体的分割掩码之后，还需要将最后一层输出的目标物体的分割掩码与1/4像素特征图进行点乘，之后再进行二值化就得到分割掩码，完成对待分割图像中的目标物体的分割。

综上，本发明首先提取出待分割图像中的图像特征向量，以及对待分割图像进行像素编码而得到像素特征图。然后将图像特征向量输入至转换解码器，转换解码器利用图像特征向量在像素特征图中查找与目标物体所对应的目标物体特征向量和预测类别，然后目标物体特征向量与像素特征图进行点乘后输出与目标物体所对应的分割掩码，输出的分割掩码就可以用于构建需要分割出来的目标物体图像。从上述分析可知，由于本发明综合利用了图像特征向量和像素特征图，使得本发明能够准确得到需要分割出来的目标物体的图像。

而且本发明在训练转换解码器时，启动了其内部设置的注意力掩膜矩阵，能够防止引导（MP）部分到匹配部分的信息泄漏。

本发明在真实的掩码mask上加上点状噪声后引导转换解码器的训练，进一步提高转换解码器的表现。

示例性系统

本实施例还提供一种图像分割系统，所述系统包括如下组成部分：

特征提取网络，用于提取待分割图像中的图像特征向量。

像素编码器，用于根据所述特征提取网络提取的所述图像特征向量，得到像素特征图。

转换解码器，内部设置有注意力掩膜矩阵，用于根据所述图像特征向量和所述像素特征图，得到掩码。

基于上述实施例，本发明还提供了一种终端设备，其原理框图可以如图3所示。该终端设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏。其中，该终端设备的处理器用于提供计算和控制能力。该终端设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该终端设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种图像分割方法。

本领域技术人员可以理解，图3中示出的原理框图，仅仅是与本发明方案相关的部分结构的框图，并不构成对本发明方案所应用于其上的终端设备的限定，具体的终端设备以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种终端设备，终端设备包括存储器、处理器及存储在存储器中并可在处理器上运行的图像分割程序，处理器执行图像分割程序时，实现如下操作指令：

将所述图像特征向量作为所述匹配部分的查询向量，并作为转换解码器交叉注意力机制中的输入值和权重系数，在所述多个尺寸的像素特征图中查找用于反映目标物体的目标物体特征向量；

依据所述目标物体特征向量与最大尺寸的像素特征图，计算目标物体的分割掩码和类别，所述分割掩码是一个矩阵。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本发明所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器（ROM）、可编程ROM（PROM）、电可编程ROM（EPROM）、电可擦除可编程ROM（EEPROM）或闪存。易失性存储器可包括随机存取存储器（RAM）或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM（SRAM）、动态RAM（DRAM）、同步DRAM（SDRAM）、双数据率SDRAM（DDRSDRAM）、增强型SDRAM（ESDRAM）、同步链路（Synchlink） DRAM（SLDRAM）、存储器总线（Rambus）直接RAM（RDRAM）、直接存储器总线动态RAM（DRDRAM）、以及存储器总线动态RAM（RDRAM）等。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种图像分割方法，其特征在于，所述图像分割方法包括：

将所述图像特征向量输入到已训练的转换解码器，所述已训练的转换解码器包括匹配部分和引导部分，具有交叉注意力机制、自注意力机制；

依据所述目标物体特征向量与最大尺寸的像素特征图进行点乘，计算目标物体的分割掩码；

所述已训练的转换解码器包括自注意力掩膜矩阵，在训练转换解码器的过程中，使用所述自注意力掩膜矩阵阻碍转换解码器中匹配部分与引导部分的自注意力机制的传递；

已训练的转换解码器的训练方式包括：

生成样本分割图像的样本特征向量和多尺寸的样本像素特征图；

将所述样本特征向量、所述多尺寸的样本像素特征图输入所述转换解码器的匹配部分，得到所述转换解码器匹配部分输出的训练目标掩码和训练目标类别；

将样本目标物体所对应的真实分割掩码和噪声分割掩码、真实类别输入到所述转换解码器的第一层的引导部分，得到所述转换解码器的第一层的引导部分输出的训练引导预测类别和训练引导预测特征向量；

将所述训练引导预测特征向量与所述样本像素特征图进行点乘，得到所述转换解码器的第一层的引导部分所对应的训练引导预测掩码；

将所述转换解码器的第一层的引导部分输出的所述训练引导预测类别、所述训练引导预测特征向量和所述训练引导交叉注意力掩码输入到所述转换解码器的下一中间层的引导部分，以此类推，直至所述转换解码器的最后一层的引导部分输出训练引导目标特征向量以及训练目标类别中的训练引导目标类别；

将所述训练引导目标特征向量与所述样本像素特征图进行点乘，得到训练目标掩码中的训练引导目标掩码；

分别计算所述转换解码器的匹配部分和引导部分的训练目标掩码所对应的掩码损失函数、训练目标类别所对应的类别损失函数，所述引导部分和所述匹配部分的掩码损失函数相同，所述引导部分和所述匹配部分的类别损失函数相同，用于计算掩码损失函数的训练匹配预测掩码为所述匹配部分的训练匹配预测掩码经过二分图匹配得到的预测掩码；

2.如权利要求1所述的图像分割方法，其特征在于，转换解码器包括多层解码器，分别为从第一层的解码器至最后一层的解码器，所述依据所述目标物体特征向量与最大尺寸的像素特征图进行点乘，计算目标物体的分割掩码，包括：

3.如权利要求2所述的图像分割方法，其特征在于，所述从最小尺寸的像素特征图中开始查找，依据最后一层的解码器输出的目标物体特征向量与最大尺寸的像素特征图进行点乘，得到所述目标物体的分割掩码，包括：

以最小尺寸的像素特征图和所述图像特征向量作为所述第一层的解码器的输入，将所述图像特征向量作为查询向量，在所述最小尺寸的像素特征图中查找得到所述第一层的解码器输出的预测物体特征向量；

将比最小尺寸的像素特征图大设定尺寸的像素特征图和所述第一层的解码器输出的预测物体特征向量作为下一中间层的解码器的输入，以所述第一层的解码器输出的预测分割掩码作为下一中间层的交叉注意力掩码，直至最后一层的解码器输出目标物体特征向量；

依据最大尺寸的像素特征图与所述目标物体特征向量进行点乘，得到所述目标物体的分割掩码。

4.如权利要求3所述的图像分割方法，其特征在于，转换解码器包括每一层的解码器，所述图像分割方法还包括：

5.如权利要求1所述的图像分割方法，其特征在于，所述真实分割掩码是一个矩阵，矩阵的每个元素为0或1，1代表像素属于与所述目标物体对应的预测类别，0代表像素不属于与所述目标物体对应的预测类别；

6.如权利要求5所述的图像分割方法，其特征在于，所述将所述样本特征向量、所述多尺寸的样本像素特征图输入所述转换解码器的匹配部分，得到所述转换解码器匹配部分输出的训练目标掩码和训练目标类别，包括：

将所述训练匹配目标特征向量与所述样本像素特征图进行点乘，得到所述训练目标掩码中的训练匹配目标掩码。

7.如权利要求6所述的图像分割方法，其特征在于，所述依据所述掩码损失函数和所述类别损失函数，调整转换解码器的参数，直至所述掩码损失函数和所述类别损失函数满足设定条件，得到已训练的转换解码器，包括：

8.一种图像分割系统，其特征在于，所述系统包括如下组成部分：

特征提取网络，用于提取待分割图像中用于反映所述待分割图像特征的图像特征向量；

像素编码器，用于根据所述特征提取网络提取的所述图像特征向量，得到像素特征图；

转换解码器，内部设置有注意力掩膜矩阵，用于根据所述图像特征向量和所述像素特征图，得到掩码；

转换解码器为已训练的转换解码器，已训练的转换解码器包括匹配部分和引导部分，具有交叉注意力机制、自注意力机制，所述已训练的转换解码器包括自注意力掩膜矩阵，在训练转换解码器的过程中，使用所述自注意力掩膜矩阵阻碍转换解码器中匹配部分与引导部分的自注意力机制的传递；

已训练的转换解码器的训练方式包括：

9.一种终端设备，其特征在于，所述终端设备包括存储器、处理器及存储在所述存储器中并可在所述处理器上运行的图像分割程序，所述处理器执行所述图像分割程序时，实现如权利要求1-7任一项所述的图像分割方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有图像分割程序，所述图像分割程序被处理器执行时，实现如权利要求1-7任一项所述的图像分割方法的步骤。