CN116740078A

CN116740078A - 图像分割处理方法、装置、设备以及介质

Info

Publication number: CN116740078A
Application number: CN202310681813.0A
Authority: CN
Inventors: 黄慧敏; 黄雅雯; 郑冶枫
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2023-06-08
Filing date: 2023-06-08
Publication date: 2023-09-12

Abstract

本申请实施例提供了一种图像分割处理方法、装置、设备以及介质，该方法可应用在计算机视觉领域中，用于提升图像的分割准确性。该方法包括：在源图像中提取第一空间局部特征和第一空间注意力特征；在频域中通过交换乘以各自关联的交互权重进行增强，得到注意力增强频域特征和局部增强频域特征；进而转换到空间域中得到第二空间局部特征和第二空间注意力特征；将第一空间局部特征和第二空间局部特征组成局部联合特征，将第一空间注意力特征、第二空间注意力特征以及局部联合特征组成注意力联合特征；由局部联合特征输出局部分割预测结果，由注意力联合特征输出全局分割预测结果，将局部分割预测结果和全局分割预测结果平均为最终的分割图像。

Description

图像分割处理方法、装置、设备以及介质

技术领域

本申请涉及人工智能技术领域，尤其涉及一种图像分割处理方法、装置、设备以及介质。

背景技术

图像分割(image segmentation)技术是计算机视觉领域中的重要研究方向，是图像语义理解的重要环节。图像分割可以是指将图像划分为互不相交的区域的过程，如可以将图像中的同一个对象划分为一个区域，这样可以让每个区域的分析更为容易。近年来随着深度学习技术的逐步深入，图像分割技术有了突飞猛进的发展，在图像分类、对象检测、视频分析、机器人以及自动驾驶车辆的图像处理等应用中。

目前基于深度学习的图像分割技术中，通常采用深度编码器和解码器的架构来进行图像分割处理，其中编码器用于对输入图像进行低维编码(即特征提取)，得到输入图像的特征表示，该特征表示可以输入至解码器，通过解码器生成输入图像对应的分割图像。然而，目前的编码器和解码器架构通常是基于卷积神经网络的网络结构，即都是建立在卷积层的堆叠之上；由于卷积神经网络的接受域十分受限，因此通过卷积神经网络提取到的图像特征仅挖掘了输入图像中的局部细节信息，无法表征输入图像中所包含的丰富信息；基于上述提取到的图像特征进行图像分割，很容易造成对象分割结果的边界不清晰，或者分割错误，造成图像的分割准确性过低。

发明内容

本申请实施例提供一种图像分割处理方法、装置、设备以及介质，可以提升图像分割结果的准确性。

本申请实施例一方面提供了一种图像分割处理方法，包括：

获取源图像，对源图像进行特征提取得到第一空间局部特征，对源图像进行注意力编码处理得到第一空间注意力特征；第一空间注意力特征用于表征源图像的全局信息之间的信息传递；

将第一空间局部特征转换为局部频域特征，将第一空间注意力特征转换为注意力频域特征，获取局部频域特征关联的第一交互权重，以及获取注意力频域特征关联的第二交互权重；

根据第一交互权重对注意力频域特征进行增强处理，得到注意力增强频域特征，根据第二交互权重对局部频域特征进行增强处理，得到局部增强频域特征，将局部频域特征和局部增强频域特征转换为第二空间局部特征，将注意力频域特征和注意力增强频域特征转换为第二空间注意力特征；

将第一空间局部特征和第二空间局部特征组合为局部联合特征，将第一空间注意力特征、第二空间注意力特征以及局部联合特征组合为注意力联合特征；

获取局部联合特征对应的局部分割预测结果，以及注意力联合特征对应的全局分割预测结果，根据局部分割预测结果和全局分割预测结果的平均值，生成源图像对应的分割图像。

本申请实施例一方面提供了一种图像分割处理方法，包括：

获取标注样本图像和无标注样本图像；标注样本图像用于输入至初始分割模型中的第一网络，无标注样本图像用于输入至初始分割模型中的第一网络和第二网络，第一网络和第二网络具有相同的网络结构；

通过第一网络中的初始局部特征提取器获取无标注样本图像对应的第一样本局部特征，通过第一网络中的初始全局特征提取器获取无标注样本图像对应的第一样本注意力特征；第一样本注意力特征用于表征无标注样本图像的全局信息之间的信息传递；

通过第一网络中的交互组件将第一样本局部特征转换为样本局部频域特征，将第一样本注意力特征转换为样本注意力频域特征，获取样本局部频域特征关联的第三交互权重，以及获取样本注意力频域特征关联的第四交互权重；

根据第三交互权重对样本注意力频域特征进行增强处理，得到样本注意力增强频域特征，根据第四交互权重对样本局部频域特征进行增强处理，得到样本局部增强频域特征，将样本局部频域特征和样本局部增强频域特征转换为第二样本局部特征，将样本注意力频域特征和样本注意力增强频域特征转换为第二样本注意力特征；

将第一样本局部特征和第二样本局部特征组合为第一样本局部联合特征，将第一样本注意力特征、第二样本注意力特征以及第一样本局部联合特征组合为第一样本注意力联合特征，通过第一网络中的初始局部分割组件输出第一样本局部联合特征对应的第一样本局部预测结果，通过第一网络中的初始全局分割组件输出第一样本注意力联合特征对应的第一样本全局预测结果；

将标注样本图像和无标注样本图像输入至第二网络，通过第二网络输出第二样本局部预测结果和第二样本全局预测结果，根据第一样本局部预测结果、第一样本全局预测结果、第二样本局部预测结果、第二样本全局预测结果以及标注样本图像所携带的标注信息，对初始分割模型的网络参数进行修正，将包含修正后的网络参数的第二网络确定为图像分割模型；图像分割模型用于输出源图像对应的分割图像。

本申请实施例一方面提供了一种图像分割处理装置，包括：

第一特征提取模块，用于获取源图像，对源图像进行特征提取得到第一空间局部特征，对源图像进行注意力编码处理得到第一空间注意力特征；第一空间注意力特征用于表征源图像的全局信息之间的信息传递；

第一频域转换模块，用于将第一空间局部特征转换为局部频域特征，将第一空间注意力特征转换为注意力频域特征，获取局部频域特征关联的第一交互权重，以及获取注意力频域特征关联的第二交互权重；

第一特征增强模块，用于根据第一交互权重对注意力频域特征进行增强处理，得到注意力增强频域特征，根据第二交互权重对局部频域特征进行增强处理，得到局部增强频域特征，将局部频域特征和局部增强频域特征转换为第二空间局部特征，将注意力频域特征和注意力增强频域特征转换为第二空间注意力特征；

残差连接模块，用于将第一空间局部特征和第二空间局部特征组合为局部联合特征，将第一空间注意力特征、第二空间注意力特征以及局部联合特征组合为注意力联合特征；

第一分割预测模块，用于获取局部联合特征对应的局部分割预测结果，以及注意力联合特征对应的全局分割预测结果，根据局部分割预测结果和全局分割预测结果的平均值，生成源图像对应的分割图像。

其中，第一特征提取模块具体用于：

获取源图像，将源图像输入至图像分割模型中的图像特征提取组件，通过图像特征提取组件获取源图像对应的初始图像特征；

将初始图像特征输入至图像分割模型中的局部特征提取器，通过局部特征提取器获取初始图像特征对应的第一空间局部特征；局部特征提取器包括N个卷积组件，N为正整数；

将初始图像特征输入至图像分割模型中的全局特征提取器，通过全局特征提取器获取初始图像特征对应的第一空间注意力特征；全局特征提取器包括N个注意力组件。

其中，第一特征提取模块通过图像特征提取组件获取源图像对应的初始图像特征，包括：

根据图像特征提取组件中的卷积层对源图像进行卷积操作，得到源图像对应的图像卷积结果；

根据图像特征提取组件中的归一化层对图像卷积结果进行归一化处理，得到图像归一化特征，采用图像特征提取组件中的激活函数对图像归一化特征进行激活处理，得到图像激活特征；

根据图像特征提取组件中的池化层对图像激活特征进行池化操作，得到源图像对应的初始图像特征。

其中，图像分割模型还包括交互组件，交互组件用于交换局部特征提取器中的第i个卷积组件和全局特征提取器中的第i个注意力组件之间的频域信息，i为小于或等于N的正整数；

第一特征提取模块通过局部特征提取器获取初始图像特征对应的第一空间局部特征，包括：

获取局部特征提取器中的第i个卷积组件的输入特征；i为1时，第i个卷积组件的输入特征为初始图像特征；i不为1时，第i个卷积组件的输入特征包括第i-1个卷积组件的输出特征，以及作用于第i-1个注意力组件和第i-1个卷积组件的交互组件所输出的空间局部特征；

根据第i个卷积组件中的多个卷积层，对第i个卷积组件的输入特征进行卷积操作，得到局部卷积结果；

对局部卷积结果和第i个卷积组件的输入特征进行残差连接，得到第i个卷积组件的输出特征，将局部特征提取器中的第N个卷积组件的输出特征确定为第一空间局部特征。

其中，第一特征提取模块通过全局特征提取器获取初始图像特征对应的第一空间注意力特征，包括：

获取全局特征提取器中的第i个注意力组件的输入特征；i为1时，第i个注意力组件的输入特征为初始图像特征；i不为1时，第i个注意力组件的输入特征包括第i-1个注意力组件的输出特征，第i-1个卷积组件的输出特征，以及作用于第i-1个注意力组件和第i-1个卷积组件的交互组件所输出的空间注意力特征和空间局部特征；

根据第i个注意力组件对应的变换权重矩阵，将第i个注意力组件的输入特征转换为查询组件、键矩阵以及值矩阵，对查询矩阵与键矩阵的转置矩阵进行点乘运算，得到候选权重矩阵；

获取查询矩阵的列数量，对候选权重矩阵与列数量的平方根之间的比值进行归一化处理，得到注意力权重矩阵，将注意力权重矩阵与值矩阵之间的点乘确定为注意力编码特征；

将注意力编码特征和第i个注意力组件的输入特征组合为注意力残差特征，根据第i个注意力组件中的多层感知机对注意力残差特征进行特征变换处理，得到注意力变换特征；

将注意力残差特征和注意力变换特征组合为第i个注意力组件的输出特征，将全局特征提取器中的第N个注意力组件的输出特征确定为第一空间注意力特征。

其中，第一频域转换模块将第一空间局部特征转换为局部频域特征，包括：

将第一空间局部特征输入至图像分割模型中的交互组件，通过交互组件对第一空间局部特征进行离散傅里叶变换，得到第一空间局部特征对应的频谱特征；

将第一空间局部特征所对应的频谱特征的二分之一，确定为第一空间局部特征对应的局部频域特征。

其中，第一频域转换模块获取局部频域特征关联的第一交互权重，包括：

根据交互组件中的第一个卷积层对局部频域特征的实部信息进行卷积操作，得到第一频谱卷积结果；

根据交互组件中的归一化层对第一频谱卷积结果进行归一化处理，得到频谱归一化特征，采用交互组件中的第一个激活函数对频谱归一化特征进行激活处理，得到频谱激活特征；

根据交互组件中的第二个卷积层对频谱激活特征进行卷积操作，得到第二频谱卷积结果，采用交互组件中的第二个激活函数对第二频谱卷积结果进行激活处理，得到局部频域特征关联的第一交互权重。

其中，第一特征增强模块将局部频域特征和局部增强频域特征转换为第二空间局部特征，包括：

将局部频域特征和局部增强频域特征组合为频域残差特征，通过交互组件对频域残差特征进行逆傅里叶变换，得到频域残差特征对应的空间域特征；

获取交互组件中的多层感知器对应的隐含权重矩阵和偏置向量，根据偏置向量以及隐含权重矩阵与空间域特征之间的点乘，确定源图像对应的第二空间局部特征。

其中，第一分割预测模块获取局部联合特征对应的局部分割预测结果，以及注意力联合特征对应的全局分割预测结果，包括：

将局部联合特征输入至图像分割模型中的局部分割组件，通过局部分割组件对局部联合特征进行上采样处理，得到源图像对应的局部分割预测结果；

将注意力联合特征输入至图像分割模型中的全局分割组件，通过全局分割组件对注意力联合特征进行上采样处理，得到源图像对应的全局分割预测结果。

本申请实施例一方面提供了一种图像分割处理装置，包括：

样本图像获取模块，用于获取标注样本图像和无标注样本图像；标注样本图像用于输入至初始分割模型中的第一网络，无标注样本图像用于输入至初始分割模型中的第一网络和第二网络，第一网络和第二网络具有相同的网络结构；

第二特征提取模块，用于通过第一网络中的初始局部特征提取器获取无标注样本图像对应的第一样本局部特征，通过第一网络中的初始全局特征提取器获取无标注样本图像对应的第一样本注意力特征；第一样本注意力特征用于表征无标注样本图像的全局信息之间的信息传递；

第二频域转换模块，用于通过第一网络中的交互组件将第一样本局部特征转换为样本局部频域特征，将第一样本注意力特征转换为样本注意力频域特征，获取样本局部频域特征关联的第三交互权重，以及获取样本注意力频域特征关联的第四交互权重；

第二特征增强模块，用于根据第三交互权重对样本注意力频域特征进行增强处理，得到样本注意力增强频域特征，根据第四交互权重对样本局部频域特征进行增强处理，得到样本局部增强频域特征，将样本局部频域特征和样本局部增强频域特征转换为第二样本局部特征，将样本注意力频域特征和样本注意力增强频域特征转换为第二样本注意力特征；

第二分割预测模块，用于将第一样本局部特征和第二样本局部特征组合为第一样本局部联合特征，将第一样本注意力特征、第二样本注意力特征以及第一样本局部联合特征组合为第一样本注意力联合特征，通过第一网络中的初始局部分割组件输出第一样本局部联合特征对应的第一样本局部预测结果，通过第一网络中的初始全局分割组件输出第一样本注意力联合特征对应的第一样本全局预测结果；

网络参数修正模块，用于将标注样本图像和无标注样本图像输入至第二网络，通过第二网络输出第二样本局部预测结果和第二样本全局预测结果，根据第一样本局部预测结果、第一样本全局预测结果、第二样本局部预测结果、第二样本全局预测结果以及标注样本图像所携带的标注信息，对初始分割模型的网络参数进行修正，将包含修正后的网络参数的第二网络确定为图像分割模型；图像分割模型用于输出源图像对应的分割图像。

其中，网络参数修正模块根据第一样本局部预测结果、第一样本全局预测结果、第二样本局部预测结果、第二样本全局预测结果以及标注样本图像所携带的标注信息，对初始分割模型的网络参数进行修正，将包含修正后的网络参数的第二网络确定为图像分割模型，包括：

根据无标注样本图像对应的第一样本局部预测结果和第一样本全局预测结果，确定与无标注样本图像相关联的无监督损失；

根据标注样本图像对应的第二样本局部预测结果、第二样本全局预测结果以及标注样本图像所携带的标注信息，确定与标注样本图像相关联的全监督损失；

对无监督损失和全监督损失进行加权求和，得到初始分割模型对应的模型总损失，根据模型总损失对初始分割模型的网络参数进行迭代训练，直至模型总损失满足训练结束条件时，停止训练，将训练结束时的第二网络确定为图像分割模型。

其中，网络参数修正模块具体用于：

通过第二网络获取无标注样本图像对应的第二样本局部联合特征和第二样本注意力联合特征，通过第二网络中的初始局部分割组件输出第二样本局部联合特征对应的第二样本局部预测结果，通过第二网络中的初始全局分割组件输出第二样本注意力联合特征对应的第二样本全局预测结果；

为无标注样本图像对应的第一样本局部联合特征、第一样本注意力联合特征、第二样本局部联合特征以及第二样本注意力联合特征创建类别分布图结构，根据类别分布图结构确定第一网络与第二网络之间的类别一致性损失；

对类别一致性损失、无监督损失以及全监督损失进行加权求和，得到初始分割模型对应的模型总损失，根据模型总损失对初始分割模型的网络参数进行迭代训练，直至模型总损失满足训练结束条件时，停止训练，将训练结束时的第二网络确定为图像分割模型。

其中，初始分割模型中的第一网络和第二网络均用于分割C个语义类别，C为正整数；

网络参数修正模块为第一样本局部联合特征、第一样本注意力联合特征、第二样本局部联合特征以及第二样本注意力联合特征创建类别分布图结构，根据类别分布图结构确定第一网络与第二网络之间的类别一致性损失，包括：

获取第一样本局部联合特征中属于相同语义类别的像素特征对应的特征平均值，将C个语义类别对应的特征平均值确定为第一样本局部联合特征对应的C个初始类别节点；

对第一样本局部联合特征进行平均池化处理，得到第一样本局部联合特征对应的补丁节点集合；

为补丁节点集合和C个初始类别节点构建C个独立交互图结构，将C个独立交互图结构组合为第一联合交互图结构，在C个独立交互图结构中获取C个增强类别节点，为C个增强类别节点构建第一类别交互图结构；第一联合交互图结构和第一类别交互图结构属于第一样本局部联合特征对应的类别分布图结构；

获取第一样本注意力联合特征对应的第二联合交互图结构和第二类别交互图结构，获取第二样本局部联合特征对应的第三联合交互图结构和第三类别交互图结构，获取第二样本注意力联合特征对应的第四联合交互图结构和第四类别交互图结构；

获取第二联合交互图结构与第三联合交互图结构之间的第一均方误差，获取第二类别交互图结构和第三类别交互图结构之间的第二均方误差，将第一均方误差和第二均方误差之和确定为第一模型互补损失；

获取第四联合交互图结构与第一联合交互图结构之间的第三均方误差，获取第四类别交互图结构与第一类别交互图结构之间的第四均方误差，将第三均方误差和第四均方误差确定为第二模型互补损失，将第一模型互补损失和第二模型互补损失之和确定为第一网络与第二网络之间的类别一致性损失。

其中，网络参数修正模块为补丁节点集合和C个初始类别节点构建C个独立交互图结构，包括：

将补丁节点集合和C个初始类别节点中的第j个初始类别节点组合为第j个初始交互图结构；j为小于或等于C的正整数；

将第j个初始交互图结构中的节点表示特征，以及节点表示特征的转置矩阵进行乘积运算，得到矩阵乘积结果，对矩阵乘积结果进行归一化处理，得到第j个初始交互图结构对应的邻接矩阵；

根据邻接矩阵和第j个初始交互图结构对应的权重矩阵，对第j个初始交互图结构进行图卷积处理，得到第j个独立交互图结构。

本申请实施例一方面提供了一种计算机设备，包括存储器和处理器，存储器与处理器相连，存储器用于存储计算机程序，处理器用于调用计算机程序，以使得该计算机设备执行本申请实施例中上述一方面提供的方法。

本申请实施例一方面提供了一种计算机可读存储介质，计算机可读存储介质中存储有计算机程序，计算机程序适于由处理器加载并执行，以使得具有处理器的计算机设备执行本申请实施例中上述一方面提供的方法。

根据本申请的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述一方面提供的方法。

本申请实施例中，获取到源图像之后，可以提取该源图像中的第一空间局部特征和第一空间注意力特征，该第一空间注意力特征用于表征源图像中的全局信息之间的信息传递，也就是说，既可以提取源图像中的局部信息又可以提取该源图像中的全局信息，可以提高图像特征的表征能力。进一步地，可以在频域中获取第一空间局部特征和第一空间注意力特征分别关联的交互权重，通过交换交互权重进行增强处理，得到局部频域增强特征和注意力频域增强特征，可以在频域中充分融合源图像中的局部和全局信息；进而可以转换到空间域中，对局部-全局交互后的第二空间局部特征和第二空间注意力特征进行残差连接，可以集合局部空间特征和空间注意力特征之间的互补性，由此生成的分割图像更为准确，提升了图像分割结果的准确性。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种网络架构的结构示意图；

图2是本申请实施例提供的一种图像分割场景示意图；

图3是本申请实施例提供的一种图像分割处理方法的流程示意图一；

图4是本申请实施例提供的一种图像分割模型的结构示意图；

图5是本申请实施例提供的一种图像分割处理方法的流程示意图二；

图6是本申请实施例提供的一种初始分割模型的训练示意图一；

图7是本申请实施例提供的一种图像分割处理方法的流程示意图三；

图8是本申请实施例提供的一种初始分割模型的训练示意图二；

图9是本申请实施例提供的一种第一网络与第二网络之间的类别一致性损失的示意图；

图10是本申请实施例提供的一种图像分割结果的可视化示意图；

图11是本申请实施例提供的一种图像分割处理装置的结构示意图一；

图12是本申请实施例提供的一种图像分割处理装置的结构示意图二；

图13是本申请实施例提供的一种计算机设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

为便于理解，下面先对本申请实施例涉及的基础技术概念进行描述：

计算机视觉技术(Computer Vision，CV)：计算机视觉是一门研究如何使机器“看”的科学，更进一步地说，是指用摄影机和电脑代替人眼对目标进行识别、定位和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR(Optical Character Recognition，光学字符识别)、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

本申请实施例具体涉及计算机视觉技术下属的图像分割技术，具体提出了一种基于卷积神经网络(Convolutional Neural Networks，CNN)和Transformer网络(引入了注意力机制)的图像分割模型，通过在图像分割模型中引入局部-全局交互策略(如在频域中对CNN提取到的局部特征和Transformer提取到的注意力特征进行交互增强)，可以全面结合CNN获取图像局部信息和Transformer捕捉全局依赖的优势，可以提升图像分割结果的准确性。

请参见图1，图1是本申请实施例提供的一种网络架构的结构示意图，该网络架构可以包括服务器10d和终端集群，该终端集群可以包括一个或者多个终端设备，这里不对终端集群所包含的终端设备的数量进行限制。如图1所示，该终端集群可以具体包括终端设备10a、终端设备10b以及终端设备10c等；终端集群中的所有终端设备(例如，可以包括终端设备10a、终端设备10b以及终端设备10c等)均可以与服务器10d进行网络连接，以便于各个终端设备均可以通过该网络连接与服务器10d之间进行数据交互。

终端集群的终端设备可以包括智能手机、平板电脑、笔记本电脑、掌上电脑、移动互联网设备(mobile internet device，MID)、可穿戴设备(例如智能手表、智能手环等)、智能语音交互设备、智能家电(例如智能电视等)、车载设备、飞行器等电子设备，本申请对终端设备的类型不做限定。可以理解的是，如图1所示的终端集群中的每个终端设备均可以安装应用客户端，当该应用客户端运行于各终端设备中时，可以分别与上述图1所示的服务器10d之间进行数据交互。其中，各终端设备中运行的应用客户端可以为独立的客户端，也可以为集成在某个客户端中的嵌入式子客户端，本申请对此不做限定。

其中，应用客户端可以具体包括但不限于：浏览器、车载客户端、智能家居客户端、娱乐客户端(例如，游戏客户端)、多媒体客户端(例如，视频客户端、短视频客户端)、会议客户端以及社交客户端等具有图像处理功能的客户端。其中，若终端集群所包含的终端设备为车载设备，那么该车载设备可以为智慧交通场景下的智能终端，该车载设备中所运行的应用客户端可以称为车载客户端。

其中，服务器10d可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器，本申请对服务器的类型不做限定。

可以理解的是，图1所示的各个终端设备中安装的应用客户端可以调用预先训练完成的图像分割模型，如训练完成的图像分割模型可以在应用客户端中进行上线。在图像分割场景中，终端设备10a中所安装的应用客户端在获取到源图像之后，可以利用已训练完成的图像分割模型对源图像进行语义分割，生成该源图像对应的分割图像，该分割图像可以在应用客户端中进行展示。可选地，终端设备10a中的应用客户端也可以将源图像上传至服务器10d(该服务器10d可以为应用客户端的后台服务)，由服务器10d利用训练完成的图像分割模型对源图像进行语义分割，生成该源图像对应的分割图像，并将该分割图像传输给应用客户端进行展示。应当理解，源图像的语义分割过程可以由计算机设备执行，该计算机设备可以为图1所示的终端集群中的任意一个终端设备，或者可以为服务器10d，或者可以为计算机程序(包括程序代码，如终端设备中所安装的应用客户端)，本申请实施例对此不做限定。

其中，源图像可以为任意类型的图像，包括但不限于自然场景图像、医学影像图片、道路拍摄图像等，即本申请实施例所训练得到的图像分割模型可以应用在各种图像类型的分割任务中，应用范围广泛。为便于理解，前述图像分割模型可以是指用于对图像进行语义分割处理的网络模型，该图像分割模型的输入数据为任意类型的源图像，该图像分割模型的输出数据为源图像生成的分割图像。训练阶段的分割模型(即未完成训练的分割模型)可以称为初始分割模型，初始分割模型和图像分割模型可以具有相同的网络结构，也可以具有不同的网络结构(图像分割模型仅为训练完成的初始分割模型中的部分网络结构)。其中，图像分割模型和初始分割模型的具体结构将在后续实施例中进行详细描述。

进一步地，请参见图2，图2是本申请实施例提供的一种图像分割场景示意图。如图2所示，终端设备10a在获取到源图像20a之后，可以将该源图像传输给服务器10d进行图像分割处理。也就是说，服务器10d可以接收终端设备传输的源图像20a，并获取已经训练完成的图像分割模型；通过该图像分割模型对源图像20a进行图像分割处理，输出该源图像20a的分割结果，该分割结果可以包含源图像20a中的所有像素分别对应的类别标签(如图2所示，类别标签可以包括字符“0”和字符“1”，其中字符“0”表示源图像20a中的图像背景，字符“1”表示源图像20a中的对象，比如狗)。其中，该源图像20a中的所有像素对应的类别标签可以如图2所示的区域20b所示。基于区域20b中的各个像素对应的类别标签，可以生成源图像20a对应的分割图像20c。

可以理解的是，图2所示的像素的类别标签仅为本申请实施例中的一种举例呈现，在实际应用场景中，还可以采用其他类型标签进行表示。需要进行图像分割的源图像中除了图像背景之外，还可以包括一个或多个对象，如车辆、行人、动物、树木、道路、路灯、建筑等，通过图像分割模型可以分割出源图像中的每一个对象。在分割图像中可以通过使用不同的颜色来填充源图像中的各个对象所在的区域，或者可以使用不同样式(例如，实线、虚线等)或不同颜色的线条标出源图像中的各个对象的轮廓边界，本申请实施例对此不做限定。

其中，下面结合图3和图4所对应的实施例对本申请实施例提供的图像分割图像在图像分割场景中的应用过程进行详细描述。

请参见图3，图3是本申请实施例提供的一种图像分割处理方法的流程示意图一；可以理解地，该图像分割处理方法可以由计算机设备执行，该计算机设备可以为服务器(如图1所示的服务器10d)，或者可以为终端设备(如图1所示的终端集群中的任意一个终端设备)，本申请对此不做限定。如图3所示，该图像分割处理方法可以包括以下步骤S101至步骤S105：

步骤S101，获取源图像，对源图像进行特征提取得到第一空间局部特征，对源图像进行注意力编码处理得到第一空间注意力特征；第一空间注意力特征用于表征源图像的全局信息之间的信息传递。

本申请实施例中，计算机设备可以从不同的渠道获取需要进行分割处理的源图像。其中，此处的渠道可以是指获取源图像的方式，该渠道可以包括但不限于：采用摄像设备直接拍摄，从视频平台、短视频平台等应用客户端中直接下载，从取得数据读取权限的医疗管理系统、交通管理系统等系统中直接调用，此处不再进行一一举例，本申请对源图像的类型不做限定。举例来说，源图像可以为医疗图像，如显微镜下拍摄的病理图像、计算机断层显像、核磁共振成像、电脑断层扫描等；或者源图像可以为自然图像，如使用摄像设备拍摄的自然场景图像；或者可以为电视剧、电影、综艺、动漫、新闻、音乐短片、直播等视频中截取的图片等。

在获取到源图像之后，可以获取已训练完成的图像分割模型，该图像分割模型可以对源图像进行语义分割处理，将源图像中属于相同语义类别的像素确定为同一个对象，生成该源图像对应的分割图像(例如，图2所对应实施例中的分割图像20c)，通过该分割图像可以很直观地感知源图像中所包含的各个对象所在的区域范围。该图像分割模型可以包括图像特征提取组件、局部特征提取器、全局特征提取器、交互组件、局部分割组件以及全局分割组件等。

其中，图像特征提取组件可以用于提取源图像中的初始图像特征，该初始图像特征可以同时输入到局部特征提取器和全局特征提取器这两个并行的分支中；该图像特征提取组件可以由一个或多个卷积层、归一化层、激活函数、池化层等网络层组成，该图像特征提取组件可以记为Stem组件，本申请实施例对Stem组件的网络结构不做限定。局部特征提取器可以用于提取源图像中的局部信息，该局部特征提取器的网络结构可以为卷积神经网络(CNN)，包括但不限于ResNet(一种残差网络模型)、DenseNet(一种稠密连接网络模型)、VGGNet(一种卷积神经网络模型)以及上述任意一个卷积神经网络的变形，或者上述任意两个或两个以上网络的组合等，本申请实施例对局部特征提取的网络结构不做限定。全局特征提取器可以用于提取源图像中的全局信息，该全局特征提取器的网络结构可以为transformer(一个利用注意力机制的网络模型)、Conformer(一个由卷积神经网络和transformer组合的网络模型)以及前述任意一个网络模型的变形等，本申请实施例对全局特征提取器的网络结构不做限定。交互组件用于在频域中交换局部特征提取器和全局特征提取器之间的信息，可以充分结合局部特征提取器获取局部细节和全局特征提取器捕捉全局依赖的优势，图像分割模型中的交互组件还可以称为局部-全局交互组件(local globalinteractions，LGI)。

局部分割组件和全局分割组件可以具有相同的网络结构，局部分割组件与局部特征提取器属于同一个分支，局部分割组件用于对局部特征提取器所输出的局部特征进行还原，以得到局部分割预测结果；全局分割组件和全局特征提取器属于同一个分支，全局分割组件可以对全局特征提取所输出的全局特征(注意力特征)进行还原，以得到全局分割预测结果。

为便于理解，本申请实施例以局部特征提取器是以ResNet作为基础框架的网络结构、全局特征提取器是以transformer作为基础框架的网络结构为例，对源图像的图像分割处理过程进行描述。其中，基于ResNet的体系结构，局部特征提取器可以包括N个卷积组件(卷积块)，N可以为正整数，如N可以取值为1，2，3……；当ResNet具体为ResNet-101结构时，局部特征提取器所包含的N个卷积组件可以分为四个阶段，模型网络层越深入，通道维度逐渐增加，而四个阶段的卷积组件所输出的特征的分辨率则逐渐下降；例如，四个阶段的卷积组件的通道维度可以分别为256、512、1024、2048，此时各个阶段的卷积组件所输出的特征的分辨率则分别下降1/4、1/8、1/16、1/16。全局特征提取器与局部特征提取器是平行的，全局特征提取器可以包括N个注意力组件(也可以称为编码块)，每个阶段中的注意力组件所输出特征的尺寸与局部特征提取的对应阶段中的卷积组件所输出特征的尺寸是一致的；具体而言，可以使用PVT(Pyramid Vision Transformer，一种在Transformer中引入金字塔结构的网络模型)作为全局特征提取器，PVT可以由轻量级的Multi-head Self-Attention(多头自注意力结构，MHSA)和Multi-Layer Perceptron(多层感知机，MLP)组成注意力组件进行特征提取。为了提取更为丰富的图像信息，可以将增强后的局部特征和Transformer进行相加作为下一个阶段的输入。

具体的，可以将获取到的源图像输入至图像分割模型中的图像特征提取组件，通过该图像特征提取组件可以获取源图像对应的初始图像特征，进而可以将初始图像特征输入至并行的局部特征提取器和全局特征提取器，通过局部特征提取器可以获取初始图像特征对应的第一空间局部特征；通过全局特征提取器可以获取初始图像特征对应的第一空间注意力特征，第一空间局部特征和第一空间注意力特征具有相同的尺寸。

其中，在一个或多个实施例中，图像分割模型中的图像特征提取组件可以包括三个连续的3×3卷积层(卷积层对应的卷积核尺寸为3×3)、一个归一化层、一个激活函数以及一个步长(stride)为2的池化层；其中，该激活函数可以为ReLU函数、Sigmoid函数、LeakyReLU函数、PReLU函数、ELU(Exponential Linear Unit)函数等，本申请实施例对图像特征提取组件中所使用的激活函数的类型不做限定；池化层可以为最大池化层，也可以为平均池化层，本申请实施例对此不做限定。可以理解的是，通过图像特征提取组件获取初始图像特征的过程可以包括：根据所述图像特征提取组件中的卷积层(具体可以为3个连续的3×3卷积层)对所述源图像进行卷积操作，得到所述源图像对应的图像卷积结果；进而可以根据所述图像特征提取组件中的归一化层对所述图像卷积结果进行归一化处理，得到图像归一化特征，采用所述图像特征提取组件中的激活函数(例如，ReLU函数)对所述图像归一化特征进行激活处理，得到图像激活特征；根据所述图像特征提取组件中的池化层(例如，步长为2的最大池化层，可以理解为图像激活特征中每4个相邻的像素值都可以采用其中最大的像素值来表示)对所述图像激活特征进行池化操作，得到所述源图像对应的初始图像特征。通过图像特征提取组件对源图像进行特征提取，可以降低输入数据的维度，过滤掉源图像中的一些非关键信息，进而可以减小后续步骤的计算复杂度。

可以理解的是，图像分割模型中的交互组件可以用于交换局部特征提取器中的第i个卷积组件和全局特征提取器中的第i个注意力组件之间的频域信息，可以对其各自的输出特征进行增强处理，得到增强后的空间局部特征和增强后的空间注意力特征；i为小于或等于N的正整数。例如，交互组件可以作用于局部特征提取器中的第一个卷积组件的输出特征与全局特征提取器中的第一个注意力组件的输出特征；通过交互组件增强后的特征可以分别输入第二个卷积组件和第二个注意力组件中，该交互组件可以继续作用于第二个卷积组件的输出特征与第二个注意力组件的输出特征，以此类推，将局部特征提取器中的最后一个卷积组件(即第N个卷积组件)的输出特征作为第一空间局部特征，将全局特征提取器中的最后一个注意力组件(即第N个注意力组件)的输出特征作为第一空间注意力特征。应当理解，交互组件作用于每一组卷积组件和注意力组件时的实现过程都是相同的，本申请实施例以最后一组卷积组件和注意力组件为例进行描述，具体可参见下述步骤S102至步骤S104中的描述。

其中，通过局部特征提取器获取第一空间局部特征的过程可以包括但不限于：获取局部特征提取器中的第i个卷积组件的输入特征；i为1时，第i个卷积组件的输入特征为初始图像特征，即局部特征提取器中的第一个卷积组件的输入特征为初始图像特征；i不为1时，第i个卷积组件的输入特征包括第i-1个卷积组件的输出特征，以及作用于第i-1个注意力组件和第i-1个卷积组件的交互组件所输出的空间局部特征；即后一个(如第i个)卷积组件的输入特征可以为前一个(如第i-1个)卷积组件的输出特征，以及通过交互组件对前一个卷积组件的输出特征进行增强后的空间局部特征。根据第i个卷积组件中的多个卷积层，对第i个卷积组件的输入特征进行卷积操作，得到局部卷积结果；对局部卷积结果和第i个卷积组件的输入特征进行残差连接(即对局部卷积结果和第i个卷积组件的输入特征进行相加)，得到第i个卷积组件的输出特征，以此类推，可以依次得到局部特征提取器中的每一个卷积组件的输出特征，最终可以将局部特征提取器中的第N个卷积组件的输出特征确定为第一空间局部特征。

其中，通过全局特征提取器获取第一空间注意力特征的过程可以包括但不限于：获取全局特征提取器中的第i个注意力组件的输入特征；i为1时，第i个注意力组件的输入特征为初始图像特征，即全局特征提取器中的第一个注意力组件的输入特征为初始图像特征；i不为1时，第i个注意力组件的输入特征包括第i-1个注意力组件的输出特征，第i-1个卷积组件的输出特征，以及作用于第i-1个注意力组件和第i-1个卷积组件的交互组件所输出的空间注意力特征和空间局部特征；即后一个(如第i个)注意力组件的输入特征可以为前一个(如第i-1个)注意力组件的输出特征，以及通过交互组件对前一个(如第i-1个)注意力组件的输出特征进行增强后的空间注意力特征，以及当前第i个卷积组件的输入特征。

应当理解，全局特征提取器中的每一个注意力组件可以包括一个或多个自注意力结构(Self-Attention)，且每一个注意力组件所包含的自注意力结构的数量可以是相同的。为便于理解，下面以第i个注意力组件仅包含一个自注意力结构为例进行描述。进而可以获取第i个注意力组件对应的变换权重矩阵，根据第i个注意力组件对应的变换权重矩阵，可以将第i个注意力组件的输入特征转换为查询组件Q、键矩阵K以及值矩阵V。其中，第i个注意力组件对应的变换权重矩阵可以包括三个参数矩阵，如参数矩阵W_q、参数矩阵W_k以及参数矩阵W_v，第i个注意力组件对应的变换权重矩阵是在图像分割模型的训练过程中学习得到的参数。将第i个注意力组件的输入特征与变换权重矩阵中的参数矩阵W_q进行点乘可以得到查询矩阵Q，将第i个注意力组件的输入特征与变换权重矩阵中的参数矩阵W_k进行点乘可以得到键矩阵K，将第i个注意力组件的输入特征与变换权重矩阵中的参数矩阵W_v进行点乘可以得到值矩阵V。上述查询矩阵中的每个查询向量可以用于编码每个特征与其他特征之间的相似性关系，该相似性关系可以决定该特征与前序特征之间的依赖信息。

进一步地，对查询矩阵与键矩阵的转置矩阵进行点乘运算，得到候选权重矩阵(可以表示为QK^T)，该候选权重矩阵可以认为是查询矩阵Q和键矩阵K中的每一行向量的内积(也可以称为点乘、点积)，为了防止内积过大，可以获取查询矩阵Q对应的列数量(查询矩阵Q和键矩阵K具有相同的列数量，也可以称为向量维度)；进而对候选权重矩阵与列数量的平方根(可以记为)之间的比值进行归一化处理，得到注意力权重矩阵，将注意力权重矩阵与值矩阵V之间的点乘确定为第i个注意力组件对初始图像特征的注意力编码特征。

其中，注意力权重矩阵可以表示为softmax函数是指用于归一化处理的函数，softmax函数可以用于计算单个特征对于其他特征的自注意力系数，通过softmax函数可以对/>中的每一行进行softmax。将注意力权重矩阵与值矩阵V之间的点乘，确定为第i个注意力组件对初始图像特征的编码特征(可以表示为/>)。当第i个注意力组件仅包含一个自注意力结构时，此时的编码特征O₁可以作为第i个注意力组件对初始图像特征的注意力编码特征。

可选地，若全局特征提取器中的各个注意力组件包括多个自注意力结构，则第i个注意力组件中的每一个自注意力结构都可以对应一个编码特征，如编码特征O₁、编码特征O₂、编码特征O₃，……；进而可以将多个自注意力结构对应的编码特征拼接为一个第i个注意力组件对初始图像特征的注意力编码特征，此处的拼接可以为concat操作。进一步地，可以将第i个注意力组件对初始图像特征的注意力编码特征和第i个注意力组件的输入特征组合为注意力残差特征。

在得到上述第i个注意力组件对应的注意力残差特征之后，可以将该注意力残差特征输入至第i个注意力组件中的多层感知机，根据第i个注意力组件中的多层感知机对注意力残差特征进行特征变换处理，得到注意力变换特征；例如，具体可以根据第i个注意力组件中的多层感知机所对应的隐含权重和偏置向量，对注意力残差特征进行线性变换，最终可以输出注意力变换特征。进而可以将注意力残差特征和注意力变换特征组合为第i个注意力组件的输出特征，即将注意力残差特征和注意力变换特征相加得到第i个注意力组件的输出特征；以此类推，可以依次得到全局特征提取器中的每一个注意力组件的输出特征，最终可以将全局特征提取器中的第N个注意力组件的输出特征确定为第一空间注意力特征。

可选地，在一个或多个实施例中，将初始图像特征输入全局特征提取器之前，可以对该初始图像特征进行位置编码，得到该初始图像特征对应的位置编码信息，将初始图像特征和位置编码信息相加后的组合特征输入到全局特征提取器的第一个注意力组件中，进而可以基于全局特征提取器中的N个注意力组件对由初始图像特征和位置编码信息相加得到的组合特征进行计算，最终得到第一空间注意力特征。其中，其中，申请实施例所涉及的位置编码方式可以包括但不限于：正余弦位置编码(2D sine position embedding)、可学习位置编码(learnable position embedding)等。

步骤S102，将第一空间局部特征转换为局部频域特征，将第一空间注意力特征转换为注意力频域特征，获取局部频域特征关联的第一交互权重，以及获取注意力频域特征关联的第二交互权重。

具体的，根据傅里叶理论中的谱卷积定理，傅里叶域中的逐点更新可以全局影响所有输入特征，因此，在频域上进行学习可以同时调整所有频率，以捕捉长期或短期的相互作用。受此启发，本申请实施例在图像分割模型中引入了模型内局部-全局交互组件(可以简称为交互组件)，通过该交互组件探索频域内的相互作用；图像分割模型中的交互组件可以作用于局部特征提取器和全局特征提取器中处于相同位置每一组卷积组件和注意力组件，下面以交互组件作用于第一空间局部特征和第一空间注意力特征(即局部特征提取器中的最后一个卷积组件和全局特征提取器中的最后一个注意力组件)为例，对交互组件的实现方式进行详细描述。

可以将第一空间局部特征和第一空间注意力特征均从空间域转换到频域，如第一空间局部特征转换为局部频域特征，第一空间注意力特征转换为注意力频域特征。其中，本申请实施例所采用的频域转换方法可以包括但不限于：离散傅里叶变换(DiscreteFourier Transform，DFT)、快速傅里叶变换(Fast Fourier Transform，简称为FFT)、拉普拉斯变换、Z变换、小波变换等。为便于理解，本申请实施例以FFT为例，对第一空间局部特征和第一空间注意力特征进行频域变换。该FFT是离散傅里叶变换的快速算法，根据离散傅里叶变换的奇、偶、虚、实等特性，对离散傅里叶变换的算法进行改进获得的；采用FFT进行频域变换可以提高后续的数据处理效率。

其中，将第一空间局部特征输入到图像分割模型中的交互组件之后，可以通过交互组件对第一空间局部特征进行离散傅里叶变换(具体可以为FFT)，得到第一空间局部特征对应的频谱特征，此处的频谱特征可以作为局部频域特征。对第一空间注意力特征进行FFT，可以得到第一空间注意力特征对应的频谱特征，此处的频谱特征可以作为注意力频域特征。其中，FFT作为交互组件的第一步，第一空间局部特征和第一空间注意力特征可以通过以下方式从空间域转换为傅里叶域：其中，x_CNN表示第一空间局部特征，/>表示快速傅里叶变换，X_CNN表示第一空间局部特征的频谱特征(可以作为局部频域特征特征)，x_Trans表示第一空间注意力特征，X_Trans表示第一空间注意力特征的频谱特征(可以作为注意力频域特征)。

可选地，在一个或多个实施例中，在得到第一空间局部特征对应的频谱特征，以及第一空间注意力特征对应的频谱特征之后，可以将第一空间局部特征所对应的频谱特征的二分之一，确定为第一空间局部特征对应的局部频域特征，此时的局部频域特征可以记为1/2X_CNN；将第一空间注意力特征所对应的频谱特征的二分之一，确定为第一空间注意力特征对应的注意力频域特征，此时的注意力频域特征可以记为1/2X_Trans。换言之，可以利用离散傅里叶变换的共轭对称特性，只保留频谱特征(X_CNN和X_Trans)中值的一半，即将频谱特征X_CNN中值的一半作为局部频域特征，将频谱特征X_Trans中值的一半作为注意力频域特征。实质上，可以利用DFT的共轭对称性，通过保留的一半值计算得到舍去的另一半值；此时的局部频域特征和注意力频域特征的尺寸可以表示为H×(W/2)×D，其中，H表示第一空间局部特征(第一空间注意力特征)的高度，W表示第一空间局部特征(第一空间注意力特征)的宽度，D表示第一空间局部特征(第一空间注意力特征)的通道数。本申请实施例利用离散傅里叶变换的共轭对称特性仅保留频谱特征值的一半，可以在不损失重要信息的情况下，可以提高计算效率。

进一步地，可以从局部特征提取器和全局特征提取器两个分支中学习交互权重，如可以从局部特征提取器中学习局部频域特征关联的第一交互权重从全局特征提取器中学习注意力频域特征关联的第二交互权重/>此处的第一交互权重和第二交互权重可以统称为交互权重。第一交互权重/>和第二交互权重/>均可以采用简单有效的网络结构生成，该网络结构可以包括两个卷积层(例如，两个1×1卷积层)、归一化层、GELU激活层、sigmoid激活层等组成，如一个卷积层后可以连接一个激活层，这些网络层可以根据实际应用场景需求增加或减少层数，且以任意形式进行连接，本申请实施例对用于生成交互权重的网络结构不做限定。

可以理解的是，第一交互权重和第二交互权重/>的生成方式是相同的；为便于理解，本申请实施例仅对第一交互权重/>的生成过程进行详细描述。其中，第一交互权重的生成过程可以包括：根据交互组件中的第一个卷积层(例如，具体可以为1×1卷积层)对局部频域特征的实部信息进行卷积操作，得到第一频谱卷积结果；根据交互组件中的归一化层(此处的归一化层可以为BN层)对第一频谱卷积结果进行归一化处理，得到频谱归一化特征，采用交互组件中的第一个激活函数(例如，GELU函数)对频谱归一化特征进行激活处理，得到频谱激活特征；根据交互组件中的第二个卷积层(同样可以为一个1×1卷积层)对频谱激活特征进行卷积操作，得到第二频谱卷积结果，采用交互组件中的第二个激活函数(例如，sigmoid函数)对第二频谱卷积结果进行激活处理，得到局部频域特征关联的第一交互权重。本申请实施例中，只使用局部频域特征(注意力频域特征)的实部信息来生成交互权重，可以提高计算效率。

步骤S103，根据第一交互权重对注意力频域特征进行增强处理，得到注意力增强频域特征，根据第二交互权重对局部频域特征进行增强处理，得到局部增强频域特征，将局部频域特征和局部增强频域特征转换为第二空间局部特征，将注意力频域特征和注意力增强频域特征转换为第二空间注意力特征。

具体的，可以通过交换交互权重的方式对局部频域特征和注意力频域特征进行增强处理，可以有效地交换局部特征提取器和全局特征提取器两个分支之间的信息。根据第一交互权重对注意力频域特征进行增强处理，可以得到注意力增强频域特征，根据第二交互权重/>对局部频域特征进行增强处理，可以得到局部增强频域特征；其中，第一交互权重/>注意力频域特征、注意力增强频域特征，以及第二交互权重/>局部频域特征、局部增强频域特征之间的关系可以如下述公式(1)所示：

其中，表示局部增强频域特征，X_CNN表示局部频域特征，⊙表示矩阵点乘，表示注意力增强频域特征，X_Trans表示注意力频域特征。

进一步地，可以将增强后的局部增强频域特征和增强前的局部频域特征一同转换回空间域，并使用多层感知机作为信道混频器，可以得到第二空间局部特征。同理，将增强后的注意力增强频域特征和增强前的注意力频域特征一同转换回空间域，并使用多层感知机作为信道混频器，可以得到第二空间注意力特征。应当理解，从频域转换到空间域的过程可以通过逆傅里叶变换(IFFT)来实现。

其中，将局部频域特征和局部增强频域特征组合为频域残差特征，通过交互组件对频域残差特征进行逆傅里叶变换，可以得到频域残差特征对应的空间域特征；获取交互组件中的多层感知器对应的隐含权重矩阵和偏置向量，根据偏置向量以及隐含权重矩阵与空间域特征之间的点乘，确定源图像对应的第二空间局部特征。同理，可以将注意力频域特征和注意力增强频域特征进行组合，并对组合后的特征进行逆傅里叶变换，可以得到全局特征提取器分支上的空间域特征，进而通过多层感知机输出第二空间注意力特征。其中，局部频域特征、局部增强频域特征、第二空间局部特征，以及注意力频域特征、注意力增强频域特征、第二空间注意力特征之间的关系可以如下述公式(2)所示：

其中，表示第二空间局部特征在经过多层感知机之前的空间域特征，/>表示逆傅里叶变换，/>表示第二空间注意力特征在经过多层感知机之前的空间域特征；H×W×D表示第二空间局部特征和第二空间注意力特征的尺寸。

步骤S104，将第一空间局部特征和第二空间局部特征组合为局部联合特征，将第一空间注意力特征、第二空间注意力特征以及局部联合特征组合为注意力联合特征。

具体的，通过图像分割模型中的交互组件进行增强处理后最终输出的第二空间局部特征，可以与原来输入至交互组件的第一空间局部特征进行结合形成残差路径，即可以将第一空间局部特征和第二空间局部特征相加为局部联合特征。同理，可以将第一空间注意力特征和第二空间注意力特征相加为联合特征；对于全局特征提取器分支，还可以加上局部特征提取分支上的第二空间局部特征作为注意力联合特征。

步骤S105，获取局部联合特征对应的局部分割预测结果，以及注意力联合特征对应的全局分割预测结果，根据局部分割预测结果和全局分割预测结果的平均值，生成源图像对应的分割图像。

具体的，可以将局部联合特征输入至图像分割模型中的局部分割组件，通过局部分割组件对局部联合特征进行上采样处理，得到源图像对应的局部分割预测结果；将注意力联合特征输入至图像分割模型中的全局分割组件，通过全局分割组件对注意力联合特征进行上采样处理，得到源图像对应的全局分割预测结果。其中，局部分割组件和全局分割组件为两个并行分支上的分割组件(Segmentation Head)，两者具有相同的网络结构，如现有技术DeepLabV3+(一种图像分割技术)中的Segmentation Head，或者可以为其他具有恢复图像能力的解码结构，本申请实施例对局部分割组件和全局分割组件的网络结构不做限定。

可以理解的是，局部分割预测结果是通过局部特征提取器分支上获得的局部联合特征预测得到的分割结果，全局分割预测结果是通过全局特征提取器分支上获得的注意力联合特征预测得到的分割结果。通过对局部分割预测结果和全局分割预测结果求平均，可以生成最终的分割图像(如图2所示的分割图像20c)。

请参见图4，图4是本申请实施例提供的一种图像分割模型的结构示意图。如图4所示，在获取到源图像之后，可以将该源图像输入至图像分割模型中的图像特征提取器，通过该图像特征提取器可以获取源图像对应的初始图像特征，该初始图像特征可以输入到两个并行的分支中，分别为局部特征提取器分支(由于该分支可以是以卷积神经网络为主要框架的网络结构，因此可以称为CNN分支)和全局特征提取器分支(由于该分支可以是以Transformer为主要框架的网络结构，因此可以称为Transformer分支)。换言之，初始图像特征可以输入至CNN分支中的第一个卷积组件(也可以称为第一个卷积块，即Conv Block)和Transformer分支中的第一个注意力组件(也可以称为Transformer编码块，即TransBlock)。

由第一个卷积组件对初始图像特征进行计算，可以得到第一个卷积组件的输出特征，可以记为同样地，由第一个注意力组件对初始图像特征进行计算，可以得到第一个注意力组件的输出特征，可以记为/>进一步地，可以对通过图像分割模型中的局部-全局交互组件30a对/>和/>进行增强处理，如可以对/>进行快速傅里叶变换(FFT)，得到/>的频谱(可以记为/>)；同样可以对/>进行快速傅里叶变换(FFT)，得到/>的频谱(可以记为/>)。进而可以通过两个1×1卷积层(第一卷积层和第二卷积层)、两个激活函数(第一激活函数可以为GELU，第二激活函数可以为sigmoid)以及一个归一化层，生成CNN分支上的第一交互权重，即频谱/>关联的第一交互权重。通过同样的方式可以生成Transformer分支上的第二交互权重，即频谱/>关联的第二交互权重。

进一步地，可以通过将第一交互权重乘以频谱进行增强处理，得到增强后的频谱/>进而可以将增强后的频谱/>与增强前的频谱/>相加进行逆傅里叶变换(IFFT)，经过一个多层感知机可以得到增强后的局部特征/>同样地，可以得到增前后的注意力特征/>进而可以将增强后的局部特征/>和原来的局部特征相加，作为第二个卷积组件的输入特征(即/>)；而对于Transformer分支，则可以将增强后的注意力特征/>和原来的注意力特征/>以及第二个卷积组件的输入特征作为第二个注意力组件的输入特征(即/>)。可以理解的是，后续的每一组卷积组件和注意力组件都需要采用局部-全局交互组件来进行增强处理，其处理过程可以与前述描述一致，此处不再进行赘述。由局部-全局交互组件和CNN分支中的N个卷积组件最终可以得到局部联合特征(可以表示为/>其中/>表示第N个卷积组件的输出特征，即前述第一空间局部特征，/>表示第二空间局部特征)；由局部-全局交互组件和Transformer分支中的N个注意力组件最终可以得到注意力联合特征(可以表示为/> 其中/>第N个注意力组件的输出特征，即前述第一空间注意力特征，/>表示第二空间注意力特征)。

进一步地，局部联合特征可以输入至CNN分支中的局部分割组件，输出局部分割预测结果，注意力联合特征可以输入至Transformer分支中的全局分割组件，输出全局分割预测结果，将局部分割预测结果和全局分割预测结果平均为源图像对应的分割图像。

本申请实施例中，本申请实施例中，获取到源图像之后，可以提取该源图像中的第一空间局部特征和第一空间注意力特征，该第一空间注意力特征用于表征源图像中的全局信息之间的信息传递，也就是说，既可以提取源图像中的局部信息又可以提取该源图像中的全局信息，可以提高图像特征的表征能力。进一步地，可以在频域中获取第一空间局部特征和第一空间注意力特征分别关联的交互权重，通过交换交互权重进行增强处理，得到局部频域增强特征和注意力频域增强特征，可以在频域中充分融合源图像中的局部和全局信息；进而可以转换到空间域中，对局部-全局交互后的第二空间局部特征和第二空间注意力特征进行残差连接，可以集合局部空间特征和空间注意力特征之间的互补性，由此生成的分割图像更为准确，提升了图像分割结果的准确性。

可以理解的是，图像分割模型为训练完成的分割模型，也就是说，完成模型训练的分割模型才能正式应用在图像语义分割场景中；为便于理解，训练阶段中的分割模型可以称为初始分割模型。下面将结合附图5至图10对初始分割模型的训练过程进行描述。

请参见图5，图5是本申请实施例提供的一种图像分割处理方法的流程示意图二；可以理解地，该图像分割处理方法可以由计算机设备执行，该计算机设备可以为服务器，或者可以为终端设备，本申请对此不做限定。如图5所示，该图像分割处理方法可以包括以下步骤S201至步骤S209：

步骤S201，获取标注样本图像和无标注样本图像；标注样本图像用于输入至初始分割模型中的第一网络，无标注样本图像用于输入至初始分割模型中的第一网络和第二网络，第一网络和第二网络具有相同的网络结构。

本申请实施例中，初始分割模型的训练过程是一个半监督学习(Semi-SupervisedLearning，SSL)过程，即利用无标记样本图像来减轻对大量标注样本图像的依赖，从而提高图像分割模型的数据利用率。在模型训练阶段，可以获取用于训练初始分割模型的标注样本图像和无标注样本图像；标注样本图像为携带标注信息的样本图像，无标注样本图像为未携带标注信息的样本图像。其中，初始分割模型是一个Mean-Teacher(均值教师)结构的半监督模型，也就是说，初始分割模型中引入了两个网络，分别为第一网络和第二网络，第一网络可以作为教师网络指导第二网络(学生网络)的训练。第二网络可以同时输入标注样本图像和无标注样本图像，第一网络只输入无标注样本图像。其中，第一网络和第二网络具有相同的网络结构，例如，第一网络和第二网络的网络结构均如前述图4所对应实施例中的网络结构。本申请实施例中，用于训练初始分割模型的无标注样本数据和标注样本数据可以从目前公开的数据集中得到，或者采用其他任意方式获取得到，本申请实施例对此不做限定。

步骤S202，通过第一网络中的初始局部特征提取器获取无标注样本图像对应的第一样本局部特征，通过第一网络中的初始全局特征提取器获取无标注样本图像对应的第一样本注意力特征。

步骤S203，通过第一网络中的交互组件将第一样本局部特征转换为样本局部频域特征，将第一样本注意力特征转换为样本注意力频域特征，获取样本局部频域特征关联的第三交互权重，以及获取样本注意力频域特征关联的第四交互权重。

步骤S204，根据第三交互权重对样本注意力频域特征进行增强处理，得到样本注意力增强频域特征，根据第四交互权重对样本局部频域特征进行增强处理，得到样本局部增强频域特征。

步骤S205，将样本局部频域特征和样本局部增强频域特征转换为第二样本局部特征，将样本注意力频域特征和样本注意力增强频域特征转换为第二样本注意力特征。

步骤S206，将第一样本局部特征和第二样本局部特征组合为第一样本局部联合特征，将第一样本注意力特征、第二样本注意力特征以及第一样本局部联合特征组合为第一样本注意力联合特征。

步骤S207，通过第一网络中的初始局部分割组件输出第一样本局部联合特征对应的第一样本局部预测结果，通过第一网络中的初始全局分割组件输出第一样本注意力联合特征对应的第一样本全局预测结果。

其中，请参见图6，图6是本申请实施例提供的一种初始分割模型的训练示意图一。如图6所示，初始分割模型包括第一网络和第二网络，两个网络具有相同的网络结构，如第一网络可以包括两个分支，分别为CNN分支和Transformer分支，第二网络同样可以包括CNN和Transformer两个分支；其中，CNN分支可以用于提取输入样本图像中的局部特征，Transformer分支可以用于提取输入样本图像中的全局特征。

可以将无标注样本图像输入到第一网络中，通过第一网络中两个并行的分支(CNN分支和Transformer分支)以及引入的局部-全局交互组件，可以得到无标注样本图像对应的第一样本局部联合特征和第一样本注意力联合特征。其中，第一样本局部联合特征的获取过程可以参见前述图3所对应实施例中的局部联合特征获取过程的相关描述，第一样本注意力联合特征可以参见前述图3所对应实施例中的注意力联合特征获取过程的相关描述，此处不再进行赘述。进一步地，通过第一网络中的CNN分支中的初始局部分割组件，可以得到无标注样本图像对应的第一样本局部预测结果(如图6所示的局部预测结果1)；通过第一网络中的Transformer分支中的初始全局分割组件，可以得到无标注样本图像对应的第一样本全局预测结果(如图6所示的全局预测结果1)。其中，第一样本局部预测结果和第一样本全局预测结果的获取过程同样可以参见图3所对应实施例中针对局部分割预测结果和全局分割预测结果的相关描述，此处不再进行赘述。

步骤S208，将标注样本图像和无标注样本图像输入至第二网络，通过第二网络输出第二样本局部预测结果和第二样本全局预测结果。

具体的，如图6所示，标注样本图像和无标注样本图像都可以输入到第二网络中，通过第二网络中两个并行的分支(CNN分支和Transformer分支)以及引入的局部-全局交互组件，可以得到标注样本图像/无标注样本图像对应的第二样本局部联合特征和第二样本注意力联合特征。进而可以通过第二网络中的CNN分支中的初始局部分割组件，可以得到标注样本图像/无标注样本图像对应的第二样本局部预测结果(如图6所示的局部预测结果2)；通过第二网络中的Transformer分支中的初始全局分割组件，可以得到标注样本图像/无标注样本图像对应的第二样本全局预测结果(如图6所示的全局预测结果2)。需要说明的是，训练完成的第二网络可以作为图像分割模型应用到图像语义分割场景中，因此标注样本图像/无标注样本图像在第二网络中的计算过程可以参见图3所对应实施例中源图像在图像分割模型中的计算过程，本申请对此不再进行赘述。

步骤S209，根据第一样本局部预测结果、第一样本全局预测结果、第二样本局部预测结果、第二样本全局预测结果以及标注样本图像所携带的标注信息，对初始分割模型的网络参数进行修正，将包含修正后的网络参数的第二网络确定为图像分割模型。

具体的，如图6所示，根据无标注样本图像对应的第一样本局部预测结果和第一样本全局预测结果，确定与无标注样本图像相关联的无监督损失；也就是说，无监督损失是作用于无标注样本图像的像素级别的损失，可以让第二网络从第一网络中学习无标注样本图像的相关信息。根据标注样本图像对应的第二样本局部预测结果、第二样本全局预测结果以及标注样本图像所携带的标注信息，确定与标注样本图像相关联的全监督损失，全监督损失是作用于标注样本图像的，具体可以使用交叉熵损失，或者其他常用的损失函数类型，本申请实施例对此不做限定。

进一步地，通过对无监督损失和全监督损失进行加权求和，得到初始分割模型对应的模型总损失，根据模型总损失对初始分割模型的网络参数进行迭代训练，直至模型总损失满足训练结束条件时，停止训练，可以将训练结束时的第二网络确定为图像分割模型。举例来说，假设无监督损失为全监督损失为/>那么模型总损失可以表示为：/>其中，/>表示初始分割模型的模型总损失，λ_s为全监督损失/>对应的权重，可以用于约束全监督损失/>λ_u为无监督损失/>对应的权重，可以用于约束无监督损失/>λ_s、λ_u可以根据应用场景的实际需求进行设置，本申请实施例对此不做限定。训练结束条件可以为预先设置的终止条件，如可以包括预先设置的最大迭代次数和预先设置的误差范围等多个终止条件，初始分割模型对应的模型总损失只要满足训练结束条件中的任意一个终止条件，都可以停止训练，并将训练结束时的第二网络确定为图像分割模型。

本申请实施例中，初始分割模型采用学生网络(第二网络)-教师网络(第一网络)的结构，通过半监督学习方式进行训练，在第一网络和第二网络中均引入一个模型内局部-全局交互组件(简称为交互组件)，且该模型内局部-全局交互组件是在频域中实现的。通过将该局部-全局交互组件作用于第一网络和第二网络中的两个并行的CNN和Transformer两个分支之间，可以有效地交换CNN分支和Transformer分支中的信息，融合CNN分支和Transformer分支各自提取到的特征之间的互补性，有利于提高图像特征的表征能力，由此生成的分割图像更为准确，提升了图像分割结果的准确性。

请参见图7，图7是本申请实施例提供的一种图像分割处理方法的流程示意图三；可以理解地，该图像分割处理方法可以由计算机设备执行，该计算机设备可以为服务器，或者可以为终端设备，本申请对此不做限定。如图7所示，该图像分割处理方法可以包括以下步骤S301至步骤S311：

步骤S301，获取标注样本图像和无标注样本图像；标注样本图像用于输入至初始分割模型中的第一网络，无标注样本图像用于输入至初始分割模型中的第一网络和第二网络，第一网络和第二网络具有相同的网络结构。

步骤S302，通过第一网络中的初始局部特征提取器获取无标注样本图像对应的第一样本局部特征，通过第一网络中的初始全局特征提取器获取无标注样本图像对应的第一样本注意力特征。

步骤S303，通过第一网络中的交互组件将第一样本局部特征转换为样本局部频域特征，将第一样本注意力特征转换为样本注意力频域特征，获取样本局部频域特征关联的第三交互权重，以及获取样本注意力频域特征关联的第四交互权重。

步骤S304，根据第三交互权重对样本注意力频域特征进行增强处理，得到样本注意力增强频域特征，根据第四交互权重对样本局部频域特征进行增强处理，得到样本局部增强频域特征。

步骤S305，将样本局部频域特征和样本局部增强频域特征转换为第二样本局部特征，将样本注意力频域特征和样本注意力增强频域特征转换为第二样本注意力特征。

步骤S306，将第一样本局部特征和第二样本局部特征组合为第一样本局部联合特征，将第一样本注意力特征、第二样本注意力特征以及第一样本局部联合特征组合为第一样本注意力联合特征。

步骤S307，通过第一网络中的初始局部分割组件输出第一样本局部联合特征对应的第一样本局部预测结果，通过第一网络中的初始全局分割组件输出第一样本注意力联合特征对应的第一样本全局预测结果。

步骤S308，通过第二网络获取无标注样本图像对应的第二样本局部联合特征和第二样本注意力联合特征，通过第二网络中的初始局部分割组件输出第二样本局部联合特征对应的第二样本局部预测结果，通过第二网络中的初始全局分割组件输出第二样本注意力联合特征对应的第二样本全局预测结果。

步骤S309，为无标注样本图像对应的第一样本局部联合特征、第一样本注意力联合特征、第二样本局部联合特征以及第二样本注意力联合特征创建类别分布图结构，根据类别分布图结构确定第一网络与第二网络之间的类别一致性损失。

本申请实施例中，无标注样本图像和标注样本图像在初始分割模型中的前向计算过程与前述图5所对应实施例中的前向计算过程一样，在此不再进行赘述。请参见图8，图8是本申请实施例提供的一种初始分割模型的训练示意图二；如图8所示，与前述图6所对应实施例不同的是，本申请实施例可以在初始分割模型的训练过程中引入模型之间的类别一致性损失，通过交叉教学的方式补充CNN和Transformer的类级分布统计，该类别一致性损失是作用于无标注样本图像的。其中，类别一致性损失是通过为第一样本局部联合特征、第一样本注意力联合特征、第二样本局部联合特征以及第二样本注意力联合特征创建类别分布图结构来确定的。下面对类别一致性损失的确定过程进行详细描述。

可以理解的是，在图像分割任务中，类别相关性是上下文建模的关键，它旨在探索高级的语义关系。由于初始分割模型所包含的第一网络和第二网络中均具有不同的特征提取器(CNN分支中的局部特征提取器，Transformer分支中的全局特征提取器)，可以产生不同类别级的统计信息，因此本申请实施例可以通过构建类别分布图结构(此处的类别分布图结构是一个二级图结构)，并采用隐式一致性正则化的交叉教学策略，从而为无标注样本图像生成更加稳定和准确的伪标签。为了构建类别分布图结构，首先需要获取构建类别分布图结构所需的图节点，其中，本申请实施例涉及两种类型的图节点，分别为类别节点(class nodes)和高级语义的补丁节点(patch nodes)，类别节点可以记为补丁节点可以记为/>应当理解，初始分割模型中的第一网络和第二网络均可以用于分割C个语义类别，C为正整数，本申请实施例所涉及的语义类别可以理解为输入至初始分割模型的无标注样本图像中可被识别的对象类别。

可以理解的是，本申请实施例需要对前述第一样本局部联合特征、第一样本注意力联合特征、第二样本局部联合特征以及第二样本注意力联合特征分别创建类别分布图结构，其创建过程都是相同的，下面将以第一样本局部联合特征为例，对类别分布图结构的创建过程进行描述。

在一个或多个实施例中，可以获取第一样本局部联合特征中属于相同语义类别的像素特征对应的特征平均值，将C个语义类别对应的特征平均值确定为第一样本局部联合特征对应的C个初始类别节点；也就是说，可以将同一个语义类别的所有像素特征的平均值作为一个初始类别节点。以第一网络为例，对于任意一个无标注样本图像I_u，第一网络中的初始局部特征提取器和交互组件可以生成第一样本局部联合特征其对应的预测结果为第一样本局部预测结果/>第二网络中的初始全局特征提取器和交互组件可以生成第一样本注意力联合特征/>其对应的预测结果为第一样本全局预测结果/>进而可以根据像素特征属于第j(j为小于或等于C正整数)个语义类别的概率，将属于同一个语义类别的所有像素特征集合为一个初始类别节点，如：/> 其中zⁱ表示第一样本局部联合特征/>(或者第一样本注意力联合特征/>)中的第i(此处的i为小于或等于样本图像中的像素总数量的正整数)个像素特征，/>是第i个像素特征属于第j个语义类别的概率。

应当理解，是初始类别节点的总数量，它和语义类别的数量相同，即第一样本局部联合特征/>中的初始类别节点集合可以表示为/>通过上述方法，可以从第一网络的第一样本局部联合特征/>中得到初始类别节点集合从第一网络的第一样本注意力联合特征/>中得到初始类别节点集合/>从第二网络的第二样本局部联合特征/>中得到初始类别节点集合/>从第二网络的第二样本注意力联合特征/>中得到初始类别节点集合/>需要说明的是，上述初始类别节点集合中的类别节点数量都是相同的，这些初始类别节点集合都可以称为初始类别节点集合/>

进一步地，可以对第一样本局部联合特征进行平均池化处理，得到第一样本局部联合特征对应的补丁节点集合；更为具体地，可以使用一个步长为r的平均池化层对第一样本局部联合特征进行平均池化处理，以得到第一样本局部联合特征对应的补丁节点集合，该补丁节点集合中所包含的补丁节点的数量为H/r×W/r，补丁节点集合中的补丁节点为具有丰富语义的高级表示。通过该方式可以从第一网络的第一样本局部联合特征中得到补丁节点集合/>从第一网络的第一样本注意力联合特征/>中得到补丁节点集合/>从第二网络的第二样本局部联合特征/>中得到补丁节点集合从第二网络的第二样本注意力联合特征/>中得到补丁节点集合/>需要说明的是，上述补丁节点集合中的补丁节点数量都是相同的，这些补丁节点集合都可以称为补丁节点集合/>

在获得上述两种类型的图节点之后，可以为补丁节点集合和C个初始类别节点构建C个独立交互图结构，将C个独立交互图结构组合为第一联合交互图结构，此处的独立交互图结构可以称为Class(类别节点)-Patch(补丁节点)图结构，可以显示地捕获类别节点和补丁节点之间的相关性。可以理解的是，对于每一个类别节点(例如，第j个类别节点，即第j个语义类别对应的类别节点)，都可以将该类别节点与补丁节点集合结合起来，构成一个Class-Patch图结构，可以用于学习特定的信息。

本申请实施例中，在构建类别分布图结构时，都是以初始分割模型中的一个分支作为考量单位的，第一网络和第二网络均包含CNN和Transformer两个分支，也就是说，初始分割模型包含四个分支。对于任意一个分支中的第j个类别节点，可以将补丁节点集合和C个初始类别节点中的第j个初始类别节点(可以记为/>)组合为第j个初始交互图结构(可以记为/>第j个初始交互图结构为Class-Patch图结构，是一个具有邻接关系的轻量全连通图。

将第j个初始交互图结构中的节点表示特征，以及该节点表示特征的转置矩阵进行乘积运算，得到矩阵乘积结果，对矩阵乘积结果进行归一化处理，得到第j个初始交互图结构对应的邻接矩阵；其中，邻接矩阵以及第j个初始交互图结构/>中的节点表示特征之间的关系可以如下述公式(3)所示：

其中，公式(3)中的表示第j个初始交互图结构/>对应的邻接矩阵，/>表示矩阵乘法，通过softmax(·)操作可以得到一个归一化的邻接矩阵，softmax(·)可以认为是一个归一化函数；/>表示第j个初始交互图结构/>中的节点表示特征，/>表示节点表示特征的转置矩阵。其中，邻接矩阵/> 也就是说，第j个初始交互图结构/>可以包括/>个节点(第j个初始类别节点和补丁节点集合/>中的所有补丁节点)，/>表示补丁节点集合/>中的补丁节点总数量，即H/r×W/r，邻接矩阵/>用于表示节点之间的相似性。

可以根据邻接矩阵和第j个初始交互图结构对应的权重矩阵，对第j个初始交互图结构进行图卷积处理，得到第j个独立交互图结构；通过图卷积处理来实现信息的聚合，如下述公式(4)所示：

其中，公式(4)中的表示经过图卷积后的增强特征图，即第j个独立交互图结构；/>表示第j个初始交互图结构对应的权重矩阵，该/>即权重矩阵/>的尺寸为D×D(通道数)。通过上述方式，可以构建C个初始类别节点分别与补丁节点集合之间的独立交互图结构，如第一个初始类别节点与补丁节点集合N_p之间的独立交互图结构可以表示为/>第二个初始类别节点与补丁节点集合/>之间的独立交互图结构可以表示为/>以此类推，可以得到C个独立交互图结构；也就是说，初始分割图像中的每一个分支都可以对应C个独立交互图结构，这C个独立交互图结构可以组合为一个综合图结构，此时的综合图结构可以称为联合交互图结构/>

进一步地，在图像分割任务中，语义类别之间的依赖关系对于上下文建模同样至关重要，因此可以进一步构建用于探索类别节点之间的相关性的类别交互图结构。具体地，可以在C个独立交互图结构中获取C个增强类别节点，一个独立交互图结构对应一个增强类别节点；进而可以为C个增强类别节点构建类别交互图结构，表示初始分割模型中的一个分支对应一个类别交互图结构，该类别交互图结构可以记为其中，类别交互图结构/>的创建与独立交互图结构/>的创建过程类似，如可以为C个增强类别节点创建一个初始类别图结构/>获取初始类别图结构/>的邻接矩阵/>(类似于前述公式(3))，通过上述公式(4)所示的图卷积操作，可以得到一个增强的类别交互图结构/>其中，本申请实施例所涉及的类别交互图结构和前述联合交互图结构可以统称为类别分布图结构。

本申请实施例中，通过上述步骤可以分别从第一网络的CNN和Transformer两个分支中得到联合交互图结构和类别交互图结构/>分别从第二网络的CNN和Transformer两个分支中得到联合交互图结构/>和类别交互图结构/>其中，将为第一网络中的CNN分支所得到的第一样本局部联合特征构建的联合交互图结构可以称为第一联合交互图结构(记为/>)，为其构建的类别交互图结构可以称为第一类别交互图结构(记为/>)；将为第一网络中的Transformer分支所得到的第一样本注意力联合特征构建的联合交互图结构可以称为第二联合交互图结构(记为/>)，为其构建的类别交互图结构可以称为第二类别交互图结构(记为/>)；将为第二网络中的CNN分支所得到的第二样本局部联合特征构建的联合交互图结构可以称为第三联合交互图结构(记为/>)，为其构建的类别交互图结构可以称为第三类别交互图结构(记为)；将为第二网络中的Transformer分支所得到的第二样本注意力联合特征构建的联合交互图结构可以称为第四联合交互图结构(记为/>)，为其构建的类别交互图结构可以称为第四类别交互图结构(记为/>)。

其中，请参见图9，图9是本申请实施例提供的一种第一网络与第二网络之间的类别一致性损失的示意图。如图9所示，图结构40c表示第二网络中的第二样本局部联合特征对应的第三类别交互图结构图结构40a和图结构40b均为第二样本局部联合特征对应的独立交互图结构，图结构40a是由第二样本局部联合特征中的第2个增强类别节点与补丁节点集合构成的独立交互图结构，图结构40b是由第二样本局部联合特征中的第j个增强类别节点与补丁节点集合构成的独立交互图结构。

同理，图结构40i表示第二网络中的第二样本注意力联合特征对应的第四类别交互图结构图结构40h和图结构40g均为第二样本注意力联合特征对应的独立交互图结构。图结构40d表示第一网络中的第一样本注意力联合特征对应的第二类别交互图结构/>图结构40f和图结构40e均为第一样本注意力联合特征对应的独立交互图结构。图结构40j表示第一网络中的第一样本局部联合特征对应的第一类别交互图结构图结构40m和图结构40k均为第一样本局部联合特征对应的独立交互图结构。

进一步地，可以获取第二联合交互图结构与第三联合交互图结构之间的第一均方误差(Mean Squared Error，MSE)；其中，第一均方误差可以记为具体计算过程可以如下述公式(5)所示：

可以获取第二类别交互图结构和第三类别交互图结构/>之间的第二均方误差；其中，第二均方误差可以记为/>具体计算过程可以如下述公式(6)所示：

可以将第一均方误差和第二均方误差之和确定为第一模型互补损失，此时的第一模型互补损失可以记为具体计算方式可以为：/> />

同理，可以获取第四联合交互图结构与第一联合交互图结构/>之间的第三均方误差；其中，第三均方误差可以记为/>具体计算过程可以如下述公式(7)所示：

获取第四类别交互图结构与第一类别交互图结构/>之间的第四均方误差；其中，第四均方误差可以记为/>具体计算过程可以如下述公式(8)所示：

可以将第三均方误差和第四均方误差确定为第二模型互补损失，此时的第二模型互补损失可以记为具体计算方式可以为：/> 最后可以将第一模型互补损失和第二模型互补损失之和确定为第一网络与第二网络之间的类别一致性损失，该类别一致性损失可以记为/>其具体计算方式可以为：/>

步骤S310，根据无标注样本图像对应的第一样本局部预测结果和第一样本全局预测结果，确定与无标注样本图像相关联的无监督损失；根据标注样本图像对应的第二样本局部预测结果、第二样本全局预测结果以及标注样本图像所携带的标注信息，确定与标注样本图像相关联的全监督损失。

步骤S311，对类别一致性损失、无监督损失以及全监督损失进行加权求和，得到初始分割模型对应的模型总损失，根据模型总损失对初始分割模型的网络参数进行迭代训练，直至模型总损失满足训练结束条件时，停止训练，将训练结束时的第二网络确定为图像分割模型。

在初始分割模型的训练过程中，除了引入了作用于无标注样本图像的类别一致性损失之外，还可以包括作用于标注样本图像的全监督损失/>和作用于无标注样本图像的无监督损失/>进而可以对类别一致性损失/>无监督损失/>以及全监督损失/>进行加权求和，得到初始分割模型对应的模型总损失，此时的模型总损失可以表示为：其中，L表示初始分割模型的模型总损失，λ_s为全监督损失/>对应的权重，可以用于约束全监督损失/>λ_u为无监督损失/>对应的权重，可以用于约束无监督损失/>λ_c为类别一致性损失/>对应的权重，可以用于约束类别一致性损失/> _u、λ_s、λ_c可以根据应用场景的实际需求进行设置，本申请实施例对此不做限定。根据模型总损失对初始分割模型的网络参数进行迭代训练，直至模型总损失满足训练结束条件时，停止训练，将训练结束时的第二网络确定为图像分割模型。训练结束条件可以参见前述图5所对应实施例的步骤S209中的相关描述，此处不再进行赘述。

可以理解的是，通过上述步骤训练完成的可以图像分割模型可以搭建在人工智能云服务中，人工智能云服务也可以称为AIaaS(AI as a Service，中文为“AI即服务”)。这是目前主流的一种人工智能平台的服务方式，具体来说AIaaS平台会把几类常见的AI服务进行拆分，并在云端提供独立或者打包的服务。这种服务模式类似于开了一个AI主题商城，所有的开发者都可以通过应用程序编程接口(Application Programming Interface，API)的方式来接入使用平台提供的一种或者是多种人工智能服务，部分资深的开发者还可以使用平台提供的AI框架和AI基础设施来部署和运维自己专属的云人工智能服务。若将训练得到的图像分割模型搭建在人工智能云服务中，那么其他对象(例如，应用客户端)可以通过API接口的形式接入图像分割云服务，并基于该图像分割云服务中的图像分割模型来实现图像分割任务。

本申请实施例提出了一种基于CNN和Transformer的半监督图像分割方法，可以通过利用无标注样本来减轻对大量标注样本的依赖，可以提升图像分割模型的数据利用率。通过在分割模型中引入模型内(此处的模型内是指第一网络内，或者第二网络内)局部-全局交互组件，通过在频域中充分融合局部和全局信息，可以提高最终提取到的图像特征的表征能力。此外，在模型训练过程中，通过构建类别分布图结构，在图域中引入模型之间(即第一网络和第二网络之间)的类别一致性损失，可以提高第一网络为无标注样本图像生成的伪标签的准确性和稳定性。将由此训练得到的图像分割模型应用在图像分割任务该，可以提高图像的分割准确性。

可选地，为了验证本申请实施例提出的基于CNN和Transformer的半监督图像分割方法的性能，可以在多个公开的多类别数据集上进行实验验证，此处的多类别数据集可以包括但不限于PASCAL VOC数据集和Cityscapes数据集，这些数据集包含了不同类别数量的自然图像。其中：①PASCAL VOC数据集是一个包含21个语义类别的自然场景数据集；它最初包括1464张训练图像和1449张验证图组成。训练集还可以通过在SBD(语义边界数据集)数据集中采用粗略注释的9118张图像来增强，得到10582张训练图像。本申请实施例中，可以分别在原始(classic)数据集(1464个标注图像和9118个无标注图像)和混合(blender)数据集(10582个标注图像)上评估上述基于CNN和Transformer的半监督图像分割方法。②Cityscapes数据集精细地标注了真实城市场景中的19个对象类别，分别有2975张训练图像和500张验证图像。

其中，在实验之前，可以为上述三个数据集(原始PASCAL VOC数据集、混合PASCALVOC数据集，以及Cityscapes数据集)设置以下参数：crop size(剪裁尺寸，简称cs)，batchsize(批量尺寸，简称bs)，学习率(Learning Rate，简称为lr)，最大训练epoch(ep)，求解器(优化算法，简称为opt)。其中：①PASCAL VOC数据集：cs＝513×513；bs＝16；lr＝0.001；ep＝80；opt＝SGD(随机梯度下降优化算法)。②Cityscapes数据集：cs＝769×769；bs＝16；lr＝0.01；ep＝200；opt＝SGD。这些数据集都可以采用mean Intersection-over-Union(均交并比，mIoU)作为模型评价指标。

在实验验证中，可以将本申请实施例提供的基于CNN和Transformer的半监督图像分割方法分为两种方法，一种为不使用模型之间的类别一致性损失进行模型训练的半监督图像分割方法(下面将简称为SemiCVT-)，另一种为本申请实施例提出的完整技术方法，即使用模型之间的类别一致性损失进行模型训练的半监督图像分割方法(下面将简称为SemiCVT)。为了评估本申请实施例所提出的方法1和方案2的分割性能，可以将其与全监督(sup)分割方法与现有的半监督分割方法(SSL方法)进行对比，并通过mIoU对各个模型的分割性能进行量化对比。

可选地，在原始PASCAL VOC数据集上，可以让本申请实施例提出的SemiCVT-、SemiCVT方案与全监督学习的baseline(基准模型，基于CNN的网络结构)、CVT(本申请实施例提出的图像分割模型中并行的CNN-Transformer网络)，以及现有的MT(Mean-Teacher算法)、CutMix(数据增强)、PseudoSeg(一种为无标注或弱标注数据的训练产生标定好的结构化伪标注的方法)、PC²Seg(Pixel Contrastive-Consistent Semi-Supervised SemanticSegmentation，一种基于像素对比一致性的半监督语义分割方法)、ST++(半监督语义分割自训练方案)、U²PL(使用不可靠伪标签的半监督语义分割方案)等半监督分割方法进行性能比对，上述这些方法的mIoU指标值可以如下述表1所示：

表1

可选地，在混合PASCAL VOC数据集上，可以让本申请实施例提出的SemiCVT-、SemiCVT方案与全监督学习(只使用标注样本图像)的baseline、CVT，以及MT、CutMix、CCT(Compact Convolutional Transformer，紧凑的卷积Transformer)、GCT(门控通道注意力机制)、ST++、U²PL等半监督分割方法进行性能比对，这些方法的mIoU指标值可以如下述表2所示：

表2

可选地，在Cityscapes数据集上，可以让本申请实施例提出的SemiCVT-、SemiCVT方案与全监督学习的baseline、CVT，以及现有的MT、CutMix、CCT、GCT、ST++、U²PL等半监督分割方法进行性能比对，这些方法的mIoU指标值可以如下述表3所示：

表3

可选地，请参见图10，图10是本申请实施例提供的一种图像分割结果的可视化示意图。如图10所示，对于PASCAL VOC数据集中的输入图像50a，该输入图像50a对应的真实标签(标注信息)为图像50b所示；换言之，图像50b为输入图像50a的真实分割情况，也可以认为是各种模型的期望预测结果。图像50c是采用现有方法(例如，U²PL方法)对输入图像50a进行图像语义分割处理后所得到的分割预测结果；图像50d是采用本申请实施例提出的SemiCVT-方案对输入图像50a进行图像语义分割处理后所得到的分割预测结果；图像50e是采用本申请实施例提出的SemiCVT方案对输入图像50a进行图像语义分割处理后所得到的分割预测结果。

本申请实施例中，主要是在两个多类别数据集上评估分割性能，包括与其他现有方案比较的定量结果(如mIoU指标值)，以及可视化分割结果(如图10所示)。具体来说，表1和表2中展示了SemiCVT-、SemiCVT和其他现有方法在不同数据集上的定量性能。在全监督的实验中(只使用标注样本图像进行模型训练)，CVT网络结构分别使用数据集中的1/16，1/8，1/4，1/2，全部的标注数据进行全监督学习时，比baseline网络依次高出+1.19％，+4.82％，+2.5％，+1.99％和+2.05％。CVT网络结构甚至超过了基于MT的半监督方法(使用额外的未标记数据训练)。这些实验结果表明，本申请实施例提出的CVT网络结构可以从CNN和Transformer中提取互补信息，即使在标记数据有限的情况下也能取得令人满意的性能。在半监督的实验中，本申请实施例首先在没有使用模型间类别一致性损失L_c的情况下进行实验(即SemiCVT-方案)，通过表1至表3，以及图10所示的可视化的分割预测结果表明，SemiCVT-的性能已经超过了现有的半监督分割方法。此外，增加使用模型之间的类别一致性损失L_c后(即SemiCVT方案)，可以进一步提升图像分割性能，为实验中分割精度最高的方法。需要说明的是，与基于MT的半监督分割方法相比，SemiCVT在图像分割上取得了较大的提升：分别为+16.84％、+12.33％、+11.13％、+9.03％和+9.36％。同样的，在blenderPASCAL VOC数据集以及Cityscapes数据集上也超过了现有的半监督分割方法。

图10展示了本申请方法(SemiCVT-、SemiCVT)和现有方法(U²PL方法)在PASCALVOC数据集中的可视化分割预测结果。很显然，本申请实施例提出的SemiCVT-、SemiCVT方法能够准确地分割出不同大小、形状和位置的对象；分割结果的边界比其他现有半监督分割方法的分割结果更清晰，降低了错误分割的概率，提升了图像分割的准确性。

可以理解的是，在本申请的具体实施方式中，可能涉及到交通管理系统、医疗管理系统中的图像分割处理，当本申请以上实施例运用到具体产品或技术中时，需要获得相关机构或部门、或者用户自身的许可或同意，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

请参见图11，图11是本申请实施例提供的一种图像分割处理装置的结构示意图一。如图11所示，该图像分割处理装置1包括：第一特征提取模块11，第一频域转换模块12，第一特征增强模块13，残差连接模块14，第一分割预测模块15；

第一特征提取模块11，用于获取源图像，对源图像进行特征提取得到第一空间局部特征，对源图像进行注意力编码处理得到第一空间注意力特征；第一空间注意力特征用于表征源图像的全局信息之间的信息传递；

第一频域转换模块12，用于将第一空间局部特征转换为局部频域特征，将第一空间注意力特征转换为注意力频域特征，获取局部频域特征关联的第一交互权重，以及获取注意力频域特征关联的第二交互权重；

第一特征增强模块13，用于根据第一交互权重对注意力频域特征进行增强处理，得到注意力增强频域特征，根据第二交互权重对局部频域特征进行增强处理，得到局部增强频域特征，将局部频域特征和局部增强频域特征转换为第二空间局部特征，将注意力频域特征和注意力增强频域特征转换为第二空间注意力特征；

残差连接模块14，用于将第一空间局部特征和第二空间局部特征组合为局部联合特征，将第一空间注意力特征、第二空间注意力特征以及局部联合特征组合为注意力联合特征；

第一分割预测模块15，用于获取局部联合特征对应的局部分割预测结果，以及注意力联合特征对应的全局分割预测结果，根据局部分割预测结果和全局分割预测结果的平均值，生成源图像对应的分割图像。

在一个或多个实施例中，第一特征提取模块11具体用于：

在一个或多个实施例中，第一特征提取模块11通过图像特征提取组件获取源图像对应的初始图像特征，包括：

在一个或多个实施例中，图像分割模型还包括交互组件，交互组件用于交换局部特征提取器中的第i个卷积组件和全局特征提取器中的第i个注意力组件之间的频域信息，i为小于或等于N的正整数；

第一特征提取模块11通过局部特征提取器获取初始图像特征对应的第一空间局部特征，包括：

在一个或多个实施例中，第一特征提取模块11通过全局特征提取器获取初始图像特征对应的第一空间注意力特征，包括：

在一个或多个实施例中，第一频域转换模块12将第一空间局部特征转换为局部频域特征，包括：

在一个或多个实施例中，第一频域转换模块12获取局部频域特征关联的第一交互权重，包括：

在一个或多个实施例中，第一特征增强模块13将局部频域特征和局部增强频域特征转换为第二空间局部特征，包括：

在一个或多个实施例中，第一分割预测模块15获取局部联合特征对应的局部分割预测结果，以及注意力联合特征对应的全局分割预测结果，包括：

根据本申请的一种实施例，前文图3和图5所示的图像分割处理方法所涉及的步骤可以由图11所示的图像分割处理装置1中的各个模块来执行。例如，图3所示的步骤S101可由图11所示的第一特征提取模块11来执行，图3所示的步骤S102可由图11所示的第一频域转换模块12来执行，图3所示的步骤S103可由图11所示的第一特征增强模块13来执行，图3所示的步骤S104可由图11所示的残差连接模块14来执行，图3所示的步骤S105可由图11所示的第一分割预测模块15来执行等。

根据本申请的一个实施例，图11所示的图像分割处理装置1中的各个模块可以分别或全部合并为一个或若干个单元来构成，或者其中的某个(些)单元还可以再拆分为功能上更小的至少两个子单元，可以实现同样的操作，而不影响本申请的实施例的技术效果的实现。上述模块是基于逻辑功能划分的，在实际应用中，一个模块的功能也可以由至少两个单元来实现，或者至少两个模块的功能由一个单元实现。在本申请的其它实施例中，图像分割处理装置1也可以包括其它单元，在实际应用中，这些功能也可以由其它单元协助实现，并且可以由至少两个单元协作实现。

请参见图12，图12是本申请实施例提供的一种图像分割处理装置的结构示意图二。如图12所示，该图像分割处理装置2包括：样本图像获取模块21，第二特征提取模块22，第二频域转换模块23，第二特征增强模块24，第二分割预测模块25，网络参数修正模块26；

样本图像获取模块21，用于获取标注样本图像和无标注样本图像；标注样本图像用于输入至初始分割模型中的第一网络，无标注样本图像用于输入至初始分割模型中的第一网络和第二网络，第一网络和第二网络具有相同的网络结构；

第二特征提取模块22，用于通过第一网络中的初始局部特征提取器获取无标注样本图像对应的第一样本局部特征，通过第一网络中的初始全局特征提取器获取无标注样本图像对应的第一样本注意力特征；第一样本注意力特征用于表征无标注样本图像的全局信息之间的信息传递；

第二频域转换模块23，用于通过第一网络中的交互组件将第一样本局部特征转换为样本局部频域特征，将第一样本注意力特征转换为样本注意力频域特征，获取样本局部频域特征关联的第三交互权重，以及获取样本注意力频域特征关联的第四交互权重；

第二特征增强模块24，用于根据第三交互权重对样本注意力频域特征进行增强处理，得到样本注意力增强频域特征，根据第四交互权重对样本局部频域特征进行增强处理，得到样本局部增强频域特征，将样本局部频域特征和样本局部增强频域特征转换为第二样本局部特征，将样本注意力频域特征和样本注意力增强频域特征转换为第二样本注意力特征；

第二分割预测模块25，用于将第一样本局部特征和第二样本局部特征组合为第一样本局部联合特征，将第一样本注意力特征、第二样本注意力特征以及第一样本局部联合特征组合为第一样本注意力联合特征，通过第一网络中的初始局部分割组件输出第一样本局部联合特征对应的第一样本局部预测结果，通过第一网络中的初始全局分割组件输出第一样本注意力联合特征对应的第一样本全局预测结果；

网络参数修正模块26，用于将标注样本图像和无标注样本图像输入至第二网络，通过第二网络输出第二样本局部预测结果和第二样本全局预测结果，根据第一样本局部预测结果、第一样本全局预测结果、第二样本局部预测结果、第二样本全局预测结果以及标注样本图像所携带的标注信息，对初始分割模型的网络参数进行修正，将包含修正后的网络参数的第二网络确定为图像分割模型；图像分割模型用于输出源图像对应的分割图像。

在一个或多个实施例中，网络参数修正模块26根据第一样本局部预测结果、第一样本全局预测结果、第二样本局部预测结果、第二样本全局预测结果以及标注样本图像所携带的标注信息，对初始分割模型的网络参数进行修正，将包含修正后的网络参数的第二网络确定为图像分割模型，包括：

在一个或多个实施例中，网络参数修正模块26具体用于：

在一个或多个实施例中，初始分割模型中的第一网络和第二网络均用于分割C个语义类别，C为正整数；

网络参数修正模块26为第一样本局部联合特征、第一样本注意力联合特征、第二样本局部联合特征以及第二样本注意力联合特征创建类别分布图结构，根据类别分布图结构确定第一网络与第二网络之间的类别一致性损失，包括：

在一个或多个实施例中，网络参数修正模块26为补丁节点集合和C个初始类别节点构建C个独立交互图结构，包括：

根据本申请的一种实施例，前文图5所示的图像分割处理方法所涉及的步骤可以由图12所示的图像分割处理装置2中的各个模块来执行。例如，图5所示的步骤S201可由图12所示的样本图像获取模块21来执行，图5所示的步骤S202可由图12所示的第二特征提取模块22来执行，图5所示的步骤S203可由图12所示的第二频域转换模块23来执行，图5所示的步骤S204和步骤S205可由图12所示的第二特征增强模块24来执行，图5所示的步骤S206和步骤S207可以由图12所示的第二分割预测模块25来执行，图5所示的步骤S208和步骤S209由图12所示的网络参数修正模块26来执行等。

根据本申请的一个实施例，图12所示的图像分割处理装置2中的各个模块可以分别或全部合并为一个或若干个单元来构成，或者其中的某个(些)单元还可以再拆分为功能上更小的至少两个子单元，可以实现同样的操作，而不影响本申请的实施例的技术效果的实现。上述模块是基于逻辑功能划分的，在实际应用中，一个模块的功能也可以由至少两个单元来实现，或者至少两个模块的功能由一个单元实现。在本申请的其它实施例中，图像分割处理装置1也可以包括其它单元，在实际应用中，这些功能也可以由其它单元协助实现，并且可以由至少两个单元协作实现。

本申请实施例提出了一种基于CNN和Transformer的半监督技术，可以通过利用无标注样本来减轻对大量标注样本的依赖，可以提升图像分割模型的数据利用率。通过在分割模型中引入模型内(此处的模型内是指第一网络内，或者第二网络内)局部-全局交互组件，通过在频域中充分融合局部和全局信息，可以提高最终提取到的图像特征的表征能力。此外，在模型训练过程中，通过构建类别分布图结构，在图域中引入模型之间(即第一网络和第二网络之间)的类别一致性损失，可以提高第一网络为无标注样本图像生成的伪标签的准确性和稳定性。将由此训练得到的图像分割模型应用在图像分割任务该，可以提高图像的分割准确性。

进一步地，请参见图13，图13是本申请实施例提供的一种计算机设备的结构示意图。如图13所示，该计算机设备1000可以为终端设备，例如，上述图1所对应实施例中的终端设备10a，还可以为服务器，例如，上述图1所对应实施例中的服务器10d，这里将不对其进行限制。为便于理解，本申请以计算机设备为终端设备为例，该计算机设备1000可以包括：处理器1001，网络接口1004和存储器1005，此外，该计算机设备1000还可以包括：用户接口1003，和至少一个通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。其中，用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。存储器1005可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图13所示，作为一种计算机可读存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及设备控制应用程序。

其中，该计算机设备1000中的网络接口1004还可以提供网络通讯功能，且可选用户接口1003还可以包括显示屏(Display)、键盘(Keyboard)。在图13所示的计算机设备1000中，网络接口1004可提供网络通讯功能；而用户接口1003主要用于为用户提供输入的接口；而处理器1001可以用于调用存储器1005中存储的设备控制应用程序。

应当理解，本申请实施例中所描述的计算机设备1000可执行前文图3、图5以及图7中任一个实施例中对图像分割处理方法的描述，也可执行前文图11所对应实施例中对图像分割处理装置1的描述，或者执行前文图12所对应实施例中对图像分割处理装置2的描述，在此不再赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。

此外，这里需要指出的是：本申请实施例还提供了一种计算机可读存储介质，且计算机可读存储介质中存储有前文提及的图像分割处理装置1或图像分割处理装置2所执行的计算机程序，且计算机程序包括程序指令，当处理器执行程序指令时，能够执行前文图3、图5以及图7中任一个实施例中对图像分割处理方法的描述，因此，这里将不再进行赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。其中，存储介质可以为磁碟、光盘、只读存储器(Read-Only Memory，ROM)或随机存储器(Random Access Memory，RAM)等。对于本申请所涉及的计算机可读存储介质实施例中未披露的技术细节，请参照本申请方法实施例的描述。作为示例，程序指令可被部署在一个计算设备上执行，或者在位于一个地点的多个计算设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算设备上执行，分布在多个地点且通过通信网络互连的多个计算设备可以组成区块链系统。

此外，需要说明的是：本申请实施例还提供了一种计算机程序产品或计算机程序，该计算机程序产品或者计算机程序可以包括计算机指令，该计算机指令可以存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器可以执行该计算机指令，使得该计算机设备执行前文图3、图5以及图7中任一个实施例中对图像分割处理方法的描述，因此，这里将不再进行赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。对于本申请所涉及的计算机程序产品或者计算机程序实施例中未披露的技术细节，请参照本申请方法实施例的描述。

本申请实施例的说明书和权利要求书及附图中的术语“第一”、“第二”等是用于区别不同媒体内容，而非用于描述特定顺序。此外，术语“包括”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、装置、产品或设备没有限定于已列出的步骤或模块，而是可选地还包括没有列出的步骤或模块，或可选地还包括对于这些过程、方法、装置、产品或设备固有的其他步骤单元。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

本申请实施例提供的方法及相关装置是参照本申请实施例提供的方法流程图和/或结构示意图来描述的，具体可由计算机程序指令实现方法流程图和/或结构示意图的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。这些计算机程序指令可提供到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或结构示意图一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或结构示意图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或结构示意一个方框或多个方框中指定的功能的步骤。

以上所揭露的仅为本申请较佳实施例而已，当然不能以此来限定本申请之权利范围，因此依本申请权利要求所作的等同变化，仍属本申请所涵盖的范围。

Claims

1.一种图像分割处理方法，其特征在于，包括：

获取源图像，对所述源图像进行特征提取得到第一空间局部特征，对所述源图像进行注意力编码处理得到第一空间注意力特征；所述第一空间注意力特征用于表征所述源图像的全局信息之间的信息传递；

将所述第一空间局部特征转换为局部频域特征，将所述第一空间注意力特征转换为注意力频域特征，获取所述局部频域特征关联的第一交互权重，以及获取所述注意力频域特征关联的第二交互权重；

根据所述第一交互权重对所述注意力频域特征进行增强处理，得到注意力增强频域特征，根据所述第二交互权重对所述局部频域特征进行增强处理，得到局部增强频域特征，将所述局部频域特征和所述局部增强频域特征转换为第二空间局部特征，将所述注意力频域特征和所述注意力增强频域特征转换为第二空间注意力特征；

将所述第一空间局部特征和所述第二空间局部特征组合为局部联合特征，将所述第一空间注意力特征、所述第二空间注意力特征以及所述局部联合特征组合为注意力联合特征；

获取所述局部联合特征对应的局部分割预测结果，以及所述注意力联合特征对应的全局分割预测结果，根据所述局部分割预测结果和所述全局分割预测结果的平均值，生成所述源图像对应的分割图像。

2.根据权利要求1所述的方法，其特征在于，所述获取源图像，对所述源图像进行特征提取得到第一空间局部特征，对所述源图像进行注意力编码处理得到第一空间注意力特征，包括：

获取源图像，将所述源图像输入至图像分割模型中的图像特征提取组件，通过所述图像特征提取组件获取所述源图像对应的初始图像特征；

将所述初始图像特征输入至所述图像分割模型中的局部特征提取器，通过所述局部特征提取器获取所述初始图像特征对应的第一空间局部特征；所述局部特征提取器包括N个卷积组件，N为正整数；

将所述初始图像特征输入至所述图像分割模型中的全局特征提取器，通过所述全局特征提取器获取所述初始图像特征对应的第一空间注意力特征；所述全局特征提取器包括N个注意力组件。

3.根据权利要求2所述的方法，其特征在于，所述通过所述图像特征提取组件获取所述源图像对应的初始图像特征，包括：

根据所述图像特征提取组件中的卷积层对所述源图像进行卷积操作，得到所述源图像对应的图像卷积结果；

根据所述图像特征提取组件中的归一化层对所述图像卷积结果进行归一化处理，得到图像归一化特征，采用所述图像特征提取组件中的激活函数对所述图像归一化特征进行激活处理，得到图像激活特征；

根据所述图像特征提取组件中的池化层对所述图像激活特征进行池化操作，得到所述源图像对应的初始图像特征。

4.根据权利要求2所述的方法，其特征在于，所述图像分割模型还包括交互组件，所述交互组件用于交换所述局部特征提取器中的第i个卷积组件和所述全局特征提取器中的第i个注意力组件之间的频域信息，i为小于或等于N的正整数；

所述通过所述局部特征提取器获取所述初始图像特征对应的第一空间局部特征，包括：

获取所述局部特征提取器中的第i个卷积组件的输入特征；i为1时，第i个卷积组件的输入特征为所述初始图像特征；i不为1时，第i个卷积组件的输入特征包括第i-1个卷积组件的输出特征，以及作用于第i-1个注意力组件和第i-1个卷积组件的交互组件所输出的空间局部特征；

对所述局部卷积结果和第i个卷积组件的输入特征进行残差连接，得到第i个卷积组件的输出特征，将所述局部特征提取器中的第N个卷积组件的输出特征确定为所述第一空间局部特征。

5.根据权利要求4所述的方法，其特征在于，所述通过所述全局特征提取器获取所述初始图像特征对应的第一空间注意力特征，包括：

获取所述全局特征提取器中的第i个注意力组件的输入特征；i为1时，第i个注意力组件的输入特征为所述初始图像特征；i不为1时，第i个注意力组件的输入特征包括第i-1个注意力组件的输出特征，第i-1个卷积组件的输出特征，以及作用于第i-1个注意力组件和第i-1个卷积组件的交互组件所输出的空间注意力特征和空间局部特征；

根据第i个注意力组件对应的变换权重矩阵，将第i个注意力组件的输入特征转换为查询组件、键矩阵以及值矩阵，对所述查询矩阵与所述键矩阵的转置矩阵进行点乘运算，得到候选权重矩阵；

获取所述查询矩阵的列数量，对所述候选权重矩阵与所述列数量的平方根之间的比值进行归一化处理，得到注意力权重矩阵，将所述注意力权重矩阵与所述值矩阵之间的点乘确定为注意力编码特征；

将所述注意力编码特征和第i个注意力组件的输入特征组合为注意力残差特征，根据第i个注意力组件中的多层感知机对所述注意力残差特征进行特征变换处理，得到注意力变换特征；

将所述注意力残差特征和所述注意力变换特征组合为第i个注意力组件的输出特征，将所述全局特征提取器中的第N个注意力组件的输出特征确定为所述第一空间注意力特征。

6.根据权利要求1所述的方法，其特征在于，所述将所述第一空间局部特征转换为局部频域特征，包括：

将所述第一空间局部特征输入至图像分割模型中的交互组件，通过所述交互组件对所述第一空间局部特征进行离散傅里叶变换，得到所述第一空间局部特征对应的频谱特征；

将所述第一空间局部特征所对应的频谱特征的二分之一，确定为所述第一空间局部特征对应的局部频域特征。

7.根据权利要求6所述的方法，其特征在于，所述获取所述局部频域特征关联的第一交互权重，包括：

根据所述交互组件中的第一个卷积层对所述局部频域特征的实部信息进行卷积操作，得到第一频谱卷积结果；

根据所述交互组件中的归一化层对所述第一频谱卷积结果进行归一化处理，得到频谱归一化特征，采用所述交互组件中的第一个激活函数对所述频谱归一化特征进行激活处理，得到频谱激活特征；

根据所述交互组件中的第二个卷积层对所述频谱激活特征进行卷积操作，得到第二频谱卷积结果，采用所述交互组件中的第二个激活函数对所述第二频谱卷积结果进行激活处理，得到所述局部频域特征关联的第一交互权重。

8.根据权利要求6所述的方法，其特征在于，所述将所述局部频域特征和所述局部增强频域特征转换为第二空间局部特征，包括：

将所述局部频域特征和所述局部增强频域特征组合为频域残差特征，通过所述交互组件对所述频域残差特征进行逆傅里叶变换，得到所述频域残差特征对应的空间域特征；

获取所述交互组件中的多层感知器对应的隐含权重矩阵和偏置向量，根据所述偏置向量以及所述隐含权重矩阵与所述空间域特征之间的点乘，确定所述源图像对应的第二空间局部特征。

9.根据权利要求1所述的方法，其特征在于，所述获取所述局部联合特征对应的局部分割预测结果，以及所述注意力联合特征对应的全局分割预测结果，包括：

将所述局部联合特征输入至图像分割模型中的局部分割组件，通过所述局部分割组件对所述局部联合特征进行上采样处理，得到所述源图像对应的局部分割预测结果；

将所述注意力联合特征输入至图像分割模型中的全局分割组件，通过所述全局分割组件对所述注意力联合特征进行上采样处理，得到所述源图像对应的全局分割预测结果。

10.一种图像分割处理方法，其特征在于，包括：

获取标注样本图像和无标注样本图像；所述标注样本图像用于输入至初始分割模型中的第一网络，所述无标注样本图像用于输入至初始分割模型中的第一网络和第二网络，所述第一网络和所述第二网络具有相同的网络结构；

通过所述第一网络中的初始局部特征提取器获取所述无标注样本图像对应的第一样本局部特征，通过所述第一网络中的初始全局特征提取器获取所述无标注样本图像对应的第一样本注意力特征；所述第一样本注意力特征用于表征所述无标注样本图像的全局信息之间的信息传递；

通过所述第一网络中的交互组件将所述第一样本局部特征转换为样本局部频域特征，将所述第一样本注意力特征转换为样本注意力频域特征，获取所述样本局部频域特征关联的第三交互权重，以及获取所述样本注意力频域特征关联的第四交互权重；

根据所述第三交互权重对所述样本注意力频域特征进行增强处理，得到样本注意力增强频域特征，根据所述第四交互权重对所述样本局部频域特征进行增强处理，得到样本局部增强频域特征，将所述样本局部频域特征和所述样本局部增强频域特征转换为第二样本局部特征，将所述样本注意力频域特征和所述样本注意力增强频域特征转换为第二样本注意力特征；

将所述第一样本局部特征和所述第二样本局部特征组合为第一样本局部联合特征，将所述第一样本注意力特征、所述第二样本注意力特征以及所述第一样本局部联合特征组合为第一样本注意力联合特征，通过所述第一网络中的初始局部分割组件输出所述第一样本局部联合特征对应的第一样本局部预测结果，通过所述第一网络中的初始全局分割组件输出所述第一样本注意力联合特征对应的第一样本全局预测结果；

将所述标注样本图像和所述无标注样本图像输入至所述第二网络，通过所述第二网络输出第二样本局部预测结果和第二样本全局预测结果，根据所述第一样本局部预测结果、所述第一样本全局预测结果、所述第二样本局部预测结果、所述第二样本全局预测结果以及所述标注样本图像所携带的标注信息，对所述初始分割模型的网络参数进行修正，将包含修正后的网络参数的第二网络确定为图像分割模型；所述图像分割模型用于输出源图像对应的分割图像。

11.根据权利要求10所述的方法，其特征在于，所述根据所述第一样本局部预测结果、所述第一样本全局预测结果、所述第二样本局部预测结果、所述第二样本全局预测结果以及所述标注样本图像所携带的标注信息，对所述初始分割模型的网络参数进行修正，将包含修正后的网络参数的第二网络确定为图像分割模型，包括：

根据所述无标注样本图像对应的所述第一样本局部预测结果和所述第一样本全局预测结果，确定与所述无标注样本图像相关联的无监督损失；

根据所述标注样本图像对应的第二样本局部预测结果、所述第二样本全局预测结果以及所述标注样本图像所携带的标注信息，确定与所述标注样本图像相关联的全监督损失；

对所述无监督损失和所述全监督损失进行加权求和，得到所述初始分割模型对应的模型总损失，根据所述模型总损失对所述初始分割模型的网络参数进行迭代训练，直至所述模型总损失满足训练结束条件时，停止训练，将训练结束时的第二网络确定为图像分割模型。

12.根据权利要求10所述的方法，其特征在于，所述通过所述第二网络输出第二样本局部预测结果和第二样本全局预测结果，根据所述第一样本局部预测结果、所述第一样本全局预测结果、所述第二样本局部预测结果、所述第二样本全局预测结果以及所述标注样本图像所携带的标注信息，对所述初始分割模型的网络参数进行修正，将包含修正后的网络参数的第二网络确定为图像分割模型；所述图像分割模型用于输出源图像对应的分割图像，包括：

通过所述第二网络获取所述无标注样本图像对应的第二样本局部联合特征和第二样本注意力联合特征，通过所述第二网络中的初始局部分割组件输出所述第二样本局部联合特征对应的第二样本局部预测结果，通过所述第二网络中的初始全局分割组件输出所述第二样本注意力联合特征对应的第二样本全局预测结果；

为所述无标注样本图像对应的第一样本局部联合特征、所述第一样本注意力联合特征、所述第二样本局部联合特征以及所述第二样本注意力联合特征创建类别分布图结构，根据所述类别分布图结构确定所述第一网络与所述第二网络之间的类别一致性损失；

对所述类别一致性损失、所述无监督损失以及所述全监督损失进行加权求和，得到所述初始分割模型对应的模型总损失，根据所述模型总损失对所述初始分割模型的网络参数进行迭代训练，直至所述模型总损失满足训练结束条件时，停止训练，将训练结束时的第二网络确定为图像分割模型。

13.根据权利要求12所述的方法，其特征在于，所述初始分割模型中的所述第一网络和所述第二网络均用于分割C个语义类别，C为正整数；

所述为所述第一样本局部联合特征、所述第一样本注意力联合特征、所述第二样本局部联合特征以及所述第二样本注意力联合特征创建类别分布图结构，根据所述类别分布图结构确定所述第一网络与所述第二网络之间的类别一致性损失，包括：

获取所述第一样本局部联合特征中属于相同语义类别的像素特征对应的特征平均值，将C个语义类别对应的特征平均值确定为所述第一样本局部联合特征对应的C个初始类别节点；

对所述第一样本局部联合特征进行平均池化处理，得到所述第一样本局部联合特征对应的补丁节点集合；

为所述补丁节点集合和所述C个初始类别节点构建C个独立交互图结构，将所述C个独立交互图结构组合为第一联合交互图结构，在所述C个独立交互图结构中获取C个增强类别节点，为所述C个增强类别节点构建第一类别交互图结构；所述第一联合交互图结构和所述第一类别交互图结构属于所述第一样本局部联合特征对应的类别分布图结构；

获取所述第一样本注意力联合特征对应的第二联合交互图结构和第二类别交互图结构，获取所述第二样本局部联合特征对应的第三联合交互图结构和第三类别交互图结构，获取所述第二样本注意力联合特征对应的第四联合交互图结构和第四类别交互图结构；

获取所述第二联合交互图结构与所述第三联合交互图结构之间的第一均方误差，获取所述第二类别交互图结构和所述第三类别交互图结构之间的第二均方误差，将所述第一均方误差和所述第二均方误差之和确定为第一模型互补损失；

获取所述第四联合交互图结构与所述第一联合交互图结构之间的第三均方误差，获取所述第四类别交互图结构与所述第一类别交互图结构之间的第四均方误差，将所述第三均方误差和所述第四均方误差确定为第二模型互补损失，将所述第一模型互补损失和所述第二模型互补损失之和确定为所述第一网络与所述第二网络之间的类别一致性损失。

14.根据权利要求13所述的方法，其特征在于，所述为所述补丁节点集合和所述C个初始类别节点构建C个独立交互图结构，包括：

将所述补丁节点集合和所述C个初始类别节点中的第j个初始类别节点组合为第j个初始交互图结构；j为小于或等于C的正整数；

将所述第j个初始交互图结构中的节点表示特征，以及所述节点表示特征的转置矩阵进行乘积运算，得到矩阵乘积结果，对所述矩阵乘积结果进行归一化处理，得到所述第j个初始交互图结构对应的邻接矩阵；

根据所述邻接矩阵和所述第j个初始交互图结构对应的权重矩阵，对所述第j个初始交互图结构进行图卷积处理，得到第j个独立交互图结构。

15.一种图像分割处理装置，其特征在于，包括：

第一特征提取模块，用于获取源图像，对所述源图像进行特征提取得到第一空间局部特征，对所述源图像进行注意力编码处理得到第一空间注意力特征；所述第一空间注意力特征用于表征所述源图像的全局信息之间的信息传递；

第一频域转换模块，用于将所述第一空间局部特征转换为局部频域特征，将所述第一空间注意力特征转换为注意力频域特征，获取所述局部频域特征关联的第一交互权重，以及获取所述注意力频域特征关联的第二交互权重；

第一特征增强模块，用于根据所述第一交互权重对所述注意力频域特征进行增强处理，得到注意力增强频域特征，根据所述第二交互权重对所述局部频域特征进行增强处理，得到局部增强频域特征，将所述局部频域特征和所述局部增强频域特征转换为第二空间局部特征，将所述注意力频域特征和所述注意力增强频域特征转换为第二空间注意力特征；

残差连接模块，用于将所述第一空间局部特征和所述第二空间局部特征组合为局部联合特征，将所述第一空间注意力特征、所述第二空间注意力特征以及所述局部联合特征组合为注意力联合特征；

第一分割预测模块，用于获取所述局部联合特征对应的局部分割预测结果，以及所述注意力联合特征对应的全局分割预测结果，根据所述局部分割预测结果和所述全局分割预测结果的平均值，生成所述源图像对应的分割图像。

16.一种图像分割处理装置，其特征在于，包括：

样本图像获取模块，用于获取标注样本图像和无标注样本图像；所述标注样本图像用于输入至初始分割模型中的第一网络，所述无标注样本图像用于输入至初始分割模型中的第一网络和第二网络，所述第一网络和所述第二网络具有相同的网络结构；

第二特征提取模块，用于通过所述第一网络中的初始局部特征提取器获取所述无标注样本图像对应的第一样本局部特征，通过所述第一网络中的初始全局特征提取器获取所述无标注样本图像对应的第一样本注意力特征；所述第一样本注意力特征用于表征所述无标注样本图像的全局信息之间的信息传递；

第二频域转换模块，用于通过所述第一网络中的交互组件将所述第一样本局部特征转换为样本局部频域特征，将所述第一样本注意力特征转换为样本注意力频域特征，获取所述样本局部频域特征关联的第三交互权重，以及获取所述样本注意力频域特征关联的第四交互权重；

第二特征增强模块，用于根据所述第三交互权重对所述样本注意力频域特征进行增强处理，得到样本注意力增强频域特征，根据所述第四交互权重对所述样本局部频域特征进行增强处理，得到样本局部增强频域特征，将所述样本局部频域特征和所述样本局部增强频域特征转换为第二样本局部特征，将所述样本注意力频域特征和所述样本注意力增强频域特征转换为第二样本注意力特征；

第二分割预测模块，用于将所述第一样本局部特征和所述第二样本局部特征组合为第一样本局部联合特征，将所述第一样本注意力特征、所述第二样本注意力特征以及所述第一样本局部联合特征组合为第一样本注意力联合特征，通过所述第一网络中的初始局部分割组件输出所述第一样本局部联合特征对应的第一样本局部预测结果，通过所述第一网络中的初始全局分割组件输出所述第一样本注意力联合特征对应的第一样本全局预测结果；

网络参数修正模块，用于将所述标注样本图像和所述无标注样本图像输入至所述第二网络，通过所述第二网络输出第二样本局部预测结果和第二样本全局预测结果，根据所述第一样本局部预测结果、所述第一样本全局预测结果、所述第二样本局部预测结果、所述第二样本全局预测结果以及所述标注样本图像所携带的标注信息，对所述初始分割模型的网络参数进行修正，将包含修正后的网络参数的第二网络确定为图像分割模型；所述图像分割模型用于输出源图像对应的分割图像。

17.一种计算机设备，其特征在于，包括存储器和处理器；

所述存储器与所述处理器相连，所述存储器用于存储计算机程序，所述处理器用于调用所述计算机程序，以使得所述计算机设备执行权利要求1至9任一项所述的方法，或者执行权利要求10至14任一项所述的方法。

18.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机程序，所述计算机程序适于由处理器加载并执行，以使得具有所述处理器的计算机设备执行权利要求1至9任一项所述的方法，或者执行权利要求10至14任一项所述的方法。

19.一种计算机程序产品，其特征在于，包括计算机程序/指令，所述计算机程序/指令被处理器执行时实现权利要求1至9任一项所述的方法，或者实现权利要求10至14任一项所述的方法。