CN115761239A

CN115761239A - 一种语义分割方法及相关装置

Info

Publication number: CN115761239A
Application number: CN202310026048.9A
Authority: CN
Inventors: 田倬韬; 崔洁全; 易振彧; 刘枢; 吕江波; 沈小勇
Original assignee: Shenzhen Smartmore Technology Co Ltd
Current assignee: Shenzhen Smartmore Technology Co Ltd
Priority date: 2023-01-09
Filing date: 2023-01-09
Publication date: 2023-03-07
Anticipated expiration: 2043-01-09
Also published as: CN115761239B

Abstract

本申请涉及一种语义分割方法及相关装置。该方法包括：通过待训练的分类器生成器对预测类别特征与第一分类器进行融合，得到第二分类器；通过第二分类器对图像特征进行分类预测，得到第二预测结果；对参考类别特征与第一分类器进行融合，得到参考分类器；通过参考分类器对图像特征进行分类预测，得到参考预测结果；根据第二预测结果和参考预测结果之间的差异对待训练的分类器生成器进行调参，以迭代训练得到目标分类器生成器。采用本方法，能够准确地对不同待处理图像进行语义分割。

Description

一种语义分割方法及相关装置

技术领域

本申请涉及计算机视觉技术领域，特别是涉及一种语义分割方法及相关装置。

背景技术

随着计算机视觉技术的发展，出现了语义分割技术。语义分割模型可以被分成特征提取器和分类器两个部分，特征提取器从输入图像中提取特征至分类器，分类器完成像素级别的分类。

传统技术中，对于不同的输入图像，语义分割模型中的分类器是共享的。但是，不同的输入图像内容千差万别，共享的分类器无法有效地理解不同输入图像的内容环境，导致语义分割不够准确。

发明内容

本申请提供一种语义分割方法、装置、计算机设备、计算机可读存储介质及计算机程序产品，能够实现准确地对不同待处理图像进行语义分割。

第一方面，本申请提供了一种语义分割方法，包括：

通过待训练的分类器生成器对预测类别特征与第一分类器进行融合，得到第二分类器；预测类别特征是根据样本图像的图像特征和第一预测结果确定的；第一预测结果是通过第一分类器对图像特征进行分类预测得到的；

通过第二分类器对图像特征进行分类预测，得到第二预测结果；

对参考类别特征与第一分类器进行融合，得到参考分类器；参考类别特征是根据图像特征和类别标签确定的；

通过参考分类器对图像特征进行分类预测，得到参考预测结果；

根据第二预测结果和参考预测结果之间的差异，对待训练的分类器生成器进行调参，以迭代训练得到目标分类器生成器；目标分类器生成器用于针对输入的待处理图像生成对应的、且用于对待处理图像进行语义分割的目标分类器。

第二方面，本申请还提供了一种语义分割装置，包括：

第一融合模块，用于通过待训练的分类器生成器对预测类别特征与第一分类器进行融合，得到第二分类器；预测类别特征是根据样本图像的图像特征和第一预测结果确定的；第一预测结果是通过第一分类器对图像特征进行分类预测得到的；

第一预测模块，用于通过第二分类器对图像特征进行分类预测，得到第二预测结果；

第二融合模块，用于对参考类别特征与第一分类器进行融合，得到参考分类器；参考类别特征是根据图像特征和类别标签确定的；

第二预测模块，用于通过参考分类器对图像特征进行分类预测，得到参考预测结果；

训练模块，用于根据第二预测结果和参考预测结果之间的差异，对待训练的分类器生成器进行调参，以迭代训练得到目标分类器生成器；目标分类器生成器用于针对输入的待处理图像生成对应的、且用于对待处理图像进行语义分割的目标分类器。

第三方面，本申请还提供了一种计算机设备，计算机设备包括存储器和处理器，存储器存储有计算机程序，处理器执行计算机程序时实现本申请的语义分割方法中的步骤。

第四方面，本申请还提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序被处理器执行时实现本申请的语义分割方法中的步骤。

第五方面，本申请还提供了一种计算机程序产品，计算机程序产品包括计算机程序，该计算机程序被处理器执行时实现本申请的语义分割方法中的步骤。

上述语义分割方法、装置、计算机设备、计算机可读存储介质及计算机程序产品，通过待训练的分类器生成器对预测类别特征与第一分类器进行融合，得到的第二分类器充分结合了预测类别特征，能够适应不同的图像，相较于第一分类器能够更准确的感知图像特征。对参考类别特征与第一分类器进行融合，得到的参考分类器结合了类别标签的参考类别特征，相较于第二分类器能够进一步地准确感知图像特征；进而，根据参考分类器对图像特征进行处理得到的参考预测结果和第二分类器对图像特征进行处理得到第二预测结果之间的差异，对待训练的分类器生成器进行调参，得到目标分类器生成器，这样得到的目标分类器生成器针对输入的待处理图像生成的目标分类器能够准确感知待处理图像的特征，相较于传统的共享分类器对于待处理图像更具适应性，从而实现对不同的输入图像进行更加准确地语义分割。

附图说明

图1为本申请实施例提供的一种语义分割方法的流程示意图；

图2A为本申请实施例提供的一种传统的语义分割方法的原理示意图；

图2B为本申请实施例提供的一种语义分割方法的原理示意图；

图3为本申请实施例提供的一种迭代训练得到目标分类器生成器的架构示意图；

图4为本申请实施例提供的一种语义分割装置的结构框图；

图5为本申请实施例提供的一种计算机设备的内部结构图；

图6为本申请实施例提供的另一种计算机设备的内部结构图；

图7为本申请实施例提供的一种计算机可读存储介质的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

在一些实施例中，如图1所示，提供了一种语义分割方法，本实施例以该方法应用于服务器进行举例说明，可以理解的是，该方法也可以应用于计算机设备，还可以应用于包括计算机设备和服务器的系统，并通过计算机设备和服务器的交互实现。

其中，计算机设备可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备以及便携式可穿戴设备，物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

本实施例中，该方法包括以下步骤：

S102，通过待训练的分类器生成器对预测类别特征与第一分类器进行融合，得到第二分类器。

其中，第一预测结果是通过第一分类器对图像特征进行分类预测得到的。预测结果用于描述图像中各个像素点属于各个类别的概率分布。预测类别特征是根据样本图像的图像特征和第一预测结果确定的。类别特征用于描述各个类别的特征，相当于各个类别的中心表达。可以理解，属于同种类别的像素点之间存在特定的联系，图像特征描述了样本图像中像素点的特征分布，而分类器的预测结果描述了各个像素点属于各个类别的概率分布，因此结合二者得到的类别特征与分类器融合能够加强对图像内容的感知能力。

示例性地，服务器可以确定从样本图像提取的图像特征，通过第一分类器对图像特征进行分类预测得到第一预测结果。服务器可以根据第一预测结果和图像特征确定预测类别特征。服务器可以通过待训练的分类器生成器，根据预测类别特征与第一分类器之间的相关性，对预测类别特征与第一分类器进行融合，得到第二分类器。

在一些实施例中，服务器可以通过特征提取器从样本图像中提取出图像特征。可以理解，图像特征可以是语义分割模型中的分类器前一层输出的结果。

在一些实施例中，服务器可以使用小样本学习的方法，根据第一预测结果和图像特征确定预测类别特征。

在一些实施例中，预测类别特征为多个，包括各个类别对应的预测类别特征。服务器可以确定第一预测结果指示的各个类别对应的图像特征。服务器可以对每一类别对应的图像特征进行池化平均，得到每一类别的预测类别特征。

S104，通过第二分类器对图像特征进行分类预测，得到第二预测结果。

示例性地，服务器可以基于第二分类器与图像特征之间的相似度，对图像特征进行分类预测，得到第二预测结果。

在一些实施例中，服务器可以基于第二分类器与图像特征之间的余弦相似度，对图像特征进行分类预测，得到第二预测结果。可以理解的是，不限于本实施例指出的余弦相似度这一种相似度量标准，服务器还可以使用除余弦相似度外的相似度量标准确定第二分类器与图像特征之间的相似度，比如欧氏距离和皮尔逊相关系数等。

S106，对参考类别特征与第一分类器进行融合，得到参考分类器。

其中，参考类别特征是根据图像特征和类别标签确定的。可以理解，参考类别特征是采用类别标签得到的，相较于采用第一预测结果得到的预测类别特征，能够更准确地描述类别，相当于类别的中心理想表达。

示例性地，服务器可以根据图像特征和类别标签确定参考类别特征，并通过参考分类器生成器对参考类别特征与第一分类器进行融合，得到参考分类器。

在一些实施例中，服务器可以使用小样本学习的方法，根据图像特征和类别标签确定参考类别特征。

在一些实施例中，参考类别特征为多个，包括各个类别对应的参考类别特征。服务器可以确定类别标签指示的各个类别对应的图像特征。服务器可以对每一类别对应的图像特征进行池化平均，得到每一类别的参考类别特征。

S108，通过参考分类器对图像特征进行分类预测，得到参考预测结果。

示例性地，服务器可以基于参考分类器与图像特征之间的相似度，对图像特征进行分类预测，得到参考预测结果。

在一些实施例中，服务器可以基于参考分类器与图像特征之间的余弦相似度，对图像特征进行分类预测，得到参考预测结果。可以理解的是，不限于本实施例指出的余弦相似度这一种相似度量标准，服务器还可以使用除余弦相似度外的相似度量标准确定参考分类器与图像特征之间的相似度，比如欧氏距离和皮尔逊相关系数等。

S110，根据第二预测结果和参考预测结果之间的差异，对待训练的分类器生成器进行调参，以迭代训练得到目标分类器生成器。

其中，目标分类器生成器用于针对输入的待处理图像生成对应的、且用于对待处理图像进行语义分割的目标分类器。

示例性地，服务器可以根据第二预测结果和参考预测结果之间的差异，确定语义感知损失值，并基于语义感知损失值对待训练的分类器生成器和第一分类器进行调参，以迭代训练得到目标分类器生成器和训练完成的第一分类器。

在一些实施例中，第一分类器可以包括共享分类器。可以理解，第一分类器对于不同的待处理图像是通用的，但是缺少针对性感知图像内容的能力，通过目标分类器生成器融合第一分类器和待处理图像对应的类别特征得到的目标分类器，加强了对待处理图像内容感知的能力，能够提高语义分割的准确性。

上述语义分割方法中，通过待训练的分类器生成器对预测类别特征与第一分类器进行融合，得到的第二分类器充分结合了预测类别特征，能够适应不同的图像，相较于第一分类器能够更准确的感知图像特征。对参考类别特征与第一分类器进行融合，得到的参考分类器结合了类别标签的参考类别特征，相较于第二分类器能够进一步地准确感知图像特征；进而，根据参考分类器对图像特征进行处理得到的参考预测结果和第二分类器对图像特征进行处理得到第二预测结果之间的差异，对待训练的分类器生成器进行调参，得到目标分类器生成器，这样得到的目标分类器生成器针对输入的待处理图像生成的目标分类器能够准确感知待处理图像的特征，相较于传统的共享分类器对于待处理图像更具适应性，从而实现对不同的输入图像进行更加准确地语义分割。

在一些实施例中，在通过待训练的分类器生成器对预测类别特征与第一分类器进行融合，得到第二分类器之前，方法还包括：

对第一预测结果进行归一化处理，得到归一化后的第一预测结果；

分别对归一化后的第一预测结果中每一类别对应的元素进行加权计算，得到第一加权向量；

根据归一化后的第一预测结果和第一加权向量对图像特征进行加权映射处理，得到预测类别特征。

示例性地，服务器可以使用归一化指数函数（softmax）对第一预测结果中类别维度上的元素进行归一化处理，得到归一化后的第一预测结果。可以理解，[h，w，d]来表示图像特征的高、宽和特征通道数，用n来表示类别数量，因而第一预测结果p的尺寸应为[h，w，n]，“n”这一维度就是类别维度。服务器可以确定归一化后的第一预测结果指示的各个类别对应的图像特征。服务器可以使用第一加权向量对各个类别对应的图像特征进行加权映射处理，得到各个类别对应的预测类别特征。

在一些实施例中，第一预测结果包括各个类别对应的预测矩阵。服务器可以将预测矩阵中的元素移位到相同行或者相同列中得到移位预测矩阵，将每一类别对应的移位预测矩阵进行拼接，得到移位后的第一预测结果。可以理解，经过上述处理，第一预测结果p的尺寸从[h，w，n]变为[n，h*w]。服务器可以对移位后的第一预测结果进行归一化处理，得到归一化后的第一预测结果。

在一些实施例中，服务器可以对归一化后的第一预测结果和图像特征进行乘法计算，得到各个类别对应的图像特征。

在一些实施例中，服务器可以针对每一类别，计算每一类别对应的图像特征与第一加权向量之间的比值，得到各个类别对应的预测类别特征。

在一些实施例中，公式（1）为预测类别特征的计算公式。如下所示：

（1）

其中，C_p是预测类别特征，p是第一预测结果，（p）^T为移位后的第一预测结果，尺寸为[n，hw]；σ为归一化函数，C为第一分类器，尺寸为[n，d]；C^T为移位后的第一分类器，尺寸为[d，n]；f为图像特征，尺寸为[h，w，d]。可以理解，p=f*C^T。

在一些实施例中，服务器可以对类别标签矩阵和图像特征进行乘法计算，得到类别标签指示的各个类别对应的图像特征。服务器可以对类别标签矩阵中每一类别对应的元素进行加权计算，得到第二加权向量。服务器可以根据类别标签矩阵和第二加权向量对图像特征进行加权映射处理，得到参考类别矩阵。

在一些实施例中，服务器可以针对每一类别，计算类别标签指示的每一类别对应的图像特征与第二加权向量之间的比值，得到每一类别对应的参考类别特征。

在一些实施例中，公式（2）为参考类别特征的计算公式。如下所示：

（2）

其中，C_y是参考类别特征，尺寸为[n,d]；y_*是类别标签矩阵，尺寸为[n,hw]；f是图像特征，尺寸为[h,w,d]。

本实施例中，对第一预测结果进行归一化处理，分别对归一化后的第一预测结果中每一类别对应的元素进行加权计算，得到第一加权向量；根据归一化后的第一预测结果和第一加权向量对图像特征进行加权映射处理，得到预测类别特征，后续融合预测类别特征和第一分类器能够针对性地感知图像内容，从而能够针对性地提高对图像语义分割的准确性。

在一些实施例中，通过待训练的分类器生成器对预测类别特征与第一分类器进行融合，得到第二分类器，包括：

对预测类别特征和第一分类器进行拼接，得到分类器拼接向量；

通过待训练的分类器生成器，基于第一分类器和预测类别特征之间的相关性对分类器拼接向量中的元素进行加权映射处理，得到第二分类器。

示例性地，服务器可以对预测类别特征和第一分类器进行横向拼接，得到分类器拼接向量。可以理解，预测类别特征的尺寸为[n,d]，第一分类器的尺寸为[n,d]，“n”为类别维度，“d”为特征通道维度，分类器拼接向量的尺寸为[n,2d]。服务器可以通过待训练的分类器生成器中第一映射层、非线性增强层和第二映射层，对分类器拼接向量中的元素进行加权映射处理，得到第二分类器。

在一些实施例中，公式（3）为确定第二分类器的公式。如下所示：

（3）

其中，A_p是第二分类器，θ_p是待训练的分类器生成器，C_p是预测类别特征，C是第一分类器；圆中心加号表示横向拼接。

在一些实施例中，公式（4）为确定参考分类器的公式。如下所示：

（4）

其中，A_y是参考分类器，θ_y是参考分类器生成器，C_y是参考类别特征，C是第一分类器；圆中心加号表示横向拼接。

在一些实施例中，分类器生成器可以是基于多层感知机（MLP，MultilayerPerceptron）实现的。多层感知机的具体结构不作限制，可2层，可3层。

在一些实施例中，第一映射层用于对分类器拼接向量进行内部融合，非线性增强层用于增强非线性表达能力，第二映射层用于对非线性增强层的输出作维度变换。分类器生成器可以将分类器拼接向量作为第一映射层的输入，第一映射层的输出作为非线性增强层的输入，非线性增强层的输出作为第二映射层的输入，对分类器拼接向量中的元素进行加权映射处理，得到第二分类器。比如，第一映射层的尺寸为[2d,d]，第二映射层的尺寸为[d,d]，非线性增强层包括分段线性（RELU）函数，分类器生成器的结构其实是[2d, d] ->RELU -> [d, d]。可以理解，在迭代训练中，分类器生成器不断学习预测类别特征与第一分类器之间的关系，分类器生成器的参数会不断地调整，最后得到的目标分类器生成器生成的分类器更接近参考分类器。

在一些实施例中，第一映射层包括融合权重矩阵。服务器可以使用融合权重矩阵对分类器拼接向量进行内部融合。融合权重矩阵用于指示分类器拼接向量中元素的融合权重。可以理解，在第一分类器与预测类别特征之间的相关性比较强的情况下，预测类别特征对应的元素的融合权重相较于相关性较弱的情况会更大，即预测类别特征对应的元素的融合权重与、第一分类器与预测类别特征之间的相关性正相关。

在一些实施例中，服务器可以对参考类别特征和第一分类器进行拼接，得到参考分类器拼接向量。服务器可以通过参考分类器生成器对参考分类器拼接向量进行加权映射处理，得到参考分类器。

在一些实施例中，参考分类器生成器可以包括第一参考映射层、参考非线性增强层和第二参考映射层。比如，参考分类器生成器的结构可以是[2d, d] -> RELU -> [d,d]。第一参考映射层可以包括参考融合权重矩阵。可以理解，参考分类器生成器作为待训练的分类器生成器的约束，二者结构相似，融合类别特征和分类器的过程相似，主要区别在于参考分类器生成器用于融合参考类别特征和第一分类器，待训练的分类器生成器用于融合预测类别特征和第一分类器。

本实施例中，通过待训练的分类器生成器，基于第一分类器和预测类别特征之间的相关性对分类器拼接向量中的元素进行加权映射处理，得到第二分类器，充分考虑到了预测类别特征与第一分类器之间的相关性，保证融合的准确性，得到更准确的第二分类器。

在一些实施例中，通过第二分类器对图像特征进行分类预测，得到第二预测结果，包括：

分别对图像特征和第二分类器进行正则化处理，得到正则化后的图像特征和正则化后的第二分类器；

基于预设温度系数和正则化后的第二分类器对正则化后的图像特征进行处理，得到第二预测结果。

示例性地，服务器可以分别对图像特征和第二分类器进行L2正则化处理，得到正则化后的图像特征和正则化后的第二分类器。服务器可以对正则化后的图像特征和正则化后的第二分类器进行乘法计算，得到图像特征与第二分类器之间的余弦相似度。服务器可以使用预设温度系数对余弦相似度进行加权处理，得到第二预测结果。可以理解，后续确定损失值需要对第二预测结果进行归一化，余弦相似度的取值范围较小会导致损失值计算不准确，使用温度系数能够增大第二预测结果中元素差异。

在一些实施例中，服务器可以将第二分类器的行换成同序数的列，得到移位后的第二分类器。服务器可以对移位后的第二分类器进行正则化处理。

在一些实施例中，公式（5）为确定第二预测结果的公式。如下所示：

（5）

其中，p_p是第二预测结果，τ是预设温度系数，η是L2正则化（L2-normalization），f是图像特征，A_p是第二分类器，（A_p）^T是移位后的第二分类器。

在一些实施例中，服务器可以分别对图像特征和参考分类器进行正则化处理，得到正则化后的图像特征和正则化后的参考分类器；基于预设温度系数和正则化后的参考分类器对正则化后的图像特征进行处理，得到参考预测结果。

在一些实施例中，服务器可以将参考分类器的行换成同序数的列，得到移位后的参考分类器。服务器可以对移位后的参考分类器进行正则化处理。

在一些实施例中，服务器可以对正则化后的参考分类器对正则化后的图像特征进行乘法计算，得到图像特征与参考分类器之间的余弦相似度。服务器可以使用预设温度系数对参考分类器对应的余弦相似度进行加权处理，得到参考预测结果。可以理解，迭代训练中朝着第二分类器更接近参考分类器的方向进行训练，参考预测结果其实是第二预测结果的约束，两种结果的预测过程相似。

在一些实施例中，公式（6）为确定参考预测结果的公式。如下所示：

（6）

其中，p_y是参考预测结果，τ是预设温度系数，η是L2正则化（L2-normalization），f是图像特征，A_y是参考分类器，（A_y）^T是移位后的参考分类器。

本实施例中，通过对图像特征和第二分类器分别进行正则化处理，得到正则化后的图像特征和正则化后的第二分类器；基于预设温度系数和正则化后的第二分类器对正则化后的图像特征进行处理，得到第二预测结果，后续能够使用第二预测结果和参考预测结果确定损失值，以对待训练的分类器生成器进行训练，得到能够准确生成感知输入图像内容的目标分类器的目标分类器生成器。

在一些实施例中，根据第二预测结果和参考预测结果之间的差异，对待训练的分类器生成器进行调参，以迭代训练得到目标分类器生成器，包括：

在本轮迭代训练中，根据第二预测结果和参考预测结果之间的差异，对待训练的分类器生成器、参考分类器生成器和第一分类器进行调参，得到下一轮迭代训练中的待训练的分类器生成器、参考分类器生成器和第一分类器；参考分类器是通过参考分类器生成器对参考类别特征与第一分类器进行融合得到的；

确定下一轮为本轮，返回通过待训练的分类器生成器对预测类别特征与第一分类器进行融合，得到第二分类器的步骤以继续迭代训练，直至满足训练停止条件，得到目标分类器生成器。

示例性地，服务器可以在本轮迭代训练中，朝着第二预测结果和参考预测结果之间的差异变小的方向，对待训练的分类器生成器、参考分类器生成器和第一分类器进行调参，得到下一轮迭代训练中的待训练的分类器生成器、参考分类器生成器和第一分类器。服务器可以确定下一轮为本轮，返回通过待训练的分类器生成器对预测类别特征与第一分类器进行融合，得到第二分类器的步骤以继续迭代训练，直至达到预设迭代次数，得到目标分类器生成器。

本实施例中，通过第二预测结果和参考预测结果之间的差异，对待训练的分类器生成器、参考分类器生成器和第一分类器进行调参，使得待训练的分类器生成器朝着参考分类器靠近，以逼近最优的理想情况，采用参考分类器生成器作为待训练的分类器生成器的约束，使得目标分类器生成器更准确地对预测类别特征和第一分类器进行融合生成目标分类器，以提高语义分割的准确性。

在一些实施例中，方法还包括：

获取从输入的待处理图像提取的待处理图像特征；

通过第一分类器对待处理图像特征进行分类预测，得到中间预测结果；

根据中间预测结果和待处理图像特征，确定中间类别特征；

通过目标分类器生成器对中间类别特征与第一分类器进行融合，得到目标分类器；目标分类器用于对待处理图像特征进行分类预测，得到目标预测结果。

示例性地，目标分类器生成器和训练完成的第一分类器用于生成目标分类器。服务器可以获取从输入的待处理图像提取的待处理图像特征。服务器可以将待处理图像特征确定为第一分类器的输入，通过第一分类器对待处理图像特征进行分类预测，得到待处理图像的第一预测结果，即中间预测结果。服务器可以根据中间预测结果和待处理图像特征确定待处理图像的预测类别特征，即中间类别特征。服务器可以通过目标分类器生成器对中间类别特征与第一分类器进行融合，得到目标分类器。服务器可以通过目标分类器对待处理图像特征进行分类预测，得到待处理图像的目标预测结果。

在一些实施例中，如图2A所示，为传统的语义分割方法的原理示意图。通过特征提取器得到待处理图像的图像特征之后，共用第一分类器进行分类预测，得到预测结果。第一分类器作为通用的分类器，无法针对性地感知待处理图像的内容，导致语义分割不够准确。

在一些实施例中，如图2B所示，为本申请提供的语义分割方法的原理示意图。通过特征提取器提取待处理图像的图像特征。之后确定第一分类器对图像特征进行分类预测得到的中间预测结果，基于中间预测结果和图像特征确定中间类别特征。通过目标分类器生成器对第一分类器和中间类别特征进行融合，得到待处理图像对应的目标分类器。通过目标分类器对待处理图像的图像特征进行分类预测得到预测结果。可以理解，预测结果1、目标分类器1和图像特征1均对应于待处理图像1。预测结果2、目标分类器2和图像特征2均对应于待处理图像2。预测结果3、目标分类器3和图像特征3均对应于待处理图像3。

本实施例中，通过第一分类器对待处理图像特征进行分类预测，得到中间预测结果；根据中间预测结果和待处理图像特征确定中间类别特征；通过目标分类器生成器对中间类别特征与第一分类器进行融合，得到目标分类器，相当于迭代训练过程中需要参考分类器生成器生成的参考分类器作为待训练的分类器生成器生成的第二分类器的约束，而实际使用中保留目标分类器和第一分类器实现对输入图像生成目标分类器，以针对性地感知输入图像的内容，提高语义分割的准确性。

根据第二预测结果和参考预测结果之间的差异，确定语义感知损失值；

根据第一预测结果、第二预测结果和参考预测结果中至少一种与类别标签之间的差异，确定语义分割损失值；

根据语义感知损失值和语义分割损失值，确定目标损失值；

基于目标损失值对待训练的分类器生成器进行调参，以迭代训练得到目标分类器生成器。

示例性地，服务器可以将第二预测结果和参考预测结果作为语义感知损失函数的输入，计算语义感知损失值。服务器可以将第一预测结果、第二预测结果和参考预测结果中任意一种与类别标签作为语义分割损失函数的输入，计算语义分割损失值。服务器可以计算语义感知损失值和语义分割损失值之和，得到目标损失值。服务器可以朝着目标损失值变小的方向对待训练的分类器生成器进行调参，以迭代训练得到目标分类器生成器。

在一些实施例中，语义感知损失函数可以是相对熵损失函数、最小绝对值偏差（L1）损失函数和最小平方误差（L2）损失函数等蒸馏损失中的任意一种。

在一些实施例中，公式（7）为语义感知损失函数。如下所示：

（7）

其中，L_KL是语义感知损失函数，p_y是参考预测结果，尺寸为[hw,n]；p_p为第二预测结果，尺寸为[hw,n]；σ为归一化函数，h代表样本图像的高，w代表样本图像的宽。

在一些实施例中，服务器可以使用语义感知损失权重对语义感知损失函数的输出进行加权，得到语义感知损失值。可以理解，语义感知损失权重可以是预定义的，比如10。

在一些实施例中，语义分割损失函数可以是交叉熵损失函数和相对熵损失函数等损失函数中的任意一种。

在一些实施例中，服务器可以分别将第一预测结果、第二预测结果和参考预测结果与类别标签作为语义分割损失函数的输入，计算得到三个语义分割损失值。服务器可以计算三个语义分割损失值与语义感知损失值之和，得到目标损失值。

在一些实施例中，公式（8）为目标损失值的计算公式。如下所示：

（8）

其中，L是目标损失值，L^ce是第一预测结果对应的语义分割损失值，L_p ^ce是第二预测结果对应的语义分割损失值，L_y ^ce是参考预测结果对应的语义分割损失值，L_KL是语义感知损失值，λ_KL是语义感知损失权重。

在一些实施例中，如图3所示，为迭代训练得到目标分类器生成器的架构示意图。可以理解，本申请对语义分割模型进行了改进，语义分割模型在通用的第一分类器的基础上增加了分类器生成器，对分类器生成器的训练相当于对语义分割模型的训练。所以，计算机设备会将样本图像输入至语义分割模型中，在第一分类器之前，语义分割模型会对样本图像进行多层特征提取处理，得到图像特征，然后，将第一分类器的前一层特征提取层输出的图像特征输入至第一分类器，通过第一分类器对图像特征进行分类预测，得到第一预测结果。基于图像特征和第一预测结果确定预测类别特征，通过待训练的分类器生成器对预测类别特征和第一分类器进行融合得到第二分类器。通过第二分类器对图像特征进行分类预测得到第二预测结果。

基于图像特征和类别标签确定参考类别特征，通过参考分类器生成器对参考类别特征和第一分类器进行融合得到参考分类器。通过参考分类器对图像特征进行分类预测得到参考预测结果。分别计算参考预测结果、第一预测结果和第二预测结果与类别标签之间的语义分割损失值，得到参考分类器对应的语义分割损失值、第一分类器对应的语义分割损失值和第二分类器对应的语义分割损失值。计算参考预测结果与第二预测结果之间的语义感知损失值。通过计算三种语义分割损失值与语义感知损失值的总和得到目标损失值。

朝着目标损失值变小的方向对第一分类器、待训练的分类器生成器、参考分类器生成器进行调参，直至达到预设迭代次数，停止训练，得到目标分类器生成器和训练完成的第一分类器。

需要说明的是，如图3所示，基于类别标签得到的参考分类器部分仅用于训练，通过迭代训练得到的第一分类器和目标分类器生成器可以作为训练的结果进行使用，即用于生成待处理图像对应的目标分类器，具体可以参见本申请实施例中关于目标分类器生成步骤的描述。

本实施例中，根据第二预测结果和参考预测结果之间的差异，确定语义感知损失值；根据第一预测结果、第二预测结果和参考预测结果中至少一种与类别标签之间的差异，确定语义分割损失值；根据语义感知损失值和语义分割损失值确定目标损失值；基于目标损失值对待训练的分类器生成器进行调参，以迭代训练得到目标分类器生成器，基于语义分割损失值训练能够保证预测结果的准确性，基于语义感知损失值训练能够保证第二分类器接近参考分类器以更准确地感知图像的内容，以提高语义分割的准确性。

应该理解的是，虽然如上的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

基于同样的发明构思，本申请实施例还提供了一种语义分割装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的语义分割装置实施例中的具体限定可以参见上文中对于语义分割方法的限定，在此不再赘述。

在一些实施例中，如图4所示，提供了一种语义分割装置400，包括：

第一融合模块402，用于通过待训练的分类器生成器对预测类别特征与第一分类器进行融合，得到第二分类器；预测类别特征是根据样本图像的图像特征和第一预测结果确定的；第一预测结果是通过第一分类器对图像特征进行分类预测得到的；

第一预测模块404，用于通过第二分类器对图像特征进行分类预测，得到第二预测结果；

第二融合模块406，用于对参考类别特征与第一分类器进行融合，得到参考分类器；参考类别特征是根据图像特征和类别标签确定的；

第二预测模块408，用于通过参考分类器对图像特征进行分类预测，得到参考预测结果；

训练模块410，用于根据第二预测结果和参考预测结果之间的差异，对待训练的分类器生成器进行调参，以迭代训练得到目标分类器生成器；目标分类器生成器用于针对输入的待处理图像生成对应的、且用于对待处理图像进行语义分割的目标分类器。

在一些实施例中，第一融合模块402还用于：对第一预测结果进行归一化处理，得到归一化后的第一预测结果；分别对归一化后的第一预测结果中每一类别对应的元素进行加权计算，得到第一加权向量；根据归一化后的第一预测结果和第一加权向量对图像特征进行加权映射处理，得到预测类别特征。

在一些实施例中，在通过待训练的分类器生成器对预测类别特征与第一分类器进行融合，得到第二分类器方面，第一融合模块402具体用于：

在一些实施例中，在通过第二分类器对图像特征进行分类预测，得到第二预测结果方面，第一预测模块404具体用于：

在一些实施例中，在根据第二预测结果和参考预测结果之间的差异，对待训练的分类器生成器进行调参，以迭代训练得到目标分类器生成器方面，训练模块410具体用于：

在一些实施例中，训练模块410还用于：获取从输入的待处理图像提取的待处理图像特征；通过第一分类器对待处理图像特征进行分类预测，得到中间预测结果；根据中间预测结果和待处理图像特征，确定中间类别特征；通过目标分类器生成器对中间类别特征与第一分类器进行融合，得到目标分类器；目标分类器用于对待处理图像特征进行分类预测，得到目标预测结果。

根据语义感知损失值和语义分割损失值，确定目标损失值；

上述语义分割装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以以硬件形式内嵌于或独立于计算机设备中的处理器，也可以以软件形式存储于计算机设备中的存储器，以便于处理器调用执行以上各个模块对应的操作。

在一些实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图5所示。该计算机设备包括处理器、存储器、输入/输出接口(Input/Output，简称I/O）以及通信接口。其中，处理器、存储器和输入/输出接口通过系统总线连接，通信接口通过输入/输出接口连接到系统总线。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储样本图像。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现上述的语义分割方法中的步骤。

在一些实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图6所示。该计算机设备包括处理器、存储器、输入/输出接口、通信接口、显示单元以及输入装置。其中，处理器、存储器和输入/输出接口通过系统总线连接，通信接口、显示单元和输入装置通过输入/输出接口连接到系统总线。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、移动蜂窝网络、NFC（近场通信）或其他技术实现。该计算机程序被处理器执行时以实现上述的语义分割方法中的步骤。该计算机设备的显示单元用于形成视觉可见的画面，可以是显示屏、投影装置或虚拟现实成像装置。显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图5或图6中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一些实施例中，提供了一种计算机设备，计算机设备包括存储器和处理器，存储器存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一些实施例中，如图7所示提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述各方法实施例中的步骤。

在一些实施例中，提供了一种计算机程序产品，计算机程序产品包括计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

需要说明的是，本申请所涉及的用户信息（包括但不限于用户设备信息、用户个人信息等）和数据（包括但不限于用于分析的数据、存储的数据、展示的数据等），均为经用户授权或者经过各方充分授权的信息和数据，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器（Read-Only Memory，ROM）、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器（ReRAM）、磁变存储器（Magnetoresistive Random Access Memory，MRAM）、铁电存储器（FerroelectricRandom Access Memory，FRAM）、相变存储器（Phase Change Memory，PCM）、石墨烯存储器等。易失性存储器可包括随机存取存储器（Random Access Memory，RAM）或外部高速缓冲存储器等。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器（StaticRandom Access Memory，SRAM）或动态随机存取存储器（Dynamic Random Access Memory，DRAM）等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种语义分割方法，其特征在于，包括：

通过待训练的分类器生成器对预测类别特征与第一分类器进行融合，得到第二分类器；所述预测类别特征是根据样本图像的图像特征和第一预测结果确定的；所述第一预测结果是通过所述第一分类器对所述图像特征进行分类预测得到的；

通过所述第二分类器对所述图像特征进行分类预测，得到第二预测结果；

对参考类别特征与所述第一分类器进行融合，得到参考分类器；所述参考类别特征是根据所述图像特征和类别标签确定的；

通过所述参考分类器对所述图像特征进行分类预测，得到参考预测结果；

根据所述第二预测结果和所述参考预测结果之间的差异，对所述待训练的分类器生成器进行调参，以迭代训练得到目标分类器生成器；所述目标分类器生成器用于针对输入的待处理图像生成对应的、且用于对所述待处理图像进行语义分割的目标分类器。

2.根据权利要求1所述的方法，其特征在于，在所述通过待训练的分类器生成器对预测类别特征与第一分类器进行融合，得到第二分类器之前，所述方法还包括：

对所述第一预测结果进行归一化处理，得到归一化后的第一预测结果；

分别对所述归一化后的第一预测结果中每一类别对应的元素进行加权计算，得到第一加权向量；

根据所述归一化后的第一预测结果和所述第一加权向量对所述图像特征进行加权映射处理，得到所述预测类别特征。

3.根据权利要求1所述的方法，其特征在于，所述通过待训练的分类器生成器对预测类别特征与第一分类器进行融合，得到第二分类器，包括：

对预测类别特征和第一分类器进行拼接处理，得到分类器拼接向量；

通过待训练的分类器生成器，基于所述第一分类器和所述预测类别特征之间的相关性对所述分类器拼接向量中的元素进行加权映射处理，得到第二分类器。

4.根据权利要求1所述的方法，其特征在于，所述通过所述第二分类器对所述图像特征进行分类预测，得到第二预测结果，包括：

分别对所述图像特征和所述第二分类器进行正则化处理，得到正则化后的图像特征和正则化后的第二分类器；

基于预设温度系数和所述正则化后的第二分类器对所述正则化后的图像特征进行处理，得到第二预测结果。

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取从输入的所述待处理图像提取的待处理图像特征；

通过所述第一分类器对所述待处理图像特征进行分类预测，得到中间预测结果；

根据所述中间预测结果和所述待处理图像特征，确定中间类别特征；

通过所述目标分类器生成器对所述中间类别特征与所述第一分类器进行融合，得到目标分类器；所述目标分类器用于对所述待处理图像特征进行分类预测，得到目标预测结果。

6.根据权利要求1至5任一项所述的方法，其特征在于，所述根据所述第二预测结果和所述参考预测结果之间的差异，对所述待训练的分类器生成器进行调参，以迭代训练得到目标分类器生成器，包括：

根据所述第二预测结果和所述参考预测结果之间的差异，确定语义感知损失值；

根据所述第一预测结果、所述第二预测结果和所述参考预测结果中至少一种与所述类别标签之间的差异，确定语义分割损失值；

根据所述语义感知损失值和所述语义分割损失值，确定目标损失值；

基于所述目标损失值对所述待训练的分类器生成器进行调参，以迭代训练得到目标分类器生成器。

7.根据权利要求1所述的方法，其特征在于，所述根据所述第二预测结果和所述参考预测结果之间的差异，对所述待训练的分类器生成器进行调参，以迭代训练得到目标分类器生成器，包括：

在本轮迭代训练中，根据所述第二预测结果和所述参考预测结果之间的差异，对所述待训练的分类器生成器、参考分类器生成器和所述第一分类器进行调参，得到下一轮迭代训练中的待训练的分类器生成器、参考分类器生成器和第一分类器；所述参考分类器是通过所述参考分类器生成器对所述参考类别特征与所述第一分类器进行融合得到的；

确定下一轮为本轮，返回所述通过待训练的分类器生成器对预测类别特征与第一分类器进行融合，得到第二分类器的步骤以继续迭代训练，直至满足训练停止条件，得到目标分类器生成器。

8.一种语义分割装置，其特征在于，包括：

第一融合模块，用于通过待训练的分类器生成器对预测类别特征与第一分类器进行融合，得到第二分类器；所述预测类别特征是根据样本图像的图像特征和第一预测结果确定的；所述第一预测结果是通过所述第一分类器对所述图像特征进行分类预测得到的；

第一预测模块，用于通过所述第二分类器对所述图像特征进行分类预测，得到第二预测结果；

第二融合模块，用于对参考类别特征与所述第一分类器进行融合，得到参考分类器；所述参考类别特征是根据所述图像特征和类别标签确定的；

第二预测模块，用于通过所述参考分类器对所述图像特征进行分类预测，得到参考预测结果；

训练模块，用于根据所述第二预测结果和所述参考预测结果之间的差异，对所述待训练的分类器生成器进行调参，以迭代训练得到目标分类器生成器；所述目标分类器生成器用于针对输入的待处理图像生成对应的、且用于对所述待处理图像进行语义分割的目标分类器。

9.一种计算机设备，所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的语义分割方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的语义分割方法的步骤。