CN113989349B

CN113989349B - 图像生成方法、图像处理模型的训练方法、图像处理方法

Info

Publication number: CN113989349B
Application number: CN202111244241.7A
Authority: CN
Inventors: 尚方信; 杨叶辉; 黄海峰; 王磊
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-10-25
Filing date: 2021-10-25
Publication date: 2022-11-25
Anticipated expiration: 2041-10-25
Also published as: CN113989349A

Abstract

本公开提供了一种图像生成方法，涉及人工智能领域，尤其涉及计算机视觉和深度学习技术领域。具体实现方案为：沿第一方向，对三维图像执行切片操作，得到多个第一切片图像，第一切片图像包括多个第一区域，每个第一区域对应一个类别；针对多个第一切片图像，根据每个第一切片图像中像素的位置信息，对每个第一切片图像执行转换操作，得到多个第一切片图像的深度图像；根据多个第一切片图像的深度图像，得到三维图像的深度图像。本公开还提供了一种图像处理模型的训练方法、图像处理方法、装置、电子设备和存储介质。

Description

图像生成方法、图像处理模型的训练方法、图像处理方法

技术领域

本公开涉及人工智能技术领域，尤其涉及计算机视觉和深度学习技术。更具体地，本公开提供了一种图像生成方法、图像处理模型的训练方法、图像处理方法、装置、电子设备和存储介质。

背景技术

相关技术中，可以利用三维图像处理模型对三维图像进行处理，以提取三维图像的特征。也可以先将三维图像转换多张二维图像，利用二维图像处理模型对每张二维图像的特征，得到多张二维图像的特征，再利用多张二维图像的特征，得到三维图像的特征。

发明内容

本公开提供了一种图像处理模型的训练方法、图像处理方法、装置、设备以及存储介质。

根据第一方面，提供了一种图像生成方法，该方法包括：沿第一方向，对三维图像执行切片操作，得到多个第一切片图像，第一切片图像包括多个第一区域，每个第一区域对应一个类别；针对多个第一切片图像，根据每个第一切片图像中像素的位置信息，对每个第一切片图像执行转换操作，得到多个第一切片图像的深度图像；以及根据多个第一切片图像的深度图像，得到三维图像的深度图像。

根据第二方面，提供了一种图像处理模型的训练方法，包括：沿第二方向，对三维样本图像执行切片操作，得到多个第二切片图像；将上述多个第二切片图像输入上述图像处理模型，得到多个预测图像；将多个预测图像输入深度估计模型，得到多个预测图像的深度图像；以及利用上述多个预测图像的深度图像和标签图像的深度图像，训练上述图像处理模型；其中，上述标签图像的深度图像是将上述标签图像作为三维图像根据本公开提供的方法得到的。

根据第三方面，提供了一种图像处理方法，该方法包括：将待处理图像输入图像处理模型，得到掩码图像；其中，图像处理模型是根据本公开提供的方法训练得到的。

根据第四方面，提供了一种图像生成装置，该装置包括：第一切片模块，用于沿第一方向，对三维图像执行切片操作，得到多个第一切片图像，第一切片图像包括多个第一区域，每个第一区域对应一个类别；转换模块，用于针对多个第一切片图像，根据每个第一切片图像中像素的位置信息，对每个第一切片图像执行转换操作，得到多个第一切片图像的深度图像；以及第一获得模块，用于根据多个第一切片图像的深度图像，得到三维图像的深度图像。

根据第五方面，提供了一种图像处理模型的训练装置，该装置包括：第二切片模块，用于沿第二方向，对三维样本图像执行切片操作，得到多个第二切片图像；预测模块，用于将上述多个第二切片图像输入上述图像处理模型，得到多个预测图像；第二获得模块，用于将多个预测图像输入深度估计模型，得到多个预测图像的深度图像；训练模块，用于利用上述多个预测图像的深度图像和标签图像的深度图像，训练上述图像处理模型；其中，上述标签图像的深度图像是将上述标签图像作为三维图像根据本公开提供的装置得到的。

根据第六方面，提供了一种图像处理装置，包括：第三获得模块，用于将待处理图像输入图像处理模型，得到掩码图像；其中，图像处理模型是根据本公开提供的装置训练得到的。

根据第七方面，提供了一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行根据本公开提供的方法。

根据第八方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，该计算机指令用于使计算机执行根据本公开提供的方法。

根据第九方面，提供了一种计算机程序产品，包括计算机程序，计算机程序在被处理器执行时实现根据本公开提供的方法。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开一个实施例的图像生成方法的流程图；

图2A是根据本公开一个实施例的第一切片图像的示意图；

图2B是根据本公开一个实施例的第一切片图像的深度图像的示意图；

图3是根据本公开一个实施例的图像处理模型的训练方法的流程图

图4A是根据本公开一个实施例的第二切片图像的示意图；

图4B是根据本公开一个实施例的预测图像的示意图；

图4C是根据本公开一个实施例的预测图像的深度图像示意图；

图5A是根据本公开一个实施例的第四切片图像的示意图；

图5B是根据本公开一个实施例的第三切片图像的示意图；

图6是根据本公开一个实施例的图像处理模型的训练方法的原理图；

图7是根据本公开一个实施例的图像处理方法的流程图；

图8是根据本公开一个实施例的图像生成装置的框图；

图9是根据本公开一个实施例的图像处理模型的训练装置的框图；

图10是根据本公开一个实施例的图像处理装置的框图；以及

图11是根据本公开的一个实施例的可以应用图像生成方法、图像处理模型的训练方法和/或图像处理方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

三维图像处理模型的参数量、运算量均远高于二维图像处理模型。例如，3D CNN(3D Convolutional Neural Network，3D卷积神经网络)模型在模型训练和应用时，对于运算资源的需求，均高于2D CNN(2D Convolutional Neural Network，2D卷积神经网络)模型。

在输入图像为三维图像的情况下，三维图像处理模型的性能要优于二维图像处理模型。2D CNN的运算量少于3D CNN，但其输入数据仅包含两个空间维度的信息，不包含第三个空间维度的信息，因而带来了潜在的性能损失。

相关技术中，为了减少对运算资源的需求和减少潜在的性能损失，可以将三维图像处理模型和二维图像处理模型结合，以处理三维图像。

例如，一种基于多视角的图像处理方法，包括：将三维图像沿一个方向，进行切片，得到多个2D切片图像；将三维图像沿另一个方向进行切片，得到多个2D切片图像；将一个方向的多个2D切片图像输入第一2D图像分割模型，得到一个方向的多个2D掩码图像；将另一个方向的多个2D切片图像输入第二2D图像分割模型，得到另一个方向的多个2D掩码图像；将两个方向的多个掩码图像，进行逐体素级别的图像融合，得到3D掩码图像。但该方法不能同步调整两个2D图像分割模型之间的参数，无法避免潜在的性能损失。

例如，一种基于单视角的图像处理方法，包括：将三维图像沿一个方向，进行切片，得到多个2D切片图像；将多个2D切片图像输入2D图像处理模型，得到多个2D注意力热图；将多个2D注意力热图和三维图像输入3D图像处理模型，进行融合，并对融合结果进行降采样，得到处理后的3D图像。但该方法不能同步调整2D图像处理模型和3D图像处理模型之间的参数，也无法避免潜在的性能损失。

图1是根据本公开的一个实施例的图像生成方法的流程图。

如图1所示，该方法100可以包括操作S110至操作S130。

在操作S110，沿第一方向，对三维图像执行切片操作，得到多个第一切片图像。

在本公开实施例中，第一切片图像包括多个第一区域，每个第一区域对应一个类别。

在本公开实施例中，三维图像可以是三维样本图像的标签图像。

例如，三维图像是经标注的肺部CT(Computed Tomography，电子计算机断层扫描)图像。三维图像中包括5个立体区域，分别是表征右肺上叶的区域、表征右肺中叶的区域、表征右肺下叶的区域、表征左肺上叶的区域和表征左肺下叶的区域。5个立体区域对应5个类别。

例如，由于右肺中叶较小，在一些第一切片图像上可以包括表征右肺上叶的第一区域、表征右肺中叶的第一区域、表征右肺下叶的第一区域、表征左肺上叶的第一区域和表征左肺下叶的第一区域。在另一些第一切片图像上可以包括表征右肺上叶的第一区域、表征右肺下叶的第一区域、表征左肺上叶的第一区域和表征左肺下叶的第一区域。

例如，三维图像可以为H*W*D的图像，H为图像高度，W为图像的宽度，D为图像的长度(或深度)。

在一些示例中，第一方向可以为三维图像的长度方向，多个第一切片图像为H*W的图像。多个第一切片图像为二维图像。在另一些示例中，第一方向可以为三维图像的高度方向，多个第一切片图像为D*W的图像。在另一些示例中，第一方向可以为三维图像的宽度方向，多个第一切片图像为H*D的图像。

在一个示例中，第一方向为三维图像的高度方向，第一切片图像为D*W的图像。比如，H＝1024，每个第一切片图像的厚度为1，第一切片图像的数量为1024个。

在操作S120，针对多个第一切片图像，根据每个第一切片图像中像素的位置信息，对每个第一切片图像执行转换操作，得到多个第一切片图像的深度图像。

在本公开实施例中，第一切片图像可以包括多个第一像素，第一像素位于第一区域。

例如，第一切片图像还可以包括多个第二像素，第二像素位于第二区域。

例如，位于不同第一区域的第一像素的像素值可以不同。位于同一区域的第一像素的像素值可以相同。

在本公开实施例中，针对每个第一切片图像，可以根据该第一切片图像中第一像素的位置信息，将每个第一像素的像素值转换为该第一像素到该第一像素所处第一区域的边界之间的距离，得到多个深度像素。

例如，可以确定处于第z个区域的边界上的第一像素所在行的行号。在一个示例中，第一切片图像包括多个第二像素、处于不同第一区域的多个第一像素。位于第z个第一区域的第一像素的像素值与其他第一区域的第一像素可以不同，第二像素的像素值不同于第一像素。

可以根据第z个第一区域中第一像素的像素值确定第一区域的边界的行号。例如，图像包含Y列像素，X行像素。再例如，对于第z个第一区域，可以确定第z个第一区域的四个端点。其中，左端点位于第x1行，第y1列，右端点位于第x2行，第y2列。即，在第一切片图像中，沿列号增大的方向(比如从左至右)，处于第z个第一区域的第一像素首次出现在第y1列，最后出现在第y2列。根据该左端点和该右端点，可以确定第z个第一区域的上边界线E_z和下边界线S_z。

即在图像的第y列上，S_z(y)为第z个第一区域的一个边界上的第一像素所在行的行号，E_z(y)为第z个第一区域的另一个边界上的第一像素所在行的行号。

在一个示例中，可以通过以下公式将第z个区域的每个第一像素的像素值转换为该第一像素到该第一像素所处第一区域的边界之间的距离。

P’_x，y＝x-S_z(y) 公式(一)

公式一中，P’_x，y为一个深度像素的像素值，该深度像素与该第一切片图像的第z个第一区域中一个第一像素对应；在第y列上，处于第z个第一区域中的第一像素的行号为x，S_z(y)≤x≤E_z(y)。

在一个示例中，或者，可以通过以下公式将第z个区域的每个第一像素的像素值转换为该第一像素到该第一像素所处第一区域的边界之间的距离。

P’_x，y＝x-E_z(y) 公式(二)

在一个示例中，可以将该第一像素到该第一像素所处第一区域的边界之间的距离进一步转换，比如归一化。即可以通过以下公式将第z个区域的每个第一像素的像素值转换为该第一像素到该第一像素所处第一区域的边界之间的距离。

在一个示例中，对于处于第一切片图像中的像素G_x，y，x为该像素所处的行号，y为该像素所处的列号。可以通过以下公式对每个第一切片图形执行转换操作，得到该第一切片图像的深度图像中的像素的像素值P_x，y。

公式(四)中，z为第z个第一区域，z＝1，......Z，z′为第二区域。G_x，y为第一切片图像中的像素，x为像素G_x，y所在的行的行号，y为像素G_x，y所在列的列号，在图像的第y列上，S_z(y)为第z个第一区域的一个边界上的第一像素所在行的行号，E_z(y)为第z个第一区域的另一个边界上的第一像素所在行的行号，P_x，y为深度图像中的像素的像素值。

在本公开实施例中，可以根据多个深度像素，得到该第一切片图像的深度图像。

例如，可以根据多个深度像素和多个第二像素，得到该第一切片图像的深度图像。在一个示例中，深度像素的像素值取值范围为[0，1]。第二像素的像素值可以为0或255。

在一些示例中，将每个第二像素的像素值转换为预定像素值，得到多个预定像素。

例如，预定像素值为可以为0。

在一些示例中，可以根据多个深度像素和多个预定像素，得到该第一切片图像的深度图像。深度像素的位置和像素值是已知的，预定像素的位置和像素值也是已知的，可以得到第一切片图像的深度图像。

在操作S130，根据多个第一切片图像的深度图像，得到三维图像的深度图像。

例如，H为整数且第二切片图像的厚度为1时，可以得到H个D*W的第一切片图像。D*W的第一切片图像的深度图像也为H个。每个第一切片图像对应一个第一切片图像的深度图像。将第一切片图像连接成高度为H的三维图像的深度图像。三维图像的深度图像可以为H*W*D的图像。

通过本公开实施例，生成的三维图像的深度图像可以用于图像处理模型的训练，以提高图像处理模型的训练效果。

图2A是根据本公开的一个实施例的第一切片图像的示意图。

如图2A所示，该第一切片图像201可以是沿第一方向对三维图像执行切片操作得到的多个第一切片图像中的一个。在一个示例中，第一方向为高度方向。三维图像为H*W*D的图像，该第一切片图像201为D*W的图像。第一切片图像201内包括4个第一区域，第一区域2011中第一像素的像素值不同于其他区域中像素的像素值。每个第一区域对应一个类别。该三维图像可以是标签图像。

图2B是根据本公开一个实施例的第一切片图像的深度图像的示意图。

如图2B所示，该第一切片图像的深度图像202可以根据例如图2A中像素的位置信息对例如图2A的第一切片图像201执行转换操作得到的。

如图2B所示，在图2B中的区域2021，对应于与例如图2A中的第一区域2011。

图3是根据本公开一个实施例的图像处理模型的训练方法的流程图。

如图3所示，该方法300可以包括操作S310至操作S340。

在操作S310，沿第二方向，对三维样本图形执行切片操作，得到多个第二切片图像。

例如，三维样本图像可以为H*W*D的图像，H为图像高度，W为图像的宽度，D为图像的长度(或深度)。

例如，每个三维样本图像具有与之对应的三维的标签图像。

在一些示例中，第一方向可以为三维图像的长度方向。第二方向可以是三维样本图像的宽度方向或高度方向。在另一些示例中，第一方向可以为三维图像的高度方向。第二方向可以是三维样本图像的宽度或长度方向。在另一些示例中，第一方向可以为三维图像的宽度方向。第二方向可以是三维样本图像的高度方向或长度方向。

在一个示例中，第二方向为三维图像的长度方向，第二切片图像为H*W的图像。D＝512，每个第二切片图像的厚度为1，第二切片图像的数量为512个。

需要说明的是，第一方向可以是任意方向，第二方向与第一方向的夹角可以为α，0°＜α＜180°。

例如，三维样本图像可以是原始的肺部CT(Computed Tomography，电子计算机断层扫描)图像。

在操作S320，可以将多个第二切片图像输入图像处理模型，得到多个预测图像。

在本公开实施例中，图像处理模型可以是三维图像处理模型。

例如，图像处理模型可以是3D CNN模型。

在本公开实施例中，图像处理模型可以是二维图像处理模型

又例如，图像处理模型可以是2D CNN模型。

在本公开实施例中，图像处理模型可以是二维的U型网络模型。

例如，U型网络模型包括编码器和解码器。编码器用于对图像进行降采样操作，解码器用于对图像进行上采样操作。U型网络模型的输出图像的尺寸，可以与U型网络模型的输入图像的尺寸相同。

例如，图像处理模型可以是UNet模型、UNet++模型、U²Net模型等。

例如，第二切片图像可以是H*W的图像。预测图像可以是H*W的图像。

例如，预测图像可以包括多个第三区域，每个第三区域对应一个类别。

在操作S330，将多个预测图像输入深度估计模型，得到多个预测图像的深度图像。

例如，深度估计模型可以是2D CNN模型。例如深度估计模型可以是任意模型。

例如，深度估计模型用于将预测图像中多个第三区域中的像素的像素值转换为[-1，1]的值，可以输出预测图像的深度图像。

在操作S340，利用多个预测图像的深度图像和标签图像的深度图像，训练图像处理模型。

例如，标签图像的深度图像是将标签图像作为三维图像根据例如图1提供的方法得到。

例如，D为整数且第二切片图像的厚度为1时，可以得到D个H*W的第二切片图像。H*W的预测图像的数量也为D个。每个第二切片图像对应一个预测图像。

在本公开实施例中，可以根据预测图像的深度图像和标签图像的深度图像，计算第一损失值。

例如，标签图像为三维样本图像的标签，标签图像的深度图像是标签图像沿第一方向得到的。标签图像与三位样本图像是逐体素对应的。

将标签图像作为三维图像，可以参照例如前文所述的操作S110至操作S130中得到三维图像的深度图像的方式，得到标签图像的深度图像。

在一个示例中，预测图像的深度图像为H*W的图像，沿第二方向得到的第二切片图像的数量等于预测图像的数量。比如，第二方向为三维图像的长度方向，沿第二方向得到的第二切片图像的数量为D个，则K＝D。

在本公开实施例中，针对K个预测图像的深度图像，根据第k个预测图像的深度图像和第k个第三切片图像，计算第k个第一子损失值。

例如，k＝1，......K。

例如，第三切片图像是沿第二方向对标签图像的深度图像执行切片操作得到的，第三切片图像为K个。在一个示例中，第二方向为三维图像的长度方向，沿第二方向得到的第二切片图像的数量为D个，则K＝D。

例如，可以根据第k个第一子损失值，计算第一损失值。

在一个示例中，可以通过以下公式计算第k个第一子损失值。

公式五中，

为第k个第一子损失值，

为第k个第三切片图像，

第k个预测图像的深度图像。

在一个示例中，可以将第k个第一子损失值作为第一损失值。

在一些示例中，可以通过以下公式计算第一损失值。

公式六中，L_mse为第一损失值。

在一些示例中，可以调整深度图像中像素的像素值。

比如，可以通过以下公式得到像素值被调整后的深度图像。

公式七中，

为调整后的第三切片图像的深度图像。可以将深度图像中的像素值的取值范围调整为[-1，1]。

在本公开实施例中，可以根据第一损失值，训练图像处理模型。

例如，可以利用第一损失值调整图像处理模型的参数，以降低第一损失值。又例如，可以利用第一损失值调整深度估计模型的参数，以降低第一损失值。

在本公开实施例中，还可以根据预测图像和标签图像，计算第二损失值。

在一些示例中，可以根据第k个预测图像和第k个第四切片图像，计算第k个第二子损失值，k＝1，......K，第四切片图像是沿第二方向对标签图像执行切片操作得到的。可以根据第k个第二子损失值得到第二损失值L_seg。

需要说明的是，第k个第二子损失值可以根据任意可用于图像处理模型的损失函数得到。在一个示例中，第二子损失值可以根据任意可用于图像分割模型的损失函数得到。在一个示例中，第二子损失值可以根据交叉熵损失函数得到。

例如，可以利用第二损失值调整图像处理模型的参数，以降低第二损失值。

在本公开实施例中，可以根据第一损失值和第二损失值，训练图像处理模型。

例如，可以根据第一损失值和第二损失值，得到总损失值。

在一些示例中，可以通过以下公式计算总损失值。

L_total＝L_seg+L_mse (公式八)

例如，可以根据总损失值，训练图像处理模型。

例如，可以利用第一损失值调整深度估计模型和图像处理模型的参数，可以利用第二损失值调整图像处理模型的参数，以降低第一损失值和第二损失值之和。

通过本公开实施例，可以利用二维的图像处理模型基于三维样本图像进行训练。在图像处理模型对第二切片图像的处理过程中，主要利用了三维图像的第一个维度的信息和第二维度的信息。进一步根据预测图像的深度图像和标签图像的深度图像值之间的区别，计算了第一损失值，利用了三维图像的第三个维度的信息。可以在使用二维图像模型的情况下，有效地利用三维图像的三个维度的信息，提高模型训练效果。

例如，图像处理模型可以为2D U²Net模型。仅根据三维样本图像及其标签，对2DU²Net模型进行训练，可以得到mIoU(mean intersection over Union，均交并比)为0.9203。利用例如参考图2所述的模型训练方法，对2D U²Net模型进行训练，可以得到mIoU为0.9614。可见，模型训练效果大幅提高。

图4A是根据本公开的一个实施例的第二切片图像的示意图。

如图4A所示，第二切片图像401可以是沿第二方向对三维样本图像执行切片操作得到的多个第二切片图像中的一个。在一个示例中，第二方向为长度方向。三维样本图像为H*W*D的图像，该第二切片图像401为H*W的图像。

图4B是根据本公开一个实施例的预测图像的示意图。

如图4B所示，预测图像402内包括多个第三区域。预测图像402可以是将例如图4A中的第二切片图像输入图像处理模型得到的。

图4C是根据本公开一个实施例的预测图像的深度图像的示意图。

如图4C所示，预测图像的深度图像可以是将例如图4B中的预测图像402输入深度估计模型得到的。

图5A是根据本公开一个实施例的第四切片图像的示意图。

如图5A所示，第四切片图像501可以是沿第二方向对三维图像执行切片操作得到的多个第四切片图像中的一个。三维图像可以是例如参考图4A所述的三维样本图像的标签，即标签图像。第四切片图像501中包含5个区域，每个区域对应一个类别。

需要说明的是，为了清楚的示出图5A和图4B的差别，第四切片图像501与例如图4B中的预测图像402并不对应。比如，当第二方向为标签图像(或预测图像)的长度方向且长度D＝512，可以得到512个第四切片图像，也可以得到512个预测图像。第四切片图像501可以是第130个第四切片图像。预测图像402可以是第320个预测图像。

图5B是根据本公开一个实施例的第三切片图像的示意图。

如图5B所示，第三切片图像502是沿第二方向对三维图像的深度图像执行切片操作得到的。

图6是根据本公开一个实施例的图像处理模型的训练方法的原理图。

如图6所示，可以沿第二方向，对三维样本图像601执行切片操作，得到多个第二切片图像602。可以将多个第二切片图像602输入图像处理模型603，得到多个预测图像604。可以将多个预测图像604输入深度估计模型，得到预测图像的深度图像606。

可以沿第一方向，对标签图像607执行切片操作，得到多个第一切片图像608。针对多个第一切片图像608，根据每个第一切片图像中像素的位置信息，将每个第一像素的像素值转换为该第一像素到该第一像素所处第一区域的边界之间的距离，可以得到多个第一切片图像的深度图像609。根据多个第一切片图像的深度图像609，可以得到标签图像的深度图像610。在一个示例中，三维样本图像为H*W*D的图像，第一方向为三维图像的高度方向，第二方向为三维图像的长度方向。

可以沿第二方向，对标签图像的深度图像610执行切片操作，得到多个第三切片图像611。可以沿第二方向，对标签图像607执行切片操作，得到多个第四切片图像612。

需要说明的是，在训练过程之前，可以参照例如图1所述的方法，预先根据标签图像得到标签图像的深度图像610及第三切片图像611，无需在每次训练的过程中生成标签图像的深度图像和第三切片图像。

图像处理模型603包括编码器和解码器。编码器包括多个2D图像编码层6031。解码器包括多个2D图像解码层6032。编码器可以对图像执行多次编码操作，解码器可以对图像执行多次解码操作。在一个示例中，图像处理模型603可以是U型网络模型。

可以根据第三切片图像611和预测图像的深度图像606，计算第一损失值613。

可以根据预测图像604和第四切片图像612，计算第二损失值614。

可以根据第一损失值613调整深度估计模型605和图像处理模型603的参数，根据第二损失值614调整图像处理模型603，以降低第一损失值和第二损失值之和。

图7是根据本公开一个实施例的图像处理方法的流程图。

如图7所示，该方法700可以包括操作S710。

在操作S710，将待处理图像输入图像处理模型，得到掩码图像。

在本公开实施例中，图像处理模型可以是根据例如图3提供的方法训练得到的。

图8是根据本公开一个实施例的图像生成模型的训练装置的框图。

如图8所示，该装置800包括第一切片模块810、转换模块820和第一获得模块830。

第一切片模块810，用于沿第一方向，对三维图像执行切片操作，得到多个第一切片图像，上述第一切片图像包括多个第一区域，每个第一区域对应一个类别。

转换模块820，用于针对上述多个第一切片图像，根据每个第一切片图像中像素的位置信息，对每个第一切片图像执行转换操作，得到多个第一切片图像的深度图像。

第一获得模块830，用于根据上述多个第一切片图像的深度图像，得到上述三维图像的深度图像在一些实施例中，上述第一切片图像包括多个第一像素，上述第一像素位于上述第一区域，上述转换模块包括：转换子模块，用于针对每个第一切片图像，根据该第一切片图像中第一像素的位置信息，将每个第一像素的像素值转换为该第一像素到该第一像素所处第一区域的边界之间的距离，得到多个深度像素；获得子模块，用于根据上述多个深度像素，得到该第一切片图像的深度图像。

在一些实施例中，通过以下公式对每个第一切片图像执行转换操作：

其中，G_x，y为第一切片图像中的像素，x为上述像素G_x，y所在的行的行号，y为上述像素所在列的列号，z为第z个第一区域，z＝1，......Z，z′为第一切片图像上的第二区域；在图像的第y列上，S_z(y)为上述第z个第一区域的一个边界上的第一像素所在行的行号，E_z(y)为上述第z个第一区域的另一个边界上的第一像素所在行的行号；P_x，y为深度图像中的像素的像素值。

图9是根据本公开一个实施例的图像处理模型的训练装置的框图。

如图9所示，该装置900可以包括第二切片模块910、预测模块920、第二获得模块930和训练模块930。

该装置900包括：第二切片模块910，用于沿第二方向，对三维样本图像执行切片操作，得到多个第二切片图像。

预测模块920，用于将上述多个第二切片图像输入上述图像处理模型，得到多个预测图像。

第二获得模块930，用于将多个预测图像输入深度估计模型，得到多个预测图像的深度图像。

训练模块940，用于利用上述多个预测图像的深度图像和标签图像的深度图像，训练上述图像处理模型。

在一些实施例中，上述标签图像为上述三维样本图像的标签，标签图像的深度图像是将标签图像作为三维图像根据例如图7提供的装置得到的。

在一些实施例中，上述训练模块包括：计算子模块，用于根据上述预测图像的深度图像和标签图像的深度图像，计算第一损失值；训练子模块，用于根据上述第一损失值，训练上述图像处理模型。

在一些实施例中，上述计算子模块包括：第一计算单元，用于针对K个预测图像，根据第k个预测图像和第k个第三切片图像，计算第k个第一子损失值，k＝1，......K，上述第三切片图像是沿上述第二方向对上述标签图像的深度图像执行切片操作得到的，上述第三切片图像为K个；第二计算单元，用于根据上述第k个第一子损失值，计算上述第一损失值。

在一些实施例中，上述第二计算单元还用于：通过以下公式计算第一损失值：

其中，L_mse为第一损失值，

为第k个第三切片图像，

为第k个预测图像的深度图像。

在一些实施例中，上述训练子模块包括：第二计算单元，用于根据上述预测图像和上述标签图像，计算第二损失值；训练单元，用于根据上述第一损失值和上述第二损失值，训练上述图像处理模型。

图10是根据本公开一个实施例的图像处理装置的框图。

如图8所示，该装置1000可以包括第三获得模块1010。

第三获得模块1010，用于将待处理图像输入图像处理模型，得到掩码图像；

在本公开实施例中，上述图像处理模型是根据例如图7提供的装置训练得到的。

本公开的技术方案中，所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理，均符合相关法律法规的规定，且不违背公序良俗。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图11示出了可以用来实施本公开的实施例的示例电子设备1100的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图11所示，设备1100包括计算单元1101，其可以根据存储在只读存储器(ROM)1102中的计算机程序或者从存储单元1108加载到随机访问存储器(RAM)1103中的计算机程序，来执行各种适当的动作和处理。在RAM 1103中，还可存储设备1100操作所需的各种程序和数据。计算单元1101、ROM 1102以及RAM 1103通过总线1104彼此相连。输入/输出(I/O)接口1105也连接至总线1104。

设备1100中的多个部件连接至I/O接口1105，包括：输入单元1106，例如键盘、鼠标等；输出单元1107，例如各种类型的显示器、扬声器等；存储单元1108，例如磁盘、光盘等；以及通信单元1109，例如网卡、调制解调器、无线通信收发机等。通信单元1109允许设备1100通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元1101可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1101的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1101执行上文所描述的各个方法和处理，例如图像处理模型的训练方法和/图像处理方法。例如，在一些实施例中，图像处理模型的训练方法和/图像处理方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元1108。在一些实施例中，计算机程序的部分或者全部可以经由ROM 1102和/或通信单元1109而被载入和/或安装到设备1100上。当计算机程序加载到RAM 1103并由计算单元1101执行时，可以执行上文描述的图像处理模型的训练方法和/图像处理方法的一个或多个步骤。备选地，在其他实施例中，计算单元1101可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行图像处理模型的训练方法和/图像处理方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种图像处理模型的训练方法，包括：

沿第一方向，对标签图像执行切片操作，得到多个第一切片图像，其中，所述第一切片图像包括多个第一区域，每个第一区域对应一个类别，所述标签图像为三维样本图像的标签；

针对所述多个第一切片图像，根据每个第一切片图像中像素的位置信息，对每个第一切片图像执行转换操作，得到多个第一切片图像的深度图像；

根据所述多个第一切片图像的深度图像，得到所述标签图像的深度图像；

沿第二方向，对所述三维样本图像执行切片操作，得到多个第二切片图像；

将所述多个第二切片图像输入所述图像处理模型，得到多个预测图像；

将多个预测图像输入深度估计模型，得到多个预测图像的深度图像；以及

利用所述多个预测图像的深度图像和所述标签图像的深度图像，训练所述图像处理模型。

2.根据权利要求1所述的方法，其中，所述第一切片图像包括多个第一像素，所述第一像素位于所述第一区域，

所述针对所述多个第一切片图像，根据每个第一切片图像中像素的位置信息，对每个第一切片图像执行转换操作，得到多个第一切片图像的深度图像包括：

针对每个第一切片图像，根据该第一切片图像中第一像素的位置信息，将每个第一像素的像素值转换为该第一像素到该第一像素所处第一区域的边界之间的距离，得到多个深度像素；

根据所述多个深度像素，得到该第一切片图像的深度图像。

3.根据权利要求2所述的方法，其中，通过以下公式对每个第一切片图像执行转换操作：

其中，G_x，y为第一切片图像中的像素，x为所述像素G_x，y所在的行的行号，y为所述像素所在列的列号，z为第z个第一区域，z＝1，......Z，z′为第一切片图像上的第二区域；在图像的第y列上，S_z(y)为处于所述第z个第一区域的一个边界上的第一像素所在行的行号，E_z(y)为处于所述第z个第一区域的另一个边界上的第一像素所在行的行号，P_x，y为深度图像中的像素的像素值。

4.根据权利要求1所述的方法，其中，所述利用所述多个预测图像的深度图像和所述标签图像的深度图像，训练所述图像处理模型包括：

根据所述预测图像的深度图像和所述标签图像的深度图像，计算第一损失值；

根据所述第一损失值，训练所述图像处理模型。

5.根据权利要求4所述的方法，其中，所述根据所述预测图像的深度图像和所述标签图像的深度图像，计算第一损失值包括：

针对K个预测图像的深度图像，根据第k个预测图像的深度图像和第k个第三切片图像，计算第k个第一子损失值，k＝1，......K，所述第三切片图像是沿所述第二方向对所述标签图像的深度图像执行切片操作得到的，所述第三切片图像为K个；

根据所述第k个第一子损失值，计算所述第一损失值。

6.根据权利要求5所述的方法，其中，所述根据所述第k个第一子损失值，计算所述第一损失值包括：

通过以下公式计算第一损失值：

其中，L_mse为第一损失值，

为第k个第三切片图像，

为第k个预测图像的深度图像。

7.根据权利要求4所述的方法，所述根据所述第一损失值，训练所述图像处理模型包括：

根据所述预测图像和所述标签图像，计算第二损失值；

根据所述第一损失值和所述第二损失值，训练所述图像处理模型。

8.一种图像处理方法，包括：

将待处理图像输入图像处理模型，得到掩码图像；

其中，所述图像处理模型是根据权利要求1至7任一项所述的方法训练得到的。

9.一种图像处理模型的训练装置，包括：

第一切片模块，用于沿第一方向，对标签图像执行切片操作，得到多个第一切片图像，其中，所述第一切片图像包括多个第一区域，每个第一区域对应一个类别，所述标签图像为三维样本图像的标签；

转换模块，用于针对所述多个第一切片图像，根据每个第一切片图像中像素的位置信息，对每个第一切片图像执行转换操作，得到多个第一切片图像的深度图像；

第一获得模块，用于根据所述多个第一切片图像的深度图像，得到所述标签图像的深度图像；

第二切片模块，用于沿第二方向，对所述三维样本图像执行切片操作，得到多个第二切片图像；

预测模块，用于将所述多个第二切片图像输入所述图像处理模型，得到多个预测图像；

第二获得模块，用于将多个预测图像输入深度估计模型，得到多个预测图像的深度图像；以及

训练模块，用于利用所述多个预测图像的深度图像和所述标签图像的深度图像，训练所述图像处理模型。

10.根据权利要求9所述的装置，其中，所述第一切片图像包括多个第一像素，所述第一像素位于所述第一区域，

所述转换模块包括：

转换子模块，用于针对每个第一切片图像，根据该第一切片图像中第一像素的位置信息，将每个第一像素的像素值转换为该第一像素到该第一像素所处第一区域的边界之间的距离，得到多个深度像素；

获得子模块，用于根据所述多个深度像素，得到该第一切片图像的深度图像。

11.根据权利要求10所述的装置，其中，通过以下公式对每个第一切片图像执行转换操作：

12.根据权利要求9所述的装置，其中，所述训练模块包括：

计算子模块，用于根据所述预测图像的深度图像和所述标签图像的深度图像，计算第一损失值；

训练子模块，用于根据所述第一损失值，训练所述图像处理模型。

13.根据权利要求12所述的装置，其中，所述计算子模块包括：

第一计算单元，用于针对K个预测图像的深度图像，根据第k个预测图像的深度图像和第k个第三切片图像，计算第k个第一子损失值，k＝1，......K，所述第三切片图像是沿所述第二方向对所述标签图像的深度图像执行切片操作得到的，所述第三切片图像为K个；

第二计算单元，用于根据所述第k个第一子损失值，计算所述第一损失值。

14.根据权利要求13所述的装置，其中，所述第二计算单元还用于：

通过以下公式计算第一损失值：

其中，L_mse为第一损失值，

为第k个第三切片图像，

为第k个预测图像的深度图像。

15.根据权利要求14所述的装置，所述训练子模块包括：

第二计算单元，用于根据所述预测图像和所述标签图像，计算第二损失值；

训练单元，用于根据所述第一损失值和所述第二损失值，训练所述图像处理模型。

16.一种图像处理装置，包括：

第三获得模块，用于将待处理图像输入图像处理模型，得到掩码图像；

其中，所述图像处理模型是根据权利要求9至15任一项所述的装置训练得到的。

17.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1至8中任一项所述的方法。

18.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1至8中任一项所述的方法。