CN113657403B

CN113657403B - 图像处理方法及图像处理网络的训练方法

Info

Publication number: CN113657403B
Application number: CN202111212069.7A
Authority: CN
Inventors: 程俊奇; 四建楼; 钱晨
Original assignee: Beijing Sensetime Technology Development Co Ltd
Current assignee: Beijing Sensetime Technology Development Co Ltd
Priority date: 2021-10-18
Filing date: 2021-10-18
Publication date: 2022-02-25
Anticipated expiration: 2041-10-18
Also published as: CN113657403A

Abstract

本公开涉及计算机视觉技术领域，具体涉及一种图像处理方法以及图像处理网络的训练方法。一种图像处理网络的训练方法，包括：获取第一样本集，第一样本集包括多个样本数据；针对第一样本集中的每个样本数据，对样本数据处理得到包含全局图像信息的第一图像和第一图像对应的第一标签，以及至少一个包含局部图像信息的第二图像和第二图像对应的第二标签；基于第一图像和第一标签对待训练的第一子网络进行训练，并且，基于第二图像、第一子网络输出的输出结果以及第二标签对待训练的第二子网络进行训练。本公开实施方式，提高网络联合训练效果，降低网络效果退化的风险。

Description

图像处理方法及图像处理网络的训练方法

技术领域

本公开涉及计算机视觉技术领域，具体涉及一种图像处理方法以及图像处理网络的训练方法、装置、电子设备及存储介质。

背景技术

基于深度神经网络的图像处理算法往往包括多个任务。以图片抠像算法为例，抠像算法主要包括图像语义分割和图像抠图两个任务，使用一个独立的网络难以同时覆盖两个任务。因此相关技术中，系统采用两个独立的网络，也即语义分割网络和抠像网络。

在对多个网络进行联合网络训练时，由于不同网络关注的图像信息不同，因此现有的训练方法难以同时满足每个网络的训练要求，很容易出现其中一方出现效果退化的情况。

发明内容

第一方面，本公开实施方式提供了一种图像处理网络的训练方法，所述图像处理网络包括第一子网络和第二子网络，所述训练方法包括：

获取第一样本集，所述第一样本集包括多个样本数据；

针对所述第一样本集中的每个样本数据，对所述样本数据处理得到包含全局图像信息的第一图像和所述第一图像对应的第一标签，以及至少一个包含局部图像信息的第二图像和所述第二图像对应的第二标签；

基于所述第一图像和所述第一标签对待训练的所述第一子网络进行训练，并且，基于所述第二图像、所述第一子网络输出的输出结果以及所述第二标签对待训练的所述第二子网络进行训练。

在一些实施方式中，所述第一样本集中的每个样本数据包括样本图像以及所述样本图像对应的第一特征标签和第二特征标签；所述对所述样本数据处理得到包含全局图像信息的第一图像和所述第一图像对应的第一标签，包括：

对所述样本图像和所述第一特征标签进行处理，得到目标尺度大小的所述第一图像和所述第一标签。

在一些实施方式中，所述对所述样本图像和所述第一特征标签进行处理，得到目标尺度大小的所述第一图像和所述第一标签，包括：

根据所述目标尺度和预设缩放比例确定基准尺度，并将所述样本图像和所述第一特征标签缩放至基准尺度大小；

对所述基准尺度大小的样本图像和第一特征标签进行裁切和/或补全，得到所述目标尺度大小的第一图像和所述第一标签。

在一些实施方式中，对所述样本数据处理得到至少一个包含局部图像信息的第二图像和所述第二图像对应的第二标签，包括：

基于预设尺度大小对所述样本图像和所述第二特征标签进行局部裁切，得到至少一个第一裁切图像以及对应的裁切图像标签；

对所述至少一个第一裁切图像以及对应的裁切图像标签进行缩放处理，得到目标尺度大小的所述第二图像和所述第二标签。

在一些实施方式中，所述基于预设尺度大小对所述样本图像和所述第二特征标签进行局部裁切，得到至少一个第一裁切图像以及对应的裁切图像标签，包括：

根据所述第一图像在所述样本图像上的第一映射关系和所述样本图像确定第三图像，并且基于所述第一映射关系和所述第二特征标签确定第三标签；

基于所述预设尺度大小对所述第三图像和所述第三标签进行局部裁切，得到至少一个所述第一裁切图像以及对应的裁切图像标签。

在一些实施方式中，对所述第一子网络进行训练的过程包括：

将所述第一图像输入待训练的所述第一子网络，得到所述第一子网络输出的第一输出图像；

根据所述第一输出图像与所述第一标签之间的差异，调整所述第一子网络的网络参数，直至满足收敛条件。

在一些实施方式中，对所述第二子网络进行训练的过程包括：

根据所述第二图像在所述样本图像上的第二映射关系，对所述第一输出图像进行局部裁切处理，得到第二裁切图像；

将所述第二图像以及所述第二裁切图像输入待训练的所述第二子网络，得到所述第二子网络输出的第二输出图像；

根据所述第二输出图像与所述第二标签的差异，调整所述第二子网络的网络参数，直至满足所述收敛条件。

在一些实施方式中，本公开实施方式所述的训练方法，还包括：

获取第二样本集，所述第二样本集中的每个样本数据包括样本图像以及所述样本图像对应的第一特征标签；

针对所述第二样本集中的每个样本数据，对所述样本数据处理得到包含全局图像信息的第四图像和所述第四图像对应的第四标签；

所述基于所述第一图像和所述第一标签对待训练的所述第一子网络进行训练，包括：

基于所述第一图像和所述第一标签、以及所述第四图像和所述第四标签共同对待训练的第一子网络进行训练，直至满足收敛条件。

第二方面，本公开实施方式提供了一种图像处理方法，包括：

将待处理图像输入预先训练的图像处理网络，得到所述图像处理网络的第一子网络预测输出的第一输出图像；

所述图像处理网络的第二子网络根据所述待处理图像和所述第一输出图像，预测输出处理结果；其中，所述图像处理网络基于第一方面任一实施方式所述的训练方法预先训练得到。

在一些实施方式中，所述第一子网络包括语义分割网络，所述第二子网络包括抠像网络；所述将待处理图像输入预先训练的图像处理网络，得到所述图像处理网络的第一子网络预测输出的第一输出图像，包括：

将所述待处理图像输入所述语义分割网络，得到所述语义分割网络预测输出的语义分割图像；

所述图像处理网络的第二子网络根据所述待处理图像和所述第一输出图像，预测输出处理结果，包括：

将所述待处理图像以及所述语义分割图像输入所述抠像网络，得到所述抠像网络预测输出的抠像结果。

在一些实施方式中，本公开实施方式所述的图像处理方法，还包括：

将语义分割图进行概率转换处理，得到三分图，所述三分图中每个像素对应的数值表示所述像素在目标图像中属于确定前景、确定背景或待确定区域中的任一区域的概率；

所述通过所述抠像网络对所述待处理图像和所述语义分割图像进行处理，得到所述抠像网络预测输出的抠像结果，包括：

通过所述抠像网络对待处理图像和所述三分图进行处理，得到所述抠像网络预测输出的抠像结果。

第三方面，本公开实施方式提供了一种图像处理网络的训练装置，所述图像处理网络包括第一子网络和第二子网络，所述训练装置包括：

第一获取模块，被配置为获取第一样本集，所述第一样本集包括多个样本数据；

第一处理模块，被配置为针对所述第一样本集中的每个样本数据，对所述样本数据处理得到包含全局图像信息的第一图像和所述第一图像对应的第一标签，以及至少一个包含局部图像信息的第二图像和所述第二图像对应的第二标签；

训练模块，被配置为基于所述第一图像和所述第一标签对待训练的所述第一子网络进行训练，并且，基于所述第二图像、所述第一子网络输出的输出结果以及所述第二标签对待训练的所述第二子网络进行训练。

在一些实施方式中，所述第一样本集中的每个样本数据包括样本图像以及所述样本图像对应的第一特征标签；所述第一处理模块被配置为：

在一些实施方式中，所述第一处理模块被配置为：

在一些实施方式中，所述第一样本集中的每个样本数据包括样本图像以及所述样本图像对应的第二特征标签；所述第一处理模块被配置为：

在一些实施方式中，所述第一处理模块被配置为：

在一些实施方式中，所述训练模块被配置为：

在一些实施方式中，本公开实施方式的训练装置，还包括：

第二获取模块，被配置为获取第二样本集，所述第二样本集中的每个样本数据包括样本图像以及所述样本图像对应的第一特征标签；

第二处理模块，被配置为针对所述第二样本集中的每个样本数据，对所述样本数据处理得到包含全局图像信息的第四图像和所述第四图像对应的第四标签；

其中，所述训练模块被配置为基于所述第一图像和所述第一标签、以及所述第四图像和所述第四标签共同对待训练的第一子网络进行训练，直至满足收敛条件。

第四方面，本公开实施方式提供了一种图像处理装置，包括：

输入模块，被配置为将待处理图像输入预先训练的图像处理网络，得到所述图像处理网络的第一子网络预测输出的第一输出图像；

输出模块，被配置为所述图像处理网络的第二子网络根据所述待处理图像和所述第一输出图像，预测输出处理结果；其中，所述图像处理网络基于第一方面任一实施方式所述的训练方法预先训练得到。

在一些实施方式中，所述输入模块被配置为：将所述待处理图像输入所述语义分割网络，得到所述语义分割网络预测输出的语义分割图像；

所述输出模块被配置为将所述待处理图像以及所述语义分割图像输入所述抠像网络，得到所述抠像网络预测输出的抠像结果。

在一些实施方式中，本公开实施方式的图像处理装置，还包括：

概率转换模块，被配置为将语义分割图进行概率转换处理，得到三分图，所述三分图中每个像素对应的数值表示所述像素在目标图像中属于确定前景、确定背景或待确定区域中的任一区域的概率；

所述输出模块被配置通过所述抠像网络对待处理图像和所述三分图进行处理，得到所述抠像网络预测输出的抠像结果。

第五方面，本公开实施方式提供了一种电子设备，包括：

处理器；以及

存储器，存储有能够被所述处理器读取的计算机指令，当所述计算机指令被读取时，所述处理器执行根据第一方面或者第二方面任一实施方式所述的方法。

第六方面，本公开实施方式提供了一种存储介质，用于存储计算机可读指令，所述计算机可读指令用于使计算机执行根据第一方面或者第二方面任一实施方式所述的方法。

本公开实施方式的图像处理网络的训练方法，包括获取第一样本集，第一样本集包括多个样本数据，针对第一样本集中的每个样本数据，对样本数据处理得到包含全局图像信息的第一图像和第一图像对应的第一标签，以及至少一个包含局部图像信息的第二图像和第二图像对应的第二标签，基于第一图像和第一标签对待训练的第一子网络进行训练，并且，基于第二图像、第一子网络输出的输出结果以及第二标签对第二子网络进行训练。本公开实施方式中，通过对每个样本数据进行处理，利用得到的包括全局图像信息的第一图像和第一标签对第一子网络进行训练，利用包括局部图像信息的第二图像和第二标签对第二子网络进行训练，提高联合训练效果，降低网络效果退化的风险。

附图说明

为了更清楚地说明本公开具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本公开的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据本公开一些实施方式中图像处理网络的结构示意图。

图2是根据本公开一些实施方式中样本数据的示意图。

图3是根据本公开一些实施方式中图像处理网络的训练方法的流程图。

图4是根据本公开一些实施方式中图像处理网络的训练方法的流程图。

图5是根据本公开一些实施方式中图像处理网络的训练方法的流程图。

图6是根据本公开一些实施方式中第一图像的示意图。

图7是根据本公开一些实施方式中图像处理网络的训练方法的流程图。

图8是根据本公开一些实施方式中对样本数据处理的原理示意图。

图9是根据本公开一些实施方式中对样本数据处理的原理示意图。

图10是根据本公开一些实施方式中对样本数据处理的原理示意图。

图11是根据本公开一些实施方式中对样本数据处理的原理示意图。

图12是根据本公开一些实施方式中对样本数据处理的原理示意图。

图13是根据本公开一些实施方式中图像处理网络的训练方法的流程图。

图14是根据本公开一些实施方式中图像处理网络的训练方法的流程图。

图15是根据本公开一些实施方式中图像处理网络的训练方法的原理图。

图16是根据本公开一些实施方式中图像处理网络的训练方法的原理图。

图17是根据本公开一些实施方式中图像处理网络的训练方法的原理图。

图18是根据本公开一些实施方式中图像处理网络的训练方法的流程图。

图19是根据本公开一些实施方式中图像处理网络的训练方法的流程图。

图20是根据本公开一些实施方式中图像处理方法的流程图。

图21是根据本公开一些实施方式中图像处理方法的流程图。

图22是根据本公开一些实施方式中图像处理方法的原理图。

图23是根据本公开一些实施方式中图像处理网络的训练装置的结构图。

图24是根据本公开一些实施方式中图像处理网络的训练装置的结构图。

图25是根据本公开一些实施方式中图像处理装置的结构图。

图26是适于实现本公开实施方式方法的电子设备的结构框图。

具体实施方式

下面将结合附图对本公开的技术方案进行清楚、完整地描述，显然，所描述的实施方式是本公开一部分实施方式，而不是全部的实施方式。基于本公开中的实施方式，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施方式，都属于本公开保护的范围。此外，下面所描述的本公开不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。

基于深度神经网络（DNN，Deep Neural Networks）的图像处理系统，往往会采用多个独立的网络分别进行不同的任务。在对系统进行训练时，需要首先对每个网络进行独立的网络训练，然后把多个网络联合在一起进行端到端的联合训练。但是，在联合训练时，由于多个网络的训练目标往往不一致，从而现有的训练方法很难同时满足多个网络各自的训练要求，因此在联合训练过程中很容易造成其中一方出现效果退化的问题。

以图像抠像算法为例，抠像算法主要可包括图像语义分割和图像抠像两个任务，因此抠像系统采用两个网络，也即语义分割网络和抠像网络。利用语义分割网络对输入图像进行语义分割，从而预测得到Trimap（三分图），然后抠像网络基于Trimap和输入图像预测输出抠像结果。

在对抠像系统进行网络训练时，相关技术中首先单独训练两个网络，然后将两个网络联合在一起进行端到端的联合训练。在联合训练过程中，由于语义分割网络更为关注图像的全局语义信息，而抠像网络则更为关注图像的局部纹理信息，无论采用包括全局信息的图片，还是裁剪出原始图片的局部区域作为训练数据，均无法同时满足两个网络的训练要求，导致其中一方在联合训练过程中出现效果退化的问题，网络效果不佳。

基于上述相关技术中存在的缺陷，本公开实施方式提供了一种图像处理方法、图像处理网络的训练方法、装置、电子设备以及存储介质，旨在提高图像处理网络端到端的联合训练效果，降低由于网络训练目标不一致导致的训练效果退化的风险，提高图像处理网络效果。

图1示出了本公开一些实施方式中图像处理网络的结构和原理图，下面结合图1对本公开图像处理网络进行说明。

如图1所示，在一些实施方式中，图像处理网络包括第一子网络和第二子网络，第一子网络和第二子网络分别处理不同的任务。以图像抠图为例，第一子网络可以是语义分割网络，语义分割网络对待处理图像进行语义分割得到第一输出图像。在一个示例中，第一输出图像可以是待处理图像的Trimap（三分图），Trimap表示对待处理图像的前景、背景以及边缘区域进行语义分割得到的三分图。在另一些示例中，第一输出图像也可以是其他分割图像，并不局限于Trimap，例如针对感兴趣区域的分割图像等，本公开对此不再赘述。第二子网络可以是抠像网络，其输入为第一子网络预测得到的第一输出图像和待处理图像，输出得到抠像结果，也即处理结果。

图2可作为本公开图像处理网络的一个可视化示例。如图2所示，待处理图像如图2中（a）所示，第一子网络进行语义分割之后预测输出的第一输出图像（Trimap）如图2中（b）所示，第二子网络基于第一输出图像对待处理图像进行抠像之后预测输出的处理结果可如图2中（c）所示。

基于图2示例可知，由于第一子网络和第二子网络任务目标不同，从而网络关注的图像信息也不同。具体来说，第一子网络更加关注于图像全局语义信息，从而准确预测Trimap，而第二子网络更加关注于图像局部的纹理信息，从而准确对前景和背景边缘进行抠像。

在上述基础上，本公开实施方式中提供了一种图像处理网络的训练方法，在对第一子网络和第二子网络联合训练过程中，可使得第一子网络聚焦于学习图像全局信息，而第二子网络聚焦学习图像局部信息，同时满足不同网络的训练要求。下面结合图3进行具体说明。

如图3所示，在一些实施方式中，本公开示例的图像处理网络的训练方法，包括：

S310、获取第一样本集。

本公开实施方式中，第一样本集表示对第一子网络和第二子网络进行联合训练的样本数据集，第一样本集中包括多个样本数据。

在一些实施方式中，第一样本集中的每个样本数据可包括样本图像、样本图像对应的第一特征标签以及样本图像对应的第二特征标签。以图像抠图场景为例，第一特征标签可以是针对样本图像的分割标签，第二特征标签可以是针对样本图像的抠像标签。

例如图2示例中，图2中（a）可作为样本图像，对应的图2中（b）作为第一特征标签，图2中（c）作为第二特征标签。第一特征标签表示对样本图像进行语义分割得到的分割图像，例如图2示例中，第一特征标签为对图2所示的样本图像（a）进行前景、背景以及边缘区域进行语义分割得到的Trimap。而第二特征标签表示对样本图像进行抠像得到的前景图像，例如图2示例中，第二特征标签为对图2所示的样本图像（a）中的人像进行抠像得到的人像抠图。

S320、针对第一样本集中的每个样本数据，对样本数据处理得到包含全局图像信息的第一图像和第一图像对应的第一标签，以及至少一个包含局部图像信息的第二图像和第二图像对应的第二标签。

结合前述可知，例如将图2作为一个样本数据对第一子网络和第二子网络进行联合训练，由于图2所示的样本数据仅关注于图像的全局语义信息，而局部纹理信息不足，容易造成更为关注局部纹理信息的第二子网络效果退化。反之，若采用裁切的局部样本数据，则样本数据仅关注于图像的局部纹理信息，而全局语义信息不足，容易造成更为关注全局语义信息的第一子网络效果退化。

从而，本公开实施方式中，在进行联合训练之前，首先对每个样本数据进行数据处理，得到包括全局图像信息的第一图像和第一图像对应的第一标签，以及包括局部图像信息的第二图像和第二图像对应的第二标签。

在一些实施方式中，可对样本数据的样本图像进行图像处理，得到包括样本图像大部分图像信息的第一图像，同时对样本图像对应的第一特征标签进行相同处理，得到第一图像对应的第一标签。例如图2示例中，可对图2所示的样本图像（a）进行边缘裁切、图像旋转、图像翻转、人像移位等处理得到第一图像，对应的，对图2所示的第一特征标签（b）进行相同的处理操作得到第一标签。

另外，对样本图像进行图像处理，还可得到包括样本图像局部图像信息的第二图像，同时对样本图像对应的第二特征标签进行相同处理，得到第二图像对应的第二标签。例如图2示例中，可对图2所示的样本图像（a）进行局部裁切得到第二图像，对应的，对图2所示的第二特征标签（c）进行相同的裁切得到第二标签。也即，以图2所示的图像抠图场景为例，第一图像可以作为第一子网络的输入，第一标签即为第一图像对应的分割标签。第二图像即可以作为第二子网络的输入，第二标签即为第二图像对应的抠像标签。

对样本数据进行处理得到第一图像以及第一标签、第二图像以及第二标签的过程，本公开下文进行说明，在此暂不详述。

S330、基于第一图像和第一标签对待训练的第一子网络进行训练，并且，基于第二图像、第一子网络输出的输出结果以及第二标签对待训练的第二子网络进行训练。

具体而言，对于同一个样本数据，在经过S320数据处理之后，其包括第一图像和第一标签、第二图像和第二标签。

第一图像作为第一子网络的输入，可根据第一子网络的预测输出结果与第一标签之间的差异来调整第一子网络的参数，对第一子网络进行监督训练。由于第一图像和第一标签为包括全局图像信息的样本，从而可以使得第一子网络聚焦于学习图像的全局语义特征。

第二图像和第一子网络的输出结果作为第二子网络的输入，可根据第二子网络输出的处理结果与第二标签之间的差异来调整第二子网络的参数，对第二子网络进行监督训练。由于第二图像和第二标签为包括局部图像信息的样本，从而可以使得第二子网络聚焦于学习图像的局部纹理特征。

可以理解，本公开实施方式中，在第一子网络和第二子网络联合训练过程中，对于同一个样本数据，可以同时满足第一子网络关注于全局语义信息、第二子网络关注于局部纹理信息的训练要求，降低联合训练导致的子网络效果退化的风险。

通过上述可知，本公开实施方式中，通过对每个样本数据进行处理，利用得到的包括全局图像信息的第一图像和第一标签对第一子网络进行训练，利用包括局部图像信息的第二图像和第二标签对第二子网络进行训练，提高联合训练效果，降低网络效果退化的风险。

在一些实施方式中，第一样本集中的每个样本数据包括样本图像、样本图像对应的第一特征标签以及样本图像对应的第二特征标签。以图像抠图场景为例，图2示出了一个样本数据的可视化示例。

如图2所示，样本图像可如图2中（a）所示，对应的第一特征标签为分割标签，表示的是对图2所示的样本图像（a）进行语义分割得到的Trimap，第一特征标签可如图2中（b）所示。第二特征标签为抠像标签，表示的是对图2所示的样本图像（a）进行抠像得到的抠像结果，第二特征标签可如图2中（c）所示。

在一些实施方式中，样本图像以及第一特征标签、第二特征标签可通过人工标注的方式得到。

如图4所示，在一些实施方式中，本公开示例的训练方法，对样本数据进行处理的过程包括：

S410、对样本图像和第一特征标签进行处理，得到目标尺度大小的第一图像和第一标签。

具体来说，目标尺度（Sacle）表示图像处理网络要求的输入图像尺寸。可以理解，对于图像处理网络，为降低网络运算量，要求输入图像为预设大小，也即目标尺度。因此，对于样本图像，可将样本图像处理为目标尺度的第一图像，同时对第一特征标签进行相同的处理得到第一标签。

在一些实施方式中，可对样本图像和第一特征标签进行数据增强，从而得到目标尺度的第一图像和第一标签。数据增强可以包括缩放、裁切、旋转、翻转、移位等一种或多种处理，本公开下文实施方式中进行具体说明，在此暂不详述。

S420、基于预设尺度大小对样本图像和第二特征标签进行局部裁切，得到至少一个第一裁切图像以及对应的裁切图像标签。

S430、对至少一个第一裁切图像以及对应的裁切图像标签进行缩放处理，得到目标尺度大小的第二图像和第二标签。

可以理解，第二图像为包括样本图像的局部图像信息的图像，因此可基于预设尺度大小对样本图像进行局部裁切得到至少一个第一裁切图像，同时，可采用相同的操作对第二特征标签进行裁切得到每个第一裁切图像对应的裁切图像标签。

在一些实施方式中，预设尺度大小可以是预先设置的随机尺度，利用预设尺度对样本图像进行至少一次局部裁切，从而得到至少一个包括局部图像信息的第一裁切图像。同时，可记录对样本图像进行裁切的位置信息，基于位置信息对第二特征标签进行同样的裁切操作，得到每个第一裁切图像对应的裁切图像标签。

在得到第一裁切图像和对应的裁切图像标签之后，同样需要将第一裁切图像和裁切图像标签缩放至网络要求的预设大小，也即，将第一裁切图像和对应的裁切图像标签缩放至目标尺度大小，得到第二图像和第二标签。

在一个示例中，样本图像大小为1920*1080像素，预设尺度为640*640像素大小，可利用预设尺度在样本图像上裁切出至少一个640*640像素大小的第一裁切图像，同时基于相同的位置信息在第二特征标签上同样裁切得到640*640像素的裁切图像标签。然后，基于网络要求的输入图像大小为480*480像素，也即目标尺度为480*480像素，将第一裁切图像缩放至480*480像素得到第二图像，将对应的裁切图像标签缩放至480*480像素得到第二标签。

可以理解，第一裁切图像为样本图像的局部，其仅包括样本图像的局部图像信息，因此缩放得到的第二图像为包括局部图像信息的图像，第二图像对应的第二标签同样为包括局部图像信息的标签。而第一图像和第一标签包括样本图像的全局图像信息。

因此本公开实施方式中，利用第一图像和第一标签对第一子网络进行训练，可以使得第一子网络学习全局图像信息，利用第二图像和第二标签对第二子网络进行训练，可以使得第二子网络学习局部纹理信息，同时满足第一子网络和第二子网络的训练要求。

数据增强(Data Augmentation)是指对样本图像进行例如移位、缩放、裁切等处理，以提升神经网络泛用性的数据处理方法。在本公开一些实施方式中，在上述S410中对样本数据进行处理得到第一图像和第一标签时，可对样本数据进行数据增强处理，以提高图像处理网络的泛用性。下面结合图5实施方式进行说明。

如图5所示，在一些实施方式中，本公开示例的训练方法，对样本图像和第一特征标签处理得到第一图像和第一标签的过程，包括：

S510、根据目标尺度和预设缩放比例确定基准尺度，并将样本图像和第一特征标签缩放至基准尺度大小。

S520、对基准尺度大小的样本图像和第一特征标签进行裁切和/或补全，得到目标尺度大小的第一图像和第一标签。

如前所述，目标尺度（Sacle）表示图像处理网络要求的输入图像尺寸，预设缩放比例（Ratio）为预先设置的随机缩放比例。首先，可根据目标尺度和预设缩放比例确定对样本图像和第一特征标签进行缩放的基准尺度（Base）。

在确定基准尺度之后，可将样本图像和第一特征标签缩放至基准尺度大小，然后再对基准尺度的样本图像和第一特征标签进行裁切和/或补全，得到目标尺度的第一图像以及第一标签。

在一个示例中，目标尺度为480*480像素。样本图像如图2中（a）所示，样本图像大小为1920*1080像素。样本图像对应的第一特征标签如图2中（b）所示，其大小同样为1920*1080像素。

预设缩放比例可以在（0.75,1.25）范围，例如预设缩放比例Ratio=1.13，从而计算得到基准尺度Base=Sacle*Ratio=480*1.13=542。然后可利用双线性插值将样本图像按照长边1920缩放至542进行等比例缩放，对应的短边尺度即为：1080*（542/1920）=304，也即，将样本图像缩放至542*304像素大小。

由于目标尺度为480*480像素，因此对于缩放后的542*304像素的样本图像，长边超出部分可进行裁切，短边不足部分进行像素补0，最终得到480*480像素大小的图像，也即第一图像。在本示例中，对应得到的第一图像可如图6所示，图6宽度两侧的黑边即为像素补0后的区域。

可以理解，对图2中（b）所示的第一特征标签同样进行上述操作，即可得到对应图6所示第一图像的第一标签，本领域技术人员对此可以理解，本公开不再赘述。

通过上述可知，本公开实施方式中，通过对样本图像进行数据增强处理得到第一图像和第一标签，有利于后续网络训练过程中提高图像处理网络的泛用性。

在图5实施方式基础上，在对样本图像进行数据增强处理时，可能需要对样本图像进行裁切，从而在样本图像上裁切并处理得到第二图像的过程中，可基于第一图像在样本图像的第一映射关系裁切并处理得到第二图像。下面结合图7实施方式进行具体说明。

如图7所示，在一些实施方式中，本公开示例的训练方法，根据样本图像和第二特征标签得到第二图像和第二标签的过程，包括：

S710、根据第一图像在样本图像上的第一映射关系和样本图像确定第三图像，并且基于第一映射关系和第二特标签确定第三标签。

S720、基于预设尺度大小对第三图像和第三标签进行局部裁切，得到至少一个第一裁切图像以及对应的裁切图像标签。

S730、对至少一个第一裁切图像以及对应的裁切图像标签进行缩放处理，得到目标尺度大小的第二图像和第二标签。

本公开实施方式中，第一映射关系表示第一图像在样本图像上的对应关系，其包括放缩比例以及位置信息。

举例来说，如图6所示的第一图像，其是通过图2中（a）所示的样本图像缩放后裁切补全得到。从而，在前述图5实施方式的示例中，可在样本图像由1920*1080像素缩放至542*304像素大小过程中，记录缩放比例Sacle_factor=542/1920。同时，在由基准尺度542*304像素大小进行裁切之后，记录裁切后图像的坐标（x，y），也即位置信息。从而，综合缩放比例和位置信息，得到第一图像在样本图像上的第一映射关系ord，表示为ord=（x，y）/Sacle_factor。

根据第一映射关系和样本图像，即可确定第三图像。在上述示例中，可根据第一映射关系ord将第一图像映射至样本图像中，从而确定第三图像的图像范围即如图8中虚线框范围所示，然后对样本图像进行裁切得到第三图像。同样，如图9所示，对第二特征标签采用相同方式进行裁切得到第三标签。

在一些实施方式中，可设置多个预设尺度，例如（320*320，480*480，640*640），每次裁切从多个预设尺度中随机选择一个预设尺度，利用选择的预设尺度对第三图像进行n次随机裁切，得到n个第一裁切图像。

在前述示例中，以一次裁切为例，可利用预设尺度320*320像素大小对图8所示的第三图像进行随机裁切，从而可以得到一张320*320像素大小的第一裁切图像，例如图10所示。同时，可根据第一裁切图像在第三图像上的位置信息，对第三标签采用相同的裁切方式，即可得到第一裁切图像对应的裁切图像标签，例如图11所示。

在得到第一裁切图像和裁切图像标签之后，可将320*320像素大小的第一裁切图像以及裁切图像标签进行缩放处理。具体来说，将320*320像素大小的第一裁切图像缩放至目标尺度480*480像素大小，得到第二图像。将320*320像素大小的裁切图像标签缩放至目标尺度480*480像素大小，得到对应第二标签，如图12所示。

值得说明的是，上述示例仅示出了对第三图像进行一次裁切的过程，在具体实施中，可以利用预设尺度对第三图像进行n次裁切，n为大于等于1的正整数，从而可以得到n个包括不同局部图像信息的第二图像以及对应的第二标签。并且，n次裁切对应的预设尺度可以相同也可以不同，本公开对此不作限制。本领域技术人员参照前述即可理解并充分实施，本公开对此不再赘述。

在对样本数据进行处理得到第一图像和第一标签、第二图像和第二标签之后，即可利用第一图像和第一标签、第二图像和第二标签对第一子网络和第二子网络进行联合训练。

如图13所示，在一些实施方式中，本公开示例的训练方法，利用第一图像和第一标签对第一子网络进行训练的过程，包括：

S1310、将第一图像输入待训练的第一子网络，得到第一子网络输出的第一输出图像。

S1320、根据第一输出图像与第一标签之间的差异，调整第一子网络的网络参数，直至满足收敛条件。

结合图1所示的图像处理网络的网络架构，仍以前述示例的一个样本数据为例进行说明。

本公开实施方式中，将图6所示的第一图像输入待训练的第一子网络，从而可以得到第一子网络预测输出的第一输出图像，根据第一输出图像与第一标签利用交叉熵损失函数得到两者的差异，从而根据两者的差异反馈调整第一子网络的网络参数，直至满足收敛条件。

对于第一子网络的监督训练过程，本领域技术人员基于相关技术可以理解并充分实现，本公开对此不再赘述。

如图14所示，在一些实施方式中，本公开示例的训练方法，利用第二图像和第二标签对第二子网络进行训练的过程，包括：

S1410、根据第二图像在样本图像上的第二映射关系，对第一输出图像进行局部裁切处理，得到第二裁切图像。

S1420、将第二图像以及第二裁切图像输入待训练的第二子网络，得到第二子网络输出的第二输出图像。

S1430、根据第二输出图像与第二标签的差异，调整第二子网络的网络参数，直至满足收敛条件。

基于前述可知，第二子网络的输入包括第二图像和第一子网络的第一输出结果。可以理解，在本公开实施方式中，第二图像为包括局部图像信息的图像，然而第一输出结果为包括全局图像信息的预测结果，因此需要基于第二图像对第一输出结果进行处理。

具体来说，本公开实施方式中，第二映射关系表示第二图像在样本图像上的对应关系，可以理解，第二图像为对样本图像局部裁切并缩放处理后得到的图像，从而第二图像对应至样本图像上的位置信息以及缩放比例即为第二映射关系。

仍以前述示例进行说明，第一图像为480*480像素大小，第一子网络对应输出的第一输出结果同样为480*480像素大小。首先可基于前述的第一映射关系，将第一输出结果缩放至第三图像大小，如图15左侧所示。然后结合图10所示，根据第二映射关系所表示的第一裁切图像在第三图像上的位置信息，对第一输出结果进行裁切，得到的裁切后的图像大小与第一裁切图像相同，均为320*320像素大小，然后对裁切后的第一输出结果进行缩放，得到目标尺度480*480像素大小的第二裁切图像，如图16所示。

在得到第二图像以及目标尺度480*480像素大小的第二裁切图像之后，即可将第二图像和第二裁切图像共同输入待训练的第二子网络，从而得到第二子网络预测输出的第二输出图像，第二输出图像可如图17中所示。根据第二输出图像与第二标签利用L1损失函数得到两者的差异，从而根据两者的差异反馈调整第二子网络的网络参数，直至满足收敛条件。

对于第二子网络的监督训练过程，本领域技术人员基于相关技术可以理解并充分实现，本公开对此不再赘述。

上述实施方式中，仅以一个样本数据对本公开实施方式的训练方法进行了说明，本领域技术人员可以理解，对于第一样本集中的每个样本数据均执行上述过程即可，本公开对此不再赘述。

在一些实施方式中，上述实施方式中的图像缩放可采用双线性插值算法实现，本领域技术人员可以理解，本公开不再赘述。

通过上述可知，本公开实施方式中，对于同一个样本数据，通过处理得到包括全局图像信息的第一图像和第一标签、包括局部图像信息的第二图像和第二标签，并且利用第一图像和第一标签对第一子网络进行训练，利用第二图像、第一子网络的输出结果以及第二标签对第二子网络进行训练，提高联合训练效果，降低网络效果退化的风险。

在一些实施方式中，对于图像抠像场景，上述图1所示的图像处理网络中，第一子网络可以包括语义分割网络，用于预测得到Trimap，第二子网络可以包括抠像网络，用于预测得到抠像结果。在一个示例性的实施中，语义分割网络可以采用例如Icnet、Bisenet、Shelfnet网络结构，抠像网络可以采用例如GCA、Indexnet、FBA网络结构。

值得说明的是，相关技术中，对于样本数据中的第一特征标签和第二特征标签，一般由人工标注得到。以图像抠像场景为例，抠像标签的标准难度很大从而难以获得大量样本数据，导致语义分割模型无法学习到足够的语义表达，导致抠像结果的鲁棒性较差。

本公开一些实施方式中，在对第一子网络和第二子网络进行联合训练时，采用第一样本集和第二样本集共同参与训练，提升图像处理网络的鲁棒性，下面结合图18进行说明。

如图18所示，在一些实施方式中，本公开示例的训练方法，还包括：

S1810、获取第二样本集。

S1820、针对第二样本集中的每个样本数据，对样本数据处理得到包含全局图像信息的第四图像和第四图像对应的第四标签。

S1830、基于第一图像和第一标签、以及第四图像和第四标签共同对待训练的第一子网络进行训练，直至满足收敛条件。

具体来说，第二样本集中的每个样本数据均包括样本图像以及样本图像对应的第一特征标签。以图像抠像场景为例，第一样本集为抠像样本集，其中每个样本数据包括样本图像、样本图像对应的分割标签和抠像标签。而第二样本集可以为分割样本集，其中每个样本数据仅包括样本图像和分割标签，也即第二样本集中不包括抠像标签。

可以理解，由于第二样本集中不包括抠像标签，从而第二样本集中的额样本数据更容易获取，第二样本集中数据量相较第一样本集中数据量更大。

本公开实施方式中，第二样本集仅用于训练第一子网络，第一样本集采用本公开前述训练方法同时训练第一子网络和第二子网络，在实现前述联合训练的有益效果的基础上，还利用第二样本集扩充样本数据量，使得第一子网络可以学习到足够的语义表达，提高图像处理网络的鲁棒性。

具体来说，对于第二样本集中的每个样本数据，可基于前述图5所示的实施方式对样本数据进行处理，得到第四图像和第四标签，然后利用第一图像和第一标签、以及第四图像和第四标签共同对第一子网络进行监督训练，直至满足收敛条件。对于样本数据处理以及第一子网络的训练过程，本领域技术人员参照前述实施即可，本公开对此不再赘述。

在一些实施方式中，考虑到第二样本集仅用于训练第一子网络，而第二样本集同时用于训练第一子网络和第二子网络，为保证同一批训练样本数据（batch）参与训练时，第二样本集的样本数据的训练时长与第一样本集的样本数据的训练时长基本保持一致，可预先设置每一个训练batch中第一样本集的样本数据数量与第二样本集的样本数据数量的比例。例如一个示例中，每个batch中第一样本集的样本数据数量与第二样本集的样本数据数量的比值为1:7。

通过上述可知，本公开实施方式中，对于同一个样本数据，通过处理得到包括全局图像信息的第一图像和第一标签、包括局部图像信息的第二图像和第二标签，并且利用第一图像和第一标签对第一子网络进行训练，利用第二图像、第一子网络的输出结果以及第二标签对第二子网络进行训练，提高联合训练效果，降低网络效果退化的风险。并且，利用第二样本集扩充样本数据量，使得第一子网络可以学习到足够的语义表达，提高图像处理网络的鲁棒性。

图19示出了本公开图像处理网络的训练方法的一些实施方式，在图19实施方式中，图像处理网络为图像抠图网络，第一子网络为语义分割网络，第二子网络为抠像网络。下面结合图19对网络训练过程进行具体说明。

S1901、获取第一样本集和第二样本集。

在本示例中，第一样本集也即抠像样本集，其中每个样本数据包括样本图像、分割标签以及抠像标签。第二样本集也即分割样本集，其中每个样本数据包括样本图像和分割标签。

S1902、利用第二样本集的样本数据对第一子网络进行训练，利用第一样本集的样本数据对第二子网络进行训练。

在本示例中，首先可利用分割样本集的样本数据对语义分割网络进行训练、利用抠像样本集的样本数据对抠像网络进行训练。

再对语义分割网络和抠像网络分别训练完成之后，即可将语义分割网络和抠像网络联合在一起进行端到端的联合训练。

S1903、对于第一样本集和第二样本集中的每个样本数据，对数据处理得到包括全局图像信息的第一图像和第一标签，并且对于第一样本集中的每个样本数据，对数据处理得到包括局部图像信息的第二图像和第二标签。

在本示例中，在对样本图像进行处理时，对于第二样本集中的每个样本数据，仅进行前述S410的数据处理过程即可，从而得到对应的第一图像和第一标签。而对于第一样本集中的每个样本数据，进行前述S410~S430的数据处理过程，既得到对应的第一图像和第一标签，还处理得到第二图像和第二标签。

S1904、利用第二样本集的样本数据对第一子网络进行训练，利用第二样本集的样本数据对第一子网络和第二子网络进行训练，直至满足收敛条件。

具体来说，首先可基于预设比例获取每批次训练的样本数据，也即一个batch的样本数据。在一个示例中，每个batch中第一样本集的样本数据数量与第二样本集的样本数据数量的比值为1:7。

然后将一个batch的样本数据输入图像处理网络，对于第二样本集的每个样本数据，利用第一图像和第一标签对第一子网络进行训练，其训练过程参见前述图18实施方式即可，不再赘述。而对于第一样本集的每个样本数据，利用第一图像和第一标签对第一子网络进行训练，并且利用第二图像、第一子网络的第一输出结果以及第二标签对第二子网络进行训练，其训练过程参见前述图14实施方式即可，不再赘述。直至满足收敛条件，停止对第一子网络和第二子网络的训练，得到训练后的图像处理网络。

通过上述可知，本公开实施方式中，对于第一样本集中的每一个样本数据，可以同时满足第一子网络关注于全局语义信息、第二子网络关注于局部纹理信息的训练要求，降低联合训练导致的子网络效果退化的风险。并且，利用第二样本集扩充样本数据量，使得第一子网络可以学习到足够的语义表达，提高图像处理网络的鲁棒性。

本公开提供了一种图像处理方法，如图20所示，在一些实施方式中，本公开示例的图像处理方法包括：

S2010、将待处理图像输入预先训练的图像处理网络，得到图像处理网络的第一子网络预测输出的第一输出图像。

S2020、图像处理网络的第二子网络根据待处理图像和第一输出图像，预测输出处理结果。

具体来说，图像处理网络的网络架构可参见图1所示，其包括第一子网络和第二子网络。

在一些实施方式中，以图像抠图场景为例，第一子网络包括语义分割网络，从而对待处理图像进行语义分割得到第一输出图像，例如待处理图像的Trimap。第二子网络包括抠像网络，其输入为第一子网络预测得到的第一输出图像和待处理图像，输出得到抠像结果，也即处理结果。

在本场景示例中，可首先将待处理图像输入预先训练好的语义分割网络，从而语义分割网络对待处理图像的前景、背景以及边缘区域进行预测分割，得到语义分割网络输出的待处理图像的Trimap（三分图）。然后将待处理图像以及语义分割网络输出的Trimap输入抠像网络，得到抠像网络输出的抠像结果。

在一个示例中，待处理图像如图2中（a）所示，语义分割网络进行语义分割之后预测输出的第一输出图像（Trimap）如图2中（b）所示，抠像网络基于第一输出图像对待处理图像进行抠像之后预测输出的处理结果可如图2中（c）所示。

本公开实施方式中，图像处理网络可参照前述任意实施方式的训练方法训练得到，本公开对此不作限制。

通过上述可知，本公开实施方式中，通过上述训练方法提高图像处理网络的精度和鲁棒性，进而提高图像处理效果。

在一些实施方式中，可以通过语义分割网络直接输出得到待处理图像的Trimap（三分图），也可以利用语义分割网络输出仅包括前景和背景的二分图，然后可通过对二分图进行概率转换处理，得到待处理图像的三分图。

例如，在一个示例性的实施中，语义分割网络可采用基于三分图语义分割结构搭建的网络，从而将待处理图像输入语义分割网络之后，语义分割网络输出的语义分割图像即为待处理图像对应的Trimap（三分图）。

但是，在上述示例中，语义分割网络结构较为复杂，参数量庞大。为简化计算和提高网络训练效率，在一些实施方式中，可采用基于二分图的语义分割网络，然后通过对语义分割网络输出的二分图进行处理得到对应的三分图。下面结合图21进行具体说明。

如图21所示，在一些实施方式中，本公开示例的图像处理方法包括：

S2110、将待处理图像输入语义分割网络，得到语义分割网络预测输出的语义分割图像。

S2120、将语义分割图进行概率转换处理，得到三分图。

S2130、通过抠像网络对待处理图像和三分图进行处理，得到抠像网络预测输出的抠像结果。

本公开实施方式中，语义分割网络为基于二分图语义分割结构搭建的网络，从而将待处理图像输入语义分割网络之后，得到的语义分割网络输出的语义分割图像为仅针对前景和背景进行分割的二分图。

在一个示例性中，待处理图像可如图22中（a）所示，经过语义分割网络输出的语义分割图像，可如图22中（b）所示。可以看到，输出的语义分割图像为仅针对前景和背景进行分割的二分图。

本公开实施方式中，语义分割图可以包括：待处理图像中的每个像素属于目标对象的概率，该目标对象可以是目标图像中的前景或者背景。以抠出前景为例，例如，语义分割图可以包括待处理图像中的某个像素属于前景的概率是0.85，另一个像素属于前景的概率是0.24。

为了与后续的实施方式描述中出现的其他概率相区分，本公开实施方式可以将语义分割图中包括的每个像素属于目标对象的概率称为第一概率。

在得到语义分割图之后，可以对语义分割图进行概率转换处理，得到三分图。区别于前述实施方式中的Trimap，本公开实施方式中，三分图中每个像素对应的数值并非0、128或255的像素值，而是表示每个像素属于确定前景、确定背景或待确定区域中的任一区域的概率，也即三分图中每个像素的数值均为0~1的概率值。为于前述Trimap进行区分，本实施方式中的通过概率转换处理得到的三分图可以用soft-trimap表示。

其中，所述的概率转换处理可以是通过数学转换的方式，将语义分割图中得到的像素对应的概率映射到soft-trimap中的像素对应的数值。

具体的，可以将语义分割图中的概率执行如下两部分的概率转换：

1）基于语义分割图，将第一概率转换得到第二概率。

其中，三分图soft-trimap中可以包括三种区域：“确定前景”、“确定背景”和“待确定区域”。本实施方式可以将像素属于三分图中的待确定区域的概率称为第二概率。

将语义分割图中像素属于目标对象的第一概率转换到第二概率时，可以遵循如下的概率转换原则：第一概率表征所述像素属于前景或者背景的概率越高，所述第二概率表征所述像素属于三分图中的待确定区域的概率越低。比如，第一概率越接近1和0，第二概率越接近于0；第一概率越接近0.5，第二概率越接近于1。上述转换原则即为，若图像中的一个像素属于前景的概率越高，或者属于背景的概率越高，则该像素属于待确定区域的概率就越低；而像素属于前景或背景的概率在0.5附近时，表示该像素越可能不太确定属于前景还是背景，那么像素属于待确定区域的概率就越高。

基于上述的概率转换的原则，可以将第一概率转换得到第二概率。本公开实施例不限制如何转换的具体公式，如下仅示例一种：

un=-k4*score⁴ + k3*score³ – k2*score² + k1*score.......（1）

如上的公式（1），其中的un表示像素属于待确定区域的第二概率，score表示该像素在语义分割图中属于目标对象的第一概率。该公式（1）是一种多项式拟合的方式，通过多项式拟合，将像素的第一概率拟合得到第二概率。本实施例不限制上述的各个系数“k1/k2/k3/k4”的具体取值，本领域技术人员可以根据具体场景进行选择。

可以理解的是，实际实施中并不局限于上述的多项式拟合，也可以采用其他的函数式，只要遵循上述的概率转换原则即可。本实施例采用多项式拟合将第一概率转换为第二概率，能够使得这种多项式的转换计算效率更高，而且也较准确的反映了上述的转换原则。

2）根据所述像素的第一概率和第二概率，生成所述三分图。

通过概率转换后的语义分割图就可以大致的将待处理图像中的前景和背景区分出来，例如，以抠出前景为例，若一个像素属于前景的第一概率是0.96，那属于前景的概率很高；若一个像素属于前景的第一概率是0.14，即为像素属于背景的概率很高。

在基于语义分割图得到第二概率后，就可以得到每一个像素属于待确定区域的第二概率。对于待处理图像中的每个像素，可以结合该像素在语义分割图中对应的第一概率、以及该像素属于待确定区域的第二概率进行概率融合，就可以得到该像素在三分图soft-trimap中对应的数值，该数值可以表征所述像素在待处理图像中属于确定前景、确定背景或待确定区域中的任一区域的概率。

举例来说：在soft-trimap中，若一个像素对应的数值越靠近1，表示该像素在待处理图像中越可能属于确定前景；该像素在soft-trimap中对应的数值越靠近0，表示该像素越可能是确定背景；该像素在soft-trimap中对应的数值越靠近0.5，表示该像素越可能是待确定区域。即通过像素在soft-trimap中对应的数值就可以表示出该像素属于确定前景、确定背景或待确定区域中的任一区域的概率。

如下的公式（2），示例了一种根据第一概率和第二概率得到三分图的方式：

soft_trimap = -k5*un /k6*sign(score-k7) + (sign(score-k7)+k8)/k9.......（2）

如上的公式（2）中，soft_trimap表示soft-trimap中的像素对应的数值，un表示第二概率，score表示第一概率，sign()表示sign函数。同理，本实施例不限制上述的各个系数“k5/k6/k7/k8”的具体取值，本领域技术人员可以根据具体场景进行选择。

如上示例的描述，经过了将第一概率转换得到第二概率、以及结合第一概率和第二概率生成所述三分图的处理后，实现了基于语义分割图进行概率转换处理得到三分图soft-trimap。

在得到待处理图像的三分图（soft-trimap）之后，即可将三分图和待处理图像作为抠像网络的输入，从而得到抠像网络预测输出的抠像结果。

通过上述可知，本公开实施方式中，通过对语义分割网络输出二分图进行概率转换处理得到待处理图像的三分图，简化语义分割网络的网络结构，降低网络训练的参数，简化计算并且提高网络训练效率。并且，这种概率转换得到三分图的方式，依据了语义分割的语义分割图，使得生成的三分图较为准确，从而实现了准确快捷的抠像。

本公开实施方式提供了一种图像处理网络的训练装置，在一些实施方式中，图像处理网络的结构可参照前述任意实施方式中的网络结构，也即图像处理网络包括第一子网络和第二子网络。

如图23所示，在一些实施方式中，本公开示例的图像处理网络的训练装置包括：

第一获取模块10，被配置为获取第一样本集，第一样本集包括多个样本数据；

第一处理模块20，被配置为针对第一样本集中的每个样本数据，对样本数据处理得到包含全局图像信息的第一图像和第一图像对应的第一标签，以及至少一个包含局部图像信息的第二图像和第二图像对应的第二标签；

训练模块30，被配置为基于第一图像和第一标签对待训练的第一子网络进行训练，并且，基于第二图像、第一子网络输出的输出结果以及第二标签对待训练的第二子网络进行训练。

在一些实施方式中，第一样本集中的每个样本数据包括样本图像以及样本图像对应的第一特征标签；第一处理模块20被配置为：

对样本图像和第一特征标签进行处理，得到目标尺度大小的第一图像和第一标签。

在一些实施方式中，第一处理模块20被配置为：

根据目标尺度和预设缩放比例确定基准尺度，并将样本图像和第一特征标签缩放至基准尺度大小；

对基准尺度大小的样本图像和第一特征标签进行裁切和/或补全，得到目标尺度大小的第一图像和第一标签。

在一些实施方式中，第一样本集中的每个样本数据包括样本图像以及样本图像对应的第二特征标签；第一处理模块20被配置为：

基于预设尺度大小对样本图像和第二特征标签进行局部裁切，得到至少一个第一裁切图像以及对应的裁切图像标签；

对至少一个第一裁切图像以及对应的裁切图像标签进行缩放处理，得到目标尺度大小的第二图像和第二标签。

在一些实施方式中，第一处理模块20被配置为：

根据第一图像在样本图像上的第一映射关系和样本图像确定第三图像，并且基于第一映射关系和第二特征标签确定第三标签；

基于预设尺度大小对第三图像和第三标签进行局部裁切，得到至少一个第一裁切图像以及对应的裁切图像标签。

在一些实施方式中，训练模块30被配置为：

将第一图像输入待训练的第一子网络，得到第一子网络输出的第一输出图像；

根据第一输出图像与第一标签之间的差异，调整第一子网络的网络参数，直至满足收敛条件。

在一些实施方式中，训练模块30被配置为：

根据第二图像在样本图像上的第二映射关系，对第一输出图像进行局部裁切处理，得到第二裁切图像；

将第二图像以及第二裁切图像输入待训练的第二子网络，得到第二子网络输出的第二输出图像；

根据第二输出图像与第二标签的差异，调整第二子网络的网络参数，直至满足收敛条件。

如图24所示，在一些实施方式中，本公开实施方式的训练装置，还包括：

第二获取模块40，被配置为获取第二样本集，第二样本集中的每个样本数据包括样本图像以及样本图像对应的第一特征标签；

第二处理模块50，被配置为针对第二样本集中的每个样本数据，对样本数据处理得到包含全局图像信息的第四图像和第四图像对应的第四标签；

其中，训练模块30被配置为基于第一图像和第一标签、以及第四图像和第四标签共同对待训练的第一子网络进行训练，直至满足收敛条件。

本公开实施方式提供了一种图像处理装置，如图25所示，在一些实施方式中，本公开示例的图像处理装置包括：

输入模块60，被配置为将待处理图像输入预先训练的图像处理网络，得到图像处理网络的第一子网络预测输出的第一输出图像；

输出模块70，被配置为图像处理网络的第二子网络根据待处理图像和第一输出图像，预测输出处理结果；其中，图像处理网络基于第一方面任一实施方式的训练方法预先训练得到。

在一些实施方式中，输入模块60被配置为：将待处理图像输入语义分割网络，得到语义分割网络预测输出的语义分割图像；

输出模块70被配置为将待处理图像以及语义分割图像输入抠像网络，得到抠像网络预测输出的抠像结果。

本公开实施方式提供了一种电子设备，包括：

处理器；以及

存储器，存储有能够被处理器读取的计算机指令，当计算机指令被读取时，处理器执行根据第一方面或者第二方面任一实施方式的方法。

本公开实施方式提供了一种存储介质，用于存储计算机可读指令，计算机可读指令用于使计算机执行根据第一方面或者第二方面任一实施方式所述的方法。

具体而言，图26示出了适于用来实现本公开方法的电子设备600的结构示意图，通过图26所示电子设备，可实现上述处理器及存储介质相应功能。

如图26所示，电子设备600包括处理器601，其可以根据存储在存储器602中的程序或者从存储部分608加载到存储器602中的程序而执行各种适当的动作和处理。在存储器602中，还存储有电子设备600操作所需的各种程序和数据。处理器601和存储器602通过总线604彼此相连。输入/输出（I/O）接口605也连接至总线604。

以下部件连接至I/O接口605：包括键盘、鼠标等的输入部分606；包括诸如阴极射线管（CRT）、液晶显示器（LCD）等以及扬声器等的输出部分607；包括硬盘等的存储部分608；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口605。可拆卸介质611，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器610上，以便于从其上读出的计算机程序根据需要被安装入存储部分608。

特别地，根据本公开的实施方式，上文方法过程可以被实现为计算机软件程序。例如，本公开的实施方式包括一种计算机程序产品，其包括有形地包含在机器可读介质上的计算机程序，计算机程序包含用于执行上述方法的程序代码。在这样的实施方式中，该计算机程序可以通过通信部分609从网络上被下载和安装，和/或从可拆卸介质611被安装。

附图中的流程图和框图，图示了按照本公开各种实施方式的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

本公开涉及增强现实领域，通过获取现实环境中的目标对象的图像信息，进而借助各类视觉相关算法实现对目标对象的相关特征、状态及属性进行检测或识别处理，从而得到与具体应用匹配的虚拟与现实相结合的AR效果。示例性的，目标对象可涉及与人体相关的脸部、肢体、手势、动作等，或者与物体相关的标识物、标志物，或者与场馆或场所相关的沙盘、展示区域或展示物品等。视觉相关算法可涉及视觉定位、SLAM、三维重建、图像注册、背景分割、对象的关键点提取及跟踪、对象的位姿或深度检测等。具体应用不仅可以涉及跟真实场景或物品相关的导览、导航、讲解、重建、虚拟效果叠加展示等交互场景，还可以涉及与人相关的特效处理，比如妆容美化、肢体美化、特效展示、虚拟模型展示等交互场景。可通过卷积神经网络，实现对目标对象的相关特征、状态及属性进行检测或识别处理。上述卷积神经网络是基于深度学习框架进行模型训练而得到的网络模型。

显然，上述实施方式仅仅是为清楚地说明所作的举例，而并非对实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本公开创造的保护范围之中。

Claims

1.一种图像处理网络的训练方法，其特征在于，所述图像处理网络包括第一子网络和第二子网络，所述训练方法包括：

获取第一样本集，所述第一样本集包括多个样本数据；所述第一样本集中的每个样本数据包括样本图像；

针对所述第一样本集中的每个样本数据，对所述样本数据处理得到包含所述样本图像的全局图像信息的第一图像和所述第一图像对应的第一标签，以及至少一个包含所述样本图像的局部图像信息的第二图像和所述第二图像对应的第二标签；每个样本数据对应的所述第一图像和所述第二图像来自于同一所述样本图像；

2.根据权利要求1所述的训练方法，其特征在于，所述第一样本集中的每个样本数据还包括所述样本图像对应的第一特征标签；所述对所述样本数据处理得到包含所述样本图像的全局图像信息的第一图像和所述第一图像对应的第一标签，包括：

3.根据权利要求2所述的训练方法，其特征在于，所述对所述样本图像和所述第一特征标签进行处理，得到目标尺度大小的所述第一图像和所述第一标签，包括：

4.根据权利要求1所述的训练方法，其特征在于，所述第一样本集中的每个样本数据还包括所述样本图像对应的第二特征标签；对所述样本数据处理得到至少一个包含所述样本图像的局部图像信息的第二图像和所述第二图像对应的第二标签，包括：

5.根据权利要求4所述的训练方法，其特征在于，所述基于预设尺度大小对所述样本图像和所述第二特征标签进行局部裁切，得到至少一个第一裁切图像以及对应的裁切图像标签，包括：

6.根据权利要求1所述的训练方法，其特征在于，对所述第一子网络进行训练的过程包括：

7.根据权利要求6所述的训练方法，其特征在于，对所述第二子网络进行训练的过程包括：

8.根据权利要求1至7任一项所述的训练方法，其特征在于，还包括：

9.一种图像处理方法，其特征在于，包括：

通过所述图像处理网络的第二子网络对所述待处理图像和所述第一输出图像进行处理，预测输出处理结果；其中，所述图像处理网络基于权利要求1至8任一项所述的训练方法预先训练得到。

10.根据权利要求9所述的方法，其特征在于，所述第一子网络包括语义分割网络，所述第二子网络包括抠像网络；所述将待处理图像输入预先训练的图像处理网络，得到所述图像处理网络的第一子网络预测输出的第一输出图像，包括：

所述通过所述图像处理网络的第二子网络对所述待处理图像和所述第一输出图像进行处理，预测输出处理结果，包括：

通过所述抠像网络对所述待处理图像和所述语义分割图像进行处理，得到所述抠像网络预测输出的抠像结果。

11.根据权利要求10所述的方法，其特征在于，所述方法还包括：

12.一种图像处理网络的训练装置，其特征在于，所述图像处理网络包括第一子网络和第二子网络，所述训练装置包括：

第一获取模块，被配置为获取第一样本集，所述第一样本集包括多个样本数据；所述第一样本集中的每个样本数据包括样本图像；

第一处理模块，被配置为针对所述第一样本集中的每个样本数据，对所述样本数据处理得到包含所述样本图像的全局图像信息的第一图像和所述第一图像对应的第一标签，以及至少一个包含所述样本图像的局部图像信息的第二图像和所述第二图像对应的第二标签；每个样本数据对应的所述第一图像和所述第二图像来自于同一所述样本图像；

13.一种图像处理装置，其特征在于，包括：

输出模块，被配置为所述图像处理网络的第二子网络根据所述待处理图像和所述第一输出图像，预测输出处理结果；其中，所述图像处理网络基于权利要求1至8任一项所述的训练方法预先训练得到。

14.一种电子设备，其特征在于，包括：

处理器；以及

存储器，存储有能够被所述处理器读取的计算机指令，当所述计算机指令被读取时，所述处理器执行根据权利要求1至11任一项所述的方法。

15.一种存储介质，其特征在于，用于存储计算机可读指令，所述计算机可读指令用于使计算机执行根据权利要求1至11任一项所述的方法。