CN114445632A

CN114445632A - 图片处理方法及装置

Info

Publication number: CN114445632A
Application number: CN202210117352.XA
Authority: CN
Inventors: 曹磊磊; 李壮
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2022-02-08
Filing date: 2022-02-08
Publication date: 2022-05-06

Abstract

本说明书实施例提供图片处理方法及装置，其中，所述方法包括获取包含目标对象的图片；将所述图片输入图片处理模型，获得对象掩码图像、所述对象掩码图像中存在目标对象的概率以及包含对象标签的语义分割图像；根据所述对象掩码图像、所述对象掩码图像中存在目标对象的概率以及语义分割图像，确定所述目标对象以及所述目标对象的对象标签。具体的，所述方法采用同一个网络实现对目标对象识别以及目标对象解析两个任务，快速且准确的获得目标对象以及目标对象的对象标签；无需对图片进行两阶段处理，避免了两阶段处理中受检测器影响，造成的解析结果不准确的情况。

Description

图片处理方法及装置

技术领域

本说明书实施例涉及计算机技术领域，特别涉及一种图片处理方法。

背景技术

目前，在很多应用场景中，需要对图片中的物体进行识别，然后对识别出物体的某个部分进行更换；例如，在电商场景中，对图片中的人体进行识别，进行衣服替换或者改变头发颜色等。

现有技术中，均是需要先将图片中的每个人体用人体检测器检测出来，再将每个人体的每一部分进行单独做解析。但是这种两阶段的方法受检测器的影响较大，若检测器不准确，检测出的人体不完整(比如图片中的人体出现重叠)的情况下，则会对下一步的人体解析造成较大的影响，使得解析结果不准确。

发明内容

有鉴于此，本说明书实施例提供了一种图片处理方法。本说明书一个或者多个实施例同时涉及一种图片处理装置，一种计算设备，一种计算机可读存储介质，一种计算机程序，以解决现有技术中存在的技术缺陷。

根据本说明书实施例的第一方面，提供了一种图片处理方法，包括：

获取包含目标对象的图片；

将所述图片输入图片处理模型，获得对象掩码图像、所述对象掩码图像中存在目标对象的概率以及包含对象标签的语义分割图像；

根据所述对象掩码图像、所述对象掩码图像中存在目标对象的概率以及语义分割图像，确定所述目标对象以及所述目标对象的对象标签。

根据本说明书实施例的第二方面，提供了一种图片处理装置，包括：

图片获取模块，被配置为获取包含目标对象的图片；

模型处理模块，被配置为将所述图片输入图片处理模型，获得对象掩码图像、所述对象掩码图像中存在目标对象的概率以及包含对象标签的语义分割图像；

标签确定模块，被配置为根据所述对象掩码图像、所述对象掩码图像中存在目标对象的概率以及语义分割图像，确定所述目标对象以及所述目标对象的对象标签。

根据本说明书实施例的第三方面，提供了一种计算设备，包括：

存储器和处理器；

所述存储器用于存储计算机可执行指令，所述处理器用于执行所述计算机可执行指令,该计算机可执行指令被处理器执行时实现上述图片处理方法的步骤。

根据本说明书实施例的第四方面，提供了一种计算机可读存储介质，其存储有计算机可执行指令，该计算机可执行指令被处理器执行时实现上述图片处理方法的步骤。

根据本说明书实施例的第五方面，提供了一种计算机程序，其中，当所述计算机程序在计算机中执行时，令计算机执行上述图片处理方法的步骤。

本说明书一个实施例实现了一种图片处理方法及装置，其中，所述图片处理方法包括获取包含目标对象的图片；将所述图片输入图片处理模型，获得对象掩码图像、所述对象掩码图像中存在目标对象的概率以及包含对象标签的语义分割图像；根据所述对象掩码图像、所述对象掩码图像中存在目标对象的概率以及语义分割图像，确定所述目标对象以及所述目标对象的对象标签。

具体的，所述图片处理方法通过用一个图片处理模型，同时预测出图片中每个目标对象的对象掩码图像和整张图片的语义分割图，即采用同一个网络实现对目标对象识别以及目标对象解析两个任务，快速且准确的获得目标对象以及目标对象的对象标签；无需对图片进行两阶段处理，避免了两阶段处理中受检测器影响，造成的解析结果不准确的情况。

附图说明

图1是本说明书一个实施例提供的一种图片处理方法的具体应用场景示意图；

图2是本说明书一个实施例提供的一种图片处理方法的流程图；

图3是本说明书一个实施例提供的一种图片处方法的处理过程示意图；

图4是本说明书一个实施例提供的一种图片处理装置的结构示意图；

图5是本说明书一个实施例提供的一种计算设备的结构框图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本说明书。但是本说明书能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本说明书内涵的情况下做类似推广，因此本说明书不受下面公开的具体实施的限制。

在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本说明书一个或多个实施例范围的情况下，第一也可以被称为第二，类似地，第二也可以被称为第一。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

首先，对本说明书一个或多个实施例涉及的名词术语进行解释。

Encoder：编码器。

Decoder：解码器。

Patch Embedding：图像块映射操作，原始图像经过该操作可以实现将二维图像映射为一维向量。

Transformer：一种深度学习的网络结构，基于Encoder-Decoder结构的模型。

Swin Transformer模型：是一种包含了CNN(卷积神经网络)滑窗理念的一种Transformer。将注意力限制在一个窗口中，一方面能引入CNN卷积操作的局部性，另一方面能节省计算量。

stage:阶段。

Patch Expand：图像块放大操作，经过该操作，可以实现将图像放大。

Concat:拼接操作，指的是由四个阶段的输出沿着通道维度上拼接一起。

blocks：网络模块，结构与stage阶段内部的结构相同。

semantic segmentation head:语义分割头，用于输出语义分割结果分支。

instance segmentation head:实例分割头，用于输出实例分割结果分支。

Drop“no person”：实例分割头输出N个mask，每个mask表示的是一个人的掩码，设定一个阈值，如果该mask的平均值低于该阈值，表示这个mask不是人体。

Hadamard product:哈达玛积，也就是两个矩阵上对应位置数相乘。

ground truth：真实样本。

inference：推理。

人体语义解析：属于图像语义分割的子任务，旨在对人类图像进行像素级的细粒度分割(例如，划分出身体部位和服装)。

实例级：普通的人体语义解析不能区分不同人的部位，只能将所有部位一同解析出；而实例级人体解析可以将每一个人单独解析出。

在本说明书中，提供了一种图片处理方法，本说明书同时涉及一种图片处理装置，一种计算设备，一种计算机可读存储介质以及一种计算机程序，在下面的实施例中逐一进行详细说明。

具体实施时，该图片处理方法可以应用于人体解析场景，也可以应用于动物或者其他物品解析场景，本说明书实施例对此不作任何限定。而为了便于理解，本说明书实施例均以该图片处理方法应用于人体解析场景为例，进行详细介绍。

参见图1，图1示出了根据本说明书一个实施例提供的一种图片处理方法的具体应用场景示意图。

图1中包括待处理图片102以及包含编码器104和解码器106的图片处理模型，其中，待处理图片102中包括多个目标对象，该图片处理方法的具体应用场景不同，其目标对象也不同，例如该图片处理方法应用于人体解析场景，该目标对象可以理解为人；该图片处理方法应用于动物或者车辆解析场景，该目标对象可以理解为动物或者车辆。而图片处理模型可以理解为预先训练好的Swin Transformer模型。

以待处理图片102中包括多个人为例进行具体介绍。

将包括多个人的待处理图片102输入Swin Transformer模型，在SwinTransformer模型的编码器104(Encoder)以及解码器106(Decoder)中进行特征提取，然后将提取的特征分别输入Swin Transformer模型的语义分割头108(semantic segmentationhead)和实例分割头110(instance segmentation head)。

语义分割头semantic segmentation head输出该待处理图片102的语义分割图像，该语义分割图像中包括每个人的人体部位的语义解析，即解析出每个人的膝盖、头发、衣服等等。

实例分割头instance segmentation head输出该待处理图片102中每个人的人体掩码图像，以及每个人体掩码图像中包含人体的概率。

将概率小于预设概率阈值的人体掩码图像过滤掉，将剩余的人体掩码图像作为目标人体掩码图像与语义分割图像做哈达玛积运算112(hadamard)即可得到每个目标人体掩码图像中每个人的解析图114，即每个人的人体部位的标签。其中，预设概率阈值可以根据实际应用进行设置，本说明书对此不作任何限定。

实际应用中，实例分割头instance segmentation head输出的该待处理图片102的mask(人体掩码图像)，其中，每个mask是一个H(高)xW(宽)的单通道图像(矩阵)，矩阵中像素点范围一般介于0～1之间，数值越大表示这个像素点属于人体的概率越大。因为输出的是N个人的mask，但不是所有图片中都有这么多人。比如N＝12，但这张图片只有4个人，理想情况下12个mask中只有4个是有效的，剩下的8个应该都是无效mask，或者说剩下的8个mask的数值都较低。那就可以设置一个预设概率阈值，比如设置0.5来过滤掉那些无效mask。具体实施时，可以取矩阵的均值作为整个mask的数值来跟预设概率阈值比较。

本说明书实施例提供的所述图片处理方法，采用同一个网络实现对人体识别以及人体解析两个任务，快速且准确的获得人体以及人体部位的标签；无需对图片进行两阶段处理，避免了两阶段处理中受检测器影响，造成的解析结果不准确的情况。

参见图2，图2示出了根据本说明书一个实施例提供的一种图片处理方法的流程图，具体包括以下步骤。

步骤202：获取包含目标对象的图片。

其中，该图片处理方法的具体应用场景不同，其目标对象也不同，例如该图片处理方法应用于人体解析场景，该目标对象可以理解为人，该图片处理方法应用于动物解析场景，该目标对象可以理解为动物等。即该目标对象可以理解为任意待处理对象，如人、物品或者动物等等。

而包含目标对象的图片则可以理解为任意大小、任意格式的、包含多个目标对象的图片，比如包含多个人体的GIF图片。

步骤204：将所述图片输入图片处理模型，获得对象掩码图像、所述对象掩码图像中存在目标对象的概率以及包含对象标签的语义分割图像。

具体的，将图片输入图片处理模型，获得至少一张对象掩码图像、每张对象掩码图片中存在目标对象的概率、以及包含对象标签的语义分割图像；其中，对象标签可以根据目标对象确定，比如目标对象是人体，那么对象标签则可以为人的膝盖、头发、衣服、眼睛等等。

而在具体实施时，需要预先训练获得图片处理模型，以使得后续可以基于预先训练的该图片处理模型，获得对象掩码图像、对象掩码图像中存在目标对象的概率以及包含对象标签的语义分割图像等。具体实现方式如下所述：

所述图片处理模型的训练步骤如下所述：

获取包含目标对象的样本图片以及所述样本图片的样本标签，其中，所述样本标签为所述样本图片中包含的目标对象、所述目标对象的对象属性；

根据预设处理方式对所述样本图片进行切分，获得多个预设尺寸的图像块特征向量；

将所述图像块特征向量输入图片处理模型的编码器以及解码器进行特征处理，获得所述样本图片的目标图像特征；

将所述目标图像特征分别输入所述图片处理模型的实例分割网络以及语义分割网络，获得对象掩码样本图像以及语义分割样本图像；

根据所述对象掩码样本图像、所述语义分割样本图像以及所述样本图片的样本标签训练获得所述图片处理模型。

其中，目标对象的具体解释可以参见上述实施例，在此不再赘述。

实际应用中，先获取多个包含目标对象的样本图片，且每个样本图片中均包含多个目标对象，以及每个样本图片的样本标签，即每个样本图片中包含的目标对象。

再根据预设处理方式对样本图片进行切分，获得多个预设尺寸的图像块特征向量。具体的，所述根据预设处理方式对所述样本图片进行切分，获得多个预设尺寸的图像块特征向量，包括：

根据图像块映射操作对所述样本图片进行切分，将所述样本图片切分为多个预设尺寸的图像块特征向量。

其中，图像块映射操作可以理解为Patch Embedding；预设尺寸可以根据实际应用进行设置，如果patch切的太大的话，会影响精度；patch尺寸越大，模型计算量低，但精度也会越低；patch越小，精度越高，但计算量也会大一些；因此该预设尺寸需要根据综合精度和计算量进行取值，本说明书对此不作任何限定，例如将预设尺寸设置为4*4等。

具体的，根据图像块映射操作对样本图片进行切分，将样本图片切分为多个预设尺寸的图像块特征向量，可以理解为：将样本图片经过Patch Embedding，可以实现将原始的二维样本图片转换成一系列的一维Patch Embeddings。

本说明书实施例中，通过图像块映射操作对样本图片进行切分，通过切分后的多个一维的图像块特征向量对图片处理模型进行训练，可以获得较优的训练结果。

而在对样本图片进行切分后，将切分后获得的每个图像块特征向量输入图片处理模型的编码器以及解码器进行特征处理，获得样本图片的目标图像特征。具体实现方式如下所述：

所述将所述图像块特征向量输入图片处理模型的编码器以及解码器进行特征处理，获得所述样本图片的目标图像特征，包括：

将所述图像块特征向量输入图片处理模型的编码器进行特征提取，获得所述样本图片的初始图像特征；

将所述初始图像特征输入所述图片处理模型的解码器进行特征处理，获得所述样本图片的目标图像特征。

具体的，将每个图像块特征向量输入图片处理模型的编码器进行特征提取，获得该样本图片的初始图像特征；再将该初始图像特征输入图片处理模型的解码器进行特征处理，获得样本图片的目标图像特征。

具体实施时，图片处理模型的编码器包括n个特征处理阶段，且n为正整数，如n为4；那么每个图像块特征向量均会经过图片处理模型的编码器的4个特征处理阶段的处理，最后根据处理结果确定该样本图片的初始图像特征。具体实现方式如下所述：

所述编码器包括n个特征处理阶段，且n为正整数；

相应地，所述将所述图像块特征向量输入图片处理模型的编码器进行特征提取，获得所述样本图片的初始图像特征，包括：

将所述图像块特征向量输入所述图片处理模型的编码器的第i个特征处理阶段，其中，i的初始值为1；

在所述第i个特征处理阶段将所述图像块特征向量按照预设尺寸进行减小，获得减小后的图像块特征向量；

判断i是否小于n；

若否，则将i自增1，继续执行将所述减小后的图像块特征向量输入所述图片处理模型的编码器的第i个特征处理阶段；

对每个特征处理阶段的图像块特征向量进行处理，获得所述样本图片的初始图像特征。

实际应用中，以n为4为例，进行详细介绍。

具体的，将一个图像块特征向量输入图片处理模型的编码器的第1个特征处理阶段，在该第1个特征处理阶段将该图像块特征向量按照预设尺寸进行减小，获得减小后的图像块特征向量；再将减小后的图像块特征向量输入图片处理模型的编码器的第2个特征处理阶段，在该第2个特征处理阶段将该图像块特征向量按照预设尺寸进行减小，获得再次减小后的图像块特征向量，以此类推，直至i大于等于n的时候结束该处理，然后将每个特征处理阶段的图像块特征向量进行处理，获得该样本图片的初始图像特征。

比如最原始的样本图片的尺寸是640*640，相当于把每4*4作为一个块，作为一个块的整体输出，那么第1个特征处理阶段的输入就变为了160*160，在第1个特征处理阶段给第2个特征处理阶段的时候又把这个图缩小，变为80*80；相当于把2*2这么一个尺寸作为一个块输出；第2个特征处理阶段给第3个特征处理阶段变为40*40，第3个特征处理阶段给第4个特征处理阶段变为了20*20。

本说明书实施例中，图片处理模型可以理解为Swin Transformer模型，而编码器则采用Swin Transformer模型结构，Swin Transformer模型网络提取图像特征时可输出四个不同阶段的尺度特征；后续可以将这四个阶段提出的特征做上采样后沿着通道维度拼接在一起，获得较为精确的初始图像特征。

因此，初始图像特征是根据每个特征处理阶段输入的图像块特征向量做上采样后沿着通道维度拼接在一起确定的。具体实现方式如下所述：

所述对每个特征处理阶段的图像块特征向量进行处理，获得所述样本图片的初始图像特征，包括：

确定n个特征处理阶段中除第一个特征处理阶段之外的每个特征处理阶段的图像块特征向量；

将所述除第一个特征处理阶段之外的每个特征处理阶段的图像块特征向量，根据所述第一特征处理阶段的图像块特征向量的特征尺寸进行上采样；

将所述第一个特征处理阶段的图像块特征向量，与上采样后的所有的图像块特征向量进行拼接，获得所述样本图片的初始图像特征。

其中，上采样的目的是为了放大图像。

具体的，确定n个特征处理阶段中除第一个特征处理阶段之外的，每个特征处理阶段的图像块特征向量；然后将除第一个特征处理阶段之外的每个特征处理阶段的图像块特征向量，根据第一特征处理阶段的图像块特征向量的特征尺寸进行上采样(即PatchExpand)。

将第一个特征处理阶段的图像块特征向量，与上采样后的所有的图像块特征向量进行拼接，获得样本图片的初始图像特征。

沿用上例，若n为4，那么除第一个特征处理阶段之外的每个特征处理阶段的图像块特征向量，可以理解为第2个、第3个和第4个特征处理阶段的输入图像块特征向量；然后将第2个、第3个和第4个特征处理阶段的输入图像块特征向量的特征尺寸进行上采样，然后将第1个特征处理阶段的输入图像块特征向量与上采样后的第2个、第3个和第4个特征处理阶段的输入图像块特征向量进行拼接，获得样本图片的初始图像特征。

即将第2个特征处理阶段的输出图像大小放大至跟第1个特征处理阶段的输出图像一样大；第3个特征处理阶段和第4个特征处理阶段也是类似的操作。

沿用上例，第1个特征处理阶段的输入为160*160，第2个特征处理阶段的输入为80*80；第3个阶段的输入为40*40；第4个阶段的输入为20*20；然后将第2、3、4三个特征处理阶段的图像尺寸全部放大至160*160。

最后，再将四个阶段的输入沿着通道维度上拼接一起，例如第1个特征处理阶段的输入图像块特征向量大小为160x160x192，第2个特征处理阶段输入经过上采样后图像块特征向量大小为160x160x96，第3个特征处理阶段输入经过上采样后图像块特征向量大小为160x160x48，第4个特征处理阶段输入经过上采样后图像块特征向量大小为160x160x24，经过拼接操作后，变为160x160x360。

本说明书实施例中，图片处理模型理解为Swin Transformer模型，编码器采用Swin Transformer模型结构进行特征提取时，首先将图片先切成若干个预设尺寸的patch，变成patch embedding，再将patch embedding输入根据Swin Transformer模型结构构建的Encoder中，该Encoder由四个阶段构成，提取的特征尺度逐渐减小，再将四个阶段提出的特征做上采样后沿着通道维度拼接到一起，即可获得较为精确的样本图片的初始图像特征。

在获得样本图片的初始图像特征之后，再将该初始图像特征输入图片处理模型的解码器进行特征提取，以获得该样本图片的目标图像特征。具体实现方式如下所述：

所述将所述初始图像特征输入所述图片处理模型的解码器进行特征处理，获得所述样本图片的目标图像特征，包括：

将所述初始图像特征输入所述图片处理模型的解码器进行特征提取，并根据所述样本图片的尺寸进行上采样，获得所述样本图片的目标图像特征。

其中，在图片处理模型理解为Swin Transformer模型的情况下，解码器可以理解为采用Swin Transformer模型结构构建的，其网络结构与编码器中每个特征处理阶段的结构相同，但是不需要四个阶段的下采样，仅是对编码器上采样拼接后的特征进一步提取，特征尺寸保持不变。

具体实施时，在获得样本图片的目标图像特征之后，将该目标图像特征输入图片处理模型的实例分割网络以及语义分割网络，获得该样本图片的对象掩码样本图像以及语义分割样本图像，后续可以根据该对象掩码样本图像、语义分割样本图像以及样本图片的样本标签训练获得该图片处理模型。具体实现方式如下所述：

所述根据所述对象掩码样本图像、所述语义分割样本图像以及所述样本图片的样本标签训练获得所述图片处理模型，包括：

确定所述对象掩码样本图像的图像数量，以及所述样本图片中包含的目标对象的对象数量；

在所述图像数量大于所述对象数量的情况下，将所述对象掩码样本图像与所述样本图片中包含的目标对象进行对应；

将存在对应关系的所述对象掩码样本图像确定为目标掩码样本图像，将不存在对应关系的所述对象掩码样本图像确定为背景掩码样本图像；

根据所述目标掩码样本图像、所述背景掩码样本图像、所述语义分割样本图像以及所述样本图片的样本标签训练获得所述图片处理模型。

实际应用中，首先确定对象掩码样本图像的图像数量，以及样本图片中包含的目标对象的对象数量；在确定该图像数量大于该对象数量的情况下，可以确定存在不包含目标对象的对象掩码样本图像，此时，将对象掩码样本图像与样本图片中包含的目标对象进行对应，将存在对应关系的对象掩码样本图像确定为目标掩码样本图像，即包含目标对象的对象掩码样本图像；将不存在对应关系的对象掩码样本图像确定为背景掩码样本图像，即不包含目标对象的对象掩码样本图像；最后根据目标掩码样本图像、背景掩码样本图像、语义分割样本图像以及样本图片中包含的目标对象的对象属性(例如人体的人体部位名称，眼睛、头发、嘴巴、上衣、裤子等)训练获得图片处理模型，即根据目标掩码样本图像、背景掩码样本图像训练图片处理模型的实例分割网络，使得训练后的该图片处理模型的实例分割网络可以预测每个图片中的人体掩码图像；根据语义分割样本图像以及样本图片中包含的目标对象的对象属性训练图片处理模型的语义分割网络，通过样本图片中包含的真实的目标对象的对象属性，与语义分割样本图像中预测的目标对象的对象属性的关系，对语义分割网络进行调整，使得训练后的该图片处理模型的语义分割网络可以预测每个图片中的人体的语义解析。

具体的，将通过编码器和解码器获得的样本图片的目标图像特征输入图片处理模型的两个head(即实例分割网络、语义分割网络)，其中，实例分割网络实现人体的实例分割，语义分割网络实现语义分割。实例分割的head输出N个通道的HxW大小的图，其中，每个通道表示每个人的掩码图，N表示一张图片中最多有多少个人。模型训练时可以设定一个最大值N，也就是说这个模型最多只能识别出N个人，如果图片中有超过N个人需要部位精准分割的话，那剩下的人就不能被分割。一般而言，一张图片中最多有12个人，人数太多的话，每个人都偏小，对人体部位的分割不会很友好，解析结果也会很差。

训练图片处理模型时，可以用二分匹配的方法将预测的人体掩码图像和Groundtruth(样本图片中的目标对象)一一对应，如果样本图片中的目标对象的数量少于N，那么剩下的人体掩码图像匹配的可以全为0的背景掩码图像。

本说明书实施例中，将包含若干人体的样本图片、样本图片的样本标签(该样本标签为样本图片中包含的目标对象、以及样本图片中每个目标对象的每个部位的语义解析)，通过图片处理模型的编码器、解码器以及两个head进行训练，获得预测效果较高的图片处理模型，后续可以基于该图片处理模型快速且准确的获得每张图片中的人体以及人体的每个部位的语义解析。

步骤206：根据所述对象掩码图像、所述对象掩码图像中存在目标对象的概率以及语义分割图像，确定所述目标对象以及所述目标对象的对象标签。

具体的，在获得包含目标对象的图片的对象掩码图像、每个对象掩码图像中存在目标对象的概率、以及包含对象标签的语义分割图像之后，可以根据包含目标对象的图片的对象掩码图像、每个对象掩码图像中存在目标对象的概率、以及包含对象标签的语义分割图像，快速的确定目标对象以及目标对象的对象标签。具体实现方式如下所述：

所述根据所述对象掩码图像、所述对象掩码图像中存在目标对象的概率以及语义分割图像，确定所述目标对象以及所述目标对象的对象标签，包括：

根据所述对象掩码图像中存在目标对象的概率，从所述对象掩码图像中确定目标对象掩码图像；

根据所述目标对象掩码图像和所述语义分割图像，确定所述目标对象以及所述目标对象的对象标签。

其中，目标对象掩码图像可以理解为存在目标对象的概率较高的对象掩码图像。

具体实施时，首先根据对象掩码图像中存在目标对象的概率，从若干个对象掩码图像中确定目标对象掩码图像；再根据目标对象掩码图像和语义分割图像，准确的确定目标对象以及目标对象的对象标签。

实际应用中，目标对象掩码图像可以根据对象掩码图像中存在目标对象的概率确定，根据对象掩码图像中存在目标对象的概率可以选择存在目标对象概率较高的对象掩码图像，作为目标对象掩码图像，使得后续的目标对象的确定更加准确。具体实现方式如下所述：

所述根据所述对象掩码图像中存在目标对象的概率，从所述对象掩码图像中确定目标对象掩码图像，包括：

根据所述对象掩码图像中存在目标对象的概率，将所述对象掩码图像中，概率小于预设概率阈值的对象掩码图像确定为目标对象掩码图像。

其中，预设概率阈值可以根据实际应用进行设置，例如设置为0.7或者0.8等。

以预设概率阈值为0.7为例，先确定每个对象掩码图像中存在目标对象的概率，然后将每个对象掩码图像中存在目标对象的概率与预设概率阈值进行比较，将概率小于预设概率阈值的对象掩码图像确定为目标对象掩码图像。后续可以根据该目标对象掩码图像准确的获取目标对象以及每个目标对象的对象标签。

具体的，所述根据所述目标对象掩码图像和所述语义分割图像，确定所述目标对象以及所述目标对象的对象标签，包括：

根据所述目标对象掩码图像确定所述目标对象；

将所述目标对象掩码图像和所述语义分割图像进行哈达玛积乘积运算，确定所述目标对象的对象标签。

其中，从目标对象掩码图像中确定目标对象，再将目标对象掩码图像和语义分割图像进行哈达玛积乘积运算，确定每个目标对象的对象标签。

具体实施时，图片处理模型实例分割输出mask(对象掩码图像)，而mask是一个HxW的单通道图像(矩阵)，矩阵中像素点的范围一般介于0～1之间，数值越大表示这个像素点属于目标对象的概率越大。由于图片处理模型输出的是N个目标对象的mask，但不是所有图片都包含那么多目标对象。比如N＝12，但这张图片只有4个人，理想情况下12个mask中只有4个mask是有效的，剩下的8个mask应该都是无效mask或者是mask的数值都较低。那么为了保证计算效率以及计算结果的准确性，就可以预先设置一个阈值，比如预设阈值为0.5，通过该预设阈值来过滤掉那些无效mask。

具体的，可以取矩阵的均值作为整个mask的数值来预设阈值比较，例如矩阵A＝[[0.7,0.8],[0.8,0.9]],该矩阵的均值就是所有元素求和再平均，也就是(0.7+0.8+0.8+0.9)/4＝0.8；若预设阈值为0.5的情况下，则该矩阵不会被过滤掉。

本说明书实施例中，所述图片处理方法通过用一个图片处理模型，同时预测出图片中每个目标对象的对象掩码图像和整张图片的语义分割图，即采用同一个网络实现对目标对象识别以及目标对象解析两个任务，快速且准确的获得目标对象以及目标对象的对象标签；无需对图片进行两阶段处理，避免了两阶段处理中受检测器影响，造成的解析结果不准确的情况。

下述结合附图3，以本说明书提供的图片处理方法在人体解析的应用为例，对所述图片处理方法进行进一步说明。其中，图3示出了本说明书一个实施例提供的一种图片处理方法的处理过程示意图。

图3中的图片处理方法的处理过程示意图，整体由编码器Encoder，解码器Decoder，头head和推理inference组成。

具体实施时，将包含多个人体的图片进行图像块映射操作(Patch Embedding)，即将图片切成4x4的patch，变成patch embedding；然后将patch embedding输入由SwinTransformer构建的Encoder中，该Encoder由四个阶段(即Swin Transformer stage1、SwinTransformer stage2、Swin Transformer stage3、Swin Transformer stage4)构成，通过该Encoder的四个阶段提取的特征尺度逐渐减小，再将该Encoder的四个阶段提取的特征分别做上采样(Patch Expand)后沿着通道维度拼接到一起，再将拼接特征输入由SwinTransformer构建的Decoder的block中进行特征提取，最后再上采样到原图大小。

其次，将通过Encoder和Decoder提取的特征输出两个head(即图中的Semanticsegmentationhead，语义分割头以及Instance segmentation head，实例分割头)，其中，语义分割头用于实现语义分割，实例分割头用于实现人体的实例分割。实例分割的head输出N个通道的HxW大小的图，每个通道表示每个人的掩码图，N表示一张图片中最多有多少个人。语义分割的head输出包含多个人体的图片中每个人体的部位标签(如膝盖、头发、衣服等)；然后将预测的人体掩码根据预设阈值过滤掉背景掩码图(即图3中的drop“no person”)，再将每个人的掩码图与预测出的语义分割图做hadamard乘积运算即可得到包含人体的图片中每个人体的解析图。

本说明书实施例提供的图片处理方法，通过利用一个网络同时预测出了图片中每个人的掩码图和整张图片的语义分割图，实现实例级的人体解析任务，无需两阶段，也无需复杂的后处理过程；并且通过将实例级人体解析任务分解为全局语义分割和人体实例分割任务，用同一个网络同时实现这两个任务，使得该网络结构简单，且预测效果较好。

与上述方法实施例相对应，本说明书还提供了图片处理装置实施例，图4示出了本说明书一个实施例提供的一种图片处理装置的结构示意图。如图4所示，该装置包括：

图片获取模块402，被配置为获取包含目标对象的图片；

模型处理模块404，被配置为将所述图片输入图片处理模型，获得对象掩码图像、所述对象掩码图像中存在目标对象的概率以及包含对象标签的语义分割图像；

标签确定模块406，被配置为根据所述对象掩码图像、所述对象掩码图像中存在目标对象的概率以及语义分割图像，确定所述目标对象以及所述目标对象的对象标签。

可选地，所述标签确定模块406，进一步被配置为：

根据所述目标对象掩码图像确定所述目标对象；

可选地，所述模型处理模块404，进一步被配置为：

将所述图像块特征向量输入图像处理模型的编码器以及解码器进行特征处理，获得所述样本图片的目标图像特征；

将所述目标图像特征分别输入所述图像处理模型的实例分割网络以及语义分割网络，获得对象掩码样本图像以及语义分割样本图像；

根据所述对象掩码样本图像、所述语义分割样本图像以及所述样本图片的样本标签训练获得所述图像处理模型。

可选地，所述模型处理模块404，进一步被配置为：

将所述图像块特征向量输入图像处理模型的编码器进行特征提取，获得所述样本图片的初始图像特征；

将所述初始图像特征输入所述图像处理模型的解码器进行特征处理，获得所述样本图片的目标图像特征。

可选地，所述编码器包括n个特征处理阶段，且n为正整数；

相应地，所述模型处理模块404，进一步被配置为：

将所述图像块特征向量输入所述图像处理模型的编码器的第i个特征处理阶段，其中，i的初始值为1；

判断i是否小于n；

若否，则将i自增1，继续执行将所述减小后的图像块特征向量输入所述图像处理模型的编码器的第i个特征处理阶段；

可选地，所述模型处理模块404，进一步被配置为：

将所述初始图像特征输入所述图像处理模型的解码器进行特征提取，并根据所述样本图片的尺寸进行上采样，获得所述样本图片的目标图像特征。

可选地，所述模型处理模块404，进一步被配置为：

本说明书实施例中，所述图片处理装置通过用一个图片处理模型，同时预测出图片中每个目标对象的对象掩码图像和整张图片的语义分割图，即采用同一个网络实现对目标对象识别以及目标对象解析两个任务，快速且准确的获得目标对象以及目标对象的对象标签；无需对图片进行两阶段处理，避免了两阶段处理中受检测器影响，造成的解析结果不准确的情况。

上述为本实施例的一种图片处理装置的示意性方案。需要说明的是，该图片处理装置的技术方案与上述的图片处理方法的技术方案属于同一构思，图片处理装置的技术方案未详细描述的细节内容，均可以参见上述图片处理方法的技术方案的描述。

图5示出了根据本说明书一个实施例提供的一种计算设备500的结构框图。该计算设备500的部件包括但不限于存储器510和处理器520。处理器520与存储器510通过总线530相连接，数据库550用于保存数据。

计算设备500还包括接入设备540，接入设备540使得计算设备500能够经由一个或多个网络560通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备540可以包括有线或无线的任何类型的网络接口(例如，网络接口卡(NIC))中的一个或多个，诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口，等等。

在本说明书的一个实施例中，计算设备500的上述部件以及图5中未示出的其他部件也可以彼此相连接，例如通过总线。应当理解，图5所示的计算设备结构框图仅仅是出于示例的目的，而不是对本说明书范围的限制。本领域技术人员可以根据需要，增添或替换其他部件。

计算设备500可以是任何类型的静止或移动计算设备，包括移动计算机或移动计算设备(例如，平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如，智能手机)、可佩戴的计算设备(例如，智能手表、智能眼镜等)或其他类型的移动设备，或者诸如台式计算机或PC的静止计算设备。计算设备500还可以是移动式或静止式的服务器。

其中，处理器520用于执行如下计算机可执行指令，该计算机可执行指令被处理器执行时实现上述图片处理方法的步骤。

上述为本实施例的一种计算设备的示意性方案。需要说明的是，该计算设备的技术方案与上述的图片处理方法的技术方案属于同一构思，计算设备的技术方案未详细描述的细节内容，均可以参见上述图片处理方法的技术方案的描述。

本说明书一实施例还提供一种计算机可读存储介质，其存储有计算机可执行指令，该计算机可执行指令被处理器执行时实现上述图片处理方法的步骤。

上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是，该存储介质的技术方案与上述的图片处理方法的技术方案属于同一构思，存储介质的技术方案未详细描述的细节内容，均可以参见上述图片处理方法的技术方案的描述。

本说明书一实施例还提供一种计算机程序，其中，当所述计算机程序在计算机中执行时，令计算机执行上述图片处理方法的步骤。

上述为本实施例的一种计算机程序的示意性方案。需要说明的是，该计算机程序的技术方案与上述的图片处理方法的技术方案属于同一构思，计算机程序的技术方案未详细描述的细节内容，均可以参见上述图片处理方法的技术方案的描述。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

所述计算机指令包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

需要说明的是，对于前述的各方法实施例，为了简便描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本说明书实施例并不受所描述的动作顺序的限制，因为依据本说明书实施例，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定都是本说明书实施例所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。

以上公开的本说明书优选实施例只是用于帮助阐述本说明书。可选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本说明书实施例的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本说明书实施例的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本说明书。本说明书仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种图片处理方法，包括：

获取包含目标对象的图片；

2.根据权利要求1所述的图片处理方法，所述根据所述对象掩码图像、所述对象掩码图像中存在目标对象的概率以及语义分割图像，确定所述目标对象以及所述目标对象的对象标签，包括：

3.根据权利要求2所述的图片处理方法，所述根据所述对象掩码图像中存在目标对象的概率，从所述对象掩码图像中确定目标对象掩码图像，包括：

4.根据权利要求2所述的图片处理方法，所述根据所述目标对象掩码图像和所述语义分割图像，确定所述目标对象以及所述目标对象的对象标签，包括：

根据所述目标对象掩码图像确定所述目标对象；

5.根据权利要求1所述的图片处理方法，所述图片处理模型的训练步骤如下所述：

6.根据权利要求5所述的图片处理方法，所述根据预设处理方式对所述样本图片进行切分，获得多个预设尺寸的图像块特征向量，包括：

7.根据权利要求5或6所述的图片处理方法，所述将所述图像块特征向量输入图片处理模型的编码器以及解码器进行特征处理，获得所述样本图片的目标图像特征，包括：

8.根据权利要求7所述的图片处理方法，所述编码器包括n个特征处理阶段，且n为正整数；

判断i是否小于n；

9.根据权利要求8所述的图片处理方法，所述对每个特征处理阶段的图像块特征向量进行处理，获得所述样本图片的初始图像特征，包括：

10.根据权利要求7所述的图片处理方法，所述将所述初始图像特征输入所述图片处理模型的解码器进行特征处理，获得所述样本图片的目标图像特征，包括：

11.根据权利要求5所述的图片处理方法，所述根据所述对象掩码样本图像、所述语义分割样本图像以及所述样本图片的样本标签训练获得所述图片处理模型，包括：

12.一种图片处理装置，包括：

图片获取模块，被配置为获取包含目标对象的图片；

13.一种计算设备，包括：

存储器和处理器；

所述存储器用于存储计算机可执行指令，所述处理器用于执行所述计算机可执行指令，该计算机可执行指令被处理器执行时实现权利要求1至11任意一项所述图片处理方法的步骤。

14.一种计算机可读存储介质，其存储有计算机可执行指令，该计算机可执行指令被处理器执行时实现权利要求1至11任意一项所述图片处理方法的步骤。