CN111222440A

CN111222440A - 一种人像背景分离方法、装置、服务器及存储介质

Info

Publication number: CN111222440A
Application number: CN201911410043.6A
Authority: CN
Inventors: 钟艺豪; 陈维江; 李百川
Original assignee: Jiangxi Kaixin Corn Network Technology Co Ltd
Current assignee: Jiangxi Kaixin Corn Network Technology Co Ltd
Priority date: 2019-12-31
Filing date: 2019-12-31
Publication date: 2020-06-02

Abstract

本发明提供一种人像背景分离方法、装置、服务器及存储介质，通过确定待进行人像背景分离的图像；提取表征图像的高层语义特征的第一特征图像并增加第一特征图像的感受野生成第二特征图像；根据第二特征图像和表征图像的低层语义特征的第三特征图像生成图像的至少一张掩码图，图像的至少一张掩码图包括与人物相关的第一掩码图、与配饰相关的第二掩码图以及与背景相关的第三掩码图；基于至少一张掩码图对图像进行处理生成目标图像。基于本发明，可以实现人像背景分离的目的。

Description

一种人像背景分离方法、装置、服务器及存储介质

技术领域

本发明涉及图像处理技术领域，更具体地说，涉及一种人像背景分离方法、装置、服务器及存储介质。

背景技术

抠图技术(Image Matting)就是将图像中的前景从背景中分离出来的技术，该技术能够将人们需要的区域提取出来，便于对图像关键信息进行后续操作。人像背景分离技术是指通过机器自动分离出图像中人物和背景的一种技术，其是抠图技术领域的重要研究方向。

发明内容

有鉴于此，本发明提出一种人像背景分离方法、装置、服务器及存储介质，以实现人像背景分离的目的。

为了实现上述目的，现提出的方案如下：

本发明第一方面公开一种人像背景分离方法，包括：

确定待进行人像背景分离的图像；

提取表征所述图像的高层语义特征的第一特征图像并增加所述第一特征图像的感受野生成第二特征图像；

根据所述第二特征图像和表征所述图像的低层语义特征的第三特征图像生成所述图像的至少一张掩码图，所述图像的至少一张掩码图包括与人物相关的第一掩码图、与配饰相关的第二掩码图以及与背景相关的第三掩码图；

基于所述至少一张掩码图对所述图像进行处理生成目标图像。

可选的，所述提取表征所述图像的高层语义特征的第一特征图像并增加所述第一特征图像的感受野生成第二特征图像，包括：

基于预训练的编码器提取表征所述图像的高层语义特征的第一特征图像并增加所述第一特征图像的感受野生成第二特征图像。

可选的，所述根据所述第二特征图像和表征所述图像的低层语义特征的第三特征图像生成所述图像的至少一张掩码图，包括：

将所述第二特征图像和所述编码器生成的表征所述图像的低层语义特征的第三特征图像输入预训练的解码器得到所述图像的至少一张掩码图。

可选的，还包括：

将所述第四特征图像的通道数量压缩至预设数量，所述预设数量与所述至少一张掩码图中掩码图的张数相同。

可选的，所述基于所述至少一张掩码图对所述图像进行处理生成目标图像，包括：

结合所述至少一张掩码图生成目标图层；

将所述目标图层覆盖所述图像生成目标图像。

可选的，所述结合所述至少一张掩码图生成目标图层，包括：

确定所述至少一张掩码图中相对位置相同的像素中目标像素所属的目标掩码图，所述目标像素为所述至少一张掩码图中相对位置相同的像素中像素值最大的像素；

根据所述目标掩码图携带的标签信息生成所述目标像素的目标像素值，所述第一掩码图携带第一标签信息，所述第二掩码图携带第二标签信息，所述第三掩码图携带第三标签信息；

利用生成的各个所述目标像素的目标像素值生成目标图层。

可选的，所述利用生成的各个所述目标像素的目标像素值生成目标图层，包括：

利用生成的各个所述目标像素的目标像素值生成第一目标图层；

将所述第一目标图层中与所述第一标签信息相关的目标像素的像素值修改为第一预设像素值、将所述第一图层中与所述第二标签信息相关的目标像素的像素值修改为第二预设像素值，和/或，将所述第一目标图层中与所述第三标签信息相关的目标像素的像素值修改为第三预设像素值，生成第二目标图层；

对进行开运算后的所述第二目标图层进行闭运算生成第三目标图层；

对所述第三目标图层中各个目标像素的像素值进行处理生成目标图层。

可选的，所述编码器和所述解码器构成人像背景分离模型，所述人像背景分离模型的生成过程包括：

获取图像样本的至少一张掩码图样本，所述至少一张掩码图样本包括携带第一标签信息的第一掩码图样本，携带第二标签信息的第二掩码图样本和携带第三标签信息的第三掩码图样本；

将所述图像样本输入至待训练人像背景分离模型得到所述待训练人像背景分离模型对所述图像样本的至少一张掩码图的预测结果；

基于携带的标签信息相同的掩码图样本和所述预测结果中的掩码图生成损失函数；

根据所述损失函数对所述待训练人像背景分离模型进行训练生成人像背景分离模型。

本发明第二方面公开一种人像背景分离装置，包括：

第一确定单元，用于确定待进行人像背景分离的图像；

第二特征图像生成单元，用于提取表征所述图像的高层语义特征的第一特征图像并增加所述第一特征图像的感受野生成第二特征图像；

掩码图生成单元，用于根据所述第二特征图像和表征所述图像的低层语义特征的第三特征图像生成所述图像的至少一张掩码图，所述图像的至少一张掩码图包括与人物相关的第一掩码图、与配饰相关的第二掩码图以及与背景相关的第三掩码图；

目标图像生成单元，用于基于所述至少一张掩码图对所述图像进行处理生成目标图像。

本发明第三方面公开一种服务器，包括：至少一个存储器和至少一个处理器；所述存储器存储有程序，所述处理器调用所述存储器存储的程序，所述程序用于实现如上述本发明第一方面任意一项公开的人像背景分离方法。

本发明第四方面公开一种计算机可读存储介质，所述存储介质中存储有计算机可执行指令，所述计算机可执行指令用于执行如上述本发明第一方面任意一项公开的人像背景分离方法。

本发明提供一种人像背景分离方法、装置、服务器及存储介质，通过提取表征待进行人像背景分离的图像的高层语义特征的第一特征图像，并增加第一特征图像的感受野生成第二图像，根据第二特征图像和表征待进行人像背景分离的图像的低层语义特征的第三特征图像生成图像的至少一张掩码图，至少一张掩码图包括与人物相关的第一掩码图、与配饰相关的第二掩码图以及与背景相关的第三掩码图，基于至少一张掩码图对待进行人像背景分离的图像进行处理生成目标图像，进而实现人像背景分离的目的。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例提供的一种人像背景分离模型的结构示意图；

图2为本发明实施例提供的一种人像背景分离模型的生成过程的方法的流程示意图；

图3为本发明实施例提供的一种人像背景分离方法的流程示意图；

图4为本发明实施例提供的一种结合各个目标像素的目标像素值生成目标图层的方法的流程示意图；

图5为本发明实施例提供的一种确定目标像素的方法一示例图；

图6为本发明实施例提供的一种人像背景分离装置的结构示意图；

图7为本发明实施例提供的一种服务器的硬件结构框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本申请中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

实施例：

由上述背景技术可知，人像背景分离技术是指通过机器自动分离出图像中人物和背景的一种技术，其是抠图技术领域的重要研究方向。

目前的人像背景分离算法并不注重人物自身携带的配件，在进行人像背景分离时会将配件一起扣掉，这就导致了分离出的人物中会出现留白的情况，严重影响了分离出的人物的美观。其中，目前的人像背景分离算法为基于图像阈值的分割算法、基于区域的分割算法和分水岭算法。这些算法大多是基于低层次的图像特征，或者人工设置的特征来实现人像背景分离。上述人像背景分离算法只能应用于背景相对单一的情形，一旦背景过于复杂，或者待进行人像背景分离的图像中存在多个人像时，分离出的人物图像的效果就会大打折扣。而且，目前的人像背景分离算法对图像边缘处理并不良好，需要依赖用户手动参与，比如需要用户先指定前景和背景区域后，再利用人像背景分离算法进行人像背景分离，分离出的人物图像的效果也会大打折扣。

随着科技技术的快速发展，深度卷积神经网络已经被普遍应用于图像领域，尤其是全卷积神经网络(FCN，Full Convolutional Networks)。全卷积神经网络能够利用类似自编码器的结构对图像先下采样提取特征，而后上采样得到原图形状的掩码图，其衍生的多种算法基本沿用此框架。但是，由于这种框架是通过对图像特征直接进行双线性上采样操作得到的，这样会给分割边缘带来较大的误差，且网络使用的卷积核大小固定，不能学习到图像的多尺度特征，对于人物占比小的图像或者多人的图像表现不好，因此，并不适用于人像背景分离。

因此，本申请实施例提供一种人像背景分离方法、装置、服务器及存储介质，通过预训练的人像背景分离模型对待进行人像背景分离的图像进行处理，得到待进行人像背景分离的图像的至少一张掩码图，基于至少一张掩码图对待进行人像背景分离的图像进行处理生成目标图像，进而实现人像背景分离的目的。

在本申请实施例中，参见图1，示出了本发明实施例提供的一种人像背景分离模型的结构示意图，该人像背景分离模型包括编码器和解码器，编码器的输出端与解码器的输入端相连。其中，编码器包括深度可分离卷积层和金字塔池化层(Spatial PyramidPooling，SSP)；解码器包括解卷积层和双线性上采样层。参见图2，示出了本发明实施例提供的一种人像背景分离模型的生成过程的方法的流程示意图。该人像背景分离模型的生成过程具体包括以下步骤：

S201：获取图像样本的至少一张掩码图样本；

在本申请实施例中，可以获取至少一张图像样本。比如，可以获取10张图像样本，或者100张图像样本。有关于获取的图像样本的具体数值，发明人可根据自己的需求进行设置，本申请实施例不加以限定。

在本申请实施例中，图像样本的至少一张掩码图样本包括携带第一标签信息的第一掩码图样本、携带第二标签信息的第二掩码图样本和携带第三标签信息的第三掩码图样本。其中，第一掩码图样本与人物相关；第二掩码图样本与配饰相关，第三掩码图样本与背景相关。

在本申请实施例中，图像样本可以为含配饰的单人图像样本或者含配饰的多人图像样本。在选取好图像样本后，对图像样本进行标注，具体的，可以在图像样本的人物位置上标注第一标签信息，得到携带第一标签信息的第一掩码图样本；在图像样本的配饰位置上标注第二标签信息，得到携带第二标签信息的第二掩码图样本；在图像样本的背景位置上标注第三标签信息，得到携带第三标签信息的第三掩码图样本。

需要说明的是，配饰可以为背包、手提包、手机等等。可根据实际情况进行设置，本申请实施例不加以限定，

S202：将图像样本输入至待训练人像背景分离模型得到待训练人像背景分离模型对图像样本的至少一张掩码图的预测结果；

在本申请实施例中，将图像样本输入待训练人像背景分离模型，得到待训练人像背景分离模型对图像样本的预测结果，图像样本的预测结果包括用于构成图像样本的至少一张掩码图。其中至少一张掩码图包括与人物相关的第一掩码图、与配饰相关的第二掩码图和与背景相关的第三掩码图，第一掩码图携带第一标签信息，第二掩码图携带第二标签信息和第三掩码图携带第三标签信息。

S203：基于携带的标签信息相同的掩码图样本和预测结果中的掩码图生成损失函数；

在本申请实施例中，基于携带的标签信息相同的掩码图样本和预测结果中的掩码图生成损失函数的方式可以为：基于携带第一标签信息的第一掩码图趋近于携带第一标签信息的第一掩码图样本、携带第二标签信息的第二掩码图趋近于携带第二标签信息的第二掩码图样本以及携带第三标签信息的第三掩码图趋近于携带第三标签信息的第三掩码图样本为训练目标构建损失函数。

需要说明的是，生成的损失函数可以为focal loss损失函数。

本申请人研究发现，携带第二标签信息的第二掩码图样本在图像样本中所占的比例较少，携带第一标签信息的第一掩码图样本和携带第三标签信息的第三掩码图样本在图像样本中所占的比例较大，为能够更好的让待训练人像背景分离模型区分配件信息，以及减少比例大的掩码图样本(携带第一标签信息的第一掩码图样本以及携带第三标签信息的第三掩码图样本)的权重和增加比例小的掩码图样本(携带第二标签信息的第二掩码图样本)的权重，进而基于携带的标签信息相同的掩码图样本和预测结果中的掩码图生成focalloss损失函数。

S204：根据损失函数对待训练人像背景分离模型进行训练生成人像背景分离模型。

在本申请实施例中，在基于携带的标签信息相同的掩码图样本和预测结果中的掩码图生成损失函数后，基于损失函数反向调节待训练人像背景分离模型中的参数，进而达到以预测结果中的第一掩码图趋近于第一掩码图样本、第二掩码图趋近于第二掩码图样本以及第三掩码图趋近于第三掩码图样本为训练目标对待训练人像背景分离模型进行训练，以生成人像背景分离模型的目的。

在本发明实施例中，通过利用图像样本对待训练的人像背景分离模型进行训练生成人像背景分离模型，进而通过生成的人像背景分离模型对待进行人像背景分离的图像进行处理，得到待进行人像背景分离的图像的至少一张掩码图，并基于至少一张掩码图对待进行人像背景分离的图像进行处理生成目标图像，进而实现人像背景分离的目的。

参见图3，示出了本发明实施例提供的一种人像背景分离方法的流程示意图。该人像背景分离方法具体包括以下步骤：

S301：确定待进行人像背景分离的图像；

在本申请实施例中，待进行人像背景分离的图像可以为含配饰的单人图像或者含配饰的多人图像。有关于待进行人像背景分离的图像的具体选取，发明人可根据自己的需求进行选择，本申请实施例不加以限定。

在本申请实施例中，可以先选取待进行人像背景分离的图像，并将所预选的图像的大小设定为预设大小，进而将图像大小设定为预设大小的图像确定为待进行人像背景分离的图像。

比如，预设大小可以为513*513*3。有关于预设大小的具体数值发明人可根据自己的需求进行设置，本申请实施例不加以限定。

S302：提取表征图像的高层语义特征的第一特征图像并增加第一特征图像的感受野生成第二特征图像；

在本申请实施例中，可以提取表征图像的高层语义特征的多张第一特征图像。

在具体执行步骤S302的过程中，将所确定的待进行人像背景分离的图像作为预训练的人像背景分离模型的编码器的输入，进而基于编码器提取表征待进行人像背景分离的图像的高层语义特征的第一特征图像，在提取到表征待进行人像背景分离的图像的高层语义特征的第一特征图像后，增加第一特征图像的感受野生成第二特征图像。

在本申请实施例中，编码器以卷积神经网络作为主干网络，编码器包括深度可分离卷积层和金字塔池化层，深度可分离卷积层用于对待进行人像背景分离的图像进行降采样提取表征待进行人像背景分离的图像的高层语义特征的第一特征图像，金字塔池化层用于增加第一特征图像的感受野生成第二特征图像。需要说明的是，金字塔池化层是由几组扩张率不同的空洞卷积层构成的。

在本申请实施例中，编码器以卷积神经网络为主干网络。其中，卷积神经网络可以为深度可分离卷积神经网络。比如卷积神经网络可以为Xception网络。有关于卷积神经网络的具体选取，发明人可根据自己的需求进行选取，本申请实施例不加限定。

在本申请实施例中，若编码器以Xception网络为主干网络，将待进行人像背景分离的图像大小设定为513*513*3，并将Xception的卷积层替换为深度可分离卷积层，这样能有效地减少网络参数和运算量的同时，不降低网络性能。基于Xception的深度可分离卷积层对图像大小为513*513*3的待进行人像背景分离的图像进行降采样，得到一系列包含高层语义信息的第一特征图像；采用金字塔池化层，即采取几组扩张率不同的空洞卷积来提取第一特征图像不同大小区域的特征，而后将这些特征组合在一起，得到一组降采样16倍后的第二特征图像。这个阶段称为网络的编码阶段，能有效提取到图像的全局信息和局部信息。

基于本申请实施例，通过Xception的深度可分离卷积层来提取表征图像的高层语义特征的第一特征图像，并通过金字塔池化层增加第一特征图像的感受野生成第二特征图像的计算公式具体如下所示：

X＝Encoder(I)＝SSP(Xception(I)) (2)

其中，I为待进行人像背景分离的图像，SSP为金字塔池化层，X为第二特征图像，Xception为Xception网络。

S303：根据第二特征图像和表征图像的低层语义特征的第三特征图像生成图像的至少一张掩码图；

在本申请实施例中，编码器的深度可分离卷积层除了可以提取高层语义特征的第一特征图像以外，还可以提取低层语义特征的第三特征图像。在根据编码器提取表征待进行人像背景分离的图像的高层语义特征的第一特征图像和低层语义特征的第三特征图像，以及增加第一特征图像的感受野生成第二特征图像后；将第二特征图像和第三特征图像输入解码器，得到待进行人像背景分离的图像的至少一张掩码图。其中，图像的至少一张掩码图包括与人物相关的第一掩码图、与配饰相关的第二掩码图以及与背景相关的第三掩码图。

在本申请实施例中，解码器包括解卷积层和双线性上采样层，解卷积层用于对第二特征图像和第三特征图像进行扩张生成第四特征图像，双线性上采样层用于对第四特征图像进行扩张生成至少一张掩码图。

具体的，可以通过解码器的解卷积层将第二特征图像和第三特征图像进行叠加并扩张4倍，生成第四特征图像，并通过解码器的双线性上采样层对第四图像进一步扩张4倍，从而恢复到原图大小的掩码图，生成至少一张掩码图。

基于上述提供的公式(2)研究发现，将公式(2)的输出结果(第二特征图像)和第三特征图像输入解码器，进而得到待进行人像背景分离的图像的至少一张掩码图的计算方式具体如下公式所示：

Y＝Decoder(X)＝Decon(Decon(X)+Xcetion(X)) (3)

其中，X为第二特征图像，Xception为Xception网络，“+”代表向量连接操作，Decon代表解卷积操作，Y为至少一个掩码图。

本申请人研究发现，直接利用双线性上采样层对第二特征图像的进行扩张得到的掩码图不够精细，特别是得到的掩码图中比较细的边缘区域容易断开。因此，本申请提供了一种解码器，先利解码器的解卷积层对第二特征图像进行扩张后，再利用解码器的双线性上采样层对第二特征图像的做进一步的扩张，这样得到的掩码图与原图(待进行人像背景分离的图像)的大小更加的贴近，且掩码图中比较细的边缘区域也不容易断开。

进一步的，在本申请实施例中，可以先将第四特征图像的通道数量压缩至预设数量后，再通过双线性上采样层对第四图像做进一步的扩张生成至少一张掩码图。

在本申请实施例中，预设数量与至少一张掩码图中掩码图的张数相同。由于需要生成的至少一张掩码图中包括3张掩码图，因此，应将预设数量设置为3。相应的，将第四特征图像的通道数量压缩至3后，通过双线性上采样层对第四特征图像进行扩张生成的至少一张掩码图，其中，至少一张掩码图包括3张掩码图，分别为与人物相关的第一掩码图、与配饰相关的第二掩码图以及与背景相关的第三掩码图。

S304：基于至少一张掩码图对图像进行处理生成目标图像。

在本申请实施例中，在根据第二特征图像和表征待进行人像背景分离的图像的低层语义的第三特征图像生成图像的至少一张掩码图后，结合至少一张掩码图生成目标图层。其中，目标图层可以为alpha图层。

作为本申请实施例的一种优选实施方式，可以通过确定至少一张掩码图中相对位置相同的像素中目标像素所属的目标掩码图，并根据目标掩码图携带的标签信息生成目标像素的目标像素值，进而利用生成的各个目标像素值生成alpha图层。有关于结合至少一张掩码图生成目标图层的方式请参见图4，在此不做赘述。

在生成目标图层后，将目标图层覆盖待进行人像背景分离的图像，生成目标图像。

进一步的，在本申请实施例中，在生成待进行人像背景分离的图像的目标图像后，对目标图像进行亮度调整。

在本申请实施例中，预先设置有人脸检测模型，对目标图像进行亮度调整的方式可以为：将目标图像输入至人脸检测模型，由人脸检测模型检测目标图像中的人脸区域。将目标图像的图像格式转换为hsv颜色格式，并获取人脸区域中hsv的明度v均值，将v记为图像格式为hsv颜色格式的目标图像的原始亮度。获取至少一张亮度正常的图像，将至少一张图像的亮度设置为基准亮度，进而通过亮度调整公式将图像格式为hsv颜色格式的目标图像的亮度从原始亮度调整至基准亮度。

本发明提供一种人像背景分离方法，在能够实现人像背景分离的基础上通过对待进行人像背景分离的图像进行降采样提取表征该图像的高层语义特征的第一特征图像，并增加第一特征图像的感受野生成第二特征图像，基于第二特征图像和表征该图像的低层语义特征的第三特征图像生成目标图像，可以提高生成的目标图像的效果。并且，本方案可以通过预训练的人像背景分离模型对输入模型中的待进行人像背景分离的图像进行处理生成至少一张掩码图，并基于至少一张掩码图对待进行人像背景分离的图像进行处理自动生成目标图像，不需要用户手动参与即可达到人像背景分离的目的。

图4为本发明实施例提供的一种结合至少一张掩码图生成目标图层的方法的流程示意图。

如图4所示，该方法包括:

S401确定至少一张掩码图中相对位置相同的像素中目标像素所属的目标掩码图；

在本申请实施例中，目标像素为至少一张掩码图中相对位置相同的像素中像素值最大的像素。比如，如图5所示，至少一张掩码图中的第一掩码图包括像素a1、像素a2和像素a3，其中，像素a1为第一掩码图左上角的像素，像素a2为第一掩码图中心的像素，像素a3为第一掩码图的右下角的像素；第二掩码图包括像素b1、像素b2和像素b3，其中，像素b1为第二掩码图左上角的像素，像素b2为第二掩码图中心的像素，像素b3为第二掩码图右下角的像素；第三掩码图包括像素c1，像素c2和像素c3，其中，像素c1为第二掩码图的左上角像素，像素c2为第二掩码图中心的像素，像素c3为第二掩码图的右下角的像素。像素a1在第一掩码图上的位置、像素b1在第二掩码图上的位置和像素c1在第三掩码图上的位置相同；像素a2在第一掩码图上的位置、像素b2在第二掩码图上的位置和像素c2在第三掩码图上的位置相同；像素a3在第一掩码图上的位置、像素b3在第二掩码图上的位置和像素c3在第三掩码图上的位置相同。

结合图5，若像素a1的像素值不仅大于像素b1的像素值还大于像素c1的像素值，则确定至少一张掩码图中相对位置相同的像素中的目标像素为像素a1，进而确定至少一张掩码图中相对位置相同的像素中目标像素所属的目标掩码图为第一掩码图。

在本申请实施例中，可以确定至少一个目标像素。可以将至少一张掩码图中相对位置相同的各个像素看成一组像素，进而可以从一组像素中确定一个目标像素；而至少一张掩码图中包含有多组像素，针对每一组像素均可以确定出一个目标像素。结合图5，可以将像素a1、像素b1、像素c1看成一组像素；将像素a2、像素b2、像素c2看成一组像素；将像素a3、像素b3、像素c3看成一组像素。针对像素a1、像素b1、像素c1构成的这组像素可以确定一个目标像素；针对像素a2、像素b2、像素c2构成的这组像素可以确定一个目标像素；针对像素a3、像素b3、像素c3构成的这组像素可以确定一个目标。具体的确定目标像素的方式，可以参见上述所述。

S402：根据目标掩码图携带的标签信息生成目标像素的目标像素值，第一掩码图携带第一标签信息，第二掩码图携带第二标签信息，第三掩码图携带第三标签信息；

在本申请实施例中，在确定目标像素所属的目标掩码图后，确定目标掩码图携带的标签信息，进而基于目标掩码图携带的标签信息生成目标像素的目标像素值。

比如，结合图5可知，若由像素a1、像素b1、像素c1构成的一组像素中的目标像素为像素a1，则可以确定目标像素a1所属的目标掩码图为第一掩码图，进而确定目标掩码图携带的标签信息为第一标签信息，根据第一标签信息生成目标像素的目标像素值，即生成像素a1的像素值。

S403：利用生成的各个目标像素的目标像素值生成第一目标图层；

在具体执行步骤S403的过程中，针对确定的至少一个目标掩码图中的每个目标掩码图，在根据目标掩码图携带的标签信息生成目标像素的目标像素值后，利用生成的各个目标像素的目标像素值生成第一目标图层。

比如，当确定3个目标像素，其中，目标像素1所属的目标掩码图为第一掩码图，目标像素2所属的目标掩码图为第二掩码图，目标像素3所属的目标掩码图为第三掩码图。根据第一掩码图携带的第一标签信息生成目标像素1的目标像素值1，根据第二掩码图携带的第二标签信息生成目标像素2的目标像素值2，根据第三掩码图携带的第三标签信息生成目标像素3目标像素值3；进而利用目标像素值1、目标像素值2和目标像素值3生成第一目标图层。其中目标像素值1在第一掩码图中的相对位置和目标像素值1在第一目标图层中所属的像素在第一目标图层中的相对位置相同；目标像素值2在第二掩码图中的相对位置和目标像素值2在目标第一图层中所属的像素在第一目标图层中相对位置相同；目标像素值3在第三掩码图中的位置和目标像素值3在目标第一图层的中所属的像素在第一目标图层中相对位置相同。

S404：将第一目标图层中与第一标签信息相关的目标像素的像素值修改为第一预设像素值、将第一图层中与第二标签信息相关的目标像素的像素值修改为第二预设像素值，和/或，将第一目标图层中与第三标签信息相关的目标像素的像素值修改为第三预设像素值，生成第二目标图层；

在本申请实施例中，可以将第一目标图层中像素值为第一标签信息的像素看成是与第一标签信息相关的目标像素；将第一目标图层中像素值为第二标签信息的像素看成是与第二标签信息相关的目标像素；将第一目标图层中像素值为第三标签信息的像素看成是与第三标签信息相关的目标像素。

在本申请实施例中，预先设置有第一预设像素值、第二预设像素值和第三预设像素值。第一预设像素值、第二预设像素值和第三预设像素值的具体数据可以相同，也可以不同。有关于第一预设像素值、第二预设像素值和第三预设像素值的具体数值可以根据用户对人像背景分离结果透明程度的需求进行设置，本申请实施例不加以限定。

作为本申请实施例的一种优选方式，可以将第一目标图层中与第一标签信息相关的目标像素的像素值修改为第一预设像素值，以及将第一目标图层中与第二标签信息相关的目标像素的像素值修改为第二预设像素值，使得第一目标图层中与第一标签信息相关的目标像素为透明且与第二标签信息相关的目标像素为透明。此时，第一预设像素值的具体数值和第二预设像素值的具体数值相同。

作为本申请实施例的另一种优选方式，可以将第一目标图层中与第一标签信息相关的目标像素的像素值修改为第一预设像素值；将第一目标图层中与第二标签信息相关的目标像素的像素值修改为第二预设像素值，使得第一目标图层中与第一标签信息相关的目标像素为透明且与第二标签信息相关的目标像素为透明；将第一目标图层中与第三标签信息相关的目标像素的像素值修改为第三预设像素值，使得第一目标图层中与第三标签信息相关的目标像素为不透明。此时，第一预设像素值的具体数值和第二预设像素值的具体数值相同，和第三预设像素值的具体数值不同。

作为本申请实施例的又一种优选方式，可以将第一目标图层中与第一标签信息相关的目标像素的像素值修改为第一预设像素值，使得第一目标图层中与第一标签信息相关的目标像素为透明；将第一目标图层中与第二标签信息相关的目标像素的像素值修改为第二预设像素值，使得第一目标图层中与第二标签信息相关的目标像素为半透明；将第一目标图层中与第三标签信息相关的目标像素的像素值修改为第三预设像素值，使得第一目标图层中与第三标签信息相关的目标像素的透明程度低于半透明。此时第一预设像素值的具体数值、第二预设像素值具体数值和第三预设像素值的具体数值互不相同。

比如，结合图5可知，像素a1在第一掩码图上的位置、像素b1在第二掩码图上的位置和像素c1在第三掩码图上的位置相同；像素a2在第一掩码图上的位置、像素b2在第二掩码图上的位置和像素c2在第三掩码图上的位置相同；像素a3在第一掩码图上的位置、像素b3在第二掩码图上的位置和像素c3在第三掩码图上的位置相同。

若像素a1的像素值不仅大于像素b1的像素值还大于像素c1的像素值，则确定至少一张掩码图中相对位置相同的像素中的目标像素为像素a1；若像素b2的像素值不仅大于像素a2的像素值还大于像c2的像素值，则确定至少一张掩码图中相对位置相同的像素中的另一个目标像素为像素b2；若像素c3的像素值不仅大于像素a3的像素值还大于像b3的像素值，则确定至少一张掩码图中相对位置相同的像素中的又一个目标像素为像素c3。进而确定第一目标图层中与第一标签信息相关的目标像素为像素a1，以及与第二标签信息相关的目标像素为像素b2，将像素a1的像素值修改为第一预设像素值；将像素b2的像素值修改为第二预设像素值，进而生成第二目标图层。

需要说明的是，将确定第一目标图层中与第一标签信息相关的目标像素的像素值修改为第一预设像素值，以及将与第二标签信息相关的目标像素的像素值修改为第二预设像素值生成的第二目标图层可以为二值图。

需要说明的，若二值图为0-1二值图，则第一预设像素值的具体数值和第二预设像素的像素值相同，和第三标签信息相关的目标像素的像素值不同。

S405：对进行开运算后的第二目标图层进行闭运算生成第三目标图层；

在本申请实施例中，在将第一目标图层中与第一标签信息相关的目标像素的像素值修改为第一预设像素值、将第一图层中与第二标签信息相关的目标像素的像素值修改为第二预设像素值，和/或，将第一目标图层中与第三标签信息相关的目标像素的像素值修改为第三预设像素值，生成第二目标图层后，对生成的第二目标图层进行开运算，并对进行开运算的第二图层进行闭运算生成第三目标图层。

在本申请实施例中，对第二目标图层进行开运算可以封闭第二目标图层中出现的小孔，并对进行开运算的第二目标图层进行闭运算可以去除进行开运算的第二目标图层中除人像外孤立的小点。

S406：对第三目标图层中各个目标像素的像素值进行处理生成目标图层。

在本申请实施例中，将第三目标图层乘以系数255以生成png图像的alpha图层，并对生成的png图像的alpha图层进行高斯模糊处理生成alpha图层，即目标图层。

在本申请实施例中，对生成的png图像的alpha图层进行高斯模糊处理能够平滑生成的png图像的alpha图层的边缘。

在本发明实施例中，通过确定至少一张掩码图中相对位置相同的像素中目标像素所属的掩码图，根据目标掩码图携带的标签信息生成目标像素的目标像素值，并利用生成的各个目标像素值生成目标图层，将目标图层覆盖待进行人像背景分离的图像，进而实现人像背景分离的目的，以及解决现有的人像背景分离算法中不注重人物自身携带的配件，在进行人像背景分离时将配件一起扣掉，导致分离出的人物中出现留白的问题。

基于本发明实施例公开的人像背景分离方法，本发明实施例还对应公开了一种人像背景分离装置，如图所示6，该人像背景分离装置，包括：

第一确定单元61，用于确定待进行人像背景分离的图像；

第二特征图像生成单元62，用于提取表征图像的高层语义特征的第一特征图像并增加第一特征图像的感受野生成第二特征图像；

掩码图生成单元63，用于根据第二特征图像和表征图像的低层语义特征的第三特征图像生成图像的至少一张掩码图，图像的至少一张掩码图包括与人物相关的第一掩码图、与配饰相关的第二掩码图以及与背景相关的第三掩码图；

目标图像生成单元64，用于基于至少一张掩码图对图像进行处理生成目标图像。

上述本发明实施例公开的人像背景分离装置中各个单元具体的原理和执行过程，与上述本发明实施例公开的人像背景分离方法相同，可参见上述本发明实施例公开的人像背景分离方法中相应的部分，这里不再进行赘述。

本发明提供一种人像背景分离装置，通过提取表征待进行人像背景分离的图像的高层语义特征的第一特征图像，并增加第一特征图像的感受野生成第二图像，根据第二特征退昂和表征待进行人像背景分离的图像的低层语义特征的第三特征图像生成图像的至少一张掩码图，至少一张掩码图包括与人物相关的第一掩码图、与配饰相关的第二掩码图以及与背景相关的第三掩码图，基于至少一张掩码图对待进行人像背景分离的图像进行处理生成目标图像，进而实现人像背景分离的目的。

在本申请实施例中，优选的，第二特征图像生成单元，包括：

第二特征图像生成子单元，用于基于预训练的编码器提取表征图像的高层语义特征的第一特征图像并增加第一特征图像的感受野生成第二特征图像。

在本申请实施例中，优选的，掩码图生成单元，包括：

掩码图生成子单元，用于将第二特征图像和编码器生成的表征图像的低层语义特征的第三特征图像输入预训练的解码器得到图像的至少一张掩码图。

进一步的，本申请实施例提供的一种人像背景分离装置，还包括：

压缩单元，用于将第四特征图像的通道数量压缩至预设数量，预设数量与至少一张掩码图中掩码图的张数相同。

在本申请实施例中，优选的，目标图像生成单元，包括：

目标图层生成单元，用于结合至少一张掩码图生成目标图层；

目标图像生成子单元，用于将目标图层覆盖图像生成目标图像。

在本申请实施例中，优选的，目标图层生成单元，包括：

目标掩码图确定单元，用于确定至少一张掩码图中相对位置相同的像素中目标像素所属的目标掩码图，目标像素为至少一张掩码图中相对位置相同的像素中像素值最大的像素；

目标像素值生成单元，用于根据目标掩码图携带的标签信息生成目标像素的目标像素值，第一掩码图携带第一标签信息，第二掩码图携带第二标签信息，第三掩码图携带第三标签信息；

第一生成单元，用于利用生成的各个目标像素的目标像素值生成目标图层。

在本申请实施例中，优选的，第一生成单元，包括：

第一目标图层生成单元，用于利用生成的各个目标像素的目标像素值生成第一目标图层；

第二目标图层生成单元，用于将第一目标图层中与第一标签信息相关的目标像素的像素值修改为第一预设像素值、将第一图层中与第二标签信息相关的目标像素的像素值修改为第二预设像素值，和/或，将第一目标图层中与第三标签信息相关的目标像素的像素值修改为第三预设像素值，生成第二目标图层；

第三目标图层生成单元，用于对进行开运算后的第二目标图层进行闭运算生成第三目标图层；

第二生成单元，用于对第三目标图层中各个目标像素的像素值进行处理生成目标图层。

在本申请实施例中，优选的，编码器和解码器构成人像背景分离模型，人像背景分离模型的生成过程包括：

获取单元，用于获取图像样本的至少一张掩码图样本，至少一张掩码图样本包括携带第一标签信息的第一掩码图样本，携带第二标签信息的第二掩码图样本和携带第三标签信息的第三掩码图样本；

输入单元，用于将图像样本输入至待训练人像背景分离模型得到待训练人像背景分离模型对图像样本的至少一张掩码图的预测结果；

损失函数生成单元，用于基于携带的标签信息相同的掩码图样本和预测结果中的掩码图生成损失函数；

人像背景分离模型生成单元，用于根据损失函数对待训练人像背景分离模型进行训练生成人像背景分离模型。

下面以人像背景分离方法应用于服务器为例，对本申请实施例提供的一种人像背景分离方法所适用于的服务器的硬件结构进行详细说明。

本申请实施例提供的一种人像背景分离方法可应用于服务器，该服务器可以是网络侧为用户提供服务的服务设备，其可能是多台服务器组成的服务器集群，也可能是单台服务器。

可选的，图7示出了本申请实施例提供的一种人像背景分离方法所适用于的服务器的硬件结构框图，参照图7，服务器的硬件结构可以包括：处理器71，存储器72，通信接口73和通信总线74；

在本发明实施例中，处理器71、存储器72、通信接口73、通信总线74的数量均可以为至少一个，且处理器71、存储器72、通信接口73通过通信总线74完成相互间的通信；

处理器71可能是一个中央处理器CPU，或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路等；

存储器72可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatilememory)等，例如至少一个磁盘存储器；

其中，存储器存储有程序，处理器可调用存储器存储的程序，程序用于：

确定待进行人像背景分离的图像；

提取表征图像的高层语义特征的第一特征图像并增加第一特征图像的感受野生成第二特征图像；

根据第二特征图像和表征图像的低层语义特征的第三特征图像生成图像的至少一张掩码图，图像的至少一张掩码图包括与人物相关的第一掩码图、与配饰相关的第二掩码图以及与背景相关的第三掩码图；

基于至少一张掩码图对图像进行处理生成目标图像。

有关程序的功能可参见上文对本申请实施例提供的一种人像背景分离方法的详细描述，在此不做赘述。

进一步的，本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质中存储有计算机可执行指令，该计算机可执行指令用于执行上述人像背景分离方法。

有关计算机可执行指令的具体内容可参见上文对本申请实施例提供的一种人像背景分离方法的详细描述，在此不做赘述。

在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

对本发明所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种人像背景分离方法，其特征在于，包括：

确定待进行人像背景分离的图像；

2.根据权利要求1所述的方法，其特征在于，所述提取表征所述图像的高层语义特征的第一特征图像并增加所述第一特征图像的感受野生成第二特征图像，包括：

3.根据权利要求2所述的方法，其特征在于，所述根据所述第二特征图像和表征所述图像的低层语义特征的第三特征图像生成所述图像的至少一张掩码图，包括：

4.根据权利要求3所述的方法，其特征在于，还包括：

5.根据权利要求1所述的方法，其特征在于，所述基于所述至少一张掩码图对所述图像进行处理生成目标图像，包括：

结合所述至少一张掩码图生成目标图层；

将所述目标图层覆盖所述图像生成目标图像。

6.根据权利要求5所述的方法，其特征在于，所述结合所述至少一张掩码图生成目标图层，包括：

利用生成的各个所述目标像素的目标像素值生成目标图层。

7.根据权利要求6所述的方法，其特征在于，所述利用生成的各个所述目标像素的目标像素值生成目标图层，包括：

8.根据权利要求6所述的方法，其特征在于，所述编码器和所述解码器构成人像背景分离模型，所述人像背景分离模型的生成过程包括：

9.一种人像背景分离装置，其特征在于，包括：

第一确定单元，用于确定待进行人像背景分离的图像；

10.一种服务器，其特征在于，包括：至少一个存储器和至少一个处理器；所述存储器存储有程序，所述处理器调用所述存储器存储的程序，所述程序用于实现如权利要求1-8任意一项所述的人像背景分离方法。

11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机可执行指令，所述计算机可执行指令用于执行如权利要求1-8任意一项所述的人像背景分离方法。