CN116862920A

CN116862920A - 一种人像分割方法、装置、设备及介质

Info

Publication number: CN116862920A
Application number: CN202210302123.5A
Authority: CN
Inventors: 刘帅帅; 孙萁浩; 田羽慧
Original assignee: Qingdao Hisense Electronic Technology Services Co ltd
Current assignee: Qingdao Hisense Electronic Technology Services Co ltd
Priority date: 2022-03-24
Filing date: 2022-03-24
Publication date: 2023-10-10

Abstract

本公开涉及一种人像分割方法、装置、设备及介质，该方法包括：采集目标人像的人脸图片并进行特征提取，得到对应的人脸特征；将待检测图片输入人体检测模型，得到各人像的人体框结果，将待检测图片输入人脸检测模型，得到各人像的人脸框结果；对待检测图片中各人脸框结果对应区域进行人脸特征提取，确定提取的与目标人像的人脸特征相似度超过设定阈值的目标人脸框结果；确定与所述目标人脸框结果属于同一人像的目标人体框结果，并在对应的待检测图片截取目标人体框结果所在区域，获得对应的目标人像区域；将目标人像区域输入人像分割模型，获得人像分割模型输出的人像分割结果。本公开能够实现自动识别目标人像和目标人像分割，提升用户体验。

Description

一种人像分割方法、装置、设备及介质

技术领域

本公开涉及图像分割技术领域，尤其涉及一种人像分割方法、装置、设备及介质。

背景技术

目前人像分割方法应用比较广泛，例如虚拟视频会议、虚拟舞台等。人像分割方法是将图像中的所有人像都分割出来，这就会涉及到，在一张图像包含多个人时，只想对其中一个人进行分割，而对其他人不进行分割的情况。

针对上述情况，目前的一种人像分割方法通过以下步骤实现人像分割：首先，通过固定摄像头在景点的预设拍摄区域获取背景图片，摄像机对站到预设拍摄区域的用户进行抓拍，用户选取满意的照片作为待检测图片，使用卷积神经网络对所述原图进行人像分割处理后，获得多个掩膜区域；其次，对获得的多个掩膜区域进行图像掩膜处理，并依据掩膜获得各个掩膜的人像置信度，基于设定的置信度阈值进行有关人像区域和无关人像区域筛选；然后，将有关人像区域和无关人像区域设定成不同的颜色，并通过触摸屏或其他方式向用户展示；接下来，用户对展示的图片进行进一步的无关人像区域的筛选和确认；最后，从背景图片中获得与无关人像区域最匹配的背景区域，使用图像融合算法将无关人像区域用对应的背景区域进行替换，并无缝融合在待检测图片上，以实现无关人像去除。

因此，上述人像分割方法中的待检测图片是通过固定摄像头在预设拍摄区域进行拍摄获得的，不能实现在其他区域拍摄的图片的人像分割；并且对待检测图片进行全部人像分割，对于有关人像区域和无关人像区域的判断需要用户的参与，无法实现自动判别目标人像进行人像分割，从而造成体验感较差的问题。

发明内容

本公开提供一种人像分割方法、装置、设备及介质，实现自动识别目标人像和目标人像分割，提升用户体验。

根据本公开实施例的第一方面，提供一种人像分割方法，该方法包括：

采集目标人像的人脸图片并进行特征提取，得到所述目标人像的人脸特征；

将待检测图片输入人体检测模型，得到各人像的人体框结果，将所述待检测图片输入人脸检测模型，得到各人像的人脸框结果；

对所述待检测图片中各人脸框结果对应区域进行人脸特征提取，确定提取的人脸特征与所述目标人像的人脸特征的相似度超过设定阈值的目标人脸框结果；

确定与所述目标人脸框结果属于同一人像的目标人体框结果，并在对应的所述待检测图片截取所述目标人体框结果所在区域，获得对应的目标人像区域；

将所述目标人像区域输入人像分割模型，获得所述人像分割模型输出的人像分割结果。

在一种可能的实现方式中，所述人体检测模型通过以下方式训练获得：

获得第一训练样本集，所述训练样本集包括多张带有人体框结果的样本图片，所述样本图片包括人像；

将所述第一训练样本集中的各样本图片输入人体检测模型，利用所述人体检测模型进行特征提取并预测人体框结果，以输出所述样本图片的人体框结果为目标训练所述人体检测模型。

在一种可能的实现方式中，所述人脸检测模型通过以下方式训练获得：

获得第二训练样本集，所述训练样本集包括多张带有人脸框结果的样本图片，所述样本图片包括人脸；

将所述第二训练样本集中的各样本图片输入人脸检测模型，利用所述人脸检测模型进行特征提取并预测人脸框结果，以输出所述样本图片的人脸框结果为目标训练所述人脸检测模型。

在一种可能的实现方式中，所述人像分割模型通过以下方式训练获得：

获得第三训练样本集，所述训练样本集包括多张带有人像分割结果的样本图片，所述样本图片包括人像；

将所述第三训练样本集中的各样本图片输入人像分割模型，利用所述人像分割模型进行特征提取并预测人像分割结果，以输出所述样本图片的人像分割结果为目标进行训练所述人像分割模型。

在一种可能的实现方式中，所述人体框结果包括人体框和对应得分，其中，所述人体框包括人体框顶点坐标、人体框的长度以及人体框的宽度；

所述人脸框结果包括人脸框和对应得分，其中，所述人脸框包括顶点坐标，人脸框的长度以及人脸框的宽度；

所述人像分割结果包括标注为第一标记值的人像部分像素和标注为第二标记值的背景部分像素。

在一种可能的实现方式中，所述将待检测图片输入人体检测模型，得到各人像的人体框结果，将所述待检测图片输入人脸检测模型，得到各人像的人脸框结果之后，还包括：

根据所述人体框结果/人脸框结果与待检测图片大小，确定原点；

根据所述人体框结果，确定所述人体框中位于所述原点侧的第一人体顶点坐标和位于所述原点对角侧的第二人体顶点坐标；

根据所述人脸框结果，确定所述人脸框中位于所述原点侧的第一人脸顶点坐标和位于所述原点对角侧的第二人脸顶点坐标；

确定所述第一人脸顶点坐标大于第一人体顶点坐标，且第二人脸顶点坐标小于第二人体顶点坐标时，确定所述人体框结果和人脸框结果属于同一人像。

在一种可能的实现方式中，所述获得所述人像分割模型输出的人像分割结果之后，还包括：

根据所述目标人像框结果以及待检测图片大小，确定所述人像分割结果在所述待检测图片中的位置；

依据所确定的位置，使用第二标记值对所述人像分割结果进行填充，获得与所述待检测图片大小相同的人像分割结果。

根据本公开实施例的第二方面，提供一种人像分割装置，该装置包括：

人脸特征获得模块，用于采集目标人像的人脸图片并进行特征提取，得到所述目标人像的人脸特征；

结果获得模块，用于将待检测图片输入人体检测模型，得到各人像的人体框结果，将所述待检测图片输入人脸检测模型，得到各人像的人脸框结果；

人脸框结果确定模块，用于对所述待检测图片中各人脸框结果对应区域进行人脸特征提取，确定提取的人脸特征与所述目标人像的人脸特征的相似度超过设定阈值的目标人脸框结果；

目标人像区域获得模块，用于确定与所述目标人脸框结果属于同一人像的目标人体框结果，并在对应的所述待检测图片截取所述目标人体框结果所在区域，获得对应的目标人像区域；

人像分割结果获得模块，用于将所述目标人像区域输入人像分割模型，获得所述人像分割模型输出的人像分割结果。

根据本公开实施例的第三方面，提供一种电子设备包括：处理器；用于存储处理器可执行指令的存储器；其中，所述处理器通过运行所述可执行指令以实现上述人像分割方法的步骤。

根据本公开实施例的第四方面，提供一种计算机可读存储介质，其上存储有计算机指令，该指令被处理器执行时实现上述人像分割方法的步骤。

另外，第二方面至第四方面中任一种实现方式所带来的技术效果可参见第一方面中不同实现方式所带来的技术效果，此处不再赘述。

本公开的实施例提供的技术方案至少带来以下有益效果：

本公开能够实现在非特定区域拍摄的图片的人像分割；利用人体框结果和人脸框结果的对应关系，可以自动判别目标人像，实现跟踪式的人像分割，只分割用户指定的人像，提升用户体验；将目标人像区域从待检测图片中截取出来，只对目标人像区域进行人像分割，在降低分割时间的同时可以降低背景的影响。

附图说明

为了更清楚地说明本公开实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简要介绍，显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是根据一示例性实施例示出的应用场景示意图；

图2是根据一示例性实施例示出的一种人像分割方法的流程图；

图3是根据一示例性实施例示出的一种人像分割方法的具体流程图；

图4是根据一示例性实施例示出的一种人像分割方法的示意图；

图5是根据一示例性实施例示出的待检测图片的人体框结果和人脸框结果的示意图；

图6是根据一示例性实施例示出的一种人体检测模型的结构示意图；

图7是根据一示例性实施例示出的根据人体框结果与人脸框结果确定对应关系的示意图；

图8是根据一示例性实施例示出的从待检测图片截取目标人体区域的示意图；

图9是根据一示例性实施例示出的一种人像分割网络中的分割网络的示意图；

图10是根据一示例性实施例示出的将人像分割结果填充到与待检测图片相同尺寸的示意图；

图11是根据一示例性实施例示出的一种人像分割方法的电子设备示意图；

图12是根据一示例性实施例示出的一种人像分割方法的程序产品示意图。

具体实施方式

为了使本公开的目的、技术方案和优点更加清楚，下面将结合附图对本公开作进一步地详细描述，显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。基于本公开中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本公开保护的范围。

下面对文中出现的一些词语进行解释：

1、本公开实施例中术语“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

2、本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。

本公开实施例描述的应用场景是为了更加清楚的说明本公开实施例的技术方案，并不构成对于本公开实施例提供的技术方案的限定，本领域普通技术人员可知，随着新应用场景的出现，本公开实施例提供的技术方案对于类似的技术问题，同样适用。其中，在本公开的描述中，除非另有说明，“多个”的含义是两个或两个以上。

目前的人像分割方法中的待检测图片是通过固定摄像头在预设拍摄区域进行拍摄获得的，不能实现在其他区域拍摄的图片的人像分割；并且对待检测图片进行全部人像分割，对于有关人像区域和无关人像区域的判断需要用户的参与，无法实现自动判别目标人像进行人像分割，从而造成体验感较差的问题。

因此，为了解决上述问题，本公开提供了一种人像分割方法、装置、设备及介质，实现自动识别目标人像和目标人像分割，提升用户体验。

首先参考图1，其为本公开实施例的应用场景示意图，包括采集器11和服务器12。其中采集器11可以为相机、手机/计算机的摄像头和录像机等，用于采集图片；服务器12用于对采集器11采集的图片中的人像进行分割。

本公开实施例中，服务器12获取采集器11采集的目标人像的人脸图片并进行特征提取，得到所述目标人像的人脸特征；服务器12将采集器11采集的待检测图片输入人体检测模型，得到各人像的人体框结果，将所述待检测图片输入人脸检测模型，得到各人像的人脸框结果；对所述待检测图片中各人脸框结果对应区域进行人脸特征提取，确定提取的人脸特征与所述目标人像的人脸特征的相似度超过设定阈值的目标人脸框结果；确定与所述目标人脸框结果属于同一人像的目标人体框结果，并在对应的所述待检测图片截取所述目标人体框结果所在区域，获得对应的目标人像区域；将所述目标人像区域输入人像分割模型，获得所述人像分割模型输出的人像分割结果。

本公开实施例中，提供了一种人像分割方法，本公开基于同一构思，还提供了一种人像分割装置、一种电子设备以及一种计算机可读存储介质。

在一些实施例中，下面通过具体的实施例对本公开提供的一种人像分割方法进行说明，如图2所示，包括：

步骤201，采集目标人像的人脸图片并进行特征提取，得到所述目标人像的人脸特征；

上述目标人像的人脸图片可以是通过摄像设备采集的，人脸特征可以是方向梯度直方图(Histogram of Oriented Gradient，HOG)、局部二值模式(Local Binary Pattern，LBP)等传统的纹理特征，也可以是关键点特征或通过深度网络得到的特征。

步骤202，将待检测图片输入人体检测模型，得到各人像的人体框结果，将所述待检测图片输入人脸检测模型，得到各人像的人脸框结果；

上述人体检测模型和人脸检测模型可以是现有训练好的模型，也可以是使用训练样本集进行训练得到的模型。所述人体框结果包括人体框和对应得分，其中，所述人体框包括人体框顶点坐标、人体框的长度以及人体框的宽度；所述人脸框结果包括人脸框和对应得分，其中，所述人脸框包括人脸框顶点坐标，人脸框的长度以及人脸框的宽度。

步骤203，对所述待检测图片中各人脸框结果对应区域进行人脸特征提取，确定提取的人脸特征与所述目标人像的人脸特征的相似度超过设定阈值的目标人脸框结果；

上述对所述待检测图片中各人脸框结果对应区域和目标人像的人脸图片进行特征提取的方式可以采用相同算法，以减少处理时间。

步骤204，确定与所述目标人脸框结果属于同一人像的目标人体框结果，并在对应的所述待检测图片截取所述目标人体框结果所在区域，获得对应的目标人像区域；

步骤205，将所述目标人像区域输入人像分割模型，获得所述人像分割模型输出的人像分割结果。

上述人像分割模型可以是现有训练好的模型，也可以是使用训练样本集进行训练得到的模型。所述人像分割结果包括标注为第一标记值的人像部分像素和标注为第二标记值的背景部分像素，例如，将人像部分像素标注为1，将背景部分像素标记为0。

本公开提供一种人像分割方法，如图3所示，其具体步骤如下：

步骤301，利用摄像设备(例如摄像头、相机等)采集目标人像的人脸图片并进行特征提取，得到所述目标人像的人脸特征；

上述人脸特征可以是HOG、LBP等传统的纹理特征，也可以是关键点特征或通过深度网络得到的特征。对人脸图片进行特征提取的方法是现有技术，此处不再一一赘述。

如图4所示，若只想对目标人像进行分割，则需要使用摄像设备采集该目标人像的人脸图片，之后对所述人脸图片进行人脸特征提取，获得人脸特征。

步骤302，将待检测图片输入人体检测模型，得到各人像的人体框结果，将所述待检测图片输入人脸检测模型，得到各人像的人脸框结果；

上述人体检测模型通过以下方式训练获得：

其中，所述人体框结果包括人体框和得分，其中，所述人体框包括人体框顶点坐标、人体框的长度以及人体框的宽度，所述人体框顶点坐标可以是人体框左上角顶点坐标、人体框右上角顶点坐标、人体框左下角顶点坐标等。

如图5所示，该图片中左边人像的人体框表示为P1，右边人像的人体框表示为P2。其中，P1可以由(X1,Y1,W1,H1)表示，X1为所述人体框左上角顶点横坐标，Y1为所述人体框左上角顶点纵坐标，W1为所述人体框的宽度，H1为所述人体框的长度。

上述人脸检测模型通过以下方式训练获得：

其中，所述人脸框结果包括人脸框和对应得分，其中，所述人脸框包括人脸框顶点坐标，人脸框的长度以及人脸框的宽度，所述人脸框顶点坐标可以是人脸框左上角顶点坐标、人脸框右上角顶点坐标、人脸框左下角顶点坐标等。

如图5所示，该图片中左边人像的人脸框表示为F1，右边人像的人脸框表示为F2。其中，F1可以由(x1,y1,w1,h1)表示，x1为所述人脸框左上角顶点横坐标，y1为所述人脸框左上角顶点纵坐标，w1为所述人脸框的宽度，h1为所述人脸框的长度。

考虑到本公开的实时性，可以采用yolo(You Only Look Once)网络进行训练得到人体检测模型和人脸检测模型，并利用图形处理器(Graphic Processing Unit，GPU)加速，得到具备高帧率检测。以将第一训练样本集中的样本图片输入yolo网络进行训练为例，如图6所示：

首先，将带有人体框结果的样本图片输入主干网络提取所述图片的特征，对所述待检测图片进行卷积、池化等操作得到三种不同尺度的特征图，分为大、中、小；

然后，将所述三种不同尺度的特征图输入特征金字塔模块进行处理，得到处理后的三种不同尺度的特征图；

该模块是FPN(Feature Pyramid Networks，特征金字塔网络)+PAN(PyramidAttention Networks，金字塔型注意力网络)的结构，FPN是对主干模块由最小的特征图开始进行自小到大的特征上采样和提取，增强特征语义信息，PAN是从最大的特征图开始，进行自大到小的特征传递和融合，增强人像的定位信息。

其中，FPN是自顶向下的，将高层的强语义特征通过上采样和低层特征做融合得到进行预测的特征图，融合就是两个特征图数值对应数值相加或者通道叠加。在FPN的后面添加一个自底向上的金字塔，自底向上传递定位信息。深层的特征图携带有更强的语义特征，较弱的定位信息。而浅层的特征图携带有较强的位置信息，和较弱的语义特征。FPN就是把深层的语义特征传到浅层，从而增强多个尺度上的语义表达。而PAN则相反把浅层的定位信息传导到深层，增强多个尺度上的定位能力。

接下来，将特征金字塔输出的三种不同尺度的特征图，输入边框预测模块进行人像区域的预测，输出预测到的每个人像区域的人体框及对应得分；

上述三种不同尺度的特征图对应的感受野不一样，小的特征图感受野大，适合预测大目标；中等特征图感受野中等，适合预测中等目标，小的特征图感受野大，适合预测大的目标位置。

最后，将预测到的多个人体框和对应得分输入NMS模块进行筛选，输出预测的人体框结果，根据预测的人体框结果和样本图片的人体框结果，调整所述人体检测模型的参数。

NMS模块根据预测到的多个人体框和对应得分，计算任意两个人体框的交并比(Intersection Over Union)，以此确定最合适的人体框结果。

其中，第一人体框和第二人体框之间的交并比其中，A是根据第一人体框计算的像素点，B是根据第二人体框计算的像素点。若所述IOU小于设定阈值(假设0.2)，则第一人体框和第二人体框都不去除。若所述IOU不小于设定阈值，则将第一人体框和第二人体框中得分小的去掉，假设第一人体框的得分为0.8，第二人体框的得分为0.7，则去掉第二人体框，只包留第一人体框。当有多个人体框时，循环执行上述操作，最后只留一个最合适的人体框结果。

步骤303，根据人体框结果与人脸框结果确定对应关系；

在得到人体框结果和人脸框结果之后，依次判断人脸框结果与人体框结果的包含关系，因为同一个人的人体框结果是包含人脸框结果的，所以依据框是否包含可以将人体框结果和人脸框结果形成对应关系。如图5所示，F1与P1为对应关系，即属于同一个人的人脸框结果及对应的人体框结果。

可以通过以下方法确定人体框结果和人脸框结果的对应关系：

根据人体框结果/人脸框结果与待检测图片大小，确定原点；

如图7所示，根据人体框结果/人脸框结果与待检测图片大小，确定原点即(0,0)为检测图片左上角顶点，对应的右下角顶点坐标为(W,H)。在此待检测图片中有一个人脸框结果和人脸框结果，人体框结果的第一人体顶点坐标为(X1,Y1)，第二人体顶点坐标为(X2,Y2)，人脸框结果的第一人脸顶点坐标为(X1’,Y1’)，第二人脸顶点坐标为(X2’,Y2’)。若X1’>X1，Y1’>Y1，X2’<X2，Y2’<Y2，则所述人体框结果和人脸框结果属于同一人像。

步骤304，对所述待检测图片中各人脸框结果对应区域进行人脸特征提取，得到对应的人脸特征；

上述人脸特征可以是HOG、LBP这种传统的纹理特征，也可以是关键点、深度网络得到的特征等。此过程为现有技术，此处不再一一赘述。

步骤305，计算提取的人脸特征与步骤301中的所述目标人像的人脸特征的相似度，若超过设定阈值，则执行步骤306-309；

如图4所示，获得人脸框F1对应的人脸特征和人脸框F2对应的人脸特征，并计算与记录的目标人像的人脸特征的相似度。

步骤306，确定超过设定阈值时对应的目标人脸框结果；

如图4所示，若F2对应的人脸特征与记录的目标人像的人脸特征之间的相似度超过设定阈值(假设为80％)，则F2对应的人脸框结果为目标人脸框结果。

步骤307，根据所述对应关系，确定与所述目标人脸框结果属于同一人像的目标人体框结果，并在对应的所述待检测图片截取所述目标人体框结果所在区域，获得对应的目标人像区域；

如图8所示，F2对应的人脸特征与记录的人脸特征相似度超过阈值，则F2对应的人脸框结果为目标人脸框结果，依据人脸框结果和人体框结果的对应关系，人体框P2对应的人体框结果就是目标人体框结果，因此从待检测图片中截取P2区域作为目标人像区域。

步骤308，将所述目标人像区域输入人像分割模型，获得所述人像分割模型输出的人像分割结果；

所述人像分割模型通过以下方式训练获得：

其中，所述人像分割结果包括标注为第一标记值的人像部分像素和标注为第二标记值的背景部分像素。

如图4所示，将P2区域作为目标人像区域输入人像分割模型对该目标人像区域的人像进行分割，通过人像分割模型可以得到人像分割结果。人像分割模型可以是基于一个encoder-decoder(编码器-解码器)模型进行训练获得的，该模型中包括细节特征提取模块、全局特征提取模块、特征融合模块和像素分类模块。以将第三训练样本集中的样本图片输入人像分割模型进行训练为例：

首先，将带有人像分割结果的样本图片输入细节特征提取模块，对该样本图片进行二维卷积(Conv2D)以及深度可分离卷积(DSConv)处理，得到第一特征图；

其中，二维卷积就是样本图片的普通卷积操作，深度可分离卷积的一个卷积核负责一个通道，一个通道只被一个卷积核卷积。

然后，将所述第一特征图输入全局特征模块，对该第一特征图进行一些列的卷积、上采样等操作得到第二特征图；

接下来，将所述第一特征图和第二特征图输入特征融合模块，对该第二特征图以及第一特征图通过卷积进行特征融合，得到第三特征图；

其中，特征融合就是两个特征图叠加。例如，特征图1为3*3*4，特征图2为3*3*5，特征融合后得到一个3*3*9的特征图。

最后，将所述第三特征图输入像素分类模块，对该第三特征图进行卷积处理，并通过分类器(softmax)进行像素的分类，得到该样本图片预测的人像分割结果，根据所述预测的人像分割结果和所述样本图片的人像分割结果，调节所述人像分割模型的参数。

其中，softmax是一种神经网络常用的映射函数，将值映射为0-1之间的数，每个值可以理解为得分或者为真的概率。

对目标人像区域进行分割，相比对于待检测图片进行分割，图片尺寸减小，算法处理时间会减小。目标人像区域中背景相比待检测图片要简单且占比少，能够提升算法的分割结果，减少对背景区域的误检为人像的概率。

步骤309，依据目标人体框结果将人像分割结果填充到待检测图片大小。

可以利用以下方法将人像分割结果填充到待检测图片大小：

依据所确定的位置，使用第二标记值对所述人像分割标注进行填充，获得与所述待检测图片大小相同的人像分割结果。

如图9所示，人像分割模型输出的人像分割结果，是一个跟目标人体框结果尺寸相同的单通道阿尔法(alpha)图，因此需要依据目标人体框结果以及待检测图片大小，将所述目标人体框结果填充到跟待检测图片一样的尺寸。其中，alpha是一个介于0-1之间的数，0代表透明，1代表不透明。若目标人体框可以表示为(x,y,w,h)，其中(x,y)为目标人体框左上角顶点坐标，w为目标人体框的宽，h为目标人体框的高。待检测图片的大小是可以依据其属性得到，所以依据目标人体框结果可以计算出人像分割结果处在待检测图片的位置。因此，将人像部分像素标注为1，将其他背景部分像素标注为0，得到只有目标人像的人像分割结果。

在一些实施例中，基于相同的发明构思，本公开实施例还提供一种人像分割装置，由于该装置即是本公开实施例中的方法中的装置，并且该装置解决问题的原理与该方法相似，因此该装置的实施可以参见方法的实施，重复之处不再赘述。

如图10所示，上述装置包括以下模块：

人脸特征获得模块101，用于采集目标人像的人脸图片并进行特征提取，得到所述目标人像的人脸特征；

结果获得模块102，用于将待检测图片输入人体检测模型，得到各人像的人体框结果，将所述待检测图片输入人脸检测模型，得到各人像的人脸框结果；

人脸框结果确定模块103，用于对所述待检测图片中各人脸框结果对应区域进行人脸特征提取，确定提取的人脸特征与所述目标人像的人脸特征的相似度超过设定阈值的目标人脸框结果；

目标人像区域获得模块104，用于确定与所述目标人脸框结果属于同一人像的目标人体框结果，并在对应的所述待检测图片截取所述目标人体框结果所在区域，获得对应的目标人像区域；

人像分割结果获得模块105，用于将所述目标人像区域输入人像分割模型，获得所述人像分割模型输出的人像分割结果。

作为一种可选的实施方式，所述人体检测模型通过以下方式训练获得：

作为一种可选的实施方式，所述人脸检测模型通过以下方式训练获得：

作为一种可选的实施方式，所述人像分割模型通过以下方式训练获得：

作为一种可选的实施方式，所述人体框结果包括人体框和对应得分，其中，所述人体框包括人体框顶点坐标、人体框的长度以及人体框的宽度；

所述人脸框结果包括人脸框和对应得分，其中，所述人脸框包括人脸框顶点坐标，人脸框的长度以及人脸框的宽度；

作为一种可选的实施方式，所述结果获得模块用于将待检测图片输入人体检测模型，得到各人像的人体框结果，将所述待检测图片输入人脸检测模型，得到各人像的人脸框结果之后，还用于：

作为一种可选的实施方式，所述人像分割结果获得模块，用于获得所述人像分割模型输出的人像分割结果之后，还用于：

在一些实施例中，基于相同的发明构思，本公开实施例中还提供了一种人像分割电子设备，由于该电子设备即是本公开实施例中的方法中的电子设备，并且该电子设备解决问题的原理与该方法相似，因此该电子设备的实施可以参见方法的实施，重复之处不再赘述。

下面参照图11来描述根据本公开的这种实施方式的电子设备110。图11显示的电子设备110仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图11所示，电子设备110可以以通用计算设备的形式表现，例如其可以为终端设备。电子设备110的组件可以包括但不限于：上述至少一个处理器111、上述至少一个存储处理器可执行指令的存储器112、连接不同系统组件(包括存储器112和处理器111)的总线113。

所述处理器通过运行所述可执行指令以实现如下步骤：

作为一种可选的实施方式，所述处理器将待检测图片输入人体检测模型，得到各人像的人体框结果，将所述待检测图片输入人脸检测模型，得到各人像的人脸框结果之后，还用于：

作为一种可选的实施方式，所述处理器获得所述人像分割模型输出的人像分割结果之后，还用于：

总线113表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器、外围总线、处理器或者使用多种总线结构中的任意总线结构的局域总线。

存储器112可以包括易失性存储器形式的可读介质，例如随机存取存储器(RAM)1121和/或高速缓存存储器1122，还可以进一步包括只读存储器(ROM)1123。

存储器112还可以包括具有一组(至少一个)程序模块1124的程序/实用工具1125，这样的程序模块1124包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

电子设备110也可以与一个或多个外部设备114(例如键盘、指向设备等)通信，还可与一个或者多个使得用户能与电子设备110交互的设备通信，和/或与使得电子设备110能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口115进行。并且，电子设备110还可以通过网络适配器116与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器116通过总线113与电子设备110的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备110使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

在一些可能的实施方式中，本公开的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当程序产品在终端设备上运行时，程序代码用于使终端设备执行本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施方式的人像分割装置中各模块的步骤，例如，终端设备可以用于采集目标人像的人脸图片并进行特征提取，得到所述目标人像的人脸特征；将待检测图片输入人体检测模型，得到各人像的人体框结果，将所述待检测图片输入人脸检测模型，得到各人像的人脸框结果；对所述待检测图片中各人脸框结果对应区域进行人脸特征提取，确定提取的人脸特征与所述目标人像的人脸特征的相似度超过设定阈值的目标人脸框结果；确定与所述目标人脸框结果属于同一人像的目标人体框结果，并在对应的所述待检测图片截取所述目标人体框结果所在区域，获得对应的目标人像区域；将所述目标人像区域输入人像分割模型，获得所述人像分割模型输出的人像分割结果等操作。

程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

如图12所示，描述了根据本公开的实施方式的用于人体分割的程序产品120，其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在终端设备，例如个人电脑上运行。然而，本公开的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括——但不限于——电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于——无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本公开操作的程序代码，程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

应当注意，尽管在上文详细描述中提及了系统的若干模块或子模块，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多模块的特征和功能可以在一个模块中具体化。反之，上文描述的一个模块的特征和功能可以进一步划分为由多个模块来具体化。

此外，尽管在附图中以特定顺序描述了本公开系统各模块的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些操作，将多个操作合并为一个操作执行，和/或将一个操作分解为多个操作执行。

本领域内的技术人员应明白，本公开的实施例可提供为方法、系统、或计算机程序产品。因此，本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本公开是参照根据本公开实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的设备。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令设备的制造品，该指令设备实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种人像分割方法，其特征在于，该方法包括：

2.根据权利要求1所述的方法，其特征在于，所述人体检测模型通过以下方式训练获得：

3.根据权利要求1所述的方法，其特征在于，所述人脸检测模型通过以下方式训练获得：

4.根据权利要求1所述的方法，其特征在于，所述人像分割模型通过以下方式训练获得：

5.根据权利要求1-4任一所述的方法，其特征在于，

所述人体框结果包括人体框和对应得分，其中，所述人体框包括人体框顶点坐标、人体框的长度以及人体框的宽度；

6.根据权利要求1所述的方法，其特征在于，所述将待检测图片输入人体检测模型，得到各人像的人体框结果，将所述待检测图片输入人脸检测模型，得到各人像的人脸框结果之后，还包括：

7.根据权利要求1所述的方法，其特征在于，所述获得所述人像分割模型输出的人像分割结果之后，还包括：

8.一种人像分割装置，其特征在于，该装置包括：

9.一种电子设备，其特征在于，包括：处理器；用于存储处理器可执行指令的存储器；其中，所述处理器通过运行所述可执行指令以实现权利要求1至7任一项所述方法的步骤。

10.一种计算机可读写存储介质，其上存储有计算机指令，其特征在于，该指令被处理器执行时实现权利要求1至7任一项所述方法的步骤。