CN113850165A

CN113850165A - 人脸识别方法和装置

Info

Publication number: CN113850165A
Application number: CN202111066680.3A
Authority: CN
Inventors: 吕瑞; 杨成平
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2021-09-13
Filing date: 2021-09-13
Publication date: 2021-12-28

Abstract

本说明书实施例提供了一种人脸识别方法及装置。在该方法中，获取待处理图像；该待处理图像中包括至少两个人体影像；对所述待处理图像进行全景分割，得到至少两个人体候选区域，其中每一个人体候选区域中包括一个人体影像；每一个所述人体影像均包括一个人脸影像；对每一个人体候选区域进行深度估计；根据深度估计结果，得到每一个人体对应的深度值；根据每一个人体对应的深度值，得到目标人脸。本说明书实施例能够从多个人脸中更为准确地得到目标人脸。

Description

人脸识别方法和装置

技术领域

本说明书一个或多个实施例涉及电子信息技术，尤其涉及人脸识别方法和装置。

背景技术

人脸识别技术已经被广泛应用。在很多业务场景中，需要从多个人脸中识别出目标人脸，从而针对目标人脸进行业务处理。比如，在利用人脸通过一个大门的门禁时，在摄像头的摄像范围内很可能会同时出现多个人脸，此时就需要识别出多个人脸中的一个目标人脸(比如将排在最前面的人脸作为识别出的目标人脸)，从而针对该一个目标人脸判断是否允许相应的人员通过门禁。再如，在进行刷脸支付业务时，刷脸设备的摄像头也可能会同时拍摄到多个排队人员的多个人脸，此时也需要识别出多个人脸中的一个目标人脸(比如将排在最中间的人脸作为识别出的目标人脸)，从而针对该一个目标人脸进行相应人员的扣款处理。

然而，目前的人脸识别方法，无法从多个人脸中准确地识别出目标人脸。

发明内容

本说明书一个或多个实施例描述了人脸识别方法和装置，能够从多个人脸中更加准确地识别出目标人脸。

根据第一方面，提供了一种人脸识别方法，包括：

获取待处理图像；该待处理图像中包括至少两个人体影像；

对所述待处理图像进行全景分割，得到至少两个人体候选区域，其中每一个人体候选区域中包括一个人体影像；每一个所述人体影像均包括一个人脸影像；

对每一个人体候选区域进行深度估计；

根据深度估计结果，得到每一个人体对应的深度值；

根据每一个人体对应的深度值，得到目标人脸。

其中，所述对所述待处理图像进行全景分割包括：利用预先训练的全景分割模型对所述待处理图像进行全景分割；

其中，所述全景分割模型的训练方法包括：利用样本图像对全景分割模型进行训练，该样本图像被标记出至少两个人体候选区域以及至少一个环境候选区域。

其中，所述对所述待处理图像进行全景分割包括：将待处理图像中各H*W*3的三维像素点输入预先训练的全景分割模型，得到该全景分割模型输出的对应于不同人体候选区域的不同的一维数字；

所述对每一个人体候选区域进行深度估计，包括：

通过预先训练的深度估计模型的嵌入层将全景分割模型输出的不同的一维数字分别映射为C维的向量，利用各C维向量生成分割向量图；由所述深度估计模型的卷积神经网络对分割向量图进行特征提取，得到对应于每一个人体候选区域的深度图以及置信度图，其中，深度图中的每个像素值表征该像素对应的位置距离拍摄源的深度值，置信度图中的每个像素值表征该像素对应的深度值的置信度。

其中，所述根据深度估计结果得到每一个人体对应的深度值，包括：

针对每一个人体候选区域，均执行：

根据该人体候选区域对应的置信度图，从该人体候选区域对应的深度图中选取置信度大于0.5的像素；

计算所选取的各个像素的深度值的平均值，将得到的平均值确定为该人体候选区域所对应的人体的深度值。

其中，所述根据每一个人体对应的深度值得到目标人脸，包括：

将对应最小深度值的人体的人脸确定为目标人脸；

或者，

根据每一个人体候选区域，得到该区域所对应的人体的姿态及位置；以及根据每一个人体对应的深度值、姿态以及位置，确定出目标人体的目标人脸。

在所述获取待处理图像之后，并在所述得到目标人脸之前，进一步包括：

利用3D结构光技术，从所述待处理图像的至少两个人脸影像中选择一个第一候选人脸影像；

所述根据每一个人体对应的深度值得到目标人脸，包括：

根据每一个人体对应的深度值，选择一个人体的人脸影像作为第二候选人脸影像；

判断所述第一候选人脸影像与所述第二候选人脸影像是否对应相同的人脸，如果是，则确定该相同的人脸为目标人脸，否则，进行风险预警。

根据第二方面，提供了一种人脸识别装置，包括：

图像获取模块，配置为获取待处理图像；该待处理图像中包括至少两个人体影像；

全景分割模块，配置为对所述待处理图像进行全景分割，得到至少两个人体候选区域，其中每一个人体候选区域中包括一个人体影像；每一个所述人体影像均包括一个人脸影像；

深度估计模块，配置为对每一个人体候选区域进行深度估计；根据深度估计结果，得到每一个人体对应的深度值；

目标人脸确定模块，配置为根据每一个人体对应的深度值，得到目标人脸。

其中，所述全景分割模块配置为执行：将待处理图像中各H*W*3的三维像素点输入预先训练的全景分割模型，得到该全景分割模型输出的对应于不同人体候选区域的不同的一维数字；

深度估计模块配置为执行：通过预先训练的深度估计模型的嵌入层将全景分割模型输出的不同的一维数字分别映射为C维的向量，得到分割向量图；由所述深度估计模型的卷积神经网络对分割向量图进行特征提取，得到对应于每一个人体候选区域的深度图以及置信度图，其中，深度图中的每个像素值表征该像素对应的位置距离拍摄所述待处理图像的相机的深度值，置信度图中的每个像素值表征该像素对应的深度值的置信度。

进一步包括：

3D结构光处理模块，配置为利用3D结构光技术从所述待处理图像的至少两个人脸影像中选择一个第一候选人脸影像；

所述目标人脸确定模块，配置为根据每一个人体对应的深度值，选择一个人体的人脸影像作为第二候选人脸影像；判断所述第一候选人脸影像与所述第二候选人脸影像是否对应相同的人脸，如果是，则确定该相同的人脸为目标人脸，否则，进行风险预警。

根据第三方面，提供了一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现本说明书任一实施例所述的方法。

本说明书实施例提供的人脸识别方法和装置，能够从待处理图像中分割出场景中所有目标实例和背景的所在区域，也即能够得到至少两个人体候选区域，比如分割出待处理图像中的第一像素区域为第一个人体的影像所在的区域，即人体候选区域1，待处理图像中的第二像素区域为第二个人体的影像所在的区域，即人体候选区域2等，此种方式能够用一个区域的像素(即“面”的方式)来表征一个人体，而不是只选取某些离散的关键点(即“点”的方式)来表征一个人体，从而能够使得表征人体的信息量更大，为后续识别出目标人脸提供了更多的信息，使得识别结果更为准确。同时，在进行全景分割之后，会对每一个人体候选区域进行深度估计，从而针对每一个区域都得到一个深度值，利用该深度值则可以得到目标人脸。因此，综合了全景分割和深度估计技术，能够更为准确地得到目标人脸。

附图说明

为了更清楚地说明本说明书实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本说明书的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本说明书一个实施例所应用的系统架构的示意图。

图2是本说明书一个实施例中人脸识别方法的流程图。

图3是本说明书另一个实施例中人脸识别方法的流程图。

图4是本说明书一个实施例中人脸识别装置的结构示意图。

图5是本说明书另一个实施例中人脸识别装置的结构示意图。

具体实施方式

如前所述，需要从多个人脸中识别出目标人脸，从而针对目标人脸进行业务处理。在现有技术中，采用3D结构光技术从拍摄的多个人脸中确定出目标人脸。然而，利用3D结构光技术经常会确定出错误的目标人脸。比如，3D结构光技术硬件不稳定，且曝光等环境容易导致直接失效。再如，3D结构光技术更适用于近距离的刷脸场景，而很难适用于中远距离的刷脸场景。而一旦确定出错误的目标人脸，将会导致诸多不良后果，比如在刷脸支付中，如果选择的目标人脸错误，将会导致退款及用户投诉等不良后果。

下面结合附图，对本说明书提供的方案进行描述。

为了方便对本说明书的理解，首先对本说明书所应用的系统架构进行描述。如图1中所示，该系统架构主要包括处于某一业务场景中需要进行业务处理的多个人体以及刷脸设备，比如利用人脸刷脸通过门禁或者刷脸支付业务。

图2示出了本说明书一个实施例中人脸识别方法的流程图。该方法的执行主体为人脸识别装置。可以理解，该方法也可以通过任何具有计算、处理能力的装置、设备、平台、设备集群来执行。参见图2，该方法包括：

步骤201：获取待处理图像；该待处理图像中包括至少两个人体影像。

步骤203：对所述待处理图像进行全景分割，得到至少两个人体候选区域，其中每一个人体候选区域中包括一个人体影像；每一个所述人体影像均包括一个人脸影像。

步骤205：对每一个人体候选区域进行深度估计。

步骤207：根据深度估计结果，得到每一个人体对应的深度值。

步骤209：根据每一个人体对应的深度值，得到目标人脸。

可见，在图2所示的人脸识别方法流程中，首先对待处理图像进行全景分割，因此能够从该待处理图像中分割出场景中所有目标实例和背景的所在区域，也即能够得到至少两个人体候选区域，比如分割出待处理图像中的第一像素区域为第一个人体的影像所在的区域，即人体候选区域1，待处理图像中的第二像素区域为第二个人体的影像所在的区域，即人体候选区域2等，此种方式能够用一个区域的像素(即“面”的方式)来表征一个人体，而不是只选取某些离散的关键点(即“点”的方式)来表征一个人体，从而能够使得表征人体的信息量更大，为后续识别出目标人脸提供了更多的信息，使得识别结果更为准确。同时，在图2所示流程中，在进行全景分割之后，会对每一个人体候选区域进行深度估计，从而针对每一个区域都得到一个深度值，利用该深度值则可以得到目标人脸。因此，图2所示流程综合了全景分割和深度估计技术，能够更为准确地得到目标人脸，且更加适用于中远距离的人脸识别。

下面针对图2所示的每一个步骤分别进行说明。

首先，当用户需要进行刷脸时，比如通过门禁或者进行刷脸支付时，可以站在刷脸设备前，刷脸设备上设置的RGB摄像头则会对准用户进行拍照，从而触发上述图2所示的流程。

在步骤201中获取待处理图像；该待处理图像中包括至少两个人体影像，每一个人体影像中均包括一个人脸影像。

本步骤201中，诸如RGB摄像头等摄像设备对用户进行拍照，获取包括用户人脸的人体影像。如前所述，在很多场景中，由于多人排队等原因，摄像头所拍摄的图像中会包括多个人体的影像，也即包括多个人脸的影像。RGB摄像头采集的是RGB及深度图像。

接下来，在步骤203中，对待处理图像进行全景分割，得到至少两个人体候选区域，其中每一个人体候选区域中包括一个人体影像；每一个所述人体影像均包括一个人脸影像。

在本步骤203中，在执行全景分割时，将待处理图像中的每个像素分为一类比如分出人、草地等类，如果一种类别里有多个实例，会用不同的颜色进行区分，从而可以知道哪个像素属于哪个类中的哪个实例。比如使用黄色和红色标记出待处理图像中的人这一个类别，但是黄色和红色分别属于不同的实例(不同的人)。以此，则得到了上述至少两个人体候选区域。

本步骤203可以利用预先训练的全景分割模型对待处理图像进行全景分割。在利用样本图像训练该全景分割模型时，可以针对该样本图像标记出至少两个人体候选区域以及至少一个环境候选区域，比如标记出两个人体影像所在的区域及草地影像所在的区域等。由于在训练时，不仅标记了人体影像所在的区域还标记了环境影像所在的区域，因此更加有利于全景分割模型学习，使得该模型能够综合人体影像以及环境影像，更为准确地学习到人体影像所在区域。

在本步骤203中，将待处理图像的各H*W*3的三维像素点输入全景分割模型，该全景分割模型会输出对应于不同人体候选区域的不同的一维数字，即通过不同的一维数字对不同的人体进行编号，如用数字1表示第一个人体，数字2表示第二个人体等。

接下来，在步骤205中对每一个人体候选区域进行深度估计。

本步骤205中，可以进行单目深度估计，利用标注(通过上述编号即一维数字标注)有不同人体候选区域的待处理图像，估计图像中每个像素相对拍摄源的距离。

可以利用预先训练的深度估计模型来进行本步骤的深度估计。因为处理的对象是人体候选区域，即一个“面”而非离散的各个点，因此，深度估计模型的骨干网络可以设计为包括嵌入层和卷积神经网络。本步骤205的一种具体的实现过程包括：通过深度估计模型的嵌入(embedding)层将全景分割模型输出的不同的一维数字分别映射为各C维向量，利用各C维向量生成分割向量图；由所述深度估计模型的卷积神经网络对分割向量图进行特征提取，得到对应于每一个人体候选区域的深度图以及置信度图，其中，深度图中的每个像素值表征该像素对应的位置距离拍摄源的深度值，置信度图中的每个像素值表征该像素对应的深度值的置信度；其中，C是一个不小于1的自然数。

可见，深度估计模型中的嵌入层：让全景分割模型输出的一维数字变为向量，则含义更丰富，并且该嵌入层进行了映射处理，即映射为C维向量，比如可以是3维或4维等。其中，C值越大即维度越高，则表示空间越大，表示的越准确。可以根据实际计算能力即表达准确度的要求，来设置C的值。

在上述过程中，是将分割向量图(即上述“面”表征的人体区域图对应的向量图)输入卷积神经网络，而不是表征人体的几个离散的关键点的向量，因此，表征一个人体所使用的向量元素则更多更全，信息量更丰富，则会得到更为准确的深度图以及置信度图。比如，深度图中，每个像素的像素值的取值范围为[0,10]，置信度图中每个像素的像素值的取值范围为[0,1]。其中，置信度值越大表示对深度值的预测越可信。

接下来，在步骤207中根据深度估计结果，得到每一个人体对应的深度值。

本步骤207中是针对每一个人体候选区域，均执行：

根据该人体候选区域对应的置信度图，从该人体候选区域对应的深度图中选取置信度大于0.5的像素；计算所选取的各个像素的深度值的平均值，将得到的平均值确定为该人体候选区域所对应的人体的深度值。

在本说明书实施例中，针对每一个人体候选区域，因为使用的不是离散的各个像素点，而是连续像素点组成的区域即“面”，因此信息量更大，针对此种情况，计算置信度大于0.5的各像素的深度值的平均值，则可以更为准确地得到一个人体的深度值。

接下来，在步骤209中根据每一个人体对应的深度值，得到目标人脸。

本步骤209包括如下两种方式：

方式一、只利用全景分割及深度估计技术，来得到目标人脸。

方式二、利用全景分割、深度估计技术及3D结构光技术，共同得到目标人脸。

针对上述方式一：

可以只根据人体的深度值确定目标人脸。此时，本步骤209的具体实现过程可以包括：因为深度值越小表示人体距离拍摄源越近，意味着更应该成为当前刷脸的目标人脸，因此，本步骤209中可以直接将对应最小深度值的人体的人脸确定为目标人脸。

或者，也可以同时根据人体的深度值、姿态以及位置多维因素，共同确定目标人脸。此时，本步骤209的具体实现过程可以包括：根据每一个人体候选区域，得到该区域所对应的人体的姿态及位置；以及根据每一个人体对应的深度值、姿态以及位置，确定出目标人体的目标人脸。

针对上述方式二：

利用全景分割及深度估计技术确定一次人脸，再利用3D结构光技术确定一次人脸，如果两次得到的人脸相同，则确定的人脸是正确的目标人脸，否则报警。此时，具体的，在上述步骤201获取待处理图像之后，首先利用3D结构光技术，从所述待处理图像的至少两个人脸影像中选择一个第一候选人脸影像；相应地，本步骤209的实现过程包括：

步骤2091：根据每一个人体对应的深度值，选择一个人体的人脸影像作为第二候选人脸影像；

步骤2093：判断所述第一候选人脸影像与所述第二候选人脸影像是否对应相同的人脸，如果是，则确定该相同的人脸为目标人脸，否则，进行风险预警。

这里，如果得出的两种候选人脸影像不同，则说明很可能没有找到正确的目标人脸，因此，进行风险预警，比如在刷脸支付时提示用户刷脸错误，请求各用户调整站位及姿态等，以便避免误刷导致的后续赔款等后果。

在本说明书一个实施例中，结合全景分割、深度估计技术及3D结构光技术，可以提供一种新的人脸识别模式。参见图3，该新的人脸识别模式的过程可以包括：

步骤301：利用RGB摄像头采集待处理图像；该待处理图像中包括至少两个人体影像，每一个人体影像均包括一个人脸影像。

步骤303：利用3D结构光技术，从待处理图像的至少两个人脸影像中选择一个第一候选人脸影像。

步骤305：对待处理图像进行全景分割，得到至少两个人体候选区域，其中每一个人体候选区域中包括一个人体影像；每一个所述人体影像均包括一个人脸影像。

步骤307：对每一个人体候选区域进行深度估计。

步骤309：根据深度估计结果，得到每一个人体对应的深度值。

步骤311：根据每一个人体对应的深度值，选择一个人体的人脸影像作为第二候选人脸影像。

步骤313：判断第一候选人脸影像与第二候选人脸影像是否对应相同的人脸，如果是，执行步骤315，否则执行步骤317。

步骤315：确定该相同的人脸为目标人脸，刷脸成功，结束当前流程。

步骤317：进行风险预警。

本说明书一个实施例还提出了一种人脸识别装置，参见图4，该装置包括：

图像获取模块401，配置为获取待处理图像；该待处理图像中包括至少两个人体影像；

全景分割模块402，配置为对所述待处理图像进行全景分割，得到至少两个人体候选区域，其中每一个人体候选区域中包括一个人体影像；每一个所述人体影像均包括一个人脸影像；

深度估计模块403，配置为对每一个人体候选区域进行深度估计；根据深度估计结果，得到每一个人体对应的深度值；

目标人脸确定模块404，配置为根据每一个人体对应的深度值，得到目标人脸。

在本说明书装置的一个实施例中，全景分割模块402配置为执行：利用样本图像对全景分割模型进行训练，该样本图像被标记出至少两个人体候选区域以及至少一个环境候选区域。

在本说明书装置的一个实施例中，全景分割模块402配置为执行：将待处理图像中各H*W*3的三维像素点输入预先训练的全景分割模型，得到该全景分割模型输出的对应于不同人体候选区域的不同的一维数字；

相应地，深度估计模块403配置为执行：通过预先训练的深度估计模型的嵌入层将全景分割模型输出的不同的一维数字分别映射为C维的向量，得到分割向量图；由所述深度估计模型的卷积神经网络对分割向量图进行特征提取，得到对应于每一个人体候选区域的深度图以及置信度图，其中，深度图中的每个像素值表征该像素对应的位置距离拍摄所述待处理图像的相机的深度值，置信度图中的每个像素值表征该像素对应的深度值的置信度。

在本说明书装置的一个实施例中，深度估计模块403被配置为执行：针对每一个人体候选区域，均执行：根据该人体候选区域对应的置信度图，从该人体候选区域对应的深度图中选取置信度大于0.5的像素；计算所选取的各个像素的深度值的平均值，将得到的平均值确定为该人体候选区域所对应的人体的深度值。

在本说明书装置的一个实施例中，目标人脸确定模块404被配置为执行将对应最小深度值的人体的人脸确定为目标人脸。

在本说明书装置的一个实施例中，目标人脸确定模块404被配置为执行根据每一个人体候选区域，得到该区域所对应的人体的姿态及位置；以及根据每一个人体对应的深度值、姿态以及位置，确定出目标人体的目标人脸。

在本说明书装置的一个实施例中，参见图5，该装置进一步包括：3D结构光处理模块501，

3D结构光处理模块501，配置为利用3D结构光技术从所述待处理图像的至少两个人脸影像中选择一个第一候选人脸影像；

所述目标人脸确定模块404，配置为根据每一个人体对应的深度值，选择一个人体的人脸影像作为第二候选人脸影像；判断所述第一候选人脸影像与所述第二候选人脸影像是否对应相同的人脸，如果是，则确定该相同的人脸为目标人脸，否则，进行风险预警。

上述人脸识别装置可以设置在刷脸机具中。

本说明书一个实施例提供了一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行说明书中任一个实施例中的方法。

本说明书一个实施例提供了一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现执行说明书中任一个实施例中的方法。

可以理解的是，本说明书实施例示意的结构并不构成对本说明书实施例的装置的具体限定。在说明书的另一些实施例中，上述装置可以包括比图示更多或者更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。图示的部件可以以硬件、软件或者软件和硬件的组合来实现。

上述装置、系统内的各模块之间的信息交互、执行过程等内容，由于与本说明书方法实施例基于同一构思，具体内容可参见本说明书方法实施例中的叙述，此处不再赘述。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本领域技术人员应该可以意识到，在上述一个或多个示例中，本发明所描述的功能可以用硬件、软件、挂件或它们的任意组合来实现。当使用软件实现时，可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的技术方案的基础之上，所做的任何修改、等同替换、改进等，均应包括在本发明的保护范围之内。

Claims

1.人脸识别方法，包括：

获取待处理图像；该待处理图像中包括至少两个人体影像；

对每一个人体候选区域进行深度估计；

根据深度估计结果，得到每一个人体对应的深度值；

根据每一个人体对应的深度值，得到目标人脸。

2.根据权利要求1所述的方法，其中，所述对所述待处理图像进行全景分割包括：利用预先训练的全景分割模型对所述待处理图像进行全景分割；

3.根据权利要求1所述的方法，其中，所述对所述待处理图像进行全景分割包括：将待处理图像中各H*W*3的三维像素点输入预先训练的全景分割模型，得到该全景分割模型输出的对应于各人体候选区域的各一维数字；

所述对每一个人体候选区域进行深度估计，包括：

通过预先训练的深度估计模型的嵌入层将全景分割模型输出的各一维数字分别映射为各C维向量，利用各C维向量生成分割向量图；由所述深度估计模型的卷积神经网络对分割向量图进行特征提取，得到对应于每一个人体候选区域的深度图以及置信度图，其中，深度图中的每个像素值表征该像素对应的位置距离拍摄源的深度值，置信度图中的每个像素值表征该像素对应的深度值的置信度。

4.根据权利要求3所述的方法，其中，所述根据深度估计结果得到每一个人体对应的深度值，包括：

针对每一个人体候选区域，均执行：

5.根据权利要求1所述的方法，其中，所述根据每一个人体对应的深度值得到目标人脸，包括：

将对应最小深度值的人体的人脸确定为目标人脸；

或者，

6.根据权利要求1至5中任一所述的方法，其中，在所述获取待处理图像之后，并在所述得到目标人脸之前，进一步包括：

所述根据每一个人体对应的深度值得到目标人脸，包括：

7.人脸识别装置，包括：

8.根据权利要求7所述的装置，其中，所述全景分割模块配置为执行：将待处理图像中各H*W*3的三维像素点输入预先训练的全景分割模型，得到该全景分割模型输出的对应于不同人体候选区域的不同的一维数字；

深度估计模块配置为执行：通过预先训练的深度估计模型的嵌入层将全景分割模型输出的不同的一维数字分别映射为各C维向量，利用各C维向量生成分割向量图；由所述深度估计模型的卷积神经网络对分割向量图进行特征提取，得到对应于每一个人体候选区域的深度图以及置信度图，其中，深度图中的每个像素值表征该像素对应的位置距离拍摄所述待处理图像的相机的深度值，置信度图中的每个像素值表征该像素对应的深度值的置信度。

9.根据权利要求7或8所述的装置，进一步包括：

10.一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现权利要求1-6中任一项所述的方法。