CN112419388A

CN112419388A - 深度检测方法、装置、电子设备和计算机可读存储介质

Info

Publication number: CN112419388A
Application number: CN202011344694.2A
Authority: CN
Inventors: 李雷; 李健华; 王权; 钱晨
Original assignee: Shenzhen Sensetime Technology Co Ltd
Current assignee: Shenzhen Sensetime Technology Co Ltd
Priority date: 2020-11-24
Filing date: 2020-11-24
Publication date: 2021-02-26

Abstract

本公开提供了一种深度检测方法、装置、电子设备和计算机可读存储介质，该方法包括：获取图像采集设备采集的至少一帧图像，所述至少一帧图像包括当前帧图像；对所述当前帧图像进行单个人体的图像分割，得到目标人体的人体掩膜图像；对所述至少一帧图像进行人体关键点的检测，得出所述当前帧图像中至少一个人体的二维关键点信息和三维关键点信息；根据所述当前帧图像中至少一个人体的二维关键点信息和三维关键点信息、以及所述目标人体的人体掩膜图像，确定所述当前帧图像中所述目标人体的深度检测结果。

Description

深度检测方法、装置、电子设备和计算机可读存储介质

技术领域

本公开涉及计算机视觉处理技术，尤其涉及一种深度检测方法、装置、电子设备和计算机可读存储介质。

背景技术

在相关技术中，图像的单人深度检测技术在增强现实(Augmented Reality，AR)交互、虚拟拍照等应用中有着重要应用；在缺少三维深度相机等特殊硬件设备的场景中，如何实现图像的单人深度检测，是亟待解决的技术问题。

发明内容

本公开实施例提供一种深度检测方法、装置、电子设备和计算机可读存储介质。

本公开实施例的技术方案是这样实现的：

本公开实施例提供了一种深度检测方法，所述方法包括：

获取图像采集设备采集的至少一帧图像，所述至少一帧图像包括当前帧图像；

对所述当前帧图像进行单个人体的图像分割，得到目标人体的人体掩膜图像；

对所述至少一帧图像进行人体关键点的检测，得出所述当前帧图像中至少一个人体的二维关键点信息和三维关键点信息；

根据所述当前帧图像中至少一个人体的二维关键点信息和三维关键点信息、以及所述目标人体的人体掩膜图像，确定所述当前帧图像中所述目标人体的深度检测结果。

本公开的一些实施例中，所述根据所述当前帧图像中至少一个人体的二维关键点信息和三维关键点信息、以及所述目标人体的人体掩膜图像，确定所述当前帧图像中所述目标人体的深度检测结果，包括：

对所述当前帧图像中至少一个人体的二维关键点信息和三维关键点信息进行优化，得到优化处理后的所述当前帧图像中至少一个人体的二维关键点信息和三维关键点信息；

基于所述优化处理后的所述当前帧图像中至少一个人体的二维关键点信息和三维关键点信息、以及所述目标人体的人体掩膜图像，确定所述当前帧图像中所述目标人体的深度检测结果。

本公开的一些实施例中，所述二维关键点信息包括二维关键点的坐标信息，所述对所述当前帧图像中至少一个人体的二维关键点信息和三维关键点信息进行优化，得到优化处理后的所述当前帧图像中至少一个人体的二维关键点信息，包括：

响应于从所述当前帧图像未检测到目标人体的二维关键点，或者，从所述当前帧图像中目标人体的二维关键点对应的三维关键点未处于预设区域的情况，根据所述至少一帧图像的有效的历史帧图像中目标人体的二维关键点的坐标信息，得出优化处理后的所述当前帧图像中目标人体的二维关键点的坐标信息。

响应于所述当前帧图像中目标人体的二维关键点对应的三维关键点处于预设区域的情况，根据所述当前帧图像和所述至少一帧图像的有效的历史帧图像中目标人体的二维关键点的坐标信息，得到优化处理后的所述当前帧图像中目标人体的二维关键点的坐标信息。

本公开的一些实施例中，所述根据所述当前帧图像和所述至少一帧图像的有效的历史帧图像中目标人体的二维关键点的坐标信息，得到优化处理后的所述当前帧图像中目标人体的二维关键点的坐标信息，包括：

通过对所述当前帧图像和所述至少一帧图像中有效的历史帧图像的目标人体的二维关键点的坐标信息进行平均计算，得到优化处理后的所述当前帧图像中目标人体的二维关键点的坐标信息。

本公开的一些实施例中，所述方法还包括：

响应于从所述至少一帧图像中任意一帧图像检测到目标人体的二维关键点，且检测到所述任意一帧图像中目标人体的二维关键点对应的三维关键点处于预设区域的情况，确定所述任意一帧图像为有效的图像。

本公开的一些实施例中，所述检测到所述任意一帧图像中目标人体的二维关键点对应的三维关键点处于预设区域，包括：

根据所述当前帧图像中目标人体的二维关键点对应的三维关键点的坐标信息，确定所述当前帧图像中目标人体的二维关键点对应的三维关键点与所述图像采集设备的距离；

在所述距离小于或等于设定距离的情况下，确定所述当前帧图像中目标人体的二维关键点对应的三维关键点处于预设区域。

本公开的一些实施例中，所述对所述当前帧图像进行单个人体的图像分割，得到目标人体的人体掩膜图像，包括：

按照预先训练的单个人体的图像分割模型，对所述当前帧图像进行单个人体的图像分割，得到所述目标人体的人体掩膜图像。

通过将所述当前帧图像中至少一个人体的二维关键点信息与所述目标人体的人体掩膜图像进行匹配，得到所述当前帧图像中目标人体的二维关键点信息；

根据所述当前帧图像中目标人体的二维关键点信息对应的三维关键点信息，确定所述当前帧图像中所述目标人体的深度检测结果。

本公开的一些实施例中，所述通过将所述当前帧图像中至少一个人体的二维关键点信息与所述目标人体的人体掩膜图像进行匹配，得到所述当前帧图像中目标人体的二维关键点信息，包括：

在所述至少一个人体的二维关键点信息中，确定所述目标人体的二维关键点信息；所述目标人体的二维关键点信息为：与所述目标人体的人体掩膜图像的位置重叠度达到设定值的一个人体的二维关键点信息。

本公开的一些实施例中，所述根据所述当前帧图像中目标人体的二维关键点信息对应的三维关键点信息，确定所述当前帧图像中所述目标人体的深度检测结果，包括：

确定所述当前帧图像中目标人体的二维关键点对应的三维关键点的坐标信息；根据所述三维关键点的坐标信息，确定所述目标人体的二维关键点的深度信息；在与所述目标人体的二维关键点位置重叠的像素点中，确定与第一像素点相邻的像素点，将所述与第一像素点相邻的像素点的深度信息作为：所述第一像素点的深度信息；其中，所述第一像素点表示所述目标人体的人体掩膜图像或像素点集合中除与所述目标人体的二维关键点位置重叠的像素点之外的任一像素点，所述像素点集合包括：对所述目标人体的人体掩膜图像的像素点按照预设过滤方式进行过滤处理后的像素点。

本公开的一些实施例中，所述方法还包括：

在所述目标人体的人体掩膜图像内，基于所述当前帧图像中目标人体的二维关键点搜索所述二维关键点的连通区域，将所述目标人体的人体掩膜图像中所述连通区域不包含的像素点删除，得到所述像素点集合。

本公开的一些实施例中，所述方法还包括：

根据所述当前帧图像中所述目标人体的深度检测结果，确定所述目标人体与AR场景中至少一个目标对象的位置关系；

基于所述位置关系，确定所述目标人体和所述至少一个目标对象的组合呈现方式；

基于所述组合呈现方式，展示所述目标人体和所述至少一个目标对象相叠加的AR效果。

本公开的一些实施例中，所述图像采集设备采集的至少一帧图像为红绿蓝(RedGreen Blue，RGB)图像。

本公开实施例还提供了一种深度检测装置，所述装置包括：

获取模块，获取图像采集设备采集的至少一帧图像，所述至少一帧图像包括当前帧图像；

处理模块，用于对所述当前帧图像进行单个人体图像的分割，得到目标人体的人体掩膜图像；对所述至少一帧图像进行人体关键点的检测，得出所述当前帧图像中至少一个人体的二维关键点信息和三维关键点信息；

检测模块，用于根据所述当前帧图像中至少一个人体的二维关键点信息和三维关键点信息、以及所述目标人体的人体掩膜图像，确定所述当前帧图像中所述目标人体的深度检测结果。

本公开的一些实施例中，所述检测模块，用于根据所述当前帧图像中至少一个人体的二维关键点信息和三维关键点信息、以及所述目标人体的人体掩膜图像，确定所述当前帧图像中所述目标人体的深度检测结果，包括：

本公开的一些实施例中，所述二维关键点信息包括二维关键点的坐标信息；所述检测模块，用于对所述当前帧图像中至少一个人体的二维关键点信息和三维关键点信息进行优化，得到优化处理后的所述当前帧图像中至少一个人体的二维关键点信息，包括：

本公开的一些实施例中，所述检测模块，用于根据所述当前帧图像和所述至少一帧图像的有效的历史帧图像中目标人体的二维关键点的坐标信息，得到优化处理后的所述当前帧图像中目标人体的二维关键点的坐标信息，包括：

本公开的一些实施例中，所述处理模块，还用于：

本公开的一些实施例中，所述检测模块，用于检测到所述任意一帧图像中目标人体的二维关键点对应的三维关键点处于预设区域，包括：

本公开的一些实施例中，所述处理模块，用于对所述当前帧图像进行单个人体的图像分割，得到目标人体的人体掩膜图像，包括：

本公开的一些实施例中，所述检测模块，用于通过将所述当前帧图像中至少一个人体的二维关键点信息与所述目标人体的人体掩膜图像进行匹配，得到所述当前帧图像中目标人体的二维关键点信息，包括：

本公开的一些实施例中，所述检测模块，用于根据所述当前帧图像中目标人体的二维关键点信息对应的三维关键点信息，确定所述当前帧图像中所述目标人体的深度检测结果，包括：

本公开的一些实施例中，所述检测模块，还用于：

本公开的一些实施例中，所述处理模块，还用于：

本公开的一些实施例中，所述图像采集设备采集的至少一帧图像为RGB图像。

本公开实施例还提供了一种电子设备，所述电子设备包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，以实现上述任意一种深度检测方法。

本公开实施例还提供了一种计算机可读存储介质，存储有可执行指令，用于被处理器执行时，实现上述任意一种深度检测方法。

本公开实施例具有以下有益效果：

本公开实施例可以结合目标人体的人体掩膜图像以及至少一个人体的二维关键点和三维关键信息来确定目标人体的深度检测结果，无需通过三维深度相机等特殊硬件设备获取图像中人体的深度信息，因而，本公开实施例可以在不依赖于三维深度相机等特殊硬件设备的情况下，实现图像中的目标人体的深度检测，可以应用于AR交互、虚拟拍照等场景。

附图说明

图1是本公开实施例中终端与服务器连接的一个示意图；

图2A是本公开实施例的深度检测方法的一个可选的流程示意图；

图2B是本公开实施例提供的人体骨架二维关键点的示意图；

图3A是本公开实施例提供的目标人体的二维关键点的示意图；

图3B是本公开实施例提供的三维关键点和人体掩膜图像的示意图；

图4是本公开实施例提供的深度检测方法的另一个可选的流程示意图；

图5是本公开实施例提供的点云的示意图；

图6是本公开实施例提供的深度检测装置的一个可选的组成结构示意图；

图7是本公开实施例提供的电子设备的一个可选的组成结构示意图。

具体实施方式

以下结合附图及实施例，对本公开进行进一步详细说明。应当理解，此处所提供的实施例仅仅用以解释本公开，并不用于限定本公开。另外，以下所提供的实施例是用于实施本公开的部分实施例，而非提供实施本公开的全部实施例，在不冲突的情况下，本公开实施例记载的技术方案可以任意组合的方式实施。

需要说明的是，在本公开实施例中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的方法或者装置不仅包括所明确记载的要素，而且还包括没有明确列出的其他要素，或者是还包括为实施方法或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个......”限定的要素，并不排除在包括该要素的方法或者装置中还存在另外的相关要素(例如方法中的步骤或者装置中的单元，例如的单元可以是部分电路、部分处理器、部分程序或软件等等)。

例如，本公开实施例提供的深度检测方法包含了一系列的步骤，但是本公开实施例提供的深度检测方法不限于所记载的步骤，同样地，本公开实施例提供的深度检测装置包括了一系列模块，但是本公开实施例提供的装置不限于包括所明确记载的模块，还可以包括为获取相关信息、或基于信息进行处理时所需要设置的模块。

本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合，例如，包括A、B、C中的至少一种，可以表示包括从A、B和C构成的集合中选择的任意一个或多个元素。

在相关技术中，可以利用三维深度相机等特殊硬件，实现图像中人体的深度检测，这里的三维深度相机可以是具有双目摄像头并采用双目视觉技术获取深度信息的相机；但是，使用这些特殊硬件，会提高应用成本，在一定程度上限制了应用场景。

针对上述技术问题，本公开实施例提供一种深度检测方法、装置、电子设备及计算机可读存储介质，能够在不依赖于三维深度相机等特殊硬件设备的情况下，实现图像中的单人深度检测；本公开实施例提供的深度检测方法可以应用电子设备中，下面说明本公开实施例提供的电子设备的示例性应用。

在一些实施例中，本公开实施例提供的电子设备可以实施为AR眼镜、笔记本电脑、平板电脑、台式计算机、移动设备(例如，移动电话，便携式音乐播放器，个人数字助理，专用消息设备，便携式游戏设备)等各种具有图像采集设备的终端，图像采集设备可以是单目相机等设备，示例性地，终端可以是带有摄像头的手机，其中手机可以通过手持移动。

示例性的，终端在接收到图像采集设备采集的图像后，可以按照本公开实施例的深度检测方法对图像采集设备采集的图像进行深度检测，得到图像中目标人体的深度检测结果。

在一些实施例中，本公开实施例提供的电子设备也可以实施为与上述终端形成通信连接的服务器。图1是本公开实施例中终端与服务器连接的一个示意图，如图1所示，终端100通过网络101连接服务器102，网络101可以是广域网或者局域网，又或者是二者的组合。

在一些实施例中，服务器102可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content DeliveryNetwork，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本公开实施例中不做限制。

终端100用于通过图像采集设备采集当前移动位置上的图像；可以将采集到的图像发送至服务器102；服务器102在收到图像后，可以按照本公开实施例的深度检测方法对接收到的图像进行深度检测，得到图像中目标人体的深度检测结果。

下面结合上述记载的内容，说明本公开实施例的深度检测方法。

图2A为本公开实施例的深度检测方法的一个可选的流程示意图，如图2A所示，该流程可以包括：

步骤201：获取图像采集设备采集的至少一帧图像，至少一帧图像包括当前帧图像。

本公开实施例中，图像采集设备可以采集图像，并可以将包括当前帧图像的至少一帧图像发送至电子设备的处理器。

在一些实施例中，至少一帧图像包括当前帧图像(当前时刻采集的一帧图像)；在一些实施例中，至少一帧图像不仅包括当前帧图像，还包括历史帧图像，这里，历史帧图像表示图像采集设备采集的一帧或多帧历史图像。

在一些实施例中，在至少一帧图像为多帧图像的情况下，至少一帧图像可以是图像采集设备连续采集的连续帧图像，也可以是不连续的多帧图像，本公开实施例对此并不进行限定。

步骤202：对当前帧图像进行单个人体的图像分割，得到目标人体的人体掩膜图像。

本公开实施例中，可以按照预先训练的单个人体的图像分割模型，对当前帧图像进行单个人体图像的分割，得到目标人体的人体掩膜图像；这样，基于预先训练的单个人体的图像分割模型，可以直接得到目标人体的人体掩膜图像，具有便于实现的特点。

这里，目标人体的人体掩膜图像表示一个人体的图像；在一些实施例中，在当前帧图像中包括多个人体图像的情况下，利用单个人体的图像分割模型，可以从当前帧图像分割出目标人体的人体掩膜图像。

本公开实施例中，单个人体的图像分割模型可以是与人体图像的属性相关的模型，在一些实施例中，人体图像的属性可以包括面积、像素点的灰度值或其它属性；在一些实施例中，在人体的属性为面积的情况下，按照预先训练的单个人体的图像分割模型，对当前帧图像进行单个人体图像的分割，可以得到表征面积最大的一个人体的目标人体的人体掩膜图像。

需要说明的是，上述记载的内容仅仅是对图像分割模型的示例性说明，本公开实施例并不局限于此。

步骤203：对至少一帧图像进行人体关键点的检测，得出当前帧图像中至少一个人体的二维关键点信息和三维关键点信息；

本公开实施例中，二维关键点信息可以包括二维关键点的坐标信息，二维关键点用于表征在图像平面内的人体关键位置点，人体关键位置点包括但不限于五官、颈、肩、肘、手、臀、膝、脚等；二维关键点的坐标信息包括横坐标和纵坐标。

三维关键点信息可以包括三维关键点的坐标信息，这里，三维关键点的坐标信息表示三维关键点在相机坐标系的坐标，其中，相机坐标系表示以图像采集设备的聚焦中心为原点，以图像采集设备的光轴为Z轴建立的三维直角坐标系，相机坐标系的X轴和Y轴为图像平面的两个互相垂直的坐标轴。

在一些实施例中，在确定二维关键点信息之后，可以根据二维关键点信息，确定出二维关键点对应的三维关键点，并确定三维关键点的坐标信息；示例性的，可以预先训练关键点转换模型，该关键点转换模型用于实现二维关键点至三维关键点的转换；这样，在得到训练完成的关键点转换模型后，可以将二维关键点的坐标信息输入至训练完成的关键点转换模型，得到二维关键点对应的三维关键点以及三维关键点的坐标信息。需要说明的是，上述记载的内容仅仅是对得出三维关键的坐标信息的示例性说明，本公开实施例并不局限于此。

本公开的一些实施例中，上述二维关键点信息为表示人体骨架的二维关键点，三维关键点信息为表示人体骨架的三维关键点。

人体骨架的二维关键点用于表征在图像平面内的人体关键位置，人体关键位置包括但不限于五官、颈、肩、肘、手、臀、膝、脚等；人体关键位置可以根据实际情况预先设置；示例性地，参照图2B，人体骨架的二维关键点可以表示14个人体关键位置或17个人体关键位置，图2B中，空心圆圈表示14个人体关键位置，空心圆圈和实心圆点共同表示17个人体关键位置。

可以看出，本公开实施例可以得出每个人体骨架的二维关键点，并基于每个人体骨架的二维关键点确定每个人体的深度检测结果，由于图像中不同人体的深度检测依赖于不同人体的骨架的二维关键点，不同人体的骨架的二维关键点的相关性较小，因而，本公开实施例可以实现图像中多个人体的深度检测。

在一些实施例中，在上述至少一帧图像为多帧图像的情况下，可以对至少一帧图像进行人体关键点的检测和跟踪，得到当前帧图像中至少一个人体的二维关键点信息和三维关键点信息；可以理解地，基于多帧图像进行人体关键点的跟踪，有利于准确地得出当前帧图像中至少一个人体的二维关键点信息，进而有利于得到准确的三维关键点信息。

在一些实施例中，在上述至少一帧图像为连续帧图像的情况下，可以对连续帧图像进行人体关键点的检测和跟踪，得到当前帧图像中至少一个人体的二维关键点信息和三维关键点信息；可以理解地，基于连续帧图像进行人体关键点的跟踪，有利于进一步准确地得出当前帧图像中至少一个人体的二维关键点信息，进而有利于得到准确的三维关键点信息。

需要说明的是，本公开实施例并不对步骤202和步骤203的执行顺序进行限定，例如，步骤202可以在步骤203前执行，也可以在步骤203后执行；步骤202和步骤203还可以同时执行。

步骤204：根据当前帧图像中至少一个人体的二维关键点信息和三维关键点信息、以及目标人体的人体掩膜图像，确定当前帧图像中目标人体的深度检测结果。

在实际应用中，上述步骤201至步骤204可以基于电子设备的处理器实现，上述处理器可以是特定用途集成电路(Application Specific Integrated Circuit，ASIC)、数字信号处理器(Digital Signal Processor，DSP)、数字信号处理装置(Digital SignalProcessing Device，DSPD)、可编程逻辑装置(Programmable Logic Device，PLD)、现场可编程门阵列(Field Programmable Gate Array，F PGA)、中央处理器(Central ProcessingUnit，CPU)、控制器、微控制器、微处理器中的至少一种。可以理解地，实现上述处理器功能的电子器件还可以为其它，本公开实施例不作限制。

可以看出，本公开实施例可以结合目标人体的人体掩膜图像以及至少一个人体的二维关键点和三维关键信息来确定目标人体的深度检测结果，无需通过三维深度相机等特殊硬件设备获取图像中人体的深度信息，因而，本公开实施例可以在不依赖于三维深度相机等特殊硬件设备的情况下，实现图像中的目标人体的深度检测，可以应用于AR交互、虚拟拍照等场景。

在一些实施例中，上述图像采集设备采集的至少一帧图像为RGB图像；可以看出，本公开实施例可以基于容易获取的RGB图像实现目标人体的深度检测，具有容易实现的特点。

在一些实施例中，可以通过将当前帧图像中至少一个人体的二维关键点信息与目标人体的人体掩膜图像进行匹配，得到当前帧图像中目标人体的二维关键点信息；然后，根据当前帧图像中目标人体的二维关键点信息对应的三维关键点信息，确定当前帧图像中所述目标人体的深度检测结果。

可以看出，本公开实施例通过将当前帧图像中至少一个人体的二维关键点信息与目标人体的人体掩膜图像进行匹配，可以直接得出目标人体的二维关键点信息，进而确定目标人体的深度检测结果，即，可以在不依赖于三维深度相机等特殊硬件设备的情况下，实现图像中的目标人体的深度检测。

在一些实施例中，可以在上述至少一个人体的二维关键点信息中，确定目标人体的二维关键点信息；目标人体的二维关键点信息为：与目标人体的人体掩膜图像的位置重叠度达到设定值的一个人体的二维关键点信息。

这里，设定值可以是根据实际应用场景预先设置的数值，例如，设定值为在80％至90％之间；本公开实施例中，可以根据至少一个人体中每个人体的二维关键点的坐标信息、以及人体掩码图像的位置信息，确定每个人体的二维关键点信息与目标人体的人体掩膜图像的重叠度。

在一些实施例中，如果多个人体的二维关键点信息与目标人体的人体掩膜图像的位置重叠度达到设定值，则可以在上述多个人体的二维关键点信息中，选取与目标人体的人体掩膜图像的位置重叠度最高的一个人体的二维关键点信息，将选取的一个人体的二维关键点信息作为目标人体的二维关键点信息。

可以看出，本公开实施例中，可以根据二维关键点信息与目标人体的人体掩膜图像的位置重叠度，直接确定出目标人体的二维关键点信息，有利于准确地得到目标人体的二维关键点信息。

对于根据当前帧图像中目标人体的二维关键点信息对应的三维关键点信息，确定当前帧图像中所述目标人体的深度检测结果的实现方式，示例性地，可以确定当前帧图像中目标人体的二维关键点信息对应的三维关键点信息的坐标信息；根据三维关键点的坐标信息，确定目标人体的二维关键点的深度信息；在与目标人体的二维关键点位置重叠的像素点中，确定与第一像素点相邻的像素点，将与第一像素点相邻的像素点的深度信息作为：第一像素点的深度信息；其中，第一像素点表示目标人体的人体掩膜图像或像素点集合中除与目标人体的二维关键点位置重叠的像素点之外的任一像素点，像素点集合包括：对目标人体的人体掩膜图像的像素点按照预设过滤方式进行过滤处理后的像素点。

示例性的，由于二维关键点与三维关键点对应，因而，可以将目标人体的三维关键点的坐标信息作为目标人体的二维关键点的深度信息，这里，二维关键点的深度信息表示：与二维关键点位置重叠的像素点的深度信息。

如果目标人体的人体掩膜图像或像素点集合中任意一个像素点不是与二维关键点位置重叠的像素点，则可以认为上述任意一个像素点为第一像素点，此时，可以直接将第一像素点相邻的像素点作为第一像素点的深度信息；也就是说，对于第一像素点，可以在与二维关键点位置重叠的像素点中选取与第一像素点邻近的像素点，基于选取的像素点对应的三维关键点的Z轴坐标值，确定第一像素点的深度信息。

可以看出，本公开实施例对于目标人体的人体掩膜图像或像素点集合的任意像素点，均可以确定深度信息，可以全面地实现图像中目标人体的深度检测。

对于像素点集合的确定方式，示例性地，可以在目标人体的人体掩膜图像内，基于当前帧图像中目标人体的二维关键点搜索所述二维关键点的连通区域，将目标人体的人体掩膜图像中连通区域不包含的像素点删除，得到像素点集合。

在一些实施例中，在目标人体的人体掩膜图像内，以当前帧图像中目标人体的二维关键点为种子点，进行广度优先搜索，从而确定当前帧图像中目标人体的二维关键点搜索所述二维关键点的连通区域。

这里，目标人体的人体掩膜图像中连通区域不包含的像素点是在二维关键点基础上搜索不到的像素点，而二维关键点表示人体中的关键位置，因而，目标人体的人体掩膜图像中连通区域不包含的像素点可以认为是错误的像素点；通过将目标人体的人体掩膜图像中连通区域不包含的像素点删除，有利于提升目标人体的深度检测的准确度。

在一些实施例中，上述步骤204的实现方式可以是：

对当前帧图像中至少一个人体的二维关键点信息和三维关键点信息进行优化，得到优化处理后的所述当前帧图像中至少一个人体的二维关键点信息和三维关键点信息；

基于优化处理后的所述当前帧图像中至少一个人体的二维关键点信息和三维关键点信息、以及所述目标人体的人体掩膜图像，确定所述当前帧图像中所述目标人体的深度检测结果。

这里，可以首先得出优化处理后的所述当前帧图像中至少一个人体的二维关键点信息，然后，根据可以根据优化处理后的二维关键点信息，进一步确定出二维关键点对应的三维关键点，得到优化处理后的三维关键点的坐标信息。

下面对二维关键点信息的优化处理的过程进行示例性说明。

在一些实施例中，响应于至少一帧图像中任意一帧图像存在目标人体的二维关键点，且上述任意一帧图像中目标人体的二维关键点对应的三维关键点处于预设区域的情况，确定所述任意一帧图像为有效的图像。

本公开实施例中，在至少一帧图像中不包含人体图像时，或者，对至少一帧图像进行人体关键点的检测出现错误时，通过将当前帧图像中至少一个人体的二维关键点信息与目标人体的人体掩膜图像进行匹配，可能不能得到当前帧图像中目标人体的二维关键点信息，即出现至少一帧图像中任意一帧图像不存在目标人体的二维关键点的情况。可以理解地，由于三维关键点是根据二维关键点得出的，因而，在任意一帧图像不存在目标人体的二维关键点的情况下，可以确定上述任意一帧图像中不存在目标人体的三维关键点。

本公开实施例中，可以在确定目标人体的二维关键点对应的三维关键点的坐标信息后，根据三维关键点信息中的坐标信息，判断上述任意一帧图像中目标人体的二维关键点对应的三维关键点处于预设区域。

可以理解地，在确定出有效的图像后，后续可以针对有效的图像进行处理，有利于提升人体深度检测的准确性。在一些实施例中，对于有效的图像以外的图像，可以视为是无效的图像，省略对无效的图像的处理，如此，可以提升人体深度检测的准确性。

本公开实施例中，预设区域可以根据实际应用场景预先设置；在一些实施例中，可以根据当前帧图像中目标人体的二维关键点对应的三维关键点的坐标信息，确定当前帧图像中目标人体的二维关键点对应的三维关键点与图像采集设备的距离，在三维关键点与图像采集设备的距离大于设定距离的情况下，确定当前帧图像中目标人体的二维关键点对应的三维关键点未处于预设区域；在三维关键点与图像采集设备的距离小于或等于设定距离的情况下，可以确定当前帧图像中目标人体的二维关键点对应的三维关键点处于预设区域。

示例性的，三维关键点的坐标信息中Z轴的坐标值表示三维关键点与图像采集设备之间的距离，因而，可以根据三维关键点的坐标信息，判断三维关键点与图像采集设备的距离是否大于设定距离。

本公开实施例中，设定距离可以是根据实际应用需求预先设置的数据。

可以理解地，在三维关键点与图像采集设备的距离小于或等于设定距离的情况下，可以认为三维关键点为符合要求的关键点，此时，将对应的一帧图像为有效的图像，有利于后续准确地得出目标人体的深度检测结果。

需要说明的是，上述记载的内容仅仅是对预设区域进行了示例性说明，本公开实施例对此并不进行限定。

在一些实施例中，响应于从所述当前帧图像未检测到目标人体的二维关键点，或者，从所述当前帧图像中目标人体的二维关键点对应的三维关键点未处于预设区域的情况，可以根据所述至少一帧图像的有效的历史帧图像中目标人体的二维关键点的坐标信息，得出优化处理后的所述当前帧图像中目标人体的二维关键点的坐标信息。

在一些实施例中，响应于从所述当前帧图像未检测到目标人体的二维关键点，或者，从所述当前帧图像中目标人体的二维关键点对应的三维关键点未处于预设区域的情况，可以在至少一帧图像的有效的历史帧图像中，选取一帧图像，将选取的一帧图像中的目标人体的二维关键点的坐标信息作为优化处理后的所述当前帧图像中目标人体的二维关键点的坐标信息。

可以看出，本公开实施例中可以根据有效的历史帧图像中目标人体的二维关键点，得出优化处理后的当前帧图像的目标人体的二维关键点，有利于提升后续的人体深度检测结果的稳定性。

在一些实施例中，在至少一帧图像的有效的历史帧图像中选取一帧图像的实现方式可以是，在至少一帧图像的有效的历史帧图像中，选取与当前帧图像的时间间隔最小的一帧图像，例如，至少一帧图像按照时间先后顺序分别记为第1帧图像至第5帧图像，其中，第5帧图像为当前帧图像，第1帧图像至第3帧图像为有效的历史帧图像，第4帧图像为无效的历史帧图像，这样，在第5帧图像不存在目标人体的二维关键点的情况下，可以在第1帧图像至第3帧图像中，选取与当前帧图像的时间间隔最小的第3帧图像。

可以看出，根据与当前帧图像的时间间隔最小的历史帧图像，得到优化处理后的所述当前帧图像中至少一个人体的二维关键点信息，有利于准确地得出当前帧图像的目标人体的二维关键点信息。

在一些实施例中，响应于当前帧图像中目标人体的二维关键点对应的三维关键点处于预设区域的情况，可以根据当前帧图像和至少一帧图像的有效的历史帧图像中目标人体的二维关键点的坐标信息，得到优化处理后的所述当前帧图像中目标人体的二维关键点的坐标信息。

在一些实施例中，可以对当前帧图像和至少一帧图像中有效的历史帧图像中目标人体的二维关键点的坐标信息进行平均计算，得到优化处理后的所述当前帧图像中目标人体的二维关键点的坐标信息。

例如，至少一帧图像按照时间先后顺序分别记为第6帧图像至第8帧图像，其中，第8帧图像为当前帧图像，第6帧图像至第8帧图像均为有效的历史帧图像，这样，可以对第6帧图像至第8帧图像的目标人体的二维关键点的坐标信息进行平均计算，将平均计算的结果作为第8帧图像中目标人体的二维关键点的更新后坐标信息。

可以理解地，根据当前帧图像和至少一帧图像的有效的历史帧图像中目标人体的二维关键点的坐标信息，更新当前帧图像中目标人体的二维关键点的坐标信息，有利于对当前帧图像的二维关键点的坐标信息进行平滑处理。

下面结合附图对本公开实施例的深度检测方法进行进一步示例性说明。

图3A为本公开实施例中目标人体的二维关键点的示意图，如图3A所示，人体中圆圈表示当前帧图像中目标人体的二维关键点。

在确定当前帧图像中目标人体的二维关键点后，可以确定当前帧图像中目标人体的二维关键点信息对应的三维关键点信息；在一些实施例中，可以同时展示当前帧图像中目标人体的二维关键点对应的三维关键点和目标人体的人体掩膜图像；图3B为本公开实施例中三维关键点和目标人体的人体掩膜图像的示意图，如图3B所示，O点所在位置表示图像采集设备所在位置，O点所在位置显示有相机坐标系的三个坐标轴，目标人体的人体掩膜图像为图3B中所示的人体轮廓，目标人体的二维关键点对应的三维关键点为目标人体的人体掩膜图像后方的填充有点的图案。

基于前述实施例记载的内容，在确定当前帧图像中目标人体的二维关键点信息对应的三维关键点信息后，可以根据当前帧图像中目标人体的二维关键点信息对应的三维关键点信息，确定当前帧图像中所述目标人体的深度检测结果。

下面结合附图对本公开实施例的深度检测方法进行进一步说明。

图4为本公开实施例的深度检测方法的另一个可选的流程示意图，如图4所示，图像采集设备可以将采集的多帧图像发送至电子设备的处理器，这里，多帧图像包括当前帧图像和历史帧图像，多帧图像均为RGB图像；处理器可以对多帧图像的当前帧图像进行单个人体的图像分割，得到目标人体的人体掩膜图像；还可以基于多帧图像进行人体关键点的检测和跟踪，得到当前帧图像中至少一个人体的二维关键点信息和三维关键点信息。在得到当前帧图像中至少一个人体的二维关键点信息和三维关键点信息后，还可以执行后处理优化，后处理优化包括上述记载的对二维关键点信息和三维关键点信息进行优化的过程。

在执行后处理优化后，根据当前帧图像中至少一个人体的二维关键点信息和三维关键点信息、以及目标人体的掩膜图像，确定当前帧图像中目标人体的深度检测结果，基于当前帧图像中目标人体的深度检测结果生成目标人体的深度图，并可以将深度图展示在电子设备的显示界面中，实现人机交互。

在一些实施例中，还可以展示深度图中每个像素点对应的点云；图5为本公开实施例提供的点云的示意图，图5中，人体轮廓内的点表示像素点构成的点云，加粗的实心圆点表示骨架关键点，加粗的实心圆点之间的连线表示人体的骨架。

可以理解地，通过展示深度图中每个像素点对应的点云，便于直观地获知像素点的位置，进一步地，通过展示骨架关键点，有利于直观地了解像素点与骨架关键点之间的关系。

在一些实施例中，在得到当前帧图像中目标人体的深度检测结果，还可以基于目标人体的深度检测结果进行AR效果的展示。

在一些实施例中，可以根据当前帧图像中目标人体的深度检测结果，确定目标人体与AR场景中至少一个目标对象的位置关系；基于所述位置关系，确定目标人体和至少一个目标对象的组合呈现方式；基于组合呈现方式，展示目标人体和至少一个目标对象相叠加的AR效果。

这里，目标对象可以是现实场景中实际存在的对象，目标对象的深度信息可以已知的，或者，可以是根据目标对象的拍摄数据确定的信息；目标对象还可以是预先设置的虚拟对象，虚拟对象的深度信息是预先确定的。

在一种实施方式中，可以根据目标人体的深度检测结果和目标对象的深度信息，确定目标人体与AR场景中至少一个目标对象的位置关系；示例性地，目标人体与AR场景中目标对象的位置关系可以是以下几种情况：1)目标人体相较于目标对象更靠近图像采集设备，2)目标对象相较于目标人体更靠近图像采集设备，3)单人人体位于目标对象的右侧、左侧、上侧或下侧，4)单人人体的一部分相较于目标对象更靠近图像采集设备，另一部分相较于目标对象远离图像采集设备；需要说明的是，上述仅仅是对目标人体与AR场景中目标对象的位置关系进行了示例性说明，本公开实施例并不局限于此。

在确定目标人体和至少一个目标对象的位置关系后，可以确定目标人体和至少一个目标对象的组合呈现方式，使组合呈现方式反映上述位置关系，这样，基于组合呈现方式，展示目标人体和至少一个目标对象相叠加的AR效果，有利于提升AR展示效果。

基于前述实施例记载的深度检测方法，本公开实施例还提供了一种深度检测装置，该深度检测装置可以位于上述记载的电子设备中。

图6为本公开实施例提供的深度检测装置的一个可选的组成结构示意图，如图6所示，该深度检测装置600可以包括：

获取模块601，获取图像采集设备采集的至少一帧图像，所述至少一帧图像包括当前帧图像；

处理模块602，用于对所述当前帧图像进行单个人体图像的分割，得到目标人体的人体掩膜图像；对所述至少一帧图像进行人体关键点的检测，得出所述当前帧图像中至少一个人体的二维关键点信息和三维关键点信息；

检测模块603，用于根据所述当前帧图像中至少一个人体的二维关键点信息和三维关键点信息、以及所述目标人体的人体掩膜图像，确定所述当前帧图像中所述目标人体的深度检测结果。

本公开的一些实施例中，所述检测模块603，用于根据所述当前帧图像中至少一个人体的二维关键点信息和三维关键点信息、以及所述目标人体的人体掩膜图像，确定所述当前帧图像中所述目标人体的深度检测结果，包括：

本公开的一些实施例中，所述二维关键点信息包括二维关键点的坐标信息；所述检测模块603，用于对所述当前帧图像中至少一个人体的二维关键点信息和三维关键点信息进行优化，得到优化处理后的所述当前帧图像中至少一个人体的二维关键点信息，包括：

本公开的一些实施例中，所述检测模块603，用于根据所述当前帧图像和所述至少一帧图像的有效的历史帧图像中目标人体的二维关键点的坐标信息，得到优化处理后的所述当前帧图像中目标人体的二维关键点的坐标信息，包括：

本公开的一些实施例中，所述处理模块602，还用于：

本公开的一些实施例中，所述检测模块603，用于检测到所述任意一帧图像中目标人体的二维关键点对应的三维关键点处于预设区域，包括：

根据所述当前帧图像中目标人体的二维关键点对应的三维关键点的坐标信息，确定所述当前帧图像中目标人体的二维关键点对应的三维关键点与所述图像采集设备的距离，在所述距离小于或等于设定距离的情况下，确定所述当前帧图像中目标人体的二维关键点对应的三维关键点处于预设区域。

本公开的一些实施例中，所述处理模块602，用于对所述当前帧图像进行单个人体的图像分割，得到目标人体的人体掩膜图像，包括：

本公开的一些实施例中，所述检测模块603，用于通过将所述当前帧图像中至少一个人体的二维关键点信息与所述目标人体的人体掩膜图像进行匹配，得到所述当前帧图像中目标人体的二维关键点信息，包括：

本公开的一些实施例中，所述检测模块603，用于根据所述当前帧图像中目标人体的二维关键点信息对应的三维关键点信息，确定所述当前帧图像中所述目标人体的深度检测结果，包括：

本公开的一些实施例中，所述检测模块603，还用于：

本公开的一些实施例中，所述处理模块602，还用于：

需要说明的是，以上装置实施例的描述，与上述方法实施例的描述是类似的，具有同方法实施例相似的有益效果。对于本公开装置实施例中未披露的技术细节，请参照本公开方法实施例的描述而理解。

需要说明的是，本公开实施例中，如果以软件功能模块的形式实现上述的展示方法，并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本公开实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是终端、服务器等)执行本公开各个实施例所述方法的全部或部分。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read Only Memory，ROM)、磁碟或者光盘等各种可以存储程序代码的介质。这样，本公开实施例不限制于任何特定的硬件和软件结合。

对应地，本公开实施例再提供一种计算机程序产品，所述计算机程序产品包括计算机可执行指令，该计算机可执行指令用于实现本公开实施例提供的深度检测方法中的步骤。

相应的，本公开实施例再提供一种计算机存储介质，所述计算机存储介质上存储有计算机可执行指令，该计算机可执行指令用于实现上述实施例提供的深度检测方法的步骤。

本公开实施例还提供一种电子设备，图7为本公开实施例提供的电子设备的一个可选的组成结构示意图，如图7所示，所述电子设备700包括：

存储器701，用于存储可执行指令；

处理器702，用于执行所述存储器中存储的可执行指令时，以实现上述任意一种深度检测方法。

存储器701配置为存储由处理器702计算机程序和应用，还可以缓存待处理器702以及电子设备中各模块待处理或已经处理的数据(例如，图像数据、音频数据、语音通信数据和视频通信数据)，可以通过闪存(FLASH)或随机访问存储器(Random Access Memory，RAM)实现。

处理器702执行程序时实现上述任一项深度检测方法。

上述处理器702可以为ASIC、DSP、DSPD、PLD、FPGA、CPU、控制器、微控制器、微处理器中的至少一种。可以理解地，实现上述处理器功能的电子器件还可以为其它，本公开实施例不作限制。

上述计算机可读存储介质/存储器可以是ROM、可编程只读存储器(ProgrammableRead-Only Memory，PROM)、可擦除可编程只读存储器(Erasable Programmable Read-OnlyMemory，EPROM)、电可擦除可编程只读存储器(Electrically Erasable ProgrammableRead-Only Memory，EEPROM)、磁性随机存取存储器(Ferromagnetic Random AccessMemory，FRAM)、快闪存储器(Flash Memory)、磁表面存储器、光盘、或只读光盘(CompactDisc Read-Only Memory，CD-ROM)等存储器；也可以是包括上述存储器之一或任意组合的各种终端，如移动电话、计算机、平板设备、个人数字助理等。

这里需要指出的是：以上存储介质和设备实施例的描述，与上述方法实施例的描述是类似的，具有同方法实施例相似的有益效果。对于本公开存储介质和设备实施例中未披露的技术细节，请参照本公开方法实施例的描述而理解。

应理解，说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本公开的至少一个实施例中。因此，在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外，这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。应理解，在本公开的各种实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本公开实施例的实施过程构成任何限定。上述本公开实施例序号仅仅为了描述，不代表实施例的优劣。

在本公开所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元；既可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本公开实施例方案的目的。

另外，在本公开各实施例中的各功能单元可以全部集成在一个处理单元中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

或者，本公开上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本公开实施例的技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得设备自动测试线执行本公开各个实施例所述方法的全部或部分。而前述的存储介质包括：移动存储设备、ROM、磁碟或者光盘等各种可以存储程序代码的介质。

本公开所提供的几个方法实施例中所揭露的方法，在不冲突的情况下可以任意组合，得到新的方法实施例。

本公开所提供的几个方法或设备实施例中所揭露的特征，在不冲突的情况下可以任意组合，得到新的方法实施例或设备实施例。

以上所述，仅为本公开的实施方式，但本公开的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本公开揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本公开的保护范围之内。因此，本公开的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种深度检测方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述根据所述当前帧图像中至少一个人体的二维关键点信息和三维关键点信息、以及所述目标人体的人体掩膜图像，确定所述当前帧图像中所述目标人体的深度检测结果，包括：

3.根据权利要求2所述的方法，其特征在于，所述二维关键点信息包括二维关键点的坐标信息，所述对所述当前帧图像中至少一个人体的二维关键点信息和三维关键点信息进行优化，得到优化处理后的所述当前帧图像中至少一个人体的二维关键点信息，包括：

4.根据权利要求2所述的方法，其特征在于，所述二维关键点信息包括二维关键点的坐标信息，所述对所述当前帧图像中至少一个人体的二维关键点信息和三维关键点信息进行优化，得到优化处理后的所述当前帧图像中至少一个人体的二维关键点信息，包括：

5.根据权利要求4所述的方法，其特征在于，所述根据所述当前帧图像和所述至少一帧图像的有效的历史帧图像中目标人体的二维关键点的坐标信息，得到优化处理后的所述当前帧图像中目标人体的二维关键点的坐标信息，包括：

6.根据权利要求3至5任一所述的方法，其特征在于，所述方法还包括：

7.根据权利要求6所述的方法，其特征在于，所述检测到所述任意一帧图像中目标人体的二维关键点对应的三维关键点处于预设区域，包括：

8.根据权利要求1至7任一项所述的方法，其特征在于，所述对所述当前帧图像进行单个人体的图像分割，得到目标人体的人体掩膜图像，包括：

9.根据权利要求1至8任一项所述的方法，其特征在于，所述根据所述当前帧图像中至少一个人体的二维关键点信息和三维关键点信息、以及所述目标人体的人体掩膜图像，确定所述当前帧图像中所述目标人体的深度检测结果，包括：

10.根据权利要求9所述的方法，其特征在于，所述通过将所述当前帧图像中至少一个人体的二维关键点信息与所述目标人体的人体掩膜图像进行匹配，得到所述当前帧图像中目标人体的二维关键点信息，包括：

11.根据权利要求9所述的方法，其特征在于，所述根据所述当前帧图像中目标人体的二维关键点信息对应的三维关键点信息，确定所述当前帧图像中所述目标人体的深度检测结果，包括：

12.根据权利要求10所述的方法，其特征在于，所述方法还包括：

13.根据权利要求1至12任一项所述的方法，其特征在于，所述方法还包括：

根据所述当前帧图像中所述目标人体的深度检测结果，确定所述目标人体与增强现实AR场景中至少一个目标对象的位置关系；

14.根据权利要求1至13任一项所述的方法，其特征在于，所述图像采集设备采集的至少一帧图像为红绿蓝RGB图像。

15.一种深度检测装置，其特征在于，所述装置包括：

16.一种电子设备，其特征在于，所述电子设备包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，以实现权利要求1至14任一项所述的方法。

17.一种计算机可读存储介质，其特征在于，存储有可执行指令，用于被处理器执行时，实现权利要求1至14任一项所述的方法。