CN115862074B

CN115862074B - 人体指向确定、屏幕控制方法、装置及相关设备

Info

Publication number: CN115862074B
Application number: CN202310174852.1A
Authority: CN
Inventors: 李渊强; 殷保才; 高建清; 李华清; 张圆; 龙思源; 孙境廷
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2023-02-28
Filing date: 2023-02-28
Publication date: 2023-05-30
Anticipated expiration: 2043-02-28
Also published as: CN115862074A

Abstract

本申请公开了一种人体指向确定、屏幕控制方法、装置及相关设备，本申请获取对人体采集的图像数据，该图像数据至少包括深度点云图像，基于图像数据，提取人体姿态特征，基于提取的人体姿态特征确定每一人体关键点的空间坐标及对应的指向角度，人体关键点不小于2个，基于每一人体关键点的空间坐标及对应的指向角度，计算每一人体关键点对应的人体指向点信息，进而结合各个人体关键点对应的人体指向点信息，来得到更加精准的最终人体指向点信息，由于综合考虑了多个不同的人体关键点所对应的人体指向点信息得到最终的人体指向点信息，可以避免单个人体关键点所存在的误差，大大提高最终的人体指向点预测的准确性和稳定性。

Description

人体指向确定、屏幕控制方法、装置及相关设备

技术领域

本申请涉及图像处理技术领域，更具体的说，是涉及一种人体指向确定、屏幕控制方法、装置及相关设备。

背景技术

随着技术的发展，人机交互的使用越来越广泛，更自由的人机交互可以脱离偏远平台的遥控，实现更加自由的交互，并允许机器人进行一些自主行为。人体指向可以在人机交互中发挥重要作用，更加准确的人机交互方案可以带来更好的体验。

传统的人体指向预测方案主要基于穿戴式设备或人体姿态运动。基于穿戴式设备的方案需要用户佩戴指定硬件传感器，通过传感器获取人体姿态，从而预测人体指向，这种方式成本较高，且不方便用户的使用。基于人体姿态运动的方案一般是在对人体拍摄的影像中标记出人体部位，如头部、手臂等位置，进而将从头部至手臂的连线的延长线与地面的交点，估计为人体指向点。但是，人体的肢体动作变化程度较大，导致上述方式估计的人体指向结果准确度较低。

发明内容

鉴于上述问题，提出了本申请以便提供一种人体指向确定、屏幕控制方法、装置及相关设备，以实现提升计算的人体指向信息的准确度的目的。具体方案如下：

第一方面，提供了一种人体指向确定方法，包括：

获取对人体采集的图像数据，所述图像数据包括深度点云图像；

基于所述图像数据，提取人体姿态特征；

基于所述人体姿态特征，确定每一人体关键点的空间坐标及对应的指向角度，所述人体关键点的数量大于等于2；

基于每一人体关键点的空间坐标及对应的指向角度，计算与每一人体关键点对应的人体指向点信息；

基于各人体关键点对应的人体指向点信息，得到最终的人体指向点信息。

第二方面，提供了一种人体指向确定装置，包括：

图像数据获取单元，用于获取对人体采集的图像数据，所述图像数据包括深度点云图像；

特征提取单元，用于基于所述图像数据，提取人体姿态特征；

人体关键点信息确定单元，用于基于所述人体姿态特征，确定每一人体关键点的空间坐标及对应的指向角度，所述人体关键点的数量大于等于2；

初步人体指向点信息确定单元，用于基于每一人体关键点的空间坐标及对应的指向角度，计算与每一人体关键点对应的人体指向点信息；

最终人体指向点信息确定单元，用于基于各人体关键点对应的人体指向点信息，得到最终的人体指向点信息。

第三方面，提供了一种智能机器人，包括：

设备本体；

设置在所述设备本体上的传感器，所述传感器用于获取对人体采集的图像数据，所述图像数据包括深度点云图像；

与所述传感器连接的处理器，用于采用上述的人体指向确定方法得到人体指向点坐标。

第四方面，提供了一种屏幕控制方法，包括：

采用前述人体指向确定方法，得到目标屏幕上的人体指向点坐标；

对所述目标屏幕上所述人体指向点坐标处的目标控件，执行设定的操作。

第五方面，提供了一种存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，实现如前所述的人体指向确定方法的各个步骤。

借由上述技术方案，本申请获取对人体采集的图像数据，该图像数据至少包括深度点云图像。由于人体指向只受到身体姿态的影响，为此，本申请基于图像数据，提取人体姿态特征，进一步，本申请可以预先选定若干个与人体指向确定相关的人体关键点，示例如头部、肩部、手臂、手肘等，考虑到单个人体关键点进行指向估计时可能存在的误差，本申请可以选取2个以上的人体关键点。各人体关键点可以通过不同的姿态来表征人体指向点信息。在此基础上，基于提取的人体姿态特征确定每一人体关键点的空间坐标及对应的指向角度，该指向角度可以理解为基于人体姿态特征所确定的，由该人体关键点指人体指向点的指向角度，至此本申请可以得到多个不同的人体关键点的空间坐标，及每一人体关键点对应的指向角度。可以基于每一人体关键点的空间坐标及对应的指向角度，计算每一人体关键点对应的人体指向点信息，进而结合各个人体关键点对应的人体指向点信息，来得到更加精准的最终人体指向点信息，由于综合考虑了多个不同的人体关键点所对应的人体指向点信息得到最终的人体指向点信息，可以避免单个人体关键点所存在的误差，大大提高最终的人体指向点预测的准确性和稳定性。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本申请的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1为本申请实施例提供的人体指向确定方法的一流程示意图；

图2示例了一种人体关键点的空间坐标及对应的指向角度向量的示意图；

图3示例了一种人体指向确定模型的网络结构示意图；

图4示例了一种人体指向点位于水平地面的示意图；

图5示例了一种人体指向点位于竖直墙面的示意图；

图6为本申请实施例公开的一种人体指向确定装置结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请提供了一种人体指向确定方案，可以适用于各种场景下需要进行人体指向信息估计的任务，示例如智能机器人在工作场景下需要估计人体指向点信息，进而执行与人体指向点信息相关的处理任务，如定向移动、规避、跟随等，或者是，在与屏幕交互过程，可以基于用户的躯体姿态指向屏幕上的某个点，进而实现自动对屏幕上用户指向的点处的控件进行操作的目的。

本申请方案可以基于具备数据处理能力的终端实现，如获取传感器设备上传的图像数据后，执行人体指向确定算法得到人体指向点信息，该终端可以是电脑、服务器、云端、智能机器人等。

接下来，结合图1所述，本申请的人体指向确定方法可以包括如下步骤：

步骤S100、获取对人体采集的图像数据。

其中，所述图像数据包括深度点云图像。可以利用点云采集设备采集人体的深度点云图像。点云采集设备包括但不限于：tof相机、结构光、激光扫描、双目立体视觉等。

进一步可选的，为了提升数据的丰富性，采集的图像数据还可以包括对人体拍摄的目标图像，该目标图像可以是RGB图像或其它类型的图像，可以通过相机来拍摄得到目标图像，相机包括但不限于：普通相机、广角相机、鱼眼相机等。

由于获取的深度点云图像中可能缺失部分点云数据，而通过相机拍摄的目标图像其分辨率一般较高，其包含了更加丰富的信息，因此可以同时采集目标图像和深度点云图像，以弥补单纯的深度点云图像容易存在部分点云缺失的问题。

步骤S110、基于所述图像数据，提取人体姿态特征。

具体地，人体指向受到人体姿态的影响，因此本步骤中可以从图像数据中提取人体姿态特征，以供后续计算使用。

本步骤中，提取人体姿态特征的过程，可以采用人体姿态估计算法，从图像数据中提取出人体姿态特征。当然，除此之外还可以采用其他方式，如通过预训练的神经网络模型从图像数据中提取人体姿态特征。示例如，可以预先训练与人体姿态相关的任务模型，如人体姿态识别模型、对象分类模型等，进而基于预训练的任务模型对图像数据进行处理，以得到模型隐层所提取的深度特征，作为人体姿态特征。

上述仅示例了几种提取人体姿态特征的可选实施方式，本申请下述实施例中对该过程进一步进行介绍。

步骤S120、基于所述人体姿态特征，确定每一人体关键点的空间坐标及对应的指向角度，所述人体关键点的数量大于等于2。

具体地，人体关键点可以是预先选定的人体上的若干个与指向估计相关的部位，示例如头部、肩部、手臂、手肘等。考虑到单个人体关键点进行指向估计时可能存在的误差，本申请可以选取2个以上的人体关键点。各人体关键点可以通过不同的姿态来表征人体指向点信息，也即，每个人体关键点均可以单独来表征人体指向点信息，通过综合各个人体关键点所表征的人体指向点信息，可以提升人体指向估计的准确性和稳定性。

可以理解的是，上一步骤中从图像数据中提取的人体姿态特征，包含了各个人体关键点的姿态信息，该姿态信息可以包括人体关键点的空间坐标信息，以及该人体关键点所表征的指向角度信息。其中，指向角度可以理解为，由人体关键点至人体指向点的角度，其可以通过角度向量的形式表示。

结合图2所示，其示例了一个人体关键点的空间坐标及对应的指向角度向量的示意图。其中，人体关键点的空间坐标表示为：（x,y,z），指向角度向量表示为：（e_x, e_y, e_z）。

可以理解的是，本实施例中可以得到与每个人体关键点对应的一组数据，该一组数据包括人体关键点的空间坐标及指向角度。则，若预先设定了N个人体关键点，则一共可以得到N组数据。

步骤S130、基于每一人体关键点的空间坐标及对应的指向角度，计算与每一人体关键点对应的人体指向点信息。

具体地，上一步骤中得到了每个人体关键点对应的空间坐标及指向角度，进而可以根据指向点所在的平面，结合几何关系，计算得到由每个人体关键点所确定的人体指向点信息。也即，在设定的人体关键点为N个的情况下，本步骤中可以得到N个人体指向点信息。

步骤S140、基于各人体关键点对应的人体指向点信息，得到最终的人体指向点信息。

考虑到单个人体关键点进行人体指向估计所存在的误差及偶然性，本步骤中可以综合各个人体关键点对应的人体指向点信息，计算更加精确的最终的人体指向点信息，作为人体指向估计结果。

本申请实施例提供的人体指向确定方法，获取对人体采集的图像数据，该图像数据至少包括深度点云图像。由于人体指向只受到身体姿态的影响，为此，本申请基于图像数据，提取人体姿态特征，进一步，本申请可以预先选定若干个与人体指向确定相关的人体关键点，示例如头部、肩部、手臂、手肘等，考虑到单个人体关键点进行指向估计时可能存在的误差，本申请可以选取2个以上的人体关键点。各人体关键点可以通过不同的姿态来表征人体指向点信息。在此基础上，基于提取的人体姿态特征确定每一人体关键点的空间坐标及对应的指向角度，该指向角度可以理解为基于人体姿态特征所确定的，由该人体关键点指人体指向点的指向角度，至此本申请可以得到多个不同的人体关键点的空间坐标，及每一人体关键点对应的指向角度。可以基于每一人体关键点的空间坐标及对应的指向角度，计算每一人体关键点对应的人体指向点信息，进而结合各个人体关键点对应的人体指向点信息，来得到更加精准的最终人体指向点信息，由于综合考虑了多个不同的人体关键点所对应的人体指向点信息得到最终的人体指向点信息，可以避免单个人体关键点所存在的误差，大大提高最终的人体指向点预测的准确性和稳定性。

上述实施例中已经说明，步骤S100获取的图像数据中包括深度点云图像。除此之外，为了丰富数据类型，还可以获取其它模态的图像数据，如对人体拍摄的目标图像，如RGB图像等。

当图像数据同时包括深度点云图像和目标图像时，考虑到不同模态的图像数据可能通过不同的传感器采集，而不同传感器的视野不同，因此在执行步骤S110，基于所述图像数据，提取人体姿态特征之前，可以进一步对目标图像和深度点云图像进行配准。

具体地，可以根据采集目标图像的传感器，和采集深度点云图像的传感器各自的内外参数，对目标图像和深度点云图像进行配准对齐。

进一步地，考虑到目标图像和深度点云图像中可能包含除人体之外的其余环境物，这些信息对于人体指向估计属于干扰信息，因此可以分别从配准后的目标图像和深度点云图像中，提取人体区域，也即，在配准后的目标图像中提取人体区域掩码图，以及，在配准后的深度点云图像中提取人体区域深度点云图。

上述提取人体区域的过程可以采用人体检测算法或分割模型，以实现从目标图像、深度点云图像中提取出人体所在区域。

在此基础上，步骤S110中可以将提取到的人体区域掩码图和人体区域深度点云图作为待处理的图像数据，从该待处理的图像数据中提取人体姿态特征。

在本申请的一些实施例中，介绍了上述步骤S110提取人体姿态特征，及步骤S120确定每一人体关键点的空间坐标及对应的指向角度的一种可选实现方式，具体地，可以通过预先训练的人体指向确定模型实现。

结合图3所示，本实施例介绍了人体指向确定模型的一种可选组成结构。

人体指向确定模型可以包括特征提取网络及与每一人体关键点对应的人体指向预测网络。

其中，人体指向预测网络的个数与人体关键点的数量相同，如图3所示，在人体关键点为N个时，对应的人体指向预测网络的个数也为N个。

可选的，上述人体指向确定模型可以采用端到端结构，也即模型中包含的特征提取网络和各人体指向预测网络可以统一进行训练，得到端到端结构的人体指向确定模型。

通过端到端的人体指向确定模型，极大降低了利用多模型完成各阶段任务再混合处理的模型复杂度及部署难度。可以有效的促进人体指向技术在有限算力的边缘设备上的部署，促进例如家庭机器人、服务机器人、陪伴机器人以及自动驾驶等相关人工智能应用的产生与发展。

接下来，分别对各网络进行介绍。

特征提取网络用于，从所述图像数据中提取深层的人体姿态特征。

具体地，特征提取网络可以采用不同的backbone结构，示例如ResNet、GoolgleNet等网络。用于从图像数据中提取深层特征，作为人体姿态特征。

需要说明的是，若图像数据同时包含目标图像和深度点云图像，则特征提取网络可以分别对目标图像和深度点云图像提取深层特征，并将提取的深层特征进行融合，得到融合后的深层特征作为人体姿态特征。

与每一人体关键点对应的人体指向预测网络用于，基于所述人体姿态特征，预测所对应的人体关键点的空间坐标及对应的指向角度。

具体地，人体指向确定模型中的人体指向预测网络与人体关键点是一一对应关系，也即，一个人体指向预测网络对应一个人体关键点，用于预测所对应的人体关键点的空间坐标和指向角度。

每个人体指向预测网络可以包括多个卷积层。

其中，人体关键点的空间坐标可以表示为（x_i，y_i，z_i），指向角度可以采用角度向量形式，表示为（e_ix，e_iy，e_iz），其中i表示第i个人体关键点，取值从1至N。

接下来，对上述人体指向确定模型的训练过程进行说明。

本实施例中，提供了人体指向确定模型的两种不同的训练方式，分别介绍如下：

第一种、

人体指向确定模型可以以训练图像数据作为训练样本，以训练图像数据中各人体关键点的空间坐标及对应的指向角度作为样本标签训练得到。

其中，所述训练样本及样本标签的获取过程，可以包括：

1）、在人体指向预设标志点的姿态下，获取相机对人体拍摄的训练图像数据，作为训练样本。

具体地，可以将相机位置固定后，在设定位置摆设标志点，由用户指向该标志点。进而，获取相机对用户拍摄的图像数据，作为训练样本。

这里，相机可以包括普通相机、深度相机等，拍摄的图像数据可以包括RGB图像、深度点云图像中的一种或两种。

2）、获取标注的所述训练图像数据中各人体关键点的空间坐标。

在上一步骤得到训练图像数据后，可以由用户对图像数据中的人体关键点进行标定，进而得到标定的人体关键点的空间坐标。

3）、基于标注的每一人体关键点的空间坐标及所述预设标志点的空间坐标，计算每一人体关键点的指向角度。

具体地，预设标志点的空间坐标可以表示为（x_g，y_g，z_g），则第i个人体关键点的指向角度可以表示为：

其中，

表示指向角度向量，/>

表示第i个人体关键点的空间坐标，norm表示向量归一化操作。

4）、由标注的各人体关键点的空间坐标及对应的指向角度作为样本标签。

基于上述获取的训练数据，对模型训练过程进行介绍，其可以包括：

S11、将所述训练样本输入人体指向确定模型，得到模型输出的各人体关键点的空间坐标及对应的指向角度。

S12、利用模型输出的各人体关键点的空间坐标及对应的指向角度，以及作为样本标签的各人体关键点的空间坐标及对应的指向角度，计算模型损失。

具体地，可以采用均方损失函数计算模型损失Loss：

其中，N为人体关键点个数，

表示第i个人体关键点的空间坐标的样本标签，/>

表示模型预测的第i个人体关键点的空间坐标，/>

表示第i个人体关键点的指向角度的样本标签，/>

表示模型预测的第i个人体关键点的指向角度。

S13、基于所述模型损失训练人体指向确定模型的网络参数。

一种可选的方式中，为了提升训练的人体指向确定模型的鲁棒性，在将所述训练样本输入人体指向确定模型之前，可以增加对训练图像数据中的训练深度点云图像进行数据增强的处理，具体地：

可以随机对训练深度点云图像中的部分人体关键点进行遮挡，得到增强后训练深度点云图像，以此来模仿现实情况中获取的深度点云图像存在部分点云数据缺失的情形。

第二种、

人体指向确定模型可以以训练图像数据作为训练样本，以训练图像数据中人体指向的预设标志点的空间坐标作为样本标签训练得到。

其中，所述训练样本及样本标签的获取过程，可以包括：

在人体指向预设标志点的姿态下，获取相机对人体拍摄的训练图像数据，作为训练样本，并将预设标志点的空间坐标作为样本标签。

S21、将所述训练样本输入人体指向确定模型，得到模型输出的各人体关键点的空间坐标及对应的指向角度。

S22、基于模型输出的每一人体关键点的空间坐标及对应的指向角度，计算与每一人体关键点对应的人体指向点信息。

具体的，若人体关键点有N个，则本步骤中可以计算得到N个人体关键点各自对应的人体指向点信息P_i。

S23、利用计算得到的与每一人体关键点对应的人体指向点信息，及作为样本标签的所述预设标志点的空间坐标，计算模型损失。

具体地，可以采用均方损失函数计算模型损失Loss：

其中，N为人体关键点个数，

表示作为样本标签的预设标志点的空间坐标，P_i表示步骤S22中计算得到的第i个人体关键点对应的人体指向点坐标。

S24、基于所述模型损失训练人体指向确定模型的网络参数。

在本申请的一些实施例中，对上述步骤S130，基于每一人体关键点的空间坐标及对应的指向角度，计算与每一人体关键点对应的人体指向点信息的过程进行介绍。

本实施例中，以指向角度表示为指向角度向量形式为例。第i个人体关键点的空间坐标表示为

，第i个人体关键点的指向角度向量表示为/>

。

对于人体指向点，在不同的场景下人体指向点所在的平面可能不同。本实施例中仅示例人体指向点位于水平地面和竖直墙面两种情况下的计算过程。

在人体指向点位于水平地面上时（示例如，用户通过手势控制机器人移动的场景）：

将每一人体关键点的空间坐标

投影到水平地面上，得到人体关键点的投影坐标，以及，将每一人体关键点对应的指向角度向量/>

投影到水平地面上，得到人体关键点对应的投影角度向量。

基于每一人体关键点的投影坐标及对应的投影角度向量，计算人体指向点在水平地面上的坐标信息。

结合图4示例的人体指向点位于XOZ平面内时，可以按照下述公式计算第i个人体关键点对应的人体指向点在水平地面上的坐标

：

在人体指向点位于竖直平面上时（示例如，用户通过肢体与竖直放置的屏幕进行交互的场景）：

将每一人体关键点的空间坐标

投影到竖直墙面上，得到人体关键点的投影坐标，以及，将每一人体关键点对应的指向角度向量/>

投影到竖直墙面上，得到人体关键点对应的投影角度向量。

基于每一人体关键点的投影坐标及对应的投影角度向量，计算人体指向点在竖直墙面上的坐标信息。

结合图5示例的人体指向点位于XOY所在的竖直墙面内时，可以按照下述公式计算第i个人体关键点对应的人体指向点在水平地面上的坐标

：

当然，上述实施例中仅示例了人体指向点位于水平地面和竖直平面两种情况下，人体指向点坐标的计算过程。对于人体指向点位于其它平面内的情况，可以结合几何关系计算得到人体指向点坐标，本申请中不再展开描述。

在上述实施例计算得到各个人体关键点对应的人体指向点信息之后，进一步对前述步骤S140，基于各人体关键点对应的人体指向点信息，得到最终的人体指向点信息的过程进行说明，该过程可以包括：

将各人体关键点对应的人体指向点信息加权求平均，得到最终的人体指向点信息，其中，各人体关键点对应设置有权重值。

最终的人体指向点坐标可以表示为：

其中，N为人体关键点的数量，

表示第i个人体关键点的权重，/>

表示第i个人体关键点对应的人体指向点坐标。

可以理解的是，不同的人体关键点对于确定最终人体指向点的影响权重可能相同或不同，因此可以分别为每个人体关键点设置对应的权重，进而对各人体关键点对应的人体指向点坐标进行加权求平均，得到最终的人体指向点坐标。

各人体关键点的权重可以是相同的，也可以是不同的，具体根据实际情况而设定。

下面对本申请实施例提供的人体指向确定装置进行描述，下文描述的人体指向确定装置与上文描述的人体指向确定方法可相互对应参照。

参见图6，图6为本申请实施例公开的一种人体指向确定装置结构示意图。

如图6所示，该装置可以包括：

图像数据获取单元11，用于获取对人体采集的图像数据，所述图像数据包括深度点云图像；

特征提取单元12，用于基于所述图像数据，提取人体姿态特征；

人体关键点信息确定单元13，用于基于所述人体姿态特征，确定每一人体关键点的空间坐标及对应的指向角度，所述人体关键点的数量大于等于2；

初步人体指向点信息确定单元14，用于基于每一人体关键点的空间坐标及对应的指向角度，计算与每一人体关键点对应的人体指向点信息；

最终人体指向点信息确定单元15，用于基于各人体关键点对应的人体指向点信息，得到最终的人体指向点信息。

可选的，所述图像数据还可以包括对人体拍摄的目标图像，如RGB图像等。

可选的，本申请的装置还可以包括：

预处理单元，用于在特征提取单元提取人体姿态特征之前，对所述目标图像和所述深度点云图像进行配准；在配准后的目标图像中提取人体区域掩码图，以及，在配准后的深度点云图像中提取人体区域深度点云图；

则，特征提取单元基于所述图像数据，提取人体姿态特征的过程，具体可以包括：

基于所述人体区域掩码图和所述人体区域深度点云图，提取人体姿态特征。

可选的，上述特征提取单元及人体关键点信息确定单元的处理过程，可以通过预训练的人体指向确定模型实现；

所述人体指向确定模型可以包括特征提取网络及与每一人体关键点对应的人体指向预测网络，所述人体指向预测网络的个数与所述人体关键点的数量相同；

所述特征提取网络用于，从所述图像数据中提取深层的人体姿态特征；

可选的，本申请的装置还可以包括：第一模型训练单元，用于训练人体指向确定模型，该人体指向确定模型以训练图像数据作为训练样本，以训练图像数据中各人体关键点的空间坐标及对应的指向角度作为样本标签训练得到，具体训练过程可以包括：

将所述训练样本输入人体指向确定模型，得到模型输出的各人体关键点的空间坐标及对应的指向角度；

利用模型输出的各人体关键点的空间坐标及对应的指向角度，以及作为样本标签的各人体关键点的空间坐标及对应的指向角度，计算模型损失；

基于所述模型损失训练人体指向确定模型的网络参数。

可选的，本申请的装置还可以包括：第二模型训练单元，用于训练人体指向确定模型，该人体指向确定模型以训练图像数据作为训练样本，以训练图像数据中人体指向的预设标志点的空间坐标作为样本标签训练得到，具体训练过程可以包括：

利用计算得到的与每一人体关键点对应的人体指向点信息，及作为样本标签的所述预设标志点的空间坐标，计算模型损失；

基于所述模型损失训练人体指向确定模型的网络参数。

可选的，上述第一模型训练单元对于训练样本及样本标签的获取过程，可以包括：

在人体指向预设标志点的姿态下，获取相机对人体拍摄的训练图像数据，作为训练样本；

获取标注的所述训练图像数据中各人体关键点的空间坐标；

基于标注的每一人体关键点的空间坐标及所述预设标志点的空间坐标，计算每一人体关键点的指向角度；

由标注的各人体关键点的空间坐标及对应的指向角度作为样本标签。

可选的，上述第二模型训练单元对于训练样本及样本标签的获取过程，可以包括：

在人体指向预设标志点的姿态下，获取相机对人体拍摄的训练图像数据，作为训练样本，由所述预设标志点的空间坐标作为样本标签。

可选的，每一人体关键点对应的指向角度表示为指向角度向量形式，则初步人体指向点信息确定单元基于每一人体关键点的空间坐标及对应的指向角度，计算与每一人体关键点对应的人体指向点信息的过程，可以包括：

若人体指向点位于水平地面上，则：

将每一人体关键点的空间坐标投影到水平地面上，得到人体关键点的投影坐标，以及，将每一人体关键点对应的指向角度向量投影到水平地面上，得到人体关键点对应的投影角度向量；

基于每一人体关键点的投影坐标及对应的投影角度向量，计算人体指向点在水平地面上的坐标信息；

若人体指向点位于竖直平面上，则：

将每一人体关键点的空间坐标投影到竖直墙面上，得到人体关键点的投影坐标，以及，将每一人体关键点对应的指向角度向量投影到竖直墙面上，得到人体关键点对应的投影角度向量；

可选的，上述最终人体指向点信息确定单元基于各人体关键点对应的人体指向点信息，得到最终的人体指向点信息的过程，可以包括：

本申请还提供了一种智能机器人，其包括：

设备本体；

与所述传感器连接的处理器，用于采用前述的人体指向确定方法得到人体指向点坐标。

其中，传感器可以包括图像采集器和深度点云数据采集器，所述图像采集器用于获取对人体拍摄的目标图像，所述深度点云数据采集器用于获取对所述人体采集的深度点云图像。

可选的，上述智能机器人还可以包括：移动模块；

所述处理器还用于按照用户的控制指令，向所述移动模块下发移动指令，所述移动指令包括：向所述人体指向点坐标位置移动、躲避所述人体指向点坐标位置，或跟随所述人体指向点坐标位置。

则移动模块，用于按照所述移动指令移动。

本申请的智能机器人可以是家庭机器人、服务机器人、陪伴机器人等各种可移动类型的机器人。

上述智能机器人的处理器在实现人体指向点信息计算过程，结合多个人体关键点对应的人体指向点信息，来得到更加精准的最终人体指向点信息，由于综合考虑了多个不同的人体关键点所对应的人体指向点信息得到最终的人体指向点信息，可以避免单个人体关键点所存在的误差，大大提高最终的人体指向点预测的准确性和稳定性，帮助智能机器人执行与人体指向相关的任务。

本申请的一些实施例中，还提供了一种屏幕控制方法。具体地，用户可以通过躯体姿态控制目标屏幕上的控件，如通过手势指向屏幕上的某个目标控件，以实现触发该目标控件的功能，或，在屏幕上按照用户手势指向的点进行图案绘制等操作。

具体地，可以采用前述实施例介绍的人体指向确定方法，得到目标屏幕上的人体指向点坐标，进而对目标屏幕上该人体指向点坐标处的目标控件，执行设定的操作。

其中，设定的操作可以是预先定义的操作，如点击、双击等。除此之外，用户还可以通过语音形式下发操作指令，进而根据用户的操作指令，对目标控件执行匹配的操作。

采用本申请实施例提供的屏幕控制方法，能够基于前述方案准确的得到用户在目标屏幕上所指向的坐标点，进而实现脱离硬件控制终端对屏幕进行控制，操作更加自由、智能化。

本申请实施例还提供一种存储介质，该存储介质可存储有适于处理器执行的程序，所述程序用于：

获取对人体拍摄的目标图像以及深度点云数据；

对所述目标图像提取人体区域掩码图；

提取所述人体区域掩码图的人体掩码特征，以及提取所述深度点云数据的深度点云特征；

利用所述人体掩码特征对所述深度点云特征进行补充，得到深度补全特征；

基于所述深度补全特征，确定人体指向点信息。

可选的，所述程序的细化功能和扩展功能可参照上文描述。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间可以根据需要进行组合，且相同相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种人体指向确定方法，其特征在于，包括：

基于所述图像数据，提取人体姿态特征；

基于每一人体关键点的空间坐标及对应的指向角度，计算与每一人体关键点对应的人体指向点信息，每一人体关键点对应的指向角度为由所述人体关键点至人体指向点的角度，表示为指向角度向量形式；

基于各人体关键点对应的人体指向点信息，得到最终的人体指向点信息；

所述基于每一人体关键点的空间坐标及对应的指向角度，计算与每一人体关键点对应的人体指向点信息，包括：

若人体指向点位于水平地面上，则：

若人体指向点位于竖直平面上，则：

2.根据权利要求1所述的方法，其特征在于，所述图像数据还包括对人体拍摄的目标图像。

3.根据权利要求2所述的方法，其特征在于，在基于所述图像数据，提取人体姿态特征之前，还包括：

对所述目标图像和所述深度点云图像进行配准；

在配准后的目标图像中提取人体区域掩码图，以及，在配准后的深度点云图像中提取人体区域深度点云图；

则，基于所述图像数据，提取人体姿态特征的过程，包括：

4.根据权利要求1所述的方法，其特征在于，提取人体姿态特征，及确定每一人体关键点的空间坐标及对应的指向角度的过程，通过预训练的人体指向确定模型实现；

所述人体指向确定模型包括特征提取网络及与每一人体关键点对应的人体指向预测网络，所述人体指向预测网络的个数与所述人体关键点的数量相同；

5.根据权利要求4所述的方法，其特征在于，所述人体指向确定模型以训练图像数据作为训练样本，以训练图像数据中各人体关键点的空间坐标及对应的指向角度作为样本标签训练得到；

所述人体指向确定模型的训练过程，包括：

基于所述模型损失训练人体指向确定模型的网络参数。

6.根据权利要求4所述的方法，其特征在于，所述人体指向确定模型以训练图像数据作为训练样本，以训练图像数据中人体指向的预设标志点的空间坐标作为样本标签训练得到；

所述人体指向确定模型的训练过程，包括：

基于所述模型损失训练人体指向确定模型的网络参数。

7.根据权利要求5或6所述的方法，其特征在于，所述训练样本及样本标签的获取过程，包括：

获取标注的所述训练图像数据中各人体关键点的空间坐标；

由标注的各人体关键点的空间坐标及对应的指向角度作为样本标签，或，由所述预设标志点的空间坐标作为样本标签。

8.根据权利要求1-6任一项所述的方法，其特征在于，基于各人体关键点对应的人体指向点信息，得到最终的人体指向点信息，包括：

9.一种人体指向确定装置，其特征在于，包括：

初步人体指向点信息确定单元，用于基于每一人体关键点的空间坐标及对应的指向角度，计算与每一人体关键点对应的人体指向点信息，每一人体关键点对应的指向角度为由所述人体关键点至人体指向点的角度，表示为指向角度向量形式；

最终人体指向点信息确定单元，用于基于各人体关键点对应的人体指向点信息，得到最终的人体指向点信息；

所述初步人体指向点信息确定单元基于每一人体关键点的空间坐标及对应的指向角度，计算与每一人体关键点对应的人体指向点信息，包括：

若人体指向点位于水平地面上，则：

若人体指向点位于竖直平面上，则：

10.一种智能机器人，其特征在于，包括：

设备本体；

与所述传感器连接的处理器，用于采用权利要求1-8任一项所述的人体指向确定方法得到人体指向点坐标。

11.根据权利要求10所述的智能机器人，其特征在于，还包括：

移动模块；

所述处理器还用于按照用户的控制指令，向所述移动模块下发移动指令，所述移动指令包括：向所述人体指向点坐标位置移动、躲避所述人体指向点坐标位置，或跟随所述人体指向点坐标位置；

所述移动模块，用于按照所述移动指令移动。

12.一种屏幕控制方法，其特征在于，包括：

采用权利要求1-8任一项的人体指向确定方法，得到目标屏幕上的人体指向点坐标；

13.一种存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现如权利要求1~8中任一项所述的人体指向确定方法的各个步骤。