CN117077081A

CN117077081A - 人体指向预测方法、装置、机器人及存储介质

Info

Publication number: CN117077081A
Application number: CN202311070530.9A
Authority: CN
Inventors: 吴嘉嘉; 李渊强; 张圆; 胡金水; 殷兵
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2023-08-23
Filing date: 2023-08-23
Publication date: 2023-11-17

Abstract

本申请公开了一种人体指向预测方法、装置、机器人及存储介质，本申请在进行人体指向预测时获取了多模态数据，其中包括对人体拍摄的目标图像、人体的深度点云图以及用户的语音指令。进一步对语音指令进行识别，得到识别文本。分别对目标图像、深度点云图和识别文本进行编码，将各个编码结果进行拼接，得到多模态特征，进而可以基于多模态特征确定人体指向点坐标。本申请方案不需要用户佩戴指定硬件传感器，成本较低。并且，采用了多模态数据来进行人体指向的预测，所参考的数据更加丰富，从而大大提高了人体指向预测结果的准确性。

Description

人体指向预测方法、装置、机器人及存储介质

技术领域

本申请涉及多模态数据处理技术领域，更具体的说，是涉及一种人体指向预测方法、装置、机器人及存储介质。

背景技术

随着技术的发展，人机交互的使用越来越广泛，更自由的人机交互可以脱离平台的遥控，实现更加自由的交互，并允许机器人进行一些自主行为。人体指向可以在人机交互中发挥重要作用，更加准确的人机交互方案可以带来更好的体验。

传统的人体指向预测方案主要有基于穿戴式设备的人体指向预测方法，或者是基于单一图像模态数据的人体指向预测方法。基于穿戴式设备的方案需要用户佩戴指定硬件传感器，通过传感器获取人体姿态，从而预测人体指向，这种方式成本较高，且不方便用户的使用。基于单一图像模态数据进行人体指向预测的方案，一般是在对人体拍摄的RGB图像中标记出人体部位，如头部、手臂等位置，进而基于人体部位通过几何关系计算人体指向的地面坐标点。这种方案仅考虑了单一的图像模态数据，使得人体指向预测结果的准确性较低。

发明内容

鉴于上述问题，提出了本申请以便提供一种人体指向预测方法、装置、机器人及存储介质，以实现提升人体指向预测结果的准确度的目的。具体方案如下：

第一方面，提供了一种人体指向预测方法，包括：

获取对人体拍摄的目标图像，以及人体的深度点云图；

获取用户的语音指令，并对所述语音指令进行识别，得到识别文本；

分别对所述目标图像、所述深度点云图和所述识别文本进行编码，并将各个编码结果进行拼接，得到多模态特征；

基于所述多模态特征，确定人体指向点坐标。

优选地，对所述目标图像、所述深度点云图进行编码的过程，包括：

按照所述深度点云图和所述目标图像间的映射关系，将所述深度点云图和所述目标图像拼接，得到双模态图像数据；

采用图像编码器对所述双模态图像数据进行编码，得到图像特征；

对所述识别文本进行编码的过程，包括：

采用文本编码器提取所述识别文本的语义特征；

将各个编码结果进行拼接，得到多模态特征的过程，包括：

将所述图像特征和所述语义特征进行拼接，得到多模态特征。

优选地，基于所述多模态特征，确定人体指向点坐标的过程，包括：

基于所述多模态特征，预测至少两个人体关键点的坐标及第一人体指向点坐标，所述人体关键点为与人体指向动作相关的人体部位的坐标点；

基于所述至少两个人体关键点的坐标，计算第二人体指向点坐标；

基于所述第一人体指向点坐标和/或所述第二人体指向点坐标，确定最终的人体指向点坐标。

优选地，所述至少两个人体关键点的坐标为在所述目标图像的坐标系下的二维坐标，则基于所述至少两个人体关键点的坐标，计算第二人体指向点坐标的过程，包括：

通过所述目标图像和所述深度点云图间的配准映射关系，确定所述至少两个人体关键点在所述深度点云图中各自对应的三维坐标；

确定所述至少两个人体关键点的三维坐标组成的直线在人体指向平面上的交点，将所述交点的坐标作为所述第二人体指向点坐标。

优选地，所述人体指向平面为水平面或垂直于所述水平面的竖直面。

优选地，在基于所述多模态特征，预测至少两个人体关键点的坐标的同时，还预测得到每个所述人体关键点的坐标的置信度；

则基于所述第一人体指向点坐标和/或所述第二人体指向点坐标，确定最终的人体指向点坐标的过程，包括：

若各所述人体关键点的坐标的置信度均不低于设定置信度阈值，则将所述第二人体指向点坐标确定为最终的人体指向点坐标，否则，将所述第一人体指向点坐标确定为最终的人体指向点坐标。

优选地，若所述识别文本中包含有位置指示信息，则在确定了所述最终的人体指向点坐标之后，还包括：

检测所述最终的人体指向点坐标的位置，与所述识别文本中包含的位置指示信息是否相符；

若是，则确认所述最终的人体指向点坐标正确。

优选地，该方法应用于机器人，在检测到所述最终的人体指向点坐标的位置与所述识别文本中包含的位置指示信息不相符时，该方法还包括：

控制所述机器人按照所述识别文本中包含的位置指示信息前进一段距离。

优选地，分别对所述目标图像、所述深度点云图和所述识别文本进行编码，并将各个编码结果进行拼接得到多模态特征，基于所述多模态特征，确定人体指向点坐标的过程，通过预训练的人体指向预测模型实现；

所述人体指向预测模型采用标注有标签的多模态训练样本训练得到，所述多模态训练样本包括：包含有人体的训练图像、对应的深度点云训练图及用户下达的训练语音指令，所述标签包括：所述训练图像中人体关键点坐标，及用户指向的目标坐标。

优选地，在所述人体指向预测模型的训练过程，其训练损失包括：

基于模型预测的所述第一人体指向点坐标与所述标签中的用户指向的目标坐标，计算的第一损失；

基于模型预测的每一人体关键点的坐标与所述标签中的人体关键点坐标，计算的第二损失。

优选地，若所述多模态训练样本中的训练语音指令对应的识别文本中包含有位置指示信息，则所述训练损失还包括：

基于模型预测的所述第一人体指向点坐标与所述训练语音指令对应的识别文本中包含的位置指示信息，计算的第三损失；

和/或，

基于模型预测的所述第二人体指向点坐标与所述训练语音指令对应的识别文本中包含的位置指示信息，计算的第四损失。

优选地，所述目标图像为RGB图像、红外图像或灰度图像，所述深度点云图为itof图像或3D雷达图。

第二方面，提供了一种人体指向预测装置，包括：

多模态图像获取单元，用于获取对人体拍摄的目标图像，以及人体的深度点云图；

语音指令获取单元，用于获取用户的语音指令，并对所述语音指令进行识别，得到识别文本；

多模态特征获取单元，用于分别对所述目标图像、所述深度点云图和所述识别文本进行编码，并将各个编码结果进行拼接，得到多模态特征；

指向预测单元，用于基于所述多模态特征，确定人体指向点坐标。

第三方面，提供了一种机器人，包括：

机器人本体；

设置在所述机器人本体上的若干个传感器，所述若干个传感器用于获取对人体拍摄的目标图像，以及人体的深度点云图；

设置在所述机器人本体上的麦克风，用于获取用户的语音指令；

与各个所述传感器及所述麦克风连接的处理器，用于采用前述的人体指向预测方法得到人体指向点坐标。

优选地，还包括：

移动模块；

所述处理器还用于按照用户的语音指令，向所述移动模块下发移动指令，所述移动指令包括：向所述人体指向点坐标位置移动、躲避所述人体指向点坐标位置，或跟随所述人体指向点坐标位置；

所述移动模块，用于按照所述移动指令移动。

第四方面，提供了一种存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，实现如前所述的人体指向预测方法的各个步骤。

借由上述技术方案，本申请在进行人体指向预测时获取了多模态数据，其中包括对人体拍摄的目标图像、人体的深度点云图以及用户的语音指令。进一步对语音指令进行识别，得到识别文本。分别对目标图像、深度点云图和识别文本进行编码，将各个编码结果进行拼接，得到多模态特征，进而可以基于多模态特征确定人体指向点坐标。本申请方案不需要用户佩戴指定硬件传感器，成本较低。并且，采用了多模态数据来进行人体指向的预测，所参考的数据更加丰富，从而大大提高了人体指向预测结果的准确性。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本申请的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1为本申请实施例提供的人体指向预测方法的一流程示意图；

图2示例了一种目标图像与深度点云图间的映射关系示意图；

图3示例了一种人体指向点位于水平地面的示意图；

图4示例了一种人体指向点位于竖直墙面的示意图；

图5示例了一种人体指向预测模型的训练过程示意图；

图6为本申请实施例公开的一种人体指向预测装置结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请提供了一种人体指向预测方案，可以适用于各种场景下需要进行人体指向预测的任务，示例如智能机器人在工作场景下需要估计人体指向点坐标，进而执行与人体指向点坐标相关的处理任务，如定向移动、规避、跟随等，或者是，在与屏幕交互过程，可以基于用户的躯体姿态指向屏幕上的某个点，进而实现自动对屏幕上用户指向的坐标点处的控件进行操作的目的等等。

本申请方案可以基于具备数据处理能力的终端实现，该终端可以是电脑、服务器、云端、机器人等。

接下来，结合图1所述，本申请的人体指向预测方法可以包括如下步骤：

步骤S100、获取对人体拍摄的目标图像，以及人体的深度点云图。

其中，对人体拍摄的目标图像可以是通过RGB摄像头拍摄的RGB图像，也可以是通过其它视觉模块拍摄的红外图像、灰度图像等其它颜色模式的图像，保证目标图像中可以识别到人体即可。

进一步地，为了提升数据的丰富性，本步骤中还获取了另外一种模式的图像，即人体的深度点云图。深度点云图可以是通过itof摄像头拍摄的itof图像，也可以是通过3D雷达传感器采集的3D雷达图，或者是通过其它点云采集设备所采集的人体的深度点云图，如结构光、激光扫描、双目立体视觉等。

步骤S110、获取用户的语音指令，并对所述语音指令进行识别，得到识别文本。

具体地，用户在通过肢体指向目标坐标点的同时，一般会配合语音下达指令，通过语音指令和用户指向的目标坐标点形成完整的控制指令，用于控制机器人。示例如，在用户与扫地机器人交互过程，可以通过手指指向待清洁的区域，并下达语音指令：“清扫一下左前方的地面”。再比如，在用户与智能电视交互过程中，可以通过手指指向屏幕上的某个图标控件，并下达语音指令：“我要打开右上角这个软件”。

用户的语音指令中也可能包含有与人体指向点坐标相关的内容，因此本步骤中在获取目标图像、深度点云图像的基础上，进一步获取了音频模态的语音指令数据，并对语音指令进行识别，得到对应的识别文本。

需要说明的是，上述步骤S100与步骤S110的执行顺序并不限定，二者可以同时或先后执行，图1仅示例了一种可选的执行顺序。

步骤S120、分别对所述目标图像、所述深度点云图和所述识别文本进行编码，并将各个编码结果进行拼接，得到多模态特征。

通过前述步骤S100-S110获取了三种模态的数据，即目标图像、深度点云图和语音指令，并且对语音指令进行识别得到了识别文本。为了更好的利用该三种模态数据进行人体指向预测，本步骤中分别对目标图像、深度点云图和识别文本进行编码，将三种模态数据的编码结果进行拼接，得到拼接后的多模态特征。

步骤S130、基于所述多模态特征，确定人体指向点坐标。

具体地，在得到了多模态特征之后，可以基于该多模态特征来预测人体指向点坐标，示例如，可以通过配置的人体指向预测模块，基于该多模态特征来预测人体指向点坐标。

本申请实施例提供的人体指向预测方法，在进行人体指向预测时获取了多模态数据，其中包括对人体拍摄的目标图像、人体的深度点云图以及用户的语音指令。进一步对语音指令进行识别，得到识别文本。分别对目标图像、深度点云图和识别文本进行编码，将各个编码结果进行拼接，得到多模态特征，进而可以基于多模态特征确定人体指向点坐标。本申请方案不需要用户佩戴指定硬件传感器，成本较低。并且，采用了多模态数据来进行人体指向的预测，所参考的数据更加丰富，从而大大提高了人体指向预测结果的准确性。

在本申请的一些实施例中，对上述步骤S120，分别对所述目标图像、所述深度点云图和所述识别文本进行编码，并将各个编码结果进行拼接，得到多模态特征的过程进行介绍。

一种可选的方式下，可以分别对目标图像进行编码，得到目标图像特征；对深度点云图进行编码，得到点云特征；对识别文本进行编码，以提取识别文本的语义特征。进而将目标图像特征、点云特征、语义特征进行拼接，得到多模态特征。

另一种可选的方式下，考虑到目标图像和深度点云图均属于对人体拍摄的图像信息，可以将二者进行拼接。具体地，目标图像和深度点云图之间存在映射关系，该映射关系可以基于拍摄目标图像的摄像头与采集深度点云图的设备之间的外参来得到。可以基于二者之间的映射关系，将深度点云图和目标图像拼接，得到双模态图像数据。

一般情况下，深度点云图的分辨率低于目标图像，因此可以将深度点云图映射到目标图像，映射后目标图像中每个像素点即包含在目标图像中的像素信息，又包含在深度点云图中对应映射点的三维坐标，以目标图像为RGB图像为例，则每个像素点包含6通道的数据，其中3个通道来自RGB图像，另外3个通道来自深度点云图，也即三维坐标。

由于深度点云图的分辨率低于目标图像，因此若目标图像中某一像素点在深度点云图中不存在映射点，则可以采用“0”或者周边映射点的三维坐标的均值来填充。

参照图2，其示例了一种目标图像与深度点云图间的映射关系示意图。其中，以人物的鼻尖和指尖为例进行说明。

在得到双模态图像数据之后，可以采用图像编码器对该双模态图像数据进行编码，得到图像特征。

采用文本编码器提取识别文本的语义特征。其中，文本编码器可以采用预训练的语言模型，示例如BERT或其它结构的模型。

最后，将编码得到的图像特征和语义特征进行拼接，得到多模态特征。

在本申请的一些实施例中，进一步对上述步骤S130，基于所述多模态特征，确定人体指向点坐标的过程进行说明。

本实施例中，可以基于多模态特征同时执行两个预测任务，分别是预测人体关键点坐标和预测人体指向点坐标。为了便于区分，定义此处基于多模态特征所预测的人体指向点坐标为第一人体指向点坐标。

其中，基于多模态特征预测的人体关键点的坐标可以是至少两个人体关键点的坐标。人体关键点可以是与人体指向动作相关的人体部位的坐标点，示例如可以选取鼻尖、指尖两个人体关键点。当然，还可以选取其它与人体指向动作相关的部位，如眼睛、手肘等。

在预测得到至少两个人体关键点的坐标之后，可以基于该至少两个人体关键点的坐标，计算得到第二人体指向点坐标。

上述预测得到的至少两个人体关键点的坐标，具体可以是在目标图像坐标系下的二维坐标。在此基础上，可以通过目标图像与深度点云图像间的配准映射关系，确定该至少两个人体关键点在深度点云图中各自对应的三维坐标。进而，确定该至少两个人体关键点的三维坐标组成的直线在人体指向平面上的交点，将所述交点的坐标作为所述第二人体指向点坐标。

对于人体指向点，在不同的场景下人体指向点所在的平面可能不同。本实施例中仅示例人体指向点位于水平面和竖直面两种情况下的计算过程。

结合图3所示，在人体指向点位于水平地面上时(示例如，用户通过手势控制扫地机器人移动的场景)：

以至少两个人体关键点为鼻尖和指尖为例进行说明。可以计算经过鼻尖和指尖的直线与水平地面的交点，将该交点坐标作为第二人体指向点坐标。

结合图4所示，在人体指向点位于竖直墙面上时(示例如，用户与挂在墙面上的屏幕进行交互的场景)：

可以计算经过鼻尖和指尖的直线与竖直墙面的交点，将该交点坐标作为第二人体指向点坐标。

当然，上述实施例中仅示例了人体指向点位于水平地面和竖直墙面两种情况下，人体指向点坐标的计算过程。对于人体指向点位于其它平面内的情况，可以结合几何关系计算得到人体指向点坐标，本申请中不再展开描述。

经过上述各个步骤，可以得到预测的第一人体指向点坐标，以及基于人体关键点计算得到的第二人体指向点坐标。进一步可以基于上述第一人体指向点坐标和/或第二人体指向点坐标，确定最终的人体指向点坐标。

基于第一人体指向点坐标和/或第二人体指向点坐标确定最终人体指向点坐标的过程可以有多种实现方式。

示例如，可以取第一人体指向点坐标和第二人体指向点坐标的平均值，作为最终人体指向点坐标，或者对第一、第二人体指向点坐标按照设定权重求平均值，作为最终人体指向点坐标。

本实施例中还提供了另外一种实施方式，如下：

前述基于多模态特征预测至少两个人体关键点的坐标及第一人体指向点坐标的过程，可以采用预训练的神经网络模型来实现，在预测得到各人体关键点的坐标的同时，还可以得到每个所述人体关键点的坐标的置信度，置信度大小代表了预测的人体关键点坐标的可信程度。

因此，若预测的各所述人体关键点的坐标的置信度均不低于设定置信度阈值(示例如取值为0.7或其它数值)，则可以将基于各人体关键点坐标计算得到的第二人体指向点坐标确定为最终的人体指向点坐标，否则，表示预测的各所述人体关键点的坐标可信度较低，考虑到经过各人体关键点的直线的位置比较敏感(以人体关键点为鼻尖和指尖为例，鼻尖和指尖的坐标抖动一些，对直线的方程会带来较大的误差)，如果人体关键点的坐标不准确，会使得计算得到的第二人体指向点坐标产生较大误差，此时，可以放弃使用第二人体指向点坐标，而直接使用模型端到端预测得到的第一人体指向点坐标作为最终的人体指向点坐标。

进一步可选的，在上述实施例得到最终的人体指向点坐标之后，还可以增加对该最终的人体指向点坐标进行二次校验的过程。

具体地，在一些情况下，用户下达的语音指令对应的识别文本中包含有位置指示信息，示例如“清扫一下左前方的地面”，包含了位置指示信息“左前方”。因此，本实施例中可以检测上述得到的最终的人体指向点坐标与识别文本中包含的位置指示信息是否相符，若相符，则可以确认所述最终的人体指向点坐标正确，否则，可以确认所述最终的人体指向点坐标不正确。

当然，如果用户的语音指令对应的识别文本中不包含有位置指示信息，则可以省略掉该二次校验的过程。

当上述二次校验后确认所述最终的人体指向点坐标正确时，可以进一步控制机器人按照该最终的人体指向点坐标前进。当上述二次检验后确认所述最终的人体指向点坐标不正确时，可以控制机器人按照识别文本中包含的位置指示信息前进一段距离。之后，可以输出提示信息，以提示用户重新下达语音指令，并再次重复人体指向预测的过程，直至准确预测出人体指向点坐标或者达到其它设定结束条件为止。

在本申请的一些实施例中，对于前述步骤S120，分别对所述目标图像、所述深度点云图和所述识别文本进行编码，并将各个编码结果进行拼接，得到多模态特征，以及步骤S130，基于所述多模态特征，确定人体指向点坐标的过程，可以通过预训练的人体指向预测模型实现。

人体指向预测模型可以采用标注有标签的多模态训练样本训练得到，所述多模态训练样本包括：包含有人体的训练图像、对应的深度点云训练图及用户下达的训练语音指令，所述标签包括：所述训练图像中人体关键点坐标，及用户指向的目标坐标。

在训练人体指向预测模型之前，可以先准备训练数据。

本实施例中以目标图像为RGB图像，深度点云图为itof图像为例进行说明。则在准备训练数据时，可以让用户在机器人面前做出指向动作，并说出一个命令(比如，扫右前方)。然后通过RGB摄像头和itof摄像头分别获取同一时刻的RGB图像和itof图像，以及通过麦克风收集语音指令，组成一份多模态训练样本，同时对该份多模态训练样本标注样本标签，标签包括：RGB图像中的人体关键点坐标以及用户指向的目标坐标。

在收集到大量的多模态训练样本及对应的样本标签后，可以利用这些训练数据训练人体指向预测模型。

结合图5，其示例了一种人体指向预测模型的训练过程示意图。

对于一份多模态训练样本，其中训练图像和训练深度点云图首先经过拼接，之后输入到人体指向预测模型，利用图像编码器Encoder进行编码，得到图像特征。

训练语音指令经过语音识别后得到识别文本，图5中以识别文本为“扫右前方”为例进行说明。

识别文本经过文本编码器BERT进行编码，得到语义特征。

将图像特征和语义特征进行拼接，得到多模态特征，之后通过预测模块进行结果预测，得到预测的人体关键点坐标和第一人体指向点坐标。

图5中预测模块以DNN网络为例进行说明。人体关键点以指尖和鼻尖为例进行说明。

进一步，基于预测的人体关键点坐标可以计算得到第二人体指向点坐标。

人体指向预测模型训练过程的损失可以包括：

基于模型预测的所述第一人体指向点坐标与样本标签中标定的用户指向的目标坐标，计算的第一损失L1；

基于模型预测的每一人体关键点的坐标与样本标签中标定的人体关键点坐标，计算的第二损失L2。

其中，第二损失L2的个数与人体关键点的个数相同，如图5示例的，在人体关键点为两个时，则第二损失L2也可以有两个。

本实施例中，为了更好地利用多模态信息，促进多模态信息进一步融合，进一步提出了一种多模态一致性损失，即下述的第三损失和第四损失。

具体地，若多模态训练样本中的训练语音指令对应的识别文本中包含有位置指示信息，则训练损失还可以包括：

和/或，

在计算上述第三、第四损失时，可以分别对第一人体指向点坐标、第二人体指向点坐标以及识别文本中包含的位置指示信息进行编码，进而基于编码特征计算第三、第四损失。第三、第四损失可以采用采用交叉熵损失，模型训练过程的目标是使得交叉熵损失最低，也即迫使多模态信息要相互挖掘更本质的特征，使得最后预测的结果尽可能一致，从而提升模型预测的精度。

本实施例中提供了一种对第一人体指向点坐标、第二人体指向点坐标以及识别文本中包含的位置指示信息进行编码的可选实现方式。

具体地，在编码之前可以预先对位置进行分类，示例如按照：前、后、左、右、左前、右前、左右、右后划分为8个类别。当然，此处仅是一种可选的分类方式，本领域技术人员还可以采取其它分类方式。

在分类之后，可以对每个类别进行one-hot编码，如“前”编码为(1,0,0,0,0,0,0,0),......,“右后”编码为(0,0,0,0,0,0,0,1)。

在此基础上，可以确定第一人体指向点坐标、第二人体指向点坐标以及识别文本中包含的位置指示信息各自对应的类别，进而得到对应的编码特征。

本实施例仅示例了一种可选的编码方式，本领域技术人员还可以采用其它特征编码方式。

下面对本申请实施例提供的人体指向预测装置进行描述，下文描述的人体指向预测装置与上文描述的人体指向预测方法可相互对应参照。

参见图6，图6为本申请实施例公开的一种人体指向预测装置结构示意图。

如图6所示，该装置可以包括：

多模态图像获取单元11，用于获取对人体拍摄的目标图像，以及人体的深度点云图；

语音指令获取单元12，用于获取用户的语音指令，并对所述语音指令进行识别，得到识别文本；

多模态特征获取单元13，用于分别对所述目标图像、所述深度点云图和所述识别文本进行编码，并将各个编码结果进行拼接，得到多模态特征；

指向预测单元14，用于基于所述多模态特征，确定人体指向点坐标。

可选的，上述多模态特征获取单元对所述目标图像、所述深度点云图、所述识别文本进行编码，并将各个编码结果进行拼接，得到多模态特征的过程，包括：

采用文本编码器提取所述识别文本的语义特征；

可选的，上述指向预测单元基于所述多模态特征，确定人体指向点坐标的过程，包括：

可选的，所述至少两个人体关键点的坐标为在所述目标图像的坐标系下的二维坐标，则上述指向预测单元基于所述至少两个人体关键点的坐标，计算第二人体指向点坐标的过程，包括：

可选的，上述指向预测单元在基于所述多模态特征，预测至少两个人体关键点的坐标的同时，还预测得到每个所述人体关键点的坐标的置信度，在此基础上，指向预测单元基于所述第一人体指向点坐标和/或所述第二人体指向点坐标，确定最终的人体指向点坐标的过程，包括：

可选的，上述指向预测单元在确定了所述最终的人体指向点坐标之后，还可以用于：

在所述识别文本中包含有位置指示信息的情况下，检测所述最终的人体指向点坐标的位置，与所述识别文本中包含的位置指示信息是否相符；若是，则确认所述最终的人体指向点坐标正确。

进一步可选的，上述指向预测单元在检测到所述最终的人体指向点坐标的位置与所述识别文本中包含的位置指示信息不相符时，还可以控制机器人按照所述识别文本中包含的位置指示信息前进一段距离，该机器人为用户语音指令所要控制的机器人。

可选的，上述多模态特征获取单元和指向预测单元的处理过程具体可以采用预训练的人体指向预测模型实现；所述人体指向预测模型采用标注有标签的多模态训练样本训练得到，所述多模态训练样本包括：包含有人体的训练图像、对应的深度点云训练图及用户下达的训练语音指令，所述标签包括：所述训练图像中人体关键点坐标，及用户指向的目标坐标。

可选的，上述人体指向预测模型的训练过程，其训练损失包括：

进一步可选的，若所述多模态训练样本中的训练语音指令对应的识别文本中包含有位置指示信息，则训练损失还可以包括：

和/或，

本申请实施例还提供了一种机器人，其包括：

机器人本体；

与各个所述传感器及所述麦克风连接的处理器，用于采用前述实施例的人体指向预测方法得到人体指向点坐标。

其中，上述传感器可以包括图像传感器和深度点云传感器，图像传感器可以包括RGB摄像头、灰度摄像头、红外摄像头等多种类型的图像传感器。深度点云传感器可以采用itof摄像头、3D雷达传感器、双目视觉传感器等。

可选的，上述机器人还可以包括：移动模块；

所述移动模块，用于按照所述移动指令移动。

本申请的机器人可以是家庭机器人、服务机器人、陪伴机器人等各种类型的机器人。

上述机器人的处理器在实现人体指向点预测过程，结合多种模态的数据，提升了预测的人体指向点坐标的准确度，帮助机器人执行与人体指向相关的任务。

本申请的一些实施例中，还提供了一种屏幕控制方法。具体地，用户可以通过躯体姿态控制目标屏幕上的控件，如通过手势指向屏幕上的某个目标控件，以实现触发该目标控件的功能，或，在屏幕上按照用户手势指向的点进行图案绘制等操作。

具体地，可以采用前述实施例介绍的人体指向预测方法，得到目标屏幕上的人体指向点坐标，进而对目标屏幕上该人体指向点坐标处的目标控件，执行设定的操作。

其中，设定的操作可以是预先定义的操作，如点击、双击等。除此之外，用户还可以通过语音形式下发操作指令，进而根据用户的操作指令，对目标控件执行匹配的操作。

采用本申请实施例提供的屏幕控制方法，能够基于前述方案准确的得到用户在目标屏幕上所指向的坐标点，进而实现脱离硬件控制终端对屏幕进行控制，操作更加自由、智能化。

本申请实施例还提供一种存储介质，该存储介质可存储有适于处理器执行的程序，所述程序用于：

获取对人体拍摄的目标图像，以及人体的深度点云图；

基于所述多模态特征，确定人体指向点坐标。

可选的，所述程序的细化功能和扩展功能可参照上文描述。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间可以根据需要进行组合，且相同相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种人体指向预测方法，其特征在于，包括：

获取对人体拍摄的目标图像，以及人体的深度点云图；

基于所述多模态特征，确定人体指向点坐标。

2.根据权利要求1所述的方法，其特征在于，对所述目标图像、所述深度点云图进行编码的过程，包括：

对所述识别文本进行编码的过程，包括：

采用文本编码器提取所述识别文本的语义特征；

将各个编码结果进行拼接，得到多模态特征的过程，包括：

3.根据权利要求1所述的方法，其特征在于，基于所述多模态特征，确定人体指向点坐标的过程，包括：

4.根据权利要求3所述的方法，其特征在于，所述至少两个人体关键点的坐标为在所述目标图像的坐标系下的二维坐标，则基于所述至少两个人体关键点的坐标，计算第二人体指向点坐标的过程，包括：

5.根据权利要求4所述的方法，其特征在于，所述人体指向平面为水平面或垂直于所述水平面的竖直面。

6.根据权利要求3所述的方法，其特征在于，在基于所述多模态特征，预测至少两个人体关键点的坐标的同时，还预测得到每个所述人体关键点的坐标的置信度；

7.根据权利要求3所述的方法，其特征在于，若所述识别文本中包含有位置指示信息，则在确定了所述最终的人体指向点坐标之后，还包括：

若是，则确认所述最终的人体指向点坐标正确。

8.根据权利要求7所述的方法，其特征在于，该方法应用于机器人，在检测到所述最终的人体指向点坐标的位置与所述识别文本中包含的位置指示信息不相符时，该方法还包括：

9.根据权利要求3所述的方法，其特征在于，分别对所述目标图像、所述深度点云图和所述识别文本进行编码，并将各个编码结果进行拼接得到多模态特征，基于所述多模态特征，确定人体指向点坐标的过程，通过预训练的人体指向预测模型实现；

10.根据权利要求9所述的方法，其特征在于，在所述人体指向预测模型的训练过程，其训练损失包括：

11.根据权利要求10所述的方法，其特征在于，若所述多模态训练样本中的训练语音指令对应的识别文本中包含有位置指示信息，则所述训练损失还包括：

和/或，

12.一种人体指向预测装置，其特征在于，包括：

13.一种机器人，其特征在于，包括：

机器人本体；

与各个所述传感器及所述麦克风连接的处理器，用于采用权利要求1-12任一项所述的人体指向预测方法得到人体指向点坐标。

14.根据权利要求13所述的机器人，其特征在于，还包括：

移动模块；

所述移动模块，用于按照所述移动指令移动。

15.一种存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现如权利要求1～11中任一项所述的人体指向预测方法的各个步骤。