CN115291724A

CN115291724A - 人机交互的方法、装置、存储介质和电子设备

Info

Publication number: CN115291724A
Application number: CN202210920209.4A
Authority: CN
Inventors: 许佳悠
Original assignee: Beijing Horizon Robotics Technology Research and Development Co Ltd
Current assignee: Beijing Horizon Robotics Technology Research and Development Co Ltd
Priority date: 2022-08-01
Filing date: 2022-08-01
Publication date: 2022-11-04

Abstract

本公开实施例公开了一种人机交互的方法、装置、存储介质和电子设备，其中，方法包括：通过获取在预设空间区域内采集的包括用户的图像序列，并基于各图像帧进行预设手势检测和预设目标对象检测，确定预设手势信息和预设目标对象信息；当检测到预设手势和预设目标对象时，确定预设手势与预设目标对象的位置关系是否符合预设条件；当确定预设手势与预设目标对象的位置关系符合预设条件时，根据预设手势以及预设目标对象，确定预设手势对应的用户的第一交互指令。本公开实施例中，通过预设手势和预设目标对象综合确定用户的交互指令，实现了准确的对交互指令的确定，进而实现了对设备的高效操控，增强了用户的使用体验。

Description

人机交互的方法、装置、存储介质和电子设备

技术领域

本公开涉及人机交互技术，尤其是一种人机交互的方法、装置、存储介质和电子设备。

背景技术

随着人机交互技术的不断进步，通过计算机视觉技术识别手势，通过手势进行交互的手势交互方式被广泛应用。随着可以通过手势交互方式控制的功能越来越多，在手势交互中的手势也变的越来越复杂和繁多，导致用户记忆各种交互指令对应手势的难度逐渐增加。

发明内容

本公开的实施例提供了一种人机交互的方法、装置、存储介质和电子设备。

根据本公开实施例的一个方面，提供了一种人机交互的方法，包括：获取在预设空间区域内采集的包括用户的图像序列；基于所述图像序列中的各图像帧进行预设手势检测和预设目标对象检测，确定预设手势信息和预设目标对象信息；响应于检测到所述预设手势和所述预设目标对象，确定所述预设手势与所述预设目标对象的位置关系是否符合预设条件；响应于所述预设手势与所述预设目标对象的位置关系符合预设条件，根据所述预设手势以及所述预设目标对象，确定所述预设手势对应的用户的第一交互指令。

根据本公开实施例的一个方面，提供了一种人机交互的装置，包括：图像采集模块，用于获取在预设空间区域内采集的包括用户的图像序列；检测模块，用于基于所述图像序列中的各图像帧进行预设手势检测和预设目标对象检测，确定预设手势信息和预设目标对象信息；判断模块，用于响应于检测到所述预设手势和所述预设目标对象，确定所述预设手势与所述预设目标对象的位置关系是否符合预设条件；第一确定模块，用于响应于所述预设手势与所述预设目标对象的位置关系符合预设条件，根据所述预设手势以及所述预设目标对象，确定所述预设手势对应的用户的第一交互指令。

根据本公开实施例的又一个方面，提供了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行本公开上述任一实施例所述的人机交互的方法。

根据本公开实施例的再一个方面，提供了一种电子设备，所述电子设备包括：处理器；用于存储所述处理器可执行指令的存储器；所述处理器，用于执行本公开上述任一实施例所述的人机交互的方法。

基于本公开上述实施例提供的人机交互的方法、装置、存储介质和电子设备，通过获取在预设空间区域内采集的包括用户的图像序列，并基于图像序列中的各图像帧进行预设手势检测和预设目标对象检测，确定预设手势信息和预设目标对象信息；当检测到预设手势和预设目标对象时，确定预设手势与预设目标对象的位置关系是否符合预设条件；当确定预设手势与预设目标对象的位置关系符合预设条件时，根据预设手势以及预设目标对象，确定预设手势对应的用户的第一交互指令。由此，本公开实施例中，通过将预设手势与物理实体的预设目标对象结合，使得用户更易联想记忆，且空间互动性好，感知耦合度高，因此提高了用户交互的效率，增强了用户的交互体验。

下面通过附图和实施例，对本公开的技术方案做进一步的详细描述。

附图说明

通过结合附图对本公开实施例进行更详细的描述，本公开的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本公开实施例的进一步理解，并且构成说明书的一部分，与本公开实施例一起用于解释本公开，并不构成对本公开的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1是本公开提供人机交互的方法的一个示例性的应用场景。

图2是本公开一示例性实施例提供的人机交互的方法的流程示意图。

图3是本公开一示例性实施例提供的步骤S210的流程示意图。

图4是本公开一示例性实施例提供的步骤S220的流程示意图。

图5是本公开另一示例性实施例提供的步骤S220的流程示意图。

图6是本公开一示例性实施例提供的步骤S230的流程示意图。

图7是本公开另一示例性实施例提供的提供人机交互的方法的流程示意图。

图8是本公开另一示例性实施例提供的人机交互的方法的流程示意图。

图9是本公开一示例性实施例提供的人机交互的方法的一种整体流程图。

图10是本公开一示例性实施例提供的人机交互的装置的结构示意图。

图11是本公开另一示例性实施例提供的人机交互的装置的结构示意图。

图12是本公开一示例性实施例提供的电子设备的结构图。

具体实施方式

下面，将参考附图详细地描述根据本公开的示例实施例。显然，所描述的实施例仅仅是本公开的一部分实施例，而不是本公开的全部实施例，应理解，本公开不受这里描述的示例实施例的限制。

应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。

本领域技术人员可以理解，本公开实施例中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等，既不代表任何特定技术含义，也不表示它们之间的必然逻辑顺序。

还应理解，在本公开实施例中，“多个”可以指两个或两个以上，“至少一个”可以指一个、两个或两个以上。

还应理解，对于本公开实施例中提及的任一部件、数据或结构，在没有明确限定或者在前后文给出相反启示的情况下，一般可以理解为一个或多个。

另外，本公开中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本公开中字符“/”，一般表示前后关联对象是一种“或”的关系。

还应理解，本公开对各个实施例的描述着重强调各个实施例之间的不同之处，其相同或相似之处可以相互参考，为了简洁，不再一一赘述。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本公开及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

本公开实施例可以应用于终端设备、计算机系统、服务器等电子设备，其可与众多其它通用或专用计算系统环境或配置一起操作。适于与终端设备、计算机系统、服务器等电子设备一起使用的众所周知的终端设备、计算系统、环境和/或配置的例子包括但不限于：个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统﹑大型计算机系统和包括上述任何系统的分布式云计算技术环境，等等。

终端设备、计算机系统、服务器等电子设备可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常，程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等，它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施，分布式云计算环境中，任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中，程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。

申请概述

在实现本公开的过程中，发明人发现随着可以通过手势交互方式控制的功能越来越多，为了区分各手势可以触发的交互指令，使得在手势交互中的手势也变的越来越复杂和繁多，导致用户记忆各种交互指令对应手势的难度逐渐增加。

示例性系统

本公开的技术方案可以应用于任意领域、应用场景中对目标设备和应用程序的操控方式。例如，可以应用于驾驶场景中对车辆中目标设备以及应用程序的操控，或者，还可以应用于对于移动终端、智能家电等任意需要人机交互的设备的操控等。通过本公开的技术方案，可以使用户通过预设手势与预设目标对象结合，确定待控制的目标设备或应用程序以及确定待控制的目标设备或应用程序执行的交互指令。以下以应用于驾驶场景中对车辆中目标设备或应用程序的操控的应用场景为例进行说明，但本公开的技术方案的应用场景并不限于此。

示例性的，图1示出了本公开提供的人机交互的方法的一个示例性的应用场景。如图1所示，车辆上设置有图像采集装置1和计算平台2。图像采集装置1可以为单目摄像头、双目摄像头或TOF(time of flight，飞行时间)摄像头等，计算平台2可以为VCU(VehicleControl Units，车辆控制单元)或服务器等。

图像采集装置1采集车辆内部(预设空间区域)的图像序列，并将采集的图像序列传输到计算平台2，计算平台2对图像序列进行预设手势和预设目标对象检测，当检测到预设手势和预设目标对象，且预设手势和预设目标对象的位置关系符合预设条件时，确定预设手势对应的用户的第一交互指令，并控制目标设备或应用程序执行第一交互指令对应的操作。

例如，当用户的交互目标为音乐播放程序时，图像采集装置1采集车辆内部的图像序列，并将图像序列传输至计算平台2，计算平台2对图像序列进行预设手势和预设目标对象检测，当检测到预设手势和预设目标对象，且预设手势和预设目标对象的位置关系符合预设条件时，确定预设手势对应的用户的第一交互指令(例如，对应的第一交互指令为切换下一首歌曲)，输出第一交互指令，控制音乐播放程序切换的到下一首音乐。

本公开实施例中，通过将预设手势与物理实体的预设目标对象结合，使得用户更易联想记忆，且空间互动性好，感知耦合度高，因此提高了用户交互的效率，增强了用户的交互体验，而且由于通过预设手势和预设目标对象综合确定用户的交互指令，提高了交互控制的准确性，有效的降低手势误识别概率。

示例性方法

图2是本公开一示例性实施例提供的人机交互的方法的流程示意图。本实施例可应用在电子设备、车辆、智能终端上等，如图2所示，包括如下步骤：

步骤S200，获取在预设空间区域内采集的包括用户的图像序列。

其中，预设空间区域可以为发生交互动作的区域，或者预设空间区域也可以根据实际需求设定，其中该图像序列可以为针对预设空间区域采集的。例如，预设空间区域可以为车辆内部、具有待操控的目标设备的空间等。可以通过图像采集装置实时或按照预设周期采集预设空间区域内的图像，然后通过图像识别技术识别采集的图像中是否包括用户，例如，可以通过预先训练好的用于人员识别的第一神经网络对采集的图像进行识别，确定包括用户的图像，第一神经网络可以为CNN(Convolutional Neural Networks,卷积神经网络)、R-CNN(Region Convolutional Neural Networks，区域卷积神经网络)等。可以将包括有用户的图像按照时序排列形成图像序列，该图像序列可以包括当前图像帧和当前图像帧之前的至少一历史图像帧，或者，该图像序列还可以包括预设时段内的多帧图像帧。其中，第一神经网络可以由标注有人员的样本图像序列训练等到。

步骤S210，基于图像序列中的各图像帧进行预设手势检测和预设目标对象检测，确定预设手势信息和预设目标对象信息。

其中，预设手势可以包括预设静态手势和预设动态手势。例如,手势可以为两指并拢、ok手势、v形手势等静态手势，也可以是左滑、右滑、上滑、下滑、画圈、敲击等动态手势，具体预设手势可以由用户根据自身习惯和喜好进行自定义。在具体实施方式中，预设手势可以选取特殊但动作较为简单的手势作为预设手势，如预设手势可以为数字6或9对应的手势，使得用于交互的预设手势更具有辨识性，可以降低手势误触发的概率。预设目标对象可以根据实际情况设定，也可根据用户自定义设定。示例性的，预设目标对象可以根据需要操控的目标设备或应用程序设置，或者，也可以根据用户的交互习惯设置。例如，当待操控的目标设备为车窗升降装置时，可以将预设目标对象设置为车窗，或者，当待操控的应用程序为音乐播放程序时，可以根据用户的交互习惯将预设目标对象设置为耳部。

可以通过图像识别技术对图像序列中的各图像帧进行识别，确定是否包括预设手势和预设目标对象，并在检测出预设手势和预设目标对象时，确定预设手势的预设手势信息和预设目标对象的预设目标对象信息。

在一个实现方式中，预设手势信息可以包括预设手势的检测框、预设手势的分类信息以及预设手势的位置信息等；预设目标对象信息可以包括预设目标对象的检测框、预设目标对象的分类信息以及预设目标对象的位置信息等。

示例性的，可以将图像序列输入预先训练好的第二神经网络，经第二神经网络输出检测结果，第二神经网络用于检测预设手势和预设目标对象，该检测结果包括是否检测出预设手势和预设目标对象。在检测出预设手势和预设目标对象时，同时输出预设手势信息和预设目标对象信息。第二神经网络可以通过标注有预设手势和预设目标对象的样本图像序列训练得到。

或者，可以将图像序列分别输入预先训练好的第三神经网络和第四神经网络，第三神经网络用于预设手势检测，第四神经网络用于目标对象检测；经第三神经网络输出是否检测到预设手势，并在检测出预设手势时，同时输出预设手势信息，经第四神经网络输出是否检测到预设目标对象，并在检测出预设目标对象时，同时输出预设目标对象信息。第三神经网络可以通过标注有预设手势的样本图像序列训练得到，第四神经网络通过标注有预设目标对象的样本图像序列训练得到。其中，第二、第三和第四神经网络可以为CNN、RCNN等。第二神经网络、第三神经网络和第四神经网络可以为相同或不同的神经网络模型。

以上针对预设手势和预设目标对象的检测示例仅为举例说明，并不能作为对本公开的技术方案的限定，任何可以实现检测预设手势和预设目标对象的方案均可适用本公开。

步骤S220，响应于检测到预设手势和预设目标对象，确定预设手势与预设目标对象的位置关系是否符合预设条件。

其中，在该步骤中可以基于单帧图像确定预设手势与预设目标对象的位置关系是否符合预设条件，也可以基于连续多帧图像确定预设手势与预设目标对象的位置关系是否符合预设条件。

其中，预设条件可以根据实际需要控制的目标设备或发送的交互指令设定。示例性的，预设条件可以为预设手势与预设目标对象的位置关系满足预设空间位置关系，当检测到预设手势和预设目标对象时，可以通过根据预设手势和预设目标对象上的任意一个点的坐标值，确定预设手势和预设目标对象的位置关系是否符合预设条件；

或者，可以根据预设手势的中心位置和预设目标对象的中心位置，确定各图像帧的目标区域，该目标区域包括预设手势和预设目标对象，将各图像帧的目标区域输入预先训练好的用于检测预设动作的第五神经网络，经第五神经网络输出检测结果，该预设动作为由预设手势和预设目标对象形成，例如，预设动作可以为预设手势(如，两指并拢)敲击预设目标对象(如，笔记本电脑)，当检测结果中确定存在预设动作，可以确定预设手势和预设目标对象的位置关系满足预设条件。其中，第五神经网络可以为CNN、RCNN，可以通过标注有预设手部、预设目标对象以及预设动作的样本图像序列训练神经网络得到用于检测预设动作的第五神经网络。

另外，本公开实施例也可以采用其他方式确定预设手势与预设目标对象的位置关系，本公开实施例对此不做限制。

步骤S230，响应于预设手势与预设目标对象的位置关系符合预设条件，根据预设手势以及预设目标对象，确定预设手势对应的用户的第一交互指令。

其中，可以预设创建预设手势和预设目标对象与交互指令和交互指令所操控的目标设备或应用程序的对应关系，根据该对应关系、预设手势和预设目标对象，确定第一交互指令以及执行第一交互指令所指示动作的目标设备或应用程序。将根据预设手势和预设目标对象确定的与预设手势对应的用户的交互指令称为第一交互指令。

示例性的，表1示出了预设手势和预设目标对象与交互指令以及交互指令所操控的目标设备或应用程序的对应关系的一个具体示例。当预设手势与预设目标对象的位置关系符合预设条件时，根据表1、预设手势和预设目标对象，确定预设手势对应的第一交互指令。

表1

以上针对确定第一交互指令的示例仅为举例说明，并不能作为对本公开的技术方案的限定，任何可以基于预设手势和预设目标对象确定预设手势对应的用户的第一交互指令的方案均可适用本公开。

本公开实施例中，通过将预设手势与物理实体的预设目标对象结合，使得用户更易联想记忆，且空间互动性好，感知耦合度高，因此提高了用户交互的效率，增强了用户的交互体验，而且由于通过预设手势和预设目标对象综合确定用户的交互指令，提高了交互控制的准确性，有效的降低手势误识别概率；同时，由于利用预设手势与预设目标对象结合的交互方式，增加了交互动作的多样性，从而也丰富了交互可控制的目标设备或应用程序。另外，用户可以根据自己的交互需求和/或交互习惯选取预设目标对象与预设手势组合形成交互动作，发出交互指令，实现了可以根据用户偏好自定义设置交互动作，实现了个性化、低记忆成本的交互。

在另一些实现方式中，本公开实施例的步骤S230可以包括如下步骤：

响应于检测到的预设手势为预设静态手势，且至少一帧图像中预设静态手势与预设目标对象的位置关系符合预设条件，从图像序列中获取包括符合预设条件的图像帧的第一图像序列，该第一图像序列包括符合预设条件的图像帧的前后多帧图像；确定第一图像序列的各图像帧中预设手势和预设目标对象的位置关系是否符合预设条件，基于第一图像序列中符合预设条件的图像帧的帧数大于或等于预设帧数(预设帧数可以根据实际需求设定)，确定该预设手势与预设目标对象的位置关系符合预设条件。

或者，响应于检测到的预设手势为预设静态手势，且至少一帧图像中预设静态手势与预设目标对象的位置关系符合预设条件，从图像序列中获取包括符合预设条件的图像帧的第二图像序列，该第二图像序列包括符合预设条件的图像帧的前后预设时间范围内的图像，例如，取符合预设条件的图像帧前后3s图像作为第二图像序列；根据第二图像序列确定预设静态手势保持的时长，当预设手势保持的时长大于或等于预设时长(预设时长可以根据实际需求设定)时，确定预设手势与预设目标对象的位置关系符合预设条件。

基于本实施例，可以根据连续的多帧图像确定预设手势与预设目标对象的位置关系是否符合预设条件，基于连续多帧图像判断，识别准确度更高，可以有效避免用户不小心触发交互的情形，实现更好的交互体验。

在一个实施方式中，如图3所示，本公开实施例的步骤S210可以包括如下步骤：

步骤S211，对各图像帧进行识别，确定用户的手部区域。

其中，可以通过预选训练好的用于手部识别的第六神经网络对各图像帧进行手部检测，确定用户的手部区域。其中，第六神经网络可以为CNN、RCNN、Faster-RCNN(FasterRegion Convolutional Neural Networks，快速区域卷积神经网络)等。

步骤S212，基于手部区域，确定用户的手部关键点。

其中，每一手部关键点可以对应该手部关键点的位置信息、该手部关键点的编号和该手部关键点的分类信息。手部关键点的分类信息表示该手部关键所属的手部位置，例如，手部分类信息可以为食指指尖等。示例性的，可以通过训练好的用于手部关键点识别的第七神经网络对手部区域进行检测，得到手部关键点。第七神经网络可以为YOLO(You OnlyLook Once)，DCNN(Deep Convolution Neural Network，深度卷积神经网络)等。或者通过MediaPipe等软件实现对手部关键点检测，得到手部关键点。

步骤S213，根据手部关键点，确定用户的手势是否为预设手势。

其中，确定用户的手部关键点对应的目标手势，并确定该目标手势是否为预设手势。可以根据各手部关键点的位置信息、角度信息、分类信息，确定用户的手势是否为预设手势；或者，可以将手部关键点输入预选训练好的用于手势识别的第八神经网络，经第八神经网络输出是否为预设手势的分类信息，第八神经网络可以为CNN、R-CNN、DCNN等。

或者，还可以将用户的手部关键点与预设存储的多个预设手势对应的手部关键点的信息(该手部关键点信息包括每一手部关键点的位置信息、编号和分类)匹配，当存在匹配时，确定用户的手势为预设手势，并获取与用户手的手部关键点匹配的预先存储的手部关键点的信息对应的预设手势作为用户的预设手势。或者，可以根据用户的手部关键点确定该手部关键点对应的目标手势，将目标手势与预选存储的预设手势匹配，确定是否为预设手势。

本公开实施例中，首先识别手部关键点，然后根据手部关键点确定用户的手势是否为预设手势，实现了对多种预设手势高效准确的识别，为后续利用预设手势确定第一交互指令提供了可靠数据基础。

在一个实施方式中，本公开实施例的人机交互的方法还包括：预设目标对象包括预设脸部部位、预设身体部位和预设物体中的一种或几种。

其中，预设脸部部位可以包括五官以及其他的脸部部位，例如，预设脸部部位可以包括耳部、鼻部、眼部、嘴部、眉部、腮部等；预设身体部位可以为除预设脸部以外的其他身体部位，例如，预设身体部位可以包括颈部、上臂、小臂、腹部、胸部、背部、肩部、腿部等；预设物体可以为除身体以外的其他的物体，例如预设物体可以为手机、笔记本电脑、水瓶等。在一个实现方式中，为了便于用户联想记忆交互动作，预设目标对象可以根据用于的交互习惯选取，例如，发出第一交互指令为控制音箱设备开启，预设目标对象可以设置为耳部。

在一个实施方式中，本公开实施例的步骤S220可以包括：响应于预设手势的手势检测框与预设目标对象的目标对象检测框之间存在重叠区域，确定预设手势与预设目标对象的位置关系符合预设条件。

其中，手势检测框可以为用于框选预设手势的检测框，目标对象检测框可以为用于框选预设目标对象的检测框，手势检测框和目标对象检测框尺寸可以相同或不同，例如，手势检测框和目标对象检测框可以为尺寸相同的矩形检测框。

示例性的，可以根据手势检测框和目标对象检测框的四个顶点的坐标值，确定手势检测框包括的所有点的坐标值集合和目标对象检测框包括的所有点的坐标值的集合，确定手势检测框的坐标值集合与目标对象检测框的坐标值的集合是否存在交集，若存在交集，则确定手势检测框与目标对象检测框存在重叠区域，此时确定预设手势与预设目标对象的位置关系符合预设条件。或者，可以计算手势检测框和目标对象检测框的面积交并比，当该面积交并比大于预设阈值，则确定手势检测框与目标对象检测框存在重叠区域，此时确定预设手势与预设目标对象的位置关系符合预设条件。

需要说明是的，当检测有多个预设目标对象时，当确定手势检测框与任意一个目标对象检测框存在重叠区域时，则可以确定预设手势与预设目标对象的位置关系符合预设条件。并根据预设手势和与手势检测框具有重叠区域的目标对象检测框所框选的预设目标对象确定预设手势对应的用户的第一交互指令。

本公开实施例，基于手势检测框和目标对象检测框之间是否存在重叠区域，确定预设手势和预设目标对象的位置关系是否符合预设条件，实现快速准确的对不同的预设手势和不同的预设目标对象的位置关系的确定，提高了根据手势检测框和目标对象检测框确定预设手势与预设目标对象的位置关系符合预设条件准确性，从而提高了确定第一交互指令的准确性。

在一个实施方式中，如图4所示，本公开实施例的步骤S220可以包括如下步骤：

步骤S221，获取预设手势的手势检测框的第一预设点的空间位置信息和预设目标对象的目标对象检测框的第二预设点的空间位置信息。

其中，可以将位于手势检测框中的任意一个点确定为第一预设点，例如，可以将手势检测框的中心点确定为第一预设点；可以将位于目标对象检测框中的任意一个点确定为第二预设点，例如，可以将目标对象检测框的中心点确定为第为预设点。

步骤S222，根据第一预设点的空间位置信息和第二预设点的空间位置信息，确定第一预设点与第二预设点之间的距离。

其中，第一预设点的空间位置信息可以包括第一预设点的空间坐标值，第二预设点的空间位置信息可以包括第二预设点的空间坐标值；例如，第一预设点的空间位置信息可以为第一预设点的空间坐标值(x₁,y₁,z₁)，第二预设点的空间位置信息可以为第二预设点的空间坐标值(x₂,y₂,z₂)。第一预设点与第二预设点之间的距离可以为欧式距离、马氏距离、切比雪夫距离等。示例性的，可以据第一预设点的空间坐标值和第二预设点的空间坐标值确定第一预设点与第二预设点之间的距离。

步骤S223，响应于第一预设点与第二预设点之间距离小于或等于预设距离，确定预设手势与预设目标对象的位置关系符合预设条件。

其中，预设距离可以根据实际需求设定。当第一预设点与第二预设点之间距离小于或等于预设距离时，可以确定预设手势与预设目标对象的位置关系符合预设条件，当第一预设点与第二预设点之间距离大于预设距离时，可以确定预设手势与预设目标对象的位置关系不符合预设条件。

本公开实施例，基于第一预设点和第二预设点之间的距离，确定预设手势与预设目标对象的位置关系是否符合预设条件，不仅可以实现对不同预设手势和不同预设目标对象的位置关系是否符合预设条件的高效准确的确定，而且该方式快速简洁，为后续确定第一交互指令提供准确的数据基础。

在一个实施方式中，如图5所示，本公开实施例的步骤S220可以包括如下步骤：

步骤S224，响应于检测到预设动态手势和预设目标对象，基于检测到预设动态手势的目标图像序列，确定目标图像序列中的各目标图像帧中的预设手势的手势检测框与预设目标对象的目标对象检测框的位置关系。

在一种实现方式中，预设手势可以包括预设动态手势和预设静态手势。可以根据预选训练好的用于动态手势识别的第九神经网络对图像序列进行识别，确定是否存在预设动态手势，当检测到预设动态手势和预设目标对象时，确定具有预设动态手势的目标图像帧，每一目标图像帧中具有框选预设动态手势的手势检测框，可以将目标图像帧按时序排序，形成目标图像序列，可以通过标注有预设动态手势的图像序列训练神经网络得到用于动态手势识别的第九神经网络，用于动态手势识别的第九神经网络可以为CNN、RCNN、YOLO等。

基于目标图像序列，确定目标图像序列中的每一帧目标图像帧中预设手势的手势检测框与预设目标对象的目标对象检测框的位置关系，具体方法同上S220-S223，在此不再描述。

步骤S225，响应于至少一帧图像中预设手势的手势检测框与预设目标对象的目标对象检测框的位置关系符合预设条件，确定预设动态手势与预设目标对象的位置关系符合预设条件。

在一种实现方式中，当检测到目标图像序列中的至少一帧目标图像帧的手势检测框和目标对象检测框之间存在重叠区域，确定该目标图像帧中的手势检测框与目标对象检测框的位置关系符合预设条件，并确定预设动态手势与预设目标对象的位置关系符合预设条件；或者，当检测到目标图像序列中的至少一帧目标图像帧的手势检测框中的预设点和目标对象检测框中的预设点之间距离小于或等于预设距离，确定该目标图像帧中的手势检测框与目标对象检测框的位置关系符合预设条件，并确定预设动态手势与预设目标对象的位置关系符合预设条件。

本公开实施例中，当检测到的预设手势为预设动态手势时，可以基于包括预设动态手势的目标图像序列，确定预设手势和预设目标对象的位置关系是否符合预设条件，实现对不同的预设动态手势与不同预设目标对象的位置关系是否符合预设条件的判定，为后续利用该数据确定第一交互指令提供了可靠的数据基础，而且针对包括预设动态手势的目标图像序列进行检测，提高了检测效率，节约了算力。

在一个实施方式中，如图6所示，本公开实施例的步骤S230还可以包括如下步骤：

步骤S231，响应于预设手势与预设目标对象的位置关系符合预设条件，基于图像序列确定预设手势对应的用户的身份信息。

在一种实现方式中，用户的身份信息可以包括用户ID(Identity document，身份证标识号)、登录密码等。

当预设手势与预设目标对象的位置关系符合预设条件时，将图像序列输入训练好的用于脸部识别的第十神经网络中，经第十神经网络输出人脸区域，将人脸区域与预选存储的人脸图像匹配，并获取与人脸区域匹配的人脸图像对应的用户的身份信息。其中，第十神经网络可以通过标注有人脸的多张训练图像训练得到。

步骤S232，获取与用户的身份信息对应的交互指令对应关系信息。

其中，每一用户身份信息可以对应一个交互指令对应关系信息，该交互指令关系对应信息包括预设手势、预设目标对象、第一交互指令的对应关系，即包括预设手势和预设目标对象，以及预设手势和预设目标对象与第一交互指令的对应关系。例如，交互指令对应关系信息可以如表1所示。

示例性的，用户可以自定义预设目标对象，并通过交互装置，例如触控屏或输入装置等输入预设目标对象，并选择预设手势和第一交互指令，将上述三者关联，从而完成交互指令对应关系信息设置。

步骤S233，根据预设手势、预设目标对象、交互指令对应关系信息，确定预设手势对应的用户的第一交互指令。

其中，可以基于预设手势和预设目标对象，根据交互指令对应关系信息，确定预设手势对应的用户第一交互指令。

本公开实施例中，通过用户的身份信息获取与用户的身份信息对应的交互指令对应关系信息，并通过预设手势、预设目标对象和交互指令对应关系信息，确定预设手势对应的用户的第一交互指令，用户可以根据自己的交互需求和/或交互习惯选取预设目标对象与预设手势组合形成交互动作，发出交互指令，实现了可以根据用户偏好自定义设置交互动作，实现了个性化、低记忆成本的交互，不仅便于用户记忆第一交互指令对应的预设手势和预设目标对象，而且提高用户使用体验。

在一个实施方式中，本公开实施例中的步骤S200之后还可以包括：获取用户的身份信息对应的交互指令对应关系信息。

其中，在由步骤S200得到图像序列之后，可以根据图像序列确定用户的身份信息，获取与用户的身份信息对应的交互指令对应关系信息，该交互指令关系对应信息包括预设手势和预设目标对象，以及预设手势和预设目标对象与第一交互指令的对应关系。之后，基于图像序列中的各图像帧进行预设手势检测和预设目标对象检测，确定预设手势信息和预设目标对象信息，当检测到预设手势和预设目标对象，确定预设手势与预设目标对象的位置关系是否符合预设条件，当预设手势与预设目标对象的位置关系符合预设条件，根据预设手势、预设目标对象以及交互指令对应关系信息，确定预设手势对应的用户的第一交互指令。在本公开实施例中，可以先获取用户的身份信息对应的交互指令对应关系信息，当检测到该用户的预设手势和预设目标对象，以及预设手势和预设目标对象的位置关系符合预设条件时，可以快速及时的根据之前的确定的交互指令对应关系信息得到预设手势对应的用户的第一交互指令，提高了预设手势和预设目标对象的识别效率，加快了第一交互指令的确定效率。

在一个实施方式中，如图7所示，本公开实施例的人机交互的方法还包括如下步骤：

步骤S240，获取预设手势对应的用户的第二交互指令。

其中，该第二交互指令包括语音指令、唇语指令、手势指令、视线指令中的一种或几种，第一交互指令用于确定用户的交互目标，第二交互指令用于确定用户的交互意图。用户的交互目标可以为执行第二交互指令的目标设备或应用程序；交互意图为第二交互指令所指示执行的操作。例如，第一交互指令可以包括视频播放程序、车窗等，第二交互指令可以包括切换下一视频、车窗升起等。

示例性的，以第二交互指令为语音指令为例，可以预先创建预设手势和预设目标对象与交互目标的对应关系，根据交互目标确定第一交互指令。例如，可以根据预设手势和预设目标对象，基于预设手势和预设目标对象与交互目标的对应关系，确定交互目标，并根据交互目标形成第一交互指令。当检测到语音指令时，将该语音指令确定为用户的第二交互指令，对语音指令进行解析，得到第一预设交互指令所指示的交互目标所要执行的动作。

步骤S250，根据用户的第一交互指令和第二交互指令触发交互操作。

其中，根据第二交互指令所指示的交互意图控制第一交互指令所指示的交互目标执行第二交互指令指示的操作。

示例性的，以第二交互指令为语音指令为例，表2示出了预设手势和预设目标对象与交互目标的对应关系的一个具体示例，根据检测到预设手势、预设目标对象和表2确定第一交互指令(交互目标)，例如，根据预设手势、预设目标对象和表2确定的第一交互指令为指示操控车载电话，当检测语音指令时，对语音指令进行语音识别，确定第二交互指令的内容，例如，第二交互指令为“给xxx打电话”，此时，控制车载电话拨打xxx的电话号码；当未检测到语音指令时，不对车载电话进行操作。

表2

本公开实施中，可以通过预设手势和预设目标对象确定用于指示交互目标的第一交互指令，然后获取用户的第二交互指令，根据第一交互指令和第二交互指令执行交互，实现高效的对交互目标的精准控制，提高了用户使用体验。

在一个实施方式中，如图8所示，本公开实施例的人机交互的方法还包括如下步骤：

步骤S260，响应于接收到第三交互指令，对第三交互指令进行识别，得到第三交互指令识别结果。

其中，第三交互指令可以为语音指令、键盘或触屏输入的指令。示例性的，当第三交互指令为语音指令时，可以通过语音识别技术，对语音指令进行解析，得到第三交互指令识别结果，当第三交互指令为键盘或触屏输入的指令时，可以通过语义解析技术，对通过键盘或触屏输入的指令进行解析，得到第三交互指令识别结果。第三交互指令识别结果可以包括第三交互指令的意图或语义。

步骤S270，响应于第三交互指令识别结果包括预设关键词和/或预设指令，执行基于图像序列中的各图像帧进行预设手势检测和预设目标对象检测的操作。

其中，预设关键词可以根据实际情况设置，例如，预设关键词可以为交互、设备或应用程序名称、自定义名称等，预设指令可以根据实际情况设置，例如，预设指令可以为对车窗进行控制、开始交互、已处于停车状态等。当第三交互指令识别结果包括预设关键词和/或预设指令，执行步骤S210以及步骤S210之后的操作，当第三交互指令识别结果不包括预设关键词和预设指令，结束操作。

示例性的，以第三交互指令为触屏输入的指令，预设关键词包括：开始交互、已停车、小二(自定义名称)为例。当接收到通过触屏输入的指令后，通过语义解析对该指令进行解析，得到触屏输入指令识别结果，确定该触屏输入的指令识别结果是否包括预设关键词，当确定包括预设关键词，例如，触屏输入的指令识别结果中包括已停车，则开始根据各图像帧进行预设手势检测和预设目标对象检测，确定预设手势信息和预设目标对象信息。当检测到预设手势和预设目标对象，确定预设手势与预设目标对象的位置关系是否符合预设条件。当预设手势与预设目标对象的位置关系符合预设条件，根据预设手势、预设目标对象以及交互指令对应关系信息，确定预设手势对应的用户的第一交互指令。当触屏输入的指令识别结果不包括上述任意一个预设关键词时，不启动根据各图像帧进行预设手势检测和预设目标对象检测的操作。

本公开实施例中，通过判断第三交互指令中是否包括预设关键词和/或预设指令，确定是否检测预设手势和预设目标对象，使得可以根据用户的意图或状态开启实施检测预设手势和预设目标对象以及之后的操作，避免了用户在处于不适合使用第一交互指令的交互方式的情况下，进行该种交互方式，导致给用户造成不便或安全隐患。

在一个可选示例中，图9公开了本公开一示例性实施例提供的人机交互的方法的一种整体流程图。其中，各步骤具体操作已在前述内容中进行了详细描述，在此处不再赘述。

1，获取在预设空间区域内采集的包括用户的图像序列。

2，基于图像序列中的各图像帧进行预设手势检测和预设目标对象检测，确定是否包括预设手势和预设目标对象，当确定不包括预设手势和/或预设目标对象，执行步骤3，当确定包括预设手势和预设目标对象，执行步骤4。

3，结束操作，之后不再执行本实施例的后续操作。

4，确定预设手势信息和预设目标对象信息。

5，确定预设手势与预设目标对象的位置关系是否符合预设条件，当预设手势与预设目标对象的位置关系不符合预设条件，执行步骤6，当预设手势与预设目标对象的位置关系符合预设条件，执行步骤7。

6，结束操作，之后不再执行本实施例的后续操作。

7，根据预设手势以及预设目标对象，确定预设手势对应的用户的第一交互指令。

示例性装置

图10是本公开一示例性实施例提供的人机交互的装置的结构示意图。该实施例的装置可用于实现本公开相应的方法实施例，如图10所示的装置包括：图像采集模块300，检测模块310，判断模块320，第一确定模块330。

图像采集模块300，用于获取在预设空间区域内采集的包括用户的图像序列；

检测模块310，用于基于所述图像序列中的各图像帧进行预设手势检测和预设目标对象检测，确定预设手势信息和预设目标对象信息；

判断模块320，用于响应于检测到所述预设手势和所述预设目标对象，确定所述预设手势与所述预设目标对象的位置关系是否符合预设条件；

第一确定模块330，用于响应于所述预设手势与所述预设目标对象的位置关系符合预设条件，根据所述预设手势以及所述预设目标对象，确定所述预设手势对应的用户的第一交互指令。

在一个可选示例中，本公开实施例中的检测模块310包括：

检测子模块311，用于对所述各图像帧进行识别，确定所述用户的手部区域；

第一确定子模块312，用于基于所述手部区域，确定所述用户的手部关键点；

第二确定子模块313，用于根据所述手部关键点，确定所述用户的手势是否为预设手势。

在一个可选示例中，本公开实施例中的人机交互的装置中，所述预设目标对象包括预设脸部部位、预设身体部位和预设物体中的一种或几种。

在一个可选示例中，本公开实施例中的判断模块320还包括：

响应子模块321，用于响应于所述预设手势的手势检测框与所述预设目标对象的目标对象检测框之间存在重叠区域，确定所述预设手势与所述预设目标对象的位置关系符合预设条件。

在一个可选示例中，本公开实施例中的判断模块320还包括：

第一获取子模块322，用于获取所述预设手势的手势检测框的第一预设点的空间位置信息和所述预设目标对象的目标对象检测框的第二预设点的空间位置信息；

第三确定子模块323，用于根据所述第一预设点的空间位置信息和所述第二预设点的空间位置信息，确定所述第一预设点与所述第二预设点之间的距离；

第四确定子模块324，响应于所述第一预设点与所述第二预设点之间距离小于或等于预设距离，确定所述预设手势与所述预设目标对象的位置关系符合预设条件。

在一个可选示例中，本公开实施例中的判断模块320还包括：

第五确定子模块325，用于响应于检测到所述预设动态手势和预设目标对象，基于检测到所述预设动态手势的目标图像序列，确定所述目标图像序列中的各所述目标图像帧中的所述预设手势的手势检测框与所述预设目标对象的目标对象检测框的位置关系；其中，所述预设手势包括预设动态手势；

第六确定子模块326，用于响应于至少一帧图像中所述预设手势的手势检测框与所述预设目标对象的目标对象检测框的位置关系符合预设条件，确定所述预设动态手势与所述预设目标对象的位置关系符合预设条件。

在一个可选示例中，本公开实施例中的第一确定模块330还包括：

第七确定子模块331，用于响应于所述预设手势与所述预设目标对象的位置关系符合预设条件，基于所述图像序列确定所述预设手势对应的用户的身份信息；

第二获取子模块332，用于获取与所述用户的身份信息对应的交互指令对应关系信息，所述交互指令关系对应信息包括所述预设手势、所述预设目标对象、所述第一交互指令的对应关系；

第八确定子模块333，用于根据所述预设手势、所述预设目标对象、所述交互指令对应关系信息，确定所述预设手势对应的用户的第一交互指令。

在一个可选示例中，本公开实施例中的人机交互的装置还包括：

获取模块340，用于获取所述预设手势对应的用户的第二交互指令，所述第二交互指令包括语音指令、唇语指令、手势指令、视线指令中的一种或几种，其中，所述第一交互指令用于确定所述用户的交互目标，所述第二交互指令用于确定所述用户的交互意图；

触发模块350，用于根据所述用户的第一交互指令和第二交互指令触发交互操作。

识别模块360，用于响应于接收到第三交互指令，对所述第三交互指令进行识别，得到第三交互指令识别结果；

响应模块370，用于响应于所述第三交互指令识别结果包括预设关键词和/或预设指令，执行所述基于所述图像序列中的各图像帧进行预设手势检测和预设目标对象检测的操作。

示例性电子设备

下面，参考图12来描述根据本公开实施例的电子设备。图12图示了根据本公开实施例的电子设备的框图。

如图12所示，电子设备包括一个或多个处理器400和存储器410。

处理器400可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制电子设备中的其他组件以执行期望的功能。

存储器410可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器400可以运行所述程序指令，以实现上文所述的本公开的各个实施例的人机交互的方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如输入信号、信号分量、噪声分量等各种内容。

在一个示例中，电子设备还可以包括：输入装置420和输出装置430，这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。

例如，该输入装置420可以是上述的麦克风或麦克风阵列，用于捕捉声源的输入信号。此外，该输入设备420还可以包括例如键盘、鼠标等等。

该输出装置430可以向外部输出各种信息，包括确定出的距离信息、方向信息等。该输出设备430可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。

当然，为了简化，图12中仅示出了该电子设备中与本公开有关的组件中的一些，省略了诸如总线、输入/输出接口等等的组件。除此之外，根据具体应用情况，电子设备还可以包括任何其他适当的组件。

示例性计算机程序产品和计算机可读存储介质

除了上述方法和设备以外，本公开的实施例还可以是计算机程序产品，其包括计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的人机交互的方法中的步骤。

所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外，本公开的实施例还可以是计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的人机交互的方法中的步骤。

所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

以上结合具体实施例描述了本公开的基本原理，但是，需要指出的是，在本公开中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本公开的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本公开为必须采用上述具体的细节来实现。

本说明书中各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言，由于其与方法实施例基本对应，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本公开中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。

可能以许多方式来实现本公开的方法和装置。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和装置。用于所述方法的步骤的上述顺序仅是为了进行说明，本公开的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本公开实施为记录在记录介质中的程序，这些程序包括用于实现根据本公开的方法的机器可读指令。因而，本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。

还需要指出的是，在本公开的装置、设备和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。

提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本公开。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本公开的范围。因此，本公开不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本公开的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims

1.一种人机交互的方法，包括：

获取在预设空间区域内采集的包括用户的图像序列；

基于所述图像序列中的各图像帧进行预设手势检测和预设目标对象检测，确定预设手势信息和预设目标对象信息；

响应于检测到所述预设手势和所述预设目标对象，确定所述预设手势与所述预设目标对象的位置关系是否符合预设条件；

响应于所述预设手势与所述预设目标对象的位置关系符合预设条件，根据所述预设手势以及所述预设目标对象，确定所述预设手势对应的用户的第一交互指令。

2.根据权利要求1所述的方法，其中，所述基于所述图像序列中的各图像帧进行预设手势检测，包括：

对所述各图像帧进行识别，确定所述用户的手部区域；

基于所述手部区域，确定所述用户的手部关键点；

根据所述手部关键点，确定所述用户的手势是否为预设手势。

3.根据权利要求1所述的方法，其中，所述预设目标对象包括预设脸部部位、预设身体部位和预设物体中的一种或几种。

4.根据权利要求1所述的方法，所述确定所述预设手势与所述预设目标对象的位置关系是否符合预设条件，包括：

响应于所述预设手势的手势检测框与所述预设目标对象的目标对象检测框之间存在重叠区域，确定所述预设手势与所述预设目标对象的位置关系符合预设条件。

5.根据权利要求1所述的方法，所述确定所述预设手势与所述预设目标对象的位置关系是否符合预设条件，包括：

获取所述预设手势的手势检测框的第一预设点的空间位置信息和所述预设目标对象的目标对象检测框的第二预设点的空间位置信息；

根据所述第一预设点的空间位置信息和所述第二预设点的空间位置信息，确定所述第一预设点与所述第二预设点之间的距离；

响应于所述第一预设点与所述第二预设点之间距离小于或等于预设距离，确定所述预设手势与所述预设目标对象的位置关系符合预设条件。

6.根据权利要求1-5中任一项所述的方法，所述预设手势包括预设动态手势，响应于检测到所述预设动态手势和所述预设目标对象，所述确定所述预设手势与所述预设目标对象的位置关系是否符合预设条件，包括：

基于检测到所述预设动态手势的目标图像序列，确定所述目标图像序列中的各所述目标图像帧中的所述预设手势的手势检测框与所述预设目标对象的目标对象检测框的位置关系；

响应于至少一帧图像中所述预设手势的手势检测框与所述预设目标对象的目标对象检测框的位置关系符合预设条件，确定所述预设动态手势与所述预设目标对象的位置关系符合预设条件。

7.根据权利要求1所述的方法，所述根据所述预设手势以及所述预设目标对象，确定所述预设手势对应的用户的第一交互指令，包括：

响应于所述预设手势与所述预设目标对象的位置关系符合预设条件，基于所述图像序列确定所述预设手势对应的用户的身份信息；

获取与所述用户的身份信息对应的交互指令对应关系信息，所述交互指令关系对应信息包括所述预设手势、所述预设目标对象、所述第一交互指令的对应关系；

根据所述预设手势、所述预设目标对象、所述交互指令对应关系信息，确定所述预设手势对应的用户的第一交互指令。

8.根据权利要求1所述的方法，其中，所述根据所述预设手势以及所述预设目标对象，确定所述预设手势对应的用户的第一交互指令之后，还包括：

获取所述预设手势对应的用户的第二交互指令，其中，所述第一交互指令用于确定所述用户的交互目标，所述第二交互指令用于确定所述用户的交互意图；

根据所述用户的第一交互指令和第二交互指令触发交互操作。

9.根据权利要求1所述的方法，所述基于所述图像序列中的各图像帧进行预设手势检测和预设目标对象检测之前，还包括：

响应于接收到第三交互指令，对所述第三交互指令进行识别，得到第三交互指令识别结果；

响应于所述第三交互指令识别结果包括预设关键词和/或预设指令，执行所述基于所述图像序列中的各图像帧进行预设手势检测和预设目标对象检测的操作。

10.一种人机交互的装置，包括：

图像采集模块，用于获取在预设空间区域内采集的包括用户的图像序列；

检测模块，用于基于所述图像序列中的各图像帧进行预设手势检测和预设目标对象检测，确定预设手势信息和预设目标对象信息；

判断模块，用于响应于检测到所述预设手势和所述预设目标对象，确定所述预设手势与所述预设目标对象的位置关系是否符合预设条件；

第一确定模块，用于响应于所述预设手势与所述预设目标对象的位置关系符合预设条件，根据所述预设手势以及所述预设目标对象，确定所述预设手势对应的用户的第一交互指令。

11.一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行上述权利要求1-9任一所述的人机交互的方法。

12.一种电子设备，所述电子设备包括：

处理器；

用于存储所述处理器可执行指令的存储器；

所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现上述权利要求1-9任一所述的人机交互的方法。