CN116301381A

CN116301381A - 一种交互方法及相关设备和系统

Info

Publication number: CN116301381A
Application number: CN202310284388.1A
Authority: CN
Inventors: 叶润春; 林垠; 殷保才; 殷兵
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2023-03-20
Filing date: 2023-03-20
Publication date: 2023-06-23

Abstract

本发明提供了一种交互方法及相关设备和系统，其中，交互方法包括：获取交互区域的多模态信息，多模态信息包括基于多个终端设备中的部分或全部终端设备获取的相对应的图像信息和语音信息；基于多模态信息中的图像信息确定交互区域中是否存在目标用户；若是，则基于多模态信息中的图像信息确定目标用户是否朝向多个终端设备中的一终端设备；若是，则将目标用户朝向的终端设备确定为交互设备；基于多模态信息中的语音信息，确定交互设备对应的控制指令，并向交互设备发送对应的控制指令。本发明提供的交互方法通过有效利用基于多个终端设备获取的多模态信息，使得语音交互不需要唤醒词，如此，整个交互过程更加自然高效。

Description

一种交互方法及相关设备和系统

技术领域

本发明涉及人机交互技术领域，尤其涉及一种交互方法及相关设备和系统。

背景技术

随着科技的发展和生活水平的提高，越来越多的场合配置了多个不同的终端设备，比如，智能摄像头、智能电视、智能空调、智能音箱等。

目前，对于具有语音交互功能的终端设备而言，用户与终端设备进行语音交互前，通常需要对终端设备进行唤醒，之后才能与被唤醒的终端设备进行语音交互。当某个场合中存在多个终端设备，而多个终端设备的唤醒词又相同时，如果用户进行唤醒操作，就会有多个终端设备被同时唤醒，并同时响应用户接下来的请求，即同时与用户进行交互，此时，会给用户造成困惑，不知道与哪一个终端设备进行交互，用户体验较差。

发明内容

有鉴于此，本发明提供了一种交互方法及相关设备和系统，用以解决多个终端设备的唤醒词相同导致多个终端设备被同时唤醒以及同时与用户进行交互，进而导致用户体验较差的问题，其技术方案如下：

一种交互方法，应用于服务器，所述方法包括：

获取交互区域的多模态信息，其中，所述多模态信息包括基于多个终端设备中的部分或全部终端设备获取的相对应的图像信息和语音信息；

基于所述多模态信息中的图像信息，确定所述交互区域中是否存在目标用户；

若所述交互区域中存在目标用户，则基于所述多模态信息中的图像信息，确定所述目标用户是否朝向所述多个终端设备中的一终端设备；

若所述目标用户朝向所述多个终端设备中的一终端设备，则将所述目标用户朝向的终端设备确定为交互设备；

基于所述多模态信息中的语音信息，确定所述交互设备对应的控制指令，并向所述交互设备发送对应的控制指令。

可选的，基于一终端设备获取的图像信息包括该终端设备采集的图像，或者，包括该终端设备采集的图像以及该终端设备对该终端设备采集的图像进行处理所得到的图像处理结果，其中，所述图像处理结果包括以下结果中的一种或多种：人体检测结果、人脸检测结果、人脸关键点提取结果、人脸识别结果、人脸中心三维位置检测结果、头部姿态检测结果、视线方向检测结果；

基于一终端设备获取的语音信息包括该终端设备采集的语音，或者，包括该终端设备采集的语音以及该终端设备对该终端设备采集的语音进行处理所得到的语音处理结果，其中，所述语音处理结果包括以下结果中的一种或多种：声纹识别结果、语音识别结果。

可选的，所述基于所述多模态信息中的图像信息，确定所述交互区域中是否存在目标用户，包括：

基于所述多模态信息中的图像信息，确定所述交互区域是否存在用户；

若所述交互区域中存在用户，则确定所述交互区域中存在目标用户；其中，所述交互区域中的用户为目标用户；

或者，

若所述交互区域中存在用户，则基于所述多模态信息中的图像信息和/或语音信息确定所述交互区域中的用户是否具有交互权限；若所述交互区域中存在具有交互权限的用户，则确定所述交互区域中存在目标用户；其中，所述交互区域中具有交互权限的用户为目标用户。

可选的，基于一终端设备获取的图像信息包括该终端设备采集的图像；基于一终端设备获取的语音信息包括该终端设备采集的语音；

所述基于所述多模态信息中的图像信息，确定所述交互区域是否存在用户，包括：

对所述多模态信息中终端设备采集的图像进行人体检测，若检测到人体，则确定所述交互区域中存在用户；

所述基于所述多模态信息中的图像信息和/或语音信息确定所述交互区域中的用户是否具有交互权限，包括：

对所述多模态信息中终端设备采集的语音进行声纹识别，以得所述交互区域中用户的声纹信息；和/或，对所述多模态信息中终端设备采集的图像进行人脸识别，以得到所述交互区域中用户的人脸信息；

基于所述交互区域中用户的声纹信息和/或所述交互区域中用户的人脸信息，确定所述交互区域中的用户是否具有交互权限。

可选的，所述基于所述多模态信息中的图像信息，确定所述目标用户是否朝向所述多个终端设备中的一终端设备，包括：

基于所述多模态信息中的图像信息，获取所述目标用户的头部姿态信息或视线方向信息以及所述目标用户的人脸中心三维位置；

基于所述目标用户的头部姿态信息或视线方向信息、所述目标用户的人脸中心三维位置以及所述多个终端设备的三维位置，确定所述目标用户是否朝向所述多个终端设备中的一终端设备。

可选的，所述基于所述目标用户的头部姿态信息或视线方向信息、所述目标用户的人脸中心三维位置以及所述多个终端设备的三维位置，确定所述目标用户是否朝向所述多个终端设备中的一终端设备，包括：

确定目标射线与设定虚拟平面的交点的三维位置，其中，所述目标射线为以所述目标用户的人脸中心三维位置为射线起点，以所述目标用户的头部姿态信息或视线方向信息所指示的方向为射线方向的射线；

基于所述交点的三维位置以及所述多个终端设备的三维位置，确定所述多个终端设备分别与所述交点之间的距离；

基于所述多个终端设备分别与所述交点之间的距离，确定所述目标用户是否朝向所述多个终端设备中的一终端设备。

可选的，所述基于所述多个终端设备分别与所述交点之间的距离，确定所述目标用户是否朝向所述多个终端设备中的一终端设备，包括：

从所述多个终端设备分别与所述交点之间的距离中，确定最小距离；

若所述最小距离小于设定距离阈值，则确定所述目标用户朝向所述多个终端设备中的一终端设备，否则，确定所述目标用户没有朝向所述多个终端设备中的任何终端设备；其中，所述目标用户朝向的终端设备为与所述交点之间的距离为所述最小距离的终端设备。

可选的，所述基于所述多模态信息中的语音信息，确定所述交互设备对应的控制指令，包括：

若所述多模态信息中包含基于所述交互设备获取的语音信息，则利用所述多模态信息中基于所述交互设备获取的语音信息，确定所述交互设备对应的控制指令；

若所述多模态信息中不包含基于所述交互设备获取的语音信息，则利用所述多模态信息中基于其它终端设备获取的语音信息，确定所述交互设备对应的控制指令。

可选的，基于一终端设备获取的语音信息包括该终端设备采集的语音；

所述利用所述多模态信息中基于所述交互设备获取的语音信息，确定所述交互设备对应的控制指令，包括：

对所述多模态信息中所述交互设备采集的语音进行语音识别，得到语音识别结果；

基于得到的语音识别结果，确定所述交互设备对应的控制指令。

一种交互装置，应用于服务器，所述装置包括：信息获取模块、信息处理模块和信息反馈模块；

所述信息获取模块，用于获取交互区域的多模态信息，其中，所述多模态信息包括基于多个终端设备中的部分或全部终端设备获取的相对应的图像信息和语音信息；

所述信息处理模块，用于基于所述多模态信息中的图像信息，确定所述交互区域中是否存在目标用户，若所述交互区域中存在目标用户，则基于所述多模态信息中的图像信息，确定所述目标用户是否朝向所述多个终端设备中的一终端设备，若所述目标用户朝向所述多个终端设备中的一终端设备，则将所述目标用户朝向的终端设备确定为交互设备，基于所述多模态信息中的语音信息，确定所述交互设备对应的控制指令；

所述信息反馈模块，用于向所述交互设备发送对应的控制指令。

一种服务器，包括：存储器和处理器；

所述存储器，用于存储程序；

所述处理器，用于执行所述程序，实现上述任一项所述的交互方法的各个步骤。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，实现上述任一项所述的交互方法的各个步骤。

一种交互系统，包括：服务器和多个终端设备；

所述多个终端设备，用于获取交互区域的多模态信息，并将所述多模态信息发送至所述服务器，其中，所述多模态信息包括基于多个终端设备中的部分或全部终端设备获取的相对应的图像信息和语音信息；

所述服务器，用于在接收到所述多模态信息后，基于所述多模态信息中的图像信息，确定所述交互区域中是否存在目标用户，若所述交互区域中存在目标用户，则基于所述多模态信息中的图像信息，确定所述目标用户是否朝向所述多个终端设备中的一终端设备，若所述目标用户朝向所述多个终端设备中的一终端设备，则将所述目标用户朝向的终端设备确定为交互设备，基于所述多模态信息中的语音信息，确定所述交互设备对应的控制指令，并向所述交互设备发送对应的控制指令；

所述多个终端设备中的交互设备，用于在接收到所述控制指令后，响应所述控制指令。

本发明提供的交互方法，首先获取交互区域的多模态信息，然后基于多模态信息中的图像信息确定交互区域中是否存在目标用户，若交互区域中存在目标用户，进一步基于多模态信息中的图像信息确定目标用户是否朝向多个终端设备中的一终端设备，若目标用户朝向多个终端设备中的一终端设备，则将目标用户朝向的终端设备确定为交互设备，接下来基于多模态信息中的语音信息，确定交互设备对应的控制指令，并向交互设备发送对应的控制指令。本发明提供的交互方法，可利用基于多个终端设备中的部分或全部终端获取的图像信息确定交互设备，可利用基于多个终端设备中的部分或全部终端获取的语音信息确定交互设备对应的控制指令，进而对交互设备进行控制，由于本发明提供的交互方法基于图像信息确定交互设备，因此，无需为终端设备定制唤醒词，对于用户而言，无需说出唤醒词，只要朝向想要交互的终端设备进而说出对于终端设备的操作请求即可，如此大大提升了用户体验。由于本发明提供的交互方法摆脱了唤醒词，因此避免了多个终端设备的唤醒词相同所带来的问题。本发明提供的交互方法通过有效利用基于多个终端设备获取的多模态信息，使得语音交互不需要唤醒词，如此，整个人机交互过程更加自然高效。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例提供的交互方法的流程示意图；

图2为本发明实施例提供的基于多模态信息中的图像信息，确定目标用户是否朝向多个终端设备中的一终端设备的一种实现方式的流程示意图；

图3为本发明实施例提供的基于多模态信息中的图像信息，确定目标用户是否朝向多个终端设备中的一终端设备的另一种实现方式的流程示意图；

图4为本发明实施例提供的交互装置的结构示意图；

图5为本发明实施例提供的服务器的结构示意图；

图6为本发明实施例提供的交互系统的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

一般而言，终端设备都需要使用唤醒词进行唤醒，当某个场合中存在多个终端设备，而多个终端设备的唤醒词又相同时，就会出现多个终端设备被同时唤醒，并同时响应用户请求的情况，如此会导致用户体验极差。

为了使用户获得较好的使用体验，目前的一种思路是，为各终端设备定制不同的唤醒词，比如，为终端设备1定制唤醒词1，为终端设备2定制唤醒词2，…，当用户想与终端设备1进行交互时，用终端设备1的唤醒词1将终端设备1唤醒，进而与被唤醒的终端设备1进行交互，当用户想与终端设备2进行交互时，用终端设备2的唤醒词2将终端设备2唤醒，进而与被唤醒的终端设备2进行交互，如此避免了上述多个终端设备被同时唤醒，并同时响应用户请求这种情况的发生。

为各终端设备定制不同的唤醒词，用不同的唤醒词唤醒不同的终端设备，虽然解决了上述多个终端设备的唤醒词相同所导致的问题，但是，其带来了新的问题，即，用户需要记忆每个终端设备的唤醒词，如此增加了用户的学习成本。

有鉴于此，本案发明人进行了研究，通过研究，本案发明人想到了多设备协同交互方法，即，接收多个终端设备发送的相同的语音请求信息，根据每个语音请求信息确定声音幅度(或者信噪比)，以得到多个终端设备分别对应的声音幅度(或者信噪比)，根据多个终端设备分别对应的声音幅度(或者信噪比)从多个终端设备中确定交互设备，进而由确定出的交互设备响应用户请求。

上述的多设备协同交互方法虽然无需为各终端设备定制不同的唤醒词，即用户无需记忆每个终端设备的唤醒词，但是，由于其是根据多个终端设备分别对应的声音幅度(或者信噪比)确定交互设备，因此，其容易受环境噪声的影响。

鉴于上述的交互方法易受环境噪声的影响，本案发明人继续进行研究，通过不断研究，最终提出了一种效果较好的交互方法，该交互方法无需为各终端设备定制不同的唤醒词，也不易受环境噪声的影响。

本发明提供的交互方法可应用于服务器，服务器可以为本地服务器，也可以为云端服务器，服务器可以是一台服务器，也可以是由多台服务器组成的服务器集群，服务器可以包括处理器、存储器以及网络接口等。

接下来通过下述实施例对本发明提供的交互方法进行介绍。

请参阅图1，示出了本发明实施例提供的交互方法的流程示意图，该交互方法可以应用于服务器，该交互方法可以包括：

步骤S101：获取交互区域的多模态信息。

其中，多模态信息包括基于多个终端设备中的部分或全部终端设备获取的相对应的图像信息和语音信息。

其中，多个终端设备中有至少一个终端设备具有图像采集功能，多个终端设备中有至少一个终端设备具有语音采集功能，即，多个终端设备中的部分或全部终端设备具有图像采集功能，多个终端设备中的部分或全部终端设备具有语音采集功能。需要说明的是，本实施例中的交互区域可以为具有图像采集功能的终端设备的可拍摄区域。

示例性的，终端设备为三个，分别为终端设备A、终端设备B、终端设备C，则三个终端设备中至少有一个终端设备具有图像采集功能，三个终端设备中有至少一个终端设备具有语音采集功能，比如，三个终端设备中的终端设备A具有图像采集功能，终端设备C具有语音采集功能，比如，三个终端设备中的终端设备B具有图像采集功能和语音采集功能，再比如，三个终端设备中的终端设备A具有图像采集功能，终端终端设备B具有图像采集功能和语音采集功能。

在一种可能的实现方式中，基于一终端设备获取的图像信息可以包括该终端设备采集的图像，在另一种可能的实现方式中，基于一终端设备获取的图像信息可以包括该终端设备采集的图像以及该终端设备对该终端设备采集的图像进行处理所得到的图像处理结果，其中，图像处理结果可以包括以下结果中的一种或多种：人体检测结果、人脸检测结果、人脸关键点提取结果、人脸识别结果、人脸中心三维位置检测结果、头部姿态检测结果、视线方向检测结果等。需要说明的是，若一终端设备具有图像采集功能而不具有图像处理功能，则基于该终端获取的图像信息只包括该终端设备采集的图像，若一终端设备既具有图像采集功能又具有图像处理功能，则基于该终端设备获取的图像信息可以包括该终端设备采集的图像以及该终端设备对该终端设备采集的图像进行处理所得到的图像处理结果，当然，若一终端设备既具有图像采集功能又具有图像处理功能，基于该终端获取的图像信息也可只包括该终端设备采集的图像。

类似的，在一种可能的实现方式中，基于一终端设备获取的语音信息可以包括该终端设备采集的语音，在另一种可能的实现方式中，基于一终端设备获取的语音信息可以包括该终端设备采集的语音以及该终端设备对该终端设备采集的语音进行处理所得到的语音处理结果，其中，语音处理结果包括以下结果中的一种或多种：语音识别结果、声纹识别结果。需要说明的是，若一终端设备具有语音采集功能而不具有语音处理功能，则基于该终端设备获取的语音信息只包括该终端设备采集的语音，若一终端设备既具有语音采集功能又具有语音处理功能，则基于该终端获取的语音信息可以包括该终端设备采集的语音以及该终端设备对该终端设备采集的语音进行处理所得到的语音处理结果，当然，如果一终端设备既具有语音采集功能又具有语音处理功能，基于该终端获取的语音信息也可只包括该终端设备采集的语音。

步骤S102：基于多模态信息中的图像信息，确定交互区域中是否存在目标用户。

可以理解的是，只有交互区域中存在目标用户，才可能会发生交互事件，因此，本步骤基于多模态信息中的视觉信息即图像信息，确定交互区域是否存在目标用户。如果交互区域中存在目标用户，则继续进行后续处理，如果交互区域中不存在目标用户，则无需进行后续处理，继续从多个终端设备收集信息，并基于收集的图像信息，确定交互区域中是否存在目标用户。

步骤S103：若交互区域中存在目标用户，则基于多模态信息中的图像信息，确定目标用户是否朝向多个终端设备中的一终端设备。

需要说明的是，目标用户可能为一个，也可能为多个，若目标用户为一个，则基于多模态信息中的图像信息确定该目标用户是否朝向多个终端设备中的一终端设备，若目标用户为多个，则基于多模态信息中与每个目标用户相关的图像信息确定每个目标用户是否朝向多个终端设备中的一终端设备。

步骤S104：若目标用户朝向多个终端设备中的一终端设备，则将目标用户朝向的终端设备确定为交互设备。

本发明实施例利用多模态信息中的图像信息进行交互设备的确定。

步骤S105：基于多模态信息中的语音信息，确定交互设备对应的控制指令，并向交互设备发送对应的控制指令。

通常情况，确定出的交互设备为一个，但某些时候也可能会出现确定出的交互设备为多个情况，比如，目标用户A朝向终端设备A，目标用户B朝向终端设备B，在出现这种情况时，可基于多模态信息中的语音信息确定多个交互设备分别对应的控制指令，进而将控制指令发送至对应的交互设备，比如，基于交互相关信息中用户A的语音信息确定终端设备A对应的控制指令，基于交互相关信息中用户B的语音信息确定终端设备B对应的控制指令。对于非交互设备，可向其发送禁止响应指令。

本发明实施例提供的交互方法，首先获取交互区域的多模态信息，然后基于多模态信息中的图像信息确定交互区域中是否存在目标用户，若交互区域中存在目标用户，进一步基于多模态信息中的图像信息确定目标用户是否朝向多个终端设备中的一终端设备，若目标用户朝向多个终端设备中的一终端设备，则将目标用户朝向的终端设备确定为交互设备，接下来基于多模态信息中的语音信息，确定交互设备对应的控制指令，并向交互设备发送对应的控制指令。本发明实施例提供的交互方法，可利用基于多个终端设备中的部分或全部终端获取的图像信息确定交互设备，可利用基于多个终端设备中的部分或全部终端获取的语音信息确定交互设备对应的控制指令，进而对交互设备进行控制，由于本发明实施例提供的交互方法基于图像信息确定交互设备，因此，无需为终端设备定制唤醒词，对于用户而言，无需说出唤醒词，只要朝向想要交互的终端设备进而说出对于终端设备的操作请求即可，如此大大提升了用户体验。

由于本发明实施例提供的交互方法摆脱了唤醒词，因此避免了多个终端设备的唤醒词相同所带来的问题以及针对多个终端设备的唤醒词各不相同所带来的问题，由于本发明实施例提供的交互方法基于图像信息确定交互设备，因此，不受环境噪声的影响，。本发明实施例提供的交互方法通过有效利用不同模态信息间的互补性，使得语音交互不需要定制唤醒词，同时对环境噪声的干扰更鲁棒，整个人机交互过程更加自然高效，另外，本发明实施例提供的交互方法还扩展了单个终端设备的用途。

在本发明的另一实施例中，对上述实施例中的“步骤S102：基于多模态信息中的图像信息，确定交互区域中是否存在目标用户”进行介绍。

基于多模态信息中的图像信息，确定交互区域中是否存在目标用户的实现方式有多种，本实施例提供两种可选的实现方式。

第一种实现方式：基于多模态信息中的图像信息，确定交互区域是否存在用户；若交互区域中存在用户，则确定交互区域中存在目标用户。其中，交互区域中的用户即为目标用户。

上述实施例提到，基于一终端设备获取的图像信息可以包括该终端设备采集的图像，也可以包括该终端设备对该终端设备采集的图像进行处理所得到的图像处理结果，即多模态信息中的图像信息可能只包括图像，也可能包括图像和图像处理结果，在多模态信息中的图像信息只包括图像的情况下，基于多模态信息中的图像信息，确定交互区域是否存在用户的过程可以包括：对多模态信息中的图像信息所包括的图像进行人体检测，若检测到人体，则确定交互区域中存在用户，否则，确定交互区域中不存在用户，若交互区域中存在用户，则直接确定交互区域中存在目标用户，交互区域中的用户即为目标用户。示例性的，检测到交互区域中存在用户A和用户B，则直接确定交互区域中存在目标用户，用户A和用户B为目标用户。

需要说明的是，若多模态信息中的图像信息包括图像处理结果，且图像处理结果中包含人体检测结果，则可直接根据人体检测结果确定交互区域中是否存在用户，而无需再对图像进行人体检测。

第二种实现方式：基于多模态信息中的图像信息，确定交互区域中是否存在用户；若交互区域中存在用户，则进一步基于多模态信息中的图像信息和/或语音信息确定交互区域中的用户是否具有交互权限；若交互区域中存在具有交互权限的用户，则确定交互区域中存在目标用户。其中，交互区域中具有交互权限的用户为目标用户。

具体的，在多模态信息中的图像信息只包括图像，以及语音信息只包括语音的情况下，对多模态信息中的图像信息所包括的图像进行人体检测，若检测到人体，则确定交互区域中存在用户，否则，确定交互区域中不存在用户，若确定出交互区域中存在用户，则进一步确定交互区域中的用户是否具有交互权限，具体的，对多模态信息中的语音信息所包括的语音进行声纹识别，以得交互区域中用户的声纹信息，和/或，对多模态信息中的图像信息所包括的图像进行人脸识别，以得到交互区域中用户的人脸信息，基于交互区域中用户的声纹信息和/或人脸信息，确定交互区域中的用户是否具有交互权限，在完成对交互区域中用户是否具有交互权限的判定后，若交互区域中存在具有交互权限的用户，则确定交互区域中存在目标用户。需要说明的是，在基于交互区域中用户的声纹信息和/或人脸信息，确定交互区域中的用户是否具有交互权限时，可将交互区域中用户的声纹信息和/或人脸信息作为交互区域中用户的身份信息，将该身份信息与预存的具有交互权限的用户的身份信息进行匹配，若匹配成功，则确定交互区域中身份信息匹配成功的用户具有交互权限。示例性的，检测到交互区域中存在用户A和用户B，经判定，用户A具有交互权限，用户B具有交互权限，则确定交互区域中存在目标用户，用户B为目标用户。

需要说明的是，若多模态信息中的图像信息包括图像处理结果，且图像处理结果中包括人体检测结果、人脸识别结果，则可直接利用，同样的，若多模态信息中的语音信息包括语音处理结果，且语音处理结果包括声纹识别，则可直接利用。

上述第一种实现方式关注的是出现在交互区域的用户，而第二种实现方式关注的是出现在交互区域且具有交互权限的用户，实际应用时，可根据应用场景和具体需求选取。

在本发明的另一实施例中，对上述实施例中的步骤S103：若交互区域中存在目标用户，则基于多模态信息中的图像信息，确定目标用户是否朝向多个终端设备中的一终端设备”以及“步骤S104：若目标用户朝向多个终端设备中的一终端设备，则将目标用户朝向的终端设备确定为交互设备”进行介绍。

基于多模态信息中的图像信息，确定目标用户是否朝向多个终端设备中的一终端设备的实现方式有多种，请参阅图2，示出了一种可能的实现方式的流程示意图，可以包括：

步骤S201：基于多模态信息中的图像信息，获取目标用户的人脸中心三维位置和头部姿态信息。

在多模态信息中的图像信息只包括图像的情况下，基于多模态信息中的图像信息，获取目标用户的人脸中心三维位置和头部姿态信息的过程可以包括：

步骤S2011、基于多模态信息中的图像信息所包括的图像，获取目标用户的人脸关键点二维坐标。

具体的，从多模态信息中的图像信息所包括的图像中提取目标用户的人脸区域图像，对目标用户的人脸区域图像进行人脸关键点提取，从而得到目标用户的人脸关键点二维坐标。

步骤S2012、基于标准人脸的人脸关键点三维坐标和目标用户的人脸关键点二维坐标，确定旋转矩阵和平移向量。

具体的，将标准人脸的人脸关键点三维坐标投影到相机坐标系下，得到人脸关键点二维坐标，基于通过投影获得的人脸关键点二维坐标以及目标用户的人脸关键点二维坐标，确定旋转矩阵和平移向量。

步骤S2013、基于旋转矩阵和平移向量对标准人脸的人脸关键点三维坐标进行变换，得到目标用户的人脸关键点三维坐标。

步骤S2014、基于目标用户的人脸关键点三维坐标，确定目标用户的人脸中心三维位置。

可对目标用户的人脸关键点三维坐标求均值，求得到的均值作为目标用户的人脸中心三维位置。

目标用户的头部姿态信息可基于经由步骤S2012获得的旋转矩阵确定，可采用现有的基于旋转矩阵确定头部姿态信息的方式确定目标用户的头部姿态信息。

步骤S202：基于目标用户的人脸中心三维位置和头部姿态信息以及多个终端设备的三维位置，确定目标用户是否朝向多个终端设备中的一终端设备。

具体的，基于目标用户的人脸中心三维位置和头部姿态信息以及多个终端设备的三维位置，确定目标用户是否朝向多个终端设备中的一终端设备的过程可以包括：

步骤S2021、确定第一目标射线与设定虚拟平面的交点的三维位置。

其中，第一目标射线为以目标用户的人脸中心三维位置为射线起点，以目标用户的头部姿态信息所指示的方向为射线方向的射线。第一目标射线与设定虚拟平面的交点可看做用户朝向的落点。

若将目标用户的人脸中心三维位置表示为(x_e,y_e,z_e)，将目标用户的头部姿态信息表示为(h₁,h₂,h₃)，设定虚拟平面为过点(x_p,y_p,z_p)且法线方向向量为(p₁,p₂,p₃)的平面，则可基于下式求得以目标用户的人脸中心三维位置(x_e,y_e,z_e)为射线起点，以目标用户的头部姿态信息(h₁,h₂,h₃)所指示的方向为射线方向的第一目标射线与设定虚拟平面的交点(x_f,y_f,z_f)：

x_f＝x_e+h₁*t (1)

y_f＝y_e+h₂*t (2)

z_f＝z_e+h₃*t (3)

t＝((x_p-x_e)p₁+(y_p-y_e)p₂+(z_p-z_e)p₃)/(p₁*h₁+p₂*h₂+p₃*h₃) (4)

步骤S2022、基于交点的三维位置以及多个终端设备的三维位置，确定多个终端设备分别与交点之间的距离。

其中，多个终端设备的三维位置可通过如下方式获得：选取空间中一固定点作为原点构建三维坐标系，基于现有的一些测距方法建模各终端设备在该坐标系中的三维位置。

需要说明的是，交点的三维位置为世界坐标系下的位置，多个终端设备的三维位置为构建的三维坐标系下的位置，为了进行距离计算，需要将交点的三维位置与多个终端设备的三维位置转换到同一坐标系下，从而在同一坐标系下计算多个终端设备分别与交点之间的距离。

步骤S2023、基于多个终端设备分别与交点之间的距离，确定目标用户是否朝向多个终端设备中的一终端设备。

具体的，基于多个终端设备分别与交点之间的距离，确定目标用户是否朝向多个终端设备中的一终端设备的过程可以包括：从多个终端设备分别与交点之间的距离中，确定最小距离；若最小距离小于设定距离阈值，则确定目标用户朝向多个终端设备中的一终端设备，目标用户朝向的终端设备为与交点之间的距离为最小距离的终端设备。

需要说明的是，若目标用户为多个，则基于多模态信息中的图像信息获取每个目标用户的人脸中心三维位置和头部姿态信息，基于每个目标用户的人脸中心三维位置和头部姿态信息以及多个终端设备的三维位置，确定每个目标用户是否朝向多个终端设备中的一终端设备。

另外需要说明的是，若多模态信息中的图像信息包含图像处理结果，则在确定目标用户是否朝向多个终端设备中的一终端设备的过程中，如果图像处理结果中存在所需信息，可直接利用。

请参阅图3，示出了基于多模态信息中的图像信息，确定目标用户是否朝向多个终端设备中的一终端设备的另一种实现方式的流程示意图，可以包括：

步骤S301：基于多模态信息中的图像信息，获取目标用户的人脸中心三维位置和视线方向信息。

基于多模态信息中的图像信息，获取目标用户的人脸中心三维位置可参见上述步骤S2011～步骤S2014，本实施例在此不做赘述。

在一种可能的实现方式中，目标用户的视线方向信息可通过将目标用户的人脸图像输入视线方向预测模型获得，其中，视线方向预测模型可采用标注有视线方向信息的训练人脸图像训练得到。当然，本实施例并不限定目标用户的视线方向信息基于视线方向预测模型获得，其它能够通过人脸图像获得视线方向信息的方法同样适用于本发明。

步骤S302：基于目标用户的人脸中心三维位置和视线方向信息以及多个终端设备的三维位置，确定目标用户是否朝向多个终端设备中的一终端设备。

具体的，基于目标用户的人脸中心三维位置和视线方向信息以及多个终端设备的三维位置，确定目标用户是否朝向多个终端设备中的一终端设备的过程可以包括：

步骤S3021、确定第二目标射线与设定虚拟平面的交点的三维位置。

其中，第二目标射线为以目标用户的人脸中心三维位置为射线起点，以目标用户的视线方向信息所指示的方向为射线方向的射线。

确定第二目标射线与设定虚拟平面的交点的三维位置的方式与上述确定第一目标射线与设定虚拟平面的交点的三维位置的方式类似，本实施例在此不做赘述。

步骤S3022、基于交点的三维位置以及多个终端设备的三维位置，确定多个终端设备分别与交点之间的距离。

步骤S3023、基于多个终端设备分别与交点之间的距离，确定目标用户是否朝向多个终端设备中的一终端设备。

步骤S3022和步骤S3023的具体实现过程和相关说明可参见步骤S2022和步骤S2023的具体实现过程和相关说明，本实施例在此不做赘述。

若确定出目标用户朝向多个终端设备中的一终端设备，则将目标用户朝向的终端确定为交互设备。

在本发明的另一实施例中，对上述实施例中的“步骤S105：基于多模态信息中的语音信息，确定交互设备对应的控制指令，并向交互设备发送对应的控制指令”进行介绍。

基于多模态信息中的语音信息，确定交互设备对应的控制指令，并向交互设备发送对应的控制指令的过程可以包括：

若多模态信息中包含基于交互设备获取的语音信息，则利用多模态信息中基于交互设备获取的语音信息，确定交互设备对应的控制指令；若多模态信息中不包含基于交互设备获取的语音信息，则利用多模态信息中基于其它终端设备获取的语音信息，确定交互设备对应的控制指令。

其中，利用多模态信息中基于交互设备获取的语音信息，确定交互设备对应的控制指令，包括：若多模态信息中基于交互设备获取的语音信息只包括交互设备采集的语音，则对交互设备采集的语音进行语音识别，以获得语音识别结果，基于语音识别结果确定交互设备对应的控制指令；若多模态信息中基于交互设备获取的语音信息包括交互设备对其采集的语音进行语音识别所得到的语音识别结果，则直接基于该语音识别结果确定交互设备对应的控制指令。具体的，在确定一交互设备对应的控制指令时，根据朝向该交互设备的用户的语音识别结果确定该交互设备对应的控制指令，具体的，根据朝向该交互设备的用户的语音识别结果包含的操作请求信息，确定该交互设备对应的控制指令，该交互设备对应的控制指令为与操作请求信息匹配的控制指令，若语音识别结果中不包含操作请求信息，可确定该交互设备对应的控制指令为禁止响应指令。

需要说明的是，若交互设备为多个，则针对每个交互设备，基于朝向该交互设备的用户的语音识别结果，确定该交互设备对应的控制指令。另外需要说明的是，在某些时候可能出现多个用户朝向同一交互设备说出操作请求的情况，若出现这种情况，可控制交互设备响应最早的操作请求，即，哪个用户先说出操作请求，就控制交互设备响应哪个用户的操作请求，当然，本实施例并不限定于此，也可采用其它策略选取所需响应的操作请求。

本发明实施例还提供了一种交互装置，下面对本发明实施例提供的交互装置进行描述，下文描述的交互装置与上文描述的交互方法可相互对应参照。

请参阅图4，示出了本发明实施例提供的交互装置的结构示意图，该交互可应用于服务器，其可以包括：信息获取模块401、信息处理模块402和信息反馈模块403。

信息获取模块401，用于获取交互区域的多模态信息。

其中，所述多模态信息包括基于多个终端设备中的部分或全部终端设备获取的相对应的图像信息和语音信息。

信息处理模块402，用于基于所述多模态信息中的图像信息，确定所述交互区域中是否存在目标用户，若所述交互区域中存在目标用户，则基于所述多模态信息中的图像信息，确定所述目标用户是否朝向所述多个终端设备中的一终端设备，若所述目标用户朝向所述多个终端设备中的一终端设备，则将所述目标用户朝向的终端设备确定为交互设备，基于所述多模态信息中的语音信息，确定所述交互设备对应的控制指令。

信息反馈模块403，用于向所述交互设备发送对应的控制指令。

在一种可能的实现方式中，信息处理模块402可以包括：图像信息处理模块和语音信息处理模块。

图像信息处理模块，用于基于所述多模态信息中的图像信息，确定所述交互区域中是否存在目标用户，若所述交互区域中存在目标用户，则基于所述多模态信息中的图像信息，确定所述目标用户是否朝向所述多个终端设备中的一终端设备，若所述目标用户朝向所述多个终端设备中的一终端设备，则将所述目标用户朝向的终端设备确定为交互设备。

语音信息处理模块，用于基于所述多模态信息中的语音信息，确定所述交互设备对应的控制指令。

在一种可能的实现方式中，基于一终端设备获取的图像信息包括该终端设备采集的图像；在另一种可能的实现方式中，基于一终端设备获取的图像信息包括该终端设备采集的图像以及该终端设备对该终端设备采集的图像进行处理所得到的图像处理结果，其中，所述图像处理结果包括以下结果中的一种或多种：人体检测结果、人脸检测结果、人脸关键点提取结果、人脸识别结果、人脸中心三维位置检测结果、头部姿态检测结果、视线方向检测结果。

在一种可能的实现方式中，基于一终端设备获取的语音信息包括该终端设备采集的语音；在另一种可能的实现方式中，基于一终端设备获取的语音信息包括该终端设备采集的语音以及该终端设备对该终端设备采集的语音进行处理所得到的语音处理结果，其中，所述语音处理结果包括以下结果中的一种或多种：声纹识别结果、语音识别结果。

在一种可能的实现方式中，图像信息处理模块在基于所述多模态信息中的图像信息，确定所述交互区域中是否存在目标用户时，具体用于基于所述多模态信息中的图像信息，确定所述交互区域是否存在用户，若所述交互区域中存在用户，则确定所述交互区域中存在目标用户，其中，所述交互区域中的用户为目标用户。

在另一种可能的实现方式中，图像信息处理模块在基于所述多模态信息中的图像信息，确定所述交互区域中是否存在目标用户时，具体用于基于所述多模态信息中的图像信息，确定所述交互区域是否存在用户，若所述交互区域中存在用户，则基于所述多模态信息中的图像信息和/或语音信息确定所述交互区域中的用户是否具有交互权限，若所述交互区域中存在具有交互权限的用户，则确定所述交互区域中存在目标用户，其中，所述交互区域中具有交互权限的用户为目标用户。

在一种可能的实现方式中，基于一终端设备获取的图像信息包括该终端设备采集的图像；基于一终端设备获取的语音信息包括该终端设备采集的语音。

图像信息处理模块在基于所述多模态信息中的图像信息，确定所述交互区域是否存在用户时，具体用于对所述多模态信息中终端设备采集的图像进行人体检测，若检测到人体，则确定所述交互区域中存在用户。

图像信息处理模块在基于所述多模态信息中的图像信息和/或语音信息确定所述交互区域中的用户是否具有交互权限时，具体用于对所述多模态信息中终端设备采集的语音进行声纹识别，以得所述交互区域中用户的声纹信息，和/或，对所述多模态信息中终端设备采集的图像进行人脸识别，以得到所述交互区域中用户的人脸信息，基于所述交互区域中用户的声纹信息和/或所述交互区域中用户的人脸信息，确定所述交互区域中的用户是否具有交互权限。

在一种可能的实现方式中，图像信息处理模块在基于所述多模态信息中的图像信息，确定所述目标用户是否朝向所述多个终端设备中的一终端设备时，具体用于：

在一种可能的实现方式中，图像信息处理模块在基于所述目标用户的头部姿态信息或视线方向信息、所述目标用户的人脸中心三维位置以及所述多个终端设备的三维位置，确定所述目标用户是否朝向所述多个终端设备中的一终端设备时，具体用于：

在一种可能的实现方式中，图像信息处理模块在基于所述多个终端设备分别与所述交点之间的距离，确定所述目标用户是否朝向所述多个终端设备中的一终端设备时，具体用于：

在一种可能的实现方式中，语音信息处理模块在基于所述多模态信息中的语音信息，确定所述交互设备对应的控制指令时，具体用于：

在一种可能的实现方式中，基于一终端设备获取的语音信息包括该终端设备采集的语音；

语音信息处理模块在利用所述多模态信息中基于所述交互设备获取的语音信息，确定所述交互设备对应的控制指令时，具体用于：

本发明实施例提供的交互装置，可利用基于多个终端设备中的部分或全部终端获取的图像信息确定交互设备，可利用基于多个终端设备中的部分或全部终端获取的语音信息确定交互设备对应的控制指令，进而对交互设备进行控制，由于本发明实施例提供的交互装置基于图像信息确定交互设备，因此，无需为终端设备定制唤醒词，对于用户而言，无需说出唤醒词，只要朝向想要交互的终端设备进而说出对于终端设备的操作请求即可，如此大大提升了用户体验。本发明实施例提供的交互装置通过有效利用不同模态信息间的互补性，使得语音交互不需要定制唤醒词，同时对环境噪声的干扰更鲁棒，整个人机交互过程更加自然高效。

本发明实施例还提供了一种服务器，请参阅图5，示出了该服务器的结构示意图，该服务器可以包括：处理器501、通信接口502、存储器503和通信总线504；

在本发明实施例中，处理器501、通信接口502、存储器503、通信总线504的数量为至少一个，且处理器501、通信接口502、存储器503通过通信总线504完成相互间的通信；

处理器501可能是一个中央处理器CPU，或者是特定集成电路ASIC(ApplicationSpeciIic Integrated Circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路等；

存储器503可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)等，例如至少一个磁盘存储器；

其中，存储器存储有程序，处理器可调用存储器存储的程序，所述程序用于：

可选的，所述程序的细化功能和扩展功能可参照上文描述。

本发明实施例还提供了一种可读存储介质，该可读存储介质可存储有适于处理器执行的程序，所述程序用于：

可选的，所述程序的细化功能和扩展功能可参照上文描述。

本发明实施例还提供了一种交互系统，请参阅图6，示出了该交互系统的结构示意图，可以包括：服务器601和多个终端设备602。

多个终端设备602，用于获取交互区域的多模态信息，并将多模态信息发送至服务器601。

其中，多模态信息包括基于多个终端设备602中的部分或全部终端设备获取的相对应的图像信息和语音信息。

需要说明的是，多个终端设备602中的部分或全部终端设备可获取图像信息，多个终端设备602中的部分或全部终端设备可获取语音信息，

其中，多个终端设备602中的部分或全部终端设备具有图像采集功能，可获取图像信息，多个终端设备602中的部分或全部终端设备具有语音采集功能，可获取语音信息。

服务器602，用于在接收到多模态信息后，基于多模态信息中的图像信息，确定交互区域中是否存在目标用户，若交互区域中存在目标用户，则基于多模态信息中的图像信息，确定目标用户是否朝向多个终端设备中的一终端设备，若目标用户朝向所述多个终端设备中的一终端设备，则将目标用户朝向的终端设备确定为交互设备，基于多模态信息中的语音信息，确定交互设备对应的控制指令，并向交互设备发送对应的控制指令。

其中，服务器601基于多模态信息中的图像信息，确定交互区域中是否存在目标用户的具体实现过程可参见步骤S102的实现过程，服务器601基于多模态信息中的图像信息，确定目标用户是否朝向多个终端设备中的一终端设备可参见上述实施例中步骤S103的实现过程，服务器601基于多模态信息中的语音信息，确定交互设备对应的控制指令，并向交互设备发送对应的控制指令的过程可参见步骤S105的实现过程，本实施例在此不做赘述。

多个终端设备602中的交互设备，用于在接收到控制指令后，响应控制指令。

本发明实施例提供的交互系统中，多个终端设备可获取多模态信息，服务器可基于多模态信息中的图像信息确定交互设备，可利用基于多模态信息中的语音信息确定交互设备对应的控制指令，进而对交互设备进行控制。由于本发明实施例提供的交互系统基于图像信息确定交互设备，因此，无需为终端设备定制唤醒词，对于用户而言，无需说出唤醒词，只要朝向想要交互的终端设备进而说出对于终端设备的操作请求即可，如此大大提升了用户体验。本发明实施例提供的交互系统通过有效利用不同模态信息间的互补性，使得语音交互不需要定制唤醒词，同时对环境噪声的干扰更鲁棒，整个人机交互过程更加自然高效。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种交互方法，其特征在于，应用于服务器，所述方法包括：

2.根据权利要求1所述的交互方法，其特征在于，基于一终端设备获取的图像信息包括该终端设备采集的图像，或者，包括该终端设备采集的图像以及该终端设备对该终端设备采集的图像进行处理所得到的图像处理结果，其中，所述图像处理结果包括以下结果中的一种或多种：人体检测结果、人脸检测结果、人脸关键点提取结果、人脸识别结果、人脸中心三维位置检测结果、头部姿态检测结果、视线方向检测结果；

3.根据权利要求1或2所述的交互方法，其特征在于，所述基于所述多模态信息中的图像信息，确定所述交互区域中是否存在目标用户，包括：

或者，

4.根据权利要求3所述的交互方法，其特征在于，基于一终端设备获取的图像信息包括该终端设备采集的图像；基于一终端设备获取的语音信息包括该终端设备采集的语音；

5.根据权利要求1或2所述的交互方法，其特征在于，所述基于所述多模态信息中的图像信息，确定所述目标用户是否朝向所述多个终端设备中的一终端设备，包括：

6.根据权利要求5所述的交互方法，其特征在于，所述基于所述目标用户的头部姿态信息或视线方向信息、所述目标用户的人脸中心三维位置以及所述多个终端设备的三维位置，确定所述目标用户是否朝向所述多个终端设备中的一终端设备，包括：

7.根据权利要求5所述的交互方法，其特征在于，所述基于所述多个终端设备分别与所述交点之间的距离，确定所述目标用户是否朝向所述多个终端设备中的一终端设备，包括：

8.根据权利要求1或2所述的交互方法，其特征在于，所述基于所述多模态信息中的语音信息，确定所述交互设备对应的控制指令，包括：

9.根据权利要求8所述的交互方法，其特征在于，基于一终端设备获取的语音信息包括该终端设备采集的语音；

10.一种交互装置，其特征在于，应用于服务器，所述装置包括：信息获取模块、信息处理模块和信息反馈模块；

11.一种服务器，其特征在于，包括：存储器和处理器；

所述存储器，用于存储程序；

所述处理器，用于执行所述程序，实现如权利要求1～9中任一项所述的交互方法的各个步骤。

12.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现如权利要求1～9中任一项所述的交互方法的各个步骤。

13.一种交互系统，其特征在于，包括：服务器和多个终端设备；