CN115904082A

CN115904082A - 多模态交互系统及交互方法

Info

Publication number: CN115904082A
Application number: CN202211605078.7A
Authority: CN
Inventors: 陆荣信; 陈旨诺; 蒋忠林
Original assignee: Ningbo Geely Automobile Research and Development Co Ltd
Current assignee: Ningbo Geely Automobile Research and Development Co Ltd
Priority date: 2022-12-14
Filing date: 2022-12-14
Publication date: 2023-04-04

Abstract

本公开提供一种多模态交互系统及交互方法。该系统包括：相互通信连接的逻辑控制模块、交互模块和实时控制模块；逻辑控制模块包括交互设备控制节点、传感器设备控制节点和逻辑处理器；交互模块，用于通过交互设备接收采集的交互信息，并传输给逻辑控制模块，实时控制模块，用于接收逻辑控制模块发送的指示信息，执行指示信息对应的运动控制命令，并向逻辑控制模块发送设备状态信息。本公开解决了现有人机交互系统无法有效完成多模态人机交互功能的问题。

Description

多模态交互系统及交互方法

技术领域

本公开涉及机器人控制技术领域，尤其涉及一种多模态交互系统及交互方法。

背景技术

现有的智能机器人、无人驾驶车辆中大量应用了人机交互系统，通过视觉、语音、显示屏等方式与人互动，从而实现多种多样的功能，如根据用户在显示屏上输入的目的地行驶到对应位置，或根据用户语音在显示屏上打开对应功能，或提醒用户从无人外卖车上取餐等。

但现有的人机交互功能均为将语音与显示屏交互、视觉与显示屏交互的两模态简单组合的人机交互系统，执行的功能较为简单，当需要将语音、视觉、显示屏交互(还包括机械动作)等多模态共同结合起来时，如能够同时完成机械动作、与人聊天并通过显示屏交互的机器人(就涉及语音、机械动作、显示屏交互等功能)，就只能通过多个两模态人机交互系统进行联动，此时，多个人机交互系统间就容易出现协调困难，无法实现对应功能的问题。

发明内容

本公开提供了一种多模态交互系统及交互方法，以解决现有人机交互系统无法有效完成多模态人机交互功能的问题。

第一方面，本公开提供了一种多模态交互系统，多模态交互系统包括：

相互通信连接的逻辑控制模块、交互模块和实时控制模块；

逻辑控制模块包括交互设备控制节点、传感器设备控制节点和逻辑处理器；

交互设备控制节点用于接收至少两种模态的交互设备输入的第一类交互信息，并传输给逻辑处理器，传感器设备控制节点用于接收至少两种模态的传感器设备输入的传感器信息，并传输给逻辑处理器，第一类交互信息包括音频交互信息；

交互模块，用于通过交互设备接收采集的第二类交互信息，并传输给逻辑控制模块，第二类交互信息包括非音频交互信息；

实时控制模块，用于接收逻辑控制模块发送的指示信息，执行指示信息对应的运动控制命令，并向逻辑控制模块发送设备状态信息。

可选地，交互设备控制节点包括分别与逻辑处理器通信连接的灯光设备控制节点、语音识别设备控制节点、音频播放设备控制节点；传感器设备控制节点包括环境感知设备节点，环境感知设备节点分别通过路径规划与导航控制节点、环境信息维护节点与逻辑处理器通信连接。

可选地，实时控制模块包括用于执行运动控制命令的运动控制算法模块，和用于传输设备状态信息的电池管理系统模块；逻辑控制模块还包括：与交互模块通信连接的摄像头视频流节点；与运动控制算法模块通信连接的平台运动控制节点；与电池管理系统模块通信连接的平台状态维护节点。

可选地，逻辑控制模块为基于Linux系统的逻辑模块，交互设备控制节点、传感器设备控制节点、摄像头视频流节点、平台运动控制节点和平台状态维护节点均为基于Linux系统的机器人操作系统节点；实时控制模块为基于Linux系统的逻辑模块；交互模块为基于安卓系统的逻辑模块。

可选地，逻辑控制模块内的节点间的通信方式和节点与逻辑处理器的通信方式为机器人操作系统主题模式；实时控制模块、交互模块与逻辑控制模块的通信方式为基于局域以太网内传输控制协议的数据传输模式。

第二方面，本公开提供了一种多模态交互方法，该多模态交互方法包括：

响应于检测到的交互启动信息，获取交互对象的输入信息，输入信息基于交互对象的交互操作确定；

基于交互对象的输入信息，确定对应的交互意图，交互意图用于表示交互对象所需要实现的功能，输入信息包含至少两种模态；

基于识别得到的交互意图，生成对应交互行为命令，交互行为命令用于控制对应设备执行完成交互对象所需要实现的功能所采取的交互行为。

可选地，交互启动信息通过如下方式检测得到：接收到触控设备发送的用于表示被唤醒的通知信息；和/或，接收到传感器设备发送的用于表示检测到存在物体移动到设定范围的通知信息；和/或，接收到摄像设备发送的用于表示检测范围内检测到人体的通知信息，摄像设备包括彩色相机和深度相机。

可选地，获取交互对象的输入信息包括：获取交互对象的身体特征信息，身体特征信息包括交互对象的躯体特征和/或面部特征；基于身体特征信息，确定交互对象对应的账户信息；基于身体特征信息，提取交互对象的交互特征和行为特征，交互特征包括交互对象的面部朝向特征、语音特征，行为特征包括交互对象的手势特征和动作特征。

可选地，基于交互对象的输入信息，确定对应的交互意图，包括：基于交互对象的语音特征，提取待执行功能对应的关键词，关键词用于确定交互对象的待执行功能，关键词包括命令词、意图关键词或话题关键词；和/或，基于交互对象的行为特征，确定至少一个相关联的待执行功能。

可选地，基于识别得到的交互意图，生成对应交互行为命令，包括以下至少一种：基于命令词，确定对应待执行功能；基于意图关键词，预测交互对象的需求功能，并确定与需求功能匹配的待执行功能；基于话题关键词，预测交互对象的应用场景，并确定与应用场景匹配的待执行功能；基于交互对象的账户信息，确定交互对象的执行功能对应历史记录，并结合历史记录预测其对应应用场景和待执行功能；基于交互对象的行为特征，确定交互对象对应的交互场景，并确定与应用场景匹配的待执行功能；基于确定的待执行功能，生成对应交互行为命令；待执行功能包括生成动作行为、灯光行为、屏幕行为、语音对话行为。

本公开提供的多模态交互系统及交互方法，通过设置相互配合的逻辑控制模块、交互模块和实时控制模块，通过交互模块和逻辑控制模块接收不同模态的设备传输的交互数据，并通过逻辑控制模块中的逻辑处理器对这些数据进行统一处理，并通过实时控制模块对相应设备的动作进行控制。由此，使得人机交互系统能够由统一的处理器，同时相应多种模态的交互数据，从而将语音、视觉、显示屏等多种模式的交互方式进行深度融合，实现自然化、智能化的人机交互体验，提高用户的使用体验。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

图1为本公开实施例提供的多模态交互方法的一种应用场景图；

图2为本公开一个实施例提供的多模态交互系统的结构示意图图；

图3为本公开又一个实施例提供的多模态交互方法的流程图；

图4为本公开又一个实施例提供的多模态交互方法的流程图；

图5为本公开又一个实施例提供的电子设备的结构示意图。

通过上述附图，已示出本公开明确的实施例，后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本公开构思的范围，而是通过参考特定实施例为本领域技术人员说明本公开的概念。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

下面以具体地实施例对本公开的技术方案以及本公开的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本公开的实施例进行描述。

现有技术中，人机交互技术已经得到广泛应用，如无人送货小车、配送机器人等智能设备，能够通过语音、显示屏等方式，与用户交互，实现向用户传送物品、指示方向、介绍商店/商场中的商品等功能。但现有应用在智能设备上的人机交互系统，荣昌智能执行语音与显示屏的配合、视觉与显示屏的配合等简单功能(如接收咨询菜单有什么的语音询问后，通过显示屏显示对应的菜单)，而如果需要同时涉及语音、显示屏、视觉等交互时(如拿着手机拍摄的宣传单询问机器人是否有对应的折扣或者商品时，就涉及语音询问、视觉获取图像、并通过显示屏显示；可能还包括机械动作，如带领用户到具体位置去选菜)，现有人机交互系统就无法协调处理这种多模态同时交互的情况(因此，现有智能设备、机器人等，无法实现前述功能)，导致用户体验不佳。

为了解决上述问题，本公开实施例提供一种多模态交互系统，基于通过分别配置逻辑控制模块和交互模块，获取多种模态的交互数据，并通过逻辑控制模块和实时控制模块，完成对应的交互行为，由此，能够有效完成多模态人机交互功能，提升用户体验。

下面对本公开实施例的应用场景进行解释：

图1为本公开实施例提供的多模态交互系统的一种应用场景图。如图1所示，在进行多模态交互流程中，智能设备100的人机交互系统101接收用户110通过语音、视觉、显示屏传输的多模态数据，然后执行对应交互动作，从而实现多模态交互功能。

需说明的是，图1所示场景中智能设备、人机交互系统和用户仅以一个为例进行示例说明，但本公开不以此为限制，也就是说，智能设备、人机交互系统和用户的个数可以是任意的。

以下通过具体实施例详细说明本公开提供的多模态交互系统。需要说明的是，下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。

图2为本公开一个实施例提供的多模态交互系统的结构示意图。如图2所示，多模态交互系统200包括：

相互通信连接的逻辑控制模块210、交互模块220和实时控制模块230；

逻辑控制模块210包括交互设备控制节点211、传感器设备控制节点212和逻辑处理器213；

交互设备控制节点211用于接收至少两种模态的交互设备输入的第一类交互信息，并传输给逻辑处理器213，传感器设备控制节点212用于接收至少两种模态的传感器设备输入的传感器信息，并传输给逻辑处理器213，第一类交互信息包括音频交互信息；

交互模块220，用于通过交互设备接收采集的第二类交互信息，并传输给逻辑控制模块210，第二类交互信息包括非音频交互信息；

实时控制模块230，用于接收逻辑控制模块210发送的指示信息，执行指示信息对应的运动控制命令，并向逻辑控制模块210发送设备状态信息。

具体的，逻辑控制模块210包括接收传感器设备和交互设备传输的交互数据的对应节点(即传感器设备控制节点212和交互设备控制节点211)，以对传感器设备和交互设备传输的数据进行初步处理，提取用户的交互信息(如交互动作)，这些节点会将处理后的数据传输给逻辑处理器213，逻辑处理器根据初步处理后的数据，确定用户的交互意图(即需要执行的功能)，并基于交互意图，确定采取的交互行为(即执行对应的功能)，并生成对应的交互行为命令，以使智能设备(如无人小车、智能机器人)完成对应的交互动作。

示例性的，应用于商场的指路机器人，在通过超声雷达检测到有物体靠近时，会将检测数据通过传感器设备控制节点212发送给逻辑处理器213，逻辑处理器213会通过传感器设备控制节点212启动彩色相机，通过彩色相机拍摄物体形状，并会传给传感器设备控制节点212，以对拍摄的照片进行预处理，逻辑处理器213根据预处理结果确定靠近的物体是人后，会自动唤醒交互屏幕，以便用户查看地图信息。

交互模块220主要与显示屏/触摸屏等搭载在智能设备上的交互设备配合，获取用户在交互设备上的输入数据，并传输给逻辑控制模块210进行处理，再将处理后的数据传输给交互设备和其他与逻辑控制模块210相连的设备，从而实现交互。

示例性的，应用于景区参观的导游机器人，在通过触摸屏接收了用户选择的景点后，会将数据传输给逻辑控制模块210，逻辑控制模块210会控制触摸屏显示“请跟着机器人走”的字样，然后控制移动设备(如车轮或行动足)朝目标景点移动，并控制语音设备发出“请跟着我走”的语音。

实时控制模块230用于接收逻辑控制模块210传输的命令，控制智能设备中的移动设备或活动机构(如机械臂)执行动作，如向设定方向移动，移动特定物品(如无人快递车将车内快递取出给取件人)等。

可选地，交互设备控制节点211包括分别与逻辑处理器通信连接的灯光设备控制节点2111、语音识别设备控制节点2112、音频播放设备控制节点2113；传感器设备控制节点212包括环境感知设备节点2121，环境感知设备节点分别通过路径规划与导航控制节点2122、环境信息维护节点2123与逻辑处理器213通信连接。

具体的，灯光设备控制节点2111用于控制智能设备上灯光设备的状态，如在亮度较暗的区域自动开启指路灯；语音识别设备控制节点2112用于获取智能设备上语音输入设备(如麦克风)中输入的语音并进行预处理(如保存、降噪等处理)；音频播放设备控制节点2113用于控制智能设备上的音响的设备的工作，以执行输出语音、声音的动作。

进一步地，通过在逻辑控制模块210中同时内置语音识别设备控制节点2112和音频播放设备控制节点2113，可以利用逻辑处理器213，对音频播放设备控制节点2113输出的声音信号进行回音消除，避免再次被语音识别设备控制节点2112接收，影响智能设备的有效工作。

环境感知设备节点2121用于与智能设备上的超声波雷达、激光雷达、深度相机等能够测量距离的设备配合，获取智能设备周边物体的位置信息。路径规划与导航控制节点2122用于接收环境感知设备节点2121传输的位置信息，并在智能设备需要移动时，根据位置信息进行路径规划和导航控制的操作；环境信息维护节点2123用于接收位置信息，并与预先配置的环境信息(如家庭扫地机器人中扫描得到的室内环境图)对比和更新。

可选地，实时控制模块230包括用于执行运动控制命令的运动控制算法模块231，和用于传输设备状态信息的电池管理系统模块232；逻辑控制模块还包括：与交互模块通信连接的摄像头视频流节点214；与运动控制算法模块231通信连接的平台运动控制节点215；与电池管理系统模块232通信连接的平台状态维护节点216。

具体的，对应不同智能设备，其包含的运动算法不同，如移动能力较强的智能机器人，其通常包含多种运动算法(如越障功能和正常移动功能所对应的运动算法不同)，通过运动控制算法模块231，可以根据选择对应运动算法执行；平台运动控制节点215用于基于逻辑处理器213的选择，调用对应的运动算法，并通知运动控制算法模块231执行。

由于智能设备通常为可移动的设备，因此需要对起电源状态的信息进行综合管理，以避免智能设备在使用中突然停机，其中，电池管理系统模块232用于监测智能设备的电源状态，平台状态维护节点216用于记录电源状态并确定需要维护(或充电)的情况，以反馈给逻辑处理器213，以便及时进行充电。

由于常见交互设备中通常配置有摄像头(如平板电脑中配置的摄像头)，因此，也需要针对这类摄像头，配置摄像头视频流节点214，以控制摄像头，拍摄视频数据，以基于获取用户的人脸特征(以进行人脸识别)和行为特征(如预设了对应功能的手势动作)。

可选地，逻辑控制模块210为基于Linux系统的逻辑模块，交互设备控制节点211、传感器设备控制节点212、摄像头视频流节点214、平台运动控制节点215和平台状态维护节点216均为基于Linux系统的机器人操作系统节点；实时控制模块230为基于Linux系统的逻辑模块；交互模块220为基于安卓系统的逻辑模块。

具体的，通过选择linux系统、机器人操作系统和安卓系统，利用其开源特性，方便开发和维护。

可选地，逻辑控制模块210内的节点间的通信方式和节点与逻辑处理器213的通信方式为机器人操作系统主题模式；实时控制模块230、交互模块220与逻辑控制模块210的通信方式为基于局域以太网内传输控制协议的数据传输模式。

具体的，由于逻辑控制模块210内的结构通常集成在一起，通过机器人操作系统主题模式(即ROS topic模式)，方便数据通信过程中的点对点传输，同时方便逻辑处理器213在输出待执行功能的命令时，向多个节点同时传递信息。而由于实时控制模块230和交互模块220对应的物理结构通常不与逻辑控制模块210集成在一起，通过局域以太网内传输控制协议的数据传输模式(即局域网的TCP C/S模式)，能够方便不同模块间在固定距离下的通信，提高实时控制模块230和交互模块220配置时的位置灵活性。

本公开实施例提供的多模态交互系统，通过设置相互配合的逻辑控制模块、交互模块和实时控制模块，通过交互模块和逻辑控制模块接收不同模态的设备传输的交互数据，并通过逻辑控制模块中的逻辑处理器对这些数据进行统一处理，并通过实时控制模块对相应设备的动作进行控制。由此，使得人机交互系统能够由统一的处理器，同时相应多种模态的交互数据，从而将语音、视觉、显示屏等多种模式的交互方式进行深度融合，实现自然化、智能化的人机交互体验，提高用户的使用体验。

图3为本公开提供的一个多模态交互方法的流程图。如图3所示，本实施例提供的多模态交互方法包括以下步骤：

步骤S301、响应于检测到的交互启动信息，获取交互对象的输入信息。

其中，输入信息基于交互对象的交互操作确定。

具体的，大部分智能设备在未进行人机交互工作时，其人机交互系统通常处于静默状态，如无人快递小车在没有接触到取件人时，其人机交互的触

摸屏等设备就会处于息屏状态，以节省电量。只有接收到交互启动信息，才5会唤醒人机交互系统的各种交互设备。

一些实施例中，智能设备的传感器设备处于持续工作状态，以检测智能设备周围相关信息(如环境信息)，只有交互设备(如显示屏、灯光设备等)才处于静默状态。

交互启动信息为智能设备上的传感器设备或交互设备接收到了预设种类0的交互操作时确定的信息，如预设了靠近智能设备的红外传感器设定距离后，

或碰触了触摸屏后，或对智能设备发出了特定的语音或语音关键词(如“请问哪里有餐馆”中包含有“哪里”和“餐馆”两个关键词)之后，会自动生成交互启动信息。

交互对象是指使用智能设备的人，包括非注册用户、注册用户和管理人5员，如工厂的智能设备(如货物搬运机器人)，其使用者均是特定的注册用

户，以通过权限认证，保证安全性；而在商场、户外环境中使用的智能设备(如无人快递小车)，其使用者通常为非特定的非注册用户；而这些设备通常也会对应管理人员，以便调试、维护智能设备。

在唤醒智能设备的交互设备之后，智能设备就可以通过传感器设备、交0互设备会去接收输入信息，如通过触摸屏接收交互对象输入的操作，或通过

麦克风接收交互对象输入的语音，或通过摄像头拍摄用户的动作等。

一些实施例中，交互启动信息和输入信息会在同一次操作中同时接收，只是分开处理得到，如交互对象对智能设备发出特定语音(如“某商店在哪

里”)，智能设备的逻辑处理模块在接收到该语音信息后，除唤醒其他交互5设备，还会直接对该语音信息进行处理，确定交互对象需要实现的功能(如

导航功能，目的地是某商店)，由此，能够节省操作次数，提升用户体验。

步骤S302、基于交互对象的输入信息，确定对应的交互意图。

其中，交互意图用于表示交互对象所需要实现的功能，输入信息包含至少两种模态。

0具体的，智能设备的逻辑处理器会根据输入信息种类的不同，选择不同时对输入信息进行处理，以确定对应的交互意图。

如输入信息为触摸屏中的选择，则会自动调用对应功能；如输入信息为语音(即第一类交互信息)，则会通过音频处理相关的算法和功能，提取其中关键词，并基于关键词匹配对应功能。

如输入信息为手势动作，则会通过图像处理或视频处理相关的算法和功能，提取其动作特征，并基于动作特征和预设的动作与功能的匹配关系，确定对应功能。

输入信息通常可能包含多种不同的模态，如交互对象同时输入语音、触摸屏或视觉图像，如出示某图片(手机上的图片)，并询问“这个东西你这儿有吗”，此时就需要逻辑处理器对不同模态的数据进行结合处理，如对图片进行提取和匹配，并对语音数据提取，以确定待执行功能(即语音对应内容)，和功能指示的对象客体(即图片对应客体)。

一些实施例中，如果逻辑处理器没有检索到与输入信息直接对应的功能，可能会再通过模糊搜索或模糊匹配，匹配多个相近功能，并推送给交互对象，以供选择，如交互对象发出了“我的快递在哪”，智能设备可以通过触摸屏和语音提示用户，是选择“取快递”功能，还是“导航去快递接收点”功能。

步骤S303、基于识别得到的交互意图，生成对应交互行为命令。

其中，交互行为命令用于控制对应设备执行完成交互对象所需要实现的功能所采取的交互行为。

具体的，确定对应功能后，逻辑处理器就会生成对应的交互行为命令，以调用对应节点和模块，执行实现该对应功能所需的交互行为。

示例性的，智能设备确定交互对象需要执行的功能时“导航去快递接收点”后，会通过触摸屏显示“请跟我走”的字样，并通过音响发出“请跟我走”的语音，以及开启智能灯光，提醒行驶方向上的行人避让。

本公开实施例提供的多模态交互方法，通过响应于检测到的交互启动信息，获取交互对象的输入信息，再基于交互对象的输入信息，确定对应的交互意图，然后基于识别得到的交互意图，生成对应交互行为命令。由此，使得人机交互系统能够同时处理多种模态的输入信息，并由统一的逻辑处理器进行处理，从而能够深度处理多种模态的信息交互，实现自然化、智能化的人机交互体验，提高用户的使用体验。

图4为本公开提供的一个多模态交互方法的流程图。如图4所示，本实施例提供的多模态交互方法包括以下步骤：

步骤S401、接收到触控设备发送的用于表示被唤醒的通知信息。

具体的，智能设备在接收到被唤醒的通知信息时，交互流程即已开始。触控设备可以是触摸屏(也即是交互设备)，也可以是智能设备上的按钮(物理按键)。触控设备被唤醒，可以是有人触碰了触摸屏，也可以是点击了按钮。

当触控设备被唤醒后，会自动生成通知信息，以便逻辑处理器启动其他交互设备，以接收输入信息。

触控设备被唤醒后即处于工作状态，此时触控屏的屏幕将维持设定时长的常亮状态，以接收后续的操作，并输出逻辑处理器的反馈信息。

步骤S402、接收到传感器设备发送的用于表示检测到存在物体移动到设定范围的通知信息。

具体的，智能设备也可以在接收到传感器设备发送的检测到物体靠近的通知信息，而启动交互流程。此处所指的传感器设备，包括超声波雷达、激光雷达等用于测距和定位的设备。

步骤S403、接收到摄像设备发送的用于表示检测范围内检测到人体的通知信息。

其中，摄像设备包括彩色相机和深度相机。

具体的，智能设备也可以在接收到摄像设备传输的拍摄到人体的通知信息，而启动交互流程。

彩色相机即RGB相机，其拍摄到人体的彩色图像，通过图像识别算法，可以检测拍摄到的图像或视频中的人形。

深度相机则可以通过拍摄到的三维图像，确定人形及其位置。

步骤S401至步骤S403为相互平行的可选步骤，在实际情况中，当任意步骤执行后，可以直接跳至步骤S404，并执行后续步骤。

步骤S404、获取交互对象的身体特征信息。

其中，身体特征信息包括交互对象的躯体特征和/或面部特征。

具体的，在交互流程启动后，可以直接采集交互对象的输入信息，也可以首先确认交互对象的身份信息，以便确定交互对象的注册账号等信息后，启动对应服务和功能的权限。如无人快递小车，需要获取交互对象提供的电话号码信息，以确定交互对象身份，以取出对应的快递给交互对象。

识别交互对象身份，可以根据面部特征，如常见的人脸识别功能。

还可以通过躯体特征判断交互对象是否满足功能需求，如衣着、鞋子、手套(这些特征通常用于判断是否穿工装，应用于工厂场景)、眼镜(如特定场合要求不要佩戴眼镜，以防掉落)、口罩(如安全卫生要求)，当躯体特征满足功能需求时，才会开放对应功能权限。

步骤S405、基于身体特征信息，确定交互对象对应的账户信息。

具体的，基于身体特征信息，可以确定逻辑处理器，或与逻辑处理器通信连接的服务器中是否保存有交互对象对应的账户信息，若不存在，则可以为交互对象新建账户。新建账户可以是通用低权限账户，如商场、户外的智能设备中生成的账户，通过为交互对象创建通用低权限账户，可以有效满足常见用户需求。新创建的通用低权限账户，可能在完成一次交互流程之后，即删除该账户(因为通常这类账户对应的交互对象不会反复多次的使用同一智能设备)，以节省空间。

而如果交互对象的账户存在，就会基于接收的身体特征信息，和后续执行的功能，更新对应账户信息，如交互历史，用户标签等(用户标签可以根据用户执行的功能而更新)。如交互对象的账户已存在，但账户信息为空白，则会基于交互对象身体特征信息和后续执行的功能，填充对应的账户信息。

步骤S406、基于身体特征信息，提取交互对象的交互特征和行为特征。

其中，交互特征包括交互对象的面部朝向特征、语音特征，行为特征包括交互对象的手势特征和动作特征。

具体的，完成交互流程启动和账户登录后，就需要识别交互对象的交互意图，以确定其需要执行的功能。

具体识别交互意图的方法，根据交互对象所输入信息的模态不同，存在不同方式，若交互对象使用交互设备(如触摸屏)输入信息，则直接调用对应功能即可。但若交互对象使用语音、动作、图片等方式输入，则智能设备需要提取其交互特征，以确定对应交互意图。

根据交互对象所采取的输入信息的模态不同，需要提取的交互特征也可能不同，如采取语音输入，则提取对应语音特征；如采取动作输入，则提取交互对象的行为特征；如采取图片展示的方式输入，则提取其图像特征；如要求输入面部信息，则提取其面部特征、面部朝向特征(如人脸识别系统中要求的脸朝某个方向转动等要求)等。

步骤S407、基于交互对象的语音特征，提取待执行功能对应的关键词。

其中，关键词用于确定交互对象的待执行功能，关键词包括命令词、意图关键词或话题关键词；待执行功能包括生成动作行为、灯光行为、屏幕行为、语音对话行为。

具体的，对应语音特征，需要通过语音识别算法，提取其中的关键词，若该关键词能够直接匹配到对应功能的命令词，如“导航到某地”，则直接确定对应的待执行功能(为导航功能)；若不能直接确定命令词，则可以尝试确定其中的意图关键词，如“想去某地”，根据意图关键词确定备选的待执行功能(如导航功能或旅游信息展示功能)；若不能确定意图关键词，则可以确定与关键词相关联的话题对应的功能，如“某地好么”，则可以确定话题关键词为“某地”，并推送与“某地”相关的所有待执行功能。

根据具体待执行功能不同，智能设备可能采取不同的操作，如执行特定动作行为(如移动、取件等)、灯光行为(打开指示灯、提示灯)、屏幕行为(在触摸屏、显示屏上显示对应内容)、语音对话行为(发出提示音等)，也可以同时采取多种不同的操作，以提高人机交互体验。

步骤S408、基于交互对象的行为特征，确定至少一个相关联的待执行功能。

具体的，智能设备中的部分功能可能预设了可以通过特定手势动作触发(类似于智能手机上手势触发的功能一样)，此时智能设备就会通过交互对象的手势特征和动作特征，确定所有相关联的待执行功能。

步骤S407和步骤S408为相互平行的可选步骤，根据输入信息的模态不同，可以选择任意一个步骤执行，也可以选择两个步骤共同执行。

步骤S409、基于命令词，确定对应待执行功能。

具体的，而在语音识别中，若逻辑处理器能够通过语音识别得到语音信号中的命令词，并从可执行的功能中匹配出与命令词对应的功能，即可将该匹配出的功能设置为待执行功能。

步骤S410、基于意图关键词，预测交互对象的需求功能，并确定与需求功能匹配的待执行功能。

具体的，若语音识别时无法得到命令词(即未执行成功)，就需要根据交互对象的交互历史，预测其需求功能，如交互对象曾经使用过某些功能，则会将这些使用过的功能中与从语音中识别得到的关键词匹配，从中找出最接近的功能，作为待执行功能。若最接近的功能有多个，则需要基于这些功能进行判定，或提供给用户选择，以确定需要执行的功能。

进一步地，给交互对象提供选择的方式，可以是通过显示屏或触摸屏显示多个选项给交互对象，也可以是通过音响，以语音的方式告知交互对象可选的功能，并基于交互对象反馈的语音数据，确定待执行的功能。

步骤S411、基于话题关键词，预测交互对象的应用场景，并确定与应用场景匹配的待执行功能。

具体的，若语音识别时，既无法得到命令词(即未执行成功)，也无法得到与交互历史中的功能匹配的意图关键词，则只能将提取的关键词作为话题关键词，匹配与该话题关键词相近的应用场景，然后从应用场景对应的功能中选择使用频率较高的多个功能，供用户选择，作为待执行功能。

应用场景对应功能，如与某地点相关的功能(如导航、折扣信息、菜单等功能)、与某物品相关的功能(如商品介绍、对应商店导航)等。

步骤S409至步骤S411均为基于步骤S407执行后的可选步骤，若步骤S407未执行，则跳过步骤S409至步骤S411；在步骤S407执行的前提下，当步骤S409执行后，可以直接跳过步骤S410和步骤S411，也可以在步骤S409无法执行时，直接执行步骤S410，或者在步骤S409、S410无法执行时，直接直行步骤S411。

步骤S412、基于交互对象的账户信息，确定交互对象的执行功能对应历史记录，并结合历史记录预测其对应应用场景和待执行功能。

具体的，对特定应用场景，如工业应用中，智能设备在启动交互流程并获取交互对象的账户信息时，可能可以直接根据交互历史和当前应用场景，确定需要启动的功能。

示例性的，如用于进行安全检查的智能设备，当检测到交互对象为注册用户(比如现场员工)时，通过提取用户的衣着特征，结合其交互历史中使用频率最高的功能(如“获得进入现场施工的权限”的功能)，就可以直接将该功能作为待执行功能，若使用频率较高的功能有两个，则可以直接将这两个作为选项，向用户确认选择哪一个作为待执行功能。

步骤S413、基于交互对象的行为特征，确定交互对象对应的交互场景，并确定与应用场景匹配的待执行功能。

具体的，如智能设备中记录了具体的行为特征对应功能(通常是手势特征对应具体功能，也可能包括肢体动作，如转头、点头等动作)，则在检测到该动作时，确定相应功能与当前交互场景是否匹配(如点头动作对应下班打开场景，则需确认当前时间是否为下班后时段)，若匹配，则可以将相应功能作为待执行功能，以生成后续动作。

步骤S412和步骤S413为基于步骤S408的可选步骤，若步骤S408未执行，则跳过步骤S412和步骤S413，在步骤S408执行的前提下，当步骤S412执行后，可以直接跳过步骤S413，也可以在步骤S412无法执行(如缺乏交互历史时)，直接执行步骤S413。

在实际情况中，当步骤S409至步骤S413中至少一个步骤对应的情况满足后，其他步骤可以跳过或不再执行，以避免重复处理。

当步骤S409至步骤S413中同时执行多个步骤时，会将多个步骤确定的待执行功能进行对比，将多个步骤中共同包含的待执行功能，确定为最终的待执行功能，从而实现多模态下的对比和融合处理。

步骤S414、基于确定的待执行功能，生成对应交互行为命令。

具体的，确定待执行功能后，逻辑处理器会向对应节点发送命令，以控制相应设备(如交互设备、传感器设备、运动机构等)执行对应交互行为命令，从而完成多模态的人机交互。

本公开实施例提供的多模态交互方法，通过不同方式启动交互流程后，根据获取的输入信息的模态不同，通过多种不同的方式，确定对应待执行功能，并生成对应交互行为命令。由此，通过逻辑处理器，能够统一处理不同模态的输入信息，并将输入信息综合，确定对应的待执行功能，并生成对应交互行为命令，使得人机交互系统能够适用于更加广泛、复杂的环境，同时能够有效满足用户的使用需求。

图5为本公开提供的一个电子设备的结构示意图，如图5所示，该电子设备500包括：存储器510和处理器520。

其中，存储器510存储有可被至少一个处理器520执行的计算机程序。该算机程序被至少一个处理器520执行，以使电子设备实现如上任一实施例中提供的多模态交互方法。

其中，存储器510和处理器520可以通过总线530连接。

相关说明可以对应参见方法实施例所对应的相关描述和效果进行理解，此处不予赘述。

本公开一个实施例提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行以实现如图3至图4对应的任意实施例的多模态交互方法。

其中，计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

本公开一个实施例提供了一种计算机程序产品，其包含计算机执行指令，该计算机执行指令被处理器执行时用于实现如图3至图4对应的任意实施例的多模态交互方法。

在本公开所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

本领域技术人员在考虑说明书及实践这里公开的公开后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求书指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求书来限制。

Claims

1.一种多模态交互系统，其特征在于，包括：

相互通信连接的逻辑控制模块、交互模块和实时控制模块；

所述逻辑控制模块包括交互设备控制节点、传感器设备控制节点和逻辑处理器；

所述交互设备控制节点用于接收至少两种模态的交互设备输入的第一类交互信息，并传输给所述逻辑处理器，所述传感器设备控制节点用于接收至少两种模态的传感器设备输入的传感器信息，并传输给所述逻辑处理器，所述第一类交互信息包括音频交互信息；

所述交互模块，用于通过交互设备接收采集的第二类交互信息，并传输给所述逻辑控制模块，所述第二类交互信息包括非音频交互信息；

所述实时控制模块，用于接收所述逻辑控制模块发送的指示信息，执行所述指示信息对应的运动控制命令，并向所述逻辑控制模块发送设备状态信息。

2.根据权利要求1所述的多模态交互系统，其特征在于，所述交互设备控制节点包括分别与逻辑处理器通信连接的灯光设备控制节点、语音识别设备控制节点、音频播放设备控制节点；

所述传感器设备控制节点包括环境感知设备节点，所述环境感知设备节点分别通过路径规划与导航控制节点、环境信息维护节点与所述逻辑处理器通信连接。

3.根据权利要求2所述的多模态交互系统，其特征在于，所述实时控制模块包括用于执行所述运动控制命令的运动控制算法模块，和用于传输所述设备状态信息的电池管理系统模块；

所述逻辑控制模块还包括：

与交互模块通信连接的摄像头视频流节点；

与所述运动控制算法模块通信连接的平台运动控制节点；

与所述电池管理系统模块通信连接的平台状态维护节点。

4.根据权利要求3所述的多模态交互系统，其特征在于，所述逻辑控制模块为基于Linux系统的逻辑模块，所述交互设备控制节点、传感器设备控制节点、摄像头视频流节点、平台运动控制节点和平台状态维护节点均为基于Linux系统的机器人操作系统节点；

所述实时控制模块为基于Linux系统的逻辑模块；

所述交互模块为基于安卓系统的逻辑模块。

5.根据权利要求1至4中任一项所述的多模态交互系统，其特征在于，所述逻辑控制模块内的节点间的通信方式和所述节点与所述逻辑处理器的通信方式为机器人操作系统主题模式；

所述实时控制模块、所述交互模块与所述逻辑控制模块的通信方式为基于局域以太网内传输控制协议的数据传输模式。

6.一种多模态交互方法，其特征在于，包括：

响应于检测到的交互启动信息，获取交互对象的输入信息，所述输入信息基于所述交互对象的交互操作确定；

基于所述交互对象的输入信息，确定对应的交互意图，所述交互意图用于表示所述交互对象所需要实现的功能，所述输入信息包含至少两种模态；

基于识别得到的交互意图，生成对应交互行为命令，所述交互行为命令用于控制对应设备执行完成所述交互对象所需要实现的功能所采取的交互行为。

7.根据权利要求6所述的多模态交互方法，其特征在于，所述交互启动信息通过如下方式检测得到：

接收到触控设备发送的用于表示被唤醒的通知信息；

和/或，接收到传感器设备发送的用于表示检测到存在物体移动到设定范围的通知信息；

和/或，接收到摄像设备发送的用于表示检测范围内检测到人体的通知信息，所述摄像设备包括彩色相机和深度相机。

8.根据权利要求6所述的多模态交互方法，其特征在于，所述获取交互对象的输入信息包括：

获取交互对象的身体特征信息，所述身体特征信息包括交互对象的躯体特征和/或面部特征；

基于所述身体特征信息，确定所述交互对象对应的账户信息；

基于所述身体特征信息，提取所述交互对象的交互特征和行为特征，所述交互特征包括所述交互对象的面部朝向特征、语音特征，所述行为特征包括所述交互对象的手势特征和动作特征。

9.根据权利要求6所述的多模态交互方法，其特征在于，所述基于所述交互对象的输入信息，确定对应的交互意图，包括：

基于所述交互对象的语音特征，提取待执行功能对应的关键词，所述关键词用于确定所述交互对象的待执行功能，所述关键词包括命令词、意图关键词或话题关键词；

和/或，基于所述交互对象的行为特征，确定至少一个相关联的待执行功能。

10.根据权利要求9所述的多模态交互方法，其特征在于，所述基于识别得到的交互意图，生成对应交互行为命令，包括以下至少一种：

基于所述命令词，确定对应待执行功能；

基于所述意图关键词，预测所述交互对象的需求功能，并确定与所述需求功能匹配的待执行功能；

基于所述话题关键词，预测所述交互对象的应用场景，并确定与所述应用场景匹配的待执行功能；

基于所述交互对象的账户信息，确定所述交互对象的执行功能对应历史记录，并结合历史记录预测其对应应用场景和待执行功能；

基于所述交互对象的行为特征，确定所述交互对象对应的交互场景，并确定与所述应用场景匹配的待执行功能；

基于确定的待执行功能，生成对应交互行为命令；

所述待执行功能包括生成动作行为、灯光行为、屏幕行为、语音对话行为。