CN110727346B

CN110727346B - 一种人机交互方法、装置、车辆及存储介质

Info

Publication number: CN110727346B
Application number: CN201910903943.8A
Authority: CN
Inventors: 祁旭; 王祎男; 裴丽珊; 曲白雪
Original assignee: FAW Group Corp
Current assignee: FAW Group Corp
Priority date: 2019-09-24
Filing date: 2019-09-24
Publication date: 2022-09-23
Anticipated expiration: 2039-09-24
Also published as: CN110727346A

Abstract

本发明实施例公开了一种人机交互方法、装置、车辆及存储介质。该方法包括：解析所捕捉的语音指令，得到所述语音指令中指令意图对应的指令目标集合，采集用户的多模态信息，所述多模态信息包括手势信息、肢体信息和面部信息中的至少一种，根据所述多模态信息，确定所述指令目标集合中与所述多模态信息匹配的指令目标，并反馈给所述用户确认。与现有技术相比，本方案在语音指令的基础上结合用户的多模态信息锁定最终的指令目标，无需多轮对话，提高了指令目标确定的准确性和快速性。

Description

一种人机交互方法、装置、车辆及存储介质

技术领域

本发明实施例涉及人机交互技术领域，尤其涉及一种人机交互方法、装置、车辆及存储介质。

背景技术

随着技术的发展，越来越多的车辆上增加了语音识别或手势识别等功能，通过语音或手势与车机系统交互，使车机系统明确驾驶员的指令目标，从而减少驾驶员的手动操作，避免驾驶员分心，增强驾驶安全。

这种交互方式目前只适用于简单的功能，例如打开多媒体，当需要实现复杂功能时，通常需要进行多轮对话，甚至需要配合手动操作，无法快速定位驾驶员的指令目标。

发明内容

本发明实施例提供一种人机交互方法、装置、车辆及存储介质，以在复杂应用场景中快速定位用户指令对应的目标。

第一方面，本发明实施例提供一种人机交互方法，包括：

解析所捕捉的语音指令，得到所述语音指令中指令意图对应的指令目标集合；

采集用户的多模态信息，所述多模态信息包括手势信息、肢体信息和面部信息中的至少一种；

根据所述多模态信息，确定所述指令目标集合中与所述多模态信息匹配的指令目标，并反馈给所述用户确认。

第二方面，本发明实施例还提供一种人机交互装置，该装置包括：

解析模块，用于解析所捕捉的语音指令，得到所述语音指令中指令意图对应的指令目标集合；

信息采集模块，用于采集用户的多模态信息，所述多模态信息包括手势信息、肢体信息和面部信息中的至少一种；

目标确定模块，用于根据所述多模态信息，确定所述指令目标集合中与所述多模态信息匹配的指令目标，并反馈给所述用户确认。

第三方面，本发明实施例还提供一种车辆，包括：

车机系统，用于与用户交互；

通信终端，用于与其他终端通信；

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如第一方面所述的人机交互方法。

第四方面，本发明实施例还提供一种存储介质，其上存储有计算机程序，该程序被处理器执行时实现如第一方面所述的人机交互方法。

本发明实施例提供一种人机交互方法、装置、车辆及存储介质，通过解析所捕捉的语音指令，得到所述语音指令中指令意图对应的指令目标集合，然后采集用户的多模态信息，根据用户的多模态信息，确定指令目标集合中与多模态信息匹配的指令目标。与现有技术相比，本方案在语音指令的基础上结合用户的多模态信息锁定最终的指令目标，无需多轮对话，提高了指令目标确定的准确性和快速性。

附图说明

图1为本发明实施例一提供的一种人机交互方法的流程图；

图2为本发明实施例二提供的一种人机交互方法的流程图；

图3为本发明实施例二提供的一种人机交互方法的实现过程示意图；

图4为本发明实施例三提供的一种人机交互装置的结构图；

图5为本发明实施例四提供的一种车辆的结构图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。此外，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

实施例一

图1为本发明实施例一提供的一种人机交互方法的流程图，本实施例可适用于人机交互的情况，该方法可以由人机交互装置来执行，该装置可以采用软件和/或硬件的方式实现，该装置可配置于车辆中。参考图1，该方法可以包括如下步骤：

S110、解析所捕捉的语音指令，得到所述语音指令中指令意图对应的指令目标集合。

语音指令是用户与车辆上的交互对象交互时发出的语音信号，车辆行驶过程中为了避免驾驶员分心，保证驾驶安全，实施例以语音指令为主，结合手势信息、肢体信息和/或面部信息等确定满足驾驶员需求的目标。可选的，与驾驶员进行交互的交互对象为车机系统。

指令意图是用户希望达到的目的，可选的，指令意图包括但不限于：导航、通话、多媒体和车身控制。指令意图可以通过对语音指令解析得到，例如语音指令为“去吃饭”，指令意图为用餐，表示用户想去用餐，再如语音指令为“打电话”，指令意图为通话，表示用户想要通话。指令目标是指令意图所对应的目标，例如指令意图为吃饭，指令目标可以是吃饭的地点，再如指令意图为通话，指令目标可以是通话的对象。同一指令意图对应的指令目标可能有多个，例如指令意图为通话时，通话的对象可以有多个，这多个通话对象作为多个指令目标形成指令目标集合。

需要说明的是，车机系统所捕获到的语音指令中可能只包含指令意图，也可能既包含指令意图也包含指令目标。为了快速、准确的定位用户的需求目标，需要明确指令意图和指令意图对应的指令目标，可选的，车机系统在捕获到语音指令后，对语音指令进行解析，先明确用户的指令意图，当语音指令中包含指令目标时，通过解析语音指令可以确定指令意图对应的指令目标，当语音指令中不包含指令目标时，可以根据指令意图初步选定至少一个指令目标。例如语音指令为“打开导航去A地”，车机系统通过对捕获到的语音指令解析，得到指令意图为导航，指令目标为A地。再如语音指令为“去吃饭”，车机系统通过解析可以得到指令意图为吃饭，并确定指令意图对应的指令目标位于车外，此时可以结合车辆当前的位置信息、前视摄像头以及高精地图等信息初步选定几个可以吃饭的地点，地点的数量可以根据实际情况确定，实施例不进行限定，由此可以得到可供选择的地点集合。

可以理解的是，车辆行驶过程中，车内的用户可能在聊天，车机系统可以一直捕获用户的语音信号，为了提高捕获信号的有效性，可以预先设置唤醒信号，当捕获到唤醒信号时，车机系统的解析功能被唤醒，可以对后续捕获到的语音指令进行解析，定位指令目标。唤醒信号可以根据车型设置，例如车型为红旗，唤醒信号可以是“你好，红旗”、或“你好，旗宝”等。

S120、采集用户的多模态信息。

其中，所述多模态信息包括手势信息、肢体信息和面部信息中的至少一种。可以理解的是，语音指令在一定程度上虽然可以满足用户的需求，但当用户发出复杂的语音指令或仅包含指令意图的语音指令时，通常需要用户与车机系统进行多轮对话，容易造成驾驶员的分心，影响驾驶安全。为此，实施例在解析语音指令的基础上，进一步结合手势信息、肢体信息和面部信息中的一种或多种进一步锁定指令目标，既节省了时间，又提高了准确度。其中，面部信息可以包括眼球的视线方向和面部表情。车机系统可以对手势信息、肢体信息和面部信息进行识别，根据识别结果，结合之前确定的指令目标集合即可锁定最终的指令目标。示例性的，捕获到的语音指令为“通话”，车机系统通过解析调出通话名单，展示给用户，用户通过手势指向其中的一个名字，而且视线指向手势所指的名字，车机系统通过对手势信息和眼球的视线方向可以锁定用户通话的对象。

S130、根据所述多模态信息，确定所述指令目标集合中与所述多模态信息匹配的指令目标，并反馈给所述用户确认。

多模态信息用于辅助确定指令目标，减少用户与车机系统对话的次数，提高指令目标的准确度。车机系统在解析语音指令的同时可以捕获用户的手势信息、肢体信息以及面部信息等，在初步确定指令意图对应的指令目标集合后，结合手势信息、肢体信息和/或面部信息的识别结果，进一步锁定指令目标，并将锁定的指令目标反馈给用户由用户进行确认。

本发明实施例一提供一种人机交互方法，通过解析所捕捉的语音指令，得到所述语音指令中指令意图对应的指令目标集合，然后采集用户的多模态信息，根据用户的多模态信息，确定指令目标集合中与多模态信息匹配的指令目标。与现有技术相比，本方案在语音指令的基础上结合用户的多模态信息锁定最终的指令目标，无需多轮对话，提高了指令目标确定的准确性和快速性。

实施例二

图2为本发明实施例二提供的一种人机交互方法的流程图，本实施例是在上述实施例的基础上进行优化，参考图2，该方法可以包括如下步骤：

S210、捕获唤醒信号，唤醒与用户交互的交互对象。

为了提高所捕获信号的有效性，可以预先设置唤醒信号，当捕捉到唤醒信号时，对所捕获到的语音指令进行解析，否则，不进行任何处理，避免了无效信号的处理，节省了资源。可选的，唤醒信号为“你好，xx”，“xx”可以是车辆的车型，交互对象为车机系统，需要说明的是，实施例所述的唤醒交互对象，既可以是唤醒交互对象，使交互对象由待机状态进入工作状态，也可以是唤醒交互对象的某项功能。

S220、解析所捕捉的语音指令，得到所述语音指令中指令意图对应的指令目标集合。

可选的，可以通过如下方式确定语音指令中指令意图对应的指令目标集合：

捕捉用户的语音指令；

对所述语音指令中的关键词进行语义解析，得到所述语音指令对应的指令意图；

根据所述指令意图，确定对应的指令目标集合，所述指令目标集合中包含至少一个符合所述指令意图的指令目标。

可选的，车机系统的解析功能被唤醒后，对所捕捉到的语音指令中的关键词进行语义解析，得到语音指令对应的指令意图，如果语音指令中包含指令目标，解析后还可以得到对应的指令目标，供后续用户确认，如果语音指令中不包含指令目标，可以根据指令意图初步确定候选的指令目标。以语音指令中不包含指令目标为例，根据指令意图初步确定指令目标位于车内还是车外，例如语音指令为“听歌”，可以确定指令目标为车内目标，再如语音指令为“学校”，可以确定指令目标为车外目标。可选的，当指令目标为车内目标时，可以根据指令意图和用户的触摸或按键等信息确定车内符合指令意图的指令目标集合，缩小指令目标的范围。当指令目标为车外目标时，可以根据车辆中的前视摄像头、高精地图和/或V2X模块等缩小车外指令目标的范围，提高指令目标确定的准确度。其中，前视摄像头可以获取车辆前方的图像，V2X模块可以获取云端信息，为指令目标的确定提供依据。可选的，为了提高指令目标确定的准确度，车机系统在捕捉到语音指令后，可以对语音指令进行预处理，消除语音指令中的噪声。

S230、采集用户的多模态信息。

S240、识别所述手势信息对应的手势动作、肢体信息对应的肢体动作以及面部信息中眼球的视线和面部表情。

车机系统可以对捕获到的手势信息、肢体信息和面部信息进行识别，确定对应的手势动作、肢体动作、眼球的视线以及面部表情，根据手势动作、肢体动作、眼球的视线和/或面部表情辅助确定指令目标的方向、位置等信息，完成对指令目标的校验或从指令目标集合中锁定最终的指令目标。实施例对手势信息、肢体信息和面部信息的识别过程不进行限定。

S250、根据所述手势动作、肢体动作、眼球的视线和/或面部表情，确定所述指令目标集合中与所述多模态信息匹配的指令目标。

本实施例以语音指令为主，结合手势动作、肢体动作、眼球的视线以及面部表情等模态信息提高了指令目标确定的快速性和准确性，减少了与车机系统的交互次数，保障了驾驶安全。

S260、接收所述用户对所述指令目标的确认信息。

车机系统在锁定最终的指令目标后可以反馈给用户，由用户进行确认，可选的，可以通过对话框的形式展示在车内的显示屏上，若用户选择“是”，表示最终的指令目标符合用户的需求，可以响应所确定的指令目标，例如导航到达目的地A，若用户选择“否”，表示最终锁定的指令目标不符合用户的需求，可以进一步捕获用户的手势信息、肢体信息和/或面部信息，重新锁定指令目标，直至收到用户的确认信息。

S270、响应所述指令目标。

示例性的，参考图3，图3为本发明实施例二提供的一种人机交互方法的实现过程示意图。首先通过语音指令触发，车机系统解析捕获的语音指令，确定指令意图，指令意图包括导航、通话、多媒体和车身控制等，除此之外，还可以根据解析结果初步确定指令目标位于车内还是车外，如果位于车内，可以结合用户的触摸或硬按键等信息确定车内目标集合，如果标位于车外，可以结合前视摄像头、高精地图以及V2X模块等确定车外目标集合，车内目标集合和车外目标集合统称指令目标集合，与此同时，还可以采集用户的多模态信息，如手势信息、肢体信息和面部信息等，其中，面部信息包括眼球的视线和面部表情，通过识别用户的多模态信息，锁定最终的指令目标，并反馈给用户确认。

本发明实施例二提供一种人机交互方法，在上述实施例的基础上，以语音指令为主，结合用户的多模态信息，在复杂的应用场景下可以快速、准确的定位出满足用户需求的目标，避免了与车机系统的多次交互，保证了驾驶安全。

实施例三

图4为本发明实施例三提供的一种人机交互装置的结构图，该装置可以执行上述实施例所述的人机交互方法，参考图4，该装置可以包括：

解析模块310，用于解析所捕捉的语音指令，得到所述语音指令中指令意图对应的指令目标集合；

信息采集模块320，用于采集用户的多模态信息，所述多模态信息包括手势信息、肢体信息和面部信息中的至少一种；

目标确定模块330，用于根据所述多模态信息，确定所述指令目标集合中与所述多模态信息匹配的指令目标，并反馈给所述用户确认。

本发明实施例三提供一种人机交互装置，通过解析所捕捉的语音指令，得到所述语音指令中指令意图对应的指令目标集合，然后采集用户的多模态信息，根据用户的多模态信息，确定指令目标集合中与多模态信息匹配的指令目标。与现有技术相比，本方案在语音指令的基础上结合用户的多模态信息锁定最终的指令目标，无需多轮对话，提高了指令目标确定的准确性和快速性。

在上述实施例的基础上，解析模块310，具体用于：

捕捉用户的语音指令；

在上述实施例的基础上，目标确定模块330，具体用于：

识别所述手势信息对应的手势动作、肢体信息对应的肢体动作以及面部信息中眼球的视线和面部表情；

根据所述手势动作、肢体动作、眼球的视线和/或面部表情，确定所述指令目标集合中与所述多模态信息匹配的指令目标。

在上述实施例的基础上，该装置还包括：

唤醒模块，用于在解析所捕捉的语音指令之前，捕获唤醒信号，唤醒与用户交互的交互对象。

在上述实施例的基础上，该装置还包括：

确认信息接收模块，用于在反馈给所述用户确认之后，接收所述用户对所述指令目标的确认信息；

响应模块，用于响应所述指令目标。

本发明实施例三提供的人机交互装置可执行本发明上述实施例所提供的人机交互方法，具备执行方法相应的功能模块和有益效果。

实施例四

图5为本发明实施例四提供的一种车辆的结构图，参考图5，该车辆包括：处理器410、存储器420、车机系统430、通信终端440、输入装置450和输出装置460，其中，车机系统430，用于与用户交互，通信终端440，用于与其他终端通信，以辅助确定指令目标，其他终端可以是手机或其他车辆上的通信终端等。图5中的处理器410、存储器420、车机系统430、通信终端440、输入装置450和输出装置460可以通过总线或其他方式连接，图5中以通过总线连接为例。

存储器420作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本发明实施例中人机交互方法对应的程序指令/模块。处理器410通过运行存储在存储器420中的软件程序、指令以及模块，从而执行车辆的各种功能应用以及数据处理，即实现上述实施例的人机交互方法。

存储器420主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据终端的使用所创建的数据等。此外，存储器420可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储器420可进一步包括相对于处理器410远程设置的存储器，这些远程存储器可以通过网络连接至车辆。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置450可用于接收输入的数字或字符信息，以及产生与车辆的用户设置以及功能控制有关的键信号输入。输出装置460可包括显示屏等显示设备、扬声器以及蜂鸣器等音频设备。

本发明实施例四提供的车辆与上述实施例提供的人机交互方法属于同一发明构思，未在本实施例中详尽描述的技术细节可参见上述实施例，并且本实施例具备执行人机交互方法相同的有益效果。

实施例五

本发明实施例五还提供一种存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本发明上述实施例所述的人机交互方法。

当然，本发明实施例所提供的一种包含计算机可执行指令的存储介质，其计算机可执行指令不限于如上所述的人机交互方法中的操作，还可以执行本发明任意实施例所提供的人机交互方法中的相关操作，且具备相应的功能和有益效果。

通过以上关于实施方式的描述，所属领域的技术人员可以清楚地了解到，本发明可借助软件及必需的通用硬件来实现，当然也可以通过硬件实现，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等，包括若干指令用以使得一台计算机设备(可以是机器人，个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的人机交互方法。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种人机交互方法，其特征在于，包括：

根据所述多模态信息，确定所述指令目标集合中与所述多模态信息匹配的指令目标，并反馈给所述用户确认；

对所捕捉到的语音指令中的关键词进行语义解析，得到语音指令对应的指令意图，若语音指令中包含指令目标，解析后得到对应的指令目标，若语音指令中不包含指令目标，根据指令意图初步确定候选的指令目标，包括根据指令意图初步确定指令目标位于车内还是车外；

根据所述指令意图，确定对应的指令目标集合，所述指令目标集合中包含至少一个符合所述指令意图的指令目标；

所述指令目标集合包含车内目标集合和车外目标集合，其中，车内目标集合基于结合用户的触摸或硬按键信息确定；车外目标集合基于前视摄像头、高精地图以及V2X模块确定。

2.根据权利要求1所述的方法，其特征在于，所述根据所述多模态信息，确定所述指令目标集中与所述多模态信息匹配的指令目标，包括：

3.根据权利要求1-2任一项所述的方法，其特征在于，在解析所捕捉的语音指令之前，还包括：

捕获唤醒信号，唤醒与用户交互的交互对象。

4.根据权利要求3所述的方法，其特征在于，在反馈给所述用户确认之后，还包括：

接收所述用户对所述指令目标的确认信息；

响应所述指令目标。

5.一种人机交互装置，其特征在于，包括：

目标确定模块，用于根据所述多模态信息，确定所述指令目标集合中与所述多模态信息匹配的指令目标，并反馈给所述用户确认；

6.根据权利要求5所述的装置，其特征在于，所述解析模块，具体用于：

捕捉用户的语音指令；

7.根据权利要求5所述的装置，其特征在于，所述目标确定模块，具体用于：

8.一种车辆，其特征在于，包括：

车机系统，用于与用户交互；

通信终端，用于与其他终端通信；

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-4中任一项所述的人机交互方法。

9.一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-4中任一项所述的人机交互方法。