CN112346570A

CN112346570A - 基于语音和手势进行人机交互的方法和设备

Info

Publication number: CN112346570A
Application number: CN202011228093.5A
Authority: CN
Inventors: 戚耀文
Original assignee: Daimler AG
Current assignee: Mercedes Benz Group AG
Priority date: 2020-11-06
Filing date: 2020-11-06
Publication date: 2021-02-09

Abstract

本发明涉及人机交互领域。本发明提供一种基于语音和手势进行人机交互的方法，所述方法包括以下步骤：获取用户的手势指令；将手势指令转换为语音指令；以及，根据所述语音指令触发至少一个控制操作。本发明还提供一种用于通过语音指令定义手势指令的方法和一种基于语音和手势进行人机交互的设备。本发明通过将手势指令转换为语音指令来触发相应的控制操纵，避免了语音交互与手势交互分别单独使用时遇到的技术困难，在充分利用已经趋于成熟的车载语音识别技术的同时，也能够兼顾到多模态的交互方式。

Description

基于语音和手势进行人机交互的方法和设备

技术领域

本发明涉及一种基于语音和手势进行人机交互的方法、一种通过语音指令定义手势指令的方法和一种基于语音和手势进行人机交互的设备。

背景技术

在车载交互环境中，系统感知占据重要一环，精确的意图感知能够良好地辅助驾驶员并且能够提高行车安全。

传统的人机交互方式主要包括以下两种：一种是语音交互，用户直接向目标对象发出语音指令，系统从该语音指令中解读出用户意图，执行相应的控制操作。另一种是手势交互，用户通过与系统产生物理接触或通过在空间中完成特定动作来发出指令，从而到达人机交互的目的。

但是上述解决方案均存在诸多不足，特别是，单独依赖语音的控制容易受到诸多干扰因素影响，例如用户每次发出语音指令的音量大小差异或方向差异将直接决定系统对意图的识别准确性。而单独依赖手势实现指令输出时则往往需要从手势到意图的复杂编译，这一过程对系统的计算能力要求很高，实现成本巨大且准确性较低。如何能够充分利用已经趋于成熟的车载语音识别技术，同时能够兼顾到多模态的交互方式是目前有待解决的问题。

发明内容

本发明的目的在于提供一种基于语音和手势进行人机交互的方法、一种通过语音指令定义手势指令的方法和一种基于语音和手势进行人机交互的设备，以至少解决现有技术中的部分问题。

根据本发明的第一方面，提供一种基于语音和手势进行人机交互的方法，所述方法包括以下步骤：

获取用户的手势指令；

将所述手势指令转换为语音指令；以及

根据所述语音指令触发至少一个控制操作，其中，获取所述手势指令的步骤包括：

检测用户的在车载终端和/或便携式电子终端的二维触控轨迹和/或在车辆内部空间中的三维体感运动轨迹；

将所述二维触控轨迹和/或三维体感运动轨迹匹配到预先存储的手势轨迹模型，以便识别出对应的手势指令。

本发明尤其包括以下技术构思：通过将用户的手势指令转换为能够直接被车机调用的语音指令，省去了手势与控制操作之间的复杂编译过程，更加灵活高效，在车载交互环境中提供了更丰富的多模态控制可能性。此外，通过手势转换而成的语音指令通常(在音量、音色和/或指向性方面)存在统一标准，因此更易于被系统识别和调用，避免了系统在接收不同规格的语音指令后出现的未响应、响应不及时、响应出错等问题，提高了操作准确度。

可选地，将手势指令转换为语音指令的步骤包括：将所获取的手势指令解读为自然语音文本，基于所述自然语音文本输出相应的语音指令。

在此尤其实现以下技术优势：在车机中通常已经内置语音识别功能并且集成有NLP(Natural Language Processing，自然语言处理)能力和NLU(Natural LanguageUnderstanding，自然语言理解)能力，因此通过预先将手势编译并存储为自然语言文本，可以直接借助TTS(Text To Speech，文字转语音)技术将自然语言文本信息转换为语音指令进行播放并直接控制车机的相应功能，在实际场景中更具备可操作性。

可选地，将手势指令转换为语音指令的步骤包括：将所获取的手势指令按照预先存储的多模态指令对关联到对应的语音指令，输出所述语音指令。

在此尤其实现以下技术优势：通过手势指令与语音指令的预定义关联性，能够更快捷地从手势指令定向到对应的语音指令，提高了转换效率。

可选地，所述方法还包括：获取用户的由多个手势指令构成的指令连续流；将该指令连续流中的多个手势指令分别转换为单独的语音指令；将各个单独的语音指令拼接形成完整的语音指令；以及，根据所述完整的语音指令触发至少一个控制操作。

在此，可以有利地将指令连续流拆分成多个指令单元，并针对这些指令单元相结合地(拼凑地)地解读出用户的完整意图。而不需要预先建立一长串手势指令与语音指令的完整映射，因此学习成本较低且不同操作指令之间的可组合度很高。

可选地，所述方法还包括：获取用户的由手势指令与语音指令构成的组合指令序列；将该组合指令序列中的手势指令转换为语音指令并且与该组合指令序列中的语音指令拼接形成完整的语音指令；以及，根据该完整的语音指令触发至少一个控制操作。

在此，通过手势与语音的相结合的多模态交互，丰富了用户与车辆之间的交互方式，使得车辆及其辅助功能的控制对于用户来说变得更直观。

可选地，该指令连续流包括表征待执行的操作动作的第一手势指令和表征待操作对象的第二手势指令；将第一手势指令和第二手势指令分别转换为关于所述操作动作和关于所述待操作对象的语音描述；将分别转换的语音描述拼接形成完整的语音指令；以及，根据所述完整的语音指令针对所述待操作对象执行所述操作动作。

在本发明的意义上，将语音描述拼接成完整的语音指令尤其意味着将语音描述组合成有意义、有逻辑的短语或句子。

根据本发明的第二方面，提供一种用于通过语音指令定义手势指令的方法，所述方法包括以下步骤：

响应于定义过程的开启指示开始定义过程；

接收用户输入的手势指令；

接收用户输入的语音指令；以及

将所述手势指令与所述语音指令以绑定的方式进行存储，使得能够将所述手势指令转换为所述语音指令。

在此尤其实现以下技术优势：通过语音对手势的上述定义过程，用户可以在做出动作的同时说出该动作的含义，实现了非常便捷直观的手势指令定制方式。同时，这种定义过程赋予了每个手势指令相应的语音含义，因此，可以迅速建立手势指令与语音指令之间的映射关系，便于通过车机系统的调用。

可选地，在接收用户输入的手势指令之前、期间和/或之后接收所述语音指令。由此，可以在预给定的持续时间段内确保完整地检测到用户对手势的语音定义，以可靠的方式获取用户对手势的期望解读。

可选地，将手势指令与语音指令上传到云端并与用户信息进行绑定。由此，可以针对不同用户身份个性化地创建手势与语音的绑定关系，以满足不同用户的习惯和需求。

根据本发明的第三方面，提供一种基于语音和手势进行人机交互的设备，该设备用于执行根据本发明的第一方面的方法，该设备包括：

手势指令获取装置，其被配置成能够获取用户的手势指令；

转换装置，其被配置成能够将所述手势指令转换为语音指令；以及

控制装置，其被配置成能够根据所述语音指令触发至少一个控制操作；

其中，所述手势指令获取装置包括手势检测模块和手势识别模块，所述手势检测模块被配置成能够检测用户的在车载终端和/或便携式电子终端的二维触控轨迹和/或在车辆内部空间中的三维体感运动轨迹，所述手势识别模块被配置成能够将所述二维触控轨迹和/或三维体感运动轨迹匹配到预先存储的手势轨迹模型，以便识别出对应的手势指令。

附图说明

下面，通过参看附图更详细地描述本发明，可以更好地理解本发明的原理、特点和优点。附图包括：

图1示出了根据本发明的一个示例性实施例的基于语音和手势进行人机交互的方法的流程图；

图2示出了根据本发明的一个示例性实施例的通过语音指令定义手势指令的方法的流程图；

图3示出了根据本发明的一个示例性实施例的对手势指令进行转换的示例；以及

图4示出了根据本发明的一个示例性实施例的基于语音和手势进行人机交互的设备的框图。

具体实施方式

为了使本发明所要解决的技术问题、技术方案以及有益的技术效果更加清楚明白，以下将结合附图以及多个示例性实施例对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用于解释本发明，而不是用于限定本发明的保护范围。

图1示出了根据本发明的一个示例性实施例的基于语音和手势进行人机交互的方法的流程图。

在步骤S11中，获取用户的手势指令。在本发明的意义上，手势指令不仅可以理解为用户在车载终端和/或便携式电子终端(例如车辆方向盘触摸屏、车机触控屏、车窗玻璃、智能手机屏幕)上的点击、拖动、涂抹等二维的触控操作，而且还可以理解为用户在车辆内部空间中的三维的肢体运动。

在此，获取手势指令例如包括检测用户的二维的触控轨迹和/或三维的体感运动轨迹。这例如可以借助骨骼关键点定位技术、图像识别技术、运动属性分析、触点定位等技术来实现。作为示例，可以直接通过三维陀螺仪传感器定位用户手部在空间中的坐标轨迹，也可以通过摄像头拍摄用户的肢体运动并从视频图像中提取出用户的骨骼关键点变化，然后将特定的关键点按照时间顺序拼接成手势轨迹。

在检测了相应的手势轨迹之后，例如可以借助图形识别技术将所检测的手势轨迹与预先存储的各个手势轨迹模型进行比对，当两个图形轨迹吻合时或偏差小于一固定阈值时，则可以判定识别出正确的手势指令。

在步骤S12中，将手势指令转换为语音指令。在本发明的意义上，“转换”意味着操作指令以不同的模态形式进行输出。在此尤其表示用户在空间中完成的动作或触控操作被赋予了特定含义，同时以语音指令的形式输出这种特定含义。

作为示例，用户在空间中做出了“抬手的动作”和/或用户在车机屏幕上画出向上的箭头，此时用户的意图是想要调高正在播放的音乐的音量。于是，车机以语音播报的形式输出“调高音量”。

为了实现这种转换，可以将所获取的手势指令按照预先存储的“多模态指令对”关联到对应的语音指令，然后输出所关联的语音指令。在此，手势指令尤其可以被编译为自然语言文本并预先存储在本地系统或服务器(例如云端)，在调用时，可以借助车机中集成的NLU功能以及TTS功能将所存储的自然语言文本输出为对应的语音指令。

在步骤S13中，根据语音指令触发至少一个控制操作。在本发明的意义上，控制操作例如表示在车辆中待执行的任何有意义的操作行为，这尤其可以包括对车辆中的各个驾驶辅助功能、舒适性功能和娱乐功能的控制。在该步骤中，例如可以借助通用的语音识别功能将语音指令转换为能够被各个执行机构或子系统解读的电子控制信号，并且利用该电子控制信号来控制车辆的相应功能。

图2示出了根据本发明的一个示例性实施例的通过语音指令定义手势指令的方法的流程图。

在步骤S21中，响应于定义过程的开启指示开启定义过程。在本发明的意义上，定义过程表示通过语音来定义手势动作的过程，这尤其可以是人机交互系统的用于录制或编辑手势指令的初始设定模式。

作为示例，该开启指示可以包括用于触发初始设定模式的预定义行为，这例如包括：预定义的语音输入和预定义的动作。该预定义的语音输入例如可以是说出包括关键词的短语“开启录制”、“开启手势定制”等。该预定义的动作例如可以是在车载终端或便携式电子终端的显示设备上的“双击操作”、“长按操作”等。此外，也能够想到开启指示的任何其他有意义的形式。

在步骤S22中，接收用户输入的手势指令。

作为示例，在接收到开启指示之后并且在接收用户输入的手势指令之前，可以由人机交互设备向用户发出开启反馈或输入提示。作为示例，可以由车载终端输出语音提示“手势录制已启动，请在屏幕上滑动手势”或“请开始做动作”，又或者也可以输出视觉提示(例如开启绿色指示灯)，以便将录制时段的开始时刻准确地通知给用户。

作为示例，可以通过摄像机拍摄用户的视频，然后从视频图像中提取出用户的肢体运动轨迹并将其记录为用户想要定义或定制的手势指令。

作为示例，可以借助集成有运动传感器(例如三维陀螺仪传感器、速度传感器和/或加速度传感器)的便携终端来记录用户手部的运动轨迹。这种便携终端例如可以是车辆钥匙、智能手机、可穿戴设备或遥控器。

作为示例，在识别到用户动作结束时或达到预设的录制时间时，可以由人机交互设备向用户发出手势结束录制反馈。作为示例，当由车载摄像机识别出视频流中前后几帧的图像之间不存在明显差别时，可以由车载终端输出语音提示“手势录制已完成，请说出你想匹配的语音指令”。

在步骤S23中，接收用户输入的语音指令。在此，可以通过带有麦克风的语音记录装置录入用户的语音指令。可选地，还可以借助现有的语音识别技术判断当前输入语音指令是否足够清晰，以及能否被人机交互设备解读为正确的控制信号。如果不是这种情况，可以通过人机交互设备以语音提示的方式要求用户重新输入想要匹配的语音指令。

作为示例，在接收用户输入的语音指令之后还可以通过人机交互设备向用户输出语音提示“语音指令为XXXXX，是否确认”，并且接收用户的确认反馈。

作为示例，可以在接收用户输入的手势指令之前、期间和/或之后接收所述语音指令，以确保完整地获取用户对手势指令的语音解读。

在步骤S24中，将所接收的手势指令与语音指令以绑定的方式进行存储，使得能够通过该手势指令触发语音指令的输出。

在本发明的意义上，绑定例如意味着将手势指令与语音指令作为多模态指令对进行存储，在该多模态指令对中，在手势指令与语音指令之间存在特定的映射关系，或者也可理解为，以语音指令的形式为每个手势指令赋予文字含义，因此，手势指令尤其可以按照其对应的语音指令存储为自然语言文本。通过手势与语音之间的这种绑定关系，为后续调用阶段从手势指令到语音指令的转换奠定了基础。

图3示出了根据本发明的一个示例性实施例的对手势指令进行转换的示例。

在图3上部分别示出用户预先录入的手势指令301、302、303、304以及这些手势指令对应的语音指令311、312、313、314。在进行录制时，用户例如可以按照系统提示用手指在空中比划出一个“圆圈”303，同时，用户说出该手势动作对应的语音指令“搜索”313。于是，系统以绑定的方式将手势指令“圆圈”303与语音指令“搜索”313作为多模态指令对存储到指令数据库中。

在使用根据本发明的方法来实现人机交互时，例如获取了用户的由多个手势指令构成的指令连续流321、322、323。每个指令连续流321、322、323分别包括至少两个单个的手势指令。接下来，将所获取的指令连续流321、322、323中的多个手势指令分别转换为单独的语音指令。示例性地，在此可以将指令连续流321中的手势指令301转换为语音指令“播放”311，并且将指令连续流321中的手势指令302转换为语音指令“周杰伦”312。然后，将各个单独的语音指令拼接成完整的语音指令，在此例如可以将所转换的语音指令“播放”311与语音指令“周杰伦”312组合形成有意义的句子或短语“播放周杰伦”331。最后，根据这种完整的语音指令331触发车辆的音乐播放装置来进行相应的音乐播放操作。

由图3还能够看出的是，尤其不需要预先直接针对手势指令连续流321、322、323存储相应的语音指令331、332、333，而是可以以尽可能小的指令单元或自然语言字符单元来存储手势指令301、302、303、304，从而在调用时，能够通过现有的手势指令组合出非常多的新的手势指令(指令连续流)，由此，能够以较低的学习成本实现更加丰富的交互操作。示例性地，用户预先输入的手势“圆圈”303不仅可以与手势302组合形成指令连续流322，从而最终转换输出的语音指令为“搜索周杰伦”322，此外，手势303还可以与手势304组合形成指令连续流323，从而最终转换输出的语音指令为“搜索三里屯”333。

在此，虽然示出了一个指令连续流分别仅包括两个单独的手势指令，然而也能够想到的是，一个指令连续流包括更多的手势指令。一个指令连续流具体可划分为几个手势指令可以根据系统设置和存储的手势指令情况进行定义和调整。

如图4所示，设备10包括手势指令获取装置41、转换装置42和控制装置43。

手势指令获取装置41被配置成能够获取用户的手势指令。手势指令获取装置41例如可以包括手势检测模块411。根据一个示例性实施例，手势检测模块411构造成车载终端和/或便携式移动终端的触控输入设备，这在车载交互环境中尤其可以是指车辆方向盘的触控屏、带有触控输入功能的车窗玻璃、车机屏幕等，当用户在这些触控输入设备上进行二维的笔画输入、滑动、点击操作时，手势检测模块411将这些操作检测为用户的手势指令。根据另一示例性实施例，手势检测模块411也可以构造成三维陀螺仪传感器并且尤其集成在车辆钥匙、遥控器、智能手机、可穿戴设备(例如智能手环)中，从而随着用户手部在空间中的运动来记录用户的三维体感运动轨迹。还可能的是，手势检测模块411构造成摄像机，借助该摄像机可以监测用户所在的内部空间区域并且拍摄用户的相应肢体运动。

手势指令获取装置41例如还包括手势识别模块412。手势识别模块412例如布置在云端450并且从手势检测模块411接收检测数据，在手势识别模块412中将所检测的二维触控轨迹和/或三维体感运动轨迹与预先存储(在云端450)的手势轨迹模型逐一进行比较，以便识别出匹配的手势轨迹模型。

转换装置42例如包括定位模块421和输出模块422。在从手势识别模块412接收到识别出的手势轨迹模型之后，可以借助(例如同样布置在云端450的)定位模块421按照该手势轨迹模型定位到预先存储的“多模态指令对”，其中，该多模态指令对包括手势指令及其对应的语音指令或自然语言文本。接下来，可以借助输出模块422输出该“多模态指令对”中包含的语音指令，也可能的是，借助输出模块422将手势对应的自然语言文本转换为语音并进行输出。通过这种方式，实现了从手势到语音的转换。

最后，为了实现用户的期望操作意图，从输出模块422以语音播报形式输出的语音指令被传输给控制装置43，在那里，例如基于语音识别与处理技术将语音指令转换为能够被执行机构读取的电子控制信号，从而能够根据语音指令触发至少一个控制操作。

尽管这里详细描述了本发明的特定实施方式，但它们仅仅是为了解释的目的而给出的，而不应认为它们对本发明的范围构成限制。在不脱离本发明精神和范围的前提下，各种替换、变更和改造可被构想出来。

Claims

1.一种基于语音和手势进行人机交互的方法，所述方法包括以下步骤：

获取用户的手势指令；

将所述手势指令转换为语音指令；以及

2.根据权利要求1所述的方法，其中，将手势指令转换为语音指令的步骤包括：

将所获取的手势指令解读为自然语音文本，基于所述自然语音文本输出相应的语音指令。

3.根据权利要求1或2所述的方法，其中，将手势指令转换为语音指令的步骤包括：

将所获取的手势指令按照预先存储的多模态指令对关联到对应的语音指令，输出所述语音指令。

4.根据权利要求1至3中任一项所述的方法，其中，所述方法还包括：

获取用户的由多个手势指令构成的指令连续流；

将所述指令连续流中的多个手势指令分别转换为单独的语音指令；

将各个单独的语音指令拼接形成完整的语音指令；以及

根据所述完整的语音指令触发至少一个控制操作。

5.根据权利要求1至4中任一项所述的方法，其中，所述方法还包括：

获取用户的由手势指令与语音指令构成的组合指令序列；

将所述组合指令序列中的手势指令转换为语音指令并且与所述组合指令序列中的语音指令拼接形成完整的语音指令；以及

根据所述完整的语音指令触发至少一个控制操作。

6.根据权利要求4所述的方法，其中，所述指令连续流包括表征待执行的操作动作的第一手势指令和表征待操作对象的第二手势指令；

将所述第一手势指令和所述第二手势指令分别转换为关于所述操作动作和关于所述待操作对象的语音描述；

将分别转换的语音描述拼接形成完整的语音指令；以及

根据所述完整的语音指令针对所述待操作对象执行所述操作动作。

7.一种用于通过语音指令定义手势指令的方法，所述方法包括以下步骤：

响应于定义过程的开启指示开始定义过程；

接收用户输入的手势指令；

接收用户输入的语音指令；以及

8.根据权利要求7所述的方法，其中，在接收用户输入的手势指令之前、期间和/或之后接收所述语音指令。

9.一种基于语音和手势进行人机交互的设备(10)，所述设备用于执行根据权利要求1至6中任一项所述的方法，所述设备(10)包括：

手势指令获取装置(41)，其被配置成能够获取用户的手势指令；

转换装置(42)，其被配置成能够将所述手势指令转换为语音指令；以及

控制装置(43)，其被配置成能够根据所述语音指令触发至少一个控制操作；

其中，所述手势指令获取装置(41)包括手势检测模块(411)和手势识别模块(412)，所述手势检测模块(411)被配置成能够检测用户的在车载终端和/或便携式电子终端的二维触控轨迹和/或在车辆内部空间中的三维体感运动轨迹，所述手势识别模块(412)被配置成能够将所述二维触控轨迹和/或三维体感运动轨迹匹配到预先存储的手势轨迹模型，以便识别出对应的手势指令。