CN113113009A

CN113113009A - 多模态语音唤醒和打断方法及装置

Info

Publication number: CN113113009A
Application number: CN202110377897.XA
Authority: CN
Inventors: 董鑫; 黄炎哲; 初敏
Original assignee: Sipic Technology Co Ltd
Current assignee: Sipic Technology Co Ltd
Priority date: 2021-04-08
Filing date: 2021-04-08
Publication date: 2021-07-13

Abstract

本发明公开多模态语音唤醒和打断方法及装置，其中，一种多模态语音唤醒方法，包括：响应于获取到用户的嘴唇轮廓，基于所述用户的嘴唇轮廓的变化判断所述用户是否有交互意图；若有交互意图，获取所述用户的语音信息并进行语音识别处理；基于语音识别处理结果，判断所述语音识别处理结果是否有效；若有效，唤醒设备与所述用户进行语音交互。通过获取用户的嘴唇轮廓判断用户是否有交互意图，从而可以选择是否获取用户的语音信息，进一步地，通过语音识别处理结果是否有效判断是否唤醒设备，从而可以实现人机交互的过程中减少外界环境的干扰，增强人机交互的体验。

Description

多模态语音唤醒和打断方法及装置

技术领域

本发明属于语音交互技术领域，尤其涉及多模态语音唤醒和打断方法及装置。

背景技术

目前市面上语音机器人的唤醒方法以唤醒词为主，当用户的语音被识别为既定关键词时，机器人被唤醒并开始与用户进行交互。以现有的智能设备中的语音助手为例，当用户命中对应的关键词时，能在用户界面看到语音助手的出现。打断的主要方式有唤醒词打断和声音打断。在语音交互中，当系统检测到唤醒词或其它声音时，机器人会立即停止播放当前的提示并开始听用户说话。通过语音关键词，打断方式与唤醒时一致；对于声音打断，当机器人在播报时，若检测到用户说话或者环境中其它的声音，播报会被打断。

综合而言，目前语音对话产品中的打断方式有诸多不足，而基于多模态交互的语音机器人能弥补它们的缺陷。

其中，发明人在实现本申请的过程中发现：通过特定唤醒词唤醒语音机器人这一方式，存在以下缺点：

容易受到环境的干扰产生“误唤醒”现象。当机器人所在的环境中有多人进行对话，很可能会有人在不知情的情况下无意命中唤醒词，机器人的反应会打断交谈过程；环境中也可能产生其它噪声让机器人误触发唤醒程序。

其中，发明人在实现本申请的过程中发现：语音机器人的打断方式有唤醒词和声音，分别有如下缺点：

通过唤醒词打断会让对话过程显得生硬、不自然。用户在与机器人对话中发现机器人答非所问，而且回答时间又比较长，希望能尽快让机器人停止回答。此时若通过与唤醒一样的方式，即唤醒词来让回答被打断，虽然效果较好，机器人能及时停止播报并识别用户接下来要说的话，但整个对话过程将变得生硬，降低用户体验指数。

通过声音打断容易出现错误。若对话环境中除语音机器人和与之对话的用户之外还有他人或者其它声音，机器人容易把他人的话语识别为用户打断的指令；或者在嘈杂环境中，机器人在杂音干扰下触发了打断流程，会在对话中突然终止播报，这是用户希望规避的。

发明内容

本发明实施例提供一种多模态语音唤醒和打断方法及装置，用于至少解决上述技术问题之一。

第一方面，本发明实施例提供一种多模态语音唤醒方法，包括：响应于获取到用户的嘴唇轮廓，基于所述用户的嘴唇轮廓的变化判断所述用户是否有交互意图；若有交互意图，获取所述用户的语音信息并进行语音识别处理；基于语音识别处理结果，判断所述语音识别处理结果是否有效；若有效，唤醒设备与所述用户进行语音交互。

第二方面，本发明实施例提供一种多模态语音打断方法，包括：响应于在设备播报过程中持续获取到用户的嘴唇轮廓，基于所述用户的嘴唇轮廓的变化判断所述用户是否有交互意图；若有交互意图，持续获取所述用户的语音信息并持续进行语音识别处理；基于语音识别处理结果，判断所述语音识别处理结果是否有效；若有效，停止播报并等待所述用户停止说话。

第三方面，本发明实施例提供一种多模态语音唤醒装置，包括：第一获取判断程序模块，配置为响应于获取到用户的嘴唇轮廓，基于所述用户的嘴唇轮廓的变化判断所述用户是否有交互意图；第一获取识别程序模块，配置为若有交互意图，获取所述用户的语音信息并进行语音识别处理；第一判断程序模块，配置为基于语音识别处理结果，判断所述语音识别处理结果是否有效；唤醒程序模块，配置为若有效，唤醒设备与所述用户进行语音交互。

第四方面，本发明实施例提供一种多模态语音打断装置，包括：第二获取判断程序模块，配置为响应于在设备播报过程中持续获取到用户的嘴唇轮廓，基于所述用户的嘴唇轮廓的变化判断所述用户是否有交互意图；第二获取识别程序模块，配置为若有交互意图，持续获取所述用户的语音信息并持续进行语音识别处理；第二判断程序模块，配置为基于语音识别处理结果，判断所述语音识别处理结果是否有效；停止程序模块，配置为若有效，停止播报并等待所述用户停止说话。

第五方面，提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例的多模态语音唤醒和打断方法的步骤。

第六方面，本发明实施例还提供一种计算机程序产品，所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，使所述计算机执行本发明任一实施例的多模态语音唤醒和打断方法的步骤。

本申请的方法和装置通过获取用户的嘴唇轮廓判断用户是否有交互意图，从而可以选择是否获取用户的语音信息，进一步地，通过语音识别处理结果是否有效判断是否唤醒或打断设备，从而可以实现人机交互的过程中减少外界环境的干扰，增强人机交互的体验。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一实施例提供的一种多模态语音唤醒方法的流程图；

图2为本发明一实施例提供的另一种多模态语音唤醒方法的流程图；

图3为本发明一实施例提供的又一种多模态语音唤醒方法的流程图；

图4为本发明一实施例提供的一种多模态语音打断方法的流程图；

图5为本发明一实施例提供的多模态语音唤醒和打断方法的一个具体示例的多模态语音交互机器人构架图；

图6为本发明一实施例提供的多模态语音唤醒和打断方法的一个具体示例的嘴唇轮廓提取说明图；

图7为本发明一实施例提供的多模态语音唤醒和打断方法的一个具体示例的软件实现流程图；

图8为本发明一实施例提供的一种多模态语音唤醒装置的框图；

图9为本发明一实施例提供的一种多模态语音打断装置的框图；

图10是本发明一实施例提供的电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参考图1，其示出了本申请的一种多模态语音唤醒方法一实施例的流程图。

如图1所示，在步骤101中，响应于获取到用户的嘴唇轮廓，基于所述用户的嘴唇轮廓的变化判断所述用户是否有交互意图；

在步骤102中，若有交互意图，获取所述用户的语音信息并进行语音识别处理；

在步骤103中，基于语音识别处理结果，判断所述语音识别处理结果的语义是否有效；

在步骤104中，若所述语义有效，唤醒设备与所述用户进行语音交互。

在本实施例中，对于步骤101，多模态语音唤醒装置响应于获取到用户的嘴唇轮廓，基于用户的嘴唇轮廓的变化判断用户是否有交互意图，例如，摄像头获取用户脸部的整体框架，再从脸部的器官提取嘴唇轮廓，若用户的嘴唇轮廓在动则表示用户有交互意图，若用户的嘴唇轮廓不动则表示用户没有交互意图。

然后，对于步骤102，若用户有交互意图，打开麦克风获取用户的语音信息并进行语音识别处理，例如，获取到用户语音之后，将用户语音进行语音识别转换成文本，再将文本送入自然语言理解。

之后，对于步骤103，多模态语音唤醒装置基于语音识别处理结果，判断语音识别处理结果的语义是否有效，例如，用户说的话为：怎么查询账户余额。那么用户这句话的意图是“查余额”，若设备可以理解用户的意图，那么用户的意图是有效的。

最后，对于步骤104，若语音识别处理结果的语义有效，唤醒设备与用户进行语音交互，例如，通过判断用户的意图唤醒设备，可以使设备的唤醒不在局限于唤醒词，在唤醒设备之后，生成与用户意图对应的回答通过语音合成播报给用户。

本实施例的方法通过获取用户的嘴唇轮廓判断用户是否有交互意图，从而可以选择是否获取用户的语音信息，进一步地，通过语音识别处理结果是否有效判断是否唤醒设备，从而可以实现人机交互的过程中减少外界环境的干扰，增强人机交互的体验。

请参考图2，其示出了本申请的另一种多模态语音唤醒方法的流程图，该流程图主要是对流程图1“判断所述语音识别处理结果的语义是否有效”的流程进一步限定的步骤的流程图。

如图2所示，在步骤201中，对所述语音识别结果进行语义理解形成语义理解结果；

在步骤202中，判断所述语义理解结果是否与预设意图匹配；

在本实施例中，对于步骤201，多模态语音唤醒装置对语音识别结果进行语义理解形成语义理解结果；之后，对于步骤202，多模态语音唤醒装置判断语义理解结果是否与预设意图匹配，例如，用户的意图是“查余额”，若预设意图中有查余额意图，那么用户的意图可以与预设意图匹配，若用户的语音信息中没有意图或用户的意图与预设意图不一致，那么用户的意图不能够与预设意图匹配。

本实施例的方法通过对语音识别结果进行语义理解形成语义理解结果，从而可以准确的识别用户的意图。

在所述判断所述语音识别处理结果是否能够理解之后，所述方法还包括：

若语音识别处理结果对应的语义理解结果与预设意图不匹配，不唤醒设备并再次基于用户的嘴唇轮廓的变化判断用户是否有交互意图。

本实施例的方法通过在语义理解结果与预设意图不匹配时不唤醒设备，从而可以实现大幅度降低误唤醒的概率。

请参考图3，其示出了本申请的又一种多模态语音唤醒方法的流程图，该流程图主要是对流程图1“响应于获取到用户的嘴唇轮廓，基于所述用户的嘴唇轮廓的变化判断所述用户是否有交互意图”的流程进一步限定的步骤的流程图。

如图3所示，在步骤301中，响应于获取到用户的脸部整体框架，基于所述脸部整体框架获取嘴唇轮廓；

在步骤302中，基于所述嘴唇轮廓的位置信息提取至少一个关键点坐标，将不同时刻的所述至少一个关键点坐标进行对比，判断是否存在预设数量的关键点坐标的位置变化超过预设阈值；

在步骤303中，若存在预设数量的关键点坐标的位置变化超过预设阈值，则判定所述用户有交互意图。

在本实施例中，对于步骤301，多模态语音唤醒装置响应于获取到用户的脸部整体框架，基于脸部整体框架获取嘴唇轮廓。

之后，对于步骤302，多模态语音唤醒装置基于嘴唇轮廓的位置信息提取至少一个关键点坐标，将不同时刻的至少一个关键点坐标进行对比，判断是否存在预设数量的关键点坐标的位置变化超过预设阈值，例如，在嘴唇轮廓的关键位置提取关键点坐标和其余位置的其余坐标，还可以根据摄像头像素的模糊或清晰来确定坐标的数量和位置，进一步地，通过将不同时刻的坐标进行对比来判断用户是否有交互意图。

最后，对于步骤303，若存在预设数量的关键点坐标的位置变化超过预设阈值，则判定所述用户有交互意图，例如，预设数量为半数的情况下，当超过半数的坐标点位置变化超过预设阈值就可以判定用户有交互意图，预设阈值例如可以是一个相对数值，例如某些关键点坐标或者关键点之间距离的比值(可以表征嘴唇变化幅度)超过20％(预设阈值)时，就可以判定用户有交互意图。

本实施例的方法通过提取嘴唇轮廓的关键点坐标并获取不同时刻的预设数量的关键点坐标的位置变化判定用户有没有交互意图，从而可以实现误唤醒的概率大幅度的降低。

在上述实施例所述的方法中，所述至少一个关键点坐标包括：左唇角、右唇角、左唇峰、右唇峰、上嘴唇唇谷和下嘴唇唇底。

在上述实施例所述的方法中，所述预设数量的关键点坐标为所述至少一个关键点坐标的一半关键点坐标。

请参考图4，其示出了本申请的一种多模态语音打断方法一实施例的流程图。

如图4所示，在步骤401中，响应于在设备播报过程中持续获取到用户的嘴唇轮廓，基于所述用户的嘴唇轮廓的变化判断所述用户是否有交互意图；

在步骤402中，若有交互意图，持续获取所述用户的语音信息并持续进行语音识别处理；

在步骤403中，基于语音识别处理结果，判断所述语音识别处理结果是否有效；

在步骤404，若有效，停止播报并等待所述用户停止说话。

在本实施例中，对于步骤401，多模态语音打断装置响应于在设备播报过程中持续获取到用户的嘴唇轮廓，基于用户的嘴唇轮廓的变化判断用户是否有交互意图，例如，设备在播报过程中也在持续获取用户的嘴唇轮廓判断用户是否说话，即使在多人使用设备或者多人使用多台设备的情况下也能够保持准确的唤醒和打断。

然后，对于步骤402，若用户有交互意图，持续获取用户的语音信息并持续进行语音识别处理，例如，在设备播报过程中，获取用户的语音信息并识别。

之后，对于步骤403，多模态语音打断装置基于语音识别处理结果，判断语音识别处理结果是否有效，例如，例如，用户说的话为：怎么查存折。那么用户这句话的意图是“查存折”，若设备可以理解用户的意图，那么用户的意图是有效的。

最后，对于步骤404，若语音识别处理结果有效，停止播报并等待用户停止说话，例如，用户首先问“怎么查账户余额”，命中查余额意图之后唤醒设备将查询好的话术播报给用户，若在播报过程中用户改变意图说“我想查存折”，命中查存折意图停止正在进行的播报，继续识别用户的语音直至用户说完，之后，将查询好的与查存折相关的话术播报给用户。

本实施例的方法通过在设备播报过程中获取用户的嘴唇轮廓判断用户的交互意图，从而可以实现大幅度降低外界的干扰，减少误唤醒和误打断，进一步地，能够使人机交互更加的灵活且能够自然的被唤醒和被打断。

在上述实施例所述的方法中，在所述判断所述语音识别处理结果是否有效之后，还包括：

若判断语音识别处理结果无效，设备继续播报。

需要说明的是，上述方法步骤并不用于限制各步骤的执行顺序，实际上，某些步骤可能会同时执行或者以与步骤限定的相反的顺序执行，本申请在此没有限制。

下面对通过描述发明人在实现本发明的过程中遇到的一些问题和对最终确定的方案的一个具体实施例进行说明，以使本领域技术人员更好地理解本申请的方案。

发明人在实现本申请的过程中发现现有技术中存在的缺陷主要是由以下原因导致的：背景技术中提到的现有技术有如下两种缺陷，本申请至少可以解决：

存在误唤醒，现有技术的方法主要通过面部信息包括目标用户的面部朝向以及嘴唇状态来进行唤醒。比如在银行大厅场景，有银行办理业务的智能语音机器人，主要办理银行业务，如：查余额、银行业务办理等。如果有两个客户站在机器前拉家常，当检测到某个客户的面向朝向和嘴唇时，会存在误唤醒。而本人的方法会通过加入语义理解模块，不仅检测人脸和嘴唇，而且通过语义理解只对理解的话语进行唤醒。

打断支持不好。现有技术的方法如果仅嘴唇来进行对话交互的控制打断，存在误打断情况。当人脸识别范围内，只要有嘴巴在动和识别到声音，就会被打断，在开放性场所，人多嘴杂时，打断效果体验会不好。

发明人还发现，一方面，当前语音对话机器人的唤醒与打断局限于传统方式，通过唤醒词唤醒与打断的方式仍然占据市场主流。赋予机器人知识、听、说、看等能力的多模态语音交互机器人落地案例较少；另一方面，申请人具有多年语音交互经验的领先优势，并且在各个行业为各种场景进行语音对话机器人项目落地。这些为本申请的构思和实现打下坚实基础。

本申请的方案主要从以下几个方面入手进行设计和优化：

我们提出一种基于多模态交互的语音机器人智能唤醒和打断方法，赋予机器人听、说、看、知识的能力，主要通过以下方式克服上面的缺陷：

对于唤醒过程，本方法结合人脸识别技术：通过识别嘴唇动作判断用户是否要说话，继而打开麦克风拾音，对用户连续进行语音识别，若识别结果可以理解，唤醒机器人与用户进行语音交互。

对于打断过程，在机器人播报过程中，实时进行人脸识别：若发现用户嘴唇在动，则打开麦克风拾音，对用户所说内容进行识别，若识别结果可以理解，机器人停止播报并等待用户说完，再进行回复。

请参考图5，其示出了本发明一实施例提供的多模态语音唤醒和打断方法的一个具体示例的多模态语音交互机器人构架图。

如图5所示，展示了本申请提出解决方案的架构图，结合语音语言和人脸识别技术，驱动多模态组合。在机器人对话交流能力的基础上，赋予其察言观色的技能，就唤醒过程而言，先观察嘴唇动作判断用户是否要说话，若用户有说话的表现，先对其语音进行识别，如果能够理解用户的意图，机器人被唤醒并与用户进行语音交互。在对话过程中，系统根据用户的话语和嘴唇动作，判断其是否要进行打断。若用户要打断，则终止当前播报；若不是，则继续播报。综上，机器人不仅能拥有普遍的对话功能，还能根据用户的“脸色”被唤醒和打断。

结合图5中的多模态组合和技术中台，对架构做具体说明：技术驱动分为语音语言中台和人脸识别中台，语音语言中台内部有几大组件模块，包括：ASR(Automatic SpeechRecognition,语音识别)、NLU(Natural Language Understanding，自然语言理解)、NLG(Natural Language Generation，自然语言生成)、TTS(Text To Speech，语音合成)；人脸识别中台通过嘴唇轮廓的坐标提取位置信息并对说话的动作做出及时判断。在多模态组合下，语音交互机器人能在有屏幕的设备(比如：手机、电脑、4K屏幕)中展现，也能以实体机器人的形式展现。其丰富的展现形式也能契合多种需求场景。

先对人脸识别中台做简要说明：主要功能是提取嘴唇轮廓、判断用户是否有说话的动作。首先提取用户脸部整体框架，再从脸部器官提取嘴唇轮廓，具体表现是轮廓的关键点坐标。就嘴唇而言，主要关键的位置信息有：左右两个唇角、上嘴唇两个唇峰、一个唇谷，下嘴唇一个唇底。其余坐标点，如：上嘴唇左右侧分别在唇角与唇峰之间、上嘴唇的下边界和下嘴唇的上边界，可根据具体情况(如像素的模糊或者清晰)来确定其数量与位置坐标。

请参考图6，其示出了本发明一实施例提供的多模态语音唤醒和打断方法的一个具体示例的嘴唇轮廓提取说明图。

如图6所示，以图6中人脸的下半部分来说明。从图6中可以看到嘴唇的轮廓用蓝色坐标点提取出，每个蓝点有不同的变量名称和不同的坐标值，坐标系选用常见的直角坐标系。变量说明、名称和坐标见表1，坐标值仅举例说明。

嘴唇位置	变量名称	坐标
			左唇角	Lip_left_corner	1006,570
右唇角	Lip_right_corner	1088,566
			左唇峰	Lip_left_top	1034,545
右唇峰	Lip_right_top	1056,544
			上嘴唇唇谷	Lip_upper_bottom	1041,561
下嘴唇唇底	Lip_lower_bottom	1047,579
			下嘴唇左侧轮廓点1	Lip_lower_left_contour1	1018,575
……	……	……

表1：图6部分轮廓点的位置、变量、坐标值

借助图6和表1，通过不同时刻轮廓坐标点位置信息的比对，能得出用户嘴唇动作幅度的大小。当超过半数的坐标点位置变化超过设定的阈值时，表明用户想要说话，此时打开系统麦克风，开始识别用户的语音，语音语言中台开始发挥作用。

其中，在一些实施例中，通过关键点坐标的位置变化判断所述用户是否有交互意图，一般不看坐标的绝对变化，而是看相对变化。因为走远或者走进摄像头，即使不说话人脸也会动，人脸动的话，关键点的坐标数据就会发生变化。本实施例主要是根据各个关键点的相对位置，用多个相对比值来进行位置变化的判断，例如可以用某两个关键点坐标的距离与另外两个关键点坐标的距离的比值来判断关键点坐标的相对位置是否发生变化。比如：(lip_upper_bottom和Lip_lower_bottom距离)和(Lip_left_corner和Lip_right_corner距离)的比值，这个比值只要嘴巴没说话，不管人是走进摄像头还是走远摄像头，是不会变化的。一说话了，(lip_upper_bottom和Lip_lower_bottom距离)就相对张开了，比值就发生变化了。

坐标变化的预设阈值的设置会跟设备也有关系。后面有语音识别和语义理解模块，一般可以先设置得相对低，例如可以将预设阈值设置为10％，然后看效果再进行调节。

以金融场景为例，假设在某银行中，用户想问询多模态机器人相关业务流程如何办理，机器人检测到用户嘴唇动作后开始拾音。用户可能问：“怎么查询账户的余额？”通过ASR识别后命中“查余额”意图，机器人会查询设定好的话术，再通过TTS将其播报给用户。用户可能通过机器人就可以进行相应业务的查询，也可能到指定窗口人工查询。如果在机器人播报过程中，用户突然打断机器人说：“我是想查存折……”机器人检测到用户有说话的动作并且话语命中“查存折”意图，便停止正在进行的播报，继续识别用户的语音。当用户说完：“我是想查存折的余额。”机器人在语料库中重新搜索“存折余额”相关的回复语句，将其播报给用户。

请参考图7，其示出了本发明一实施例提供的多模态语音唤醒和打断方法的一个具体示例的软件实现流程图。

如图7所示，当用户来到多模态语音交互机器人面前，机器人检测到人脸，又检测到嘴唇动作后，系统打开麦克风开始对用户拾音。通过ASR将语音识别为文本，进一步进行自然语言处理后尝试理解文本的意图，如果理解不了(包括意图理解为空或者意图不在设定理解范围内)，机器人不会被唤醒，表现为机器人不会回复用户的话语；反之，如果意图可以理解，那么系统查询对应意图回复的话术，选择全部或者其中随机的一条或几条语句，通过TTS合成语音将语句播报给用户。在播报过程中，系统实时检测用户的面部嘴唇动作，如果用户有说话的动作倾向，打开麦克风识别语音，若用户的语音可以理解，机器人将终止当前的播报，根据新的意图重新查询话术，再进行播报。从而可以通过多模态组合，机器人对用户的拾音将更加灵活，用户若进行打断也将更加自然。

发明人在实现本发明的过程中发现达到更深层次的效果：整体的思路是唤醒和打断，通过三个重要环节(视觉来看用户是否在话说、是否有声音、另外语义判断是否在跟我说话)。本方案通过多模态结合，赋予机器人知识、听、说、看的能力，使得语音交互机器人能灵活、自然地被唤醒和被打断，而不是仅局限于唤醒词。这使得语音交互机器人在与人对话过程中显得更加自然，而且受外界环境的干扰更少，使得误唤醒、误打断现象发生的概率大大降低，增强人机交互的体验。

本方案不仅优化了语音机器人的对话流程，还为“数字人”的发展奠定基础。“数字人”具备高度拟人化的虚拟形象，以及看、听、说的能力，具备强交互性，也是人工智能技术发展的趋势，能应用在导购、培训和线下营业厅等多种场景。本方案提出的唤醒与打断方式是希望未来“数字人”高度拟人化需要具备的能力。

请参考图8，其示出了本发明一实施例提供的多模态语音唤醒装置的框图。

如图8所示，多模态语音唤醒装置800，包括第一获取判断程序模块810、第一获取识别程序模块820、第一判断程序模块830和唤醒程序模块840。

其中，第一获取判断程序模块810，配置为响应于获取到用户的嘴唇轮廓，基于所述用户的嘴唇轮廓的变化判断所述用户是否有交互意图；第一获取识别程序模块820，配置为若有交互意图，获取所述用户的语音信息并进行语音识别处理；第一判断程序模块830，配置为基于语音识别处理结果，判断所述语音识别处理结果是否有效；唤醒程序模块840，配置为若有效，唤醒设备与所述用户进行语音交互。

请参考图9，其示出了本发明一实施例提供的多模态语音打断装置的框图。

如图9所示，多模态语音打断装置900，包括第二获取判断程序模块910、第二获取识别程序模块920、第二判断程序模块930和停止程序模块940。

其中，第二获取判断程序模块910，配置为响应于在设备播报过程中持续获取到用户的嘴唇轮廓，基于所述用户的嘴唇轮廓的变化判断所述用户是否有交互意图；第二获取识别程序模块920，配置为若有交互意图，持续获取所述用户的语音信息并持续进行语音识别处理；第二判断程序模块930，配置为基于语音识别处理结果，判断所述语音识别处理结果是否有效；停止程序模块940，配置为若有效，停止播报并等待所述用户停止说话。

应当理解，图8和图9中记载的诸模块与参考图1、图2、图3和图4中描述的方法中的各个步骤相对应。由此，上文针对方法描述的操作和特征以及相应的技术效果同样适用于图8和图9中的诸模块，在此不再赘述。

值得注意的是，本公开的实施例中的模块并不用于限制本公开的方案，例如第一获取判断程序模块可以描述为响应于获取到用户的嘴唇轮廓，基于所述用户的嘴唇轮廓的变化判断所述用户是否有交互意图的模块。另外，还可以通过硬件处理器来实现相关功能模块，例如第一获取判断程序模块也可以用处理器实现，在此不再赘述。

在另一些实施例中，本发明实施例还提供了一种非易失性计算机存储介质，计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行上述任意方法实施例中的多模态语音唤醒和打断方法；

作为一种实施方式，本发明的非易失性计算机存储介质存储有计算机可执行指令，计算机可执行指令设置为：

响应于获取到用户的嘴唇轮廓，基于所述用户的嘴唇轮廓的变化判断所述用户是否有交互意图；

若有交互意图，获取所述用户的语音信息并进行语音识别处理；

基于语音识别处理结果，判断所述语音识别处理结果是否有效；

若有效，唤醒设备与所述用户进行语音交互。

作为另一种实施方式，本发明的非易失性计算机存储介质存储有计算机可执行指令，计算机可执行指令设置为：

响应于在设备播报过程中持续获取到用户的嘴唇轮廓，基于所述用户的嘴唇轮廓的变化判断所述用户是否有交互意图；

若有交互意图，持续获取所述用户的语音信息并持续进行语音识别处理；

若有效，停止播报并等待所述用户停止说话。

非易失性计算机可读存储介质可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据多模态语音唤醒和打断装置的使用所创建的数据等。此外，非易失性计算机可读存储介质可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至多模态语音唤醒和打断装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本发明实施例还提供一种计算机程序产品，计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序，计算机程序包括程序指令，当程序指令被计算机执行时，使计算机执行上述任一项多模态语音唤醒和打断方法。

图10是本发明实施例提供的电子设备的结构示意图，如图10所示，该设备包括：一个或多个处理器1010以及存储器1020，图10中以一个处理器1010为例。多模态语音唤醒和打断方法的设备还可以包括：输入装置1030和输出装置1040。处理器1010、存储器1020、输入装置1030和输出装置1040可以通过总线或者其他方式连接，图10中以通过总线连接为例。存储器1020为上述的非易失性计算机可读存储介质。处理器1010通过运行存储在存储器1020中的非易失性软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例多模态语音唤醒和打断方法。输入装置1030可接收输入的数字或字符信息，以及产生与通讯补偿装置的用户设置以及功能控制有关的键信号输入。输出装置1040可包括显示屏等显示设备。

上述产品可执行本发明实施例所提供的方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本发明实施例所提供的方法。

作为一种实施方式，上述电子设备应用于多模态语音唤醒和打断装置中，用于客户端，包括：至少一个处理器；以及，与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够：

若有效，唤醒设备与所述用户进行语音交互。

作为另一种实施方式，上述电子设备应用于多模态语音唤醒和打断装置中，用于客户端，包括：至少一个处理器；以及，与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够：

若有效，停止播报并等待所述用户停止说话。

本申请实施例的电子设备以多种形式存在，包括但不限于：

(1)移动通信设备：这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括:智能手机、多媒体手机、功能性手机，以及低端手机等。

(2)超移动个人计算机设备：这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括：PDA、MID和UMPC设备等。

(3)便携式娱乐设备：这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

(4)服务器:提供计算服务的设备，服务器的构成包括处理器、硬盘、内存、系统总线等，服务器和通用的计算机架构类似，但是由于需要提供高可靠的服务，因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。

(5)其他具有数据交互功能的电子装置。

以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种多模态语音唤醒方法，包括：

基于语音识别处理结果，判断所述语音识别处理结果的语义是否有效；

若所述语义有效，唤醒设备与所述用户进行语音交互。

2.根据权利要求1所述的方法，其中，所述判断所述语音识别处理结果的语义是否有效包括：

对所述语音识别结果进行语义理解形成语义理解结果；

判断所述语义理解结果是否与预设意图匹配；

若所述语音识别处理结果对应的语义理解结果与所述预设意图不匹配，不唤醒设备并再次基于所述用户的嘴唇轮廓的变化判断所述用户是否有交互意图。

3.根据权利要求1所述的方法，其中，所述响应于获取到用户的嘴唇轮廓，基于所述用户的嘴唇轮廓的变化判断所述用户是否有交互意图包括：

响应于获取到用户的脸部整体框架，基于所述脸部整体框架获取嘴唇轮廓；

基于所述嘴唇轮廓的位置信息提取至少一个关键点坐标，将不同时刻的所述至少一个关键点坐标进行对比，判断是否存在预设数量的关键点坐标的位置变化超过预设阈值；

若存在预设数量的关键点坐标的位置变化超过预设阈值，则判定所述用户有交互意图。

4.根据权利要求3所述的方法，其中，所述至少一个关键点坐标包括：左唇角、右唇角、左唇峰、右唇峰、上嘴唇唇谷和下嘴唇唇底。

5.根据权利要求3所述的方法，其中，所述预设数量的关键点坐标为所述至少一个关键点坐标的一半关键点坐标。

6.一种多模态语音打断方法，包括：

若有效，停止播报并等待所述用户停止说话。

7.根据权利要求6所述的方法，其中，在所述判断所述语音识别处理结果是否有效之后，还包括：

若判断所述语音识别处理结果无效，设备继续播报。

8.一种多模态语音唤醒装置，包括：

第一获取判断程序模块，配置为响应于获取到用户的嘴唇轮廓，基于所述用户的嘴唇轮廓的变化判断所述用户是否有交互意图；

第一获取识别程序模块，配置为若有交互意图，获取所述用户的语音信息并进行语音识别处理；

第一判断程序模块，配置为基于语音识别处理结果，判断所述语音识别处理结果的语义是否有效；

唤醒程序模块，配置为若所述语义有效，唤醒设备与所述用户进行语音交互。

9.一种多模态语音打断装置，包括：

第二获取判断程序模块，配置为响应于在设备播报过程中持续获取到用户的嘴唇轮廓，基于所述用户的嘴唇轮廓的变化判断所述用户是否有交互意图；

第二获取识别程序模块，配置为若有交互意图，持续获取所述用户的语音信息并持续进行语音识别处理；

第二判断程序模块，配置为基于语音识别处理结果，判断所述语音识别处理结果是否有效；

停止程序模块，配置为若有效，停止播报并等待所述用户停止说话。

10.一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1至7任一项所述方法的步骤。