CN105912092A

CN105912092A - 人机交互中的语音唤醒方法及语音识别装置

Info

Publication number: CN105912092A
Application number: CN201610210631.5A
Authority: CN
Inventors: 陈本东; 牛建伟; 潘复平; 曹立新; 杨德刚
Original assignee: Beijing Horizon Robotics Technology Research and Development Co Ltd
Current assignee: Beijing Horizon Robotics Technology Research and Development Co Ltd
Priority date: 2016-04-06
Filing date: 2016-04-06
Publication date: 2016-08-31
Anticipated expiration: 2036-04-06
Also published as: CN105912092B

Abstract

本申请公开了人机交互中的语音唤醒方法和语音识别装置，所述语音唤醒方法包括以下步骤：静音检测步骤，包括：在机器检测到声音能量时，进行唤醒词检出，如果声音能量包括唤醒词，则唤醒机器开始语音识别，否则，启动图像检测；图像检测步骤，包括：在图像检测中，如果检测到人，则唤醒机器开始语音识别，否则继续检测声音能量。通过本发明的方法和语音识别装置，能够结合图像检测，实现自然地人机交互，同时保持待机状态下的低电力消耗。

Description

人机交互中的语音唤醒方法及语音识别装置

技术领域

本公开一般涉及人机交互技术领域，具体涉及人机交互中的语音唤醒方法及语音识别装置。

背景技术

当前，越来越多的电子产品支持语音对话的交互方式，这些电子产品包括手机、平板电脑、其它手持智能设备等。同时，为了节省产品的电力消耗和提高续航时间，往往设置多种休眠模式，在休眠模式下，更多的硬件电路停止工作，消耗的功率更低，一旦恢复正常工作，则需要从休眠模式下唤醒，其中一种唤醒方式就是通过语音对话唤醒。

在人机交互中，休眠模式的唤醒通常有两种方式，一种是按键唤醒，即通过按压电子产品(例如手机)上的按键，退出休眠模式；另一种是语音唤醒词唤醒，用户通过发出唤醒词的语音，被手机识别出，退出休眠模式。设置这种唤醒的原因，是机器录音检出唤醒词的功耗要远小于一直处于命令词识别状态的功耗。一个典型的例子是苹果公司的siri，其实现了这两种唤醒方式。只有唤醒后，用户的语音才会被机器作为语音识别的输入，用户才可以继续说出自己的命令。这样，在非手持的情况下，几乎每次想向siri发出指令，都需要先说“嘿，siri”，这非常不自然。大部分人机交互产品，都沿袭了siri的这种交互方式。上述方法，存在人机交互很不自然，用户每次都需要唤醒机器再说命令词，与人的自然交流差别很大的弊端。

有的公司开始改进这种方式，比如，设置一个超时机制，在一次唤醒后，只有用户15秒内都不说话，机器才进入待唤醒模式，需要再次唤醒，才能发出指令，否则，可以直接说出指令。

这种设置超时机制的方法，虽然一定程度上减轻了用户唤醒的次数，但是设置多长时间的超时合适没有逻辑依据，只是大致的判断。

发明内容

鉴于现有技术中的上述缺陷或不足，期望提供一种人机交互自然，又节省电子产品的待机功耗的技术方案。

在本发明的第一方面，提供一种人机交互中的语音唤醒方法，所述语音唤醒方法包括以下步骤：

静音检测步骤，包括在机器检测到声音能量时，进行唤醒词检出，如果声音能量包括唤醒词，则唤醒机器开始语音识别，否则启动图像检测，转入图像检测步骤；

图像检测步骤，包括在图像检测中，如果检测到人，则唤醒机器开始语音识别，否则转入静音检测步骤，继续检测声音能量。

可选地，根据上述语音唤醒方法，在所述图像检测步骤中，所述检测到人是检测到人的头部。

可选地，根据上述语音唤醒方法，在所述图像检测步骤中，所述检测到人是检测到人的脸部。

可选地，根据上述语音唤醒方法，在所述图像检测步骤中，如果检测到人的脸部是识别过的脸部，则还主动发出语音识别状态就绪的语音提示。

可选地，根据上述语音唤醒方法，在所述图像检测步骤中，如果检测到人的脸部是识别过的脸部，则还以已存储的昵称或尊称或戏谑称呼主动发出语音提示。

可选地，根据上述语音唤醒方法，在所述静音检测步骤中，如果声音能量不包括唤醒词，则利用声源定位信息辅助调整摄像头的拍摄角度，进行图像检测。

可选地，根据上述语音唤醒方法，在唤醒机器开始语音识别后，在设定阈值的时间内，机器持续进行语音识别。

可选地，根据上述语音唤醒方法，通过对上述语音唤醒过程中语音识别、语义理解、图像检测和识别等多种方式的输入和输出结果的分析，建立学习模型，判断是否进入唤醒后状态的人机对话模式。

在本发明的第二方面，提供一种人机交互中的语音识别装置，所述语音识别装置包括：

静音检测部件，用于检测声音能量，如果检测到声音，则启动唤醒词识别部件；

唤醒词识别部件，用于进行唤醒词检出，如果检测到唤醒词，则启动语音唤醒部件，否则，启动图像检测部件；

图像检测部件，用于图像检测，如果检测到人，则启动语音唤醒部件，否则指示静音检测部件继续检测声音；

语音唤醒部件，用于唤醒机器开始语音识别。

可选地，根据上述的语音识别装置，所述图像检测部件检测到人是检测到人的头部。

可选地，根据上述的语音识别装置，所述图像检测部件检测到人是检测到人的脸部。

可选地，根据上述的语音识别装置，所述图像检测部件如果检测到人的脸部是识别过的脸部，则还主动发出语音识别状态就绪的语音提示。

可选地，根据上述的语音识别装置，所述图像检测部件如果检测到人的脸部是识别过的脸部，则还以已存储的昵称或尊称或戏谑称呼主动发出语音提示。

可选地，根据上述的语音识别装置，所述静音检测部件还用于如果检测到的声音能量不包括唤醒词，则利用声源定位信息辅助调整摄像头的拍摄角度，进行图像检测。

可选地，根据上述的语音识别装置，所述语音识别装置在被唤醒开始语音识别后，在设定阈值的时间内，能够持续进行语音识别。

可选地，根据上述的语音识别装置，所述语音识别装置通过对上述语音唤醒过程中语音识别、语义理解、图像检测和识别等多种方式的输入和输出结果的分析，建立学习模型，判断是否进入唤醒后状态的人机对话模式。

本发明通过将图像检测和语音识别的信息结合，来判断机器是否进入唤醒后状态。结合图像检测，可以在人脸部不离开手机时，继续进行语音识别，减少唤醒词的使用，使人机对话更自然。通过静音检测来触发图像检测，又可以避免总是运行图像检测带来的过多功耗。另外，根据图像检测的不同内容，机器可以具有不同的反应，不同的主动说话内容，实现更生动的人机交互体验。通过图像信息，可以降低误唤醒的概率。

通过本发明提供的语音唤醒方法和语音识别装置，能够结合图像检测，实现自然地人机交互，同时保持待机状态下的低电力消耗。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1是根据本发明的一个实施例的语音唤醒方法的流程图；

图2示出根据本发明的语音识别装置的运行状态转换图；

图3是根据本发明的一个实施例的语音识别装置的方框图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

先参考图1，其是根据本发明的一个实施例的语音唤醒方法的流程图。通常情况下，具有人机语音交互功能的电子产品，例如手机或平板电脑，具有多种运行状态。例如，图2示出根据本发明的语音识别装置的运行状态转换图，其多种运行状态包括：无检测状态(关机)，如机器断电，无任何程序在运行，功耗为零或者极低；静音检测状态，此时机器的静音检测模块在工作，功耗低；唤醒词检测状态，此时能检出唤醒词，功耗较低；图像检测状态，此时能检测出人或人脸等；语音唤醒后状态(命令词/通用识别状态)，此时能识别出命令词或者非限定词的句子，功耗高。

在静音检测状态下，机器具有极低的功耗，以此来保持长时间工作的能力。在语音唤醒后状态下，机器在后台运行一个或一些应用程序，但同时机器能够接受操作者的语音输入指令，以此来完成一系列的任务。在使用语音识别功能前，都可以使仅静音检测模块在工作，以此来降低功耗。

返回至图1。在步骤S101，在静音检测状态，机器以极低功耗循环地执行静音检测的例行程序，检测机器周围的声音能量输入。在步骤S102，一旦机器检测到周围达到一定大小的声音能量，则启动唤醒词识别模块，进行唤醒词识别(步骤S103)。

在步骤S104，唤醒词识别模块识别采集的声音能量中是否包含机器指定的关键词，称为唤醒词。唤醒词可以是产品名称或者语音识别程序的名称，例如，“语音助手！”，“Siri”等。如果声音能量中包括指定的唤醒词，则机器直接进入语音唤醒后的状态，即步骤S107，开始接受操作者的语音输入，进行语音内容识别。否则，如果声音能量中不包含指定的唤醒词，则在步骤S105启动图像检测，进一步确认操作者是否要输入语音。

在步骤S105中，启动图像检测。在步骤S106，如果图像检测到人，则可以判定操作者准备进行语音输入，可以在步骤S107中使机器进入语音唤醒后的状态，开始接受操作者的语音输入，进行语音内容识别。如果图像检测不到人，则返回继续静音检测，保持低功耗。

可选地，检测到声音能量后，启动图像检测，可以以多种方式检测人。例如，检测人的正脸或侧脸，并使机器做出不同的主动反应。例如，当检测到人的正脸时，机器发出“欢迎主人！”，“你看着我干嘛？”的语音招呼。检测到侧脸时，机器发出“嗨！你想说什么”，“你又开小差啦”。只是检测到人的头部而没检测到脸时，机器发出“没听清您说什么”。机器检测人或人脸的方法，可以采用任何现有技术进行。

可选地，如果声音能量中检测到了唤醒词，但是图像没有检测到说话人，机器可以不主动发出声音，避免或减少误唤醒对用户的干扰，例如，机器可以不说“没听清您说什么”这样的话。

可选地，检测到声音能量后，如果不包含唤醒词，可以利用声源定位信息辅助调整摄像头的角度，使得摄像头更容易找到人。声源定位可以采用现有技术获得声源的角度，摄像头再依此定位。

可选地，还可以将人脸存储起来，当图像检测识别出当前人脸时已经识别过的人脸时，机器做出更生动活泼的语音招呼，使操作者具有更亲切的体验。例如，可以拍摄自己、家人或好友的脸部图像存储，并给予适当的存储命名，这种存储命名可以使用某种昵称或者尊称或戏谑称呼，当好友或家人再用此机器语音交互时，一旦机器识别出人脸时已经存储的人脸，则以昵称或尊称或戏谑的称呼进行主动招呼。这会强化和增进使用者的社会或社交关系，给客户带来提升的体验。

另外，通过对上述语音唤醒过程中语音识别、语义理解、图像检测和识别等多种方式的输入和输出结果的分析，建立学习模型，判断是否进入唤醒后状态的人机对话模式，从而提高唤醒操作的准确性，提升用户体验。例如，机器发现上一次唤醒后，并没有进行有效的人机交互，如没有人和他对话，那么机器就学到一种误唤醒的场景，学习以后，以后在这种情况下，就不会被唤醒。同样，在唤醒后，有成功的语音交互的，机器会继续强化这种场景下的唤醒。

可选地，可以在机器进入语音唤醒后的状态后仍进行图像检测，当检测到人或人脸而间隔较长时间检测不到语音输入时，可以用语音方式主动提醒操作者进行语音输入。例如，可以设定操作者在机器被语音唤醒后15秒或20秒内没有语音输入，则机器发出“你想说什么？”的语音提示。

图3示出根据本发明的实施例提供的一种语音识别装置1。该语音识别装置包括静音检测部件11，用于检测声音能量，如果检测到声音，则启动唤醒词识别部件；唤醒词识别部件12，用于进行唤醒词检出，如果检测到唤醒词，则启动语音唤醒部件，否则，启动图像检测部件；图像检测部件13，用于图像检测，如果检测到人，则启动语音唤醒部件，否则指示静音检测部件11继续检测声音；语音唤醒部件14，用于唤醒机器开始语音识别。

本发明通过将图像检测和语音识别的信息结合，来判断机器是否进入唤醒后状态。结合图像检测，可以在人脸部不离开手机时，继续进行语音识别，减少唤醒词的使用，使人机对话更自然。

通过静音检测来触发图像检测，又可以避免总是运行图像检测带来的过多功耗。另外，根据图像检测的不同内容，机器可以具有不同的反应，不同的主动说话内容，实现更生动的人机交互体验。通过结合图像信息，可以降低误唤醒的概率。

应当注意，本发明的上述语音唤醒方法和语音识别装置，可以用硬件或硬件与软件相结合的方式来实现。其可以用通用硬件或专用电路来实现。

应当注意，尽管在附图中以特定顺序描述了本发明方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。相反，流程图中描绘的步骤可以改变执行顺序。例如，也可以在启动图像检测后，进一步检测声音能量。在人脸接近人机交互界面时，先唤醒图像检测，再进一步结合声音检测。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

Claims

1.一种人机交互中的语音唤醒方法，其特征在于，所述语音唤醒方法包括以下步骤：

静音检测步骤，包括：在机器检测到声音能量时，进行唤醒词检出，如果声音能量包括唤醒词，则唤醒机器开始语音识别，否则启动图像检测，转入图像检测步骤；

图像检测步骤，包括：在图像检测中，如果检测到人，则唤醒机器开始语音识别，否则转入静音检测步骤，继续检测声音能量。

2.根据权利要求1所述的语音唤醒方法，其特征在于，在所述图像检测步骤中，所述检测到人是检测到人的头部。

3.根据权利要求1所述的语音唤醒方法，其特征在于，在所述图像检测步骤中，所述检测到人是检测到人的脸部。

4.根据权利要求3所述的语音唤醒方法，其特征在于，在所述图像检测步骤中，如果检测到人的脸部是识别过的脸部，则还主动发出语音识别状态就绪的语音提示。

5.根据权利要求4所述的语音唤醒方法，其特征在于，如果检测到人的脸部是识别过的脸部，则还以已存储的昵称或尊称或戏谑称呼主动发出语音提示。

6.根据权利要求1所述的语音唤醒方法，其特征在于，在所述静音检测步骤中，如果声音能量不包括唤醒词，则利用声源定位信息辅助调整摄像头的拍摄角度，进行图像检测。

7.根据权利要求1所述的语音唤醒方法，其特征在于，在唤醒机器开始语音识别后，在设定阈值的时间内，机器持续进行语音识别。

8.根据权利要求1-7中任一项所述的语音唤醒方法，其特征在于，所述方法还包括通过对上述语音唤醒过程中语音识别、语义理解、图像检测和识别等多种方式的输入和输出结果的分析，建立学习模型，判断是否进入唤醒后状态的人机对话模式。

9.一种人机交互中的语音识别装置，其特征在于，所述语音识别装置包括：

语音唤醒部件，用于唤醒机器开始语音识别。

10.根据权利要求9所述的语音识别装置，其特征在于，所述图像检测部件检测到人是检测到人的头部。

11.根据权利要求9所述的语音识别装置，其特征在于，所述图像检测部件检测到人是检测到人的脸部。

12.根据权利要求11所述的语音识别装置，其特征在于，所述图像检测部件如果检测到人的脸部是识别过的脸部，则还主动发出语音识别状态就绪的语音提示。

13.根据权利要求12所述的语音识别装置，其特征在于，所述图像检测部件如果检测到人的脸部是识别过的脸部，则还以已存储的昵称或尊称或戏谑称呼主动发出语音提示。

14.根据权利要求9所述的语音识别装置，其特征在于，所述静音检测部件还用于如果检测到的声音能量不包括唤醒词，则利用声源定位信息辅助调整摄像头的拍摄角度，进行图像检测。

15.根据权利要求9所述的语音识别装置，其特征在于，所述语音识别装置在被唤醒开始语音识别后，在设定阈值的时间内，能够持续进行语音识别。

16.根据权利要求9-15中任一项所述的语音识别装置，其特征在于，所述语音识别装置还用于通过对上述语音唤醒过程中语音识别、语义理解、图像检测和识别等多种方式的输入和输出结果的分析，建立学习模型，判断是否进入唤醒后状态的人机对话模式。