CN107464565B

CN107464565B - 一种远场语音唤醒方法及设备

Info

Publication number: CN107464565B
Application number: CN201710853952.1A
Authority: CN
Inventors: 耿雷
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2017-09-20
Filing date: 2017-09-20
Publication date: 2020-08-04
Anticipated expiration: 2037-09-20
Also published as: CN107464565A

Abstract

本发明实施例公开了一种远场语音唤醒方法及设备。其中，远场语音唤醒方法包括：前端音频信号处理芯片获取麦克风阵列拾取的多路语音信号中的至少一路语音信号，并确定至少一路语音信号是否为语音唤醒信号；主处理器获取多路语音信号中的至少两路语音信号，并依据多路语音唤醒识别模型确定至少两路语音信号是否为语音唤醒信号，若至少一路语音信号是语音唤醒信号，且至少两路语音信号是语音唤醒信号，则主处理器控制执行唤醒操作。本发明实施例基于前端音频信号处理芯片和主处理器，对麦克风阵列拾取的多路语音信号作两次语音唤醒信号识别，大大降低了误唤醒率，提升了用户体验。

Description

一种远场语音唤醒方法及设备

技术领域

本发明实施例涉及语音唤醒技术，尤其涉及一种远场语音唤醒方法及设备。

背景技术

随着语音识别技术的飞速发展，语音唤醒技术的应用越来越普遍，随着用户对语音唤醒设备的体验要求越来越高，语音唤醒技术不再局限于近距离范围的唤醒，因此出现了远场语音唤醒技术。

现有的远场语音唤醒技术有两种实现方式，一种是基于前端音频信号处理芯片(通常是音频专用DSP)的语音唤醒实现方式，另一种是基于主处理器(CPU)的语音唤醒实现方式。但是，无论是基于前端音频信号处理芯片还是基于主处理器的离线唤醒识别引擎，都受限于芯片的运算能力及存储容量，导致离线识别的声学模型相对简单，从而使语音唤醒引擎性能下降，造成语音唤醒误识别的增加，尤其是在有噪声环境下，误唤醒的几率会更高。

发明内容

本发明实施例提供一种远场语音唤醒方法及设备，大大降低了误唤醒率，提升了用户体验。

第一方面，本发明实施例提供了一种远场语音唤醒方法，该方法包括：

前端音频信号处理芯片获取麦克风阵列拾取的多路语音信号中的至少一路语音信号，并确定所述至少一路语音信号是否为语音唤醒信号；

主处理器获取所述多路语音信号中的至少两路语音信号，所述主处理器依据多路语音唤醒识别模型确定所述至少两路语音信号是否为语音唤醒信号，其中，所述多路语音唤醒识别模型预先依据多路语音唤醒样本信号训练得到；

若所述至少一路语音信号是语音唤醒信号，且所述至少两路语音信号是语音唤醒信号，则所述主处理器控制执行唤醒操作。

第二方面，本发明实施例还提供了一种远场语音唤醒设备，该设备包括麦克风阵列、前端音频信号处理芯片和主处理器；其中，

所述麦克风阵列拾取多路语音信号；

所述前端音频信号处理芯片获取所述多路语音信号中的至少一路语音信号，并确定所述至少一路语音信号是否为语音唤醒信号；

所述主处理器获取所述多路语音信号中的至少两路语音信号，并依据多路语音唤醒识别模型确定所述至少两路语音信号是否为语音唤醒信号，其中，所述多路语音唤醒识别模型预先依据多路语音唤醒样本信号训练得到；

本发明实施例通过前端音频信号处理芯片获取麦克风阵列拾取的多路语音信号中的至少一路语音信号，并确定至少一路语音信号是否为语音唤醒信号；通过主处理器获取多路语音信号中的至少两路语音信号，并利用多路语音唤醒识别模型确定至少两路语音信号是否为语音唤醒信号，基于前端音频信号处理芯片和主处理器，对麦克风阵列拾取的多路语音信号作两次语音唤醒信号识别，大大降低了误唤醒率，提升了用户体验。

附图说明

图1是本发明实施例一中的远场语音唤醒方法的流程图；

图2是本发明实施例二中的远场语音唤醒方法的流程图；

图3是本发明实施例三中的远场语音唤醒设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

实施例一

图1为本发明实施例一提供的远场语音唤醒方法的流程图，本实施例可适用于远场语音唤醒设备，例如可以是智能手机、智能音箱以及智能电视等，该方法可以由远场语音唤醒设备来执行。如图1所示，该方法具体包括：

S110、前端音频信号处理芯片获取麦克风阵列拾取的多路语音信号中的至少一路语音信号，并确定至少一路语音信号是否为语音唤醒信号。

本实施例中，当检测到存在语音信号时，远场语音唤醒设备中的麦克风阵列对该语音信号进行拾取，得到多路语音信号。前端音频信号处理芯片中的语音唤醒引擎从多路语音信号中获取一路或多路语音信号，并利用预设其中的声学模型确定获取的语音信号是否是预设的语音唤醒信号。

在本实施例中，预设于语音唤醒引擎中的声学模型是预先由一路或多路语音唤醒样本信号训练得到的，若预设的声学模型是由一路语音唤醒样本信号训练得到，则语音唤醒引擎从麦克风阵列拾取的多路信号中获取一路语音信号，进行语音唤醒信号的识别；若预设的声学模型是由多路语音唤醒样本信号训练得到，则语音唤醒引擎获取多路语音信号，进行语音唤醒信号识别。由于语音唤醒引擎对语音信号进行语音唤醒信号识别，一般受限于前端音频信号芯片的运算能力及存储容量，因此，在此芯片中进行语音唤醒信号识别时，优选由一路语音唤醒样本信号训练的声学模型和一路语音信号。

S120、主处理器获取多路语音信号中的至少两路语音信号，主处理器依据多路语音唤醒识别模型确定至少两路语音信号是否为语音唤醒信号，其中，多路语音唤醒识别模型预先依据多路语音唤醒样本信号训练得到。

本实施例中，采用概率论的思想，对语音信号进行二次确认，以降低语音唤醒信号的误识别率。基于此，利用主处理器中的语音唤醒引擎获取麦克风阵列拾取到的多路语音信号中的至少两路语音信号，并依据预设其中的多路语音唤醒识别模型对获取到的多路语音信号进行语音唤醒信号的识别。

本实施例中，多路语音唤醒识别模型是预先依据多路语音唤醒样本信号训练得到的，若预设的多路语音唤醒识别模型是由两路语音唤醒样本信号训练得到，则语音唤醒引擎从麦克风阵列拾取的多路信号中获取两路语音信号，进行语音唤醒信号的识别；若预设的多路语音唤醒识别模型是由多路语音唤醒样本信号训练得到，则语音唤醒引擎获取多路语音信号，进行语音唤醒信号识别。

本实施例中，为了降低系统的功耗，本步骤S120可以在步骤S110确定获取到的至少一路语音信号是语音唤醒信号时才执行，若确定获取到的至少一路语音信号不是语音唤醒信号，则不再执行本步骤S120，即结束本次识别操作；若需持续对检测到的语音信号进行识别，则返回重新执行步骤S110；另一方面，为了减少识别的时间，本步骤S120还可以在步骤S110进行语音唤醒信号识别操作的同时执行，若其中任何一个步骤识别到相对应的语音信号不是语音唤醒信号，则结束本次识别操作；若需持续对检测到的语音信号进行识别，则返回重新执行上述两个步骤。

S130、若至少一路语音信号是语音唤醒信号，且至少两路语音信号是语音唤醒信号，则主处理器控制执行唤醒操作。

本实施例中，前端音频信号处理芯片中的语音唤醒引擎识别出获取到的至少一路语音信号是语音唤醒信号，并将该识别结果发送至主处理器的语音唤醒引擎。主处理器中的语音唤醒引擎识别出获取到的至少两路语音信号是语音唤醒信号，并结合前端音频信号处理芯片发送的确定至少一路语音信号是语音唤醒信号的识别结果，控制执行远场语音唤醒设备的唤醒操作。

以远场语音唤醒设备为智能音箱、以语音唤醒信号为“音箱你好，请自动开启”、以先执行前端音频信号处理芯片识别操作，若满足条件，再执行主处理器识别操作为例，对本实施例中的具体步骤进行详细说明。

当用户正在闲聊时，智能音箱中的麦克风阵列检测到其周围存在语音信号，便开始对语音信号进行拾取，并得到多路语音信号。前端音频信号处理芯片中的语音唤醒引擎从多路语音信号中获取一路语音信号，并利用预设其中的由一路语音唤醒样本信号训练得到的声学模型确定获取的语音信号并不是预设的“音箱你好，请自动开启”信号，因此，不再执行主处理器对多路语音信号的识别处理。

当用户提到“音箱你好，请自动开启”时，智能音箱中的麦克风阵列检测到其周围存在语音信号，便开始对语音信号进行拾取，并得到多路语音信号。前端音频信号处理芯片中的语音唤醒引擎从多路语音信号中获取一路语音信号，并利用预设其中的声学模型确定获取的语音信号是预设的“音箱你好，请自动开启”信号，并将该确定结果发送至主处理器。主处理器接收到该信息后，继续从多路语音信号中获取三路语音信号，并利用预设其中的由三路语音唤醒样本信号训练得到的三路语音唤醒识别模型确定获取的语音信号也是预设的“音箱你好，请自动开启”信号，此时，主处理器控制对音响执行唤醒操作。

本实施例提供的远场语音唤醒方法，通过前端音频信号处理芯片获取麦克风阵列拾取的多路语音信号中的至少一路语音信号，并确定至少一路语音信号是否为语音唤醒信号；通过主处理器获取多路语音信号中的至少两路语音信号，并利用多路语音唤醒识别模型确定至少两路语音信号是否为语音唤醒信号，基于前端音频信号处理芯片和主处理器，对麦克风阵列拾取的多路语音信号作两次语音唤醒信号识别，大大降低了误唤醒率，提升了用户体验。

进一步的，若至少一路语音信号不是语音唤醒信号，或至少两路语音信号不是语音唤醒信号，则主处理器拒绝执行唤醒操作。

本实施例中，如果前端音频信号处理芯片中的语音唤醒引擎获取的至少一路语音信号不是语音唤醒信号，主处理器中的语音唤醒引擎获取的至少两路语音信号也不是语音唤醒信号；或者，如果前端音频信号处理芯片中的语音唤醒引擎获取的至少一路语音信号是语音唤醒信号，而主处理器中的语音唤醒引擎获取的至少两路语音信号不是语音唤醒信号；或者，如果前端音频信号处理芯片中的语音唤醒引擎获取的至少一路语音信号不是语音唤醒信号，而主处理器中的语音唤醒引擎获取的至少两路语音信号是语音唤醒信号时，主处理器均拒绝执行远场语音唤醒设备的唤醒操作。

仍然以远场语音唤醒设备为智能音箱、以语音唤醒信号为“音箱你好，请自动开启”、以先执行前端音频信号处理芯片识别操作，若满足条件，再执行主处理器识别操作为例，对本实施例进行详细说明。

当用户在比较嘈杂的环境中提到“音箱你好，请勿开启”时，智能音箱中的麦克风阵列检测到其周围存在语音信号，便开始对语音信号进行拾取，并得到多路语音信号。前端音频信号处理芯片中的语音唤醒引擎从多路语音信号中获取一路语音信号，并利用预设其中声学模型确定获取的语音信号是预设的“音箱你好，请自动开启”信号，并将该确定结果发送至主处理器。主处理器接收到该处理结果后，从多路语音信号中获取三路语音信号，并利用预设其中的由三路语音唤醒样本信号训练得到的三路语音唤醒识别模型确定获取的语音信号并不是预设的“音箱你好，请自动开启”信号，而是“音箱你好，请勿开启”信号，结合该结果，主处理器不会执行唤醒操作。

实施例二

本实施例在实施例一的基础上，对步骤S110和步骤S120进行了优化。图2是本发明实施例二提供的远场语音唤醒方法的流程图，如图2所示，该方法具体包括：

S210、前端音频信号处理芯片获取麦克风阵列拾取的多路语音信号中的至少一路语音信号。

S220、前端音频信号处理芯片对至少一路语音信号进行回音消除处理，依据预设的频率范围对经回音消除处理的至少一路语音信号进行降噪处理，并确定至少一路语音信号是否为语音唤醒信号。

本实施例中，在前端音频信号处理芯片确定至少一路语音信号是否为语音唤醒信号之前，可以对至少一路语音信号进行回音消除处理，并依据预设的频率范围对经过回音消除处理后的语音信号进行降噪处理，以屏蔽固有频率的噪声。与之相对应的用于训练声学模型的语音唤醒样本信号，可以是未经过回音消除处理和降噪处理的样本信号，也可以是经过回音消除处理和降噪处理后的样本信号。利用由经过回音消除处理和降噪处理后的语音唤醒样本信号训练得到的声学模型进行语音唤醒信号识别，可以保证识别结果更加精确，降低在前端音频信号处理芯片中语音唤醒信号的误识别率。

S230、主处理器获取多路语音信号中的至少两路语音信号。

S240、主处理器对至少两路语音信号作波束成形，以及自动增益控制和/或均衡降噪处理，依据多路语音唤醒识别模型确定至少两路语音信号是否为语音唤醒信号，其中，多路语音唤醒识别模型预先依据多路语音唤醒样本信号训练得到。

本实施例中，在主处理器确定至少两路语音信号是否为语音唤醒信号之前，可以对至少两路语音信号进行波束成形处理，以获取与特定角度相对应的语音信号，可以对进行波束成形后的语音信号进行自动增益控制，以对语音信号进行放大处理，还可以采用EQ(Equalizer，均衡器)等算法对进行波束成形后的语音信号进行均衡降噪处理，以调节语音信号的频率响应和失真现象。此外，在识别至少两路语音信号是否为语音唤醒信号之前，还可以对至少两路语音信号作回声消除、去除固定频率噪声、去混响、自动增益控制或动态范围调整，以及信号放大等处理，以保证获取到的至少两路语音信号更加接近于真实的语音信号。

本实施例中，同样的，在利用多路语音唤醒样本信号训练多路语音唤醒识别模型时，可以采用未经过上述波束成形，以及自动增益控制和/或均衡降噪处理的多路样本信号，也可以是经过上述处理后的多路样本信号。

S250、若至少一路语音信号是语音唤醒信号，且至少两路语音信号是语音唤醒信号，则主处理器控制执行唤醒操作。

本实施例提供的远场语音唤醒方法，通过在前端音频信号处理芯片确定至少一路语音信号是否为语音唤醒信号之前，对至少一路语音信号进行回音消除和降噪处理；通过在主处理器确定至少两路语音信号是否为语音唤醒信号之前，对至少两路语音信号进行波束成形，以及自动增益控制和/或均衡降噪处理，获得更加精确的语音信号，保证了识别结果的精确度，降低了在前端音频信号处理芯片和主处理器中语音唤醒信号的误识别率，提升了用户体验。

实施例三

图3是本发明实施例三中的远场语音唤醒设备的结构示意图。如图3所示，远场语音唤醒设备包括：麦克风阵列310、前端音频信号处理芯片320和主处理器330。其中，

麦克风阵列310拾取多路语音信号；

前端音频信号处理芯片320获取多路语音信号中的至少一路语音信号，并确定至少一路语音信号是否为语音唤醒信号；

主处理器330获取多路语音信号中的至少两路语音信号，并依据多路语音唤醒识别模型确定至少两路语音信号是否为语音唤醒信号，其中，多路语音唤醒识别模型预先依据多路语音唤醒样本信号训练得到；

若至少一路语音信号是语音唤醒信号，且至少两路语音信号是语音唤醒信号，则主处理器控制执行唤醒操作。

本实施例提供的远场语音唤醒设备，通过设置麦克风阵列、前端音频信号处理芯片和主处理器，并通过前端音频信号处理芯片获取麦克风阵列拾取的多路语音信号中的至少一路语音信号，并确定至少一路语音信号是否为语音唤醒信号；通过主处理器获取多路语音信号中的至少两路语音信号，并利用多路语音唤醒识别模型确定至少两路语音信号是否为语音唤醒信号，基于前端音频信号处理芯片和主处理器，对麦克风阵列拾取的多路语音信号作两次语音唤醒信号识别，大大降低了误唤醒率，提升了用户体验。

进一步的，该设备还可以包括：

若至少一路语音信号不是语音唤醒信号，或至少两路语音信号不是语音唤醒信号，则主处理器330拒绝执行唤醒操作。

进一步的，在前端音频信号处理芯片320在确定至少一路语音信号是否为语音唤醒信号之前，该设备还可以包括：

对至少一路语音信号进行回音消除处理，并依据预设的频率范围对经回音消除处理的至少一路语音信号进行降噪处理。

进一步的，在主处理器330在确定至少两路语音信号是否为语音唤醒信号之前，该设备还可以包括：

对至少两路语音信号作波束成形，以及自动增益控制和/或均衡降噪处理。

本发明实施例所提供的远场语音唤醒设备，与本发明任意实施例所提供的远场语音唤醒方法属于同一发明构思，可执行本发明任意实施例所提供的远场语音唤醒方法，具备执行远场语音唤醒方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本发明任意实施例提供的远场语音唤醒方法。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种远场语音唤醒方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，还包括：

若所述至少一路语音信号不是语音唤醒信号，或所述至少两路语音信号不是语音唤醒信号，则所述主处理器拒绝执行唤醒操作。

3.根据权利要求1所述的方法，其特征在于，所述前端音频信号处理芯片确定所述至少一路语音信号是否为语音唤醒信号之前，还包括：

所述前端音频信号处理芯片对所述至少一路语音信号进行回音消除处理，并依据预设的频率范围对经回音消除处理的所述至少一路语音信号进行降噪处理。

4.根据权利要求1所述的方法，其特征在于，所述主处理器确定所述至少两路语音信号是否为语音唤醒信号之前，还包括：

所述主处理器对所述至少两路语音信号作波束成形，以及自动增益控制和/或均衡降噪处理。

5.一种远场语音唤醒设备，其特征在于，包括麦克风阵列、前端音频信号处理芯片和主处理器；其中，

所述麦克风阵列拾取多路语音信号；

6.根据权利要求5所述的设备，其特征在于，还包括：

7.根据权利要求5所述的设备，其特征在于，所述前端音频信号处理芯片在确定所述至少一路语音信号是否为语音唤醒信号之前，还包括：

对所述至少一路语音信号进行回音消除处理，并依据预设的频率范围对经回音消除处理的所述至少一路语音信号进行降噪处理。

8.根据权利要求5所述的设备，其特征在于，所述主处理器在确定所述至少两路语音信号是否为语音唤醒信号之前，还包括：

对所述至少两路语音信号作波束成形，以及自动增益控制和/或均衡降噪处理。