CN105575395A

CN105575395A - 语音唤醒方法及装置、终端及其处理方法

Info

Publication number: CN105575395A
Application number: CN201410541444.6A
Authority: CN
Inventors: 王婕
Original assignee: ZTE Corp
Current assignee: ZTE Corp
Priority date: 2014-10-14
Filing date: 2014-10-14
Publication date: 2016-05-11

Abstract

本发明公开了一种语音唤醒方法及装置、终端及其处理方法。本发明的语音唤醒方法包括：采集终端用户发出的唤醒词语音信号，获取所述唤醒词语音信号的唤醒词识别结果和声纹特征并存储；在所述终端处于休眠状态下，检测外界输入的语音信号；获取所述语音信号的语音识别结果和声纹特征；获取所述语音识别结果与存储的唤醒词识别结果、以及所述声纹特征与存储的声纹特征的匹配结果；根据所述匹配结果判断是否需要唤醒所述终端，若是，则唤醒所述终端；本发明的语音唤醒方法能够解决现有语音唤醒技术存在的用户唤醒率低、误唤醒率高以及用户体验差的技术问题。

Description

语音唤醒方法及装置、终端及其处理方法

技术领域

本发明涉及语音识别技术领域，尤其涉及一种语音唤醒方法及装置、终端及其处理方法。

背景技术

语音在手机终端中已不单单存在于单独的程序应用中，而开始慢慢的作为一种独立于手指触摸输入的新增输入方式，不需触碰手机，遥控和更智能化友好的服务于手机用户。

而语音唤醒技术为用户解放双手完全的语音指令遥控手机提供了前提，唤醒主流技术是技术软件唤醒，但软件运行在手机系统启动为前提，为保证能随时随地接收到用户的语音指令，语音引擎需要一直后台运行和监听，手机系统将无法进入休眠待机的节电状态，此类语音唤醒技术的应用对电量消耗异常强烈。目前语音技术在市场技术应用中在不单单考虑到功能友好性，还要关注手机电量消耗，同时要求对用户使用中的不被语音过多打扰，所以目前各厂商对于语音识别系统的唤醒方案多数采用休眠状态下硬件按键唤醒或者手机系统运行时软件按钮点击唤醒。

随着技术人员的不断改进，目前已经出现语音低功耗唤醒技术，在手机休眠状态下应用低功耗的芯片实现直接用语音指令唤醒手机操作系统，无需用户手动进行硬件和软件操作。

但对于现有技术的语音低功耗唤醒功能中，只能使用固定的唤醒词，通过语音模型生成此预置固定唤醒词的声学模型。具体地现有语音低功耗唤醒功能的实现方法，包括如下：

录制一些大批量的“选定唤醒词”声音样本进行处理和人群声学特征培训和提取。

将统计估算得出的“固定的唤醒词”声音特征预置在手机系统中。

根据用户个体输入的声音波形与统计生成的声音特征进行比对。

因低功耗性能音频芯片中运算处理能力有限，群体样本统计生成的声学模型在单独用户个体使用时会有以下问题：

1、用户个体的发声方式差异性远远低于或超出采样统计模型特征提取的置信区间，造成用户唤醒率低。如果样本量太小或者或人群特征太单一，例如，全是普通话，全是成年人，会造成有些特定人群的声音例如儿童，老人的声音对唤醒失效。

2、在噪音环境下复杂噪音环境生成了采样统计模型中类似的似然曲线，造成误唤醒率高。不该唤醒时乱唤醒，造成用户困扰。

3、由于只能通过厂家事先录制的“固定的唤醒词”来唤醒终端，用户不能

够自定义唤醒词，不能满足用户个性化的需求，降低了用户体验。

因此，现有技术虽然实现了一定功耗控制下的语音唤醒，但是存在用户唤醒率低、误唤醒率高以及用户体验差的技术等问题。

发明内容

本发明要解决的主要技术问题是，提供一种语音唤醒方法及装置、终端及其处理方法,能够解决现有语音唤醒技术存在的用户唤醒率低、误唤醒率高以及用户体验差的技术问题。

为解决上述技术问题，本发明提供一种语音唤醒方法，包括如下步骤：

采集终端用户发出的唤醒词语音信号，获取所述唤醒词语音信号的唤醒词识别结果和声纹特征并存储；

在所述终端处于休眠状态下，检测外界输入的语音信号；

获取所述语音信号的语音识别结果和声纹特征；

获取所述语音识别结果与存储的唤醒词识别结果、以及所述声纹特征与存储的声纹特征的匹配结果；

根据所述匹配结果判断是否需要唤醒所述终端，若是，则唤醒所述终端。

进一步地，所述方法在检测外界输入的语音信号之后，获取所述语音信号的语音识别结果和声纹特征之前，还包括：判断所述语音信号是否满足预设信号要求，若是，获取所述语音信号的语音识别结果和声纹特征。

进一步地，所述判断所述语音信号是否满足预设信号要求的步骤包括：

对所述语音信号进行处理得到用户语音数据和背景噪声数据；

将所述用户语音数据和所述背景噪声数据分别与预置的背景噪声模型进行匹配；

根据匹配结果判断所述语音信号是否满足预设信号要求。

进一步地，所述将所述用户语音数据和所述背景噪声数据分别与预置的背景噪声模型进行匹配的步骤包括：

将所述用户语音数据与所述预置的背景噪声模型进行匹配得到第一匹配分值；

将所述背景噪声数据与所述预置的背景噪声模型进行匹配得到第二匹配分值；

所述根据匹配结果判断所述语音信号是否满足预设信号要求的步骤包括：

采用预设分值算法对所述第一匹配分值和所述第二匹配分值进行计算得到所述语音信号的匹配分值；

判断所述语音信号的匹配分值是否大于预设阈值，若是，则判定满足预设信号要求，若否，则判定不满足预设信号要求。

进一步地，所述根据所述匹配结果判断是否需要唤醒所述终端的步骤包括：

当所述语音信号的语音识别结果与所述存储的语音唤醒词识别结果匹配成功，且所述语音信号的声纹特征与所述存储的语音唤醒词声纹特征匹配成功时，则判定需要唤醒所述终端。

多核音频处理器中的第一核单元唤醒后，所述第一核单元判断所述语音信号是否满足预设信号要求；

所述获取所述语音信号的语音识别结果和声纹特征的步骤包括：

当所述第一核单元判断为是时，所述第一核单元唤醒所述多核音频处理器中的第二核单元；

所述第二核单元获取所述语音信号的语音识别结果和声纹特征；

所述获取所述语音识别结果与存储的唤醒词识别结果、以及所述声纹特征与存储的声纹特征的匹配结果的步骤包括：

所述第二核单元获取所述语音识别结果与存储的唤醒词识别结果、以及所述声纹特征与存储的声纹特征的匹配结果；

所述根据所述匹配结果判断是否需要唤醒所述终端，若是，则唤醒所述终端的步骤包括：

所述第二核单元根据所述匹配结果判断是否需要唤醒所述终端，若是，则所述第二核单元唤醒所述终端。

进一步地，所述方法还包括：

当所述第一核单元判断为否时，所述第一核单元进入休眠状态；

和/或

当所述第二核单元判断为否时，所述第二核单元进入休眠状态。

进一步地，所述第二核单元唤醒所述终端的步骤包括：

所述第二核单元发送中断事件唤醒所述终端中处于休眠状态的主处理器。

同样为了解决上述的技术问题，本发明还提供了一种终端处理方法，包括如下步骤：

利用上述前五项中任一项所述的语音唤醒方法唤醒所述终端；

所述终端在唤醒之后，根据所述语音信号的语音识别结果执行对应的预设操作。

进一步地，所述唤醒所述终端的步骤包括：

根据所述语音信号的识别结果产生预设类型的唤醒中断事件唤醒所述终端；

所述语音信号的语音识别结果执行预设的操作的步骤包括：

根据所述唤醒中断事件的类型执行对应的预设操作。

同样为了解决上述的技术问题，本发明还提供了一种语音唤醒装置，包括：采样模块、检测模块、第一获取模块、第二获取模块、第一判断模块和唤醒模块；

所述采样模块用于采集终端用户发出的唤醒词语音信号，获取所述唤醒词语音信号的唤醒词识别结果和声纹特征并存储；

所述检测模块用于在所述终端处于休眠状态下，检测外界输入的语音信号；

所述第一获取模块用于获取所述语音信号的语音识别结果和声纹特征；

所述第二获取模块用于获取所述语音识别结果与存储的唤醒词识别结果、以及所述声纹特征与存储的声纹特征的匹配结果；

所述第一判断模块用于根据所述匹配结果判断是否需要唤醒所述终端；

所述唤醒模块用于在所述第一判断模块判断为是时，唤醒所述终端。

进一步地，所述装置还包括：第二判断模块；

所述第二判断模块用于在检测模块检测外界输入的语音信号之后，所述第一获取模块获取所述语音信号的语音识别结果和声纹特征之前，判断所述语音信号是否满足预设信号要求；

所述第一获取模块用于在所述第二判断模块判断为是时，获取所述语音信号的语音识别结果和声纹特征。

进一步地，所述第二判断模块用于：

根据匹配结果判断所述语音信号是否满足预设信号要求。

进一步地，所述第一获取模块、第二获取模块、所述第一判断模块和所述唤醒模块集成在多核音频处理器的第二核单元中；所述第二判断模块集成在所述多核音频处理器的第一核单元中；

所述第二判断模块用于在所述第一核单元唤醒之后，判断所述语音信号是否满足预设信号要求，若是，唤醒所述第二核单元；

所述第一获取模块用于在所述第二核单元唤醒之后，获取所述语音信号的语音识别结果和声纹特征。

进一步地，所述第一判断模块用于当所述语音信号的语音识别结果与所述存储的语音唤醒词识别结果匹配成功，且所述语音信号的声纹特征与所述存储的语音唤醒词声纹特征匹配成功时，则判定需要唤醒所述终端。

同样为了解决上述的技术问题，本发明还提供了一种终端，包括处理模块和上述所述的语音唤醒装置；

所述处理模块用于在所述语音唤醒装置唤醒所述终端之后，根据所述语音信号的语音识别结果执行对应的预设操作。

进一步地，所述语音唤醒装置中唤醒模块用于根据所述语音信号的识别结果产生预设类型的唤醒中断事件唤醒所述终端；

所述处理模块用于根据所述唤醒中断事件的类型执行对应的预设操作。

本发明的有益效果是：

本发明提供了一种语音唤醒方法及装置、终端及其处理方法，能够提高用户唤醒率、降低误唤醒率和提升用户体验。具体地，本发明的语音唤醒方法包括：采集终端用户发出的唤醒词语音信号，获取所述唤醒词语音信号的唤醒词识别结果和声纹特征并存储；在所述终端处于休眠状态下，检测外界输入的语音信号；获取所述语音信号的语音识别结果和声纹特征；获取所述语音识别结果与存储的唤醒词识别结果、以及所述声纹特征与存储的声纹特征的匹配结果；根据所述匹配结果判断是否需要唤醒所述终端，若是，则唤醒所述终端；本发明的语音唤醒方法，以终端用户自己声音作为声音样本，获取终端用户个体的声音特征(即识别结果和声纹特征)作为声音样本特征；在进行语音唤醒时，由于声音样本特征中声纹特征与唤醒时提取的声纹特征相同(同一用户的发声方式相同)，避免了用户个体的发声方式差异于声音样本用户的发声方式导致唤醒失败，提供了唤醒率；另外，本发明的方法加入了语音识别结果和声纹特征的匹配，可以有效地避免噪声环境导致的误唤醒，使得噪声环境无法唤醒终端，降低了误唤醒率；本发明的方法还可以供用户自定义唤醒词，满足用户个性化的需求，提升了用户的体验。

另外，由于不同用户的发声方式是不同的即声纹特征不同，所以应用本实施例方法只有终端用户本人才能唤醒终端，与现有技术相比，还提高了终端的信息安全。

附图说明

图1为本发明实施例一提供的一种语音唤醒方法的流程示意图；

图2为本发明实施例一提供的一种获取用户自定义语音唤醒词样本特征的流程示意图；

图3为本发明实施例一提供的一种判断语音信号是否满足预设信号要求的流程示意图；

图4为本发明实施例一提供的一种语音唤醒系统的结构示意图；

图5为本发明实施例一提供的一种语音唤醒系统进行语音唤醒的流程示意图；

图6为本发明实施例二提供的一种终端处理方法的流程示意图；

图7为本发明实施例三提供的第一种语音唤醒装置的结构示意图；

图8为本发明实施例三提供的第二种语音唤醒装置的结构示意图；

图9为本发明实施例三提供的第三种语音唤醒装置的结构示意图；

图10为本发明实施例三提供的一种终端的结构示意图。

具体实施方式

下面通过具体实施方式结合附图对本发明作进一步详细说明。

实施例一：

考虑到现有固定唤醒词语音唤醒方法存在的用户唤醒率低、误唤醒率高以及用户体验差的技术问题；本实施例提供了一种可以提高终端用户唤醒率、降低误唤醒率、提升用户体验的语音唤醒方法，如图1所示，本实施例的语音唤醒方法包括如下步骤：

步骤101：采集终端用户发出的唤醒词语音信号，获取所述唤醒词语音信号的唤醒词识别结果和声纹特征并存储。

本实施例方法可以采用语音采集装置，例如麦克风来采集终端用户发出的语音信号。本实施例方法中获取唤醒词识别结果和声纹特征的时序不限，可以先获取识别结果，后获取声纹特征，也可以同时获取。

本实施例中唤醒词识别结果是对唤醒词语音信号进行语音识别得到的唤醒词文字内容或者命令。本实施例中声纹特征是语音信号中可以代表用户发声方式的参数，例如声音频率、响度等等。

本步骤为进行语音唤醒之前的准备步骤，发生在用户自定义语音唤醒词的过程中，本步骤可以由终端的AP侧执行，即终端的主芯片，例如手机主CPU中ARM芯片来完成。

为了提高语音唤醒的精确性，本实施例方法在采集样本特征的阶段，可以多次录制用户发出的唤醒词语音信号，然后根据多次录制的唤醒词语音信号得到最优的唤醒词识别结果和声纹特征。如图2所示，为终端获取用户自定义语音唤醒词样本特征的过程，由终端的AP侧完成:

在终端启动用户自定义唤醒词设置之后，第一次录制用户所说的唤醒词语音信号，然后生成唤醒词语音信号的唤醒词识别结果1和声纹特征1，将识别结果1和声纹特征1存储至自定义唤醒词存储区中；

终端第二次录制用户所说的唤醒词语音信号，然后生成唤醒词语音信号的唤醒词识别结果2和声纹特征2，当唤醒词识别结果2与唤醒词识别结果1相同时，利用声纹特征2优化声纹特征1，当唤醒词识别结果2与唤醒词识别结果1不相同时，重新录制；进入第三次录制或者从第一次开始重新录制；

终端第三次录制用户所说的唤醒词语音信号，然后生成唤醒词语音信号的唤醒词识别结果3和声纹特征3，当唤醒词识别结果3与唤醒词识别结果1相同时，利用声纹特征3优化上述已经优化过的声纹特征1；

依次类推，直到第n次录制完成。图2中n取4，本实施例方法中n的取值可以根据实际需求进行设定。

步骤102：在所述终端处于休眠状态下，检测外界输入的语音信号。

本步骤中可以由终端的麦克风来检测外界的语音信号，在终端休眠状态时，麦克风可以保持工作状态。

本步骤中终端处于休眠状态下从硬件的角度可以包括：终端的主处理器处于休眠状态，从软件的角度可以包括：终端的操作系统处于休眠或锁定状态。

步骤103：获取所述语音信号的语音识别结果和声纹特征。

本步骤中获取语音识别结果和声纹特征没有时序限制，可以先获取语音识别结果，后获取声纹特征，也可以先获取声纹特征，后获取语音识别结果，还可以同时获取语音识别结果和声纹特征。

本步骤中语音信号的语音识别结果是对语音信息进行语音识别得到的文字内容或者命令。本实施例中声纹特征是语音信号中可以代表用户发声方式的参数，例如声音频率、响度等等。

步骤103-106为语音唤醒过程中主要步骤，其可以在一个低功耗音频芯片执行，例如低功耗的DSP芯片。在进行语音唤醒之前，事先将上述获取的唤醒词识别结果和唤醒词语音信号的声纹特征下载到低功耗音频芯片的存储区，为语音唤醒做准备。

步骤104：获取所述语音识别结果与存储的唤醒词识别结果、以及所述声纹特征与存储的声纹特征的匹配结果。

本步骤中获取语音识别结果与存储的唤醒词识别结果的匹配结果方式包括：将语音识别结果与存储的唤醒词识别结果进行匹配，获取所述声纹特征与存储的声纹特征的匹配结果的方式包括：将获取的声纹特征与存储的声纹特征进行匹配；本步骤中获取所述语音结果与存储的唤醒词识别结果匹配结果，与获取声纹特征与存储的声纹特征的匹配结果过程时序不受限制，可以先执行前者，后执行后者，或者同时执行前者和后者。

本实施例中的匹配结果包括：匹配成功与否，或者匹配分值；其中根据匹配分值是否在预设范围内来判定是否匹配成功。

步骤105：根据所述匹配结果判断是否需要唤醒所述终端，若是，执行步骤106，若否，则执行步骤107。

具体地，当所述语音信号的语音识别结果与所述存储的语音唤醒词识别结果匹配成功，且所述语音信号的声纹特征与所述存储的语音唤醒词声纹特征匹配成功时，则判定需要唤醒所述终端；否则，判断不需要唤醒所述终端。

本步骤需要判断语音识别结果是否匹配成功和声纹特征是否匹配，这两个判断过程的时序可以任意，具体包括以下情况：

1、先判断所述语音信号的语音识别结果与所述存储的语音唤醒词识别结果是否匹配成功，若是，则再判断所述语音信号的声纹特征与所述存储的语音唤醒词声纹特征是否匹配成功，若是，则判定需要唤醒所述终端；判断为否的情况下均判定不需要唤醒终端。

2、先判断所述语音信号的声纹特征与所述存储的语音唤醒词声纹特征是否匹配成功，若是，则再判断所述语音信号的语音识别结果与所述存储的语音唤醒词识别结果是否匹配成功，若是，则判定需要唤醒所述终端；判断为否的情况下均判定不需要唤醒终端。

3、同时判断所述语音信号的语音识别结果与所述存储的语音唤醒词识别结果是否匹配成功、以及所述语音信号的声纹特征与所述存储的语音唤醒词声纹特征是否匹配成功，若均成功，则判定需要唤醒所述终端；若有一个匹配不成功则判定不需要唤醒终端。

本步骤中匹配成功可以包括：匹配分值在预设范围内，或者相似度在预设范围之内。

步骤106：唤醒所述终端。

本步骤可以通过发送中断事件唤醒终端；当语音唤醒步骤在低功耗音频芯片上执行时，低功耗音频芯片判断需要唤醒终端后，会上传中断事件给终端的主处理器唤醒处于休眠状态下的主处理器。

步骤107：不进行任何处理。

本实施例方法中当判断不需要唤醒终端时，可以忽略当前输入的语音信号，执行唤醒步骤的芯片或器件可以进入休眠状态，以节省终端功耗。

本实施例提供的语音唤醒方法，以终端用户自己声音作为声音样本，获取终端用户个体的声音特征(即识别结果和声纹特征)作为声音样本特征；在进行语音唤醒时，由于声音样本特征中声纹特征与唤醒时提取的声纹特征相同(同一用户的发声方式相同)，避免了用户个体的发声方式差异于声音样本用户的发声方式导致唤醒失败，提供了唤醒率；另外，本实施例方法加入了语音识别结果和声纹特征的匹配，可以有效地避免噪声环境导致的误唤醒，使得噪声环境无法唤醒终端，降低了误唤醒率；本发明的方法还可以供用户自定义唤醒词，满足用户个性化的需求，提升了用户的体验。

进一步，由于不同用户的发声方式是不同的即声纹特征不同，所以应用本实施例方法只有终端用户本人才能唤醒终端，与现有技术相比，还提高了终端的信息安全。

考虑到噪声环境对用户输入的语音信号的影响，进一步提高用户唤醒率降低误唤醒率，本实施例方法在上述步骤102之后，步骤103之前还可以包括：

判断所述语音信号是否满足预设信号要求，若是，则执行步骤103。

具体地，可以判断输入的语音信号的信噪比是否在预设范围内，若是，则满足语音信号要求，或者语音信号的其他质量参数是否在预设范围内，若是，则满足语音信号要求，或者将输入的语音信号的声纹特征用用较简单的波形匹配，若成功，则满足信号要求。该步骤可以在低功耗音频芯片上完成。

本实施例方法在判断语音信号不满足预设信号要求时，可以输入的语音信号丢弃；或者当该判断步骤是在低功耗音频芯片上置信时，该芯片进入休眠状态，以节省电能。

优先地，如图3所示，上述判断所述语音信号是否满足预设信号要求的过程可以包括：

步骤301：对所述语音信号进行处理得到用户语音数据和背景噪声数据。

由于外界输入的语音信号包括用户自己发出的语音信号和当前用户环境产生的噪声信号，所以在进行信号判断时，可以将语音信号分离成用户语音数据和背景噪声数据。

步骤302：将所述用户语音数据和所述背景噪声数据分别与预置的背景噪声模型进行匹配。

本步骤中用户语音数据和背景噪声数据匹配时序不受限制，可以先后，也可以同时。

本实施例方法可以预置一些较典型的生活场景下的稳态或非稳态噪声声学统计模型，例如，汽车中，酒吧里，餐馆，家庭，办公室，地铁上，会议中等。

具体地，本步骤可以包括如下步骤：

将所述背景噪声数据与所述预置的背景噪声模型进行匹配得到第二匹配分值。

步骤303：根据匹配结果判断所述语音信号是否满足预设信号要求。

本步骤中的匹配结果可以包括上述两个匹配过程得到的匹配分值，此时具体地判断过程可以包括：

判断所述语音信号的匹配分值是否大于预设阈值，若是，则判定满足预设信号要求，若否，则判定不满足预设信号要求，若否，则不满足预设信号求。

例如对两个匹配分值进行加权处理得到一个匹配分值，然后判断该匹配分值是否超出置信阀值，若是，则判定满足预设信号要求。

进一步考虑语音唤醒时终端的功耗问题，本实施例可以由一个音频处理器来完成语音唤醒的主要过程，事先将声音样本特征(唤醒词识别结果和唤醒词语音信号的声纹特征)下载到该音频处理器的存储区；在终端处于休眠状态时该音频处理器处于半sleep待机状态，由mic事件控制其工作唤醒；当mic检测到声音输入时唤醒多核音频处理器，执行语音唤醒；这样可以使得终端的主处理在休眠状态时，通过低功耗的音频处理器响应和处理外界输入的声音信息，节省终端的功耗，提高终端的待机时间。

优先地，上述音频处理器可以采取分步式核心处理，Core1用于处理接收到mic接收到外部声音信号的唤醒事件声音初步分析，即判断语音信号是否满足预设要求，Core2用户后续的语音识别以及鉴权认证，即判断是否唤醒。当mic检测到语音输入时唤醒Core1，Core1执行判断语音信号是否满足预设要求的步骤；当Core1判断为是时，唤醒Core2，并将语音信号传输给Core2(优先地，Core1将语音信号存储在Core1、2共享的存储区中，由Core2提取)；Core2唤醒后执行上述步骤103-106，完成唤醒鉴别，若通过，则由Core2向终端主处理器(例如终端ARM芯片)传送硬件中断事件，终端主处理器接收到中断事件后被唤醒由sleep模式切换到Normal模式正常运行。

应当理解的是：本实施例还可将语音识别结果匹配或者声纹匹配的过程放在Core1中执行，只有当匹配成功时才唤醒Core2，然后Core2唤醒之后执行声纹匹配或者语音结果匹配。

本实施例通过多核音频处理器的分步式核心处理设计，可以实现在节省终端功耗或电能的效果，提升了用户体验。

下面通过如图4所示的语音唤醒系统来具体介绍本实施例方法；如图4所示，该系统包括：DSP芯片(多核DSP芯片，可以包括至少两个核)、终端主CPU中的ARM芯片和麦克风；其中DSP芯片包括两个核单元以及一个唤醒存储单元(例如Flash)，第一核单元Core1和第二核单元Core2；ARM芯片包括唤醒词处理单元和唤醒词存储单元；图4所示的系统进行语音唤醒的具体过程包括：

步骤501：ARM芯片中唤醒词处理单元录制用户所说的唤醒词语音信号，并生成唤醒词语音识别结果和声纹特征，将唤醒词语音识别结果和声纹特征存储在唤醒词存储单元中。

具体地可以生成方式可以参考上述图2的描述。

步骤502：ARM芯片将唤醒词语音识别结果、唤醒词语音信号的声纹特征和预置的背景噪声模型下载到DSP芯片，并存储在唤醒存储单元中。

步骤503：在ARM芯片处于休眠状态下，麦克风动态监测外界的语音输入，当检测到语音信号时发送唤醒事件唤醒Core1。

步骤504：Core1对检测到的语音信号进行处理得到用户语音数据和背景语音数据。

步骤505：Core1将所述用户语音数据与所述预置的背景噪声模型进行匹配得到第一匹配分值，将所述背景噪声数据与所述预置的背景噪声模型进行匹配得到第二匹配分值；

步骤506：Core1采用预设分值算法对所述第一匹配分值和所述第二匹配分值进行计算得到所述语音信号的匹配分值。

步骤507：Core1判断所述语音信号的匹配分值是否大于预设阈值，若是，则执行步骤508，若否，则执行步骤512。

步骤508：Core1将语音信号传输给Core2同时唤醒Core2。

步骤509：Core2唤醒后，对所述语音信号进行语音识别获得语音识别结果，并与存储的唤醒词识别结果进行匹配，若匹配成功，则执行步骤510，若失败，则执行步骤513。

步骤510：Core2提取所述语音信号的声纹特征，并与存储的声纹特征进行匹配，若成功，执行步骤511，若否，执行步骤513。

步骤511：Core2发送唤醒中断事件给ARM芯片唤醒ARM芯片。

步骤512：Core1重新休眠，DSP芯片休眠。

步骤513：Core2重新休眠，语音唤醒流程结束。

DSP芯片中Core1和Core2的语音算处理能力不同功耗有差异，当DSP芯片只有Core1工作时因为其运算能力和主频和处理能力有限，其运转时是DSP处在相对低功耗工作状态(Normal)。如果DSP芯片Core2工作时其运算和处理能力较高，功耗相对较高，Core2被唤醒时DSP芯片处于Work态。但唤醒DSP芯片全速运行work状态的功耗也是远小于终端主CPU芯片Normal态的运行功耗。

本实施例可以将DSP芯片的运行状态分为低耗能Core1运行状态和相对高耗能运算的Core2运行态。从上图5可以看出，即使在复杂强噪音环境下，只要没有清晰人声特征输入，Core2将不被唤醒，会使DSP芯片处于稳定低功耗状态。即使Core2被唤醒如果人声输入不是自定义的唤醒指令，或者唤醒指令不是录制唤醒特征的用户输入，手机主CPU芯片也不会被唤醒。通过硬件低功耗DSP芯片的阶梯层次的唤醒机制，个体化唯一化的鉴权机制保证了手机语音唤醒的功耗控制，和误醒率的降低。

应用本实施例方法，带有声纹特征的自定义唤醒词可以在降低了智能机中语音检测功耗控制优化难题的基础上，更好的适应特殊人群或者个体的个性化需求，在便捷操作的同时，让用户的语音控制更贴近于人们生活实际使用场景。

实施例二：

为进一步提升用户体验，在终端唤醒之后，还行可以进行多样性的快速和自动响应，例如打开应用程序等，本实施例在上述语音唤醒方法的基础上，提供了一种终端处理方法，如图6所示，包括如下步骤：

步骤601：利用实施例一所述的语音唤醒方法唤醒所述终端。

具体唤醒过程参考实施例一的具体描述。

步骤602：所述终端在唤醒之后，根据所述语音信号的语音识别结果执行对应的预设操作。

上述步骤602可以由终端中的主处理器完成。

本实施例方法可以预先设置自动定义唤醒词对应的响应操作，不同的唤醒词可以对应不同的响应操作；在用户通过语音唤醒词唤醒终端之后，终端根据用户输入语音信号的识别结果执行对应的响应操作，例如自动打电话或者自动打开聊天软件或者开启驾驶模式等。这里的唤醒词是文字内容，识别结果也是用户所说的文字内容。

优先地，当通过唤醒中断事件来唤醒终端情况下，可以设置不同的唤醒词对应不同的唤醒中断事件，如果一个用户预先录制多个唤醒词，不同唤醒词对应不同的唤醒中断事件，终端对不同的唤醒中断事件，执行不同的预设操作或者架构不同的应用场景。这样达成即使在手机黑屏休眠时用户也可以通过不同的用户唤醒指令，进行多样性的快速和自动响应。例如用户自定义唤醒词为“打电话”时，在终端处于休眠状态下，在用户说出“打电话”时终端发出对应的唤醒中断事件来唤醒自身，并且终端在唤醒之后会根据预设的电话号码拨打电话。

因此，上述步骤601语音唤醒方法中唤醒所述终端的过程包括：根据所述语音信号的识别结果产生预设类型的唤醒中断事件唤醒所述终端；

上述步骤602具体包括：根据所述唤醒中断事件的类型执行对应的预设操作。

下面列举应用本实施例方法的具体场景：

场景一：如果用户录制“急救SOS，救命，妈妈”此类和用户情急时呼救口语化相关的指令做为唤醒词时，给用户一个默认的紧急唤醒的设置方法。允许用户设置的应急号码，即使在强噪音数据下，此指令的敏感度分值在用户无法手动呼叫的时候第一时间协助用户拨打出急救电话，或者发送出急救信息给接收者，同时后台开启录音或摄像功能存放在紧急文件目录中，并在wifi环境下上传网络云盘(此目录只能通过密码，用户手动删除，不被系统格式化删除)，紧急文件生成时会以短信息的形式通知用户设置的紧急联系人。

场景二：当监听到用户说“OK，LetGo！”，手机根据外界噪音环境是否类似汽车载内环境，根据陀螺仪和加速度传感器检测手机的动能位移增量变化，根据光感器检测是否手机屏幕置于非遮挡状态，为用户直接开启中兴驾驶助手。用户拿起手机下车时，根据噪音环境和传感器动量检测的变化自动关闭驾驶助手。

场景三：幼儿英文发音练习：通过自定义唤醒词提前录制小朋友正学习中的英文语句，其成功识别后对应设置儿童喜欢的特色应用或登陆模式。一个很喜欢玩手机游戏的小朋友，家长通过自定义唤醒词关联手机儿童模式，为了引导小朋友在游戏的同时巩固练习英文发音，可以将正在学习中的小朋友发音和语句预置为唤醒词，只有小朋友记忆正确并发音标准后才可以进入儿童模式进行游戏。不经意间规范小朋友的行为，提高学习热情。

其他场景：也可以通过手机在线服务或者内置不同的歇后语，对联，或时尚俏皮话供用户选择录制，当用户说了对应的时尚俏皮话的内容时，允许用户。

本实施例方法提高用户个体的语音唤醒率，降低噪音和他人声音的误唤醒率，实现趣味个性化的语音应用场景实现。

实施例三：

如图7所示，本实施例提供了一种语音唤醒装置，其特征在于，包括：采样模块、检测模块、第一获取模块、第二获取模块、第一判断模块和唤醒模块；所述采样模块用于采集终端用户发出的唤醒词语音信号，获取所述唤醒词语音信号的唤醒词识别结果和声纹特征并存储；

本实施例提供的语音唤醒装置，以终端用户自己声音作为声音样本，获取终端用户个体的声音特征(即识别结果和声纹特征)作为声音样本特征；在进行语音唤醒时，由于声音样本特征中声纹特征与唤醒时提取的声纹特征相同(同一用户的发声方式相同)，避免了用户个体的发声方式差异于声音样本用户的发声方式导致唤醒失败，提供了唤醒率；另外，本实施例装置中加入了语音识别结果和声纹特征的匹配，可以有效地避免噪声环境导致的误唤醒，使得噪声环境无法唤醒终端，降低了误唤醒率；本实施例的装置还可以供用户自定义唤醒词，满足用户个性化的需求，提升了用户的体验。

进一步，由于不同用户的发声方式是不同的即声纹特征不同，所以应用本实施例装置可实现只有终端用户本人才能唤醒终端，与现有技术相比，还提高了终端的信息安全。

优先地，如图8所示，在上述装置的基础上，本实施例语音唤醒装置还包括：第二判断模块；

优先地，所述第二判断模块用于：

根据匹配结果判断所述语音信号是否满足预设信号要求。

优先地，如图9所示，在上述装置的基础上，本实施例唤醒装置中所述第一获取模块、第二获取模块、所述第一判断模块和所述唤醒模块集成在多核音频处理器的第二核单元中；所述第二判断模块集成在所述多核音频处理器的第一核单元中；

优先地，本实施例中所述第一判断模块用于当所述语音信号的语音识别结果与所述存储的语音唤醒词识别结果匹配成功，且所述语音信号的声纹特征与所述存储的语音唤醒词声纹特征匹配成功时，则判定需要唤醒所述终端。

本实施例装置提高用户个体的语音唤醒率，降低噪音和他人声音的误唤醒率。

如图10所示，本实施例还提供了一种终端，包括处理模块和如上任一所述的语音唤醒装置；

优先地，所述语音唤醒装置中唤醒模块用于根据所述语音信号的识别结果产生预设类型的唤醒中断事件唤醒所述终端；

优先地，本实施例中处理模块集成在ARM芯片；所述语音唤醒装置集成在低功耗音频芯片上。

本实施例提供的终端提高用户个体的语音唤醒率，降低噪音和他人声音的误唤醒率，实现趣味个性化的语音应用场景。

以上内容是结合具体的实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

Claims

1.一种语音唤醒方法，其特征在于，包括如下步骤：

在所述终端处于休眠状态下，检测外界输入的语音信号；

获取所述语音信号的语音识别结果和声纹特征；

2.如权利要求1所述的方法，其特征在于，在检测外界输入的语音信号之后，获取所述语音信号的语音识别结果和声纹特征之前，还包括：

判断所述语音信号是否满足预设信号要求，若是，获取所述语音信号的语音识别结果和声纹特征。

3.如权利要求2所述的方法，其特征在于，所述判断所述语音信号是否满足预设信号要求的步骤包括：

根据匹配结果判断所述语音信号是否满足预设信号要求。

4.如权利要求3所述的方法，其特征在于，所述将所述用户语音数据和所述背景噪声数据分别与预置的背景噪声模型进行匹配的步骤包括：

5.如权利要求1-4任一项所述的方法，其特征在于，所述根据所述匹配结果判断是否需要唤醒所述终端的步骤包括：

6.如权利要求2-4任一项所述的方法，其特征在于，所述判断所述语音信号是否满足预设信号要求的步骤包括：

7.如权利要求6所述的方法，其特征在于，还包括：

和/或

8.如权利要求6所述的方法，其特征在于，所述第二核单元唤醒所述终端的步骤包括：

9.一种终端处理方法，其特征在于，包括如下步骤：

利用权利要求1-5任一项所述的语音唤醒方法唤醒所述终端；

10.如权利要求9所述的方法，其特征在于，所述唤醒所述终端的步骤包括：

所述语音信号的语音识别结果执行预设的操作的步骤包括：

根据所述唤醒中断事件的类型执行对应的预设操作。

11.一种语音唤醒装置，其特征在于，包括：采样模块、检测模块、第一获取模块、第二获取模块、第一判断模块和唤醒模块；

12.如权利要求11所述的装置，其特征在于，还包括：第二判断模块；

13.如权利要求12所述的装置，其特征在于，所述第二判断模块用于：

根据匹配结果判断所述语音信号是否满足预设信号要求。

14.如权利要求12或13所述的装置，其特征在于，所述第一获取模块、第二获取模块、所述第一判断模块和所述唤醒模块集成在多核音频处理器的第二核单元中；所述第二判断模块集成在所述多核音频处理器的第一核单元中；

15.如权利要求11-13任一项所述的装置，其特征在于，所述第一判断模块用于当所述语音信号的语音识别结果与所述存储的语音唤醒词识别结果匹配成功，且所述语音信号的声纹特征与所述存储的语音唤醒词声纹特征匹配成功时，则判定需要唤醒所述终端。

16.一种终端，其特征在于，包括：处理模块和如权利要求11-13任一项所述的语音唤醒装置；

17.如权利要求16所述终端，其特征在于，所述语音唤醒装置中唤醒模块用于根据所述语音信号的识别结果产生预设类型的唤醒中断事件唤醒所述终端；