CN105206271A

CN105206271A - 智能设备的语音唤醒方法及实现所述方法的系统

Info

Publication number: CN105206271A
Application number: CN201510526185.4A
Authority: CN
Inventors: 何娅玲; 何宇新
Original assignee: BEIJING YUYIN TIANXIA TECHNOLOGY Co Ltd
Current assignee: Shenzhen sound network technology Co., Ltd.
Priority date: 2015-08-25
Filing date: 2015-08-25
Publication date: 2015-12-30

Abstract

本发明涉及智能设备的语音唤醒方法及系统，所述方法包括获取音频数字信号、对音频数字信号进行语音端点检测、音频数字信号中含有语音信号，通过语音前端处理方法提取特征向量、通过关键词检测方法对特征向量进行解码，得到唤醒词指令、通过唤醒词指令对智能设备进行反馈控制；其中对特征向量进行解码包括前置步骤：建立自定义唤醒关键词文本集，和将所述文本集转换为关键词网络解码资源。本发明的方法和系统具有唤醒识别率高、交互方式友好、有效使用距离远、占用资源少、运行速度快的优点。

Description

智能设备的语音唤醒方法及实现所述方法的系统

【技术领域】

本发明涉及语音识别领域，特别是一种智能设备的语音唤醒方法，以及实现所述方法的语音唤醒系统。

【背景技术】

语音识别技术在近些年取得了显著的进步，该技术已进入工业、家电、智能家居等各个领域。语音唤醒即是语音识别技术的一种形式，其不直接接触硬件设备，通过语音即可将设备唤醒运行。一般情况下，大部分设备都是靠物理按键实现设备的唤醒或者运行。然而，这对于用户体验来说并不好。语音作为人们最自然的交流方式，通过语音唤醒这种非接触式的方式启动设备无疑是更友好的。

中国发明专利申请CN102999161A公开了一种语音唤醒模块的实现方法，包括音输入、语音唤醒算法和唤醒执行步骤，语音唤醒算法获取语音输入的语音信号，进行语音唤醒处理后，将结果输出给唤醒执行，从而完成唤醒操作；所述语音唤醒算法通过声学特征提取、唤醒词检测、唤醒词确认、构建唤醒词检测网络、训练声学模型和构建唤醒词确认网络，其中，唤醒词检测：将提取得到的声学特征，采用训练的声学模型在唤醒词检测网络上计算声学得分，如果声学得分最优的路径中包含要检测的唤醒词，则确定已检出唤醒词，进入，否则重新进行提取声学特征。

在实际使用中发现该技术方案具备明显缺陷，这是由于实际应用时用户的发音常常发生音变、衰减等，使得正确唤醒率下降，此外真实环境下总是存在很多噪声，比如说话声、开门声、电视发出的声音等，这些声音有时候也会将智能设备唤醒，称为误唤醒。误唤醒为用户体验带来了极大的困扰，大大降低该技术方案的可行性。

【发明内容】

本发明的目的是克服现有技术缺陷，提供一种灵敏度好、准确性高、有效距离远的语音唤醒方法及其实现系统，能够方便、友好地启动智能终端设备。

本发明期望通过建立一个覆盖多种地方口音的语料库和噪声库，利用该数据库训练基于上下文相关的声学模型；利用基于子带谱熵的语音端点检测方法进行语音的端点检测；根据用户提供的关键词表，生成相应的解码网络资源。

为了实现上述目的，本发明提供一种智能设备的语音唤醒方法，所述方法包括：

A、获取音频数字信号；

B、对音频数字信号进行语音端点检测，判断是否含有语音信号；

C、音频数字信号中含有语音信号，通过语音前端处理方法逐帧提取特征向量；

D、通过关键词检测方法对特征向量进行逐帧解码，得到唤醒词指令；

E、通过唤醒词指令对智能设备进行反馈控制；

其中，步骤D中对特征向量进行解码包括前置步骤：

D1、建立自定义唤醒关键词文本集，和

D2、将所述文本集转换为关键词网络解码资源；

所述步骤D1采用包括基于规则驱动建立关键词和基于数据驱动建立关键词；基于规则驱动建立关键词是指通过语音发音规则，获取与关键词发音相似的近似词条，除近似词条以外的词条定义为竞争词条；基于数据驱动建立关键词是指获取语料库中实际被识别次数较多的词条。

在本发明中，基于规则驱动建立关键词包括根据汉字语音声韵母的发音规则将声母和韵母发音分别进行分类，其中声母分为塞音、擦音、塞擦音、鼻音和边音，韵母分为开口呼、齐齿呼、合口呼和撮口呼，其中与关键词的汉字发音具有同一声母类型或同一韵母类型的词定义为近似词条，除近似词条以外的词条定义为竞争词条。

根据一种优选的实施方式，步骤B中采用基于子带谱熵的方法实现语音端点检测，包括将数字语音信号划分为多个语音帧，对各语音帧进行傅里叶变换，得到多个语音频谱；将每个语音频谱划分为多个子带，计算各子带谱熵；将各子带谱熵与预设的谱熵阈值进行比较，通过结果检测各语音帧是否含有语音。

优选地，划分语音帧采用25毫秒窗及10毫秒的帧移。

特别优选地，步骤C提取特征向量中，提取梅尔频率倒谱系数的作为特征向量。

本发明还提供一种语音唤醒智能设备的系统，所述系统包括：

语音检测模块，负责实时采集和检测用户的语音；

语音唤醒模块，用于实时检测采集的语音数据中是否存在唤醒关键词，在检测到唤醒关键词之后，发出控制信号，启动智能设备；

唤醒关键词自定义模块，用户根据自己的喜好或者智能产品的需要，自定义关键词唤醒词表，再由该模块生成本地资源文件保存。

根据一种优选的实施方式，所述语音检测模块包括：

实时录音模块111，调用智能设备的相关接口获取录音数据；

语音端点检测模块112，采用基于子带谱熵的方法检测实时录音模块是否含有语音信号，并提取语音信号。

优选地，所述语音唤醒模块包括：

语音信号前端处理模块113，用于对语音信号进行短时谱分析，并提取梅尔频率倒谱系数作为语音特征向量；

语音唤醒关键词检测模块114，用于将提取到的语音特征向量进行解码，判断是否匹配唤醒关键词；

反馈控制模块115，根据语音关键词检测模块给出的结果，决定是否启动智能设备。

在本发明中，优选地唤醒关键词自定义模块包括基于规则驱动建立的关键词库和基于数据驱动建立的关键词库；

基于规则驱动建立的关键词库是通过语音发音规则建立的与关键词发音相似的近似词条以及与关键词发音不同的竞争词条的库；

基于数据驱动建立的关键词库是根据语料库中实际被识别次数建立的词条的库。

具体地，为了避免实际应用中用户发音发生音变、衰减导致正确唤醒率下降，同时避免由于环境噪声引起的误唤醒，在建立关键词语料库时可以设计多个与唤醒关键词发音相近的词作为唤醒词，以提高正确唤醒率；另一方面通过设置竞争词条以降低误唤醒的频率。

在语音端点检测模块中，本发明采用基于子带谱熵的方法实现语音端点检测。该算法将语音分帧后进行傅里叶变换，并将语音的频谱分成若干个子带，并通过计算各个子带的谱熵，判断该帧语音是否属于语音。若检测到语音，则语音识别器开始对语音进行特征提取，再利用上文所述的三音子模型对其进行解码；否则，继续检测。该方法相对于比较常用的基于能量的语音端点检测，能够较好的滤掉部分噪声，比如碰撞声、汽车发出的噪声等。

在检测到唤醒关键词后，智能设备可以调用相应的接口，启动设备，进行更多的操作。

本发明提供两种唤醒关键词选择方式，一种是选择默认的关键词；另一种是用户自定义唤醒关键词。

提高远距离的语音唤醒率是本发明的重要目的。现有技术的大部分语音识别应用都是要求用户近距离使用，如在1米之内使用。在更远的距离下，如1米到3米的范围内，由于背景噪声、混响、信号衰减等因素干扰下，语音信号会出现不同程度的失真，从而引起正确唤醒率的大幅度下降。在传统的语音处理技术中，会对远距离的信号设计针对性的算法以补偿信号的损失，或者通过收集更多的远距离录制的语料以训练声学模型，达到提高语音唤醒的正确率。在本发明中，在保持语音唤醒模块中声学模型不变的情况下，通过独特的构造关键词表来实现提高远距离语音唤醒的正确率。

在默认的关键词表的设计过程中，本发明采取的是基于规则驱动和基于数据驱动相结合的方法，详细描述如下：

所谓的基于规则驱动的方法指的是根据语音学或声学中的声母和韵母发音方式的区别，寻找和关键词发音方式相近或者发音方式相差较大的词条。根据通用的汉语教材，汉语的声母发音按发音方式共分为塞音、擦音、塞擦音、鼻音和边音五类，例如b、p、d、t等属于塞音，而z、c、j、x等属于塞擦音；韵母则可按照韵母开头元音口形，分为开口呼、齐齿呼、合口呼和撮口呼四类，例如a、o、e等属于开口呼。对于同属于一类中的声母或韵母，认为其发声方式与结果音调相似。

按照该发音规则，将与关键词发音方式相近的词条，比如声母或韵母与目标唤醒关键词都属于同一类发音方式的，一起作为唤醒关键词；而对于发音方式不同的，比如声母和韵母与目标关键词不同，作为竞争词条。比如对于关键词“云宝yunbao”，会根据它的声母韵母的发音特征，因为“a”和“ao”都属于开口呼的发音方式，所以认为“把ba”的发音与“宝bao”(声母韵母均同类)相近，而认为与“非fei”(声母韵母均不同类)、“服fu”、“发fa”(韵母同类但声母不同类)等字的发音方式则不同。

在基于数据驱动的方法中，通过寻找在我们语料库中实际识别次数较多的词条构造词表。例如，在关键词“云宝yunbao”的语料中，被识别成“玲卯lingmao”、“联马lianma”等词次数较多。该种方法很好的利用了实际语料中的信息，在语料库足够大的情况下可以获得很好的效果。本发明在构造了基础的词表后，通过实验逐步的缩减词表。

与现有技术相比，本发明的优点包括：

1、在一个非特定说话人语音识别引擎上，不需要对采集的语音增加额外的声学处理，比如无需去混响、信道补偿等，通过调整词表可以实现远距离的语音唤醒，并获得很高的唤醒识别率；

2、用户通过非接触的方法，通过语音启动智能设备，是非常友好的交互方式；

3、通过自定义唤醒关键词和系统的关键词构建方式建立语料库，提高识别正确率和有效使用距离；

4、本发明占用资源少、运行速度快，适用于嵌入式平台的应用。

【附图说明】

图1是本发明的系统结构图；

图2是本发明的方法流程图；

图3是本发明的设计流程图；

图4是本发明自定义唤醒关键词的方法流程图。

【具体实施方式】

如图1所示的语音唤醒系统，包括语音检测唤醒模块11、自定义唤醒词模块12及唤醒词资源包13。

语音检测唤醒模块11包括录音模块111、语音端点检测模块112、前端处理模块113语音唤醒检测模块114及反馈控制模块115。其中，录音模块111通过调用智能终端的相关API接口获取录音数据；语音检测模块112通过基于子带谱熵的方法实时检测录音数据中是否包含语音，并将语音信号提取出来；前端处理模块113用来对语音信号进行分析，并提取语音特征向量，本实施例采用梅尔频率倒谱系数(MFCC)的方法实现特征向量提取；唤醒关键词检测模块114用于将113中提取的语音特征向量进行解码，检测是否包含唤醒关键词；反馈控制模块115负责根据识别结果判断是否启动智能终端设备。

具体地，语音端点检测模块112用于对录音进行分析，检测是否包含语音。首先，采用25毫秒的窗口及10毫秒的帧移将录音信号进行分帧；接着，对每帧信号进行傅里叶变换，并将频率谱分成若干个子带，分别计算谱熵；最后根据子带谱熵，判断时候是语音的开始或结束。

语音前端处理模块113用于提取语音信号的声学特征。采用每25毫秒提取一次梅尔频率倒谱系数(MFCC)，帧移为10毫秒，并将提取的声学特征传给语音唤醒关键词检测模块114通过维特比解码算法进行解码，并使用上下文相关的三音子声学模型。

自定义唤醒词模块12用于将用户自定义的唤醒关键词由文本数据转换成相应的资源文件。用户只需要将自定义的唤醒关键词以汉字的形式写入到关键词表中，该模块自动将文本转换成关键词唤醒模块所需的解码网络资源。

唤醒关键词资源13包括唤醒关键词检测模块所需的声学模型资源和由自定义唤醒关键词模块12生成的解码网络资源。

关键词表的设计如图4所示，采取基于规则驱动和基于数据驱动相结合的方法，详细描述如下：

根据通用汉语的语音学和声学中的发音规则，确定关键词的近似词条或竞争词条。根据我国通用的语文教材，汉语的声母发音按发音方式，共分为塞音、擦音、塞擦音、鼻音和边音，塞音共有6个：b、p、d、t、g、k；擦音共有6个：f、h、x、sh、r、s；塞擦音共有6个：z、zh、c、ch、j、q；鼻音声母2个：m、n；边音1个：l。

韵母则可按照韵母开头元音口形，分为开口呼、齐齿呼、合口呼、撮口呼等几种，例如a、o、e属于开口呼，齐齿呼是主要元音为i和韵头为i的韵母；合口呼是主要元音为u和韵头为u的韵母；撮口呼是主要元音为ü和韵头为ü的韵母。

本发明按照上述发音规则，将与关键词发音方式相近的词条，如声母或韵母与目标唤醒关键词都属于同一类发音方式的，一起作为唤醒关键词；而对于其余发音方式不同的，比如声母和韵母与目标关键词不同，则作为竞争词条。比如对于关键词“云宝”，会根据它的声母韵母的发音特征，因为“a”和“ao”都属于开口呼的发音方式，所以认为“把”的发音与“宝”相近，而认为与“非”、“服”、“发”等字的发音方式则相不同。

基于数据驱动的方法中，通过寻找在我们语料库中实际识别次数较多的词条构造词表。例如，在“云宝”的语料中，被识别成“玲卯”、“联马”等词次数较多。该种方法很好的利用了实际语料中的信息，在语料库足够大的情况下，可以获得很好的效果。

为了降低误唤醒次数，在建立语料库时，本发明还可以通过收集了包含多个说话人的公共语料库，该语料库包括人们自由的交谈、打电话及电视节目的录音等，通过设计一些词条匹配这些声音，达到了降低误唤醒的效果。

本发明通过自定义关键词和建立语料库，特别是通过采用包括基于规则驱动建立关键词和基于数据驱动建立关键词，以及建立的语音库覆盖中文中所有音素和音节单元，且包含各个年龄层和各地口音，作为解码特征向量的关键依据，以训练非特定说话人的声学模型。

在使用语音唤醒功能时，用户可以站在离智能终端较远的距离，一般0.2米到5米以的范围内。用户只要用正常说话声音说出唤醒关键词，即便由于噪声或距离导致系统解码获得的关键词偏离用户实际说出的关键词，但依据自定义关键和语料库，系统依然能够有效检测到语音并正确识别出语音中的唤醒词，则可启动智能终端设备。

以上所述，仅为本发明的优选实施例，并不用以限制本发明，凡依据本发明权利要求及说明书内容所作的任何修改，等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.智能设备的语音唤醒方法，所述方法包括：

A、获取音频数字信号；

C、若音频数字信号中含有语音信号，通过语音前端处理方法逐帧提取特征向量；

E、通过唤醒词指令对智能设备进行反馈控制；

其特征在于步骤D中对特征向量进行解码包括前置步骤：

D1、建立自定义唤醒关键词文本集，和

D2、将所述文本集转换为关键词网络解码资源，生成语料库；

其中，所述步骤D1采用包括基于规则驱动建立关键词和基于数据驱动建立关键词；基于规则驱动建立关键词是指通过语音发音规则，获取与关键词发音相似的近似词条，除近似词条以外的词条定义为竞争词条；当步骤D的解码得到近似词条，则认为得到与所述近似词条对应的关键词；

基于数据驱动建立关键词是指获取实际被识别次数较多的词条，当步骤D的解码得到所述实际被识别次数较多的词条，则认为得到与之对应的关键词。

2.根据权利要求1所述的方法，其特征在于基于规则驱动建立关键词包括根据汉字语音声韵母的发音规则将声母和韵母发音分别进行分类，其中声母分为塞音、擦音、塞擦音、鼻音和边音，韵母分为开口呼、齐齿呼、合口呼和撮口呼，其中与关键词的汉字发音具有同一声母类型或同一韵母类型的词定义为近似词条。

3.根据权利要求1所述的方法，其特征在于步骤B中采用基于子带谱熵的方法实现语音端点检测，包括将数字语音信号划分为多个语音帧，对各语音帧进行傅里叶变换，得到多个语音频谱；将每个语音频谱划分为多个子带，计算各子带谱熵；将各子带谱熵与预设的谱熵阈值进行比较，通过结果检测各语音帧是否含有语音。

4.根据权利要求3所述的方法，其特征在于划分语音帧采用25毫秒窗及10毫秒的帧移。

5.根据权利要求1所述的方法，其特征在于步骤C中提取特征向量中，提取梅尔频率倒谱系数的作为特征向量。

6.一种语音唤醒智能设备的系统，所述系统包括：

语音检测模块，负责实时采集和检测用户的语音；

7.根据权利要求6所述的系统，其特征在于所述语音检测模块包括：

实时录音模块(111)，调用智能设备的相关接口获取录音数据；

语音端点检测模块(112)，采用基于子带谱熵的方法检测实时录音模块是否含有语音信号，并提取语音信号。

8.根据权利要求6所述的系统，其特征在于所述语音唤醒模块包括：

语音信号前端处理模块(113)，用于对语音信号进行短时谱分析，并提取梅尔频率倒谱系数作为语音特征向量；

语音唤醒关键词检测模块(114)，用于将提取到的语音特征向量进行解码，判断是否匹配唤醒关键词；

反馈控制模块(115)，根据语音关键词检测模块给出的结果，决定是否启动智能设备。

9.根据权利要求5所述的系统，其特征在于唤醒关键词自定义模块包括基于规则驱动建立的关键词库和基于数据驱动建立的关键词库；

基于规则驱动建立的关键词库是通过语音发音规则建立的与关键词发音相似的近似词条以及除近似词条以外的的竞争词条的库；

基于数据驱动建立的关键词库是实际被识别次数建立的词条的库。