CN111653276A

CN111653276A - 一种语音唤醒系统及方法

Info

Publication number: CN111653276A
Application number: CN202010573699.6A
Authority: CN
Inventors: 朱海; 王昆; 周琳岷
Original assignee: Sichuan Changhong Electric Co Ltd
Current assignee: Sichuan Changhong Electric Co Ltd
Priority date: 2020-06-22
Filing date: 2020-06-22
Publication date: 2020-09-11
Anticipated expiration: 2040-06-22
Also published as: CN111653276B

Abstract

本发明公开了一种语音唤醒系统及方法，所述系统包括语音数据获取模块，用于接收语音数据并存储、更新至缓存区；语音特征提取模块，用于对缓存区的语音数据进行降噪处理并按帧提取语音特征；特殊标记预测模块，用于对语音特征预测其标记概率序列；局部判决模块，用于对预测的标记序列进行局部计算，判决是否唤醒或做二次唤醒判定。本发明在正负样本分类的基础上，预测每一帧为非激活、待激活、激活标记的概率，采用滑动窗口，只在激活词的尾部进行唤醒，有效降低了语音唤醒过程中误唤醒、提前唤醒的概率，同时采取接收端降噪以及在训练数据中加噪的方式，有效增强了噪声环境下语音唤醒的鲁棒性，使语音唤醒系统更为稳定、有效。

Description

一种语音唤醒系统及方法

技术领域

本发明涉及语音处理技术，具体涉及一种语音唤醒系统及方法。

背景技术

语音唤醒技术是指用户通过说出唤醒词来使智能设备从休眠状态进入激活状态，目前该技术已经得到了广泛的应用。传统的语音唤醒方法主要以正负样本作为分类标签，对检测语音提取音频特征，采用二分类网络对是否唤醒进行判决。使用传统的方法在在某些情境下容易存在误唤醒、提前唤醒的问题，比如激活词为“Hey Eva”，存在被“Hey”、“Eva”等词激活的情况。此外，噪声环境下对语音唤醒有较大影响，使得唤醒成功率较低。

发明内容

为了解决上述技术问题，本发明提出了一种语音唤醒系统及方法，该系统及方法可以解决在语音唤醒过程中误唤醒、提前唤醒以及在噪声环境下唤醒成功率较低的问题。

本发明解决上述技术问题采用的技术方案为：

一种语音唤醒系统，包括语音数据获取模块、语音特征提取模块、特殊标记预测模块以及局部判决模块；

所述语音数据获取模块，用于接收语音数据并存储、更新至缓存区；

所述语音特征提取模块，用于对缓存区的语音数据进行降噪处理并按帧提取语音特征；

所述特殊标记预测模块，用于对语音特征预测其标记概率序列；

所述局部判决模块，用于对预测的标记序列进行局部计算，判决是否唤醒或做二次唤醒判定。

本发明还提供了一种语音唤醒方法，包括训练阶段和唤醒阶段，其中训练阶段包括以下步骤：

S11.准备训练的语音数据集；

S12.正样本端点检测处理，训练集加噪处理；

S13.训练集声学特征提取，对样本进行特殊标记；

S14.将语音特征、标记序列共同输入语音唤醒模型训练；

唤醒阶段包括以下步骤：

S21.获取语音数据；

S22.降噪处理，按帧对处理后的语音数据进行特征提取；

S23.将语音特征输入语音唤醒模型，预测每一帧为特殊标记的概率；

S24.采用滑动窗口对预测的标记序列进行局部计算，判决是否唤醒或做二次唤醒判定。

进一步的技术方案为，所述步骤S11中的语音数据集包括不同环境下录制的正样本、负样本数据以及随机噪声数据，同时划分为训练集和测试集，所述正样本为唤醒词。

进一步的技术方案为，所述步骤S12具体为采用VAD算法对正样本唤醒词进行端点检测，并剪去端点范围外的音频；对训练集加入不同信噪比的随机噪声得到加噪训练集。

进一步的技术方案为，所述步骤S13具体为确定窗口大小，在正样本语音特征尾部端点之后再填充与窗口大小相同的随机噪声或填充零；在加噪训练集中随机选取负样本与正样本进行拼接，并加窗、分帧提取语音特征，得到输入特征X；提取的语音特征为MFCC特征；正样本末尾特殊标记方式为以尾部端点为中心，在前后各一个窗口大小的范围内标记为激活，其余范围标记为待激活，负样本则全部标记为非激活，得到输入标签Y。

进一步的技术方案为，所述步骤S14具体为将语音特征、标记序列共同输入语音唤醒模型进行训练，采用不同的阈值、窗口大小，在测试集上调试得到ROC曲线并分析出得到最佳阈值以及最佳窗口大小；所述语音唤醒模型选自LSTM、WaveNet、CNN、CRNN中的任意一种。

进一步的技术方案为，所述步骤S21具体为由人为设定数据块大小，按帧获取语音数据，同时存储并更新到缓存区，缓存区存储帧数与唤醒词的时长接近，也可人为设定，缓存区的更新按照先入先出的原则。

进一步的技术方案为，所述步骤S22具体为降噪处理为基于频谱噪声估计以及深度学习去噪算法；提取的声学特征为MFCC特征。

进一步的技术方案为，所述步骤S23具体为将语音特征输入到预训练的语音唤醒模型，预测每一帧为非激活、待激活、激活标记的概率；所述语音唤醒模型选自LSTM、WaveNet、CNN、CRNN模型中的任意一种。

进一步的技术方案为，所述步骤S24具体为若滑动窗口内平均值大于激活阈值，则判决为唤醒；若滑动窗口内平均值介于激活阈值与待激活阈值，并且此后窗口小于待激活阈值，则将待激活的语音帧片段用语音唤醒网络做二次判定，再判决是否唤醒。

与现有技术相比，本发明具有如下有益效果：本发明提供的语音唤醒系统及方法，在在正负样本分类的基础上，对正样本采取了特殊标记，正样本的尾部标记为激活，其余部分标记为待激活，并采用滑动窗口对局部进行判决是否唤醒，将未激活的待激活片段利用语音唤醒网络作二次判定，有效降低了语音唤醒过程中误唤醒、提前唤醒的概率，同时采取接收端降噪以及在训练数据中加噪的方式，有效增强了噪声环境下语音唤醒的鲁棒性，使语音唤醒系统更为稳定、有效。

附图说明

图1为本发明实施例所述语音唤醒方法的流程示意图；

图2为本发明实施例所述获取语音数据的流程示意图；

图3为本发明实施例所述特殊标记处理流程示意图；

图4为本发明实施例所述局部唤醒判决流程示意图。

具体实施方式

下面将结合附图和具体实施例对本发明的实施方式进行详细描述。显然，所描述的实施例仅仅是本发明的一部分实施例，而不是本发明的全部实施例，应理解的，本发明不受这里描述的实施例的限制。

实施例1

本发明所述的一种语音唤醒方法，如图1所示，在训练阶段包括以下步骤：

S11.准备训练的语音数据集；

训练数据集包括不同环境下录制的正样本(唤醒词)、负样本数据以及随机噪声数据，同时划分为训练集和测试集。

S12.正样本端点检测处理，训练集加噪处理；

采用VAD算法对正样本唤醒词进行端点检测，并剪去端点范围外的背景音频；对训练集加入不同信噪比的随机噪声得到加噪训练集。

S13.训练集声学特征提取，对样本进行特殊标记；

确定窗口大小，在正样本语音特征尾部端点之后再填充与窗口大小相同的随机噪声或填充零；在加噪训练集中随机选取负样本与正样本进行拼接，并加窗、分帧提取语音特征，得到输入特征X；提取的语音特征包括但不限于MFCC特征；正样本末尾特殊标记方式为以尾部端点为中心，在前后各一个窗口大小的范围内标记为激活，其余范围标记为待激活，负样本则全部标记为非激活，得到输入标签Y。

具体的，样本特殊标记方式如图3所示，在本实施例中窗口的大小选为15帧，在正样本末尾端点之后再填充15帧大小的随机噪声，将正样本拼接到负样本的末尾，然后加窗分帧得到X；将正样本端点处前后2倍窗口大小的范围语音帧对应为激活标记，标记为1；负样本语音帧对应为非激活标记，标记为0；其余正样本语音帧对应为待激活标记，标记为0.5(根据具体需求可标记为0～1之间)。

S14.将语音特征、标记序列共同输入语音唤醒模型训练；

语音唤醒模型包括但不限于LSTM、WaveNet、CNN、CRNN等模型。将语音特征、标记序列共同输入语音唤醒模型进行训练，采用不同的阈值以及窗口大小，在测试集上调试得到ROC曲线并分析出得到最佳阈值以及最佳窗口大小。

唤醒阶段包括以下步骤：

S21.获取语音数据；

本实施例中，所述获取语音数据的方式如图2所示，由人为设定数据块(chunksize)大小，按帧获取语音数据，同时存储并更新到缓存区，缓存区存储帧数一般与唤醒词的时长接近，也可人为设定，缓存区的更新按照先入先出的原则。

S22.降噪处理，按帧对处理后的语音数据进行特征提取；

降噪处理包括但不限于基于频谱噪声估计以及深度学习去噪等算法；提取的声学特征包括但不限于MFCC特征。

语音唤醒模型包括但不限于LSTM、WaveNet、CNN、CRNN等模型；将语音特征输入到预训练的语音唤醒模型，预测每一帧为非激活、待激活、激活标记的概率。

确定激活以及待激活的阈值，若滑动窗口内判定为激活，则判决为唤醒；若滑动窗口内判定为待激活，并且之后无判定为激活，则将待激活的语音帧片段用语音唤醒网络做二次判定，再判决是否唤醒。

具体的，在本实施例中，选定滑动窗口大小为30帧，窗口内的平均概率为s，利用滑动窗口对预测的标记概率序列进行判决，激活阈值为0.9，待激活阈值为0.5，非激活阈值为0.1，若s>0.9则为激活片段，若s介于0.5～0.9则为待激活片段，若s<0.1则为非激活片段，激活判决的详细方式参照图3。

通过本实施例1提供的一种语音唤醒的方法，通过对训练集进行特殊标记处理，采用滑动窗口对局部进行唤醒判决，有效降低了误唤醒、提前唤醒的问题，同时，通过在训练集中加入不同信噪比的噪声，在唤醒阶段对语音数据降噪处理，有效降低了噪声的影响。

实施例2

本发明实施例所述的一种语音唤醒的装置，包括：

语音数据获取模块，用于接收语音数据并存储、更新至缓存区；

如图2所示，由人为设定数据块(chunk size)大小，按帧获取语音数据，同时存储并更新到缓存区，缓存区存储帧数一般与唤醒词的时长接近，也可人为设定。可理解的是，缓存区的更新按照先入先出的原则。

语音特征提取模块，用于对缓存区的语音数据进行降噪处理并按帧提取语音特征；

降噪处理包括但不限于基于频谱噪声估计以及深度学习去噪等算法；提取的语音特征包括但不限于MFCC特征。

特殊标记预测模块，用于对语音特征预测其标记概率序列；

可理解的是，对每一帧的语音特征预测相应的标记概率。

局部判决模块，用于对预测的标记序列进行局部计算，判决是否唤醒。

如图4所示，确定激活、待激活的阈值，若滑动窗口内平均值大于激活阈值，则判决为唤醒；若滑动窗口内平均值介于激活阈值与待激活阈值，并且此后窗口小于待激活阈值，则将待激活的语音帧片段用语音唤醒网络做二次判定，再判决是否唤醒。

通过本实施例2提供的种语音唤醒的装置，有效降低了误唤醒、提前唤醒，通过训练阶段对训练集加入了不同信噪比的噪声，在接收端进行降噪处理，使得该装置对噪声有一定的鲁棒性。

尽管这里参照本发明的解释性实施例对本发明进行了描述，上述实施例仅为本发明较佳的实施方式，本发明的实施方式并不受上述实施例的限制，应该理解，本领域技术人员可以设计出很多其他的修改和实施方式，这些修改和实施方式将落在本申请公开的原则范围和精神之内。

Claims

1.一种语音唤醒系统，其特征在于，包括语音数据获取模块、语音特征提取模块、特殊标记预测模块以及局部判决模块；

2.一种语音唤醒方法，其特征在于，包括训练阶段和唤醒阶段，其中训练阶段包括以下步骤：

S11.准备训练的语音数据集；

S12.正样本端点检测处理，训练集加噪处理；

S13.训练集声学特征提取，对样本进行特殊标记；

S14.将语音特征、标记序列共同输入语音唤醒模型训练；

唤醒阶段包括以下步骤：

S21.获取语音数据；

S22.降噪处理，按帧对处理后的语音数据进行特征提取；

3.根据权利要求2所述的语音唤醒方法，其特征在于，所述步骤S11中的语音数据集包括不同环境下录制的正样本、负样本数据以及随机噪声数据，同时划分为训练集和测试集，所述正样本为唤醒词。

4.根据权利要求2所述的语音唤醒方法，其特征在于，所述步骤S12具体为采用VAD算法对正样本唤醒词进行端点检测，并剪去端点范围外的音频；对训练集加入不同信噪比的随机噪声得到加噪训练集。

5.根据权利要求2所述的语音唤醒方法，其特征在于，所述步骤S13具体为确定窗口大小，在正样本语音特征尾部端点之后再填充与窗口大小相同的随机噪声或填充零；在加噪训练集中随机选取负样本与正样本进行拼接，并加窗、分帧提取语音特征，得到输入特征X；提取的语音特征为MFCC特征；正样本末尾特殊标记方式为以尾部端点为中心，在前后各一个窗口大小的范围内标记为激活，其余范围标记为待激活，负样本则全部标记为非激活，得到输入标签Y。

6.根据权利要求2所述的语音唤醒方法，其特征在于，所述步骤S14具体为将语音特征、标记序列共同输入语音唤醒模型进行训练，采用不同的阈值、窗口大小，在测试集上调试得到ROC曲线并分析出得到最佳阈值以及最佳窗口大小；所述语音唤醒模型选自LSTM、WaveNet、CNN、CRNN中的任意一种。

7.根据权利要求2所述的语音唤醒方法，其特征在于，所述步骤S21具体为由人为设定数据块大小，按帧获取语音数据，同时存储并更新到缓存区，缓存区存储帧数与唤醒词的时长接近，也可人为设定，缓存区的更新按照先入先出的原则。

8.根据权利要求2所述的语音唤醒方法，其特征在于，所述步骤S22具体为降噪处理为基于频谱噪声估计以及深度学习去噪算法；提取的声学特征为MFCC特征。

9.根据权利要求2所述的语音唤醒方法，其特征在于，所述步骤S23具体为将语音特征输入到预训练的语音唤醒模型，预测每一帧为非激活、待激活、激活标记的概率；所述语音唤醒模型选自LSTM、WaveNet、CNN、CRNN模型中的任意一种。

10.根据权利要求2所述的语音唤醒方法，其特征在于，所述步骤S24具体为若滑动窗口内平均值大于激活阈值，则判决为唤醒；若滑动窗口内平均值介于激活阈值与待激活阈值，并且此后窗口小于待激活阈值，则将待激活的语音帧片段用语音唤醒网络做二次判定，再判决是否唤醒。