CN109243446A

CN109243446A - 一种基于rnn网络的语音唤醒方法

Info

Publication number: CN109243446A
Application number: CN201811163578.3A
Authority: CN
Inventors: 曾志先; 肖龙源; 蔡振华; 李稀敏; 刘晓葳; 谭玉坤
Original assignee: Xiamen Kuaishangtong Technology Corp ltd
Current assignee: Xiamen Kuaishangtong Technology Corp ltd
Priority date: 2018-10-01
Filing date: 2018-10-01
Publication date: 2019-01-18

Abstract

本发明公开一种基于RNN网络的语音唤醒方法，包括如下步骤：步骤1，采用麦克风实时采集用户语音，并提取其40维的MFCC特征；步骤2，将MFCC特征数据进行数值标准化处理；步骤3，将标准化后的MFCC特征数据传入已经训练好的RNN循环神经网络中，判断该音频数据是否为关键词。此种语音唤醒方法可实现实时监测用户关键词，当用户的语音中包含关键词的时候，设备就会激活并开始监听用户语音。

Description

一种基于RNN网络的语音唤醒方法

技术领域

本发明属于语音识别技术领域，特别涉及一种基于RNN网络的语音唤醒方法。

背景技术

随着语音识别技术的不断发展，越来越多的智能设备实现通过语音来进行交互，其中语音唤醒就是语音交互中非常重要的一个环节。

语音唤醒系统是通过用户说出唤醒词，从而实现激活设备并使设备切换到工作状态的方式，语音唤醒的作用在于让用户直接通过语音来与设备进行交互，提高交互的便捷性与效率。

目前的语音唤醒技术主要基于GMM-HMM系统，该系统的主要问题就是激活效率不高，功耗较高，不适用于低功耗的设备使用。

基于以上分析，本发明人针对语音唤醒技术进行深入研究，本案由此产生。

发明内容

本发明的目的，在于提供一种基于RNN网络的语音唤醒方法，其可实现实时监测用户关键词，当用户的语音中包含关键词的时候，设备就会激活并开始监听用户语音。

为了达成上述目的，本发明的解决方案是：

一种基于RNN网络的语音唤醒方法，包括如下步骤：

步骤1，采用麦克风实时采集用户语音，并提取其40维的MFCC特征；

步骤2，将MFCC特征数据进行数值标准化处理；

步骤3，将标准化后的MFCC特征数据传入已经训练好的RNN循环神经网络中，判断该音频数据是否为关键词。

上述步骤1中，采用pyaudio工具，通过循环的方式监听麦克风的音频数据，时隔一秒保存音频数据为字符串格式的一个数组，利用numpy工具的frombuffer将字符串数据转为数值形式；再通过python_speech_features工具将数值形式的音频数据数组转为40维的MFCC特征。

上述步骤2的具体过程是：首先通过numpy的mean方法计算平均值，然后通过numpy的std方法计算标准差，标准化的计算方式为(原数值-平均值)/标准差。

上述步骤3中，训练RNN循环神经网络的方法是：通过Google语音命令集训练网络，将go和house语音作为正样本，其他所有语言作为负样本，准备2000个语音作为正样本，10000个语音作为负样本，将80％数据作为训练集，20％的数据作为测试集，使用交叉熵损失来作为损失函数，然后通过Adam算法来优化损失值，总共迭代训练200次。

上述步骤3中，使用3层GRU结构的RNN循环网络，隐藏层神经元个数300，输出两个数值，第一个数值是当前语音音频是关键词的分数，第二个数值是当前语音音频为非关键词的分数，结合前后的信息来做出概率的判断。

上述步骤3中，通过SoftMax将RNN循环神经网络输出层的两个数值转为概率，从而将RNN循环神经网络输出的数值转为0-1的范围中，从而根据这个0-1的概率值来作为判断结果。

还将几次的概率结果进行计算平均值，将平均值作为最后的判断结果，如果平均后概率超过先前设置的阈值，那么就将该音频数据判断为是关键词。

采用上述方案后，本发明的有益效果是：

(1)本发明实现端到端的网络结构，输入音频数据之后直接就可以输出关键词的判断结果，省去传统语音唤醒系统的解码过程；

(2)本发明实现网络结构简洁，能够实现低运算量，高准确率，适用于低功耗的智能设备。

附图说明

图1是本发明的流程图。

具体实施方式

以下将结合附图，对本发明的技术方案进行详细说明。

如图1所示，本发明提供一种基于RNN网络的语音唤醒方法，包括如下步骤：

(1)麦克风实时采集用户语音，本实施例中用到的是pyaudio工具，通过循环的方式来监听麦克风的音频数据，时隔一秒保存音频数据为一个数组，因为pyaudio采集到的数据为字符串格式，所以我们通过numpy工具的frombuffer将字符串数据转为数值形式；

(2)通过python_speech_features工具将数值形式的音频数据数组转为40维的MFCC特征，通过MFCC特征来进行模型的训练；

(3)将音频MFCC特征数据进行数值标准化处理，首先通过numpy的mean方法来计算平均值，接下来通过numpy的std方法计算标准差，标准化的计算方式为(原数值-平均值)/标准差；

(4)然后将所有预处理过后的MFCC特征数据传入已经训练好的RNN循环神经网络当中，判断该音频数据是否为关键词；

(5)在本实施例中，通过Google语音命令集来训练网络，将go和house语音作为正样本，其他所有语言作为负样本，准备2000个语音作为正样本，10000个语音作为负样本，将80％数据作为训练集，20％的数据作为测试集，使用交叉熵损失来作为损失函数，然后通过Adam算法来优化损失值，总共迭代训练200次；

(6)使用3层GRU结构的RNN循环网络，隐藏层神经元个数300，输出两个数值，第一个数值是当前语音音频是关键词的分数，第二个数值是当前语音音频为非关键词的分数，之所以使用RNN网络来作为网络结构，是因为RNN可以充分利用时序方面的信息，结合前后的信息来做出概率的判断，而音频数据恰好就是建立在时序关系上面的；

(7)通过SoftMax将输出层的两个数值转为概率，概率的意义为当前音频数据是关键词的概率为多少，为非关键词的概率是多少，SoftMax计算方式用意在于可以将RNN循环网络输出的数值转为0-1的范围中，从而可以根据这个0-1的概率值来作为判断结果；

(8)将几次的概率结果进行计算平均值，这个步骤称为概率平滑，我们需要考虑到多个判断结果，从而中和考虑，将平均值作为最后的判断结果，如果平均后概率超过先前设置的阈值，那么就将该音频数据判断为是关键词，一般阈值设置为0.5，可以根据不断的实验来调整阈值，如果误警率过高，那么调高阈值，如果拒绝率太高，那么就调低阈值。

以上实施例仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明保护范围之内。

Claims

1.一种基于RNN网络的语音唤醒方法，其特征在于包括如下步骤：

步骤2，将MFCC特征数据进行数值标准化处理；

2.如权利要求1所述的一种基于RNN网络的语音唤醒方法，其特征在于：所述步骤1中，采用pyaudio工具，通过循环的方式监听麦克风的音频数据，时隔一秒保存音频数据为字符串格式的一个数组，利用numpy工具的frombuffer将字符串数据转为数值形式；再通过python_speech_features工具将数值形式的音频数据数组转为40维的MFCC特征。

3.如权利要求1所述的一种基于RNN网络的语音唤醒方法，其特征在于：所述步骤2的具体过程是：首先通过numpy的mean方法计算平均值，然后通过numpy的std方法计算标准差，标准化的计算方式为(原数值-平均值)/标准差。

4.如权利要求1所述的一种基于RNN网络的语音唤醒方法，其特征在于：所述步骤3中，训练RNN循环神经网络的方法是：通过Google语音命令集训练网络，将go和house语音作为正样本，其他所有语言作为负样本，准备2000个语音作为正样本，10000个语音作为负样本，将80％数据作为训练集，20％的数据作为测试集，使用交叉熵损失来作为损失函数，然后通过Adam算法来优化损失值，总共迭代训练200次。

5.如权利要求1所述的一种基于RNN网络的语音唤醒方法，其特征在于：所述步骤3中，使用3层GRU结构的RNN循环网络，隐藏层神经元个数300，输出两个数值，第一个数值是当前语音音频是关键词的分数，第二个数值是当前语音音频为非关键词的分数，结合前后的信息来做出概率的判断。

6.如权利要求1所述的一种基于RNN网络的语音唤醒方法，其特征在于：所述步骤3中，通过SoftMax将RNN循环神经网络输出层的两个数值转为概率，从而将RNN循环神经网络输出的数值转为0-1的范围中，从而根据这个0-1的概率值来作为判断结果。

7.如权利要求6所述的一种基于RNN网络的语音唤醒方法，其特征在于：还将几次的概率结果进行计算平均值，将平均值作为最后的判断结果，如果平均后概率超过先前设置的阈值，那么就将该音频数据判断为是关键词。