CN110189749A

CN110189749A - 语音关键词自动识别方法

Info

Publication number: CN110189749A
Application number: CN201910490527.XA
Authority: CN
Inventors: 雒瑞森; 孙天然; 孟金鑫; 龚晓峰; 蒋荣华; 余勤
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2019-06-06
Filing date: 2019-06-06
Publication date: 2019-08-30
Anticipated expiration: 2039-06-06
Also published as: CN110189749B

Abstract

本发明公开了语音关键词自动识别方法，包括如下步骤：建立包含关键词的语音样本文件和基于样本文件的文字音素映射表，建立识别模型并将该模型保存给编码模块，将文字音素映射表保存给解码模块；所述识别模型包括数据预处理单元、特征提取单元、双向LSTM循环神经网络和音频分类单元；将语音样本文件循环N次输入到识别模型中，N取大于1的正整数，使双向LSTM循环神经网络，建立语音和关键之间的稳定映射，并将该稳定映射保存至解码模块；将待识别的语音文件输入至识别模型中，得出关键词识别结果。通过将双向LSTM循环神经网络与卷积神经网络进行结合，有效的提高了语音关键词自动识别的识别率与准确率。

Description

语音关键词自动识别方法

技术领域

本发明涉及语音识别技术领域，具体涉及语音关键词自动识别方法。

背景技术

传统自动语音识别模型通常是以一整段话作为识别对象，因此传统语音识别模型一般会需要较深的层次进行信息记忆，因此其需要的样本库往往比较巨大，模型占据内存较大，且计算复杂，特别是在没有网络覆盖和由微控制器作为计算核心的场景中往往无法使用传统的自动语音识别模型进行识别。

基于深度学习的语音关键词自动识别模型在最近几年中取得了较好的进展，现在可以将语音关键词自动识别模型分为三类，即卷积神经网络、循环神经网络结合长短时记忆单元以及引入注意力机制的循环神经网络等。

但是由于某些单词发音的音素具有一定相似的地方，其在经过预处理后转化为的梅尔倒频谱系数表现类征有一定的相似。因此如何在之前学者已经研究的基础上提高语音关键词自动识别的准确率与避免个别单词的识别率过低仍然是现在人们需要解决的问题。

发明内容

本发明目的在于解决现有的语音关键词识别模型对关键词识别时识别率和准确率低的问题，提供了语音关键词自动识别方法，通过将双向LSTM循环神经网络与卷积神经网络进行结合，有效的提高了语音关键词自动识别的识别率与准确率。

本发明通过下述技术方案实现：

语音关键词自动识别方法，包括如下步骤：

步骤一、建立包含关键词的语音样本文件和基于样本文件的文字音素映射表；

步骤二、使用梅尔倒谱系数对语音样本文件进行预处理；得到梅尔倒谱系数频谱图；

步骤三、使用卷积神经网络中的两个卷积层对梅尔倒谱系数频谱图进行两次卷积提取梅尔倒频谱的特征；

步骤四、将第二个卷积层的输出降维后输入到双向LSTM循环神经网络进行记忆；得到双向LSTM循环神经网络的输出信号；

步骤五、将上一步骤得到的输出信号输入给全连接层神经网络中的三层全连接层，其中前两层的激活函数为relu，第三层的输出函数为softmax；

步骤六、根据步骤二至五建立识别模型并将该模型保存，将文字音素映射表保存到数组；所述识别模型包括重复步骤二的数据预处理单元、重复步骤三的特征提取单元、重复步骤四的双向LSTM循环神经网络和重复步骤五的音频分类单元；

步骤七、将待识别的语音文件输入至模型中，将训练好的模型解析后的参数带入到语音文件中进行对比，得到待识别语音的概率密度结果。

为了提高语音关键词自动识别的识别率与准确率，所以本方法中发明人采用了双向LSTM循环神经网络作为识别的主要模型，循环神经网络在诞生之初就是主要用在处理自然语言识别中的，其网络中的每一个输出都与其上一步有关，也就是说，循环神经网络有一定的记忆功能；虽然循环神经网路能够对过去的内容有记忆的功能，但是对于距离比较远的单元，其权重影响也会越来越小，即对于过去的内容产生了“遗忘”，为了应对这种情况，人们引入了长短时记忆单元LSTM来对之前的内容进行记忆，LSTM主要由三个门单元构成，即遗忘门、传入门以及输出门，遗忘门的作用是对能够继续通过cell的信息进行筛选，传入门的作用是控制进入到cell的状态中的信息数量，输出门决定最终输出的是什么值；虽然LSTM具有帮助循环神经网络记忆的功能，但是单向LSTM和单向RNN只能根据过去的信息推断现在的信息，但有时候我们不仅需要过去的信息，也需要未来的信息；所以发明人引入了双向LSTM循环神经网络的模型，即在使用过去和未来的信息来对现在的信息进行综合的推断；同时本发明使用的双向LSTM循环神经网络与卷积神经网络进行了结合，即原始音频在使用梅尔倒频谱处理后先使用两个卷积层进行卷积，提取梅尔倒频谱的特征，由于要尽量让梅尔倒频谱的特征输入到双向LSTM循环神经网络中，因此这里不添加池化层与Dropout。将末层卷积层的输出降维后输入到双向LSTM循环神经网络，在使用双向LSTM层后使用三层全连接层，前两层的激活函数为relu，最后一层的输出函数为softmax。搭建完模型后进行训练，为了避免程序陷入到梯度爆炸或者没有梯度时还再进行无意义的计算，在训练时添加提前结束的判定，用以选择保存最好的模型。本模型使用Adam优化器与学习率衰减的方式对模型进行优化。通过将双向LSTM循环神经网络与卷积神经网络进行结合，有效的提高了语音关键词自动识别的识别率与准确率。

进一步的，所述步骤二具体包括如下步骤：

步骤2.1、对语音样本文件依次进行分帧和加窗处理，得到语音样本文件的时域语音序列；

步骤2.2、对语音样本文件的时域语音序列进行傅里叶变换，得到语音样本文件的频谱图f(m)和能量谱X(k)；

步骤2.3、使用三角窗函数对语音样本文件的频谱图f(m)进行梅尔刻度映射，得到映射输出H_m(k)；

步骤2.4、将映射输出H_m(k)与能量谱X(k)相乘得到梅尔谱MelSpec(m)；

步骤2.5、将梅尔谱MelSpec(m)取log对数，得到log-Mel谱；

步骤2.6、对log-Mel谱进行离散余弦转换，得到梅尔倒谱系数频谱图。

在样本训练过程中都是对频谱信息进行处理，所以在此之前我们必须将语音样本文件从时域转到频域，故而在做傅里叶变换之间必须要将语音样本文件进行分帧；由于分帧后帧与帧之间的连续性就降低了，为了避免相邻两帧的变化过大，因此会让两帧之间有一定的重叠区域，重叠区域包含M个采样点，M一般为N的1/2或1/3；由于分帧后，每一帧的起始段和末尾端会出现不连续的地方，所以分帧越多与原始信号的误差也就越大，加窗就是为了解决这个问题，使分帧后的信号变得连续，每一帧就会表现出周期函数的特征，加窗的目的就是一次仅处理窗中的数据，因为实际的语音信号是很长的，我们不能也不必对非常长的数据进行一次性处理，然后进行傅里叶变换，得到语音样本文件的频谱图f(m)和能量谱X(k)；本方法中步骤2.3具体是使用三角窗滤波器对频谱图进行梅尔刻度映射，得到输出函数H_m(k)；

在通过公式：计算出梅尔谱MelSpec(m)；将梅尔谱取log，可以得到log-mel谱，最后对log-mel谱图进行离散余弦转换，得到梅尔倒谱系数转换后的频谱图，梅尔倒谱系数频谱图。

进一步的，所述步骤四和步骤五之间还设有如下步骤：

步骤A1、提取双向LSTM循环神经网络输出信号的输出向量；

步骤B1、使用密集层投影并用作查询向量以识别与关键词相关度最高的音频；

步骤C1、通过Softmax函数计算LSTM各层间信息每一部分所占权重信息，然后与LSTM输出层的输出信息进行融合，作为全连接层的输入。

现有技术中，语音关键词自动识别模型过一般是在编码-解码的框架下进行搭建的。这种框架主要是用来解决seq-2-seq的问题的，即输入与输出序列不相等时的情况；编码-解码框架的工作原理是先将输入x进行编码，通过非线性变换转换为语义编码c，最后解码器通过对语义编码c进行解码，最终输出目标句子y；可以看出，由于编码-解码模型是通过输入句子x直接编码-解码生成了目标句子y，所以该模型是比较依赖于句子中的顺序关系。而基于上述的内容，发明人将输入中的每个部分都规定了一个权重，即语义编码c是根据每一个部分的权重对输入进行编码的，即语义编码c变成了根据当前输入与注意力机制记忆权重的共同作用的c_i；通过引入注意力机制后模型的识别率进一步得到了提高。

进一步的，所述步骤四和步骤五之间还包括如下步骤：

步骤A2、将步骤二中得到的梅尔倒谱系数频谱图与步骤四中的第二层卷积层的输出进行点乘后输入到双向LSTM循环神经网络中进行第一次记忆；

步骤B2、将第一次记忆的输出与双向LSTM循环神经网络的中间层输出进行点乘，并输入到双向LSTM循环神经网络中进行第二次记忆；

步骤C2、将第二次记忆的输出与双向LSTM循环神经网络的最后一层的输出进行点乘，并输入到双向LSTM循环神经网络中进行第三次记忆，将第三次记忆的输出作为双向LSTM循环神经网络的输出信号。

上述的引入注意力机制的循环神经网络模型是使用提取最后一个LSTM层的输出向量，使用密集层投影并用作查询向量以识别音频的哪个部分最相关。但是由于音频信号在经过梅尔倒频谱的处理后是通过卷积层进行特征提取，然后再经过LSTM层进行记忆和选择，也就是说传入注意力机制中的信息并不是完整的信息，虽然通过引入单层注意力机制，可以提高识别率，但是由于音频信号在经过梅尔倒频谱的处理后是通过卷积层进行特征提取，然后再经过LSTM层进行记忆和选择，也就是说传入注意力机制中的信息并不是完整的信息。因此如果能够将注意力机制的输入由LSTM层的输出改为在模型搭建过程中多个层的协同输出可能会有更好的效果，这样的话如果是LSTM层的输出由于记忆问题出现了缺失，还可以通过其它层的输出协同作用，将出现问题的记忆进行纠正，提高对单词识别率的精度。多层注意力机制的最要思想是通过多层次记忆，尽可能的记忆最需要记忆的参数，避免了因为某一次的原因导致某些参数的记忆缺失，造成个别关键词的识别率低下。此时对输入信息进行编码后的语义编码c_i不仅与编码方式有关，还受到了输入的直接影响，因此携带的信息也更加接近如输入信息。相比较之前的注意力机制模型这时的语义编码c_i，多层注意力机制模型c_i会受到不同层级的输出的协同影响，最终在多层级的协同作用下达到更好的性能。

本发明与现有技术相比，具有如下的优点和有益效果：

1、通过将双向LSTM循环神经网络与卷积神经网络进行结合，有效的提高了语音关键词自动识别的识别率与准确率。

2、通过引入多层注意力机制，此时对输入信息进行编码后的语义编码c_i不仅与编码方式有关，还受到了输入的直接影响，因此携带的信息也更加接近理想状态下的信息；多层注意力机制模型c_i会受到不同层级的输出的协同影响，最终在多层级的协同作用下达到更好的性能。

附图说明

此处所说明的附图用来提供对本发明实施例的进一步理解，构成本申请的一部分，并不构成对本发明实施例的限定。在附图中：

图1为本发明的结构网络模型图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下面结合实施例和附图，对本发明作进一步的详细说明，本发明的示意性实施方式及其说明仅用于解释本发明，并不作为对本发明的限定。

实施例1

语音关键词自动识别方法，包括如下步骤：

本实施例中，步骤二具体包括如下步骤：

步骤2.5、将梅尔谱MelSpec(m)取log对数，得到log-Mel谱；

本方法中步骤2.3具体是使用三角窗滤波器对频谱图进行梅尔刻度映射，得到输出函数H_m(k)；

在通过公式：计算出梅尔谱MelSpec(m)；将梅尔谱取log，可以得到log-mel谱；

最后对log-mel谱图进行离散余弦转换，得到梅尔倒谱系数转换后的频谱图，梅尔倒谱系数频谱图。

本实施例中，语音样本文件数目为84800个，关键词共20种，设置循环次数为40次，每一批量数目为64；在训练时添加提前结束的判定。

本实施例最终得到如下数据：第一个循环结束时val_test集的准确率为0.84113，val_test集损失函数为0.6069，每运行一步的时间为146ms，每一个循环的运行时间为184秒；第11个循环的val_test集准确率为0.9444，val_test集损失函数为0.0808，在第21个循环时由于一直没有超过11个循环的准确率，因此触发提前结束，结束循环。最终在测试集上的准确率为86.1％

实施例2

本实施例相较于实施例1的区别在于，步骤四和步骤五之间还设有如下步骤：

步骤A1、提取双向LSTM循环神经网络输出信号的输出向量；

步骤C1、通过Softmax函数计算LSTM各层间信息每一部分所占权重信息，然后与LSTM输出层机型信息融合，作为全连接层的输入。

本实施例最终得到如下数据：第一个循环结束时val_test集的准确率为0.88871，val_test集损失函数为0.3679，每运行一步的时间为146ms，每一个循环的运行时间为184秒；第10个循环的val_test集准确率为0.94950，val_testval_test集损失函数为0.1828，在第20个循环时由于一直没有超过10个循环的准确率，因此触发提前结束，结束循环。最终在测试集上的准确率为94.3％

实施例3

本实施例最终得到如下数据：第一个循环结束时val_test集的准确率为0.87933，val_test集损失函数为0.4332，每运行一步的时间为149ms，每一个循环的运行时间为198秒；第11个循环的val_test集准确率为0.95030，val_test集损失函数为0.2291，在第21个循环时由于一直没有超过11个循环的准确率，因此触发提前结束，结束循环。最终在测试集上的准确率为95.04％

对照组

本对照组与实施例1的区别在于双向LSTM循环神经网络替换为现有的的卷积神经网络，其训练用的语音样本文件和实施例1相同。

本对照组最终得到如下数据：第一个循环结束时val_test集的准确率为0.718，val_test集损失函数为0.9245，每运行一步的时间为117ms，每一个循环的运行时间为155秒；第21个循环的val_test集准确率为0.88770，val_test集损失函数为0.5314，在第31个循环时由于一直没有超过21个循环的准确率，因此触发提前结束，结束循环。

通过将实施例1与对照对比发现，可以看出，使用双向LSTM循环神经网络在测试集上的表现相比较卷积神经网路有了很大的提升，通过将实施2与实施例1对比发现引入注意力机制后模型的识别率得到了进一步提高，但是对个别词汇的识别率上都偏低，通过将实施例3与实施例2对比发现，虽然在测试集的整体识别率与实施例2有了一定的提升，通过在不同样本集及测试集下的验证，可以发现实施例3的整体识别率比较实施例2都有一定的提升。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.语音关键词自动识别方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的语音关键词自动识别方法，其特征在于，所述步骤二具体包括如下步骤：

步骤2.5、将梅尔谱MelSpec(m)取log对数，得到log-Mel谱；

3.根据权利要求1所述的语音关键词自动识别方法，其特征在于，所述步骤四和步骤五之间还设有如下步骤：

步骤A1、提取双向LSTM循环神经网络输出信号的输出向量；

步骤C1、求出双向LSTM循环神经网络输出信号的加权平均值，并用该加权平均值替换双向LSTM循环神经网络的输出信号。

4.根据权利要求1所述的语音关键词自动识别方法，其特征在于，所述步骤四和步骤五之间还包括如下步骤：

步骤A2、将步骤二中得到的梅尔倒谱系数频谱图与步骤四中的第二个卷积层的输出进行点乘后输入到双向LSTM循环神经网络中进行第一次记忆；