CN110992959A

CN110992959A - 一种语音识别方法及系统

Info

Publication number: CN110992959A
Application number: CN201911240123.1A
Authority: CN
Inventors: 赵桂芬; 廖金花
Original assignee: Beijing Institute Of Science And Technology Information
Current assignee: Beijing Institute Of Science And Technology Information
Priority date: 2019-12-06
Filing date: 2019-12-06
Publication date: 2020-04-10

Abstract

本发明提出了一种语音识别方法及系统。本发明首先建立包括级联连接的音频转拼音神经网络和拼音转文字神经网络的语音识别网络模型，然后，基于训练样本集分别训练音频转拼音神经网络和拼音转文字神经网络，并利用测试样本集对级联后的语音识别网络模型进行测试，最后，获得训练后的语音识别网络模型，对待识别音频进行识别。本发明基于神经网络实现非特定人的语音识别，同时本发明的训练后的语音识别网络模型不依赖于数据库，可以部署在用户本地。本发明实现了满足本地部署和应用需求的非特定人的语音识别。

Description

一种语音识别方法及系统

技术领域

本发明涉及语音识别技术领域，特别是涉及一种语音识别方法及系统。

背景技术

在语音识别的研究发展过程中，相关研究人员根据不同语言的发音特点，设计和制作了语音数据库，这些语音数据库可以为连续语音识别算法研究、系统设计、及产业化工作提供充分、科学的训练语音样本。

以知识为基础的语音识别的研究日益受到重视。在进行连续语音识别的时候，除了识别声学信息外，更多地利用各种语言知识，诸如构词、句法、语义、对话背景方面等的知识来帮助进一步对语音作出识别和理解。同时在语音识别研究领域，还产生了基于统计概率的语言模型。

前期隐马尔可夫模型(HMM)技术成为语音识别的主流方法。随着人工神经网络在语音识别中的应用研究的兴起，人工神经网络具有区分复杂的分类边界的能力，有助于模式划分。有着广泛的应用前景，成了当前语音识别应用的一个热点。大多采用基于反向传播算法(BP算法)的多层感知网络。

基于反向传播算法(BP算法)的多层感知网络一些公司开发了语音识别引擎，其中部分引擎可以面向普通用户免费试用，但是在使用过程中需要在线调用语音识别引擎，用户数据提交到引擎提供方。对于需要本地部署、本地运行的应用需求，此类型语音识别引擎不能完全满足用户需求。如何满足本地部署和应用需求的非特定人的语音识别成为一个亟待解决的技术问题。

发明内容

本发明的目的是提供一种语音识别方法及系统，以满足本地部署和应用需求的非特定人的语音识别。

为实现上述目的，本发明提供了如下方案：

一种语音识别方法，所述识别方法包括如下步骤：

获取包括音频文件，及所述音频文件对应的拼音批注文本和文字批注文本的样本，组成样本集，并将所述样本集划分为训练样本集和测试样本集；

建立语音识别网络模型，所述语音识别网络模型包括级联连接的音频转拼音神经网络和拼音转文字神经网络；

利用所述训练样本集对所述音频转拼音神经网络进行训练，获得训练后的音频转拼音神经网络；

利用所述训练样本集对所述拼音转文字神经网络进行训练，获得训练后的拼音转文字神经网络；

利用所述测试样本集对训练后的语音识别网络模型进行测试，判断所述训练后的语音识别网络模型是否满足识别要求，得到第一判断结果，所述训练后的语音识别网络模型包括级联连接的所述训练后的音频转拼音神经网络和所述训练后的拼音转文字神经网络；

若所述第一判断结果表示所述训练后的语音识别网络模型不满足识别要求，则返回步骤“利用所述训练样本集对所述音频转拼音神经网络进行训练，获得训练后的音频转拼音神经网络”；

若所述第一判断结果表示所述训练后的语音识别网络模型满足识别要求，则输出训练后的语音识别网络模型；

将待测音频文件输入所述训练后的语音识别网络模型进行识别，获得音频文件的拼音识别结果和文字识别结果。

可选的，所述音频转拼音神经网络从输入至输出依次包括：第一隐藏层、第二隐藏层、第三隐藏层、双向循环神经网络层、第四隐藏层和全连接层。

可选的，所述利用所述训练样本集对所述音频转拼音神经网络进行训练，获得训练后的音频转拼音神经网络，具体包括：

提取所述音频文件的MFCC倒谱特征；

对所述MFCC倒谱特征进行数据对齐和拼接，获得对齐后的MFCC倒谱特征；

将所述对齐后的MFCC倒谱特征输入所述音频转拼音神经网络，获得拼音识别结果；

将所述拼音识别结果与所述音频文本对应的拼音批注文本进行对比，计算CTC损失函数值；

判断所述CTC损失函数值是否小于损失函数阈值，得到第二判断结果；

若第二判断结果为所述CTC损失函数值不小于所述损失函数阈值，则判断迭代次数是否小于迭代次数阈值，得到第三判断结果；

若所述第三判断结果表示所述迭代次数小于迭代次数阈值，则根据所述CTC损失函数值更新所述音频转拼音神经网络的连接权值和节点阈值，令迭代次数的数值增加1，返回步骤“将所述对齐后的MFCC倒谱特征输入所述音频转拼音神经网络，获得拼音识别结果”；

若第二判断结果为所述损失函数值小于所述损失函数阈值或第三判断结果表示所述迭代次数不小于迭代次数阈值，则输出所述音频转拼音神经网络，作为训练后的音频转拼音神经网络。

可选的，所述利用所述测试样本集对训练后的语音识别网络模型进行测试，判断所述训练后的语音识别网络模型是否满足识别要求，得到第一判断结果，具体包括：

将所述测试样本集的样本的音频文件输入所述训练后的音频转拼音神经网络，获得输出拼音文本；

将所述输出拼音文本输入所述训练后的拼音转文字神经网络，获得输出文字文本；

将所述输出文字文本与所述音频文件对应的文字批注文本进行对比，计算识别的正确率；

判断所述正确率是否大于正确率阈值；

若所述正确率大于正确率阈值，则所述第一判断结果表示训练后的语音识别网络模型满足识别要求；

若所述正确率不大于正确率阈值，则所述第一判断结果表示训练后的语音识别网络模型不满足识别要求。

一种语音识别系统，所述识别系统包括：

样本集获取模块，用于获取包括音频文件，及所述音频文件对应的拼音批注文本和文字批注文本的样本，组成样本集，并将所述样本集划分为训练样本集和测试样本集；

语音识别网络模型建立模块，用于建立语音识别网络模型，所述语音识别网络模型包括级联连接的音频转拼音神经网络和拼音转文字神经网络；

音频转拼音神经网络训练模块，用于利用所述训练样本集对所述音频转拼音神经网络进行训练，获得训练后的音频转拼音神经网络；

拼音转文字神经网络训练模块，用于利用所述训练样本集对所述拼音转文字神经网络进行训练，获得训练后的拼音转文字神经网络；

语音识别网络模型测试模块，用于利用所述测试样本集对训练后的语音识别网络模型进行测试，判断所述训练后的语音识别网络模型是否满足识别要求，得到第一判断结果，所述训练后的语音识别网络模型包括级联连接的所述训练后的音频转拼音神经网络和所述训练后的拼音转文字神经网络；

返回模块，用于若所述第一判断结果表示所述训练后的语音识别网络模型不满足识别要求，则返回步骤“利用所述训练样本集对所述音频转拼音神经网络进行训练，获得训练后的音频转拼音神经网络”；

训练后的语音识别网络模型输出模块，用于若所述第一判断结果表示所述训练后的语音识别网络模型满足识别要求，则输出训练后的语音识别网络模型；

识别模块，用于将待测音频文件输入所述训练后的语音识别网络模型进行识别，获得音频文件的拼音识别结果和文字识别结果。

可选的，所述音频转拼音神经网络训练模块，具体包括：

特征提取子模块，用于提取所述音频文件的MFCC倒谱特征；

对齐子模块，用于对所述MFCC倒谱特征进行数据对齐和拼接，获得对齐后的MFCC倒谱特征；

训练识别子模块，用于将所述对齐后的MFCC倒谱特征输入所述音频转拼音神经网络，获得拼音识别结果；

CTC损失函数值计算子模块，用于将所述拼音识别结果与所述音频文本对应的拼音批注文本进行对比，计算CTC损失函数值；

第二判断子模块，用于判断所述CTC损失函数值是否小于损失函数阈值，得到第二判断结果；

第三判断子模块，用于若第二判断结果为所述CTC损失函数值不小于所述损失函数阈值，则判断迭代次数是否小于迭代次数阈值，得到第三判断结果；

网络参数更新子模块，用于若所述第三判断结果表示所述迭代次数小于迭代次数阈值，则根据所述CTC损失函数值更新所述音频转拼音神经网络的连接权值和节点阈值，令迭代次数的数值增加1，返回步骤“将所述对齐后的MFCC倒谱特征输入所述音频转拼音神经网络，获得拼音识别结果”；

训练后的音频转拼音神经网络输出子模块，用于若第二判断结果为所述损失函数值小于所述损失函数阈值或第三判断结果表示所述迭代次数不小于迭代次数阈值，则输出所述音频转拼音神经网络，作为训练后的音频转拼音神经网络。

可选的，所述语音识别网络模型测试模块，具体包括：

测试拼音文本输出子模块，用于将所述测试样本集的样本的音频文件输入所述训练后的音频转拼音神经网络，获得输出拼音文本；

测试文字文本输出子模块，用于将所述输出拼音文本输入所述训练后的拼音转文字神经网络，获得输出文字文本；

正确率计算子模块，用于将所述输出文字文本与所述音频文件对应的文字批注文本进行对比，计算识别的正确率；

测试结果获取子模块，用于判断所述正确率是否大于正确率阈值；若所述正确率大于正确率阈值，则所述第一判断结果表示训练后的语音识别网络模型满足识别要求；若所述正确率不大于正确率阈值，则所述第一判断结果表示训练后的语音识别网络模型不满足识别要求。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的一种语音识别方法的流程图；

图2为本发明提供的一种语音识别方法的原理示意图；

图3为本发明提供的一种语音识别系统的结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

为了实现上述目的本发明提供一种语音识别方法，如图1和2所示，所述识别方法包括如下步骤：

步骤101，获取包括音频文件，及所述音频文件对应的拼音批注文本和文字批注文本的样本，组成样本集，并将所述样本集划分为训练样本集和测试样本集。

在清华大学30小时中文语音数据集THCHS-30的基础上，构建相对应的wav音频文件样本、拼音标注文本样本、文字标注文本样本。其中70％作为训练样本，剩余作为测试样本。

对wav音频文件、拼音标注文本、文字标注文本进行数据读取，产生wav音频文件列表、拼音标注文本列表、文字标注文本列表。

步骤102，建立语音识别网络模型，所述语音识别网络模型包括级联连接的音频转拼音神经网络和拼音转文字神经网络。

所述音频转拼音神经网络从输入至输出依次包括：第一隐藏层、第二隐藏层、第三隐藏层、双向循环神经网络层、第四隐藏层和全连接层。所述拼音转文字神经网络的结构与音频转拼音神经网络结构相同，在此不再赘述。

步骤103，利用所述训练样本集对所述音频转拼音神经网络进行训练，获得训练后的音频转拼音神经网络；

以wav音频文件列表作为输入、拼音标注文本列表作为输出训练音频转拼音神经网络。

步骤103所述利用所述训练样本集对所述音频转拼音神经网络进行训练，获得训练后的音频转拼音神经网络，具体包括：提取所述音频文件的MFCC(mel-frequencycepstral coefficients)倒谱特征；对所述MFCC倒谱特征进行数据对齐和拼接，获得对齐后的MFCC倒谱特征；将所述对齐后的MFCC倒谱特征输入所述音频转拼音神经网络，获得拼音识别结果；将所述拼音识别结果与所述音频文本对应的拼音批注文本进行对比，计算CTC(Connectionist Temporal Classification)损失函数值；判断所述CTC损失函数值是否小于损失函数阈值，得到第二判断结果；若第二判断结果为所述CTC损失函数值不小于所述损失函数阈值，则判断迭代次数是否小于迭代次数阈值，得到第三判断结果；若所述第三判断结果表示所述迭代次数小于迭代次数阈值，则根据所述CTC损失函数值更新所述音频转拼音神经网络的连接权值和节点阈值，令迭代次数的数值增加1，返回步骤“将所述对齐后的MFCC倒谱特征输入所述音频转拼音神经网络，获得拼音识别结果”；若第二判断结果为所述损失函数值小于所述损失函数阈值或第三判断结果表示所述迭代次数不小于迭代次数阈值，则输出所述音频转拼音神经网络，作为训练后的音频转拼音神经网络。

首先，设置参数：样本集最大迭代次数(epochs＝120)、批次大小(batch_size＝8)；计算梅尔倒谱系数的个数n_input＝26；对于每个时间点，要包含上下文样本的个数n_context＝9；第一层输入为[-1,n_input+2*n_input*n_context]结构，隐藏层节点512。第二层隐藏层节点512。第三层隐藏层节点1024。第四层为双向循环神经网络，隐藏节点512。第五层隐藏层节点512。第六层为全连接层，用于softmax分类。Dropout的作用是为了减轻过拟合带来的问题而使用，用在每个连接层的输出。激活函数Relu去线性化。

然后，按照batch_size参数，对wav音频文件列表、拼音标注文本列表、文字标注文本列表进行批次切分。

然后，提取语音特征梅尔频率倒谱系数(MFCC)，对每个批次的wav音频文件进行语音特征提取，采用梅尔频率倒谱系数(MFCC)，在一定程度上模拟了人耳对语音的处理特点，相当于一个滤波器组，提高语音识别性能。梅尔倒谱系数是在Mel标度频率域提取出来的倒谱参数，Mel标度描述了人耳频率的非线性特性。每25ms语音片段使用26个MFCC倒谱特征。

然后，对wav音频文件语音特征进行数据对齐。将当前25ms语音片段和前后各9个语音片段的494个倒谱系数拼接。不存在的片段采用补0的方式将长度统一。

然后，将音频文件语音特征数据对齐结果作为神经网络的输入，将对应批次拼音标注文本列表作为神经网络的输出，进行神经网络训练，输出层输出语音对应拼音的识别结果。

最后，误差计算，模型评估。具体的，初始设置最大、最小损失值为0。对语音拼音文本识别结果和对应批次拼音标注文本进行对比，采用CTC(Connectionist TemporalClassification)损失函数。根据误差，调整连接权值，更新节点阈值。判断迭代是否满足条件结束(条件为若第二判断结果为所述损失函数值小于所述损失函数阈值或第三判断结果表示所述迭代次数不小于迭代次数阈值)，如果结束则存储当前神经网络模型；如果不结束则根据下一批次数据继续训练。

步骤104，利用所述训练样本集对所述拼音转文字神经网络进行训练，获得训练后的拼音转文字神经网络。

拼音转文字神经网络的结构及训练方式与音频转拼音神经网络的结构与训练方式类似，具体包括：

拼音转文字神经网络为6层拼音转文本神经网络。

首先，设置参数：样本集最大迭代次数epochs＝120、批次大小batch_size＝8。输入节点数n_input为待识别文字的个数。对于每个时间点，要包含上下文样本的个数n_context＝9。第一层输入为[-1,n_input+2*n_input*n_context]结构，隐藏层节点512。第二层隐藏层节点512。第三层隐藏层节点1024。第四层为双向循环神经网络，隐藏节点512。第五层隐藏层节点512。第六层为全连接层，用于softmax分类。Dropout的作用是为了减轻过拟合带来的问题而使用，用在每个连接层的输出。激活函数Relu去线性化。

然后，将分批次的拼音标注文本列表作为输入，对应文字标注文本列表作为输出，训练拼音转文本神经网络，输出层输出语音对应文字的识别结果。

然后，误差计算，模型评估。具体的，初始设置最大、最小损失值为0。对语音文字文本识别结果和对应批次文字标注文本进行对比，采用CTC(Connectionist TemporalClassification)损失函数。根据误差，调整连接权值，更新节点阈值。判断迭代是否满足条件结束，如果结束则存储当前神经网络模型；如果不结束则根据下一批次数据继续训练。

步骤105，利用所述测试样本集对训练后的语音识别网络模型进行测试，判断所述训练后的语音识别网络模型是否满足识别要求，得到第一判断结果，所述训练后的语音识别网络模型包括级联连接的所述训练后的音频转拼音神经网络和所述训练后的拼音转文字神经网络。

步骤105所述利用所述测试样本集对训练后的语音识别网络模型进行测试，判断所述训练后的语音识别网络模型是否满足识别要求，得到第一判断结果，具体包括：将所述测试样本集的样本的音频文件输入所述训练后的音频转拼音神经网络，获得输出拼音文本；将所述输出拼音文本输入所述训练后的拼音转文字神经网络，获得输出文字文本；将所述输出文字文本与所述音频文件对应的文字批注文本进行对比，计算识别的正确率；判断所述正确率是否大于正确率阈值；若所述正确率大于正确率阈值，则所述第一判断结果表示训练后的语音识别网络模型满足识别要求；若所述正确率不大于正确率阈值，则所述第一判断结果表示训练后的语音识别网络模型不满足识别要求。

步骤106(图1中未视出)，若所述第一判断结果表示所述训练后的语音识别网络模型不满足识别要求，则返回步骤“利用所述训练样本集对所述音频转拼音神经网络进行训练，获得训练后的音频转拼音神经网络”。

步骤107，若所述第一判断结果表示所述训练后的语音识别网络模型满足识别要求，则输出训练后的语音识别网络模型。

步骤108，将待测音频文件输入所述训练后的语音识别网络模型进行识别，获得音频文件的拼音识别结果和文字识别结果。

如图3所示，本发明还提供一种语音识别系统，所述识别系统包括：

样本集获取模块301，用于获取包括音频文件，及所述音频文件对应的拼音批注文本和文字批注文本的样本，组成样本集，并将所述样本集划分为训练样本集和测试样本集。

语音识别网络模型建立模块302，用于建立语音识别网络模型，所述语音识别网络模型包括级联连接的音频转拼音神经网络和拼音转文字神经网络。

所述音频转拼音神经网络从输入至输出依次包括：第一隐藏层、第二隐藏层、第三隐藏层、双向循环神经网络层、第四隐藏层和全连接层。

音频转拼音神经网络训练模块303，用于利用所述训练样本集对所述音频转拼音神经网络进行训练，获得训练后的音频转拼音神经网络。

所述音频转拼音神经网络训练模块303，具体包括：特征提取子模块，用于提取所述音频文件的MFCC倒谱特征；对齐子模块，用于对所述MFCC倒谱特征进行数据对齐和拼接，获得对齐后的MFCC倒谱特征；训练识别子模块，用于将所述对齐后的MFCC倒谱特征输入所述音频转拼音神经网络，获得拼音识别结果；CTC损失函数值计算子模块，用于将所述拼音识别结果与所述音频文本对应的拼音批注文本进行对比，计算CTC损失函数值；第二判断子模块，用于判断所述CTC损失函数值是否小于损失函数阈值，得到第二判断结果；第三判断子模块，用于若第二判断结果为所述CTC损失函数值不小于所述损失函数阈值，则判断迭代次数是否小于迭代次数阈值，得到第三判断结果；网络参数更新子模块，用于若所述第三判断结果表示所述迭代次数小于迭代次数阈值，则根据所述CTC损失函数值更新所述音频转拼音神经网络的连接权值和节点阈值，令迭代次数的数值增加1，返回步骤“将所述对齐后的MFCC倒谱特征输入所述音频转拼音神经网络，获得拼音识别结果”；训练后的音频转拼音神经网络输出子模块，用于若第二判断结果为所述损失函数值小于所述损失函数阈值或第三判断结果表示所述迭代次数不小于迭代次数阈值，则输出所述音频转拼音神经网络，作为训练后的音频转拼音神经网络。

拼音转文字神经网络训练模块304，用于利用所述训练样本集对所述拼音转文字神经网络进行训练，获得训练后的拼音转文字神经网络；

语音识别网络模型测试模块305，用于利用所述测试样本集对训练后的语音识别网络模型进行测试，判断所述训练后的语音识别网络模型是否满足识别要求，得到第一判断结果，所述训练后的语音识别网络模型包括级联连接的所述训练后的音频转拼音神经网络和所述训练后的拼音转文字神经网络。

所述语音识别网络模型测试模块305，具体包括：测试拼音文本输出子模块，用于将所述测试样本集的样本的音频文件输入所述训练后的音频转拼音神经网络，获得输出拼音文本；测试文字文本输出子模块，用于将所述输出拼音文本输入所述训练后的拼音转文字神经网络，获得输出文字文本；正确率计算子模块，用于将所述输出文字文本与所述音频文件对应的文字批注文本进行对比，计算识别的正确率；测试结果获取子模块，用于判断所述正确率是否大于正确率阈值；若所述正确率大于正确率阈值，则所述第一判断结果表示训练后的语音识别网络模型满足识别要求；若所述正确率不大于正确率阈值，则所述第一判断结果表示训练后的语音识别网络模型不满足识别要求。

返回模块306，用于若所述第一判断结果表示所述训练后的语音识别网络模型不满足识别要求，则返回步骤“利用所述训练样本集对所述音频转拼音神经网络进行训练，获得训练后的音频转拼音神经网络”；

训练后的语音识别网络模型输出模块307，用于若所述第一判断结果表示所述训练后的语音识别网络模型满足识别要求，则输出训练后的语音识别网络模型；

识别模块308，用于将待测音频文件输入所述训练后的语音识别网络模型进行识别，获得音频文件的拼音识别结果和文字识别结果。

本发明的基于双向循环的神经网络级联的语音识别网络模型具有高度的并行性、高度的非线性全局作用、良好的容错性及联想记忆功能、强大的自组织、自学习、自适应能力。本发明的语音识别网络模型可以部署在用户本地，调用模型即可实现本地应用对非特定人语音识别。

本说明书中等效实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，等效实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例，基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

Claims

1.一种语音识别方法，其特征在于，所述识别方法包括如下步骤：

2.根据权利要求1所述的语音识别方法，其特征在于，所述音频转拼音神经网络从输入至输出依次包括：第一隐藏层、第二隐藏层、第三隐藏层、双向循环神经网络层、第四隐藏层和全连接层。

3.根据权利要求1所述的语音识别方法，其特征在于，所述利用所述训练样本集对所述音频转拼音神经网络进行训练，获得训练后的音频转拼音神经网络，具体包括：

提取所述音频文件的MFCC倒谱特征；

4.根据权利要求1所述的语音识别方法，其特征在于，所述利用所述测试样本集对训练后的语音识别网络模型进行测试，判断所述训练后的语音识别网络模型是否满足识别要求，得到第一判断结果，具体包括：

判断所述正确率是否大于正确率阈值；

5.一种语音识别系统，其特征在于，所述识别系统包括：

6.根据权利要求6所述的语音识别系统，其特征在于，所述音频转拼音神经网络从输入至输出依次包括：第一隐藏层、第二隐藏层、第三隐藏层、双向循环神经网络层、第四隐藏层和全连接层。

7.根据权利要求6所述的语音识别系统，其特征在于，所述音频转拼音神经网络训练模块，具体包括：

特征提取子模块，用于提取所述音频文件的MFCC倒谱特征；

8.根据权利要求1所述的语音识别系统，其特征在于，所述语音识别网络模型测试模块，具体包括：