CN111179917A

CN111179917A - 语音识别模型训练方法、系统、移动终端及存储介质

Info

Publication number: CN111179917A
Application number: CN202010050873.9A
Authority: CN
Inventors: 徐敏; 肖龙源; 李稀敏; 蔡振华; 刘晓葳; 谭玉坤
Original assignee: Xiamen Kuaishangtong Technology Co Ltd
Current assignee: Xiamen Kuaishangtong Technology Co Ltd
Priority date: 2020-01-17
Filing date: 2020-01-17
Publication date: 2020-05-19
Anticipated expiration: 2040-01-17
Also published as: CN111179917B

Abstract

本发明提供了一种语音识别模型训练方法、系统、移动终端及存储介质，该方法包括：获取文本语料及转写文本进行语言模型训练；根据训练集中的声学特征训练单音素声学模型，对声学特征进行差分处理，得到差分特征，根据差分特征对训练集进行三音素模型训练；根据三音素声学模型对音素进行对齐，对声学特征进行向量变换，得到特征向量；根据特征向量训练三音素声学模型，根据三音素声学模型训练链模型；控制链模型、语言模型和发音词典对测试集进行解码，当测试解码结果满足合格条件时，判定语音识别模型训练合格。本发明通过训练链模型的设计，提高了语音识别模型整体的识别效果，防止了由于采用生成式的声学模型所导致的识别效果低的现象。

Description

语音识别模型训练方法、系统、移动终端及存储介质

技术领域

本发明属于语音识别技术领域，尤其涉及一种语音识别模型训练方法、系统、移动终端及存储介质。

背景技术

语音识别研究已有几十年的历史，语音识别技术主要包括声学模型建模、语言模型建模、发音词典构建以及解码四个部分，每一部分都可以成为一个单独的研究方向，并且相对于图像和文本，语音数据的采集和标注难度也大大提升，因此搭建一个完整的语音识别模型训练系统是个耗时极长、难度极高的工作，这极大阻碍了语音识别技术的发展。随着人工智能技术尤其是深度学习的研究和发展，一些基于端到端的语音识别算法被提出来，相较于传统语音识别模型训练方法，端到端语音识别模型训练方法简化了语音识别的流程，将大量工作交给了深度神经网络去学习和推理，因此在近些年得到了广泛关注。

语音识别包括传统的基于声学模型、语言模型和发音词典的三段式结构以及端到端的结构，现有的语音识别模型中，声学模型采用的是生成式的GMM-HMM 结构，语言模型采用N元文法，通过维特比算法或者带权有限状态转换器(WFST) 进行解码，得到识别结果，但由于GMM-HMM结构是一种生成式模型，进而导致语音识别模型整体的识别效果有限。

发明内容

本发明实施例的目的在于提供一种语音识别模型训练方法、系统、移动终端及存储介质，旨在解决现有的语音识别模型训练过程中，由于采用生成式的GMM-HMM结构所导致的整体模型识别效果有限的问题。

本发明实施例是这样实现的，一种语音识别模型训练方法，所述方法包括：

获取文本语料及训练集中所述文本语料对应的转写文本，并分别对所述文本语料和所述转写文本进行语言模型训练；

根据所述训练集中的声学特征训练单音素声学模型，对所述声学特征进行差分处理，以得到差分特征，并根据所述差分特征对所述训练集进行三音素模型训练，得到三音素声学模型；

根据三音素声学模型对音素进行对齐，并对所述声学特征进行向量变换，得到特征向量；

根据所述特征向量训练所述三音素声学模型，并根据所述三音素声学模型训练链模型；

控制所述链模型、所述语言模型和发音词典对测试集进行解码，当测试解码结果满足合格条件时，判定语音识别模型训练合格。

更进一步的，所述分别对所述文本语料和所述转写文本进行语言模型训练的步骤之前，所述方法还包括：

获取数据集，并对所述数据集进行划分，以得到所述训练集、所述测试集和验证集；

对所述文本语料进行语音过滤，并对所述转写文本进行文本优化。

更进一步的，所述根据所述训练集中的声学特征训练单音素声学模型的步骤之后，所述方法还包括：

控制所述单音素声学模型、所述语言模型和所述发音词典对所述验证集进行解码，以得到验证解码结果；

根据所述验证解码结果查询模型调整参数，并根据所述模型调整参数对所述单音素声学模型和所述语言模型进行参数更新。

更进一步的，所述方法还包括：

获取待识别语音，并根据所述链模型、所述语言模型和所述发音词典对所述待识别语音进行解码，以得到识别词格，所述识别词格中存储有多个候选序列；

根据所述语言模型对所述识别词格进行重打分，以得到识别得分，并将所述识别得分中最大值对应的所述候选序列进行输出，以得到语音识别结果。

更进一步的，所述根据所述训练集中的声学特征训练单音素声学模型的步骤包括：

获取所述声学特征的使用频率，并根据所述使用频率对所述声学特征进行排序；

获取本地预存储的特征数量值，并根据所述特征数量值对排序后的所述声学特征进行获取；

根据获取到的所述声学特征进行所述单音素声学模型的训练。

更进一步的，所述根据所述模型调整参数对所述单音素声学模型和所述语言模型进行参数更新的步骤之后，所述方法还包括：

根据所述单音素声学模型对音素进行对齐。

本发明实施例的另一目的在于提供一种语音识别模型训练系统，所述系统包括：

语言模型训练模块，用于获取文本语料及训练集中所述文本语料对应的转写文本，并分别对所述文本语料和所述转写文本进行语言模型训练；

声学模型训练模块，用于根据所述训练集中的声学特征训练单音素声学模型，对所述声学特征进行差分处理，以得到差分特征，并根据所述差分特征对所述训练集进行三音素模型训练，得到三音素声学模型；

向量变换模块，用于根据三音素声学模型对音素进行对齐，并对所述声学特征进行向量变换，得到特征向量；

链模型训练模块，用于根据所述特征向量训练所述三音素声学模型，并根据所述三音素声学模型训练链模型；

模型测试模块，用于控制所述链模型、所述语言模型和发音词典对测试集进行解码，当测试解码结果满足合格条件时，判定语音识别模型训练合格。

更进一步的，所述语音识别模型训练系统还包括：

数据集划分模块，用于获取数据集，并对所述数据集进行划分，以得到所述训练集、所述测试集和验证集；

本发明实施例的另一目的在于提供一种移动终端，包括存储设备以及处理器，所述存储设备用于存储计算机程序，所述处理器运行所述计算机程序以使所述移动终端执行上述的语音识别模型训练方法。

本发明实施例的另一目的在于提供一种存储介质，其存储有上述的移动终端中所使用的计算机程序，该计算机程序被处理器执行时实现上述的语音识别模型训练方法的步骤。

本发明实施例，通过根据所述三音素声学模型训练链模型的设计，有效的提高了语音识别模型整体的识别效果，防止了由于采用生成式的声学模型所导致的识别效果低的现象，且通过利用音素对齐的结果进行链模型训练的设计，降低了链模型的训练难度，提高了链模型的训练效率，进而提高了语音识别模型整体的训练效率。

附图说明

图1是本发明第一实施例提供的语音识别模型训练方法的流程图；

图2是本发明第二实施例提供的语音识别模型训练方法的流程图；

图3是本发明第三实施例提供的语音识别模型训练系统的结构示意图；

图4是本发明第四实施例提供的移动终端的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

为了说明本发明所述的技术方案，下面通过具体实施例来进行说明。

实施例一

请参阅图1，是本发明第一实施例提供的语音识别模型训练方法的流程图，包括步骤：

步骤S10，获取文本语料及训练集中所述文本语料对应的转写文本，并分别对所述文本语料和所述转写文本进行语言模型训练；

其中，该文本语料为语音识别模型待识别的语种，例如粤语或闽南语等语种，该转写文本中采用普通话的表达方式，且该文本语料与转写文本之间采用一一对应的关系；

步骤S20，根据所述训练集中的声学特征训练单音素声学模型，并对所述声学特征进行差分处理，以得到差分特征；

其中，该声学特征可以采用80维的fbank特征，帧长为25ms，帧移为10ms，具体的，该步骤中，通过对所述声学特征进行一阶差分和二阶差分，以对应得到该差分特征；

优选的，该步骤中，在进行该单音素声学模型训练之前，该步骤还包括：

对所述声学特征进行筛选，并根据筛选结果获取所述声学特征中的3000 条特征进行所述单音素声学模型的训练；

步骤S30，根据所述差分特征对所述训练集进行三音素模型训练，得到三音素声学模型；

其中，当完成该三音素声学模型的训练时，控制该三音素声学模型、语言模型以及发音词典对验证集和测试集进行解码，以判断该三音素声学模型和语言模型是否达到训练要求；

优选的，当判断到该三音素声学模型和语言模型的测试结果未达到训练要求时，对该三音素声学模型和语言模型进行参数调整；

步骤S40，根据三音素声学模型对音素进行对齐，并对所述声学特征进行向量变换，得到特征向量；

其中，通过控制所述三音素声学模型对音素进行声韵母对齐的设计，有效的方便了后续链模型(chain模型)的训练；

步骤S50，根据所述特征向量训练所述三音素声学模型，并根据所述三音素声学模型训练链模型；

其中，通过根据所述三音素声学模型训练链模型的设计，有效的提高了语音识别模型整体的识别效果，防止了由于采用生成式的声学模型所导致的识别效果低的现象；

步骤S60，控制所述链模型、所述语言模型和发音词典对测试集进行解码，当测试解码结果满足合格条件时，判定语音识别模型训练合格；

本实施例，通过根据所述三音素声学模型训练链模型的设计，有效的提高了语音识别模型整体的识别效果，防止了由于采用生成式的声学模型所导致的识别效果低的现象，且通过利用音素对齐的结果进行链模型训练的设计，降低了链模型的训练难度，提高了链模型的训练效率，进而提高了语音识别模型整体的训练效率。

实施例二

请参阅图2，是本发明第二实施例提供的语音识别模型训练方法的流程图，包括步骤：

步骤S11，获取数据集，对所述数据集进行划分，以得到所述训练集、所述测试集和验证集，对所述文本语料进行语音过滤，并对所述转写文本进行文本优化；

其中，随机选取该数据集中20％的数据作为测试集和验证集，80％的数据作为训练集；

具体的，该步骤中，所述对所述文本语料进行语音过滤，并对所述转写文本进行文本优化的步骤包括：

删除所述转写文本和所述文本语料中的特殊字符，以保留文字、数字、逗号、句号和问号，并将所述转写文本和所述文本语料中的感叹号转换为句号；

将所述转写文本和所述文本语料中的全角转化为半角，并将英文形式的标点符号转换为对应的中文形式；

进一步的，该步骤中，还可以通过识别该文本语料中的静音语音和背景语音，以进行静音语音和背景语音的删除，有效的对该文本语料起到了语音过滤的效果，提高了后续语言模型训练的准确性；

步骤S21，获取文本语料及训练集中所述文本语料对应的转写文本，并分别对所述文本语料和所述转写文本进行语言模型训练；

其中，获取到该文本语料之后，可以对该文本语料进行加噪和加混响处理，以使能有效的扩充数据，且提高了语言模型的鲁棒性，使得模型能适应更多复杂的环境；

步骤S31，根据所述训练集中的声学特征训练单音素声学模型，控制所述单音素声学模型、所述语言模型和所述发音词典对所述验证集进行解码，以得到验证解码结果；

具体的，该步骤中，所述根据所述训练集中的声学特征训练单音素声学模型的步骤包括：

根据获取到的所述声学特征进行所述单音素声学模型的训练；

步骤S41，根据所述验证解码结果查询模型调整参数，并根据所述模型调整参数对所述单音素声学模型和所述语言模型进行参数更新；

其中，通过根据所述模型调整参数对所述单音素声学模型和所述语言模型进行参数更新的设计，有效的提高了所述音素声学模型和所述语言模型识别的准确性，进而保障了语音识别模型整体的识别效率；

步骤S51，根据所述单音素声学模型对音素进行对齐，对所述声学特征进行差分处理，以得到差分特征，并根据所述差分特征对所述训练集进行三音素模型训练，得到三音素声学模型；

步骤S61，根据三音素声学模型对音素进行对齐，并对所述声学特征进行向量变换，得到特征向量；

其中，通过控制所述三音素声学模型对音素进行声韵母对齐的设计，有效的方便了后续链模型的训练；

步骤S71，根据所述特征向量训练所述三音素声学模型，并根据所述三音素声学模型训练链模型；

步骤S81，控制所述链模型、所述语言模型和发音词典对测试集进行解码，当测试解码结果满足合格条件时，判定语音识别模型训练合格；

其中，该合格条件中的判断条件可以根据需求进行设置，例如该判断条件可以为判断该测试解码结果中的测试准确率是否大于准确率阈值，当判断到该测试准确率大于该准确率阈值时，则判定针对该语音识别模型的训练合格；

步骤S91，获取待识别语音，并根据所述链模型、所述语言模型和所述发音词典对所述待识别语音进行解码，以得到识别词格；

其中，所述识别词格中存储有多个候选序列；

步骤S101，根据所述语言模型对所述识别词格进行重打分，以得到识别得分，并将所述识别得分中最大值对应的所述候选序列进行输出，以得到语音识别结果；

其中，通过用该语言模型进行重打分的设计，有效的提升了模型的识别效果；

本实施例中，通过根据所述三音素声学模型训练链模型的设计，有效的提高了语音识别模型整体的识别效果，防止了由于采用生成式的声学模型所导致的识别效果低的现象，且通过利用音素对齐的结果进行链模型训练的设计，降低了链模型的训练难度，提高了链模型的训练效率，进而提高了语音识别模型整体的训练效率。

实施例三

请参阅图4，是本发明第三实施例提供的语音识别模型训练系统100的结构示意图，包括：语言模型训练模块10、声学模型训练模块11、向量变换模块 12、链模型训练模块13和模型测试模块14，其中：

语言模型训练模块10，用于获取文本语料及训练集中所述文本语料对应的转写文本，并分别对所述文本语料和所述转写文本进行语言模型训练。

声学模型训练模块11，用于根据所述训练集中的声学特征训练单音素声学模型，对所述声学特征进行差分处理，以得到差分特征，并根据所述差分特征对所述训练集进行三音素模型训练，得到三音素声学模型。

其中，所述声学模型训练模块11还用于：控制所述单音素声学模型、所述语言模型和所述发音词典对所述验证集进行解码，以得到验证解码结果；根据所述验证解码结果查询模型调整参数，并根据所述模型调整参数对所述单音素声学模型和所述语言模型进行参数更新。

优选的，所述声学模型训练模块11还用于：获取所述声学特征的使用频率，并根据所述使用频率对所述声学特征进行排序；获取本地预存储的特征数量值，并根据所述特征数量值对排序后的所述声学特征进行获取；根据获取到的所述声学特征进行所述单音素声学模型的训练。

更进一步的，所述声学模型训练模块11还用于：根据所述单音素声学模型对音素进行对齐。

向量变换模块12，用于根据三音素声学模型对音素进行对齐，并对所述声学特征进行向量变换，得到特征向量。

链模型训练模块13，用于根据所述特征向量训练所述三音素声学模型，并根据所述三音素声学模型训练链模型。

模型测试模块14，用于控制所述链模型、所述语言模型和发音词典对测试集进行解码，当测试解码结果满足合格条件时，判定语音识别模型训练合格。

此外，本实施例中，所述语音识别模型训练系统100还包括：

数据集划分模块15，用于获取数据集，并对所述数据集进行划分，以得到所述训练集、所述测试集和验证集；对所述文本语料进行语音过滤，并对所述转写文本进行文本优化。

语音识别模块16，用于获取待识别语音，并根据所述链模型、所述语言模型和所述发音词典对所述待识别语音进行解码，以得到识别词格，所述识别词格中存储有多个候选序列；根据所述语言模型对所述识别词格进行重打分，以得到识别得分，并将所述识别得分中最大值对应的所述候选序列进行输出，以得到语音识别结果。

实施例四

请参阅图4，是本发明第四实施例提供的移动终端101，包括存储设备以及处理器，所述存储设备用于存储计算机程序，所述处理器运行所述计算机程序以使所述移动终端101执行上述的语音识别模型训练方法。

本实施例还提供了一种存储介质，其上存储有上述移动终端101中所使用的计算机程序，该程序在执行时，包括如下步骤：

控制所述链模型、所述语言模型和发音词典对测试集进行解码，当测试解码结果满足合格条件时，判定语音识别模型训练合格。所述的存储介质，如： ROM/RAM、磁碟、光盘等。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元或模块完成，即将存储装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施方式中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。

本领域技术人员可以理解，图3中示出的组成结构并不构成对本发明的语音识别模型训练系统的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置，而图1-2中的语音识别模型训练方法亦采用图 3中所示的更多或更少的部件，或者组合某些部件，或者不同的部件布置来实现。本发明所称的单元、模块等是指一种能够被所述目标语音识别模型训练系统中的处理器(图未示)所执行并功能够完成特定功能的一系列计算机程序，其均可存储于所述目标语音识别模型训练系统的存储设备(图未示)内。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种语音识别模型训练方法，其特征在于，所述方法包括：

2.如权利要求1所述的语音识别模型训练方法，其特征在于，所述分别对所述文本语料和所述转写文本进行语言模型训练的步骤之前，所述方法还包括：

3.如权利要求2所述的语音识别模型训练方法，其特征在于，所述根据所述训练集中的声学特征训练单音素声学模型的步骤之后，所述方法还包括：

4.如权利要求1所述的语音识别模型训练方法，其特征在于，所述方法还包括：

5.如权利要求1所述的语音识别模型训练方法，其特征在于，所述根据所述训练集中的声学特征训练单音素声学模型的步骤包括：

6.如权利要求4所述的语音识别模型训练方法，其特征在于，所述根据所述模型调整参数对所述单音素声学模型和所述语言模型进行参数更新的步骤之后，所述方法还包括：

根据所述单音素声学模型对音素进行对齐。

7.一种语音识别模型训练系统，其特征在于，所述系统包括：

8.如权利要求7所述的语音识别模型训练系统，其特征在于，所述语音识别模型训练系统还包括：

9.一种移动终端，其特征在于，包括存储设备以及处理器，所述存储设备用于存储计算机程序，所述处理器运行所述计算机程序以使所述移动终端执行根据权利要求1至6任一项所述的语音识别模型训练方法。

10.一种存储介质，其特征在于，其存储有权利要求9所述的移动终端中所使用的计算机程序，该计算机程序被处理器执行时实现权利要求1至6任一项所述的语音识别模型训练方法的步骤。