CN111883110B

CN111883110B - 语音识别的声学模型训练方法、系统、设备及介质

Info

Publication number: CN111883110B
Application number: CN202010749271.2A
Authority: CN
Inventors: 李明; 江文斌; 李健
Original assignee: Shanghai Zhilv Information Technology Co ltd
Current assignee: Shanghai Zhilv Information Technology Co ltd
Priority date: 2020-07-30
Filing date: 2020-07-30
Publication date: 2024-02-06
Anticipated expiration: 2040-07-30
Also published as: CN111883110A

Abstract

本发明公开了一种语音识别的声学模型训练方法、系统、设备及介质，获取训练样本，将第一语音片段分别输入多个预设的不同的基准语音识别模型中进行识别，以获取多个识别文本，计算每两个识别文本间的相似度值，以确定第一语音片段对应的文本得分，判断文本得分是否大于预设阈值，若是，则将文本得分对应的第一语音片段筛选出来，以作为第三语音片段，基于第三语音片段和第二语音片段训练生成语音识别模型。本发明解决了人工标注训练数据集费时费力，无法在短时间形成大量训练数据集，造成语音识别的字错率高的缺陷，提高了语音识别模型识别的准确性。

Description

语音识别的声学模型训练方法、系统、设备及介质

技术领域

本发明涉及语音识别技术领域，尤其涉及一种语音识别的声学模型训练方法、系统、设备及介质。

背景技术

语言是人类思想重要的载体，语音识别技术是利用机器接收、识别和理解语音信号，并将其转换成相应数字信号的技术。伴随着语音识别技术的不断发展，基于语音识别的应用也越来越广泛，这样的技术已经渗透入家庭生活、办公领域、娱乐等方面。语音识别技术使得语音输入、语音搜索、智能语音客服等产品进入消费电子领域。

客服录音电话场景下的语音识别是十分复杂的，由于客服所属地域方言以及个人发音口语化的习惯不同，需要大量的语料以及足够的场景，去训练语音识别声学模型。由于大量的语音标注过程既昂贵又费时，无法在短期内获取到充足的、人工标注完成后的训练数据集合，最终造成语音识别的字错率高。

发明内容

本发明要解决的技术问题是为了克服现有技术中由于人工标注费时费力，无法在短时间形成大量训练数据集，造成语音识别的字错率高的缺陷，提供一种语音识别的声学模型训练方法、系统、设备及介质。

本发明是通过下述技术方案来解决上述技术问题：

第一方面，本发明提供一种语音识别的声学模型训练方法，包括以下步骤：

获取训练样本；其中，所述训练样本包括无标签的多个第一语音片段和有标签的多个第二语音片段；

将所述第一语音片段分别输入多个预设的不同的基准语音识别模型中进行识别，以获取多个识别文本；

计算每两个所述识别文本间的相似度值，以确定所述第一语音片段对应的文本得分；

判断所述文本得分是否大于所述预设阈值，若是，则将所述文本得分对应的所述第一语音片段筛选出来，以作为第三语音片段；其中，所述第三语音片段具有利用所述基准语音识别模型识别后生成的伪标签；

基于所述第三语音片段和所述第二语音片段训练生成语音识别模型。

较佳地，所述判断所述文本得分是否大于所述预设阈值之后，还包括：

若否，则将所述文本得分对应的所述第一语音片段进行过滤。

较佳地，所述将所述文本得分对应的所述第一语音片段筛选出来，以作为第三语音片段的步骤之后还包括：

获取字错率最低的所述基准语音识别模型对所述第三语音片段识别后生成的待纠正识别文本；

对所述待纠正识别文本进行纠正后，以获取所述第三语音片段对应的伪标签。

较佳地，所述计算每两个所述识别文本间的相似度值，以确定所述第一语音片段对应的文本得分的步骤包括：

利用编辑距离法计算所述识别文本间的相似度；其中，所述编辑距离法包括将一个字符替换成另一个字符、插入一个字符以及删除一个字符中至少一种；

基于所述相似度计算所述第一语音片段对应的文本得分。

较佳地，所述基于所述第三语音片段和所述第二语音片段训练生成语音识别模型，包括：

选择字错率最低的所述基准语音识别模型作为待训练模型；

以所述第三语音片段及其标注的伪标签更新所述待训练模型的训练数据；

基于包括伪标签的所述第三语音片段和所述第二语音片段对所述待训练模型进行重训练，以生成语音识别模型。

较佳地，所述获取训练样本的步骤之后还包括：

利用所述第二语音片段训练多个基准模型，以生成多个具有语音识别能力的所述基准语音识别模型；其中，每个所述基准模型的网络结构不同，每个所述基准语音识别模型对应的字错率不同。

第二方面，本发明提供一种语音识别的声学模型训练系统，所述声学模型训练系统包括：

第一获取模块，用于获取训练样本；其中，所述训练样本包括无标签的多个第一语音片段和有标签的多个第二语音片段；

识别模块，用于将所述第一语音片段分别输入多个预设的不同的基准语音识别模型中进行识别，以获取多个识别文本；

计算模块，用于计算每两个所述识别文本间的相似度值，以确定所述第一语音片段对应的文本得分；

判断模块，用于判断所述文本得分是否大于所述预设阈值；

若是，则调用筛选模块，所述筛选模块用于将所述文本得分对应的所述第一语音片段筛选出来，以作为第三语音片段；其中，所述第三语音片段具有利用所述基准语音识别模型识别后生成的伪标签；

训练模块，用于基于所述第三语音片段和所述第二语音片段训练生成语音识别模型。

较佳地，所述判断模块的判断结果为否，则调用删除模块，所述删除模块用于将所述文本得分对应的所述第一语音片段进行删除。

较佳地，所述系统还包括：

第二获取模块，用于获取字错率最低的所述基准语音识别模型对所述第三语音片段识别后生成的待纠正识别文本；

第三获取模块，用于对所述待纠正识别文本进行纠正后，以获取所述第三语音片段对应的伪标签。

较佳地，所述计算模块包括：

相似度计算单元，用于利用编辑距离法计算所述识别文本间的相似度；其中，所述编辑距离法包括将一个字符替换成另一个字符、插入一个字符以及删除一个字符中至少一种；

文本得分计算单元，用于基于所述相似度计算所述第一语音片段对应的文本得分。

较佳地，所述训练模块包括：

选择单元，用于选择字错率最低的所述基准语音识别模型作为待训练模型；

更新单元，用于以所述第三语音片段及其标注的伪标签更新所述待训练模型的训练数据；

训练执行单元，用于基于包括伪标签的所述第三语音片段和所述第二语音片段对所述待训练模型进行重训练，以生成语音识别模型。

较佳地，所述系统还包括：

预训练模块，用于利用所述第二语音片段训练多个基准模型，以生成多个具有语音识别能力的所述基准语音识别模型；其中，每个所述基准模型的网络结构不同，每个所述基准语音识别模型对应的字错率不同。

第三方面，本发明还提供一种电子设备，包括处理器、存储器以及存储在所述存储器上并可在所述处理器上运行的计算机的计算机程序，所述计算机程序被所述处理器时实现第一方面所述的语音识别的声学模型训练方法。

第四方面，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现第一方面所述的语音识别的声学模型训练方法的步骤。

本发明的积极进步效果在于：提供一种语音识别的声学模型训练方法、系统、设备及介质，通过使用集成学习的思想利用基准语音识别模型为未标注的数据集构造伪标签，将基准语音识别模型的结果通过计算相似度值，对伪标签对应的训练集进行筛选，将原始获取的训练集与进行伪标签标注后的训练集进行合并，将扩充后的数据集的基础上训练生成新的语音识别模型。解决了人工标注费时费力，无法在短时间形成大量训练数据集，造成语音识别的字错率高的缺陷，最终提高了声学模型识别的准确性。

附图说明

图1为本发明实施例1的语音识别的声学模型训练方法的流程图。

图2为本发明实施例1的语音识别的声学模型训练方法的步骤S4的流程图。

图3为本发明实施例1的语音识别的声学模型训练方法的步骤S10的流程图。

图4为本发明实施例2的语音识别的声学模型训练系统的模块示意图。

图5为本发明实施例3的电子设备的硬件结构示意图。

具体实施方式

下面通过实施例的方式进一步说明本发明，但并不因此将本发明限制在所述的实施例范围之中。

实施例1

本实施例提供一种语音识别的声学模型训练方法，参照图1，该方法包括以下步骤：

步骤S1、获取训练样本；其中，训练样本包括无标签的多个第一语音片段和有标签的多个第二语音片段。

本实施例中，以客服的电话录音作为原始语料，统一格式和采样率。客服录音电话场景下的语音识别是十分复杂的。由于客户及客服所属地域方言不同以及个人发音口语化的习惯不同。因为语音识别模型需要大量的语料，包含足够的场景，去训练模型，所以选取少部分音频，采用人工标注的方法制作小数据集，将这一部分小数据集称作第二语音片段，将另外没有经过人工标注的方法制作的小数据集称作第一语音片段。

步骤S2、利用第二语音片段训练多个基准模型，以生成多个具有语音识别能力的基准语音识别模型；其中，每个基准模型的网络结构不同，每个基准语音识别模型对应的字错率不同。

采用人工标注后的小数据上训练T个不同的基准模型，该基准模型可以选择深度神经网络-隐马尔可夫(dnn-hmm)混合模型或者端到端(end-to-end)模型。其中，End-to-end模型则使用单个序列到序列模型，直接将输入声学特征映射到文本。Dnn-hmm混合模型流程繁杂，且需要训练声学模型和语言模型，非常耗时。

Dnn-hmm混合模型主要由四部分组成：信号处理和特征提取、声学模型、语言模型和解码搜索部分。信号处理包括分帧、加窗、预加重，特征提取部分选取梅尔频率倒谱系数(MFCC)；声学模型是对声学、语音学、环境的变量、说话人性别、口音等的差异的知识表示。语言模型是对一组字序列构成的知识表示。声学模型把语音的声学特征分类对应到音素或字词这样的单元，语言模型接着把字词解码成一个完整的句子；声学模型的任务是计算P(O|W)，即给定文字之后发出这段语音的概率。首先训练高斯混合-隐马尔可夫(dnn-hmm)模型，估计出每个音素的特征向量的分布，通过动态规划获取每一帧所对应的音素的状态。再经过深度(dnn)模型训练获取声学模型。解码搜索部分给定音频信号，通过音频的声学模型得分和语言模型得分加权，获取最可能的词序列，即识别文本。进一步的，语言模型计算一个句子出现概率。一般利用链式法则，把一个句子的概率拆解成其中每个词的概率之积。常用的语言模型包括N-gram模型和RNN语言模型。已知单词序列w₁,w₂,……w_L,N-gram模型用概率表示如下：

语音识别模型还有Speech Transformer模型，以Speech Transformer模型为例，网络结构由encoder(编码器)层和decoder(解码器)层组成，encoder层对输入序列进行编码，decoder层进行解码。Encoder层由6个相同的网络层组成，每个网络层由两个子层组成，分别是multi-head self-attention(多头自注意力)层和fully connected feed-forwardnetwork(全连接前馈网络)层。其中，每个子层都加了残差连接和归一化，decoder层与encoder层的结构类似，但是多了一个attention(注意力)的子层encoder-decoderattention layer(编码-解码注意力层)。其中，attention的计算公式如下：

其中，Q、K、V分别为Query、Key、Value。对于self-attention(自注意力)而言，Q,K,V三个矩阵均来自同一输入，对于encoder-decoder attention，它的query来自之前一级的decoder层的输出，但其key和value来自于encoder层的输出，使得decoder层的每一个位置都可以attend到输入序列的每一个位置。multi-head self-attention允许模型共同关注来自不同位置的子空间的信息，利于捕捉更丰富的信息。Speech Transformer模型支持并行计算,提高训练速度，且建立直接的长距离依赖关系。

本实施例中，训练T个不同结构的基准模型{h₁,h₂,…h_T}，生成对应多个不同的基准语音识别模型，该基准语音识别模型的结构不同或者模型输入参数不同。每个基准语音识别模型对应的字错率不同，例如，基准语音识别模型h₁的字错率为15％，基准语音识别模型h₂的字错率为10％，基准语音识别模型h₃的字错率为8％。

步骤S3、将第一语音片段分别输入多个预设的不同的基准语音识别模型中进行识别，以获取多个识别文本。

本实施例中，将T个基准语音识别模型对第一语音片段中某一段语音片段进行识别后，获得了对应该语音片段的T个不同的识别文本{x₁,x₂,…x_T}。

步骤S4、计算每两个识别文本间的相似度值，以确定第一语音片段对应的文本得分。

计算步骤S3后生成的识别文本x₁与识别文本x₂之间的相似度值，识别文本x₁与识别文本x₃之间的相似度值，识别文本x₁与识别文本x₄之间的相似度值等，将每两个识别文本之间的相似度值进行加权，即得到了最终的第一语音片段对应的文本得分g。

步骤S5、判断文本得分是否大于预设阈值，若否，则继续执行步骤S6；若是，则继续执行步骤S7。

步骤S6、则将文本得分对应的第一语音片段进行删除。

步骤S7、则将文本得分对应的第一语音片段筛选出来，以作为第三语音片段；其中，第三语音片段具有利用基准语音识别模型识别后生成的伪标签。

本实施例中，根据文本得分g的分布确定得分阈值，筛选文本得分大于阈值的音频，并选取识别率最高的基准语音识别模型h_i的识别结果x_i作为伪标签。

步骤S8、获取字错率最低的基准语音识别模型对第三语音片段识别后生成的待纠正识别文本。

步骤S9、对待纠正识别文本进行纠正后，以获取第三语音片段对应的伪标签。

本实施例中，针对基准语音识别模型h_i的常见错误对x_i纠错作为最终标签，生成带有伪标签的数据集。以Speech Transformer模型为例，常见的错误主要包括：第一，attention会循环，导致长输出；第二，模型太早预测EOS令牌，从而导致输出过短。针对第一种attention循环的情况，可以删除包含重复词超过c次的文本；针对第二种模型太早预测EOS令牌的问题，该EOS令牌表示输出结束的符号标志为'<eos>'时，则通过控制EOS令牌的概率在阈值h内来控制文本过短的比例，其中，c和h为超参数。例如，第一语音片段的音频为“这里是携程，很高兴为你服务”，过早预测EOS令牌，导致输出可能会变为“这里是携程”的识别文本。经过文本纠正后则会减少类似于上述错误而造成的识别结果，提高利用基准语音识别模型识别后生成伪标签的正确率。

步骤S10、基于第三语音片段和第二语音片段训练生成语音识别模型。

本实施例中，将第二语音片段与有伪标签的数据集合并生成新数据集。由于伪标签的生成与人工标注比起来省时省力，因此有伪标签的第三语音片段的大小远远超过人工标注的第二语音片段。选择准确率最高的语音识别模型作为优化模型，并在合成新数据集上训练得到最终语音识别模型。新生成的语音识别声学模型可作为下一轮带伪标签数据集生成时的基准模型使用。

本实施例中，一种语音识别的声学模型训练方法，参照图2，步骤S4包括以下：

步骤S41、利用编辑距离法计算识别文本间的相似度。其中，该编辑距离法包括将一个字符替换成另一个字符、插入一个字符以及删除一个字符中至少一种。

步骤S42、基于相似度计算第一语音片段对应的文本得分。

本实施例中，相似度的计算采用编辑距离，即两个字符串之间，由一个转换为另一个所需的最少编辑操作次数。假设待比较的两个文本识别的结果分别为x_i和x_j，需要进行操作num_ij次才能使得x_i转换为x_j，文本长度的最大值为maxlen(x_i,x_j)，则计算两个字符串相似度的公式为：

上式中，S_ij范围在0至1之间，越接近1代表识别文本越相似，最终文本得分g＝∑S_ij,1≤i<j≤T。

相似度的计算除了利用编辑距离法以外，还可以采用余弦距离、汉明距离等方法。而本实施例中选用编辑距离法是因为在语音识别模型优化指标中以字错率为标准，因而采用编辑距离法计算相似度值。

本实施例中，一种语音识别的声学模型训练方法，参照图3，步骤S10包括以下：

步骤S101、选择字错率最低的基准语音识别模型作为待训练模型。

从利用第二语音片段训练出的基准语音识别模型中选择字错率最低的，即识别准确率最高的作为下一轮的待训练模型。

步骤S102、以第三语音片段及其标注的伪标签更新待训练模型的训练数据。

步骤S103、基于包括伪标签的第三语音片段和第二语音片段对待训练模型进行重训练，以生成语音识别模型。

本实施例中，将筛选出来的第三语音片段扩充待训练模型的训练数据，随着生成的带有伪标签数据集的扩大，语音识别模型的字错率明显降低。

在一种可能实现的方式中，若取T＝2，基线模型分别为dnn-hmm混合模型和SpeechTransformer模型。文本得分的阈值设定为0.8。数据集取自客服录音电话的数据，人工标注的第二语音片段对应的数据集D1为300h，将生成的带伪标签第三语音片段与D1合并得到新的数据集D2为1000h，在D2上训练形成新的语音识别的声学模型，并作为新的基准模型，再次生成带伪标签数据集与D2合并得到数据集D3为6000h。最后在D3上训练生成最终的语音识别模型，每个模型的字错率的结果如下：

表1语音识别声学模型在数据集上的字错率(％)

训练得到的基准模型和最终的语音识别的声学模型在模型结构上没有不同之处，但是最终模型识别效果具有显示的提高，由上表可见，字错率明显降低，识别效果显著提高。

本实施例中，公开了一种语音识别的声学模型训练方法，通过使用集成学习的思想利用基准语音识别模型为未标注的数据集构造伪标签，将基准语音识别模型的结果通过计算相似度值，对伪标签对应的训练集进行筛选，将原始获取的训练集与进行伪标签标注后的训练集进行合并，将扩充后的数据集的基础上训练生成新的语音识别模型。解决了人工标注费时费力，无法在短时间内形成大量的训练数据集，造成语音识别的字错率高的缺陷，最终提高了语音识别模型识别的准确性。

实施例2

本实施例还提供一种语音识别的声学模型训练系统，参照图4，该声学模型训练系统包括：第一获取模块110、预训练模块120、识别模块130、计算模块140、判断模块150、删除模块160、筛选模块170、第二获取模块180、第三获取模块190、训练模块200。

其中，第一获取模块110，用于获取训练样本；其中，该训练样本包括无标签的多个第一语音片段和有标签的多个第二语音片段。

本实施例中，第一获取模块110获取客服的电话录音作为原始语料，统一格式和采样率。选取少部分音频，采用人工标注的方法制作小数据集，将这一部分小数据集称作第二语音片段；将另外没有经过人工标注的方法制作的小数据集称作第一语音片段。

预训练模块120，用于利用第二语音片段训练多个基准模型，以生成多个具有语音识别能力的基准语音识别模型；其中，每个基准模型的网络结构不同，每个基准语音识别模型对应的字错率不同。

预训练模块120采用人工标注后的小数据上训练T个不同的基准模型，该基准模型可以选择深度神经网络-隐马尔可夫(dnn-hmm)混合模型或者端到端(end-to-end)模型。其中，End-to-end模型则使用单个序列到序列模型，直接将输入声学特征映射到文本。Dnn-hmm混合模型流程繁杂，且需要训练声学模型和语言模型，非常耗时。

语音识别模型还有Speech Transformer模型。以Speech Transformer模型为例，网络结构由encoder层和decoder层组成，encoder层对输入序列进行编码，decoder层进行解码。Encoder层由6个相同的网络层组成。每个网络层由两个子层组成，分别是multi-headself-attention层和fully connected feed-forward network层。其中，每个子层都加了残差连接和归一化，Decoder层与Encoder层的结构类似，但是多了一个attention的子层encoder-decoder attention layer。其中，attention的计算公式如下：

其中，Q、K、V分别为Query、Key、Value。对于self-attention而言，Q,K,V三个矩阵均来自同一输入，对于encoder-decoder attention，它的query来自之前一级的decoder层的输出，但其key和value来自于encoder层的输出，使得decoder层的每一个位置都可以attend到输入序列的每一个位置。multi-head self-attention允许模型共同关注来自不同位置的子空间的信息，利于捕捉更丰富的信息。Speech Transformer支持并行计算,提高训练速度，且建立直接的长距离依赖关系。

本实施例中，预训练模块120训练T个不同结构的基准模型{h₁,h₂,…h_T}，生成对应多个不同的基准语音识别模型，该基准语音识别模型的结构不同或者模型输入参数不同。每个基准语音识别模型对应的字错率不同，例如，基准语音识别模型h₁的字错率为15％，基准语音识别模型h₂的字错率为10％，基准语音识别模型h₃的字错率为8％。

识别模块130，用于将第一语音片段分别输入多个预设的不同的基准语音识别模型中进行识别，以获取多个识别文本。

本实施例中，识别模块130将T个基准语音识别模型对第一语音片段中某一段语音片段进行识别后，获得了对应该语音片段的T个不同的识别文本{x₁,x₂,…x_T}。

计算模块140，用于计算每两个识别文本间的相似度值，以确定第一语音片段对应的文本得分。

计算步骤S3后生成的识别文本x₁与识别文本x₂之间的相似度值，识别文本x₁与识别文本x₃之间的相似度值，识别文本x₁与识别文本x₄之间的相似度值等，计算模块140将每两个识别文本之间的相似度值进行加权，即得到了最终的第一语音片段对应的文本得分g。

判断模块150，用于判断文本得分是否大于预设阈值。

若判断模块150的判断结果为否，则调用删除模块160；若判断模块150的判断结果为是，则调用筛选模块170。

该删除模块160，用于将文本得分对应的第一语音片段进行删除。

该筛选模块170，用于将文本得分对应的所第一语音片段筛选出来，以作为第三语音片段；其中，第三语音片段具有利用基准语音识别模型识别后生成的伪标签。

本实施例中，根据文本得分g的分布确定得分阈值，判断模块150判断确定的阈值与文本得分之间数值的大小，筛选模块170筛选文本得分大于阈值的音频，并选取识别率最高的基准语音识别模型h_i的识别结果x_i作为伪标签，删除模块160将文本得分小于阈值的音频进行删除。

第二获取模块180，用于获取字错率最低的基准语音识别模型对第三语音片段识别后生成的待纠正识别文本。

第三获取模块190，用于对待纠正识别文本进行纠正后，以获取第三语音片段对应的伪标签。

本实施例中，第二获取模块180获取待纠正的识别文本，第三获取模块190针对基准语音识别模型h_i的常见错误对x_i进行纠错，以生成最终的标签。以Speech Transformer模型为例，常见的错误主要包括：第一，attention会循环，导致长输出；第二，模型太早预测EOS令牌，从而导致输出过短。针对第一种attention循环的情况，可以删除包含重复词超过c次的文本；针对第二种模型太早预测EOS令牌的问题，则通过控制EOS令牌的概率在阈值h内来控制文本过短的比例，其中，c和h为超参数。例如，第一语音片段的音频为“这里是携程，很高兴为你服务”，过早预测EOS令牌，导致输出可能会变为“这里是携程”的识别文本。经过文本纠正后则会减少类似于上述错误而造成的识别结果，提高利用基准语音识别模型识别后生成伪标签的正确率。

可以理解的是，Speech Transformer模型或者其余的基准语言识别模型还存在许多不常规的错误，比如，音频片段的识别文本X_i中会把“携程”识别为“学生”，此时可以通过正则匹配的方式，将“学生”修改为携程。

训练模块200，用于基于第三语音片段和第二语音片段训练生成语音识别模型。

将第二语音片段与有伪标签的数据集，即第三语音片段进行合并以生成新的数据集。因为伪标签的生成与人工标注比起来省时省力，所以有伪标签的第三语音片段的大小远远超过人工标注的第二语音片段。选择准确率最高的语音识别模型作为优化模型，训练模块200在合成新数据集上训练得到最终的语音识别模型，新生成的语音识别声学模型可作为下一轮带伪标签数据集生成时的基准模型使用。

本实施例中，一种语音识别的声学模型训练系统，计算模块140包括以下：相似度计算单元141、文本得分计算单元142。

其中，相似度计算单元141，用于利用编辑距离法计算识别文本间的相似度；其中，编辑距离法包括将一个字符替换成另一个字符、插入一个字符以及删除一个字符中至少一种。

文本得分计算单元142，用于基于相似度计算第一语音片段对应的文本得分。

本实施例中，相似度计算单元141中进行相似度的计算采用编辑距离，即两个字符串之间，由一个转换为另一个所需的最少编辑操作次数。假设待比较的两个文本识别的结果分别为x_i和x_j，需要进行操作num_ij次才能使得x_i转换为x_j，文本长度的最大值为maxlen(x_i,x_j)，则计算两个字符串相似度的公式为：

本实施例中，一种语音识别的声学模型训练系统，训练模块200包括以下：选择单元201、更新单元202、训练执行单元203。

其中，选择单元201，用于选择字错率最低的基准语音识别模型作为待训练模型。

更新单元202，用于以第三语音片段及其标注的伪标签更新待训练模型的训练数据。

训练执行单元203，用于基于包括伪标签的第三语音片段和第二语音片段对所述待训练模型进行重训练，以生成语音识别模型。

该系统可以应用于旅游产品中客户服务中心，比如预定的订单确定，售后问题解决。目的是保证更好的服务客户，沟通客户，进而做到充分保障消费者的权益，为客户提供最满意的服务，同时可以降低大量的人工成本，大幅提升服务效率。

本实施例中，公开了一种语音识别的声学模型训练系统，通过使用集成学习的思想利用基准语音识别模型为未标注的数据集构造伪标签，将基准语音识别模型的结果通过计算相似度值，对伪标签对应的训练集进行筛选，将原始获取的训练集与进行伪标签标注后的训练集进行合并，将扩充后的数据集的基础上训练生成新的语音识别模型。解决了人工标注费时费力，无法在短时间内形成大量的训练数据集，造成语音识别的字错率高的缺陷，最终提高了语音识别模型识别的准确性。

实施例3

图5为本实施例提供的一种电子设备的结构示意图。所述电子设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现语音识别的声学模型训练方法，图5显示的电子设备30仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

电子设备30可以以通用计算设备的形式表现，例如其可以为服务器设备。电子设备30的组件可以包括但不限于：上述至少一个处理器31、上述至少一个存储器32、连接不同系统组件(包括存储器32和处理器31)的总线33。

总线33包括数据总线、地址总线和控制总线。

存储器32可以包括易失性存储器，例如随机存取存储器(RAM)321和/或高速缓存存储器322，还可以进一步包括只读存储器(ROM)323。

存储器32还可以包括具有一组(至少一个)程序模块324的程序/实用工具325，这样的程序模块324包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

处理器31通过运行存储在存储器32中的计算机程序，从而执行各种功能应用以及数据处理，例如本发明实施例1的语音识别的声学模型训练方法。

电子设备30也可以与一个或多个外部设备34(例如键盘、指向设备等)通信。这种通信可以通过输入/输出(I/O)接口35进行。并且，模型生成的设备30还可以通过网络适配器36与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器36通过总线33与模型生成的设备30的其它模块通信。应当明白，尽管图中未示出，可以结合模型生成的设备30使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID(磁盘阵列)系统、磁带驱动器以及数据备份存储系统等。

应当注意，尽管在上文详细描述中提及了电子设备的若干单元/模块或子单元/模块，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本发明的实施方式，上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之，上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。

实施例4

本实施例提供了一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现实施例1的语音识别的声学模型训练方法的步骤。

其中，可读存储介质可以采用的更具体可以包括但不限于：便携式盘、硬盘、随机存取存储器、只读存储器、可擦拭可编程只读存储器、光存储器件、磁存储器件或上述的任意合适的组合。

在可能的实施方式中，本发明还可以实现为一种程序产品的形式，其包括程序代码，当所述程序产品在终端设备上运行时，所述程序代码用于使所述终端设备执行实现实施例1的语音识别的声学模型训练方法的步骤。

其中，可以以一种或多种程序设计语言的任意组合来编写用于执行本发明的程序代码，所述程序代码可以完全地在用户设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户设备上部分在远程设备上执行或完全在远程设备上执行。

虽然以上描述了本发明的具体实施方式，但是本领域的技术人员应当理解，这仅是举例说明，本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下，可以对这些实施方式做出多种变更或修改，但这些变更和修改均落入本发明的保护范围。

Claims

1.一种语音识别的声学模型训练方法，其特征在于，包括以下步骤：

判断所述文本得分是否大于预设阈值，若是，则将所述文本得分对应的所述第一语音片段筛选出来，以作为第三语音片段；其中，所述第三语音片段具有利用所述基准语音识别模型识别后生成的伪标签；

基于所述第三语音片段和所述第二语音片段训练生成语音识别模型；

其中，所述基于所述第三语音片段和所述第二语音片段训练生成语音识别模型，包括：

选择字错率最低的所述基准语音识别模型作为待训练模型；

2.如权利要求1所述的声学模型训练方法，其特征在于，所述判断所述文本得分是否大于所述预设阈值之后，还包括：

若否，则将所述文本得分对应的所述第一语音片段进行删除。

3.如权利要求1所述的声学模型训练方法，其特征在于，所述将所述文本得分对应的所述第一语音片段筛选出来，以作为第三语音片段的步骤之后还包括：

4.如权利要求1所述的声学模型训练方法，其特征在于，所述计算每两个所述识别文本间的相似度值，以确定所述第一语音片段对应的文本得分的步骤包括：

基于所述相似度计算所述第一语音片段对应的文本得分。

5.如权利要求1所述的声学模型训练方法，其特征在于，所述获取训练样本的步骤之后还包括：

6.一种语音识别的声学模型训练系统，其特征在于，所述声学模型训练系统包括：

判断模块，用于判断所述文本得分是否大于预设阈值；

训练模块，用于基于所述第三语音片段和所述第二语音片段训练生成语音识别模型；其中所述训练模块包括：选择单元，用于选择字错率最低的所述基准语音识别模型作为待训练模型；更新单元，用于以所述第三语音片段及其标注的伪标签更新所述待训练模型的训练数据；训练执行单元，用于基于包括伪标签的所述第三语音片段和所述第二语音片段对所述待训练模型进行重训练，以生成语音识别模型。

7.如权利要求6所述的语音识别的声学模型训练系统，其特征在于，若所述判断模块的判断结果为否，则调用删除模块，所述删除模块用于将所述文本得分对应的所述第一语音片段进行删除。

8.如权利要求6所述的语音识别的声学模型训练系统，其特征在于，所述系统还包括：

9.如权利要求6所述的语音识别的声学模型训练系统，其特征在于，所述计算模块包括：

10.如权利要求6所述的语音识别的声学模型训练系统，其特征在于，所述系统还包括：

11.一种电子设备，其特征在于，包括处理器、存储器以及存储在所述存储器上并可在所述处理器上运行的计算机的计算机程序，所述计算机程序被所述处理器时实现如权利要求1-5中的任一项所述的语音识别的声学模型训练方法。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现如权利要求1-5中任一项所述的语音识别的声学模型训练方法的步骤。