CN114912441A

CN114912441A - 文本纠错模型生成方法、纠错方法、系统、设备和介质

Info

Publication number: CN114912441A
Application number: CN202210373641.6A
Authority: CN
Inventors: 韩雨; 鞠剑勋; 李健
Original assignee: Ctrip Travel Information Technology Shanghai Co Ltd
Current assignee: Ctrip Travel Information Technology Shanghai Co Ltd
Priority date: 2022-04-06
Filing date: 2022-04-06
Publication date: 2022-08-16

Abstract

本发明公开了一种文本纠错模型生成方法、纠错方法、系统、设备和介质，方法包括：获取每个语音样本经过语音识别后的语音识别文本对应的语音关联参数；语音关联参数包括语音错误文本和文本语音向量；将语音关联参数输入至预先构建且依次连接的编码层、向量融合层、解码层和输出层中，训练得到用于输出语音修正文本的语音识别文本纠错模型。本发明中纠错模型的生成方法增加了文本语音向量，使得训练得到的模型能够结合语音和识别文本的多模态的文本对语音识别后的语音识别文本进行纠错，从而提高模型训练精度，进而提高语音识别文本的纠错准确率。

Description

文本纠错模型生成方法、纠错方法、系统、设备和介质

技术领域

本发明涉及语音处理技术领域，尤其涉及一种文本纠错模型生成方法、纠错方法、系统、设备和介质。

背景技术

ASR(Automatic Speech Recognition，自动语音识别)是一种将人的语音转换为文本的技术。虽然ASR建模技术发展迅速，但采用ASR技术时，存在较高的转写错误率。ASR用于NLP(自然语言处理)的前端，任何ASR的转写错误都会级联到下游任务中，例如，意图识别、命名实体识别等，对下游的任务效果造成影响。

目前，为降低转写错误率，一般采用输入文本信息，通过BERT(一种模型)等模型实现纠错。但是，将BERT等模型用于ASR中，存在如下问题：第一，模型参数量太大，使得ASR的性能显著降低；第二，纠错的准确率低。

发明内容

本发明要解决的技术问题是为了克服现有技术中语音识别文本纠错无法满足实际需求的缺陷，提供一种文本纠错模型生成方法、纠错方法、系统、设备和介质。

本发明是通过下述技术方案来解决上述技术问题：

本发明提供一种语音识别文本纠错模型的生成方法，所述生成方法包括：

获取每个语音样本经过语音识别后的语音识别文本对应的语音关联参数；

其中，所述语音关联参数包括语音错误文本和文本语音向量；

将所述语音关联参数输入至预先构建且依次连接的编码层、向量融合层、解码层和输出层中训练得到用于输出语音修正文本的所述语音识别文本纠错模型；

其中，所述编码层用于输出所述语音错误文本的文本向量；

所述向量融合层用于将同一所述语音错误文本对应的所述文本向量和所述文本语音向量进行融合，以输出文本语义向量；

所述解码层用于基于所述文本语义向量输出纠错后语义向量；

所述输出层用于基于所述纠错后语义向量输入和所述输出层上一次输出的所述语音修正文本输出语音修正文本。

较佳地，构建所述编码层的步骤包括：

采用双向LSTM，构建得到所述编码层；

所述将所述语音关联参数输入至预先构建且依次连接的编码层、向量融合层、解码层和输出层中训练得到用于输出语音修正文本的所述语音识别文本纠错模型的步骤包括：

将所述语音错误文本转换为对应的文本词向量；

采用所述双向LSTM对所述文本词向量进行编码处理，得到所述语音错误文本的所述文本向量；

将所述所述文本向量和所述文本语音向量输入至预先构建且依次连接的向量融合层、解码层和输出层中训练得到用于输出语音修正文本的所述语音识别文本纠错模型。

较佳地，所述将所述文本向量和所述文本语音向量输入至预先构建且依次连接的向量融合层、解码层和输出层中训练得到用于输出语音修正文本的所述语音识别文本纠错模型的步骤包括：

对所述文本向量和所述文本语音向量采用预设融合方式进行融合处理，生成所述语音错误文本对应的所述文本语义向量；

其中，所述预设融合方式包括向量拼接处理或向量相加计算处理；

将所述文本语义向量和所述文本语音向量输入至预先构建且依次连接的解码层和输出层中训练得到用于输出语音修正文本的所述语音识别文本纠错模型。

较佳地，所述对所述文本向量和所述文本语音向量采用预设融合方式进行融合处理，生成所述语音错误文本对应的所述文本语义向量的步骤包括：

将同一所述语音错误文本的所述文本向量和所述文本语音向量进行对齐处理；

将对齐后的同一所述语音错误文本的所述文本向量和所述文本语音向量，采用所述预设融合方式进行处理，以生成所述语音错误文本对应的所述文本语义向量。

较佳地，所述将同一所述语音错误文本的所述文本向量和所述文本语音向量进行对齐处理的步骤包括：

获取所述语音错误文本中的每个文字对应的文字特征向量和文字语音向量；

将每个所述文字对应的文字特征向量和文字语音向量进行对齐处理；

在将所述语音错误文本中所有文字的所述文字特征向量和所述文字语音向量处理时，确定完成同一所述语音错误文本的所述文本向量和所述语音向量的对齐处理操作。

较佳地，所述获取所述语音错误文本中的每个文字对应的文字特征向量和文字语音向量步骤包括：

获取所述语音错误文本中的每个所述文字对应的目标语音帧；

将所述目标语音帧转换为对应的所述文字语音向量；

从所述语音错误文本的所述文本向量中提取出每个所述文字对应的所述文字特征向量；

和/或，所述将每个所述文字对应的文字特征向量和文字语音向量进行对齐处理的步骤包括：

采用注意力机制，将每个文字对应的文字特征向量和文字语音向量进行对齐处理。

较佳地，获取每个所述文字对应的目标语音帧的步骤包括：

计算同一语音样本的所述语音错误文本中的每个所述文字与预设数量的语音帧的相关度；

选取所述相关度大于设定阈值的第一数量的语音帧；所述第一数量小于所述预设数量；

对于每个所述文字，将对应的所述第一数量的语音帧进行加权求和处理，得到一帧语音帧以作为对应文字的所述目标语音帧。

较佳地，构建所述解码层的步骤包括：

采用双向LSTM，构建得到所述解码层；

所述将所述文本语义向量和所述文本语音向量输入至预先构建的解码层和输出层中训练得到用于输出语音修正文本的所述语音识别文本纠错模型的步骤包括：

将所述语音错误文本对应的所述文本语义向量输入至所述解码层中

对所述语音错误文本进行纠错处理以得到纠错结果；

对所述纠错结果进行解码处理，以输出纠错处理后的所述纠错后语义向量；

将所述纠错后语义向量输入至输出层中训练得到用于输出语音修正文本的所述语音识别文本纠错模型；

和/或，所述将所述纠错后语义向量输入至输出层中训练得到用于输出语音修正文本的所述语音识别文本纠错模型的步骤包括：

将所述纠错后语义向量依次输入至全连接层和Softmax层中训练得到所述语音识别文本纠错模型。

较佳地，所述生成方法还包括：

将任一语音测试样本的测试语音错误文本输入至所述语音识别文本纠错模型，获取对应的测试语音修正文本；

基于同一所述语音测试样本的所述测试语音错误文本对应的所述修正文本与测试语音正确文本之间的差值确定损失函数，并通过所述损失函数优化训练所述语音识别文本纠错模型。

较佳地，获取每个所述语音样本的所述语音错误文本的步骤包括：

获取若干已增加预设噪音的所述语音样本；

采用ASR模型对所述语音样本进行识别生成若干初始语音错误文本；

将任意选取一个所述初始语音错误文本作为每个所述语音样本对应的待训练的所述语音错误文本；

或，选取文字错误率高于设定阈值的所述初始语音错误文本作为每个所述语音样本对应的待训练的所述语音错误文本。

本发明还提供一种语音识别文本的纠错方法，所述纠错方法包括：

获取待处理的目标语音识别文本对应的语音关联参数；

将所述目标语音识别文本对应的语音关联参数输入至前述的语音识别文本纠错模型的生成方法得到的所述语音识别文本纠错模型中进行纠错处理，以得到纠错处理后的目标语音修正文本。

本发明还提供一种语音识别文本纠错模型的生成系统，所述生成系统包括：

第一获取模块，用于获取每个语音样本经过语音识别后的语音识别文本对应的语音关联参数；

模型训练模块，用于将所述语音关联参数输入至预先构建且依次连接的编码层、向量融合层、解码层和输出层中训练得到用于输出语音修正文本的所述语音识别文本纠错模型；

其中，所述编码层用于输出所述语音错误文本的文本向量；

本发明还提供一种语音识别文本的纠错系统，所述纠错系统包括：

第三获取模块，用于获取待处理的目标语音文本对应的语音关联参数；

文本纠错模块，用于将所述目标语音文本对应的语音关联参数输入前述的语音识别文本纠错模型的生成系统得到的所述语音识别文本纠错模型中进行纠错处理，以得到纠错处理后的目标语音修正文本。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如前述的语音识别文本纠错模型的生成方法或如前述的语音识别文本的纠错方法。

本发明还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如前述的语音识别文本纠错模型的生成方法或如前述的语音识别文本的纠错方法。

本发明的积极进步效果在于：

本发明公开了一种文本纠错模型生成方法、纠错方法、系统、设备和介质，纠错模型的生成方法在语音错误文本作为模型输入量的基础上，增加了文本语音向量，且构建模型时在编码层和解码层的基础上增加了向量融合层，从而使得训练得到的模型能够结合语音和识别文本的多模态的文本对语音识别后的语音识别文本进行纠错，提高了模型训练精度，进而提高语音识别文本的纠错准确率。另外，文本语音向量为语音在语音转换时生成的语音向量，使得无需占用资源生成语音向量，从而确保了自动语音识别的性能。

附图说明

图1为本发明实施例1的语音识别文本纠错模型的生成方法的流程图；

图2为本发明实施例1中的步骤S101的流程图；

图3为本发明实施例1中的步骤S102的流程图；

图4为本发明实施例1中的步骤S1023的流程图；

图5为本发明实施例2的语音识别文本的纠错方法的流程图；

图6为本发明实施例3的语音识别文本纠错模型的生成系统的模块示意图；

图7为本发明实施例3中的训练模块的模块示意图；

图8为本发明实施例3中的第一获取模块的模块示意图；

图9为本发明实施例4的语音识别文本的纠错系统的模块示意图；

图10为本发明实施例5的电子设备的结构示意图；

图11为本发明实施例1的语音识别文本纠错模型的结构示意图。

具体实施方式

下面通过实施例的方式进一步说明本发明，但并不因此将本发明限制在所述的实施例范围之中。

实施例1

如图1和图11所示，本实施例公开了一种语音识别文本纠错模型的生成方法，所述生成方法包括：

步骤S101、获取每个语音样本经过语音识别后的语音识别文本对应的语音关联参数；

其中，所述语音关联参数包括但不限于语音错误文本和文本语音向量；

具体地，语音错误文本为使用ASR模型对语音样本进行识别生成的错误文本；文本语音向量为使用ASR模型对语音样本进行识别生成的语音向量。

步骤S102、将所述语音关联参数输入至预先构建且依次连接的编码层、向量融合层、解码层和输出层中训练得到用于输出语音修正文本的所述语音识别文本纠错模型；

其中，所述编码层用于输出所述语音错误文本的文本向量；

所述解码层用于基于所述文本语义向量和所述语音正确文本输出所述纠错后语义向量。

本方案，纠错模型的生成方法通过在语音错误文本作为模型输入量的基础上增加了文本语音向量，且构建模型时在编码层和解码层的基础上增加了向量融合层，从而使得训练得到的模型能够结合语音和识别文本的多模态的文本对语音识别后的语音识别文本进行纠错，提高了模型训练精度，进而提高语音识别文本的纠错准确率。另外，文本语音向量为语音在语音转换时生成的语音向量，使得无需占用资源生成语音向量，从而确保了自动语音识别的性能。

如图2所示，在一可实施的方式中，步骤S101包括：

步骤S1011、获取若干已增加预设噪音的所述语音样本；

具体地，对若干语音训练样本增加噪声后提取特征，提取的特征乘以随机乘0.8到1.2之间的系数进行扰动。

步骤S1012、采用ASR模型对所述语音样本进行识别生成若干初始语音错误文本；

具体地，采用ASR模型对语音样本通过Beam Search(束搜索)解码进行识别生成初始语音错误文本，且保存通过Beam Search解码进行识别获得的识别结果分数靠前的10条结果。

步骤S1013、将任意选取一个所述初始语音错误文本作为每个所述语音样本对应的待训练的所述语音错误文本；

本方案，通过在语音样本中增加噪音来增加语音错误文本，从而获得大量有效的模型训练的样本数据，进而提高训练得到的语音识别文本纠错模型的准确性。

在一可实施的方式中，步骤S1013之后包括：

选取文字错误率高于设定阈值的所述初始语音错误文本作为每个所述目标语音训练样本对应的待训练的语音错误文本。

在一具体的实施例中，假设设定阈值为0.3，则选取文字错误率高于0.3的初始语音错误文本作为每个所述目标语音训练样本对应的待训练的语音错误文本。

在一可实施的方式中，构建所述编码层的步骤包括：

采用双向LSTM，构建得到所述编码层；其中，双向LSTM可各包含128个神经元，因此双向LSTM层输出的特征向量为256维。

如图3所示，步骤S102包括：

步骤S1021、将所述语音错误文本转换为对应的文本词向量；

具体地，可以通过Word2Vec(词向量模型)预训练模型构建文本词向量，将语音错误文本转化为固定维度的向量，也即文本词向量。Word2Vec是用于产生词向量的模型，采用Word2Vec模型构建文本词向量，能够使得错误文本转化为多维度的向量，保证能够被后续的处理层进行有效处理，从而能够得到更加准确的语音识别文本纠错模型，其提高模型训练的效率与精度。

步骤S1022、采用所述双向LSTM对所述文本词向量进行编码处理，得到所述语音错误文本的所述文本向量；

本方案中，通过双向LSTM对所述文本词向量进行编码得到所述语音错误文本的文本向量能够包含文本中各个字的相关信息，进而能够得到保证语音识别文本纠错模型对语音识别文本的纠错效果。

步骤S1023、将所述文本向量和所述文本语音向量输入至预先构建且依次连接的向量融合层、解码层和输出层中训练得到用于输出语音修正文本的所述语音识别文本纠错模型。

本方案，通过先将所述语音错误文本转换为对应的文本词向量，再采用双向LSTM对文本词向量进行编码并得到语音错误文本的文本向量，从而使得获得的语音错误文本被纠错处理后对应的纠错后语义向量更加准确，进而能够得到更加准确的语音识别文本纠错模型。

如图4所示，在一可实施的方式中，步骤S1023包括：

步骤S10231、对所述文本向量和所述文本语音向量采用预设融合方式进行融合处理，生成所述语音错误文本对应的所述文本语义向量；

其中，所述预设融合方式包括向量拼接处理或向量相加计算处理等；

在一具体的实施方案中，例如，文本向量为256维，文本语音向量为256维，则拼接后文本语义向量为512维。

步骤S10232、将所述文本语义向量和所述文本语音向量输入至预先构建且依次连接的解码层和输出层中训练得到用于输出语音修正文本的所述语音识别文本纠错模型。

本方案中，通过采用预设融合方式对文本向量和文本语音向量进行融合，从而生成语音错误文本对应的文本语义向量。文本语义向量使得输入的向量维度更多，进而提高了语音错误文本被纠错处理后对应的纠错后语义向量的准确性。

在一可实施的方式中，步骤S10231包括：

将对齐后的同一所述语音错误文本的所述文本向量和所述文本语音向量采用预设融合方式进行处理，以生成所述语音错误文本对应的文本语义向量。

本方案，具体地，一般一个文字对应多个语音帧，所以，文本向量和所述文本语音向量的长度不一致，因此，在所述文本向量和所述文本语音向量采用预设融合方式进行融合处理之前，需要在所述文本向量和所述文本语音向量采用预设融合方式进行融合处理之前将同一所述语音错误文本的所述文本向量和所述文本语音向量进行对齐处理。从而使得生成所述语音错误文本对应的文本语义向量更加准确，进一步提高了语音错误文本被纠错处理后对应的纠错后语义向量的准确性，最终保证了语音识别文本纠错模型的训练精度。

在一可实施的方式中，将同一所述语音错误文本的所述文本向量和所述文本语音向量进行对齐处理的步骤包括：

在将所述语音错误文本中所有文字的文字特征向量和文字语音向量处理时，确定完成同一所述语音错误文本的所述文本向量和所述语音向量进行对齐处理操作。

本方案，通过将语音错误文本中的每个文字对应的文字特征向量和文字语音向量进行对齐，从而实现将同一语音错误文本的所述文本向量和文本语音向量的对齐，进而提高了将同一语音错误文本的文本向量和文本语音向量进行对齐处理的准确度。

在一可实施的方式中，获取所述语音错误文本中的每个文字对应的文字特征向量和文字语音向量的步骤包括：

获取所述语音错误文本中的每个文字对应的目标语音帧；

将所述目标语音帧转换为对应的所述文字语音向量；

从所述语音错误文本的所述文本向量中提取出每个文字对应的所述文字特征向量；

本方案，将所述目标语音帧转换为对应的所述文字语音向量，从而实现将每个文字对应的文字特征向量和文字语音向量进行对齐处理，进而保证了对齐处理的准确性。

在一可实施的方式中，将所述目标语音帧转换为对应的所述文字语音向量的步骤具体包括：

采用注意力机制，将每个所述文字对应的文字特征向量和文字语音向量进行对齐处理。

其中，注意力机制是机器学习中的一种数据处理方法，通过引入注意力机制，能够在众多的输入信息中聚焦于对当前任务更为关键的信息，降低对其他信息的关注度，甚至过滤掉无关信息，就可以解决信息过载问题，并提高任务处理的效率和准确性。本方案通过采用注意力机制，将每个所述文字对应的文字特征向量和文字语音向量进行对齐处理，使得对齐处理的效率和准确度更高。

在一可实施的方式中，获取所述语音错误文本中的每个文字对应的目标语音帧的步骤包括：

具体地，计算同一语音样本的所述语音错误文本中的每个所述文字与预设数量的语音帧的相关度的公式，如下：

a_j,i＝tanh(u^Ts_i+v^Th_j+b)

其中，s_i表征第i帧语音的特征向量，h_j表征第j个字的特征向量，u，v，b表征训练的参数，tanh为双曲正切激活函数，a_j,i表征每个所述文字与预设数量的语音帧的相关度。

对于每个所述文字，将对应的第一数量的语音帧进行加权求和处理，得到一帧语音帧以作为对应文字的所述目标语音帧，具体处理过程的计算公式如下：

其中，N表征语音帧数；t从1到N表征语音帧的序号；e表征自然常数；a_j,i表征每个所述文字与预设数量的语音帧的相关度；α_j,i为转为0-1的概率分布的每个所述文字与预设数量的语音帧的相关度；

表征每个文字对应的一帧语音向量；s_i表征第i帧语音的特征向量。

在一具体实施例中，一语音样本的所述语音错误文本为：“我再工作”，根据上述公式计算出语音错误文本中每个文字，如“我”、“再”“工”、“作”其中，计算出“我”与6个语音帧A、B、C、D、E、F的相关度分别为10，15，20，30，40，35，选取上述相关度大于12的语音帧为B、C、D、E、F，通过softmax将转为0-1的概率分布为0.107，0.143，0.214，0.286，0.250，将语音帧进行加权求和处理，得到一帧语音帧以作为对应文字的所述目标语音帧。

本方案，通过计算同一语音样本的语音错误文本中的每个文字与预设数量的语音帧的相关度，根据相关度筛选出每个文字对应的语音帧，将对应的第一数量的语音帧进行加权求和处理得到一帧语音帧以作为对应文字的所述目标语音帧，从而实现了获取每个文字对应的目标语音帧。

在一可实施的方式中，构建所述解码层的步骤包括：

采用双向LSTM，构建得到所述解码层；

具体地，双向LSTM各包含128个神经元，输出256维向量。

对所述语音错误文本进行纠错处理以得到纠错结果；

对所述纠错结果进行解码处理，以输出纠错处理后的对应的纠错后语义向量；

本方案，通过解码层的双向BLSTM将语音错误文本对应的文本语义向量输入至所述解码层中进行纠错处理得到纠错结果再对纠错结果进行解码处理，并输出纠错处理后的对应的纠错后语义向量，从而提高了语音错误文本被纠错处理后对应的纠错后语义向量的准确性。

在一可实施的方式中，将所述纠错后语义向量输入至输出层中训练得到用于输出语音修正文本的所述语音识别文本纠错模型的步骤包括：

本方案中，全连接层可以为一个256*5000线性变换层，其中，5000为字典中字的个数。Softmax层输出每一个字的概率。

本方案，将所述纠错后语义向量依次通过全连接层和Softmax层，使得训练得到语音识别文本纠错模型更加的准确。

在一可实施的方式中，语音识别文本纠错模型的生成方法还包括：

基于同一语所述音测试样本的测试语音错误文本对应的所述修正文本与测试语音正确文本之间的差值确定损失函数，并通过所述损失函数优化训练所述语音识别文本纠错模型。

具体地，根据文本正确标签和模型预测的标签类别概率计算交叉熵损失，使用Adam(Adaptive Moment Estimation，优化算法)对loss(损失值)极小化，不断迭代训练得到最终的语音识别文本纠错模型。

本方案，通过损失函数优化训练所述语音识别文本纠错模型使得最终的语音识别文本纠错模型更加的准确。

实施例2

如图5所示，本实施例公开了一种语音识别文本的纠错方法，所述纠错方法包括：

步骤S201、获取待处理的目标语音识别文本对应的语音关联参数；

步骤S202、将所述目标语音识别文本对应的语音关联参数输入至实施例1中所述的语音识别文本纠错模型的生成方法得到的所述语音识别文本纠错模型中进行纠错处理，以得到纠错处理后的目标语音修正文本。

本实施例公开了一种语音识别文本的纠错方法，通过采用实施例1中所述的语音识别文本纠错模型的生成方法得到的所述语音识别文本纠错模型进行纠错，能够结合语音和识别文本的多模态的文本对语音识别后的语音识别文本进行纠错，从而提高语音识别文本的纠错准确率。另外，文本语音向量为语音在语音转换时生成的语音向量，使得无需占用资源生成语音向量，从而确保了自动语音识别的性能。

实施例3

如图6所示，本实施例公开了语音识别文本纠错模型的生成系统，所述生成系统包括：

第一获取模块11，用于获取每个语音样本经过语音识别后的语音识别文本对应的语音关联参数；

模型训练模块12，用于将所述语音关联参数输入至预先构建且依次连接的编码层、向量融合层、解码层和输出层中训练得到用于输出语音修正文本的所述语音识别文本纠错模型；

其中，所述编码层用于输出所述语音错误文本的文本向量；

所述解码层用于基于所述文本语义向量输出所述纠错后语义向量；

本方案，纠错模型的生成系统通过在语音错误文本作为模型输入量的基础上增加了文本语音向量，且构建模型时在编码层和解码层的基础上增加了向量融合层，从而使得训练得到的模型能够结合语音和识别文本的多模态的文本对语音识别后的语音识别文本进行纠错，从而提高语音识别文本的纠错准确率。另外，文本语音向量为语音在语音转换时生成的语音向量，使得无需占用资源生成语音向量，从而确保了自动语音识别的性能。

在一可实施的方式中，构建所述编码层的步骤包括：

采用双向LSTM，构建得到所述编码层；其中，双向LSTM各包含128个神经元，因此双向LSTM层输出的特征向量为256维。

如图7所示，训练模块12包括：

转换单元121、用于将所述语音错误文本转换为对应的文本词向量；

具体地，可以通过Word2Vec预训练模型构建文本词向量，将语音错误文本转化为固定维度的向量，也即文本词向量。Word2Vec是用于产生词向量的模型，采用Word2Vec模型构建文本词向量，能够使得错误文本转化为多维度的向量，从而能够得到更加准确的语音识别文本纠错模型。

编码单元122、用于采用所述双向LSTM对所述文本词向量进行编码处理，得到所述语音错误文本的所述文本向量；

第一获取单元123、将基于所述文本向量和所述文本语音向量输入至预先构建且依次连接的向量融合层、解码层和输出层中训练得到用于输出语音修正文本的所述语音识别文本纠错模型。

本方案，通过先将所述语音错误文本转换为对应的文本词向量，再采用双向LSTM对文本词向量进行编码处理，得到语音错误文本的文本向量，从而使得获得的语音错误文本被纠错处理后对应的纠错后语义向量更加准确，进而能够得到更加准确的语音识别文本纠错模型。

在一可实施的方式中，第一获取单元123包括：

融合子单元、对所述文本向量和所述文本语音向量采用预设融合方式进行融合处理，生成所述语音错误文本对应的所述文本语义向量；

获取子单元、将所述文本语义向量和所述文本语音向量输入至预先构建且依次连接的解码层和输出层中训练得到用于输出语音修正文本的所述语音识别文本纠错模型。

在一可实施的方式中，融合子单元还执行以下操作：

本方案，具体地，一般一个文字对应多个语音帧，所以，文本向量和所述文本语音向量的长度不一致，因此，在所述文本向量和所述文本语音向量采用预设融合方式进行融合处理之前，需要在所述文本向量和所述文本语音向量采用预设融合方式进行融合处理之前将同一所述语音错误文本的所述文本向量和所述文本语音向量进行对齐处理。从而使得生成所述语音错误文本对应的文本语义向量更加准确，最终保证了语音识别文本纠错模型的训练精度。

在一可实施的方式中，融合子单元还执行以下操作：

获取所述语音错误文本中的每个文字对应的目标语音帧；

将所述目标语音帧转换为对应的所述文字语音向量；

在一可实施的方式中，融合子单元具体还用于：

在一可实施的方式中，融合子单元还执行以下操作：

a_j,i＝tanh(u^Ts_i+v^Th_j+b)

在一可实施的方式中，构建所述解码层的步骤包括：

采用双向LSTM，构建得到所述解码层；

具体地，双向LSTM各包含128个神经元，输出256维向量。

如图7所示，训练模块12还包括：

比较单元124，用于将所述语音错误文本对应的所述文本语义向量输入至所述解码层中；

纠错单元125，用于对所述语音错误文本进行纠错处理以得到纠错结果；

解码单元126，用于对所述纠错结果进行解码处理，以输出纠错处理后的对应的纠错后语义向量；

训练单元127，用于将所述纠错后语义向量输入至输出层中训练得到用于输出语音修正文本的所述语音识别文本纠错模型；

在一可实施的方式中，训练单元127具体用于将所述纠错后语义向量依次输入至全连接层和Softmax层中训练得到所述语音识别文本纠错模型。

在一可实施的方式中，语音识别文本纠错模型的生成系统还包括：

第二获取模块13，用于将任一语音测试样本的语音错误文本输入至所述语音识别文本纠错模型，获取对应的测试语音修正文本；

优化模块14，用于基于同一语所述音测试样本的测试语音错误文本对应的所述修正文本与测试语音正确文本之间的差值确定损失函数，并通过所述损失函数优化训练所述语音识别文本纠错模型。

具体地，根据文本正确标签和模型预测的标签类别概率计算交叉熵损失，使用Adam(Adaptive Moment Estimation)优化算法对loss极小化，不断迭代训练得到最终的语音识别文本纠错模型。

如图8所示，在一可实施的方式中，第一获取模块11包括：

第二获取单元111，用于获取若干已增加预设噪音的所述语音样本；

生成单元112，采用ASR模型对所述语音样本进行识别生成若干初始语音错误文本；

具体地，采用ASR模型对目标语音训练样本通过Beam Search解码进行识别生成初始语音错误文本，且保存通过Beam Search解码进行识别获得的识别结果分数靠前的10条结果。

第一选取单元113，用于选取文字错误率高于设定阈值的所述初始语音错误文本作为每个所述语音样本对应的待训练的所述语音错误文本；

本方案，通过在语音训练样本中增加噪音来增加语音错误文本，从而获得大量有效的模型训练的样本数据，进而提高训练得到的语音识别文本纠错模型的准确性。

在一可实施的方式中，第一获取模块11还包括：

第二选取单元114，用于选取文字错误率高于设定阈值的所述初始语音错误文本作为每个所述目标语音训练样本对应的待训练的语音错误文本。

实施例4

如图9所示，本实施例公开了一种语音识别文本的纠错系统，所述纠错系统包括：

第三获取模块21，获取待处理的目标语音识别文本对应的语音关联参数；

文本纠错模块22，用于将所述目标语音文本对应的语音关联参数输入至实施例3中所述的语音识别文本纠错模型的生成系统得到的所述语音识别文本纠错模型中进行纠错处理，以得到纠错处理后的目标语音修正文本。

本实施例公开了一种语音识别文本的纠错系统，通过采用实施例3中所述的语音识别文本纠错模型的生成系统得到的所述语音识别文本纠错模型进行纠错，能够结合语音和识别文本的多模态的文本对语音识别后的语音识别文本进行纠错，从而提高语音识别文本的纠错准确率。另外，文本语音向量为语音在语音转换时生成的语音向量，使得无需占用资源生成语音向量，从而确保了自动语音识别的性能。

实施例5

图10为本发明实施例5提供的一种电子设备的结构示意图。所述电子设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现实施例1所提供的语音识别文本纠错模型的生成方法或实施例2所提供的语音识别文本的纠错方法。图10显示的电子设备30仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图10所示，电子设备30可以以通用计算设备的形式表现，例如其可以为服务器设备。电子设备30的组件可以包括但不限于：上述至少一个处理器31、上述至少一个存储器32、连接不同系统组件(包括存储器32和处理器31)的总线33。

总线33包括数据总线、地址总线和控制总线。

存储器32可以包括易失性存储器，例如随机存取存储器(RAM)321和/或高速缓存存储器322，还可以进一步包括只读存储器(ROM)323。

存储器32还可以包括具有一组(至少一个)程序模块324的程序/实用工具325，这样的程序模块324包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

处理器31通过运行存储在存储器32中的计算机程序，从而执行各种功能应用以及数据处理，例如本发明实施例1所提供的语音识别文本纠错模型的生成方法或实施例2所提供的语音识别文本的纠错方法。

电子设备30也可以与一个或多个外部设备34(例如键盘、指向设备等)通信。这种通信可以通过输入/输出(I/O)接口35进行。并且，模型生成的设备30还可以通过网络适配器36与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器36通过总线33与模型生成的设备30的其它模块通信。应当明白，尽管图中未示出，可以结合模型生成的设备30使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID(磁盘阵列)系统、磁带驱动器以及数据备份存储系统等。

应当注意，尽管在上文详细描述中提及了电子设备的若干单元/模块或子单元/模块，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本发明的实施方式，上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之，上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。

实施例6

本实施例提供了一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现实施例1所提供的语音识别文本纠错模型的生成方法或实施例2所提供的语音识别文本的纠错方法。

其中，可读存储介质可以采用的更具体可以包括但不限于：便携式盘、硬盘、随机存取存储器、只读存储器、可擦拭可编程只读存储器、光存储器件、磁存储器件或上述的任意合适的组合。

在可能的实施方式中，本发明还可以实现为一种程序产品的形式，其包括程序代码，当所述程序产品在终端设备上运行时，所述程序代码用于使所述终端设备执行实现实施例1所提供的语音识别文本纠错模型的生成方法或实施例2所提供的语音识别文本的纠错方法。

其中，可以以一种或多种程序设计语言的任意组合来编写用于执行本发明的程序代码，所述程序代码可以完全地在用户设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户设备上部分在远程设备上执行或完全在远程设备上执行。

虽然以上描述了本发明的具体实施方式，但是本领域的技术人员应当理解，这仅是举例说明，本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下，可以对这些实施方式做出多种变更或修改，但这些变更和修改均落入本发明的保护范围。

Claims

1.一种语音识别文本纠错模型的生成方法，其特征在于，所述生成方法包括：

其中，所述编码层用于输出所述语音错误文本的文本向量；

2.如权利要求1所述的语音识别文本纠错模型的生成方法，其特征在于，构建所述编码层的步骤包括：

采用双向LSTM，构建得到所述编码层；

将所述语音错误文本转换为对应的文本词向量；

将所述文本向量和所述文本语音向量输入至预先构建且依次连接的向量融合层、解码层和输出层中训练得到用于输出语音修正文本的所述语音识别文本纠错模型纠错后语义向量。

3.如权利要求2所述的语音识别文本纠错模型的生成方法，其特征在于，所述将所述文本向量和所述文本语音向量输入至预先构建且依次连接的向量融合层、解码层和输出层中训练得到用于输出语音修正文本的所述语音识别文本纠错模型的步骤包括：

4.如权利要求3所述的语音识别文本纠错模型的生成方法，其特征在于，所述对所述文本向量和所述文本语音向量采用预设融合方式进行融合处理，生成所述语音错误文本对应的所述文本语义向量的步骤包括：

5.如权利要求4所述的语音识别文本纠错模型的生成方法，其特征在于，所述将同一所述语音错误文本的所述文本向量和所述文本语音向量进行对齐处理的步骤包括：

6.如权利要求5所述的语音识别文本纠错模型的生成方法，其特征在于，所述获取所述语音错误文本中的每个文字对应的文字特征向量和文字语音向量步骤包括：

将所述目标语音帧转换为对应的所述文字语音向量；

7.如权利要求6所述的语音识别文本纠错模型的生成方法，其特征在于，获取每个所述文字对应的目标语音帧的步骤包括：

8.如权利要求3所述的语音识别文本纠错模型的生成方法，其特征在于，构建所述解码层的步骤包括：

采用双向LSTM，构建得到所述解码层；

对所述语音错误文本进行纠错处理以得到纠错结果；

9.如权利要求1所述的语音识别文本纠错模型的生成方法，其特征在于，所述生成方法还包括：

10.如权利要求1所述的语音识别文本纠错模型的生成方法，其特征在于，获取每个所述语音样本的所述语音错误文本的步骤包括：

获取若干已增加预设噪音的所述语音样本；

11.一种语音识别文本的纠错方法，其特征在于，所述纠错方法包括：

获取待处理的目标语音识别文本对应的语音关联参数；

将所述目标语音识别文本对应的语音关联参数输入至权利要求1-10中任一项所述的语音识别文本纠错模型的生成方法得到的所述语音识别文本纠错模型中进行纠错处理，以得到纠错处理后的目标语音修正文本。

12.一种语音识别文本纠错模型的生成系统，其特征在于，所述生成系统包括：

其中，所述编码层用于输出所述语音错误文本的文本向量；

13.一种语音识别文本的纠错系统，其特征在于，所述纠错系统包括：

文本纠错模块，用于将所述目标语音文本对应的语音关联参数输入至权利要求12中所述的语音识别文本纠错模型的生成系统得到的所述语音识别文本纠错模型中进行纠错处理，以得到纠错处理后的目标语音修正文本。

14.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至10任一项所述的语音识别文本纠错模型的生成方法或如权利要求11所述的语音识别文本的纠错方法。

15.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至10任一项所述的语音识别文本纠错模型的生成方法或如权利要求11所述的语音识别文本的纠错方法。