CN117174084B

CN117174084B - 一种训练数据构建方法及装置、电子设备和存储介质

Info

Publication number: CN117174084B
Application number: CN202311450699.7A
Authority: CN
Inventors: 请求不公布姓名
Original assignee: Moore Threads Technology Co Ltd
Current assignee: Moore Threads Technology Co Ltd
Priority date: 2023-11-02
Filing date: 2023-11-02
Publication date: 2024-05-31
Anticipated expiration: 2043-11-02
Also published as: CN117174084A

Abstract

本公开涉及自然语言处理领域，尤其涉及一种训练数据构建方法及装置、电子设备和存储介质，所述方法包括：获取音频信号；所述音频信号对应于原始文本，所述原始文本用于表征所述音频信号的语音内容；将所述音频信号输入到音频转文本模型中，得到目标文本；在所述目标文本与所述原始文本不同的情况下，利用所述原始文本和所述目标文本生成文本纠错模型对应的训练数据。本公开实施例可准确模拟现实场景下产生的文本错误，大幅度提升了文本纠错数据的质量。

Description

一种训练数据构建方法及装置、电子设备和存储介质

技术领域

本公开涉及自然语言处理领域，尤其涉及一种训练数据构建方法及装置、电子设备和存储介质。

背景技术

利用监督或半监督学习方法进行机器学习的过程中，需要利用训练数据作为机器学习算法的训练数据。训练数据的规模与质量对机器学习算法的效果和性能至关重要。

基于机器学习得到的文本纠错模型能够纠正文本中的错误，在对文本纠错模型进行训练时，会利用存在错误的文本数据作为训练样本。文本数据的规模与质量对训练得到的文本纠错模型的效果和性能至关重要。

现有的文本数据构建方法，无法有效模拟现实场景中的同音字词错误，对正常的编辑写作产生的错误基本无效，导致训练得到的文本纠错模型效果较差。

发明内容

有鉴于此，本公开提出了一种训练数据构建技术。

根据本公开的一方面，提供了一种训练数据构建方法，包括：

获取音频信号；所述音频信号对应于原始文本，所述原始文本用于表征所述音频信号的语音内容；

将所述音频信号输入到音频转文本模型中，得到目标文本；

在所述目标文本与所述原始文本不同的情况下，利用所述原始文本和所述目标文本生成文本纠错模型对应的训练数据。

在一种可能的实现方式中，所述获取音频信号，包括：

将原始文本输入到文本转语音模型中，得到音频信号。

在一种可能的实现方式中，所述将原始文本输入到文本转语音模型中，得到音频信号，包括：

利用所述文本转语音模型对所述原始文本进行基于上下文信息的音频生成处理，得到音频信号；

所述将所述音频信号输入到音频转文本模型中，得到目标文本，包括：

利用所述音频转文本模型对所述音频信号进行基于上下文信息的文本生成处理，得到目标文本。

在一种可能的实现方式中，在得到目标文本后，所述方法还包括：

对所述目标文本和所述原始文本进行一致性校验；

在所述目标文本与所述原始文本相同的情况下，删除所述原始文本和目标文本。

在一种可能的实现方式中，所述方法还包括：

将原始文本作为目标文本的样本标签，利用所述原始文本和所述目标文本对文本纠错模型进行训练。

在一种可能的实现方式中，所述将原始文本作为目标文本的样本标签，利用所述原始文本和所述目标文本对文本纠错模型进行训练，包括：

将所述目标文本输入到文本纠错模型中，得到纠错后的纠错文本；

将所述原始文本作为标签，确定所述纠错文本和原始文本之间的损失；

利用所述损失调整所述文本纠错模型的参数；

响应于满足预设条件，确定所述文本纠错模型训练完成。

在一种可能的实现方式中，所述方法还包括：

获取图像信号；所述图像信号对应于原始文本，所述图像信号中包含原始文本的文字内容；

将所述图像信号输入到文本识别模型中，得到识别文本；

在所述识别文本与所述原始文本不同的情况下，利用所述原始文本和所述目标文本生成文本纠错模型对应的训练数据。

在一种可能的实现方式中，在获取图像信号后，所述方法还包括：

在所述图像信号中添加噪声；

所述将所述图像信号输入到文本识别模型中，得到识别文本，包括：

将添加噪声后的图像信号输入到文本识别模型中，得到识别文本。

根据本公开的另一方面，提供了一种训练数据构建装置，包括：

音频信号获取模块，用于获取音频信号；所述音频信号对应于原始文本，所述原始文本用于表征所述音频信号的语音内容；

音频转文本模块，用于将所述音频信号输入到音频转文本模型中，得到目标文本；

第一数据构建模块，用于在所述目标文本与所述原始文本不同的情况下，利用所述原始文本和所述目标文本生成文本纠错模型对应的训练数据。

在一种可能的实现方式中，所述音频信号获取模块，用于：

将原始文本输入到文本转语音模型中，得到音频信号。

在一种可能的实现方式中，所述音频信号获取模块，用于：

在一种可能的实现方式中，所述装置还包括：

校验模块，用于对所述目标文本和所述原始文本进行一致性校验；

删除模块，用于在所述目标文本与所述原始文本相同的情况下，删除所述原始文本和目标文本。

在一种可能的实现方式中，所述装置还包括：

训练模块，用于将原始文本作为目标文本的样本标签，利用所述原始文本和所述目标文本对文本纠错模型进行训练。

在一种可能的实现方式中，所述训练模块，用于：

利用所述损失调整所述文本纠错模型的参数；

响应于满足预设条件，确定所述文本纠错模型训练完成。

在一种可能的实现方式中，所述装置还包括：

图像信号获取模块，用于获取图像信号；所述图像信号对应于原始文本，所述图像信号中包含原始文本的文字内容；

文本识别模块，用于将所述图像信号输入到文本识别模型中，得到识别文本；

第二数据构建模块，在所述识别文本与所述原始文本不同的情况下，利用所述原始文本和所述目标文本生成文本纠错模型对应的训练数据。

在一种可能的实现方式中，在获取图像信号后，所述装置还包括：

噪声添加模块，用于在所述图像信号中添加噪声；

所述文本识别模块，用于将添加噪声后的图像信号输入到文本识别模型中，得到识别文本。

根据本公开的另一方面，提供了一种训练数据构建装置，包括：处理器；用于存储处理器可执行指令的存储器；其中，所述处理器被配置为在执行所述存储器存储的指令时，实现上述方法。

根据本公开的另一方面，提供了一种非易失性计算机可读存储介质，其上存储有计算机程序指令，其中，所述计算机程序指令被处理器执行时实现上述方法。

根据本公开的另一方面，提供了一种计算机程序产品，包括计算机可读代码，或者承载有计算机可读代码的非易失性计算机可读存储介质，当所述计算机可读代码在电子设备的处理器中运行时，所述电子设备中的处理器执行上述方法。

在本公开实施例中，获取音频信号，所述音频信号对应于原始文本，所述原始文本用于表征所述音频信号的语音内容；然后再将所述音频信号输入到音频转文本模型中，得到目标文本；在所述目标文本与所述原始文本不同的情况下，利用所述原始文本和所述目标文本生成文本纠错模型对应的训练数据。由此，由于相同形状的词（文本）可能有不同的发音（语音）进而具有不同的词义，且同样的发音（语音）可能有不同的词义（文本），那么，经过音频转文本这个过程，能够有效构造同音不同义场景下的样本，准确模拟现实场景下产生的文本错误，大幅度提升了文本纠错数据的质量。

根据下面参考附图对示例性实施例的详细说明，本公开的其它特征及方面将变得清楚。

附图说明

包含在说明书中并且构成说明书的一部分的附图与说明书一起示出了本公开的示例性实施例、特征和方面，并且用于解释本公开的原理。

图1示出根据本公开一实施例的训练数据构建方法的流程图。

图2示出根据本公开实施例的应用场景示意图。

图3示出根据本公开实施例的另一应用场景示意图。

图4示出根据本公开实施例的训练数据构建装置的框图。

图5示出根据本公开实施例的一种电子设备的框图。

具体实施方式

以下将参考附图详细说明本公开的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面，但是除非特别指出，不必按比例绘制附图。

在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。

另外，为了更好的说明本公开，在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解，没有某些具体细节，本公开同样可以实施。在一些实例中，对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述，以便于凸显本公开的主旨。

在相关技术中，文本纠错模型的训练数据的构造方法主要有三种方法：

一种是人工标注方法，即通过人工的方式在正确文本中构建错误的语句，该方法成本过高，且耗时耗力；

一种是利用领域词典对原始文本进行增、删、改。根据同形不同义、同音不同义等规则对原始文本进行替换，随机对文本中词语进行增加、删除以及颠倒词序，使用规则的方式模拟现实场景中出现的文本错误，然而该种方案不能有效结合上文语境对原始文本添加噪音；

另一种方案则使用基于神经网络的文本生成模型、MLM（Mask Language Model）模型或者文本互译的方式加入噪音，构造纠错数据。但是受模型训练场景未考虑文本语音、字形等等特征的影响，无法有效构造同音不同义、同形不同义等场景下的样本，无法准确模拟现实场景下产生的文本错误。

图1示出根据本公开一实施例的训练数据构建方法的流程图。如图1所示，该方法包括：

在步骤S11中，获取音频信号；

所述音频信号对应于原始文本，所述原始文本用于表征所述音频信号的语音内容；

这里的原始文本可以是没有语义错误的文本，原始文本可以通过采集得到，或者从通用的数据库中得到，本公开对此不作限定。

在一种可能的实现方式中，所述获取音频信号，包括：将原始文本输入到文本转语音模型中，得到音频信号；

文本转语音模型能够将文本转换成语音，这里的语音即为文本的读音，那么得到的音频信号即为原始文本的读音。

文本转语音模型具体可以是神经网络模型，可以使用通用的文本转语音模型，或者可以通过样本训练来构建神经网络模型。对于具体的文本转语音模型，可参见本公开提供的可能的实现方式，此处不做赘述。

在步骤S12中，将所述音频信号输入到音频转文本模型中，得到目标文本；

音频转文本模型能够将语音转成文本，即将语音转换成对应发音的文本，将音频信号输入后，即可得到音频信号对应的文本。

音频转文本模型具体可以是神经网络模型，可以使用通用的音频转文本模型，或者可以通过样本训练来构建神经网络模型。对于具体的音频转文本模型，可参见本公开提供的可能的实现方式，此处不做赘述。

在步骤S13中，在所述目标文本与所述原始文本不同的情况下，利用所述原始文本和所述目标文本生成文本纠错模型对应的训练数据。

由于计算机模型往往并不是100%准确的，即文本转语音模型和音频转文本模型的输出往往并不是100%准确的，因此，原始文本经过文本转语音模型得到的音频信号可能会存在错误，音频信号经过音频转文本模型得到的目标文本中可能也会存在错误，当目标文本与原始文本不同的情况下，往往表明目标文本中存在错误。因此，在目标文本与原始文本不同的情况下，即可将目标文本作为文本纠错模型的训练数据。

此外，将原始文本输入到文本转语音模型中，得到音频信号，能够有效构造同形不同义场景下的样本，准确模拟现实场景下产生的文本错误，大幅度提升了文本纠错数据的质量，通过。

在一种可能的实现方式中，所述将原始文本输入到文本转语音模型中，得到音频信号，包括：利用所述文本转语音模型对所述原始文本进行基于上下文信息的音频生成处理，得到音频信号；所述将所述音频信号输入到音频转文本模型中，得到目标文本，包括：利用所述音频转文本模型对所述音频信号进行基于上下文信息的文本生成处理，得到目标文本。

在该实现方式中，文本转语音模型可以根据文本中的上下文语义，来预测文本的发音，该模型可以是基于神经网络的语音生成模型，通过矩阵乘操作、注意力提取操作和卷积操作，来结合文本的上下文语义，对文本的发音进行预测，得到原始文本对应的音频信号。示例性的，文本转语音模型可以是基于深度神经网络的TTS（Text To Speech）模型。

同样的，音频转文本模型可以根据语音中的上下文语义，来预测语音对应的文本，该模型可以是基于神经网络的文本生成模型，通过矩阵乘操作、注意力提取操作和卷积操作，来结合语音的上下文语义，对语音的文本进行预测，得到音频信号对应的目标文本。示例性的，音频转文本模型可以是基于深度神经网络的ASR（Automatic SpeechRecognition）模型。

在本公开实施例中，可以使用基于深度神经网络的TTS模型联合ASR模型，通过TTS模型将原始文本转语音，然后通过ASR模型将语音数据转文本。充分利用神经网络对文本、语音上下文本信息的融合，既有效解决了基于领域字典无法通过上下文语境对原始文本添加噪音的问题，同时解决了生成模型以及MLM模型构造样本时在同音字词错误场景下的缺失。充分利用语音模型的训练场景，完美将传统的两种方法的优点结合并弥补各自的不足，大幅度提升了文本纠错数据的质量。

在一种可能的实现方式中，在得到目标文本后，所述方法还包括：对所述目标文本和所述原始文本进行一致性校验；在所述目标文本与所述原始文本相同的情况下，删除所述原始文本和目标文本。

在该实现方式中，对目标文本和原始文本进行一致性校验，可以是对目标文本和原始文本中的具体内容进行一致性校验，可以逐字地对目标文本和原始文本进行一致性校验，在内容一致的情况下，即视为目标文本与原始文本相同，此时表明目标文本中不存在错误，因此无法作为训练文本纠错模型的数据，可以删除原始文本和目标文本。

在一种可能的实现方式中，所述方法还包括：获取图像信号；所述图像信号对应于原始文本，所述图像信号中包含原始文本的文字内容；将所述图像信号输入到文本识别模型中，得到识别文本；在所述识别文本与所述原始文本不同的情况下，利用所述原始文本和所述目标文本生成文本纠错模型对应的训练数据。

这里的图像信号可以是基于原始文本生成的图像，在一种示例中，可以是将文本排布于图像中得到的包含文本内容的图像。该图像的格式可以是JPG、PNG、BMP等格式。例如，针对原始文本“我爱自然语言”，可以在空白图像中添加文字“我爱自然语言”，得到原始文本对应的图像信号。

在获取到图像信号后，可以将图像输入到文本识别模型中，文本识别模型通过提取图像信号的视觉信息，然后对视觉信息进行处理得到文字，例如，可以对视觉信息进行序列建模，使得不同位置的文字序列得以进行联系，依据文字序列的上下位信息，获得了具有语义信息的特征序列，然后基于特征序列得到对应的文本。

由于计算机模型往往并不是100%准确的，即文本识别模型的输出往往并不是100%准确的，因此，图像信号中的原始文本经过文本识别模型得到的识别文本可能会存在错误，当识别文本与原始文本不同的情况下，往往表明识别文本中存在错误。且该错误是由于文本在视觉上的相似性造成的，因此，在目标文本与原始文本不同的情况下，即可将目标文本作为文本纠错模型的训练数据。

在本公开实施例中，通过获取图像信号；所述图像信号对应于原始文本，所述图像信号中包含原始文本的文字内容；将所述图像信号输入到文本识别模型中，得到识别文本；在所述识别文本与所述原始文本不同的情况下，利用所述原始文本和所述目标文本生成文本纠错模型对应的训练数据。由此，基于图像的视觉信息构建的训练数据，能够有效构造形似不同义场景下的样本，准确模拟现实场景下产生的文本错误，大幅度提升了文本纠错数据的质量。

在一种可能的实现方式中，在获取图像信号后，所述方法还包括：在所述图像信号中添加噪声；所述将所述图像信号输入到文本识别模型中，得到识别文本，包括：将添加噪声后的图像信号输入到文本识别模型中，得到识别文本。

这里的噪声可以是椒盐噪声、随机噪声和高斯噪声中的一种或多种，本公开对此不作限定，在将噪声添加到图像中后，会使得形似的字在视觉上更相似，进而无法区分开，然后将添加噪声后的图像信号输入到文本识别模型中，得到识别文本，使得由识别文本和原始文本构建的训练数据中存在更多的相似而义不同的错误，准确模拟现实场景下产生的文本错误，大幅度提升了文本纠错数据的质量。

在一种可能的实现方式中，所述方法还包括：将原始文本作为目标文本的样本标签，利用所述原始文本和所述目标文本对文本纠错模型进行训练。

这里的文本纠错模型用于纠正文本中的错误语句，并更正成正确的语句，其输入为文本，输出为纠错后的文本。可以将目标文本作为文本纠错模型的输入，将原始文本作为目标文本的标签，对文本纠错模型进行监督训练。

在本公开实施例中，由于本公开所使用的目标文本是通过原始文本经过转换得到的，目标文本可以视为带有语义错误的文本，原始文本是不带有语义错误的正确文本，因此，原始文本可以视作目标文本纠错后的正确文本，那么将原始文本作为目标文本的样本标签，来对文本纠错模型进行训练，可无需人工手动对目标文本添加纠错标签，提高了对文本纠错模型训练的效率，并且，由于原始文本相对于目标文本是准确的，提高了训练得到的文本纠错模型的纠错效果。

在一种可能的实现方式中，所述将原始文本作为目标文本的样本标签，利用所述原始文本和所述目标文本对文本纠错模型进行训练，包括：将所述目标文本输入到文本纠错模型中，得到纠错后的纠错文本；将所述原始文本作为标签，确定所述纠错文本和原始文本之间的损失；利用所述损失调整所述文本纠错模型的参数；响应于满足预设条件，确定所述文本纠错模型训练完成。

这里的预设条件可以是达到预设的迭代次数，或者，可以是文本纠错模型的准确率达到预设的准确率阈值，本公开对预设条件不做具体限定。

在该实现方式中，利用所述损失调整所述文本纠错模型的参数，以使得调整后的文本纠错模型的输出与原始文本之间的损失最小，实现对文本纠错模型的训练。文本纠错模型可以是端到端的神经网络模型，在对文本纠错模型进行训练时，文本纠错模型的输入为目标文本，输出为纠错后的纠错文本，该模型的损失值可以是通过纠错文本和正确文本（原始文本）来确定，利用该损失来调整纠错模型的参数，使得调整后的文本纠错模型的输出与原始文本之间的损失最小。由此，训练后的文本纠错模型的对目标文本的纠错结果能够无限地接近原始文本，提高了文本纠错模型的纠错效率。

下面对本公开实施例的一个应用场景进行说明。图2示出根据本公开实施例的应用场景示意图，在该应用场景中，文本转语音模型为TTS模型，音频转文本模型为ASR模型，该应用场景的具体过程可参见图2，将原始文本输入TTS模型执行文本转语音操作，得到音频信号，然后再将音频信号输入ASR模型执行语音转文字操作，生成文本。然后判断生成的文本和原始文本是否相同，如果相同则舍弃；不同则利用生成的文本和原始文本对文本纠错模型进行训练，最终得到训练好的文本纠错模型。

下面对本公开实施例的一个具体应用场景进行说明，图3示出根据本公开实施例的另一应用场景示意图，如图3所示，在该应用场景中，原始文本为“我爱自然语言。”，该原始文本经TTS模型将文本语音转为音频信号。然后将音频信号传入ASR模型；使用ASR模型将音频信号转换为目标文本；最终输出目标文本“我爱自然预言。”

经过上述操作，将原始正确的文本“语言”预测为“预言”；判断出输出数据与原始数据不同，使用生成的带有错误的“我爱自然预言”作为纠错模型输入，使用原始文本“我爱自然语言”作为标签，对文本纠错模型进行训练。

本公开实施例提供的训练数据构建方法，能够真实地模拟现实编辑场景中可能出现的问题，例如，同形不同义、同音不同义、漏打字、多打字等，目标文本与原始文本的长度差异非常小，其文本的长度可控，而传统的生成模型所生成的文本长度不可控，且产生的噪音往往与现实场景中的文本编辑错误不同；另外，MLM模型只能产生与原始文本相同长度的纠错数据，对于漏打字、多打字等场景不适用，而本申请能够很好地模拟现实编辑场景中出现的漏打字和多打字的场景；回译方式引入的错误主要是翻译场景中不同语言的互译产生的偏差，与现实编辑场景契合度不高。

可以理解，本公开提及的上述各个方法实施例，在不违背原理逻辑的情况下，均可以彼此相互结合形成结合后的实施例，限于篇幅，本公开不再赘述。本领域技术人员可以理解，在具体实施方式的上述方法中，各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。

此外，本公开还提供了图像处理装置、电子设备、计算机可读存储介质、程序，上述均可用来实现本公开提供的任一种图像处理方法，相应技术方案和描述参见方法部分的相应记载，不再赘述。

图4示出根据本公开实施例的训练数据构建装置的框图，如图4所示，所述训练数据构建装置40包括：

音频信号获取模块41，用于获取音频信号；所述音频信号对应于原始文本，所述原始文本用于表征所述音频信号的语音内容；

音频转文本模块42，用于将所述音频信号输入到音频转文本模型中，得到目标文本；

第一数据构建模块43，用于在所述目标文本与所述原始文本不同的情况下，利用所述原始文本和所述目标文本生成文本纠错模型对应的训练数据。

在一种可能的实现方式中，所述音频信号获取模块，用于：

将原始文本输入到文本转语音模型中，得到音频信号。

在一种可能的实现方式中，所述音频信号获取模块，用于：

在一种可能的实现方式中，所述装置还包括：

在一种可能的实现方式中，所述训练模块，用于：

利用所述损失调整所述文本纠错模型的参数；

响应于满足预设条件，确定所述文本纠错模型训练完成。

在一种可能的实现方式中，所述装置还包括：

噪声添加模块，用于在所述图像信号中添加噪声；

在一些实施例中，本公开实施例提供的装置具有的功能或包含的模块可以用于执行上文方法实施例描述的方法，其具体实现可以参照上文方法实施例的描述，为了简洁，这里不再赘述。

本公开实施例还提出一种计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令被处理器执行时实现上述方法。计算机可读存储介质可以是易失性或非易失性计算机可读存储介质。

本公开实施例还提出一种电子设备，包括：处理器；用于存储处理器可执行指令的存储器；其中，所述处理器被配置为在执行所述存储器存储的指令时，实现上述方法。

本公开实施例还提供了一种计算机程序产品，包括计算机可读代码，或者承载有计算机可读代码的非易失性计算机可读存储介质，当所述计算机可读代码在电子设备的处理器中运行时，所述电子设备中的处理器执行上述方法。

图5示出根据本公开实施例的一种电子设备1900的框图。例如，装置1900可以被提供为一服务器或终端设备。参照图5，装置1900包括处理组件1922，其进一步包括一个或多个处理器，以及由存储器1932所代表的存储器资源，用于存储可由处理组件1922的执行的指令，例如应用程序。存储器1932中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理组件1922被配置为执行指令，以执行上述方法。

装置1900还可以包括一个电源组件1926被配置为执行装置1900的电源管理，一个有线或无线网络接口1950被配置为将装置1900连接到网络，和一个输入输出接口1958（I/O接口）。装置1900可以操作基于存储在存储器1932的操作系统，例如Windows Server^TM，MacOS X^TM，Unix^TM, Linux^TM，FreeBSD^TM或类似。

在示例性实施例中，还提供了一种非易失性计算机可读存储介质，例如包括计算机程序指令的存储器1932，上述计算机程序指令可由装置1900的处理组件1922执行以完成上述方法。

本公开可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于使处理器实现本公开的各个方面的计算机可读程序指令。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子（非穷举的列表）包括：便携式计算机盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（EPROM或闪存）、静态随机存取存储器（SRAM）、便携式压缩盘只读存储器（CD-ROM）、数字多功能盘（DVD）、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波（例如，通过光纤电缆的光脉冲）、或者通过电线传输的电信号。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本公开操作的计算机程序指令可以是汇编指令、指令集架构（ISA）指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码，所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等，以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机（例如利用因特网服务提供商来通过因特网连接）。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列（FPGA）或可编程逻辑阵列（PLA），该电子电路可以执行计算机可读程序指令，从而实现本公开的各个方面。

这里参照根据本公开实施例的方法、装置（系统）和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本公开的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

以上已经描述了本公开的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

1.一种训练数据构建方法，其特征在于，包括：

将原始文本输入到文本转语音模型中，得到音频信号；所述音频信号对应于原始文本，所述原始文本用于表征所述音频信号的语音内容；

将所述音频信号输入到音频转文本模型中，得到目标文本；

在所述目标文本与所述原始文本不同的情况下，利用所述原始文本和所述目标文本生成文本纠错模型对应的训练数据，其中，所述原始文本作为目标文本的标签，所述目标文本为文本纠错模型的输入。

2.根据权利要求1所述的方法，其特征在于，所述将原始文本输入到文本转语音模型中，得到音频信号，包括：

3.根据权利要求1所述的方法，其特征在于，在得到目标文本后，所述方法还包括：

对所述目标文本和所述原始文本进行一致性校验；

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：

5.根据权利要求4所述的方法，其特征在于，所述将原始文本作为目标文本的样本标签，利用所述原始文本和所述目标文本对文本纠错模型进行训练，包括：

利用所述损失调整所述文本纠错模型的参数；

响应于满足预设条件，确定所述文本纠错模型训练完成。

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

将所述图像信号输入到文本识别模型中，得到识别文本；

7.根据权利要求6所述的方法，其特征在于，在获取图像信号后，所述方法还包括：

在所述图像信号中添加噪声；

8.一种训练数据构建装置，其特征在于，包括：

音频信号获取模块，用于将原始文本输入到文本转语音模型中，得到音频信号；所述音频信号对应于原始文本，所述原始文本用于表征所述音频信号的语音内容；

数据构建模块，用于在所述目标文本与所述原始文本不同的情况下，利用所述原始文本和所述目标文本生成文本纠错模型对应的训练数据，其中，所述原始文本作为目标文本的标签，所述目标文本为文本纠错模型的输入。

9.一种训练数据构建装置，其特征在于，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为在执行所述存储器存储的指令时，实现权利要求1至7中任意一项所述的方法。

10.一种非易失性计算机可读存储介质，其上存储有计算机程序指令，其特征在于，所述计算机程序指令被处理器执行时实现权利要求1至7中任意一项所述的方法。