CN115270770B

CN115270770B - 基于文本数据的纠错模型的训练方法及装置

Info

Publication number: CN115270770B
Application number: CN202210805129.4A
Authority: CN
Inventors: 杨明祺; 胡云燎
Original assignee: Mingri Dream Beijing Technology Co ltd
Current assignee: Mingri Dream Beijing Technology Co ltd
Priority date: 2022-07-08
Filing date: 2022-07-08
Publication date: 2023-04-07
Anticipated expiration: 2042-07-08
Also published as: CN115270770A

Abstract

本发明提供了一种基于文本数据的纠错模型的训练方法及装置。该训练方法包括：获取第一文本和第二文本，第一文本是通过语音识别获得的语音文本，第二文本是不通过语音识别获得的文本；对第一文本进行统计和/或分析，获取第一文本的错误模式；根据错误模式，修改第二文本，以获取第三文本，其中第三文本用于模拟第一文本且第三文本和第一文本具有相同的错误模式；利用第一文本、第二文本和第三文本，对文本纠错模型进行训练。

Description

基于文本数据的纠错模型的训练方法及装置

技术领域

本发明涉及大数据处理领域，尤其涉及一种基于文本数据的纠错模型的训练方法及装置。

背景技术

随着人工智能相关技术的日益成熟，近年来，语音识别技术取得显著进步，语音识别系统被广泛应用于工业、通信、医疗、教育、家庭服务和电子产品等多种领域。但是，由于语言的同音词、停顿、组词和断句的不同、不同音频的质量参差不齐以及语音识别系统本身的识别能力有限，令语音识别系统识别出的语音文本存在识别错误的可能，从而无法达到完全正确的识别效果。因此，目前的做法是对语音识别结果进行纠错，以提高语音识别结果的准确性。

语音识别纠错模型(在本文中也可被称为语音文本纠错模型或简称为纠错模型)的输入信息是基于语音识别系统输出的语音文本，输出的是经过纠错的语音文本。语音识别纠错模型例如可以是FastCorrect、FastCorrect 2等。此种语音识别纠错模型通常需要预先进行训练，训练过程依赖于音频和音频所对应的正确文本，但是音频和对应的正确文本的获取成本较高、数量有限，例如语音文本的数量仅有数万条或数十万条，因此纠错模型存在训练不充分的情况。

发明内容

本发明的目的在于提供一种基于文本数据的纠错模型的训练方法及装置，从而解决现有技术中存在的前述问题。

为了实现上述目的，本发明采用的技术方案如下：

第一方面，本发明提供了一种基于文本数据的纠错模型的训练方法，包括：获取第一文本和第二文本，第一文本是通过语音识别获得的语音文本，第二文本是不通过语音识别获得的文本；对第一文本进行统计和/或分析，获取第一文本的错误模式；根据错误模式，修改第二文本，以获取第三文本，其中第三文本用于模拟第一文本且第三文本和第一文本具有相同的错误模式；利用第一文本、第二文本和第三文本，对文本纠错模型进行训练。

在一种可选地实施方式中，错误模式包括至少一种错误类型、和至少一种错误类型中的每种错误类型的出现次数或出现频率，至少一种错误类型包括替换错误类型、删除错误类型和增加错误类型中的至少一者。

在一种可选地实施方式中，对第一文本进行统计和/或分析，获取第一文本的错误模式，包括：对第一文本及对应的正确文本进行比较，获取至少一种错误类型；统计至少一种错误类型中的每种错误类型的出现次数或出现频率。

在一种可选地实施方式中，利用第一文本、第二文本和第三文本，对文本纠错模型进行训练，包括：使用第一训练集，对文本纠错模型进行第一轮训练，第一训练集由第三文本和第二文本组成；使用第二训练集，对完成第一轮训练的文本纠错模型进行第二轮训练，第二训练集由第一文本和对应的正确文本组成。

在一种可选地实施方式中，利用第一文本、第二文本和第三文本，对文本纠错模型进行训练，包括：使用第三训练集，对文本纠错模型进行训练，第三训练集由第三文本及第二文本对和第一文本及对应的正确文本对组成。

第二方面，本发明提供了一种基于文本数据的纠错模型的训练装置，包括：获取单元，用于获取第一文本和第二文本，第一文本是通过语音识别获得的语音文本，第二文本是不通过语音识别获得的文本；统计及分析单元，用于对第一文本进行统计和/或分析，获取第一文本的错误模式；修改单元，用于根据错误模式，修改第二文本，以获取第三文本，其中第三文本用于模拟第一文本且第三文本和第一文本具有相同的错误模式；训练单元，用于利用第一文本、第二文本和第三文本，对文本纠错模型进行训练。

第三方面，本发明提供了一种纠错模型的训练装置，包括处理器和存储器，存储器用于存储程序指令，处理器用于调用程序指令以执行上述第一方面中任一项的方法。

第四方面，本发明提供了一种计算机可读存储介质，计算机可读存储介质存储用于由设备执行的程序代码，程序代码包括用于执行如上述第一方面中任一项的方法。

本发明的有益效果是：本发明公开了一种基于文本数据的纠错模型的训练方法及装置，利用相对于语音文本更容易获取的非语音文本通过伪造语音文本会出现的错误来模拟语音文本，并利用大量非语音本文结合语音文本对纠错模型进行训练，从而解决利用语音文本对纠错模型进行训练时的训练不充分的问题。本发明大大减少了纠错模型的训练文本的获取成本，并能够保证纠错模型的训练效果。

附图说明

图1是根据本发明至少一个实施例提供的一种基于文本数据的纠错模型的训练方法的流程示意图；

图2是根据本发明至少一个实施例提供的一种基于文本数据的纠错模型的训练装置的结构示意图；

图3是根据本发明至少一个实施例提供的一种纠错模型的训练装置的示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图，对本发明实施例的技术方案进行清楚、完整地描述。显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于所描述的本发明的实施例，本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

除非另外定义，本发明使用的技术术语或者科学术语应当为本发明所属领域内具有一般技能的人士所理解的通常意义。本发明中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同，而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电性的连接，不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系，当被描述对象的绝对位置改变后，则该相对位置关系也可能相应地改变。

本发明公开了一种基于文本数据的纠错模型的训练方法及装置，利用相对于语音文本更容易获取的非语音文本通过伪造语音文本会出现的错误来模拟语音文本，并利用大量非语音本文结合语音文本对纠错模型进行训练，从而解决利用语音文本对纠错模型进行训练时的训练不充分的问题。本发明大大减少了纠错模型的训练文本的获取成本，并能够保证纠错模型的训练效果。

图1为根据本发明至少一个实施例提供的基于文本数据的纠错模型的训练方法的流程示意图。

如图1所示，基于文本数据的纠错模型的训练方法包括以下步骤：

步骤S101，获取第一文本和第二文本，第一文本是通过语音识别获得的语音文本，第二文本是不通过语音识别获得的文本。

步骤S102，对第一文本进行统计和/或分析，获取第一文本的错误模式。

步骤S103，根据错误模式，修改第二文本，以获取第三文本，其中第三文本用于模拟第一文本且第三文本和第一文本具有相同的错误模式。

步骤S104，利用第一文本、第二文本和第三文本，对文本纠错模型进行训练。

执行步骤S101。例如，第一文本是使用语音识别系统或语音识别模型对音频进行语音识别得到的语音文本，比如使用FastCorrect模型对音频数据进行语音识别。第二文本是非语音文本，例如，第二文本是从互联网中获得的文本。本发明中获取第一文本和第二文本的数量大于1，例如获取10万条第一文本和200万条第二文本。

本发明的实施例中，语音文本常见的错误类型包括替换错误类型、删除错误类型和增加错误类型。其中，替换错误是指音频对应的正确文字被错误文字所替代；删除错误是指音频对应的正确文字没有识别出，从而识别文本的长度小于正确文字的长度；增加错误则是指识别出了比音频对应的正确文字更多的文字。例如，音频对应的正确文字是“你去哪里呀”，而识别出的第一文本是“你住哪里呀”，这里出现了替换错误：<去，住>。又如，音频对应的正确文字是“你去哪里呀”，而识别出的第一文本是“去哪里呀”，这里出现了删除错误：<你>。再如，音频对应的正确文字是“你去哪里呀”，而识别出的第一文本是“你们去哪里呀”，这里出现了增加错误：<们>。

在执行步骤S102时，针对全部的第一文本，统计每个第一文本中出现的错误的错误类型以及每种错误类型出现的次数。根据每种错误类型的出现次数及所有错误的出现次数，分析得到每种错误类型的出现频率。第一文本的错误模式包括第一文本的错误类型和每种错误类型的出现次数或出现频率。出现频率也可以被称为出现概率。可以理解地，本实施例中的第一文本的错误类型还可以包括除了替换错误类型、删除错误类型和增加错误类型之外的其他错误类型。依然可以理解地，第一文本的错误类型可以包括替换错误类型、删除错误类型和增加错误类型中的一种或多种。

例如，将第一文本与音频对应的正确文本逐一对应地进行比较，得出每个第一文本的错误，然后经过统计，第一文本共出现10000个错误，其中替换错误共5356个，删除错误共2950个，增加错误共1694个。更具体地，还可以统计每种错误类型中具体的错误信息，例如，在替换错误中，错误信息为<去,住>的替换错误出现了10次，错误信息为<了,呀>的替换错误出现了100次。继续沿用前例，替换错误的出现概率为53.56％，删除错误的出现概率为29.5％，增加错误的出现概率为16.94％，其中，错误信息为<去,住>的替换错误的出现概率为0.1％，而错误信息为<了,呀>的替换错误出现概率为1％。

执行步骤S103。例如，根据第一文本的错误模式，对第二文本进行替换、删除和增加等操作，得到第三文本。得到的第三文本可模拟语音识别出的具有错误的语音文本，第二文本则可以模拟音频对应的正确文本。

例如，对于替换错误，错误信息为<去,住>的错误的出现概率是0.00001％，那么就将第二文本中的相同比例(0.00001％)的‘去’替换成‘住’；错误信息为<去,走>错误的概率是0.00002％，则将第二文本中，相同比例(0.00002％)的‘去’替换成‘住’。以此方法，将全部的替换错误情况都对应替换一遍。对于删除错误。错误信息为‘你’的删除错误的出现概率是0.0001％，那么将第二文本中的0.0001％的‘你’删除。其他的删除错误采用相同的方式处理。而对于增加错误。错误信息为‘们’的增加错误的概率是0.0005％，以0.0005％的比例，在第二文本中增加‘们’。其他增加错误采用相同的方式处理。可选地，错误信息中还可以包括错误类型的标识信息，从而根据标识信息就可以确定错误信息对应的错误类型，例如，删除错误类型的标识信息为“0”，替换错误类型的标识信息为“1”，增加错误类型的标识信息为“2”。

可选地，在执行步骤S104时，可以使用第一训练集，对文本纠错模型进行第一轮训练，第一训练集由第三文本和第二文本组成；使用第二训练集，对完成第一轮训练的文本纠错模型进行第二轮训练，第二训练集由第一文本和对应的正确文本组成。

例如，将步骤S103得到的第三文本和第二文本对应组成第一训练集，先利用第一训练集对文本纠错模型进行训练，此处理也可以称为预训练，得到第一轮训练后的文本纠错模型。然后再利用第二训练集对第一轮训练后的文本纠错模型进行训练，得到训练好的文本纠错模型。由于第一训练集是由非语音文本来模拟存在错误的语音文本，因此仅使用第一训练集来训练文本纠错模型存在训练效果不佳的可能，由于第二训练集是真是出现错误的语音文本构成的，继续利用第二训练集来进行第二轮训练则可以有效的调整文本纠错模型，并且可以有效的降低对第二训练集中的训练样本的数量的需求。

依然可选地，在执行步骤S104时，还可以使用第三训练集，对文本纠错模型进行训练，第三训练集由第三文本及第二文本对和第一文本及对应的正确文本对组成。

在本实施例中，可以将第二文本和第三文本组成的文本对、以及第一文本和正确文本组成的文本对合并起来构成第三训练集，然后利用第三训练集对文本纠错模型进行仅一轮的训练。本实施例可以减少训练的轮次，并能够达到较佳的训练效果。

在一个实施例中，本发明还提供了一种基于文本数据的纠错模型的训练装置。图2为一种基于文本数据的纠错模型的训练装置的结构示意图。

如图2所示，基于文本数据的纠错模型的训练装置200包括获取单元201、统计及分析单元202、修改单元203和训练单元204。

获取单元201，用于获取第一文本和第二文本，第一文本是通过语音识别获得的语音文本，第二文本是不通过语音识别获得的文本。

统计及分析单元202，用于对第一文本进行统计和/或分析，获取第一文本的错误模式。

修改单元203，用于根据错误模式，修改第二文本，以获取第三文本，其中第三文本用于模拟第一文本且第三文本和第一文本具有相同的错误模式。

训练单元204，用于利用第一文本、第二文本和第三文本，对文本纠错模型进行训练。

基于文本数据的纠错模型的训练装置200可执行如方法实施例中描述的方法，具体的执行方式可参见方法实施例的描述，在此不再赘述。

图3示出了一种纠错模型的训练装置300的示意图。

在图3中，纠错模型的训练装置300包括处理器301和存储器302。存储器302用于存储程序指令，处理器301用于调用程序指令以执行上述方法实施例中任一项的方法。处理器301执行上述方法实施例中的方法可参见方法实施例的描述，在此不再赘述。

第四方面，本发明提供了一种计算机可读存储介质，计算机可读存储介质存储用于由设备执行的程序代码，程序代码包括用于执行如上述方法实施例中任一项的方法。执行如上述方法实施例中的方法可参见方法实施例的描述，在此不再赘述。

通过采用本发明公开的上述技术方案，得到了如下有益的效果：

结合本文公开的实施例描述的各种说明性逻辑块、模块、电路和算法操作可以实现为电子硬件、计算机软件或两者的组合。为了清楚地说明硬件和软件的这种可互换性，各种说明性组件、块、模块、电路和操作已在上面大体上根据它们的功能进行了描述。这种功能是作为硬件还是软件实现取决于特定应用程序和施加在整个系统上的设计约束。熟练的技术人员可以针对每个特定应用以不同的方式实现所描述的功能，但是这种实现决策不应被解释为导致偏离权利要求的范围。

用于实现结合本文公开的实施例描述的各种说明性逻辑、逻辑块、模块和电路的硬件可以用通用处理器、数字信号处理器(DSP)、专用应用来实现或执行集成电路(TCUASIC)、现场可编程门阵列(FPGA)或其他可编程逻辑器件、分立门或晶体管逻辑、分立硬件组件或设计用于执行本文所述功能的任何组合。通用处理器可以是微处理器，但在备选方案中，处理器可以是任何常规处理器、控制器、微控制器或状态机。处理器也可以实现为计算设备的组合，例如，DSP和微处理器的组合、多个微处理器、一个或多个微处理器与DSP核心相结合，或任何其他这样的配置。或者，一些操作或方法可以由特定于给定功能的电路来执行。

在一个或多个实施例中，所描述的功能可以在硬件、软件、固件或其任何组合中实现。如果以软件实现，则这些功能可以作为一个或多个指令或代码存储在非暂态计算机可读介质或非暂态处理器可读介质上。本文公开的方法或算法的操作可以体现在处理器可执行软件模块中，该软件模块可以驻留在非暂时性计算机可读或处理器可读存储介质上。非暂时性计算机可读或处理器可读存储介质可以是可由计算机或处理器访问的任何存储介质。作为示例而非限制，此类非暂时性计算机可读或处理器可读介质可包括RAM、ROM、EEPROM、闪存、CD-ROM或其他光盘存储、磁盘存储或其他磁存储设备，或可用于以指令或数据结构的形式存储所需程序代码并且可由计算机访问的任何其他介质。如本文所用，盘和盘包括压缩盘(CD)、激光盘、光盘、数字通用盘(DVD)、软盘和蓝光光盘，其中盘通常以磁性方式再现数据，而盘以激光方式以光学方式再现数据.以上的组合也包括在非暂时性计算机可读和处理器可读介质的范围内。此外，方法或算法的操作可以作为一个或任何组合或一组代码和/或指令驻留在非暂时性处理器可读介质和/或计算机可读介质上，其可以并入计算机程序产品中。

提供所公开实施例的前述描述以使本领域的任何技术人员能够制定或使用权利要求。对这些实施例的各种修改对于本领域技术人员来说将是显而易见的，并且本文定义的一般原理可以应用于其他实施例而不背离权利要求的范围。因此，本发明不旨在限于本文所示的实施例，而是要符合与权利要求以及本文公开的原理和新颖特征一致的最宽范围。

Claims

1.一种基于文本数据的纠错模型的训练方法，其特征在于，包括：

获取第一文本和第二文本，所述第一文本是通过语音识别获得的语音文本，所述第二文本是不通过语音识别获得的文本；

对所述第一文本进行统计和/或分析，获取所述第一文本的错误模式；

根据所述错误模式，修改所述第二文本，以获取第三文本，其中所述第三文本用于模拟所述第一文本且所述第三文本和所述第一文本具有相同的错误模式；以及

利用所述第一文本、所述第二文本和所述第三文本，对文本纠错模型进行训练；

所述利用所述第一文本和所述第三文本，对文本纠错模型进行训练，包括：

使用第一训练集，对所述文本纠错模型进行第一轮训练，所述第一训练集由所述第三文本和所述第二文本组成；

使用第二训练集，对完成所述第一轮训练的所述文本纠错模型进行第二轮训练，所述第二训练集由所述第一文本和对应的正确文本组成；

或者

使用第三训练集，对所述文本纠错模型进行训练，所述第三训练集由所述第三文本及所述第二文本组成的文本对，和所述第一文本及对应的正确文本组成的文本对组成。

2.根据权利要求1所述的方法，其特征在于，所述错误模式包括至少一种错误类型、和所述至少一种错误类型中的每种错误类型的出现次数或出现频率，所述至少一种错误类型包括替换错误类型、删除错误类型和增加错误类型中的至少一者。

3.根据权利要求2所述的方法，其特征在于，所述对所述第一文本进行统计和/或分析，获取所述第一文本的错误模式，包括：

对所述第一文本及对应的正确文本进行比较，获取所述至少一种错误类型；

统计所述至少一种错误类型中的每种错误类型的出现次数或出现频率。

4.一种基于文本数据的纠错模型的训练装置，其特征在于，包括：

获取单元，用于获取第一文本和第二文本，所述第一文本是通过语音识别获得的语音文本，所述第二文本是不通过语音识别获得的文本；

统计及分析单元，用于对所述第一文本进行统计和/或分析，获取所述第一文本的错误模式；

修改单元，用于根据所述错误模式，修改所述第二文本，以获取第三文本，其中所述第三文本用于模拟所述第一文本且所述第三文本和所述第一文本具有相同的错误模式；和

训练单元，用于利用所述第一文本、所述第二文本和所述第三文本，对文本纠错模型进行训练；

利用所述第一文本和所述第三文本，对文本纠错模型进行训练，包括：

或者

5.一种纠错模型的训练装置，其特征在于，包括处理器和存储器，所述存储器用于存储程序指令，所述处理器用于调用所述程序指令以执行权利要求1-3中任一项所述的方法。

6.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储用于由设备执行的程序代码，所述程序代码包括用于执行如权利要求1-3中任一项所述的方法。