CN116189664B

CN116189664B - Asr文本纠错训练样本集的构造方法、系统和电子设备

Info

Publication number: CN116189664B
Application number: CN202211598033.1A
Authority: CN
Inventors: 孙晓兵
Original assignee: Shumei Tianxia Beijing Technology Co ltd; Beijing Nextdata Times Technology Co ltd
Current assignee: Shumei Tianxia Beijing Technology Co ltd; Beijing Nextdata Times Technology Co ltd
Priority date: 2022-12-12
Filing date: 2022-12-12
Publication date: 2023-07-28
Anticipated expiration: 2042-12-12
Also published as: CN116189664A

Abstract

本发明涉及语音识别技术领域，尤其涉及一种ASR文本纠错训练样本集的构造方法、系统和电子设备，方法包括：对预设音频库中的任一音频的人工标注语料和ASR转译文本进行编辑距离对齐，得到该音频对应的对齐文本对，得到每个对齐文本对中的待构造字词对，得到每个音频的待构造字词对应的第一训练样本，根据所有待构造字词对得到字词级别的的混淆集，根据所述字词级别的的混淆集得到通用领域的每个纯文本语料对应的字级别的训练样本，以及得到所述预设应用领域的每个纯文本语料对应的训练样本，由此得到最终的训练样本集，能够对最终的训练样本集进行高质量地数据规模扩充。

Description

ASR文本纠错训练样本集的构造方法、系统和电子设备

技术领域

本发明涉及语音识别技术领域，尤其涉及一种ASR文本纠错训练样本集的构造方法、系统和电子设备。

背景技术

ASR文本纠错是针对自动语音识别ASR系统转译出的文本进行错误纠正的方法。近年来基于端到端的纠错方法已经广泛应用于纠错领域，并且纠错训练数据的质量和数量是影响纠错效果的关键因素。

ASR文本纠错任务中的错误类型一般分为插入、删除、替换三种，即将标注文本和转译对齐后在错误位置的分类。一般领域中插入、删除错误占比较少，替换错误较多。传统纠错数据构建方法是直接使用ASR转译文本和标注文本进行编辑距离对齐，形成纠错训练数据对。当使用传统方法构造的数据训练模型时，对于插入和删除两种错误的纠正，由于没有显式的约束，经常出现纠多字和少字的离谱情况；对于替换错误，由于非音近的错误基数多、分布分散，导致非音近的纠错准确率极低。在实际应用过程中，原生构造的纠错训练数据带来的这两种问题是ASR系统难以接受的。

由于获取海量ASR数据的人工标注成本过高，尤其是在特定的应用领域，为了弥补数据缺少的问题，多数研究尝试通过数据增强的方法扩充ASR纠错训练数据的规模。现有数据规模扩充的方式主要是通过随机替换正确文本的词来产生新的错误文本，这种方式虽然可以提升数量，但是也会产生大量现实中不会产生的错误，从而分散模型的学习能力，降低模型性能。

发明内容

本发明所要解决的技术问题是针对现有技术的不足，提供了一种ASR文本纠错训练样本集的构造方法、系统和电子设备。

本发明的一种ASR文本纠错训练样本集的构造方法的技术方案如下：

获取预设应用领域的预设重要词词表；

对预设音频库中的任一音频的人工标注语料和ASR转译文本进行编辑距离对齐，得到该音频对应的对齐文本对，对该对齐文本对中的错误进行判别，得到该音频对应的判别结果，直至得到每个音频对应判别结果；

根据任一判别结果，确定该判别结果对应的对齐文本对中的待构造字词对，直至得到每个对齐文本对中的待构造字词对；

以任一音频的待构造字词和ASR转译文本为模板，以及以该音频的待构造字词和人工标注语料为模板，基于通用领域的音近字错误和所述预设应用领域的词错误的字词多粒度融合的构造策略，构建该音频的待构造字词对应的两个第一训练样本，直至得到每个音频的待构造字词对应的第一训练样本；

根据所有待构造字词对得到字词级别的的混淆集，根据所述字词级别的的混淆集得到通用领域的每个纯文本语料对应的字级别的训练样本，以及得到所述预设应用领域的每个纯文本语料对应的训练样本；

对所有的第一训练样本、通用领域的每个纯文本语料对应的字级别的训练样本和所述预设应用领域的每个纯文本语料对应的训练样本进行组合，得到最终的训练样本集。

本发明的一种ASR文本纠错训练样本集的构造方法的有益效果如下：

一方面，既保留了错误分布集中的音近类型，又缩减了插入、删除、非音近等错误分布分散的范围，在提高数据质量的同时兼容了应用领域知识纠错的适用性。另一方面，分别以每个音频的待构造字词和ASR转译文本为模板，用字词多粒度融合的构造策略来构造纠错训练样本，能够对最终的训练样本集进行高质量地数据规模扩充，而且，根据所有待构造字词对得到字词级别的的混淆集，分别在通用领域和预设应用领域的纯文本样本二次构造，再次对最终的训练样本集进行高质量地数据规模扩充。

在上述方案的基础上，本发明的一种ASR文本纠错训练样本集的构造方法还可以做如下改进。

进一步，所述字词级别的的混淆集包括字级别的混淆表和词级别的混淆表，根据所述字词级别的的混淆集得到通用领域的每个纯文本语料对应的字级别的训练样本，以及得到所述预设应用领域的每个纯文本语料对应的训练样本，包括：

使用所述字级别的混淆表对通用领域的每个纯文本语料进行构建，得到通用领域的每个纯文本语料对应的字级别的训练样本；

依次使用所述词级别的混淆表和所述字级别的混淆表对预设应用领域的每个纯文本语料进行构建，得到预设应用领域的每个纯文本语料对应的训练样本。

进一步，对任一对齐文本对的的错误进行判别的过程包括：

根据音近规则和预设重要词词表，对任一对齐文本对的的错误进行判别。

进一步，还包括：

基于所述纠错训练样本集对ASR模型进行训练，得到训练好的ASR模型；

将预设应用领域的待识别音频输入所述训练好的ASR模型，得到所述待识别音频的文本。

本发明的一种ASR文本纠错训练样本集的构造系统的技术方案如下：

包括获取模块、判别模块、确定模块、构建模块和组合模块；

所述获取模块用于：获取预设应用领域的预设重要词词表；

所述判别模块用于：对预设音频库中的任一音频的人工标注语料和ASR转译文本进行编辑距离对齐，得到该音频对应的对齐文本对，对该对齐文本对中的错误进行判别，得到该音频对应的判别结果，直至得到每个音频对应判别结果；

所述确定模块用于：根据任一判别结果，确定该判别结果对应的对齐文本对中的待构造字词对，直至得到每个对齐文本对中的待构造字词对；

所述构建模块用于：

所述组合模块用于：对组合所有的第一训练样本、通用领域的每个纯文本语料对应的字级别的训练样本和所述预设应用领域的每个纯文本语料对应的训练样本进行组合，得到最终的训练样本集。

本发明的一种ASR文本纠错训练样本集的构造系统的有益效果如下：

在上述方案的基础上，本发明的一种ASR文本纠错训练样本集的构造系统还可以做如下改进。

进一步，所述字词级别的的混淆集包括字级别的混淆表和词级别的混淆表，所述构建模块根据所述字词级别的的混淆集得到通用领域的每个纯文本语料对应的字级别的训练样本以及得到所述预设应用领域的每个纯文本语料对应的训练样本的过程，包括：

进一步，所述判别模块对任一对齐文本对的的错误进行判别的过程包括：

进一步，还包括训练识别模块，所述训练识别模块用于：

本发明的一种存储介质，所述存储介质中存储有指令，当计算机读取所述指令时，使所述计算机执行上述任一项所述的一种ASR文本纠错训练样本集的构造方法。

本发明的一种电子设备，包括处理器和上述的存储介质，所述处理器执行所述存储介质中的指令。

附图说明

图1为本发明实施例的一种ASR文本纠错训练样本集的构造方法的流程示意图之一；

图2为本发明实施例的一种ASR文本纠错训练样本集的构造方法的流程示意图之二；

图3为本发明实施例的一种ASR文本纠错训练样本集的构造系统的结构示意图。

具体实施方式

如图1所示，本发明实施例的一种ASR文本纠错训练样本集的构造方法，包括如下步骤：

S1、获取预设应用领域的预设重要词词表；

其中，预设领域为生物领域、化学领域和物理领域等，也可根据实际情况设置，预设重要词词表可根据实际情况设置。

S2、对预设音频库中的任一音频的人工标注语料和ASR转译文本进行编辑距离对齐，得到该音频对应的对齐文本对，对该对齐文本对中的错误进行判别，得到该音频对应的判别结果，直至得到每个音频对应判别结果；

如图2所示，任一音频的人工标注语料为“感药是感康可治病毒感冒”，ASR转译文本为“感冒腰是-康了治冰毒感-”，“-”为占位符，也可用空格表示，进行编辑距离对齐，具体为：人工标注语料中的第一个字符“感”，对应ASR转译文本中的第一个字符“感”，……，人工标注语料中的第三个字符“药”，对应ASR转译文本中的第三个字符“腰”，并依次类推，得到该音频对应的对齐文本对。

对该对齐文本对中的错误进行判别，包括：

对于对齐文本对，每个位置可得到正确、替换、插入、删除四种初步判别结果，具体地：

人工标注语料中的第一个字符“感”与ASR转译文本中的第一个字符“感”相一致，第一个字符位置的初步判别结果为正确，人工标注语料中的第三个字符“药”，与ASR转译文本中的第三个字符“腰”不一致，第三个字符位置的初步判别结果为替换，人工标注语料中的第五个字符“感”，与ASR转译文本中的第五个字符“-”不一致，第五个字符位置的初步判别结果为删除。依次类推，得到每个字符位置的初步判别结果。音近与非音近是替换判别中的进一步判别结果，即表示对齐字对的拼音是否相近。使用领域词表在标注语料和转译文本中分别匹配，可得到领域词判别结果，最终得到该音频对应的判别结果，包括音近、领域词、非音近三种结果。S3、根据任一判别结果，确定该判别结果对应的对齐文本对中的待构造字词对，直至得到每个对齐文本对中的待构造字词对；具体地：

将音近和领域词对应的文本对确定为待构造字词对，如待构造字词对为“药”-“腰”，“感康”-“-康”等，丢弃非音近对应的文本对如“可”-“了”，所有的待构造字词构成字词级别的的混淆集。S4、以任一音频的待构造字词和ASR转译文本为模板，以及以该音频的待构造字词和人工标注语料为模板，基于通用领域的音近字错误和所述预设应用领域的词错误的字词多粒度融合的构造策略，构建该音频的待构造字词对应的两个第一训练样本，直至得到每个音频的待构造字词对应的第一训练样本；

基于通用领域的音近字错误和所述预设应用领域的词错误的字词多粒度融合的构造策略简称为字词粒度融合构造方式，具体地：

利用任一音频的待构造字词与人工标注语料为模板，基于通用领域的音近字错误和所述预设应用领域的词错误的字词多粒度融合的构造策略，构造出第一训练样本的输入：“感腰是康可治冰毒感冒”，第一训练样本的输出：感冒药是感康可治病事感冒；

利用任一音频的待构造字词与ASR转译文本为模板，基于通用领域的音近字错误和所述预设应用领域的词错误的字词多粒度融合的构造策略，构造出第一训练样本的输入：感腰是康了治冰毒感，第一训练样本的输出：感药是感康了治病毒感。S5、根据所有待构造字词对得到字词级别的的混淆集，根据字词级别的的混淆集得到通用领域的每个纯文本语料对应的字级别的训练样本，以及得到预设应用领域的每个纯文本语料对应的训练样本；S6、对所有的第一训练样本、通用领域的每个纯文本语料对应的字级别的训练样本和预设应用领域的每个纯文本语料对应的训练样本进行组合，得到最终的训练样本集。

可选地，在上述技术方案中，字词级别的的混淆集包括字级别的混淆表和词级别的混淆表，根据字词级别的的混淆集得到通用领域的每个纯文本语料对应的字级别的训练样本，以及得到预设应用领域的每个纯文本语料对应的训练样本，包括：

S50、使用字级别的混淆表对通用领域的每个纯文本语料进行构建，得到通用领域的每个纯文本语料对应的字级别的训练样本；

S51、依次使用词级别的混淆表和字级别的混淆表对预设应用领域的每个纯文本语料进行构建，得到预设应用领域的每个纯文本语料对应的训练样本。

可选地，在上述技术方案中，S2中，对任一对齐文本对的的错误进行判别的过程包括：

S20、根据音近规则和预设重要词词表，对任一对齐文本对的的错误进行判别。

可选地，在上述技术方案中，还包括：

S7、基于纠错训练样本集对ASR模型进行训练，得到训练好的ASR模型；

S8、将预设应用领域的待识别音频输入训练好的ASR模型，得到待识别音频的文本。

在上述各实施例中，虽然对步骤进行了编号S1、S2等，但只是本申请给出的具体实施例，本领域的技术人员可根据实际情况调整S1、S2等的执行顺序，此也在本发明的保护范围内，可以理解，在一些实施例中，可以包含如上述各实施方式中的部分或全部。

如图3所示，本发明实施例的一种ASR文本纠错训练样本集的构造系统200，包括获取模块210、判别模块220、确定模块230、构建模块240和组合模块250；

获取模块210用于：获取预设应用领域的预设重要词词表；

判别模块220用于：对预设音频库中的任一音频的人工标注语料和ASR转译文本进行编辑距离对齐，得到该音频对应的对齐文本对，对该对齐文本对中的错误进行判别，得到该音频对应的判别结果，直至得到每个音频对应判别结果；

确定模块230用于：根据任一判别结果，确定该判别结果对应的对齐文本对中的待构造字词对，直至得到每个对齐文本对中的待构造字词对；

构建模块240用于：

根据所有待构造字词对得到字词级别的的混淆集，根据字词级别的的混淆集得到通用领域的每个纯文本语料对应的字级别的训练样本，以及得到预设应用领域的每个纯文本语料对应的训练样本；

组合模块250用于：对所有的第一训练样本、通用领域的每个纯文本语料对应的字级别的训练样本和预设应用领域的每个纯文本语料对应的训练样本进行组合，得到最终的训练样本集。

可选地，在上述技术方案中，字词级别的的混淆集包括字级别的混淆表和词级别的混淆表，构建模块240根据字词级别的的混淆集得到通用领域的每个纯文本语料对应的字级别的训练样本以及得到预设应用领域的每个纯文本语料对应的训练样本的过程，包括：

使用字级别的混淆表对通用领域的每个纯文本语料进行构建，得到通用领域的每个纯文本语料对应的字级别的训练样本；

依次使用词级别的混淆表和字级别的混淆表对预设应用领域的每个纯文本语料进行构建，得到预设应用领域的每个纯文本语料对应的训练样本。

可选地，在上述技术方案中，判别模块220对任一对齐文本对的的错误进行判别的过程包括：

可选地，在上述技术方案中，还包括训练识别模块，训练识别模块用于：

基于纠错训练样本集对ASR模型进行训练，得到训练好的ASR模型；

将预设应用领域的待识别音频输入训练好的ASR模型，得到待识别音频的文本。

上述关于本发明的一种ASR文本纠错训练样本集的构造系统中的各参数和各个单元模块实现相应功能的步骤，可参考上文中关于一种ASR文本纠错训练样本集的构造方法的实施例中的各参数和步骤，在此不做赘述。

本发明实施例的一种存储介质，存储介质中存储有指令，当计算机读取指令时，使计算机执行上述任一项ASR文本纠错训练样本集的构造方法。

本发明实施例的一种电子设备，包括处理器和上述的存储介质，处理器执行存储介质中的指令，其中，电子设备可以选用电脑、手机等。

所属技术领域的技术人员知道，本发明可以实现为系统、方法或计算机程序产品。

因此，本公开可以具体实现为以下形式，即：可以是完全的硬件、也可以是完全的软件(包括固件、驻留软件、微代码等)，还可以是硬件和软件结合的形式，本文一般称为“电路”、“模块”或“系统”。此外，在一些实施例中，本发明还可以实现为在一个或多个计算机可读介质中的计算机程序产品的形式，该计算机可读介质中包含计算机可读的程序代码。

可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是一一但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM),只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种ASR文本纠错训练样本集的构造方法，其特征在于，包括：

获取预设应用领域的预设重要词词表；

2.根据权利要求1所述的一种ASR文本纠错训练样本集的构造方法，其特征在于，所述字词级别的的混淆集包括字级别的混淆表和词级别的混淆表，根据所述字词级别的的混淆集得到通用领域的每个纯文本语料对应的字级别的训练样本，以及得到所述预设应用领域的每个纯文本语料对应的训练样本，包括：

3.根据权利要求1所述的一种ASR文本纠错训练样本集的构造方法，其特征在于，对任一对齐文本对的的错误进行判别的过程包括：

4.根据权利要求1至3任一项所述的一种ASR文本纠错训练样本集的构造方法，其特征在于，还包括：

5.一种ASR文本纠错训练样本集的构造系统，其特征在于，包括获取模块、判别模块、确定模块、构建模块和组合模块；

所述获取模块用于：获取预设应用领域的预设重要词词表；

所述构建模块用于：

所述组合模块用于：对所有的第一训练样本、通用领域的每个纯文本语料对应的字级别的训练样本和所述预设应用领域的每个纯文本语料对应的训练样本进行组合，得到最终的训练样本集。

6.根据权利要求5所述的一种ASR文本纠错训练样本集的构造系统，其特征在于，所述字词级别的的混淆集包括字级别的混淆表和词级别的混淆表，所述构建模块根据所述字词级别的的混淆集得到通用领域的每个纯文本语料对应的字级别的训练样本以及得到所述预设应用领域的每个纯文本语料对应的训练样本的过程，包括：

7.根据权利要求5所述的一种ASR文本纠错训练样本集的构造系统，其特征在于，所述判别模块对任一对齐文本对的的错误进行判别的过程包括：

8.根据权利要求5至7任一项所述的一种ASR文本纠错训练样本集的构造系统，其特征在于，还包括训练识别模块，所述训练识别模块用于：

9.一种存储介质，其特征在于，所述存储介质中存储有指令，当计算机读取所述指令时，使所述计算机执行如权利要求1至4中任一项所述的一种ASR文本纠错训练样本集的构造方法。

10.一种电子设备，其特征在于，包括处理器和权利要求9所述的存储介质，所述处理器执行所述存储介质中的指令。