CN111627427B

CN111627427B - 特定领域的语音识别模型的构建方法

Info

Publication number: CN111627427B
Application number: CN202010413228.9A
Authority: CN
Inventors: 刘利平; 张欣; 孔卫东
Original assignee: Beijing Qingniu Technology Co ltd
Current assignee: Beijing Qingniu Technology Co ltd
Priority date: 2020-05-15
Filing date: 2020-05-15
Publication date: 2023-05-05
Anticipated expiration: 2040-05-15
Also published as: CN111627427A

Abstract

本发明提供了一种特定领域的语音识别模型的构建方法，该方法包括：S1.将特定领域的音频数据进行文本转录，以构建所述音频数据及其对应的转录文本组成的训练集；S2.将所述训练集输入一现有的语音识别模型，对所述语音识别模型执行针对所述特定领域的迁移学习训练；S3.选择所述训练集的一个子集，将所述子集输入所述语音识别模型进行语音识别测试；S4.校准所述语音识别测试的输出结果，根据校准后的输出结果更新所述子集，将所述子集输入所述语音识别模型，对所述语音模型执行迭代训练；S5.利用根据所述训练集生成的语言模型，对所述语音识别模型进行超参数调整处理，获得特定领域的语音识别模型。此外，本发明还提供了相应的计算机介质。

Description

特定领域的语音识别模型的构建方法

技术领域

本发明涉及语音识别的神经网络算法领域，尤其涉及一种特定领域的语音识别模型的构建方法。

背景技术

目前，智能呼叫中心通常使用语音识别模型来实现实时语音识别，面对涉及特定领域的对话所产生的交流语音时，普通的语音识别模型对所述特定领域包含的专业名词、术语识别率欠佳，往往需要针对所述特定领域构建语音识别率达标的语音识别模型。若训练一个全新的语音识别模型，并使其满足所述特定领域的语音识别率要求，需要提供大量的训练样本以及占用大量的计算资源，来进行长时间训练计算，因此构建所述语音识别模型所需花费的时间成本和硬件成本一直难以得到控制。

发明内容

为了克服现有技术中的上述缺陷，本发明提供了一种特定领域的语音识别模型的构建方法，该方法包括：

S1.将特定领域的音频数据进行文本转录，以构建所述音频数据及其对应的转录文本组成的训练集；

S2.将所述训练集输入一现有的语音识别模型，对所述语音识别模型执行针对所述特定领域的迁移学习训练；

S3.选择所述训练集的一个子集，将所述子集输入所述语音识别模型进行语音识别测试；

S4.校准所述语音识别测试的输出结果，根据校准后的输出结果更新所述子集，将所述子集输入所述语音识别模型，对所述语音模型执行迭代训练；

S5.利用根据所述训练文本集生成的语言模型，对所述语音识别模型进行超参数调整处理，获得特定领域的语音识别模型。

根据本发明的一个方面，在执行步骤S5之前，该方法还包括：S6.重复执行步骤S3和步骤S4，直至所述语音识别模型满足预定的准确率。

根据本发明的另一个方面，该方法的步骤S3中选择所述训练集的一个子集的步骤包括：从所述训练集中选择多个具有预定准确率的元素组成所述子集。

根据本发明的另一个方面，该方法的步骤S4中校准所述语音识别测试的输出结果的步骤包括：根据预定规则从所述输出结果中筛选出至少一条待校准数据；根据人工校准操作更新所述待校准数据。

根据本发明的另一个方面，该方法的步骤S4中根据校准后的输出结果更新所述子集的步骤包括：组织校准后的输出结果的数据格式，使所述校准后的输出结果的数据格式与所述训练集的数据格式相同；将所述输出结果合并至所述子集中。

根据本发明的另一个方面，该方法中所述转录文本包括：由所述特定领域的专业词汇构成的语料。

根据本发明的另一个方面，该方法中所述语言模型包括N-gram模型。

相应地，本发明还提供了一个或多个存储计算机可执行指令的计算机可读介质，所述指令在由一个或多个计算机设备使用时使得一个或多个计算机设备执行如前文所述的特定领域的语音识别模型的构建方法。

本发明提供的特定领域的语音识别模型的构建方法采用现有的语音识别模型作为基础模型，利用特定领域的音频样本对其进行迁移学习训练，进一步使用经过校准的测试数据对所述语音识别模型进行迭代训练，最终获得特定领域的语音识别模型。通过实施本发明可以在较短的开发周期内获得满足识别率需求的特定领域的语音识别模型，相比现有技术，训练该语音识别模型所需的时间成本和硬件成本明显降低。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1是根据本发明的特定领域的语音识别模型的构建方法的一个具体实施方式的流程示意图；

图2是根据本发明的特定领域的语音识别模型的构建方法的一个可选具体实施方式的流程示意图；

附图中相同或相似的附图标记代表相同或相似的部件。

具体实施方式

为了更好地理解和阐释本发明，下面将结合附图对本发明作进一步的详细描述。本发明并不仅仅局限于这些具体实施方式。相反，对本发明进行的修改或者等同替换，均应涵盖在本发明的权利要求范围当中。

需要说明的是，在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解，没有这些具体细节，本发明同样可以实施。在下文给出的多个具体实施方式中，对于本领域熟知的结构和部件未作详细描述，以便于凸显本发明的主旨。

本发明提供了一种特定领域的语音识别模型的构建方法，请参考图1，图1是根据本发明的特定领域的语音识别模型的构建方法的一个具体实施方式的流程示意图，该方法包括：

步骤S100，将特定领域的音频数据进行文本转录，以构建所述音频数据及其对应的转录文本组成的训练集；

步骤S200，将所述训练集输入一现有的语音识别模型，对所述语音识别模型执行针对所述特定领域的迁移学习训练；

步骤S300，选择所述训练集的一个子集，将所述子集输入所述语音识别模型进行语音识别测试；

步骤S400，校准所述语音识别测试的输出结果，根据校准后的输出结果更新所述子集，将所述子集输入所述语音识别模型，对所述语音模型执行迭代训练；

步骤S500，利用根据所述训练集生成的语言模型，对所述语音识别模型进行超参数调整处理，获得特定领域的语音识别模型。

具体地，在步骤S100中，对所述特定领域的音频数据进行文本转录的步骤可使用第三方语音识别模型来实现，更具体而言，所述第三方语音识别模型例如是科大讯飞ASR模型、阿里ASR模型等。典型地，所述音频数据对应的转录文本内包括根据所述音频数据所生成的多个句子，也即所述转录文本包括由所述特定领域的专业词汇构成的语料。所述特定领域指的是包含了日常对话交流中不常出现的专有术语、专有名词的专业领域，例如保险领域、银行业领域等，或指的是包含了与标准普通话发音不同的字词的地区方言领域，本发明的目的之一是针对上述特定领域构建一个识别率能满足所述特定领域的语音识别需求的语音识别模型。

在步骤S200中，将所述训练文本集输入一现有的语音识别模型，所述现有的语音识别模型是已经具有开源的预训练模型，但由于所述特定领域会出现词语发音差异、同音字、专有名词/术语等情况，该现有的语音识别模型并不能全面地覆盖所述特定领域中可能出现的各种情况，因此所述现有的语音识别模型对所述特定领域的语音识别结果存在偏差，例如对识别出来的词语标注错误。基于迁移学习的算法理论，由于所述训练集是根据所述特定领域的音频数据来进行构建的，因此将所述训练集对所述预训练模型进行迁移学习训练后，所述现有的语音识别模型相对于所述特定领域具有会达到更好的识别率，也即，通过所述迁移学习训练，所述现有的语音识别模型对于标准普通话和日常对话类型的音频的泛化识别经验可用于进行所述特定领域的语音识别任务。

虽然在步骤S200中对所述语音识别模型进行了所述迁移学习训练，但是该语音识别模型的识别能力往往还需要进一步提升，才能满足所述特定领域的语音识别的识别率要求。在此，执行步骤S300，选择所述训练集的一个子集，将所述子集输入所述语音识别模型进行语音识别测试。以及执行步骤S400，校准所述语音识别测试的输出结果，根据所述输出结果更新所述子集，将所述子集输入所述语音识别模型，对所述语音模型执行迭代训练。执行步骤S300至步骤400的目的是为了加快所述语音识别模型的收敛，使其更快地达到所需求的识别准确率。基于该期望，所选择的所述子集可以与所述训练集的识别率期望值具有相近，典型地，步骤S300中选择所述训练集的一个子集的步骤包括：从所述训练集中选择多个具有预定准确率的元素组成所述子集。

步骤S400中校准所述语音识别测试的输出结果的步骤包括：根据预定规则从所述输出结果中筛选出至少一条待校准数据；根据人工校准操作更新所述待校准数据。具体而言，更新所述待校准数据的意义在于将所述待校准数据修正为更符合所述特定领域的特定语音识别结果的数据。此外，步骤S400中根据所述输出结果更新所述子集的步骤包括：组织所述输出结果的数据格式，使该输出结果的数据格式与所述训练集的数据格式相同；将所述输出结果合并至所述子集中。本领域技术人员可以理解，对所述语音识别模型进行所述迭代训练能加速所述语音识别模型的收敛，对所述输出结果进行所述校准可以有效地约束所述迭代训练的发散，进一步加强所述收敛的效果。

执行步骤S300至步骤S400之后，虽然所述语音识别模型相对于所述特定领域的识别率得到了提升，但为了达到更好的效果还需要对所述语音识别模型的超参数进行优化。一种典型的方法就是执行步骤S500，即利用根据所述训练集生成的语言模型，对所述语音识别模型进行超参数调整处理，典型地，所述语言模型包括N-gram模型。利用所述N-gram模型能实现修正同音错别字词等功能，例如将识别结果中的“岳父”修正为“月付”，使得所述语音识别模型与所述特定领域的耦合度大大提升。进行了所述超参数调整的所述语音识别模型即所述特定领域的语音识别模型。

如果所述特定领域的语料较多，仅执行一次步骤S300至步骤S400可能无法令所述语音识别模型达到理想的识别率。为了充分利用所述训练集所携带的信息，可以考虑对所述语音识别模型进行多次的所述迭代训练。请参考图2，图2是根据本发明的特定领域的语音识别模型的构建方法的一个可选具体实施方式的流程示意图，图2与图1示出的具体实施方式的不同之处在于，在步骤S500执行前，图2示出的特定领域的语音识别模型的构建方法还包括：

步骤S600，重复执行步骤S300和步骤S400，直至所述语音识别模型满足预定的准确率。

每执行一次步骤S300至步骤S400，都可以实现将所述训练集的一个子集用来约束地迭代训练所述语音识别模型，若每次选择的所述子集所包含的元素各不相同，还能在提升所述语音识别模型的泛化性的基础上加快所述语音识别模型的收敛速度。

需要说明的是，尽管在附图中以特定顺序描述了本发明方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。相反，流程图中描绘的步骤可以改变执行顺序。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

相应地，本发明还公开了一个或多个存储计算机可执行指令的计算机可读介质，所述指令在由一个或多个计算机设备使用时使得一个或多个计算机设备执行如前文所述的特定领域的语音识别模型的构建方法，例如图1示出的特定领域的语音识别模型的构建方法。所述计算机可读介质可以是可由计算机设备访问的任何可用介质，且包括用任何方法和技术实现的用于存储诸如计算机可读指令、数据结构、程序模块或其它数据等信息的易失性和非易失性介质、可移动和不可移动介质。计算机可读介质包括但不限于，RAM、ROM、EEPROM、闪存或其它存储器技术、CD-ROM、数字多功能盘(DVD)或其它光存储、盒式磁带、磁带、磁盘存储或其它磁存储设备，或者可用于存储所需信息并且可由计算设备访问的任何其它介质。上述的任意组合也应包含在计算机可读介质的范围内。

本发明提供的特定领域的语音识别模型的构建方法中涉及软件逻辑的部分可以使用可编程逻辑器件来实现，也可以实施为计算机程序产品，该程序产品使计算机执行用于所示范的方法。所述计算机程序产品包括计算机可读存储介质，该介质上包含计算机程序逻辑或代码部分，用于实现上述涉及软件逻辑的部分的各个步骤。所述计算机可读存储介质可以是被安装在计算机中的内置介质或者可从计算机主体拆卸的可移动介质(例如可热拔插的存储设备)。所述内置介质包括但不限于可重写的非易失性存储器，例如RAM、ROM和硬盘。所述可移动介质包括但不限于：光存储媒体(例如CD-ROM和DVD)、磁光存储媒体(例如MO)、磁存储媒体(例如磁带或移动硬盘)、具有内置的可重写的非易失性存储器的媒体(例如存储卡)和具有内置ROM的媒体(例如ROM盒)。

本领域技术人员应当理解，任何具有适当编程装置的计算机系统都能够执行包含在计算机程序产品中的本发明的方法的诸步骤。尽管本说明书中描述的多数具体实施方式都侧重于软件程序，但是以硬件方式实现本发明提供的方法的替代实施例同样在本发明要求保护的范围之内。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，在权利要求的等同要件的含义和范围内的所有变化均涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外，显然“包括”一词不排除其他部件、单元或步骤，单数不排除复数。权利要求中陈述的多个部件、单元或装置也可以由一个部件、单元或装置通过软件或者硬件来实现。

以上所披露的仅为本发明的一些较佳实施例，不能以此来限定本发明之权利范围，依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

1.一种特定领域的语音识别模型的构建方法，该方法包括：

S4.校准所述语音识别测试的输出结果，根据校准后的输出结果更新所述子集，将所述子集输入所述语音识别模型，对所述语音识别模型执行迭代训练；

S5.利用根据所述训练集生成的语言模型，对所述语音识别模型进行超参数调整处理，获得特定领域的语音识别模型。

2.根据权利要求1所述的特定领域的语音识别模型的构建方法，在执行步骤S5之前，该方法还包括：

S6.重复执行步骤S3和步骤S4，直至所述语音识别模型满足预定的准确率。

3.根据权利要求1所述的特定领域的语音识别模型的构建方法，其中，步骤S3中选择所述训练集的一个子集的步骤包括：

从所述训练集中选择多个具有预定准确率的元素组成所述子集。

4.根据权利要求1所述的特定领域的语音识别模型的构建方法，其中，步骤S4中校准所述语音识别测试的输出结果的步骤包括：

根据预定规则从所述输出结果中筛选出至少一条待校准数据；

根据人工校准操作更新所述待校准数据。

5.根据权利要求1所述的特定领域的语音识别模型的构建方法，其中，步骤S4中根据校准后的输出结果更新所述子集的步骤包括：

组织校准后的输出结果的数据格式，使所述校准后的输出结果的数据格式与所述训练集的数据格式相同；

将所述输出结果合并至所述子集中。

6.根据权利要求1所述的特定领域的语音识别模型的构建方法，其中，所述转录文本包括：

由所述特定领域的专业词汇构成的语料。

7.根据权利要求1所述的特定领域的语音识别模型的构建方法，其中：

所述语言模型包括N-gram模型。

8.一个或多个存储计算机可执行指令的计算机可读介质，所述指令在由一个或多个计算机设备使用时使得一个或多个计算机设备执行如权利要求1至7任一项所述的特定领域的语音识别模型的构建方法。