CN114627874A

CN114627874A - 文本对齐方法、存储介质、电子装置

Info

Publication number: CN114627874A
Application number: CN202210246648.1A
Authority: CN
Inventors: 司马华鹏; 汤毅平
Original assignee: Suqian Silicon Based Intelligent Technology Co ltd
Current assignee: Suqian Silicon Based Intelligent Technology Co ltd
Priority date: 2021-06-15
Filing date: 2021-06-15
Publication date: 2022-06-14
Also published as: CN113314124B; CN113314124A; US20230121683A1; US11651139B2; WO2022262542A1

Abstract

本申请实施例提供了一种文本对齐方法、存储介质、电子装置，所述方法包括：向ASR模型组输入预设格式的音频文件或音频流，通过ASR模型组将输入的音频数据转换为第一文本；将第一参照文本依次与多个第一文本中第一参照文本以外的第一文本进行对齐，以得到多个第二文本，将任一第二文本作为判断文本，并在多个第二文本之间的长度不等的情况下，对判断文本进行更新，以得到目标判断文本；将目标判断文本设定为第二参照文本；在多个第二文本的长度均相等的情况下，确定多个第二文本为目标文本；在多个第二文本的长度不等的情况下，将第二参照文本依次与多个第二文本中第二参照文本以外的第二文本进行对齐，得到多个目标文本。

Description

文本对齐方法、存储介质、电子装置

相关申请

本申请要求于2021年6月15日提交于中国知识产权局、申请号为2021106623097、申请名称为“文本输出方法及系统、存储介质、电子装置”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及语音识别技术领域，具体而言，涉及一种文本对齐方法、存储介质、电子装置。

背景技术

自动语音识别技术(Automatic Speech Recognition，简称为ASR)用于将说话人的语音转录成相应的文字。目前工业界应用的语音识别系统通常为单语音识别系统，即仅设置有一个声学模型，在该声学模型输出初步结果后，再通过一系列的后端处理方法来优化最后的结果。随着神经网络的迅猛发展，各种建模方法层出不穷，语音识别实现过程中，可通过训练不同的声学模型结构或者调整同一模型的解码参数以获取多个效果不同的语音识别系统。

由于上述结构不同或参数不同的声学模型之间往往都会存在一定互补性，如果将不同的声学模型相互配合，可以显著降低模型训练过程中的词错率(Word error rate，简称为WER)以提高系统识别率。但是相关技术中，对于不同ASR模型识别出来的文本无法进行快速有效的对齐操作，进而导致多个ASR模型之间无法达到理想的融合效果。

针对相关技术中，对于不同ASR模型识别出来的文本无法进行快速有效的对齐操作，进而导致多个ASR模型无法实现高效融合的问题，目前尚未有有效的解决办法。

发明内容

本申请实施例提供了一种文本对齐方法、存储介质、电子装置，以至少解决相关技术中对于不同ASR模型识别出来的文本无法进行快速有效的对齐操作，进而导致多个ASR模型无法实现高效融合的问题。在本申请的一个实施例中，提出了一种文本对齐方法，包括：向ASR模型组输入预设格式的音频文件或音频流，其中，所述ASR模型组包括多个ASR模型，所述ASR模型包括以下至少之一：基于RNNT的端到端模型、基于Transformer框架的端到端模型、基于WFST的语音模型；通过所述ASR模型组将输入的音频数据转换为第一文本；将第一参照文本依次与多个所述第一文本中所述第一参照文本以外的所述第一文本进行对齐，以得到多个第二文本，其中，所述第一参照文本为多个所述第一文本中长度最长的文本，所述第二文本中，所述第一文本较于所述第一参照文本缺少的字/词的对齐位置使用预设字符进行填充；将任一所述第二文本作为判断文本，并在多个所述第二文本之间的长度不等的情况下，对所述判断文本进行更新，以得到目标判断文本，所述目标判断文本为多个所述第二文本中长度最长的文本；将所述目标判断文本设定为第二参照文本；在多个所述第二文本的长度均相等的情况下，确定多个所述第二文本为目标文本；在多个所述第二文本的长度不等的情况下，将所述第二参照文本依次与多个所述第二文本中所述第二参照文本以外的所述第二文本进行对齐，得到多个所述目标文本，其中，所述目标文本中，所述第二文本较于所述第二参照文本缺少字/词的对齐位置使用所述预设字符进行填充，多个所述目标文本的长度均相等。

在本申请的一个实施例中，还提出了一种计算机可读的存储介质，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

在本申请的一个实施例中，还提出了一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。

通过本申请实施例，向ASR模型组输入预设格式的音频文件或音频流，通过所述ASR模型组将输入的音频数据转换为第一文本；将第一参照文本依次与多个所述第一文本中所述第一参照文本以外的所述第一文本进行对齐，以得到多个第二文本，将任一所述第二文本作为判断文本，并在多个所述第二文本之间的长度不等的情况下，对所述判断文本进行更新，以得到目标判断文本，所述目标判断文本为多个所述第二文本中长度最长的文本；将所述目标判断文本设定为第二参照文本；在多个所述第二文本的长度均相等的情况下，确定多个所述第二文本为目标文本；在多个所述第二文本的长度不等的情况下，将所述第二参照文本依次与多个所述第二文本中所述第二参照文本以外的所述第二文本进行对齐，得到多个所述目标文本，解决了对于不同ASR模型识别出来的文本无法进行快速有效的对齐操作，进而导致多个ASR模型无法实现高效融合的问题，可以有效对多个文本进行对齐，大大提高了语音识别的准确性。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请实施例的文本输出系统的一种可选的结构示意图；

图2是根据本申请实施例文本输出方法一种可选的流程图；

图3是根据本申请实施例的一种文本对齐方法流程图；

图4是根据本申请实施例的又一种文本对齐方法流程图；

图5是根据本申请实施例的一种对齐结果示意图；

图6是根据本申请实施例的又一种对齐结果示意图。

具体实施方式

下文中将参考附图并结合实施例来详细说明本申请。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

结构不同或参数不同的声学模型之间往往都会存在一定互补性，即不同的声学模型相互配合，可以显著降低模型训练过程中的词错率(WER)提高系统识别率。不同的声学模型相互配合，以将多个模型的识别结果通过融合以得到一个更佳的最终结果即为模型融合。

相关技术中，模型融合方法可以归类为以下三种：

1、基于网络层的模型融合。该融合方式在前向计算时对各模型的网络层做了融合处理(基于投票机制voting或平均机制average实现)，在模型的输出层直接可以得到一个最终结果。该融合方式在实现过程中延时较小，不需要在后端做融合处理，但其要求各模型的网络结构相同，故而无法融合不同结构的声学模型，限制了模型的多样化，而模型融合的意义在于联合不同声学建模方法的优势以获取最理想的结果，因此该融合方式无较大实际意义。

2、在Kaldi中基于Lattice的融合。Kaldi是目前语音识别领域最热门的开源工具，Lattice是Kaldi工具中基于WFST结构的解码图，保存了解码后的前N个最优路径。该融合方式是语音识别系统在解码后，会先生成一个Lattice结构的结果图，然后用维特比算法搜索其中最好的识别结果。可见，上述融合方式是在多个语音识别模型的解码图上找最优结果，其基本思路是先裁剪所有解码图，保留前M个最优解码结果，然后对这M个结果进行voting或average，获得最终结果，由于Lattice中含有的结果路径较为丰富，该类方法在融合后通常可以获得更好的结果。但是，上述融合方式只适用于Kaldi工具下的模型，其它声学模型并无Lattice结构故而无法实施上述融合方式；并且，Kaldi中一般只对离线解码保存Lattice，在线解码时如果保存Lattice会大大增加时耗，影响系统实时性能，因此上述融合方式的可扩展性并不强，且仅能适用于Kaldi工具下的离线解码。

3、基于Hypothesis file的融合。Hypothesis file可以理解为语音识别系统的最后输出结果。该方法先对模型的识别结果做对齐，然后通过voting或average的进行融合。该方法扩展性强，能适用于不同结构的模型，融合效果取决于融合策略。但是由于多维文本的对齐过于复杂，目前只能对两个模型做融合且常用的融合策略过于简单，该方法最终提升效果并不明显。

为了解决上述相关技术中存在的缺陷，本申请提供了一种文本输出系统，通过多文本对齐算法对不同ASR系统的识别结果进行对齐，再通过重打分策略来选取最佳的识别结果，最终达到提高系统识别率的目的。图1是根据本申请实施例的文本输出系统的一种可选的结构示意图，如图1所示，本申请实施例提供的文本输出系统至少包括：依次连接的自动语音识别ASR模型组、文本对齐模型和重打分模型；其中，

ASR模型组中包括多个ASR模型，每个ASR模型配置为将输入的音频数据分别转换为对应的第一文本；

文本对齐模型，配置为对多个第一文本进行对齐处理，得到多个目标文本，其中，多个目标文本的长度均相等；

重打分模型，配置为对多个目标文本的每个对齐位置上的字/词进行打分，获取每个对齐位置上得分最高的字/词作为目标字/词，将目标字/词按照对应的对齐位置确定为输出文本。

需要说明的是，本申请实施例中提供的多个ASR模型之间的结构可以全部相同或者部分相同，也可以全部不同，本申请实施例对此不做限定。

在一实施例中，ASR模型组中包括多个根据不同的建模方法训练的模型，和/或，同种框架下不同网络结构或不同超参数训练的模型，和/或，同种框架下同种网络结构训练的模型在测试时设置不同的解码参数。

本申请实施例中提供的文本输出系统可应用于所有适用语音识别的场景，包括但不限于普通话识别、方言识别以及其它各语种下的语音识别。

本申请的另一实施例中，还提供了一种文本输出方法，应用于上述文本输出系统。图2是根据本申请实施例文本输出方法一种可选的流程图，如图2所示，所述方法包括：

步骤S202，通过ASR模型组将输入的音频数据转换为第一文本，其中，ASR模型组包括多个ASR模型；

步骤S204，通过文本对齐模型对多个第一文本进行对齐处理，得到多个目标文本，其中，多个目标文本的长度均相等；

步骤S206，通过重打分模型对多个目标文本的每个对齐位置上的字/词进行打分，获取每个对齐位置上得分最高的字/词作为目标字/词，将目标字/词按照对应的对齐位置确定为输出文本。

需要说明的是，多个ASR模型可以是不同建模方法训练出来的模型，例如基于RNNT的端到端模型、基于transformer框架的端到端模型、基于WFST的语音模型，也可以是同种框架下不同网络结构或不同超参数训练出来的模型，例如WFST下基于TDNNF的chain模型、WFST下基于CNN+TDNNF+ATTENTION的chain模型，还可以是同种框架下同种网络结构训练的模型在测试时设置不同的解码参数，例如基于WFST的系统解码时设置不同的声学规模或解码宽度(beam)大小或端点检测(vad)阈值等。上述这些ASR模型因为不同的配置，相互间会具有一定的互补性。

在上述步骤S202之前，所述方法还包括：向系统输入预设格式(预设格式为符合ASR模型要求的格式，本申请实施例对此不作限定)的音频文件或音频流，音频流进入至多个ASR模型中。然后多个ASR模型分别对音频流进行识别并输出文本，输出的文本被送入到文本对齐模型。

在一实施例中，上述步骤S204可以通过以下步骤实现：

S1，将第一参照文本依次与其他的第一文本进行对齐，得到多个第二文本，其中，第一参照文本为多个第一文本中长度最长的文本，第二文本中缺少字/词的对齐位置使用预设字符进行填充；

S2，在多个第二文本的长度均相等的情况下，确定多个第二文本为目标文本；在多个第二文本的长度不等的情况下，将多个第二文本中长度最长的文本确定为第二参照文本，将第二参照文本依次与其他的第二文本进行对齐，得到多个目标文本，其中，目标文本中缺少字/词的对齐位置使用预设字符进行填充。

本申请的另一实施例中，还提供了一种文本对齐方法。图3是根据本申请实施例文本对齐方法一种可选的流程图，如图3所示，所述方法包括：

步骤S302，向ASR模型组输入预设格式的音频文件或音频流，其中，ASR模型组包括多个ASR模型，ASR模型包括以下至少之一：基于RNNT的端到端模型、基于Transformer框架的端到端模型、基于WFST的语音模型；

步骤S304，通过ASR模型组将输入的音频数据转换为第一文本；

步骤S306，将第一参照文本依次与多个第一文本中第一参照文本以外的第一文本进行对齐，以得到多个第二文本，其中，第一参照文本为多个第一文本中长度最长的文本，第二文本中，第一文本较于第一参照文本缺少的字/词的对齐位置使用预设字符进行填充；

步骤S308，将任一第二文本作为判断文本，并在多个第二文本之间的长度不等的情况下，对判断文本进行更新，以得到目标判断文本，目标判断文本为多个第二文本中长度最长的文本；将目标判断文本设定为第二参照文本；

步骤S310，在多个第二文本的长度均相等的情况下，确定多个第二文本为目标文本；在多个第二文本的长度不等的情况下，将第二参照文本依次与多个第二文本中第二参照文本以外的第二文本进行对齐，得到多个目标文本，其中，目标文本中，第二文本较于第二参照文本缺少字/词的对齐位置使用预设字符进行填充，多个目标文本的长度均相等。

在上述步骤S302之前，所述方法还包括：向系统输入预设格式(预设格式为符合ASR模型要求的格式，本申请实施例对此不作限定)的音频文件或音频流，音频流进入至多个ASR模型中。然后多个ASR模型分别对音频流进行识别并输出文本，输出的文本被送入到文本对齐模型。需要说明的是，文本对齐模型用于将多个ASR模型对应输出的文本按照字或词进行对齐，缺少部分用符号填充。相关技术中，文本对齐常用的方式是基于编辑距离(edit Distance)算法来回溯路径，获得两个输入文本的对齐。但上述方式无法对齐多个文本(两个以上的文本)，具体原因为，多个文本是多维矩阵，其计算相当复杂，是否能计算出相应结果是未知，即使能够计算，其时耗也无法想象，因而上述方式对于多个文本的对齐是无法实现的。因此，本申请实施例提出的多文本对齐方式，通过二次对齐的方式，可以有效实现多个文本的对齐。

在一实施例中，将第一参照文本依次与其他的第一文本进行对齐得到多个第二文本包括：

S1，同时计算m-1个第一文本中的第i个第一文本相对于第一参照文本的编辑距离以及所述第一参照文本相对于所述第i个第一文本的编辑距离，以获取第i个第一文本与第一参照文本对齐后的两个第二文本，其中，m为所述第一文本的数量，m-1个第一文本中不包含第一参照文本，i＜m-1；

S2，依次获取m-1个第一文本与第一参照文本对齐后的2*(m-1)个第二文本。

在一实施例中，依次获取m-1个第一文本与第一参照文本对齐后的2*(m-1)个第二文本，包括：

S1，指定第i个第一文本与第一参照文本对齐后的两个第二文本中的任一第二文本为判断文本，其中，第i个第一文本与第一参照文本对齐后的两个第二文本的长度相同；

S2，依次比较第i个第一文本对应的判断文本和第i+1个第一文本对应的判断文本的长度，确定m-1个第一文本对应的判断文本中，长度最长的判断文本为目标判断文本。

在一实施例中，在2*(m-1)个第二文本的长度不等的情况下，将目标判断文本确定为第二参照文本。

需要说明的是，上述为本申请实施例提供的第一种对齐方式，下面通过一个示例来解释上述第一种文本对齐过程。图4是根据本申请实施例的又一种文本对齐方法流程图，如图4所示，本申请实施例中提供的文本对齐方法包括：

步骤S402，对输入的文本按文本长度进行排序，将其中最长的文本定义为参照文本，并固定在第一个参数的位置。

步骤S404，将参照文本依次与所有剩余文本进行对齐，获取相应的对齐结果，所有对齐结果为第一遍对齐结果，此处的对齐结果相当于前述第二文本。

上述步骤S404中的对齐方式具体为，将所有剩余的文本，依次对参照文本计算编辑距离，获取对齐结果，所有对齐结果为第一遍对齐结果。

步骤S406，检查第一遍对齐结果中所有的对齐结果是否相等，如果相等则对齐结束；如果不相等，则取出最长的对齐结果，将第一遍对齐结果中剩余对齐结果依次与上述最长对齐结果计算编辑距离，得到新的对齐结果，此处新的对齐结果相当于前述目标文本。

步骤S408，最终的对齐结果中所有文本长度一致，缺少部分用“**”符号填充。

以下以一示例对上述步骤S402至步骤S408进行说明：

存在三条输入文本，对应为：第一文本：ABC；第二文本：C；第三文本：EFD。

第一遍对齐：

对文本按文本长度进行排序，根据排序结果，第一文本与第三文本长度相等，故随机选取第一文本作为参照文本，并固定在第一个参数的位置。

将参照文本依次与所有剩余文本进行对齐，缺少部分用“**”符号填充，获取相应的对齐结果，所有对齐结果为第一遍对齐结果。

第二文本与第一文本的对齐结果1为：**C；

第一文本与第二文本的对齐结果2为：ABC；

第三文本与第一文本的对齐结果3为：***EFG；

第一文本与第三文本的对齐结果4为：ABC***；

上述对齐结果1至4构成第一遍对齐结果，显然地，第一遍对齐结果所包含的四个对齐结果中，对齐结果1至4之间的长度并不相等，因此，需要重新进行第二遍对齐。

第二遍对齐：

对对齐结果1至4进行排序，根据排序结果，对齐结果3与对齐结果4长度相等，故随机选取对齐结果4作为新的参照文本，并固定在第一个参数的位置。

将参照文本与所有剩余对齐结果进行对齐，缺少部分用“**”符号填充，获取相应的对齐结果，所有对齐结果为第二遍对齐结果。

对齐结果1与对齐结果4：**C***；

对齐结果4与对齐结果1：ABC***；

对齐结果2与对齐结果4：ABC***；

对齐结果4与对齐结果2：ABC***；

对齐结果3与对齐结果4：***EFG；

对齐结果4与对齐结果3：ABC***。

至此，新的对齐结果的长度相等，故可对齐结束并输出。

在一实施例中，还可以使用第二种对齐方式实现多文本的对齐，方法如下：

依次计算n-1个所述第一文本中的第p个第一文本相对于第一参照文本的编辑距离，或第一参照文本相对于所述第p个第一文本的编辑距离，以获取n-1个第二文本，其中，n为第一文本的数量，n-1个第一文本中不包含第一参照文本，p＜n-1。

在一实施例中，在获取n-1个第二文本之后，所述方法还包括：

遍历所述n-1个第二文本，在n-1个第二文本的长度不等的情况下，将n-1个第二文本中长度最长的文本确定为第二参照文本。

需要说明的是，第一种对齐方式中，由于上述对齐结果1和2之间，对齐结果3和4之间在理论上的长度是一致的，故仅从最终计算的结果角度考虑，在第一次对齐过程中，仅得到对齐结果1和2之间的任一结果，以及对齐结果3和4之间任一结果，均可实现对齐以及后续的重打分处理。

可见，上述第一种对齐方式(方式一)中，对任意两个对齐对象之间均进行了两次对齐结果的输出，第二种对齐方式(方式二)中，对任意两个对齐对象之间均进行了一次对齐结果的输出。

虽然上述方式一与方式二在最终的对齐结果上并无差异，但是，上述方式一在第一次对齐过程中，对齐结果2与对齐结果4是参照文本(第一文本)分别与第二文本、第三文本的对齐结果，其可在计算过程中标注为参照文本所从属/附属的对齐结果，实际计算过程中，对齐结果1与2可同步完成计算，同时，对于参照文本可生成一判断文本，将对齐结果2作为该判断文本；在后续计算时，对参照文本所从属/附属的对齐结果同样作为判断文本，如若新的判断文本的长度小于或等于原判断文本，则判断文本不变，如若新置入的判断文本的长度大于原判断文本，则判断文本更新为新的判断文本。以此，在完成参照文本与各个文本的对齐后，对应的判断文本即为长度最长的文本，同时，可根据判断文本的更新次数，判断所确定的参照文本与各个文本之间的对齐结果是否一致，即如果判断文本发生更新，则说明对齐结果不一致，如果判断文本未发生更新(更新次数为0)，则说明对齐结果一致。(该过程的实现依赖于参照文本所从属/附属的对齐结果都是与参照文本相关的，比如ABC，ABC***等)

较于此，上述方式二中，由于参照文本与各个文本之间的对齐结果之间并无上述关联，故需要遍历所有的对齐结果，方可确定多个对齐结果之间是否长度一致，以及哪一个对齐结果最长，以作为下一轮的参照文本。在ASR模型的数量进一步增加，而导致需要对比的文本数量进一步增加的情况下，需要处理的对齐结果数量亦会显著增加，故上述方式一的采用，同时计算m-1个第一文本中的第i个第一文本相对于第一参照文本的编辑距离以及所述第一参照文本相对于所述第i个第一文本的编辑距离，以获取第i个第一文本与第一参照文本对齐后的两个第二文本，没有增加获取第二文本的时间，在依次获取多个第二文本后确定长度最长的一个，不必遍历所有的对齐结果，可显著减少对对齐结果的处理时间，以提高系统整体的识别效率，避免识别时延过长的问题。

此外，由于上述方式一在第二次对齐过程中，选取的是判断文本作为新的参照文本，新的参照文本仍为第一次对齐中参照文本所从属/附属的对齐结果，其在两次对齐过程中的实现逻辑是关联的。如若采用方式二，则第二次对齐过程中选取的新的参照文本与原参照文本之间没有必然的关联性，则会导致两次对齐的实现逻辑是相对随机的。上述区别不仅进一步造成时延的增加，并且，在工程实现的过程中，前后的逻辑性可提高人员编程的便捷性，并有效避免出现系统的操作错误。

在一实施例中，通过重打分模型对多个目标文本的每个对齐位置上的字/词进行打分，获取每个对齐位置上得分最高的字/词作为目标字/词包括：

S1，获取多个目标文本的目标对齐位置上的字/词的词频得分和置信度得分，其中，词频得分由字/词在目标对齐位置上出现的概率确定，置信度得分由每个ASR模型输出的字/词的置信度确定；

S2，将目标对齐位置上的字/词的词频得分和置信度得分相加后得到目标对齐位置上的字/词的目标得分；

S3，将目标对齐位置上的目标得分最高的字/词确定为目标对齐位置的目标字/词。

在一实施例中，获取多个目标文本的目标对齐位置上的字/词的词频得分和置信度得分包括：

S1，将字/词在目标对齐位置上出现的概率与第一权重相乘得到字/词的词频得分；

S2，将每个ASR模型输出的字/词的置信度的均值与第二权重相乘得到字/词的置信度得分，其中，第一权重和第二权重之和为1。

需要说明的是，对齐的文本结果(即前述目标文本)被送入到重打分模型进行重打分。打分公式如下：

其中，α为权重系数，且0<＝α<＝1，本申请实施例中取经验值0.6，不限定于此。公式前半部分表示词w的词频得分，N(W)表示当前位置上该字/词出现的次数，NS表示输入文本的总个数，即ASR模型个数，N(w)/NS表示词w在当前位置出现的概率，所有词在当前位置出现的概率之和应当为1，用出现概率乘以α系数，得到了词w的词频得分。公式后半部分表示词w的置信度得分，C_w，i为第i个句子中词w的置信度，∑C_w，i表示词在各文本当前位置的置信度总和，再除以N(w)，得到词w在当前位置的置信度均值，再乘上权系数(1-α)，得到词w的置信度得分。上述每一个词w的置信度由相应的ASR模型在语音识别过程中提供。

最终每个词w的得分scores(w)由词频得分与词置信度得分求和得到，即为该词在当前位置的最终得分，依据每个位置所有词的得分，可以得到一个最高分的词，选取为最佳结果，若最终结果为标识符“**”，表示该位置应当空缺。在对齐路径的每个位置上应用此公式，可以得到一条完整的识别结果。

下面通过具体示例与本申请实施例提供的文本输出方法进行描述。

示例性实施例1

本示例性实施例为智能语音外呼场景，客户通过电话终端与智能客服互动。

该示例中共有3个ASR模型，均为Kaldi下网络结构不同的WFST结构，分别为15层的TDNNF层、SpecAugment+TDNNF以及TDNNF+ATTENTION，其它超参按照上述细节部分所述设置。

开始测试时，说话人说了一句：“今天天气的确是不错哈”，该音频数据流通过电话通道传输到部署好的3个ASR系统中，通过解码得到对应的输出信息，识别结果分别为：“今天天气的确四不错哈”、“今天气的确是不错哈”、“今天天气的确是不错啊”，可以看到每个识别结果里面都有不正确的地方，但是3条结果都有共同识别正确的地方，结果具有互补性。接着对齐模型对这3个ASR模型的识别结果进行对齐，对齐过程中的空缺部分会以“**”填充，对齐完成后，多文本对齐结果被送到重打分模型，重打分模型根据词频以及置信度选择得分最高的词作为输出，具体对齐及打分结果见图5。最终输出结果是“今天天气的确是不错哈”。

示例性实施例2

本示例性实施例为智能语音交互场景，话者通过麦克风与客户端进行交互对话。因为实时交互场景比较复杂，实例中共部署有5个ASR系统，分别为15层的TDNNF结构、SpecAugment TDNNF结构、TDNNF+ATTENTION结构、CNN+TDNNF结构、CNN+TDNNF+ATTENTION结构。其它超参按照上述细节部分所述设置。

开始测试时，说话人说了一句：“灭活疫苗与mRNA疫苗有什么区别”。该音频数据通过麦克风拾音后，被传输到5个部署好的ASR系统中，通过解码得到对应的输出信息，识别结果分别为：“没有哦疫苗与恩RNA疫苗有什么区别”、“灭活疫苗雨mRNA疫苗有什么区别”、“灭活一秒与mRNA一秒有什么区别”、“没活疫苗与恩RNA疫苗有什么区别”、“灭活疫苗与mRNA疫苗有甚区别”，可以看出，每个单条识别结果与正确结果差距都比较大，但是识别结果之间还是有很多共同的地方，具有互补性。接着对齐模型对这5个ASR模型的识别结果进行对齐，对齐过程中的空缺部分会以“**”填充，对齐完成后，多文本对齐结果被送到重打分模型，重打分模型根据词频以及置信度选择得分最高的词作为输出。具体结果见图6。最终输出结果是“灭活疫苗**与mRNA疫苗有什么区别”。

本申请实施例适用于所有可应用语音识别项目的产品，包括但不限于智能外呼系统、智能语音音响、智慧语音遥控、智能语音大屏等其它智能语音交互终端。本申请实施例提出的文本输出方法，所提出的多文本对齐算法可以在不增加明显时耗的基础上同时对齐多个文本，所提出的重打分策略可以同时融合词频和置信度信息，提升融合效果，经过融合后模型可以得到较为稳定的提升。

可选地，在本实施例中，本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(Random Access Memory，RAM)、磁盘或光盘等。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在上述计算机可读取的存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在存储介质中，包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。

在本申请的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的客户端，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上所述仅是本申请的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种文本对齐方法，其特征在于，包括：

向ASR模型组输入预设格式的音频文件或音频流，其中，所述ASR模型组包括多个ASR模型，所述ASR模型包括以下至少之一：基于RNNT的端到端模型、基于Transformer框架的端到端模型、基于WFST的语音模型；

通过所述ASR模型组将输入的音频数据转换为第一文本；

将第一参照文本依次与多个所述第一文本中所述第一参照文本以外的所述第一文本进行对齐，以得到多个第二文本，其中，所述第一参照文本为多个所述第一文本中长度最长的文本，所述第二文本中，所述第一文本较于所述第一参照文本缺少的字/词的对齐位置使用预设字符进行填充；

将任一所述第二文本作为判断文本，并在多个所述第二文本之间的长度不等的情况下，对所述判断文本进行更新，以得到目标判断文本，所述目标判断文本为多个所述第二文本中长度最长的文本；将所述目标判断文本设定为第二参照文本；

在多个所述第二文本的长度均相等的情况下，确定多个所述第二文本为目标文本；在多个所述第二文本的长度不等的情况下，将所述第二参照文本依次与多个所述第二文本中所述第二参照文本以外的所述第二文本进行对齐，得到多个所述目标文本，其中，所述目标文本中，所述第二文本较于所述第二参照文本缺少字/词的对齐位置使用所述预设字符进行填充，多个所述目标文本的长度均相等。

2.根据权利要求1所述的方法，其特征在于，所述将所述第一参照文本依次与其他的所述第一文本进行对齐得到多个第二文本包括：

同时计算m-1个所述第一文本中的第i个第一文本相对于所述第一参照文本的编辑距离以及所述第一参照文本相对于所述第i个第一文本的编辑距离，以获取所述第i个第一文本与所述第一参照文本对齐后的两个第二文本，其中，m为所述第一文本的数量，m-1个所述第一文本中不包含所述第一参照文本，i＜m-1；

依次获取所述m-1个第一文本与所述第一参照文本对齐后的2*(m-1)个所述第二文本。

3.根据权利要求2所述的方法，其特征在于，所述依次获取所述m-1个第一文本与所述第一参照文本对齐后的2*(m-1)个所述第二文本，包括：

指定所述第i个第一文本与所述第一参照文本对齐后的所述两个第二文本中的任一第二文本为判断文本，其中，所述第i个第一文本与所述第一参照文本对齐后的所述两个第二文本的长度相同；

依次比较所述第i个第一文本对应的判断文本和第i+1个第一文本对应的判断文本的长度，确定所述m-1个第一文本对应的判断文本中，长度最长的判断文本为目标判断文本。

4.根据权利要求3所述的方法，其特征在于，在确定所述m-1个第一文本对应的判断文本中，长度最长的判断文本为目标判断文本以后，所述方法还包括：

在2*(m-1)个所述第二文本的长度不等的情况下，将所述目标判断文本确定为所述第二参照文本。

5.根据权利要求1所述的方法，其特征在于，所述将所述第一参照文本依次与其他的所述第一文本进行对齐得到多个第二文本包括：

依次计算n-1个所述第一文本中的第p个第一文本相对于所述第一参照文本的编辑距离，或所述第一参照文本相对于所述第p个第一文本的编辑距离，以获取n-1个所述第二文本，其中，n为所述第一文本的数量，n-1个所述第一文本中不包含所述第一参照文本，p＜n-1。

6.根据权利要求5所述的方法，其特征在于，在获取n-1个所述第二文本之后，所述方法还包括：

遍历所述n-1个所述第二文本，在所述n-1个所述第二文本的长度不等的情况下，将所述n-1个所述第二文本中长度最长的文本确定为所述第二参照文本。

7.根据权利要求5所述的方法，其特征在于，所述将所述目标判断文本设定为所述第二参照文本之后，还包括：

根据所述判断文本的更新次数，确定多个所述第二文本的长度相等或不相等。

8.一种计算机可读的存储介质，其特征在于，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行所述权利要求1至7任一项中所述的方法。

9.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行所述权利要求1至7任一项中所述的方法。