CN115588429A

CN115588429A - 语音识别的纠错方法及装置

Info

Publication number: CN115588429A
Application number: CN202211163949.4A
Authority: CN
Inventors: 陈梦喆; 张仕良; 宫博
Original assignee: Alibaba Damo Institute Hangzhou Technology Co Ltd
Current assignee: Alibaba Damo Institute Hangzhou Technology Co Ltd
Priority date: 2022-09-23
Filing date: 2022-09-23
Publication date: 2023-01-10

Abstract

本申请实施例公开了一种语音识别的纠错方法及装置，涉及语音处理和人工智能技术领域。其中方法包括：获取语音识别系统针对待识别语音输出的N个第一识别结果，所述N为大于1的正整数；将所述N个第一识别结果输入纠错模型，获取纠错模型输出的第二识别结果；其中所述纠错模型基于深度学习模型预先训练得到，包括编码网络和解码网络；所述编码网络对所述N个第一识别结果进行交互编码，得到所述N个第一识别结果中M个第一识别结果的特征表示，所述M为小于或等于N的正整数；所述解码网络利用所述M个第一识别结果的特征表示进行解码，得到第二识别结果。通过本申请能够对语音识别的结果进行准确地纠错。

Description

语音识别的纠错方法及装置

技术领域

本申请涉及语音处理和人工智能技术领域，特别是涉及一种语音识别的纠错方法及装置。

背景技术

ASR(Automatic Speech Recognition，自动语音识别)的目标是将人的语音识别为对应的文本。目前已经由多种实现方式的语音识别系统，但语音识别系统输出的结果常常是不准确的，特别是对于数据覆盖不全的领域。例如常常出现识别成同音但不同字的错误出现，这样的错误对于用户阅读和理解产生的影响非常大，因此亟需一种能够准确地对语音识别进行纠错的方法。

发明内容

有鉴于此，本申请提供了一种语音识别的纠错方法及装置，用以对语音识别的结果进行准确地纠错。

本申请提供了如下方案：

第一方面，提供了一种语音识别的纠错方法，所述方法包括：

获取语音识别系统针对待识别语音输出的N个第一识别结果，所述N为大于1的正整数；

将所述N个第一识别结果输入纠错模型，获取纠错模型输出的第二识别结果；其中所述纠错模型基于深度学习模型预先训练得到，包括编码网络和解码网络；所述编码网络对所述N个第一识别结果进行交互编码，得到所述N个第一识别结果中M个第一识别结果的特征表示，所述M为小于或等于N的正整数；所述解码网络利用所述M个第一识别结果的特征表示进行解码，得到第二识别结果。

根据本申请实施例中一可实现的方式，在将所述N个第一识别结果输入纠错模型之前，还包括：

将所述N个第一识别结果进行填充处理，得到等长的N个第一识别结果。

根据本申请实施例中一可实现的方式，所述纠错模型还包括嵌入网络；

所述嵌入网络对所述N个第一识别结果中的各元素Token进行基于内容的嵌入和基于位置的嵌入，得到所述N个第一识别结果中各Token的嵌入特征；

所述编码网络利用所述N个第一识别结果中各Token的嵌入特征执行所述交互编码的处理。

根据本申请实施例中一可实现的方式，所述编码网络利用所述N个第一识别结果中各Token的嵌入特征执行所述交互编码的处理包括：

所述编码网络针对所述N个第一识别结果中的各Token分别执行：利用当前Token的嵌入特征得到查询向量，利用所述N个第一识别结果中与所述当前Token有关联的其他Token的嵌入特征得到键矩阵和值矩阵，进行注意力处理后再经过全连接层，得到所述当前Token的特征向量，其中所述与当前Token有关联的其他Token包括：与所述当前Token属于同一第一识别结果的至少一个Token，以及与所述当前Token属于不同第一识别结果的至少一个Token；

利用各第一识别结果所包含Token的特征向量分别得到各第一识别结果的特征表示；

从所述N个第一识别结果的特征表示中获取M个第一识别结果的特征表示。

根据本申请实施例中一可实现的方式，所述纠错模型还包括长度预测网络和编辑处理模块；

所述长度预测网络利用所述M个第一识别结果的特征表示，预测所述M个第一识别结果中各Token对应的编辑类型，所述编辑类型包括删除、保留或插入；

所述编辑处理模块利用所述长度预测网络的预测结果分别对所述M个第一识别结果的特征表示进行编辑处理，将编辑处理后的所述M个第一识别结果的特征表示提供给所述解码网络；

所述解码网络利用编辑处理后的所述M个第一识别结果的特征表示进行解码。

所述编辑处理模块利用所述长度预测网络的预测结果分别对所述M个第一识别结果中各Token的嵌入特征进行编辑处理，得到所述M个第一识别结果的嵌入特征，其中编辑处理后的第一识别结果中各Token的嵌入特征构成该第一识别结果的嵌入特征；

所述解码网络利用所述M个第一识别结果的特征表示进行解码包括：所述解码网络利用所述M个第一识别结果的特征表示和嵌入特征进行解码。

根据本申请实施例中一可实现的方式，所述解码网络利用所述M个第一识别结果的特征表示和嵌入特征进行解码包括：

所述解码网络利用所述M个第一识别结果的特征表示得到查询矩阵，利用所述M个识别结果的嵌入特征得到键矩阵和值矩阵，进行自注意力处理后经过全连接层得到所述第二识别结果。

根据本申请实施例中一可实现的方式，所述M个第一识别结果为所述语音识别系统针对待识别语音输出的最优识别结果。

根据本申请实施例中一可实现的方式，所述纠错模型采用如下方式预先训练得到：

获取训练数据，所述训练数据包括文本样本以及将所述文本样本进行编辑处理后得到的N个文本；

利用所述训练数据训练所述纠错模型；其中，将所述N个文本作为N个第一识别结果输入纠错模型，训练目标包括：最小化所述纠错模型输出的第二识别结果与所述N个文本对应的文本样本之间的差异。

获取训练数据，所述训练数据包括文本样本以及将所述文本样本进行编辑处理后得到的N个文本，其中所述N个文本被标注有所述编辑处理的编辑类型标签；

利用所述训练数据训练所述纠错模型；其中，将所述N个文本作为N个第一识别结果输入纠错模型，训练目标包括：最小化所述纠错模型输出的第二识别结果与所述N个文本对应的文本样本之间的差异，以及，最小化所述长度预测网络预测得到的所述N个文本中M个文本的各Token对应的编辑类型与对应编辑类型标签之间的差异。

第二方面，提供了一种语音识别的纠错装置，该装置包括：

结果获取单元，被配置为获取语音识别系统针对待识别语音输出的N个第一识别结果，所述N为大于1的正整数；

纠错处理单元，被配置为将所述N个第一识别结果输入纠错模型，获取纠错模型输出的第二识别结果；其中所述纠错模型基于深度学习模型预先训练得到，包括编码网络和解码网络；所述编码网络对所述N个第一识别结果进行交互编码，得到所述N个第一识别结果中M个第一识别结果的特征表示，所述M为小于或等于N的正整数；所述解码网络利用所述M个第一识别结果的特征表示进行解码，得到第二识别结果。

根据第三方面，提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述第一方面中任一项所述的方法的步骤。

根据第四方面，提供了一种电子设备，其特征在于，包括：

一个或多个处理器；以及

与所述一个或多个处理器关联的存储器，所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时，执行上述第一方面中任一项所述的方法的步骤。

根据本申请提供的具体实施例，本申请公开了以下技术效果：

1)本申请采用基于深度学习模型预先训练得到的纠错模型，对语音识别系统输出的多个第一识别结果进行交互编码和解码，从而得到纠错后的识别结果即第二识别结果。该方式不必受限于纠错列表中词语的限制，实现更加智能和灵活，提高了纠错的准确性。并且，本申请基于语音识别系统输出的多个第一识别结果，能够从更多的有效信息中理解和学习，提高纠错得到的第二识别结果的准确性。

2)本申请中并非在嵌入网络对N个第一识别结果进行浅层次融合，而是在编码网络对N个第一识别结果进行交互编码，不仅学习到各第一识别结果内部Token之间的关系，也能够学习到不同第一识别结果中Token之间的关系，充分利用了多个第一识别结果中有用的信息，从而提高纠错的准确性。

3)本申请中纠错模型的编码网络在针对各Token进行编码时，考虑到其上下文Token的嵌入特征，第一识别结果中的第i个Token能够与其他第一识别结果中的第i-t到第i+t个Token都进行相互关联的学习，使得即便不对N个第一识别结果进行严格的对齐处理，也降低了信息混淆的影响，从而提高纠错的准确性。

4)本申请在纠错模型中引入长度预测网络和编辑处理模块，通过长度预测网络对M个第一识别结果中各Token对应的编辑类型进行预测并由编辑处理模块对对应的第一识别结果的特征表示或对应的第一识别结果的嵌入特征进行编辑处理，使得解码单元能够依据编辑后的更加准确的特征信息进行解码处理，从而进一步提高得到的第二识别结果的准确性。

当然，实施本申请的任一产品并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是适用于本申请实施例的系统结构图；

图2是本申请实施例提供的语音识别的纠错方法流程图；

图3是本申请实施例提供的填充处理的示意图；

图4a是本申请实施例提供的一种纠错模型的示意性原理图；

图4b是本申请实施例提供的另一种纠错模型的示意性原理图；

图4c是本申请实施例提供的再一种纠错模型的示意性原理图；

图5是本申请实施例提供的当前Token有关联的Token示意图；

图6是本申请实施例提供的纠错装置的示意性框图；

图7是本申请实施例提供的模型训练装置的示意性框图；

图8为本申请实施例提供的电子设备的示意性框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本申请保护的范围。

在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。

应当理解，本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地，取决于语境，短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。

目前已经存在的纠错方法主要包括以下两种：

一种是依赖规则的，即提供一个纠错列表，基于一定的规则或模型判断语音识别结果中是否有词语应该替换为纠错列表中的词语，如果有，利用纠错列表中的词语进行替换。这种方法的缺陷在于仅限于纠错列表中的词语，效果提升比较局限，准确性仍较差。

另一种是采用神经网络模型对语音识别系统得到的最优识别结果(One Best)进行纠错。这种方式的缺陷在于，纠错的基础仅为语音识别系统的最优识别结果，参考的信息有限，纠错准确性仍不足。

有鉴于此，本申请采用了一种全新的纠错方式，参考语音识别系统针对待识别语音得到的多个识别结果来进行纠错，得到纠错后的识别结果。为了方便对本申请的理解，首先对本申请所适用的系统架构进行简单描述。图1示出了可以应用本申请实施例的示例性系统架构，如图1中所示，该系统架构包括采用离线方式建立纠错模型的模型训练装置，以及在线对语音识别系统的识别结果进行纠错的纠错装置。

其中，模型训练装置在获取训练数据后，可以采用本申请实施例提供的方法进行模型训练，得到纠错模型。

语音识别系统用以对待识别语音进行语音识别，输出识别结果。

纠错装置利用已经建立的纠错模型，对语音识别系统的识别结果进行纠错，得到纠错后的识别结果。

模型训练装置、语音识别系统和纠错装置可以分别设置为独立的服务器，也可以设置于同一个服务器或服务器群组，还可以设置于独立的或者同一云服务器。云服务器又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决传统物理主机与虚拟专用服务器(VPS，Virtual Private Server)服务中存在的管理难度大，服务扩展性弱的缺陷。模型训练装置和纠错装置还可以设置于具有较强计算能力的计算机终端。

需要说明的是，上述纠错装置除了在线上进行纠错之外，也可以采用离线的方式进行纠错，例如针对批量的语音识别结果分别进行纠错。

应该理解，图1中的模型训练装置、纠错模型、语音识别系统和纠错装置的数目仅仅是示意性的。根据实现需要，可以具有任意数目的模型训练装置、纠错模型、语音识别系统和纠错装置。

图2为本申请实施例提供的语音识别的纠错方法流程图，该方法可以由图1所示系统中的纠错装置执行。如图2中所示，该方法可以包括以下步骤：

步骤202：获取语音识别系统针对待识别语音输出的N个第一识别结果，N为大于1的正整数。

步骤204：将N个第一识别结果输入纠错模型，获取纠错模型输出的第二识别结果；其中纠错模型基于深度学习模型预先训练得到，包括编码网络和解码网络；编码网络对N个第一识别结果进行交互编码，得到N个第一识别结果中M个第一识别结果的特征表示，M为小于或等于N的正整数；解码网络利用M个第一识别结果的特征表示进行解码，得到第二识别结果。

由上述流程可以看出，本申请采用基于深度学习模型预先训练得到的纠错模型，对语音识别系统输出的多个第一识别结果进行交互编码和解码，从而得到纠错后的识别结果即第二识别结果。该方式不必受限于纠错列表中词语的限制，实现更加智能和灵活，提高了纠错的准确性。并且，本申请基于语音识别系统输出的多个第一识别结果，能够从更多的有效信息中理解和学习，提高纠错得到的第二识别结果的准确性。

需要说明的是，本公开中涉及的“第一”、“第二”等限定并不具备大小、顺序和数量等方面的限制，仅仅用以在名称上加以区分，例如“第一识别结果”和“第二识别结果”用以在名称上区分两种识别结果，其中第一识别结果表示语音识别系统输出的识别结果，第二识别结果表示纠错模型纠错后输出的识别结果。

本申请对于语音识别系统的实现并不加以限制，可以采用任意实现机制的语音识别系统，本申请仅用以对语音识别系统的识别结果进行纠错。大多数的纠错方式只用识别结果中最优的识别结果来进行纠错，但实际上除了最优的识别结果之外，其他识别结果也包含大量有效信息，可以用于辅助纠错。因此，本申请实施例中获取语音识别系统输出的多个第一识别结果。作为其中一种可实现的方式，该多个第一识别结果可以是语音识别系统输出的识别结果中置信度排在前N个的识别结果，表示为Nbest的第一识别结果，后续实施例中均以该实现方式为例进行描述。

下面结合实施例重点对上述步骤204即“将N个第一识别结果输入纠错模型，获取纠错模型输出的第二识别结果”进行详细描述。

该纠错模型可以包括编码网络和解码网络，还可以进一步包括嵌入网络、长度预测网络和编辑处理模块。

如图4a、图4b和图4c中所示，编码网络用以对N个第一识别结果进行交互编码，得到N个第一识别结果中M个第一识别结果的特征表示。

解码网络利用M个第一识别结果的特征表示进行解码，得到第二识别结果。

上述纠错模型基于深度学习模型来实现，例如上述编码网络和解码网络可以基于Transformer实现，具体将在后续详述。

由于语音识别系统输出的各第一识别结果可能是不等长的，为了方便后续纠错模型进行交互编码，作为其中一种可实现的方式，如图3中所示，可以在获取到语音识别系统输出的Nbest的第一识别结果后，对该Nbest的第一识别结果进行填充(Padding)处理，得到等长的N个第一识别结果。然后再将等长的N个第一识别结果提供给纠错模型进行纠错处理。

其中对Nbest的第一识别结果进行填充处理的方式可以是以Nbest的第一识别结果中最长的第一识别结果为基准，在其他第一识别结果的末端进行补零以达到最长的第一识别结果的长度。这样就得到等长的N个第一识别结果。这种方式实现比较简单，但也可以采用其他填充的方式，例如将Nbest的第一识别结果进行简单对齐后，将空出的位置进行补零。

经过填充处理后得到的N个第一识别结果可以首先经过嵌入网络的嵌入(Embedding)处理，得到N个第一识别结果中各Token的嵌入特征。

其中，上述嵌入网络可以对N个第一识别结果中的各元素(Token)进行基于内容的嵌入和基于位置的嵌入，即词Embedding和位置Embedding。由于上述N个第一识别结果实际上是多个Token构成的序列，其中Token包括词语、起始符[CLS]和分隔符[SEP]。

词Embedding，即将各Token进行词向量编码，得到词向量表示。位置Embedding，即将各Token在第一识别结果中的位置进行编码，得到位置的表示。例如某个第一识别结果为“[CLS]播放[SEP]一首[SEP]慢歌[SEP]”，将各Token“[CLS]”、“播放”、“[SEP]”、“一首”、“[SEP]”、“慢歌”、“[SEP]”依据在该第一识别结果中的位置依次编号为0、1、2、3、4、5和6。

将Token的词向量表示和位置的表示相加，可以得到该Token的嵌入特征。在得到上述N个第一识别结果中各Token的嵌入特征后，编码网络可以利用该N个第一识别结果中各Token的嵌入特征执行交互编码的处理。编码网络可以由多个Transformer层实现，每一Transformer层可以包括注意力层和全连接层。其中全连接层可以是诸如FFN(feed-forward network，前馈神经网络)等。

作为其中一种可实现的方式，编码网络为了使得各第一识别结果之间也能够学习到相互关系，在对各Token进行注意力处理时，不仅仅考虑了同一识别结果中Token之间的关系，还考虑了不同识别结果中Token之间的关系。具体地，编码网络可以针对上述N个识别结果中的各Token分别执行：

利用当前Token的嵌入特征得到查询向量，利用上述N个第一识别结果中与当前Token有关联的其他Token的嵌入特征得到键矩阵和值矩阵，进行注意力处理后再经过全连接层，得到当前Token的特征向量。其中与当前Token有关联的其他Token可以预先设置，可以包括：与当前Token属于同一第一识别结果的至少一个Token，以及与当前Token属于不同第一识别结果的至少一个Token。

如图5中所示，对于某第一识别结果中的第i个Token(即当前Token)而言，可以预先设置与当前Token有关联的其他Token包括：与该Token属于同一第一识别结果的其他Token，以及与该Token及其上下文Token在其他第一识别结果中对应位置的Token。其中，该第i个Token的上下文Token可以是第i-t到第i+t个Token。t为预设的正整数，可以采用经验值或者实验值。图5中t以2为例，在图5中采用灰度方式示出了与当前Token有关联的其他Token。在模型训练过程中能够学习到当前Token与灰度示出的这些Token之间的关联度，并在纠错过程中利用这些关联度得到当前Token的特征表示，该特征表示除了考虑当前Token的嵌入特征之外，也考虑了图中灰度示出的这些Token的嵌入特征以及与当前Token的关联度，也就是说，考虑了图中灰度示出的这些Token的嵌入特征对当前Token的特征表示的影响。

在得到各Token的特征向量之后，可以利用各第一识别结果中包含的各Token的特征向量分别得到各第一识别结果的特征表示。例如第一识别结果1中各Token的特征向量构成第一识别结果1的特征表示，第一识别结果2中各Token的特征向量构成第一识别结果2的特征表示，以此类推。

可以看出编码网络的这种交互编码方式，采用的自注意力学习不仅在各第一识别结果内部Token之间的关系上进行学习，还在N个第一识别结果之间的关系上进行学习。并且还扩展了Token的上下文，这种考虑各Token上下文的方式是因为本申请实施例中仅采用填充方式将N个第一识别结果处理为等长，而并未进行严格地对齐处理。这就造成N个第一识别结果中各Token并不是严格对齐的，因此在得到各Token的特征表示时考虑了Token上下文的嵌入特征，使得交叉编码过程中，一个第一识别结果中的第i个Token能够与其他第一识别结果中的第i-t到第i+t个Token都进行相互关联的学习。即便没有经过各第一识别结果的严格对齐，也能够学习到有效的关联关系，从而提高纠错准确性。

需要说明的是，上述扩展了各Token的上下文的形式是一种优选的实施方式，也可以采用其他实现方式。如仅考虑与当前Token属于同一第一识别结果的Token以及其他第一识别结果中与当前Token在相同位置的Token。

编码网络在得到N个第一识别结果的特征表示后，从N个第一识别结果的特征表示中获取M个第一识别结果的特征表示，M为小于或等于N的正整数。

作为其中一种可实现的方式，可以从N个第一识别结果的特征表示中获取最优识别结果(可以表示为One best的第一识别结果)的特征表示，即语音识别系统输出的置信度最高的第一识别结果的特征表示。后续实施例的描述中以获取One best的第一识别结果的特征表示为例。除了该实现方式之外，也可以从中任选一个第一识别结果的特征表示用以后续解码处理，但优选One best的第一识别结果的特征表示。

如图4a～4c中所示，编码网络的各Transformer层实际上是分别针对N个第一识别结果进行的处理，图中箭头旁边的“N”示出的是每一层输出的是N个第一识别结果各自的特征表示。最终编码网络从N个第一识别结果中获取One best的第一识别结果的特征表示，即编码网络最终输出的是One best的第一识别结果的特征表示，箭头旁边的“1”示出的是一个第一识别结果的特征表示。

关于解码部分的实现，可以采用但不限于以下三种方式：

方式1：解码网络可以直接利用编码网络输出的M个第一识别结果的特征表示进行解码处理，得到第二识别结果。

解码网络也可以由多个Transformer层实现，每一Transformer层可以包括注意力层和全连接层。其中全连接层可以是诸如FFN等。注意力层可以利用上述M个第一识别结果的特征表示分别得到query、key和value，进行注意力处理后经过全连接层，得到第二识别结果。该第二识别结果为同样是一个由多个Token构成的文本，该文本就是纠错后的识别结果。

如图4a中所示，以编码网络输出One best的第一识别结果的特征表示为例，解码网络直接将该One best的第一识别结果的特征表示输出至解码网络，解码网络利用Onebest的第一识别结果的特征表示进行解码处理(包括注意力处理和全连接层处理)，得到第二识别结果。

方式2：编码网络输出的M个第一识别结果的特征表示可以首先被输入长度预测网络。长度预测网络利用被输入的M个第一识别结果的特征表示，分别预测该M个第一识别结果中各Token对应的编辑类型，编辑类型可以包括删除、保留或插入。

然后由编辑处理模块利用长度预测网络的预测结果分别对上述M个第一识别结果的特征表示进行编辑处理，将编辑处理后的该M个第一识别结果的特征表示提供给解码网络。

在进行编辑处理时，可能面临以下三种编辑类型：

若某第一识别结果中的某个Token的编辑类型为删除，则意味着该Token是多余的，因此编辑处理模块将该Token从第一识别结果中删除，对于该第一识别结果的特征表示而言，可以将该Token对应的向量删除。

若某第一识别结果中的某个Token的编辑类型为保留，则意味着该Token是正确的，因此编辑处理模块在第一识别结果中保留该Token，保持第一识别结果的特征表示中该Token对应的向量不变。

若某第一识别结果中的某个Token的编辑类型为插入，则意味着在该Token的位置需要插入另一个Token。对该第一识别结果的特征表示而言，可以复制该Token相邻的其中一个Token的向量，将复制的向量插入该Token的向量的位置。当然，也可以采用其他的方式插入，例如将该Token相邻的若干个Token的向量进行求平均，将求平均得到的向量插入该Token的向量的位置，再例如，采用类似于插值的方式在该Token的位置插入向量，等等。

同样，解码网络也可以由多个Transformer层实现，每一Transformer层可以包括注意力层和全连接层。其中全连接层可以是诸如FFN等。注意力层可以利用上述编辑处理后的M个第一识别结果的特征表示分别得到query、key和value，进行注意力处理后经过全连接层，得到第二识别结果。该第二识别结果为同样是一个由多个Token构成的文本，该文本就是纠错后的识别结果。

如图4b中所示，以编码网络输出One best的第一识别结果的特征表示为例，解码网络将该One best的第一识别结果的特征表示输出至长度预测网络后，经过长度预测网络对该One best的第一识别结果中各Token的编辑类型进行预测，输出编辑类型给编辑处理模块，由编辑处理模块依据预测的编辑类型对该One best的第一识别结果的特征表示进行编辑处理，得到编辑处理后的该One best的第一识别结果的特征表示并输出至解码网络。解码网络利用One best的第一识别结果的特征表示进行解码处理(包括注意力处理和全连接层处理)，得到第二识别结果。

方式3：编码网络输出的M个第一识别结果的特征表示可以首先被输入长度预测网络。长度预测网络利用被输入的M个第一识别结果的特征表示，分别预测该M个第一识别结果中各Token对应的编辑类型，编辑类型可以包括删除、保留或插入。

然后由编辑处理模块利用长度预测网络的预测结果分别对M个第一识别结果中各Token的嵌入特征进行编辑处理，得到所述M个第一识别结果的嵌入特征，其中编辑处理后的第一识别结果中各Token的嵌入特征构成该第一识别结果的嵌入特征。

在进行编辑处理时，可能面临以下三种编辑类型：

若某第一识别结果中的某个Token的编辑类型为删除，则意味着该Token是多余的，因此编辑处理模块将该Token从第一识别结果中删除，对于该第一识别结果的嵌入特征而言，可以将该Token对应的向量删除。

若某第一识别结果中的某个Token的编辑类型为保留，则意味着该Token是正确的，因此编辑处理模块在第一识别结果中保留该Token，保持第一识别结果的嵌入特征中该Token对应的向量不变。

若某第一识别结果中的某个Token的编辑类型为插入，则意味着在该Token的位置需要插入另一个Token。对该第一识别结果的嵌入特征而言，可以复制该Token相邻的其中一个Token的向量，将复制的向量插入该Token的向量的位置。当然，也可以采用其他的方式插入，例如将该Token相邻的若干个Token的向量进行求平均，将求平均得到的向量插入该Token的向量的位置，再例如，采用类似于插值的方式在该Token的位置插入向量，等等。

在该方式中，解码网络存在两路输入，一路是编码网络输出的M个第一识别结果的特征表示，另一路是经过编辑处理模块进行编辑处理得到的M个第一识别结果的嵌入特征。因此，解码网络利用上述M个第一识别结果的特征表示和嵌入特征进行解码。

同样，解码网络也可以由多个Transformer层实现，每一Transformer层可以包括注意力层和全连接层。其中全连接层可以是诸如FFN等。与之前两种方式不同的是，注意力层可以利用其中一路输入得到query，利用另一路输入得到key和value。例如，利用M个第一识别结果的特征表示得到query，利用M个识别结果的嵌入特征得到key和value，进行注意力处理后经过全连接层，得到第二识别结果。该第二识别结果为同样是一个由多个Token构成的文本，该文本就是纠错后的识别结果。

如图4c中所示，以编码网络输出One best的第一识别结果的特征表示为例，解码网络将该One best的第一识别结果的特征表示输出至长度预测网络后，经过长度预测网络对该One best的第一识别结果中各Token的编辑类型进行预测，输出编辑类型给编辑处理模块。由编辑处理模块依据预测的编辑类型对该One best的第一识别结果的嵌入特征进行编辑处理，得到编辑处理后的该One best的第一识别结果的嵌入特征并输出至解码网络。解码网络利用One best的第一识别结果的特征表示和嵌入特征进行解码处理(包括注意力处理和全连接层处理)，得到第二识别结果。

下面结合实施例对上述纠错模型的训练方法进行详细描述。

首先获取训练数据。

本申请实施例中，获取训练数据的目的是为了获得N个第一识别结果以及对该N个第一识别结果纠错后的文本。作为其中一种可实现的方式，可以获取语音识别系统对语音样本输出的N个第一识别结果来作为纠错模型的输入，将人工对N个第一识别结果进行纠错后得到的文本作为语音识别系统的目标输出来进行训练。但这种方式需要调用语音识别系统，且需要根据人工的经验来对各第一识别结果进行纠错，实现较为复杂，且依赖人工经验。因此，本申请提供了另一种优选的实施方式来获取训练数据。

具体地，可以首先获取文本样本。该文本样本可以是任意的正确句子，所谓正确句子就是不存在语法错误、同音不同字等错误的句子。这种正确句子是很容易获取的，各种网站或数据库等文本大多是经过审核的，可以从这些网络或数据库中的文本中获取到大量的正确句子来作为文本样本。然后对文本样本进行不同的编辑处理后得到N个文本，这里的编辑处理可以是诸如随机选择文本样本中的一个或多个词语进行编辑处理，编辑处理可以包括插入、保留、删除等中的一种或任意组合，这样就能够产生N个不同的文本，这N个不同的文本可以用来模拟语音识别系统输出的N个识别结果。在进行编辑处理时，可以额外结合一些词典来进行插入处理，例如插入一些同音、同义等的词语，来帮助纠错模型更好地学习纠错。

举个例子，假设获取到一个文本样本为：“今天的天气真是好啊”，经过编辑处理后可以得到例如“今天真好啊”、“今天的天气真实好啊”、“今天的天气真是真是好啊”等等。

将这N个文本作为输入纠错模型的N个第一识别结果，目标是让纠错模型能够学习并纠错输出正确的句子即文本样本，也就是说，训练目标包括最小化纠错模型输出的第二识别结果与N个文本对应的文本样本之间的差异。作为其中一种可实现的方式，可以依据上述训练目标构造损失函数，例如可以采用交叉熵损失函数。在每一轮迭代中利用损失函数的取值，采用诸如梯度下降等方式更新纠错模型的参数，直至满足预设的训练结束条件。其中训练结束条件可以包括诸如损失函数的取值小于或等于预设的损失函数阈值，迭代次数达到预设的次数阈值等。这种实现方式可以应用于图4a～图4c所示纠错模型中的任意一种。

作为另一种可实现的方式，对于图4b和图4c所示的纠错模型，在获取训练数据时，对文本样本进行不同的编辑处理后得到N个文本之后进一步对N个文本进行标签的标注。这里的标签是对应编辑处理的编辑类型标签，该标签实际是针对N个文本中的各Token进行的标注。

相应地，训练目标可以包括两个：第一训练目标为最小化纠错模型输出的第二识别结果与N个文本对应的文本样本之间的差异，除了第一训练目标之外，还可以进一步包括第二训练目标。第二训练目标为最小化长度预测网络预测得到的N个文本中M个文本的各Token对应的编辑类型与对应编辑类型标签之间的差异。例如，可以利用第一训练目标构建损失函数Loss1，利用第二训练目标构建损失函数Loss2，利用Loss1和Loss2得到总损失函数Loss：

Loss＝a1*Loss1+a2*Loss2

其中，a1和a2是超参数，用以表示两个损失函数的权重值，具体可以采用经验值或实验值。

在每一轮迭代中利用总损失函数的取值，采用诸如梯度下降等方式更新纠错模型的参数，直至满足预设的训练结束条件。其中训练结束条件可以包括诸如总损失函数的取值小于或等于预设的损失函数阈值，迭代次数达到预设的次数阈值等。

本申请实施例提供的上述方法可以应用于任意的语音识别场景，与语音识别系统的输出对接进行纠错处理。例如，在人机对话场景、输入法应用中的语音输入场景、即时通信类应用中的语音转文字场景、搜索类应用中的语音搜索场景，等等。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

根据另一方面的实施例，提供了一种纠错装置。图6示出根据一个实施例的纠错装置的示意性框图。如图6所示，该装置600包括：结果获取单元601和纠错处理单元602，还可以进一步包括：填充处理单元603。其中各组成单元的主要功能如下：

结果获取单元601，被配置为获取语音识别系统针对待识别语音输出的N个第一识别结果，N为大于1的正整数。

纠错处理单元602，被配置为将N个第一识别结果输入纠错模型，获取纠错模型输出的第二识别结果；其中纠错模型基于深度学习模型预先训练得到，包括编码网络和解码网络；编码网络对N个第一识别结果进行交互编码，得到N个第一识别结果中M个第一识别结果的特征表示，M为小于或等于N的正整数；解码网络利用M个第一识别结果的特征表示进行解码，得到第二识别结果。

作为其中一种可实现的方式，填充处理单元603可以将结果获取单元601获取的N个第一识别结果进行填充处理，得到等长的N个第一识别结果，然后将该等长的N个第一识别结果提供给纠错处理单元602。

作为其中一种可实现的方式，上述编码网络在对N个第一识别结果进行交互编码，得到N个第一识别结果中M个第一识别结果的特征表示时，具体执行：

利用当前Token的嵌入特征得到查询向量，利用N个第一识别结果中与当前Token有关联的其他Token的嵌入特征得到键矩阵和值矩阵，进行注意力处理后再经过全连接层，得到当前Token的特征向量，其中与当前Token有关联的其他Token包括：与当前Token属于同一第一识别结果的至少一个Token，以及与当前Token属于不同第一识别结果的至少一个Token；

从N个第一识别结果的特征表示中获取M个第一识别结果的特征表示。

作为其中一种可实现的方式，纠错模型还包括长度预测网络和编辑处理模块。

长度预测网络利用M个第一识别结果的特征表示，预测M个第一识别结果中各Token对应的编辑类型，编辑类型包括删除、保留或插入。

编辑处理模块利用长度预测网络的预测结果分别对M个第一识别结果的特征表示进行编辑处理，将编辑处理后的M个第一识别结果的特征表示提供给解码网络；

解码网络利用编辑处理后的M个第一识别结果的特征表示进行解码。

作为另一种可实现的方式，纠错模型还包括长度预测网络和编辑处理模块；

长度预测网络利用M个第一识别结果的特征表示，预测M个第一识别结果中各Token对应的编辑类型，编辑类型包括删除、保留或插入；

编辑处理模块利用长度预测网络的预测结果分别对M个第一识别结果中各Token的嵌入特征进行编辑处理，得到M个第一识别结果的嵌入特征，其中编辑处理后的第一识别结果中各Token的嵌入特征构成该第一识别结果的嵌入特征；

解码网络利用M个第一识别结果的特征表示进行解码包括：解码网络利用M个第一识别结果的特征表示和嵌入特征进行解码。

在这种方式下，解码网络可以利用M个第一识别结果的特征表示得到查询矩阵，利用M个识别结果的嵌入特征得到键矩阵和值矩阵，进行自注意力处理后经过全连接层得到第二识别结果。

作为其中一种可实现的方式，上述M个第一识别结果为语音识别系统针对待识别语音输出的最优识别结果。

图7示出根据一个实施例的模型训练装置的示意性框图。如图7所示，该装置700包括：样本获取单元701和模型训练单元702，还可以进一步包括：填充处理单元703。其中各组成单元的主要功能如下：

样本获取单元701，被配置为获取训练数据，训练数据包括文本样本以及将文本样本进行编辑处理后得到的N个文本。

模型训练单元702，被配置为利用训练数据训练纠错模型；其中，将N个文本作为N个第一识别结果输入纠错模型，训练目标包括：最小化纠错模型输出的第二识别结果与N个文本对应的文本样本之间的差异。

作为其中一种可实现的方式，填充处理单元703可以将训练数据中上述的N个文本进行填充处理，得到等长的N个文本提供给模型训练单元702。

更进一步地，上述训练数据中N个文本被标注有编辑处理的编辑类型标签，训练目标还可以进一步包括：最小化长度预测网络预测得到的N个文本中M个文本的各Token对应的编辑类型与对应编辑类型标签之间的差异。

关于纠错模型的具体结构和处理可以参见方法实施例中的相关记载，在此不做赘述。

上述图6所示的纠错装置和图7所示的模型训练装置可以设置为同一个装置，也可以设置为不同的装置。

需要说明的是，本申请实施例中可能会涉及到对用户数据的使用，在实际应用中，可以在符合所在国的适用法律法规要求的情况下(例如，用户明确同意，对用户切实通知，等)，在适用法律法规允许的范围内在本文描述的方案中使用用户特定的个人数据。

另外，本申请实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现前述方法实施例中任一项所述的方法的步骤。

以及一种电子设备，包括：

一个或多个处理器；以及

与所述一个或多个处理器关联的存储器，所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时，执行前述方法实施例中任一项所述的方法的步骤。

本申请还提供了一种计算机程序产品，包括计算机程序，该计算机程序在被处理器执行时实现前述方法实施例中任一项所述的方法的步骤。

其中，图8示例性的展示出了电子设备的架构，具体可以包括处理器810，视频显示适配器811，磁盘驱动器812，输入/输出接口813，网络接口814，以及存储器820。上述处理器810、视频显示适配器811、磁盘驱动器812、输入/输出接口813、网络接口814，与存储器820之间可以通过通信总线830进行通信连接。

其中，处理器810可以采用通用的CPU、微处理器、应用专用集成电路(ApplicationSpecific Integrated Circuit，ASIC)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本申请所提供的技术方案。

存储器820可以采用ROM(Read Only Memory，只读存储器)、RAM(Random AccessMemory，随机存取存储器)、静态存储设备，动态存储设备等形式实现。存储器820可以存储用于控制电子设备800运行的操作系统821，用于控制电子设备800的低级别操作的基本输入输出系统(BIOS)822。另外，还可以存储网页浏览器823，数据存储管理系统824，以及纠错装置825等等。上述纠错装置825就可以是本申请实施例中具体实现前述各步骤操作的应用程序。总之，在通过软件或者固件来实现本申请所提供的技术方案时，相关的程序代码保存在存储器820中，并由处理器810来调用执行。

输入/输出接口813用于连接输入/输出模块，以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出)，也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等，输出设备可以包括显示器、扬声器、振动器、指示灯等。

网络接口814用于连接通信模块(图中未示出)，以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信，也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。

总线830包括一通路，在设备的各个组件(例如处理器810、视频显示适配器811、磁盘驱动器812、输入/输出接口813、网络接口814，与存储器820)之间传输信息。

需要说明的是，尽管上述设备仅示出了处理器810、视频显示适配器811、磁盘驱动器812、输入/输出接口813、网络接口814，存储器820，总线830等，但是在具体实施过程中，该设备还可以包括实现正常运行所必需的其他组件。此外，本领域的技术人员可以理解的是，上述设备中也可以仅包含实现本申请方案所必需的组件，而不必包含图中所示的全部组件。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以计算机程序产品的形式体现出来，该计算机程序产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统或系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的系统及系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上对本申请所提供的技术方案进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种语音识别的纠错方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，在将所述N个第一识别结果输入纠错模型之前，还包括：

3.根据权利要求1所述的方法，其特征在于，所述纠错模型还包括嵌入网络；

4.根据权利要求3所述的方法，其特征在于，所述编码网络利用所述N个第一识别结果中各Token的嵌入特征执行所述交互编码的处理包括：

5.根据权利要求1所述的方法，其特征在于，所述纠错模型还包括长度预测网络和编辑处理模块；

6.根据权利要求3所述的方法，其特征在于，所述纠错模型还包括长度预测网络和编辑处理模块；

7.根据权利要求6所述的方法，其特征在于，所述解码网络利用所述M个第一识别结果的特征表示和嵌入特征进行解码包括：

8.根据权利要求1至7中任一项所述的方法，其特征在于，所述M个第一识别结果为所述语音识别系统针对待识别语音输出的最优识别结果。

9.根据权利要求1至7中任一项所述的方法，其特征在于，所述纠错模型采用如下方式预先训练得到：

10.根据权利要求5、6或7所述的方法，其特征在于，所述纠错模型采用如下方式预先训练得到：

11.一种语音识别的纠错装置，其特征在于，该装置包括：

12.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1至10任一项所述的方法的步骤。

13.一种电子设备，其特征在于，包括：

一个或多个处理器；以及

与所述一个或多个处理器关联的存储器，所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时，执行权利要求1至10任一项所述的方法的步骤。