CN112257437B

CN112257437B - 语音识别纠错方法、装置、电子设备和存储介质

Info

Publication number: CN112257437B
Application number: CN202011126205.6A
Authority: CN
Inventors: 万根顺; 高建清; 刘聪; 王智国; 胡国平
Original assignee: University of Science and Technology of China USTC; iFlytek Co Ltd
Current assignee: University of Science and Technology of China USTC; iFlytek Co Ltd
Priority date: 2020-10-20
Filing date: 2020-10-20
Publication date: 2024-02-13
Anticipated expiration: 2040-10-20
Also published as: CN112257437A

Abstract

本发明实施例提供一种语音识别纠错方法、装置、电子设备和存储介质，其中方法包括：确定待纠错的语音数据的识别文本；将所述识别文本，以及所述语音数据的用户关联文本和/或所述语音数据的历史语音数据的历史识别文本输入至语音识别纠错模型，得到所述语音识别纠错模型输出的纠错结果；其中，所述语音识别纠错模型是基于样本语音数据的样本识别文本及其样本纠错结果，以及样本用户关联文本和/或所述样本语音数据的历史语音数据的样本历史识别文本训练得到的。本发明实施例提供的语音识别纠错方法、装置、电子设备和存储介质，充分利用额外的相关文本信息，对识别文本进行错误定位和纠正，得到纠错结果，提高了错误定位和错误纠正的准确性。

Description

语音识别纠错方法、装置、电子设备和存储介质

技术领域

本发明涉及语音识别和自然语言处理技术领域，尤其涉及一种语音识别纠错方法、装置、电子设备和存储介质。

背景技术

随着人工智能相关技术的日益成熟，语音识别系统被广泛应用于会议、演讲、采访以及授课等场合。但是，目前的语音识别技术无法达到完全正确的识别效果，在对用户的语音数据进行识别时，得到的语音识别结果中仍然有可能存在错误。因此，需要对语音识别结果进行纠错，以提高语音识别结果的准确性。

然而，目前的语音识别纠错方法能够利用的语义信息相对受限，导致纠错模型难以进行准确的错误判定和错误纠正，纠错效果欠佳。

发明内容

本发明实施例提供一种语音识别纠错方法、装置、电子设备和存储介质，用以解决现有技术中纠错准确性欠佳的缺陷。

本发明实施例提供一种语音识别纠错方法，包括：

确定待纠错的语音数据的识别文本；

将所述识别文本，以及所述语音数据的用户关联文本和/或所述语音数据的历史语音数据的历史识别文本输入至语音识别纠错模型，得到所述语音识别纠错模型输出的纠错结果；

其中，所述语音识别纠错模型是基于样本语音数据的样本识别文本及其样本纠错结果，以及所述样本语音数据的样本用户关联文本和/或所述样本语音数据的历史语音数据的样本历史识别文本训练得到的。

根据本发明一个实施例的语音识别纠错方法，所述将所述识别文本，以及所述语音数据的用户关联文本和/或所述语音数据的历史语音数据的历史识别文本输入至语音识别纠错模型，得到所述语音识别纠错模型输出的纠错结果，包括：

将所述识别文本输入至所述语音识别纠错模型的识别文本编码层，得到所述识别文本编码层输出的识别文本编码；

将所述历史识别文本和/或所述用户关联文本输入至所述语音识别纠错模型的辅助文本编码层，得到所述辅助文本编码层输出的辅助文本编码；

将所述识别文本编码和所述辅助文本编码输入至所述语音识别纠错模型的解码层，得到所述解码层输出的所述纠错结果。

根据本发明一个实施例的语音识别纠错方法，所述将所述识别文本编码和所述辅助文本编码输入至所述语音识别纠错模型的解码层，得到所述解码层输出的所述纠错结果，包括：

将所述识别文本编码和所述辅助文本编码，以及所述语音数据的声学隐层特征输入至所述解码层，得到所述解码层输出的所述纠错结果。

根据本发明一个实施例的语音识别纠错方法，所述将所述识别文本编码和所述辅助文本编码，以及所述语音数据的声学隐层特征输入至所述解码层，得到所述解码层输出的所述纠错结果，包括：

将所述识别文本编码和所述辅助文本编码，以及所述声学隐层特征输入至所述解码层的注意力交互层，得到所述注意力交互层进行两两注意力交互并输出的识别声学交互向量、辅助声学交互向量和识别辅助交互向量；

将所述识别文本编码、识别声学交互向量、所述辅助声学交互向量和所述识别辅助交互向量输入至所述解码层的融合解码层，得到所述融合解码层输出的所述纠错结果。

根据本发明一个实施例的语音识别纠错方法，将所述历史识别文本和所述用户关联文本输入至所述语音识别纠错模型的辅助文本编码层，得到所述辅助文本编码层输出的辅助文本编码，包括：

将所述历史识别文本和所述用户关联文本分别输入至所述辅助文本编码层的自注意力交互层，得到所述自注意力交互层输出的所述历史识别文本的历史识别自注意力向量和所述用户关联文本的用户关联自注意力向量；

将所述历史识别自注意力向量和所述用户关联自注意力向量输入至所述辅助文本编码层的辅助文本融合层，得到所述辅助文本融合层输出的所述辅助文本编码。

根据本发明一个实施例的语音识别纠错方法，所述识别文本包括多个不同的语音识别模型分别输出的候选识别文本，所述样本识别文本包括所述多个不同的语音识别模型分别对应的样本候选识别文本。

根据本发明一个实施例的语音识别纠错方法，任一语音识别模型对应的样本候选识别文本是基于如下步骤确定的：

基于样本语音数据及其对应的样本识别文本，确定所述任一语音识别模型的输出结果的识别错误类型分布；

基于所述输出结果的识别错误类型分布，对样本文本数据进行错误替换，得到所述任一语音识别模型对应的样本候选识别文本。

本发明实施例还提供一种语音识别纠错装置，包括：

识别文本确定单元，用于确定待纠错的语音数据的识别文本；

语音识别纠错单元，用于将所述识别文本，以及所述语音数据的用户关联文本和/或所述语音数据的历史语音数据的历史识别文本输入至语音识别纠错模型，得到所述语音识别纠错模型输出的纠错结果；

本发明实施例还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述语音识别纠错方法的步骤。

本发明实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述语音识别纠错方法的步骤。

本发明实施例提供的语音识别纠错方法、装置、电子设备和存储介质，基于待纠错的语音数据的识别文本，以及用户关联文本和/或该语音数据的历史语音数据的历史识别文本，充分利用额外的相关文本信息，对识别文本进行错误定位和纠正，得到纠错结果，提高了错误定位和错误纠正的准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的语音识别纠错方法的流程示意图；

图2为本发明实施例提供的语音识别纠错模型运行方法的流程示意图；

图3为本发明实施例提供的解码方法的流程示意图；

图4为本发明实施例提供的辅助文本编码方法的流程示意图；

图5为本发明实施例提供的样本候选识别文本确定方法的流程示意图；

图6为本发明实施例提供的语音识别纠错模型的结构示意图；

图7为本发明实施例提供的语音识别纠错装置的结构示意图；

图8为本发明实施例提供的电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

随着人工智能相关技术的日益成熟，语音识别系统被广泛应用于会议、演讲、采访以及授课等场合。然而，目前的语音识别技术仍存在一定的识别错误可能性，因此需要对语音识别结果进行纠错，以提高语音识别结果的准确性。

目前的语音识别纠错模型通常仅将当前的语音片段对应的语音识别结果作为输入，用以进行错误判断或者错误纠正的信息相对受限。因此，在信息有限的情况下，语音识别纠错模型难以进行准确的错误判定和错误纠正，纠错准确性欠佳。

对此，本发明实施例提供了一种语音识别纠错方法。图1为本发明实施例提供的语音识别纠错方法的流程示意图，如图1所示，该方法包括：

步骤110，确定待纠错的语音数据的识别文本。

步骤120，将识别文本，以及语音数据的用户关联文本和/或语音数据的历史语音数据的历史识别文本输入至语音识别纠错模型，得到语音识别纠错模型输出的纠错结果；

其中，语音识别纠错模型是基于样本语音数据的样本识别文本及其样本纠错结果，以及样本语音数据的样本用户关联文本和/或样本语音数据的历史语音数据的样本历史识别文本训练得到的。

此处，识别文本可以为语音识别模型对用户的语音数据进行语音识别处理后输出的识别结果。由于语音识别模型存在出错的可能性，因此需要对该识别文本进行纠错。

在语音识别场景下，连续语音片段中的任意一段语音数据均与其之前的语音数据存在较强的语义关联性。故当前语音数据的历史语音数据的历史识别文本所提供的语义信息可以用于辅助确定当前语音数据的识别文本的语义信息，从而消除同音词或近音词等带来的歧义性，以正确定位和纠正错误。并且，历史识别文本还可以提供与当前语境更为契合的语言表达方式，也有助于正确判断该识别文本中是否存在错误以及准确纠正其中的错误。其中，历史识别文本可以为语音识别模型对当前语音数据之前若干段历史语音数据进行语音识别后输出的语音识别结果。因此，可以获取当前语音数据的历史识别文本，并将历史识别文本连同识别文本一起输入至语音识别纠错模型以进行纠错。

此外，考虑到用户在相近时间段内所产生的不同行为之间通常具备一定关联性，因此在用户利用智能终端输入语音数据的过程中，或前后相近时间段内，该用户使用智能终端上的不同应用所产生的文本，即当前语音数据的用户关联文本，与语音数据的识别文本在主题或领域上也存在一定关联。利用用户关联文本的语义信息，同样可以辅助确定语音数据的语义信息，以正确区分各个同音词或近音词，且用户关联文本也可以提供与当前语境更契合的语言表达方式，因此还可以将用户关联文本一同输入至语音识别纠错模型进行语音识别纠错。

此处，可以采用以下三种方式中的至少一种以获取用户关联文本：1、获取用户在不同应用上手动记录的文本，其中，若用户采用手写方式记录，则可以使用手写识别方式识别用户手写的文本内容；2、基于光学字符识别方法，获取用户在不同应用上圈画的文本内容；3、基于光学字符识别方法，获取用户通过不同应用上传的文件中包含的文本内容，例如拍照等。然而，上述方式获取的文本中不可避免地会出现与语音数据的识别文本不相关的内容，为了筛除不相关的内容，可以基于文档相似度计算方法，计算获取得到的每一分句与历史识别文本之间的相似度，并筛选出相似度较高的分句，以提高用户关联文本的相关程度。若任一分句与历史识别文本之间的相似度高于相似度阈值，即相关性较强，则该分句可作为用户关联文本；否则，可以认为该分句为干扰文本并将其抛弃。另外，还可以设定用户关联文本的长度，例如20句，以降低模型复杂度。当获取的文本超过设定的长度时，可以删除其中生成时间较早的分句。

将识别文本，以及历史识别文本和/或用户关联文本输入至语音识别纠错模型后，语音识别纠错模型可以提取历史识别文本和/或用户关联文本中与识别文本相关的语义信息和语言表达方式，一方面利用额外的语义信息辅助确定语音数据实际表达的语义，另一方面还可以从历史识别文本和/或用户关联文本中学习得到与当前语境更为契合的语言表达方式，从而实现识别文本的错误定位与错误纠正，并输出识别文本的纠错结果。

在执行步骤120之前，还可以预先训练得到语音识别纠错模型，例如可以通过如下方式训练得到语音识别纠错模型：首先，获取大量样本语音数据的样本识别文本及其样本纠错结果，以及样本语音数据的历史语音数据的样本历史识别文本和/或样本语音数据的样本用户关联文本。随即，基于样本识别文本及其样本纠错结果，以及样本历史识别文本和/或样本用户关联文本训练初始模型，从而得到语音识别纠错模型。

本发明实施例提供的方法，基于待纠错的语音数据的识别文本，以及用户关联文本和/或该语音数据的历史语音数据的历史识别文本，充分利用额外的相关文本信息，对识别文本进行错误定位和纠正，得到纠错结果，提高了错误定位和错误纠正的准确性。

基于上述实施例，图2为本发明实施例提供的语音识别纠错模型运行方法的流程示意图，如图2所示，步骤120包括：

步骤121，将识别文本输入至语音识别纠错模型的识别文本编码层，得到识别文本编码层输出的识别文本编码；

步骤122，将历史识别文本和/或用户关联文本输入至语音识别纠错模型的辅助文本编码层，得到辅助文本编码层输出的辅助文本编码；

步骤123，将识别文本编码和辅助文本编码输入至语音识别纠错模型的解码层，得到解码层输出的纠错结果。

此处，识别文本编码层用于对识别文本中的每一分词进行语义提取并编码，得到识别文本的识别文本编码。其中，识别文本编码中可以包含识别文本中每一分词的语义信息，还可以包含每一分词的上下文信息。

辅助文本编码层用于对历史识别文本和/或用户关联文本进行编码。若仅将历史识别文本或用户关联文本输入至辅助文本编码层，则辅助文本编码层仅对历史识别文本或用户关联文本进行语义提取和编码，得到的辅助文本编码中包含历史识别文本或用户关联文本中每一分词的语义信息。若将历史识别文本和用户关联文本共同输入至辅助文本编码层，则辅助文本编码层分别对历史识别文本和用户关联文本进行语义提取和编码后，将二者的编码进行融合，得到辅助文本编码，此时的辅助文本编码中包含有历史识别文本和用户关联文本中每一分词的语义信息。

需要说明的是，本发明实施例不对步骤121和步骤122的执行顺序做具体限定，步骤121可以在步骤122之前或之后执行，也可以与步骤122同步执行。

解码层用于基于辅助文本编码中包含的语义信息，辅助确定语音数据表达的真实语义，同时还可以从辅助文本编码中挑选出与当前语境相契合的编码表达，并基于该编码表达，对识别文本编码进行错误定位和纠正，从而解码得到与当前语境更匹配的纠错结果。其中，可以通过注意力机制，对辅助文本编码和识别文本编码进行注意力交互，得到辅助文本编码的注意力向量，再联合识别文本编码和辅助文本编码的注意力向量进行解码。此处，注意力机制强化了辅助文本编码中与语音数据语义相关度更高的分词的编码表达，即突出了其中与当前语境更契合的编码表达，因此基于辅助文本编码的注意力向量与识别文本编码进行解码，可以准确定位错误并进行纠正。

本发明实施例提供的方法，通过对识别文本，以及历史识别文本和/或用户关联文本进行编码，得到识别文本编码和辅助文本编码，从而基于识别文本编码和辅助文本编码，解码得到与当前语境更匹配的纠错结果，提高了语音识别纠错的准确性。

基于上述任一实施例，步骤123包括：

将识别文本编码和辅助文本编码，以及语音数据的声学隐层特征输入至解码层，得到解码层输出的纠错结果。

其中，语音数据的声学隐层特征可以用于确定该语音数据对应的声学状态和音素。此处，可以将语音数据输入至语音识别模型，以获取该语音数据的声学隐层特征。例如，可以将语音数据输入至端到端语音识别模型中，将该模型中编码器的输出作为声学隐层特征；还可以将语音数据输入至声学模型+语言模型构成的传统语音识别模型中，将声学模型的输出作为声学隐层特征，本发明实施例对此不作具体限定。

相对于语音数据的识别文本，该语音数据的声学隐层特征是更原始、更准确的特征，其可以反映语音数据实际表达的字或词，故可以用于对识别文本编码和辅助文本编码进行相关信息的筛选。因此，可以将语音数据的声学隐层特征连同识别文本编码和辅助文本编码，输入至解码层，利用声学隐层特征筛选出识别文本编码中与声学隐层特征更匹配的分词的编码。其中，任一分词的编码与声学隐层特征越匹配，该分词正确的可能性越高，因此声学隐层特征有助于筛选出识别文本中的错误。还可以利用声学隐层特征和识别文本编码一同强化辅助文本编码中与语音数据语义相关度更高的分词的编码，进而挑选得到与当前语境更契合的编码表达，以对识别文本编码进行错误定位和纠正，从而解码得到与当前语境更匹配的纠错结果。

本发明实施例提供的方法，基于识别文本编码和辅助文本编码，以及语音数据的声学隐层特征，确定语音数据的纠错结果，进一步提高了语音识别纠错的准确性。

基于上述任一实施例，图3为本发明实施例提供的解码方法的流程示意图，如图3所示，将识别文本编码和辅助文本编码，以及语音数据的声学隐层特征输入至解码层，得到解码层输出的纠错结果，包括：

步骤1231，将识别文本编码和辅助文本编码，以及声学隐层特征输入至解码层的注意力交互层，得到注意力交互层进行两两注意力交互并输出的识别声学交互向量、辅助声学交互向量和识别辅助交互向量；

步骤1232，将识别文本编码、识别声学交互向量、辅助声学交互向量和识别辅助交互向量输入至解码层的融合解码层，得到融合解码层输出的纠错结果。

此处，注意力交互层用于对识别文本编码、辅助文本编码，以及声学隐层特征进行两两注意力交互。将识别文本编码和声学隐层特征进行注意力交互后，得到识别声学交互向量。其中，识别声学交互向量中强化了识别文本编码中与声学隐层特征更匹配的分词的编码。将识别文本编码和辅助文本编码进行注意力交互后，得到识别辅助交互向量；将辅助文本编码和声学隐层特征进行注意力交互后，得到辅助声学交互向量。其中，识别辅助交互向量和辅助声学交互向量中均强化了辅助文本编码中与语音数据语义相关性更高的分词的编码。

融合解码层用于基于识别文本编码、识别声学交互向量、辅助声学交互向量和识别辅助交互向量进行融合解码，利用识别声学交互向量、辅助声学交互向量和识别辅助交互向量额外提供的语义信息以及与当前语境相契合的编码表达信息，对识别文本编码进行错误定位和纠正，得到最终的纠错结果。

基于上述任一实施例，图4为本发明实施例提供的辅助文本编码方法的流程示意图，如图4所示，步骤122具体包括：

步骤1221，将历史识别文本和用户关联文本分别输入至辅助文本编码层的自注意力交互层，得到自注意力交互层输出的历史识别文本的历史识别自注意力向量和用户关联文本的用户关联自注意力向量；

步骤1222，将历史识别自注意力向量和用户关联自注意力向量输入至辅助文本编码层的辅助文本融合层，得到辅助文本融合层输出的辅助文本编码。

此处，自注意力交互层用于对历史识别文本进行自注意力变换，得到历史识别文本的历史识别自注意力向量。其中，历史识别自注意力向量中强化了历史识别文本中较重要的分词的编码，削弱了无关分词带来的干扰。自注意力交互层还用于对用户关联文本进行自注意力变换，得到用户关联文本的用户关联自注意力向量。其中，用户关联自注意力向量中同样强化了用户关联文本中较重要的分词的编码。

辅助文本融合层用于将历史识别自注意力向量和用户关联自注意力向量融合，得到辅助文本编码。其中，融合方式可以采用拼接、求和或加权求和等任意方式，本发明实施例对此不作具体限定。

本发明实施例提供的方法，通过对历史识别文本和用户关联文本进行自注意力变换，并融合得到辅助文本编码，削弱了历史识别文本和用户关联文本中无关分词的干扰，有助于提升语音识别纠错的效果。

基于上述任一实施例，识别文本包括多个不同的语音识别模型分别输出的候选识别文本，样本识别文本包括多个不同的语音识别模型分别对应的样本候选识别文本。

此处，不同语音识别模型采用的语音识别算法不尽相同，可适用的场景也存在差异性，故多个不同语音识别模型的输出结果通常具备一定的差异性和互补性。例如，端到端语音识别模型的整体识别准确性更高，在音量较小或者多人讨论等恶劣场景下的识别能力更强；而基于隐马尔可夫模型(Hidden Markov Model，HMM)的传统语音识别模型在恶劣场景下的识别能力稍弱，但是其语音识别结果中不容易出现不相关字词等错误。正由于不同语音识别模型在识别能力上存在差异性，对于同一个语音数据，不同语音识别模型的识别结果通常不会出现相同的错误。故将不同语音识别模型分别输出的候选识别文本共同输入至语音识别纠错模型中，可以充分利用不同语音识别模型的识别结果的差异性和互补性，正确识别各识别结果中的错误并进行纠正，得到统一的纠正结果，进一步提高语音识别纠错的准确性。

因此，在语音识别纠正模型的训练过程中，一个样本语音数据对应的样本识别文本包括多个不同的语音识别模型分别对应的样本候选识别文本，即将多个不同的语音识别模型分别对应的样本候选识别文本共同输入至语音识别纠错模型中进行训练。在实际使用语音识别纠正模型时，待纠错的语音数据的识别文本包括多个不同的语音识别模型分别输出的候选识别文本，即将多个不同的语音识别模型分别输出的候选识别文本共同输入至语音识别纠错模型中进行错误定位和纠正。此外，同一模型利用n-best策略确定的多个识别结果之间也存在一定的差异性和互补性，因此，任一语音识别模型对应的样本候选识别文本和候选识别文本可以为多个，例如按照n-best策略排序后的前两个识别结果。

本发明实施例提供的方法，通过利用多个不同语音识别模型的候选识别文本的差异性和互补性，正确识别候选识别文本中的错误并进行纠正，进一步提高了语音识别纠错的准确性。

现有的语音识别纠错模型在训练时，通常收集大量的样本语音数据，并将语音识别模型对样本语音数据进行识别后得到的识别结果作为语音识别纠错模型的输入，然后将标注好的样本语音数据的样本识别结果作为训练目标。然而，能够收集到的样本语音数据及其样本识别结果的数据量较少，难以覆盖更多的使用场景，导致语音识别纠错模型能够检测和纠正的错误局限于训练样本中出现的少量错误类型，覆盖度较低。

对此，基于上述任一实施例，图5为本发明实施例提供的样本候选识别文本确定方法的流程示意图，如图5所示，该方法包括：

步骤510，基于样本语音数据及其对应的样本识别文本，确定任一语音识别模型的输出结果的识别错误类型分布；

步骤520，基于输出结果的识别错误类型分布，对样本文本数据进行错误替换，得到该语音识别模型对应的样本候选识别文本。

此处，首先利用任一语音识别模型对样本语音数据进行语音识别，获取该语音识别模型的输出结果。其中，任一样本语音数据对应的输出结果可以为一个或多个，当输出结果为多个时，可以是该语音识别模型按照n-best策略排序后的前几个识别结果。然后，将样本语音数据对应的输出结果及其样本识别文本进行对比统计，通过对输出结果的插入错误、删除错误、替换错误等错误类型进行分析，进而得到该语音识别模型的输出结果中，每一种错误类型的真实分布情况，即输出结果的识别错误类型分布。其中，若输出结果为多个，例如选取n-best排序后的前两个识别结果，即top1和top2，作为输出结果时，则可以分别统计该语音识别模型的所有top1识别结果的识别错误类型分布，以及，所有top2识别结果的识别错误类型分布。

基于输出结果的识别错误类型分布，对于每一样本文本数据，可以结合样本文本数据的分词数量，确定需要进行错误替换的分词数量，并通过采样的方式选择需要模拟的错误类型以及需要被替换的分词，从而对其进行错误替换，得到该语音识别模型对应的样本候选识别文本。此时，样本候选识别文本对应的样本纠错结果即为错误替换前的样本文本数据。其中，若语音识别模型的输出结果为多个，例如n-best排序后的前两个识别结果top1和top2，则分别基于top1识别结果对应的识别错误类型分布和top2识别结果对应的识别错误类型分布，对样本文本数据进行错误替换，以模拟生成top1识别结果和top2识别结果。

进行错误替换时，需要针对不同类型的错误采取不同的替换策略。例如，对于插入类型的错误而言，若模拟基于HMM的传统语音识别模型的识别结果，则从样本文本数据中随机采样1个分词作为候选词，并将其替换为词典中与该候选词正则匹配的分词，如中国→中国人。若模拟端到端语音识别模型，可采用如下三种方式之一进行错误替换：从样本文本数据中随机采样1个分词作为候选词，并对该候选词随机进行若干次重复，如飞机→飞机飞机飞机；从样本文本数据中随机采样1个分词作为候选词，从词典中随机采样若干个分词添加到该候选词之后，如不想→不想其它勒不是；对于词长度不一致情况，从样本文本数据中随机采样1个分词作为候选词，并将其替换为词典中与该候选词正则匹配的分词，如中国→中国人。对于删除类型的错误，可以从样本文本数据中随机采样1个分词作为候选词，并删除该候选词。对于替换类型的错误：从样本文本数据中随机采样1个分词作为候选词，并对该候选词通过拼音恢复的方式，从发音相似的分词中随机采样出一字数相同的分词对其进行替换。

通过对不同语音识别模型的输出结果中识别错误类型分布的差异性进行分析，利用纯文本数据模拟真实的语音识别结果，且除了能够覆盖替换类型的错误以外，还能够覆盖传统方案表现更差的删除类型的错误以及插入类型的错误，可以扩大训练数据的适用范围以及错误类型的覆盖率，提升语音识别纠错模型的覆盖度。

本发明实施例提供的方法，通过确定每一语音识别模型的输出结果的识别错误类型分布，对样本文本数据进行错误替换，得到每一语音识别模型对应的样本候选识别文本，扩大了训练数据的适用范围以及错误类型的覆盖率，提升了语音识别纠错模型的覆盖度。

基于上述任一实施例，语音识别纠错模型的构建方法包括如下步骤：

首先，构建语音识别纠错模型的样本识别文本及其样本纠错结果。其中，样本识别文本包括端到端语音识别模型对应的多个样本候选识别文本，以及基于HMM的传统语音识别模型对应的多个样本候选识别文本，多个样本候选识别文本分别对应该模型的n-best识别结果。此处，样本候选识别文本可以采用如上述任一实施例提供的样本候选识别文本确定方法，基于各个语音识别模型的输出结果的识别错误类型分布，对样本文本数据进行错误替换构建得到，在此不再赘述。

其次，还需构建样本历史识别文本以及样本用户关联文本。其中，对于任一样本文本数据，采样选择其上文中的若干个文本数据作为其对应的样本历史识别文本，从上文中采样的文本数据的数量可以根据实际应用场景设定，例如可以设定为0-4个，采样不同数量的文本数据的概率也可以根据实际情况设定，例如采样0-4个文本数据的概率可以分别为10％，15％，20％，25％和30％。此外，为了保证训练过程与测试过程的一致性，还需构建样本用户关联文本，以模拟说话人在使用不同应用时产生的文本。例如，可以收集大量通用文本数据，然后通过计算文本相关度，设定阈值从中筛选出与当前样本文本数据相关度较高的通用文本数据，再从中随机采样若干个文本数据作为样本用户关联文本。此处，采样的文本数据数量也可以根据实际应用场景设定，例如可以设定为0-19个，采样不同数量的文本数据的概率也可以根据实际情况设定，例如均设置为5％。

然后，确定语音识别纠错模型的结构。图6为本发明实施例提供的语音识别纠错模型的结构示意图，如图6所示，语音识别纠错模型包括识别文本编码层、辅助文本编码层和解码层，辅助文本编码层又包括自注意力交互层和辅助文本融合层。

其中，识别文本编码层用于提取端到端语音识别模型对待纠错语音数据进行语音识别后输出的多个候选识别文本，以及基于HMM的传统语音识别模型对待纠错语音数据进行语音识别后输出的多个候选识别文本中每一分词的词嵌入向量，并利用编码器将其编码成识别文本编码。自注意力交互层用于对语音数据的历史识别文本和用户关联文本进行自注意力变换，得到历史识别文本的历史识别自注意力向量和用户关联文本的用户关联自注意力向量。辅助文本融合层用于将历史识别自注意力向量和用户关联自注意力向量拼接，得到辅助文本编码。解码层用于对识别文本编码、辅助文本编码，以及语音数据的声学隐层特征进行融合解码，得到最终的纠错结果。

接着，基于端到端语音识别模型对应的多个样本候选识别文本和基于HMM的传统语音识别模型对应的多个样本候选识别文本及其样本纠错结果，以及样本历史识别文本和样本用户关联文本对上述语音识别纠错模型的参数进行训练。

下面对本发明实施例提供的语音识别纠错装置进行描述，下文描述的语音识别纠错装置与上文描述的语音识别纠错方法可相互对应参照。

基于上述任一实施例，图7为本发明实施例提供的语音识别纠错装置的结构示意图，如图7所示，该装置包括识别文本确定单元710和语音识别纠错单元720；

其中，识别文本确定单元710用于确定待纠错的语音数据的识别文本；

语音识别纠错单元720用于将识别文本，以及语音数据的用户关联文本和/或语音数据的历史语音数据的历史识别文本输入至语音识别纠错模型，得到语音识别纠错模型输出的纠错结果；

本发明实施例提供的装置，基于待纠错的语音数据的识别文本，以及用户关联文本和/或该语音数据的历史语音数据的历史识别文本，充分利用额外的相关文本信息，对识别文本进行错误定位和纠正，得到纠错结果，提高了错误定位和错误纠正的准确性。

基于上述任一实施例，语音识别纠错单元720包括：

识别文本编码单元，用于将识别文本输入至语音识别纠错模型的识别文本编码层，得到识别文本编码层输出的识别文本编码；

辅助文本编码单元，用于将历史识别文本和/或用户关联文本输入至语音识别纠错模型的辅助文本编码层，得到辅助文本编码层输出的辅助文本编码；

解码单元，用于将识别文本编码和辅助文本编码输入至语音识别纠错模型的解码层，得到解码层输出的纠错结果。

本发明实施例提供的装置，通过对识别文本，以及历史识别文本和/或用户关联文本进行编码，得到识别文本编码和辅助文本编码，从而基于识别文本编码和辅助文本编码，解码得到与当前语境更匹配的纠错结果，提高了语音识别纠错的准确性。

基于上述任一实施例，解码单元用于：

本发明实施例提供的装置，基于识别文本编码和辅助文本编码，以及语音数据的声学隐层特征，确定语音数据的纠错结果，进一步提高了语音识别纠错的准确性。

基于上述任一实施例，解码单元包括：

注意力交互单元，用于将识别文本编码和辅助文本编码，以及声学隐层特征输入至解码层的注意力交互层，得到注意力交互层进行两两注意力交互并输出的识别声学交互向量、辅助声学交互向量和识别辅助交互向量；

融合解码单元，用于将识别文本编码、识别声学交互向量、辅助声学交互向量和识别辅助交互向量输入至解码层的融合解码层，得到融合解码层输出的纠错结果。

基于上述任一实施例，辅助文本编码单元包括：

自注意力交互单元，用于将历史识别文本和用户关联文本分别输入至辅助文本编码层的自注意力交互层，得到自注意力交互层输出的历史识别文本的历史识别自注意力向量和用户关联文本的用户关联自注意力向量；

辅助文本融合单元，用于将历史识别自注意力向量和用户关联自注意力向量输入至辅助文本编码层的辅助文本融合层，得到辅助文本融合层输出的辅助文本编码。

本发明实施例提供的装置，通过对历史识别文本和用户关联文本进行自注意力变换，并融合得到辅助文本编码，削弱了历史识别文本和用户关联文本中无关分词的干扰，有助于提升语音识别纠错的效果。

本发明实施例提供的装置，通过利用多个不同语音识别模型的候选识别文本的差异性和互补性，正确识别候选识别文本中的错误并进行纠正，进一步提高了语音识别纠错的准确性。

基于上述任一实施例，该装置还包括样本候选识别文本确定单元，样本候选识别文本确定单元用于：

基于样本语音数据及其对应的样本识别文本，确定任一语音识别模型的输出结果的识别错误类型分布；

基于输出结果的识别错误类型分布，对样本文本数据进行错误替换，得到该语音识别模型对应的样本候选识别文本。

本发明实施例提供的装置，通过确定每一语音识别模型的输出结果的识别错误类型分布，对样本文本数据进行错误替换，得到每一语音识别模型对应的样本候选识别文本，扩大了训练数据的适用范围以及错误类型的覆盖率，提升了语音识别纠错模型的覆盖度。

图8示例了一种电子设备的实体结构示意图，如图8所示，该电子设备可以包括：处理器(processor)810、通信接口(Communications Interface)820、存储器(memory)830和通信总线840，其中，处理器810，通信接口820，存储器830通过通信总线840完成相互间的通信。处理器810可以调用存储器830中的逻辑指令，以执行语音识别纠错方法，该方法包括：确定待纠错的语音数据的识别文本；将所述识别文本，以及所述语音数据的用户关联文本和/或所述语音数据的历史语音数据的历史识别文本输入至语音识别纠错模型，得到所述语音识别纠错模型输出的纠错结果；其中，所述语音识别纠错模型是基于样本语音数据的样本识别文本及其样本纠错结果，以及所述样本语音数据的样本用户关联文本和/或所述样本语音数据的历史语音数据的样本历史识别文本训练得到的。

此外，上述的存储器830中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明实施例还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法实施例所提供的语音识别纠错方法，该方法包括：确定待纠错的语音数据的识别文本；将所述识别文本，以及所述语音数据的用户关联文本和/或所述语音数据的历史语音数据的历史识别文本输入至语音识别纠错模型，得到所述语音识别纠错模型输出的纠错结果；其中，所述语音识别纠错模型是基于样本语音数据的样本识别文本及其样本纠错结果，以及所述样本语音数据的样本用户关联文本和/或所述样本语音数据的历史语音数据的样本历史识别文本训练得到的。

又一方面，本发明实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各实施例提供的语音识别纠错方法，该方法包括：确定待纠错的语音数据的识别文本；将所述识别文本，以及所述语音数据的用户关联文本和/或所述语音数据的历史语音数据的历史识别文本输入至语音识别纠错模型，得到所述语音识别纠错模型输出的纠错结果；其中，所述语音识别纠错模型是基于样本语音数据的样本识别文本及其样本纠错结果，以及所述样本语音数据的样本用户关联文本和/或所述样本语音数据的历史语音数据的样本历史识别文本训练得到的。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种语音识别纠错方法，其特征在于，包括：

确定待纠错的语音数据的识别文本；

其中，所述语音识别纠错模型是基于样本语音数据的样本识别文本及其样本纠错结果，以及所述样本语音数据的样本用户关联文本和/或所述样本语音数据的历史语音数据的样本历史识别文本训练得到的；

所述将所述识别文本，以及所述语音数据的用户关联文本和/或所述语音数据的历史语音数据的历史识别文本输入至语音识别纠错模型，得到所述语音识别纠错模型输出的纠错结果，包括：

2.根据权利要求1所述的语音识别纠错方法，其特征在于，所述将所述识别文本编码和所述辅助文本编码输入至所述语音识别纠错模型的解码层，得到所述解码层输出的所述纠错结果，包括：

3.根据权利要求2所述的语音识别纠错方法，其特征在于，所述将所述识别文本编码和所述辅助文本编码，以及所述语音数据的声学隐层特征输入至所述解码层，得到所述解码层输出的所述纠错结果，包括：

4.根据权利要求1所述的语音识别纠错方法，其特征在于，将所述历史识别文本和所述用户关联文本输入至所述语音识别纠错模型的辅助文本编码层，得到所述辅助文本编码层输出的辅助文本编码，包括：

5.根据权利要求1至4任一项所述的语音识别纠错方法，其特征在于，所述识别文本包括多个不同的语音识别模型分别输出的候选识别文本，所述样本识别文本包括所述多个不同的语音识别模型分别对应的样本候选识别文本。

6.根据权利要求5所述的语音识别纠错方法，其特征在于，任一语音识别模型对应的样本候选识别文本是基于如下步骤确定的：

7.一种语音识别纠错装置，其特征在于，包括：

所述语音识别纠错单元，具体用于：

8.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至6任一项所述语音识别纠错方法的步骤。

9.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1至6任一项所述语音识别纠错方法的步骤。