CN116434752A

CN116434752A - 语音识别纠错方法和装置

Info

Publication number: CN116434752A
Application number: CN202310526330.3A
Authority: CN
Inventors: 邓丽萍; 范璐; 何晓冬
Original assignee: Jingdong Technology Information Technology Co Ltd
Current assignee: Jingdong Technology Information Technology Co Ltd
Priority date: 2023-05-11
Filing date: 2023-05-11
Publication date: 2023-07-14

Abstract

本发明公开了一种语音识别纠错方法和装置，涉及人工智能技术领域。该方法的一具体实施方式包括：获取音频数据和语音识别文本；将音频数据输入音频特征抽取模型，得到音频特征向量；将语音识别文本输入文本特征抽取模型，得到文本特征向量；将音频特征向量和文本特征向量输入关联注意力模块；在关联注意力模块，基于音频特征向量和文本特征向量执行关联注意力计算，输出融合音频特征向量和文本特征向量的双模态表征向量；将双模态表征向量输入纠错解码器，得到语音识别文本的纠错结果。该实施方式通过在纠错模型中引入融合语音和文本的双模态特征来提高纠错准确率。

Description

语音识别纠错方法和装置

技术领域

本发明涉及人工智能技术领域，尤其涉及一种语音识别纠错方法和装置。

背景技术

语音识别是人机对话中的关键技术，广泛应用于生活中的常见服务，如手机端的语音转文字、视频网站的字幕自动生成等。然而，目前的语音识别模型并不完美，总是会出现一些识别错误，因此，需要使用纠错模型来纠正语音识别文本中的错误。目前，大部分纠错模型通过比对语音识别文本和人工标注的正确文本来学习纠错信息。然而，许多识别错误单从文本层面并不能确定正确的识别结果，这导致现有纠错模型的纠错准确率不高。

发明内容

有鉴于此，本发明实施例提供一种语音识别纠错方法和装置，通过在纠错模型中引入融合语音和文本的双模态特征来提高纠错准确率。

为实现上述目的，根据本发明的一个方面，提供了一种语音识别纠错方法。

本发明实施例的语音识别纠错方法包括：获取音频数据和待处理的、所述音频数据的语音识别文本；将所述音频数据输入预先训练的音频特征抽取模型，得到所述音频数据的音频特征向量；将所述语音识别文本输入预先训练的文本特征抽取模型，得到所述语音识别文本的文本特征向量；将所述音频特征向量和所述文本特征向量输入预先训练的关联注意力模块；在所述关联注意力模块，基于所述音频特征向量和所述文本特征向量执行关联注意力计算，输出融合所述音频特征向量和所述文本特征向量的双模态表征向量；将所述双模态表征向量输入预先训练的纠错解码器，得到所述语音识别文本的纠错结果。

可选地，所述基于所述音频特征向量和所述文本特征向量执行关联注意力计算，输出融合所述音频特征向量和所述文本特征向量的双模态表征向量，包括：基于所述文本特征向量形成多个注意力头的查询向量，基于所述音频特征向量形成所述多个注意力头的键向量和值向量；根据所述查询向量、键向量和值向量计算每一注意力头的单头注意力输出向量，将每一注意力头的单头注意力输出向量拼接后形成多头注意力输出向量；将所述多头注意力输出向量与所述文本特征向量拼接为所述双模态表征向量。

可选地，所述纠错解码器包括依次连接并且结构相同的多个解码层，每一解码层包括依次连接的自注意力子层、关联注意力子层和前馈网络子层；以及，所述将所述双模态表征向量输入预先训练的纠错解码器，包括：将所述双模态表征向量输入每一解码层的关联注意力子层。

可选地，所述方法进一步包括：在所述纠错解码器的任一解码层，基于该解码层的自注意力子层计算该解码层的输入向量的自注意力向量，将所述自注意力向量执行归一化之后与所述输入向量结合，获得第一中间向量向该解码层的关联注意力子层传递；在该关联注意力子层，基于第一中间向量形成多个注意力头的查询向量，基于所述双模态表征向量形成该多个注意力头的键向量和值向量，根据该查询向量、键向量和值向量计算融合第一中间向量和所述双模态表征向量的多头注意力向量；将所述多头注意力向量执行归一化之后与第一中间向量结合，获得第二中间向量后向该解码层的前馈网络子层传递；基于该前馈网络子层计算第二中间向量的映射向量，将所述映射向量执行归一化之后与第二中间向量结合，获得该解码层的输出向量。

可选地，所述纠错解码器进一步包括连接在最后端解码层的线性层、归一化层和输出层；以及，所述纠错解码器的最前端解码层在任一时间步的输入向量是当前已生成语素的嵌入向量，所述输出层在任一时间步的输出结果是当前已生成语素的下一语素，所述输出层在各时间步的输出结果组成所述纠错结果。

可选地，所述关联注意力模块和所述纠错解码器通过以下步骤进行联合训练：获取包括训练音频数据以及相应的训练语音识别文本和作为标签的训练纠错文本；将所述训练音频数据输入所述音频特征抽取模型，得到所述训练音频数据的训练音频特征向量；将所述训练语音识别文本输入所述文本特征抽取模型，得到所述训练语音识别文本的训练文本特征向量；将所述训练音频特征向量和所述训练文本特征向量输入所述关联注意力模块；在所述关联注意力模块，基于所述训练音频特征向量和所述训练文本特征向量执行关联注意力计算，输出融合所述训练音频特征向量和所述训练文本特征向量的训练表征向量；将所述训练表征向量输入所述纠错解码器中各解码层的关联注意力子层，将当前时间步的已生成语素的嵌入向量输入所述纠错解码器的最前端解码层，获得所述纠错解码器的训练输出结果；比对所述训练输出结果与所述训练纠错文本形成用于训练所述关联注意力模块和所述纠错解码器的损失函数。

为实现上述目的，根据本发明的另一方面，提供了一种语音识别纠错装置。

本发明实施例的语音识别纠错装置可以包括：数据准备单元，用于获取音频数据和待处理的、所述音频数据的语音识别文本；特征提取单元，用于将所述音频数据输入预先训练的音频特征抽取模型，得到所述音频数据的音频特征向量；将所述语音识别文本输入预先训练的文本特征抽取模型，得到所述语音识别文本的文本特征向量；特征融合单元，用于将所述音频特征向量和所述文本特征向量输入预先训练的关联注意力模块；在所述关联注意力模块，基于所述音频特征向量和所述文本特征向量执行关联注意力计算，输出融合所述音频特征向量和所述文本特征向量的双模态表征向量；解码单元，用于将所述双模态表征向量输入预先训练的纠错解码器，得到所述语音识别文本的纠错结果。

可选地，所述特征融合单元可进一步用于：基于所述文本特征向量形成多个注意力头的查询向量，基于所述音频特征向量形成所述多个注意力头的键向量和值向量；根据所述查询向量、键向量和值向量计算每一注意力头的单头注意力输出向量，将每一注意力头的单头注意力输出向量拼接后形成多头注意力输出向量；将所述多头注意力输出向量与所述文本特征向量拼接为所述双模态表征向量。

为实现上述目的，根据本发明的又一方面，提供了一种电子设备。

本发明的一种电子设备包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现本发明所提供的语音识别纠错方法。

为实现上述目的，根据本发明的再一方面，提供了一种计算机可读存储介质。

本发明的一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现本发明所提供的语音识别纠错方法。

根据本发明的技术方案，上述发明中的实施例具有如下优点或有益效果：

在对某音频数据的语音识别文本纠错时，首先利用预训练的特征抽取模型分别对该音频数据及其语音识别文本进行特征抽取，之后利用关联注意力机制将抽取出的音频特征向量和文本特征向量融合为指示音频模态和文本模态的双模态表征向量，最后将双模态表征向量输入纠错解码器从而得到语音识别文本的纠错结果。如此，通过在编码过程中使用多头注意力机制融合音频和文本的双模态特征(即双模态表征向量)、以及在解码过程中使用多头注意力机制对双模态特征和解码器输入特征进行联合计算，实现了纠错准确率的提高。

上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。

附图说明

附图用于更好地理解本发明，不构成对本发明的不当限定。其中：

图1是本发明实施例中语音识别纠错方法的主要步骤示意图；

图2是本发明实施例中纠错模型的结构示意图；

图3是本发明实施例中纠错解码器的结构示意图；

图4是本发明实施例中语音识别纠错装置的组成部分示意图；

图5是根据本发明实施例可以应用于其中的示例性系统架构图；

图6是用来实现本发明实施例中语音识别纠错方法的电子设备结构示意图。

具体实施方式

以下结合附图对本发明的示范性实施例做出说明，其中包括本发明实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本发明的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

首先说明本发明的技术构思。在人工智能领域的语音识别方向，需要使用纠错模型来纠正语音识别文本中的错误，目前的大部分纠错模型通过比对语音识别文本和人工标注的正确文本来学习纠错信息，但是许多识别错误单从文本层面并不能确定正确的识别结果。本发明的发明人发现，需要在文本基础上进一步结合原始音频信息才能够判定正确结果。因此，在纠错模型中引入语音信息很有必要。同时，随着预训练模型的发展，通过在大量无标注数据中学习通用表征，再在标注数据上进行微调，模型效果能有较大的提升，因此，可以在纠错模型中引入用于提取音频特征和文本特征的预训练模型并对提取到的音频特征和文本特征进行融合后输入解码器，由此提高纠错模型的纠错准确率。

需要指出的是，在不冲突的情况下，本发明的实施例以及实施例中的技术特征可以相互结合。

图1是根据本发明实施例中语音识别纠错方法的主要步骤示意图。

如图1所示，本发明实施例的语音识别纠错方法可具体按照如下步骤执行：

步骤S101：获取音频数据和待处理的、音频数据的语音识别文本。

在本步骤中，用于执行语音识别纠错方法的服务器获取某音频数据(可以是原始音频信号)及其经语音识别模型(即自动语音识别ASR模型，此模型不包括在本发明实施例的纠错模型)得到的待处理(即待纠错)的语音识别文本，后续本发明实施例的纠错模型将结合音频数据及其语音识别文本执行文本纠错。以上语音识别文本可以由多个语素构成，以上语素为语言中的音义结合体，可以是汉语中的字或词，也可以是字母语言中的单词。

步骤S102：将音频数据输入预先训练的音频特征抽取模型，得到音频数据的音频特征向量；将语音识别文本输入预先训练的文本特征抽取模型，得到语音识别文本的文本特征向量。

为了融合音频和文本两个模态的特征，本步骤中首先要分别对两个模态进行特征抽取。具体应用中，可以使用预训练的音频特征抽取模型从音频数据中抽取出音频特征向量，使用预训练的文本特征抽取模型从语音识别文本中抽取出文本特征向量。以上音频特征抽取模型和文本特征抽取模型可以保持此前的模型参数，也可以与后续将要说明的纠错模型中的关联注意力模块和纠错解码器一起参加训练，从而对模型参数进行微调(finetuning)。示例性地，以上音频特征抽取模型可以是Wave2vec2.0，文本特征抽取模型可以是BERT。在具体的特征抽取过程中，服务器可以首先对音频数据进行分帧，之后通过音频特征抽取模型获得每一帧的音频特征向量，由每一帧的音频特征向量组合为音频数据的音频特征向量。服务器可以通过文本特征抽取模型获得语音识别文本每一语素的文本特征向量，由每一语素的文本特征向量组成语音识别文本的文本特征向量。

步骤S103：将音频特征向量和文本特征向量输入预先训练的关联注意力模块；在关联注意力模块，基于音频特征向量和文本特征向量执行关联注意力计算，输出融合音频特征向量和文本特征向量的双模态表征向量。

图2是本发明实施例中纠错模型的结构示意图，如图2所示，本发明实施例的纠错模型可以由以上音频特征抽取模型、文本特征抽取模型和关联注意力(Cross Attention)模块和纠错解码器组成。以上关联注意力模块用于通过单头或多头注意力机制实现音频特征与文本特征的融合并将融合特征输入纠错解码器，从而结合音频与文本两个模态实现语音识别文本的纠错，提高纠错准确率。具体场景中，关联注意力模块和纠错解码器可以进行联合训练，如前述，关联注意力模块、纠错解码器也可以与音频特征抽取模型和文本特征抽取模型执行联合训练，具体的训练过程将在下文说明。关联注意力模块可以是具有初始模型参数的预训练模型，也可以是未经预训练的模型。

关联注意力模块的注意力计算机制可以是单头注意力机制，更优为编码效果更好的多头注意力机制，本发明实施例的纠错解码器中使用的注意力机制也是如此，以下以多头注意力机制作为示例进行说明。关联注意力模块的注意力计算机制可以基于文本特征向量形成查询向量(query)，也可以基于音频特征向量形成查询向量，由于在音频特征和文本特征融合过程中，一般认为文本特征对最终纠错的贡献相对较大，因此基于文本特征向量形成查询向量为更优方案。则在更优方案中，在关联注意力模块，服务器基于文本特征向量形成多个注意力头的查询向量(可以直接将文本特征向量作为查询向量，也可以将文本特征向量线性变换后形成查询向量，下文形成键向量和值向量的过程类似)，基于音频特征向量形成以上多个注意力头的键向量(key)和值向量(value)，此后根据查询向量、键向量和值向量计算每一注意力头的单头注意力输出向量(可以使用已知的缩放点积算法，可以在注意力计算后执行线性变换)，将每一注意力头的单头注意力输出向量拼接后形成多头注意力输出向量(可以将单头注意力输出向量直接拼接为多头注意力输出向量，也可以将单头注意力输出向量拼接后执行线性变换形成多头注意力输出向量)。可以理解，多头注意力输出向量是音频特征向量针对文本特征向量对齐的结果。最后，服务器将多头注意力输出向量与文本特征向量拼接为融合音频与文本两个模态的双模态表征向量。

可选地，如果以音频特征向量作为查询向量，则在关联注意力模块，服务器基于音频特征向量形成多个注意力头的查询向量，基于文本特征向量形成以上多个注意力头的键向量和值向量，此后根据查询向量、键向量和值向量计算每一注意力头的单头注意力输出向量，将每一注意力头的单头注意力输出向量拼接后形成多头注意力输出向量，最后将多头注意力输出向量与音频特征向量拼接为另一种双模态表征向量。

步骤S104：将双模态表征向量输入预先训练的纠错解码器，得到语音识别文本的纠错结果。

图3是本发明实施例中纠错解码器的结构示意图，参见图3。纠错解码器包括依次连接并且结构相同的多个解码层，其中靠近输入端的为最前端解码层，靠近输出端的为最后端解码层，每一解码层包括依次连接的自注意力(self attention)子层、关联注意力子层和前馈网络子层。其中，自注意力子层用于对解码层的输入向量执行单头或多头的自注意力计算，关联注意力子层用于根据编码部分的输出(如双模态表征向量)对输入数据进行计算，前馈网络子层用于对输入数据进行变换后输出。一般地，纠错解码器还可以包括连接在最后端解码层的线性层、归一化层和输出层。针对以上纠错解码器结构，步骤S103中得到的双模态表征向量可以输入每一解码层的关联注意力子层。可以理解，本发明实施例的纠错解码器还可以使用其它任意适用的解码器结构。

在本发明实施例中，在纠错解码器的任一解码层，服务器基于该解码层的自注意力子层计算该解码层的输入向量的自注意力向量，将自注意力向量执行归一化(例如层归一化LN)之后与输入向量结合(例如相加)，获得第一中间向量并向该解码层的关联注意力子层传递。在该关联注意力子层的关联注意力计算中，可以基于第一中间向量形成查询向量，也可以基于双模态表征向量形成查询向量。

在第一种情况，服务器基于第一中间向量形成多个注意力头的查询向量，基于双模态表征向量形成该多个注意力头的键向量和值向量，根据该查询向量、键向量和值向量计算融合第一中间向量和双模态表征向量的多头注意力向量。此后服务器将多头注意力向量执行归一化(如层归一化LN)之后与第一中间向量结合(例如相加)，获得第二中间向量后向该解码层的前馈网络子层传递。

在第二种情况，服务器基于双模态表征向量形成多个注意力头的查询向量，基于第一中间向量形成该多个注意力头的键向量和值向量，根据该查询向量、键向量和值向量计算融合第一中间向量和双模态表征向量的另一种多头注意力向量。此后服务器将多头注意力向量执行归一化之后与第一中间向量结合，获得另一种第二中间向量后向该解码层的前馈网络子层传递。

在前馈网络子层，服务器计算第二中间向量的映射向量，即通过前馈网络对第二中间向量进行变换得到映射向量，此后将映射向量执行归一化(例如层归一化LN)之后与第二中间向量结合(例如相加)，获得该解码层的输出向量。

此外，实际应用中，纠错解码器的最前端解码层在任一时间步的输入向量是当前已生成语素的嵌入向量，输出层在任一时间步的输出结果是当前已生成语素的下一语素，输出层在各时间步的输出结果组成语音识别文本的纠错结果。

通过纠错模型的以上结构，本发明实施例在编码过程中使用注意力机制融合音频和文本的双模态特征并在解码过程中使用注意力机制对双模态特征和解码器输入特征进行联合计算，提高了语音识别纠错准确率。

相应地，关联注意力模块和纠错解码器可以通过以下步骤进行联合训练，如果音频特征抽取模型和文本特征抽取模型需要进行微调，也可以联合关联注意力模块和纠错解码器按照以下步骤进行联合训练。首先，服务器获取包括训练音频数据以及相应的训练语音识别文本和作为标签的训练纠错文本，将训练音频数据输入音频特征抽取模型，得到训练音频数据的训练音频特征向量；将训练语音识别文本输入文本特征抽取模型，得到训练语音识别文本的训练文本特征向量。接着，服务器将训练音频特征向量和训练文本特征向量输入关联注意力模块。在关联注意力模块，服务器基于训练音频特征向量和训练文本特征向量执行关联注意力计算，输出融合训练音频特征向量和训练文本特征向量的训练表征向量。此后，服务器将训练表征向量输入纠错解码器中各解码层的关联注意力子层，将当前时间步的已生成语素的嵌入向量输入纠错解码器的最前端解码层，获得纠错解码器的训练输出结果，比对训练输出结果与训练纠错文本形成用于训练关联注意力模块和纠错解码器的损失函数。训练过程中的具体计算方式与模型使用过程相似，此处不再重复。

以下说明本发明的一个具体实施例。

第一步，训练数据构建。使用训练好的全监督ASR模型对目标领域的训练音频数据进行识别，得到训练语音识别文本，如“交楼不畅”(存在错误)。将训练音频数据执行人工识别后形成作为标签的训练纠错文本，如“交流不畅”(正确识别结果)。

第二步，纠错模型训练。将训练音频数据送入预训练的wav2vec2.0模型，获取训练音频特征向量H_a；将训练语音识别文本送入预训练的BERT模型中进行编码，获取训练文本特征向量H_l。

此后使用关联注意力机制融合两个模态的特征，基于H_l形成查询向量Q，基于H_a形成键向量K和值向量V，计算多头注意力MHA，计算公式为：

MHA(Q,K,V)＝Concat(head₁,head₂,…,head_m)W^o

其中，concat表示拼接，W^o为变换矩阵，任一head表示某一头的计算结果，m为注意力头总数。

其中，i为1到m之间的整数，W_i ^Q、W_i ^K、W_i ^V为变换矩阵，T表示转置，d_k表示键向量的维数。

计算得到的MHA(Q,K,V)为与训练文本特征向量对齐的音频表征，该表征和训练文本特征向量拼接的表征H＝(MHA(Q,K,V)；H_l)为融合音频与文本两个模态的训练表征向量。

解码器包括6个解码层，每一解码层的结构如前述。假设第i个解码层的输入为t_i，自注意力子层计算公式为：

o_i＝MHA(t_i,t_i,t_i)

r_i＝norm(o_i)+t_i

其中，norm表示层归一化，关联注意力子层的输入为r_i，其基于r_i形成查询向量、基于H形成键向量和值向量来计算关联注意力结果。

训练时，首先为解码器输入句首标识，之后触发解码器在每一时间步的输出，当解码器输出句尾标识时一次纠错训练过程结束。解码器的输出与作为标签的训练纠错文本进行比对形成损失函数，最小化损失函数即可实现模型训练。

第三步，纠错模型使用。将音频数据送入wav2vec2.0模型得到音频特征向量，将音频数据的语音识别文本“即三分罚款两百元”送入BERT模型中进行编码，得到文本特征向量。使用关联注意力模块融合两个模态的特征，得到双模态表征向量后送入纠错解码器。纠错解码器采用自回归解码的方式，先输入句首标识的嵌入向量，解码器输出第一个字“记”，然后再将句首标识和“记”的嵌入向量作为输入，输出第二个字“三”。经过多次迭代直到输出“记三分罚款两百元<eos>”，输出句尾标识<eos>后意味着此次纠错过程结束。最后去掉输出结果中的句尾标识，得到纠错结果“记三分罚款两百元”。

在本发明实施例的技术方案中，通过在纠错模型中引入用于音频、文本特征抽取的预训练模型以及利用多头关联注意力机制融合文本和语音的双模态信息，提升纠错模型的准确率。

需要说明的是，本发明的技术方案中，所涉及的用户个人信息的采集、收集、更新、分析、处理、使用、传输、存储等方面，均符合相关法律法规的规定，被用于合法的用途，且不违背公序良俗。对用户个人信息采取必要措施，防止对用户个人信息数据的非法访问，维护用户个人信息安全、网络安全和国家安全。

对于前述的各方法实施例，为了便于描述，将其表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，某些步骤事实上可以采用其它顺序进行或者同时进行。此外，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是实现本发明所必须的。

为便于更好的实施本发明实施例的上述方案，下面还提供用于实施上述方案的相关装置。

请参阅图4所示，本发明实施例提供的语音识别纠错装置400可以包括：数据准备单元401、特征提取单元402、特征融合单元403和解码单元404。

其中，数据准备单元401可用于获取音频数据和待处理的、所述音频数据的语音识别文本；特征提取单元402可用于将所述音频数据输入预先训练的音频特征抽取模型，得到所述音频数据的音频特征向量；将所述语音识别文本输入预先训练的文本特征抽取模型，得到所述语音识别文本的文本特征向量；特征融合单元403可用于将所述音频特征向量和所述文本特征向量输入预先训练的关联注意力模块；在所述关联注意力模块，基于所述音频特征向量和所述文本特征向量执行关联注意力计算，输出融合所述音频特征向量和所述文本特征向量的双模态表征向量；解码单元404可用于将所述双模态表征向量输入预先训练的纠错解码器，得到所述语音识别文本的纠错结果。

在本发明实施例中，所述特征融合单元403可进一步用于：基于所述文本特征向量形成多个注意力头的查询向量，基于所述音频特征向量形成所述多个注意力头的键向量和值向量；根据所述查询向量、键向量和值向量计算每一注意力头的单头注意力输出向量，将每一注意力头的单头注意力输出向量拼接后形成多头注意力输出向量；将所述多头注意力输出向量与所述文本特征向量拼接为所述双模态表征向量。

具体应用中，所述纠错解码器包括依次连接并且结构相同的多个解码层，每一解码层包括依次连接的自注意力子层、关联注意力子层和前馈网络子层；以及，所述解码单元404可进一步用于：将所述双模态表征向量输入每一解码层的关联注意力子层。

作为一个优选方案，所述解码单元404可进一步用于：在所述纠错解码器的任一解码层，基于该解码层的自注意力子层计算该解码层的输入向量的自注意力向量，将所述自注意力向量执行归一化之后与所述输入向量结合，获得第一中间向量向该解码层的关联注意力子层传递；在该关联注意力子层，基于第一中间向量形成多个注意力头的查询向量，基于所述双模态表征向量形成该多个注意力头的键向量和值向量，根据该查询向量、键向量和值向量计算融合第一中间向量和所述双模态表征向量的多头注意力向量；将所述多头注意力向量执行归一化之后与第一中间向量结合，获得第二中间向量后向该解码层的前馈网络子层传递；基于该前馈网络子层计算第二中间向量的映射向量，将所述映射向量执行归一化之后与第二中间向量结合，获得该解码层的输出向量。

较佳地，所述纠错解码器可进一步包括连接在最后端解码层的线性层、归一化层和输出层；以及，所述纠错解码器的最前端解码层在任一时间步的输入向量是当前已生成语素的嵌入向量，所述输出层在任一时间步的输出结果是当前已生成语素的下一语素，所述输出层在各时间步的输出结果组成所述纠错结果。

此外，在本发明实施例中，所述装置400可进一步包括模型训练单元，其用于：获取包括训练音频数据以及相应的训练语音识别文本和作为标签的训练纠错文本；将所述训练音频数据输入所述音频特征抽取模型，得到所述训练音频数据的训练音频特征向量；将所述训练语音识别文本输入所述文本特征抽取模型，得到所述训练语音识别文本的训练文本特征向量；将所述训练音频特征向量和所述训练文本特征向量输入所述关联注意力模块；在所述关联注意力模块，基于所述训练音频特征向量和所述训练文本特征向量执行关联注意力计算，输出融合所述训练音频特征向量和所述训练文本特征向量的训练表征向量；将所述训练表征向量输入所述纠错解码器中各解码层的关联注意力子层，将当前时间步的已生成语素的嵌入向量输入所述纠错解码器的最前端解码层，获得所述纠错解码器的训练输出结果；比对所述训练输出结果与所述训练纠错文本形成用于训练所述关联注意力模块和所述纠错解码器的损失函数。

根据本发明实施例的技术方案，通过在编码过程中使用多头注意力机制融合音频和文本的双模态特征、以及在解码过程中使用多头注意力机制对双模态特征和解码器输入特征进行联合计算，实现了纠错准确率的提高。

图5示出了可以应用本发明实施例的语音识别纠错方法或语音识别纠错装置的示例性系统架构500。

如图5所示，系统架构500可以包括终端设备501、502、503，网络504和服务器505(此架构仅仅是示例，具体架构中包含的组件可以根据申请具体情况调整)。网络504用以在终端设备501、502、503和服务器505之间提供通信链路的介质。网络504可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等。

用户可以使用终端设备501、502、503通过网络504与服务器505交互，以接收或发送消息等。终端设备501、502、503上可以安装有各种客户端应用，例如语音识别纠错应用等(仅为示例)。

终端设备501、502、503可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。

服务器505可以是提供各种服务的服务器，例如对用户利用终端设备501、502、503所操作的语音识别纠错应用提供支持的后台服务器(仅为示例)。后台服务器可以对接收到的语音识别纠错请求进行处理，并将处理结果(例如纠错结果--仅为示例)反馈给终端设备501、502、503。

需要说明的是，本发明实施例所提供的语音识别纠错方法一般由服务器505执行，相应地，语音识别纠错装置一般设置于服务器505中。

应该理解，图5中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

本发明还提供了一种电子设备。本发明实施例的电子设备包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现本发明所提供的语音识别纠错方法。

下面参考图6，其示出了适于用来实现本发明实施例的电子设备的计算机系统600的结构示意图。图6示出的电子设备仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图6所示，计算机系统600包括中央处理单元(CPU)601，其可以根据存储在只读存储器(ROM)602中的程序或者从存储部分608加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。在RAM603中，还存储有计算机系统600操作所需的各种程序和数据。CPU601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。

以下部件连接至I/O接口605：包括键盘、鼠标等的输入部分606；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分607；包括硬盘等的存储部分608；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口605。可拆卸介质611，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器610上，以便从其上读出的计算机程序根据需要被安装入存储部分608。

特别地，根据本发明公开的实施例，上文的主要步骤图描述的过程可以被实现为计算机软件程序。例如，本发明实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行主要步骤图所示的方法的程序代码。在上述实施例中，该计算机程序可以通过通信部分609从网络上被下载和安装，和/或从可拆卸介质611被安装。在该计算机程序被中央处理单元601执行时，执行本发明的系统中限定的上述功能。

需要说明的是，本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。在本发明中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这根据所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本发明实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中，例如，可以描述为：一种处理器包括数据准备单元、特征提取单元、特征融合单元和解码单元。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定，例如，数据准备单元还可以被描述为“向特征提取单元提供音频数据和语音识别文本的单元”。

作为另一方面，本发明还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的设备中所包含的；也可以是单独存在，而未装配入该设备中的。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该设备执行时，使得该设备执行的步骤包括：获取音频数据和待处理的、所述音频数据的语音识别文本；将所述音频数据输入预先训练的音频特征抽取模型，得到所述音频数据的音频特征向量；将所述语音识别文本输入预先训练的文本特征抽取模型，得到所述语音识别文本的文本特征向量；将所述音频特征向量和所述文本特征向量输入预先训练的关联注意力模块；在所述关联注意力模块，基于所述音频特征向量和所述文本特征向量执行关联注意力计算，输出融合所述音频特征向量和所述文本特征向量的双模态表征向量；将所述双模态表征向量输入预先训练的纠错解码器，得到所述语音识别文本的纠错结果。

在本发明实施例的技术方案中，对某音频数据的语音识别文本纠错时，首先利用预训练的特征抽取模型分别对该音频数据及其语音识别文本进行特征抽取，之后利用关联注意力机制将抽取出的音频特征向量和文本特征向量融合为指示音频模态和文本模态的双模态表征向量，最后将双模态表征向量输入纠错解码器从而得到语音识别文本的纠错结果。如此，通过在编码过程中使用多头注意力机制融合音频和文本的双模态特征、以及在解码过程中使用多头注意力机制对双模态特征和解码器输入特征进行联合计算，实现了纠错准确率的提高。

上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，取决于设计要求和其他因素，可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。

Claims

1.一种语音识别纠错方法，其特征在于，包括：

获取音频数据和待处理的、所述音频数据的语音识别文本；

将所述音频数据输入预先训练的音频特征抽取模型，得到所述音频数据的音频特征向量；将所述语音识别文本输入预先训练的文本特征抽取模型，得到所述语音识别文本的文本特征向量；

将所述音频特征向量和所述文本特征向量输入预先训练的关联注意力模块；在所述关联注意力模块，基于所述音频特征向量和所述文本特征向量执行关联注意力计算，输出融合所述音频特征向量和所述文本特征向量的双模态表征向量；

将所述双模态表征向量输入预先训练的纠错解码器，得到所述语音识别文本的纠错结果。

2.根据权利要求1所述的方法，其特征在于，所述基于所述音频特征向量和所述文本特征向量执行关联注意力计算，输出融合所述音频特征向量和所述文本特征向量的双模态表征向量，包括：

基于所述文本特征向量形成多个注意力头的查询向量，基于所述音频特征向量形成所述多个注意力头的键向量和值向量；

根据所述查询向量、键向量和值向量计算每一注意力头的单头注意力输出向量，将每一注意力头的单头注意力输出向量拼接后形成多头注意力输出向量；

将所述多头注意力输出向量与所述文本特征向量拼接为所述双模态表征向量。

3.根据权利要求1所述的方法，其特征在于，所述纠错解码器包括依次连接并且结构相同的多个解码层，每一解码层包括依次连接的自注意力子层、关联注意力子层和前馈网络子层；以及，所述将所述双模态表征向量输入预先训练的纠错解码器，包括：

将所述双模态表征向量输入每一解码层的关联注意力子层。

4.根据权利要求3所述的方法，其特征在于，所述方法进一步包括：

在所述纠错解码器的任一解码层，基于该解码层的自注意力子层计算该解码层的输入向量的自注意力向量，将所述自注意力向量执行归一化之后与所述输入向量结合，获得第一中间向量向该解码层的关联注意力子层传递；

在该关联注意力子层，基于第一中间向量形成多个注意力头的查询向量，基于所述双模态表征向量形成该多个注意力头的键向量和值向量，根据该查询向量、键向量和值向量计算融合第一中间向量和所述双模态表征向量的多头注意力向量；将所述多头注意力向量执行归一化之后与第一中间向量结合，获得第二中间向量后向该解码层的前馈网络子层传递；

基于该前馈网络子层计算第二中间向量的映射向量，将所述映射向量执行归一化之后与第二中间向量结合，获得该解码层的输出向量。

5.根据权利要求4所述的方法，其特征在于，所述纠错解码器进一步包括连接在最后端解码层的线性层、归一化层和输出层；以及，

所述纠错解码器的最前端解码层在任一时间步的输入向量是当前已生成语素的嵌入向量，所述输出层在任一时间步的输出结果是当前已生成语素的下一语素，所述输出层在各时间步的输出结果组成所述纠错结果。

6.根据权利要求3所述的方法，其特征在于，所述关联注意力模块和所述纠错解码器通过以下步骤进行联合训练：

获取包括训练音频数据以及相应的训练语音识别文本和作为标签的训练纠错文本；

将所述训练音频数据输入所述音频特征抽取模型，得到所述训练音频数据的训练音频特征向量；将所述训练语音识别文本输入所述文本特征抽取模型，得到所述训练语音识别文本的训练文本特征向量；

将所述训练音频特征向量和所述训练文本特征向量输入所述关联注意力模块；在所述关联注意力模块，基于所述训练音频特征向量和所述训练文本特征向量执行关联注意力计算，输出融合所述训练音频特征向量和所述训练文本特征向量的训练表征向量；

将所述训练表征向量输入所述纠错解码器中各解码层的关联注意力子层，将当前时间步的已生成语素的嵌入向量输入所述纠错解码器的最前端解码层，获得所述纠错解码器的训练输出结果；比对所述训练输出结果与所述训练纠错文本形成用于训练所述关联注意力模块和所述纠错解码器的损失函数。

7.一种语音识别纠错装置，其特征在于，包括：

数据准备单元，用于获取音频数据和待处理的、所述音频数据的语音识别文本；

特征提取单元，用于将所述音频数据输入预先训练的音频特征抽取模型，得到所述音频数据的音频特征向量；将所述语音识别文本输入预先训练的文本特征抽取模型，得到所述语音识别文本的文本特征向量；

特征融合单元，用于将所述音频特征向量和所述文本特征向量输入预先训练的关联注意力模块；在所述关联注意力模块，基于所述音频特征向量和所述文本特征向量执行关联注意力计算，输出融合所述音频特征向量和所述文本特征向量的双模态表征向量；

解码单元，用于将所述双模态表征向量输入预先训练的纠错解码器，得到所述语音识别文本的纠错结果。

8.根据权利要求7所述的装置，其特征在于，所述特征融合单元进一步用于：

基于所述文本特征向量形成多个注意力头的查询向量，基于所述音频特征向量形成所述多个注意力头的键向量和值向量；根据所述查询向量、键向量和值向量计算每一注意力头的单头注意力输出向量，将每一注意力头的单头注意力输出向量拼接后形成多头注意力输出向量；将所述多头注意力输出向量与所述文本特征向量拼接为所述双模态表征向量。

9.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-6中任一所述的方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1-6中任一所述的方法。