CN115116444A

CN115116444A - 一种语音识别文本的处理方法、装置、设备及存储介质

Info

Publication number: CN115116444A
Application number: CN202210609403.0A
Authority: CN
Inventors: 林炳怀; 王丽园
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2022-05-31
Filing date: 2022-05-31
Publication date: 2022-09-27

Abstract

本申请实施例公开了一种语音识别文本的处理方法、装置、设备及存储介质，相关实施例可应用于人工智能、地图、智能交通等各种场景，用于提高对语音识别文本的纠错准确率。该方法包括：对原始语音进行向量转换，得到音频编码向量，对语音识别文本中的每个文本单元进行向量转换，得到每个文本单元对应的文本编码向量，对音频编码向量以及第i个文本编码向量采用注意力机制，得到交互后的第i个文本单元的融合向量，将第i个文本单元的融合向量与第i‑1个目标文本单元对应的文本向量输入至文本纠错网络，通过文本纠错网络输出第i个文本单元的融合向量对应的文本概率分布，基于第i个文本单元的融合向量对应的文本概率分布，确定第i个目标文本单元。

Description

一种语音识别文本的处理方法、装置、设备及存储介质

技术领域

本申请实施例涉及人工智能技术领域，尤其涉及一种语音识别文本的处理方法、装置、设备及存储介质。

背景技术

自动语音识别(Automatic Speech Recognition，ASR)是利用计算机将音频转化为文本的过程。

随着信息技术和人工智能的不断发展，目前ASR仍然存在过高的错词率(WordError Rate，WER)。传统的方案一般采用ASR识别的文本与实际人工转写构成文本对训练数据，构建序列到序列的模型，以ASR识别的错误文本作为模型的输入，对ASR识别的错误文本进行纠错，输出纠正后的文本。

但是，这种纠错模型一般是基于ASR识别的文本与实际人工转写构成的文本对，学习ASR识别错误的固定模式，学习文本相关的错误模式，使得在实际对ASR识别的文本进行纠错的过程中，只能识别出特定文本模式的错误，而对于一些模式不固定错误如发音相近等往往不能有效处理，从而导致对ASR识别的文本进行纠错的准确率不高。

发明内容

本申请实施例提供了一种语音识别文本的处理方法、装置、设备及存储介质，用于通过对音频编码向量以及文本编码向量采用注意力机制获取融合向量，来增加语音辅助识别文本单元，然后通过文本纠错网络对融合向量进行识别，能够更好地对语音识别文本中的每个文本单元进行预测并纠错，从而提高对ASR识别出的语音识别文本进行纠错的准确率。

本申请实施例一方面提供了一种语音识别文本的处理方法，包括：

获取与原始语音相对应的语音识别文本；

对原始语音进行向量转换，得到音频编码向量；

对语音识别文本中的每个文本单元进行向量转换，得到每个文本单元对应的文本编码向量；

对音频编码向量以及第i个文本编码向量采用注意力机制，得到交互后的第i个文本单元的融合向量，其中，i为大于或等于1的整数；

将第i个文本单元的融合向量与第i-1个目标文本单元对应的文本向量输入至文本纠错网络，通过文本纠错网络输出第i个文本单元的融合向量对应的文本概率分布；

基于第i个文本单元的融合向量对应的文本概率分布，确定第i个目标文本单元。

本申请另一方面提供了一种语音识别文本的处理装置，包括：

获取单元，用于获取与原始语音相对应的语音识别文本；

处理单元，用于对原始语音进行向量转换，得到音频编码向量；

处理单元，还用于对语音识别文本中的每个文本单元进行向量转换，得到每个文本单元对应的文本编码向量；

处理单元，还用于对音频编码向量以及第i个文本编码向量采用注意力机制，得到交互后的第i个文本单元的融合向量，其中，i为大于或等于1的整数；

处理单元，还用于将第i个文本单元的融合向量与第i-1个目标文本单元对应的文本向量输入至文本纠错网络，通过文本纠错网络输出第i个文本单元的融合向量对应的文本概率分布；

确定单元，用于基于第i个文本单元的融合向量对应的文本概率分布，确定第i个目标文本单元。

在一种可能的设计中，本申请实施例另一方面的一种实现方式中，

处理单元，还用于将第i个文本单元的融合向量输入至文本识别网络，通过文本识别网络输出第i个文本单元的融合向量对应的错误概率值；

确定单元，还用于当第i个文本单元的融合向量对应的错误概率值为0时，确定第i个错误文本单元；

确定单元，还用于当第i个文本单元的融合向量对应的错误概率值为1时，确定第i个正确文本单元。

在一种可能的设计中，本申请实施例另一方面的一种实现方式中，处理单元具体可以用于：

将每个文本单元对应的文本编码向量与音频编码向量的采用注意力机制，得到每个文本编码向量对应的音频向量；

对第i个文本编码向量对应的音频向量与第i个文本单元对应的文本编码向量进行求和，得到第i个文本单元的融合向量。

将原始语音转换为单帧语音信号；

将每个单帧语音信号进行向量转换，得到每个单帧语音信号对应音频编码向量。

获取与样本语音相对应的样本语音识别文本，以及样本语音识别文本对应的文本单元标签；

对样本语音进行向量转换，得到样本语音编码向量；

对样本语音识别文本中的每个文本单元进行向量转换，得到每个文本单元对应的样本编码向量；

对样本语音编码向量以及第i个样本编码向量采用注意力机制，得到交互后的第i个文本单元的样本融合向量；

将第i个文本单元的样本融合向量与第i-1个预测文本单元对应的文本向量输入至基础文本纠错网络，通过基础文本纠错网络输出第i个文本单元的样本融合向量对应的文本概率分布；

基于文本单元标签以及第i个文本单元的样本融合向量对应的文本概率分布，计算纠错损失值；

基于纠错损失值对基础文本纠错网络进行参数调整，得到文本纠错网络。

获取单元，还用于获取样本语音识别文本对应的错误检测标签；

处理单元，还用于将每个文本单元的样本融合向量输入至基础文本识别网络，通过基础文本识别网络输出每个文本单元的样本融合向量对应的错误概率值；

处理单元，还用于基于错误检测标签以及每个文本单元的样本融合向量对应的错误概率值，计算错误检测损失值；

处理单元，还用于基于纠错损失值对基础文本纠错网络进行参数调整，得到文本纠错网络，包括：

处理单元，还用于基于错误检测损失值以及纠错损失值，对基础文本识别网络以及基础文本纠错网络进行参数调整，得到文本纠错网络以及文本识别网络。

基于损失权重，对错误检测损失值以及纠错损失值进行加权求和，得到总损失值；

基于总损失值，对基础文本识别网络以及基础文本纠错网络进行参数调整，得到文本识别网络以及文本纠错网络。

将每个文本单元对应的样本编码向量与样本语音编码向量的采用注意力机制，得到每个样本语音编码向量对应的样本语音向量；

对第i个样本语音编码向量对应的样本语音向量与第i个文本单元对应的样本编码向量进行求和，得到第i个文本单元的样本融合向量。

将样本语音转换为单帧样本语音信号；

将每个单帧样本语音信号进行向量转换，得到每个单帧样本语音信号对应样本语音编码向量。

在一种可能的设计中，本申请实施例另一方面的一种实现方式中，获取单元具体可以用于：

将原始语音输入至自动语音识别模型，通过自动语音识别模型中的预训练声学网络获取原始语音对应的语音编码向量；

将语音编码向量与第i-1个识别文本单元对应的文本向量通过至自动语音识别模型中的文本解码器，得到第i个文本单元对应的识别文本概率分布；

基于第i个文本单元对应的识别文本概率分布，确定第i个识别文本单元，以得到语音识别文本。

将原始语音转换为单帧语音信号；

将每个单帧语音信号输入至自动语音识别模型，通过自动语音识别模型中的预训练声学网络获取每个单帧语音信号对应的单帧语音向量；

基于每个单帧语音信号对应的音频权重，对每个单帧语音信号对应的单帧语音向量进行加权求和，得到语音编码向量。

将样本语音输入至基础自动语音识别模型，通过基础自动语音识别模型中的预训练声学网络获取样本语音对应的样本语音向量；

将样本语音向量与第i-1个样本识别文本单元对应的文本向量通过至基础自动语音识别模型中的文本解码器，得到第i个文本单元对应的样本识别文本概率分布；

基于第i个文本单元对应的样本识别文本概率分布以及样本语音对应的文本单元标签，计算识别损失值；

基于识别损失值对基础自动语音识别模型进行参数调整，得到自动语音识别模型。

将样本语音转换为单帧样本语音信号；

将每个单帧样本语音信号输入至基础自动语音识别模型，通过基础自动语音识别模型中的预训练声学网络获取每个单帧样本语音信号对应的单帧样本语音向量；

基于每个单帧样本语音信号对应的音频权重，对每个单帧样本语音信号对应的单帧样本语音向量进行加权求和，得到样本语音向量。

获取单元，还用于接收语音识别优化指令；

获取单元具体可以用于：根据语音识别优化指令，从数据库中读取语音识别文本。

本申请另一方面提供了一种计算机设备，包括：存储器、处理器以及总线系统；

其中，存储器用于存储程序；

处理器用于执行存储器中的程序时实现如上述各方面的方法；

总线系统用于连接存储器以及处理器，以使存储器以及处理器进行通信。

本申请的另一方面提供了一种计算机可读存储介质，计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述各方面的方法。

从以上技术方案可以看出，本申请实施例具有以下有益效果：

通过获取与原始语音相对应的语音识别文本，可以对原始语音进行向量转换，以获取到音频编码向量，并对语音识别文本中的每个文本单元进行向量转换，以获取到每个文本单元对应的文本编码向量，进而对音频编码向量以及第i个文本编码向量采用注意力机制，以交互得到第i个文本单元的融合向量，然后，可以将第i个文本单元的融合向量与第i-1个目标文本单元对应的文本向量输入至文本纠错网络，通过文本纠错网络输出第i个文本单元的融合向量对应的文本概率分布，并基于第i个文本单元的融合向量对应的文本概率分布，确定第i个目标文本单元。通过上述方式，能够通过对原始语音对应的音频编码向量以及ASR识别出的语音识别文本中的每个文本单元对应的文本编码向量，采用注意力机制得到的融合向量，来增加语音辅助识别文本单元，从而能够通过文本纠错网络基于融合向量，更好地对语音识别文本中的每个文本单元进行预测并纠错，以提高对ASR识别出的语音识别文本进行纠错的准确率。

附图说明

图1是本申请实施例中文本数据控制系统的一个架构示意图；

图2是本申请实施例中语音识别文本的处理方法的一个实施例流程图；

图3是本申请实施例中语音识别文本的处理方法的另一个实施例流程图；

图4是本申请实施例中语音识别文本的处理方法的另一个实施例流程图；

图5是本申请实施例中语音识别文本的处理方法的另一个实施例流程图；

图6是本申请实施例中语音识别文本的处理方法的另一个实施例流程图；

图7是本申请实施例中语音识别文本的处理方法的另一个实施例流程图；

图8是本申请实施例中语音识别文本的处理方法的另一个实施例流程图；

图9是本申请实施例中语音识别文本的处理方法的另一个实施例流程图；

图10是本申请实施例中语音识别文本的处理方法的另一个实施例流程图；

图11是本申请实施例中语音识别文本的处理方法的另一个实施例流程图；

图12是本申请实施例中语音识别文本的处理方法的另一个实施例流程图；

图13是本申请实施例中语音识别文本的处理方法的另一个实施例流程图；

图14是本申请实施例中语音识别文本的处理方法的另一个实施例流程图；

图15是本申请实施例中语音识别文本的处理方法的另一个实施例流程图；

图16是本申请实施例中语音识别文本的处理方法的一个原理流程示意图；

图17是本申请实施例中语音识别文本的处理方法的另一个原理流程示意图；

图18是本申请实施例中语音识别文本的处理方法的另一个原理流程示意图；

图19是本申请实施例中语音识别文本的处理方法的一个自动语音识别模型原理流程示意图；

图20是本申请实施例中语音识别文本的处理方法的一个错误检测标签示意图；

图21(a)是本申请实施例中语音识别文本的处理方法的一个获取原始语音的界面示意图；

图21(b)是本申请实施例中语音识别文本的处理方法的一个完成原始语音获取的界面示意图；

图22(a)是本申请实施例中语音识别文本的处理方法的一个语音识别文本的界面示意图；

图22(b)是本申请实施例中语音识别文本的处理方法的一个完成语音识别文本优化的界面示意图；

图23是本申请实施例中语音识别文本的处理方法的一个纠错结果对比示意图；

图24是本申请实施例中语音识别文本的处理方法的一个纠错效果分析示意图；

图25是本申请实施例中语音识别文本的处理装置的一个实施例示意图；

图26是本申请实施例中计算机设备的一个实施例示意图。

具体实施方式

本申请的说明书和权利要求书及附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“对应于”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为了便于理解，先对本申请实施例涉及到的一些术语或概念进行解释。

1、自动语音识别(Automatic Speech Recognition，ASR)

自动语音识别指的是将音频转化为文本的过程。

2、错词率(Word Error Rate，WER)

错词率是衡量ASR错误程度的指标，包括ASR识别后产生的插入、删除和替换错误等。

3、ASR纠错

ASR纠错指的是基于ASR，对音频进行转写，并将转写得到的文本中错误的词纠正为正确的词的过程。

4、序列到序列的模型

序列到序列的模型指的是由编码器和解码器构成的，能够将文本序列输入到编码器中，并从解码器中输出文本序列的模型。

可以理解的是，在本申请的具体实施方式中，涉及到原始语音以及语音识别文本等相关的数据，当本申请以上实施例运用到具体产品或技术中时，需要获得用户许可或者同意，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

可以理解的是，如本申请所公开的语音识别文本的处理方法，具体涉及智能车路协同系统(Intelligent Vehicle Infrastructure Cooperative Systems，IVICS)，下面进一步地对智能车路协同系统进行介绍。智能车路协同系统简称车路协同系统，是智能交通系统(ITS)的一个发展方向。车路协同系统是采用先进的无线通信和新一代互联网等技术，全方位实施车车、车路动态实时信息交互，并在全时空动态交通信息采集与融合的基础上开展车辆主动安全控制和道路协同管理，充分实现人车路的有效协同，保证交通安全，提高通行效率，从而形成的安全、高效和环保的道路交通系统。

可以理解的是，如本申请所公开的语音识别文本的处理方法，还涉及人工智能(Artificial Intelligence,AI)技术，下面进一步地对人工智能技术进行介绍。人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

其次，自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

其次，机器学习(Machine Learning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

应理解的是，本申请提供的语音识别文本的处理方法可应用于各种场景，包括但不限于人工智能、地图、智慧交通、云技术等，用于通过对识别出的语音识别文本进行纠错，完成对语音识别文本的优化，以应用于如口语练习、智能语音交互、智能语音识别或智能语音翻译等场景。

为了解决上述问题，本申请提出了一种语音识别文本的处理方法，该方法应用于图1所示的文本数据控制系统，请参阅图1，图1为本申请实施例中文本数据控制系统的一个架构示意图，如图1所示，服务器通过获取与终端设备提供的原始语音相对应的语音识别文本，可以对原始语音进行向量转换，以获取到音频编码向量，并对语音识别文本中的每个文本单元进行向量转换，以获取到每个文本单元对应的文本编码向量，进而对音频编码向量以及第i个文本编码向量采用注意力机制，以交互得到第i个文本单元的融合向量，然后，可以将第i个文本单元的融合向量与第i-1个目标文本单元对应的文本向量输入至文本纠错网络，通过文本纠错网络输出第i个文本单元的融合向量对应的文本概率分布，并基于第i个文本单元的融合向量对应的文本概率分布，确定第i个目标文本单元。通过上述方式，能够通过对原始语音对应的音频编码向量以及ASR识别出的语音识别文本中的每个文本单元对应的文本编码向量，采用注意力机制得到的融合向量，来增加语音辅助识别文本单元，从而能够通过文本纠错网络基于融合向量，更好地对语音识别文本中的每个文本单元进行预测并纠错，以提高对ASR识别出的语音识别文本进行纠错的准确率。

可以理解的是，图1中仅示出了一种终端设备，在实际场景中可以由更多种类的终端设备参与到数据处理的过程中，终端设备包括但不限于手机、电脑、智能语音交互设备、智能家电、车载终端等，具体数量和种类因实际场景而定，具体此处不做限定。另外，图1中示出了一个服务器，但在实际场景中，也可以有多个服务器的参与，特别是在多模型训练交互的场景中，服务器的数量因实际场景而定，具体此处不做限定。

需要注意的是，本实施例中，服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(contentdelivery network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端设备以及服务器可以通过有线或无线通信方式进行直接或间接地连接，终端设备以及服务器可以连接组成区块链网络，本申请在此不做限制。

结合上述介绍，下面将对本申请中语音识别文本的处理方法进行介绍，请参阅图2，本申请实施例中语音识别文本的处理方法一个实施例包括：

在步骤S101中，获取与原始语音相对应的语音识别文本；

在本实施例中，服务器可以将获取到原始语音输入至自然语言识别模型(如ASR模型)中进行识别，以获取到ASR模型识别出的文本，即与原始语音相对应的语音识别文本。

具体地，由于目标对象可以通过客户端执行语音的录制操作，则客户端可以响应录制操作，通过录音程序的录制界面采集目标对象说出的内容(如长句、短句或短语等)，以获取到目标对象的原始语音，或者，目标对象在与终端设备(如智能语音交互系统、智能语音识别系统等)进行交互的过程中，终端设备中的音频采集装置自动对声音进行收集，以获取到原始语音，或者，还可以通过其他方式获取原始语音，此处不作具体限制。

进一步地，终端设备可以将获取到原始语音输入至自然语言识别模型(如ASR模型)中进行识别，以获取到ASR模型识别出的与原始语音相对应的语音识别文本，或者，如图16所示，终端设备可以将获取到原始语音上传至服务器中与目标对象标识进行相应存储，以便于后续的使用或查询，然后，服务器可以将获取到的原始语音输入至自然语言识别模型(如ASR模型)中进行识别，以获取到自然语言识别模型(如ASR模型)识别出的与原始语音相对应的语音识别文本。

例如，在一个口语练习场景中，如图21(a)所示，获取与原始语音相对应的语音识别文本，可以先通过原始语音的录制界面，目标对象可以根据录制界面中显示的题目进行口语回答，同时点击开始录音按钮启动音频采集装置对目标对象的口语回答进行采集，录音完成后点击如图21(b)所示意的原始语音获取界面中的录音结束按钮，完成口语采集，以获取到原始语音，进一步地，可以将获取到原始语音输入至自然语言识别模型(如ASR模型)中进行识别，以获取到自然语言识别模型(如ASR模型)识别出的语音识别文本，并将获取到的语音识别文本显示于如图22(a)所示意的语音识别文本的界面中。

在步骤S102中，对原始语音进行向量转换，得到音频编码向量；

在本实施例中，在获取到原始语音之后，可以将原始语音进行向量转换，以获取到便于计算机识别的音频编码向量。

具体地，如图16所示，在获取到原始语音之后，服务器可以将原始语音输入至模型(如多模态纠错模型)中进行处理，其中，如图17所示，多模态纠错模型包括编码部分(如图17所示意的A1部分)和解码部分(如图17所示意的A2部分)，编码部分有两个编码器构成，即音频编码器(如图17所示意的A1部分的Wav2vetor编码器)和文本编码器(如图17所示意的A1部分的BERT编码器)，即可以通过音频编码器对原始语音进行向量转换，具体可以是通过将原始语音转换为单帧语音信号，并通过音频编码器将每个单帧语音信号进行向量转换，以获取到每个单帧语音信号对应音频编码向量。

在步骤S103中，对语音识别文本中的每个文本单元进行向量转换，得到每个文本单元对应的文本编码向量；

在本实施例中，在获取到原始语音对应的语音识别文本之后，可以将语音识别文本中的每个文本单元进行向量转换，以获取到便于计算机识别的每个文本单元对应的文本编码向量。

其中，文本单元具体可以表现为单词(如“you”、“is”等)，还可以表现为字(如“我”、“你”等)，或者，表现为词(如“学生”、“读书”等)。

具体地，如图16所示，在获取到原始语音对应的语音识别文本之后，服务器可以将语音识别文本输入至模型(如多模态纠错模型)中进行处理，其中，如图17所示，即可以通过多模态纠错模型的文本编码器(如图17所示意的A1部分的BERT编码器)对语音识别文本进行向量转换，具体可以是通过对语音识别文本进行分词处理，以获取到文本单元，并通过文本编码器将每个文本单元进行向量转换，以获取到每个文本单元对应文本编码向量。

在步骤S104中，对音频编码向量以及第i个文本编码向量采用注意力机制，得到交互后的第i个文本单元的融合向量，其中，i为大于或等于1的整数；

在本实施例中，在获取到音频编码向量以及文本编码向量之后，可以将音频编码向量和文本编码向量进行交互，即对音频编码向量以及第i个文本编码向量采用注意力机制，以获取到交互后的第i个文本单元的融合向量。

具体地，如图17所示，由于多模态纠错模型的编码部分(如图17所示意的A1部分)可以得到两种模态的输出表示，即音频编码向量以及文本编码向量，进而在获取到音频编码向量以及文本编码向量之后，可以将音频编码向量以及文本编码向量进行融合，即对音频编码向量以及第i个文本编码向量采用注意力机制(如图17所示意的A1部分的Muti-headAttention)，以获取到多模态信息，即第i个文本单元的融合向量，来实现原始语音与语音识别文本之间的融合，以使后续可以基于融合向量对语音识别文本进行识别和纠错，来增加语音辅助识别，从而可以在一定程度上提高对应语音识别文本的纠错的准确率。

其中，采用注意力机制被广泛使用于自然语言处理，语音识别等场景。注意力机制用于建模query、key、value之间的关系，注意力机制定义为如下公式(1)：

其中，Q指的是query向量，query为每个文本单元对应的深度特征表示，即文本编码向量；K为key向量，V为value向量；d_k为K和Q的向量维度；key和value为原始语音中每帧语音信号对应的深度特征表示，即音频编码向量。

在步骤S105中，将第i个文本单元的融合向量与第i-1个目标文本单元对应的文本向量输入至文本纠错网络，通过文本纠错网络输出第i个文本单元的融合向量对应的文本概率分布；

在本实施例中，在获取到第i个文本单元的融合向量之后，可以将第i个文本单元的融合向量与第i-1个目标文本单元对应的文本向量输入至文本纠错网络，通过文本纠错网络对第i个目标文本单元进行预测，可以输出第i个文本单元的融合向量对应的文本概率分布。

具体地，如图17所示，多模态纠错模型还包括解码部分(如图17所示意的A2部分)，解码部分由解码器(如图17所示意的A2部分的BERT解码器)构成，即文本纠错网络，故在获取到第i个文本单元的融合向量之后，可以将第i个文本单元的融合向量与第i-1个目标文本单元对应的文本向量输入至解码器即文本纠错网络中，通过文本纠错网络对第i个目标文本单元进行预测，可以输出第i个文本单元的融合向量对应的文本概率分布。

例如，假设第i个文本单元的融合向量为第1个文本单元(如一个单词“he”)对应的融合向量，故可以将第1个文本单元(如一个单词“he”)对应的融合向量，以及预先设置的一个随机向量如y₀，输入至文本纠错网络(如BERT解码器)中，可以输出第1个文本单元可以纠正为字表中每个文字或单词对应的概率分布，即文本概率分布。

同理，例如，假设第i个文本单元的融合向量为第2个文本单元(如一个单词“is”)对应的融合向量，故可以将第2个文本单元(如一个单词“is”)对应的融合向量，以及第1个目标文本单元(如单词“he”)对应的文本向量如y₁，输入至文本纠错网络(如BERT解码器)中，可以输出第2个文本单元可以纠正为字表中每个文字或单词对应的概率分布，即文本概率分布。

在步骤S106中，基于第i个文本单元的融合向量对应的文本概率分布，确定第i个目标文本单元。

在本实施例中，在获取到第i个文本单元的融合向量对应的文本概率分布之后，可以基于第i个文本单元的融合向量对应的文本概率分布，对字表中每个文字或单词进行过滤或筛选，然后，可以将筛选出的文字或单词确定为第i个目标文本单元。

具体地，语音识别文本具体可以表现为一篇待纠错的中文、英文或是其他语种的文章、段落或句子等，还可以是其他表示，此处不作具体限制，进而，在获取到第i个文本单元的融合向量对应的文本概率分布之后，可以从文本概率分布中，筛选出语音识别文本中的第i个文本单元对应的最大文本概率，并将最大文本概率对应的字表文字或单词作为目标文本单元，从而可以整理得到语音识别文本对应的目标纠正文本，以使后续可以将纠正好的目标纠正文本应用于智能识别、智能检索或智能翻译等场景中。

例如，在一个口语练习场景中，将获取到的语音识别文本显示于如图22(a)所示意的语音识别文本的界面中，然后，可以将语音识别文本输入至多模态纠错模型中进行纠错，以获取到如图22(b)所示意的优化后的目标语义识别文本。

在本申请实施例中，提供了一种语音识别文本的处理方法，通过上述方式，能够通过对原始语音对应的音频编码向量以及ASR识别出的语音识别文本中的每个文本单元对应的文本编码向量，采用注意力机制得到的融合向量，来增加语音辅助识别文本单元，从而能够通过文本纠错网络基于融合向量，更好地对语音识别文本中的每个文本单元进行预测并纠错，以提高对ASR识别出的语音识别文本进行纠错的准确率。

可选地，在上述图2对应的实施例的基础上，本申请实施例提供的语音识别文本的处理方法另一个可选实施例中，如图3所示，在步骤S104对音频编码向量分别与第i个文本编码向量采用注意力机制，得到交互后的第i个文本单元的融合向量之后，该方法还包括：

在步骤S301中，将第i个文本单元的融合向量输入至文本识别网络，通过文本识别网络输出第i个文本单元的融合向量对应的错误概率值；

在步骤S302中，当第i个文本单元的融合向量对应的错误概率值为0时，确定第i个错误文本单元；

在步骤S303中，当第i个文本单元的融合向量对应的错误概率值为1时，确定第i个正确文本单元。

在本实施例中，在获取到第i个文本单元的融合向量之后，可以将第i个文本单元的融合向量输入至文本识别网络，通过文本识别网络对每个文本单元进行预测，输出第i个文本单元的融合向量对应的错误概率值，可以通过每个文本单元的融合向量对应的错误概率值来判断该文本单元是否存在错误，如果第i个文本单元的融合向量对应的错误概率值为0，则可以确定第i个错误文本单元，反之，如果第i个文本单元的融合向量对应的错误概率值为1，则可以确定第i个正确文本单元，能够通过在解码部分引入一个辅助任务，即文本识别网络，用于对ASR识别出的语音识别文本进行判错，即对一句话中的每个单词或字识别错误，从而可以进一步提升对语音识别文本进行纠错的准确率。

其中，文本识别网络具体可以表现为基于自然语言模型BERT预训练得到的模型，还可以表现为其他模型，此处不作具体限制，文本识别网络可以用于对每个文本单元的融合向量进行分类预测的模型。

具体地，如17所示，在获取到第i个文本单元的融合向量之后，可以将第i个文本单元的融合向量输入至文本识别网络，通过文本识别网络分别对第i个文本单元进行预测，输出第i个文本单元的融合向量对应的错误概率值，进而，可以通过每个文本单元的融合向量对应的错误概率值来判断该文本单元是否存在错误，例如，第i个文本单元的融合向量对应的错误概率值为0，可以理解为该文本单元存在错误，则可以确定该文本单元为错误文本单元，反之，如果当第i个文本单元的融合向量对应的错误概率值为1时，可以理解为该文本单元不存在错误，则可以确定该文本单元为正确文本单元。

例如，如图18所示，假设一个语音识别文本有三个文本单元如分别为“He isgrandparent”，然后，在获取到该三个文本单元分别对应的融合向量可以输入至文本识别网络中，通过文本识别网络分别对该三个文本单元进行预测，假设得到文本单元“He”对应的错误概率值为“1”，文本单元“is”对应的错误概率值为“1”，以及文本单元“grandparent”对应的错误概率值为“0”，即可以确定文本单元“He”为正确文本单元，文本单元“is”为正确文本单元，以及文本单元“grandparent”为错误文本单元。

可选地，在上述图2对应的实施例的基础上，本申请实施例提供的语音识别文本的处理方法另一个可选实施例中，如图4所示，步骤S104对音频编码向量分别与第i个文本编码向量采用注意力机制，得到交互后的第i个文本单元的融合向量，包括：

在步骤S401中，将每个文本单元对应的文本编码向量与音频编码向量的采用注意力机制，得到每个文本编码向量对应的音频向量；

在步骤S402中，对第i个文本单元对应的音频向量与第i个文本单元对应的文本编码向量进行求和，得到第i个文本单元的融合向量。

在本实施例中，在获取到音频编码向量以及文本编码向量之后，可以将音频编码向量和文本编码向量进行交互，来实现原始语音与语音识别文本之间的融合，即将每个文本单元对应的文本编码向量与音频编码向量的采用注意力机制，以获取到每个文本单元对应的音频向量，然后，可以对第i个文本单元对应的音频向量与第i个文本单元对应的文本编码向量进行求和，以获取到第i个文本单元的融合向量。以使后续可以基于融合向量对语音识别文本进行识别和纠错，来增加语音辅助识别，从而可以在一定程度上提高对应语音识别文本的纠错的准确率。

具体地，如图18所示，由于多模态纠错模型的编码部分(图18所示意的Wav2vector编码器以及BERT编码器部分)可以得到两种模态的输出表示，即音频编码向量以及文本编码向量，进而在获取到音频编码向量以及文本编码向量之后，可以将音频编码向量以及文本编码向量进行融合，即将每个文本单元对应的文本编码向量与音频编码向量的采用注意力机制(如图18所示意的Muti-head Attention)，可以使用如下公式(2)以获取到每个文本单元对应的音频向量：

其中，

用于表示第i个文本编码向量对应的音频向量；

用于表示第i个文本单元对应的文本编码向量；Hspeech第i个文本单元对应的音频向量的集合。

进一步地，可以采用如下公式(3)对第i个文本单元对应的音频向量与第i个文本单元对应的文本编码向量进行求和，以获取到第i个文本单元的融合向量：

其中，

用于表示第i个文本编码向量对应的音频向量；

用于表示第i个文本单元对应的文本编码向量；hⁱ用于表示第i个文本单元对应的融合向量。

可选地，在上述图2对应的实施例的基础上，本申请实施例提供的语音识别文本的处理方法另一个可选实施例中，如图5所示，步骤S102对原始语音进行向量转换，得到音频编码向量，包括：

在步骤S501中，将原始语音转换为单帧语音信号；

在步骤S502中，将每个单帧语音信号进行向量转换，得到每个单帧语音信号对应音频编码向量。

在本实施例中，在获取到原始语音之后，可以先将原始语音转换为单帧语音信号，并将每个单帧语音信号进行向量转换，以获取到每个单帧语音信号对应音频编码向量，以使后续能够基于每个单帧语音信号对应音频编码向量更好地与每个文本单元对应的文本编码向量进行交互，以获取到更加准确地融合向量，使得语音能够更好地辅助文本识别，从而可以在一定程度上提高语音识别文本的纠错的准确率。

具体地，如图18所示，在对原始语音进行向量转换之前，可以先将原始语音转换为单帧语音信号，例如，可以将一个原始语音切分为“x₁、x₂、......、x_m”等单帧语音信号，然后，可以将每个单帧语音信号输入至音频编码器(如图18所示意的Wav2vector编码器)中，通过音频编码器(如图18所示意的Wav2vector编码器)对每个单帧语音信号进行向量转换，以获取到每个单帧语音信号对应音频编码向量。

可选地，在上述图2对应的实施例的基础上，本申请实施例提供的语音识别文本的处理方法另一个可选实施例中，如图6所示，在步骤S105将第i个文本单元的融合向量与第i-1个目标文本单元对应的文本向量输入至文本纠错网络，通过文本纠错网络输出第i个文本单元的融合向量对应的文本概率分布之前，文本纠错网络的训练包括以下步骤：

在步骤S601中，获取与样本语音相对应的样本语音识别文本，以及样本语音识别文本对应的文本单元标签；

在本实施例中，服务器可以将获取到样本语音输入至自然语言识别模型(如ASR模型)中进行识别，以获取到ASR模型识别出的文本，即与样本语音相对应的样本语音识别文本，同时，可以获取到样本语音识别文本对应的文本单元标签。

其中，文本单元标签指的是实际单词或字的标签，是基于ASR识别得到的文本与人工转写文本进行对齐得到的结果。

具体地，可以通过终端设备(如智能语音交互系统、智能语音识别系统等)进行交互的过程中，终端设备中的音频采集装置自动对海量语音进行收集，以获取到海量的样本语音，或者，还可以通过其他方式获取样本语音，此处不作具体限制。

进一步地，终端设备可以将获取到样本语音输入至自然语言识别模型(如ASR模型)中进行识别，以获取到ASR模型识别出的与样本语音相对应的样本语音识别文本，或者，如图16所示，终端设备可以将获取到样本语音上传至服务器中，然后服务器可以将获取到的样本语音输入至自然语言识别模型(如ASR模型)中进行识别，以获取到ASR模型识别出的与样本语音相对应的语音识别文本。

在步骤S602中，对样本语音进行向量转换，得到样本语音编码向量；

在本实施例中，在获取到样本语音之后，可以将样本语音进行向量转换，以获取到便于计算机识别的样本编码向量。

具体地，在获取到样本语音之后，服务器可以将样本语音输入至模型(如多模态纠错模型)中进行处理，其中，如图17所示，可以通过多模态纠错模型中的音频编码器(如图17所示意的A1部分的Wav2vector编码器)对样本语音进行向量转换，具体可以是通过将样本语音转换为单帧样本语音信号，并通过音频编码器(如Wav2vector编码器)将每个单帧样本语音信号进行向量转换，以获取到每个单帧样本语音信号对应样本语音编码向量。

在步骤S603中，对样本语音识别文本中的每个文本单元进行向量转换，得到每个文本单元对应的样本编码向量；

在本实施例中，在获取到样本语音对应的样本语音识别文本之后，可以将样本语音识别文本中的每个文本单元进行向量转换，以获取到便于计算机识别的每个文本单元对应的样本编码向量。

具体地，如图17所示，在获取到样本语音对应的样本语音识别文本之后，服务器可以将样本语音识别文本输入至模型(如多模态纠错模型)中进行处理，可以通过多模态纠错模型的文本编码器(如图17所示意的A1部分的BERT编码器)对样本语音识别文本进行向量转换，具体可以是通过对样本语音识别文本进行分词处理，以获取到文本单元，并通过文本编码器(如BERT编码器)将每个文本单元进行向量转换，以获取到每个文本单元对应样本编码向量。

在步骤S604中，对样本语音编码向量以及第i个样本编码向量采用注意力机制，得到交互后的第i个文本单元的样本融合向量；

在本实施例中，在获取到样本语音编码向量以及样本编码向量之后，可以将样本语音编码向量和样本编码向量进行交互，即对样本语音编码向量以及第i个样本编码向量采用注意力机制，以获取到交互后的第i个文本单元的样本融合向量。

具体地，如图17所示，由于将样本语音以及样本语音识别文本作为多模态纠错模型的输入，可以通过多模态纠错模型的编码部分(如图17所示意的A1部分)可以得到两种模态的输出表示，即样本语音编码向量以及样本编码向量，进而在获取到样本语音编码向量以及样本编码向量之后，可以将样本语音编码向量以及样本编码向量进行融合，即对样本语音编码向量以及第i个样本编码向量采用注意力机制(如图17所示意的A1部分的Muti-head Attention)，以获取到多模态信息，即第i个文本单元的样本融合向量，来实现样本语音与样本语音识别文本之间的融合，来增加语音辅助识别，以使后续可以基于融合向量协助基础文本纠错网络能够更好地学习到识别类似语音的文本单元的能力，从而可以在一定程度上提高对应语音识别文本的纠错的准确率。

在步骤S605中，将第i个文本单元的样本融合向量与第i-1个预测文本单元对应的文本向量输入至基础文本纠错网络，通过基础文本纠错网络输出第i个文本单元的样本融合向量对应的文本概率分布；

在本实施例中，在获取到第i个文本单元的样本融合向量之后，可以将第i个文本单元的样本融合向量与第i-1个预测文本单元对应的文本向量输入至基础文本纠错网络，通过基础文本纠错网络对第i个预测文本单元进行预测，可以输出第i个文本单元的样本融合向量对应的文本概率分布。

具体地，如图17所示，多模态纠错模型还包括解码部分(如图17所示意的A2部分)，解码部分由解码器(如图17所示意的A2部分的BERT解码器)构成，即文本纠错网络(如BERT解码器)，故在获取到第i个文本单元的样本融合向量之后，可以将第i个文本单元的样本融合向量与第i-1个预测文本单元对应的文本向量输入至解码器即文本纠错网络(如BERT解码器)中，通过文本纠错网络(如BERT解码器)对第i个预测文本单元进行预测，可以输出第i个文本单元的样本融合向量对应的文本概率分布。

例如，假设第i个文本单元的样本融合向量为第3个文本单元(如一个单词“our”)对应的样本融合向量，故可以将第3个文本单元(如一个单词“our”)对应的样本融合向量，以及第2个预测文本单元(如单词“is”)对应的文本向量如y₂，输入至文本纠错网络(如BERT解码器)中，可以输出第3个文本单元可以纠正为字表中每个文字或单词对应的概率分布，即文本概率分布。

在步骤S606中，基于文本单元标签以及第i个文本单元的样本融合向量对应的文本概率分布，计算纠错损失值；

在本实施例中，在获取到第i个文本单元的样本融合向量对应的文本概率分布之后，可以基于文本单元标签以及第i个文本单元的样本融合向量对应的文本概率分布，计算纠错损失值，以使后续可以基于获取到的纠错损失值更好地对基础文本纠错网络进行参数调整，直至基础文本纠错网络收敛，以更好地获取到能够用于语音识别文本纠错的文本纠错网络。

具体地，在获取到第i个文本单元的样本融合向量对应的文本概率分布之后，可以基于文本单元标签以及第i个文本单元的样本融合向量对应的文本概率分布，采用如下公式(4)计算纠错损失值，即实际单词或字的标签和预测的文本单元的概率的交叉熵损失：

其中，L_cor用于表示纠错损失值，

用于表示第i个文本单元的文本单元标签，

用于表示第i个文本单元的样本融合向量对应的文本概率分布。

在步骤S607中，基于纠错损失值对基础文本纠错网络进行参数调整，得到文本纠错网络。

具体地，基于上述公式(4)中的纠错损失函数式，对文本单元标签以及第i个文本单元的样本融合向量对应的文本概率分布进行损失计算，以获取到纠错损失值，并基于纠错损失值，对基础文本纠错网络进行参数调整，如采用反向传播梯度下降的方式，直至基础文本纠错网络的模型参数趋向于稳定，基础文本纠错网络收敛，可以得到训练好的文本纠错网络，以实现对语音识别文本的精准纠错。

可选地，在上述图6对应的实施例的基础上，本申请实施例提供的语音识别文本的处理方法另一个可选实施例中，如图7所示，在步骤S604对样本语音编码向量以及第i个样本编码向量采用注意力机制，得到交互后的第i个文本单元的样本融合向量之后，该方法还包括：步骤S701至步骤S703，步骤S607包括：步骤S704；

在步骤S701中，获取样本语音识别文本对应的错误检测标签；

具体地，在获取到样本语音识别文本的同时，还可以获取到与样本语音识别文本相对应的错误检测标签。

其中，如图20所示，错误检测标签指的是ASR识别出的样本语音文本存在识别错误的检测标签，是基于ASR识别得到的文本与人工转写文本进行对齐得到的结果。

在步骤S702中，将每个文本单元的样本融合向量输入至基础文本识别网络，通过基础文本识别网络输出每个文本单元的样本融合向量对应的错误概率值；

在本实施例中，在获取到每个文本单元的样本融合向量之后，可以将每个文本单元的样本融合向量输入至基础文本识别网络，通过基础文本识别网络分别对每个文本单元进行预测，可以输出每个文本单元的样本融合向量对应的错误概率值。

具体地，将每个文本单元的样本融合向量输入至基础文本识别网络，经过线性变化，可以得到每个文本单元是否识别错误的结果。其中，错误概率值，包含0和1，用于表示基础文本识别网络的预测结果。

其中，生成的数据检测标签判定如图20所示，其中，ASR为ASR识别文本，即样本语音识别文本，真值为Truth用于表示对应的正确文本单元。例如，ASR识别出的样本语音识别文本中的第1个文本单元为单词“He”，对应的错误检测标签为Truth，故第1个文本单元对应的错误概率值为1，可以理解为不存在错误，即该文本单元为正确文本单元。

在步骤S703中，基于错误检测标签以及每个文本单元的样本融合向量对应的错误概率值，计算错误检测损失值；

在本实施例中，在获取到每个文本单元的样本融合向量对应的错误概率值之后，可以基于错误检测标签以及每个文本单元的样本融合向量对应的错误概率值，计算错误检测损失值，以使后续可以基于获取到的错误检测损失值更好地对基础文本纠错网络以及文本识别网络进行参数调整，直至基础文本纠错网络以及基础文本识别网络收敛，以更好地获取到能够用于语音识别文本纠错的文本纠错网络以及语音识别文本错误检测的文本识别网络。

具体地，在获取到每个文本单元的样本融合向量对应的错误概率值之后，可以基于错误检测标签以及每个文本单元的样本融合向量对应的错误概率值，采用如下公式(5)计算错误检测损失值，即文本识别错误的检测标签和预测的文本单元的错误概率值的交叉熵损失：

其中，L_detec用于表示纠错损失值，

用于表示第i个文本单元的错误检测标签，

用于表示第i个文本单元的样本融合向量对应的错误概率值。

在步骤S704中，基于错误检测损失值以及纠错损失值，对基础文本识别网络以及基础文本纠错网络进行参数调整，得到文本纠错网络以及文本识别网络。

具体地，基于上述公式(4)中的纠错损失函数式，对文本单元标签以及第i个文本单元的样本融合向量对应的文本概率分布进行损失计算，以获取到纠错损失值，同时，可以基于上述公式(5)中的错误检测损失函数式，对错误检测标签以及每个文本单元的样本融合向量对应的错误概率值进行损失计算，以获取到错误检测损失值，然后，可以基于纠错损失值以及错误检测损失值，对基础文本纠错网络以及基础文本识别网络进行联合参数调整，如采用反向传播梯度下降的方式，直至基础文本纠错网络的模型参数以及基础文本识别网络的模型参数趋向于稳定，基础文本纠错网络以及文本识别网络收敛，可以得到训练好的文本纠错网络以及文本识别网络，以进一步实现对语音识别文本的精准纠错。

进一步地，经实验可知，如图23所示，本实施例通过将多模态纠错模型的纠错结果与多个ASR纠错baseline进行对比，并基于错词率WER进行对比，其中，对比的工作包括之前的别人的工作，以及只利用文本的纠错模型(Text-only)，利用音频微调ASR模型的方法(Audio-only),传统的ASR结果(E2E ASR)。由结果可知，通过结合多模态信息，可以将WER降到10.8，相比对传统ASR的单模态形式以及之前的工作有较大的提升。

进一步地，经实验可知，如图24所示，本实施例通过对ASR识别出的语音识别文本的纠错效果进行case分析，如图24所示，可以理解的是对于专有名词、固定词组、发音相近的词传统的ASR识别效果较差，能够用于解决专有名词、固定词组的问题，如shan hai->shanghai,但是，传统的ASR识别对发音相近的错误不能解决，如plane->place,clothes->close等。

可选地，在上述图7对应的实施例的基础上，本申请实施例提供的语音识别文本的处理方法另一个可选实施例中，如图8所示，步骤S704基于错误检测损失值以及纠错损失值，对基础文本识别网络以及基础文本纠错网络进行参数调整，得到文本识别网络以及文本纠错网络，包括：

在步骤S801中，基于损失权重，对错误检测损失值以及纠错损失值进行加权求和，得到总损失值；

在步骤S802中，基于总损失值，对基础文本识别网络以及基础文本纠错网络进行参数调整，得到文本识别网络以及文本纠错网络。

在本实施例中，在获取到错误检测损失值以及纠错损失值之后，为了更够更好更快速使得模型参数收敛，本实施例可以基于损失权重，对错误检测损失值以及纠错损失值进行加权求和，以获取到总损失值，并基于总损失值，对基础文本识别网络以及基础文本纠错网络进行参数调整，以获取到文本识别网络以及文本纠错网络。

具体地，在获取到错误检测损失值以及纠错损失值之后，可以采用如下公式(6)，基于损失权重，对错误检测损失值以及纠错损失值进行加权求和，以获取到总损失值：

L_total＝L_cor+α*L_detec (6)；

其中，L_detec用于表示纠错损失值，L_cor用于表示纠错损失值，L_total用于表示总损失值，α是根据实际应用需求进行设置的超参数，即损失权重，此处不作具体限制，通常可以设置为0.05。

进一步地，在获取到总损失值之后，可以对基础文本纠错网络以及基础文本识别网络进行联合参数调整，如采用反向传播梯度下降的方式，直至基础文本纠错网络的模型参数以及基础文本识别网络的模型参数趋向于稳定，基础文本纠错网络以及文本识别网络收敛，可以得到训练好的文本纠错网络以及文本识别网络，以进一步实现对语音识别文本的精准纠错。

可选地，在上述图6对应的实施例的基础上，本申请实施例提供的语音识别文本的处理方法另一个可选实施例中，如图9所示，步骤S604对样本语音编码向量以及第i个样本编码向量采用注意力机制，得到交互后的第i个文本单元的样本融合向量，包括：

在步骤S901中，将每个文本单元对应的样本编码向量与样本语音编码向量的采用注意力机制，得到每个样本语音编码向量对应的样本语音向量；

在步骤S902中，对第i个样本语音编码向量对应的样本语音向量与第i个文本单元对应的样本编码向量进行求和，得到第i个文本单元的样本融合向量。

在本实施例中，在获取到样本语音编码向量以及每个文本单元对应的样本编码向量之后，可以将样本语音编码向量分别与每个文本单元对应的样本编码向量进行交互，来实现样本语音与样本语音识别文本之间的融合，即将每个文本单元对应的样本编码向量与样本语音编码向量的采用注意力机制，以获取到每个样本语音编码向量对应的样本语音向量，然后，可以对第i个文本单元对应的样本语音向量与第i个文本单元对应的样本编码向量进行求和，以获取到第i个文本单元的融合向量，使后续可以基于样本融合向量对样本语音识别文本进行识别和纠错，来增加语音辅助识别，提高基础文本纠错网络以及基础文本识别网络学习到对发音相近的文本单元的识别能力，从而可以在一定程度上提高对应语音识别文本的纠错的准确率。

具体地，如图18所示，由于将样本语音以及样本语音识别文本作为多模态纠错模型的输入，可以通过多模态纠错模型的编码部分(图18所示意的Wav2vector编码器以及BERT编码器部分)得到两种模态的输出表示，即每个文本单元对应的样本编码向量与样本语音编码向量，进而在获取到样本语音编码向量以及样本编码向量之后，可以将样本语音编码向量以及样本编码向量进行融合，即将每个文本单元对应的文本编码向量与音频编码向量的采用注意力机制(如图18所示意的Muti-head Attention)，可以先使用上述公式(2)以获取到每个样本语音编码向量对应的样本语音向量，进一步地，可以再采用上述公式(3)对第i个样本语音编码向量对应的样本语音向量与第i个文本单元对应的样本编码向量进行求和，以获取到第i个文本单元的样本融合向量。

可选地，在上述图6对应的实施例的基础上，本申请实施例提供的语音识别文本的处理方法另一个可选实施例中，如图10所示，步骤S602对样本语音进行向量转换，得到样本语音编码向量，包括：

在步骤S1001中，将样本语音转换为单帧样本语音信号；

在步骤S1002中，将每个单帧样本语音信号进行向量转换，得到每个单帧样本语音信号对应样本语音编码向量。

在本实施例中，在获取到样本语音之后，可以先将样本语音转换为单帧样本语音信号，并将每个单帧样本语音信号进行向量转换，以获取到每个单帧样本语音信号对应样本语音编码向量，以使后续能够基于每个单帧样本语音信号对应样本语音编码向量更好地与每个文本单元对应的样本编码向量进行交互，以获取到更加准确地样本融合向量，使得语音能够更好地辅助文本识别，能够使得基础文本纠错网络和文本识别网络更好地学习到发音相似的文本单元的识别能力，从而可以在一定程度上提高语音识别文本的纠错的准确率。

具体地，如图18所示，在对样本语音进行向量转换之前，可以先将样本语音转换为单帧样本语音信号，例如，可以将一个样本语音切分为“x1、x2、......、xm”等单帧样本语音信号，然后，可以将每个单帧样本语音信号输入至音频编码器(如wav2vec编码器)中，并通过音频编码器(如wav2vec编码器)对每个单帧样本语音信号进行向量转换，以获取到每个单帧样本语音信号对应样本语音编码向量。

可选地，在上述图2对应的实施例的基础上，本申请实施例提供的语音识别文本的处理方法另一个可选实施例中，如图11所示，步骤S101获取与原始语音相对应的语音识别文本，包括：

在步骤S1101中，将原始语音输入至自动语音识别模型，通过自动语音识别模型中的预训练声学网络获取原始语音对应的语音编码向量；

在本实施例中，在获取到原始语音之后，可以将获取到原始语音输入至自动语音识别模型中进行文本单元预测，并通过自动语音识别模型中的预训练声学网络获取原始语音对应的语音编码向量。

其中，自动语音识别模型具体可以表现为ASR模型，还可以表现为其他模型，此处不作具体限制。其中，ASR模型由音频编码器和文本解码器构成，ASR模型以原始语音为输入，输出为语音识别文本。预训练声学网络具体可以表现为wav2vec 2.0模型，还可以表现为其他模型，此处不作具体限制。其中，Wav2vec 2.0是一种基于大量无标签数据进行自监督预训练的模型，它由多层卷积的特征编码层和多层transforme构成。

具体地，如图16所示，在通过客户端的语音录制界面获取到原始语音之后，可以将获取到的原始语音上传至服务器中进行存储，使得服务器可以将接收到的原始语音输入至自动语音识别模型中进行文本单元预测，其中，可以先通过自动语音识别模型中的预训练声学网络即音频编码器，获取原始语音对应的语音编码向量，具体可以是通过将原始语音转换为单帧语音信号，并将每个单帧语音信号输入至自动语音识别模型，然后可以通过自动语音识别模型中的预训练声学网络获取每个单帧语音信号对应的单帧语音向量，并基于每个单帧语音信号对应的音频权重，对每个单帧语音信号对应的单帧语音向量进行加权求和，以获取到语音编码向量。

在步骤S1102中，将语音编码向量与第i-1个识别文本单元对应的文本向量通过至自动语音识别模型中的文本解码器，得到第i个文本单元对应的识别文本概率分布；

在本实施例中，在获取到语音编码向量之后，可以将语音编码向量与第i-1个识别文本单元对应的文本向量输入至自动语音识别模型中的文本解码器，通过自动语音识别模型中的文本解码器对第i个文本单元进行预测，可以输出第i个文本单元对应的识别文本概率分布。

具体地，如图19所示，在获取到语音编码向量之后，可以将语音编码向量与第i-1个识别文本单元对应的文本向量输入至自动语音识别模型中的文本解码器中，通过自动语音识别模型中的文本解码器对第i个识别文本单元进行预测，可以输出第i个文本单元对应的识别文本概率分布。

例如，如图19所示，假设第i-1个识别文本单元对应的文本向量为第0个文本单元对应的文本向量，预先设置的一个随机向量如y₀，故可以将语音编码向量和第0个识别文本单元对应的文本向量y₀，输入至自动语音识别模型中的文本解码器(如BERT解码器)中，可以输出第1个文本单元可以识别为字表中每个文字或单词对应的概率分布，即识别文本概率分布。

同理，例如，假设第i-1个识别文本单元对应的文本向量为第1个文本单元对应的文本向量如y₁，故可以将语音编码向量和第1个识别文本单元对应的文本向量y₁，输入至自动语音识别模型中的文本解码器(如BERT解码器)中，可以输出第2个文本单元可以识别为字表中每个文字或单词对应的概率分布，即识别文本概率分布。

在步骤S1103中，基于第i个文本单元对应的识别文本概率分布，确定第i个识别文本单元，以得到语音识别文本。

在本实施例中，在获取到第i个文本单元对应的识别文本概率分布之后，可以基于第i个文本单元对应的识别文本概率分布，对字表中每个文字或单词进行过滤或筛选，然后，可以将筛选出的文字或单词确定为第i个识别文本单元，从而可以整理得到语音识别文本。

具体地，在获取到第i个文本单元对应的识别文本概率分布之后，可以从识别文本概率分布中，筛选出第i个文本单元对应的最大文本概率，并将最大文本概率对应的字表文字或单词作为识别文本单元，从而可以整理得到语音识别文本，以使后续可以将识别得到的语音识别文本进行纠错处理。

例如，在一个口语练习场景中，将获取到的语音识别文本显示于如图21(a)所示意的获取原始语音的界面中，以及如图21(b)所示意完成原始语音获取的界面，获取到原始语音，然后，可以将原始语音输入至ASR模型中进行识别，以获取到如图22(a)所示意的识别得到的语义识别文本的界面。

可选地，在上述图11对应的实施例的基础上，本申请实施例提供的语音识别文本的处理方法另一个可选实施例中，如图12所示，步骤S1101将原始语音输入至自动语音识别模型，通过自动语音识别模型中的预训练声学网络获取原始语音对应的语音编码向量，包括：

在步骤S1201中，将原始语音转换为单帧语音信号；

在步骤S1202中，将每个单帧语音信号输入至自动语音识别模型，通过自动语音识别模型中的预训练声学网络获取每个单帧语音信号对应的单帧语音向量；

在步骤S1203中，基于每个单帧语音信号对应的音频权重，对每个单帧语音信号对应的单帧语音向量进行加权求和，得到语音编码向量。

在本实施例中，在获取到原始语音之后，可以先将原始语音转换为单帧语音信号，再将每个单帧语音信号输入至自动语音识别模型，通过自动语音识别模型中的预训练声学网络获取每个单帧语音信号对应的单帧语音向量，并基于每个单帧语音信号对应的音频权重，对每个单帧语音信号对应的单帧语音向量进行加权求和，以更好更准确地获取到便于计算机设备进行识别和分析的语音编码向量。

具体地，在通过客户端的语音录制界面获取到原始语音之后，可以将获取到的原始语音上传至服务器中进行存储，使得服务器可以对接收到的原始语音切分为单帧语音信号，然后，可以将获取到的单帧语音信号如“x1、x2、......、xm”输入至自动语音识别模型中的预训练声学网络即音频编码器(如wav2vec 2.0编码器)中，并通过预训练声学网络即音频编码器(如wav2vec 2.0编码器)对单帧语音信号进行编码，即将每个单帧语音信号转换为相应的单帧语音向量，并基于预设的每个单帧语音信号对应的音频权重，对每个单帧语音信号对应的单帧语音向量进行加权求和，以获取到语音编码向量。

可选地，在上述图11对应的实施例的基础上，本申请实施例提供的语音识别文本的处理方法另一个可选实施例中，如图13所示，在步骤S1101将原始语音输入至自动语音识别模型，通过自动语音识别模型中的预训练声学网络获取原始语音对应的语音编码向量之前，自动语音识别模型的训练包括以下步骤：

在步骤S1301中，将样本语音输入至基础自动语音识别模型，通过基础自动语音识别模型中的预训练声学网络获取样本语音对应的样本语音向量；

在本实施例中，在获取到样本语音之后，可以将获取到样本语音输入至基础自动语音识别模型中进行文本单元预测，并通过基础自动语音识别模型中的预训练声学网络获取样本语音对应的样本语音向量。

具体地，如图19所示，在数据库中读取到样本语音之后，可以将获取到的样本语音输入至自动语音识别模型中的预训练声学网络即音频编码器(如wav2vec 2.0编码器)中，获取样本语音对应的样本语音向量，具体可以是通过将样本语音转换为单帧样本语音信号，并将每个单帧样本语音信号输入至基础自动语音识别模型，通过基础自动语音识别模型中的预训练声学网络获取每个单帧样本语音信号对应的单帧样本语音向量，然后可以基于每个单帧样本语音信号对应的音频权重，对每个单帧样本语音信号对应的单帧样本语音向量进行加权求和，以获取到样本语音向量。

在步骤S1302中，将样本语音向量与第i-1个样本识别文本单元对应的文本向量通过至基础自动语音识别模型中的文本解码器，得到第i个文本单元对应的样本识别文本概率分布；

在本实施例中，在获取到样本语音向量之后，可以将样本语音向量与第i-1个识别文本单元对应的文本向量输入至自动语音识别模型中的文本解码器，通过自动语音识别模型中的文本解码器对第i个文本单元进行预测，可以输出第i个文本单元对应的样本识别文本概率分布。

具体地，如图19所示，在获取到样本语音向量之后，可以将样本语音向量与第i-1个样本文本单元对应的文本向量输入至自动语音识别模型中的文本解码器中，通过自动语音识别模型中的文本解码器对第i个样本文本单元进行预测，可以输出第i个文本单元对应的样本识别文本概率分布。

在步骤S1303中，基于第i个文本单元对应的样本识别文本概率分布以及样本语音对应的文本单元标签，计算识别损失值；

在本实施例中，在获取到第i个文本单元对应的样本识别文本概率分布之后，可以基于样本语音对应的文本单元标签以及第i个文本单元的样本识别文本概率分布，计算识别损失值，以使后续可以基于获取到的识别损失值更好地对基础自动语音识别模型进行参数调整，直至基础自动语音识别模型收敛，以更好地获取到能够用于识别文本单元的自动语音识别模型。

具体地，在获取到第i个文本单元的样本识别文本概率分布之后，可以基于样本语音对应的文本单元标签以及第i个文本单元的样本识别文本概率分布，对实际单词或字的标签和预测的文本单元的概率的进行交叉熵损失计算，以获取到识别损失值。

在步骤S1304中，基于识别损失值对基础自动语音识别模型进行参数调整，得到自动语音识别模型。

在本实施例中，对样本语音对应的文本单元标签以及第i个文本单元的样本识别文本概率分布进行交叉熵损失计算，以获取到识别损失值，并基于识别损失值，对基础自动语音识别模型进行参数调整，如采用反向传播梯度下降的方式，直至基础自动语音识别模型的模型参数趋向于稳定，基础自动语音识别模型收敛，可以得到训练好的自动语音识别模型。

可选地，在上述图13对应的实施例的基础上，本申请实施例提供的语音识别文本的处理方法另一个可选实施例中，如图14所示，步骤S1301将样本语音输入至基础自动语音识别模型，通过基础自动语音识别模型中的预训练声学网络获取样本语音对应的样本语音向量，包括：

在步骤S1401中，将样本语音转换为单帧样本语音信号；

在步骤S1402中，将每个单帧样本语音信号输入至基础自动语音识别模型，通过基础自动语音识别模型中的预训练声学网络获取每个单帧样本语音信号对应的单帧样本语音向量；

在步骤S1403中，基于每个单帧样本语音信号对应的音频权重，对每个单帧样本语音信号对应的单帧样本语音向量进行加权求和，得到样本语音向量。

在本实施例中，在获取到样本语音之后，可以先将样本语音转换为单帧样本语音信号，再将每个单帧样本语音信号输入至基础自动语音识别模型，通过基础自动语音识别模型中的预训练声学网络获取每个单帧样本语音信号对应的单帧样本语音向量，并基于每个单帧样本语音信号对应的音频权重，对每个单帧样本语音信号对应的单帧样本语音向量进行加权求和，以更好更准确地获取到便于计算机设备进行识别和分析的样本语音向量。

具体地，在数据库中读取到样本语音之后，可以将获取到的样本语音切分为单帧样本语音信号，然后，可以将获取到的单帧样本语音信号如“x1、x2、......、xm”输入至基础自动语音识别模型中的预训练声学网络即音频编码器(如wav2vec 2.0编码器)中，并通过预训练声学网络即音频编码器(如wav2vec 2.0编码器)对单帧样本语音信号进行编码，即将每个单帧样本语音信号转换为相应的单帧样本语音向量，并基于预设的每个单帧样本语音信号对应的音频权重，对每个单帧样本语音信号对应的单帧样本语音向量进行加权求和，以获取到样本语音向量。

可选地，在上述图2对应的实施例的基础上，本申请实施例提供的语音识别文本的处理方法另一个可选实施例中，如图15所示，在步骤S101获取与原始语音相对应的语音识别文本之前，该方法还包括：步骤S1501；步骤S101包括：S1502；

在步骤S1501中，接收语音识别优化指令；

在步骤S1502中，根据语音识别优化指令，从数据库中读取语音识别文本。

在本实施例中，当接收到目标对象发送的语音识别优化指令时，可以根据语音识别优化指令，从数据库中读取语音识别文本，以便于目标对象可以随时对获取到语音识别文本进行优化，从而提高用户体验。

具体地，如图16所示，在目标对应可以通过终端设备上安装的应用程序获取到如口语练习场景中给定题目进行口语回答，并通过应用程序将收集到的原始语音和对应题目发送给服务器，使得服务器端可以将原始语音输入至给ASR模型中进行识别，以获取到语音识别文本进行存储，并显示与应用程序的如图22(a)所示意的识别得到的语义识别文本的界面中。

进一步地，目标对象可以根据需求通过如图22(a)所示意的识别得到的语义识别文本的界面，点击一键优化按钮，使得终端设备可以响应目标对象的选择操作生成相应的语音识别优化指令，并将该语音识别优化指令发送给服务器，使得服务器从数据库中读取语音识别文本以及相应的原始语音，并将读取到的语音识别文本以及相应的原始语音输入至多模态纠错模型进行错误检测和纠错，并通过多模态纠错模型结合原始语音和语音识别文本，输出纠正后的语音识别文本，返回给服务器，通过服务器发送至终端设备，并显示与应用程序的如图22(b)所示意的语音识别文本优化的界面中，以便于目标对象及时直观地获取到优化后的语音识别文本。

下面对本申请中的语音识别文本的处理装置进行详细描述，请参阅图25，图25为本申请实施例中语音识别文本的处理装置的一个实施例示意图，语音识别文本的处理装置20包括：

获取单元201，用于获取与原始语音相对应的语音识别文本；

处理单元202，用于对原始语音进行向量转换，得到音频编码向量；

处理单元202，还用于对语音识别文本中的每个文本单元进行向量转换，得到每个文本单元对应的文本编码向量；

处理单元202，还用于对音频编码向量以及第i个文本编码向量采用注意力机制，得到交互后的第i个文本单元的融合向量，其中，i为大于或等于1的整数；

处理单元202，还用于将第i个文本单元的融合向量与第i-1个目标文本单元对应的文本向量输入至文本纠错网络，通过文本纠错网络输出第i个文本单元的融合向量对应的文本概率分布；

确定单元203，用于基于第i个文本单元的融合向量对应的文本概率分布，确定第i个目标文本单元。

可选地，在上述图25对应的实施例的基础上，本申请实施例提供的语音识别文本的处理装置的另一实施例中，

处理单元202，还用于将第i个文本单元的融合向量输入至文本识别网络，通过文本识别网络输出第i个文本单元的融合向量对应的错误概率值；

确定单元203，还用于当第i个文本单元的融合向量对应的错误概率值为0时，确定第i个错误文本单元；

确定单元203，还用于当第i个文本单元的融合向量对应的错误概率值为1时，确定第i个正确文本单元。

可选地，在上述图25对应的实施例的基础上，本申请实施例提供的语音识别文本的处理装置的另一实施例中，处理单元202具体可以用于：

将原始语音转换为单帧语音信号；

对样本语音进行向量转换，得到样本语音编码向量；

获取单元201，还用于获取样本语音识别文本对应的错误检测标签；

处理单元202，还用于将每个文本单元的样本融合向量输入至基础文本识别网络，通过基础文本识别网络输出每个文本单元的样本融合向量对应的错误概率值；

处理单元202，还用于基于错误检测标签以及每个文本单元的样本融合向量对应的错误概率值，计算错误检测损失值；

处理单元202，还用于基于纠错损失值对基础文本纠错网络进行参数调整，得到文本纠错网络，包括：

处理单元202，还用于基于错误检测损失值以及纠错损失值，对基础文本识别网络以及基础文本纠错网络进行参数调整，得到文本纠错网络以及文本识别网络。

将样本语音转换为单帧样本语音信号；

可选地，在上述图25对应的实施例的基础上，本申请实施例提供的语音识别文本的处理装置的另一实施例中，获取单元201具体可以用于：

将原始语音转换为单帧语音信号；

将样本语音转换为单帧样本语音信号；

获取单元201，还用于接收语音识别优化指令；

获取单元201具体可以用于：根据语音识别优化指令，从数据库中读取语音识别文本。

本申请另一方面提供了另一种计算机设备示意图，如图26所示，图26是本申请实施例提供的一种计算机设备结构示意图，该计算机设备300可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(central processing units，CPU)310(例如，一个或一个以上处理器)和存储器320，一个或一个以上存储应用程序331或数据332的存储介质330(例如一个或一个以上海量存储设备)。其中，存储器320和存储介质330可以是短暂存储或持久存储。存储在存储介质330的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对计算机设备300中的一系列指令操作。更进一步地，中央处理器310可以设置为与存储介质330通信，在计算机设备300上执行存储介质330中的一系列指令操作。

计算机设备300还可以包括一个或一个以上电源340，一个或一个以上有线或无线网络接口350，一个或一个以上输入输出接口360，和/或，一个或一个以上操作系统333，例如Windows Server^TM，Mac OS X^TM，Unix^TM,Linux^TM，FreeBSD^TM等等。

上述计算机设备300还用于执行如图2至图15对应的实施例中的步骤。

本申请的另一方面提供了一种计算机可读存储介质，其上存储有计算机程序，当计算机程序被处理器执行时实现如图2至图15所示实施例描述的方法中的步骤。

本申请的另一方面提供了一种包含计算机程序的计算机程序产品，当计算机程序被处理器执行时实现如图2至图15所示实施例描述的方法中的步骤。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

Claims

1.一种语音识别文本的处理方法，其特征在于，包括：

获取与原始语音相对应的语音识别文本；

对所述原始语音进行向量转换，得到音频编码向量；

对所述语音识别文本中的每个文本单元进行向量转换，得到所述每个文本单元对应的文本编码向量；

对所述音频编码向量以及第i个所述文本编码向量采用注意力机制，得到交互后的第i个所述文本单元的融合向量，其中，所述i为大于或等于1的整数；

将第i个所述文本单元的融合向量与第i-1个目标文本单元对应的文本向量输入至文本纠错网络，通过所述文本纠错网络输出第i个所述文本单元的融合向量对应的文本概率分布；

基于第i个所述文本单元的融合向量对应的文本概率分布，确定第i个目标文本单元。

2.根据权利要求1所述的方法，其特征在于，所述对所述音频编码向量分别与第i个所述文本编码向量采用注意力机制，得到交互后的第i个所述文本单元的融合向量之后，方法还包括：

将第i个所述文本单元的融合向量输入至文本识别网络，通过所述文本识别网络输出第i个所述文本单元的融合向量对应的错误概率值；

当第i个所述文本单元的融合向量对应的错误概率值为0时，确定第i个错误文本单元；

当第i个所述文本单元的融合向量对应的错误概率值为1时，确定第i个正确文本单元。

3.根据权利要求1所述的方法，其特征在于，所述对所述音频编码向量分别与第i个所述文本编码向量采用注意力机制，得到交互后的第i个所述文本单元的融合向量，包括：

将所述每个文本单元对应的文本编码向量与所述音频编码向量的采用注意力机制，得到所述每个文本编码向量对应的音频向量；

对第i个所述文本编码向量对应的音频向量与第i个所述文本单元对应的文本编码向量进行求和，得到第i个所述文本单元的融合向量。

4.根据权利要求1所述的方法，其特征在于，所述对所述原始语音进行向量转换，得到音频编码向量，包括：

将所述原始语音转换为单帧语音信号；

将每个所述单帧语音信号进行向量转换，得到每个所述单帧语音信号对应所述音频编码向量。

5.根据权利要求1所述的方法，其特征在于，所述文本纠错网络的训练包括以下步骤：

获取与样本语音相对应的样本语音识别文本，以及所述样本语音识别文本对应的文本单元标签；

对所述样本语音进行向量转换，得到样本语音编码向量；

对所述样本语音识别文本中的每个文本单元进行向量转换，得到所述每个文本单元对应的样本编码向量；

对所述样本语音编码向量以及第i个所述样本编码向量采用注意力机制，得到交互后的第i个所述文本单元的样本融合向量；

将第i个所述文本单元的样本融合向量与第i-1个预测文本单元对应的文本向量输入至基础文本纠错网络，通过所述基础文本纠错网络输出第i个所述文本单元的样本融合向量对应的文本概率分布；

基于所述文本单元标签以及第i个所述文本单元的样本融合向量对应的文本概率分布，计算纠错损失值；

基于所述纠错损失值对所述基础文本纠错网络进行参数调整，得到所述文本纠错网络。

6.根据权利要求5所述的方法，其特征在于，所述对所述样本语音编码向量以及第i个所述样本编码向量采用注意力机制，得到交互后的第i个所述文本单元的样本融合向量之后，所述方法还包括：

获取所述样本语音识别文本对应的错误检测标签；

将每个所述文本单元的样本融合向量输入至基础文本识别网络，通过所述基础文本识别网络输出每个所述文本单元的样本融合向量对应的错误概率值；

基于所述错误检测标签以及每个所述文本单元的样本融合向量对应的错误概率值，计算错误检测损失值；

所述基于所述纠错损失值对所述基础文本纠错网络进行参数调整，得到所述文本纠错网络，包括：

基于所述错误检测损失值以及所述纠错损失值，对所述基础文本识别网络以及所述基础文本纠错网络进行参数调整，得到所述文本纠错网络以及文本识别网络。

7.根据权利要求6所述的方法，其特征在于，所述基于所述错误检测损失值以及所述纠错损失值，对所述基础文本识别网络以及所述基础文本纠错网络进行参数调整，得到所述文本识别网络以及所述文本纠错网络，包括：

基于损失权重，对所述错误检测损失值以及所述纠错损失值进行加权求和，得到总损失值；

基于所述总损失值，对所述基础文本识别网络以及所述基础文本纠错网络进行参数调整，得到所述文本识别网络以及所述文本纠错网络。

8.根据权利要求5所述的方法，其特征在于，所述对所述样本语音编码向量以及第i个所述样本编码向量采用注意力机制，得到交互后的第i个所述文本单元的样本融合向量，包括：

将所述每个文本单元对应的样本编码向量与所述样本语音编码向量的采用注意力机制，得到所述每个样本语音编码向量对应的样本语音向量；

对第i个所述样本语音编码向量对应的样本语音向量与第i个所述文本单元对应的样本编码向量进行求和，得到第i个所述文本单元的样本融合向量。

9.根据权利要求5所述的方法，其特征在于，所述对所述样本语音进行向量转换，得到样本语音编码向量，包括：

将所述样本语音转换为单帧样本语音信号；

将每个所述单帧样本语音信号进行向量转换，得到每个所述单帧样本语音信号对应所述样本语音编码向量。

10.根据权利要求1所述的方法，其特征在于，所述获取与原始语音相对应的语音识别文本，包括：

将所述原始语音输入至自动语音识别模型，通过所述自动语音识别模型中的预训练声学网络获取所述原始语音对应的语音编码向量；

将所述语音编码向量与第i-1个识别文本单元对应的文本向量通过至所述自动语音识别模型中的文本解码器，得到第i个所述文本单元对应的识别文本概率分布；

基于第i个所述文本单元对应的识别文本概率分布，确定第i个识别文本单元，以得到所述语音识别文本。

11.根据权利要求10所述的方法，其特征在于，所述将所述原始语音输入至自动语音识别模型，通过所述自动语音识别模型中的预训练声学网络获取所述原始语音对应的语音编码向量，包括：

将所述原始语音转换为所述单帧语音信号；

将每个所述单帧语音信号输入至所述自动语音识别模型，通过所述自动语音识别模型中的预训练声学网络获取每个所述单帧语音信号对应的单帧语音向量；

基于每个所述单帧语音信号对应的音频权重，对每个所述单帧语音信号对应的单帧语音向量进行加权求和，得到所述语音编码向量。

12.根据权利要求10所述的方法，其特征在于，所述自动语音识别模型的训练包括以下步骤：

将样本语音输入至基础自动语音识别模型，通过所述基础自动语音识别模型中的预训练声学网络获取所述样本语音对应的样本语音向量；

将所述样本语音向量与第i-1个样本识别文本单元对应的文本向量通过至所述基础自动语音识别模型中的文本解码器，得到第i个所述文本单元对应的样本识别文本概率分布；

基于第i个所述文本单元对应的样本识别文本概率分布以及所述样本语音对应的文本单元标签，计算识别损失值；

基于所述识别损失值对所述基础自动语音识别模型进行参数调整，得到所述自动语音识别模型。

13.根据权利要求12所述的方法，其特征在于，所述将样本语音输入至基础自动语音识别模型，通过所述基础自动语音识别模型中的预训练声学网络获取所述样本语音对应的样本语音向量，包括：

将所述样本语音转换为所述单帧样本语音信号；

将每个所述单帧样本语音信号输入至所述基础自动语音识别模型，通过所述基础自动语音识别模型中的预训练声学网络获取每个所述单帧样本语音信号对应的单帧样本语音向量；

基于每个所述单帧样本语音信号对应的音频权重，对每个所述单帧样本语音信号对应的单帧样本语音向量进行加权求和，得到所述样本语音向量。

14.根据权利要求1所述的方法，其特征在于，所述获取与原始语音相对应的语音识别文本之前，所述方法还包括：

接收语音识别优化指令；

所述获取与原始语音相对应的语音识别文本，包括：

根据所述语音识别优化指令，从数据库中读取所述语音识别文本。

15.一种语音识别文本的处理装置，其特征在于，包括：

获取单元，用于获取与原始语音相对应的语音识别文本；

处理单元，用于对所述原始语音进行向量转换，得到音频编码向量；

所述处理单元，还用于对所述语音识别文本中的每个文本单元进行向量转换，得到所述每个文本单元对应的文本编码向量；

所述处理单元，还用于对所述音频编码向量以及第i个所述文本编码向量采用注意力机制，得到交互后的第i个所述文本单元的融合向量，其中，所述i为大于或等于1的整数；

所述处理单元，还用于将第i个所述文本单元的融合向量与第i-1个目标文本单元对应的文本向量输入至文本纠错网络，通过所述文本纠错网络输出第i个所述文本单元的融合向量对应的文本概率分布；

确定单元，用于基于第i个所述文本单元的融合向量对应的文本概率分布，确定第i个目标文本单元。

16.一种计算机设备，包括存储器、处理器以及总线系统，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至14中任一项所述的方法的步骤；

所述总线系统用于连接所述存储器以及所述处理器，以使所述存储器以及所述处理器进行通信。

17.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至14中任一项所述的方法的步骤。

18.一种计算机程序产品，包括计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至14中任一项所述的方法的步骤。