CN112259100A

CN112259100A - 语音识别方法及相关模型的训练方法和相关设备、装置

Info

Publication number: CN112259100A
Application number: CN202010968260.3A
Authority: CN
Inventors: 吴啟超; 胡加学; 杜倩云; 宋时德
Original assignee: Iflytek South China Artificial Intelligence Research Institute Guangzhou Co ltd
Current assignee: Iflytek South China Artificial Intelligence Research Institute Guangzhou Co ltd
Priority date: 2020-09-15
Filing date: 2020-09-15
Publication date: 2021-01-22
Anticipated expiration: 2040-09-15
Also published as: CN112259100B

Abstract

本申请公开了一种语音识别方法及相关模型的训练方法和相关设备、装置，其中，语音识别方法包括：对原始音频、候选文本进行编码，对应得到原始音频表示、候选文本表示；其中，候选文本是对原始音频进行初始识别而得到的；利用原始音频表示对候选文本表示进行调整，得到与候选文本表示对应的重构文本表示；对重构文本表示进行若干次预测，并将每次预测得到的预测文字的组合，作为原始音频的最终识别文本。上述方案，能够提高语音识别准确性。

Description

语音识别方法及相关模型的训练方法和相关设备、装置

技术领域

本申请涉及语音识别领域，特别是涉及一种语音识别方法及相关模型的训练方法和相关设备、装置。

背景技术

近年来，随着信息技术的飞速发展，语音识别已经广泛应用于日常生活、工作的方方面面。例如，在外呼领域，可以通过机器人呼出提示音，从而和用户进行语音交互，并对用户回答提示音的原始音频进行识别，得到对应的识别文本，从而可以利用自然语言理解技术分析识别文本，以理解用户回答内容，进而进行下一步的交互。故此，如何提高语音识别准确性具有极其重要的研究意义。

发明内容

本申请主要解决的技术问题是提供一种语音识别方法及相关模型的训练方法和相关设备、装置，能够提高语音识别准确性。

为了解决上述问题，本申请第一方面提供了一种语音识别方法，包括：对原始音频、候选文本进行编码，对应得到原始音频表示、候选文本表示；其中，候选文本是对原始音频进行初始识别而得到的；利用原始音频表示对候选文本表示进行调整，得到与候选文本表示对应的重构文本表示；对重构文本表示进行若干次预测，并将每次预测得到的预测文字的组合，作为原始音频的最终识别文本。

为了解决上述问题，本申请第二方面提供了一种语音识别模型的训练方法，包括：利用语音识别模型的编码子网络对样本音频、样本候选文本进行编码，对应得到样本音频表示、样本候选文本表示；其中，样本候选文本是对样本音频进行初始识别而得到的；基于语音识别模型的调整处理子网络，利用样本音频表示对样本候选文本表示进行调整，得到与样本候选文本表示对应的样本重构文本表示；基于语音识别模型的预测子网络，对样本重构文本表示进行若干次预测，得到样本预测文字；基于若干次预测得到的样本预测文字对应的样本预测概率，调整语音识别模型的网络参数。

为了解决上述问题，本申请第三方面提供了一种电子设备，包括相互耦接的存储器和处理器，存储器中存储有程序指令，处理器用于执行程序指令以实现上述第一方面中的语音识别方法，或实现上述第二方面中的语音识别模型的训练方法。

为了解决上述问题，本申请第四方面提供了一种存储装置，存储有能够被处理器运行的程序指令，程序指令用于实现上述第一方面中的语音识别方法，或实现上述第二方面中的语音识别模型的训练方法。

上述方案，通过对原始音频和对原始音频进行初始识别得到的候选文本进行编码，对应得到原始音频表示、候选文本表示，并利用原始音频表示对候选文本表示进行调整，得到与候选文本表示对应的重构文本表示，从而能够有利于基于原始音频表示弥补音频侧信息，有利于提高重构文本表示的准确性，从而再对重构文本表示进行若干次预测，并将每次预测得到的预测文字的组合，作为原始音频的最终识别文本，能够有利于提高语音识别准确性。

附图说明

图1是本申请语音识别方法一实施例的流程示意图；

图2是本申请语音识别方法另一实施例的流程示意图；

图3是图2中步骤S25一实施例的流程示意图；

图4是图3中步骤S32一实施例的流程示意图；

图5是本申请语音识别模型的训练方法一实施例的流程示意图；

图6是本申请电子设备一实施例的框架示意图；

图7是本申请电子设备另一实施例的框架示意图；

图8是本申请存储装置一实施例的框架示意图。

具体实施方式

下面结合说明书附图，对本申请实施例的方案进行详细说明。

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、接口、技术之类的具体细节，以便透彻理解本申请。

本文中术语“系统”和“网络”在本文中常被可互换使用。本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。此外，本文中的“多”表示两个或者多于两个。

请参阅图1，图1是本申请语音识别方法一实施例的流程示意图。具体而言，可以包括如下步骤：

步骤S11：对原始音频、候选文本进行编码，对应得到原始音频表示、候选文本表示。

本公开实施例中，候选文本是对原始音频进行初始识别而得到的。

在一个实施场景中，原始音频具体可以是用户发出的语音信号，也可以是机器合成后通过扬声器输出的语音信号，还可以是手机、电视机等电子设备播放视频/音频时扬声器输出的语音信号，具体可以根据实际应用需要进行设置，在此不做限定。

在一个实施场景中，可以通过ASR(Automatic Speech Recognition，自动语音识别技术)识别原始音频，得到候选文本。例如，在外呼领域中，可以采用外呼系统集成的ASR模块对原始音频进行识别，得到候选文本。其他场景可以根据实际情况进行设置，在此不再一一举例。

在一个实施场景中，对原始音频进行初始识别得到的候选文本可以有一个，也可以有多个，例如，两个、三个、四个等等，在此不做限定。具体地，可以选择对原始音频的识别得分在前预设数量位的候选文本。

在一个具体的实施场景中，预设数量可以根据实际应用需要进行设置，例如，当只需一个候选文本时，可以将预设数量设置为1；或者，当需要多个候选文本时，可以根据实际需要将预设数量设置为2、3、4等等，在此不做限定。具体地，为了引入更多的候选识别信息，提高识别召回率，候选文本可以为多个，例如，可以选取识别得到在前5位的候选文本。

在另一个具体的实施场景中，识别得分具体可以包括声学得分和语言模型得分，声学得分为从声纹角度进行评价的得分，语言模型得分表示从语义理解角度的得分。具体地，可以将声学得分和语言模型得分之和，作为识别得分。

在一个实施场景中，可以采用第一编码模型对原始音频进行编码，得到原始音频表示。具体地，可以采用预设长度的窗函数，以预设滑动步长将时域的原始音频划分为多个音频帧。预设长度和预设滑动步长可以根据实际应用需要进行设置，例如，可以将预设长度设置为20ms，将预设滑动步长设置为10ms，或者，也可以将预设长度设置为30ms，将预设滑动步长设置为20ms，在此不做限定。在得到多个音频帧之后，提取每个音频帧的预设特征。预设特征具体可以为MFCC(Mel-Frequency Cepstral Coefficients，梅尔频率倒谱系数)。为了便于描述，多个音频帧的数量可以表示为l_音，可以将与原始音频表示的多个音频帧分别对应的预设特征以序列表示为

其中，

表示第k个音频帧的预设特征(如MFCC特征)。第一编码模型可以包括但不限于：Bi-LSTM(Bi-directional LongShort-Term Memory，双向长短期记忆网络)、BERT(Bidirectional EncoderRepresentation from Transformers，双向Transformer的Encoder)，具体在此不做限定。以第一编码模型是Bi-LSTM为例，利用Bi-LSTM对上述预设特征分别从前往后、从后往前进行编码，得到原始音频表示，具体表示如下：

上述公式(1)中

表示Bi-LSTM从前往后隐藏状态向量，公式(2)中

表示Bi-LSTM从后往前隐藏状态向量，公式(3)中

表示Bi-LSTM从前往后和从后往前两个方向隐藏状态向量的拼接，作为Bi-LSTM对上述预设特征的编码输出，也即为原始音频表示。为了便于描述，可以将原始音频表示记为

其中，

表示与第k帧音频帧对应的表示。

在一个实施场景中，可以采用第二编码模型对候选文本进行编码，得到候选文本表示。具体地，为了便于描述，可以记候选文本表示为

其中，m表示第m个候选文本，例如，当候选文本为1个时，m即为1，当候选文本为多个时，m表示多个候选文本中的第m个，

表示第m个候选文本中第k个单词，l_候表示候选文本的最大长度。第二编码模型具体可以包括但不限于：Bi-LSTM、BERT，在此不做限定。以BERT为例，对于每一次单词

进行编码后的表示

可以记为：

上述公式(4)中，WE表示字嵌入(embedding)函数，PE表示位置嵌入(embedding)函数，将候选文本中所有单词的编码表示进行拼接，即可得到候选文本的嵌入表示：

上述公式(5)中，l_候表示候选文本的最大长度，将候选文本的嵌入表示输入到BERT的各个堆叠块，且每个堆叠块包括一个自注意力层和前馈网络连接层，则第l个堆叠块的输出为：

上述公式(6)中，FNN表示前向神经网络，MultiHead表示多头自注意力函数，上述公式(6)表示以最后一个堆叠块的输出

作为BERT对候选文本的编码输出。为了便于描述，将候选文本表示记为

其中，

表示第m个候选文本中第j个字的表示。

步骤S12：利用原始音频表示对候选文本表示进行调整，得到与候选文本表示对应的重构文本表示。

在一个实施场景中，可以利用原始音频表示对候选文本表示进行校正，得到与候选文本表示对应的校正文本表示，从而将候选文本表示和校正文本表示进行融合，得到重构文本表示。通过上述方式，可以利用原始音频表示增加文本和音频间的多模态关联信息，从而可以利用原始音频表示中所包含的音频侧信息弥补候选文本表示对于近音词的识别缺陷，例如，在利用ASR初始识别原始音频得到候选文本的过程中，丢失了音频侧信息，从而可能会导致近音词转写错误，如将“红包”识别为“吼爆”将“好礼”识别为“好你”等，而单纯从文本侧极难找到共性规律进行解决此类转写错误。故此，引入原始音频表示，并利用原始音频表示增加文本与音频间的多模态关联信息，从而能够提高校正文本表示在音频侧的表示准确性，并将候选文本表示和校正文本表示进行融合，能够进一步提高重构文本表示的准确性，有利于提高后续语音识别的准确性。

在一个具体的实施场景中，可以基于交叉注意力机制，确定原始音频表示和候选文本表示之间的第一注意力权重，并利用第一注意力权重对原始音频表示进行加权处理，得到校正文本表示。为了便于描述，可以将第m个候选文本的第j个字和第k帧音频帧之间的第一注意力权重记为

则可以利用第m个候选表示文本中第j个元素和原始音频表示中第k个元素进行计算，具体如下：

上述公式(7)中的tanh表示双曲正切非线性激活函数，

为归一化之前的第一注意力权重，

U_音、W_音均为可训练的参数，具体训练过程，在此暂不赘述。如无特殊说明，

U_音、W_音在训练过程中，均需进行参数更新。

在得到第一注意力权重之后，可以利用第一注意力权重将原始音频表示进行加权处理，得到校正文本表示，该校正文本表示可以认为是经过音频侧校正的候选文本表示。为了便于描述，将第m个候选文本表示经过音频侧校正之后的校正文本表示记为中的第j个元素，记为

此外，在利用原始音频表示对候选文本表示进行校正时，还可以获取原始音频的预设特征(如在获取原始音频表示过程中的MFCC)和候选文本的音素标注(如，“我”的音素标注为“wo3”，“你”的音素标注为“ni3”)，从而可以基于原始音频的预设特征和候选文本的音素标注，确定候选文本中的标注异常文字，具体地，可以将上述原始音频的预设特征和候选文本的音素标注输入到语音标注验证模型，从而获取候选文本中的标注异常文字。语言标注验证模型可以是机器学习模型中的一种或多种的组合，例如，可以是基于GMM-HMM(Gaussian Mixture ModelNetworkHidden Markov Model，混合高斯模型-隐形马尔科夫模型)的声学模型，或是基于DNN-HMM(DeepNeuralNetworkHidden Markov Model，深度神经网络-隐形马尔可夫模型)的声学模型，在此不做限定。语言标注验证模型可以将输入的原始音频的声学特征和候选文本的音素标注进行强制对齐，从而确定选文本中的标注异常文字。例如，原始音频的发音是“wo3 gei3 ni3 fa1 le1 yi1 ge4 hong2 bao1”(我给你发了一个红包)，候选文本的音素标注是“wo3 gei3 ni3 fa1 le1 yi1 ge4 hou3 bao4”(我给你发了一个吼爆)，则可以确定最末2个字为异常标注文字。在确定候选文本中的异常标注文字之后，可以对原始音频中与异常标注文字对应的音频帧进行重新识别，得到至少一个候选文字，并将至少一个候选文字分别替换候选文本中标注异常文字，得到候选校正文本，从而将至少一个候选校正文本分别输入到语义理解模型，得到语义得分，得分越高，表示候选校正文本的语义越通畅，并将语义得分最高的候选校正文本作为与候选文本最终的校正文本，进而将最终的校正文本进行编码，可以得到校正文本表示。例如，将异常标注文字“吼爆”对应的音频帧进行重新识别，可以得到至少一个候选文字“红包”、“厚薄”、“红暴”，并将上述候选文字分别替换候选文本中标注异常文字，得到候选校正文本“我给你发了一个红包”、“我给你发了一个厚薄”、“我给你发了一个红暴”，对上述候选校正文本进行语义理解，确定语义得分最高的为“我给你发了一个红包”，则将其作为最终的校正文本，并对其进行编码，可以得到校正文本表示。

在另一个具体的实施场景中，可以分别确定候选文本表示和校正文本表示中对应元素之间的第一融合门限值，从而利用第一融合门限值，得到候选文本表示中每一元素的第一权值，以及校正文本表示中对应元素的第二权值，进而利用第一权值和第二权值，分别对候选文本表示中各个元素和校正文本表示对应元素进行加权处理，得到重构文本表示。为了便于描述，可以将与第m个候选文本表示对应的重构文本表示中第j个元素表示为

对应元素的第一融合门限值为

上述公式(10)中，σ表示sigmoid激活函数，W_g,U_g分别为可训练的参数，具体训练过程，在此暂不赘述。如无特殊说明，W_g,U_g在训练过程中，均需进行参数更新。

具体地，可以将第一融合门限值设置为第一权值，1与第一融合门限值的差值设置为第二权值，则

可以表示为：

上述公式(11)中，⊙具体表示按位点乘。

在一个实施场景中，也可以利用原始音频表示对候选文本表示进行校正，得到与候选文本表示对应的校正文本表示，从而将校正文本表示作为重构文本表示。利用原始音频表示对候选文本表示进行校正的具体过程可以参阅前述描述，在此不再赘述。通过上述设置，可以将第m个候选文本表示经过音频侧校正之后的校正文本表示记为中的第j个元素

作为与第m个候选文本表示对应的重构文本表示中的第j个元素，也可以利用原始音频表示增加文本和音频间的多模态关联信息，从而可以利用原始音频表示中所包含的音频侧信息弥补候选文本表示对于近音词的识别缺陷，并利用原始音频表示增加文本与音频间的多模态关联信息，从而能够提高重构文本表示在音频侧的表示准确性。

步骤S13：对重构文本表示进行若干次预测，并将每次预测得到的预测文字的组合，作为原始音频的最终识别文本。

在一个实施场景中，可以对重构文本表示进行若干次解码，直至满足预设结束条件为止，得到每次解码的解码状态，并分别对每次解码的解码状态和重构文本表示进行预测，将每次预测得到的预测文字的组合，作为最终识别文本。

在一个具体的实施场景中，具体可以采样长短期记忆网络对重构文本表示进行若干次解码，并将长短期记忆网络的隐藏层状态作为解码状态。例如，当候选文本只有一个时，对应的重构文本表示也只有一个，为了便于描述，可以记为H_J，首次预测时，可以对重构文本表示进行非线性变换，作为长短期记忆网络LSTM的初始状态，为了便于描述，初始状态可以记为s₀：

s₀＝ReLu(W_sH_J+b_s)……(12)

上述公式(12)中，ReLu为线性整流函数激活函数，W_s和b_s分别为可训练的参数，具体训练过程，在此暂不赘述。如无特殊说明，W_s和b_s在训练过程中，均需进行参数更新。

或者，当候选文本有多个时，对应的重构文本表示也有多个，为了便于描述，将第m个候选文本所对应的重构文本表示记为

则可以对多个重构文本表示进行最大池化，得到多个重构文本表示的整体表示，为了便于描述，也记为H_J：

在得到多个重构文本表示的整体表示H_J之后，可以利用上述公式(12)，得到初始状态s₀。

在得到初始状态s₀之后，可以继续初始化长短期记忆网络所需的预测输出的初始值、上下文向量的初始值，为了便于描述，预测输出可以记为y_t，表示t时刻预测得到的预测文字，上下文向量可以记为c_t，表示t时刻的上下文向量，以此类推，预测输出的初始值可以记为y_o，具体可以根据实际应用需要进行设置，例如，可以设置为一个固定值(如“start”)，上下文向量的初始值可以记为c₀，具体可以根据实际应用需要进行设置，例如，可以设置为一个固定值(如0)。具体地，采样长短期记忆网络进行若干次预测可以表示为：

s_t＝LSTM(s_t-1,y_t-1,c_t-1)……(17)

在另一个具体的实施场景中，可以利用解码状态和重构文本表示，得到预设词表中各个文字的预测概率及上下文向量。具体地，可以基于指针生成网络(PointerGenerator Network，PGN)，利用解码状态和重构文本表示，得到预设词表中各个文字的预测概率及上下文向量c_t。从而可以根据当前预测时解码状态s_t和预测输出y_t，利用上述公式(17)，得到下一时刻的解码状态s_t+1，并重复上述预测步骤，直至满足预设结束条件为止。具体地，预设结束条件可以包括：当前预测得到的预测文字为预设结束符(如，‘end’，‘/’等)。

在另一个实施场景中，为了进一步提高预测准确性，原始音频可以是用户响应于提示文本而发出的，从而可以对提示文本进行编码，得到提示文本表示，具体可以参阅前述关于候选文本的编码方式，在此不再赘述。在得到提示文本表示之后，可以利用提示文本表示对重构文本表示进行重组，得到与重构文本表示对应的重组文本表示，从而对重组文本表示进行若干次解码，直至满足预设结束条件为止，得到每次解码的解码状态，进而分别对每次解码的解码状态和重构文本表示、提示文本表示进行预测，并将每次预测得到的预测文字的组合，作为最终识别文本。具体的解码方式可以参阅前述描述，在此不再赘述。通过上述方式，可以引入用户提示文本表示来增加用户回答的原始音频和提示文本的上下文语境信息，从而能够有利于提高重组文本表示的准确性，进而能够有利于提高语音识别的准确性。

请参阅图2，图2是本申请语音识别方法另一实施例的流程示意图。具体而言，可以包括如下步骤：

步骤S21：对原始音频、候选文本进行编码，对应得到原始音频表示、候选文本表示，并对提示文本进行编码，得到提示文本表示。

本公开实施例中，候选文本是对原始音频进行初始识别而得到的。具体可以参阅前述公开实施例中的相关步骤，在此不再赘述。

本公开实施例中，原始音频是用户响应于提示文本而发出的。例如，用户可以响应于显示于屏幕上的提示文本而发出原始音频；或者，也可以基于提示文本而发出相应的提示音，从而用户响应于提示音而发出原始音频，上述方式均可实现用户与机器之间的交互，具体可以根据实际应用需要进行设置，在此不做限定。

在一个实施场景中，具体可以利用第三编码模型对提示文本进行编码，得到提示文本表示。为了便于描述，可以将提示文本记为

第三编码模型具体可以包括但不限于：Bi-LSTM、BERT，在此不做限定。以BERT为例，对于提示文本中的每个单词

进行编码后的表示

可以记为：

上述公式(18)中，WE表示字嵌入(embedding)函数，PE表示位置嵌入(embedding)函数，将提示文本中所有单词的编码表示进行拼接，得到提示文本的嵌入表示：

上述公式(19)中，l_提表示提示文本的最大长度，将提示文本的嵌入表示输入到BERT的各个堆叠块，且每个堆叠块包含一个自注意力层和前馈网络连接层，第l个堆叠块的输出为：

上述公式(20)中，FNN表示前向神经网络，MultiHead表示多头自注意力函数，上述公式(20)表示以最后一个堆叠块的输出

作为BERT对候选文本的编码输出。为了便于描述，将提示文本表示记为

其中，

表示提示文本中第i个字的表示。

步骤S22：利用原始音频表示对候选文本表示进行调整，得到与候选文本表示对应的重构文本表示。

在一个实施场景中，当候选文本有多个时，每个候选文本对应有一候选文本表示，如前述公开实施例中所述，可以将第m个候选文本对应的候选文本表示表示为

则利用原始音频表示分别对各个候选文本表示进行调整，可以得到与每个候选文本表示对应的重构文本表示，如前述公开实施例中所述，将与第m个候选文本表示对应的重构文本表示中第j个元素表示为

具体可以参阅前述公开实施例中的相关描述，在此不再赘述。

步骤S23：利用提示文本表示对重构文本表示进行重组，得到与重构文本表示对应的重组文本表示。

在一个实施场景中，由于提示文本与候选文本构成了问题-回答对关系，其包含了上下文语境信息，故可以基于交叉注意力机制，确定提示文本表示和重构文本表示之间的第二注意力权重，并利用第二注意力权重对提示文本表示进行加权处理，得到重组文本表示，从而使得重组文本表示能够同时融合音频侧信息、候选文本信息和上下文语境信息等多模态信息，进而能够有利于提高后续预测的准确性。为了便于描述，可以将第m个候选文本表示的第j个元素对提示文本表示第i个元素的第二注意力权重记为

具体如下：

上述公式(21)中的tanh表示双曲正切非线性激活函数，

表示归一化之前的第二注意力权重，V_c,U_c,W_c均为可训练的参数，具体的训练过程，在此暂不赘述。如无特殊说明，V_c,U_c,W_c在训练过程中，均需进行参数更新。

在得到第二注意力权重之后，可以利用第二注意力权重对提示文本表示进行加权处理，得到重组文本表示。为了便于描述，将第m个重组文本表示中的第j个元素，记为

在另一个实施场景中，还可以将提示文本表示和候选文本表示输入预先训练的神经网络进行处理，从而得到对应的重组文本表示。具体地，该神经网络可以实现上述公式(21)至公式(23)中的处理方式，具体在此不再赘述。

步骤S24：对重组文本表示进行若干次解码，直至满足预设结束条件为止，得到每次解码的解码状态。

具体地，可以采用长短期记忆网络对重组文本表示进行若干次解码，并将长短期记忆网络的隐藏层状态作为解码状态，具体可以参阅前述公开实施例中的相关描述，在此不再赘述。

预设结束条件可以设置为当前预测得到的预测文字为预设结束字符，例如，“end”、“/”等等，具体可以根据实际应用需要进行设置，在此不做限定。

步骤S25：分别对每次解码的解码状态和重构文本表示、提示文本表示进行预测，并将每次预测得到的预测文字的组合，作为最终识别文本。

请结合参阅图3，图3是图2中步骤S25一实施例的流程示意图。具体可以包括如下步骤：

步骤S31：利用解码状态和重构文本表示对提示文本表示进行重组，得到与提示文本对应的第一预测概率和第一上下文向量。

在一个实施场景中，当候选文本表示仅有一个时，可以直接将候选文本表示按位置进行最大池化，得到候选文本整体表示，以利用候选文本整体表示与解码状态s_t进行后续处理。

在另一个实施场景中，当候选文本表示有多个时，为了便于描述，可以将第m个重构文本表示记为

并将第m个重构文本表示按位置进行最大池化，可以得到第m个重构文本表示的整体表示

然后可以基于自注意力机制，计算上述整体表示

之间的注意力权重。具体地，第m₁个重构文本表示的整体表示对第m₂个重构文本表示的整体表示的注意力权重

可以表示为：

上述公式(25)中

为归一化前的注意力权重，V_I、U_I、W_I均为可训练的参数，具体训练过程，在此暂不赘述。如无特殊说明，V_I、U_I、W_I在训练过程中，均需进行更新。上述公式(26)中N为候选文本的数量。

在得到注意力权重

之后，可以利用注意力权重将候选文本表示的整体表示进行加权求和，得到更新后的候选文本表示的整体表示，为了便于描述，可以记为

然后对更新后的候选文本表示的整体表示

进行非线性变换，得到更新后的候选文本整体表示

上述公式(28)中v_M和b_M均为可训练的参数，具体训练过程，在此暂不赘述。如无特殊说明，v_M和b_M在训练过程中，均需进行参数更新。

在得到更新后的候选文本整体表示

之后，可以将更新后的候选文本整体表示

和当前t时刻长短期记忆网络LSTM的解码状态s_t进行拼接，然后进行线性变换，得到融入候选文本信息的t时刻LSTM的解码状态

上述公式(29)中U_候和b_候均为可训练的参数，具体训练过程，在此暂不赘述。如无特殊说明，U_候和b_候在训练过程中，均需进行参数更新。

在得到融入候选文本信息的t时刻LSTM的解码状态

之后，可以基于交叉注意力机制，得到融入候选文本信息的t时刻LSTM的解码状态

和提示文本表示之间的注意力权重，具体如下：

上述公式(31)中θ_t,i表示融入候选文本信息的t时刻LSTM的解码状态

对提示文本中第i个元素的注意力权重，公式(30)中ε_t,i表示归一化之前的注意力权重，v_ε、U_ε、W_ε均为可训练的参数，具体训练过程，在此暂不赘述。如无特殊说明，v_ε、U_ε、W_ε在训练过程中，均需进行参数更新。

在得到注意力权重之后，可以利用注意力权重对提示文本表示进行重组，得到t时刻与提示文本对应的第一上下文向量，为了便于描述，可以将t时刻与提示文本对应的第一上下文向量记为c_t，具体如下：

在一个实施场景中，第一预测概率具体可以包括第一生成概率和第一复制概率，第一复制概率用于根据其(即第一复制概率具体的概率值，如0.4、0.8等)直接复制预设词表中存在的字，如可以将提示文本纳入预设词表，则可以根据第一复制概率直接复制提示文本中存在的字，能够使语音识别任务更有针对性且更容易学习，而第一生成概率用于根据其(即第一生成概率具体的概率值，如0.3、0.7等)从预设词表中生成字，而不是直接复制，如可以将语音识别任务(如外呼领域)的相关词汇纳入预设词表，则可以根据第一生成概率从相关词汇生成字，能够降低语音识别结果遗漏的概率，两者相辅相成，互为补充，能够提高语音识别准确性。为了便于描述，可以将与提示文本对应的第一预测概率中第一复制概率记为

第一生成概率记为

具体如下：

上述公式(33)中w表示预设词表中的字，

表示提示文本第i个字；上述公式(34)中

均为可训练的参数，具体训练过程，在此暂不赘述。如无特殊说明，

在训练过程中，均需进行参数更新。

步骤S32：利用解码状态和提示文本表示对重构文本表示进行重组，得到与候选文本对应的第二预测概率和第二上下文向量。

具体地，可以将提示文本表示

按位置进行最大池化，得到提示文本表示的整体表示

在得到提示文本表示的整体表示

之后，可以将提示文本表示的整体表示

和当前t时刻长短时记忆网络LSTM的解码状态s_t进行拼接，然后进行线性变换，得到融入提示文本信息的t时刻LSTM的解码状态

上述公式(36)中U_提和b_提均为可训练的参数，具体训练过程，在此暂不赘述。如无特殊说明，U_提和b_提在训练过程中，均需进行参数更新。

在一个实施场景中，当对原始音频进行初始识别而得到的候选文本仅有一个时，对应的候选文本表示也仅有一个，对应的重构文本表示也仅有一个，在得到融入提示文本信息的t时刻LSTM的解码状态

之后，可以基于交叉注意力机制，得到融入提示文本信息的t时刻LSTM的解码状态

和重构文本表示之间的注意力权重，为了便于描述，记为

具体方式可以参阅下述重构文本表示有多个时的情况，在此不再赘述。

在另一个实施场景中，当对原始音频进行初始识别而得到的候选文本有多个时，对应的候选文本表示也有多个，对应的重构文本表示也有多个，在得到融入提示文本信息的t时刻LSTM的解码状态

和各个重构文本表示之间的注意力权重，具体如下：

上述公式(38)中

表示融入提示文本信息的t时刻LSTM的解码状态

对第m个重构文本表示中第j个元素的注意力权重，上述公式(37)中

表示归一化之前的注意力权重，v_b、U_b、W_b均为可训练的参数，具体训练过程，在此暂不赘述。如无特殊说明，v_b、U_b、W_b在训练过程中，均需进行参数更新。

在一个实施场景中，当对原始音频进行初始识别而得到的候选文本仅有一个时，对应的候选文本表示也仅有一个，对应的重构文本表示也仅有一个，在得到注意力权重之后，可以利用注意力权重对重构文本表示进行重组，得到t时刻与重构文本表示对应的第二上下文向量，为了便于描述，记为

具体计算方式可以参阅下述重构文本表示有多个时的情况，在此不再赘述。

在另一个实施场景中，当对原始音频进行初始识别而得到的候选文本有多个时，对应的候选文本表示也有多个，对应的重构文本表示也有多个，在得到注意力权重之后，可以利用注意力权重对各个重构文本表示进行重组，得到t时刻与对应重构文本表示对应的第二上下文向量。具体地，t时刻第m个重构文本表示对应的第二上下文向量

可以表示为：

如前所述，为了提高语音识别的准确性，第二预测概率也可以包括第二复制概率和第二生成概率。与第一复制概率类似地，第二复制概率用于根据其(即第二复制概率具体的概率值，如0.4、0.8等)直接复制预设词表中存在的字，如可以将候选文本纳入预设词表，则可以根据第二复制概率直接复制候选文本中存在的字，能够使语音识别任务更有针对性且更容易学习，而第二生成概率与第一生成概率类似，用于根据其(即第二生成概率具体的概率值，如0.3、0.7等)从预设词表中生成字，而不是直接复制字，如可以将语音识别任务(如外呼领域)的相关词汇纳入预设词表，则可以根据第二生成概率从相关词汇生成字，能够降低语音识别结果遗漏的概率，两者相辅相成，互为补充，能够提高语音识别准确性。

在一个实施场景中，当对原始音频进行初始识别而得到的候选文本仅有一个时，对应的候选文本表示也仅有一个，对应的重构文本表示也仅有一个，则第二复制概率

和第二生成概率

具体可以表示为：

上述公式(33)中w表示预设词表中的字，

表示候选文本第j个字；上述公式(41)中

在训练过程中，均可以进行参数更新。

在另一个实施场景中，当对原始音频进行初始识别而得到的候选文本有多个时，对应的候选文本表示也有多个，对应的重构文本表示也有多个，则第m个候选文本对应的第二复制概率

和第二生成概率

具体可以表示为：

上述公式(42)和(43)中相关参数的含义可以参阅前述描述，在此不再赘述。

由于对应的重构文本表示有多个，故每个候选文本都对应有第二上下文向量

和对应的第二预测概率，故可以对多个第二上下文向量

进行融合，得到多个候选文本对应的第二上下文向量，并对多个第二预测概率进行融合，得到多个候选文本对应的第二预测概率。具体请结合参阅图4，图4是图3中步骤S32一实施例的流程示意图。具体地，图4是候选文本有多个时，得到多个候选文本对应的第二预测概率和第二上下文向量一实施例的流程示意图。具体包括如下步骤：

步骤S41：利用第一上下文向量更新解码状态，得到与解码状态对应的更新状态。

具体地，可以将提示文本对应的第一上下文向量

和t时刻LSTM解码状态s_t进行拼接，然后进行线性变换，得到与解码状态s_t对应的更新状态，为了便于描述，可以记为

上述公式(44)中，U_N和b_N均为可训练的参数，具体的训练过程，在此暂不赘述。如无特殊说明，U_N和b_N在训练过程中，均可以进行参数更新。

步骤S42：基于交叉注意力机制，确定更新状态和与候选文本对应的各个第二上下文向量之间的第三注意力权重。

在得到更新状态

之后，可以基于交叉注意力机制，确定更新状态

与各个候选文本分别对应的第二上下文向量之间的第三注意力权重。具体地，更新状态

与t时刻第m个候选文本对应的第二上下文向量

之间的第三注意力权重

可以表示为：

上述公式(45)中，

表示归一化之前的第三注意力权重，

U_n和W_n均为可训练的参数，上述公式(46)中的N表示候选文本的数量，具体的训练过程，在此暂不赘述。如无特殊说明，

U_n和W_n在训练过程中，均需进行参数更新。

步骤S43：利用第三注意力权重分别对对应的候选文本的第二预测概率进行加权处理，得到多个候选文本的加权预测概率。

如前所述，为了提高语音识别的准确性，第二预测概率也可以包括第二复制概率和第二生成概率，具体含义可以参阅前述相关描述，在此不再赘述。对应地，多个候选文本的加权预测概率可以包括加权复制概率和加权生成概率。复制概率和生成概率的具体含义可以参阅前述相关描述，在此不再赘述。则可以利用第三注意力权重分别对对应的候选文本的第二复制概率进行加权处理，得到多个候选文本的加权复制概率，为了便于描述，可以记为

并利用第三注意力权重分别对对应的候选文本的第二生成概率进行加权处理，得到多个候选文本的加权生成概率，为了便于描述，可以记为

具体可以表示为：

上述公式(47)和(48)中，N均表示候选文本的数量。

此外，还可以利用第三注意力权重分别对对应的候选文本的第二上下文向量进行加权处理，得到多个候选文本的加权上下文向量，为了便于描述，可以记为

具体如下：

上述公式(49)中，N表示候选文本的数量。

此外，t时刻LSTM的上下文向量c_t是根据t时刻提示文本对应的第一上下文向量

和t时刻候选文本对应的第二上下文向量

(在候选文本有多个时，为多个候选文本对应的加权上下文向量

)计算得到的，具体如下：

上述公式(50)中，W_a和b_a均为可训练的参数，具体的训练过程，在此暂不赘述。如无特殊说明，W_a和b_a在训练过程中，均需进行参数更新。

步骤S33：基于第一上下文向量和第二上下文向量，将第一预测概率和第二预测概率融合，得到预设词表中各个文字的预测概率。

本公开实施例中，由于原始音频时对提示文本做出的响应，在某些时候会重复提示文本的部分内容，当候选文本中缺少了真实识别结果的部分内容时，提示文本可以很好地进行补充，故在每次(每个时间步)预测时，不仅可以根据第一预测概率从提示文本中进行复制或生成字，也可以根据第二预测概率从候选文本中进行复制或生成字。故此，可以将第一预测概率和第二预测概率进行融合，得到预设词表中各个文字的预测概率，从而可以提高语音识别的准确性。此外，当候选文本有多个时，第二上下文向量表示前述加权上下文向量，第二预测概率表示前述加权预测概率。

具体地，可以基于第一上下文向量和第二上下文向量(在候选文本有多个时，为多个候选文本对应的加权上下文向量)，得到第一预测概率和第二预测概率(在候选文本有多个时，为多个候选文本对应的加权预测概率)之间的第二融合门限值，为了便于描述，可以记为λ_ω：

上述公式(51)中，W_ω为可训练的参数，具体的训练过程，在此暂不赘述。如无特殊说明，W_ω在训练过程中，可以进行参数更新。

在得到第二融合门限之后，可以利用第二融合门限得到第一预测概率的第三权值，以及第二预测概率(在候选文本有多个时，为多个候选文本对应的加权预测概率)的第四权值。在一个实施场景中，第四权值可以设置为第二融合门限λ_ω，第三权值可以设置为预设数值(如1)与第二融合门限之差(如1-λ_ω)。从而可以利用第三权值和第四权值分别对第一预测概率和第二预测概率(在候选文本有多个时，为多个候选文本对应的加权预测概率)进行加权处理，得到预设词表中各个文字的预测概率。

在一个实施场景中，第一预测概率具体可以包括第一复制概率

和第一生成概率

第二预测概率具体可以包括第二复制概率

和第二生成概率

(在候选文本有多个时，加权预测概率具体可以包括加权复制概率和加权生成概率)，预测概率具体可以包括预测复制概率P_copy和预测生成概率P_gen，则可以利用第三权值和第四权值分别对第一复制概率

和第二复制概率

(在候选文本有多个时，为加权复制概率)进行加权处理，得到预设词表中各个文字的预测复制概率P_copy，并利用第三权值和第四权值分别对第一生成概率

和第二生成概率

(在候选文本有多个时，为加权生成概率)进行加权处理，得到预设词表中各个文字的预测生成概率P_gen。具体可以表示如下：

上述公式(52)和(53)中的1为预设数值，也可以根据实际应用需要替换为其他数值，例如，1.5、2、2.5等等，在此不做限定。

在得到预测复制概率P_copy和预测生成概率P_gen之后，可以利用当前时刻t时刻的上下文向量c_t和解码状态s_t，得到预测复制概率P_copy和预测生成概率P_gen之间的融合门限值λ_o：

λ_o＝σ(W_o[c_t；s_t])……(54)

在得到融合门限值λ_o之后，可以利用该融合门限值λ_o，得到预测复制概率P_copy的第五权值和预测生成概率P_gen的第六权值。在一个实施场景中，可以将预测生成概率P_gen的第六权值设置为融合门限值λ_o，将预设数值(如1)与融合门限值λ_o的差(如1-λ_o)作为预测复制概率P_copy的第五权值。

在此之后，利用第五权值和第六权值分别对预测复制概率P_copy和预测生成概率P_gen进行加权处理，得到预测概率P，具体如下：

P＝λ_o⊙P_gen+(1-λ_o)⊙P_copy……(55)

上述公式(55)中的1为预设数值，也可以根据实际应用需要替换为其他数值，例如，1.5、2、2.5等等，在此不做限定。

步骤S34：利用预设词表中各个文字的预测概率，得到预测文字。

具体地，可以将最大预测概率对应的文字，作为当前时刻t时刻的预测文字，具体可以如下：

上述公式(56)中，o_t表示当前时刻t时刻预设词表中预测概率最大的文字在预设词表中的索引，V表示预设词表词汇量大小，q表示预设词表中文字的索引，P_t(·)表示预测概率。在得到o_t之后，即可在预设词表查找到对应的文字，作为当前时刻t时刻的预测文字。

重复执行若干次上述预测过程，即可得到对应于各个时刻的预测文字，当预测得到的预测文字为预设结束字符时，即可结束预测过程，并将各个时刻预测得到的预测文字的组合，作为最终识别文本。

区别于前述实施例，通过对原始音频和对原始音频进行初始识别得到的候选文本进行编码，对应得到原始音频表示、候选文本表示，并对提示文本进行编码，得到提示文本表示，并利用原始音频表示对候选文本表示进行调整，得到与候选文本表示对应的重构文本表示，从而能够有利于基于原始音频表示弥补音频侧信息，有利于提高重构文本表示的准确性，以及利用提示文本表示对重构文本表示进行重组，得到与重构文本表示对应的重组文本表示，从而能够进一步引入提示信息，增加上下文语境，有利于提高重组文本表示的准确性，从而再对对重组文本表示进行若干次解码，直至满足预设结束条件为止，得到每次解码的解码状态，并分别对每次解码的解码状态和重构文本表示、提示文本表示进行预测，并将每次预测得到的预测文字的组合，作为最终识别文本，能够有利于提高语音识别准确性。

请参阅图5，图5是本申请语音识别模型的训练方法一实施例的流程示意图。具体而言，可以包括如下步骤：

步骤S51：利用语音识别模型的编码子网络对样本音频、样本候选文本进行编码，对应得到样本音频表示、样本候选文本表示。

本公开实施例中，样本候选文本是对样本音频进行初始识别而得到的。具体可以参阅前述公开实施例中的相关描述，在此不再赘述。

在一个实施场景中，样本候选文本可以仅有一个，也可以有多个，具体可以参阅前述公开实施例中的相关描述，在此不再赘述。具体地，为了提高最终识别的召回率，可以引入多候选文本，即对于同一样本音频，样本候选文本可以设置有多个。

在一个实施场景中，对样本音频、样本候选文本进行编码的方式具体可以参阅前述公开实施例中，对原始音频、候选文本进行编码的步骤，在此不再赘述。此外，编码子网络的网络参数具体可以参阅前述公开实施中，对原始音频、候选文本进行编码所涉及的可训练的参数，在此不再赘述。

在一个实施场景中，样本音频具体可以是用户响应于样本提示文本而发出的，具体可以参阅前述公开实施例中关于原始音频与提示文本的相关描述，在此不再赘述。在获取样本音频对应的样本提示文本之后，可以利用编码子网络对样本提示文本进行编码，得到样本提示文本表示，具体可以参阅前述公开实施例中，对提示文本进行编码的步骤，在此不再赘述。此外，编码子网络的网络参数具体可以参阅前述公开实施中，对提示文本进行编码所涉及的可训练的参数，在此不再赘述。

步骤S52：基于语音识别模型的调整处理子网络，利用样本音频表示对样本候选文本表示进行调整，得到与样本候选文本表示对应的样本重构文本表示。

在一个实施场景中，利用样本音频表示对样本候选文本表示进行调整，得到与样本候选文本表示对应的样本重构文本表示的方式具体可以参阅前述公开实施例中，利用原始音频表示对候选文本表示进行调整，得到与候选文本表示对应的重构文本表示的步骤，在此不再赘述。此外，调整处理子网络的网络参数具体可以参阅前述公开实施例中，利用原始音频表示对候选文本表示进行调整所涉及的可训练参数，在此不再赘述。

步骤S53：基于语音识别模型的预测子网络，对样本重构文本表示进行若干次预测，得到样本预测文字。

在一个实施场景中，对样本重构文本表示进行若干次预测，得到样本预测文字的方式具体可以参阅前述公开实施例中，对重构文本表示进行若干次预测，得到原始音频的最终识别文本的步骤，在此不再赘述。

需要说明的是，样本音频可以对应设有预先标注的样本标注文本，具体地，可以采用包括但不限于人工转写的方式对样本音频进行标注。例如，对于样本音频“我给你发了一个红包”，可以通过人工转写等方式对应标注有“我给你发了一个红包”，其他场景可以以此类推，在此不再一一举例。故此，前述公开实施例中，在利用长短期记忆网络LSTM对重组文本表示进行若干次解码，并将长短期记忆网络的隐藏层状态作为解码状态时，具体可以采用上述公式(17)，得到解码状态，即：

s_t＝LSTM(s_t-1,y_t-1,c_t-1)

上述公式中，y_t-1表示t-1时刻的预测输出。与前述公开实施例不同的是：训练过程中，样本音频已经标注有样本标注文本，故y_t-1表示真实标注的样本标注文本。

此外，预测子网络的网络参数具体可以参阅前述公开实施例中，对重构文本表示进行若干次预测所涉及的可训练参数，在此不再赘述。

在一个实施场景中，当引入样本提示文本时，可以基于语音识别模型的重组子网络，利用样本提示文本表示对样本重构文本表示进行重组，得到与样本重构文本表示对应的样本重组文本表示，从而可以基于语音识别模型的预测子网络，对样本重组文本表示进行若干次预测，得到样本预测文字。具体地，利用样本提示文本表示对样本重构文本表示进行重组的方式具体可以参阅前述公开实施例中，利用提示文本表示对重构文本表示进行重组，得到与重构文本表示对应的重组文本表示的步骤，在此不再赘述。此外，重组子网络的网络参数具体可以参阅前述公开实施例中，利用提示文本表示对重构文本表示进行重组所涉及的可训练参数，预测子网络的网络参数具体可以参阅前述公开实施例中，对重组文本表示进行若干次解码，得到解码状态以及对每次解码的解码状态和重构文本表示、提示文本表示进行预测的步骤所涉及的可训练参数，在此不再赘述。

步骤S54：基于若干次预测得到的样本预测文字对应的样本预测概率，调整语音识别模型的网络参数。

在一个实施场景中，可以将每次预测时，最大样本预测概率对应的文字，作为每次预测得到的样本预测文字，具体可以参考前述公开实施例中公式(56)以及相关描述，在此不再赘述。则可以利用上述样本预测文字对应的样本预测概率，得到若干次的损失值，从而可以利用损失值，调整语音识别模型的网络参数。具体地，语音识别模型的网络参数可以包括：编码子网络的网络参数、调整处理子网络的网络参数、预测子网络的网络参数，具体可以结合前述公开实施例中的可训练参数，在此不再赘述。此外，当引入样本提示文本一同参与训练时，语音识别模型还进一步包括重组处理子网络，此时，语音识别模型的网络参数还可以进一步包括重组处理子网络的网络参数，具体可以结合前述公开实施例中的可训练参数，在此不再赘述。

在一个具体的实施场景中，具体可以参照下式，利用上述样本预测文字对应的样本预测概率，得到若干次的损失值：

上述公式(57)中，q_t表示t时刻预测得到的样本预测文本在预设词表中的索引，P_t(·)表示q_t对应的样本预测概率，T表示样本预测文字的个数。在训练过程中，可以将上述损失值进行梯度回传，按照梯度修正可训练的参数。

在另一个实施场景中，为了促进语音识别模型的学习训练，还可以对样本候选文本与样本标注文本的进行相似性判断，利用相似性判断结果辅助学习训练，提高语音识别模型的训练效率。具体地，基于预设匹配规则，判断样本候选文本与样本标注文本是否相似，得到相似性判断结果，从而可以利用样本重组文本表示和相似性判断结果，得到语音识别模型的第一损失值，并将上述L_o作为第二损失值，进而可以基于第一损失值和第二损失值，调整语音识别模型的网络参数。上述设置方式，能够使重新识别样本语音的任务和判断样本候选文本与样本标注文本相似性的任务共享语音识别模型的底层参数，从而间接促进重新识别样本语音的学习任务，有利于提高模型训练效率。

在一个具体的实施场景中，预设匹配规则可以包括：对样本候选文本与样本标注文本逐字逐句进行相似度匹配，从而基于逐字逐句的相似度匹配结果，判断样本候选文本与样本标注文本是否相似。例如，样本候选文本“我给的你一个红包”和样本标注文本“我给了你一个红包”，可以进行逐字逐句相似度匹配，可以发现除了“给了”和“给的”不完全一样，其他文字都一样，故可以认为样本候选文本和样本标注文本相似，其他场景可以以此类推，在此不再一一举例。

在另一个具体的实施场景中，在不影响基本语义的情况下，预设匹配规则还可以包括：在对样本标注文本和样本候选文本进行语义修正处理，并对语义修正处理之后的样本标注文本和样本候选文本逐字逐句进行相似度匹配。为了免于人工参与，提高相似性判断效率，语义修正处理可以包括但不限于：去除样本候选文本与样本标注文本中的语气词、去除样本候选文本与样本标注文本中的重叠词、将样本候选文本与样本标注文本进行同义词替换。例如，语气词“呀”、“呃”、“了”、“噢”、“奥”、“啊”、“的”、“吧”、“唉”、“啦”、“厄”等，对整体语义影响微乎其微，故可以自动去除样本候选文本与样本标注文本中的语气词，避免对样本候选文本与样本标注文本相似性判断造成干扰；或者，例如，重叠词“拜拜”、“谢谢”、“嗯嗯”、“好好”、“行行”、“可以可以”、“没有没有”、“喂喂”、“对对”等，也极易对样本候选文本与样本标注文本相似性判断造成干扰，故可以自动去除重叠词中的一个，例如，对于“谢谢”可以只保留“谢”，对于“嗯嗯”可以只保留“嗯”等等；或者，例如，同义词“那谢-谢谢”，“还有-还要”，“好了-好的”等，语义结果相似，故可以将样本候选文本中的同义词自动替换为样本标注文本对应的同义词，如将样本候选文本中的“好了”，替换为样本标注文本对应的同义词“好的”等等。具体地，在语义修正处理之后，可以对语义修正处理之后的样本标注文本和样本候选文本逐字逐句进行一致性判断，若语义修正处理之后的样本标注文本和样本候选文本完全一致，则可以认为样本标注文本和样本候选文本相似，否则可以认为样本标注文本和样本候选文本不相似。仍以样本候选文本“我给的你一个红包”和样本标注文本“我给了你一个红包”为例，样本候选文本中的“给的”可以进行同义词替换，并替换为样本标注文本中对应的同义词“给了”，在进行上述语义修正处理之后，两者完全一致，则可以认为样本候选文本“我给的你一个红包”和样本标注文本“我给了你一个红包”相似，其他场景可以以此类推，在此不再一一举例。

在又一个具体的实施场景中，可以对样本重组文本表示进行按位置最大池化、线性变换等处理，得到值域在预设数值范围(如，0至1)内且与样本重组文本表示对应的标量值，从而可以基于样本重组文本对应的标量值，以及对应的样本候选文本与样本标注文本之间的相似性判断结果，计算第一损失值。以样本候选文本有多个为例，可以对第m个样本候选文本对应的样本重组文本表示按照位置进行最大池化处理，得到其整体表示，为了便于描述，可以记为

具体可以表示为：

在得到整体表示

之后，可以对整体表示进行线性变换，得到预设数值范围内的标量值

具体可以采用如下公式进行线性变换：

上述公式(59)中，v_f为可训练的参数，如无特殊说明，v_f在训练过程中，需进行参数更新。上述线性处理之后，标量值

值域范围为0至1。

在得到样本候选文本与样本标注文本的相似性判断结果，及样本候选文本对应的样本重组文本表示的标量值之后，可以利用这两者进行损失计算，具体如下：

上述公式(60)中，L_f表示第一损失值，N表示样本候选文本的数量，

表示第m个样本候选文本与样本标注文本的相似性判断结果，具体地，当样本候选文本与样本标注文本判断为相似时，似性判断结果

的值为1，当样本候选文本与样本标注文本判断为不相似时，似性判断结果

的值为0。

在又一个具体的实施场景中，在基于第一损失值和第二损失值，调整语音识别模型的网络参数时，具体可以将第一损失值和第二损失值进行加权处理，得到语音识别模型的加权损失值，从而利用加权损失值，调整语音识别模型的网络参数。具体可以参阅如下公式：

上述公式(61)中，L_f表示第一损失值，L_o表示第二损失值，L表示加权损失值，

表示权重。具体地，权重

可以根据实际应用情况进行设置，具体地，权重

可以在验证集上进行交叉验证得到。例如，权重

可以设置为10。

上述方案，利用语音识别模型的编码子网络对样本音频、样本候选文本进行编码，对应得到样本音频表示、样本候选文本表示，并基于语音识别模型的调整处理子网络，利用样本音频表示对样本候选文本表示进行调整，得到与样本候选文本表示对应的样本重构文本表示，从而基于语音识别模型的预测子网络，对样本重构文本表示进行若干次预测，得到样本预测文字，进而基于若干次预测得到的样本预测文字对应的样本预测概率，调整语音识别模型的网络参数，能够有利于基于样本音频表示弥补样本候选表示音频侧信息，有利于提高样本重构文本表示的准确性，故能够有利于提高语音识别模型准确性，进而能够有利于提高实际应用时，语音识别准确性。

请参阅图6，图6是本申请电子设备60一实施例的框架示意图。电子设备60包括相互耦接的存储器61和处理器62，存储器61中存储有程序指令，处理器62用于执行程序指令以实现上述任一语音识别方法实施例中步骤。具体地，电子设备60包括但不限于：手机、平板电脑、计算机、电子翻译机等，在此不做限定。

本实施例中，处理器62用于对原始音频、候选文本进行编码，对应得到原始音频表示、候选文本表示；其中，候选文本是对原始音频进行初始识别而得到的；处理器62用于利用原始音频表示对候选文本表示进行调整，得到与候选文本表示对应的重构文本表示；处理器62用于对重构文本表示进行若干次预测，并将每次预测得到的预测文字的组合，作为原始音频的最终识别文本。

在一些实施例中，处理器62用于利用原始音频表示对候选文本表示进行校正，得到与候选文本表示对应的校正文本表示；处理器62用于将候选文本表示和校正文本表示进行融合，得到重构文本表示。

区别于前述实施例，通过利用原始音频表示对候选文本表示进行校正，能够弥补候选文本缺失的音频侧信息，提高校正文本表示的准确性，并通过将候选文本表示和校正文本表示进行融合，得到重构文本表示，能够融合音频侧信息和文本侧信息，从而能够进一步有利于提高重构文本表示的准确性，进而能够有利于提高后续预测的准确性。

在一些实施例中，处理器62用于分别确定候选文本表示和校正文本表示中对应元素之间的第一融合门限值；处理器62用于利用第一融合门限值，得到候选文本表示中每一元素的第一权值，以及校正文本表示中对应元素的第二权值；处理器62用于利用第一权值和第二权值，分别对候选文本表示中各个元素和校正文本表示中对应元素进行加权处理，得到重构文本表示。

区别于前述实施例，通过确定候选文本表示和校正文本表示中对应元素之间的第一融合门限值，从而利用第一融合门限值，得到候选文本表示中每一元素的第一权值，以及校正文本表示中对应元素的第二权值，进而分别对候选文本表示中各个元素和校正文本表示中对应元素进行加权处理，得到重构文本表示，故能够对候选文本表示和校正文本表示每一元素加权融合，能够有利于提高候选文本表示和校正文本表示的融合精度，能够有利于提高融合得到的重构文本表示的准确性。

在一些实施例中，原始音频是用户响应于提示文本而发出的，处理器62用于对提示文本进行编码，得到提示文本表示，处理器62用于利用提示文本表示对重构文本表示进行重组，得到与重构文本表示对应的重组文本表示；处理器62用于对重组文本表示进行若干次解码，直至满足预设结束条件为止，得到每次解码的解码状态；处理器62用于分别对每次解码的解码状态和重构文本表示、提示文本表示进行预测，并将每次预测得到的预测文字的组合，作为最终识别文本。

区别于前述实施例，原始音频是用户响应于提示文本而发出的，并对提示文本进行编码，得到提示文本表示，从而利用提示文本表示对重构文本表示进行重组，得到与重构文本表示对应的重组文本表示，从而对重组文本表示进行若干次解码，直至满足预设结束条件为止，得到每次解码的解码状态，进而分别对每次解码的解码状态和重构文本表示、提示文本表示进行预测，并将每次预测得到的预测文字的组合，作为最终识别文本，能够引入用户提示文本表示来增加用户回答的原始音频和提示文本的上下文语境信息，从而能够有利于提高重组文本表示的准确性，进而能够有利于提高语音识别的准确性。

在一些实施例中，采用长短期记忆网络对重组文本表示进行若干次解码，并将长短期记忆网络的隐藏层状态作为解码状态；和/或，预设结束条件包括：当前预测得到的预测文字为预设结束字符。

区别于前述实施例，通过采用长短期记忆网络对重组文本表示进行若干次解码，并将长短期记忆网络的隐藏层状态作为解码状态，有利于提高后续文字预测的准确性；通过将预设结束条件设置为包括：当前预测得到的预测文字为预设结束字符，可以方便地判断是否结束文字预测过程，有利于提高语音识别的鲁棒性。

在一些实施例中，处理器62用于利用解码状态和重构文本表示对提示文本表示进行重组，得到与提示文本对应的第一预测概率和第一上下文向量；处理器62用于利用解码状态和提示文本表示对重构文本表示进行重组，得到与候选文本对应的第二预测概率和第二上下文向量；处理器62用于基于第一上下文向量和第二上下文向量，将第一预测概率和第二预测概率融合，得到预设词表中各个文字的预测概率；处理器62用于利用预设词表中各个文字的预测概率，得到预测文字。

区别于前述实施例，通过利用解码状态和重构文本表示对提示文本表示进行重组，得到与提示文本对应的第一预测概率和第一上下文向量，并利用解码状态和提示文本表示对重构文本表示进行重组，得到与候选文本对应的第二预测概率和第二上下文向量，从而基于第一上下文向量和第二上下文向量，将第一预测概率和第二预测概率融合，得到预设词表中各个文字的预测概率，进而利用预设词表中各个文字的预测概率，得到预测文字，能够融合提示文本对应的预测概率以及候选文本对应的预测概率，进而能够有助于使两者相互补充，有利于提高预测准确性。

在一些实施例中，对原始音频进行初始识别而得到的候选文本有多个，处理器62用于利用第一上下文向量更新解码状态，得到与解码状态对应的更新状态；处理器62用于基于交叉注意力机制，确定更新状态和与候选文本对应的各个第二上下文向量之间的注意力权重；处理器62用于利用注意力权重分别对对应的候选文本的第二预测概率进行加权处理，得到多个候选文本的加权预测概率。

区别于前述实施例，对原始音频进行初始识别而得到的候选文本有多个，从而利用第一上下文向量更新解码状态，得到与解码状态对应的更新状态，并基于交叉注意力机制，确定更新状态和与候选文本对应的各个第二上下文向量之间的注意力权重，从而利用注意力权重分别对对应的候选文本的第二预测概率进行加权处理，得到多个候选文本的加权预测概率，能够引入更多的候选文本信息，从而能够有利于提高语音识别召回率。

在一些实施例中，处理器62用于利用注意力权重分别对对应的候选文本的第二上下文向量进行加权处理，得到多个候选文本的加权上下文向量；处理器62用于基于第一上下文向量和加权上下文向量，得到第一预测概率与加权预测概率之间的第二融合门限值；处理器62用于利用第二融合门限值，得到第一预测概率的第三权值，以及加权预测概率的第四权值；处理器62用于利用第三权值和第四权值分别对第一预测概率和加权预测概率进行加权处理，得到预设词表中各个文字的预测概率。

区别于前述实施例，通过利用注意力权重分别对对应的候选文本的第二上下文向量进行加权处理，得到多个候选文本的加权上下文向量，从而基于第一上下文向量和加权上下文向量，得到第一预测概率与加权预测概率之间的第二融合门限值，并利用第二融合门限值，得到第一预测概率的第三权值，以及加权预测概率的第四权值，从而利用第三权值和第四权值分别对第一预测概率和加权预测概率进行加权处理，得到预设词表中各个文字的预测概率，从而能够有利于提高第一预测概率和第二预测概率融合的准确性，进而能够有利于提高后续预测的准确性。

请参阅图7，图7是本申请电子设备70一实施例的框架示意图。电子设备70包括互耦接的存储器71和处理器72，存储器71中存储有程序指令，处理器72用于执行程序指令以实现上述任一语音识别模型的训练方法实施例中步骤。具体地，电子设备70包括但不限于：服务器、计算机等，在此不做限定。

本实施例中，处理器72用于利用语音识别模型的编码子网络对样本音频、样本候选文本进行编码，对应得到样本音频表示、样本候选文本表示；其中，样本候选文本是对样本音频进行初始识别而得到的；处理器72用于基于语音识别模型的调整处理子网络，利用样本音频表示对样本候选文本表示进行调整，得到与样本候选文本表示对应的样本重构文本表示；处理器72用于基于语音识别模型的预测子网络，对样本重构文本表示进行若干次预测，得到样本预测文字；处理器72用于基于若干次预测得到的样本预测文字对应的样本预测概率，调整语音识别模型的网络参数。

在一些实施例中，样本音频是用户响应于样本提示文本而发出的，利用编码子网络对样本提示文本进行编码，得到样本提示文本表示；处理器72用于基于语音识别模型的重组处理子网络，利用样本提示文本表示对样本重构文本表示进行重组，得到与样本重构文本表示对应的样本重组文本表示；以及，处理器72用于基于预设匹配规则，判断样本候选文本与样本标注文本是否相似，得到相似判断结果；其中，样本标注文本是对样本音频进行预先标注得到的；处理器72用于利用样本重组文本表示和相似判断结果，得到语音识别模型的第一损失值；以及，处理器72用于利用若干次预测得到的样本预测文字对应的样本预测概率，得到语音识别模型的第二损失值；处理器72用于基于第一损失值和第二损失值，调整语音识别模型的网络参数。

区别于前述实施例，样本音频是用户响应于样本提示文本而发出的，通过利用编码子网络对样本提示文本进行编码，得到样本提示文本表示，并基于语音识别模型的重组处理子网络，利用样本提示文本表示对样本重构文本表示进行重组，得到与样本重构文本表示对应的样本重组文本表示，能够有利于引入上下文语境信息，提高语音识别模型的准确性，并基于预设匹配规则，判断样本候选文本与样本标注文本是否相似，得到相似判断结果，且样本标注文本是对样本音频进行预先标注得到的，利用样本重组文本表示和相似判断结果，得到语音识别模型的第一损失值，并利用若干次预测得到的样本预测文字对应的样本预测概率，得到语音识别模型的第二损失值，从而基于第一损失值和第二损失值，调整语音识别模型的网络参数，进而能够使重新识别样本语音的任务和判断样本候选文本与样本标注文本相似性的任务共享语音识别模型的底层参数，从而间接促进重新识别样本语音的学习任务，有利于提高模型训练效率。

请参阅图8，图8是本申请存储装置80一实施例的框架示意图。存储装置80存储有能够被处理器运行的程序指令801，程序指令801用于实现上述任一语音识别方法实施例中的步骤，或实现上述任一语音识别模型的训练方法实施例中的步骤。

上述方案，能够提高语音识别准确性。

在一些实施例中，本公开实施例提供的装置具有的功能或包含的模块可以用于执行上文方法实施例描述的方法，其具体实现可以参照上文方法实施例的描述，为了简洁，这里不再赘述。

上文对各个实施例的描述倾向于强调各个实施例之间的不同之处，其相同或相似之处可以互相参考，为了简洁，本文不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的方法和装置，可以通过其它的方式实现。例如，以上所描述的装置实施方式仅仅是示意性的，例如，模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性、机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

Claims

1.一种语音识别方法，其特征在于，包括：

对原始音频、候选文本进行编码，对应得到原始音频表示、候选文本表示；其中，所述候选文本是对所述原始音频进行初始识别而得到的；

利用所述原始音频表示对所述候选文本表示进行调整，得到与所述候选文本表示对应的重构文本表示；

对所述重构文本表示进行若干次预测，并将每次预测得到的预测文字的组合，作为所述原始音频的最终识别文本。

2.根据权利要求1所述的方法，其特征在于，所述利用所述原始音频表示对所述候选文本表示进行调整，得到与所述候选文本表示对应的重构文本表示，包括：

利用原始音频表示对所述候选文本表示进行校正，得到与所述候选文本表示对应的校正文本表示；

将所述候选文本表示和所述校正文本表示进行融合，得到所述重构文本表示。

3.根据权利要求2所述的方法，其特征在于，所述将所述候选文本表示和所述对齐文本表示进行融合，得到所述重构文本表示，包括：

分别确定所述候选文本表示和所述校正文本表示中对应元素之间的第一融合门限值；

利用所述第一融合门限值，得到所述候选文本表示中每一元素的第一权值，以及所述校正文本表示中对应元素的第二权值；

利用所述第一权值和所述第二权值，分别对所述候选文本表示中各个元素和所述校正文本表示中对应元素进行加权处理，得到所述重构文本表示。

4.根据权利要求1所述的方法，其特征在于，所述原始音频是用户响应于提示文本而发出的，所述方法还包括：

对所述提示文本进行编码，得到提示文本表示；

所述对所述重构文本表示进行若干次预测，并将每次预测得到的预测文字的组合，作为所述原始音频的最终识别文本，包括：

利用所述提示文本表示对所述重构文本表示进行重组，得到与所述重构文本表示对应的重组文本表示；

对所述重组文本表示进行若干次解码，直至满足预设结束条件为止，得到每次解码的解码状态；

分别对每次解码的解码状态和所述重构文本表示、所述提示文本表示进行预测，并将每次预测得到的预测文字的组合，作为所述最终识别文本。

5.根据权利要求4所述的方法，其特征在于，采用长短期记忆网络对所述重组文本表示进行若干次解码，并将所述长短期记忆网络的隐藏层状态作为所述解码状态；

和/或，所述预设结束条件包括：当前预测得到的所述预测文字为预设结束字符。

6.根据权利要求4所述的方法，其特征在于，所述分别对每次解码的解码状态和所述重构文本表示、所述提示文本表示进行预测，包括：

利用所述解码状态和所述重构文本表示对所述提示文本表示进行重组，得到与所述提示文本对应的第一预测概率和第一上下文向量；

并利用所述解码状态和所述提示文本表示对所述重构文本表示进行重组，得到与所述候选文本对应的第二预测概率和第二上下文向量；

基于所述第一上下文向量和第二上下文向量，将所述第一预测概率和所述第二预测概率融合，得到预设词表中各个文字的预测概率；

利用所述预设词表中各个文字的预测概率，得到所述预测文字。

7.根据权利要求6所述的方法，其特征在于，对所述原始音频进行初始识别而得到的所述候选文本有多个；所述方法还包括：

利用所述第一上下文向量更新所述解码状态，得到与所述解码状态对应的更新状态；

基于交叉注意力机制，确定所述更新状态和与所述候选文本对应的各个所述第二上下文向量之间的注意力权重；

利用所述注意力权重分别对对应的所述候选文本的所述第二预测概率进行加权处理，得到多个所述候选文本的加权预测概率。

8.根据权利要求7所述的方法，其特征在于，所述基于所述第一上下文向量和第二上下文向量，将所述第一预测概率和所述第二预测概率融合，得到预设词表中各个文字的预测概率，包括：

利用所述注意力权重分别对对应的所述候选文本的所述第二上下文向量进行加权处理，得到多个所述候选文本的加权上下文向量；

基于所述第一上下文向量和所述加权上下文向量，得到所述第一预测概率与所述加权预测概率之间的第二融合门限值；

利用所述第二融合门限值，得到所述第一预测概率的第三权值，以及所述加权预测概率的第四权值；

利用所述第三权值和所述第四权值分别对所述第一预测概率和所述加权预测概率进行加权处理，得到所述预设词表中各个文字的预测概率。

9.一种语音识别模型的训练方法，其特征在于，包括：

利用所述语音识别模型的编码子网络对样本音频、样本候选文本进行编码，对应得到样本音频表示、样本候选文本表示；其中，所述样本候选文本是对所述样本音频进行初始识别而得到的；

基于所述语音识别模型的调整处理子网络，利用所述样本音频表示对所述样本候选文本表示进行调整，得到与所述样本候选文本表示对应的样本重构文本表示；

基于所述语音识别模型的预测子网络，对所述样本重构文本表示进行若干次预测，得到样本预测文字；

基于所述若干次预测得到的样本预测文字对应的样本预测概率，调整所述语音识别模型的网络参数。

10.根据权利要求9所述的训练方法，其特征在于，所述样本音频是用户响应于样本提示文本而发出的，所述方法还包括：

利用所述编码子网络对所述样本提示文本进行编码，得到样本提示文本表示；

基于所述语音识别模型的重组处理子网络，利用所述样本提示文本表示对所述样本重构文本表示进行重组，得到与所述样本重构文本表示对应的样本重组文本表示；以及，

基于预设匹配规则，判断所述样本候选文本与样本标注文本是否相似，得到相似判断结果；其中，所述样本标注文本是对所述样本音频进行预先标注得到的；

所述基于所述若干次预测得到的样本预测文字对应的样本预测概率，调整所述语音识别模型的网络参数，包括：

利用所述样本重组文本表示和所述相似判断结果，得到所述语音识别模型的第一损失值；以及，

利用若干次预测得到的样本预测文字对应的样本预测概率，得到所述语音识别模型的第二损失值；

基于所述第一损失值和所述第二损失值，调整所述语音识别模型的网络参数。

11.一种电子设备，其特征在于，包括相互耦接的存储器和处理器，所述存储器中存储有程序指令，所述处理器用于执行所述程序指令以实现权利要求1至8任一项所述的语音识别方法，或实现权利要求9至10任一项所述的语音识别模型的训练方法。

12.一种存储装置，其特征在于，存储有能够被处理器运行的程序指令，所述程序指令用于实现权利要求1至8任一项所述的语音识别方法，或实现权利要求9至10任一项所述的语音识别模型的训练方法。