CN112509559A

CN112509559A - 音频识别方法、模型训练方法、装置、设备及存储介质

Info

Publication number: CN112509559A
Application number: CN202110144323.8A
Authority: CN
Inventors: 杨玉婷; 杨嵩; 潘能超
Original assignee: Beijing Century TAL Education Technology Co Ltd
Current assignee: Beijing Century TAL Education Technology Co Ltd
Priority date: 2021-02-03
Filing date: 2021-02-03
Publication date: 2021-03-16
Anticipated expiration: 2041-02-03
Also published as: CN112509559B

Abstract

本申请提出一种音频识别方法、模型训练方法、装置、设备及存储介质，通过获取待识别的目标音频，提取该目标音频的特征信息，根据该目标音频的特征信息生成该目标音频的空间隐向量，以及根据该目标音频的空间隐向量生成该目标音频对应的第一隐变量，使得该目标音频对应的第一隐变量可以表征该目标音频的特征信息和文本信息之间的语义关系。从而根据该目标音频的空间隐向量、该目标音频对应的第一隐变量、以及当前时间步之前的文本信息，可以确定该目标音频当前时间步对应的文本信息。而且，在文本信息的解码过程中，完整地学习到整句的上下文信息，并完整地学习到音频特征和文本特征之间的对齐关系，从而提高了语音识别效率和精度。

Description

音频识别方法、模型训练方法、装置、设备及存储介质

技术领域

本申请涉及计算机技术领域，尤其涉及一种音频识别方法、模型训练方法、装置、设备及存储介质。

背景技术

语音是人类世界最主要的交流方式。自动语音识别技术（Automatic SpeechRecognition，ASR）可以利用计算机将声音信号或音频信号转换为文字。另外，自动语音识别技术一直是人工智能领域中重要的研究方向之一。

近年来，随着深度学习的发展，语音识别进入了端到端的语音识别时代。与传统的语音识别相比，端到端的语音识别方法具有系统组成简单，所需的先验知识少等优点。例如，基于变换器（transformer）模型的端到端语音识别方法具体可以将语音识别任务作为从语音特征序列到文本序列的翻译过程。其中，transformer模型是一个完全基于注意力机制的编码器（Encoder）和解码器（Decoder）的模型，由于transformer模型具有出色的长距离依赖建模能力，因此，transformer模型在语音识别中具有不错的效果。

但是，transformer模型在语音识别推理的过程中，只能得到小于当前输出步的输出信息，无法得到未来的输出信息。从而导致解码器无法利用整句的文本信息进行解码。从而降低了transformer模型的语音识别效率和精度。

发明内容

本申请实施例提供一种音频识别方法、模型训练方法、装置、设备及存储介质，以解决相关技术存在的问题，技术方案如下：

第一方面，本申请实施例提供了一种音频识别方法，包括：

获取待识别的目标音频；

提取该目标音频的特征信息；

根据该目标音频的特征信息生成该目标音频的空间隐向量；

根据该目标音频的空间隐向量生成该目标音频对应的第一隐变量，该目标音频对应的第一隐变量用于表征该目标音频的特征信息和文本信息之间的语义关系；

根据该目标音频的空间隐向量、该目标音频对应的第一隐变量、以及当前时间步之前的文本信息，确定该目标音频当前时间步对应的文本信息。

在一种实施方式中，根据该目标音频的特征信息生成该目标音频的空间隐向量，包括：

将该目标音频的特征信息作为音频识别模型中编码器的输入，通过该编码器生成该目标音频的空间隐向量。

在一种实施方式中，根据该目标音频的空间隐向量、该目标音频对应的第一隐变量、以及当前时间步之前的文本信息，确定该目标音频当前时间步对应的文本信息，包括：

将该目标音频的空间隐向量、该目标音频对应的第一隐变量、以及当前时间步之前的文本信息作为音频识别模型中解码器的输入，通过该解码器生成该目标音频当前时间步对应的文本信息。

在一种实施方式中，获取待识别的目标音频之前，该方法还包括：

获取样本音频以及该样本音频对应的样本文本；

根据该样本音频的特征信息生成该样本音频的空间隐向量，以及根据该样本音频对应的样本文本生成该样本文本的空间隐向量；

根据该样本音频的空间隐向量生成该样本音频对应的第一隐变量，以及根据该样本音频的空间隐向量和该样本文本的空间隐向量生成该样本音频对应的第二隐变量，该样本音频对应的第二隐变量用于表征该样本音频的特征信息和该样本文本之间的语义关系；

根据该样本音频对应的第一隐变量、该样本音频对应的第二隐变量、该样本音频的空间隐向量以及该样本文本，对音频识别模型进行模型训练，其中，模型训练的过程中，至少使该样本音频对应的第一隐变量能够表征该样本音频的特征信息和该样本文本之间的语义关系。

在一种实施方式中，该音频识别模型包括编码器、变分推理模块和解码器。

在一种实施方式中，根据该样本音频的特征信息生成该样本音频的空间隐向量，以及根据该样本音频对应的样本文本生成该样本文本的空间隐向量，包括：

将该样本音频的特征信息和该样本音频对应的样本文本作为该音频识别模型中编码器的输入，通过该编码器生成该样本音频的空间隐向量和该样本文本的空间隐向量。

在一种实施方式中，根据该样本音频的空间隐向量生成该样本音频对应的第一隐变量，以及根据该样本音频的空间隐向量和该样本文本的空间隐向量生成该样本音频对应的第二隐变量，包括：

将该样本音频的空间隐向量和该样本文本的空间隐向量作为该音频识别模型中变分推理模块的输入，该变分推理模块根据该样本音频的空间隐向量生成该样本音频对应的第一隐变量，以及根据该样本音频的空间隐向量和该样本文本的空间隐向量生成该样本音频对应的第二隐变量。

在一种实施方式中，根据该样本音频对应的第一隐变量、该样本音频对应的第二隐变量、该样本音频的空间隐向量以及该样本文本，对该音频识别模型进行模型训练，包括：

根据该样本音频对应的第一隐变量、该样本音频对应的第二隐变量、该样本音频的空间隐向量以及该样本文本，确定损失函数；

根据该损失函数对该音频识别模型进行模型训练。

在一种实施方式中，根据该样本音频对应的第一隐变量、该样本音频对应的第二隐变量、该样本音频的空间隐向量以及该样本文本，确定损失函数，包括：

根据该样本音频对应的第一隐变量和该样本音频对应的第二隐变量，确定该音频识别模型中变分推理模块的散度；

将该样本音频对应的第二隐变量、该样本音频的空间隐向量以及该样本文本作为该音频识别模型中解码器的输入，得到该解码器的输出信息；

根据该变分推理模块的散度和该解码器的输出信息，确定该损失函数。

在一种实施方式中，该方法还包括：

在对该损失函数进行优化的过程中，控制该样本音频对应的第一隐变量无限接近于该样本音频对应的第二隐变量。

第二方面，本申请实施例提供了一种模型训练方法，该方法包括：

获取样本音频以及该样本音频对应的样本文本；

根据该样本音频的空间隐向量生成该样本音频对应的第一隐变量，以及根据该样本音频的空间隐向量和该样本文本的空间隐向量生成该样本音频对应的第二隐变量；

第三方面，本申请实施例提供了一种音频识别装置，该装置包括：

获取模块，用于获取待识别的目标音频；

特征提取模块，用于提取该目标音频的特征信息；

生成模块，用于根据该目标音频的特征信息生成该目标音频的空间隐向量；根据该目标音频的空间隐向量生成该目标音频对应的第一隐变量，该目标音频对应的第一隐变量用于表征该目标音频的特征信息和文本信息之间的语义关系；

确定模块，用于根据该目标音频的空间隐向量、该目标音频对应的第一隐变量、以及当前时间步之前的文本信息，确定该目标音频当前时间步对应的文本信息。

在一种实施方式中，生成模块具体用于将该目标音频的特征信息作为音频识别模型中编码器的输入，通过该编码器生成该目标音频的空间隐向量。

在一种实施方式中，确定模块具体用于将该目标音频的空间隐向量、该目标音频对应的第一隐变量、以及当前时间步之前的文本信息作为音频识别模型中解码器的输入，通过该解码器生成该目标音频当前时间步对应的文本信息。

在一种实施方式中，获取模块还用于在获取待识别的目标音频之前，获取样本音频以及该样本音频对应的样本文本；生成模块还用于：根据该样本音频的特征信息生成该样本音频的空间隐向量，以及根据该样本音频对应的样本文本生成该样本文本的空间隐向量；根据该样本音频的空间隐向量生成该样本音频对应的第一隐变量，以及根据该样本音频的空间隐向量和该样本文本的空间隐向量生成该样本音频对应的第二隐变量，该样本音频对应的第二隐变量用于表征该样本音频的特征信息和该样本文本之间的语义关系。

该装置还包括模型训练模块，用于根据该样本音频对应的第一隐变量、该样本音频对应的第二隐变量、该样本音频的空间隐向量以及该样本文本，对音频识别模型进行模型训练，其中，模型训练的过程中，至少使该样本音频对应的第一隐变量能够表征该样本音频的特征信息和该样本文本之间的语义关系。

在一种实施方式中，生成模块具体用于：将该样本音频的特征信息和该样本音频对应的样本文本作为该音频识别模型中编码器的输入，通过该编码器生成该样本音频的空间隐向量和该样本文本的空间隐向量。

在一种实施方式中，生成模块具体用于：将该样本音频的空间隐向量和该样本文本的空间隐向量作为该音频识别模型中变分推理模块的输入，该变分推理模块根据该样本音频的空间隐向量生成该样本音频对应的第一隐变量，以及根据该样本音频的空间隐向量和该样本文本的空间隐向量生成该样本音频对应的第二隐变量。

在一种实施方式中，确定模块还用于：根据该样本音频对应的第一隐变量、该样本音频对应的第二隐变量、该样本音频的空间隐向量以及该样本文本，确定损失函数；模型训练模块具体用于根据该损失函数对该音频识别模型进行模型训练。

在一种实施方式中，确定模块具体用于：根据该样本音频对应的第一隐变量和该样本音频对应的第二隐变量，确定该音频识别模型中变分推理模块的散度；将该样本音频对应的第二隐变量、该样本音频的空间隐向量以及该样本文本作为该音频识别模型中解码器的输入，得到该解码器的输出信息；根据该变分推理模块的散度和该解码器的输出信息，确定该损失函数。

在一种实施方式中，该装置还包括控制模块，用于在对该损失函数进行优化的过程中，控制该样本音频对应的第一隐变量无限接近于该样本音频对应的第二隐变量。

第四方面，本申请实施例提供了一种模型训练装置，该装置包括：

获取模块，用于获取样本音频以及该样本音频对应的样本文本；

生成模块，用于根据该样本音频的特征信息生成该样本音频的空间隐向量，以及根据该样本音频对应的样本文本生成该样本文本的空间隐向量；根据该样本音频的空间隐向量生成该样本音频对应的第一隐变量，以及根据该样本音频的空间隐向量和该样本文本的空间隐向量生成该样本音频对应的第二隐变量；

模型训练模块，用于根据该样本音频对应的第一隐变量、该样本音频对应的第二隐变量、该样本音频的空间隐向量以及该样本文本，对音频识别模型进行模型训练，其中，模型训练的过程中，至少使该样本音频对应的第一隐变量能够表征该样本音频的特征信息和该样本文本之间的语义关系。

第五方面，本申请实施例提供了一种电子设备，该电子设备包括：存储器和处理器。其中，该存储器和该处理器通过内部连接通路互相通信，该存储器用于存储指令，该处理器用于执行该存储器存储的指令，并且当该处理器执行该存储器存储的指令时，使得该处理器执行上述各方面任一种实施方式中的方法。

第六方面，本申请实施例提供了一种计算机可读存储介质，计算机可读存储介质存储计算机程序，当计算机程序在计算机上运行时，上述各方面任一种实施方式中的方法被执行。

上述技术方案中的优点或有益效果至少包括：通过获取待识别的目标音频，提取该目标音频的特征信息，根据该目标音频的特征信息生成该目标音频的空间隐向量，以及根据该目标音频的空间隐向量生成该目标音频对应的第一隐变量，使得该目标音频对应的第一隐变量可以表征该目标音频的特征信息和文本信息之间的语义关系。从而根据该目标音频的空间隐向量、该目标音频对应的第一隐变量、以及当前时间步之前的文本信息，可以确定该目标音频当前时间步对应的文本信息。而且，在文本信息的解码过程中，完整地学习到整句的上下文信息，并完整地学习到音频特征和文本特征之间的对齐关系，从而提高了语音识别效率和精度。

上述概述仅仅是为了说明书的目的，并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征之外，通过参考附图和以下的详细描述，本申请进一步的方面、实施方式和特征将会是容易明白的。

附图说明

在附图中，除非另外规定，否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解，这些附图仅描绘了根据本申请公开的一些实施方式，而不应将其视为是对本申请范围的限制。

图1为本申请一实施例的应用场景的示意图；

图2为本申请一实施例的变分transformer模型的结构示意图；

图3为本申请一实施例的模型训练方法的流程图；

图4为本申请另一实施例的模型训练方法的流程图；

图5为本申请一实施例的音频识别方法的流程图；

图6为本申请另一实施例的音频识别方法的流程图；

图7为本申请一实施例的音频识别装置的结构框图；

图8为本申请一实施例的模型训练装置的结构框图；

图9为本申请一实施例的电子设备的结构框图。

具体实施方式

在下文中，仅简单地描述了某些示例性实施例。正如本领域技术人员可认识到的那样，在不脱离本申请的精神或范围的情况下，可通过各种不同方式修改所描述的实施例。因此，附图和描述被认为本质上是示例性的而非限制性的。

随着深度学习的发展，语音识别进入了端到端的语音识别时代。与传统的语音识别相比，端到端的语音识别方法具有系统组成简单，所需的先验知识少等优点。例如，基于变换器（transformer）模型的端到端语音识别方法具体可以将语音识别任务作为从语音特征序列到文本序列的翻译过程。其中，transformer模型是一个完全基于注意力机制的编码器（Encoder）和解码器（Decoder）的模型，由于transformer模型具有出色的长距离依赖建模能力，因此，transformer模型在语音识别中具有不错的效果。

但是，transformer模型在语音识别推理的过程中，只能得到小于当前输出步的输出信息，无法得到未来的输出信息。从而导致解码器无法利用整句的文本信息进行解码。从而降低了transformer模型的语音识别效率和精度。为了解决该问题，本申请实施例提供了一种音频识别方法。下面结合具体的实施例对本申请实施例提供的一种音频识别方法进行详细介绍。

具体的，本申请实施例提供的该音频识别方法可以由transformer模型来执行，也就是说，本实施例可以通过transformer模型进行音频识别或语音识别。具体的，该transformer模型可以部署在终端或者服务器。其中，终端具体包括但不限于智能手机、掌上电脑、平板电脑、带显示屏的可穿戴设备、台式机、笔记本电脑、一体机、智能家居设备等。

如图1所示，在transformer模型部署在终端21的情况下，终端21可以采集音频信息或音频信号，或者终端21可以接收其他终端或其他服务器发送的音频信息或音频信号。进一步，终端21可以通过终端21中部署的transformer模型对该音频信息或音频信号进行音频识别或语音识别，从而得到该音频信息或音频信号对应的文本信息。进一步，终端21还可以将该文本信息显示在终端21的用户界面上，或者将该文本信息发送给其他终端或其他服务器。

另外，如图1所示，在transformer模型部署在服务器22的情况下，服务器22可以采集音频信息或音频信号，或者服务器22可以接收由终端21采集到的音频信息或音频信号。进一步，服务器22可以通过服务器22中部署的transformer模型对该音频信息或音频信号进行音频识别或语音识别，从而得到该音频信息或音频信号对应的文本信息。进一步，服务器22可以将该文本信息发送给终端21。

可以理解的是，通常情况下，transformer模型主要包括编码器（Encoder）和解码器（Decoder）。但是，在本公开实施例中，transformer模型不仅包括编码器和解码器，另外，transformer模型还可以包括变分推理模块。可以理解的是，该变分推理模块可以通过硬件来实现，也可以通过软件来实现。由于本公开实施例所涉及到的transformer模型相比于通常情况下的transformer模型增加了变分推理模块，因此，为了与通常情况下的transformer模型进行区分，本公开实施例所涉及到的transformer模型可以记为变分transformer模型。

如图2所示为本公开实施例所涉及到的变分transformer模型的结构示意图。如图2所示，变分transformer模型包括编码器、变分推理模块、解码器。其中，编码器的每一层可以包括两个子层，其中，第一个子层为多头注意力层（Multi-Head Attention Layer，MHA），例如自注意力（Self-Attention）子层。第二个子层为前馈神经网络（Feed ForwardNetworks，FFN）子层。编码器的输入可以是语音特征矩阵

和文本信息

。解码器的每一层可以包括三个子层，分别为遮蔽多头注意力层（MaskedMulti-Head Attention Layer，Masked MHA）、编码器-解码器（Encoder- Decoder）MHA和FFN子层。解码器的输入可以包括编码器的输出、变分推理模块的输出和文本信息向量。其中，Masked MHA子层可以对当前时间步之后的文本信息进行遮蔽（Masked）。另外，在变分transformer模型进行训练的过程，可以有整句的文本信息，为了和解码时刻一致，可以防止令牌（token）与其之后的token去做注意力（Attention）计算。例如，文本信息为“今天天气很好”，该“今天天气很好”中的每一个字可以是一个token。

可以理解的是，在使用变分transformer模型进行音频识别之前，可以采用样本音频和样本音频对应的样本文本对该变分transformer模型进行模型训练。本实施例并不限定样本音频和样本音频对应的样本文本的个数。

图3示出根据本申请一实施例的模型训练方法的流程图。该音频识别模型具体可以是如上所述的变分transformer模型。如图3所示，该方法可以包括：

S301、获取样本音频以及该样本音频对应的样本文本。

例如，获取样本音频以及该样本音频对应的样本文本。具体的，样本音频和样本文本可以是预先设置的样本数据，并且样本音频和样本文本可以是成对出现的。进一步，可以对样本音频进行特征提取，将样本音频例如语音信号转换为（M，N）的特征矩阵。其中，M表示时间维度为M帧，N表示M帧中的每一帧是N维的向量。该（M，N）的特征矩阵可以记为

，其中，

中的任意一个向量

可以是N维的特征向量。可以理解的是，

可以作为该样本音频的特征信息，例如

可以作为该样本音频的语音特征矩阵。

S302、根据该样本音频的特征信息生成该样本音频的空间隐向量，以及根据该样本音频对应的样本文本生成该样本文本的空间隐向量。

可选的，该音频识别模型包括编码器、变分推理模块和解码器。例如图2所示，变分transformer模型包括编码器、变分推理模块和解码器。具体的，本实施例可以在已知该样本音频的语音特征矩阵

，以及该样本音频对应的样本文本例如

的情况下，对该变分transformer模型进行模型训练，并且在模型训练的过程中通过最小化损失函数来优化网络参数。

具体的，根据该样本音频的语音特征矩阵

生成该样本音频的空间隐向量

，以及根据该样本音频对应的样本文本

生成该样本文本的空间隐向量

。

可选的，根据该样本音频的特征信息生成该样本音频的空间隐向量，以及根据该样本音频对应的样本文本生成该样本文本的空间隐向量，包括：将该样本音频的特征信息和该样本音频对应的样本文本作为该音频识别模型中编码器的输入，通过该编码器生成该样本音频的空间隐向量和该样本文本的空间隐向量。

例如，将该样本音频的语音特征矩阵

以及该样本音频对应的样本文本例如

作为如图2所示的变分transformer模型的编码器的输入。该编码器在接收到该样本音频的语音特征矩阵

以及该样本音频对应的样本文本

的情况下，可以计算出该样本音频的空间隐向量以及该样本文本的空间隐向量

。具体的，可以将该样本音频的语音特征矩阵

记为x，将该样本音频对应的样本文本

记为y。

和

的计算方法如下公式（1）和公式（2）所示。

（1）

（2）

其中，公式（1）和公式（2）中所述的

可以理解为如图2所示的编码器中前馈神经网络子层和自注意力子层的处理过程。

S303、根据该样本音频的空间隐向量生成该样本音频对应的第一隐变量，以及根据该样本音频的空间隐向量和该样本文本的空间隐向量生成该样本音频对应的第二隐变量，该样本音频对应的第二隐变量用于表征该样本音频的特征信息和该样本文本之间的语义关系。

进一步，可以根据该样本音频的空间隐向量

生成该样本音频对应的第一隐变量

，以及根据该样本音频的空间隐向量

和该样本文本的空间隐向量

生成该样本音频对应的第二隐变量

。该样本音频对应的第二隐变量

可以用于表征该样本音频的特征信息和该样本文本之间的语义关系。

具体的，

可以是全局的语义向量。在对变分transformer模型进行模型训练的过程中，第二隐变量

可以作为全局性的语义变量指导解码器的解码过程。通过网络训练，在变分transformer模型进行推理例如音频识别的过程中，在不需要完整文本信息的情况下，第一隐变量可以表征完整的输入特征序列和输出文本序列之间的潜在语义关系，并作为一个全局性特征指导解码器的解码过程，从而提升模型性能。

可选的，根据该样本音频的空间隐向量生成该样本音频对应的第一隐变量，以及根据该样本音频的空间隐向量和该样本文本的空间隐向量生成该样本音频对应的第二隐变量，包括：将该样本音频的空间隐向量和该样本文本的空间隐向量作为该音频识别模型中变分推理模块的输入，该变分推理模块根据该样本音频的空间隐向量生成该样本音频对应的第一隐变量，以及根据该样本音频的空间隐向量和该样本文本的空间隐向量生成该样本音频对应的第二隐变量。

例如，可以将该样本音频的空间隐向量

和该样本文本的空间隐向量

作为如图2所示的变分transformer模型中变分推理模块的输入。变分推理模块可以根据该样本音频的空间隐向量生成该样本音频对应的第一隐变量

，以及根据该样本音频的空间隐向量

和该样本文本的空间隐向量

生成该样本音频对应的第二隐变量

。具体的，变分推理模块可以通过如下公式（3）-公式（12）计算出第一隐变量和第二隐变量：

（3）

（4）

（5）

（6）

（7）

（8）

（9）

（10）

（11）

（12）

其中，

表示高斯分布

中的均值，

表示高斯分布

中的标准差。

表示非线性激活函数，

表示高斯噪声，防止网络过拟合。

表示音频特征x经过Encoder提取的特征向量。

表示样本文本y经过Encoder提取的特征向量。

、

、

、

、

、

、

、

、

、

、

分别是可训练的参数。

表示

经过非线性激活函数

计算后得到的值。

表示

非线性激活函数

计算后得到的值。

另外，变分推理模块可以根据第一隐变量

和第二隐变量

计算出后验推断

和先验

，并且后验推断

和

先验可以服从高斯分布

。另外，后验推断

和

先验的参数可以通过神经网络学习得到。第一隐变量

和第二隐变量

也可以通过神经网络进行学习与表示。

S304、根据该样本音频对应的第一隐变量、该样本音频对应的第二隐变量、该样本音频的空间隐向量以及该样本文本，对音频识别模型进行模型训练，其中，模型训练的过程中，至少使该样本音频对应的第一隐变量能够表征该样本音频的特征信息和该样本文本之间的语义关系。

具体的，可以根据该样本音频对应的第一隐变量

和第二隐变量

、该样本音频的空间隐向量

以及该样本文本

对变分transformer模型进行模型训练。

本申请实施例通过获取样本音频以及该样本音频对应的样本文本，根据该样本音频的特征信息生成该样本音频的空间隐向量，以及根据该样本音频对应的样本文本生成该样本文本的空间隐向量。进一步，根据该样本音频的空间隐向量生成该样本音频对应的第一隐变量，以及根据该样本音频的空间隐向量和该样本文本的空间隐向量生成该样本音频对应的第二隐变量，该样本音频对应的第二隐变量可以表征完整的输入特征序列和输出文本序列之间的潜在语义关系。从而在根据该样本音频对应的第一隐变量、该样本音频对应的第二隐变量、该样本音频的空间隐向量以及该样本文本，对音频识别模型进行模型训练的过程中，至少使该样本音频对应的第一隐变量能够表征完整的输入特征序列和输出文本序列之间的潜在语义关系，从而使得训练出的该音频识别模型可以对整句的文本信息进行解码，完整地学习到整句的上下文信息，并完整地学习到输入输出之间的对齐关系，从而提高了该音频识别模型的语音识别效率和精度。

在上述实施例的基础上，根据该样本音频对应的第一隐变量、该样本音频对应的第二隐变量、该样本音频的空间隐向量以及该样本文本，对该音频识别模型进行模型训练，包括如图4所示的如下几个步骤：

S401、根据该样本音频对应的第一隐变量、该样本音频对应的第二隐变量、该样本音频的空间隐向量以及该样本文本，确定损失函数。

例如，可以根据该样本音频对应的第一隐变量

和第二隐变量

、该样本音频的空间隐向量

以及该样本文本

确定损失函数。进一步，根据该损失函数对该音频识别模型进行模型训练。

可选的，根据该样本音频对应的第一隐变量、该样本音频对应的第二隐变量、该样本音频的空间隐向量以及该样本文本，确定损失函数，包括：根据该样本音频对应的第一隐变量和该样本音频对应的第二隐变量，确定该音频识别模型中变分推理模块的散度；将该样本音频对应的第二隐变量、该样本音频的空间隐向量以及该样本文本作为该音频识别模型中解码器的输入，得到该解码器的输出信息；根据该变分推理模块的散度和该解码器的输出信息，确定该损失函数。

例如图2所示，变分推理模块可以根据该样本音频对应的第一隐变量

和第二隐变量

计算出该变分推理模块的散度，例如该变分推理模块的KL散度，该变分推理模块的KL散度可以表示为

。进一步，可以将该样本音频对应的第二隐变量

即该变分推理模块的一个输出、该样本音频的空间隐向量

即编码器的一个输出、以及样本文本

作为图2所示的解码器的输入。解码器可以根据该样本音频对应的第二隐变量

、该样本音频的空间隐向量

、以及样本文本

生成网络输出信息，该网络输出信息可以是如图2所示的

。也就是说，在本实施例中，大写字母和小写字母分别表示不同的含义。例如，包含大写字母的

表示网络输出信息，包含小写字母的

表示样本文本。另外，在其他一些实施例中，解码器在计算前可以在

的开头增加一个开始符号（start ofsequence，sos），使得解码器的实际输入为

，相应的，解码器的输出为

，其中，eos表示结束符（end of squence）。但是，在向用户反馈该输出的情况下，可以将该输出中的eos去掉。也就是说，sos和eos是模型用来标识开始和结束用的。其中，该样本音频对应的第二隐变量

可以对输入输出潜在语义空间进行建模，并作为全局特征指导解码器的解码过程。

具体的，解码器根据该样本音频对应的第二隐变量

、该样本音频的空间隐向量

、以及样本文本

生成网络输出信息

的过程可以采用如图公式（13）和公式（14）：

（13）

（14）

其中，

和

表示可训练的参数。

表示音频特征x经过Encoder提取的特征向量。

表示变分推理模块的输出。

进一步，根据该变分推理模块的KL散度

和该解码器的输出信息

确定该损失函数，该损失函数可以表示为如下公式（15）：

（15）

其中，该损失函数可以是该变分推理模块的KL散度和交叉熵的联合损失（loss）函数。

表示KL散度系数。该损失函数的第一项

为KL散度，该损失函数的第二项

为似然函数。

S402、根据该损失函数对该音频识别模型进行模型训练。

可选的，在对该损失函数进行优化的过程中，控制该样本音频对应的第一隐变量无限接近于该样本音频对应的第二隐变量。

例如，通过优化该损失函数可以使得第一隐变量

无限接近于第二隐变量

。在网络训练完成后，变分推理模块可以根据编码器输出的

生成第一隐变量

，第一隐变量

可以表征完整的输入特征序列和输出文本序列之间的潜在语义关系，从而指导解码器进行解码。

本申请实施例在对音频识别模型进行训练的过程中，将同一个文本信息不仅作为编码器的输入，同时也作为解码器的输入。另外，通过在该音频识别模型中加入变分推理模块，使得该音频识别模型可以学习到一组隐变量，例如，第一隐变量

和第二隐变量

。第一隐变量

和第二隐变量

可以作为全局的语义向量。在对音频识别模型进行模型训练的过程中，第二隐变量

可以作为全局性的语义变量指导解码器的解码过程。通过网络训练，在音频识别模型进行推理例如音频识别的过程中，在不需要完整文本信息的情况下，第一隐变量

可以表征完整的输入特征序列和输出文本序列之间的潜在语义关系，并作为一个全局性特征指导解码器的解码过程，从而提升模型性能。

可以理解的是，对音频识别模型例如变分transformer模型进行模型训练的过程和利用训练后的音频识别模型进行音频识别的过程可以由不同的设备来执行，也可以由同一个设备来执行。

例如，在一种可能的实现方式中，对音频识别模型例如变分transformer模型进行模型训练的过程可以由如图1所示的服务器22执行。在服务器22训练出该音频识别模型的情况下，可以将训练后的音频识别模型发送给终端21，从而使得终端可以通过该训练后的音频识别模型进行音频识别。

在另一种可能的实现方式中，对音频识别模型例如变分transformer模型进行模型训练的过程可以由如图1所示的服务器22执行。在服务器22训练出该音频识别模型的情况下，可以通过该训练后的音频识别模型进行音频识别。

下面介绍一下根据该训练后的音频识别模型进行音频识别的过程。

图5示出根据本申请一实施例的音频识别方法的流程图。如图5所示，该方法可以包括：

S501、获取待识别的目标音频。

例如，在服务器22对音频识别模型进行模型训练，终端21根据服务器22训练后的音频识别模型进行音频识别的情况下，终端21可以获取待识别的目标音频。例如，该目标音频可以是终端21采集的，或者可以是终端21从其他终端或其他服务器接收到的。

S502、提取该目标音频的特征信息。

进一步，终端21可以提取该目标音频的特征信息，该目标音频的特征信息具体可以是该目标音频的语音特征矩阵，例如，

。

S503、根据该目标音频的特征信息生成该目标音频的空间隐向量。

例如，终端21可以根据该目标音频的语音特征矩阵

生成该目标音频的空间隐向量

。

可选的，根据该目标音频的特征信息生成该目标音频的空间隐向量，包括：将该目标音频的特征信息作为音频识别模型中编码器的输入，通过该编码器生成该目标音频的空间隐向量。

例如，终端21可以将该目标音频的语音特征矩阵

作为训练后的音频识别模型中编码器的输入，该编码器可以根据该目标音频的语音特征矩阵

生成该目标音频的空间隐向量

。

S504、根据该目标音频的空间隐向量生成该目标音频对应的第一隐变量，该目标音频对应的第一隐变量用于表征该目标音频的特征信息和文本信息之间的语义关系。

进一步，终端21可以根据该目标音频的空间隐向量

生成该目标音频对应的第一隐变量

。该目标音频对应的第一隐变量

可以表征该目标音频的特征信息和文本信息之间的语义关系。

可选的，根据该目标音频的空间隐向量生成该目标音频对应的第一隐变量，包括：将该目标音频的空间隐向量作为音频识别模型中变分推理模块的输入，该变分推理模块根据该目标音频的空间隐向量生成该目标音频对应的第一隐变量。

例如，终端21可以将该目标音频的空间隐向量

作为训练后的音频识别模型中变分推理模块的输入，该变分推理模块可以根据该目标音频的空间隐向量

生成该目标音频对应的第一隐变量

。

S505、根据该目标音频的空间隐向量、该目标音频对应的第一隐变量、以及当前时间步之前的文本信息，确定该目标音频当前时间步对应的文本信息。

进一步，终端21可以根据该目标音频的空间隐向量

、该目标音频对应的第一隐变量

、以及当前时间步之前的文本信息，生成该目标音频当前时间步对应的文本信息。

可选的，根据该目标音频的空间隐向量、该目标音频对应的第一隐变量、以及当前时间步之前的文本信息，确定该目标音频当前时间步对应的文本信息，包括：将该目标音频的空间隐向量、该目标音频对应的第一隐变量、以及当前时间步之前的文本信息作为音频识别模型中解码器的输入，通过该解码器生成该目标音频当前时间步对应的文本信息。

例如，终端21可以对该目标音频的空间隐向量

、该目标音频对应的第一隐变量

进行线性映射后加和，并将该加和、以及当前时间步之前的文本信息作为训练后的音频识别模型中解码器的输入，该解码器可以产生文本输出，该解码器输出的文本信息为该目标音频当前时间步对应的文本信息。

本申请实施例通过获取待识别的目标音频，提取该目标音频的特征信息，根据该目标音频的特征信息生成该目标音频的空间隐向量，以及根据该目标音频的空间隐向量生成该目标音频对应的第一隐变量，使得该目标音频对应的第一隐变量可以表征该目标音频的特征信息和文本信息之间的语义关系。从而根据该目标音频的空间隐向量、该目标音频对应的第一隐变量、以及当前时间步之前的文本信息，可以确定该目标音频当前时间步对应的文本信息。而且，在文本信息的解码过程中，完整地学习到整句的上下文信息，并完整地学习到音频特征和文本特征之间的对齐关系，从而提高了语音识别效率和精度。

可以理解的是，在由同一个设备执行音频识别模型例如变分transformer模型的训练过程和利用训练后的音频识别模型进行音频识别的过程的情况下，该音频识别方法可以包括如图6所示的如下几个步骤：

S601、获取样本音频以及该样本音频对应的样本文本。

S602、根据该样本音频的特征信息生成该样本音频的空间隐向量，以及根据该样本音频对应的样本文本生成该样本文本的空间隐向量。

S603、根据该样本音频的空间隐向量生成该样本音频对应的第一隐变量，以及根据该样本音频的空间隐向量和该样本文本的空间隐向量生成该样本音频对应的第二隐变量，该样本音频对应的第二隐变量用于表征该样本音频的特征信息和该样本文本之间的语义关系。

S604、根据该样本音频对应的第一隐变量、该样本音频对应的第二隐变量、该样本音频的空间隐向量以及该样本文本，对音频识别模型进行模型训练，其中，模型训练的过程中，至少使该样本音频对应的第一隐变量能够表征该样本音频的特征信息和该样本文本之间的语义关系。

S605、获取待识别的目标音频。

S606、提取该目标音频的特征信息。

S607、根据该目标音频的特征信息生成该目标音频的空间隐向量。

S608、根据该目标音频的空间隐向量生成该目标音频对应的第一隐变量，该目标音频对应的第一隐变量用于表征该目标音频的特征信息和文本信息之间的语义关系。

S609、根据该目标音频的空间隐向量、该目标音频对应的第一隐变量、以及当前时间步之前的文本信息，确定该目标音频当前时间步对应的文本信息。

其中，S601-S604具体为音频识别模型例如变分transformer模型的训练过程，该训练过程可以参照上述实施例所述的相应过程，此处不再赘述。S605-S609具体为利用训练后的音频识别模型进行音频识别的过程，该训练过程也可以参照上述实施例所述的相应过程，此处不再赘述。

图7示出根据本申请一实施例的音频识别装置的结构框图。如图7所示，该装置70可以包括：

获取模块71，用于获取待识别的目标音频；

特征提取模块72，用于提取该目标音频的特征信息；

生成模块73，用于根据该目标音频的特征信息生成该目标音频的空间隐向量；根据该目标音频的空间隐向量生成该目标音频对应的第一隐变量，该目标音频对应的第一隐变量用于表征该目标音频的特征信息和文本信息之间的语义关系；

确定模块74，用于根据该目标音频的空间隐向量、该目标音频对应的第一隐变量、以及当前时间步之前的文本信息，确定该目标音频当前时间步对应的文本信息。

可选的，生成模块73具体用于将该目标音频的特征信息作为音频识别模型中编码器的输入，通过该编码器生成该目标音频的空间隐向量。

可选的，确定模块74具体用于将该目标音频的空间隐向量、该目标音频对应的第一隐变量、以及当前时间步之前的文本信息作为音频识别模型中解码器的输入，通过该解码器生成该目标音频当前时间步对应的文本信息。

可选的，获取模块71还用于在获取待识别的目标音频之前，获取样本音频以及该样本音频对应的样本文本；生成模块73还用于：根据该样本音频的特征信息生成该样本音频的空间隐向量，以及根据该样本音频对应的样本文本生成该样本文本的空间隐向量；根据该样本音频的空间隐向量生成该样本音频对应的第一隐变量，以及根据该样本音频的空间隐向量和该样本文本的空间隐向量生成该样本音频对应的第二隐变量，该样本音频对应的第二隐变量用于表征该样本音频的特征信息和该样本文本之间的语义关系。

该装置70还包括模型训练模块75，用于根据该样本音频对应的第一隐变量、该样本音频对应的第二隐变量、该样本音频的空间隐向量以及该样本文本，对音频识别模型进行模型训练，其中，模型训练的过程中，至少使该样本音频对应的第一隐变量能够表征该样本音频的特征信息和该样本文本之间的语义关系。

可选的，该音频识别模型包括编码器、变分推理模块和解码器。

可选的，生成模块73具体用于：将该样本音频的特征信息和该样本音频对应的样本文本作为该音频识别模型中编码器的输入，通过该编码器生成该样本音频的空间隐向量和该样本文本的空间隐向量。

可选的，生成模块73具体用于：将该样本音频的空间隐向量和该样本文本的空间隐向量作为该音频识别模型中变分推理模块的输入，该变分推理模块根据该样本音频的空间隐向量生成该样本音频对应的第一隐变量，以及根据该样本音频的空间隐向量和该样本文本的空间隐向量生成该样本音频对应的第二隐变量。

可选的，确定模块74还用于：根据该样本音频对应的第一隐变量、该样本音频对应的第二隐变量、该样本音频的空间隐向量以及该样本文本，确定损失函数；模型训练模块75具体用于根据该损失函数对该音频识别模型进行模型训练。

可选的，确定模块74具体用于：根据该样本音频对应的第一隐变量和该样本音频对应的第二隐变量，确定该音频识别模型中变分推理模块的散度；将该样本音频对应的第二隐变量、该样本音频的空间隐向量以及该样本文本作为该音频识别模型中解码器的输入，得到该解码器的输出信息；根据该变分推理模块的散度和该解码器的输出信息，确定该损失函数。

可选的，该装置70还包括控制模块76，用于在对该损失函数进行优化的过程中，控制该样本音频对应的第一隐变量无限接近于该样本音频对应的第二隐变量。

本申请实施例各装置中的各模块的功能可以参见上述方法中的对应描述，在此不再赘述。

图8示出根据本申请一实施例的模型训练装置的结构框图。具体的，该模型训练装置和上述实施例该的音频识别装置可以部署在同一个设备，或者也可以分别部署在不同的设备中。

如图8所示，该装置80可以包括：

获取模块81，用于获取样本音频以及该样本音频对应的样本文本；

生成模块82，用于根据该样本音频的特征信息生成该样本音频的空间隐向量，以及根据该样本音频对应的样本文本生成该样本文本的空间隐向量；根据该样本音频的空间隐向量生成该样本音频对应的第一隐变量，以及根据该样本音频的空间隐向量和该样本文本的空间隐向量生成该样本音频对应的第二隐变量；

模型训练模块83，用于根据该样本音频对应的第一隐变量、该样本音频对应的第二隐变量、该样本音频的空间隐向量以及该样本文本，对音频识别模型进行模型训练，其中，模型训练的过程中，至少使该样本音频对应的第一隐变量能够表征该样本音频的特征信息和该样本文本之间的语义关系。

图9示出根据本申请一实施例的电子设备的结构框图。在本申请实施例中，该电子设备具体可以是如上实施例中的终端或服务器。如图9所示，该电子设备包括：存储器910和处理器920，存储器910内存储有可在处理器920上运行的计算机程序。处理器920执行该计算机程序时实现上述实施例中的音频识别方法或模型训练方法。存储器910和处理器920的数量可以为一个或多个。

该电子设备还包括：

通信接口930，用于与外界设备进行通信，进行数据交互传输。

如果存储器910、处理器920和通信接口930独立实现，则存储器910、处理器920和通信接口930可以通过总线相互连接并完成相互间的通信。该总线可以是工业标准体系结构（Industry Standard Architecture，ISA）总线、外部设备互连（PeripheralComponentInterconnect，PCI）总线或扩展工业标准体系结构（Extended IndustryStandard Architecture，EISA）总线等。该总线可以分为地址总线、数据总线、控制总线等。为便于表示，图9中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

可选的，在具体实现上，如果存储器910、处理器920及通信接口930集成在一块芯片上，则存储器910、处理器920及通信接口930可以通过内部接口完成相互间的通信。

本申请实施例提供了一种计算机可读存储介质，其存储有计算机程序，该程序被处理器执行时实现本申请实施例中提供的方法。

本申请实施例还提供了一种芯片，该芯片包括，包括处理器，用于从存储器中调用并运行存储器中存储的指令，使得安装有芯片的通信设备执行本申请实施例提供的方法。

本申请实施例还提供了一种芯片，包括：输入接口、输出接口、处理器和存储器，输入接口、输出接口、处理器以及存储器之间通过内部连接通路相连，处理器用于执行存储器中的代码，当代码被执行时，处理器用于执行申请实施例提供的方法。

应理解的是，上述处理器可以是中央处理器(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(digital signal processing，DSP)、专用集成电路(application specific integrated circuit，ASIC)、现场可编程门阵列(fieldprogrammablegate array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者是任何常规的处理器等。值得说明的是，处理器可以是支持进阶精简指令集机器(advanced RISC machines，ARM)架构的处理器。

进一步地，可选的，上述存储器可以包括只读存储器和随机存取存储器，还可以包括非易失性随机存取存储器。该存储器可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以包括只读存储器(read-onlymemory，ROM)、可编程只读存储器(programmable ROM，PROM)、可擦除可编程只读存储器(erasable PROM，EPROM)、电可擦除可编程只读存储器(electrically EPROM，EEPROM)或闪存。易失性存储器可以包括随机存取存储器(random access memory，RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用。例如，静态随机存取存储器(static RAM，SRAM)、动态随机存取存储器(dynamic random access memory ，DRAM) 、同步动态随机存取存储器(synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(double data date SDRAM，DDR SDRAM)、增强型同步动态随机存取存储器(enhancedSDRAM，ESDRAM)、同步连接动态随机存取存储器(synchlink DRAM，SLDRAM)和直接内存总线随机存取存储器(direct rambus RAM，DR RAM)。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机程序指令时，全部或部分地产生按照本申请的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包括于本申请的至少一个实施例或示例中。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本申请的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分。并且本申请的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备（如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统）使用，或结合这些指令执行系统、装置或设备而使用。

应理解的是，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。上述实施例方法的全部或部分步骤是可以通过程序来指令相关的硬件完成，该程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本申请各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。上述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读存储介质中。该存储介质可以是只读存储器，磁盘或光盘等。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到其各种变化或替换，这些都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种音频识别方法，其特征在于，所述方法包括：

获取待识别的目标音频；

提取所述目标音频的特征信息；

根据所述目标音频的特征信息生成所述目标音频的空间隐向量；

根据所述目标音频的空间隐向量生成所述目标音频对应的第一隐变量，所述目标音频对应的第一隐变量用于表征所述目标音频的特征信息和文本信息之间的语义关系；

根据所述目标音频的空间隐向量、所述目标音频对应的第一隐变量、以及当前时间步之前的文本信息，确定所述目标音频当前时间步对应的文本信息。

2.根据权利要求1所述的方法，其特征在于，根据所述目标音频的特征信息生成所述目标音频的空间隐向量，包括：

将所述目标音频的特征信息作为音频识别模型中编码器的输入，通过所述编码器生成所述目标音频的空间隐向量。

3.根据权利要求1或2所述的方法，其特征在于，根据所述目标音频的空间隐向量、所述目标音频对应的第一隐变量、以及当前时间步之前的文本信息，确定所述目标音频当前时间步对应的文本信息，包括：

将所述目标音频的空间隐向量、所述目标音频对应的第一隐变量、以及当前时间步之前的文本信息作为音频识别模型中解码器的输入，通过所述解码器生成所述目标音频当前时间步对应的文本信息。

4.根据权利要求1所述的方法，其特征在于，获取待识别的目标音频之前，所述方法还包括：

获取样本音频以及所述样本音频对应的样本文本；

根据所述样本音频的特征信息生成所述样本音频的空间隐向量，以及根据所述样本音频对应的样本文本生成所述样本文本的空间隐向量；

根据所述样本音频的空间隐向量生成所述样本音频对应的第一隐变量，以及根据所述样本音频的空间隐向量和所述样本文本的空间隐向量生成所述样本音频对应的第二隐变量；

根据所述样本音频对应的第一隐变量、所述样本音频对应的第二隐变量、所述样本音频的空间隐向量以及所述样本文本，对音频识别模型进行模型训练，其中，模型训练的过程中，至少使所述样本音频对应的第一隐变量能够表征所述样本音频的特征信息和所述样本文本之间的语义关系。

5.根据权利要求4所述的方法，其特征在于，所述音频识别模型包括编码器、变分推理模块和解码器。

6.根据权利要求4或5所述的方法，其特征在于，根据所述样本音频的特征信息生成所述样本音频的空间隐向量，以及根据所述样本音频对应的样本文本生成所述样本文本的空间隐向量，包括：

将所述样本音频的特征信息和所述样本音频对应的样本文本作为所述音频识别模型中编码器的输入，通过所述编码器生成所述样本音频的空间隐向量和所述样本文本的空间隐向量。

7.根据权利要求4或5所述的方法，其特征在于，根据所述样本音频的空间隐向量生成所述样本音频对应的第一隐变量，以及根据所述样本音频的空间隐向量和所述样本文本的空间隐向量生成所述样本音频对应的第二隐变量，包括：

将所述样本音频的空间隐向量和所述样本文本的空间隐向量作为所述音频识别模型中变分推理模块的输入，所述变分推理模块根据所述样本音频的空间隐向量生成所述样本音频对应的第一隐变量，以及根据所述样本音频的空间隐向量和所述样本文本的空间隐向量生成所述样本音频对应的第二隐变量。

8.根据权利要求4或5所述的方法，其特征在于，根据所述样本音频对应的第一隐变量、所述样本音频对应的第二隐变量、所述样本音频的空间隐向量以及所述样本文本，对所述音频识别模型进行模型训练，包括：

根据所述样本音频对应的第一隐变量、所述样本音频对应的第二隐变量、所述样本音频的空间隐向量以及所述样本文本，确定损失函数；

根据所述损失函数对所述音频识别模型进行模型训练。

9.根据权利要求8所述的方法，其特征在于，根据所述样本音频对应的第一隐变量、所述样本音频对应的第二隐变量、所述样本音频的空间隐向量以及所述样本文本，确定损失函数，包括：

根据所述样本音频对应的第一隐变量和所述样本音频对应的第二隐变量，确定所述音频识别模型中变分推理模块的散度；

将所述样本音频对应的第二隐变量、所述样本音频的空间隐向量以及所述样本文本作为所述音频识别模型中解码器的输入，得到所述解码器的输出信息；

根据所述变分推理模块的散度和所述解码器的输出信息，确定所述损失函数。

10.一种模型训练方法，其特征在于，所述方法包括：

获取样本音频以及所述样本音频对应的样本文本；

11.一种音频识别装置，其特征在于，所述装置包括：

获取模块，用于获取待识别的目标音频；

特征提取模块，用于提取所述目标音频的特征信息；

生成模块，用于根据所述目标音频的特征信息生成所述目标音频的空间隐向量；根据所述目标音频的空间隐向量生成所述目标音频对应的第一隐变量，所述目标音频对应的第一隐变量用于表征所述目标音频的特征信息和文本信息之间的语义关系；

确定模块，用于根据所述目标音频的空间隐向量、所述目标音频对应的第一隐变量、以及当前时间步之前的文本信息，确定所述目标音频当前时间步对应的文本信息。

12.根据权利要求11所述的装置，其特征在于，所述生成模块具体用于将所述目标音频的特征信息作为音频识别模型中编码器的输入，通过所述编码器生成所述目标音频的空间隐向量。

13.根据权利要求11或12所述的装置，其特征在于，所述确定模块具体用于将所述目标音频的空间隐向量、所述目标音频对应的第一隐变量、以及当前时间步之前的文本信息作为音频识别模型中解码器的输入，通过所述解码器生成所述目标音频当前时间步对应的文本信息。

14.根据权利要求11所述的装置，其特征在于，所述获取模块还用于：在获取待识别的目标音频之前，获取样本音频以及所述样本音频对应的样本文本；

所述生成模块还用于：根据所述样本音频的特征信息生成所述样本音频的空间隐向量，以及根据所述样本音频对应的样本文本生成所述样本文本的空间隐向量；根据所述样本音频的空间隐向量生成所述样本音频对应的第一隐变量，以及根据所述样本音频的空间隐向量和所述样本文本的空间隐向量生成所述样本音频对应的第二隐变量；

所述装置还包括：模型训练模块，用于根据所述样本音频对应的第一隐变量、所述样本音频对应的第二隐变量、所述样本音频的空间隐向量以及所述样本文本，对音频识别模型进行模型训练；其中，模型训练的过程中，至少使所述样本音频对应的第一隐变量能够表征所述样本音频的特征信息和所述样本文本之间的语义关系。

15.根据权利要求14所述的装置，其特征在于，所述音频识别模型包括编码器、变分推理模块和解码器。

16.根据权利要求14或15所述的装置，其特征在于，所述生成模块具体用于：将所述样本音频的特征信息和所述样本音频对应的样本文本作为所述音频识别模型中编码器的输入，通过所述编码器生成所述样本音频的空间隐向量和所述样本文本的空间隐向量。

17.根据权利要求14或15所述的装置，其特征在于，所述生成模块具体用于：将所述样本音频的空间隐向量和所述样本文本的空间隐向量作为所述音频识别模型中变分推理模块的输入，所述变分推理模块根据所述样本音频的空间隐向量生成所述样本音频对应的第一隐变量，以及根据所述样本音频的空间隐向量和所述样本文本的空间隐向量生成所述样本音频对应的第二隐变量。

18.根据权利要求14或15所述的装置，其特征在于，所述确定模块还用于：根据所述样本音频对应的第一隐变量、所述样本音频对应的第二隐变量、所述样本音频的空间隐向量以及所述样本文本，确定损失函数；

所述模型训练模块具体用于根据所述损失函数对所述音频识别模型进行模型训练。

19.根据权利要求18所述的装置，其特征在于，所述确定模块具体用于：根据所述样本音频对应的第一隐变量和所述样本音频对应的第二隐变量，确定所述音频识别模型中变分推理模块的散度；将所述样本音频对应的第二隐变量、所述样本音频的空间隐向量以及所述样本文本作为所述音频识别模型中解码器的输入，得到所述解码器的输出信息；根据所述变分推理模块的散度和所述解码器的输出信息，确定所述损失函数。

20.一种模型训练装置，其特征在于，所述装置包括：

获取模块，用于获取样本音频以及所述样本音频对应的样本文本；

生成模块，用于根据所述样本音频的特征信息生成所述样本音频的空间隐向量，以及根据所述样本音频对应的样本文本生成所述样本文本的空间隐向量；根据所述样本音频的空间隐向量生成所述样本音频对应的第一隐变量，以及根据所述样本音频的空间隐向量和所述样本文本的空间隐向量生成所述样本音频对应的第二隐变量；

模型训练模块，用于根据所述样本音频对应的第一隐变量、所述样本音频对应的第二隐变量、所述样本音频的空间隐向量以及所述样本文本，对音频识别模型进行模型训练；其中，模型训练的过程中，至少使所述样本音频对应的第一隐变量能够表征所述样本音频的特征信息和所述样本文本之间的语义关系。

21.一种电子设备，其特征在于，包括：处理器和存储器，所述存储器中存储指令，所述指令由处理器加载并执行，以实现如权利要求1至10中任一项所述的方法。

22.一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至10中任一项所述的方法。