CN113763933B

CN113763933B - 语音识别方法、语音识别模型的训练方法、装置和设备

Info

Publication number: CN113763933B
Application number: CN202110491672.7A
Authority: CN
Inventors: 游钊; 冯树林; 苏丹
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-05-06
Filing date: 2021-05-06
Publication date: 2024-01-05
Anticipated expiration: 2041-05-06
Also published as: CN113763933A

Abstract

本申请公开了一种语音识别方法、语音识别模型的训练方法、装置和设备，属于语音交互技术领域。方法包括：获取待识别的语音数据对应的特征向量和目标语音识别模型，目标语音识别模型的结构包括共享嵌入式网络和前层网络，前层网络包括多专家网络层和自注意神经网络，多专家网络层包括目标路由矩阵和多个前馈神经网络，目标路由矩阵基于损失函数得到，共享嵌入式网络和目标路由矩阵用于确定多个前馈神经网络分别对应的概率系数；调用目标语音识别模型对特征向量进行处理，得到语音数据对应的文本内容。该方法得到的文本内容与语音数据的匹配度较高，文本内容的准确性较高。

Description

语音识别方法、语音识别模型的训练方法、装置和设备

技术领域

本申请实施例涉及人工智能的语音交互技术领域，特别涉及一种语音识别方法、语音识别模型的训练方法、装置和设备。

背景技术

语音交互作为一种新型的信息传播方式，正在逐渐应用于智能家居(如智能电视、智能空调等)、语音助手等多个领域。其中，语音识别技术为语音交互过程中的重要一环，语音识别(Automatic Speech Recognition，ASR)是以语音数据为研究对象，通过语音信号处理和模式识别让机器能够自动识别和理解人类口述的语言。

因此，需要一种语音识别方法来提高语音识别的识别准确性。

发明内容

本申请实施例提供了一种语音识别方法、语音识别模型的训练方法、装置和设备，可用于提高语音识别的准确性。所述技术方案如下：

第一方面，本申请实施例提供了一种语音识别方法，所述方法包括：

获取待识别的语音数据对应的特征向量和目标语音识别模型，所述目标语音识别模型的结构包括共享嵌入式网络和前层网络，所述前层网络包括多专家网络层和自注意神经网络，所述多专家网络层包括目标路由矩阵和多个前馈神经网络，所述目标路由矩阵基于损失函数得到，所述共享嵌入式网络和所述目标路由矩阵用于确定所述多个前馈神经网络分别对应的概率系数；

调用所述目标语音识别模型对所述特征向量进行处理，得到所述语音数据对应的文本内容。

第二方面，本申请实施例提供了一种语音识别模型的训练方法，所述方法包括：

获取样本语音数据和初始语音识别模型，所述初始语音识别模型的结构包括共享嵌入式网络和前层网络，所述前层网络包括多专家网络层和自注意神经网络，所述多专家网络层包括初始路由矩阵和多个前馈神经网络；

对所述样本语音数据进行处理，得到所述样本语音数据对应的样本特征向量；

基于所述共享嵌入式网络对所述样本特征向量进行处理，得到所述样本语音数据对应的样本嵌入向量；

基于所述样本语音数据对应的样本特征向量、所述样本语音数据对应的样本嵌入向量和所述初始路由矩阵，确定所述样本语音数据对应的样本参考向量；

基于所述样本语音数据对应的样本特征向量和所述样本语音数据对应的样本参考向量，确定所述初始语音识别模型对应的损失值；

基于所述初始语音识别模型对应的损失值，调整所述初始语音识别模型中的初始路由矩阵，得到所述目标路由矩阵，将包括所述目标路由矩阵的语音识别模型确定为所述目标语音识别模型。

第三方面，本申请实施例提供了一种语音识别装置，所述装置包括：

获取单元，用于获取待识别的语音数据对应的特征向量和目标语音识别模型，所述目标语音识别模型的结构包括共享嵌入式网络和前层网络，所述前层网络包括多专家网络层和自注意神经网络，所述多专家网络层包括目标路由矩阵和多个前馈神经网络，所述目标路由矩阵基于损失函数得到，所述共享嵌入式网络和所述目标路由矩阵用于确定所述多个前馈神经网络分别对应的概率系数；

处理单元，用于调用所述目标语音识别模型对所述特征向量进行处理，得到所述语音数据对应的文本内容。

在一种可能的实现方式中，所述处理单元，用于基于所述共享嵌入式网络对所述特征向量进行处理，得到所述语音数据对应的嵌入向量；

基于所述目标语音识别模型中的第一个自注意神经网络对所述特征向量进行处理，得到所述语音数据对应的第一向量；

基于所述语音数据对应的嵌入向量、所述语音数据对应的第一向量和所述目标语音识别模型的第一个多专家网络层包括的目标路由矩阵，确定所述第一个多专家网络层包括的多个前馈神经网络分别对应的概率系数；

基于所述第一向量和所述第一个多专家网络层包括的多个前馈神经网络分别对应的概率系数，确定所述语音数据对应的文本内容。

在一种可能的实现方式中，所述处理单元，用于在所述第一个多专家网络层包括的多个前馈神经网络中确定概率系数最大的目标前馈神经网络；

基于所述第一向量和所述目标前馈神经网络的概率系数，得到第二向量；

基于所述第二向量，确定所述语音数据对应的文本内容。

在一种可能的实现方式中，所述处理单元，用于响应于所述目标语音识别模型包括一个自注意神经网络和一个多专家网络层，将所述第二向量对应的文本内容确定为所述语音数据对应的文本内容；

响应于所述目标语音识别模型包括多个自注意神经网络和多个多专家网络层，基于剩余多专家网络层包括的目标路由矩阵、所述第二向量和所述嵌入向量，对所述第二向量进行更新，得到第三向量；基于所述第三向量，确定所述语音数据对应的文本内容。

在一种可能的实现方式中，所述处理单元，用于基于所述第二向量、所述嵌入向量和目标多专家网络层包括的目标路由矩阵，确定所述目标多专家网络层包括的多个前馈神经网络分别对应的概率系数，所述目标多专家网络层为所述剩余多专家网络层中的任意一个；

确定所述目标多专家网络层对应的目标前馈神经网络；

基于所述第二向量和所述目标多专家网络层对应的目标前馈神经网络，得到所述第三向量；

响应于所述目标多专家网络层为所述目标语音识别模型的最后一个多专家网络层，将所述第三向量对应的文本内容确定为所述语音数据对应的文本内容。

在一种可能的实现方式中，所述处理单元，用于对所述语音数据对应的嵌入向量和所述语音数据对应的第一向量进行拼接，得到所述语音数据对应的拼接向量；

基于所述语音数据对应的拼接向量和所述目标语音识别模型的第一个多专家网络层包括的目标路由矩阵，确定所述第一个多专家网络层包括的多个前馈神经网络分别对应的概率系数。

第四方面，本申请实施例提供了一种语音识别模型的训练装置，所述装置包括：

获取单元，用于获取样本语音数据和初始语音识别模型，所述初始语音识别模型的结构共享嵌入式网络和前层网络，所述前层网络包括多专家网络层和自注意神经网络，所述多专家网络层包括初始路由矩阵和多个前馈神经网络；

第一处理单元，用于对所述样本语音数据进行处理，得到所述样本语音数据对应的样本特征向量；

第二处理单元，用于基于所述共享嵌入式网络对所述样本特征向量进行处理，得到所述样本语音数据对应的样本嵌入向量；

第一确定单元，用于基于所述样本语音数据对应的样本特征向量、所述样本语音数据对应的样本嵌入向量和所述初始路由矩阵，确定所述样本语音数据对应的样本参考向量；

第二确定单元，用于基于所述样本语音数据对应的样本特征向量和所述样本语音数据对应的样本参考向量，确定所述初始语音识别模型对应的损失值；

第三确定单元，用于基于所述初始语音识别模型对应的损失值，调整所述初始语音识别模型中的初始路由矩阵，得到所述目标路由矩阵，将包括所述目标路由矩阵的语音识别模型确定为所述目标语音识别模型。

在一种可能的实现方式中，所述第二确定单元，用于基于所述样本语音数据对应的样本特征向量和所述样本语音数据对应的样本参考向量，确定所述初始语音识别模型对应的时间联结分类损失值；

基于所述样本语音数据对应的样本特征向量，确定所述初始语音识别模型对应的L1稀疏损失值；

基于所述样本语音数据对应的样本特征向量，确定所述初始语音识别模型对应的均值重要性损失值；

基于所述初始语音识别模型对应的时间联结分类损失值、所述初始语音识别模型对应的L1稀疏损失值和所述初始语音识别模型对应的均值重要性损失值，确定所述初始语音识别模型对应的损失值。

在一种可能的实现方式中，所述第二确定单元，用于基于所述样本语音数据对应的样本特征向量，确定各个多专家网络层对应的第一概率向量；

基于所述各个多专家网络层对应的第一概率向量，确定所述各个多专家网络层对应的L1稀疏损失值；

将所述各个多专家网络层对应的L1稀疏损失值相加，得到所述初始语音识别模型对应的L1稀疏损失值。

在一种可能的实现方式中，所述第二确定单元，用于基于所述样本语音数据对应的样本特征向量，确定所述各个多专家网络层分别对应的参考向量；

对所述各个多专家网络层分别对应的参考向量进行L2范数处理，得到所述各个多专家网络层对应的第一数值；

基于所述各个多专家网络层分别对应的参考向量和所述各个多专家网络层对应的第一数值，确定所述各个多专家网络层对应的第一概率向量；

对所述各个多专家网络层分别对应的第一概率向量进行L1范数处理，得到所述各个多专家网络层对应L1稀疏损失值。

在一种可能的实现方式中，所述第二确定单元，用于基于所述样本语音数据对应的样本特征向量，确定各个多专家网络层对应的第二概率向量；

基于所述各个多专家网络层对应的第二概率向量，确定所述各个多专家网络层对应的均值重要性损失值；

将所述各个多专家网络层对应的均值重要性损失值相加，得到所述初始语音识别模型对应的均值重要性损失值。

基于所述各个多专家网络层分别对应的参考向量，确定所述各个多专家网络层对应的第二概率向量；

基于所述各个多专家网络层对应的第二概率向量中包括的数值，确定所述各个多专家网络层对应的均值重要性损失。

在一种可能的实现方式中，所述第三确定单元，用于响应于所述初始语音识别模型对应的损失值小于第一阈值，将所述初始路由矩阵确定为所述目标路由矩阵；

响应于所述初始语音识别模型对应的损失值不小于所述第一阈值，对所述初始路由矩阵进行调整，基于调整后的路由矩阵和所述样本特征向量，重新确定样本参考向量，直至重新确定的样本参考向量和所述样本特征向量之间的损失值小于所述第一阈值，将所述调整后的路由矩阵确定为所述目标路由矩阵。

在一种可能的实现方式中，所述第二确定单元，用于基于所述初始语音识别模型对应的时间联结分类损失值、所述初始语音识别模型对应的L1稀疏损失值、所述初始语音识别模型对应的均值重要性损失值，时间联结分类损失值对应的权重参数、L1稀疏损失值对应的权重参数和均值重要性损失值对应的权重参数，确定所述初始语音识别模型对应的损失值。

第五方面，本申请实施例提供了一种电子设备，所述电子设备包括处理器和存储器，所述存储器中存储有至少一条程序代码，所述至少一条程序代码由所述处理器加载并执行，以使电子设备实现上述第一方面所述的语音识别方法，或者，实现上述第二方面所述的语音识别模型的训练方法。

第六方面，还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条程序代码，所述至少一条程序代码由处理器加载并执行，以使计算机实现上述第一方面所述的语音识别方法，或者，实现上述第二方面所述的语音识别模型的训练方法。

第七方面，还提供了一种计算机程序或计算机程序产品，所述计算机程序或计算机程序产品中存储有至少一条计算机指令，所述至少一条计算机指令由处理器加载并执行，以使计算机实现上述第一方面所述的语音识别方法，或者，实现上述第二方面所述的语音识别模型的训练方法。

本申请实施例提供的技术方案至少带来如下有益效果：

本申请实施例提供的技术方案在语音识别模型的结构中加入共享嵌入式网络，由于共享嵌入式网络本身具有区分性的特征，使得语音识别模型也具有区分性。而且，语音识别模型包括的目标路由矩阵是基于损失函数得到的，使得确定的目标路由矩阵更加准确，提高了语音识别模型的识别准确性，进而使得使用语音识别模型进行语音识别时得到的文本内容和语音数据的匹配度较高，也即是语音识别的准确性较高。语音识别模型中多专家网络层中包括的前馈神经网络的概率系数基于共享嵌入式网络和目标路由矩阵所确定，使得多专家网络层中包括的前馈神经网络的概率系数的确定更加准确，进而能够进一步提高语音识别模型的识别准确性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种语音识别方法、语音识别模型的训练方法的实施环境示意图；

图2是本申请实施例提供的一种语音识别方法的流程图；

图3是本申请实施例提供的一种目标语音识别模型的结构图；

图4是本申请实施例提供的另一种目标语音识别模型的结构图；

图5是本申请实施例提供的一种语音识别模型的训练方法的流程图；

图6是本申请实施例提供的一种语音识别装置的结构示意图；

图7是本申请实施例提供的一种语音识别模型的训练装置的结构示意图；

图8是本申请实施例提供的一种电子设备的结构示意图；

图9是本申请实施例提供的一种服务器的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

为了便于理解，首先对本申请实施例中涉及的若干个名词进行解释：

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式作出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

语音技术(Speech Technology)的关键技术有自动语音识别技术(AutomaticSpeech Recognition，ASR)和语音合成技术(Text to Speech，TTS)以及声纹识别技术。让计算机能听、能看、能说、能感觉到，是未来人机交互的发展方向，其中语音成为未来最被看好的人机交互方式之一。

本申请实施例提供的方案涉及人工智能的机器学习技术。机器学习(MachineLearning，ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的指示结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本路径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

图1是本申请实施例提供的一种语音识别方法、语音识别模型的训练方法的实施环境示意图，如图1所示，该实施环境包括：终端11和服务器12。

本申请实施例提供的语音识别方法和语音识别模型的训练方法可以由终端11执行，也可以由服务器12执行，本申请实施例对此不加以限定。在示例性实施例中，对于本申请实施例提供的语音识别方法和语音识别模型的训练方法由终端11执行的情况，终端11能够将得到目标语音识别模型和语音数据对应的文本内容发送至服务器12进行存储，当然，终端11也能够对目标语音识别模型和语音数据对应的文本内容进行存储。

在示例性实施例中，对于本申请实施例提供的语音识别方法和语音识别模型的训练方法由服务器12执行的情况，服务器12能够将得到的目标语音识别模型和语音数据对应的文本内容发送至终端11进行存储，当然，服务器12也能够对得到的目标语音识别模型和语音数据对应的文本内容进行存储。

在一种可能的实现方式中，终端11可以是诸如手机、平板电脑、个人计算机等的智能设备。服务器12可以是一台服务器，也可以是由多台服务器组成的服务器集群，或者是一个云计算服务中心。终端11与服务器12通过有线网络或无线网络建立通信连接。

本领域技术人员应能理解上述终端11和服务器12仅为举例，其他现有的或今后可能出现的终端或服务器如可适用于本申请，也应包含在本申请保护范围以内，并在此以引用方式包含于此。

基于上述图1所示的实施环境，本申请实施例提供了一种语音识别方法，以图2所示的本申请实施例提供的一种语音识别方法的流程图为例，该方法可应用于图1中的服务器12。如图2所示，本申请实施例提供的方法可以包括下述步骤：

在步骤201中，获取待识别的语音数据对应的特征向量和目标语音识别模型。

其中，目标语音识别模型的结构包括共享嵌入式网络(embedding network)和前层网络，前层网络包括多专家网络层和自注意(self attention)神经网络，多专家网络层包括目标路由矩阵和多个前馈神经网络(feedforward neural network)，其中，目标路由矩阵存储在多专家网络层包括的路由中。目标路由矩阵基于损失函数得到，损失函数包括L1稀疏损失函数(sparsity L1 loss)和均值重要性损失函数(mean importance loss)。共享嵌入式网络和目标路由矩阵用于确定多个前馈神经网络分别对应的概率系数。

多专家网络层中包括的前馈神经网络的个数为任意数值，本申请实施例对此不加以限定。一般来说，多专家网络层中包括的前馈神经网络的个数可以为2个，也可以为4个，还可以为8个。例如，目标语音识别模型包括3个多专家网络层，3个自注意神经网络，每个自注意神经网络后面有一个多专家网络层。

在一种可能的实现方式中，待识别的语音数据为任意一条语音数据，待识别的语音数据的时间长度可以是任意长度，也即是待识别的语音数据可以包括任意数值个音节，待识别的语音数据的语音速度可以是任意速度，本申请实施例不对待识别的语音数据所包含的音节的个数加以限定，也不对待识别的语音数据的语音速度加以限定。

在一种可能的实现方式中，获取到待识别的语音数据之后，对待识别的语音数据进行特征提取，得到语音数据对应的音频特征，也即是语音数据对应的特征向量，语音识别中常用的特征向量是滤波器组(Filter Bank，Fbank)特征向量和梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients，MFCC)特征向量。其中，MFCC特征向量通过对Fbank特征向量做离散余弦变化(Discrete cosine transform，DCT)得到。本申请实施例中得到的语音数据的特征向量为Fbank特征向量，Fbank特征向量的维度一般为120维。语音数据对应的特征向量的获取过程包括下述步骤1至步骤4。

步骤1、对语音数据进行预加重，得到预加重之后的语音数据。

在一种可能的实现方式中，在语音录制过程中，高频信号更容易衰减，而像元音等一些音素的发音包含了较多的高频信号的成分，高频信号的丢失，可能会导致因素的共振峰并不明显，使得声学模型对这些音素的建模能力不强，预加重是一阶高通滤波器，可以提高信号高频部分的能量，当语音数据为x[n]时，通过下述公式(1)进行预加重，得到预加重之后的语音数据y[n]。

y[n]＝x[n]-αx[n-1]，0.9≤α≤1.0(1)

其中，n为语音数据中的任一个元素，α为权重参数，α的取值为[0.9，1.0]。

步骤2、对预加重之后的语音数据进行分帧加窗处理，得到窗口数据。

在一种可能的实现方式中，语音数据是一个非稳态、时变的信号，但在短时间范围内可以认为语音数据是稳态的，时不变的，这个段时间一般取10-30毫秒，因此，在进行语音数据处理时，为了减少语音数据整体的非稳态、时变的影响，从而对语音数据进行分段处理，也即是分帧处理，例如分帧处理后的帧长一般为25毫秒。为了使帧与帧之间平滑过渡，保持连续性，分帧一般采用交叠分段的方法，保证相连两帧相互重叠一部分。相邻两帧的起始位置的时间差称为帧移，帧移一般为10毫秒。当然，帧长和帧移还可以是其他数值，本申请实施例仅以帧长为25毫秒、帧移为10毫秒为例进行说明，并不对此加以限定。

在一种可能的实现方式中，对语音数据进行分帧处理之后，还要对语音数据进行加窗处理，加窗处理使用到加权函数(也即是窗函数)。加窗处理主要是为了使语音数据的时域信号更好的满足快速傅里叶变换(Fast Fourier Transform，FFT)处理的周期性要求，减少频率泄露。加窗处理之后得到语音数据对应的时域信号。

步骤3、对加窗处理之后的语音数据进行离散傅里叶变换(Discrete FourierTransform，DFT)，得到语音数据对应的频域信号。

在一种可能的实现方式中，离散傅里叶变换是将加窗处理之后得到的语音数据对应的时域信号转换为频域信号，离散傅里叶变换可以根据离散傅里叶变换公式进行变换，本申请实施例不对采用的离散傅里叶变换公式进行限定，在此不再赘述。

步骤4、基于梅尔滤波器组对语音数据的频域信号进行处理，得到语音数据的特征向量。

在一种可能的实现方式中，人类对不同频率的语音有不同的感知能力，对于1000赫兹以下的语音，人类的感知能力和频率成线性关系，对1000赫兹以上的语音，人类的感知能力与频率成对数关系。梅尔滤波器组用于根据语音数据的频域信号得到语音数据的特征向量。梅尔滤波器组基于语音数据的频域信号按照频率转换公式，得到语音数据的梅尔频率，对语音数据的梅尔频率进行对数操作，得到语音数据的特征向量。其中，频率转换公式如下述公式(2)所示。

在上述公式(2)中，m为语音数据的梅尔频率，f为语音数据的频域信号。

在一种可能的实现方式中，还可以采用其他方式获取语音数据对应的特征向量，本申请实施例对此不加以限定。

在一种可能的实现方式中，获取到语音数据对应的特征向量之后，可以存储语音数据对应的特征向量，以便于后续通过直接提取的方式获取语音数据对应的特征向量。

为了确定语音数据对应的文本内容，除了获取语音数据对应的特征向量之外，还需要获取目标语音识别模型，该目标语音识别模型是指训练好的语音识别模型。目标语音识别模型的结构包括共享嵌入式网络和前层网络，前层网络中包括自注意神经网络和多专家网络层，多专家网络层包括目标路由矩阵和多个前馈神经网络。其中，目标路由矩阵存储在多专家网络层包括的路由中，共享嵌入式网络和每一层的目标路由矩阵用于确定每一个多专家网络层包括的多个前馈神经网络分别对应的概率系数。由于共享嵌入式网络本身具有较高的区分性，因此，在目标语音识别模型中添加共享嵌入式网络，使得目标语音识别模型也具有较高的区分性。

示例性地，目标路由矩阵通过L1稀疏损失函数和均值重要性损失函数得到，L1稀疏损失函数用于解决语音识别模型的训练过程中的路由的概率分布稀疏的问题，均值重要性损失函数用于使语音识别模型的训练更加平滑。也就是说，训练得到的目标语音识别模型的过程既考虑到区分性问题，又考虑到路由概率分布稀疏的问题，还考虑到训练平滑性问题，使得训练效果更好，进而训练得到的目标语音识别模型的识别准确性更高。

训练得到目标语音识别模型的过程将在下述图5所示的实施例中进行详细介绍，此处暂不赘述。

需要说明的是，在步骤201中，目标语音识别模型的获取方式既可以是指直接提取已经训练好的目标语音识别模型，也可以是指通过训练的方式获取目标语音识别模型，本申请实施例对此不加以限定。对于直接提取已经训练好的目标语音识别模型的情况，训练得到目标语音识别模型的过程在执行步骤201之前已经完成，且将训练得到的目标语音识别模型进行了存储。

还需要说明的是，可以先对语音数据进行处理，得到语音数据对应的特征向量，再获取目标语音识别模型，也可以先获取目标语音识别模型，再对语音数据进行处理，得到语音数据对应的特征向量，本申请实施例对语音数据对应的特征向量的获取时机和目标语音识别模型的获取时机的先后顺序不加以限定。

示例性地，经过试验，目标语音识别模型的结构包括：33个自注意神经网络、30个多专家网络层和1个归一化(softmax)网络。其中，一个自注意神经网络后面连接一个多专家网络层，每10个自注意神经网络和10个多专家网络层后面连接一个自注意神经网络，最后连接一个归一化网络。

在步骤202中，调用目标语音识别模型对特征向量进行处理，得到语音数据对应的文本内容。

在一种可能的实现方式中，调用目标语音识别模型对特征向量进行处理，得到语音数据对应的文本内容的过程包括以下步骤2021至步骤2024。

步骤2021、基于共享嵌入式网络对特征向量进行处理，得到语音数据对应的嵌入向量。

在一种可能的实现方式中，将语音数据的特征向量输入共享嵌入式网络，由共享嵌入式网络对特征向量进行处理，得到语音数据对应的嵌入向量。

共享嵌入式网络是一个分类网络，共享嵌入式网络的输出向量是一个高阶特征向量。示例性地，共享嵌入式网络输入的特征向量的维度为120维，输出的嵌入向量的维度一般为512维。嵌入向量表述的是具有分类区分性的特征，不同类别的帧提取出来的高阶特征向量是具有明显的区分性的。

步骤2022、基于目标语音识别模型中的第一个自注意神经网络对特征向量进行处理，得到语音数据对应的第一向量。

在一种可能的实现方式中，将语音数据的特征向量输入目标语音识别模型中的第一个自注意神经网络，基于第一个自注意神经网络对特征向量进行处理，得到语音数据对应的第一向量。

步骤2023、基于语音数据对应的嵌入向量、语音数据对应的第一向量和目标语音识别模型的第一个多专家网络层包括的目标路由矩阵，确定第一个多专家网络层包括的多个前馈神经网络分别对应的概率系数。

在一种可能的实现方式中，基于语音数据对应的嵌入向量、语音数据对应的第一向量和目标语音识别模型的第一个多专家网络层包括的目标路由矩阵，确定第一个多专家网络层包括的多个前馈神经网络分别对应的概率系数的过程为：对语音数据对应的嵌入向量和语音数据对应的第一向量进行拼接，得到语音数据对应的拼接向量；基于语音数据对应的拼接向量和目标语音识别模型的第一个多专家网络层包括的路由对应的目标路由矩阵，确定第一个多专家网络层对应的参考向量，第一个多专家网络层对应的参考向量中包括的数值为第一个多专家网络层包括的多个前馈神经网络分别对应的概率系数。

在一种可能的实现方式中，对语音数据对应的嵌入向量和语音数据对应的第一向量进行拼接，得到语音数据对应的拼接向量的过程为：将语音数据对应的第一向量拼接在语音数据对应的嵌入向量之后，得到拼接向量，拼接向量的维度为嵌入向量的维度与第一向量的维度之和。

在一种可能的实现方式中，参考向量的维度与第一个多专家网络层包括的前馈神经网络的个数一致。例如，第一个多专家网络包括的前馈神经网络的个数为4个，则参考向量的维度为4维，第一个多专家网络层对应的参考向量中第一维度的数值为第一个多专家网络层包括的第一个前馈神经网络的概率系数，第一个多专家网络层对应的参考向量中第二维度的数值为第一个多专家网络层包括的第二个前馈神经网络的概率系数，第一个多专家网络层对应的参考向量中第三维度的数值为第一个多专家网络层包括的第三个前馈神经网络的概率系数，第一个多专家网络层对应的参考向量中第四维度的数值为第一个多专家网络层包括的第四个前馈神经网络的概率系数。

需要说明的是，第一个多专家网络层包括的目标路由矩阵是N*M的矩阵，其中，N与拼接向量的维度一致，M为第一个多专家网络包括的前馈神经网络的个数一致。当目标语音识别模型包括的多专家网络层的个数为多个时，其他多专家网络层包括的目标路由矩阵的确定过程与第一个多专家网络层包括的目标路由矩阵一致，在此不再赘述。

示例性地，语音数据对应的嵌入向量的维度是512维，语音数据对应的第一向量的维度为512维，语音数据对应的拼接向量的维度为1024维，第一个多专家网络层包括的前馈神经网络的个数为4个，则第一个多专家网络层包括的目标路由矩阵为1024*4的矩阵。

在一种可能的实现方式中，基于语音数据对应的拼接向量和目标语音识别模型的第一个多专家网络层包括的目标路由矩阵，按照下述公式(3)确定第一个多专家网络层对应的参考向量r_l：

在上述公式(3)中，r_l为第l个多专家网络层对应的参考向量，e为语音数据对应的嵌入向量，o^l为基于第l个多专家网络层得到的语音数据对应的第一向量，为第l个多专家网络层包括的目标路由矩阵。

示例性地，确定的第一个多专家网络层的参考向量为[0.6，0.2，0.1，0.1]，也即是，第一个多专家网络层包括四个前馈神经网络，其中，第一个前馈神经网络的概率系数为0.6，第二个前馈神经网络的概率系数为0.2，第三个前馈神经网络的概率系数为0.1，第四个前馈神经网络的概率系数为0.1。

步骤2024、基于第一向量和第一层多专家网络层包括的多个前馈神经网络分别对应的概率系数，确定语音数据对应的文本内容。

在一种可能的实现方式中，基于第一向量和第一层多专家网络层包括的多个前馈神经网络分别对应的概率系数，确定语音数据对应的文本内容的过程为：在第一个多专家网络层包括的多个前馈神经网络中确定概率系数最大的目标前馈神经网络；基于第一向量和目标前馈神经网络的概率系数，确定第二向量；基于第二向量，确定语音数据对应的文本内容。

其中，基于第一向量和目标前馈神经网络的概率系数，确定第二向量的过程包括但不限于：在第一个多专家网络层包括的多个前馈神经网络中确定概率系数最大的目标前馈神经网络，基于该目标前馈神经网络对第一向量进行处理，得到一个中间向量，基于中间向量和目标前馈神经网络对应的概率系数，得到第二向量，第二向量为中间向量和目标前馈神经网络的概率系数的乘积。

示例性地，目标前馈神经网络是第一个多专家网络层中的前馈神经网络1，目标前馈神经网络的概率系数为0.6，第一向量为[3，6，7，9]，将第一向量输入前馈神经网络1，得到中间向量为[4，5，6，7]，则基于目标前馈神经网络的概率系数和中间向量，确定的第二向量为[2.4，3.0，3.6，4.2]。

在一种可能的实现方式中，基于第二向量，确定语音数据对应的文本内容包括下述两种情况。

情况一、目标语音识别模型包括一个自注意神经网络和一个多专家网络层，将第二向量对应的文本内容确定为语音数据对应的文本内容。

在一种可能的实现方式中，当目标语音识别模型仅包括一个自注意神经网络和一个多专家网络层时，多专家网络层布局在自注意神经网络之后，第二向量即为目标语音识别模型的输出向量。

服务器中存储有多个候选向量以及候选向量和候选向量对应的文本内容的对应关系，服务器接收到目标语音识别模型的输出向量，也即是第二向量之后，基于第二向量和多个候选向量，计算第二向量和多个候选向量之间的匹配度，确定匹配度满足匹配要求的候选向量，将匹配度满足匹配要求的候选向量所对应的文本内容确定为语音数据对应的文本内容。

如图3所示为本申请实施例提供的一种目标语音识别模型的结构图，在该图3中，目标语音识别模型仅包括一个自注意神经网络和一个多专家网络层，多专家网络层包括中四个前馈神经网络。其中，前馈神经网络1的概率系数为0.6，前馈神经网络2的概率系数为0.2，前馈神经网络3的概率系数为0.1，前馈神经网络4的概率系数为0.1。在该四个前馈神经网络中选择前馈神经网络1，将第一向量输入前馈神经网络1，得到中间向量，基于中间向量和前馈神经网络1的概率系数，得到第二向量。

如下述表一所示为本申请实施例提供的候选向量和候选向量对应的文本内容对应的向量的对应关系的表格。

表一

候选向量	候选向量对应的文本内容
		候选向量一	文本内容一
候选向量二	文本内容二
		候选向量三	文本内容三

在上述表一中，候选向量一对应的文本内容为文本内容一；候选向量二对应的文本内容为文本内容二；候选向量三对应的文本内容为文本内容三。

需要说明的是，上述仅以三个候选向量和三个文本内容为例进行举例说明，并不用来限制服务器中存储的候选向量和文本内容的数量。

示例性地，第二向量和候选向量一的匹配度为50，第二向量和候选向量二的匹配度为80；第三向量和候选向量三的匹配度为70；将匹配度最高的候选向量对应的文本内容确定为语音数据对应的文本内容，也即是，将文本内容二确定为语音数据对应的文本内容。

情况二、目标语音识别模型包括多个自注意神经网络和多个多专家网络层，基于剩余的多专家网络层包括的目标路由矩阵、第二向量和嵌入向量，对第二向量进行更新，得到第三向量，基于第三向量，确定语音数据对应的文本内容。

在一种可能的实现方式中，当目标语音识别模型包括多个自注意神经网络和多个多专家网络层时，第二向量仅为经过第一个自注意神经网络和第一个多专家网络层所输出的向量，并不是整个目标语音识别模型输出的向量。因此，需要遍历剩余的自注意神经网络和多专家网络层，也即是基于剩余的多专家网络层包括的目标路由矩阵、第二向量和嵌入向量，对第二向量进行更新，得到第三向量。

在一种可能的实现方式中，基于剩余的多专家网络层包括的目标路由矩阵、第二向量和嵌入向量，对第二向量进行更新，得到第三向量的过程为：基于第二向量、嵌入向量和目标多专家网络层包括的目标路由矩阵，确定目标多专家网络层包括的多个前馈神经网络分别对应的概率系数，目标多专家网络层为剩余多专家网络层中的任意一个；确定目标多专家网络层对应的目标前馈神经网络；基于第二向量和目标多专家网络层对应的目标前馈神经网络，得到第三向量。

在一种可能的实现方式中，响应于目标多专家网络层为目标语音识别模型的最后一个多专家网络层，将第三向量对应的文本内容确定为语音数据对应的文本内容。

在一种可能的实现方式中，响应于目标多专家网络层不是目标语音识别模型的最后一个多专家网络层，则继续上述迭代过程，直至遍历到目标语音识别模型的最后一个多专家网络层，将最后一个多专家网络层输出的向量对应的文本内容确定为语音数据对应的文本内容。

如图4所示为本申请实施例提供的另一种目标语音识别模型的结构图，在该图4中，目标语音识别模型包括两个多专家网络层和两个自注意神经网络，第一个自注意神经网络后面紧跟第一个多专家网络层，第一个多专家网络层后面紧跟第二个自注意神经网络，第二个自注意神经网络后面紧跟第二个多专家网络层。其中，第一个多专家网络层包括四个前馈神经网络，分别为前馈神经网络1、前馈神经网络2、前馈神经网络3和前馈神经网络4。第二个多专家网络层包括四个前馈神经网络，分别为前馈神经网络5、前馈神经网络6、前馈神经网络7和前馈神经网络8。

将语音数据对应的特征向量输入共享嵌入式网络，得到嵌入向量；将语音数据对应的特征向量输入第一个自注意神经网络，得到第一向量，基于第一向量、嵌入向量和第一个多专家网络层包括的目标路由矩阵，确定出第一个多专家网络层包括的多个前馈神经网络分别对应的概率系数，前馈神经网络1的概率系数为0.6，前馈神经网络2的概率系数为0.2，前馈神经网络3的概率系数为0.1，前馈神经网络4的概率系数为0.1。在第一个多专家网络层包括的多个前馈神经网络中确定前馈神经网络1，将第一向量输入前馈神经网络1，得到第一中间向量，基于第一中间向量和前馈神经网络1对应的概率系数，得到第二向量。此时，第一个自注意神经网络和第一个多专家网络层已处理完毕，接着将第二向量输入第二个自注意神经网络，得到第二中间向量。基于第二中间向量、嵌入向量和第二个多专家网络层包括的目标路由矩阵，得到第二个多专家网络层包括的多个前馈神经网络分别对应的概率系数，前馈神经网络5的概率系数为0.1，前馈神经网络6的概率系数为0.1，前馈神经网络7的概率系数为0.8，前馈神经网络8的概率系数为0。在第二个多专家网络层包括的多个前馈神经网络中确定前馈神经网络7，将第二中间向量输入前馈神经网络7，得到第三中间向量，基于第三中间向量和前馈神经网络7对应的概率系数，得到第三向量，第三向量也即是整个目标语音识别模型输出的向量。

在一种可能的实现方式中，基于第三向量确定语音数据对应的文本内容的过程与上述基于第二向量确定语音数据对应的文本内容的过程一致，在此不再赘述。

在一种可能的实现方式中，当目标语音识别模型中包括的自注意神经网络和多专家网络层的个数超过两个时，目标语音识别模型对语音数据对应的特征向量的处理过程与上述目标语音识别模型中包括的自注意神经网络和多专家网络层的个数为两个时的处理过程类似，在此不再赘述。

上述方法在语音识别模型的结构中加入共享嵌入式网络，由于共享嵌入式网络本身具有区分性的特征，使得语音识别模型也具有区分性。而且，语音识别模型包括的目标路由矩阵是基于损失函数得到的，使得确定的目标路由矩阵更加准确，提高了语音识别模型的识别准确性，进而使得使用语音识别模型进行语音识别时得到的文本内容和语音数据的匹配度较高，也即是语音识别的准确性较高。

语音识别模型中多专家网络层中包括的前馈神经网络的概率系数基于共享嵌入式网络和目标路由矩阵所确定，使得多专家网络层中包括的前馈神经网络的概率系数的确定更加准确，进而能够进一步提高语音识别模型的识别准确性。

基于上述图1所述的实施环境，本申请实施例提供一种语音识别模型的训练方法，以该方法应用于图1中的服务器12为例，如图5所示，本申请实施例提供的方法可以包括如下步骤：

在步骤501中，获取样本语音数据和初始语音识别模型。

在一种可能的实现方式中，初始语音识别模型的结构包括共享嵌入式网络和前层网络，前层网络包括自注意神经网络和多专家网络层，多专家网络层包括初始路由矩阵和多个前馈神经网络。初始语音识别模型的训练过程即为对初始语音识别模型中的初始路由矩阵进行训练，以得到满足要求的路由矩阵，也即是目标路由矩阵，将包含有目标路由矩阵的语音识别模型确定为目标语音识别模型。

在一种可能的实现方式中，样本语音数据为样本数据集中的语音数据，样本数据集可以是阅读数据集，也可以是对话数据集，还可以是口语数据集，还可以是AISHELL2-dev数据集。其中，阅读数据集中包括1001句语音数据；对话数据集中包括1665句语音数据；口语数据集中包括2952句语音数据；AISHELL2-dev数据集中包括2500句语音数据。样本语音数据可以是上述任一种数据集中的语音数据，本申请实施例对此不加以限定。获取的样本语音数据的个数可以是一个，也可以是多个，本申请实施例对此也不加以限定。

在步骤502中，对样本语音数据进行处理，得到样本语音数据对应的样本特征向量。

在一种可能的实现方式中，对样本语音数据进行处理，得到样本语音数据对应的样本特征向量的过程与上述步骤201中的对语音数据进行处理，得到语音数据对应的特征向量的过程一致，在此不再赘述。

在步骤503中，基于共享嵌入式网络对样本特征向量进行处理，得到样本语音数据对应的样本嵌入向量。

在一种可能的实现方式中，将样本特征向量输入初始语音识别模型中的共享嵌入式网络，得到样本语音数据对应的样本嵌入向量。

在步骤504中，基于样本语音数据对应的样本特征向量、样本语音数据对应的样本嵌入向量和初始路由矩阵，确定样本语音数据对应的样本参考向量。

在一种可能的实现方式中，若初始语音识别模型包括一个自注意神经网络和一个多专家网络层，多专家网络层中包括一个初始路由矩阵和多个前馈神经，将样本语音数据对应的样本特征向量输入自注意神经网络，得到向量一。基于向量一、样本嵌入向量和初始路由矩阵，确定多专家网络层包括的多个前馈神经网络分别对应的概率系数。在多专家网络层包括的多个前馈神经网络中确定概率系数最大的前馈神经网络。将向量一输入概率系数最大的前馈神经网络，得到向量二。基于向量二和概率系数最大的前馈神经网络的概率系数，确定向量三。由于初始语音识别模型仅包括一个自注意神经网络和一个多专家网络层，向量三为初始语音识别网络输出的向量，也即是样本特征向量已遍历初始语音识别模型中的所有自注意神经网络和多专家网络层，因此，将该向量三确定为样本语音数据对应的样本参考向量。

在一种可能的实现方式中，若初始语音识别模型包括多个自注意神经网络和多个多专家网络层，每个多专家网络层中包括一个初始路由矩阵和多个前馈神经网络，基于上述过程得到向量三，但是向量三仅遍历了第一个自注意神经网络和第一个多专家网络层，并没有遍历完整个初始语音识别模型，因此，需要遍历完初始语音识别模型中剩余的自注意神经网络和多专家网络层。其中，遍历其他自注意神经网络和多专家网络层的过程与上述遍历第一个自注意神经网络和第一个多专家网络层的过程一致，在此不再一一赘述。当遍历完整个初始语音识别模型包括的所有自注意神经网络和所有多专家网络层之后，输出向量四，将该向量四确定为样本语音数据对应的样本参考向量。

在步骤505中，基于样本语音数据对应的样本特征向量和样本语音数据对应的样本参考向量，确定初始语音识别模型对应的损失值。

在一种可能的实现方式中，基于样本语音数据对应的样本特征向量和样本语音数据对应的样本参考向量，确定初始语音识别模型对应的损失值的过程包括下述步骤5051至步骤5054。

步骤5051、基于样本语音数据对应的样本特征向量和样本语音数据对应的样本参考向量，确定初始语音识别模型对应的时间联结分类损失值。

在一种可能的实现方式中，基于样本语音数据对应的样本特征向量和样本语音数据对应的样本参考向量，按照时间联结分类损失函数(connectionist temporalclassification loss，CTC loss)确定初始语音识别模型对应的时间联结分类损失值。其中，时间联结分类损失函数如下述公式(4)所示。

L_r(x，y)＝-∑logp(y|x) (4)

在上述公式(4)中，L_r(x，y)为时间联结分类损失值，x为样本语音数据对应的样本特征向量，y为样本语音数据对应的样本参考向量。

步骤5052、基于样本语音数据对应的样本特征向量，确定初始语音识别模型对应的L1稀疏损失值。

在一种可能的实现方式中，基于样本语音数据对应的样本特征向量，确定初始语音识别模型对应的L1稀疏损失值的过程如下：基于样本语音数据对应的样本特征向量，确定各个多专家网络层对应的第一概率向量；基于各个多专家网络层对应的第一概率向量，确定各个多专家网络层对应的L1稀疏损失值；将各个多专家网络层对应的L1稀疏损失值相加，得到初始语音识别模型对应的L1稀疏损失值。

在一种可能的实现方式中，基于样本语音数据对应的样本特征向量，确定各个多专家网络层对应的第一概率向量的过程为：基于样本语音数据对应的样本特征向量，确定各个多专家网络层分别对应的参考向量；对各个多专家网络层分别对应的参考向量进行L2范数处理，得到各个多专家网络层对应的第一数值；基于各个多专家网络层分别对应的参考向量和各个多专家网络层对应的第一数值，确定各个多专家网络层对应的第一概率向量。

在一种可能的实现方式中，基于各个多专家网络层分别对应的参考向量和各个多专家网络层对应的第一数值，按照下述公式(5)确定各个多专家网络层对应的第一概率向量

在上述公式(5)中，为输入样本语音数据i对应的样本特征向量之后，第a个多专家网络层对应的第一概率向量，f_ia为输入样本语音数据i之后，第a个多专家网络层对应的参考向量，||f_ia||₂为输入样本语音数据i之后，第a个多专家网络层对应的第一数值。

需要说明的是，多专家网络层对应的参考向量与输入的样本语音数据的样本特征向量息息相关，多专家网络层对应的参考向量随着输入的样本语音数据的样本特征向量的变化而变化。

在一种可能的实现方式中，基于各个多专家网络层对应的第一概率向量，确定各个多专家网络层对应的L1稀疏损失值的过程为：对各个多专家网络层分别对应的第一概率向量进行L1范数处理，得到各个多专家网络层对应的L1稀疏损失值。

按照下述公式(6)对各个多专家网络层分别对应的第一概率向量进行L1范数处理，得到各个多专家网络层对应的L1稀疏损失值L_sa：

在上述公式(6)中，L_sa为第a个多专家网络层对应的L1稀疏损失值，m为样本语音数据的总数量，为输入样本语音数据i对应的样本特征向量之后，第a个多专家网络层对应的第一概率向量。

步骤5053、基于样本语音数据对应的样本特征向量，确定初始语音识别模型对应的均值重要性损失值。

在一种可能的实现方式中，基于样本语音数据对应的样本特征向量，确定初始语音识别模型对应的均值重要性损失值的过程如下：基于样本语音数据对应的样本特征向量，确定各个多专家网络层对应的第二概率向量；基于各个多专家网络层对应的第二概率向量，确定各个多专家网络层对应的均值重要性损失值；将各个多专家网络层对应的均值重要性损失值相加，得到初始语音识别模型对应的均值重要性损失值。

在一种可能的实现方式中，基于样本语音数据对应的样本特征向量，确定各个多专家网络层对应的第二概率向量的过程如下：基于样本语音数据对应的样本特征向量，确定各个多专家网络层分别对应的参考向量；基于各个多专家网络层分别对应的参考向量，确定各个多专家网络层对应的第二概率向量。

其中，基于各个多专家网络层分别对应的参考向量，按照下述公式(7)确定各个多专家网络层对应的第二概率向量Imp_a：

在上述公式(7)中，Imp_a为输入样本语音数据i之后，第a个多专家网络层对应的第二概率向量，m为样本语音数据的总数量，f_ia为输入样本语音数据i之后，第a个多专家网络层对应的参考向量。

在一种可能的实现方式中，基于各个多专家网络层对应的第二概率向量，确定各个多专家网络层对应的均值重要性损失值的过程为：基于各个多专家网络层对应的第二概率向量中包括的数值，确定各个多专家网络层对应的均值重要性损失。

基于各个多专家网络层对应的第二概率向量中包括的数值，按照下述公式(8)确定各个多专家网络层对应的均值重要性损失值L_ma：

在上述公式(8)中，L_ma为第a个多专家网络层对应的均值重要性损失值，n为第a个多专家网络层包括的前馈神经网络的个数，Imp_aj为第a个多专家网络层对应的第二概率向量中第j维向量的数值。

步骤5054、基于初始语音识别模型对应的时间联结分类损失值、初始语音识别模型对应的L1稀疏损失值和初始语音识别模型对应的均值重要性损失值，确定初始语音识别模型对应的损失值。

在一种可能的实现方式中，基于初始语音识别模型对应的时间联结分类损失值、初始语音识别模型对应的L1稀疏损失值、初始语音识别模型对应的均值重要性损失值，时间联结分类损失值对应的权重参数、L1稀疏损失值对应的权重参数和均值重要性损失值对应的权重参数，确定初始语音识别模型对应的损失值。

在一种可能的实现方式中，基于初始语音识别模型对应的时间联结分类损失值、初始语音识别模型对应的L1稀疏损失值、初始语音识别模型对应的均值重要性损失值、时间联结分类损失值对应的权重参数、L1稀疏损失值对应的权重参数和均值重要性损失值对应的权重参数，按照下述公式(9)确定初始语音识别模型对应的损失值L(x，y)：

L(x，y)＝L_r(x，y)+δL_s(x)+βL_m(x)+γL_r(x，y) (9)

在上述公式(9)中，L_r(x，y)为初始语音识别模型对应的时间联结分类损失值，δ为L1稀疏损失值对应的权重参数，L_s(x)为初始语音识别模型对应的L1稀疏损失值，β为均值重要性损失值对应的权重参数，L_m(x)为初始语音识别模型对应的均值重要性损失值，γ为时间联结分类损失值对应的权重参数。

示例性地，δ的取值为0.1，β的取值为0.1，γ的取值为0.01。当然，δ、β和γ的取值还可以是其他数值，本申请实施例对此不加以限定。

为使上述初始语音识别模型对应的损失值的确定过程更加明了，本申请以样本语音数据为数据1，初始语音识别模型仅包括一个自注意神经网络和一个多专家网络层，多专家网络层包括的前馈神经网络的个数为2个为例进行说明。对数据1进行处理，得到数据1对应的特征向量1，将特征向量1输入共享嵌入式网络，得到嵌入向量1，将特征向量1输入自注意神经网络，得到样本特征向量1[3，5]，基于多专家网络层中路由的初始路由矩阵、嵌入向量1和样本特征向量1，得到参考向量[0.3，0.7]，其中，0.3为多专家网络层包括的第一个前馈神经网络对应的概率系数，0.7为多专家网络层包括的第二个前馈神经网络对应的概率系数。基于样本特征向量1、第二个前馈神经网络和第二个前馈神经网络的概率系数，确定样本参考向量1[2，4]。也即是x为[3，5]，y为[2，4]。

初始语音识别模型对应的时间联结分类损失值为1.2。基于参考向量、上述公式(5)确定多专家网络层对应的第一概率向量基于多专家网络层对应的第一概率向量和上述公式(6)确定多专家网络层对应的L1稀疏损失值/> 由于初始语音识别模型仅包括一个多专家网络层，因此，初始语音识别模型对应的L1损失值为1.31。

基于参考向量、上述公式(7)确定多专家网络层对应的第二概率向量基于多专家网络层对应的第二概率向量和上述公式(8)确定多专家网络层对应的均值重要性损失值/> 由于初始语音识别模型仅包括一个多专家网络层，因此，初始语音识别模型对应的均值重要性损失值为1.16。

基于初始语音识别模型对应的时间联结分类损失值、初始语音识别模型对应的L1稀疏损失值和初始语音识别模型对应的均值重要性损失值，按照上述公式(9)确定初始语音识别模型对应的损失值为L(x，y)＝L_r(x，y)+δL_s(x)+βL_m(x)+γL_r(x，y)＝1.2+0.1*1.31+0.1*1.16+0.01*1.2＝1.459。

需要说明的是，上述仅以样本语音数据的个数为一个，初始语音识别模型中包括的多专家网络层为一个，对初始语音识别模型的损失值的确定过程为例进行说明，当样本语音数据为多个，初始语音识别模型中包括的多专家网络层个数为多个时，初始语音识别模型的损失值的确定过程与上述过程一致，在此不再赘述。

在步骤506中，基于初始语音识别模型对应的损失值，调整初始语音识别模型中的初始路由矩阵，得到目标路由矩阵，将包括目标路由矩阵的语音识别模型确定为目标语音识别模型。

在一种可能的实现方式中，确定出初始语音识别模型对应的损失值之后，基于初始语音识别模型对应的损失值和第一阈值进行比较，来确定初始语音识别模型中的初始路由矩阵是否需要调整。如果初始语音识别模型对应的损失值小于第一阈值，说明初始语音识别模型的性能较好，初始语音识别模型中的初始路由矩阵满足要求，不需要调整。将包含有初始路由矩阵的语音识别模型确定为目标语音识别模型。

如果初始语音识别模型对应的损失值不小于第一阈值，则对初始语音识别模型中的初始路由矩阵进行调整，基于调整后的路由矩阵和样本特征向量，重新确定样本参考向量，直至重新确定的样本参考向量和样本特征向量之间的损失值小于第一阈值时，将调整后的路由矩阵确定为目标路由矩阵，将包含有目标路由矩阵的语音识别模型确定为目标语音识别模型。

其中，基于调整后的路由矩阵和样本特征向量，重新确定样本参考向量的过程与上述步骤504中的过程一致，在此不再赘述。基于重新确定的样本参考向量和样本特征向量确定损失值的过程与上述步骤505中确定初始语音识别模型的损失值的过程一致，在此不再赘述。

上述方法通过共享嵌入式网络和损失函数对初始语音识别模型中多专家网络层包括的初始路由矩阵进行更新，以得到目标路由矩阵，将包含有目标路由矩阵的语音识别模型确定为目标语音识别模型，基于目标语音识别模型进行语音识别，进而能够提高语音识别的识别准确性。

在一种可能的实现方式中，以DFSMN-SANM语音识别模型为原始语音识别模型，在DFSMN-SANM语音识别模型中加入L1稀疏损失函数，得到第一语音识别模型，通过步骤501中涉及的四个训练集得到的原始语音识别模型和第一语音识别模型出现错误的概率如下述表二所示。

表二

模型	原始语音识别模型	第一语音识别模型
			参数量	71M(兆)	134M(兆)
计算复杂度	2.3	2.3
			阅读数据集	2.0	1.69
AISHELL2-dev数据集	4.52	4.25
			对话数据集	22.92	22.47
口语数据集	24.95	24.70

由上述表二可知，在参数量增加的情况下，第一语音识别模型的计算复杂度并没有增加，且第一语音识别模型的识别错误率低于原始语音识别模型的识别错误率，也即是第一语音识别模型的识别准确率高于原始语音识别模型。

在一种可能的实现方式中，在第一语音识别模型中加入共享嵌入式网络，得到第二语音识别模型，通过步骤501中涉及的四个训练集得到的第一语音识别模型和第二语音识别模型出现错误的概率如下述表三所示。

表三

模型	第一语音识别模型	第二语音识别模型
			参数量	134M(兆)	134M(兆)
计算复杂度	2.3	2.3
			阅读数据集	1.69	1.63
AISHELL2-dev数据集	4.25	4.16
			对话数据集	22.47	22.15
口语数据集	24.70	24.15

由上述表二可知，增加共享嵌入式网络之后，第二语音识别模型的参数量和计算复杂度并没有增加，第二语音识别模型的识别错误率低于第一语音识别模型的识别错误率，也即是第二语音识别模型的识别准确率高于第一语音识别模型。

在一种可能的实现方式中，在第二语音识别模型中加入均值重要性损失函数，得到第三语音识别模型，通过步骤501中涉及的四个训练集得到的第三语音识别模型和第二语音识别模型出现错误的概率如下述表四所示。

表四

模型	第二语音识别模型	第三语音识别模型
			参数量	134M(兆)	134M(兆)
计算复杂度	2.3	2.3
			阅读数据集	1.63	1.58
AISHELL2-dev数据集	4.16	4.00
			对话数据集	22.15	21.57
口语数据集	24.15	23.31

由上述表四可知，加入均值重要性损失函数之后，第三语音识别模型的参数量和计算复杂度并没有增加，第三语音识别模型的识别错误率低于第二语音识别模型的识别错误率，也即是第三语音识别模型的识别准确率高于第二语音识别模型。

在一种可能的实现方式中，对原始语音识别模型增大四倍，并在原始语音识别模型中加入共享嵌入式网络、L1稀疏损失函数和均值重要性损失函数之后得到初始语音识别模型，通过步骤501中涉及的四个训练集得到的原始语音识别模型和初始语音识别模型出现错误的概率如下述表五所示。

表五

由上述表五可知，原始语音识别模型增大4倍之后，参数量变大，但是计算复杂度并没有增加，初始语音识别模型的识别错误率低于原始语音识别模型的识别错误率，也即是初始语音识别模型的识别准确率高于原始语音识别模型。

综上所述，在加入L1稀疏损失函数、均值重要性损失函数和共享嵌入式网络之后得到的初始语音识别模型的识别准确度高于原始语音识别模型的识别准确度。

图6所示为本申请实施例提供的一种语音识别装置的结构示意图，如图6所示，该装置包括：

获取单元601，用于获取待识别的语音数据对应的特征向量和目标语音识别模型，目标语音识别模型的结构包括共享嵌入式网络和前层网络，前层网络包括多专家网络层和自注意神经网络，多专家网络层包括目标路由矩阵和多个前馈神经网络，目标路由矩阵基于损失函数得到，共享嵌入式网络和目标路由矩阵用于确定多个前馈神经网络分别对应的概率系数；

处理单元602，用于调用目标语音识别模型对特征向量进行处理，得到语音数据对应的文本内容。

在一种可能的实现方式中，处理单元602，用于基于共享嵌入式网络对特征向量进行处理，得到语音数据对应的嵌入向量；

基于目标语音识别模型中的第一个自注意神经网络对特征向量进行处理，得到语音数据对应的第一向量；

基于语音数据对应的嵌入向量、语音数据对应的第一向量和目标语音识别模型的第一个多专家网络层包括的目标路由矩阵，确定第一个多专家网络层包括的多个前馈神经网络分别对应的概率系数；

基于第一向量和第一个多专家网络层包括的多个前馈神经网络分别对应的概率系数，确定语音数据对应的文本内容。

在一种可能的实现方式中，处理单元602，用于在第一个多专家网络层包括的多个前馈神经网络中确定概率系数最大的目标前馈神经网络；

基于第一向量和目标前馈神经网络的概率系数，得到第二向量；

基于第二向量，确定语音数据对应的文本内容。

在一种可能的实现方式中，处理单元602，用于响应于目标语音识别模型包括一个自注意神经网络和一个多专家网络层，将第二向量对应的文本内容确定为语音数据对应的文本内容；

响应于目标语音识别模型包括多个自注意神经网络和多个多专家网络层，基于剩余多专家网络层包括的目标路由矩阵、第二向量和嵌入向量，对第二向量进行更新，得到第三向量；基于第三向量，确定语音数据对应的文本内容。

在一种可能的实现方式中，处理单元602，用于基于第二向量、嵌入向量和目标多专家网络层包括的目标路由矩阵，确定目标多专家网络层包括的多个前馈神经网络分别对应的概率系数，目标多专家网络层为剩余多专家网络层中的任意一个；

确定目标多专家网络层对应的目标前馈神经网络；

基于第二向量和目标多专家网络层对应的目标前馈神经网络，得到第三向量；

响应于目标多专家网络层为目标语音识别模型的最后一个多专家网络层，将第三向量对应的文本内容确定为语音数据对应的文本内容。

在一种可能的实现方式中，处理单元602，用于对语音数据对应的嵌入向量和语音数据对应的第一向量进行拼接，得到语音数据对应的拼接向量；

基于语音数据对应的拼接向量和目标语音识别模型的第一个多专家网络层包括的目标路由矩阵，确定第一个多专家网络层包括的多个前馈神经网络分别对应的概率系数。

上述装置在语音识别模型的结构中加入共享嵌入式网络，由于共享嵌入式网络本身具有区分性的特征，使得语音识别模型也具有区分性。而且，语音识别模型包括的目标路由矩阵是基于损失函数得到的，使得确定的目标路由矩阵更加准确，提高了语音识别模型的识别准确性，进而使得使用语音识别模型进行语音识别时得到的文本内容和语音数据的匹配度较高，也即是语音识别的准确性较高。

图7所示为本申请实施例提供的一种语音识别模型的训练装置的结构示意图，如图7所示，该装置包括：

获取单元701，用于获取样本语音数据和初始语音识别模型，初始语音识别模型的结构共享嵌入式网络和前层网络，前层网络包括多专家网络层和自注意神经网络，多专家网络层包括初始路由矩阵和多个前馈神经网络；

第一处理单元702，用于对样本语音数据进行处理，得到样本语音数据对应的样本特征向量；

第二处理单元703，用于基于共享嵌入式网络对样本特征向量进行处理，得到样本语音数据对应的样本嵌入向量；

第一确定单元704，用于基于样本语音数据对应的样本特征向量、样本语音数据对应的样本嵌入向量和初始路由矩阵，确定样本语音数据对应的样本参考向量；

第二确定单元705，用于基于样本语音数据对应的样本特征向量和样本语音数据对应的样本参考向量，确定初始语音识别模型对应的损失值；

第三确定单元706，用于基于初始语音识别模型对应的损失值，调整初始语音识别模型中的初始路由矩阵，得到目标路由矩阵，将包括目标路由矩阵的语音识别模型确定为目标语音识别模型。

在一种可能的实现方式中，第二确定单元705，用于基于样本语音数据对应的样本特征向量和样本语音数据对应的样本参考向量，确定初始语音识别模型对应的时间联结分类损失值；

基于样本语音数据对应的样本特征向量，确定初始语音识别模型对应的L1稀疏损失值；

基于样本语音数据对应的样本特征向量，确定初始语音识别模型对应的均值重要性损失值；

基于初始语音识别模型对应的时间联结分类损失值、初始语音识别模型对应的L1稀疏损失值和初始语音识别模型对应的均值重要性损失值，确定初始语音识别模型对应的损失值。

在一种可能的实现方式中，第二确定单元705，用于基于样本语音数据对应的样本特征向量，确定各个多专家网络层对应的第一概率向量；

基于各个多专家网络层对应的第一概率向量，确定各个多专家网络层对应的L1稀疏损失值；

将各个多专家网络层对应的L1稀疏损失值相加，得到初始语音识别模型对应的L1稀疏损失值。

在一种可能的实现方式中，第二确定单元705，用于基于样本语音数据对应的样本特征向量，确定各个多专家网络层分别对应的参考向量；

对各个多专家网络层分别对应的参考向量进行L2范数处理，得到各个多专家网络层对应的第一数值；

基于各个多专家网络层分别对应的参考向量和各个多专家网络层对应的第一数值，确定各个多专家网络层对应的第一概率向量；

对各个多专家网络层分别对应的第一概率向量进行L1范数处理，得到各个多专家网络层对应L1稀疏损失值。

在一种可能的实现方式中，第二确定单元705，用于基于样本语音数据对应的样本特征向量，确定各个多专家网络层对应的第二概率向量；

基于各个多专家网络层对应的第二概率向量，确定各个多专家网络层对应的均值重要性损失值；

将各个多专家网络层对应的均值重要性损失值相加，得到初始语音识别模型对应的均值重要性损失值。

基于各个多专家网络层分别对应的参考向量，确定各个多专家网络层对应的第二概率向量；

基于各个多专家网络层对应的第二概率向量中包括的数值，确定各个多专家网络层对应的均值重要性损失。

在一种可能的实现方式中，第三确定单元706，用于响应于初始语音识别模型对应的损失值小于第一阈值，将初始路由矩阵确定为目标路由矩阵；

响应于初始语音识别模型对应的损失值不小于第一阈值，对初始路由矩阵进行调整，基于调整后的路由矩阵和样本特征向量，重新确定样本参考向量，直至重新确定的样本参考向量和样本特征向量之间的损失值小于第一阈值，将调整后的路由矩阵确定为目标路由矩阵。

在一种可能的实现方式中，第二确定单元705，用于基于初始语音识别模型对应的时间联结分类损失值、初始语音识别模型对应的L1稀疏损失值、初始语音识别模型对应的均值重要性损失值，时间联结分类损失值对应的权重参数、L1稀疏损失值对应的权重参数和均值重要性损失值对应的权重参数，确定初始语音识别模型对应的损失值。

上述装置通过共享嵌入式网络和损失函数对初始语音识别模型中多专家网络层包括的初始路由矩阵进行更新，以得到目标路由矩阵，将包含有目标路由矩阵的语音识别模型确定为目标语音识别模型，基于目标语音识别模型进行语音识别，进而能够提高语音识别的识别准确性。

应理解的是，上述图6或图7提供的装置在实现其功能时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的装置与方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图8示出了本申请一个示例性实施例提供的电子设备800的结构框图。该电子设备800可以是便携式移动终端，比如：智能手机、平板电脑、MP3播放器(Moving PictureExperts Group Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(MovingPicture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。电子设备800还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，电子设备800包括有：处理器801和存储器802。

处理器801可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器801可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器801也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器801可以集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器801还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器802可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器802还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器802中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器801所执行以实现本申请中方法实施例提供的语音识别方法、语音识别模型的训练方法。

在一些实施例中，电子设备800还可选包括有：外围设备接口803和至少一个外围设备。处理器801、存储器802和外围设备接口803之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口803相连。具体地，外围设备包括：射频电路804、显示屏805、摄像头组件806、音频电路807、定位组件808和电源809中的至少一种。

外围设备接口803可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器801和存储器802。在一些实施例中，处理器801、存储器802和外围设备接口803被集成在同一芯片或电路板上；在一些其他实施例中，处理器801、存储器802和外围设备接口803中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路804用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路804通过电磁信号与通信网络以及其他通信设备进行通信。射频电路804将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路804包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路804可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：万维网、城域网、内联网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路804还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本申请对此不加以限定。

显示屏805用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏805是触摸显示屏时，显示屏805还具有采集在显示屏805的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器801进行处理。此时，显示屏805还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏805可以为一个，设置在电子设备800的前面板；在另一些实施例中，显示屏805可以为至少两个，分别设置在电子设备800的不同表面或呈折叠设计；在另一些实施例中，显示屏805可以是柔性显示屏，设置在电子设备800的弯曲表面上或折叠面上。甚至，显示屏805还可以设置成非矩形的不规则图形，也即异形屏。显示屏805可以采用LCD(Liquid Crystal Display，液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。

摄像头组件806用于采集图像或视频。可选地，摄像头组件806包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件806还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路807可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器801进行处理，或者输入至射频电路804以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在电子设备800的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器801或射频电路804的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路807还可以包括耳机插孔。

定位组件808用于定位电子设备800的当前地理位置，以实现导航或LBS(LocationBased Service，基于位置的服务)。

电源809用于为电子设备800中的各个组件进行供电。电源809可以是交流电、直流电、一次性电池或可充电电池。当电源809包括可充电电池时，该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池，无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。

在一些实施例中，电子设备800还包括有一个或多个传感器810。该一个或多个传感器810包括但不限于：加速度传感器811、陀螺仪传感器812、压力传感器813、指纹传感器814、光学传感器815以及接近传感器816。

加速度传感器811可以检测以电子设备800建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器811可以用于检测重力加速度在三个坐标轴上的分量。处理器801可以根据加速度传感器811采集的重力加速度信号，控制显示屏805以横向视图或纵向视图进行用户界面的显示。加速度传感器811还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器812可以检测电子设备800的机体方向及转动角度，陀螺仪传感器812可以与加速度传感器811协同采集用户对电子设备800的3D动作。处理器801根据陀螺仪传感器812采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器813可以设置在电子设备800的侧边框和/或显示屏805的下层。当压力传感器813设置在电子设备800的侧边框时，可以检测用户对电子设备800的握持信号，由处理器801根据压力传感器813采集的握持信号进行左右手识别或快捷操作。当压力传感器813设置在显示屏805的下层时，由处理器801根据用户对显示屏805的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器814用于采集用户的指纹，由处理器801根据指纹传感器814采集到的指纹识别用户的身份，或者，由指纹传感器814根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器801授权该用户执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器814可以被设置在电子设备800的正面、背面或侧面。当电子设备800上设置有物理按键或厂商Logo时，指纹传感器814可以与物理按键或厂商Logo集成在一起。

光学传感器815用于采集环境光强度。在一个实施例中，处理器801可以根据光学传感器815采集的环境光强度，控制显示屏805的显示亮度。具体地，当环境光强度较高时，调高显示屏805的显示亮度；当环境光强度较低时，调低显示屏805的显示亮度。在另一个实施例中，处理器801还可以根据光学传感器815采集的环境光强度，动态调整摄像头组件806的拍摄参数。

接近传感器816，也称距离传感器，通常设置在电子设备800的前面板。接近传感器816用于采集用户与电子设备800的正面之间的距离。在一个实施例中，当接近传感器816检测到用户与电子设备800的正面之间的距离逐渐变小时，由处理器801控制显示屏805从亮屏状态切换为息屏状态；当接近传感器816检测到用户与电子设备800的正面之间的距离逐渐变大时，由处理器801控制显示屏805从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图8中示出的结构并不构成对电子设备800的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

图9为本申请实施例提供的服务器的结构示意图，该服务器900可因配置或性能不同而产生比较大的差异，可以包括一个或多个处理器(Central Processing Units，CPU)901和一个或多个的存储器902，其中，该一个或多个存储器902中存储有至少一条程序代码，该至少一条程序代码由该一个或多个处理器901加载并执行以实现上述各个方法实施例提供的语音识别方法、语音识别模型的训练方法。当然，该服务器900还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该服务器900还可以包括其他用于实现设备功能的部件，在此不做赘述。

在示例性实施例中，还提供了一种计算机可读存储介质，该存储介质中存储有至少一条程序代码，该至少一条程序代码由处理器加载并执行，以使计算机实现上述任一种语音识别方法、语音识别模型的训练方法。

可选地，上述计算机可读存储介质可以是只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、只读光盘(Compact Disc Read-OnlyMemory，CD-ROM)、磁带、软盘和光数据存储设备等。

在示例性实施例中，还提供了一种计算机程序或计算机程序产品，该计算机程序或计算机程序产品中存储有至少一条计算机指令，该至少一条计算机指令由处理器加载并执行，以使计算机实现上述任一种语音识别方法、语音识别模型的训练方法。

应当理解的是，在本文中提及的“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

以上所述仅为本申请的示例性实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种语音识别方法，其特征在于，所述方法包括：

基于所述共享嵌入式网络对所述特征向量进行处理，得到所述语音数据对应的嵌入向量；基于所述目标语音识别模型中的第一个自注意神经网络对所述特征向量进行处理，得到所述语音数据对应的第一向量；

2.根据权利要求1所述的方法，其特征在于，所述基于所述第一向量和所述第一个多专家网络层包括的多个前馈神经网络分别对应的概率系数，确定所述语音数据对应的文本内容，包括：

在所述第一个多专家网络层包括的多个前馈神经网络中确定概率系数最大的目标前馈神经网络；

基于所述第二向量，确定所述语音数据对应的文本内容。

3.根据权利要求2所述的方法，其特征在于，所述基于所述第二向量，确定所述语音数据对应的文本内容，包括：

响应于所述目标语音识别模型包括一个自注意神经网络和一个多专家网络层，将所述第二向量对应的文本内容确定为所述语音数据对应的文本内容；

4.根据权利要求3所述的方法，其特征在于，所述基于剩余多专家网络层包括的目标路由矩阵、所述第二向量和所述嵌入向量，对所述第二向量进行更新，得到第三向量，包括：

基于所述第二向量、所述嵌入向量和目标多专家网络层包括的目标路由矩阵，确定所述目标多专家网络层包括的多个前馈神经网络分别对应的概率系数，所述目标多专家网络层为所述剩余多专家网络层中的任意一个；

确定所述目标多专家网络层对应的目标前馈神经网络；

所述基于所述第三向量，确定所述语音数据对应的文本内容，包括：

5.根据权利要求1至4任一所述的方法，其特征在于，所述基于所述语音数据对应的嵌入向量、所述语音数据对应的第一向量和所述目标语音识别模型的第一个多专家网络层包括的目标路由矩阵，确定所述第一个多专家网络层包括的多个前馈神经网络分别对应的概率系数，包括：

对所述语音数据对应的嵌入向量和所述语音数据对应的第一向量进行拼接，得到所述语音数据对应的拼接向量；

6.一种语音识别模型的训练方法，其特征在于，所述方法包括：

基于所述初始语音识别模型对应的损失值，调整所述初始语音识别模型中的初始路由矩阵，得到目标路由矩阵，将包括所述目标路由矩阵的语音识别模型确定为目标语音识别模型。

7.根据权利要求6所述的方法，其特征在于，所述基于所述样本语音数据对应的样本特征向量和所述样本语音数据对应的样本参考向量，确定所述初始语音识别模型对应的损失值，包括：

基于所述样本语音数据对应的样本特征向量和所述样本语音数据对应的样本参考向量，确定所述初始语音识别模型对应的时间联结分类损失值；

8.根据权利要求7所述的方法，其特征在于，所述基于所述样本语音数据对应的样本特征向量，确定所述初始语音识别模型对应的L1稀疏损失值，包括：

基于所述样本语音数据对应的样本特征向量，确定各个多专家网络层对应的第一概率向量；

9.根据权利要求8所述的方法，其特征在于，所述基于所述样本语音数据对应的样本特征向量，确定各个多专家网络层对应的第一概率向量，包括：

基于所述样本语音数据对应的样本特征向量，确定所述各个多专家网络层分别对应的参考向量；

所述基于所述各个多专家网络层对应的第一概率向量，确定所述各个多专家网络层对应的L1稀疏损失值，包括：

对所述各个多专家网络层分别对应的第一概率向量进行L1范数处理，得到所述各个多专家网络层对应的L1稀疏损失值。

10.根据权利要求7所述的方法，其特征在于，所述基于所述样本语音数据对应的样本特征向量，确定所述初始语音识别模型对应的均值重要性损失值，包括：

基于所述样本语音数据对应的样本特征向量，确定各个多专家网络层对应的第二概率向量；

11.根据权利要求10所述的方法，其特征在于，所述基于所述样本语音数据对应的样本特征向量，确定各个多专家网络层对应的第二概率向量，包括：

所述基于所述各个多专家网络层对应的第二概率向量，确定所述各个多专家网络层对应的均值重要性损失值，包括：

基于所述各个多专家网络层对应的第二概率向量中包括的数值，确定所述各个多专家网络层对应的均值重要性损失值。

12.根据权利要求6至11任一所述的方法，其特征在于，所述基于所述初始语音识别模型对应的损失值，调整所述初始语音识别模型中的初始路由矩阵，得到目标路由矩阵，包括：

响应于所述初始语音识别模型对应的损失值小于第一阈值，将所述初始路由矩阵确定为所述目标路由矩阵；

13.根据权利要求7至11任一所述的方法，其特征在于，所述基于所述初始语音识别模型对应的时间联结分类损失值、所述初始语音识别模型对应的L1稀疏损失值和所述初始语音识别模型对应的均值重要性损失值，确定所述初始语音识别模型对应的损失值，包括：

基于所述初始语音识别模型对应的时间联结分类损失值、所述初始语音识别模型对应的L1稀疏损失值、所述初始语音识别模型对应的均值重要性损失值、所述时间联结分类损失值对应的权重参数、所述L1稀疏损失值对应的权重参数和所述均值重要性损失值对应的权重参数，确定所述初始语音识别模型对应的损失值。

14.一种语音识别装置，其特征在于，所述装置包括：

处理单元，用于基于所述共享嵌入式网络对所述特征向量进行处理，得到所述语音数据对应的嵌入向量；基于所述目标语音识别模型中的第一个自注意神经网络对所述特征向量进行处理，得到所述语音数据对应的第一向量；基于所述语音数据对应的嵌入向量、所述语音数据对应的第一向量和所述目标语音识别模型的第一个多专家网络层包括的目标路由矩阵，确定所述第一个多专家网络层包括的多个前馈神经网络分别对应的概率系数；基于所述第一向量和所述第一个多专家网络层包括的多个前馈神经网络分别对应的概率系数，确定所述语音数据对应的文本内容。

15.一种语音识别模型的训练装置，其特征在于，所述装置包括：

获取单元，用于获取样本语音数据和初始语音识别模型，所述初始语音识别模型的结构包括共享嵌入式网络和前层网络，所述前层网络包括多专家网络层和自注意神经网络，所述多专家网络层包括初始路由矩阵和多个前馈神经网络；

第三确定单元，用于基于所述初始语音识别模型对应的损失值，调整所述初始语音识别模型中的初始路由矩阵，得到目标路由矩阵，将包括所述目标路由矩阵的语音识别模型确定为目标语音识别模型。

16.一种电子设备，其特征在于，所述电子设备包括处理器和存储器，所述存储器中存储有至少一条程序代码，所述至少一条程序代码由所述处理器加载并执行，以使所述电子设备实现如权利要求1至5任一所述的语音识别方法，或者，以使所述电子设备实现如权利要求6至13任一所述的语音识别模型的训练方法。

17.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条程序代码，所述至少一条程序代码由处理器加载并执行，以使计算机实现如权利要求1至5任一所述的语音识别方法，或者，以使所述计算机实现如权利要求6至13任一所述的语音识别模型的训练方法。