CN116013257A

CN116013257A - 语音识别、语音识别模型训练方法、装置、介质及设备

Info

Publication number: CN116013257A
Application number: CN202211637702.1A
Authority: CN
Inventors: 徐启航; 万根顺; 熊世富; 高建清; 潘嘉; 刘聪
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2022-12-16
Filing date: 2022-12-16
Publication date: 2023-04-25

Abstract

本申请实施例公开了一种语音识别、语音识别模型训方法、装置、存储介质及设备，该方法包括：通过在语音识别模型的编码网络模块中加入混合专家网络和嵌入模块，利用嵌入模块对目标语音数据的目标声学特征序列进行语音特征提取处理，以得到目标语音嵌入特征，将目标语音嵌入特征和目标声学特征序列输入至混合专家网络的神经网络模块中进行编码处理，使得混合专家网络的神经网络模块中可以得到与语言相关的特征和目标声学特征序列，提高混合专家网络的神经网络模块的输出结果的准确性，将输出结果输入至解码网络模块中进行解码处理，以得到目标语音数据的识别文本，可提高各种语言混说场景中的语音识别的准确率。

Description

语音识别、语音识别模型训练方法、装置、介质及设备

技术领域

本申请涉及人工智能技术领域，具体涉及一种语音识别方法、语音识别模型训练方法、装置、计算机可读存储介质及计算机设备。

背景技术

人机语音交互/语音识别在现代生活已变得非常普遍，典型的人机语音交互场景例如汽车、智慧医疗、智能家居、智能客服、机器人乃至虚拟数字人等，都存在着语音识别的应用。

而世界上存在着各种语言，甚至在我国，因为幅员辽阔，地域差异较大，也造成了不同地区的人群说着形形色色的方言。方言的书面文字与普通话有所区别，许多地区的方言存在各自的“正字”，不能简单的使用普通话文字来表达。目前大多数的语音交互系统仅能支持普通话对话，而许多人在日常生活中习惯于使用方言，在交互中可能存在普通话和方言混说的场景。

对于在人机语音交互中，存在着各种语言混说的场景，目前的语音识别方法并不能很好的进行识别，语音识别的准确率较低。

发明内容

本申请实施例提供一种语音识别模型训练方法、语音识别方法、装置、计算机可读存储介质及计算机设备，可以提高各种语言混说场景中的语音识别的准确率。

本申请实施例提供了一种语音识别方法，包括：

获取目标语音数据，并调用语音识别模型，所述语音识别模型包括混合专家网络的编码网络模块和解码网络模块，所述编码网络模块中包括混合专家网络的神经网络模块和嵌入模块；

将所述目标语音数据进行声学特征提取，以得到所述目标语音数据的目标声学特征序列；

将所述目标声学特征序列输入至所述嵌入模块中进行语音特征提取处理，以得到所述目标语音数据的目标语音嵌入特征；

将所述目标语音嵌入特征和所述目标声学特征序列输入至所述混合专家网络的神经网络模块中进行编码处理，以得到所述目标语音数据的目标语义编码特征；

将所述目标语义编码特征和预设文本起始符输入至所述解码网络模块进行解码处理，以得到所述目标语音数据的识别文本。

本申请实施例还提供了一种语音识别模型训练方法，包括：

获取多种不同语种的语音数据集和初始语音识别模型，所述语音数据集中包括每种不同语种的语音样本数据、所述语音样本数据的对应语种的语种文本标签、以及所述语音样本数据的目标语种的目标文本标签，所述初始语音识别模型包括混合专家网络的编码网络模块和解码网络模块，所述编码网络模块中包括混合专家网络的神经网络模块和嵌入模块；

将所述语音样本数据进行声学特征提取，以得到所述语音样本数据的声学特征序列；

将所述声学特征序列输入至所述嵌入模块中进行语音特征提取处理，以得到所述语音样本数据的语音嵌入特征，并根据所述语音嵌入特征和所述语种文本标签更新所述嵌入模块的网络参数；

将所述语音嵌入特征和所述声学特征序列输入至所述混合专家网络的神经网络模块中进行编码处理，以得到所述语音样本数据的语义编码特征；

将所述语义编码特征和所述目标文本标签输入至所述解码网络模块进行解码处理，以得到所述语音样本数据的预测文本；

根据所述预测文本和所述目标文本标签更新所述初始语音识别模型的网络参数，以得到语音识别模型。

本申请实施例还提供一种语音识别模型训练装置，包括：

第一获取单元，用于获取多种不同语种的语音数据集和初始语音识别模型，所述语音数据集中包括每种不同语种的语音样本数据、所述语音样本数据的对应语种的语种文本标签，所述语音样本数据的目标语种的目标文本标签，所述初始语音识别模型包括混合专家网络的编码网络模块和解码网络模块，所述编码网络模块中包括混合专家网络的神经网络模块和嵌入模块；

第一声学提取单元，用于将所述语音样本数据进行声学特征提取，以得到所述语音样本数据的声学特征序列；

第一嵌入提取单元，用于将所述声学特征序列输入至所述嵌入模块中进行语音特征提取处理，以得到所述语音样本数据的语音嵌入特征；

第一专家编码单元，用于将所述语音嵌入特征和所述声学特征序列输入至所述混合专家网络的神经网络模块中进行编码处理，以得到所述语音样本数据的语义编码特征；

第一解码单元，用于将所述语义编码特征和所述目标文本标签输入至所述解码网络模块进行解码处理，以得到所述语音样本数据的预测文本；

第二更新单元，用于根据所述预测文本和所述目标文本标签更新所述初始语音识别模型的网络参数，以得到语音识别模型。

本申请实施例还提供一种语音识别装置，包括：

第二获取单元，用于获取目标语音数据，并调用语音识别模型，所述语音识别模型包括嵌入模块、混合专家网络的神经网络模块和解码网络模块；

第二声学提取单元，用于将所述目标语音数据进行声学特征提取，以得到所述目标语音数据的目标声学特征序列；

第二嵌入提取单元，用于将所述目标声学特征序列输入至所述嵌入模块中进行语音特征提取处理，以得到所述目标语音数据的目标语音嵌入特征；

第二专家编码单元，用于将所述目标语音嵌入特征和所述目标声学特征序列输入至所述混合专家网络的神经网络模块中进行编码处理，以得到所述目标语音数据的目标语义编码特征；

第二解码单元，用于将所述目标语义编码特征和预设文本起始符输入至所述解码网络模块进行解码处理，以得到所述目标语音数据的识别文本。

本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序适于处理器进行加载，以执行如上任一实施例所述的方法中的步骤。

本申请实施例还提供一种计算机设备，所述计算机设备包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器通过调用所述存储器中存储的所述计算机程序，执行如上任一实施例所述的方法中的步骤。

本申请实施例提供的语音识别模型训练方法、语音识别方法、装置、计算机可读存储介质及计算机设备，通过在语音识别模型的编码网络模块中加入混合专家网络和嵌入模块，利用嵌入模块对目标语音数据的目标声学特征序列进行语音特征提取处理，以得到目标语音嵌入特征，该目标语音嵌入特征包括了目标语音数据的浅层的与语言相关的特征，在得到目标语音嵌入特征之后，将目标语音嵌入特征和目标声学特征序列输入至混合专家网络的神经网络模块中进行编码处理，使得混合专家网络的神经网络模块中可以得到与语言相关的目标语音嵌入特征和目标声学特征序列，提高混合专家网络的神经网络模块的输出结果的准确性，而且，在混合专家网络的神经网络模块中，由于混合专家网络的存在，可以使用不同语种的语音数据集的来训练混合专家网络中的不同专家神经网络，不增加整体计算量的前提下，理论上可以对混合专家网络进行任意扩展，以加入新的语种，扩展性极强，此外，由于不同专家神经网络的存在，使得语音识别模型可以识别不同语种的目标语音数据，或者多种语种混说的目标语音数据，提高语音识别的准确性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1a为本申请实施例提供的一应用场景示意图。

图1b为本申请实施例提供的另一应用场景示意图。

图2为本申请实施例提供的语音识别模型训练方法的流程示意图。

图3为本申请实施例提供的编码网络模块的示意图。

图4为本申请实施例提供的语音识别模型训练方法的子流程示意图。

图5为本申请实施例提供的解码网络模块的的示意图。

图6为本申请实施例提供的语音识别模型训练方法的的一子流程示意图。

图7为本申请实施例提供的语音识别模型训练方法的的另一子流程示意图。

图8为本申请实施例提供的混合专家网络的语种解码器的示意图。

图9为本申请实施例提供的语音识别方法的流程示意图。

图10为本申请实施例提供的语音识别模型训练装置的结构示意图。

图11为本申请实施例提供的语音识别装置的结构示意图。

图12为本申请实施例提供的计算机设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例提供一种语音识别模型训练方法、语音识别方法、装置、计算机可读存储介质及计算机设备。具体地，本申请实施例的语音识别模型训练方法和/或语音识别方法可以由计算机设备执行，本申请实施例中的语音识别模型训练装置和/或语音识别装置集成在计算机设备中，其中，可以集成在一个或者多个计算机设备中。如语音识别模型训练方法在一个计算机设备中执行，语音识别方法在另一个计算机设备上执行，对应地，语音识别模型训练装置集成在一个计算机设备中，语音识别装置集成在另一个计算机设备中。

该计算机设备可以为终端设备或者服务器等设备。该终端设备可以为智能手机、平板电脑、笔记本电脑、触控屏幕、游戏机、个人计算机(PC，Personal Computer)、智能车载终端、机器人等设备。服务器可以是独立的物理服务器，也可以是区块链系统中的服务节点，还可以是多个物理服务器构成的服务器集群，还可以是提供云服务、云数据库、云计算、云函数、云存储、以及大数据和人工智能平台等基础云计算服务的云服务器。

在对本申请实施例中的方案进行详细介绍之前，接着对现有技术进行进一步的分析。

目前的语音识别系统主要是级联模型设计，可以看作是语音识别和机器翻译两个子系统连接所构成。其中，语音识别子系统负责将方言音频信号转换为方言正字文本，然而方言正字文本的可读性较差，难以理解，同时这也使得机器承受了更多的交互负担：为了理解正字文本，需要额外增加一个复杂的机器翻译子系统，利用机器翻译子系统则将方言正字文本翻译为普通话文本，如此，大大降低了语音识别效率。

同时，也存在部分端到端语音识别系统，有别于语音识别和机器翻译两个子系统组合的方案，能接受某一种方言语音信号，将其直接转换为容易理解的普通话文本。然而这种端对端语音识别系统存在一个明显的缺点，用户需要手动对自己用于交互对话的语言进行选择。

如在车载交互场景下，用户必须先在车机设置中选择普通话、粤语、东北话等固定的语种，继而进行车机的语音控制。选择了普通话选项时，用户所说的普通话大概率可以被正确的识别，成功对车机进行操控；但假使用户的普通话中无意识地夹杂了部分方言，这一部分基本上无法被正常识别。反过来用户一旦选择了某项方言，普通话的识别成功率就会大幅下降。这就导致了日常交互非常受限，只能固定用单一的语种进行。用户在说不同的语种时必须进行切换，极大地影响了交互便利性和舒适性。

因此，目前的语音识别方法对于各种语言混说的场景，语音识别的准确率较低。

本申请实施例为了解决该问题，提出了语音识别模型训练方法、语音识别方法、装置、计算机可读存储介质及计算机设备。本申请实施例中的语音识别模型是免切换的，不再需要对语种进行选择，同时在交互中也不再受限于单一语种表达，可以自由的说任意支持的语种的语音，乃至可以多种语种混说，实现了任意语种无障碍地交互。

图1a是本申请实施例中提供的语音识别方法的应用场景示意图，在该应用场景中，语音识别模型集成在终端中，用户发出语音，终端接收到语音后，调用语音识别模型来识别语音，可以边进行语音识别边输出识别出的普通话文本。还可以终端接收到用户完整的语音后，调用语音转文本功能，以调用语音识别模型，来识别该完整的语音，得到识别出的普通话文本。识别出的普通话文本可以在终端的图形用户界面上进行显示。

在其他实施例中，语音识别模型可以集成在服务器中，终端接收到语音后，将接收的语音发送至服务器，服务器根据接收到的语音，调用语音识别模型来进行识别，将识别出的普通话文本返回至终端，并在终端上显示返回的普通话文本。还有很多应用场景，在此不一一例举。

图1b是本申请实施例提供的语音识别方法的应用场景的简易示意图，可以看到，在使用本申请实施例提供的语音识别模型时，输入的语音可以是多语种的语音，如普通话、闽南语、粤语、四川话、东北话、上海话......，经过语音识别模型处理后，都输出为目标语种的文本，如普通话文本。

图2是本申请实施例提供的语音识别模型训练方法的流程示意图，该方法可以应用在计算机设备中，该方法包括如下步骤。

101，获取多种不同语种的语音数据集和初始语音识别模型，其中，语音数据集中包括每种不同语种的语音样本数据、语音样本数据的对应语种的语种文本标签，语音样本数据的目标语种的目标文本标签，其中，初始语音识别模型包括混合专家网络的编码网络模块和解码网络模块，编码网络模块中包括混合专家网络的神经网络模块和嵌入模块。

其中，多种不同语种可以包括多种不同少数民族语种如藏语、维语等，和/或多种不同方言如方言A、方言B，和/或多种其他非本国语种如西班牙语、印度语等，多种不同语种中还包括目标语种，如普通话。其中，目标语种即为当前应用场景中大部分情况下使用的语种或者当前应用场景中的官方语种。

需要注意的是，本申请实施例中的多种不同语种中的目标语种根据语音识别模型的具体应用场景不同而不同，假设本申请实施例中的语音识别模型应用于以英语为主要语言的国家，那么目标语种即为英语，其他不同语种是除了英语之外的其他语种。

本申请中以多种不同语种包括普通话、不同方言为例进行说明。

多种不同语种的语音数据集中包括每种不同语种的语音样本数据，例如包括普通话的语音样本数据，和不同方言的语音样本数据如粤语的语音样本数据、东北话的语音样本数据、四川话的语音样本数据等。语音数据集中还包括每个语音样本数据的对应语种的语种文本标签如方言文本标签(Dialect Label)、语音样本数据的目标语种的目标文本标签如普通话文本标签(Target Label)。其中，语音样本数据的对应语种指的是语音样本数据所属语种，语音样本数据的对应语种的语种文本标签指的是将语音样本数据对应到/翻译成所属语种的书面文本的文本标签，如方言文本标签，语音样本数据的目标语种的目标文本标签，指的是将语音样本数据翻译成目标语种的书面文本的文本标签，如普通话文本标签。

对于方言来说，语音样本数据的对应语种的语种文本/书面文本也可称为语音样本数据对应方言的正字文本，方言的正字文本即将方言的语音直接翻译成方言所属语种的书面文字的文本形式，如粤语在表达“你说什么”的意思时常使用“你讲乜嘢”一句，前者就是普通话文本，后者就是方言的正字文本。此外，在英语、日语等其他语种中，正字文本即是该语种对应的书面文本。

在语音数据集中，每种不同语音的语音样本数据可以包括多条，语音数据集中的每条数据中包括语音样本数据、语种文本标签、目标文本标签。例如，一条数据包括：粤语语音数据(如粤语中你说什么的语音数据)、你讲乜嘢、你说什么。对于语种为普通话来说，语种文本标签和目标文本标签相同。

其中，多种不同语种的语音数据集可以根据对应应用场景来进行确定，例如用于智能客服场景，可以采集或者录制对应语种的用户与客服语音对话，并人工标注其对应的语种文本标签和目标文本标签，如对应的正字文本和普通话文本。对于智能家居场景，则可以获取对应语种的用于对智能家电的控制命令等交互语音数据，并对其进行标注等。

在一些实施例中，还可以直接获取多种语种混说场景的语音样本数据，利用多种语种混说场景的语音样本数据进行训练，可以降低语音数据集的数量，对训练数据的要求更小。

在得到每种不同语种的语音样本数据、语种文本标签和目标文本标签之后，还可以对这些数据进行预处理，预处理主要包括数据清洗和数据增强等。数据清洗主要是针对文本，为了剔除标注数据如语种文本标签和目标文本标签中不合理的坏数据，以及统一数字、时间、日期等的句式的表达，以此提高标注数据质量，提升语音数据集的准确性。数据增强主要是针对语音样本数据，对有限的语音样本数据进行变换，包括但不限于使用加噪、降噪、变速、混响等方式对语音样本数据进行一定程度上的改变，相当于对语音样本数据的扩充，可以有效地提升在不同场景下的鲁棒性，对于语音样本数据不足的小语种方言，也相对降低了对所标注数据量的要求。将经过数据清洗和数据增强后的数据集作为语音数据集。

其中，初始语音识别模型中包括混合专家网络的编码网络模块和解码网络模块，其中，编码网络模块中包括混合专家网络的神经网络模块和嵌入模块。

初始语音识别模型指的是需要进行网络参数更新的语音识别模型，初始语音识别模型可以按照如下方式来得到。

例如，通过在RNN-T(Recurrent Neural Network Transducer)模型结构上对其进行改进得到初始语音识别模型。其中，RNN-T模型结构中包括编码器、解码器和联合网络。其中，编码器可以是任意的可以实现编码处理的网络结构，解码器也可以是任意的可以实现解码处理的网络结构。在RNN-T的编码器中加入混合专家网络和嵌入模块(Embedding)，以得到包括混合专家网络的神经网络模块和嵌入模块的编码网络模块(MoE Encoder)，进一步地可以在RNN-T的解码器和联合网络构成的解码网络模块的基础上，再加入另外一套方言的解码网络模块，称为语种解码网络模块，在语种解码网络模块中的语种解码器中加入混合专家网络，如此，以得到初始语音识别模型。

其中，嵌入模块可以是一个简单的线性连接层，也可以是几层卷积或者其他常见的形式。其中，混合专家网络(Mixture of Experts，MoE)包括多个并联的专家神经网络如FFN1、FFN2、......、FFNn-1、FFNn和一个路由器router，每个FFN即为一个专家神经网络，一个专家神经网络对应一个专家，其中，路由器可以视作一个分类器。

例如，在一情况下，RNN-T的编码器中，按照数据流向的方向依次包括前向卷积模块(Pre-Shared Conv Layer)、多个长短时记忆网络模块(LSTMs)和后向卷积模块(Post-Shared Conv Layer)。那么，将嵌入模块加入至前向卷积模块之后，将混合专家网络加入至多个长短时记忆网络模块之后，后向卷积模块之前，将嵌入模块的输出和多个长短时记忆网络模块的输出作为混合专家网络中的路由器的输入，以得到混合专家网络的神经网络模块和嵌入模块，其中将嵌入模块之外的其他模块都称为混合专家网络的神经网络模块。如图3所示，为本申请实施例提供的混合专家网络的编码网络模块的示意图。

其中，在一些实施例中，编码器中还可以不包括前向卷积模块和/或后向卷积模块等，编码器中的多个长短时记忆神经网络还可以换成其他的可以提取到时序声学特征的网络模块等。

102，将语音样本数据进行声学特征提取，以得到语音样本数据的声学特征序列。

将每个语音样本数据进行声学特征提取，例如，进行梅尔普特征提取，以得到语音样本数据的声学特征序列，例如，得到梅尔普特征序列。声学特征提取还可以使用其他的方式，得到的声学特征序列还可以为Fbank(FilterBank)特征序列、PLP特征序列等。

该步骤用于从语音数据集的语音样本数据中提取有用的声学特征，以得到声学特征序列，声学特征序列作为初始语音识别模型的输入。

一般情况下，可将声学特征提取也作为预处理部分的内容，即预先处理好每个语音样本数据的声学特征序列，提高训练的速度。

103，将声学特征序列输入至嵌入模块中进行语音特征提取处理，以得到语音样本数据的语音嵌入特征。

由于嵌入模块是一个线性连接层，通常是将高维度的声学特征映射为低维度的声学特征，因此，嵌入模块可以提取语音样本数据的浅层的信息，如包括语言和/或语种等方面的信息。

将声学特征序列输入至嵌入模块中进行语音特征提取处理，即将高维度的声学特征序列进行映射，以得到语音样本数据的语音嵌入特征，将语音嵌入特征可以为低维度的声学特征序列，该语音嵌入特征中包括了语音样本数据的浅层的信息。

在一实施例中，得到语音样本数据的语音嵌入特征之后，根据语音嵌入特征和语种文本标签更新嵌入模块的网络参数。由此可知，该嵌入模块是独立训练的，独立训练的嵌入模块的网络参数更准确，可以更准确地提取语音样本数据的浅层的与语言相关的特征。

其中，可根据语音嵌入特征和语种文本标签确定嵌入模块的语音损失值，根据语音损失值来更新嵌入模块的网络参数。例如，可按照预设解码方式，对语音嵌入特征进行预设解码处理，以得到语音样本数据的对应语种的语种文本，再根据语种文本和语种文本标签确定嵌入模块的语音损失值。

其中，预设解码方式可以是时序连接分类(Connectionist TemporalClassification，CTC)解码，预设解码处理可以是CTC解码处理，利用CTC解码处理得到语音样本数据所属语种的语种文本，再根据CTC损失函数，利用语种文本和该语音样本数据的语种文本标签来确定CTC损失值，将CTC损失值确定为嵌入模块的语音损失值。得到语音损失值之后，根据语音损失值来更新嵌入模块的网络参数。

在其他实施例中，预设解码方式和预设解码处理还可以是其他的解码方式和解码处理。

104，将语音嵌入特征和声学特征序列输入至混合专家网络的神经网络模块中进行编码处理，以得到语音样本数据的语义编码特征。

混合专家网络的神经网络模块的输入包括语音嵌入特征和声学特征序列，如此，既包括了浅层的语言和/或语种等方面的特征，又包括了声学方面的特征，提高混合专家网络的神经网络模块的输出结果的准确性。

其中，混合专家网络的神经网络模块包括第一预设神经网络和混合专家网络，其中，第一预设神经网络用于提取包括语音样本数据时序内容的声学特征(也可称为时序声学特征)，例如第一预设神经网络可以为长短时记忆网络(Long Short-Term Memory，LSTM)模型，多个长短时记忆网络拼接得到的模型如LSTMs，还可以是其他的可以提取包括语音样本数据时序内容的声学特征的模型。

对应地，步骤104包括：将声学特征序列输入至第一预设神经网络中进行声学特征提取处理，以得到包括语音样本数据时序内容的时序声学特征；将语音嵌入特征和时序声学特征进行第一融合处理，以得到第一融合特征；将第一融合特征和时序声学特征输入至混合专家网络中进行专家编码处理，以得到语音样本数据的语义编码特征。

第一预设神经网络可以为LSTMs模块，其中，得到的时序声学特征中包括了声学特征序列的时序信息，该时序信息包括了声学特征序列从第一帧开始到当前的所有帧的信息。

其中，将时序声学特征和语音嵌入特征进行第一融合处理，其中，第一融合处理可以是拼接处理等，以得到第一融合特征，如此，第一融合特征中既包括语音样本数据浅层的语言方面的信息，又包括语音样本数据带有时序内容的深层的声学方面信息，以提高后续编码处理的准确性。

其中，可将第一融合特征和时序声学特征输入至混合专家网络中进行专家编码处理，以得到语音样本数据的语义编码特征。其中，可将第一融合特征输入至路由器中进行分类处理，以得到与多个专家神经网络(多个FFN)一一对应的专家概率；将时序声学特征输入至专家概率最大的目标专家神经网络中进行专家编码处理，以得到语音样本数据的专家语义编码特征；根据专家语义编码特征和最大的专家概率确定语音样本数据的语义编码特征。

路由器中的分类类别的数量与混合专家网络中的专家神经网络的数量一致，路由器中的分类类别与专家神经网络一一对应，例如，专家神经网络的数量为10个，则分类类别的数量也为10个，且一一对应。

其中，路由器的输出用来选择哪个专家神经网络。将第一融合特征输入至路由器中进行分类处理，以得到与多个专家神经网络一一对应的专家概率，由于第一融合特征融合了浅层的语音/语言方面的信息和深层的包括时序内容的声学信息，因此，使得路由器中的专家概率的计算更为准确，所选择的目标专家神经网络也更为准确，提高了训练效率的同时，也提高了准确性。

其中，多个专家概率用于表示将当前语音样本数据对应的时序声学特征分配给每个专家神经网络(每个FFN)的可能性，最终选取可能性最高的专家神经网络，即从多个专家概率中选择专家概率最大的目标专家概率，将目标专家概率对应的专家神经网络(FFN)作为目标专家神经网络，如图3中的最大概率为0.7，将0.7所对应的第一个专家神经网络作为目标专家神经网络。

将第一预设神经网络输出的时序声学特征输入至目标专家神经网络中进行专家编码处理，以得到专家语义编码特征，并将专家语义编码特征乘以最大的目标专家概率，以得到语音样本数据的语义编码特征。

虽然混合专家网络中有多个不同专家神经网络，但是同一时刻只训练其中一个专家神经网络，让该专家神经网络来学习时序声学特征中的语义信息，如此，不同语种的语音样本数据可以训练不同的专家神经网络，提高每个专家神经网络的专业性。

其中，混合专家网络中的专家神经网络的数量可以自由配置，须设置为不小于所支持的语种数量，当有新的语种加入时，在混合专家网络中加入新的专家神经网络，在router中新加入一个类别，再获取该新的语种的语音数据集，与原有的语音数据集进行混合，然后进行模型训练即可。如此，本申请实施例中的语音识别模型的可扩展性极强。

假设本申请实施例中的混合专家网络的编码网络模块如图3所示，那么对应地，本申请中的整个编码网络模块可以按照如下步骤来实现。如图4所示，具体包括如下步骤。

201，将声学特征序列输入至前向卷积模块中进行第一卷积处理，以得到第一卷积特征。

其中，前向卷积模块中包括多层卷积层，利用多层卷积层进行第一卷积处理，以提取声学特征序列的第一卷积特征。利用前向卷积模块进行第一卷积处理，可以进一步提取声学特征序列中的较为浅层的特征，提高后文中的语音嵌入特征的准确性。

202，将第一卷积特征输入至嵌入模块中进行语音特征提取处理，以得到语音样本数据的语音嵌入特征。

由于第一卷积特征中已经提取了声学特征序列中的较为浅层的特征，将该浅层的特征进一步的输入至嵌入模块中进行语音特征提取处理，如将高维度的第一卷积特征进行映射处理，以得到低维度的语音嵌入特征。如第一卷积特征包括非常多的通道数，如512维的通道数，经过嵌入模块处理后，映射到256个通道或者128个通道等。如此得到的语音嵌入特征中包括了更为浅层的特征，以表示语音/语言上的信息，使得语音/语言上的信息表示更准确。

在一实施例中，得到语音嵌入特征之后，根据语音嵌入特征和语种文本标签更新嵌入模块的网络参数。其中，由于在嵌入模块之前还包括了前向卷积模块，因此可更新嵌入模块和前向卷积模块的网络参数。

203，将第一卷积特征输入至第一预设神经网络中进行进行声学特征提取处理，以得到包括语音样本数据时序内容的时序声学特征。

其中，得到第一卷积特征之后，将第一卷积特征同时输入至嵌入模块和第一预设神经网络模块进行相应的处理，对应地，步骤202和步骤203可并行执行。

204，将时序声学特征和语音嵌入特征进行第一融合处理，以得到第一融合特征。

205，将第一融合特征输入至混合专家网络的路由器中进行分类处理，以得到与多个专家神经网络一一对应的专家概率。

206，将时序声学特征输入至专家概率最大的目标专家神经网络中进行专家编码处理，以得到语音样本数据的专家语义编码特征。

207，根据专家语义编码特征和最大的专家概率确定语音样本数据的语义编码特征。

208，将语义编码特征输入至后向卷积模块中进行第二卷积处理，以得到语音样本数据的最终的语义编码特征。

其中，将语义编码特征进行第二卷积处理，以得到语音样本数据的最终的语义编码特征。

图4中未详细描述的步骤请参看上文中对应部分的描述，在此不再赘述。图4中详细描述了图3的混合专家网络的编码网络模块得到语音样本数据的语义编码特征的整个处理过程，即编码网络模块进行编码处理的整个处理过程。其中，前向卷积模块、第一预设神经网络如LSTMs、后向卷积模块和嵌入模块都属于共享参数的模块。

下文中将详细描述解码网络模块的整个处理过程。

105，将语义编码特征和目标文本标签输入至解码网络模块进行解码处理，以得到语音样本数据的预测文本，并根据预测文本和目标文本标签更新初始语音识别模型的网络参数，以得到语音识别模型。

在一情况下，本申请实施例中的解码网络模块中只包括目标解码网络模块，如普通话解码网络模块。如图5所示，目标解码网络模块中包括目标解码器(Target Decoder)如普通话解码器和目标联合网络模块(Target Jointer)如普通话联合网络模块。其中，目标解码器中的网络结构和目标联合网络模块中的网络结构与目前的RNN-T模型的解码器和联合网络模块的网络结构一致。

对应地，步骤105包括：将目标文本标签如普通话文本标签输入至目标解码器中进行文本特征提取处理，以得到目标文本标签的文本特征提取结果，将文本特征提取结果和上文中本申请中的编码网络模块的语义编码特征进行第三融合处理，以得到第三融合特征，其中，第三融合处理可以是拼接处理等，将第三融合特征输入至目标联合网络模块中进行目标解码处理如普通话解码处理，以得到语音样本数据的目标语种的目标预测文本，如普通话预测文本，根据目标预测文本和目标文本标签更新初始语音识别模型的网络参数，以得到语音识别模型。

由于提高了语义编码特征的准确性，因此将更准确的语义编码特征进行解码处理后，得到的目标预测文本也更准确，进一步提高训练效率。对应地，得到目标预测文本之后，根据目标预测文本和目标文本标签确定初始语音识别模型的损失值，根据损失值来更新初始语音识别模型的网络参数，直至满足训练停止条件，如损失值收敛或者训练轮数达到预设轮数等，停止训练，得到语音识别模型。

在一情况下，如图5所示，训练过程中的解码网络模块包括两组并联的解码器和联合网络模块，分别称为语种解码网络模块如方言解码网络模块和目标解码网络模块如普通话解码网络模块。其中，语种解码网络模块，用于输出对应语种的正字文本结果，如粤语的语音样本数据，经过该语种解码网络模块解码处理之后，输出语音样本数据的粤语的正字文本结果。该实施例中使用了两个并联的解码网络模块来进行训练，以提高最终目标预测文本的准确性。

对应地，如图6所示，步骤105包括如下步骤。

301，将语义编码特征和语种文本标签输入至语种解码网络模块中进行第一解码处理，以得到语音样本数据的对应语种的语种预测文本。

其中，将语义编码特征和语种文本标签如方言文本标签(Dialect Label)(方言的正字文本的文本标签)输入至语种解码网络模块中进行第一解码处理，得到语种预测文本如方言预测文本(Dialect Text)，如预测得到的方言文本，预测得到的方言的正字文本。

其中，如图5所示，语种解码网络模块包括混合专家网络的语种解码器(DialectMoE Decoder)如混合专家网络的方言解码器和语种联合网络模块(Dialect Jointer)。

对应地，上述将语义编码特征和语种文本标签输入至语种解码网络模块中进行第一解码处理，以得到语音样本数据的对应语种的语种预测文本的步骤，包括：将语种文本标签输入至混合专家网络的语种解码器中进行语种文本解码处理，以得到语种文本标签的语种文本预测特征，如得到方言文本标签的方言文本预测特征；将语义编码特征和语种文本预测特征进行第二融合处理，以得到第二融合特征；将第二融合特征输入至语种联合网络模块中进行语种解码处理，以得到语音样本数据的对应语种的语种预测文本如方言预测文本。该实施例中利用混合专家网络的语种解码器进行语种文本解码处理，以得到更准确的语种文本预测特征，提高语种预测文本的准确性，此外，将更准确的语义编码特征和更准确的语种文本预测特征进行第二融合处理，使得得到的第二融合特征更准确，提高语种文本预测特征的准确性。

其中，混合专家网络的语种解码器中包括第二预设神经网络和混合专家网络，其中，第二预设神经网络可以为解码器中的原有的可以解码得到时序内容的文本特征的网络，如LSTM网络、LSTMs网络等，还可以为其他网络结构。该混合专家网络与编码网络模块中的混合专家网络一致，在语种解码器中的混合专家网络也可以随意扩展新的专家神经网络。

在一实施例中，上述将语种文本标签输入至混合专家网络的语种解码器中进行语种文本解码处理，以得到语音样本数据的对应语种的语种文本预测特征的步骤，包括：将语种文本标签输入至第二预设神经网络中进行文本特征提取处理，以得到文本特征提取结果；将文本特征提取结果输入至混合专家网络中进行专家解码处理，以得到语种文本标签的语种文本预测特征如方言文本预测特征。该实施例中进一步将文本特征提取结果输入至混合专家网络中对应的专家神经网络中进行专家解码处理，提高所得到的语种文本预测特征的准确性。

进一步地，如图7所示，步骤301包括如下步骤。

401，将语种文本标签输入至第二预设神经网络中进行文本特征提取处理，以得到文本特征提取结果。

402，将文本特征提取结果输入至混合专家网络的路由器中进行分类处理，以得到与多个专家神经网络一一对应的专家概率。

403，将文本特征提取结果输入至专家概率最大的目标专家神经网络中进行专家解码处理，以得到语种文本标签的对应语种的语种文本预测特征。

404，根据该语种文本预测特征和最大的专家概率确定语种文本标签的最终的语种文本预测特征。例如，将语种文本预测特征和最大的专家概率进行相乘处理，以得到最终的语种文本预测特征。

405，将语义编码特征和语种文本预测特征进行第二融合处理，以得到第二融合特征。其中，第二融合处理可以为拼接处理等。

406，将第二融合特征输入至语种联合网络模块中进行语种解码处理，以得到语音样本数据的对应语种的语种预测文本。

假设原有解码器中包括第二预设神经网络如LSTM模块和线性连接层如softmax层，那么可在线性连接层之前加入混合专家网络，以得到混合专家网络的语种解码器，如图8所示。需要注意的是，原有解码器还可以为其他网络结构。在图8所示的混合专家网络的语种解码器中，在将语种文本预测特征和最大的专家概率进行相乘处理之后，还需要将相乘处理之后的处理结果输入至线性连接层中，利用线性连接层进行进一步的处理，以得到最终的语种文本预测特征。

302，将语义编码特征和目标文本标签输入至目标解码网络模块中进行第二解码处理，以得到语音样本数据的目标语种的目标预测文本。

其中，将语义编码特征和目标文本标签(Target Label)如普通话文本标签输入至目标解码网络模块中进行第二解码处理，以得到目标预测文本(Target Text)，如普通话预测文本，即预测得到的普通话文本。

其中，将目标文本标签输入至目标解码器中进行文本特征提取处理，以得到目标文本标签的文本特征提取结果，将文本特征提取结果和语义编码特征进行第三融合处理，以得到第三融合特征，其中，第三融合处理可以是拼接处理等，将第三融合特征输入至目标联合网络模块中进行目标解码处理，以得到语音样本数据的目标语种的目标预测文本，例如得到语音样本数据的普通话预测文本。

在训练时，混合专家网络的编码网络模块输出的语义编码特征会同时输入至语种解码网络模块的语种联合网络模块(Dialect Jointer)中，和目标解码网络模块的目标联合网络模块(Target Jointer)中，同时，混合专家网络的语种解码器(Dialect MoEDecoder)和目标解码器(Target Decoder)分别输入方言文本标签(语种文本标签)和普通话文本标签(目标文本标签)，语种解码网络模块利用方言文本标签辅助目标解码网络模块(普通话网络模块)的训练，当语音样本数据中缺少对应的方言文本标签时，语种解码网络模块这部分可以不进行。

其中，语种联合网络模块和目标联合网络模块的网络结构一致，其中，可使用集束搜索技术(Beam search)来进行解码处理，以得到相对应的预测文本。

303，根据语种预测文本、目标预测文本、语种文本标签和目标文本标签更新初始语音识别模型的网络参数，以得到语音识别模型。

其中，根据语种预测文本(Dialect Text)和语种文本标签(Dialect Label)确定语种文本损失值(ASR Loss)，如根据方言预测文本和方言文本标签确定方言的正字识别损失值。根据目标预测文本(Target Text)和目标文本标签(Target Label)确定目标文本损失值(ST Loss)，如根据普通话预测文本和普通话文本标签确定将语音样本数据翻译成普通话的翻译损失值。根据语种文本损失值和目标文本损失值来更新初始语音识别模型的网络参数，直至满足训练停止条件，停止训练，得到语音识别模型。具体地，根据语种文本损失值和目标文本损失值确定初始语音识别模型的总体损失值，根据总体损失值来更新初始语音识别模型的网络参数。如此，根据两组解码网络模块相对应的损失值一起来更新语音识别模型的网络参数，尤其是语种解码网络模块这部分，该部分辅助提升目标文本解码结果的正确率。

上述语音识别模型训练方法通过在RNN-T结构上引入混合专家网络，使得得到的语音识别模型可以非常灵活地对各方言进行支持，在不损失原来语种效果的同时能任意地加入新的语种，在不增加计算量的同时能任意地扩展模型容量，对于有限算力条件极其友好，且可以自由的进行方言的切换适配，大大提高了各种语言混说场景中的语音识别的准确率。

如图9所示，为本申请实施例中提供的语音识别方法的流程示意图，该方法包括如下步骤。

501，获取目标语音数据，并调用语音识别模型，其中，语音识别模型包括混合专家网络的编码网络模块和解码网络模块，该编码网络模块中包括混合专家网络的神经网络模块和嵌入模块。

其中，语音识别模型由上述任一实施例中所述的语音识别模型训练方法训练得到的。目标语音数据可以是已经存在的语音数据，如语音转文本功能时的目标语音数据，还可以是用户边说边进行语音识别时的语音数据，如一帧一帧的语音数据，或者多帧多帧的语音数据等。

502，将目标语音数据进行声学特征提取，以得到目标语音数据的目标声学特征序列。

503，将目标声学特征序列输入至嵌入模块中进行语音特征提取处理，以得到目标语音数据的目标语音嵌入特征。

将目标声学特征序列输入至嵌入模块中进行语音特征提取处理，即将高维度的目标声学特征序列进行映射，以得到目标语音数据的低维度的目标语音嵌入特征即低维度的声学特征序列，该目标语音嵌入特征中包括了目标语音数据的浅层的信息。

504，将目标语音嵌入特征和目标声学特征序列输入至混合专家网络的神经网络模块中进行编码处理，以得到目标语音数据的目标语义编码特征。

其中，混合专家网络的神经网络模块包括第一预设神经网络和混合专家网络，对应地，步骤504，包括：将目标声学特征序列输入至第一预设神经网络中进行声学特征提取处理，以得到包括目标语音数据时序内容的目标时序声学特征；将目标语音嵌入特征和目标时序声学特征进行第一融合处理，以得到第一目标融合特征；将第一目标融合特征和目标时序声学特征输入至混合专家网络中进行专家编码处理，以得到目标语音数据的目标语义编码特征。

其中，混合专家网络包括路由器和多个专家网络，所述将第一目标融合特征和目标时序声学特征输入至混合专家网络中进行专家编码处理，以得到目标语音数据的目标语义编码特征的步骤，包括：将第一目标融合特征输入至路由器中进行分类处理，以得到与多个专家神经网络(多个FFN)一一对应的专家概率；将目标时序声学特征输入至专家概率最大的目标专家神经网络中进行专家编码处理，以得到目标语音数据的目标专家语义编码特征；根据目标专家语义编码特征和最大的专家概率确定目标语音数据的目标语义编码特征。

假设本申请实施例中的编码网络模块如图3所示，那么对应地，在得到目标语音数据的目标声学特征序列之后，还包括：将目标声学特征序列输入至前向卷积模块中进行第一卷积处理，以得到第一目标卷积特征，对应地，上述将目标声学特征序列输入至嵌入模块中进行语音特征提取处理的步骤，包括：将第一目标卷积特征输入至嵌入模块中进行语音特征提取处理；上述将所述目标声学特征序列输入至所述第一预设神经网络中进行声学特征提取处理的步骤，包括：将第一目标卷积特征输入至第一预设神经网络中进行声学特征提取处理；在得到目标语音数据的目标语义编码特征的步骤之后，还包括：将目标语义编码特征输入至后向卷积模块中进行第二卷积处理，以得到最终的目标语义编码特征。具体地，请参看图4实施例中所述，在此不再赘述。

505，将目标语义编码特征和预设文本起始符输入至解码网络模块进行解码处理，以得到目标语音数据的识别文本。

其中，在使用语音识别模型时，对应的解码网络模块仅包括目标解码网络模块，即目标解码器和目标联合网络，如普通话解码器和普通话联合网络模块。

将目标语义编码特征中的第一帧语义编码特征和预设文本起始符输入至目标解码网络模块中进行解码处理，以得到第一帧的目标识别文本，其中，预设文本起始符如<SOS>，预设文本起始符代表着一句话的开始。得到第一帧的目标识别文本之后，将第二帧语义编码特征和第一帧的目标识别文本输入至目标解码网络模块中进行解码处理，以得到第二帧的目标识别文本，将第三帧语义编码特征和第二帧的目标识别文本输入至目标解码网络模块中进行解码处理，以得到第三帧的目标识别文本，直至解码所有帧，以得到最后的识别文本。

具体地，例如，将预设文本起始符输入至目标解码器中进行文本特征提取处理，以得到预设文本起始符的文本特征提取结果，将文本特征提取结果和第一帧语义编码特征进行第三融合处理，以得到第三目标融合特征，将第三目标融合特征输入至目标联合网络模块中进行目标解码处理，以得到第一帧的目标识别文本。将第一帧的目标识别文本输入至目标解码器中进行文本特征提取处理，以得到第一帧的目标识别文本的文本特征提取结果，将文本特征提取结果和第二帧语义编码特征进行第三融合处理，以得到第三目标融合特征，将第三目标融合特征输入至目标联合网络模块中进行目标解码处理，以得到第二帧的目标识别文本，以此类推，即以自回归的方式来进行，直至解码所有帧，以得到最后的识别文本，如普通话的识别文本。

其中，如图5所示，在语义识别模型训练过程中，解码网络模块包括两组并联的解码器和联合网络模块，包括图5中的实线部分和虚线部分，但是在使用语义识别模型的过程中，只使用实线部分，不涉及虚线部分，这是因为在训练过程中使用虚线部分的语种解码网络模块已经更新了模型参数，使用语音识别模型时已经使用了利用虚线部分更新后的模型参数，如此，在解码过程中，直接得到语音经过翻译后的识别文本，减少推理时的计算量的同时，使得目标解码网络模块的解码结果更准确。

本申请实施例中的语音识别方法无需用户手动选择自己将要说的方言语种，且在交互中也不再受限于单一语种表达，可以根据用户已说的话进行语种自动判别，并将其直接翻译为可读性更高的普通话文本，大大提升了用户在人机交互时的便利性、舒适性和效率。该语音识别方法可以广泛适用于智能汽车、智能家居等场景。

上述所有的技术方案，可以采用任意结合形成本申请的可选实施例，在此不再一一赘述。

为便于更好的实施本申请实施例的语音识别模型训练方法，本申请实施例还提供一种语音识别模型训练装置。请参阅图10，图10为本申请实施例提供的语音识别模型训练装置的结构示意图。该语音识别模型训练装置600可以包括第一获取单元601，第一声学提取单元602，第一嵌入提取单元603、第一专家编码单元605、第一解码单元606以及第二更新单元607。

第一获取单元601，用于获取多种不同语种的语音数据集和初始语音识别模型，所述语音数据集中包括每种不同语种的语音样本数据、所述语音样本数据的对应语种的语种文本标签，所述语音样本数据的目标语种的目标文本标签，所述初始语音识别模型包括混合专家网络的编码网络模块和解码网络模块，所述编码网络模块中包括混合专家网络的神经网络模块和嵌入模块。

第一声学提取单元602，用于将所述语音样本数据进行声学特征提取，以得到所述语音样本数据的声学特征序列。

第一嵌入提取单元603，用于将所述声学特征序列输入至所述嵌入模块中进行语音特征提取处理，以得到所述语音样本数据的语音嵌入特征。

在一实施例中，如图10所示，所述装置600还包括第一更新单元604。第一更新单元604，用于根据所述语音嵌入特征和所述语种文本标签更新所述嵌入模块的网络参数。其中，可根据所述语音嵌入特征和所述语种文本标签确定损失值，根据损失值来更新嵌入模块的网络参数。例如，可按照预设解码方式，对所述语音嵌入特征进行预设解码处理，以得到所述语音样本数据的对应语种的语种文本；根据所述语种文本和所述语种文本标签确定所述嵌入模块的语音损失值；根据所述语音损失值更新所述嵌入模块的网络参数。

第一专家编码单元605，用于将所述语音嵌入特征和所述声学特征序列输入至所述混合专家网络的神经网络模块中进行编码处理，以得到所述语音样本数据的语义编码特征。

其中，所述混合专家网络的神经网络模块中包括第一预设神经网络和混合专家网络，第一专家编码单元605，具体用于将所述声学特征序列输入至所述第一预设神经网络中进行声学特征提取处理，以得到包括所述语音样本数据时序内容的时序声学特征；将所述语音嵌入特征和所述时序声学特征进行第一融合处理，以得到第一融合特征；将所述第一融合特征和所述时序声学特征输入至所述混合专家网络中进行专家编码处理，以得到所述语音样本数据的语义编码特征。

其中，所述混合专家网络中包括路由器和多个专家神经网络，所述将所述融合特征和所述时序声学特征输入至所述混合专家网络中进行专家编码处理，以得到所述语音样本数据的语义编码特征的步骤，包括：将所述第一融合特征输入至所述路由器中进行分类处理，以得到与多个专家神经网络一一对应的专家概率；将所述时序声学特征输入至专家概率最大的目标专家神经网络中进行专家编码处理，以得到所述语音样本数据的专家语义编码特征；根据所述专家语义编码特征和最大的专家概率确定所述语音样本数据的语义编码特征。

在一实施例中，所述混合专家网络的神经网络模块中还包括前向卷积模块和后向卷积模块，对应地，如图10所示，所述装置600还包括第一前向卷积单元608和第一后向卷积单元609。

其中，第一前向卷积单元608，用于将所述声学特征序列输入至所述前向卷积模块中进行第一卷积处理，以得到所述第一卷积特征。第一嵌入提取单元603，具体用于将所述第一卷积特征输入至所述嵌入模块中进行语音特征提取处理，以得到所述语音样本数据的语音嵌入特征。第一专家编码单元605，用于将所述第一卷积特征输入至所述第一预设神经网络中进行声学特征提取处理，以得到包括所述语音样本数据时序内容的时序声学特征。对应地，在得到所述语音样本数据的语义编码特征之后，第一后向卷积单元609，用于将所述语义编码特征输入至所述后向卷积模块中进行第二卷积处理，以得到最终的语义编码特征。

第一解码单元606，用于将所述语义编码特征和所述目标文本标签输入至所述解码网络模块进行解码处理，以得到所述语音样本数据的预测文本。

其中，所述解码网络模块包括目标解码网络模块和语种解码网络模块；第一解码单元606，具体用于将所述语义编码特征和所述语种文本标签输入至所述语种解码网络模块中进行第一解码处理，以得到所述语音样本数据的对应语种的语种预测文本；将所述语义编码特征和所述目标文本标签输入至所述目标解码网络模块中进行第二解码处理，以得到所述语音样本数据的目标语种的目标预测文本。

其中，所述语种解码网络模块中包括混合专家网络的语种解码器和语种联合网络模块，所述将所述语义编码特征和所述语种文本标签输入至所述语种解码网络模块中进行第一解码处理，以得到所述语音样本数据的对应语种的语种预测文本的步骤，包括：将所述语种文本标签输入至所述混合专家网络的语种解码器中进行语种文本解码处理，以得到所述语种文本标签的语种文本预测特征；将所述语义编码特征和所述语种文本预测特征进行第二融合处理，以得到第二融合特征；将所述第二融合特征输入至所述语种联合网络模块中进行语种解码处理，以得到所述语音样本数据的对应语种的语种预测文本。

其中，所述混合专家网络的语种解码器中包括第二预设神经网络和混合专家网络，所述将所述语种文本标签输入至所述混合专家网络的语种解码器中进行语种文本解码处理，以得到所述语音样本数据的对应语种的语种文本预测特征的步骤，包括：将所述语种文本标签输入至所述第二预设神经网络中进行文本特征提取处理，以得到文本特征提取结果；将所述文本特征提取结果输入至混合专家网络中进行专家解码处理，以得到所述语音文本标签的语种文本预测特征。

第二更新单元607，用于根据所述预测文本和所述目标文本标签更新所述初始语音识别模型的网络参数，以得到语音识别模型。

其中，当所述解码网络模块包括目标解码网络模块和语种解码网络模块，第二更新单元607，具体用于根据所述语种预测文本、所述目标预测文本、所述语种文本标签和所述目标文本标签更新所述初始语音识别模型的网络参数。具体地，根据所述语种预测文本和所述语种文本标签确定语种文本损失值；根据所述目标预测文本和所述目标文本标签确定目标文本损失值；根据所述语种文本损失值和所述目标文本损失值确定所述初始语音识别模型的总体损失值；根据所述总体损失值更新所述初始语音识别模型的网络参数。

为便于更好的实施本申请实施例的语音识别方法，本申请实施例还提供一种语音识别装置。请参阅图11，图11为本申请实施例提供的语音识别装置的结构示意图。该语音识别装置700可以包括第二获取单元701，第二声学提取单元702，第二嵌入提取单元703、第二专家编码单元704、以及第二解码单元705。

第二获取单元701，用于获取目标语音数据，并调用语音识别模型，所述语音识别模型包括嵌入模块、混合专家网络的神经网络模块和解码网络模块。

第二声学提取单元702，用于将所述目标语音数据进行声学特征提取，以得到所述目标语音数据的目标声学特征序列。

第二嵌入提取单元703，用于将所述目标声学特征序列输入至所述嵌入模块中进行语音特征提取处理，以得到所述目标语音数据的目标语音嵌入特征。

第二专家编码单元704，用于将所述目标语音嵌入特征和所述目标声学特征序列输入至所述混合专家网络的神经网络模块中进行编码处理，以得到所述目标语音数据的目标语义编码特征。

其中，所述混合专家网络的神经网络模块中包括第一预设神经网络和混合专家网络，第二专家编码单元704，具体用于将所述目标声学特征输入至所述第一预设神经网络中进行声学特征提取处理，以得到包括所述目标语音数据时序内容的目标时序声学特征；将所述目标语音嵌入特征和所述目标时序声学特征进行第一融合处理，以得到第一目标融合特征；将所述第一目标融合特征和所述目标时序声学特征输入至所述混合专家网络中进行专家编码处理，以得到所述目标语音数据的目标语义编码特征。

第二解码单元705，用于将所述目标语义编码特征和预设文本起始符输入至所述解码网络模块进行解码处理，以得到所述目标语音数据的识别文本。

在一实施例中，如图11所示，所述装置700还可以包括第二前向卷积单元706和第二后向卷积单元707。其中，第二前向卷积单元706，用于将目标声学特征序列输入至前向卷积模块中进行第一卷积处理，以得到第一目标卷积特征。对应地，第二嵌入提取单元703，用于将第一目标卷积特征输入至嵌入模块中进行语音特征提取处理，以得到目标语音数据的目标语音嵌入特征；第二专家编码单元704，用于将所述第一目标卷积特征输入至所述第一预设神经网络中进行声学特征提取处理，以得到包括所述目标语音数据时序内容的目标时序声学特征。对应地，在得到所述目标语音数据的目标语义编码特征之后，第一后向卷积单元709，用于将所述目标语义编码特征输入至所述后向卷积模块中进行第二卷积处理，以得到最终的目标语义编码特征。

相应的，本申请实施例还提供一种计算机设备，该计算机设备可以为终端或者服务器。如图12所示，图12为本申请实施例提供的计算机设备的结构示意图。该计算机设备800包括有一个或者一个以上处理核心的处理器801、有一个或一个以上计算机可读存储介质的存储器802及存储在存储器802上并可在处理器上运行的计算机程序。其中，处理器801与存储器802电性连接。

处理器801是计算机设备800的控制中心，利用各种接口和线路连接整个计算机设备800的各个部分，通过运行或加载存储在存储器802内的软件程序(计算机程序)和/或模块，以及调用存储在存储器802内的数据，执行计算机设备800的各种功能和处理数据，从而对计算机设备800进行整体监控。

在本申请实施例中，计算机设备800中的处理器801会按照如下的步骤，将一个或一个以上的应用程序的进程对应的指令加载到存储器802中，并由处理器801来运行存储在存储器802中的应用程序，从而实现上述任一方法实施例中的功能如任一语音识别模型训练方法和/或上述任一语音识别方法，例如：

获取多种不同语种的语音数据集和初始语音识别模型，所述语音数据集中包括每种不同语种的语音样本数据、所述语音样本数据的对应语种的语种文本标签、以及所述语音样本数据的目标语种的目标文本标签，所述初始语音识别模型包括混合专家网络的编码网络模块和解码网络模块，所述编码网络模块中包括混合专家网络的神经网络模块和嵌入模块；将所述语音样本数据进行声学特征提取，以得到所述语音样本数据的声学特征序列；将所述声学特征序列输入至所述嵌入模块中进行语音特征提取处理，以得到所述语音样本数据的语音嵌入特征；将所述语音嵌入特征和所述声学特征序列输入至所述混合专家网络的神经网络模块中进行编码处理，以得到所述语音样本数据的语义编码特征；将所述语义编码特征和所述目标文本标签输入至所述解码网络模块进行解码处理，以得到所述语音样本数据的预测文本；根据所述预测文本和所述目标文本标签更新所述初始语音识别模型的网络参数，以得到语音识别模型；和/或，

获取目标语音数据，并调用语音识别模型，所述语音识别模型包括混合专家网络的编码网络模块和解码网络模块，所述编码网络模块中包括混合专家网络的神经网络模块和嵌入模块；将所述目标语音数据进行声学特征提取，以得到所述目标语音数据的目标声学特征序列；将所述目标声学特征序列输入至所述嵌入模块中进行语音特征提取处理，以得到所述目标语音数据的目标语音嵌入特征；将所述目标语音嵌入特征和所述目标声学特征序列输入至所述混合专家网络的神经网络模块中进行编码处理，以得到所述目标语音数据的目标语义编码特征；将所述目标语义编码特征和预设文本起始符输入至所述解码网络模块进行解码处理，以得到所述目标语音数据的识别文本。

处理器可执行的各个操作的具体实施和有益效果可参见前面的方法实施例，在此不再赘述。

可选的，如图12所示，计算机设备800还包括：触控显示屏803、射频电路804、音频电路805、输入单元806以及电源807。其中，处理器801分别与触控显示屏803、射频电路804、音频电路805、输入单元806以及电源807电性连接。本领域技术人员可以理解，图12中示出的计算机设备结构并不构成对计算机设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

触控显示屏803可用于显示图形用户界面以及接收用户作用于图形用户界面产生的操作指令。触控显示屏803可以包括显示面板和触控面板。其中，显示面板可用于显示由用户输入的信息或提供给用户的信息以及计算机设备的各种图形用户接口，这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。可选的，可以采用液晶显示器(LCD，Liquid Crystal Display)、有机发光二极管(OLED，Organic Light-EmittingDiode)等形式来配置显示面板。触控面板可用于收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板上或在触控面板附近的操作)，并生成相应的操作指令，且操作指令执行对应程序。触控面板可覆盖显示面板，当触控面板检测到在其上或附近的触摸操作后，传送给处理器801以确定触摸事件的类型，随后处理器801根据触摸事件的类型在显示面板上提供相应的视觉输出。在本申请实施例中，可以将触控面板与显示面板集成到触控显示屏803而实现输入和输出功能。但是在某些实施例中，触控面板与触控面板可以作为两个独立的部件来实现输入和输出功能。即触控显示屏803也可以作为输入单元806的一部分实现输入功能。

在本申请实施例中，该触控显示屏803用于呈现图形用户界面以及接收用户作用于图形用户界面产生的操作指令。

射频电路804可用于收发射频信号，以通过无线通信与网络设备或其他计算机设备建立无线通讯，与网络设备或其他计算机设备之间收发信号。

音频电路805可以用于通过扬声器、传声器提供用户与计算机设备之间的音频接口。音频电路805可将接收到的音频数据转换后的电信号，传输到扬声器，由扬声器转换为声音信号输出；另一方面，传声器将收集的声音信号转换为电信号，由音频电路805接收后转换为音频数据，再将音频数据输出处理器801处理后，经射频电路804以发送给比如另一计算机设备，或者将音频数据输出至存储器802以便进一步处理。音频电路805还可能包括耳塞插孔，以提供外设耳机与计算机设备的通信。

输入单元806可用于接收输入的数字、字符信息或用户特征信息(例如指纹、虹膜、面部信息等)，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

电源807用于给计算机设备800的各个部件供电。可选的，电源807可以通过电源管理系统与处理器801逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源807还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

尽管图12中未示出，计算机设备800还可以包括摄像头、传感器、无线保真模块、蓝牙模块等，在此不再赘述。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令来完成，或通过指令控制相关的硬件来完成，该指令可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。

为此，本申请实施例提供一种计算机可读存储介质，其中存储有多条计算机程序，该计算机程序能够被处理器进行加载，以执行本申请实施例所提供的任一种方法中的步骤，例如，上述任一语音识别模型训练方法和任一语音识别方法。例如，该计算机程序可以执行如下步骤：

以上各个操作的具体实施可参见前面的实施例，在此不再赘述。

其中，该存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、磁盘或光盘等。

由于该存储介质中所存储的计算机程序，可以执行本申请实施例所提供的任一种多语言融合的语义表示方法中的步骤，因此，可以实现本申请实施例所提供的任一种多语言融合的语义表示方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

以上对本申请实施例所提供的一种多语言融合的语义表示方法、装置、存储介质及计算机设备进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种语音识别方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述混合专家网络的神经网络模块中包括第一预设神经网络和混合专家网络，所述将所述目标语音嵌入特征和所述目标声学特征序列输入至所述混合专家网络的神经网络模块中进行编码处理，以得到所述目标语音数据的目标语义编码特征的步骤，包括：

将所述目标声学特征序列输入至所述第一预设神经网络中进行声学特征提取处理，以得到包括所述目标语音数据时序内容的目标时序声学特征；

将所述目标语音嵌入特征和所述目标时序声学特征进行第一融合处理，以得到第一目标融合特征；

将所述第一目标融合特征和所述目标时序声学特征输入至所述混合专家网络中进行专家编码处理，以得到所述目标语音数据的目标语义编码特征。

3.根据权利要求2所述的方法，其特征在于，所述混合专家网络中包括路由器和多个专家神经网络，所述将所述第一目标融合特征和所述目标时序声学特征输入至所述混合专家网络中进行专家编码处理，以得到所述目标语音数据的目标语义编码特征的步骤，包括：

将所述第一目标融合特征输入至所述路由器中进行分类处理，以得到与多个专家神经网络一一对应的专家概率；

将所述目标时序声学特征输入至专家概率最大的目标专家神经网络中进行专家编码处理，以得到所述目标语音数据的目标专家语义编码特征；

根据所述目标专家语义编码特征和最大的专家概率确定所述目标语音数据的目标语义编码特征。

4.根据权利要求2所述的方法，其特征在于，所述混合专家网络的神经网络模块中还包括前向卷积模块和后向卷积模块，在得到所述目标语音数据的目标声学特征序列之后，还包括：

将所述目标声学特征序列输入至所述前向卷积模块中进行第一卷积处理，以得到所述第一目标卷积特征；

所述将所述目标声学特征序列输入至所述嵌入模块中进行语音特征提取处理的步骤，包括：将所述第一目标卷积特征输入至所述嵌入模块中进行语音特征提取处理；

所述将所述目标声学特征序列输入至所述第一预设神经网络中进行声学特征提取处理的步骤，包括：将所述第一目标卷积特征输入至所述第一预设神经网络中进行声学特征提取处理；

在得到所述目标语音数据的目标语义编码特征的步骤之后，还包括：将所述目标语义编码特征输入至所述后向卷积模块中进行第二卷积处理，以得到最终的目标语义编码特征。

5.根据权利要求1-4任一项所述的方法，其特征在于，所述语音识别模型通过如下步骤训练得到：

将所述声学特征序列输入至所述嵌入模块中进行语音特征提取处理，以得到所述语音样本数据的语音嵌入特征；

6.根据权利要求5所述的方法，其特征在于，在得到所述语音样本数据的语音嵌入特征的步骤之后，还包括：

根据所述语音嵌入特征和所述语种文本标签确定所述嵌入模块的语音损失值；

根据所述语音损失值更新所述嵌入模块的网络参数。

7.根据权利要求6所述的方法，其特征在于，所述根据所述语音嵌入特征和所述语种文本标签确定所述嵌入模块的语音损失值的步骤，包括：

按照预设解码方式，对所述语音嵌入特征进行预设解码处理，以得到所述语音样本数据的对应语种的语种文本；

根据所述语种文本和所述语种文本标签确定所述嵌入模块的语音损失值。

8.根据权利要求5所述的方法，其特征在于，所述解码网络模块包括目标解码网络模块和语种解码网络模块；

所述将所述语义编码特征和所述目标文本标签输入至所述解码网络模块进行解码处理，以得到所述语音样本数据的预测文本的步骤，包括：

将所述语义编码特征和所述语种文本标签输入至所述语种解码网络模块中进行第一解码处理，以得到所述语音样本数据的对应语种的语种预测文本；

将所述语义编码特征和所述目标文本标签输入至所述目标解码网络模块中进行第二解码处理，以得到所述语音样本数据的目标语种的目标预测文本；

所述根据所述预测文本和所述目标文本标签更新所述初始语音识别模型的网络参数的步骤，包括：

根据所述语种预测文本、所述目标预测文本、所述语种文本标签和所述目标文本标签更新所述初始语音识别模型的网络参数。

9.根据权利要求8所述的方法，其特征在于，所述语种解码网络模块中包括混合专家网络的语种解码器和语种联合网络模块，所述将所述语义编码特征和所述语种文本标签输入至所述语种解码网络模块中进行第一解码处理，以得到所述语音样本数据的对应语种的语种预测文本的步骤，包括：

将所述语种文本标签输入至所述混合专家网络的语种解码器中进行语种文本解码处理，以得到所述语种文本标签的语种文本预测特征；

将所述语义编码特征和所述语种文本预测特征进行第二融合处理，以得到第二融合特征；

将所述第二融合特征输入至所述语种联合网络模块中进行语种解码处理，以得到所述语音样本数据的对应语种的语种预测文本。

10.根据权利要求9所述的方法，其特征在于，所述混合专家网络的语种解码器中包括第二预设神经网络和混合专家网络，所述将所述语种文本标签输入至所述混合专家网络的语种解码器中进行语种文本解码处理，以得到所述语音样本数据的对应语种的语种文本预测特征的步骤，包括：

将所述语种文本标签输入至所述第二预设神经网络中进行文本特征提取处理，以得到文本特征提取结果；

将所述文本特征提取结果输入至混合专家网络中进行专家解码处理，以得到所述语音文本标签的语种文本预测特征。

11.根据权利要求8所述的方法，其特征在于，所述根据所述语种预测文本、所述目标预测文本、所述语种文本标签和所述目标文本标签更新所述初始语音识别模型的网络参数的步骤，包括：

根据所述语种预测文本和所述语种文本标签确定语种文本损失值；

根据所述目标预测文本和所述目标文本标签确定目标文本损失值；

根据所述语种文本损失值和所述目标文本损失值确定所述初始语音识别模型的总体损失值；

根据所述总体损失值更新所述初始语音识别模型的网络参数。

12.一种语音识别模型训练方法，其特征在于，包括：

获取多种不同语种的语音数据集和初始语音识别模型，所述语音数据集中包括每种不同语种的语音样本数据、所述语音样本数据的对应语种的语种文本标签、以及所述语音样本数据的通用语种的通用文本标签，所述初始语音识别模型包括混合专家网络的编码网络模块和解码网络模块，所述编码网络模块中包括混合专家网络的神经网络模块和嵌入模块；

将所述语义编码特征和所述通用文本标签输入至所述解码网络模块进行解码处理，以得到所述语音样本数据的预测文本；

根据所述预测文本和所述通用文本标签更新所述初始语音识别模型的网络参数，以得到语音识别模型。

13.一种语音识别模型训练装置，其特征在于，包括：

14.一种语音识别装置，其特征在于，包括：

15.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序适于处理器进行加载，以执行如权利要求1-12任一项所述的方法中的步骤。

16.一种计算机设备，其特征在于，所述计算机设备包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器通过调用所述存储器中存储的所述计算机程序，执行如权利要求1-12任一项所述的方法中的步骤。