CN115312028A

CN115312028A - 语音识别方法、装置、计算机可读存储介质及计算机设备

Info

Publication number: CN115312028A
Application number: CN202210939628.2A
Authority: CN
Inventors: 朱成志; 万根顺; 刘聪; 胡国平; 刘庆峰
Original assignee: iFlytek Co Ltd
Current assignee: University of Science and Technology of China USTC; iFlytek Co Ltd
Priority date: 2022-08-05
Filing date: 2022-08-05
Publication date: 2022-11-08

Abstract

本申请实施例公开了一种语音识别方法、装置、计算机可读存储介质及计算机设备，可以实现端到端的多种语种免切换的语音识别，对多种语种统一建立预设语音识别模型，该预设语音识别模型包括预设互联的语种所对应的独立参数模块与共享参数模块，预设数量的语种所对应的独立参数模块分别与语种对应，利用共享参数模块共用模型参数，如此，不管输入的是哪种语种的待识别的语音数据，都可以利用共享参数模块，降低预设语音识别模型的模型参数，同时由于独立参数模块进行了语种绑定，即独立参数模块分别根据语种分别设置独立参数，避免了不同语种之间的相互影响，降低了语种混淆度，提高多语种语音识别的准确率。

Description

语音识别方法、装置、计算机可读存储介质及计算机设备

技术领域

本申请涉及数据处理技术领域，具体涉及一种语音识别方法、装置、计算机可读存储介质及计算机设备。

背景技术

我国有100多种方言，虽然普通话使用最为广泛，但方言在日常生活中仍占据重要地位。比如A、B、C等地区的本地居民日常生活中，主要使用a方言语种、b方言语种和c方言语种进行交流，因此支持普通话和方言(简称方普)混合使用的语音识别需求日渐增多。

目前方普语音识别方法包括：使用多个单语种识别系统并联计算，最后再通过语种判断模块判断对语种后抛出对应语种结果，这种方法会产生大量无效计算，大大增加了部署成本；或者直接使用普通话建模，加入方言数据后直接混合为方普统一建模系统，但受限于不同方言的语法和说法有很大差异，这种建模方式的识别效果往往达不到期望的效果，同时可能对普通话的效果造成一些损失。

由此可见，目前方普语音识别的方式识别的效率较低，且鲁棒性较差。

发明内容

本申请实施例提供一种语音识别方法、装置、计算机可读存储介质及计算机设备，可以提高预设语音识别模型的识别效率和准确性。

本申请实施例提供了一种语音识别方法，包括：

接收所选择的语种，以及获取预设语音识别模型，所选择的语种为所述预设语音识别模型中的预设数量的语种中的至少一个语种，

接收所输入的待识别的音频数据；

利用所述预设语音识别模型对所述音频数据进行语种识别处理，以得到所述音频数据所对应的目标语种，并利用所述预设语音识别模型中的所述目标语种的独立参数模块、共享参数模块，以及解码模块中所述目标语种所对应的子解码模块，对所述音频数据进行语音识别处理，以得到所述音频数据对应于所述目标语种的音频识别结果，其中，所述目标语种为所选择的语种中的至少一个语种，所述预设语音识别模型中包括预设数量的语种的独立参数模块与共享参数模块；

返回所述音频识别结果。

本申请实施例还提供了一种语音识别方法，包括：

接收所输入的待识别的音频数据以及获取预设语音识别模型，所述预设语音识别模型用于对预先确定的预设数量的语种的语音数据进行语音识别；

利用所述预设语音识别模型对所述音频数据进行语种识别处理，以得到所述音频数据所对应的目标语种，并利用所述预设语音识别模型中的所述目标语种的独立参数模块、共享参数模块，以及解码模块中所述目标语种所对应的子解码模块，对所述音频数据进行语音识别处理，以得到所述音频数据对应于所述目标语种的音频识别结果，其中，所述目标语种为预设数量的语种中的至少一个语种，所述预设语音识别模型中包括预设数量的语种的独立参数模块与共享参数模块；

返回所述音频识别结果。

本申请实施例还提供了一种语音识别方法，包括：

获取当前帧的待识别的语音数据、所述当前帧的前一帧中的语音识别结果和预设语音识别模型，所述预设语音识别模型包括预测网络、编码网络和联合网络，所述预测网络包括语种嵌入层和预设网络层，所述联合网络包括联合网络层和softmax网络层，所述预设语音识别模型用于对预先确定的预设数量的语种的语音数据进行语音识别；

将利用所述编码网络对所述语音数据进行编码处理得到的编码特征，和利用所述语种嵌入层中每种语种所对应的子嵌入层和所述预测网络层对所述前一帧的语音识别结果进行预测处理得到的预测特征进行合并处理，以得到合并特征，所述语种嵌入层中包括所述预设数量的语种所对应的子嵌入层；

利用所述联合网络层中的每种语种对应的子联合网络层和所述softmax网络层中的每种语种对应的子softmax网络层，对所述合并特征进行联合映射处理，以得到所述语音数据对应于每种语种的映射概率，其中，所述联合网络层中包括所述预设数量的语种所对应的子联合网络层，所述softmax网络层中包括所述预设数量的语种所对应的子softmax网络层；

利用解码模块中每种语种对应的子解码模块对所述映射概率进行解码识别处理，以得到所述语音数据对应于每种语种的语音识别结果。

本申请实施例还提供一种语音识别方法，包括：

获取特定语种的目标训练样本的当前帧的训练语音数据和所述当前帧的前一帧的训练语音识别结果，以及获取初始语音识别模型，所述初始语音识别模型包括编码网络、预测网络和联合网络，所述预测网络包括语种嵌入层和预测网络层，所述联合网络包括联合网络层和softmax网络层，所述预设语音识别模型用于对预先确定的预设数量的语种的语音数据进行语音识别，所述特定语种为所述初始语音识别模型预先确定的预设数量的语种中的至少一个语种；

将利用所述编码网络对所述训练语音数据进行编码处理得到的训练编码特征，和利用所述特定语种所对应的子嵌入层和预测网络层对所述前一帧的训练语音识别结果进行预测处理得到的训练预测特征进行合并处理，以得到训练合并特征，所述语种嵌入层中包括所述预设数量的语种所对应的子嵌入层；

利用所述联合网络层中的特定语种对应的子联合网络层和所述softmax网络层中的特定语种对应的子softmax网络层，对所述训练合并特征进行联合映射处理，以得到所述训练语音数据对应于特定语种的训练映射概率，其中，所述联合网络层中包括所述预设数量的语种所对应的子联合网络层，所述softmax网络层中包括所述预设数量的语种所对应的子softmax网络层；

利用解码模块中特定语种对应的子解码模块对所述训练映射概率进行解码识别处理，以得到所述训练语音数据对应于特定语种的训练语音识别结果；

利用所述当前帧的所述训练语音识别结果和所述目标训练样本的当前帧的标签数据对所述初始语音识别模型中的模型参数进行更新，如此对预设数量的语种进行训练，以得到预设语音识别模型；

利用所述预设语音识别模型对待识别的音频数据对应的每一帧语音数据进行识别处理，以得到所述语音数据的语音识别结果。

本申请实施例还提供一种语音识别装置，包括：

接收获取模块，用于接收所选择的语种、以及获取预设语音识别模型，所选择的语种为预设语音识别模型中的预设数量的语种中的至少一个语种；

所述接收获取模块，还用于接收所输入的待识别的音频数据；

语音识别模块，用于利用所述预设语音识别模型对所述音频数据进行语种识别处理，以得到所述音频数据所对应的目标语种，并利用所述预设语音识别模型中的所述目标语种的独立参数模块、共享参数模块，以及解码模块中所述目标语种所对应的子解码模块，对所述音频数据进行语音识别处理，以得到所述音频数据对应于所述目标语种的音频识别结果，其中，所述目标语种为所选择的语种中的至少一个语种，所述预设语音识别模型中包括预设数量的语种的独立参数模块与共享参数模块；

返回模块，用于返回所述音频识别结果。

本申请实施例还提供一种语音识别装置，包括：

接收获取模块，用于接收所输入的待识别的音频数据，以及获取预设语音识别模型，所述预设语音识别模型用于对预先确定的预设数量的语种的语音数据进行语音识别；

语音识别模块，用于利用所述预设语音识别模型对所述音频数据进行语种识别处理，以得到所述音频数据所对应的目标语种，并利用所述预设语音识别模型中的所述目标语种的独立参数模块、共享参数模块，以及解码模块中所述目标语种所对应的子解码模块，对所述音频数据进行语音识别处理，以得到所述音频数据对应于所述目标语种的音频识别结果，其中，所述目标语种为预设数量的语种中的至少一个语种，所述预设语音识别模型中包括预设数量的语种的独立参数模块与共享参数模块；

返回模块，用于返回所述音频识别结果。

本申请实施例还提供一种语音识别装置，包括：

第一获取模块，用于获取当前帧的待识别的语音数据、所述当前帧的前一帧中的语音识别结果和预设语音识别模型，所述预设语音识别模型包括预测网络、编码网络和联合网络，所述预测网络包括语种嵌入层和预设网络层，所述联合网络包括联合网络层和softmax网络层，所述预设语音识别模型用于对预先确定的预设数量的语种的语音数据进行语音识别；

第一合并模块，用于将利用所述编码网络对所述语音数据进行编码处理得到的编码特征，和利用所述语种嵌入层中每种语种所对应的子嵌入层和所述预测网络层对所述前一帧的语音识别结果进行预测处理得到的预测特征进行合并处理，以得到合并特征，所述语种嵌入层中包括所述预设数量的语种所对应的子嵌入层；

第一映射模块，用于利用所述联合网络层中的每种语种对应的子联合网络层和所述softmax网络层中的每种语种对应的子softmax网络层，对所述合并特征进行联合映射处理，以得到所述语音数据对应于每种语种的映射概率，其中，所述联合网络层中包括所述预设数量的语种所对应的子联合网络层，所述softmax网络层中包括所述预设数量的语种所对应的子softmax网络层；

第一解码识别模块，用于利用解码模块中每种语种对应的子解码模块对所述映射概率进行解码识别处理，以得到所述语音数据对应于每种语种的语音识别结果。

本申请实施例还提供一种语音识别装置，包括：

第二获取模块，用于获取特定语种的目标训练样本的当前帧的训练语音数据和所述当前帧的前一帧的训练语音识别结果，以及获取初始语音识别模型，所述初始语音识别模型包括编码网络、预测网络和联合网络，所述联合网络包括联合网络层和softmax网络层，所述预设语音识别模型用于对预先确定的预设数量的语种的语音数据进行语音识别，所述特定语种为所述初始语音识别模型预先确定的预设数量的语种中的至少一个语种；

第二合并模块，用于将利用所述编码网络对所述训练语音数据进行编码处理得到的训练编码特征，和利用所述预测网络对所述前一帧的训练语音识别结果进行预测处理得到的训练预测特征进行合并处理，以得到训练合并特征；

第二映射模块，用于利用所述联合网络层中的特定语种对应的子联合网络层和所述softmax网络层中的特定语种对应的子softmax网络层，对所述训练合并特征进行联合映射处理，以得到所述训练语音数据对应于特定语种的训练映射概率，其中，所述联合网络层中包括所述预设数量的语种所对应的子联合网络层，所述softmax网络层中包括所述预设数量的语种所对应的子softmax网络层；

第二解码识别模块，用于利用解码模块中的特定语种对应的子解码模块对所述训练映射概率进行解码识别处理，以得到所述训练语音数据对应于每种语种的训练语音识别结果；

更新模块，用于利用所述当前帧的所述训练语音识别结果和所述目标训练样本的当前帧的标签数据对所述初始语音识别模型中的模型参数进行更新，如此对预设数量的语种进行训练，以得到预设语音识别模型；

识别模块，用于利用所述预设语音识别模型对待识别的音频数据对应的每一帧语音数据进行识别处理，以得到所述语音数据的语音识别结果。

本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序适于处理器进行加载，以执行如上任一实施例所述的语音识别方法中的步骤。

本申请实施例还提供一种计算机设备，所述计算机设备包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器通过调用所述存储器中存储的所述计算机程序，执行如上任一实施例所述的语音识别方法中的步骤。

本申请实施例提供的语音识别方法、装置、计算机可读存储介质及计算机设备，可以实现端到端的多种语种免切换的语音识别，对预设数量的多种语种统一建立预设语音识别模型，该预设语音识别模型包括预设数量的语种所对应的独立参数模块与共享参数模块，预设数量的语种所对应的独立参数模块分别与语种对应，利用共享参数模块共用模型参数，如此，不管输入的是哪种语种的待识别的语音数据，都可以利用该共享参数模块，降低预设语音识别模型的模型参数，由于在一个模型中可实现是预设数量的多种语种的识别，相对于多个单语种识别系统并联计算来说，提高预设语音识别模型的识别效率，同时由于独立参数模块进行了语种绑定，即独立参数模块根据语种分别设置独立参数，避免了不同语种之间的相互影响，降低了语种混淆度，考虑了不同语种的语法和说法的区别，提高多语种语音识别的准确率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的语音识别模型的结构示意图。

图2为本申请实施例提供的预设语音识别模型的结构示意图。

图3为本申请实施例提供的语音识别方法的流程示意图。

图4为本申请实施例提供的语音识别方法的流程示意图。

图5为本申请实施例提供的预设语音识别模型的一结构示意图。

图6为本申请实施例提供的语音识别方法的一流程示意图。

图7为本申请实施例提供的预设语音识别模型的另一结构示意图。

图8为本申请实施例提供的一语音识别方法的另一流程示意图。

图9为本申请实施例提供的预设语音识别模型的另一结构的示意图。

图10为本申请实施例提供的一语音识别方法的另一流程示意图。

图11为本申请实施例提供的一语音识别方法的又一流程示意图。

图12为本申请实施例提供的一语音识别方法的又一流程示意图。

图13为本申请实施例提供的语音识别方法的另一流程示意图。

图14为本申请实施例提供的另一语音识别方法的流程示意图。

图15为本申请实施例提供的语音识别装置的结构示意图。

图16为本申请实施例提供的语音识别装置的结构示意图。

图17为本申请实施例提供的语音识别装置的另一结构示意图。

图18为本申请实施例提供的计算机设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例提供一种语音识别方法、装置、计算机可读存储介质及计算机设备。具体地，本申请实施例的语音识别方法可以由计算机设备执行，本申请实施例中的语音识别装置集成在计算机设备中，其中，该计算机设备可以为终端或者服务器等设备。该终端可以为智能手机、平板电脑、笔记本电脑、触控屏幕、游戏机、个人计算机(PC，PersonalComputer)、智能车载终端、机器人或者类似机器人等功能的设备。服务器可以是独立的物理服务器，也可以是区块链系统中的服务节点，还可以是多个物理服务器构成的服务器集群，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、以及大数据和人工智能平台等基础云计算服务的云服务器。

本申请实施例中的预设语音识别模型是基于多语种循环神经网络变换器(Recurrent Neural Network Transducer，RNN-T)得到的语音识别模型，即本申请实施例中的预设语音识别模型是改进RNN-T模型得到的语音识别模型。在对本申请实施例中的预设语音识别模型进行详细介绍之前，先简单描述RNN-T模型的结构，以便于理解本申请实施例中的预设语音识别模型。

图1是语音识别模型的结构示意图。图1中所述的语音识别模型为RNN-T模型，RNN-T模型包括编码网络(也称为解码器，Encoder Network)、预测网络(Prediction Network)和联合网络(Joint Network)。其中，将音频数据x的第t-1帧或者音频数据x的第t-1时刻中RNN-T模型输出的语音识别结果ya-1，输入至预测网络中进行处理得到预测特征如预测特征向量，将音频数据x的第t帧或者第t时刻的语音数据x_t，输入至编码网络进行处理得到编码特征如编码特征向量，将预测特征和编码特征一起输入至联合网络中，最后经过联合网络的联合网络层和softmax网络层处理后产生全空间的后验概率(映射概率)，将后验概率进行排序，选择top值后，得到ya，如此，直至结束。

RNN-T模型中的联合网络的输出为多语种的直接混合如包括普通话和方言的直接混合，没有考虑到不同方言的语法和说法的区别，效果不及单语种的语音识别系统，准确率较低。

在RNN-T模型的基础上，本申请对RNN-T模型进行改进。改进后得到的预设语音识别模型的结构示意图，如图2所示。其中，将预测网络和联合网络进行了改进。具体地将预测网络分为语种嵌入层(Embedding)和预测网络层，其中，语种嵌入层中设置了预设数量的语种对应的子嵌入层，其中，预设数量的语种包括两种或者两种以上的不同语种，预测网络层实现的功能与目前的相同，下文中将不再赘述；将联合网络中的联合网络层中设置了预设数量的语种所对应的子联合网络层；将联合网络中的softmax网络层中设置了预设数量的语种所对应的子softmax网络层。其中，联合网络层中的预设数量的语种对应的子联合网络层、softmax网络层中的预设数量的语种对应的子softmax网络层与语种嵌入层中的预设数量的语种对应的子嵌入层分别一一对应。

例如，预设数量的语种中包括语种A、语种B和语种C，对应地，语种嵌入层中包括语种A对应的子嵌入层、语种B对应的子嵌入层、语种C对应的子嵌入层，联合网络层中包括语种A对应的子联合网络层、语种B对应的子联合网络层、语种C对应的子联合网络层，softmax网络层中包括语种A对应的子softmax网络层、语种B对应的子softmax网络层、语种C对应的子softmax网络层。

在本申请实施例中，语种嵌入层为预测网络的一部分，在其他实施例中，语种嵌入层还可以是独立的模块，即预测网络中不包括语种嵌入层。不管语种嵌入层是否为预测网络的一部分，语种嵌入层与预测网络层的作用都保持不变。同一个语种的子联合网络层和子softmax网络层所实现的功能与目前的联合网络实现的功能相同，具体地，后文中将不再对子联合网络层和子softmax网络层的功能做介绍。其中，对应语种所对应的解码模块可以不作为预设语音识别模型的一部分，也可以作为预设语音识别模型的一部分，无论对应语种的解码模块是否为预设语音识别模型的一部分，对应语种的解码模块实现的功能不变。

其中，若预设语音识别模型实现的是方言和普通话的端到端的免切换语音识别功能，对应地，预设数量的语种中包括普通话和至少一种方言，若预设语音识别模型实现的是多种方言的端到端的免切换语音识别功能，对应地，预设数量的语种中包括多种方言。预设数量的语种跟具体场景中实现的语音识别功能相关，例如预设数量的语种还可以是普通话、英文、法语等，不一一例举。

图3是本申请实施例提供的语音识别方法的流程示意图，该实施例可参看图2所示的预设语音识别模型，该语音识别方法包括如下步骤。

101，接收所选择的语种，以及获取预设语音识别模型，其中，所选择的语种为预设语音识别模型中的预设数量的语种中的至少一个语种。

例如，计算机设备上可提供一交互界面，在该交互界面上可以选择目标语种，或者通过其他方式来选择目标语种，计算机设备接收所选择的目标语种，该目标语种是预设数量的语种的至少一个语种，例如，目标语种为普通话或者某一方言语种。预设语音识别模型可以对预设数量语种的语音数据进行识别。

获取预设语音识别模型，该预设语音识别模型对预先确定的预设数量的语种的语音数据进行语音识别，该预设语音识别模型包括预测网络、编码网络和联合网络，该预测网络包括语种嵌入层和预测网络层，该联合网络包括联合网络层和softmax网络层。

该实施例中的预设语音识别模型的结构如图2所示，其中，编码网络也可称为编码器，以用于将待识别音频数据中的每一帧语音数据进行编码处理，以得到编码特征/或编码向量，预测网络用于将前一帧的语音数据的语音识别结果进行预测处理，以得到预测特征和/或预测向量，联合网络用于将预测特征和编码特征融合处理之后的合并特征进行联合映射处理，以得到当前帧的语音数据对应于每种语种的映射概率。解码模块用于对每种语种的映射概率进行解码识别处理，以得到语音数据对应于每种语种的映射概率。

其中，语种嵌入层中包括预设数量的语种所对应的子嵌入层，所述联合网络层中包括预设数量的语种所对应的子联合网络层，softmax网络层中包括预设数量的语种所对应的子softmax网络层，解码模块中包括预设数量的语种所对应的子解码模块。

102，接收所输入的待识别的音频数据。

待识别的音频数据可以是用户输入的音频数据，例如，计算机设备可提供一交互界面，该交互界面可以输入待识别的音频数据，或者选择预先设置的待识别的音频数据，待识别的音频数据可以是预置的待识别的音频数据等，计算机设备接收所输入的待识别的音频数据。音频数据包括多帧语音数据。

103，利用预设语音识别模型对音频数据进行语种识别处理，以得到音频数据所对应的目标语种，并利用预设语音识别模型中的目标语种的独立参数模块、共享参数模块，以及解码模块中的目标语种所对应的子解码模块，对音频数据进行语音识别处理，以得到音频数据对应于目标语种的音频识别结果，其中，目标语种为所选择的语种中的至少一个语种，预设语音识别模型中包括预设数量的语种的独立参数模块与共享参数模块。

其中，独立参数模块指的是跟具体的语种相关的模块。每种语种所对应的独立参数模块包括每种语种所对应的子嵌入层、每种语种所对应的子联合网络层、每种语种所对应的子softmax网络层，若解码模块也属于预设语音识别模型中的模块，则每种语种所对应的独立参数模块还包括每种语种所对应的子解码模块，本申请实施例中以解码模块不属于预设语音识别模块为例进行说明。例如，目标语种所对应的独立参数模块包括目标语种所对应的子嵌入层、目标语种所对应的子联合网络层、目标语种所对应的子softmax网络层等。

独立参数模块根据语种设置独立参数，使得独立参数模块可以最大程度的反映该语种的信息，提高准确性，提高语音识别的准确性。

其中，共享参数模块为预设数量的语种都可以共用的模块。如图2所示的预设语音识别模型中，共享参数模块包括预测网络层和编码网络。

共享参数模块采用共用的模型参数，即不管是何种语种，其对应的模型参数不变，或者也理解为共享参数模块复用或者共享，如此，减少模型参数，提高语音识别效率，提高训练速度等。

在一实施例中，若所选择的语种包括一个，则目标语种为所选择的语种，即目标语种为一个语种，对应地，利用预设语音识别模型对音频数据进行语种识别处理，所确定的目标语种即为所选择的语种，如图4所示，上述103的步骤，包括如下步骤。

201，获取音频数据当前帧的待识别的语音数据、当前帧的前一帧中的语音识别结果。

其中，由于音频数据包括多帧语音数据，在利用预设语音识别模型来进行处理时，是一帧一帧的来进行处理的。

当前帧可以理解为音频数据x的第t帧或者音频数据x的第t时刻，当前帧的前一帧可理解为音频数据x的第t-1帧或者音频数据x的第t-1时刻。当前帧的待识别的语音数据即为当前帧的待识别的语音信息，如图2中，用x_t来表示，前一帧的语音识别结果用yu-1来表示，前一帧的语音识别结果包括对应语种输出的字符和/或对应语种输出的字符所在位置等信息。

202，将利用编码网络对语音数据进行编码处理得到的编码特征，和利用目标语种所对应的子嵌入层、预测网络层对前一帧的语音识别结果进行预测处理得到的预测特征进行合并处理，以得到合并特征。

其中，利用编码网络对语音数据进行编码处理得到编码特征，利用目标语种所对应的子嵌入层、预测网络层对当前帧的前一帧的语音识别结果进行预测处理得到预测特征，将编码特征与预测特征进行合并处理，得到合并特征。

在一实施例中，预设语音识别模型还包括特征提取层，具体地，利用特征提取层对语音数据进行声学特征处理，以得到声学特征，利用编码网络对声学特征进行编码处理，得到编码特征，本申请实施例中以该种情况为例进行说明。即特征提取层的输入为语音数据，输出为声学特征，编码网络的输入为声学特征，输出为编码特征。其中，语音数据的编码特征可以为1*512维，或者为其他维度。

在一实施例中，特征提取层也可以属于编码网络的一部分，对应地，编码网络包括特征提取层和编码网络层，利用特征提取层对语音数据进行声学特征处理，以得到声学特征，利用编码网络层对声学特征进行编码处理，得到编码特征。不管特征提取层是独立的模块，还是属于编码网络的一部分，它们的作用都没有变。

在一实施例中，若预设语音识别模型中不包括特征提取层，则当前帧的语音数据即为利用特征提取层得到的声学特征所对应的数据。

其中，编码网络采用共用的模型参数，即不管是何种语种，其对应的模型参数不变，或者也理解为编码网络复用或者共享，如此，减少模型参数，提高语音识别效率，提高训练速度等。

其中，由于预测网络包括语种嵌入层和预测网络层，该语种嵌入层中包括预设数量的语种所对应的子嵌入层，前一帧的语音识别结果可包括目标语种对应的语音识别结果。对应地，利用目标语种所对应的子嵌入层、预测网络层对前一帧的语音识别结果进行预测处理得到的预测特征。

其中，将前一帧的语音识别结果输入至语种嵌入层中的目标语种对应的子嵌入层中，例如若目标语种为语种A，则将前一帧的语音识别结果中的语种A对应的语音识别结果输入至语种嵌入层中的语种A对应的子嵌入层中，若目标语种为语种B，则将前一帧的语音识别结果中的语种B对应的语音识别结果输入至语种嵌入层中的语种B对应的子嵌入层中。接着利用预测网络的预测网络层对目标语种的嵌入层特征进行预测处理，以得到目标语种的预测特征，即将目标语种的嵌入层特征输入至预测网络层中进行预测处理，以得到目标语种的预测特征。其中，预测网络层的预测处理本质上是将嵌入层特征转换为高阶表示。例如，目标语种经过预测网络层处理后，得到的特征可以为1*512维或者是其他维度。

其中，音频数据x的第1帧或者音频数据的第1时刻，由于前一帧的语音识别结果为空，因此，预测网络的输出结果即预测特征为预设值，如为0或者为空等；或者输入空字符至预测网络，利用预测网络进行预测处理，得到对应的预测特征。其他帧或者其他时刻，请参看本申请中描述的方式。

其中，由于该语种嵌入层中包括预设数量的语种对应的子嵌入层，每个子嵌入层对应一个语种，即每个子嵌入层根据语种设置独立参数，使得利用子嵌入层处理后得到的特征最大程度的反映了该语种的信息，提高嵌入层特征的准确性，提高了语音识别的准确性，而编码网络和预测网络层使用共享方式减少模型参数，或者也可理解为编码网络和预测网络层复用，以提高语音识别效率。

其中，上述对利用编码网络对语音数据进行编码处理得到编码特征的步骤，和利用目标语种所对应的子嵌入层、预测网络层对当前帧的前一帧的语音识别结果进行预测处理得到预测特征的步骤，可以并列执行，以提高语音识别效率。

得到预测特征和编码特征后，将预测特征和编码特征进行合并处理，得到合并特征。其中，合并处理包括叠加处理和拼接处理等，还可以为其他的处理方式。

例如，将预测特征和编码特征进行叠加处理，得到合并特征，即将预测特征的对应行对应列的值与编码特征的对应行对应列的值进行相加，得到合并特征中的对应行对应列的值。若预测特征为1*512维，编码特征为1*512维，则叠加处理后得到的合并特征仍为1*512维。

例如，将预测特征和编码特征进行拼接处理，得到合并特征，即将预测特征和编码特征进行拼接。若预测特征为1*512维，编码特征为1*512维，则拼接处理后得到的合并特征为1*1024维。

将预测特征和编码特征进行合并处理，得到合并特征，在该实施例中，可理解为，将当前帧输入时的目标语种对应的预测特征和编码特征进行合并处理，得到目标语种对应的合并特征。

203，利用联合网络层中的目标语种对应的子联合网络层和softmax网络层中的目标语种对应的子softmax网络层，对合并特征进行联合映射处理，以得到当前帧的语音数据对应于目标语种的映射概率。

在联合网络层、softmax网络层中，分别具有每种语种的子联合网络层、每种语种的子softmax网络层，每种语种的子联合网络层中的模型参数只跟对应语种相关，跟其他语种不相关，每种语种的子softmax网络层也是如此。

当要处理的语种为目标语种时，利用联合网络层中的目标语种对应的子联合网络层和softmax网络层中的目标语种对应的子softmax网络层，对合并特征进行联合映射处理，以得到当前帧的语音数据对应于目标语种的映射概率，可理解地将合并特征输入至联合网络层中的目标语种对应的子联合网络层，子联合网络层处理后输入至softmax网络层中的目标语种对应的子softmax网络层进行处理，以得到当前帧的语音数据对应于目标语种的映射概率。

其中，联合映射处理包括联合处理和归一化映射处理。

对应地，步骤203，包括：利用联合网络层中的目标语种对应的子联合网络层对合并特征进行联合处理，得到语音数据对应于目标语种的联合特征；利用softmax网络层中的目标语种对应的子softmax网络层对目标语种的联合特征进行归一化映射处理，以得到当前帧的语音数据对应于目标语种的映射概率。

其中，以普通话(中文)来说，联合网络的建模单元一般为字级或syllable级，如中文常用字为3000个，以常用字为建模单元，加入空字符(blank)、起始符(<s>)和结束符(</s>)共计3003个输出节点，联合网络用于将合并特征进行联合处理得到的联合特征，映射到建模单元的输出空间上。如对于普通话来说，归一化映射处理后，得到的映射概率为1*3003维度的概率值。

该步骤通过语种绑定的联合网络层和softmax网络层降低语种混淆度，考虑了不同语种的语法和说法的区别，实现了语种之间的解码解耦，提高语音识别的准确性。

204，利用解码模块中目标语种对应的子解码模块对映射概率进行解码识别处理，以得到语音数据对应于目标语种的语音识别结果。

其中，解码模块中包括预设数量的语种所对应的子解码模块，不同语种对应不同语种的子解码模块，当要处理的语种为目标语种时，利用目标语种对应的子解码模块对目标语种的映射概率进行解码识别处理，以得到语音数据对应于目标语种的语音识别结果。解码识别处理用于将归一化指数处理后的映射概率按照对应的解码方法映射到对应的字符/中文上，解码方法可以使用贪婪解码，还可以使用波束搜索解码，或其他解码方法。其中，当前帧的语音数据对应于目标语种的语音识别结果可以用y_u来表示。

其中，解码模块可以是独立于预设语音识别模型的一个模块，本申请实施例以该种情况为例进行说明，解码模块也可以是预设语音识别模型的一部分，无论解码模块是否为预设语音识别模型的一部分，其作用都是对映射概率进行解码识别处理，下文中对此不再赘述。

得到当前帧的语音数据对应于目标语种的语音识别结果后，将当前帧的语音识别结果作为前一帧的语音识别结果，接着对音频数据x的下一帧的语音数据进行识别，直至输出结束符或者音频数据识别结束，则结束音频数据x的识别，即上述步骤201至204是循环执行的过程，直至本次语音识别结束以得到音频数据的每一帧语音数据所对应的语音识别结果。

在所选择的语种为一种，即目标语种即为所选择的语种的情况下，共享的编码网络和预测网络层可以共用，仅对目标语种进行联合映射处理，此时，该预设语音识别模型可以当前单语模型来使用，且效果与单语模型无异。

205，将每一帧中的语音数据对应于目标语种的语音识别结果作为音频数据对应于所述目标语种的音频识别结果。

104，返回音频识别结果。

其中，可以将音频数据所有帧的语音数据所对应的音频识别结果一次性返回，也可以一帧一帧的将每一帧的语音数据所对应的语音识别结果返回，以返回音频识别结果。在一实施例中，也可以将返回的音频识别结果进行显示。

该实施例中可以实现端到端的多种语种免切换的语音识别，对预设数量的多种语种统一建立预设语音识别模型，该预设语音识别模型包括预设数量的语种所对应的独立参数模块与共享参数模块，预设数量的语种所对应的独立参数模块分别与语种对应，利用共享参数模块如编码网络和预测网络层共用模型参数，如此，不管输入的是哪种语种的待识别的语音数据，都可以利用该共享参数模块，降低预设语音识别模型的模型参数，由于在一个模型中可实现是预设数量的多种语种的识别，相对于多个单语种识别系统并联计算来说，提高预设语音识别模型的识别效率，同时由于独立参数模块进行了语种绑定，即独立参数模块如物种嵌入层、联合网络和softmax网络等根据语种分别设置独立参数，避免了不同语种之间的相互影响，降低了语种混淆度，考虑了不同语种的语法和说法的区别，提高多语种语音识别的准确率。

为了进一步提高预设语音识别模型的语音识别效率，本申请实施例对图2所示的预设语音识别模型进行进一步改进，在图2所示的预设语音识别模型中增加了语种分类网络，或者也可以称为语种判别网络、语种分类层、语种判别层等。具体地，在编码网络之后加入语种分类网络，具体如图5所示。

该语种分类网络用于帧级确定语音数据相对于每种语种的后验概率，并根据后验概率确定出每种语种的置信度数据，根据置信度数据确定是否存在无需进行解码识别处理的第一语种，该第一语种是所选择的语种中的至少一个语种。简单来理解，语种分类网络用于确定每帧中是否需要舍弃某种语种的解码识别处理，该舍弃是从舍弃的帧开始就不再对该某种语种进行解码识别处理，或者用于确定每帧中是否存在不可能为最终语种的某种语种。

在一实施例中，若所选择的语种包括多个，如图6所示，上述103的步骤，包括如下步骤。

301，获取音频数据的当前帧的待识别的语音数据、当前帧的前一帧中的语音识别结果。

302，将利用编码网络对语音数据进行编码处理得到的编码特征，和利用所选择的语种所对应的子嵌入层、预测网络层对前一帧的语音识别结果进行预测处理得到的预测特征进行合并处理，以得到合并特征。

其中，利用编码网络对语音数据进行编码处理得到编码特征，利用所选择的语种所对应的子嵌入层、预测网络层对前一帧的语音识别结果进行预测处理得到预测特征，将编码特征和预测特征进行合并处理，以得到合并特征。

其中，前一帧的语音识别结果包括所选择的语种所对应的语音识别结果，利用所选择的语种所对应的子嵌入层、预测网络层对前一帧的语音识别结果进行预测处理得到预测特征的步骤，包括：利用语种嵌入层中的所选择的语种对应的子嵌入层对前一帧中的目标语种对应的语音识别结果进行特征处理，以得到所选择的语种对应的嵌入层特征；利用预测网络层对所选择的语种的嵌入层特征进行预测处理，以得到所选择的语种的预测特征。

其中，将预测特征和编码特征进行合并处理，得到合并特征，也可以理解为，将所选择的语种对应的预测特征和编码特征进行合并处理，或者将当前帧输入时的每种语种对应的预测特征和编码特征进行合并处理，得到每种语种对应的合并特征。

例如，当前帧输入时所对应的语种包括语种A和语种B，则将语种A对应的预测特征和编码特征进行合并处理，得到语种A对应的合并特征，将语种B对应的预测特征和编码特征进行合并处理，得到语种B对应的合并特征。

其中，当前帧输入时对应的所有语种根据不同帧而存在不同。例如，预设数量的语种为5种，在第10帧输入时对应的所有语种为5种，在第10帧中确定了1个第一语种，即除去了1个语种，则第10帧中的候选语种为4种，那么在第11帧中，第11帧输入时对应的所有语种即为4种，若在第11帧中又确定了1个新的第一语种，即又除去了1个语种，那么在第11帧中的候选语种即为3种。由此可见，在不同帧中，输入是对应的所有语种可能会不同，所确定的第一语种可能会不同，候选语种也会存在不同。

303，利用语种分类网络对语音数据进行语种识别处理，以得到音频数据所对应的目标语种。

其中，利用语种分类网络对编码特征进行语种分类处理，以确定是否存在无需进行解码识别处理的第一语种，其中，第一语种是所选择的语种中的至少一个语种；若存在，则不对第一语种进行解码识别处理，将当前帧的语种中除去第一语种后的剩余语种作为目标语种；若不存在，则将当前帧的所有语种都作为目标语种，即将当前帧输入时的语种都作为目标语种。其中，语种分类网络的输入为所选择的语种的编码特征或者当前帧输入时所对应的语种的编码特征。当前帧的语种随着帧数的不同，则可能会存在不同。

其中，上述利用语种分类网络对编码特征进行语种分类处理，以确定是否存在无需进行解码识别处理的第一语种的步骤，包括：利用语种分类网络对编码特征进行置信度处理，得到当前帧中预设数量的语种的置信度数据；根据当前帧中预设数量的语种的置信度数据，确定是否存在无需进行解码识别处理的第一语种。

其中，在一实施例中，利用语种分类网络对编码特征进行置信度处理，得到当前帧中预设数量的语种的置信度数据的步骤，包括：利用语种分类网络对编码特征进行后验概率处理，以得到当前帧中预设数量的语种的后验概率，根据当前帧中预设数量的语种的后验概率，确定当前帧中预设数量的语种的置信度数据。其中，预设数量的语种中未选择的语种的置信度数据可能为0，或者可能为非常低的数据。

其中，将编码特征输入至语种分类网络中，语种分类网络可以实现根据编码特征来确定当前帧中预设数量的语种的后验概率。计算后验概率可以采用现有技术中的任意一种计算后验概率的方式，具体不再赘述。

得到当前帧中预设数量的语种的后验概率后，根据该预设数量的语种的后验概率，确定对应预设数量的语种的置信度数据。例如，确定预设数量的语种中每种语种在当前帧及其之前所有帧中的后验概率的平均值，将该平均值作为当前帧中对应语种的置信度数据，如此，以得到预设数量的语种中每种语种的置信度数据。

预设数量的语种中每种语种的置信度数据可根据公式(1)来确定。

其中，l表示不同语种，t表示音频帧数，T表示当前帧所对应的所有音频帧数，p_t(l)表示语种l在t时刻/t帧的后验概率，P_l(t)表示语种l在t时刻/t帧的置信度数据。

得到置信度数据之后，根据置信度数据确定是否存在无需进行解码识别处理的第一语种。具体地，确定当前帧中是否存在语种的置信度数据满足第一预设置信度条件，或者当前帧是否存在语种在预设帧内的置信度数据满足第二预设置信度条件；若存在，则将所存在的语种作为第一语种，确定存在无需进行解码识别处理的第一语种；否则，则确定当前帧中每种语种都属于语音数据对应的语种。

在一实施例中，第一预设置信度条件包括小于第一置信度阈值，即当前帧中如果存在语种的置信度数据小于第一置信度阈值，则认为所存在的语种不可能为最终语音识别的语种，将所存在的语种作为第一语种，否则，若当前帧中不存在语种的置信度数据小于第一置信度阈值，则确定当前帧中的每种语种都属于语音数据对应的语种，即当前帧中的每种语种都有可能是最终语音识别的语种。

在一实施例中，第一预设置信度条件还可以是语种的置信度数据减去当前帧中预设数量的语种的置信度数据的平均值小于第二预设阈值，即当前帧中如果存在语种的置信度数据减去当前帧中预设数量的语种的置信度数据的平均值小于第二预设阈值，则认为对应的语种不可能为最终语音识别的语种，将对应的语种作为第一语种，否则，若当前帧中不存在语种的置信度数据减去当前帧中预设数量的语种的置信度数据的平均值小于第二预设阈值，则确定当前帧中的每种语种都属于语音数据对应的语种，即当前帧中的每种语种都有可能是最终语音识别的语种。

在一实施例中，还可以先确定当前帧以及之前所有帧中的每一帧中，预设数量的语种对应的后验概率中最大后验概率的值，再确定当前帧以及之前所有帧中的该最大后验概率的值的平均值，该平均值使用P_lmax(t)来表示，第一预设置信度条件还可以为：当前帧中预设数量的语种的置信度数据P_l(t)与平均值P_lmax(t)差值大于第三置信度阈值。若前帧中存在语种的置信度数据P_l(t)与平均值P_lmax(t)差值大于第三置信度阈值，则意味着对应的语种不可能为最终语音识别的语种，将对应的语种作为第一语种，否则，若当前帧中不存在语种的置信度数据P_l(t)与平均值P_lmax(t)差值大于第三预设阈值，则确定当前帧中的每种语种都属于语音数据对应的语种，即当前帧中的每种语种都有可能是最终语音识别的语种。

其中，p_lmax(t)的计算方式可如公式(2)所示。

其中，p_max(t)表示t时刻/t帧中预设数量的语种的置信度数据的最大值，P_lmax(t)表示t时刻/t帧中的预设数量的语种的置信度数据的最大值的平均值。

其中，假设在t时刻/t帧中语种A、语种B、语种C对应的置信度数据分别为p_A、p_B、p_C，则有如下表1的数据。

表1 P_l(t)-P_max(t)实例

t	1	2	3	4	p<sub>t</sub>(l)	p<sub>t</sub>(l)-p<sub>lmax</sub>(t)
							p<sub>A</sub>	0.3	0.8	1	1	0.775	0.05
p<sub>B</sub>	0.5	0.1	0	0	0.15	0.675
							pC	0.3	0.1	0	0	0.1	0.725
p<sub>lmax</sub>(t)	0.5	0.8	1	1	P<sub>max</sub>(t)＝0.825

在一实施例中，第二预设置信度条件包括小于第四置信度阈值，预设帧可以为一帧、五帧、30帧等数据，即当前帧中如果存在语种在预设帧内的置信度数据均小于第四置信度阈值，则认为所存在的语种不可能为最终语音识别的语种，将所存在的语种作为第一语种，否则，若当前帧中不存在语种在预设帧内的置信度数据均小于第四置信度数据阈值，则确定当前帧中的每种语种都属于语音数据对应的语种，即当前帧中的每种语种都有可能是最终语音识别的语种。

在一实施例中，第二预设置信度条件还可以是在预设帧内语种的置信度数据减去当前帧中预设数量的语种的置信度数据的平均值均小于第五置信度阈值，即当前帧中如果存在语种在预设帧内的置信度数据减去当前帧中预设数量的语种的置信度数据的平均值均小于第五置信度阈值，则认为对应的语种不可能为最终语音识别的语种，将对应的语种作为第一语种，否则，则确定当前帧中每种语种都属于语音数据对应的语种，即当前帧中每种语种都有可能是最终语音识别的语种。

在一实施例中，第二预设置信度条件还可以为在预设帧内P_l(t)-P_lmax(t)的值均大于第六置信度阈值，即当前帧中如果存在语种在预设帧内的P_l(t)-P_lmax(t)均大于第六置信度阈值，则认为对应的语种不可能为最终语音识别的语种，将对应的语种作为第一语种，否则，则确定当前帧中每种语种都属于语音数据对应的语种，即当前帧中每种语种都有可能是最终语音识别的语种。

其中，第一置信度阈值、第二置信度阈值、第三置信度阈值、第四置信度阈值、第五置信度阈值、第六置信度阈值可预先设置，第一置信度阈值、第二置信度阈值可以相同，也可以不同，例如，第一置信度阈值大于第二置信度阈值，第四置信度阈值和第五置信度阈值可以相同，也可以不同，例如，第四置信度阈值大于第五置信度阈值，第三置信度阈值和第六置信度阈值可以相同，也可以不同，例如第六置信度阈值大于第三置信度阈值。

其中，第一预设置信度条件和第二预设置信度条件还可以为其他条件。

在本申请实施例中，确定是否存在无需进行解码识别处理的第一语种，也可以理解为是否存在新的无需进行解码识别处理的第一语种。

304，利用联合网络层中的目标语种对应的子联合网络层和softmax网络层中的目标语种对应的子softmax网络层，对合并特征进行联合映射处理，以得到语音数据对应于目标语种的映射概率。

具体地，利用联合网络层中的目标语种对应的子联合网络层对合并特征进行联合处理，以得到目标语种对应的联合特征；利用softmax网络层中的目标语种对应的子softmax网络层对所对应语种的联合特征进行归一化映射处理，以得到语音数据对应于目标语种的映射概率。

即将合并特征作为联合网络层中目标语种对应的子联合网络层的输入，利用目标语种对应的子联合网络层进行联合处理后，输出目标语种的联合特征，将目标语种的联合特征作为softmax网络层中目标语种对应的子softmax网络层的输入，利用目标语种对应的子softmax网络层进行归一化映射处理后，输出当前帧的语音数据对应于目标语种的映射概率。

例如，当前帧输入时的语种包括语种A、语种B和语种C，所确定的第一语种为语种A，不对语种A对应的合并特征进行联合映射处理，目标语种为语种B和语种C，则对语种B和语种C所对应的合并特征进行联合映射处理。后续帧将不会再对语种A进行处理。

305，利用解码模块中目标语种对应的子解码模块对映射概率进行解码识别处理，以得到语音数据对应于目标语种的语音识别结果。

例如，目标语种为语种B和语种C，利用解码模块中的语种B和语种C对应的子解码模块分别对语种B和语种C的映射概率进行解码识别处理，以分别得到语音数据对应于语种B和语种C的语音识别结果。

306，将每一帧中的语音数据对应于目标语种的语音识别结果作为音频数据对应于目标语种的音频识别结果。

其中，通过在预设语音识别模型中增加语种分类网络，可以去除一部分不可能为最终语种的联合映射处理和解码识别处理的计算，降低联合网络层和softmax网络层、以及解码模块中的无效计算量，提高语音识别的效率。

例如，当前帧输入时的语种包括语种A、语种B和语种C，所确定的第一语种为语种A，不对语种A对应的映射概率进行解码识别处理，目标语种为语种B和语种C，利用解码模块中的语种B和语种C对应的子解码模块分别对语种B和语种C的映射概率进行解码识别处理，以分别得到语音数据对应于语种B和语种C的语音识别结果。其中，在后续帧将不会再对语种A进行对应的处理。

在一实施例中，在利用语种分类网络对语音数据进行语种识别处理，得到音频数据所对应的目标语种后，利用联合网络层中的当前帧的语种对应的子联合网络层和softmax网络层中的当前帧的语种对应的子softmax网络层，对当前帧的语种的合并特征进行联合映射处理，以得到语音数据对应于当前帧的语种的映射概率，再利用解码模块中目标语种对应的子解码模块对所述映射概率进行解码识别处理，以得到所述语音数据对应于所述目标语种的语音识别结果。该实施例中语种识别处理和联合映射处理可以并列执行。该实施例也可以理解为当利用预设分类网络确定存在无需进行解码识别处理的第一语种后，不对第一语种进行解码识别处理。如此，无需对不可能成为最终语种的第一语种进行解码识别处理的计算，降低解码识别处理中的无效计算量，提高语音识别的效率。

如图7所示，为本申请实施例提供的预设语音识别模型的另一结构示意图，该实施例中的预设语音识别模型相对于图2所示的预设语音识别模型(改进了语种嵌入层、联合网络)来说，该实施例中的预设语音识别模型在联合网络中还增加了有效帧节点。

有效帧节点通过预先训练得到。其中，有效帧节点被训练为当输出为非空字符时，激活有效帧节点，表示需要将该帧计算出的合并特征输入至对应的子联合网络层和子softmax网络层中进行处理，当输出为空字符时，不激活有效帧节点。有效帧节点对输入的合并特征的计算，与子联合网络层和子softmax网络层对输入的合并特征的计算并列执行。需要注意的是，子联合网络层和子softmax网络层中的有效帧节点为一个有效帧节点。

增加有效帧节点，是因为RNN-T模型绝大部分帧输出空字符，少数几帧输出有效字符，将每帧对应语种的映射概率送入对应解码模块进行解码识别处理，会造成大量的计算消耗。即增加有效帧节点，以进一步提高语音识别的效率，避免空字符时将映射概率进行解码识别处理造成大量的计算消耗。

在一实施例中，如图8所示，上述步骤103的步骤还可以包括如下步骤，该实施例可参看图7所示的预设语音识别模型，具体包括如下步骤。

401，获取音频数据的当前帧的待识别的语音数据、当前帧的前一帧中的语音识别结果。

402，将利用编码网络对语音数据进行编码处理得到的编码特征，和利用所选择的语种所对应的子嵌入层、预测网络层对前一帧的语音识别结果进行预测处理得到的预测特征进行合并处理，以得到合并特征。

403，利用联合网络层中的所选择的语种对应的子联合网络层和softmax网络层中的所选择的语种对应的子softmax网络层，对合并特征进行联合映射处理，以得到当前帧的语音数据对应于所选择的语种的映射概率。

404，利用有效帧节点对语音数据进行语种识别处理，以得到音频数据所对应的目标语种。

其中，步骤403和步骤404并列执行，步骤403和步骤404的输入都是所选择的语种的合并特征或者当前帧输入时的语种的合并特征。

在一实施例中，步骤404，包括：利用有效帧节点对当前帧的每种语种的合并特征进行有效帧识别，以得到当前帧的每种语种的有效帧识别结果；当存在第二语种的有效帧识别结果表征当前帧为第二语种对应的无效帧时，将当前帧的语种中除去第二语种后的剩余语种作为目标语种，否则将当前帧的所有语种作为目标语种，其中，当前帧为无效帧意味着当前帧所对应的语音数据为空字符，其中，第二语种为所选择的语种中的至少一个语种。

其中，上述利用有效帧节点对当前帧的每种语种的合并特征进行有效帧识别，以得到当前帧的每种语种的有效帧识别结果的步骤，包括：利用有效帧节点对当前帧的每种语种的合并特征进行有效帧识别处理，以得到每种语种的有效帧识别概率；根据每种语种的有效帧识别概率，确定每种语种的有效帧识别结果。

例如，当前帧的语种为语种A、语种B和语种C，得到语种A、语种B和语种C对应的合并特征后，将语种A对应的合并特征输入至有效帧节点中进行有效帧识别处理，得到语种A对应的有效帧识别概率，如0.7，将语种B对应的合并特征输入至有效帧节点中进行有效帧识别处理，得到语种B对应的有效帧识别概率，如0.9，将语种C对应的合并特征输入至有效帧节点中进行有效帧识别处理，得到语种C对应的有效帧识别概率，如0.95。根据每种语种的有效帧识别概率，确定每种语种的有效帧识别结果。

检测是否存在第二语种的有效帧识别结果表征当前帧为第二语种对应的无效帧，其中，当前帧为无效帧意味着当前帧所对应的语音数据为空字符。

其中，确定每种语种的有效帧识别概率是否小于预设有效帧识别概率；若是，则确定当前帧为对应语种的无效帧，即当前帧所对应的语音数据相当于对应语种来说为空字符；否则，则确定当前帧为对应语种的有效帧，即当前帧所对应的语音数据相对于对应语种来说为非空字符。

接着上文中的例子，假设预设有效帧识别概率为0.8，则确定当前帧对应于语种B(有效帧识别概率为0.9)和语种C(有效帧识别概率为0.95)来说是有效帧，对于语种A(有效帧识别概率为0.7)来说是无效帧。

由于当前帧对于语种A来说是无效帧，因此，存在第二语种，该第二语种即为语种A，对应的目标语种为除去语种A之后的语种B和语种C。

若当不存在第二语种的有效帧识别结果表征当前帧为第二语种对应的无效帧时，对当前帧输入时的所有语种的映射概率都进行解码识别处理，以得到语音数据对应于该当前帧输入时的所有语种的语音识别结果。

405，利用解码模块中目标语种对应的子解码模块对目标语种的映射概率进行解码识别处理，以得到语音数据对应于目标语种的语音识别结果。

第二语种为语种A，不对语种A对应的映射概率进行解码识别处理，目标语种为语种B和语种C，利用解码模块中的语种B和语种C对应的子解码模块分别对语种B和语种C的映射概率进行解码识别处理，以分别得到语音数据对应于语种B和语种C的语音识别结果。

该实施例中上述步骤401至405循环执行，直至音频数据处理完毕。

406，将每一帧中的语音数据对应于目标语种的语音识别结果作为音频数据对应于目标语种的音频识别结果。

该实施例中利用有效帧节点对合并特征进行有效帧识别处理，以得到每种语种的有效帧识别概率，根据有效帧识别概率，确定每种语种的有效帧识别结果，如此，对有效帧识别结果为有效帧的语种来说，进行解码识别处理，而对有效帧识别结果为无效帧的语种来说，不进行解码识别处理，如此，减少解码识别处理的计算量，提高语音识别效率。

如图9所示，为本申请实施例提供的预设语音识别模型的另一结构示意图，该实施例中的预设语音识别模型相对于图2所示的预设语音识别模型(改进了语种嵌入层、联合网络)来说，该实施例中的预设语音识别模型还增加了语种分类网络，同时在联合网络中增加了有效帧节点。语种分类网络和有效帧节点的作用在上文中以分别进行描述，在此不再赘述。

在一实施例中，如图10所示，上述步骤103的步骤还可以包括如下步骤，该实施例可参看图9所示的预设语音识别模型来进行语音识别，具体包括如下步骤。

501，获取音频数据的当前帧的待识别的语音数据、当前帧的前一帧中的语音识别结果。

502，将利用编码网络对语音数据进行编码处理得到的编码特征，和利用所选择的语种所对应的子嵌入层、预测网络层对前一帧的语音识别结果进行预测处理得到的预测特征进行合并处理，以得到合并特征。

503，利用联合网络层中的所选择的语种对应的子联合网络层和softmax网络层中的所选择的语种对应的子softmax网络层，对合并特征进行联合映射处理，以得到语音数据对应于所选择的语种的映射概率。

504，利用语种分类网络和有效帧节点对语音数据进行语种识别处理，以得到音频数据所对应的目标语种。

在一实施例中，步骤504，包括：利用语种分类网络对编码特征进行语种分类处理，得到当前帧中的预设数量的语种的置信度数据；利用有效帧节点对当前帧的每种语种的合并特征进行有效帧识别，以得到当前帧的每种语种的有效帧识别结果；根据置信度数据和每种语种的有效帧识别结果确定是否存在无需进行解码识别的第三语种；若存在，则不对当前帧中的第三语种进行解码识别处理，将当前帧的语种中除去第三语种后的剩余语种作为目标语种，其中，第三语种是所选择的语种中的至少一个语种，若不存在，则将当前帧的所有语种作为目标语种。

其中，根据置信度数据和每种语种的有效帧识别结果确定是否存在无需进行解码识别的第三语种的步骤，包括：是否存在对应语种的置信度数据满足第一预设置信度条件，且同时对应语种的有效帧识别概率小于预设有效帧识别概率；若存在，则将所存在的语种作为无需进行解码识别的第三语种。

该实施例中，利用语种分类网络得到预设数量的语种的置信度数据，对应的，在训练时，语音分类网络也只训练得到预设数量的语种的训练置信度数据。

在一实施例中，步骤504，包括：利用语种分类网络对编码特征进行语种分类处理，以确定是否存在无需进行解码识别处理的第一语种，其中，第一语种是所选择的语种中的至少一个语种；利用有效帧节点对当前帧中的每种语种的合并特征进行有效帧识别，以得到每种语种的有效帧识别结果，并根据每种语种的有效帧识别结果确定是否存在第二语种的有效帧识别结果表征所述当前帧为所述第二语种对应的无效帧；若存在第一语种和/或存在第二语种，则不对第一语种和/或第二语种对应的映射概率进行解码识别处理，将所选择的语种中除去所述第一语种和/或所述第二语种的剩余语种作为目标语种，否则，将当前帧的所有语种都作为目标语种；或者，不对既属于第一语种又属于第二语种的映射概率进行解码识别处理，将所选择的语种中除去既属于第一语种又属于第二语种的剩余语种作为目标语种；否则，将当前帧的所有语种都作为目标语种。

505，利用解码模块中目标语种对应的子解码模块对映射概率进行解码识别处理，以得到语音数据对应于目标语种的语音识别结果。

上述步骤501至505会循环执行，直至音频数据处理完毕。

506，将每一帧中的语音数据对应于目标语种的语音识别结果作为音频数据对应于目标语种的音频识别结果。

该实施例中既使用语种分类网络对无需进行解码识别处理的语种先进行一次舍弃，然后再根据有效帧节点再对无效帧的语种进行再一次舍弃，进一步降低了计算量，提高了效率，该种情况下，可与单语种模型进行媲美，效率与单语种相差无几；同时，预设语音识别模型中加入了语种分类网络和有效帧节点，实现了多语种识别时免切换的目的。

如图11所示，上述步骤103的步骤还可以包括如下步骤，该实施例可参看图9所示的预设语音识别模型来进行语音识别，具体包括如下步骤。

601，获取音频数据的当前帧的待识别的语音数据、当前帧的前一帧中的语音识别结果。

602，将利用编码网络对语音数据进行编码处理得到的编码特征，和利用所选择的语种所对应的子嵌入层、预测网络层对前一帧的语音识别结果进行预测处理得到的预测特征进行合并处理，以得到合并特征。

603，利用语种分类网络对编码特征进行语种分类处理，以确定是否存在无需进行解码识别处理的第一语种，其中，第一语种是预先确定的预设数量的语种中的至少一个语种。

若存在，执行步骤604，否则，执行步骤605。

604，利用联合网络层中的候选语种对应的子联合网络层和softmax网络层中的候选语种对应的子softmax网络层，对合并特征进行联合映射处理，以得到当前帧的语音数据对应于候选语种的映射概率，以及利用有效帧节点对候选语种对应的合并特征进行有效帧识别，以得到候选语种的有效帧识别结果，其中，候选语种为当前帧输入时对应的所有语种中除去第一语种之后的剩余语种。

605，利用联合网络层中的当前帧的每种语种对应的子联合网络层和softmax网络层中的每种语种对应的子softmax网络层，对合并特征进行联合映射处理，以得到当前帧的语音数据对应于每种语种的映射概率，以及利用有效帧节点对每种语种对应的合并特征进行有效帧识别，以得到当前帧中的每种语种的有效帧识别结果。

606，检测是否存在第二语种的有效帧识别结果表征当前帧为第二语种对应的无效帧，其中，当前帧为无效帧意味着当前帧所对应的语音数据为空字符。

若存在，则执行步骤607，否则，执行步骤608。

607，不对第二语种对应的映射概率进行解码识别处理，利用剩余语种对应的子解码模块对剩余语种的映射概率进行解码识别处理，以得到语音数据对应于剩余语种的语音识别结果。

608，利用每种语种对应的子解码模块对映射概率进行解码识别处理，以得到语音数据对应于每种语种的语音识别结果。

上述实施例中使用端到端的预设语音识别模型实现多语种免切换的语音识别，预设语音识别模型不管输入的是哪种语种的待识别的语音数据，都可以共享编码网络和预测网络层，降低预设语音识别模型的模型参数，相对于多个单语种识别系统并联计算来说，提高预设语音识别模型的识别效率，同时由于物种嵌入层、联合网络和softmax网络进行了语种绑定，即物种嵌入层、联合网络和softmax网络根据语种分别设置独立参数，避免了不同语种之间的相互影响，降低了语种混淆度，考虑了不同语种的语法和说法的区别，提高多语种语音识别的准确率。

图12是本申请实施例提供的语音识别方法的流程示意图，该语音识别方法包括如下步骤。该实施例中与上文中的实施例的区别在于，上文中的实施例中选择了语种，再从选择的语种中确定目标语种，而本申请实施例中没有选择语种，如此，需要从预设语音识别模型的预设数量的语种中确定目标语种。

701，接收所输入的待识别的音频数据，以及获取预设语音识别模型，该预设语音识别模型用于对预先确定的预设数量的语种的语音数据进行语音识别。

该语音识别模块可参看图2所示的语音识别模型。预设语音识别模型包括预测网络、编码网络和联合网络，该预测网络包括语种嵌入层和预测网络层，该联合网络包括联合网络层和softmax网络层。其中，语种嵌入层中包括预设数量的语种所对应的子嵌入层，所述联合网络层中包括预设数量的语种所对应的子联合网络层，softmax网络层中包括预设数量的语种所对应的子softmax网络层，解码模块中包括预设数量的语种所对应的子解码模块。

待识别的音频数据可以是用户输入的音频数据，例如用户在交互界面上输入的一段音频数据等，还可以是预置的待识别的音频数据，计算机设备接收该待识别的音频数据。

702，利用预设语音识别模型对音频数据进行语种识别处理，以得到音频数据所对应的目标语种，并利用预设语音识别模型中的目标语种的独立参数模块、共享参数模块，以及解码模块中目标语种所对应的子解码模块，对音频数据进行语音识别处理，以得到音频数据对应于目标语种的音频识别结果，其中，目标语种为预设数量的语种中的至少一个语种，预设语音识别模型中包括预设数量的语种的独立参数模块与共享参数模块。

其中，独立参数模块和共享参数模块请参看上文中的描述，在此不再赘述。

例如，将音频数据的每一帧语音数据输入至预测网络中进行预测处理，得到预测特征，将每一帧语音数据输入至编码网络中进行编码处理，得到编码特征，将编码特征和预测特征进行合并处理，以得到合并特征，并将合并特征输入至联合网络层中的每种语种所对应的子联合网络层，子联合网络层处理后将处理得到的结果输入至softmax网络层中的每种语种所对应的子softmax网络层，以得到语音数据对应于每种语种的映射概率，利用每种语种对应的解码模块对映射概率进行解码识别处理，以得到语音数据对应于每种语种的语音识别结果。

在一实施例中，如图13所示，上述702的步骤，包括如下步骤。

801，获取当前帧的待识别的语音数据，当前帧的前一帧中针对每种语种的语音识别结果。

其中，该步骤中为详细描述的内容请参看上文中的所述，在此不再赘述。

802，将利用编码网络对语音数据进行编码处理得到的编码特征，和利用目标语种所对应的子嵌入层、预测网络层对前一帧的语音识别结果进行预测处理得到的预测特征进行合并处理，以得到合并特征。

其中，由于预测网络包括语种嵌入层和预测网络层，语种嵌入层中包括预先确定的预设数量的语种对应的子嵌入层。前一帧的语音识别结果可包括预设数量的语种对应的语音识别结果。对应地，上述利用目标语种所对应的子嵌入层、预测网络层对前一帧的语音识别结果进行预测处理得到预测特征的步骤，包括：利用语种嵌入层中的每种语种对应的子嵌入层对前一帧的针对每种语种的语音识别结果进行特征处理，以得到每种语种对应的嵌入层特征，利用预测网络层对每种语种的嵌入层特征进行预测处理，得到每种语种的预测特征。

假设每种语种包括语种A、语种B和语种C，将前一帧的针对语种A的语音识别结果输入至物种嵌入层中语种A对应的子嵌入层，该子嵌入层对语音识别结果进行特征处理后，得到语种A对应的嵌入层特征，将语种A对应的嵌入层特征，输入至预测网络层进行预测处理，得到语种A的预测特征，以此类推。

利用编码网络对语音数据进行编码处理，得到编码特征，并将预测特征和编码特征进行合并处理，得到合并特征。

803，利用联合网络中的每种语种对应的子联合网络层和softmax网络中的每种语种对应的子softmax网络层，对合并特征进行联合映射处理，以得到当前帧的语音数据对应于每种语种的语音识别结果。

可利用联合网络层中的每种语种对应的子联合网络层对合并特征进行联合处理，得到语音数据对应于每种语种的联合特征；利用softmax网络层中的每种语种对应的子softmax网络层对每种语种的联合特征进行归一化映射处理，以得到当前帧的语音数据对应于每种语种的映射概率。

例如，将语种A的合并特征输入至联合网络层中的语种A对应的子联合网络层，利用语种A对应的子联合网络层对合并特征进行联合处理，得到语音数据对应于语种A的联合特征；将语音A的联合特征，输入至softmax网络层中的语种A对应的子softmax网络层，利用语种A对应的子softmax网络层进行归一化映射处理，输出当前帧的语音数据对应于语种A的映射概率，以此类推。

在一实施例中，语音识别方法还包括以下步骤804。

804，利用语种分类网络和/或有效帧节点对语音数据进行语种识别处理，以得到音频数据所对应的目标语种，该目标语种为预设数量的语种中的至少一种语种。

其中，步骤803与步骤804的执行顺序并不做限定，在一些实施例中，可以先执行步骤804，再执行步骤803，在一实施例中，可以先执行803，在执行804，在一些实施例中，步骤803和步骤804可以并列执行等。

在一实施例中，利用语种分类网络对语音数据进行语种识别处理，以得到音频数据所对应的目标语种的步骤，包括：利用语种分类网络对编码特征进行语种分类处理，以确定是否存在无需进行解码识别处理的第一语种，第一语种为预设数量的语种中的至少一个语种；若存在，则将当前帧输入的语种中除去第一语种后的剩余语种作为目标语种，若不存在，则将当前帧输入的语种全部作为目标语种。

其中，所述利用语种分类网络对编码特征进行语种分类处理，以确定是否存在无需进行解码识别处理的第一语种的步骤，包括：利用语种分类网络对编码特征进行置信度处理，得到当前帧中预设数量的语种的置信度数据；根据当前帧中预设数量的语种的置信度数据，确定是否存在无需进行解码识别处理的第一语种。

其中，所述利用语种分类网络对编码特征进行置信度处理，得到当前帧中预设数量的语种的置信度数据的步骤，包括：利用语种分类网络对编码特征进行后验概率处理，以得到当前帧中预设数量的语种的后验概率；根据当前帧中预设数量的语种的后验概率，确定当前帧中预设数量的语种的置信度数据。

在一实施例中，利用语种分类网络对语音数据进行语种识别处理，以得到音频数据所对应的目标语种的步骤，包括：利用语种分类网络对编码特征进行语种分类处理，以确定是否存在无需进行解码识别处理的第一语种，其中，所述第一语种是预设数量的语种中的至少一个语种；若存在，则将当前帧的语种中除去第一语种后的剩余语种作为目标语种，若不存在，则将当前帧的语种均作为目标语种；

所述利用联合网络中的每种语种对应的子联合网络层和softmax网络中的每种语种对应的子softmax网络层，对合并特征进行联合映射处理，以得到当前帧的语音数据对应于每种语种的语音识别结果的步骤，包括：利用联合网络层中的目标语种对应的子联合网络层和softmax网络层中的目标语种对应的子softmax网络层，对合并特征进行联合映射处理，以得到当前帧的语音数据对应于目标语种的映射概率。

在一实施例中，利用有效帧节点对语音数据进行语种识别处理，以得到音频数据所对应的目标语种的步骤，包括：利用有效帧节点对当前帧中的每种语种的合并特征进行有效帧识别，以得到对应每种语种的有效帧识别结果；当存在第二语种的有效帧识别结果表征当前帧为第二语种对应的无效帧时，将当前帧的语种中除去第二语种后的剩余语种作为目标语种，其中，当前帧为无效帧意味着所述当前帧所对应的语音数据为空字符，所述第二语种为预设数量的语种中的至少一个语种，当不存在第二语种的有效帧识别结果表征当前帧为第二语种对应的无效帧时，将当前帧的所有语种均作为目标语种。

在一实施例中，利用语种分类网络和有效帧节点对语音数据进行语种识别处理，以得到音频数据所对应的目标语种，包括：利用语种分类网络对编码特征进行语种分类处理，得到当前帧中的预设数量的语种的置信度数据；利用所有效帧节点对当前帧中的每种语种的合并特征进行有效帧识别，以得到当前帧中的每种语种的有效帧识别结果；根据置信度数据和当前帧中的每种语种的有效帧识别结果确定是否存在无需进行解码识别的第三语种；若存在，则不对第三语种进行解码识别处理，将当前帧的语种中除去第三语种后的剩余语种作为目标语种，其中，第三语种是预设数量的语种中的至少一个语种，若不存在，则将当前帧的所有语种作为目标语种。

在一实施例中，利用语种分类网络和有效帧节点对语音数据进行语种识别处理，以得到音频数据所对应的目标语种，包括：利用语种分类网络对编码特征进行语种分类处理，以确定是否存在无需进行解码识别处理的第一语种，其中，第一语种是预设数量的语种中的至少一个语种；利用有效帧节点对当前帧中的每种语种的合并特征进行有效帧识别，以得到每种语种的有效帧识别结果，并根据每种语种的有效帧识别结果确定是否存在第二语种的有效帧识别结果表征当前帧为第二语种对应的无效帧；若存在第一语种和/或存在第二语种，则不对所述第一语种和/或第二语种对应的映射概率进行解码识别处理，将当前帧的语种中除去第一语种和/或第二语种的剩余语种作为目标语种，否则，将当前帧中的所有语种均作为目标语种；或者，不对既属于第一语种又属于第二语种的映射概率进行解码识别处理，即将当前帧的语种中除去既属于第一语种又属于第二语种的剩余语种作为目标语种，否则，将当前帧中的所有语种均作为目标语种。

在一实施例中，利用语种分类网络和有效帧节点对语音数据进行语种识别处理，以得到音频数据所对应的目标语种，包括：利用语种分类网络对编码特征进行语种分类处理，以确定是否存在无需进行解码识别处理的第一语种，其中，所述第一语种是预设数量的语种中的至少一个语种；若存在，则利用联合网络中的每种语种对应的子联合网络层和softmax网络中的每种语种对应的子softmax网络层，对合并特征进行联合映射处理，以得到当前帧的语音数据对应于每种语种的语音识别结果的步骤，包括：利用联合网络层中的候选语种对应的子联合网络层和softmax网络层中的候选语种对应的子softmax网络层，对合并特征进行联合映射处理，以得到当前帧的语音数据对应于候选语种的映射概率；其中，候选语种为当前帧输入时对应的所有语种中除去第一语种之后的剩余语种；利用有效帧节点对候选语种的合并特征进行有效帧识别，以得到候选语种的有效帧识别结果，并根据候选语种的有效帧识别结果确定是否存在第二语种的有效帧识别结果表征当前帧为第二语种对应的无效帧；若存在第二语种，则将候选语种中除去第二语种后的语种作为目标语种，不对第二语种对应的映射概率进行解码识别处理，若不存在第二语种，则将候选语种作为目标语种。

805，利用解码模块中目标语种对应的子解码模块对映射概率进行解码识别处理，以得到语音数据对应于目标语种的语音识别结果。

例如，利用语种A对应的子解码模块对映射概率进行解码识别处理，以得到语音数据对应于语种A的语音识别结果。

得到当前帧的语音数据对应于目标语种的语音识别结果后，将当前帧的语音识别结果作为前一帧的语音识别结果，接着对音频数据x的当前帧的语音数据进行识别，直至输出结束符或者结束音频数据的识别，则结束音频数据x的识别，即上述步骤801至805是循环执行的过程，直至本次语音识别结束，同时该实施例中未详细描述的部分请参看上文中对应的描述，在此不再赘述。

806，将每一帧中的所述语音数据对应于目标语种的语音识别结果作为所述音频数据对应于所述目标语种的音频识别结果。

该实施例中未详细描述的步骤请参看上文中对应步骤的描述，在此不再赘述。

703，返回音频识别结果。

其中，可以将所有帧的语音数据所对应的语音识别结果一次性返回，也可以一帧一帧的将每一帧的语音数据所对应的语义识别结果返回。在一实施例中，也可以将返回的语音识别结果进行显示。

图14是本申请实施例提供的语音识别方法的一流程示意图，该语音识别方法为图2所示的预设语音识别模型的训练方法，该语音识别方法包括如下步骤。

901，获取特定语种的目标训练样本的当前帧的训练语音数据和当前帧的前一帧的训练语音识别结果，以及获取初始语音识别模型，该初始语音识别模型包括编码网络、预测网络和联合网络，预测网络包括语种嵌入层和预设网络层，联合网络包括联合网络层和softmax网络层，该预设语音识别模型用于对预先确定的预设数量的语种的语音数据进行语音识别，该特定语种为该初始语音识别模型预先确定的预设数量的语种中的至少一个语种。

其中，预设数量的语种即为初始语音识别模型训练过程中使用的目标训练样本集中的语种。获取预设数量的语种所对应的音频数据集，从预设数量的语种对应的音频数据集中随机采样音频数据，得到特定语种随机采样的音频数据集，训练阶段中每个batch由特定语种随机采样的音频数据集组成。其中，特定语种为初始语音识别模型预先确定的预设数量的语种中的至少一个语种，特定语种中的每个语种都预先知晓。

对于每个batch的音频数据集中的特定语种的每个目标音频数据，获取目标音频数据每帧或者每个时刻对应的训练语音数据，输入至初始语音识别模型中进行训练。具体地，获取特定语种的目标训练样本的当前帧的训练语音数据和当前帧的前一帧的训练语音识别结果，该当前帧的前一帧的训练语音识别结果包括特定语种的训练语音识别结果。

其中，特定语种的每个目标音频数据都具有标签数据，该标签数据包括语音数据所对应的文字或者是其他合理数据等。

902，将利用编码网络对训练语音数据进行编码处理得到的训练编码特征，和利用语种嵌入层中每种语种所对应的子嵌入层和预测网络层对前一帧的训练语音识别结果进行预测处理得到的训练预测特征进行合并处理，以得到训练合并特征。

其中，利用编码网络对训练语音数据进行编码处理得到训练编码特征，利用语种嵌入层中每种语种所对应的子嵌入层和预测网络层对前一帧的训练语音识别结果进行预测处理得到训练预测特征，将训练编码特征和训练预测特征进行合并处理，得到训练合并特征。

对应地，预设语音识别模型还包括特征编码层，将训练语音数据输入至特征提取层中，利用特征提取层对训练语音数据进行声学特征处理，得到训练声学特征，将训练声学特征输入至编码网络中，利用编码网络对训练声学特征进行编码处理，得到训练编码特征。在一实施例中，编码网络包括特征提取层和编码网络层，将训练语音数据输入至特征提取层中，利用特征提取层对训练语音数据进行声学特征处理，得到训练声学特征，将训练声学特征输入至编码网络层中，利用编码网络层对训练声学特征进行编码处理，得到训练编码特征。

其中，预测网络包括语种嵌入层和预测网络层，其中，语种嵌入层中包括预设数量的语种的子嵌入层。利用语种嵌入层中的特定语种对应的子嵌入层和预测网络层对训练语音识别结果进行预测处理，得到特定语种的训练预测特征，该语种嵌入层中包括预设数量的语种对应的子嵌入层。

将前一帧的特定语种的训练语音识别结果输入至语种嵌入层中的特定语种对应的子嵌入层中，利用特定语种对应的子嵌入层进行特征处理，以得到特定语种对应的嵌入层特征；将特定语种对应的嵌入层特征输入至预测网络层中，利用预测网络层对特定语种对应的嵌入层特征进行预测处理，得到特定语种的训练预测特征。

得到训练预测特征和训练编码特征之后，将训练预测特征和训练编码特征进行合并处理，得到训练合并特征。

其中，合并处理包括叠加处理或拼接处理等，将训练预测特征和训练编码特征进行叠加处理或拼接处理，得到训练合并特征。

903，利用联合网络层中的每种语种对应的子联合网络层和softmax网络层中的每种语种对应的子softmax网络层，对训练合并特征进行联合映射处理，以得到训练语音数据对应于每种语种的训练映射概率，其中，联合网络层中包括预设数量的语种所对应的子联合网络层，softmax网络层中包括预设数量的语种所对应的子softmax网络层。

将训练合并特征输入至联合网络层中的特定语种对应的子联合网络层中，利用特定语种对应的子联合网络层对训练合并特征进行联合处理，输出训练语音数据对应于特定语种的训练联合特征，将特定语种的训练联合特征输入至softmax网络层中的特定语种对应的子softmax网络层中，利用特定语种对应的子softmax网络层对训练联合特征进行归一化映射处理，得到当前帧的训练语音数据对应于特定语种的训练映射概率。

904，利用解码模块中特定语种对应的子解码模块对训练映射概率进行解码识别处理，以得到训练语音数据对应于特定语种的训练语音识别结果。

905，利用当前帧的训练语音识别结果和目标训练样本的当前帧的标签数据对初始语音识别模型中的参数进行更新，如此对预设数量的语种进行训练，以得到预设语音识别模型。

得到当前帧的特定语种的训练语音识别结果后，根据当前帧的特定语种的训练语音识别结果与目标训练样本的当前帧的特定语种的标签数据，对初始语音识别模型中的参数进行更新。

其中，共享的编码网络、共享的预测网络层，以及特定语种的子嵌入层、子联合网络层和子softmax网络层的模型参数才会参与更新，如此避免了不同语种之间的相互影响，实现了不同语种的解码解耦，降低了语种混淆度。

之后接着进行训练，如此完成对预设数量的语种的训练，最后得到预设语音识别模型。

906，利用预设语音识别模型对待识别的音频数据对应的每一帧语音数据进行识别处理，以得到语音数据的识别结果。

该实施例中实现了对图2所示的预设语音识别模型的训练，并利用训练得到的预设语音识别模型对待识别的语音数据进行识别处理，得到语音数据的识别结果。本申请实施例中的训练是多语种免切换的端到端的联合训练，即多语种混合训练，为多语种进行统一建模，根据语种设置不同的子嵌入层、子联合网络层、子softmax网络层，且共用预测网络层和编码网络，使得不同的子嵌入层、子联合网络层、子softmax网络层的参数不共享，避免了不同语种之间的相互影响，降低了语种混淆度，但预测网络层和编码网络的参数共享，降低了预设语音识别模型的模型参数。

在一实施例中，当初始语音识别模型中还包括语种分类网络时，语音识别方法还包括对语种分类网络的训练，具体地，语音识别方法还包括：利用语种分类网络对训练编码特征进行语种分类处理，以确定是否存在无需进行解码识别处理的第一语种；根据确定是否存在无需进行解码识别处理的第一语种的确定结果与特定语种对语种分类网络进行参数更新。可以理解地，语种分类网络与初始语音识别模型中的当前其他模块是独立的，即独立完成对语种分类网络的训练，且语种分类网络的训练与语种无关，即所有语种都共用该语种分类网络的参数。

在一实施例中，当初始语音识别模型中还包括有效帧节点时，语音识别方法还包括对有效帧节点的训练，具体地，语音识别方法还包括：利用有效帧节点对特定语种的合并特征进行有效帧识别，以得到特定语种的训练有效帧识别结果；根据训练有效帧识别结果与目标训练样本的当前帧的标签数据对有效帧节点的参数进行更新。有效帧节点与初始语音识别模型中的当前其他模块是独立的，即独立完成对有效帧节点的训练，且有效帧节点的训练与语种无关，即所有语种都共用该语种分类网络的参数。

在一实施例中，当初始语音识别模型中还包括有效帧节点和语种分类网络时，语音识别方法还包括对有效帧节点和语种分类网络的训练。具体地，语音识别方法还包括：利用语种分类网络对训练编码特征进行语种分类处理，以确定是否存在无需进行解码识别处理的第一语种；根据确定是否存在无需进行解码识别处理的第一语种的确定结果与特定语种对语种分类网络进行参数更新。利用有效帧节点对特定语种的合并特征进行有效帧识别，以得到特定语种的训练有效帧识别结果；根据训练有效帧识别结果与目标训练样本的当前帧的标签数据对有效帧节点的参数进行更新。

有效帧节点和语种分类网络在初始语音识别模型的训练过程中，虽然同时都参与训练，但有效帧节点和语种分类网络的训练独立于初始语音识别模型的其他模块的训练，且有效帧节点和语种分类网络均与语种无关。

本申请实施例中，实现了多语种的端到端的预设语音识别模型的联合训练，加入了语种分类网络和有效帧节点，实现了多语种免切换的目的，通过语种绑定的解码网络降低语种混淆度，共享编码网络、预测网络层降低模型参数，增加语种分类网络和有效帧节点，并行降低计算量，使得方普免切识别效果可以达到单语的效果。

需要注意的是，训练初始语音识别模型时，对应的步骤与使用预设语音识别模型的步骤是一致的，只是训练初始语音识别模型时，机会所有的术语前面都加了训练两字，具体训练的步骤请参看上文中使用预设语音识别模型的步骤，在此不再赘述。

上述所有的技术方案，可以采用任意结合形成本申请的可选实施例，在此不再一一赘述。

为便于更好的实施本申请实施例的语音识别方法，本申请实施例还提供一种语音识别装置。请参阅图15，图15为本申请实施例提供的语音识别装置的结构示意图。该语音识别装置可以包括接收获取模块1001、语音识别模块1002、返回模块1003。

接收获取模块1001，用于接收所输入的待识别的音频数据，以及获取预设语音识别模型，所述预设语音识别模型包括预测网络、编码网络和联合网络，所述联合网络包括联合网络层和softmax网络层；

语音识别模块1002，用于利用预设语音识别模型中的预测网络、编码网络、所述联合网络层中的每种语种所对应的子联合网络层、所述softmax网络层中的每种语种所对应的子softmax网络层、以及每种语种所对应的解码模块，对所述音频数据的每一帧语音数据进行语音识别处理，以得到所述语音数据的语音识别结果，其中，所述联合网络层中包括所述预设数量的语种所对应的子联合网络层，所述softmax网络层中包括所述预设数量的语种所对应的子softmax网络层。

返回模块1003，用于返回所述语音识别结果。

在一实施例中，接收获取模块1001，还用于接收所选择的目标语种、以及获取预设语音识别模型，所述目标语种为预设语音识别模型中的预设数量的语种中的至少一个语种，所述预设语音识别模型包括预测网络、编码网络和联合网络，所述联合网络包括联合网络层和softmax网络层；接收所输入的待识别的音频数据。对应地，语音识别模块1002，用于利用预设语音识别模型中的预测网络、编码网络、所述联合网络层中的所述目标语种所对应的子联合网络层、所述softmax网络层中的所述目标语种所对应的子softmax网络层、以及所述目标语种所对应的解码模块，对所述音频数据的每一帧语音数据进行语音识别处理，以得到所述语音数据对应于所述目标语种的语音识别结果，其中，所述联合网络层中包括所述预设数量的语种所对应的子联合网络层，所述softmax网络层中包括所述预设数量的语种所对应的子softmax网络层。返回模块1003，用于返回所述语音识别结果。

在一实施例中，语音识别模块1002，可以包括如图16相关的实施例所包括的所有模块，请参看下文中所示，在此不再赘述。

如图16所示，本申请实施例还提供了一种语音识别装置，该语音识别装置可以包括第一获取模块1101，第一合并模块1102，第一映射模块1103以及第一解码识别模块1104。

第一获取模块1101，用于获取当前帧的待识别的语音数据、所述当前帧的前一帧中的语音识别结果和预设语音识别模型，所述预设语音识别模型包括预测网络、编码网络和联合网络，所述联合网络包括联合网络层和softmax网络层，所述预设语音识别模型用于对预先确定的预设数量的语种的语音数据进行语音识别。

第一合并模块1102，用于将利用所述编码网络对所述语音数据进行编码处理得到的编码特征，和利用所述预测网络对所述前一帧的语音识别结果进行预测处理得到的预测特征进行合并处理，以得到合并特征。

其中，第一合并模块1102，包括第一编码模块、第一预测模块和第一合并模块。其中，第一编码模块用于利用所述编码网络对所述语音数据进行编码处理得到编码特征。第一预测模块，用于利用所述预测网络对所述前一帧的语音识别结果进行预测处理得到预测特征，如利用所述语种嵌入层中的每种语种对应的子嵌入层和所述预测网络层对所述前一帧中每种语种对应的语音识别结果进行预测处理，得到每种语种的预测特征。第一合并模块，用于将预测特征和编码特征进行合并处理，以得到合并特征。

其中，第一预测模块，包括第一嵌入单元和第一预测单元，其中，第一嵌入单元，用于利用所述语种嵌入层中的每种语种的子嵌入层对所述前一帧中的每种语种对应的语音识别结果进行特征处理，以得到每种语种对应的嵌入层特征；第一预测单元，用于利用所述预测网络层对每种语种的所述嵌入层特征进行预测处理，以得到每种语种的预测特征。

第一映射模块1103，用于利用所述联合网络层中的每种语种对应的子联合网络层和所述softmax网络层中的每种语种对应的子softmax网络层，对所述合并特征进行联合映射处理，以得到所述语音数据对应于每种语种的映射概率，其中，所述联合网络层中包括所述预设数量的语种所对应的子联合网络层，所述softmax网络层中包括所述预设数量的语种所对应的子softmax网络层。

第一解码识别模块1104，用于利用每种语种对应的解码模块对所述映射概率进行解码识别处理，以得到所述语音数据对应于每种语种的语音识别结果。

在一实施例中，如图15所示，语音识别装置还可以包括第一语种识别模块。第一语种识别模块用于利用语种分类网络和/或有效帧节点对语音数据进行语种识别处理，以得到音频数据所对应的目标语种。

其中，第一语种识别模块包括第一分类模块1105，其中，第一分类模块1105，用于利用所述语种分类网络对所述编码特征进行语种分类处理，以确定是否存在无需进行解码识别处理的第一语种，其中，所述第一语种是预先确定的预设数量的语种中的至少一个语种，若存在，则将当前帧的语种中除去第一语种之后的剩余语种作为目标语种，否则，将当前帧的所有语种作为目标语种。

在一实施例中，如图16所示，第一语种识别模块还可以包括第一帧检测模块1106，第一帧检测模块1106，用于利用所述有效帧节点对每种语种的所述合并特征进行有效帧识别，以得到每种语种的有效帧识别结果；当存在第二语种的有效帧识别结果表征所述当前帧为所述第二语种对应的无效帧时，将当前帧的语种中除去第二语种之后的剩余语种作为目标语种，否则，将当前帧的所有语种作为目标语种。

本申请实施例还提供一种语音识别装置。请参阅图17，图17为本申请实施例提供的语音识别装置的结构示意图。该语音识别装置可以包括第二获取模块1201，第二合并模块1202，第二映射模块1203、第二解码识别模块1204、更新模块1205和识别模块1206。

第二获取模块1201，用于获取特定语种的目标训练样本的当前帧的训练语音数据和所述当前帧的前一帧的训练语音识别结果，以及获取初始语音识别模型，所述初始语音识别模型包括编码网络、预测网络和联合网络，所述联合网络包括联合网络层和softmax网络层，所述预设语音识别模型用于对预先确定的预设数量的语种的语音数据进行语音识别，所述特定语种为所述初始语音识别模型预先确定的预设数量的语种中的至少一个语种。

第二合并模块1202，用于将利用所述编码网络对所述训练语音数据进行编码处理得到的训练编码特征，和利用所述预测网络对所述前一帧的训练语音识别结果进行预测处理得到的训练预测特征进行合并处理，以得到训练合并特征。

其中，第二合并模块1202，包括第二编码模块、第二预测模块和第二合并模块。其中，第二编码模块用于利用所述编码网络对所述训练语音数据进行编码处理得到训练编码特征。第二预测模块，用于利用所述预测网络对所述前一帧的训练语音识别结果进行预测处理得到训练预测特征，如利用所述语种嵌入层中的特定语种对应的子嵌入层和所述预测网络层对所述前一帧中特定语种对应的训练语音识别结果进行预测处理，得到特定语种的训练预测特征。第二合并模块，用于将训练预测特征和训练编码特征进行合并处理，以得到训练合并特征。

其中，第二预测模块，包括第二嵌入单元和第二预测单元，其中，第二嵌入单元，用于利用所述语种嵌入层中的特定语种的子嵌入层对所述前一帧中的特定语种对应的训练语音识别结果进行特征处理，以得到特定语种对应的训练嵌入层特征；第二预测单元，用于利用预测网络层对特定语种的所述训练嵌入层特征进行预测处理，以得到特定语种的训练预测特征。

第二映射模块1203，用于利用所述联合网络层中的特定语种对应的子联合网络层和所述softmax网络层中的特定语种对应的子softmax网络层，对所述训练合并特征进行联合映射处理，以得到所述训练语音数据对应于特定语种的训练映射概率，其中，所述联合网络层中包括所述预设数量的语种所对应的子联合网络层，所述softmax网络层中包括所述预设数量的语种所对应的子softmax网络层。

第二解码识别模块1204，用于利用特定语种对应的解码模块对所述训练映射概率进行解码识别处理，以得到所述训练语音数据对应于特定语种的训练语音识别结果。

更新模块1205，用于利用所述当前帧的所述训练语音识别结果和所述目标训练样本的当前帧的标签数据对所述初始语音识别模型中的模型参数进行更新，如此对预设数量的语种进行训练，以得到预设语音识别模型。

识别模块1206，用于利用所述预设语音识别模型对待识别的音频数据中的每一帧语音数据进行识别处理，以得到所述语音数据的语音识别结果。

在一实施例中，该语音识别装置还可以包括第二语种识别模块。

第二语种识别模块包括第二分类模块1207，其中，第二分类模块1207，用于利用所述语种分类网络对所述训练编码特征进行语种分类处理，以确定是否存在无需进行解码识别处理的第一语种，其中，所述第一语种是预先确定的预设数量的语种中的至少一个语种，根据所述确定是否存在无需进行解码识别处理的第一语种的确定结果与所述特定语种对所述语种分类网络进行参数更新。

在一实施例中，第二语种识别模块包括还可以包括第二帧检测模块1208，第二帧检测模块1208，用于利用所述有效帧节点对特定语种的所述合并特征进行有效帧识别，以得到特定语种的训练有效帧识别结果；根据所述训练有效帧识别结果与所述目标训练样本的当前帧的标签数据对所述有效帧节点的参数进行更新。

相应的，本申请实施例还提供一种计算机设备，该计算机设备可以为终端或者服务器。其中，实现预设语音识别模型训练的语音识别方法所在的计算机设备与使用该预设语音识别模型的语音识别方法所在的计算机设备可以是同一个计算机设备，也可以为不同的计算机设备。

如图18所示，图18为本申请实施例提供的计算机设备的结构示意图。该计算机设备1300包括有一个或者一个以上处理核心的处理器1301、有一个或一个以上计算机可读存储介质的存储器1302及存储在存储器1302上并可在处理器上运行的计算机程序。其中，处理器1301与存储器1302电性连接。本领域技术人员可以理解，图中示出的计算机设备结构并不构成对计算机设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

处理器1301是计算机设备1300的控制中心，利用各种接口和线路连接整个计算机设备1300的各个部分，通过运行或加载存储在存储器1302内的软件程序(计算机程序)和/或模块，以及调用存储在存储器1302内的数据，执行计算机设备1300的各种功能和处理数据，从而对计算机设备1300进行整体监控。

在本申请实施例中，计算机设备1300中的处理器1301会按照如下的步骤，将一个或一个以上的应用程序的进程对应的指令加载到存储器1302中，并由处理器1301来运行存储在存储器1302中的应用程序，从而实现各种功能，如本申请实施例中的任一实施例中语音识别方法对应的功能，以上各个操作的具体实施可参见前面的实施例，在此不再赘述。同时可以实现本申请实施例所提供的任一种语音识别方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

可选的，如图18所示，计算机设备1300还包括：触控显示屏1303、射频电路1304、音频电路1305、输入单元1306以及电源1307。其中，处理器1301分别与触控显示屏1303、射频电路1304、音频电路1305、输入单元1306以及电源1307电性连接。本领域技术人员可以理解，图17中示出的计算机设备结构并不构成对计算机设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

触控显示屏1303可用于显示图形用户界面以及接收用户作用于图形用户界面产生的操作指令。触控显示屏1303可以包括显示面板和触控面板。其中，显示面板可用于显示由用户输入的信息或提供给用户的信息以及计算机设备的各种图形用户接口，这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。可选的，可以采用液晶显示器(LCD，Liquid Crystal Display)、有机发光二极管(OLED，Organic Light-EmittingDiode)等形式来配置显示面板。触控面板可用于收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板上或在触控面板附近的操作)，并生成相应的操作指令，且操作指令执行对应程序。触控面板可覆盖显示面板，当触控面板检测到在其上或附近的触摸操作后，传送给处理器1301以确定触摸事件的类型，随后处理器1301根据触摸事件的类型在显示面板上提供相应的视觉输出。在本申请实施例中，可以将触控面板与显示面板集成到触控显示屏1303而实现输入和输出功能。但是在某些实施例中，触控面板与触控面板可以作为两个独立的部件来实现输入和输出功能。即触控显示屏1303也可以作为输入单元1306的一部分实现输入功能。

在本申请实施例中，该触控显示屏1303用于呈现图形用户界面以及接收用户作用于图形用户界面产生的操作指令。

射频电路1304可用于收发射频信号，以通过无线通信与网络设备或其他计算机设备建立无线通讯，与网络设备或其他计算机设备之间收发信号。

音频电路1305可以用于通过扬声器、传声器提供用户与计算机设备之间的音频接口。音频电路1305可将接收到的音频数据转换后的电信号，传输到扬声器，由扬声器转换为声音信号输出；另一方面，传声器将收集的声音信号转换为电信号，由音频电路1305接收后转换为音频数据，再将音频数据输出处理器1301处理后，经射频电路1304以发送给比如另一计算机设备，或者将音频数据输出至存储器1302以便进一步处理。音频电路1305还可能包括耳塞插孔，以提供外设耳机与计算机设备的通信。

输入单元1306可用于接收输入的数字、字符信息或用户特征信息(例如指纹、虹膜、面部信息等)，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

电源1307用于给计算机设备1300的各个部件供电。可选的，电源1307可以通过电源管理系统与处理器1301逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源1307还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

尽管图17中未示出，计算机设备1300还可以包括摄像头、传感器、无线保真模块、蓝牙模块等，在此不再赘述。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令来完成，或通过指令控制相关的硬件来完成，该指令可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。

为此，本申请实施例提供一种计算机可读存储介质，其中存储有多条计算机程序，该计算机程序能够被处理器进行加载，以执行本申请实施例所提供的任一种语音识别方法中的步骤。以上各个操作的具体实施可参见前面的实施例，在此不再赘述。

其中，该存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、磁盘或光盘等。

由于该存储介质中所存储的计算机程序，可以执行本申请实施例所提供的任一种语音识别方法中的步骤，因此，可以实现本申请实施例所提供的任一种语音识别方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

以上对本申请实施例所提供的一种语音识别方法、装置、存储介质及计算机设备进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种语音识别方法，其特征在于，包括：

接收所输入的待识别的音频数据；

返回所述音频识别结果。

2.根据权利要求1所述的语音识别方法，其特征在于，所述预设语音识别模型包括预测网络、编码网络和联合网络，所述预测网络包括语种嵌入层和预测网络层，所述联合网络包括联合网络层和softmax网络层，所述语种嵌入层中包括预设数量的语种对应的子嵌入层，所述联合网络层中包括所述预设数量的语种所对应的子联合网络层，所述softmax网络层中包括所述预设数量的语种所对应的子softmax网络层，所述目标语种的独立参数模块包括目标语种所对应的子嵌入层、目标语种所对应的子联合网络层、目标语种所对应的子softmax网络层，所述共享参数模块包括预测网络层和编码网络。

3.根据权利要求2所述的语音识别方法，其特征在于，所述音频数据包括多帧语音数据，若所选择的语种为一个，则所述目标语种为所选择的语种，

所述利用所述预设语音识别模型中的所述目标语种的独立参数模块、共享参数模块，以及解码模块中所述目标语种所对应的子解码模块，对所述音频数据进行语音识别处理，以得到所述音频数据对应于所述目标语种的音频识别结果的步骤，包括：

获取所述音频数据当前帧的待识别的语音数据，以及所述当前帧的前一帧中的语音识别结果；

将利用所述编码网络对所述语音数据进行编码处理得到的编码特征，和利用所述目标语种所对应的子嵌入层、预测网络层对所述前一帧的语音识别结果进行预测处理得到的预测特征进行合并处理，以得到合并特征；

利用所述联合网络层中的所述目标语种对应的子联合网络层和所述softmax网络层中的所述目标语种对应的子softmax网络层，对所述合并特征进行联合映射处理，以得到所述语音数据对应于所述目标语种的映射概率；

利用解码模块中所述目标语种对应的子解码模块对所述映射概率进行解码识别处理，以得到所述语音数据对应于所述目标语种的语音识别结果；

将每一帧中的所述语音数据对应于目标语种的语音识别结果作为所述音频数据对应于所述目标语种的音频识别结果。

4.根据权利要求3所述的语音识别方法，其特征在于，所述利用所述联合网络层中的所述目标语种对应的子联合网络层和所述softmax网络层中的所述目标语种对应的子softmax网络层，对所述合并特征进行联合映射处理，以得到所述语音数据对应于所述目标语种的映射概率的步骤，包括：

利用所述联合网络层中的所述目标语种对应的子联合网络层对所述合并特征进行联合处理，以得到所述目标语种对应的联合特征；

利用所述softmax网络层中的所述目标语种对应的子softmax网络层对所述联合特征进行归一化映射处理，以得到所述语音数据对应于所述目标语种的映射概率。

5.根据权利要求3所述的语音识别方法，其特征在于，利用所述目标语种所对应的子嵌入层、预测网络层对所述前一帧的语音识别结果进行预测处理得到预测特征，包括：

利用所述语种嵌入层中的所述目标语种的子嵌入层对所述前一帧中的所述目标语种对应的语音识别结果进行特征处理，以得到所述目标语种对应的嵌入层特征；

利用所述预测网络层对所述目标语种的所述嵌入层特征进行预测处理，以得到所述目标语种的预测特征。

6.根据权利要求2所述的语音识别方法，其特征在于，所述音频数据包括多帧语音数据，若所选择的语种为多个，所述联合网络中还包括有效帧节点和/或所述预设语音识别模型还包括语种分类网络，所述利用预设语音识别模型对所述音频数据进行语种识别处理，以得到所述音频数据所对应的目标语种，并利用所述预设语音识别模型中的所述目标语种的独立参数模块、共享参数模块、以及解码模块中所述目标语种所对应的子解码模块，对所述音频数据进行语音识别处理，以得到所述音频数据对应于所述目标语种的音频识别结果的步骤，包括：

获取所述音频数据的当前帧的待识别的语音数据、所述当前帧的前一帧中的语音识别结果；

将利用所述编码网络对所述语音数据进行编码处理得到的编码特征，和利用所选择的语种所对应的子嵌入层、预测网络层对所述前一帧的语音识别结果进行预测处理得到的预测特征进行合并处理，以得到合并特征；

利用所述联合网络层中的所选择的语种对应的子联合网络层和所述softmax网络层中的所选择的语种对应的子softmax网络层，对所述合并特征进行联合映射处理，以得到所述语音数据对应于所选择的语种的映射概率；

利用所述语种分类网络和/或所述有效帧节点对所述语音数据进行语种识别处理，以得到音频数据所对应的目标语种；

7.根据权利要求6所述的语音识别方法，其特征在于，所述利用语种分类网络对所述语音数据进行语种识别处理，以得到音频数据所对应的目标语种的步骤，包括：

利用所述语种分类网络对所述编码特征进行语种分类处理，以确定是否存在无需进行解码识别处理的第一语种，所述第一语种为所选择的语种中的至少一个语种；

若存在，则将当前帧的语种中除去所述第一语种后的剩余语种作为目标语种，若不存在，则将当前帧的语种全部作为目标语种。

8.根据权利要求7所述的语音识别方法，其特征在于，所述利用所述语种分类网络对所述编码特征进行语种分类处理，以确定是否存在无需进行解码识别处理的第一语种的步骤，包括：

利用所述语种分类网络对所述编码特征进行置信度处理，得到所述当前帧中预设数量的语种的置信度数据；

根据所述当前帧中预设数量的语种的置信度数据，确定是否存在无需进行解码识别处理的第一语种。

9.根据权利要求8所述的语音识别方法，其特征在于，所述利用所述语种分类网络对所述编码特征进行置信度处理，得到所述当前帧中预设数量的语种的置信度数据的步骤，包括：

利用所述语种分类网络对所述编码特征进行后验概率处理，以得到所述当前帧中预设数量的语种的后验概率；

根据所述当前帧中预设数量的语种的后验概率，确定所述当前帧中预设数量的语种的置信度数据。

10.根据权利要求8所述的语音识别方法，其特征在于，所述根据所述当前帧中预设数量的语种的置信度数据，确定是否存在无需进行解码识别处理的第一语种的步骤，包括：

确定所述当前帧中是否存在语种的置信度数据满足第一预设置信度条件，或者所述当前帧是否存在语种在预设帧内的置信度数据满足第二预设置信度条件；

若存在，则将所存在的语种作为无需进行解码识别处理的第一语种。

11.根据权利要求6所述的语音识别方法，其特征在于，所述利用语种分类网络对所述语音数据进行语种识别处理，以得到音频数据所对应的目标语种的步骤，包括：

利用所述语种分类网络对所述编码特征进行语种分类处理，以确定是否存在无需进行解码识别处理的第一语种，其中，所述第一语种是所选择的语种中的至少一个语种；

若存在，则将当前帧的语种中除去所述第一语种后的剩余语种作为目标语种，若不存在，则将当前帧的语种均作为目标语种；

所述利用所述联合网络层中的所选择的语种对应的子联合网络层和所述softmax网络层中的所选择的语种对应的子softmax网络层，对所述合并特征进行联合映射处理，以得到所述语音数据对应于所选择的语种的映射概率的步骤，包括：利用所述联合网络层中的所述目标语种对应的子联合网络层和所述softmax网络层中的所述目标语种对应的子softmax网络层，对所述合并特征进行联合映射处理，以得到所述当前帧的所述语音数据对应于所述目标语种的映射概率。

12.根据权利要求6所述的语音识别方法，其特征在于，利用所述有效帧节点对所述语音数据进行语种识别处理，以得到音频数据所对应的目标语种，包括：

利用所述有效帧节点对当前帧中的每种语种的所述合并特征进行有效帧识别，以得到对应每种语种的有效帧识别结果；

当存在第二语种的有效帧识别结果表征所述当前帧为所述第二语种对应的无效帧时，将当前帧的语种中除去所述第二语种后的剩余语种作为目标语种，其中，所述当前帧为所述无效帧意味着所述当前帧所对应的语音数据为空字符，所述第二语种为所选择的语种中的至少一个语种。

13.根据权利要求12所述的语音识别方法，其特征在于，所述利用所述有效帧节点对当前帧中的每种语种的所述合并特征进行有效帧识别，以得到对应每种语种的有效帧识别结果的步骤，包括：

利用所述有效帧节点对当前帧的每种语种的所述合并特征进行有效帧识别处理，以得到对应每种语种的有效帧识别概率；

根据每种语种的所述有效帧识别概率，确定每种语种的有效帧识别结果。

14.根据权利要求13所述的语音识别方法，其特征在于，所述根据每种语种的所述有效帧识别概率，确定每种语种的有效帧识别结果的步骤，包括：

确定每种语种的所述有效帧识别概率是否小于预设有效帧识别概率；

若是，则确定所述当前帧为对应语种的无效帧；

否则，则确定所述当前帧为对应语种的有效帧。

15.根据权利要求6所述的语音识别方法，其特征在于，利用所述语种分类网络和所述有效帧节点对所述语音数据进行语种识别处理，以得到音频数据所对应的目标语种，包括：

利用所述语种分类网络对所述编码特征进行语种分类处理，得到所述当前帧中的预设数量的语种的置信度数据；

利用所述有效帧节点对当前帧中的每种语种的所述合并特征进行有效帧识别，以得到当前帧中的每种语种的有效帧识别结果；

根据所述置信度数据和当前帧中的每种语种的有效帧识别结果确定是否存在无需进行解码识别的第三语种；

若存在，则将当前帧的语种中除去所述第三语种后的剩余语种作为目标语种，若不存在，则将当前帧的所有语种均作为目标语种，其中，所述第三语种是所选择的语种中的至少一个语种。

16.根据权利要求14所述的语音识别方法，其特征在于，所述根据所述置信度数据和当前帧中的每种语种的有效帧识别结果确定是否存在无需进行解码识别的第三语种的步骤，包括：

是否存在对应语种的所述置信度数据满足第一预设置信度条件，且同时对应语种的所述有效帧识别概率小于预设有效帧识别概率；

若存在，则将所存在的语种作为无需进行解码识别的第三语种。

17.根据权利要求6所述的语音识别方法，其特征在于，利用所述语种分类网络和所述有效帧节点对所述语音数据进行语种识别处理，以得到音频数据所对应的目标语种，包括：

利用所述有效帧节点对所述当前帧中的每种语种的所述合并特征进行有效帧识别，以得到每种语种的有效帧识别结果，并根据每种语种的有效帧识别结果确定是否存在第二语种的有效帧识别结果表征所述当前帧为所述第二语种对应的无效帧；

若存在第一语种和/或存在第二语种，则将当前帧的语种中除去所述第一语种和/或所述第二语种的剩余语种作为目标语种；否则，将当前帧中的所有语种均作为目标语种；或者

将当前帧的语种中除去既属于第一语种又属于第二语种的剩余语种作为目标语种，否则，将当前帧中的所有语种均作为目标语种。

18.根据权利要求6所述的语音识别方法，其特征在于，利用所述语种分类网络和所述有效帧节点对所述语音数据进行语种识别处理，以得到音频数据所对应的目标语种，包括：

若存在，则所述利用所述联合网络层中的所选择的语种对应的子联合网络层和所述softmax网络层中的所选择的语种对应的子softmax网络层，对所述合并特征进行联合映射处理，以得到所述语音数据对应于所选择的语种的映射概率的步骤，包括：利用所述联合网络层中的候选语种对应的子联合网络层和所述softmax网络层中的所述候选语种对应的子softmax网络层，对所述合并特征进行联合映射处理，以得到所述当前帧的所述语音数据对应于所述候选语种的映射概率；其中，所述候选语种为所述当前帧对应的所有语种中除去所述第一语种之后的剩余语种；

利用所述有效帧节点对所述候选语种的所述合并特征进行有效帧识别，以得到所述候选语种的有效帧识别结果，并根据所述候选语种的有效帧识别结果确定是否存在第二语种的有效帧识别结果表征所述当前帧为所述第二语种对应的无效帧；

若存在所述第二语种，则将所述候选语种中除去所述第二语种后的语种作为目标语种。

19.一种语音识别方法，其特征在于，包括：

返回所述音频识别结果。

20.一种语音识别方法，其特征在于，包括：

21.根据权利要求20所述的语音识别方法，其特征在于，所述语音数据的语种为目标语种；

所述利用所述联合网络层中的每种语种对应的子联合网络层和所述softmax网络层中的每种语种对应的子softmax网络层，对所述合并特征进行联合映射处理，以得到所述语音数据对应于每种语种的映射概率的步骤，包括：利用所述联合网络层中的所述目标语种对应的子联合网络层和所述softmax网络层中的所述目标语种对应的子softmax网络层，对所述合并特征进行联合映射处理，以得到所述语音数据对应于所述目标语种的映射概率；

所述利用解码模块中每种语种对应的子解码模块对所述映射概率进行解码识别处理，以得到所述语音数据对应于每种语种的语音识别结果的步骤，包括：利用解码模块中所述目标语种对应的子解码模块对所述映射概率进行解码识别处理，以得到所述语音数据对应于所述目标语种的语音识别结果。

22.根据权利要求20至21任一项所述的语音识别方法，其特征在于，所述预设语音识别模型还包括语种分类网络，和/或所述联合网络中还包括有效帧节点；

所述语音识别方法还包括：利用所述语种分类网络和/或所述有效帧节点对所述语音数据进行语种识别处理，以得到音频数据所对应的目标语种。

23.一种语音识别方法，其特征在于，包括：

利用解码模块中的特定语种对应的子解码模块对所述训练映射概率进行解码识别处理，以得到所述训练语音数据对应于特定语种的训练语音识别结果；

24.根据权利要求23所述的语音识别方法，其特征在于，所述初始语音识别模型还包括语种分类网络，所述语音识别方法，还包括：

利用所述语种分类网络对所述训练编码特征进行语种分类处理，以确定是否存在无需进行解码识别处理的第一语种；

根据所述确定是否存在无需进行解码识别处理的第一语种的确定结果与所述特定语种对所述语种分类网络进行参数更新。

25.根据权利要求23所述的语音识别方法，其特征在于，所述联合网络中还包括有效帧节点，所述训练合并特征为特定语种对应的训练合并特征；所述语音识别方法，还包括：

利用所述有效帧节点对特定语种的所述合并特征进行有效帧识别，以得到特定语种的训练有效帧识别结果；

根据所述训练有效帧识别结果与所述目标训练样本的当前帧的标签数据对所述有效帧节点的参数进行更新。

26.一种语音识别装置，其特征在于，包括：

返回模块，用于返回所述音频识别结果。

27.一种语音识别装置，其特征在于，包括：

返回模块，用于返回所述音频识别结果。

28.一种语音识别装置，其特征在于，包括：

29.一种语音识别装置，其特征在于，包括：

30.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序适于处理器进行加载，以执行如权利要求1-25任一项所述的语音识别方法中的步骤。

31.一种计算机设备，其特征在于，所述计算机设备包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器通过调用所述存储器中存储的所述计算机程序，执行如权利要求1-25任一项所述的语音识别方法中的步骤。