CN117765927A

CN117765927A - 语音识别方法、装置、电子设备及存储介质

Info

Publication number: CN117765927A
Application number: CN202311672423.3A
Authority: CN
Inventors: 郭一凡; 刘亚明; 田垚; 单煜翔; 索宏彬; 万玉龙
Original assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Current assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date: 2023-12-06
Filing date: 2023-12-06
Publication date: 2024-03-26

Abstract

本申请提供一种语音识别方法、装置、电子设备及存储介质，所述方法包括利用目标语音识别模型确定第一帧语音的声学嵌入向量；利用目标语音识别模型确定第一帧语音对应的文本嵌入向量；获取第一帧语音的语种嵌入向量；根据声学嵌入向量、文本嵌入向量和语种嵌入向量，确定第一帧语音对应的第一文本信息。本申请提供的语音识别方法在语音识别时，结合语音对应的语种嵌入向量，在识别过程中考虑到语种的相关信息从而更加准确的识别出对应的文本信息，提高语音识别的精度；同时还可以利用同一个语音识别模型识别不同的语种，增加语音识别模型的适用场景。

Description

语音识别方法、装置、电子设备及存储介质

技术领域

本申请涉及语音处理技术领域，具体涉及一种语音识别方法、装置、电子设备及存储介质。

背景技术

自动语音识别(Automatic Speech Recognition：ASR)技术是将输入语音数据转写为对应文本内容的核心技术；目前在电商、金融、物流等领域已经得到广泛应用。现有的自动语音识别场景中，自动语音识别模型仅支持单语种的语音识别任务，即一个自动语音识别模型仅能够识别某一个特定的语种。例如，中文自动语音识别模型只能用于中文语音识别，英文自动语音识别模型只能用于英文语音识别。随着自动语音识别技术应用的普及，采用一个自动语音识别模型来识别多个语种的需求日益迫切。通过将多个语种的自动语音识别模型统一成一个模型，能够降低模型迭代和维护成本，同时，能够避免因语种误判带来的识别错误。目前，针对多语种的语音识别方法的现有技术局限性较高，针对多语种的识别精度和可靠性较差。

发明内容

本申请实施例提供一种语音识别方法、装置、电子设备及存储介质，可以提高多语种语音识别的准确度。

第一方面，本申请提供一种语音识别方法，待识别语音序列包括第一帧语音，所述方法包括：

利用目标语音识别模型确定所述第一帧语音的声学嵌入向量；

利用所述目标语音识别模型确定所述第一帧语音对应的文本嵌入向量；

获取所述第一帧语音的语种嵌入向量；

根据所述声学嵌入向量、所述文本嵌入向量和所述语种嵌入向量，确定所述第一帧语音对应的第一文本信息。

在一些实施例中，所述利用目标语音识别模型确定所述第一帧语音的声学嵌入向量，包括：

利用所述目标语音识别模型确定所述第一帧语音的音频特征；

对所述音频特征进行编码得到所述第一帧语音的声学嵌入向量。

在一些实施例中，所述待识别语音序列包括第二帧语音，所述第一帧语音和所述第二帧语音为相邻的两帧语音，所述第二帧语音在所述第一帧语音之前；

所述利用所述目标语音识别模型确定所述第一帧语音对应的文本嵌入向量，包括：

获取所述第二帧语音对应的第二文本信息；

利用所述目标语音识别模型确定所述第二文本信息对应的文本特征；

根据所述文本特征和所述目标语音识别模型，确定所述第一帧语音对应的文本嵌入向量。

在一些实施例中，在利用目标语音识别模型确定所述第一帧语音的声学嵌入向量之前，所述方法还包括：

获取初始语音识别模型，所述初始语音识别模型中包括初始编码器；

训练所述初始编码器，得到第一语音识别模型，所述第一语音识别模型中包括训练后的第一编码器；

利用第一学习率对所述第一语音识别模型进行训练，得到第二语音识别模型；

利用第二学习率对所述第二语音识别模型进行训练，得到所述目标语音识别模型。

在一些实施例中，所述训练所述初始编码器，得到第一语音识别模型，包括：

获取语音识别训练样本，所述语音识别训练样本包括语音训练序列；

对所述语音训练序列进行标注，确定所述语音训练序列对应的第一音素标注；

利用所述初始编码器确定所述语音训练序列对应的声学嵌入训练向量；

确定所述声学嵌入训练向量对应的第二音素标注；

根据第一损失函数、所述第一音素标注和所述第二音素标注，调整所述初始编码器的参数，得到训练后的第一语音识别模型，所述第一语音识别模型中包括训练后的第一编码器。

在一些实施例中，所述第一语音识别模型中包括初始预测器和初始联合器；

所述利用第一学习率对所述第一语音识别模型进行训练，得到第二语音识别模型，包括：

固定所述第一编码器的编码器参数；

获取所述语音识别训练序列对应的训练文本；

利用第二损失函数、所述训练文本、所述语音识别训练序列和所述第一学习率对所述初始预测器和所述初始联合器进行训练，得到所述第二语音识别模型，所述第二语音识别模型包括训练后的第一编码器、第一预测器和第一联合器。

在一些实施例中，所述利用第二学习率对所述第二语音识别模型进行训练，得到所述目标语音识别模型，包括：

利用所述第二损失函数、所述训练文本、所述语音识别训练序列和第二学习率对所述第二语音识别模型进行训练，以调整所述第一编码器、所述第一预测器和所述第一联合器的参数，得到训练后的目标语音识别模型；

所述目标语音识别模型包括训练后的目标编码器、目标预测器和目标联合器。

第二方面，本申请实施例提供一种语音识别装置，所述语音识别装置包括：

声学嵌入向量确定模块，用于利用目标语音识别模型确定所述第一帧语音的声学嵌入向量；

文本嵌入向量确定模块，用于利用所述目标语音识别模型确定所述第一帧语音对应的文本嵌入向量；

语种嵌入向量确定模块，用于获取所述第一帧语音的语种嵌入向量；

文本预测模块，用于根据所述声学嵌入向量、所述文本嵌入向量和所述语种嵌入向量，确定所述第一帧语音对应的第一文本信息。

第三方面，本申请提供的电子设备，包括存储器和处理器，存储器存储有计算机程序，处理器用于运行存储器内的计算机程序，实现本申请所提供的语音识别方法中的步骤。

第四方面，本申请提供的计算机可读存储介质，存储有多条指令，该指令适于处理器进行加载，实现本申请所提供的语音识别方法中的步骤。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的语音识别系统的场景示意图；

图2是本申请实施例提供的语音识别方法的一个实施例的流程示意图；

图3是本申请实施例提供的目标语音识别模型的一个架构示意图；

图4是本申请实施例提供的训练初始语音识别模型的一个实施例的流程示意图；

图5是本申请实施例提供的训练得到第一语音识别模型的一个实施例流程示意图；

图6是本申请实施例提供的编码器的训练架构示意图；

图7是本申请实施例提供的目标语音识别模型装置的结构示意图；

图8是本申请实施例提供的电子设备的结构示意图；

图9示出了本申请实施例提供的终端设备相关的手机的部分结构的框图；

图10是本申请实施例提供的一种服务器结构示意图。

具体实施方式

需要说明的是，本申请的原理是以实施在一适当的运算环境中来举例说明。以下的说明是基于所例示的本申请具体实施例，其不应被视为限制本申请未在此详述的其他具体实施例。

本申请以下描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解，“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

本申请以下描述中，所涉及的术语“第一\第二\第三”仅仅是是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

为了能够提高语音识别的效果，本申请实施例提供一种语音识别方法、装置、电子设备及存储介质。其中，语音识别方法可由目标语音识别模型装置执行，或者由集成了该目标语音识别模型装置的电子设备执行。

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

请参照图1，本申请还提供一语音识别系统，如图1所示，该语音识别系统包括电子设备100，电子设备100中集成有本申请提供的目标语音识别模型装置。

其中，电子设备100可以是任何配置有处理器而具备处理能力的设备，比如智能手机、平板电脑、掌上电脑、笔记本电脑、智能音箱等具备处理器的移动式电子设备，或者台式电脑、电视、服务器、工业设备等具备处理器的固定式电子设备。

另外，如图1所示，该语音识别系统还可以包括存储器200，用于存储语音序列。

本申请实施例中，存储器200可以是云存储器，云存储(cloud storage)是在云计算概念上延伸和发展出来的一个新的概念，分布式云存储系统(以下简称存储系统)是指通过集群应用、网格技术以及分布存储文件系统等功能，将网络中大量各种不同类型的存储设备(存储设备也称之为存储节点)通过应用软件或应用接口集合起来协同工作，共同对外提供数据存储和业务访问功能的一个存储系统。

目前，存储系统的存储方法为：创建逻辑卷，在创建逻辑卷时，就为每个逻辑卷分配物理存储空间，该物理存储空间可能是某个存储设备或者某几个存储设备的磁盘组成。客户端在某一逻辑卷上存储数据，也就是将数据存储在文件系统上，文件系统将数据分成许多部分，每一部分是一个对象，对象不仅包含数据而且还包含数据标识(ID，ID entity)等额外的信息，文件系统将每个对象分别写入该逻辑卷的物理存储空间，且文件系统会记录每个对象的存储位置信息，从而当客户端请求访问数据时，文件系统能够根据每个对象的存储位置信息让客户端对数据进行访问。

存储系统为逻辑卷分配物理存储空间的过程，具体为：按照对存储于逻辑卷的对象的容量估量(该估量往往相对于实际要存储的对象的容量有很大余量)和独立冗余磁盘阵列(RAID，Redundant Array ofIndependent Disk)的组别，预先将物理存储空间划分成分条，一个逻辑卷可以理解为一个分条，从而为逻辑卷分配了物理存储空间。

需要说明的是，图1所示的语音识别系统的场景示意图仅仅是一个示例，本申请实施例描述的语音识别系统以及场景是为了更加清楚的说明本申请实施例的技术方案，并不构成对于本申请实施例提供的技术方案的限定，本领域普通技术人员可知，随着语音识别系统的演变和新业务场景的出现，本申请实施例提供的技术方案对于类似的技术问题，同样适用。

以下分别进行详细说明。需说明的是，以下实施例的序号不作为对实施例优选顺序的限定。

请参照图2，图2是本申请实施例提供的语音识别方法的一个实施例的流程示意图，如图2所示，本申请提供的语音识别方法的流程如下：

201、利用目标语音识别模型确定第一帧语音的声学嵌入向量。

本申请提供一种语音识别方法，在识别语音序列的同时还需要将语音翻译为文本，即将语音转为文字；因此本申请提供一个目标语音识别模型以进行语音识别。具体地，本申请需要对待识别语音序列进行语音识别，而待识别语音中包括多帧连续的语音；以其中任意一帧为第一帧为例：需要利用目标语音识别模型确定第一帧语音声学嵌入向量。

如图3所示，为本申请实施例提供的目标语音识别模型的一个架构示意图。在图3所示的实施例中，目标语音识别模型可以包括编码器、预测器、语种嵌入式向量层和联合器。而利用目标语音识别模型确定第一帧语音的声学嵌入向量，实际上就是利用目标语音识别模型中的编码器来确定第一帧语音的声学嵌入向量。

具体地，在本申请的实施例中，利用目标语音识别模型确定第一帧语音的声学嵌入向量，可以包括：

利用目标语音识别模型确定第一帧语音的音频特征；对音频特征进行编码得到第一帧语音的声学嵌入向量。

在本申请实施例中，编码器可以将音频特征进行编码处理从而获取高维声学连续性信息，即高维声学嵌入向量。而对于编码器来说，编码器并不能直接确定语音的音频特征，而是利用目标语音识别模型中的其他功能模块确定音频特征，再将音频特征作为编码器的输入。编码器会对输入的音频特征进行编码，最终输出当前帧语音对应的高维声学嵌入向量，即第一帧的高维声学嵌入向量。

202、利用目标语音识别模型确定第一帧语音对应的文本嵌入向量。

在实际进行语音识别时，通常需要结合上下文来确定当前帧语音的具体文本，因此还存在一个文本嵌入向量；文本嵌入向量通常是根据已经确定的文本来决定的。具体地，本申请中的待识别语音序列包括第二帧语音，第一帧语音和第二帧语音为相邻的两帧语音，且第二帧语音在第一帧语音之前。此时利用目标语音识别模型确定第一帧语音对应的文本嵌入向量，可以包括：

获取第二帧语音对应的第二文本信息；利用目标语音识别模型确定第二文本信息对应的文本特征；根据文本特征和目标语音识别模型，确定第一帧语音对应的文本嵌入向量。

具体地，可以先获取第二帧语音对应的第二文本信息，再确定第二文本信息对应的文本特征，进而利用文本特征和目标语音识别模型，确定第一帧语音对应的文本嵌入向量。在本申请的实施例中，可以利用目标语音识别模型中的预测器来确定文本嵌入向量；对于预测器来说，预测器可以对文本信息进行编码处理，从而为语音识别提供语言学上的上下文信息，进而提高语音识别的精度。在本申请的实施例中，预测器的输入可以为第二帧语音对应的文本的文本特征；实际上就是将第二帧语音对应的文本信息转换为可以预测器可以处理的数据，再输入预测器中。

203、获取第一帧语音的语种嵌入向量。

对于本申请实施例来说，还需要获取第一帧语音的语种嵌入向量，这样在进行语音识别时可以结合语种的相关信息，从而提高语音识别的准确度。其中，语种可以为汉语、英语、法语等多个不同的语种，每个语种都有其特定的特征，本申请中获取的语种嵌入向量也可以理解为每个语种各自独有的特征。结合语种嵌入向量进行语音识别可以有效提高与语音识别的准确度。

如图3所示，本申请实施例提供的目标语音识别模型中还包括语种嵌入式向量层，利用语种嵌入式向量层可以确定当前的待识别语音对应的语种嵌入向量。在本申请的实施例中，语种嵌入式向量层的输入可以为语种的独热(one-hot)向量；one-hot向量是每个语种独有的特征向量。在本申请实施例中，每个语种各自对应的one-hot可以为自定义的；例如one-hot为一个1*3的向量，中文的one-hot向量可以为001，英文的one-hot向量可为010，法语的one-hot向量可以为100。而语种的one-hot向量通常与声学嵌入式向量和文本嵌入向量不在一个维度中，因此还需要通过语种嵌入式向量层将one-hot向量转换至声学嵌入向量所在的维度中，得到同一维度的语种嵌入向量以便进行后续计算。

需要说明的是，在本申请实施例中，声学嵌入向量和文本嵌入向量通常在同一个维度中，因此不需要进行维度转换；而one-hot向量的维度远小于声学嵌入向量和文本嵌入向量的维度，因此需要进行维度转换得到语种嵌入向量。

204、根据声学嵌入向量、文本嵌入向量和语种嵌入向量，确定第一帧语音对应的第一文本信息。

在分别获取了第一帧语音对应的声学嵌入向量、文本嵌入向量和语种嵌入向量后，就可以利用三者来确定第一帧语音对应的第一文本信息，即将第一帧语音翻译为文本。在本申请中可以将三者输入至联合器中，联合器将高维神学连续性信息(即声学嵌入向量)、语言学上下文信息(即文本嵌入向量)和于总嵌入向量结合，预测得到第一帧语音对应的第一文本信息。

相较于现有技术，本申请提供的语音识别方法额外加入了语种嵌入向量，这样在进行语音识别的过程中，可以考虑到语种的相关信息从而提高语音识别的准确率。同时在本申请实施例中，当确定了语种嵌入向量后，后续语音识别过程中无需再将语种的one-hot向量转换为对应的语种嵌入向量，而是直接保存利用已经确定的语种嵌入向量，从而节约计算资源和存储资源。

需要说明的是，在本申请的实施例中，可以将代表语种的特殊起始标识符作为预测器的第一帧的输入字符；且位于首位的第一帧字符同样可以识别出对应的文本信息。即利用待识别语音序列中的首位字符既可以确定待识别语音序列对应的语种从而确定语种对应的one-hot向量，也可以确定首位字符对应的文本信息。

前述实施例中描述了如何利用目标语音识别模型进行语音识别，而在本申请的实施例中，利用目标语音识别模型进行语音识别之前，还需要获取初始语音识别模型，并对初始语音识别模型进行训练，得到训练后的目标语音识别模型，利用训练后的目标语音识别模型进行语音识别。而在本申请的实施例中，需要对初始语音识别模型进行多次训练；具体如图4所示，可以包括：

401、获取初始语音识别模型。

402、训练初始编码器，得到第一语音识别模型。

在本申请实施例中，首先获取一个初始语音识别模型，而初始语音识别模型中包括一个初始编码器、初始预测器、初始联合器以及一个语种嵌入式向量层。而本申请实施例的训练过程需要先对初始编码器进行训练，再对初始预测器和初始联合器进行训练。

如图5所示，为本申请实施例提供的训练得到第一语音识别模型的一个实施例流程示意图，可以包括；

501、获取语音识别训练样本，语音识别训练样本包括语音训练序列。

502、对语音训练序列进行标注，确定语音训练序列对应的第一音素标注。

503、利用初始编码器确定所述语音训练序列对应的声学嵌入训练向量。

504、确定声学嵌入训练向量对应的第二音素标注。

505、根据第一损失函数、第一音素标注和第二音素标注，调整初始编码器的参数，得到训练后的第一语音识别模型。

如图6所示，为本申请实施例提供的编码器的训练架构示意图；图6所示的训练架构仅为初始语音识别训练模型中的部分架构，初始语音识别模型中还包括其他的功能模块并未示出。以下结合图5和图6详细说明如何训练编码器：

对于图6所示的训练架构来说，首先需要获取语音识别训练样本，主要是获取语音训练序列，即获取语音序列的训练样本。接着需要对语音训练序列中的语音进行标注，确定语音训练序列中每一帧语音各自对应的第一音素标注；即得到语音训练序列对应的第一音素标注。其中，音素标注是根据语音的自然属性划分出来的最小语音单位；本申请中是利用各种语言均通用的音素进行标注，如利用国际音标、罗马音等进行标注。

接着将语音训练样本对应的音频特征输入至初始编码器中，初始编码器会对音频特征进行编码，得到语音训练序列对应的声学嵌入训练向量；而声学嵌入向量会输入至音素分类器，从而确定语音训练序列对应的预测音素标注，即第二音素标注。那么就可以利用第一损失函数计算真实的第一音素标注，和预测得到的第二音素标注之间的损失，进而根据损失调整初始编码器的参数，直至损失函数收敛或是损失函数达到预设的要求。在此处的训练过程中仅调整初始编码器的参数，而不调整初始预测器和初始联合器的参数，即冻结初始预测器和初始联合器的参数；此时得到的第一语音识别模型中包括训练后的第一编码器以及未调整的初始预测器、初始联合器。在一些实施例中，第一损失函数可以为连接主义时间分类损失函数(Connectionist Temporal Classification，CTC)。

在上述实施例中，语音训练样本可以为不同语种的语音样本，但利用不同语种间共同的音素标注进行训练，从而引导编码器学习到与语种无关的人类发音信息，避免不同语种之间语音序列数量不均衡可能带来的语音识别模型识别不同语种性能差异较大的问题。使得即使某个语种的语音样本较少，也可以出现较好的语音识别结果。

403、利用第一学习率对所述第一语音识别模型进行训练，得到第二语音识别模型。

在得到第一语音识别模型后，还需要继续对第一语音识别模型进行训练；但此时需要固定第一编码器的编码器参数，主要训练初始预测器和初始联合器的参数。这是因为编码器在整个语音识别模型中参数量最大，因此也最容易出现过拟合现象，若是存在多语种数据时，会出现编码器过拟合到数据量最大的语种上，从而导致语音序列较少的语种的识别性能差。因此先单独训练编码器，将训练好的编码器的参数冻结，后续仅训练预测器和联合器即可。本申请在训练预测器和联合器时，利用预训练好的语种无关的利用音素训练的第一编码器，可以避免出现过拟合现象，同时采用共同的音素标注进行预训练的编码器在不同的语种之间，输出的声学特征的差异性更多的体现在声学特征的连续性信息上，这种信息也有利于联合器学习到不同语种之间的语言学特性。

在具体的训练过程中，固定第一编码器的编码器参数后，还需要获取语音识别训练序列对应的训练文本，即文本信息。而后就可以利用第二损失函数、训练文本、语音识别训练序列对初始预测器和初始联合器进行训练；在训练过程中还需要结合第一学习率进行训练。其中，学习率决定了损失函数能否收敛到局部最小值以及何时收敛到最小值，合适的学习率能够使损失函数在合适的时间内收敛到局部最小值。而此处可以利用一个较大的学习率进行训练，具体的训练过程可以参数现有技术，此处不做限定。

404、利用第二学习率对所述第二语音识别模型进行训练，得到所述目标语音识别模型。

前述实施例中分别训练了编码器和预测器、联合器，最终得到了包括第一编码器、第一预测器和第一联合器的第二语音识别模型。此时还需要进行第三次的训练，此次的训练不同于前述冻结参数的训练过程，需要同时调整第一编码器、第一预测器和第一联合器的参数。具体地，可以利用第二损失函数、训练文本、语音训练识别序列对第二语音识别模型进行训练，以调整第一编码器、第一预测器和第一联合器的参数。同时，在训练过程中还需要结合第二学习率进行训练，得到最终的包括目标编码器、目标预测器和目标联合器的目标语音识别模型。

在本申请实施例中，第二学习率可以为一个较小的学习率，且第二学习率的小于第一学习率的大小；第一学习率和第二学习率的具体值可以根据实际需求选择，此处不做限定。而对第一语音识别模型进行训练和第二语音识别模型进行训练时，可以利用同一个损失函数，如循环神经网络(RNNT)等。

需要说明的是，在上述训练过程中并不调整语种嵌入式向量层的参数，语种嵌入式向量层仅需要将语种对应的one-hot向量转换为声学嵌入向量所在的维度中，得到语种对应的语种嵌入向量，参数的调整并不影响获取的one-hot向量以及对应的语种嵌入向量。

为便于更好的实施本申请实施例提供的语音识别方法，本申请实施例还提供一种基于上述语音识别方法的语音识别装置。其中名词的含义与上述语音识别方法中相同，具体实现细节请参考以上方法实施例中的说明。

请参照图7，图7为本申请实施例提供的目标语音识别模型装置的结构示意图，该目标语音识别模型装置可以包括声学嵌入向量确定模块701、文本嵌入向量确定模块702、语种嵌入向量确定模块703、文本预测模块704，其中，

声学嵌入向量确定模块701，用于利用目标语音识别模型确定第一帧语音的声学嵌入向量。

文本嵌入向量确定模块702，用于利用目标语音识别模型确定第一帧语音对应的文本嵌入向量。

语种嵌入向量确定模块703，用于获取第一帧语音的语种嵌入向量。

文本预测模块704，用于根据声学嵌入向量、文本嵌入向量和语种嵌入向量，确定第一帧语音对应的第一文本信息。

本申请提供一种语音识别装置，首先利用目标语音识别模型确定第一帧语音的声学嵌入向量；利用目标语音识别模型确定第一帧语音对应的文本嵌入向量；获取第一帧语音的语种嵌入向量；根据声学嵌入向量、文本嵌入向量和语种嵌入向量，确定第一帧语音对应的第一文本信息。本申请提供的语音识别方法在语音识别时，结合语音对应的语种嵌入向量，在识别过程中考虑到语种的相关信息从而更加准确的识别出对应的文本信息，提高语音识别的精度；同时还可以利用同一个语音识别模型识别不同的语种，增加语音识别模型的适用场景。

在一些实施例中，声学嵌入向量确定模块701具体可以用于：

利用目标语音识别模型确定第一帧语音的音频特征；

对音频特征进行编码得到第一帧语音的声学嵌入向量。

在一些实施例中，待识别语音序列包括第二帧语音，第一帧语音和第二帧语音为相邻的两帧语音，第二帧语音在第一帧语音之前。文本嵌入向量确定模块702具体可以用于：

获取第二帧语音对应的第二文本信息；

利用目标语音识别模型确定第二文本信息对应的文本特征；

根据文本特征和目标语音识别模型，确定第一帧语音对应的文本嵌入向量。

在一些实施例中，该语音识别装置还包括语音识别模型训练模块705，语音识别模型训练模块705具体可以用于：

获取初始语音识别模型，初始语音识别模型中包括初始编码器；

训练初始编码器，得到第一语音识别模型，第一语音识别模型中包括训练后的第一编码器；

利用第一学习率对第一语音识别模型进行训练，得到第二语音识别模型；

利用第二学习率对第二语音识别模型进行训练，得到目标语音识别模型。

在一些实施例中，语音识别模型训练模块705具体可以用于：

获取语音识别训练样本，语音识别训练样本包括语音训练序列；

对语音训练序列进行标注，确定语音训练序列对应的第一音素标注；

利用初始编码器确定语音训练序列对应的声学嵌入训练向量；

确定声学嵌入训练向量对应的第二音素标注；

根据第一损失函数、第一音素标注和第二音素标注，调整初始编码器的参数，得到训练后的第一语音识别模型，第一语音识别模型中包括训练后的第一编码器。

在一些实施例中，第一语音识别模型中包括初始预测器和初始联合器。语音识别模型训练模块705具体可以用于：

固定第一编码器的编码器参数；

获取语音识别训练序列对应的训练文本；

利用训练文本、语音识别训练序列和第一学习率对初始预测器和初始联合器进行训练，得到第二语音识别模型，第二语音识别模型包括训练后的第一编码器、第一预测器和第一联合器。

在一些实施例中，语音识别模型训练模块705具体可以用于：

利用训练文本、语音识别训练序列和第二学习率对第二语音识别模型进行训练，以调整第一编码器、第一预测器和第一联合器的参数，得到训练后的目标语音识别模型；

目标语音识别模型包括训练后的目标编码器、目标预测器和目标联合器。

以上各个模块的具体实施可参见前面的实施例，在此不再赘述。

本申请实施例还提供一种电子设备，包括存储器和处理器，其中处理器通过调用存储器中存储的计算机程序，用于执行本实施例提供的语音识别方法中的步骤。

请参照图8，图8为本申请实施例提供的电子设备的结构示意图。

该电子设备可以包括一个或者一个以上处理核心的处理器801、一个或一个以上计算机可读存储介质的存储器802、电源803和输入单元804等部件。本领域技术人员可以理解，图8中示出的电子设备结构并不构成对电子设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

处理器801是该电子设备的控制中心，利用各种接口和线路连接整个电子设备的各个部分，通过运行或执行存储在存储器802内的软件程序和/或模块，以及调用存储在存储器802内的数据，执行电子设备的各种功能和处理数据。可选的，处理器801可包括一个或多个处理核心；可选的，处理器801可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器801中。

存储器802可用于存储软件程序以及模块，处理器801通过运行存储在存储器802的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器802可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据电子设备的使用所创建的数据等。此外，存储器802可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器802还可以包括存储器控制器，以提供处理器801对存储器802的访问。

电子设备还包括给各个部件供电的电源803，可选的，电源803可以通过电源管理系统与处理器801逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源803还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

该电子设备还可包括输入单元804，该输入单元804可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

尽管未示出，该电子设备还可以包括显示单元、图像采集组件等，在此不再赘述。具体在本实施例中，电子设备中的处理器801会按照如下的指令，将一个或一个以上的计算机程序对应的可执行代码加载到存储器802中，并由处理器801来执行本申请提供的语音识别方法中的步骤，比如：

利用目标语音识别模型确定第一帧语音的声学嵌入向量；

利用目标语音识别模型确定第一帧语音对应的文本嵌入向量；

获取第一帧语音的语种嵌入向量；

根据声学嵌入向量、文本嵌入向量和语种嵌入向量，确定第一帧语音对应的第一文本信息。

应当说明的是，本申请实施例提供的电子设备与上文实施例中的语音识别方法属于同一构思，其具体实现过程详见以上相关实施例，此处不再赘述。

本申请还提供一种计算机可读的存储介质，其上存储有计算机程序，当其存储的计算机程序在本申请实施例提供的电子设备的处理器上执行时，使得电子设备的处理器执行本申请提供的语音识别方法中的步骤。其中，存储介质可以是磁碟、光盘、只读存储器(Read Only Memory，ROM)或者随机存取器(Random Access Memory，RAM)等。

由于该计算机可读存储介质中所存储的计算机程序，可以执行本申请实施例所提供的任一种短期数据存储方法中的步骤，因此，可以实现本申请实施例所提供的任一种语音识别方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

当本申请实施例中计算设备为终端设备时，本申请实施例还提供了一种终端设备，如图9所示，为了便于说明，仅示出了与本申请实施例相关的部分，具体技术细节未揭示的，请参照本申请实施例方法部分。该终端设备可以为包括手机、平板电脑、个人数字助理(Personal Digital Assistant，PDA)、销售终端设备(Point of Sales，POS)、车载电脑等任意终端设备，以终端设备为手机为例：

图9示出的是与本申请实施例提供的终端设备相关的手机的部分结构的框图。参考图9，手机包括：射频(Radio Frequency，RF)电路910、存储器920、输入单元930、显示单元940、传感器950、音频电路960、无线保真(wireless fidelity，WiFi)模块970、处理器980、以及电源990等部件。本领域技术人员可以理解，图9中示出的手机结构并不构成对手机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图9对手机的各个构成部件进行具体的介绍：

RF电路910可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，给处理器980处理；另外，将设计上行的数据发送给基站。通常，RF电路910包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(LowNoiseAmplifier，LNA)、双工器等。此外，RF电路910还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯系统(GlobalSystem of Mobile communication，GSM)、通用分组无线服务(General PacketRadioService，GPRS)、码分多址(Code Division Multiple Access，CDMA)、宽带码分多址(Wideband Code Division Multiple Access,WCDMA)、长期演进(Long Term Evolution，LTE)、电子邮件、短消息服务(Short Messaging Service，SMS)等。

存储器920可用于存储软件程序以及模块，处理器980通过运行存储在存储器920的软件程序以及模块，从而执行手机的各种功能应用以及数据处理。存储器920可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器920可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

输入单元930可用于接收输入的数字或字符信息，以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地，输入单元930可包括触控面板931以及其他输入设备932。触控面板931，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板931上或在触控面板931附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触控面板931可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器980，并能接收处理器980发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板931。除了触控面板931，输入单元930还可以包括其他输入设备932。具体地，其他输入设备932可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元940可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元940可包括显示面板941，可选的，可以采用液晶显示器(LiquidCrystalDisplay，LCD)、有机发光二极管(Organic Light-Emitting Diode，OLED)等形式来配置显示面板941。进一步的，触控面板931可覆盖显示面板941，当触控面板931检测到在其上或附近的触摸操作后，传送给处理器980以确定触摸事件的类型，随后处理器980根据触摸事件的类型在显示面板941上提供相应的视觉输出。虽然在图9中，触控面板931与显示面板941是作为两个独立的部件来实现手机的输入和输入功能，但是在某些实施例中，可以将触控面板931与显示面板941集成而实现手机的输入和输出功能。

手机还可包括至少一种传感器950，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板941的亮度，接近传感器可在手机移动到耳边时，关闭显示面板941和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路960、扬声器961，传声器962可提供用户与手机之间的音频接口。音频电路960可将接收到的音频数据转换后的电信号，传输到扬声器961，由扬声器961转换为声音信号输出；另一方面，传声器962将收集的声音信号转换为电信号，由音频电路960接收后转换为音频数据，再将音频数据输出处理器980处理后，经RF电路910以发送给比如另一手机，或者将音频数据输出至存储器920以便进一步处理。

Wi-Fi属于短距离无线传输技术，手机通过Wi-Fi模块970可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图9示出了Wi-Fi模块970，但是可以理解的是，其并不属于手机的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器980是手机的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器920内的软件程序和/或模块，以及调用存储在存储器920内的数据，执行手机的各种功能和处理数据，从而对手机进行整体监控。可选的，处理器980可包括一个或多个处理单元；可选的，处理器980可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器980中。

手机还包括给各个部件供电的电源990(比如电池)，可选的，电源可以通过电源管理系统与处理器980逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

尽管未示出，手机还可以包括摄像头、蓝牙模块等，在此不再赘述。

在本申请实施例中，该手机所包括的处理器980还具有控制执行以上由视频鉴伪装置执行的对短期数据存储方法的流程。

本申请实施例还提供了一种服务器，请参阅图10，图10是本申请实施例提供的一种服务器结构示意图，该服务器1000可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(英文全称：central processing units，英文简称：CPU)1022(例如，一个或一个以上处理器)和存储器1032，一个或一个以上存储应用程序1042或数据1044的存储介质1030(例如一个或一个以上海量存储设备)。其中，存储器1032和存储介质1030可以是短暂存储或持久存储。存储在存储介质1030的程序可以包括一个或一个以上模块(图中未示出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器1022可以设置为与存储介质1030通信，在服务器1000上执行存储介质1030中的一系列指令操作。

服务器1000还可以包括一个或一个以上电源1026，一个或一个以上有线或无线网络接口1050，一个或一个以上输入输出接口1058，和/或，一个或一个以上操作系统1041，例如Windows Server，Mac OS X，Unix,Linux，FreeBSD等等。

上述实施例中对基于联邦学习的模型训练方法中的步骤可以基于该图10所示的服务器1000的结构。例如，中央处理器1022通过调用存储器1032中的指令，执行以下操作：

利用目标语音识别模型确定第一帧语音的声学嵌入向量；

获取第一帧语音的语种嵌入向量；

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请实施例所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本申请实施例各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。

所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存储的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

以上对本申请实施例所提供的技术方案进行了详细介绍，本申请实施例中应用了具体个例对本申请实施例的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请实施例的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请实施例的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请实施例的限制。

Claims

1.一种语音识别方法，其特征在于，待识别语音序列包括第一帧语音，所述方法包括：

获取所述第一帧语音的语种嵌入向量；

2.根据权利要求1所述的语音识别方法，其特征在于，所述利用目标语音识别模型确定所述第一帧语音的声学嵌入向量，包括：

3.根据权利要求1所述的语音识别方法，其特征在于，所述待识别语音序列包括第二帧语音，所述第一帧语音和所述第二帧语音为相邻的两帧语音，所述第二帧语音在所述第一帧语音之前；

获取所述第二帧语音对应的第二文本信息；

4.根据权利要求1所述的语音识别方法，其特征在于，在利用目标语音识别模型确定所述第一帧语音的声学嵌入向量之前，所述方法还包括：

5.根据权利要求4所述的语音识别方法，其特征在于，所述训练所述初始编码器，得到第一语音识别模型，包括：

确定所述声学嵌入训练向量对应的第二音素标注；

6.根据权利要求5所述的语音识别方法，其特征在于，所述第一语音识别模型中包括初始预测器和初始联合器；

固定所述第一编码器的编码器参数；

获取所述语音识别训练序列对应的训练文本；

7.根据权利要求6所述的语音识别方法，其特征在于，所述利用第二学习率对所述第二语音识别模型进行训练，得到所述目标语音识别模型，包括：

8.一种语音识别装置，其特征在于，所述语音识别装置包括：

9.一种电子设备，其特征在于，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器用于运行所述存储器内的计算机程序，以执行权利要求1至7任一项所述的语音识别方法中的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有多条指令，所述指令适于处理器进行加载，以执行权利要求1至7任一项所述的语音识别方法中的步骤。