CN115440217A

CN115440217A - 一种语音识别方法、装置、设备和存储介质

Info

Publication number: CN115440217A
Application number: CN202211042586.9A
Authority: CN
Inventors: 张国洋; 付中华; 高建清
Original assignee: Xi'an Xunfei Super Brain Information Technology Co ltd
Current assignee: Xi'an Xunfei Super Brain Information Technology Co ltd
Priority date: 2022-08-29
Filing date: 2022-08-29
Publication date: 2022-12-06

Abstract

本申请公开了一种语音识别方法、装置、设备和存储介质，该方法包括：获取待识别的目标音频，目标音频为包括至少两种语种的混合音频；提取目标音频中各语种对应的第一音频特征；基于各语种对应的第一音频特征和目标音频中的语种信息，得到目标音频的语音识别结果。通过上述方式，本申请能够提高多语种混合语音识别结果的准确度。

Description

一种语音识别方法、装置、设备和存储介质

技术领域

本申请涉及语音识别领域，特别是涉及一种语音识别方法、装置、设备和存储介质。

背景技术

目前已经存在可以直接将语音映射为文本，从而实现端到端的语音识别技术，但目前的语音识别技术对单语种的识别能力较强，而对于多语种混合的语音，特别是对于一句话中包含多个语种的混合语音的识别效果较差，这给多语种语音识别带来了极大的挑战。

综上，如何提高多语种混合语音识别结果的准确度意义重大。

发明内容

本申请主要解决的技术问题是提供一种语音识别方法、装置、设备和存储介质，能够提高多语种混合语音识别结果的准确度。

为解决上述技术问题，本申请采用的一个技术方案是：提供一种语音识别方法，该方法包括：获取待识别的目标音频，目标音频为包括至少两种语种的混合音频；提取目标音频中各语种对应的第一音频特征；基于各语种对应的第一音频特征和目标音频中的语种信息，得到目标音频的语音识别结果。

为解决上述技术问题，本申请采用的另一个技术方案是：提供一种语音识别装置，该装置包括：获取模块，用于获取待识别的目标音频，目标音频为包括至少两种语种的混合音频；特征提取模块，用于提取目标音频中各所述语种对应的第一音频特征；语音识别模块，用于基于语种对应的第一音频特征和目标音频中的语种信息，得到目标音频的语音识别结果。

为解决上述技术问题，本申请采用的又一个技术方案是：提供一种电子设备，包括相互耦接的存储器和处理器，存储器存储有程序指令；处理器用于执行存储器中存储的程序指令，以实现上述方法。

为解决上述技术问题，本申请采用的再一个技术方案是：提供一种计算机可读存储介质，计算机可读存储介质用于存储程序指令，程序指令能够被执行以实现上述方法。

本申请的有益效果是：本申请在获取待识别的包括至少两种语种的目标音频后，先提取目标音频中各语种对应的第一音频特征，然后基于各语种对应的第一音频特征和目标音频中的语种信息，得到目标音频的语音识别结果。由于本申请在语音识别过程中结合了目标音频中的各音频特征和目标音频对应的语种信息，因此，可降低不同语种间存在的近音词对识别结果的干扰，进而提高多语种混合语音识别结果的准确性。

附图说明

图1是本申请提供的语音识别方法一实施例的流程示意图；

图2是本申请提供的语音识别模型的框架示意图；

图3是本申请提供的语音识别方法一实施例的流程示意图；

图4是图1所示步骤S13一实施例的流程示意图；

图5是本申请提供的语音识别装置一实施例的框架示意图；

图6是本申请提供的电子设备一实施例的结构示意图；

图7是本申请提供的计算机可读存储介质的结构示意图。

具体实施方式

为使本申请的目的、技术方案及效果更加清楚、明确，以下参照附图并举实施例对本申请进一步详细说明。

需要说明的是，若本申请实施例中有涉及“第一”、“第二”等的描述，则该“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外，各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本申请要求的保护范围之内。

请参阅图1，图1是本申请提供的语音识别方法一实施例的流程示意图。需注意的是，若有实质上相同的结果，本实施例并不以图1所示的流程顺序为限。如图1所示，本实施例包括：

S11：获取待识别的目标音频，目标音频为包括至少两种语种的混合音频。

本实施例的方法用于基于目标音频中各语种对应的第一音频特征和目标音频的语种信息，得到目标音频的语音识别结果，其中，可利用语音识别模型综合各语种对应的第一音频特征和目标音频的语种信息，得到目标音频的语音识别结果。

目标音频为包括至少两种语种的混合音频，其中，目标音频可以是两种语种的混合音频，也可以是两种语种以上的多语种的混合音频，此外，目标音频可以是至少两种语种的句间混合音频(每句话对应的语音都是只包含一种语种的单语种，但不同句子对应的语种存在不同)，还可以是至少两种语种的句内混合音频，例如“我今天感到very happy”为包含两种语种的句内混合音频，至少两种语种的句内混合音频中，每句话均包含至少两种语种，其中，至少两种语种可以是中文、外文的混说，也可以是普通话和各地方言的混说，具体的目标音频包含的语种种类以及混合情况需根据实际应用场景进行确定，此处不做具体限定。

S12：提取目标音频中各语种对应的第一音频特征。

在一实施方式中，可利用相关特征提取算法提取目标音频中各语种对应的第一音频特征。

在其他实施方式中，也可利用语音识别模型提取目标音频中各语种对应的第一音频特征。在一具体实施方式中，如图2所示，可分别利用语音识别模型中各语种对应的编码器模块，提取目标音频中各语种对应的第一音频特征，例如目标音频包含语种1和语种2两种语种，则利用语种1对应的编码器模块1提取目标音频中语种1对应的第一音频特征，利用语种2对应的编码器模块2提取目标音频中语种2对应的第一音频特征。其中，提取的各第一音频特征至少包含对应语种的音频特征，可选地，提取的各第一音频特征还可以包含各语种对应的音频相对于目标音频的位置信息，例如，包括各语种对应的音频是目标音频的哪些帧。

其中，各语种对应的编码器模块是利用对应语种的第一单语种样本音频训练得到的，例如编码器模块1为普通话编码器，编码器模块2为四川话编码器，则分别利用普通话音频数据(第一单语种样本音频)训练普通话编码器，利用四川话音频数据(第一单语种样本音频)训练四川话编码器，得到普通话对应的编码器模块1和四川话对应的编码器模块2。

S13：基于各语种对应的第一音频特征和目标音频中的语种信息，得到目标音频的语音识别结果。

在一实施例中，在基于各语种对应的第一音频特征和目标音频中的语种信息，得到目标音频的语音识别结果前，需先得到目标音频的语种信息。在一实施方式中，先利用拼接的方式融合各语种对应的第一音频特征，得到第一音频融合特征，或者根据提取的各第一音频特征中相对于目标音频的位置信息，融合各语种对应的第一音频特征，得到第一音频融合特征。然后，基于第一融合特征，得到目标音频的语种信息。其中，得到的目标音频的语种信息可以是不同音频段对应的语种信息，也可以是目标音频中各音频帧对应的语种信息。

在一实施方式中，如图2所示，语音识别模型还包括语种识别模块。其中，目标音频中的语种信息是利用语音识别模型的语种识别模块获取的。具体地，利用语音识别模型的语种识别模块对第一音频融合特征进行处理，得到目标音频中的语种信息。其中，语种识别模块为利用第一样本音频和训练完成的编码器模块训练得到的，第一样本音频为包括多语种(至少两种语种)的混合音频，且标注有第一样本音频中各音频帧对应的语种信息(语种标签)y_i，故经第一样本音频训练得到的语种识别模块，能够识别目标音频中各语音帧对应的语种信息，其中，语种识别模块的训练步骤为：先利用训练完成的各语种对应的编码器模块提取第一样本音频中各语种对应的样本音频特征，然后融合各样本音频特征后输入语种识别模块，得到第一样本音频中各音频帧对应的语种信息z_i，然后，利用语种信息的交叉熵损失函数调整参数，语种信息的交叉熵损失函数如下：

其中，L表示损失函数，c表示第一样本音频的样本数，Tc表示第一样本音频的帧数，i表示第i帧，y_i表示真实的语种标签，z_i表示预测的语种概率值。

在一实施方式中，如图2所示，语音识别模型除了包括各语种对应的编码器模块和语种识别模块外，还包括解码模块，其中，基于各语种对应的第一音频特征和目标音频中的语种信息，得到目标音频的语音识别结果的步骤可利用语音识别模型的解码模块得到。其中，解码模块是利用第二样本音频训练得到的，第二样本音频包括第二单语种样本音频和多语种样本音频中的至少一者，也就是说，解码模块可以利用第二单语种样本音频(各单语种样本音频)训练得到，其中，第二单语种样本音频与第一单语种样本音频可以相同，也可以不同，当然，解码模块也可以利用多语种样本音频(即每个样本音频中包括多种语种)训练得到，还可以利用第二单语种样本音频和多语种样本音频训练得到，具体地，先利用数据量较多的第二单语种样本音频训练解码模块，并进行数据调优，然后利用多语种样本音频进行微调。其中，语音识别模型中解码模块的训练步骤包括：先利用训练完成的各语种对应的编码器模块提取第二样本音频中各语种对应的样本音频特征，以及训练完成的语种识别模块获取第二样本音频中的语种信息，然后，基于各语种对应的样本音频特征和第二样本音频中的语种信息，得到第二样本音频的样本语音识别结果，之后利用样本语音识别结果调整解码模块的参数。

当然，在其他实施例中，基于各语种对应的第一音频特征和目标音频中的语种信息，得到目标音频的语音识别结果的步骤，也可利用相关文本识别算法获取得到。

需要说明的是，在一些场景中，不同语种间可能存在近音词，例如英文的“shy”和中文的“晒”，英文的“low”和中文的“漏”，又如对于同一个词，中文普通话和各方言间由于发音习惯不同，会存在声调差异，比如，普通话中的一声调，河南话往往会发成二声调，普通话中的二声调，河南话往往会发成四声调，普通话中的三声调，河南话往往会发成一声调，比如“河南人”普通话都是二声调(hé nán rén)，但河南话往往会发成四声调(hè nàn rèn)，可以理解的是，若在目标音频识别过程中不结合目标音频对应的语种信息，则这种近音词会干扰语音识别，造成识别错误。

而本实施例中，在获取待识别的包括至少两种语种的目标音频后，先提取目标音频中各语种对应的第一音频特征，然后基于各语种对应的第一音频特征和目标音频中的语种信息，得到目标音频的语音识别结果。由于本实施例方案在语音识别过程中结合了目标音频中的各第一音频特征和目标音频对应的语种信息，因此，可降低不同语种间存在的近音词对识别结果的干扰，进而提高语音识别结果的准确性。

需要说明的是，上述语音识别模型的语种识别模块是利用第一样本音频数据训练得到的，而模型训练过程中，需要大量训练样本数据，其中，多语种混合的第一样本音频数据稀缺，特别地，语种相近(例如是普通话和对应方言)句内混说的第一样本音频数据更加稀缺，为增强用以训练语种识别模块的第一样本音频数据，以确保语种识别模块的训练效果，可先获取充足数量的第一样本音频数据。在一实施方式中，第一样本音频也可以是对单语种音频进行实体翻译、插入、替换等操作构建多语种的混合语音片段，然后利用语音合成器将各多语种的混合语音片段进行语音合成得到的，且第一样本音频数据中标注有各音频帧对应的语种信息。在其他实施方式中，第一样本音频是通过对多个单语种音频进行裁剪(其中，用于进行裁剪的裁剪点是基于单语种音频的属于不同字的目标相邻音频帧确定的)、混合拼接得到的。

具体地，请参阅图3，图3是本申请提供的语音识别方法一实施例的流程示意图。需注意的是，若有实质上相同的结果，本实施例并不以图3所示的流程顺序为限。如图3所示，本实施例中，第一样本音频数据是通过对多个单语种音频进行裁剪、混合拼接得到的，具体包括：

S31：获取多个单语种音频，并查找出各单语种音频中属于不同字的目标相邻音频帧。

具体地，先获取得到适宜数量的多个单语种音频，其中，各单语种的数量可以但不限于是接近1：1，也可以是接近2：1，3：1等，具体各单语种音频对应的语种和数量可根据实际应用场景进行确定，例如，若对应的是识别普通话和四川话混合的语音，则对应的是单独普通话和单独四川话对应的音频，又如，若对应的是识别普通话和陕西话混合的语音，则对应的是单独普通话和单独陕西话对应的音频，其中，此处只用作举例，并不因此限制多个单语种音频对应的语种，也不因此限制第一样本音频数据包含的语种。

在一实施方式中，可利用已有的基于深度神经网络-隐马尔科夫模型架构(DNN-HMM)的单语种语音识别系统，对各单语种音频逐帧进行解码，查找出各单语种音频中属于不同字的目标相邻音频帧，也就是说，本实施例中，两个目标相邻音频帧中的各帧分别属于不同的字。

S32：对于各单语种音频，基于单语种音频的目标相邻音频帧，确定单语种音频的至少一个裁剪点，并按照至少一个裁剪点对单语种音频进行裁剪，得到单语种音频的多个音频段，其中，单语种音频的至少一个音频段包含至少两个字。

本实施例中，在查找出各单语种音频中属于不同字的目标相邻音频帧后，需从目标相邻音频帧中，确定单语种音频的至少一个裁剪点，并按照至少一个裁剪点对单语种音频进行裁剪，得到单语种音频的多个音频段。其中，单语种音频的至少一个音频段包含至少两个字，也就是说说，后续由两个以上单语种音频的至少一个音频段拼接得到的第一样本音频的每个字前后不一定存在语种切换，可以理解的是，由于每个字前后不一定存在语种切换，则语种切换的位置是不固定的，故可在确保语种识别模块学习到语种切换信息的同时，抑制由音频拼接带来的干扰。

在一实施方式中，在查找出各单语种音频中属于不同字的目标相邻音频帧后，可根据一定的概率分布(例如泊松分布)来确定单语种音频的至少一个裁剪点。

S33：选择两个以上单语种音频的至少一个音频段进行拼接，得到第一样本音频。

在一实施方式中，在得到各单语种对应的各音频段后，随机选择两个以上单语种音频的至少一个音频段进行拼接，得到第一样本音频。其中，由于是随机选择的各单语种的至少一个音频段拼接得到的第一样本音频，该拼接方式可应用于每句音频，也可应用于每段音频，然后将各段音段裁剪成各个音频句，得到第一样本音频，故该随机拼接得到的第一样本音频可能是既包含了句内混合音频，也包含了句间混合音频。在一些实施例中，为了较好的训练能识别句内混合音频中各帧音频对应的语种信息，每句音频均由随机选择的两个以上单语种音频的至少一个音频段进行拼接，得到完全属于句内混合音频的第一样本音频。

其中，需要说明的是，本实施例获取第一样本音频数据只为训练能够进行语种识别的语种识别模块，并非是得到第一样本音频数据对应的文本信息，故获取的第一样本音频数据可以是不完整、不通顺的一句话。此外，为了训练语音识别模型的语种识别模块，可对第一样本音频数据中各音频帧进行对应的语种信息标注，其中标注方式可以但不限于是添加各帧音频的1-hot语种标签，还可以是采用词嵌入表征的方式等，可以理解的是，经各音频帧均包含对应语种信息标注的第一样本音频数据训练得到语种识别模块，可识别目标音频中各帧音频对应的语种信息。

同时，需要说明的是，多语种的句内混说，特别是语种相近(普通话和对应方言)句内混合的语音识别比多语种句间混合语音的语音识别存在明显的近音词串扰，故利用多语种的句内混合音频作为第一样本音频数据训练得到的语种识别模块，对于多语种句间混合语音，也能得到较好的识别效果。当然，若只用于对多语种句间混合语音进行识别，也可专门利用多语种句间混合语音作为第一样本音频数据，训练能够识别多语种句间混合语音的语种识别模块。

在一实施例中，如图2所示，语音识别模型包括各语种对应的编码器模块，语种识别模块和解码模块，在语音识别模型的各模块均经过训练调优后，先利用语音识别模型的编码器模块提取目标音频中各语种对应的第一音频特征，然后拼接各语种对应的第一音频特征，得到第一音频融合特征，之后利用语音识别模型的语种识别模块对第一音频融合特征进行处理，得到目标音频中的语种信息，然后基于各语种对应的第一音频特征和目标音频中的语种信息，得到目标音频的语音识别结果，其中，得到的目标音频中的语种信息包含目标音频中各音频帧对应的语种信息。

具体地，请参阅图4，图4是图1所示步骤S13一实施例的流程示意图。需注意的是，若有实质上相同的结果，本实施例并不以图4所示的流程顺序为限。如图4所示，本实施例中，基于各语种对应的第一音频特征和目标音频中的语种信息，得到目标音频的语音识别结果，具体包括：

S41：基于各语种对应的第一音频特征和各音频帧对应的语种信息，得到多个编码阶段对应的语种音频特征，并基于各编码阶段对应的语种音频特征得到各编码阶段的解码文本。

本实施例中，多个编码阶段是依序执行的，不同编码阶段的解码文本表示目标音频中的不同音频部分的文本信息，也就是说，目标音频中包含的文本信息并非是解码模块一次解码得到的，而是解码模块依序对各编码阶段对应的语种音频特征进行解码得到的，其中，各编码阶段对应的语种音频特征为解码模块的输入特征，该输入特征是基于各语种对应的第一音频特征和各音频帧对应的语种信息得到的，其中，各编码阶段对应的语种音频特征包括各语种在编码阶段对应的第二音频特征。

在一实施方式中，在得到各语种在当前编码阶段对应的第二音频特征后，将当前执行的编码阶段作为当前编码阶段，进行多阶段解码，具体地，可利用拼接的方式融合各语种在当前编码阶段对应的第二音频特征，得到当前编码阶段对应的第二融合音频特征，然后，对当前编码阶段对应的第二融合音频特征进行解码，得到当前编码阶段的解码文本。

其中，在一实施方式中，基于各语种对应的第一音频特征和各音频帧对应的语种信息，得到多个编码阶段对应的语种音频特征，包括：将当前执行的编码阶段作为当前编码阶段，其中，对于目标音频包含的各语种，基于语种对应的第一音频特征、语种对应的各音频帧的语种信息、以及参考编码阶段的解码文本，获取各语种在当前编码阶段对应的第二音频特征，其中，参考编码阶段为在当前编码阶段之前执行的编码阶段。

在一具体实施方式中，解码模块为基于Attention机制的解码模块，其中，Attention机制用于利用语种信息来指导序列不同时间点上，当前编码阶段多个语种对应的第二音频特征的权重分配，以实现对各音频帧进行对应语种的解码。具体地，请参阅公式(2)到(4)，以目标音频包括语种p和语种x为例，先将待进行解码的编码阶段作为当前编码阶段，然后对于各语种对应的各音频帧，基于音频帧对应的第一音频特征、音频帧对应的语种信息、以及参考编码阶段的解码文本，利用公式(2)到(3)得到音频帧的注意力权重，然后基于语种对应的各音频帧对应的第一音频特征以及注意力权重，利用(4)的获取各语种在当前编码阶段对应的第二音频特征，即获取语种p和语种x当前编码阶段的第二音频特征c_p，u和c_x，u。

公式(2)中，p表示语种p，u-1为参考编码阶段的解码文本，u为当前编码阶段的待解码文本u，z_LID,i为语种识别模块输出的目标音频中第i帧对应的语种信息，

表示第i帧对应的语种p的特征向量，

表示参考编码阶段的解码文本u-1对应的特征向量，W_p、W_LID、V和b为经训练确定的参数，e_p,u,i为第i帧对当前编码阶段的待解码文本u的初始注意力权重，值为[-1，1]。

公式(3)中，a_p,u,i表示对初始权重e_p,u,i进行归一化处理后的注意力权重，值为[0，1]。

公式(4)中，T表示目标音频的音频帧数，c_p,u表示语种p的各音频帧的特征向量和对应的归一化后的权重相乘后的拼接向量。

同样的，可利用公式(2)到(4)求出语种x各音频帧的特征向量和对应的归一化后的权重相乘后的特征向量c_x,u。其中，c_p,u和c_x,u分别表示语种p和语种x对应的第二音频特征，融合c_p,u和c_x,u得到当前编码阶段的第二融合音频特征，然后利用解码模块对当前编码阶段对应的第二融合音频特征进行解码，得到当前编码阶段的解码文本。

需要说明的是，在一些场景中，由于个体差异，不同语种之间并非完全不同，会存在相似的情况，例如，有些河南人的语音类似于普通话，但有些河南人语音和普通话差异较大，若严格的利用语种信息区分目标音频中的普通话和河南话，容易导致错误。因此，本实施例方式中，解码模块并非严格的利用各语音帧对应的语种信息进行解码，而是通过Attention机制，利用各语音帧对应的语种信息计算各语音帧中语种信息对当前待解码阶段文本的注意力权重，以使解码模块通过结合各语音帧中语种信息对当前待解码文本的注意力权重进行解码，进而提高解码模块解码结果的准确性。

S42：基于各编码阶段的解码文本，得到目标音频的语音识别结果。

本实施例中，在步骤S41得到各编码阶段的解码文本后，可综合各编码阶段的解码文本，得到目标音频的语音识别结果。其中，目标音频的语音识别结果为目标音频对应的文本。

请参阅图5，图5是本申请提供的语音识别装置一实施例的框架示意图。本实施方式中，语音识别装置50包括获取模块51、特征提取模块52和语音识别模块53。获取模块51用于获取待识别的目标音频，目标音频为包括至少两种语种的混合音频；特征提取模块52用于提取目标音频中各语种对应的第一音频特征；语音识别模块53用于基于各语种对应的第一音频特征和目标音频中的语种信息，得到目标音频的语音识别结果。

在一些实施例中，语音识别模块53在基于各语种对应的第一音频特征和目标音频中的语种信息，得到目标音频的语音识别结果之前，还包括：融合各语种对应的第一音频特征，得到第一音频融合特征；基于第一音频融合特征，得到目标音频中的语种信息。

在一些实施例中，基于第一音频融合特征，得到各音频帧对应的语种信息，包括：利用语音识别模型的语种识别模块对第一音频融合特征进行处理，得到目标音频中的语种信息；其中，语种识别模块为利用第一样本音频训练得到，第一样本音频为包括多语种的混合音频，且标注有第一样本音频中各音频帧对应的语种信息。

在一些实施例中，获取模块51获取第一样本音频的步骤，包括：获取多个单语种音频，并查找出各单语种音频中属于不同字的目标相邻音频帧；对于各单语种音频，基于单语种音频的目标相邻音频帧，确定单语种音频的至少一个裁剪点，并按照至少一个裁剪点对单语种音频进行裁剪，得到单语种音频的多个音频段，其中，单语种音频的至少一个音频段包含至少两个字；选择两个以上单语种音频的至少一个音频段进行拼接，得到第一样本音频。

在一些实施例中，特征提取模块52提取目标音频中各语种对应的第一音频特征的步骤是利用语音识别模型的各语种对应的编码器模块执行的；基于各语种对应的第一音频特征和目标音频中的语种信息，得到目标音频的语音识别结果的步骤是利用语音识别模型的解码模块得到的。

在一些实施例中，各语种对应的编码器模块是利用对应语种的第一单语种样本音频训练得到的，解码模块是利用第二样本音频训练得到的，第二样本音频包括第二单语种样本音频和多语种样本音频中的至少一者；和/或，目标音频中的语种信息是利用语音识别模型的语种识别模块获取的，解码模块的训练步骤包括：利用训练完成的编码器模块提取第二样本音频中各语种对应的样本音频特征，以及训练完成的语种识别模块获取第二样本音频中的语种信息，其中，语种识别模块是利用第一样本音频和训练完成的编码器模块训练得到的；基于各语种对应的样本音频特征和第二样本音频中的语种信息，得到第二样本音频的样本语音识别结果；利用样本语音识别结果调整解码模块的参数。

在一些实施例中，获取模块51获取的目标音频中的语种信息包括目标音频中各音频帧对应的语种信息；基于各语种对应的第一音频特征和目标音频中的语种信息，得到目标音频的语音识别结果，包括：基于各语种对应的第一音频特征和各音频帧对应的语种信息，得到多个编码阶段对应的语种音频特征，并基于各编码阶段对应的语种音频特征得到各编码阶段的解码文本，其中，多个编码阶段是依序执行的，不同编码阶段的解码文本表示目标音频中的不同音频部分的文本信息，编码阶段对应的语种音频特征包括各语种在编码阶段对应的第二音频特征；基于各编码阶段的解码文本，得到目标音频的语音识别结果。

在一些实施例中，语音识别模块53基于各语种对应的第一音频特征和各音频帧对应的语种信息，得到多个编码阶段对应的语种音频特征，包括：将当前执行的编码阶段作为当前编码阶段；对于目标音频包含的各语种，基于语种对应的第一音频特征、语种对应的各音频帧的语种信息、以及参考编码阶段的解码文本，获取语种在当前解码阶段对应的第二音频特征；其中，参考编码阶段为在当前编码阶段之前执行的编码阶段；和/或，基于各编码阶段对应的语种音频特征得到各编码阶段的解码文本，包括：将当前执行的编码阶段作为当前编码阶段；融合各语种在当前编码阶段对应的第二音频特征，得到当前编码阶段对应的第二融合音频特征；对当前编码阶段对应的第二融合音频特征进行解码，得到当前编码阶段的解码文本。

在一些实施例中，特征提取模块52基于语种对应的第一音频特征、语种对应的各音频帧的语种信息、以及参考编码阶段的解码文本，获取语种在当前编码阶段对应的第二音频特征，包括：对于语种对应的各音频帧，基于音频帧对应的第一音频特征、音频帧对应的语种信息、以及参考编码阶段的解码文本，得到音频帧的注意力权重；基于语种对应的各音频帧对应的第一音频特征以及注意力权重，得到语种在当前编码阶段对应的第二音频特征。

请参阅图6，图6是本申请提供的电子设备一实施例的结构示意图。该实施方式中，电子设备60包括处理器61和存储器62。

处理器61还可以称为CPU(Central Processing Unit，中央处理单元)。处理器61可能是一种集成电路芯片，具有信号的处理能力。处理器61还可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器61也可以是任何常规的处理器61等。

电子设备60中的存储器62用于存储处理器61运行所需的程序指令。

处理器61用于执行程序指令以实现上述任一实施例及任意不冲突的组合所提供的方法。

请参阅图7，图7是本申请提供的计算机可读存储介质的结构示意图。本申请实施例的计算机可读存储介质70存储有程序指令71，该程序指令71被执行时实现上述任一实施例以及任意不冲突的组合所提供的方法。其中，该程序指令71可以形成程序文件以软件产品的形式存储在上述计算机可读存储介质70中，以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施方式方法的全部或部分步骤。而前述的计算机可读存储介质70包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质，或者是计算机、服务器、手机、平板等终端设备。

在一些实施例中，本公开实施例提供的装置具有的功能或包含的模块可以用于执行上文方法实施例描述的方法，其具体实现可以参照上文方法实施例的描述，为了简洁，这里不再赘述。

上文对各个实施例的描述倾向于强调各个实施例之间的不同之处，其相同或相似之处可以互相参考，为了简洁，本文不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的方法和装置，可以通过其它的方式实现。例如，以上所描述的装置实施方式仅仅是示意性的，例如，模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性、机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本申请的实施方式，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种语音识别方法，其特征在于，所述方法包括：

获取待识别的目标音频，所述目标音频为包括至少两种语种的混合音频；

提取所述目标音频中各所述语种对应的第一音频特征；

基于各所述语种对应的第一音频特征和所述目标音频中的语种信息，得到所述目标音频的语音识别结果。

2.根据权利要求1所述的方法，其特征在于，在所述基于各所述语种对应的第一音频特征和所述目标音频中的语种信息，得到所述目标音频的语音识别结果之前，还包括：

融合各所述语种对应的第一音频特征，得到第一音频融合特征；

基于所述第一音频融合特征，得到所述目标音频中的语种信息。

3.根据权利要求2所述的方法，其特征在于，所述基于所述第一音频融合特征，得到所述目标音频中的语种信息，包括：

利用语音识别模型的语种识别模块对所述第一音频融合特征进行处理，得到所述目标音频中的语种信息；

其中，所述语种识别模块为利用第一样本音频训练得到，所述第一样本音频为包括多语种的混合音频，且标注有所述第一样本音频中各音频帧对应的语种信息。

4.根据权利要求3所述的方法，其特征在于，所述第一样本音频的获取步骤，包括：

获取多个单语种音频，并查找出各所述单语种音频中属于不同字的目标相邻音频帧；

对于各所述单语种音频，基于所述单语种音频的所述目标相邻音频帧，确定所述单语种音频的至少一个裁剪点，并按照所述至少一个裁剪点对所述单语种音频进行裁剪，得到所述单语种音频的多个音频段，其中，所述单语种音频的至少一个音频段包含至少两个字；

选择两个以上所述单语种音频的至少一个所述音频段进行拼接，得到所述第一样本音频。

5.根据权利要求1所述的方法，其特征在于，所述提取所述目标音频中各所述语种对应的第一音频特征的步骤是利用语音识别模型的各所述语种对应的编码器模块执行的；所述基于各所述语种对应的第一音频特征和所述目标音频中的语种信息，得到所述目标音频的语音识别结果的步骤是利用所述语音识别模型的解码模块得到的。

6.根据权利要求5所述的方法，其特征在于，各所述语种对应的编码器模块是利用对应语种的第一单语种样本音频训练得到的，所述解码模块是利用第二样本音频训练得到的，所述第二样本音频包括第二单语种样本音频和多语种样本音频中的至少一者；

和/或，所述目标音频中的语种信息是利用所述语音识别模型的语种识别模块获取的，所述解码模块的训练步骤包括：

利用训练完成的所述编码器模块提取第二样本音频中各所述语种对应的样本音频特征，以及训练完成的所述语种识别模块获取所述第二样本音频中的语种信息，其中，所述语种识别模块是利用第一样本音频和训练完成的所述编码器模块训练得到的；

基于所述各所述语种对应的样本音频特征和所述第二样本音频中的语种信息，得到所述第二样本音频的样本语音识别结果；

利用所述样本语音识别结果调整所述解码模块的参数。

7.根据权利要求1所述的方法，其特征在于，所述目标音频中的语种信息包括所述目标音频中各音频帧对应的语种信息；所述基于各所述语种对应的第一音频特征和所述目标音频中的语种信息，得到所述目标音频的语音识别结果，包括：

基于各所述语种对应的第一音频特征和各所述音频帧对应的语种信息，得到多个编码阶段对应的语种音频特征，并基于各所述编码阶段对应的语种音频特征得到各所述编码阶段的解码文本，其中，所述多个编码阶段是依序执行的，不同编码阶段的解码文本表示所述目标音频中的不同音频部分的文本信息，所述编码阶段对应的语种音频特征包括各所述语种在所述编码阶段对应的第二音频特征；

基于各所述编码阶段的解码文本，得到所述目标音频的语音识别结果。

8.根据权利要求7所述的方法，其特征在于，所述基于各所述语种对应的第一音频特征和各所述音频帧对应的语种信息，得到多个编码阶段对应的语种音频特征，包括：

将当前执行的所述编码阶段作为当前编码阶段；

对于所述目标音频包含的各语种，基于所述语种对应的第一音频特征、所述语种对应的各所述音频帧的语种信息、以及参考编码阶段的解码文本，获取所述语种在所述当前编码阶段对应的第二音频特征；其中，所述参考编码阶段为在所述当前编码阶段之前执行的编码阶段；

和/或，所述基于各所述编码阶段对应的语种音频特征得到各所述编码阶段的解码文本，包括：

将当前执行的所述编码阶段作为当前编码阶段；

融合各所述语种在当前编码阶段对应的第二音频特征，得到所述当前编码阶段对应的第二融合音频特征；

对所述当前编码阶段对应的第二融合音频特征进行解码，得到所述当前编码阶段的解码文本。

9.根据权利要求8所述的方法，其特征在于，所述基于所述语种对应的第一音频特征、所述语种对应的各所述音频帧的语种信息、以及参考编码阶段的解码文本，获取所述语种在所述当前编码阶段对应的第二音频特征，包括：

对于所述语种对应的各所述音频帧，基于所述音频帧对应的第一音频特征、所述音频帧对应的语种信息、以及所述参考编码阶段的解码文本，得到所述音频帧的注意力权重；

基于所述语种对应的各所述音频帧对应的第一音频特征以及注意力权重，得到所述语种在所述当前编码阶段对应的第二音频特征。

10.一种语音识别装置，其特征在于，所述装置包括：

获取模块，用于获取待识别的目标音频，所述目标音频为包括至少两种语种的混合音频；

特征提取模块，用于提取所述目标音频中各所述语种对应的第一音频特征；

语音识别模块，用于基于各所述语种对应的第一音频特征和所述目标音频中的语种信息，得到所述目标音频的语音识别结果。

11.一种电子设备，其特征在于，包括相互耦接的存储器和处理器，

所述存储器存储有程序指令；

所述处理器用于执行所述存储器中存储的程序指令，以实现权利要求1-9任一项所述的方法。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储程序指令，所述程序指令能够被执行以实现权利要求1-9任一项所述的方法。