CN115064154A

CN115064154A - 混合语言语音识别模型的生成方法及装置

Info

Publication number: CN115064154A
Application number: CN202210600930.5A
Authority: CN
Inventors: 李清涛
Original assignee: Jingdong Technology Information Technology Co Ltd
Current assignee: Jingdong Technology Information Technology Co Ltd
Priority date: 2022-05-30
Filing date: 2022-05-30
Publication date: 2022-09-16
Also published as: WO2023231576A1

Abstract

本申请提出一种混合语言语音识别模型的生成方法及装置，其中，方法包括：利用自监督学习模型对音频样本中每帧音频数据进行特征提取，获取每帧音频数据对应的特征向量；将特征向量分别输入到初始混合语言语音识别模型中的语种识别网络和语音识别网络，以获取每帧音频数据对应的语种概率分布及词概率分布；根据语种概率分布、词概率分布及标注文本，确定每帧音频数据对应的损失值；基于各帧音频数据对应的损失值，分别对语种识别网络和语音识别网络进行修正，以获取混合语言语音识别模型。该方法通过将自监督学习模型作为特征提取器对音频样本进行预处理，解决了混合语言语音识别中由于数据稀疏带来的特征不足问题，提高了模型的识别准确率。

Description

混合语言语音识别模型的生成方法及装置

技术领域

本申请涉及人工智能技术领域，尤其涉及一种混合语言语音识别模型的生成方法及装置。

背景技术

语言切换是指在同一句话语中出现两种或者多种语言，在日常对话、公司会议等场景中会出现语言切换的情况。由于多种语言混合的音频数据不易收集，训练样本少，使得训练得到的混合语言语音识别模型的识别准确率不高。

因此，如何提高混合语言语音识别模型的识别准确率是亟待解决的问题。

发明内容

本申请提出一种混合语言语音识别模型的生成方法及装置。具体方案如下：

本申请一方面实施例提出了一种混合语言语音识别模型的生成方法，包括：

获取训练数据集，其中，训练数据集中包括音频样本及所述音频样本对应的标注文本；

利用自监督学习模型对所述音频样本中每帧音频数据进行特征提取，以获取每帧音频数据对应的特征向量，其中，所述自监督学习模型是利用多个语种的音频数据通过自监督训练得到的；

将所述特征向量分别输入到初始混合语言语音识别模型中的语种识别网络和语音识别网络，以获取每帧音频数据对应的语种概率分布及词概率分布；

根据所述语种概率分布、所述词概率分布及所述标注文本，确定每帧音频数据对应的损失值；

基于所述各帧音频数据对应的损失值，分别对所述语种识别网络和所述语音识别网络进行修正，以获取混合语言语音识别模型。

本申请另一方面实施例提出了一种混合语言语音识别方法，包括：

获取待识别音频数据；

利用自监督学习模型对所述待识别音频数据进行特征提取，以获取待识别音频数据中每帧音频数据对应的特征向量，其中，所述自监督学习模型是利用多个语种的音频数据通过自监督训练得到的；

将每帧音频数据对应的特征向量输入到混合语言语音识别模型中，以获取每帧音频数据对应的识别结果；其中，所述混合语言语音识别模型为采用上述一方面实施例所述的方法生成的；

根据各帧音频数据对应的识别结果，确定所述待识别音频数据对应的识别结果。

本申请另一方面实施例提出了一种混合语言语音识别模型的生成装置，包括：

第一获取模块，用于获取训练数据集，其中，训练数据集中包括音频样本及所述音频样本对应的标注文本；

第二获取模块，用于利用自监督学习模型对所述音频样本中每帧音频数据进行特征提取，以获取每帧音频数据对应的特征向量，其中，所述自监督学习模型是利用多个语种的音频数据通过自监督训练得到的；

第三获取模块，用于将所述特征向量分别输入到初始混合语言语音识别模型中的语种识别网络和语音识别网络，以获取每帧音频数据对应的语种概率分布及词概率分布；

确定模块，用于根据所述语种概率分布、所述词概率分布及所述标注文本，确定每帧音频数据对应的损失值；

训练模块，用于基于所述各帧音频数据对应的损失值，分别对所述语种识别网络和所述语音识别网络进行修正，以获取混合语言语音识别模型。

本申请另一方面实施例提出了一种混合语言语音识别装置，包括：

第一获取模块，用于获取待识别音频数据；

第二获取模块，用于利用自监督学习模型对所述待识别音频数据进行特征提取，以获取待识别音频数据中每帧音频数据对应的特征向量，其中，所述自监督学习模型是利用多个语种的音频数据通过自监督训练得到的；

第三获取模块，用于将每帧音频数据对应的特征向量输入到混合语言语音识别模型中，以获取每帧音频数据对应的识别结果；其中，所述混合语言语音识别模型为采用如上述一方面实施例所述的方法生成的；

确定模块，用于根据各帧音频数据对应的识别结果，确定所述待识别音频数据对应的识别结果。

本申请另一方面实施例提出了一种计算机设备，包括处理器和存储器；

其中，所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序，以用于实现如上述一方面实施例和另一方面实施例所述的方法。

本申请另一方面实施例提出了一种非临时性计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述一方面实施例和另一方面实施例所述的方法。

本申请另一方面实施例提出了一种计算机程序产品，其特征在于，包括计算机程序，所述计算机程序在被处理器执行时实现根据上述一方面实施例和另一方面实施例所述的方法。

本申请实施例的混合语言语音识别模型的生成方法及装置，通过将自监督学习模型作为特征提取器对音频样本进行预处理，解决了混合语言语音识别中由于数据稀疏带来的特征不足问题，提高了每帧音频数据对应的特征向量的准确性，进而提高了混合语言语音生成模型的识别准确率。

本申请附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本申请的实践了解到。

附图说明

本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本申请实施例提供的一种混合语言语音识别模型的生成方法的流程示意图；

图2为一种自监督学习模型的框架示意图；

图3为本申请实施例提供的另一种混合语言语音识别模型的生成方法的流程示意图；

图4为本申请实施例提供的另一种混合语言语音识别模型的生成方法的流程示意图；

图5为本申请实施例提供的一种中英混合音频数据识别模型的训练示意图；

图6为本申请实施例提供的另一种混合语言语音识别方法的流程示意图；

图7为本申请实施例提供的一种混合语言语音识别模型的生成装置的结构示意图；

图8为本申请实施例提供的一种混合语言语音识别装置的结构示意图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本申请，而不能理解为对本申请的限制。

下面参考附图描述本申请实施例的混合语言语音识别模型的生成方法及装置。

图1为本申请实施例提供的一种混合语言语音识别模型的生成方法的流程示意图。

本申请实施例的混合语言语音识别模型的生成方法，可以由本申请实施例提供的混合语言语音识别模型的生成装置执行，该装置可配置于电子设备中，以通过将自监督学习模型作为特征提取器对音频样本进行预处理，解决了混合语言语音识别中由于数据稀疏带来的特征不足问题，提高了每帧音频数据对应的特征向量的准确性，进而提高了混合语言语音生成模型的识别准确率。

如图1所示，该混合语言语音识别模型的生成方法，包括：

步骤101，获取训练数据集，其中，训练数据集中包括音频样本及音频样本对应的标注文本。

其中，音频样本可以为包括多个语种的音频数据，可以是通过录制获得的，也可以是从网上爬取得到的，也可以通过其他方式获取的。

本申请中，训练数据集中包括的音频样本的数量可以为多个，每个音频样本包括的语种相同。比如，训练数据集中包括100个音频样本，每个音频样本均为中文和英文混合的音频数据，那么通过该训练数据集训练得到可用于识别中英混合的音频数据。

需要说明的是，可以实际训练需要，获取混合语种的音频样本，比如，若要训练获取用于识别中俄混合音频数据的语音识别模型，那么获取的训练数据中音频样本均为中俄混合的音频数据，若要通过训练获取用于识别中英俄混合音频数据的语音识别模型，那么获取的训练数据中音频样本均为中英俄混合的音频数据。也就是说，音频样本包括的语种以及语种的数量，可以根据实际需要确定的，本申请对此不作限定。

步骤102，利用自监督学习模型对音频样本中每帧音频数据进行特征提取，以获取每帧音频数据对应的特征向量。

本申请中，可以预先利用多个语种的无标注音频数据，通过自监督训练得到自监督学习模型。比如，可以利用大量的中文音频数据、英文音频数据等进行自监督训练。其中，自监督学习模型可以包括一个或多个隐藏层。

本申请中，可以将音频样本输入到自监督学习模型中，自监督学习模型可以对音频样本进行分帧，以将音频样本分为多帧音频数据，并对每帧音频数据进行特征提取。若自监督学习模型包括一个隐藏层，对于每帧音频数据，隐藏层输出的特征向量为每帧音频数据对应的特征向量。由此，利用自监督学习模型进行特征提取，提高了每帧音频数据对应的特征向量的准确性。

在对音频样本分帧时，比如，可以将预设时长的音频数据作为一帧，也可以设定帧数，将音频样本等分为设定帧数的音频数据等。需要说明的是，分帧方式可以根据实际需要确定，本申请对此不作限定。

本申请中，自监督学习模型采用开源工具wav2vec2.0作为训练框架，主要采用对比学习的任务实现自监督学习，模型框架主要包括三个部分，分别是特征编码器、上下文特征编码器和量化器部分，其基本框架如图2所示。

在自监督学习时，如图2所示，可以将原始音频数据Y输入到由多层卷积神经网络(Convolutional Neural Networks，CNN)组成的特征编码器，得到每帧音频数据的潜在特征表示，然后将特征编码器的输出的特征向量分别作为量化器q和由多个Transformer(转换器)网络堆叠而成的上下文特征编码器的输入，得到每帧音频数据基于上下文的特征向量和量化特征向量；最终量化特征向量和上下文特征向量共同作用于自监督学习模型设计的损失函数L进行训练。其中，各个部分的网络层数不做限制，由自监督学习模型训练时指定即可，输入的音频数据可以是各个语种的无标注音频数据。

步骤103，将特征向量分别输入到初始混合语言语音识别模型中的语种识别网络和语音识别网络，以获取每帧音频数据对应的语种概率分布及词概率分布。

本申请中，初始混合语言识别模型可以包括语种识别网络和语音识别网络，可以将音频样本中每帧音频数据对应的特征向量分别输入到语种识别网络和语音识别网络中，通过语种识别网络可以获取每帧音频数据对应的语种概率分布，通过语音识别网络可以获取每帧音频数据对应的词概率分布。

其中，语种概率分布中包括每帧音频数据属于各语种及静音的概率，词概率分布中包括每帧音频数据识别结果属于词典中各词的概率及属于空白的概率。其中，词典可以包括多个语种的词语。

本申请中，语种识别网络可以包括一层双向的长短期记忆网络和一层全连接神经网络，每帧音频数据对应的特征向量输入到第一层双向长短期记忆网络后得到每帧音频数据的表示特征，再输入到一层全连接神经网络输出语种概率概率分布。这里可以将全连接神经网络的输出概率看作一个多分类任务，输出每帧音频数据属于各语种及静音的概率。

本申请中，语音识别网络包括一个两层的双向长短期记忆网络，每帧音频数据对应的特征向量输入到两层的双向长短期记忆网络，两层的双向长短期记忆网络可以输出每帧音频数据在端到端语音识别中的特征向量，基于该特征向量可以确定每帧音频数据的识别结果属于词典中各词及属于空白的概率。

步骤104，根据语种概率分布、词概率分布及标注文本，确定每帧音频数据对应的损失值。

本申请中，可以根据音频样本的分帧情况以及音频样本对应的标注文本中的各字符，确定每帧音频数据对应的标注字符。

比如，一段音频样本输入到自监督学习模型后，被切分为15帧，音频样本的标注文本为“你好hello”，每帧音频数据与标注字符之间的对应关系可以是，第一、二帧音频数据对应空白(-)，第三和第四帧音频数据对应“你”，第五帧音频数据对应“好”，第六帧音频数据对应空白，第七、八帧对应“h”，第九帧音频数据对应字母“e”，第十帧音频数据对应字母“l”，第十一帧音频数据对应空白“-”，第十二帧音频数据对应字母“l”，第十三帧音频数据对应字母“l”，第十四帧音频数据对应字母“o”,第十五帧音频数据对应字母“o”。

在计算损失值时，可以根据每帧音频数据对应的语种概率分布，确定每帧音频数据所属语种，之后根据每帧音频数据所属语种与每帧音频数据对应的标注字符所属语种之间的差异，确定语种损失值，并根据词概率分布，确定每帧音频数据对应的文本识别结果，根据文本识别结果与标注字符之间的差异，确定语音识别损失值。之后，根据语种损失值和语音识别损失值的加权和，确定每帧音频数据对应的损失值。

其中，语种损失值和语音识别损失值对应的权重，可以根据实际需要确定，本申请中对此不作限定。

步骤105，基于各帧音频数据对应的损失值，分别对语种识别网络和语音识别网络进行修正，以获取混合语言语音识别模型。

本申请中，可以按照损失值的由大到小的顺序，对每帧音频数据对应的损失值进行排序，可以根据前预设数量的损失值的和，对语种识别网络和语音识别网络进行修正，或者，也可以根据大于阈值的损失值的和，对语种识别网络和语音识别网络进行修正，直至损失值趋于稳定，获取混合语言语音识别模型。

由此，可以对语音识别网络和语种识别网络联合训练，得到混合语言语音识别模型。

本申请实施例中，通过获取训练数据集，其中，训练数据集中包括音频样本及音频样本对应的标注文本；利用自监督学习模型对每帧音频数据进行特征提取，以获取每帧音频数据对应的特征向量，其中，自监督学习模型是利用多个语种的音频数据通过自监督训练得到的；将特征向量分别输入到初始混合语言语音识别模型中的语种识别网络和语音识别网络，以获取每帧音频数据对应的语种概率分布及词概率分布；根据语种概率分布、词概率分布及标注文本，确定每帧音频数据对应的损失值；基于各帧音频数据对应的损失值，分别对语种识别网络和语音识别网络进行修正，以获取混合语言语音识别模型。由此，通过将自监督学习模型作为特征提取器对音频样本进行预处理，解决了混合语言语音识别中由于数据稀疏带来的特征不足问题，提高了每帧音频数据对应的特征向量的准确性，进而提高了混合语言语音生成模型的识别准确率。

为了进一步提高模型的准确率，在本申请的一个实施例中，可以利用每帧音频数据对应的语种概率分布，对对应的词概率分布进行更新，基于更新后的词概率分布，确定每帧音频数据的损失值。下面结合图3进行说明，图3为本申请实施例提供的另一种混合语言语音识别模型的生成方法的流程示意图。

如图3示，该混合语言语音识别模型的生成方法，包括：

步骤301，获取训练数据集，其中，训练数据集中包括音频样本及音频样本对应的标注文本。

步骤302，利用自监督学习模型对音频样本中每帧音频数据进行特征提取，以获取每帧音频数据对应的特征向量。

步骤303，将特征向量分别输入到初始混合语言语音识别模型中的语种识别网络和语音识别网络，以获取每帧音频数据对应的语种概率分布及词概率分布。

本申请中，步骤301-步骤303与上述实施例中记载的内容类似，故在此不再赘述。

步骤304，根据语种概率分布中每个语种对应的概率，对词概率分布中相同语种的每个词对应的概率进行更新，以获取更新后的词概率分布。

本申请中，语种概率分布包括每个语种对应的概率，词概率分布中包括词典中各词对应的概率，而词典中包括多个语种的词，那么可以利用每个语种对应的概率，对词概率分布中相同语种的词对应的概率进行更新，以获取每个词对应的更新后的概率，从而可以得到更新后的词概率分布。

在进行更新时，可以获取每个词对应的概率与该词所属语种对应的概率乘积，为了便于描述称为第一概率，并计算各词对应的第一概率之和，称为第二概率，之后可以将每个词对应的第一概率与第二概率之间的比值，作为每个词对应的更新后的概率。

或者，可以根据如下公式，确定每个词对应的更新后的概率。

其中，y为词典R中的词，p(y|X,t)表示的是第t帧音频数据对应的特征向量为X的情况下，词y对应的更新后的概率，z表示词概率，u表示语种概率，l(y)是一个映射函数，即词y所属语种的概率，y′∈R表示词典R中任一词。

本申请中，利用语种概率分布对词概率分布进行更新，可以实现语种识别和语音识别之间的信息共享，使得语音识别任务和语种识别任务的训练目标趋于一致。

步骤305，根据语种概率分布、更新后的词概率分布及标注文本，确定每帧音频数据对应的损失值。

在计算每帧音频数据对应的损失值时，可以根据每帧音频数据对应的语种概率分布，确定每帧音频数据所属语种，之后根据每帧音频数据所属语种与每帧音频数据对应的标注字符所属语种之间的差异，确定语种损失值，并根据更新后的词概率分布，确定每帧音频数据对应的文本识别结果，根据文本识别结果与标注字符之间的差异，确定语音识别损失值。之后，根据语种损失值和语音识别损失值的加权和，确定每帧音频数据对应的损失值。

步骤306，基于各帧音频数据对应的损失值，分别对语种识别网络和语音识别网络进行修正，以获取混合语言语音识别模型。

本申请中，步骤306与上述实施例中记载的内容类似，故在此不再赘述。

本申请实施例中，在根据语种概率分布、词概率分布及对应的标注文本，确定每帧音频数据对应的损失值时，可以通过根据语种概率分布中每个语种对应的概率，对词概率分布中相同语种的每个词对应的概率进行更新，以获取更新后的词概率分布；根据语种概率分布、更新后的词概率分布及对应的标注文本，确定每帧音频数据对应的损失值。由此，对于同一帧音频数据，通过利用语种概率分布对词概率分布进行更新，并基于更新后的词概率分布，确定每帧音频数据对应损失值，可以实现语种识别和语音识别之间的信息共享，使得语音识别任务和语种识别任务的训练目标趋于一致，从而进一步提高了模型的识别准确率。

为了提高模型的识别准确率，在本申请的一个实施例中，自监督学习模型可以包括多个隐藏层，在利用自监督学习模型进行特征提取时，可以基于各隐藏层输出的特征向量，确定每帧音频数据对应的特征向量。下面结合图4进行说明，图4为本申请实施例提供的另一种混合语言语音识别模型的生成方法的流程示意图。

如图4所示，该混合语言语音识别模型的生成方法，包括：

步骤401，获取训练数据集，其中，训练数据集中包括音频样本及音频样本对应的标注文本。

本申请中，步骤401与上述实施例中记载的内容类似，故在此不再赘述。

步骤402，利用自监督学习模型对每帧音频数据进行特征提取，以获取自监督学习模型中各隐藏层输出的子特征向量。

本申请中，自监督学习模型可以包括多个隐藏层，将音频样本输入到自监督学习模型中，自监督学习模型可以对音频样本进行分帧，得到多帧音频数据。自监督学习模型可以对音频样本中的每帧数据进行特征提取，可以获取每个隐藏层输出的子特征向量。其中，隐藏层的数量可以根据实际需要确定的，本申请实施例对此不作限定。

步骤403，对各隐藏层输出的子特征向量进行融合，以获取每帧音频数据对应的特征向量。

本申请中，对于每帧音频数据，可以利用可学习的加权求和机制，对各隐藏层对应的子特征向量进行融合，得到每帧音频数据对应的特征向量。由此，通过对各隐藏层输出的子特征向量进行融合得到每帧音频数据对应的特征向量，提高了每帧音频数据对应的特征向量的准确性。

步骤404，将特征向量分别输入到初始混合语言语音识别模型中的语种识别网络和语音识别网络，以获取每帧音频数据对应的语种概率分布及词概率分布。

步骤405，根据语种概率分布、词概率分布及标注文本，确定每帧音频数据对应的损失值。

本申请中，步骤404-步骤405与上述实施例中记载的内容类似，故在此不再赘述。

步骤406，根据各帧音频数据对应的损失值之和，确定音频样本对应的损失值。

本申请中，可以将音频样本中各帧音频数据对应的损失值相加，将各音频数据对应的损失值之和，作为音频样本对应的损失值。由此，考虑了各帧音频数据对应的损失值，提高了音频样本对应的损失值的准确性。

或者，不同帧音频数据对应的权重可以不同，可以将各音频数据对应的损失值加权和，作为音频样本对应的损失值。

步骤407，根据音频样本对应的损失值，分别对语种识别网络和语音识别网络进行修正，以获取混合语言语音识别模型。

本申请中，步骤407与上述实施例中记载的内容类似，故在此不再赘述。

本申请实施实施例中，在获取每帧音频数据对应的特征向量时，可以通过利用自监督学习模型对每帧音频数据进行特征提取，以获取自监督学习模型中各隐藏层输出的子特征向量，对各隐藏层输出的子特征向量进行融合，以获取每帧音频数据对应的特征向量，从而提高了每帧音频数据对应的特征向量的准确性，另外，可以根据各帧音频数据对应的损失值之和，确定音频样本对应的损失值，考虑了各帧音频数据对应的损失值，提高了音频样本对应的损失值的准确性。进而，提高了模型的识别准确率。

为了便于理解上述实施例，下面结合图5，以训练识别中英混合音频数据的识别模型为例进行说明。图5为本申请实施例提供的一种中英混合音频数据识别模型的训练示意图。

如图5所示，初始混合语言语音识别模型包括语音识别网络和语种识别网络，其中，语音识别网络中包括加权融合机制和两层双向长短期记忆神经网络，语种识别网络包括加权融合机制、单层双向长短期记忆神经网络和全连接神经网络，语音识别网络和语种识别网络中的加权融合机制初始化值可以是相同的，在训练过程中，可以调整加权融合机制。

本申请中，自监督学习模型可以包括多个隐藏层，可以将音频样本输入到自监督学习模型中进行特征提取，对于音频样本中的每帧音频数据，可以获取各隐藏层输出的子特征向量。

对于语音识别网络，可以采用其加权融合机制对各隐藏层输出的子特征向量进行融合，获取每帧音频数对应的特征向量，之后将特征向量输入到两层双向长短期记忆神经网络，获取每帧音频数据的识别结果为词典中中文各词对应的概率、英文各词对应的概率及空白概率。这里图5中语音识别网络中的中文概率，是指词典中中文各词对应的概率，语音识别网络中的英文概率是指词典中英文各词对应的概率。

对于语种识别网络，可以采用其加权融合机制对各隐藏层输出的子特征向量进行融合，获取每帧音频数对应的特征向量，之后将特征向量输入到单双向长短期记忆神经网络，并将获取的特征向量输入到全连接神经网络，全连接神经网络输出每帧音频数据属于中文的概率、属于英文的概率、属于静音的概率。

之后，可以利用语种识别网络中的中文概率对语音识别网络输出的中文各词对应的概率进行更新，以获取中文各词的最终概率，利用语种识别网络中的英文概率对语音识别网络输出的英文各词对应的概率进行更新，以获取英文各词的最终概率，利用语种识别网络中的静音概率对语音识别网络输出的空白概率进行更新，以获取空白的最终概率。也就是说，利用每帧音频数据对应的语种概率分布中每个语种对应的概率，对同一帧音频数据对应的词概率分布中相同语种的词对应的概率进行更新。其中，更新方法可以采用上述实施例中记载的更新方法。

之后，可以根据每帧音频数据对应的中文各词的最终概率、英文各词的最终概率及标注文本，确定每帧音频数据对应的损失值，并基于各帧音频数据对应的损失值，分别对语音识别网络和语种识别网络进行修正，直至损失值趋于稳定，生成混合语言语音识别模型。

为了实现上述实施例，本申请实施例还提出一种混合语言语音识别方法。图6为本申请实施例提供的另一种混合语言语音识别方法的流程示意图。

如图6所示，该混合语言语音识别方法，包括：

步骤601，获取待识别音频数据。

本申请中，待识别音频数据可以音频文件中的一段音频数据，也可以是实时采集获取的一段音频数据，也可以是从网上爬取的一段音频数据等。其中，待识别音频数据可以包括至少一个语种。

步骤602，利用自监督学习模型对待识别音频数据进行特征提取，以获取待识别音频数据中每帧音频数据对应的特征向量。

本申请中，步骤602与上述实施例中记载的利用自监督学习模型，获取音频样本中每帧音频数据对应的特征向量的方法类似，故在此不再赘述。

步骤603，将每帧音频数据对应的特征向量输入到混合语言语音识别模型中，以获取每帧音频数据对应的识别结果。

其中，混合语言语音识别模型可以是采用上述实施例所述的混合语言语音识别模型的生成方法生成的。

本申请中，混合语言语音识别模型包括语种识别网络和语音识别网络，可以将待识别音频数据中每帧音频数据对应的特征向量输入到混合语言语音识别模型中，也即将特征向量分别输入到语种识别网络和语音识别网络中，分别获取每帧音频数据对应的语种概率分布和词概率分布，并根据语种概率分布中每个语种对应的概率，对词概率分布中相同语种的词对应的概率进行更新，以获取每个词对应的更新后的概率，也即获取更新后的词概率分布，更新方法与上述实施例中记载的方法类似，故在此不再赘述。

对于待识别音频数据中每帧音频数据，在获取每个词对应的更新后的概率后，可以将更新后的概率最大的词，作为每帧音频数据对应的识别结果。

步骤604，根据各帧音频数据对应的识别结果，确定待识别音频数据对应的识别结果。

本申请中，可以按照各帧音频数据在待识别音频数据中的时间早晚顺序，将各帧音频数据对应的识别结果串联起来，从而可以得到待识别音频数据对应的识别结果。

本申请实施例中，通过获取待识别音频数据；利用自监督学习模型对所述待识别音频数据进行特征提取，以获取待识别音频数据中每帧音频数据对应的特征向量；将每帧音频数据对应的特征向量输入到混合语言语音识别模型中，以获取每帧音频数据对应的识别结果；根据各帧音频数据对应的识别结果，确定所述待识别音频数据对应的识别结果。由此，通过将自监督学习模型作为特征提取器对待识别音频数据进行预处理，提高了特征向量的准确性，并利用训练得到的混合语言语音识别模型进行识别，提高了识别准确率。

为了实现上述实施例，本申请实施例还提出一种混合语言语音识别模型的生成装置。图7为本申请实施例提供的一种混合语言语音识别模型的生成装置的结构示意图。

如图7所示，该混合语言语音识别模型的生成装置700包括：

第一获取模块710，用于获取训练数据集，其中，训练数据集中包括音频样本及音频样本对应的标注文本；

第二获取模块720，用于利用自监督学习模型对音频样本中每帧音频数据进行特征提取，以获取每帧音频数据对应的特征向量，其中，自监督学习模型是利用多个语种的音频数据通过自监督训练得到的；

第三获取模块730，用于将特征向量分别输入到初始混合语言语音识别模型中的语种识别网络和语音识别网络，以获取每帧音频数据对应的语种概率分布及词概率分布；

确定模块740，用于根据语种概率分布、词概率分布及标注文本，确定每帧音频数据对应的损失值；

训练模块750，用于基于各帧音频数据对应的损失值，分别对语种识别网络和语音识别网络进行修正，以获取混合语言语音识别模型。

在本申请实施例一种可能的实现方式中，确定模块740，包括：

更新单元，用于根据语种概率分布中每个语种对应的概率，对词概率分布中相同语种的每个词对应的概率进行更新，以获取更新后的词概率分布；

确定单元，用于根据语种概率分布、更新后的词概率分布及标注文本，确定每帧音频数据对应的损失值。

在本申请实施例一种可能的实现方式中，确定单元，用于：

根据所述标注文本中的各字符，确定所述音频样本中每帧音频数据对应的标注字符；

根据语种概率分布中每个语种对应的概率，确定每帧音频数据所属语种；

根据每帧音频数据所属语种与对应的标注字符所属语种之间的差异，确定语种损失值；

根据更新后的词概率分布，确定每帧音频数据对应的文本识别结果；

根据文本识别结果与标注字符之间的差异，确定语音识别损失值；

根据语种损失值和语音识别损失值，确定每帧音频数据对应的损失值。

在本申请实施例一种可能的实现方式中，训练模块750，用于：

根据各帧音频数据对应的损失值之和，确定音频样本对应的损失值；

根据音频样本对应的损失值，分别对语种识别网络和语音识别网络进行修正。

在本申请实施例一种可能的实现方式中，第二获取模块720，用于：

利用自监督学习模型对每帧音频数据进行特征提取，以获取自监督学习模型中各隐藏层输出的子特征向量；

对各隐藏层输出的子特征向量进行融合，以获取每帧音频数据对应的特征向量。

需要说明的是，上述对混合语言语音识别模型的生成方法实施例的解释说明，也适用于该实施例的混合语言语音识别模型的生成装置，故在此不再赘述。

本申请实施例中，通过获取训练数据集，其中，训练数据集中包括音频样本及音频样本对应的标注文本；利用自监督学习模型对音频样本中每帧音频数据进行特征提取，以获取每帧音频数据对应的特征向量，其中，自监督学习模型是利用多个语种的音频数据通过自监督训练得到的；将特征向量分别输入到初始混合语言语音识别模型中的语种识别网络和语音识别网络，以获取每帧音频数据对应的语种概率分布及词概率分布；根据语种概率分布、词概率分布及标注文本，确定每帧音频数据对应的损失值；基于各帧音频数据对应的损失值，分别对语种识别网络和语音识别网络进行修正，以获取混合语言语音识别模型。由此，通过将自监督学习模型作为特征提取器对音频样本进行预处理，解决了混合语言语音识别中由于数据稀疏带来的特征不足问题，提高了每帧音频数据对应的特征向量的准确性，进而提高了混合语言语音生成模型的识别准确率。

为了实现上述实施例，本申请实施例还提出一种混合语言语音识别装置。图8为本申请实施例提供的一种混合语言语音识别装置的结构示意图。

如图8所示，该混合语言语音识别装置800包括：

第一获取模块810，用于获取待识别音频数据；

第二获取模块820，用于利用自监督学习模型对待识别音频数据进行特征提取，以获取待识别音频数据中每帧音频数据对应的特征向量，其中，自监督学习模型是利用多个语种的音频数据通过自监督训练得到的；

第三获取模块830，用于将每帧音频数据对应的特征向量输入到混合语言语音识别模型中，以获取每帧音频数据对应的识别结果；其中，混合语言语音识别模型为采用如上述实施例所述的混合语言语音识别模型的生成方法生成的；

确定模块840，用于根据各帧音频数据对应的识别结果，确定待识别音频数据对应的识别结果。

需要说明的是，上述对混合语言语音识别方法实施例的解释说明，也适用于该实施例的混合语言语音识别生成装置，故在此不再赘述。

为了实现上述实施例，本申请实施例还提出一种计算机设备，包括处理器和存储器；

其中，处理器通过读取存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序，以用于实现如上述实施例所述的混合语言语音识别模型的生成方法，或者实现上述实施例所述的混合语言语音识别方法。

为了实现上述实施例，本申请实施例还提出一种非临时性计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述实施例所述的混合语言语音识别模型的生成方法，或者实现上述实施例所述的混合语言语音识别方法。

为了实现上述实施例，本申请实施例还提出一种计算机程序产品，其特征在于，包括计算机程序，所述计算机程序在被处理器执行时实现根据上述实施例所述的混合语言语音识别模型的生成方法，或者实现上述实施例所述的混合语言语音识别方法。

在本说明书的描述中，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

尽管上面已经示出和描述了本申请的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本申请的限制，本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种混合语言语音识别模型的生成方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，所述根据所述语种概率分布、所述词概率分布及所述标注文本，确定每帧音频数据对应的损失值，包括：

根据所述语种概率分布中每个语种对应的概率，对所述词概率分布中相同语种的每个词对应的概率进行更新，以获取所述更新后的词概率分布；

根据所述语种概率分布、所述更新后的词概率分布及所述标注文本，确定每帧音频数据对应的损失值。

3.如权利要求2所述的方法，其特征在于，所述根据所述语种概率分布、所述更新后的词概率分布及所述标注文本，确定每帧音频数据对应的损失值，包括：

根据所述语种概率分布中每个语种对应的概率，确定每帧音频数据所属语种；

根据所述更新后的词概率分布，确定每帧音频数据对应的文本识别结果；

根据所述文本识别结果与所述标注字符之间的差异，确定语音识别损失值；

根据所述语种损失值和所述语音识别损失值，确定每帧音频数据对应的损失值。

4.如权利要求1所述的方法，其特征在于，所述基于所述各帧音频数据对应的损失值，分别对所述语种识别网络和所述语音识别网络进行修正，以获取混合语言语音识别模型，包括：

根据所述各帧音频数据对应的损失值之和，确定所述音频样本对应的损失值；

根据所述音频样本对应的损失值，分别对所述语种识别网络和所述语音识别网络进行修正。

5.如权利要求1所述的方法，其特征在于，所述利用自监督学习模型对所述音频样本中每帧音频数据进行特征提取，以获取每帧音频数据对应的特征向量，包括：

利用所述自监督学习模型对每帧音频数据进行特征提取，以获取所述自监督学习模型中各隐藏层输出的子特征向量；

对所述各隐藏层输出的子特征向量进行融合，以获取每帧音频数据对应的特征向量。

6.一种混合语言语音识别方法，其特征在于，包括：

获取待识别音频数据；

将每帧音频数据对应的特征向量输入到混合语言语音识别模型中，以获取每帧音频数据对应的识别结果；其中，所述混合语言语音识别模型为采用如权利要求1-5任一所述的方法生成的；

7.一种混合语言语音识别模型的生成装置，其特征在于，包括：

8.如权利要求7所述的装置，其特征在于，所述确定模块，包括：

更新单元，用于根据所述语种概率分布中每个语种对应的概率，对所述词概率分布中相同语种的每个词对应的概率进行更新，以获取所述更新后的词概率分布；

确定单元，用于根据所述语种概率分布、所述更新后的词概率分布及所述标注文本，确定每帧音频数据对应的损失值。

9.如权利要求8所述的装置，其特征在于，所述确定单元，用于：

10.如权利要求7所述的装置，其特征在于，所述训练模块，用于：

11.如权利要求7所述的装置，其特征在于，所述第二获取模块，用于：

12.一种混合语言语音识别装置，其特征在于，包括：

第一获取模块，用于获取待识别音频数据；

第三获取模块，用于将每帧音频数据对应的特征向量输入到混合语言语音识别模型中，以获取每帧音频数据对应的识别结果；其中，所述混合语言语音识别模型为采用如权利要求1-5任一所述的方法生成的；

13.一种计算机设备，其特征在于，包括处理器和存储器；

其中，所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序，以用于实现如权利要求1-5中任一所述的方法或者实现如权利要求6所述的方法。

14.一种非临时性计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-5中任一所述的方法或者实现如权利要求6所述的方法。

15.一种计算机程序产品，其特征在于，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1-5中任一所述方法的步骤或者实现根据权利要求6所述方法的步骤。