CN114242071A

CN114242071A - 一种低资源语音识别方法、系统、语音模型训练方法

Info

Publication number: CN114242071A
Application number: CN202111569907.6A
Authority: CN
Inventors: 郑国林; 肖雨蓓; 梁小丹; 林倞
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2021-12-21
Filing date: 2021-12-21
Publication date: 2022-03-25

Abstract

本申请的实施例提供了一种低资源语音识别方法、系统、语音模型训练方法，该方法包括：将文本预训练模型与声学预训练模型分别作为编码器提取测试音频的语义表征以及声学表征；将声学表征与语义表征蕴含的语义学信息融合互补、将语义表征与声学表征蕴含的声学信息进行融合和互补分别得到最终识别结果。本申请能够解决现有文本和语音两个不同领域预训练模型之间的差异性和嵌入不一致性，解决现有大型深度模型对数据依赖性高的技术问题。

Description

一种低资源语音识别方法、系统、语音模型训练方法

技术领域

本申请涉及信息处理的技术领域，尤其是涉及一种低资源语音识别方法、系统、语音模型训练方法。

背景技术

随着深度学习理论和相关技术的蓬勃发展，有很多过去人们无法攻克的问题都取得了巨大的进展，例如语音合成、语音识别等。特别是为了语音识别而设计的大型深度神经网络的提出以及对大量语音识别数据的有效训练，让语音识别的效果有了蓬勃的发展。然而，在具体实践中，往往只有常用人数足够多的语种，如中文，英文，能够具有足够多的有标注训练数据，而实际上许多其它小语种，如斯瓦希里语，泰米尔语等，由于缺少音质较好的录制音频，以及转录文本过程中高昂的人力消耗，只有较少的训练数据，也就是低资源训练数据。因此，上述基于数据驱动的方法对于这些低资源的语种来说是不适用的，在这些低资源语种上效果表现较差。

低资源下深度模型效果不理想的问题广泛存在于各个领域。其中最为广泛应用的方法为利用未标注的数据进行无监督的预训练。文章“BERT:Pre-training of deepbidirectional transformers for language understanding”在自然语言处理领域提出的经典模型BERT取得了巨大的成功，其核心的方法是通过对未标注文本数据进行掩码后，训练模型预测数据中掩码部分来进行模型的自监督预训练，从而学习到能够有效提取文本通用特征的模型，最后通过少量标注数据进行微调后应用到下游任务中。这种模式已经被证明可以大大减少模型对标注训练数据的依赖的同时有效解决下游任务。因此，这种模式也逐渐被应用到语音信号处理中来，其中表现较好的wav2vec 2.0模型在文章“wav2vec2.0:A framework for self-supervised learning of speech representations.”中提出，通过上述相似的自监督的预训练步骤学习提取通用声学表示特征的模型，并且在语音识别中得到了一定的效果提高。

在实施本申请的过程中，发明人发现为了进一步提高低资源下的语音识别效果，以往的方法一般是通过语言模型来对声学模型推理得到的若干个识别结果进行重新评分，综合两个模型的评分结果来得到最优的结果；文章“Effciently fusing pretrainedacoustic and linguistic encoders for low-resource speech recognition”中提出的较新的方法则是将两个模型进行级联得到一个端到端的语音识别模型，将声学模型的输出直接作为语言模型的输入，通过一定量的数据进行微调应用到下游任务中。当协同不同模态模型来提升语音识别效果时都会面临下面的几个挑战：(1)不同模态特征表征差异性(Representation discrepancy)，一方面是语音特征序列和文本特征序列的长度差异较大，另一方面是声学模型特征更关注于语音中的局部声学部分，而语言模型更关注于捕获文本中的语义信息。(2)不同模态特征嵌入不一致性(Embedding inconsistency),语言模型的原输入为词向量的形式，上文中提到的级联方法则是将其替换为声学模型得到的声学特征形式，这种不一致性会导致深度模型出现灾难性遗忘现象(catastrophicforgetting),使模型参数中通过预训练得到的知识出现较大的遗忘现象，即没有维持预训练得到的知识。

发明内容

为此，本申请的实施例提供了一种低资源语音识别方法、系统、语音模型训练方法，能够克服现有文本和语音两个不同领域预训练模型之间的差异性和嵌入不一致性，解决现有大型深度模型对数据依赖性高的技术问题，具体技术方案内容如下：

第一方面，本申请的实施例提供一种低资源语音识别方法，所述方法包括：

将文本预训练模型与声学预训练模型分别作为编码器提取测试音频的语义表征以及声学表征；

将声学表征与语义表征蕴含的语义学信息融合互补、将语义表征与声学表征蕴含的声学信息进行融合和互补分别得到最终识别结果。

优选的，所述将文本预训练模型与声学预训练模型分别作为编码器提取训练音频的语义表征以及声学表征包括：

将测试音频的采样数据输入到声学预训练模型，得到声学表征，由声学表征预测第一识别结果；

根据声学表征与第一识别结果计算得到文本预训练模型的嵌入向量，将所述文本预训练模型的嵌入向量输入文本预训练模型获得语义表征。

优选的所述将声学表征与语义表征蕴含的语义学信息融合互补、将语义表征与声学表征蕴含的声学信息进行融合和互补分别得到最终识别结果包括：

将语义表征作为声学表征的补充得到声学引导的上下文向量；

将声学表征与声学引导的上下文向量进行加权融合得到声学引导表征；

将声学引导表征投影至高维空间获取条件，并将获取的条件投影回声学引导表征原来的低维空间进行残差连接以及正则化得到声学引导聚合表征；

将声学表征作为语义表征的补充得到语义引导的上下文向量；

将语义表征与语义引导的上下文向量进行加权融合得到语义引导表征；

将语义引导表征投影至高维空间获取条件，并将获取的条件投影回语义引导表征原来的低维空间进行残差连接以及正则化得到语义引导聚合表征；

根据声学引导聚合表征预测得到第二识别结果、根据语义引导聚合表征预测得到第三识别结果，根据第二识别结果、第三识别结果的置信度选择输出最终识别结果。

优选的，所述将语义表征作为声学表征的补充得到声学引导的上下文向量为：将声学表征作为多头注意力网络中的查询向量输入，将语义表征作为多头注意力网络的关键字向量输入以及数值向量输入，在多头注意力网络中根据查询向量与关键字向量计算注意力权重后，将注意力权重作用于数值向量得到声学引导的上下文向量；

所述将将声学表征作为语义表征的补充得到语义引导的上下文向量为：

将语义表征作为多头注意力网络中的查询向量输入，将声学表征作为多头注意力网络的关键字向量输入以及数值向量输入，在多头注意力网络中根据查询向量与关键字向量计算注意力权重后，将注意力权重作用于数值向量得到语义引导的上下文向量。

优选的，所述将声学表征与声学引导的上下文向量进行加权融合得到声学引导表征为：

将声学引导的上下文向量以及声学表征拼接后输入门权重网络计算得到对声学引导的上下文向量以及声学表征进行互补融合的互补融合权重，根据互补融合权重将声学表征与声学引导的上下文向量融合得到声学引导表征；

所述将语义表征与语义引导的上下文向量进行加权融合得到语义引导表征为：

将语义引导的上下文向量与语义表征拼接后输入门权重网络计算得到对将语义引导的上下文向量与语义表征进行互补融合的互补融合权重，根据互补融合权重与语义表征融合得到语义引导表征。

优选的，所述根据声学表征与第一识别结果计算得到文本预训练模型的嵌入向量为：

由第一识别结果映射词向量，将该词向量输入多头注意力网络以及前向网络提取高维度的文本嵌入向量，以文本嵌入向量作为门注意力网络的查询向量，声学表征作为门注意力网络的关键字向量以及数值向量得到文本预训练模型的嵌入向量，门注意力网络由多头注意力网络、门权重网络以及前向网络组成。

第二方面，本申请的实施例提供一种低资源语音识别系统，所述系统包括：

嵌入注意力模块，用于将文本预训练模型与声学预训练模型分别作为编码器提取测试音频的语义表征以及声学表征；

表征聚合模块，用于将声学表征与语义表征蕴含的语义学信息融合互补、将语义表征与声学表征蕴含的声学信息进行融合和互补分别得到最终识别结果。

第三方面，本申请的实施例提供一种低资源语音模型训练方法，配合使用于前述的低资源语音识别方法，包括：

将训练音频的采样数据输入到声学预训练模型，得到声学表征，由声学表征预测第一识别结果，由第一识别结果计算CTC损失得到第一损失数值；

将训练音频的标注文本进行条件掩码得到掩码结果；

根据预设概率选择掩码结果或第一识别结果以生成选择结果、根据声学表征与选择结果计算得到文本预训练模型的嵌入向量；

将所述文本预训练模型的嵌入向量输入文本预训练模型获得语义表征，若选择结果为掩码结果，则根据语义表征计算条件掩码语言模型损失数值；若选择结果为第一识别结果，则条件掩码语言模型损失数值为零；

将声学表征与语义表征蕴含的语义学信息融合互补，得出第二识别结果，由第二识别结果计算CTC损失获得第二损失数值；将语义表征与声学表征蕴含的声学信息进行融合和互补，得出第三识别结果，由第三识别结果计算交叉熵损失为交叉熵损失数值；

根据第一损失数值、第二损失数值、交叉熵损失数值以及条件掩码语言模型损失数值计算模型损失，并根据模型损失采用应用梯度下降的方法更新模型。

第四方面，本申请的实施例提供计算机设备，包括存储器、处理器以及存储在所述存储器中并在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现前述任意一项所述的低资源语音识别方法的步骤。

第五方面，本申请公开一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现前述任意一项所述的低资源语音识别方法的步骤。

综上所述，与现有技术相比，本申请实施例提供的技术方案带来的有益效果至少包括：

1、由编码器获得的声学表征以及语义表征均为向量，语义表征的语义学信息为语义表征的上下文信息、声学表征的声学信息为声学表征的上下文信息。将声学表征与语义表征的上下文信息进行互补、融合，可减少不同模态的训练模型输入的嵌入不一致性以及差异性，减少不同模态的预训练模型输出的表征之间的差异性，且减少训练模型对于预训练知识的灾难性遗忘，进而减少大型深度模型对数据依赖性高的问题；

2、将声学表征与第一识别结果进行计算作为文本预训练模型的嵌入向量，进行计算的方法可以为融合、补充、拼接等，在本实施例中优选为进行融合互补得到嵌入向量，并将嵌入向量输入文本预训练模型以获得语义表征，从而进一步消除语义表征与声学表征之间的差异性。

附图说明

图1是本申请其中一实施例提供的一种低资源语音识别方法的流程示意图。

图2是本申请另一实施例提供的一种低资源语音识别方法的流程示意图之一。

图3是本申请另一实施例提供的一种低资源语音识别方法的流程示意图之二。

图4是本申请其中以实施例提供的一种弟子与语音训练方法中语音模型的结构示意图。

具体实施方式

实施例

本具体实施例仅仅是对本申请的解释，其并不是对本申请的限制，本领域技术人员在阅读完本说明书后可以根据需要对本实施例做出没有创造性贡献的修改，但只要在本申请的权利要求范围内都受到专利法的保护。

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

下面结合说明书附图对本申请实施例作进一步详细描述。

参照图1，在本申请的一个实施例中，提供一种低资源语音识别方法，即低资源语音的测试方法，所述方法的主要步骤描述如下：

S1：将文本预训练模型与声学预训练模型分别作为编码器提取测试音频的语义表征以及声学表征；

S2：将声学表征与语义表征蕴含的语义学信息融合互补、将语义表征与声学表征蕴含的声学信息进行融合和互补分别得到最终识别结果。

具体的，在本实施例中，文本预训练模型为BERT预训练模型，声学预训练模型为wav2vec 2.0，但在其他实施方式中，文本预训练模型以及声学预训练模型也可以为其他类似的预训练模型，在此不作赘述。

通过声学预训练模型提取测试音频的声学表征可以为将训练音频的采样数据作为声学预训练模型的输入得到；通过文本预训练模型提取测试音频的语义表征可以由将声学表征作为文本预训练模型的嵌入向量得到。

编码即将高维稀疏高燥的输入向量转变为低维稠密高质量的向量，将文本预训练模型作为编码器提取音频的语义表征，即将训练音频的采样信息输入至声学预训练模型，由声学预训练模型对采样信息进行维度转换形成声学表征，文本预训练模型同理。

由编码器获得的声学表征以及语义表征均为向量，语义表征的语义学信息为语义表征的上下文信息、声学表征的声学信息为声学表征的上下文信息。将声学表征与语义表征的上下文信息进行互补、融合，语义表征与声学表征的上下文信息进行互补、融合，可减少不同模态的训练模型输入的嵌入不一致性以及差异性，减少不同模态的预训练模型输出的表征之间的差异性，且减少训练模型对于预训练知识的灾难性遗忘，进而解决大型深度模型对数据依赖性高的问题。

参照图2，可选的，在另一实施方式，步骤S1包括：

S11：将测试音频的采样数据输入到声学预训练模型，得到声学表征，由声学表征预测第一识别结果；

S12：根据声学表征与第一识别结果计算得到文本预训练模型的嵌入向量，将所述文本预训练模型的嵌入向量输入文本预训练模型获得语义表征。

具体的，由声学表征预测获得第一识别结果，由声学表征进行预测，即对声学表征进行维度转换，将声学表征由高维投影到低维计算概率分布，而后对计算结果进行解码。

将声学表征与第一识别结果进行计算作为文本预训练模型的嵌入向量，进行计算的方法可以为融合、补充、拼接等，在本实施例中优选为进行融合互补得到嵌入向量，并将嵌入向量输入文本预训练模型以获得语义表征，从而进一步消除语义表征与声学表征之间的差异性。

参照图3，进一步的，步骤S12为：由第一识别结果映射词向量，将该词向量输入多头注意力网络以及前向网络提取高维度的文本嵌入向量，以文本嵌入向量作为门注意力网络的查询向量，声学表征作为门注意力网络的关键字向量以及数值向量得到文本预训练模型的嵌入向量，门注意力网络由多头注意力网络、门权重网络以及前向网络组成。

可选的，在另一实施方式中，步骤S2包括：

S21：将语义表征作为声学表征的补充得到声学引导的上下文向量；

S22：将声学表征与声学引导的上下文向量进行加权融合得到声学引导表征；

S23：将声学引导表征投影至高维空间获取条件，并将获取的条件投影回声学引导表征原来的低维空间进行残差连接以及正则化得到声学引导聚合表征；

S24：将声学表征作为语义表征的补充得到语义引导的上下文向量；

S25：将语义表征与语义引导的上下文向量进行加权融合得到语义引导表征；

S26：将语义引导表征投影至高维空间获取条件，并将获取的条件投影回语义引导表征原来的低维空间进行残差连接以及正则化得到语义引导聚合表征；

S27：根据声学引导聚合表征预测得到第二识别结果、根据语义引导聚合表征预测得到第三识别结果，根据第二识别结果、第三识别结果的置信度选择输出最终识别结果。

进一步的，步骤S21为：将声学表征作为多头注意力网络中的查询向量输入，将语义表征作为多头注意力网络的关键字向量输入以及数值向量输入，在多头注意力网络中根据查询向量与关键字向量计算注意力权重后，将注意力权重作用于数值向量得到声学引导的上下文向量；

步骤S24为：将语义表征作为多头注意力网络中的查询向量输入，将声学表征作为多头注意力网络的关键字向量输入以及数值向量输入，在多头注意力网络中根据查询向量与关键字向量计算注意力权重后，将注意力权重作用于数值向量得到语义引导的上下文向量。

进一步的，步骤S22为：将声学引导的上下文向量以及声学表征拼接后输入门权重网络计算得到对声学引导的上下文向量以及声学表征进行互补融合的互补融合权重，根据互补融合权重将声学表征与声学引导的上下文向量融合得到声学引导表征；

步骤S25为：将语义引导的上下文向量与语义表征拼接后输入门权重网络计算得到对将语义引导的上下文向量与语义表征进行互补融合的互补融合权重，根据互补融合权重将语义引导的上下文向量与语义表征融合得到语义引导表征。

在本实施例中，本实施例方法由声学预训练模型、文本预训练模型以及表征聚合模块、嵌入注意力模块形成模型，所述模型即为本申请所述的语音处理模型，语音处理模型对本申请的训练音频或测试音频进行处理。

表征聚合模块包括声学引导门注意力网络以及语义引导门注意力网络组成：

声学引导门注意力网络以及语义引导门注意力网络均包括：(1)多头注意力网络；(2)门权重网络；(3)前向网络。

嵌入注意力模块包括：(1)“衰减采样”机制；(2)门注意力网络，这里门注意力网络由多头注意力网络、门权重网络以及前向网络构成。

本实施方式的一个例子如下：

1、将训练音频的采样数据输入到声学预训练模型，得到声学表征，将声学表征输入线性投影层以预测得到第一识别结果；

2、将第一识别结果输入嵌入注意力模块。

(1)将第一识别结果设为选择结果；

(2)将选择结果输入至门注意力网络，选择结果映射至词嵌入向量层获取词向量，将词向量输入多头注意力网络和前向网络得到更高维度的文本嵌入向量；将文本嵌入向量与声学表征输入门注意力网络，门注意力网络由多头注意力网络，门权重网络以及前向网络构成；门注意力网络将文本嵌入向量作为查询向量，将声学表征作为关键字向量以及数值向量，得出文本预训练模型的嵌入向量。

3、将该文本预训练模型的嵌入向量输入文本预训练模型，文本预训练模型融合消除两个模态的预训练模型的不一致性后输出语义表征。

4、将声学表征以及语义表征输入表征聚合模块。

(1)在声学引导门注意力网络中，将声学表征作为多头注意力网络中的查询向量输入，将语义表征作为多头注意力网络中的关键字向量输入以及作为数值向量输入，在多头注意力网络中根据查询向量与关键字向量计算注意力权重后，将注意力权重作用于数值向量，最终得到声学引导的上下文向量；

在语义引导门注意力网络中，将语义表征作为多头注意力网络中的查询向量输入，将声学表征作为多头注意力网络中的关键字向量输入以及作为数值向量输入，在多头注意力网络中根据查询向量与关键字向量计算注意力权重后，将注意力权重作用于数值向量，得到语义引导的上下文向量；

其中，C_A为声学引导的上下文向量，C_L为语义引导的上下文向量，H_A为声学表征，H_L为语义表征，其中Q代表query，也就是查询向量，K代表key，也就是关键字向量，V代表value，也就是数值向量。

(2)将声学引导的上下文向量与声学表征、语义引导的上下文向量与语义表征分别输入门权重网络。

将声学引导的上下文向量与声学表征拼接后输入门权重网络计算得到声学引导的上下文向量与声学表征进行互补融合的权重，根据该权重将声学表征与声学引导的上下文向量融合得到声学引导表征；门权重网络由一层前向网络组成。

将语义引导的上下文向量与语义表征拼接后输入门权重网络计算得到语义引导的上下文向量与语义表征进行互补融合的权重，根据该权重将语义表征与语义引导的上下文向量融合得到语义引导表征；

φ_A＝sigmoid(W₁[C_A；H_A]+B₁)，H_AGL＝H_A+φ_AC_A

φ_L＝sigmoid(W₂[C_L；H_L]+B₂),H_LGA＝H_L+φ_LC_L

其中，H_AGL为声学引导表征，H_LGA为语义引导表征，C_A为声学引导的上下文向量，C_L为语义引导的上下文向量，H_A为声学表征，H_L为语义表征，其中W，B都是网络的参数，W是矩阵乘的权重weight，B是bias偏差。

(4)将声学引导表征与语义引导表征分别输入到前向网络。

将声学引导表征投影到高维度空间，提取需要的信息，提取需要的信息即获取信息，并使用Relu激活函数将需要的信息(需要的信息即获取的信息)投影回声学引导表征原来的低维空间；通过残差连接以及正则化(normalization)由投影回低维空间的所述需要的信息得到声学引导聚合表征；

将语义引导表征投影到高维度空间，提取需要的信息，提取需要的信息即获取信息，并使用Relu激活函数将需要的信息(需要的信息即获取的信息)投影回声学引导表征原来的低维空间；通过残差连接以及正则化(normalization)由投影回低维空间的所述需要的信息得到语义引导聚合表征。

(5)根据声学引导聚合表征预测得到第二识别结果，根据语义引导聚合表征预测得到第三识别结果。

5、由第二识别结果与第三识别结果的置信度选择语音模型的输出。

在本申请的一个实施例中，提供一种低资源语音模型训练方法，配合使用于上述低资源语音识别方法，低资源语音模型训练方法包括：

S31：将训练音频的采样数据输入到声学预训练模型，得到声学表征，由声学表征预测第一识别结果，由第一识别结果计算CTC损失得到第一损失数值；

S32：将训练音频的标注文本进行条件掩码得到掩码结果；

S33：根据预设概率选择掩码结果或第一识别结果以生成选择结果、根据声学表征与选择结果计算得到文本预训练模型的嵌入向量；

S34：将所述文本预训练模型的嵌入向量输入文本预训练模型获得语义表征，若选择结果为掩码结果，则根据语义表征计算条件掩码语言模型损失数值；若选择结果为第一识别结果，则条件掩码语言模型损失数值为零；

S35：将声学表征与语义表征蕴含的语义学信息融合互补，得出第二识别结果，由第二识别结果计算CTC损失获得第二损失数值；将语义表征与声学表征蕴含的声学信息进行融合和互补，得出第三识别结果，由第三识别结果计算交叉熵损失为交叉熵损失数值；

S36：根据第一损失数值、第二损失数值、交叉熵损失数值以及条件掩码语言模型损失数值计算模型损失，并根据模型损失采用应用梯度下降的方法更新模型；

嵌入注意力模块包括：(1)“衰减采样”机制；(2)门注意力网络，这里门注意力网络由多头注意力网络、门权重网络以及前向网络构成；

参照图4，其中，X为训练音频的采样数据，H_A为声学表征，H_L为语义表征；

为第一识别结果，Y^r为掩码结果；Q代表query，也就是查询向量，K代表key，也就是关键字向量，V代表value，也就是数值向量；

为第二识别结果，Y_ce为第三识别结果；Y^m为Y^r输入文本预训练模型时，文本预训练模型对掩码部分重建的结果；本实施方式的一个例子如下，本实施方式以文本预训练模型为BERT模型，声学预训练模型为wav2vec2.0举例：1、将训练音频的采样数据输入到声学预训练模型，得到声学表征，将声学表征输入线性投影层以预测得到第一识别结果，并根据第一识别结果计算CTC损失得到第一损失数值。

2、将训练音频的标注文本进行条件掩码得到掩码结果。

在本实施方式中，条件掩码的具体过程为：随机选择句子中15％的位置进行掩码，掩码的方式有三种：第一种是用[mask]进行替换，这种占了总共的80％；第二种是随机用其他的词进行替换，这种占了总共的10％；第三种是不进行更改，还是维持原来的词语，这种占了总共的10％。在其他实施方式中，可以采用其他的条件掩码方法，在此不作赘述。

3、将掩码结果与第一识别结果输入嵌入注意力模块。

(1)将掩码结果与第一识别结果于嵌入注意力模块的“衰减采样”机制中，通过随训练步数线性变化的预设概率(p)来选择掩码结果或者是第一识别结果，根据选择形成选择结果；

具体的，使用p的概率来选择掩码结果，1-p的概率选择第一识别结果，p是一个小于1大于0的浮点数，随着训练步数的增加，p会逐渐下降到0；也就是随着训练步数的增加，逐渐使用第一识别结果来提取词嵌入，这是因为随着训练步数增加第一识别结果越加准确，并且由于测试的过程中不会有训练音频的标注文本提供，则在此步骤中不会存在有掩码结果，则测试过程中必须使用第一识别结果，因此在训练过程中，随训练步数线性变化的预设概率(p)来选择掩码结果或者是第一识别结果可有效减少训练和测试时的不一致性；

4、将该文本预训练模型的嵌入向量输入文本预训练模型，文本预训练模型融合消除两个模态的预训练模型的不一致性后输出语义表征；若选择结果为掩码结果，则由语义表征计算条件掩码语言模型损失；若选择结果为第一识别结果，则条件掩码语言模型损失数值为零；

5、将声学表征以及语义表征输入表征聚合模块。

其中，C_A为声学引导的上下文向量，C_L为语义引导的上下文向量，H_A为声学表征，H_L为语义表征，其中Q代表query，也就是查询向量、K代表key，也就是关键字向量、V代表value，也就是数值向量。

φ_A＝sigmoid(W₁[C_A；H_A]+B₁),H_AGL＝H_A+φ_AC_A

φ_L＝sigmoid(W₂[C_L；H_L]+B₂),H_LGA＝H_L+φ_LC_L

(4)将声学引导表征与语义引导表征分别输入到前向网络。

6、根据第二识别结果计算CTC损失得到第二损失数值，根据第三识别结果计算交叉熵损失得到交叉熵损失数值；

通过训练损失[

]应用梯度下降的方法来更新语音处理模型参数；

其中L为本语音模型的训练损失，

为第一损失数值，L_cmlm为条件掩码语言模型损失数值，

为第二损失数值、L_ce为交叉熵损失数值，μ₁为第一损失数值的权重，μ₂为条件掩码语言模型损失数值的权重，μ₃为第二损失数值的权重，μ₄为交叉熵损失数值的权重，在本实施方式中，μ₁、μ₂、μ₃、μ₄为预先设置的数值。

语音模型经过训练之后，应用于测试时，将测试音频的采样数据作为声学预训练模型的输入，得到第一识别结果，并将第一识别结果输入嵌入注意力模块获得文本预训练模型的嵌入向量，并将嵌入向量输入文本预训练模型得到语义表征，然后将声学表征与语义表征输入表征聚合魔筷得到第二识别结果与第三识别结果，由第二识别结果与第三识别结果的置信度选择语音模型的输出。

应理解，上述各实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

在本申请的一个实施例中，提供一种低资源语音识别系统，该低资源语音识别系统与上述实施例中的低资源语音识别方法一一对应。该低资源语音识别系统包：

上述的低资源语音识别系统各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在本申请实施例的一个实施例中，提供一种计算机设备，该计算机设备可以是服务器。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，易失性或非易失性存储设备包括但不限于：磁盘，光盘，EEPROM(Electrically-Erasable Programmable Read Only Memory，电可擦除可编程只读存储器)，EPROM(Erasable Programmable Read Only Memory，可擦除可编程只读存储器)，SRAM(Static Random Access Memory，静态随时存取存储器)，ROM(Read-OnlyMemory，只读存储器)，磁存储器，快闪存储器，PROM(Programmable Read-Only Memory，可编程只读存储器)。该计算机设备的存储器为存储于其内部的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时实现上述实施例所述的低资源语音识别方法步骤。

在本申请的一个实施例中，提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述实施例所述的低资源语音识别方法步骤。所述计算机可读存储介质包括ROM(Read-Only Memory，只读存储器)、RAM(Random-Access Memory，随机存取存储器)、CD-ROM(Compact Disc Read-OnlyMemory，只读光盘)、磁盘、软盘等。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将本申请所述系统的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

实验例

在业内常用的低资源小语种语音识别数据集IARPA BABEL以及公开中文语音识别数据集AISHELL-1上进行了语音识别的相关实验以验证低资源语音识别的有效性。

在本次实验中的评价指标使用的是字错误率CER(charactererrorrate)，通过计算识别结果与真实标注文本间的编辑距离，统计插入，替换和删除三种类型的比例来衡量识别结果的准确性，字错误率越小说明识别结果与标注文本越相近，效果越准确。

IARPA BABEL中每个语种的数据一般在100小时以下，本次实验采用了三个语种的数据，分别是越南语，斯瓦希里语和泰米尔语。本次实验采用的声学预训练模型与文本预训练模型为通过多语种语音数据预训练得到的XLSR与mBERT，结构依然与wav2vec2.0和BERT相同，只是预训练数据的不同。

在IARPA BABEL数据集上与将本申请的效果与多种方法的效果进行了对比，包括：

(1)不使用预训练模型基于BLSTMP网络的方法(Multilingual sequence-to-sequence speech recognition:Architecture,transfer learning,and languagemodeling)。

(2)只使用声学预训练模型wav2vec 2.0的方法，包括英语预训练(wav2vec 2.0:Aframework for self-supervised learning of speech representations)以及多语种预训练XLSR(Unsupervised cross-lingual representation learning for speechrecognition)的结果，其中XLSR又根据网络层数的不同分成基础(Base)和大(large)的两种模型，XLSR根据预训练数据中语种数目分成XLSR-10和XLSR-53。

(3)使用声学预训练模型与文本预训练模型的方法，包括重评分BERT rescoring(Effective sentence scoring method using bert for speech recognition),将声学预训练模型与文本预训练模型进行级联的方法w2v-cif-bert(Effciently fusingpretrained acoustic and linguistic encoders for low-resource speechrecognition)，在文本预训练中添加适配器的方法Adapter-BERT(Incorporating bertinto parallel sequence decoding with adapters)进行了比较。

重评分BERT rescoring的方法是通过将文本预训练模型作为语言模型来对声学模型的N个识别结果进行打分，并选择分数最高的作为最终识别结果，但是由于BERT模型的推理是通过预测掩码的文本，因此这种方法需要将句子中的每个词语掩码之后分别进行推理得到评分，将句子中每次掩码的推理结果综合，才是改识别句子的评分，因此这种方法十分耗时，并且没有真正将两个模型进行融合；而Adapter-BERT的方法是在文本预训练模型BERT中的每层网络添加适配器模块来融合声学与语义信息，但是这种方法会对文本预训练模型产生较大的影响，从而产生灾难性遗忘的现象，使得文本预训练模型中蕴含的预训练信息遭到破坏；而级联的方法w2v-cif-bert主要通过CIF(Continuous Integrate-and-Fire)的方法来将声学表征长度缩短为一般文本词(即文本预训练模型的嵌入向量)嵌入的长度，并将文本预训练模型的嵌入向量作为文本预训练模型的输入，这种方式对于文本预训练模型的输入产生了较大的改变，因此也会在一定程度上产生灾难性遗忘的现象，并且只是通过级联的方式，将声学预训练模型输出作为文本预训练模型的输入，没有在后续进行更深层次的融合。另外，由于这三种方法的原文章中没有直接在IARPA BABEL上进行实验，因此本实验的结果为根据文章复现出的结果。

下表中的“Vi、Sw、Ta”分别代表越南语、斯瓦西里语、泰米尔语的字错误率结果。

从下表中可以看出，本申请提出的方法无论使用Base或者是Large的wav2vec 2.0声学预训练模型，结合mBERT文本预训练模型后，相较于基线方法，在三个语种的平均结果上均取得了最好的效果。

AISHELL-1中文语音识别数据集含有150小时的训练数据，仍然可以作为低资源的情况进行实验验证本申请的有效性。在此数据集上除了在IARPA BABEL中对比的基线方法外，本实验与更多的方法进行了比较。

不使用预训练模型的方法包括传统的语音识别框架Kaldi(Non autoregressivetransformer-based end-to-end asr using bert)，基于编码器解码器结构的LAS方法(Component fusion:Learning replaceable language model component for end-to-end speech recognition system)，基于transformer结构的ESPnet框架(A comparativestudy on transformer vs rnn in speech applications)，以及SA-T(Self-attentiontransducers for end-to-end speech recognition)，SAN-M(Memory equipped self-attention for end-to-end speech recognition)，CAT(Cat:crf-based asr toolkit),LFML(Listen and fill in the missingletters:Non-autoregressive transformer forspeech recognition),LASO(Listen and fill in the missingletters:Non-autoregressive transformer for speechrecognition),NAR-Transformer(Listen andfill in the missingletters:Non-autoregressive transformer forspeechrecognition),Wenet(Unified streaming and non streaming two-pass end-to-end model for speechrecognition)；使用文本预训练模型的方法包括LASO with BERT，NAR-BERT-ASR。在AISHELL-1中使用的声学预训练模型主要为small的模型，包括英文数据预训练的wav2vec 2.0以及使用中文数据预训练的wav2vec 2.0(cn)，而文本预训练模型用的是中文数据进行预训练的BERT模型。

下表中的“dev、test”分别为AI-SHELL-1中验证集和测试集的结果。从下表可以看出，本申请的在AI-SHELL-1上的效果好于其它基线方法下效果，有效证明了本申请在低资源情况下对语音识别效果的提升。

Claims

1.一种低资源语音识别方法，其特征在于，所述方法包括：

2.根据权利要求1所述的低资源语音识别方法，其特征在于，所述将文本预训练模型与声学预训练模型分别作为编码器提取训练音频的语义表征以及声学表征包括：

3.根据权利要求2所述的低资源语音识别方法，其特征在于，所述将声学表征与语义表征蕴含的语义学信息融合互补、将语义表征与声学表征蕴含的声学信息进行融合和互补分别得到最终识别结果包括：

4.根据权利要求3所述的低资源语音识别方法，其特征在于，

所述将语义表征作为声学表征的补充得到声学引导的上下文向量为：将声学表征作为多头注意力网络中的查询向量输入，将语义表征作为多头注意力网络的关键字向量输入以及数值向量输入，在多头注意力网络中根据查询向量与关键字向量计算注意力权重后，将注意力权重作用于数值向量得到声学引导的上下文向量；

5.根据权利要求4所述的低资源语音识别方法，其特征在于，

所述将声学表征与声学引导的上下文向量进行加权融合得到声学引导表征为：

6.根据权利要求2所述的低资源语音识别方法，其特征在于，所述根据声学表征与第一识别结果计算得到文本预训练模型的嵌入向量为：

7.一种低资源语音识别系统，其特征在于，包括：

8.一种低资源语音模型训练方法，其特征在于，配合使用于权利要求5所述的低资源语音识别方法，包括：

将训练音频的标注文本进行条件掩码得到掩码结果；

9.一种计算机设备，其特征在于，包括存储器、处理器以及存储在所述存储器中并在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现权利要求1-6任意一项所述的低资源语音识别方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-6任意一项所述的低资源语音识别方法的步骤。