CN113593534B

CN113593534B - 针对多口音语音识别的方法和装置

Info

Publication number: CN113593534B
Application number: CN202110594476.2A
Authority: CN
Inventors: 钱彦旻; 龚勋; 卢怡宙; 周之恺
Original assignee: Sipic Technology Co Ltd
Current assignee: Sipic Technology Co Ltd
Priority date: 2021-05-28
Filing date: 2021-05-28
Publication date: 2023-07-14
Anticipated expiration: 2041-05-28
Also published as: CN113593534A

Abstract

本发明公开针对多口音语音识别的方法和装置，其中，一种针对多口音语音识别的方法，其中，对于单语音识别系统，在编码阶段添加自适应层用于学习与口音有关的特征信息，包括：对于每个编码器块将口音表征向量作为一个指导信息，输入到所述自适应层中，用于指导所述自适应层中的转换函数，其中，一个编码器有多个串联的编码器块；将口音无关特征也同时输入到所述自适应层中；以及将所述口音无关特征和所述口音表征向量混合形成口音相关特征。本申请实施例进一步探讨了适应层的注入位置、口音基数和不同类型的口音基数，以实现更好的口音适应。

Description

针对多口音语音识别的方法和装置

技术领域

本发明属于模型训练技术领域，尤其涉及针对多口音语音识别的方法和装置。

背景技术

相关技术中，端到端(E2E，End-to-End)自动语音识别(ASR)模型在给定输入声学特征的情况下直接优化输出序列的概率，在各种语音语料库中都取得了长足的进步。当今ASR的最紧迫需求之一是在单个系统中支持多种口音，这在文献中通常被称为多口音语音识别。语音，语音和语法等口音语音的识别困难对当前的ASR系统构成了严峻挑战。一种简单的方法是根据混合数据(来自非母语人士的口音和来自母语人士的标准数据)构建单个ASR模型。但是，由于训练和推理过程中的口音失配，此类模型通常会遭受严重的性能下降。先前的工作已经探索了声学模型的不同口音自适应方法。MixNet基于专家混合(MoE)架构，其中专家专门用于区分特定于口音的语音差异。还探索了与模型无关的元学习(MAML) 方法，以学习快速适应未见口音。一键式口音向量可以很好地用于建立多基调，其中每个基音都旨在涵盖某些类型的口音。

其中，多专家系统自适应技术采用多个专家系统，使用独热向量编码的口音信息，针对每个口音分别进行计算，输出预测到的文本信息。

发明人在实现本申请的过程中发现现有技术的方案存在以下缺陷：用多专家系统，每个专家规模庞大，参数量冗余，不能很好的根据口音分辨的难易程度快速调整模型。另外，每个口音必须有一个专家系统用来关注这个口音的有关信息，模型数据量大。

发明内容

本发明实施例提供一种针对多口音语音识别的方法和装置，用于至少解决上述技术问题之一。

第一方面，本发明实施例提供一种针对多口音语音识别的方法，其中，对于单语音识别系统，在编码阶段添加自适应层用于学习与口音有关的特征信息，包括：对于每个编码器块将口音表征向量作为一个指导信息，输入到所述自适应层中，用于指导所述自适应层中的转换函数，其中，一个编码器有多个串联的编码器块；将口音无关特征也同时输入到所述自适应层中；以及将所述口音无关特征和所述口音表征向量混合形成口音相关特征。

第二方面，本发明实施例提供一种针对多口音语音识别的装置，其中，对于单语音识别系统，在编码阶段添加自适应层用于学习与口音有关的特征信息，包括：指导程序模块，配置为对于每个编码器块将口音表征向量作为一个指导信息，输入到所述自适应层中，用于指导所述自适应层中的转换函数，其中，一个编码器有多个串联的编码器块；无关输入程序模块，配置为将口音无关特征也同时输入到所述自适应层中；以及混合程序模块，配置为将所述口音无关特征和所述口音表征向量混合形成口音相关特征。

第三方面，提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例的针对多口音语音识别的方法的步骤。

第四方面，本发明实施例还提供一种计算机程序产品，所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，使所述计算机执行本发明任一实施例的针对多口音语音识别的方法的步骤。

本申请的方法和装置通过首先训练一个文本信息语音增强模型作为教师，它可以在有文本标注的真实数据上提供“参考”信号。然后在模拟数据和真实数据的基上训练出正常的语音增强模型，监督数据分别来自带噪信号的原始信号和教师标注的参考信号。实验结果表明，该方法不仅提高了对模拟数据的语音增强性能，而且降低了下游语音识别任务的单词错误率。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一实施例提供的一种针对多口音语音识别的方法的流程图；

图2为本发明一实施例提供的各种方案的示意图；

图3为本发明一实施例提供的每个基插值系数分布的箱线图 (Boxplot)和小提琴图(violinplot)；

图4为本发明一实施例提供的另一种针对多口音语音识别的装置的框图；

图5是本发明一实施例提供的电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参考图1，其示出了本申请的针对多口音语音识别的方法一实施例的流程图，本实施例的一种针对多口音语音识别的方法，其中，对于单语音识别系统，在编码阶段添加自适应层用于学习与口音有关的特征信息，包括：

对于每个编码器块将口音表征向量作为一个指导信息，输入到所述自适应层中，用于指导所述自适应层中的转换函数，其中，一个编码器有多个串联的编码器块；

将口音无关特征也同时输入到所述自适应层中；

将所述口音无关特征和所述口音表征向量混合形成口音相关特征。

需要说明的是，上述方法步骤并不用于限制各步骤的执行顺序，实际上，某些步骤可能会同时执行或者以与步骤限定的相反的顺序执行，本申请在此没有限制。

下面对通过描述发明人在实现本发明的过程中遇到的一些问题和对最终确定的方案的一个具体实施例进行说明，以使本领域技术人员更好地理解本申请的方案。

发明人在实现本申请的过程中发现现有技术中存在的缺陷主要是由多专家系统的机制和独热向量机制导致的。

本申请的方案主要采用层间快速自适应。对于原有的单语音识别系统在编码阶段添加一些自适应层，用于学习和口音有关的特征信息。

本申请实施例中将口音embedding z作为一个指导信息，输入到自适应层A中，用于指导A中的转换函数。输入的口音无关特征同时也输入到A中，和口音embedding z混合起来形成口音相关特征。

如图2中的(a)示，我们着重研究了基于多个基的自适应方法。

口音embedding z经过一个预测概率的神经网络，输出对应不同基的概率a；

同时口音无关特征输入每一个基里得到基相关的特征。

最后将基相关的特征以概率a合并起来就得到口音相关特征。

在实现本申请的过程中，申请人还使用过如下备选方案：一种简单的层级自适应方法，我们也进行了探究，他直接利用口音embedding生成转换函数g和f，然后把g和f加回到z里。

这个优点在于轻量级。缺点在于只能将他放在编码器最前面，其次，口音相关的特征是通过口音embedding得到的，而不是从口音无关特征中提取到的。

本申请实施例的方法具有发散性，能够根据所对应的任务的复杂性可以灵活增减层间结构的数量，更具有普适性。

以下是在下文的实验过程表述中可能用到的一些中英文对照：

Layer-wise Fast Adaptation for End-to-End Multi-Accent SpeechRecognition：端到端多口音语音识别的层间快速适配技术；Accent Embedding:口音表征向量；Accent-unrelated feature：口音无关特征；Accent-related feature：口音无关特征；Self-Attention：自注意力；Feed Forward：前馈神经网络；Adapter Layer：自适应层；Basis：基；Predictor：概率预测器；Encoder Block：编码器块(一个编码器有多个串流的块)。

相关技术中，口音差异性给自动语音识别建模带来了巨大的挑战。虽然基于独热口音向量的适应系统被普遍使用，但它们需要目标口音的先验知识，无法处理未见口音。此外，简单的连缀口音表征并不能很好地利用口音知识，其改进效果有限。

在这项工作中，我们旨在通过注入端到端语音识别模型编码器的新型层间自适应结构来解决这些问题。自适应层在口音空间中对任意口音进行编码，并协助语音识别模型识别口音语音。给定一个语句，适配结构提取相应的口音信息，通过所有口音基数的线性组合，将输入的声学特征转化为口音相关特征。我们进一步探讨了适应层的注入位置、口音基的数量和不同类型的基，以实现更好的口音自适应。实验结果表明，与基线相比，所提出的适配结构在AESRC2020口音数据集和Librispeech数据集上分别带来了12％和10％的相对词误率降低。

在本申请实施例中，我们研究了一种通过输入特征的分层转换快速重读口音数据的新方法。与以前的作品相比，该方法激发了口音表征和隐藏表示的潜力。我们不是简单地将口音表征和输入特征串联起来，而是采用了具有缩放和平移转换的不同方案，这已被证明是利用口音表征的一种有价值的方法。此外，我们提出了多基自适应层体系结构来表示依赖于口音的功能。基于多个基的自适应的方法已显示出其在各个领域的潜力，包括计算机视觉，自然语言处理，神经机器翻译和多语言ASR。同样，多个基也被证明在说话人适应和代码转换ASR任务中有效。但是，就我们所知，尚未对这种方法在多口音语音识别中的有效性进行过调查。在本文中，我们将基于多个基的自适应的技术整合到了E2E ASR体系结构中，以实现多口音语音识别。此外，我们将通常庞大的基缩减为每个自适应层中更小的模块。由于所提出的方法在连续嵌入空间中对不同的口音进行建模，因此可以通过多个基的自适应的线性组合自然地应对推断阶段中看不见的口音。在适配期间，根据口音表征预测不同多个基的自适应之间的内插系数。通过提出的框架，可以以参数有效且灵活的方式实现口音匹配。

本文的其余部分安排如下：在第2节中，我们介绍了具有多任务正则化的分层自适应体系结构。实验结果将在第3节中进行介绍和分析。最后，结论将在第4节中给出。

2.在端到端多口音语音识别上的层间快速自适应(Layer-wise Fast Adaptionon E2E Multi-Accent ASR)

在本节中，我们首先简要概述基于联合连接主义者的时间分类(CTC， the jointconnectionist temporal classification)注意的E2E ASR。然后，我们描述提出的口音自适应层和相应的训练策略。新方法主要包括两部分：自适应层构造和插值系数正则化。

2.1预训练基于转换函数的端到端(ASR Pretrained transformer-based E2EASR)

图2示出了本申请实施例建议的自适应层的示意图。其中，图2中的(a)中的自适应层可选地插入每个编码器块中，这将在3.2.1节中讨论。在此，+，×和⊙分别表示求和，矩阵乘法和逐元素乘积。其中，layer-wise adaption：分层自适应；gated adaption layers：门控自适应层；multi-basis adaption layers：多基自适应层；basis：基。

转换函数(transformer)是一个序列到序列(S2S，sequence-to-sequence) 结构，由多层编码器和多层解码器组成。

每一层都包括一个多头自注意力层和一个完全连接的前馈层 (feed-forwardlayer)。编码器将声学特征作为输入，以映射到高级表示h 中。解码器网络利用带有注意机制的编码表示h并自动回归输出预测的令牌。

在每个解码步骤，解码器在给定先前输出的情况下发出下一个令牌的后验概率。我们使用联合CTC注意力框架训练转换模型(transformer model)，以利用CTC和基于注意力模型(attention-based models)的优势。损失函数定义如下：

其中L_ctc和L_s2s分别是CTC和S2S的客观损失。可调参数λ_ctc∈[0,1] 用于控制每个损耗的贡献。

2.2自适应层(Adapter Layer)

由于口音不匹配，在通用标准语料库上训练的E2E ASR模型通常缺乏对口音数据的概括。自适应层被注入到ASR编码器块中，以将与口音无关的功能转换为与口音相关的空间。具有建议的自适应层的新型ASR 编码器的体系结构如图2中的(a)所示。自适应层(以下称为A)用作将口音无关的特征转换为口音相关的特征的预处理。用hⁱ表示编码器块之前的输入特征，z表示口音表征，A(hⁱ，z)表示与口音有关的空间中的输出特征。然后，通过残留连接(residual connection)(+)将输出特征A (hⁱ，z)包裹到编码器块中，如图2中的(a)所示，以使原始声音信息能够流过后面的编码器层。以下各节探讨了不同类型的自适应层A：第 2.2.1节中的A_g和第2.2.2节中的A_m。

2.2.1门控自适应层(Gated Adapter Layer)

获得转换函数的第一个方案遵循我们先前的研究。如图2中的(b) 所示，可以将缩放因子f(z)和移位因子g(z)应用于输入特征以进行口音调整：

其中A_g是门控自适应层，⊙表示元素级乘积。f(z)和g(z)由具有tanh(·)活化作用的单个致密层分别生成。

2.2.2多基自适应层(Multi-basis Adapter Layer)

第二种方案是构建如图2中的(c)所示的多基自适应层。多基自适应层将每个基的输出B_k(hⁱ)与相应的插值系数α_k连接起来。类似于2.2.1 节，缩放F_k(·)和shifting G_k(·)模块用于将输入hⁱ转换为与口音相关的空间，如图2中的(d)所示，其中k＝1,2,。..，n和n是自适应层基数。

注意，也可以在基数中使用仅缩放和仅移位操作，这将在3.2.3节中讨论。

投影模块(Projection Module)

为了使图2中的(d)中的基简单灵活，我们为F(·)和G(·)建模提出了一种沙漏式结构：一个向下投影网络和一个向上投影网络，其中非线性激活ReLU(·)。这种结构使我们能够根据口音的复杂性轻松调整模块的容量。另外，我们通过LayerNorm层归一化每个多个基的自适应的输入。

插值参数预测器(Predictor)

不同于以往在口音调配工作中常用的单调口音矢量，这里我们通过在所有多个基的自适应之间动态内插来采用基的软分配。为了从口音表征向量z估计插值系数α∈Rn，使用了插值参数预测器p(·)模型，并为模块的使用提供了指导。

其中，插值系数α＝(α1，...，αn)是多个基的概率。插值参数预测器p(·)可以由几个DNN层组成。

2.2.3多任务正则化(Multi-task Regularization)

在训练过程中，我们发现在没有任何限制的情况下，插值系数α的分布对于所有口音都会迅速减小到一定的基，这极大地限制了自适应层的自适应能力。因此，我们应用多任务学习(MTL，multi-task learning)方案来利用辅助任务(即第2.2.2节中的预测器)的损失来规范ASR和预测器模型的训练。来自预测器的辅助损耗被引入ASR损耗L_jca，然后整个系统的最终损耗L_mtl计算为：

其中α(ref)是插值参数预测器输出p(z)的目标标签，α是插值参数预测器输出，γmtl是控制参数的超参数插值参数预测器损失的贡献。通过从预训练的AID模型提取的口音表征的聚类获得目标标签α(ref)。聚类数设置为n，此处采用K-means算法。

3.实验

3.1设置

3.1.1数据集

我们的实验是在2020年重读英语语音识别挑战赛(AESRC2020)数据集和Librispeech语料库上进行的。AESRC2020包含针对英国(UK)，美国(US)，中国(CHN)，日本(JPN)，俄罗斯(RU)，印度(IND)，葡萄牙(PT)和韩国(KR)，每个口音都有20小时的数据。Librispeech 包含960小时的阅读语音训练。

在我们的实验中，使用Librispeech和AESRC2020数据集进行评估。 Librispeech测试集用作标准测试数据，包括dev-clean/other(测试c/o) 和test-clean/other(测试c/o)子集。AESRC2020测试集用作重点测试数据，包括交叉验证(cv)集和测试集。请注意，AESRC2020数据集中的cv集具有与训练集相同的口音数量，而测试集具有训练集中看不到的另外两个口音，即加拿大(CAN)和西班牙(ES)。我们报告所有评估集的字错误率(WER)。

3.1.2基于端到端的基线系统(E2E based Baseline)

对于声学特征提取，以10ms的步长和25ms的窗口大小提取80维 log-Mel滤波器组，并对fbank特征应用发声级倒谱均值和方差归一化 (CMVN)。对于语言建模，采用500个英语字节对编码(BPE)子字单元。所有模型都是使用ESPnet工具包构建的。对于E2E ASR，我们采用具有12层编码器和6层解码器的配置的转换函数，其中每个自注意力层的关注尺寸为512个头和8个头。SpecAugment也适用于训练期间的数据增强。在解码期间，CTC模块用于权重为0.3的分数插值，并且将波束宽度10应用于波束搜索。

3.1.3口音识别和嵌入提取(Accent Identification and EmbeddingExtraction)

基于预训练时延神经网络(TDNN)的口音识别(AID)模型用于提取256维口音表征。它接受电话后记(PPG)功能作为输入，并经过训练可以预测口音类别。口音表征是从AID模型的倒数第二层输出中获得的。有关AID模型的更多详细信息，请参见针对AESRC 2020挑战的口音识别系统说明。

3.2多基自适应层的探索(Exploration of Multi-Basis Adapter Layer)

我们首先在第2.2.2节中研究所建议的多基自适应层体系结构在不同注入位置，碱基数和碱基类型下的性能。

3.2.1自适应层的位置(Position of Adapter Layer)

表1中比较了第2.1节中的基线模型和我们建议的具有4个基自适应层的模型的性能。评估了自适应层的不同位置，包括{1}，{6}，{12}，{1- 6}和{1-12}，其中{mn}表示将自适应层注入第m至第n个编码器块。

可以观察到，所有基于自适应层的模型都优于基线。对于仅在一个编码器块(第2至4行)处注入单个自适应层不同位置的模型，当注入位置移向最后一个编码器块时，性能会稍差。但是，当自适应层数增加时， WER仅与基于单个自适应层的模型相当。这表明注入到第一个编码器块中的单个自适应层已经能够适应各种口音，同时仍保持参数效率。因此，在以下实验中，仅一个多基自适应层被注入到第一个编码器块中。

表1：多基自适应层位置和数量的性能(WER)(％)比较。

其中，Position：自适应层位置；Accent：口音数据集；Cv、test：验证集、测试集；Libri：Librispeech数据集；Dev、test：开发集、测试集； c/o：clean、other，两个子集。

3.2.2基的个数(The Number of Bases)

然后，我们探讨了不同基数(范围从2到8)对ASR性能的影响。如表2所示，随着基数从2增加到8，WER逐渐降低。但是，当使用4个以上的基时，性能增益将非常有限，但是更多的基将导致更多的参数。考虑到性能和模型尺寸之间的折衷，我们在以下实验中采用了4基自适应层。

表2：在一个自适应层中不同数量的基的性能(WER)(％)比较。

其中，#Bases：基的个数。

3.2.3不同类型的基(Different Types of Bases)

表3显示了不同底座类型的性能，包括第2.2.2节中的不同连接模式 (缩放，移位或缩放和移位两者)以及底座中不同的投影模块类型。可以看出，仅移位模式比仅缩放模式具有更好的性能。当同时使用缩放和移位时，可获得最佳性能。这表明移位和缩放模式可以互为补充。我们在基实现中进一步测试了不同的网络类型(DNN或CNN)。对于基于DNN的基，向下和向上投影使用全连接层，向下投影后的编码尺寸设置为128。对于基于CNN的基，Conv2d用于5×5内核的向下和向上投影和16个频道。可以看出，基于CNN的模块提取口音相关信息的能力不足。在我们的最终系统中，基于DNN的基用于保持一致性。

表3：基上不同投影模块类型和连接的性能(WER)(％)比较。

其中，Network Type：神经网络结构；DNN/CNN：全连接神经网络/ 卷积神经网络；Connection Mode：连接方式；Shifting-only：只有位移方式；Scaling-only：只有放缩方式；Both：都有。

表4：基线系统和不同适应方法的性能(WER)(％)比较。Ag表示在2.2.1节中提出的单基口音表征层自适应模型，Am表示在2.2.2节中引入的多基调自适应模型，仅在第一个编码器块中注入。

其中，Accent Test Set：口音数据集合中的测试集，；US，UK，IND， CHN，JPN，PT，RU，KR，CAN，ES：美国，英国，印度，中国，日本，葡萄牙，俄罗斯，韩国，加拿大，西班牙；Accent、Libri、cv/test,dev/test 参考前面的表；Model：模型；Baseline：基线；Finetune：微调。

3.3不同适应方法的结果比较(Results Comparison of Different AdaptionMethods)

在本节中，我们将对所有提议的模型和表4中的基线进行详细的性能比较。对口音数据的基线模型进行微调是对口音数据进行适应的一种直观方法，如表4的第二行所示。但是，这对于某些未见口音(如西班牙(ES)) 是不可行的，这在推断过程中是不可避免的。另一方面，它会降低标准数据(即Librispeech评估集)的性能。第2.2.1节中的门控自适应层在表中以Ag表示，这在Librispeech和口音数据集上均显示出显着改进。由Am 表示，在第2.2.2节中介绍的拟议的多基自适应层，自适应层Am仅注入到第一个编码器块中，该块由4个由基于DNN的投影模块构成的基座组成。此外，我们通过将输出计算为hi+Am(hi+Ag(hi，z)，z)来合并Ag和Am。我们观察到，最终提出的方法Ag+Am在AESRC2020 cv/ 测试集上的相对WER降低始终优于基线模型，在Librispeech dev/测试集上的WER相对降低相对优于基线模型。这表明所提出的方法可以有效地学习口音相关信息，并提高语音识别对口音差异性的鲁棒性。

3.4多基自适应层的可视化(Visualization of Multi-Basis Adapter Layer)

图3示出了每个基插值系数分布的箱线图(Boxplot)和小提琴图 (violinplot)。纵轴示出了插值系数αi，其中i是基指数。水平轴是口音类别。

图3显示了4基自适应层模型在每个基上的系数分布。假定在每个基中具有较大系数的口音与该基之间的相关性更高。可以清楚地看到，不同的基调捕获了一组不同的高度相关的口音。例如，基二主要关注于提取有关葡萄牙语(PT)口音的信息，然后提取有关美国(US)和俄语(RU) 口音的信息。从这个数字也可以看出不同口音之间的内在联系。例如，美式(US)和英式(UK)口音与第一基准的相关性始终很高，而与其他基准的相关性则低得多。同时，印度(IND)和日本(JPN)口音对基有不同的偏好：IND口音更喜欢基4，而JPN口音更喜欢基3。结果表明，我们提出的多基自适应层方法可以在口音表征的指导下很好地捕获与口音有关的信息，从而提高了多口音ASR性能。

4结论

在本文中，我们探索了层级自适应架构，以改进基于端到端的多口音语音识别模型。所提出的模型通过在ASR编码器模块中注入小的自适应层，将与口音无关的输入转换为与口音相关的空间。这些模型使用预训练的口音识别网络进行口音表征估计，使用共享的插值参数预测器来学习不同多个基的自适应的插值系数，并使用多个与口音相关的基进行口音自适应。实验结果表明，我们在AESRC2020 cv/测试集上的相对WER降低性能优于基线模型，在Librispeech开发/测试集上的相对WER降低性能最高也达到10％。在将来的工作中，我们想研究口音表征和声学特征(即多个基的自适应的内部结构)之间的不同组合方法。4结论

在本文中，本申请实施例提出了一种文本信息知识提炼框架，以在语音增强模型的训练中利用有文本标注的真实语音数据。本申请实施例证明，基于Conv-TasNet的教师模型配备了额外的音频-文本融合模块，可以提高增强语音的质量。此外，学生模型可以受益于对具有地面真实性参考的模拟语音数据和具有教师估计的参考的真实语音数据的训练。对学生模型的评估显示，在CHiME-4模拟开发和测试集上，Conv-TasNet基准上的绝对SDR增益分别为0.69dB和1.41dB。在下游语音识别任务上也观察到了WER降低方面的一致性能提升。在本申请实施例未来的工作中，本申请实施例希望在本申请实施例提出的框架中研究来自不同模式 (例如视觉和说话人信息)的信息的有效性。

请参考图4，其示出了本发明一实施例提供的针对多口音语音识别的装置的框图。

如图4所示，针对多口音语音识别的装置400，包括一种针对多口音语音识别的装置，其中，对于单语音识别系统，在编码阶段添加自适应层用于学习与口音有关的特征信息，包括指导程序模块410、无关输入程序模块420和混合程序模块430。

其中，指导程序模块410，配置为对于每个编码器块将口音表征向量作为一个指导信息，输入到所述自适应层中，用于指导所述自适应层中的转换函数，其中，一个编码器有多个串联的编码器块；无关输入程序模块 420，配置为将口音无关特征也同时输入到所述自适应层中；以及混合程序模块430，配置为将所述口音无关特征和所述口音表征向量混合形成口音相关特征。

应当理解，图4中记载的诸模块与参考图1中描述的方法中的各个步骤相对应。由此，上文针对方法描述的操作和特征以及相应的技术效果同样适用于图4中的诸模块，在此不再赘述。

值得注意的是，本公开的实施例中的模块并不用于限制本公开的方案，例如判断模块可以描述为当设备处于交互状态时，判断交互状态是否为播放场景的模块。另外，还可以通过硬件处理器来实现相关功能模块，例如判断模块也可以用处理器实现，在此不再赘述。

在另一些实施例中，本发明实施例还提供了一种非易失性计算机存储介质，计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行上述任意方法实施例中的针对多口音语音识别的方法；

作为一种实施方式，本发明的非易失性计算机存储介质存储有计算机可执行指令，计算机可执行指令设置为：

将口音无关特征也同时输入到所述自适应层中；

非易失性计算机可读存储介质可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据针对多口音语音识别的装置的使用所创建的数据等。此外，非易失性计算机可读存储介质可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至针对多口音语音识别的装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本发明实施例还提供一种计算机程序产品，计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序，计算机程序包括程序指令，当程序指令被计算机执行时，使计算机执行上述任一项针对多口音语音识别的方法。

图5是本发明实施例提供的电子设备的结构示意图，如图5所示，该设备包括：一个或多个处理器510以及存储器520，图5中以一个处理器 510为例。针对多口音语音识别的方法的设备还可以包括：输入装置530 和输出装置540。处理器510、存储器520、输入装置530和输出装置540 可以通过总线或者其他方式连接，图5中以通过总线连接为例。存储器520为上述的非易失性计算机可读存储介质。处理器510通过运行存储在存储器520中的非易失性软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例针对多口音语音识别的方法。输入装置530可接收输入的数字或字符信息，以及产生与通讯补偿装置的用户设置以及功能控制有关的键信号输入。输出装置540可包括显示屏等显示设备。

上述产品可执行本发明实施例所提供的方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本发明实施例所提供的方法。

作为一种实施方式，上述电子设备应用于针对多口音语音识别的装置中，用于客户端，包括：至少一个处理器；以及，与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够：

将口音无关特征也同时输入到所述自适应层中；

本申请实施例的电子设备以多种形式存在，包括但不限于：

(1)移动通信设备：这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iPhone)、多媒体手机、功能性手机，以及低端手机等。

(2)超移动个人计算机设备：这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括：PDA、MID和 UMPC设备等。

(3)便携式娱乐设备：这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

(4)服务器:提供计算服务的设备，服务器的构成包括处理器、硬盘、内存、系统总线等，服务器和通用的计算机架构类似，但是由于需要提供高可靠的服务，因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。

(5)其他具有数据交互功能的电子装置。

以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种针对多口音语音识别的方法，其中，对于单语音识别系统，在编码阶段添加自适应层用于学习与口音有关的特征信息，包括：

将口音无关特征也同时输入到所述自适应层中；

将所述口音无关特征和所述口音表征向量混合形成口音相关特征；

将所述口音表征向量经过一个预测概率的神经网络，输出对应不同基的概率；

同时将口音无关特征输入每一个基里得到基相关的特征；

将所述基相关的特征与所述概率合并起来得到口音相关特征。

2.根据权利要求1所述的方法，其中，所述方法还包括：

其中，

为多基自适应层，将每个基的输出B_k(hⁱ)与相应的插值系数α_k连接起来，缩放F_k(·)和移位G_k(·)的转换函数用于将输入hⁱ转换为与口音相关的空间，其中，k＝1,2,...，n，其中，n是自适应层基数，转换函数包括仅缩放操作和仅移位操作，z是口音表征向量。

3.根据权利要求2所述的方法，其中，为了从口音表征向量z估计插值系数α∈Rn，使用了插值参数预测器p(·)模型，公式如下：

其中，插值系数α＝(α₁，...，α_n)是多个基的概率，插值参数预测器p(·)由几个DNN层组成。

4.根据权利要求1所述的方法，还包括：

应用多任务学习方案来利用辅助任务的损失规范语音识别系统和预测器模型的训练，其中，来自预测器的辅助损耗被引入语音识别系统损耗L_jca，然后整个系统的最终损耗L_mtl计算为：

其中，α^(ref)是插值参数预测器输出p(z)的目标标签，α是插值参数预测器输出，γ_mtl是控制参数的超参数插值参数预测器损失的贡献；通过从预训练的AID模型提取的口音表征向量的聚类获得目标标签α^(ref)。

5.根据权利要求2所述的方法，还包括：

直接利用所述口音表征向量生成转换函数，将缩放因子f(z)和移位因子g(z)应用于输入特征以进行重音调整：

其中，A_g是门控适配器层，⊙表示元素级乘积，f(z)和g(z)由具有tanh(·)活化作用的单个致密层分别生成。

6.一种针对多口音语音识别的装置，其中，对于单语音识别系统，在编码阶段添加自适应层用于学习与口音有关的特征信息，包括：

指导程序模块，配置为对于每个编码器块将口音表征向量作为一个指导信息，输入到所述自适应层中，用于指导所述自适应层中的转换函数，其中，一个编码器有多个串联的编码器块；

无关输入程序模块，配置为将口音无关特征也同时输入到所述自适应层中；

混合程序模块，配置为将所述口音无关特征和所述口音表征向量混合形成口音相关特征；

所述装置还包括配置为：将所述口音表征向量经过一个预测概率的神经网络，输出对应不同基的概率；同时将口音无关特征输入每一个基里得到基相关的特征；将所述基相关的特征与所述概率合并起来得到口音相关特征。

7.一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1至5任一项所述方法的步骤。

8.一种存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现权利要求1至5任一项所述方法的步骤。