CN111816169B

CN111816169B - 中英语种混杂语音识别模型训练方法和装置

Info

Publication number: CN111816169B
Application number: CN202010718606.4A
Authority: CN
Inventors: 钱彦旻; 卢怡宙; 黄明坤; 李豪; 郭嘉祺
Original assignee: Sipic Technology Co Ltd
Current assignee: Sipic Technology Co Ltd
Priority date: 2020-07-23
Filing date: 2020-07-23
Publication date: 2022-05-13
Anticipated expiration: 2040-07-23
Also published as: CN111816169A

Abstract

本发明公开中英语种混杂语音识别模型训练方法和装置，其中，所述语音识别模型包括中英双语模型、双编码器多专家模型和门限网络，所述方法包括：对所述中英双语模型进行预训练；将预训练好的中英双语模型用作所述双编码器多专家模型的初始化，其中，所述双编码器多专家模型的中文编码器和英文编码器分别输出两个高维特征向量；将所述两个高维特征向量作为所述门限网络的输入；以及接收所述门限网络输出的两个标量系数，并将所述两个标量系数作为所述双编码器多专家模型的插值系数。

Description

中英语种混杂语音识别模型训练方法和装置

技术领域

本发明属于语音识别模型领域，尤其涉及中英语种混杂语音识别模型训练方法和装置。

背景技术

随着全球化的发展，我们日常交流中经常会出现中文语境下英文单词夹杂的现象，这种语言现象称之为语种混杂(Code-switching)。语种混杂，尤其是中英文混杂的语音表达在应用场景中很常见，我们也经常会听到这类在中文里夹杂英文的语音：“我要上Coursa学习Deep Learning的课程”，“我刚拿到了一个新的offer”等等。

相关技术中，目前市面上已经有很多应用到语音识别技术的产品，比如语音输入法、智能语音助手等，而对于语音识别任务，目前主要有两种技术方案：

1)基于DNN-HMM的混合语音识别；

2)端到端语音识别。

其中，基于DNN-HMM的语音识别系统包括声学模型、发音词典和语言模型等多个组成成分，不同模块之间独立进行训练优化。

端到端语音识别模型直接对输入声学观测条件下输出字序列的后验概率进行建模，并将传统DNN-HMM混合模型中的各个组成成分用一个神经网络模型进行优化。以基于注意力机制的序列到序列模型为例，输入的声学特征先经过编码器来转化成高维特征向量，之后通过注意力机制和相应的解码器进行解码输出。

发明人在实现本申请的过程中发现，现有方案至少存在以下缺陷：

1)对DNN-HMM语音识别系统来说，这个系统需要分别构建声学模型、发音词典以及语言模型等模块，不同模块之间独立进行优化，具有不同的优化目标。不同模块的优化目标都与整个系统最终的优化目标不一致，容易得到次优解。此外，DNN-HMM系统在构建不同子模块的过程中需要耗费大量的人力资源，一些模块还需要很多的相关专业知识 (如音素集合的选取、发音词典的构建等)，这使得整个系统的搭建变得十分复杂，而这个问题在对多种语言进行建模时更为严重。

2)对端到端模型来说，端到端模型将DNN-HMM系统中的不同模块用一个神经网络统一进行建模，整个模型只有一个最终的优化目标。相比之下，端到端模型的训练会变得很简单，且不需要音素相关的知识，在模型大小上相比DNN-HMM系统具有明显优势，适合部署在移动设备上或进行离线语音识别。然而，端到端模型的训练往往需要大量语音数据，且目前端到端模型还是一个相对较新的技术，虽然在部分任务上取得了当前最优的结果，但还没能完全取代掉传统的DNN-HMM系统。

3)一般的语音识别系统只针对特定某种语言进行建模，而这种单语的语音识别系统不能解决多语种的情况，在语种不匹配时将完全识别错误。语种混杂语音识别任务是面向多语言的语音识别任务，需要对不同语言进行建模，而直接套用原先的端到端模型结构将无法捕捉特定语言的特异性信息。

发明内容

本发明实施例提供一种中英语种混杂语音识别模型训练方法和装置，用于至少解决上述技术问题之一。

第一方面，本发明实施例提供一种中英语种混杂语音识别模型训练方法，其中，所述语音识别模型包括中英双语模型、双编码器多专家模型和门限网络，所述方法包括：对所述中英双语模型进行预训练；将预训练好的中英双语模型用作所述双编码器多专家模型的初始化，其中，所述双编码器多专家模型的中文编码器和英文编码器分别输出两个高维特征向量；将所述两个高维特征向量作为所述门限网络的输入；以及接收所述门限网络输出的两个标量系数，并将所述两个标量系数作为所述双编码器多专家模型的插值系数。

第二方面，本发明实施例提供一种中英语种混杂语音识别模型训练装置，其中，所述语音识别模型包括中英双语模型、双编码器多专家模型和门限网络，所述装置包括：预训练模块，配置为对所述中英双语模型进行预训练；初始化模块，配置为将预训练好的中英双语模型用作所述双编码器多专家模型的初始化，其中，所述双编码器多专家模型的中文编码器和英文编码器分别输出两个高维特征向量；输入模块，配置为将所述两个高维特征向量作为所述门限网络的输入；以及接收模块，配置为接收所述门限网络输出的两个标量系数，并将所述两个标量系数作为所述双编码器多专家模型的插值系数。

第三方面，提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例的中英语种混杂语音识别模型训练方法的步骤。

第四方面，本发明实施例还提供一种计算机程序产品，所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，使所述计算机执行本发明任一实施例的中英语种混杂语音识别模型训练方法的步骤。

本申请的方法和装置提供的方案通过在中英文混杂测试集的结果显示，本方案所使用的模型可以更好的对中文和英文语言进行建模，相比基线模型可以得到10.2％的相对词错误率下降；在纯中文和纯英文的测试结果也表明，这种多专家模型可以取得大幅度的纯中文和纯英文性能提升。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一实施例提供的一种中英语种混杂语音识别模型训练方法的流程图；

图2为本发明一实施例提供的一种中英语种混杂语音识别模型训练方法的具体实施例的系统流程图；

图3为本发明一实施例提供的一种中英语种混杂语音识别模型训练方法的一具体实施例的内置LID方法的无监督学习MoE系数αcn的可视化图；

图4为本发明一实施例提供的一种中英语种混杂语音识别模型训练装置的框图；

图5是本发明一实施例提供的电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参考图1，其示出了本申请的中英语种混杂语音识别模型训练方法的一实施例的流程图，其中，语音识别模型包括中英双语模型、双编码器多专家模型和门限网络。

如图1所示，在步骤101中，对所述中英双语模型进行预训练；

在步骤102中，将预训练好的中英双语模型用作所述双编码器多专家模型的初始化，其中，所述双编码器多专家模型的中文编码器和英文编码器分别输出两个高维特征向量；

在步骤103中，将所述两个高维特征向量作为所述门限网络的输入；

在步骤104中，接收所述门限网络输出的两个标量系数，并将所述两个标量系数作为所述双编码器多专家模型的插值系数。

本实施例的方法通过在中英文混杂测试集的结果显示，本方案所使用的模型可以更好的对中文和英文语言进行建模，相比基线模型可以得到10.2％的相对词错误率下降；在纯中文和纯英文的测试结果也表明，这种多专家模型可以取得大幅度的纯中文和纯英文性能提升。

在一些可选的实施例中，所述对所述中英双语模型进行预训练包括：基于声学特征的先验语种信息将所述声学特征输入对应的编码器，其中，所述编码器包括中文编码器和英文编码器；获取所述编码器的输出向量；以及将所述输出向量输入至中英文共享的连接时序分类层和解码器。

在一些可选的实施例中，所述声学特征包括纯中文数据和纯英文数据。

在一些可选的实施例中，将预训练好的中英双语模型用作所述双编码器多专家模型的初始化包括：基于预训练的好的中英文双语模型中的所述中文编码器、所述英文编码器、所述连接时序分类层和所述解码器对所述双编码器多专家模型进行初始化；以及将纯中文数据、纯英文数据和中英文混杂数据输入至初始化后的双编码器多专家模型中进行训练。

在一些可选的实施例中，所述将纯中文数据、纯英文数据和中英文混杂数据输入至初始化后的双编码器多专家模型中进行训练包括：

将纯中文数据、纯英文数据和中英文混杂数据的声学特征同时输入所述双编码器多专家模型的中文编码器和英文编码器中；

获取所述双编码器多专家模型的中文编码器和英文编码器输出的两个高维特征向量，其中，所述两个高维特征向量通过所述门限网络输出的插值系数进行混合。

在一些可选的实施例中，所述双编码器多专家模型与所述门限网络一起进行训练，所述门限网络的插值通过无监督学习得到。

下面对通过描述发明人在实现本发明的过程中遇到的一些问题和对最终确定的方案的一个具体实施例进行说明，以使本领域技术人员更好地理解本申请的方案。

发明人在实现本申请实施例的过程中发现：针对语种混杂语音识别任务，现有模型的缺陷从根本上可以归纳为对多种语言进行建模的问题。现有的模型结构往往是针对某种特定语言的，无法很好的对多种语言进行建模。而在中文和英文这种大语种语言，具有非常大量的纯中文和纯英文数据可以协助对语言进行建模，对语言的建模能力将直接影响各个语言的识别性能，从而影响语种混杂语音识别的性能。

为了解决针对不同语言进行特异性建模的问题，许多研究人员可能会借鉴多语语音识别的工作，通过在输入特征中加入一位热码表示的语言向量，或者是在模型内加入语言相关的门网络对网络的输出进行调节，从而对不同语言进行分离建模，在网络内部达到一个语言自适应的效果。然而，对于语种混杂的任务，在一句话内语种会频繁进行切换，也因此很难像多语模型那样利用每句话先验的语种信息帮助建模不同语言数据。此外，对于中文和英文这种大语种，纯中文和纯英文的语音数据是可以相对容易的大量获得的，通过扩大模型容量的方法可以更好地建模不同语言。

我们提出了用两个编码器来分别对中文和英文进行建模，通过这种不同语言分离建模的方式，模型可以更好地捕获特定语言的相关信息，从而提升语种混杂语音识别的性能。此外，双编码器结构也可以增大模型的容量，这也能在一定程度上帮助模型对不同语言进行建模。而两个编码器分离建模带来的语种识别问题，则通过门限网络来进行解决。

图2为系统流程图。

图2展示了我们的模型和系统流程图，主要分成三个部分：中英双语模型预训练、基于双编码器多专家模型及门限网络。

首先是中英双语模型预训练，这部分只使用到纯中文和纯英文数据。给定声学特征，我们可以预先知道其先验的语种信息(LID)，即这个语音是中文还是英文。因此，这部分信息将用来选择不同的编码器，而编码器的输出向量将被中英文共享的连接时序分类(CTC)层和解码器所使用。通过这种方式，我们可以显式地将中文和英文进行分离建模。然而，由于语种混杂的语音会在一句话中进行频繁的语种转换，因此这个模型无法解决语种混杂问题，只用于后面基于双编码器多专家模型的初始化。这个初始化模型是很重要的，因为它可以提供模型初始的语音识别能力(纯中文和纯英文的识别)，也为后面门限网络的语种分类提供初始信息。

之后，预训练好的中英双语模型被用作双编码器多专家模型的初始化，在这部分中纯中文、纯英文数据和中英混杂数据都参与训练。由于语种信息是未知的(对于语种混杂语音，无法预先知道哪些帧是中文、哪些帧是英文)，因此输入的声学特征将同时经过中文的编码器和英文的编码器。中文编码器和英文编码器分别输出两个高维特征向量(中文编码器的观点和英文编码器的观点)，这两个向量则通过门限网络输出的插值系数进行混合。

门限网络被用来显式地用来实现语种识别任务，其所输出的插值系数将直接影响语种混杂任务中输出文字序列的语言。在我们最终的方案中，我们发现只采用一个简单的线性层即可很好的解决这个问题。门限网络的输入是中文编码器和英文编码器所输出的高维向量，而输出的两个标量系数将作为插值系数被多专家模型所使用。值得强调的是，双编码器多专家模型和门限网络是一起进行训练的，优化目标与正常的端到端模型一致，即门限网络的插值系数是无监督地学到的。

发明人在实现本申请的过程中，还尝试直接额外训练一个语种分类器，将语种分类器的预测概率用作多专家模型的插值系数(取代了图1中门限网络的功能)。这种方案的优点是比较直观。然而，在最终的语种混杂测试集结果测试中，这种方案会比图1所示门限网络的方案稍微差一些。此外，这种方案需要一个额外的训练帧级别语种分类器的步骤(也因此需要帧级别的语种标注)，实现步骤会更加复杂。

直接效果：在中英文混杂测试集的结果显示，本方案所使用的模型可以更好的对中文和英文语言进行建模，相比基线模型可以得到10.2％的相对词错误率下降；在纯中文和纯英文的测试结果也表明，这种多专家模型可以取得大幅度的纯中文和纯英文性能提升。

更深层次的效果：这种多专家模型显式地将中文和英文的建模进行分离，因此可以直接对特定的语言做出结构上的调整，从而更好地在模型大小和中英文识别性能直接平衡。

以下介绍发明人的实现本申请实施例的过程，以及在该过程中的一些实验过程及相应的实验数据，以使本领域技术人员更好地理解本申请的技术方案。

语种混杂语音识别是一个非常具有挑战性的任务，而这项任务所面临的一个主要的挑战是语种混杂语音数据的缺乏问题。在本论文中，我们研究使用端到端模型来进行中英文语种混杂语音识别。我们利用了额外的单语语音数据来缓解数据缺乏的问题。更重要的，我们提出了一种基于双编码器多专家模型的端到端结构来更好的利用上这些训练数据。两个独立的编码器分别被用来对中文和英文进行建模，这种解耦合中英文的建模方式可以使模型能更好地捕获特定语言的信息。此外，这项任务中语种识别的问题被显式的用一个门限网络进行处理，对于门限网络，我们还探究了不同的模型结构和训练模式来学得更好的多专家模型插值系数。在中英文语种混杂测试集合上的实验结果表明，相比于基线的Transformer模型，这种新型的多专家结构最多可以取得相对10.4％的性能提升。

1.简介

当说话者从一种语言切换到另一种语言时，就会发生语种混杂，包括句间语种混杂和句内语种混杂。在许多多语言社区中，这是一种普遍现象。传统上，自动语音识别(ASR)系统由独立优化的声学，语音和语言模型组成。在语种混杂的场景下，传统语音识别系统面临的一个挑战是需要耗费人力去设计生成语言资源，例如构建多语的音素集合及对应的发音词典等。

端到端(E2E)建模了输入声学特征序列条件下输出序列的概率，从而为构建ASR系统提供了一种优雅的解决方案。关于E2E模型的最新工作可以分为三种主要方法：连接时序分类模型(CTC)，RNN- Transducer和基于注意力的序列到序列(S2S)模型。此外， CTC/Attention混合模型充分利用了多任务学习框架内CTC和序列到序列模型的优势，从而提高了模型的性能和鲁棒性。E2E ASR模型在许多领域都取得了可喜的进展，包括单语，多语实现了最先进的性能。最近，首先为神经机器翻译提出的Tranformer网络迅速在其他NLP任务中成为主流框架，而对于ASR任务，它也表现出了优于基于RNN的端到端模型。

构建语种混杂ASR系统的一个主要挑战是缺少语种混杂训练数据，而且对于E2E模型，此问题甚至更为严重。但是，对于可以使用大量单语语料的中英文数据，利用这些外部数据可以帮助减轻此数据稀疏性问题。在先前的多语言语音识别工作中，有研究者观察到通过添加语种类别的一位热码可以有效地提升多语言语音识别性能。也有另外的研究者提出了类似的策略，通过加入多层的门控网络来使模型适配不同语言。但由于语种混杂的语音会在一句话中频繁地发生语种切换，要获得先验的语种信息(LID)是不容易的，因此先前提到的这些策略对语种混杂任务来说并不能直接应用。

在这项工作中，我们研究了通过端到端的方式构建中英语种混杂语音识别系统的方法。为了有效利用单语数据，我们提出了一种基于双编码器多专家模型的结构。多专家(MoE)模型已经在许多著作中进行了研究，包括通用声学建模，多方言语音识别建模和语言建模。对于此中英文语种混杂ASR任务，两个Transformer编码器分别作为中文专家和英语专家，提供各自对声学输入的观点，同时再利用门限网络对各个专家的输出进行加权。与普通的Transformer模型不同，这种MoE结构可以使模型能更好的捕获特定语种的特征，而且语种分类任务由门限网络进行显式处理。

此外，我们探索了不同的门限网络模型和训练模式，以学习MoE插值系数。我们发现单个线性层就可以很好地处理LID任务，并且MoE系数可以在无监督模式下学到。实验结果表明，在中英语种混杂测试集上，这种基于双编码器的MoE结构相比基线的Transformer模型，可以降低10.4％的相对词错误率。此外，通过额外的迁移学习过程，系统对语种混杂语句的性能还能进一步提升。

本文的其余部分安排如下。在第二部分中，我们简要回顾了相关工作。然后，在第3节中描述了用于语种混杂任务的基于双编码器 Transformer的MoE结构。在第4节中，对提出的方法进行了评估，并对结果进行了分析。最后，在第5节中对本文进行了总结并讨论了未来的工作。

2.相关工作

先前关于语种混杂语音识别的工作主要是集中在传统的混合语音识别系统上。最近，受近几年端到端模型快速发展的推动，研究人员开始研究构建端到端语种混杂语音识别系统。研究者们首次探索了将端到端 CTC模型应用于语种混杂任务上，并引入了附加的LID分类器来调整初始CTC模型输出的后验概率。同时，也有研究者提出了基于语种分类的多任务学习方法，以提高基于注意力的序列到序列模型的性能。此外，还有研究者研究通过扩充语种识别LID符号的方式来提升性能。

在这项工作中，我们专注于利用外源的大量单语语音数据来实现更好的语种混杂ASR性能，并提出了一种新的MoE结构来更好地对中文和英语进行建模。

3.使用双编码器的语种混杂ASR

在本节中，我们首先简要回顾基于基线Transformer模型的端到端语音识别系统，然后描述基于MoE体系结构的双编码器Transformer网络和相关的培训策略。新方法主要包括三个部分：双编码器双语模型预训练，混合专家模型结构以及MoE插值系数的门限网络。

3.1回顾基于Transformer的端到端ASR

Transformer网络是一种序列到序列结构，主要由编码器网络和解码器网络组成。编码器网络由N个相同的层堆栈组成，每个层内都包含多头自注意力和全连接的前馈神经网络。它以声学特征x作为输入并将x 映射到高级表示h中。对于ASR任务，往往会额外采用前端CNN网络进行时间尺度下采样。

h＝Encoder(x) (1)

解码器网络利用具有注意机制的编码表示h，并自回归地输出预测的符号。我们将目标序列表示为y，并且在每个解码步骤中，解码器会在给定先前输出的情况下发出下一个标记的后验概率。我们使用联合 CTC/Attention框架训练Transformer模型，以利用CTC和S2S模型的优势。将Lctc(y|x)表示为CTC目标损失，将L_s2s(y|x)表示为S2S目标损失，联合CTC注意网络的损失函数定义为：

具有可调系数λ∈[0,1]，以控制每个损耗的贡献。采用波束搜索解码来预测输出序列，将S2S分数与CTC前缀分数结合在一起做出决策。

对于建模单元，我们将汉字和英文BPE子词组合为最终单元。在整个实验过程中，我们还将频谱增强(SpecAugment)用于所有数据。

3.2预训练的双编码器双语模型

图2：提出的基于双编码器Transformer网络的MoE体系结构： (1)预训练的双编码器双语模型；(2)语种混杂语音识别的双编码器多专家模型结构；(3)MoE插值系数的门限网络；

我们首先预训练仅使用中文和英文单语数据的特殊双编码器双语模型。由于可以预先获得单语数据的语言标识，因此我们能够使用两个单独的编码器来解耦中文和英语。如图1的左侧所示，当输入给定的声学特征时，将使用先前的LID信息来决定使用哪个编码器。将X_cn和X_en分别表示为所有中文输入和英文输入的集合，我们将该程序表示为：

输出嵌入h^enc在CTC层和解码器网络中进一步使用，它们在两种语言之间共享。对于拥有丰富资源语音数据的中文和英语，两个编码器都可以使用特定的语言数据进行很好的训练，而不会受到其他语言域的干扰。这种独立的建模结构更加灵活，具有直接将模型结构对特定语言进行针对性调整的潜在优势。

3.3针对语种混杂语音识别的多专家模型结构

预先训练的双编码器双语模型能够处理中文和英语两种建模，但是，它无法执行句子内的语种混杂现象。受最新的MoE工作启发，我们探索了基于双编码器Transformer网络的MoE架构来解决语种混杂语音识别问题，双语模型中的中文编码器和英语编码器被视为两种语言专家。上一节中介绍的的预训练双语模型被用于初始化，MoE体系结构如图1的中间部分所示。由于LID信息事先未知，我们让两位专家并行地提供两种不同的专家观点h^cn和h^en：

h^cn＝MandarinEncoder(x) (4)

h^en＝EnglishEncoder(x) (5)

在每个帧t处，都利用门限网络动态输出MoE插值系数，该系数用于组合两个编码器输出嵌入：

其中两个标量系数α_t ^cn和α_t ^en的范围是[0,1]，并且对所有帧的两个系数之和等于1。在单一语言的情况下，例如纯中文，我们希望模型能更多地使用中文编码器，因此α_t ^cn应该更大甚至接近一，而α_t ^en接近零。在语种混杂的情况下，MoE系数可以控制句子内的语言切换。

3.4MoE插值的门限网络

我们开发了一个门限网络来预测MoE插值系数，并比较了不同的方法。一种直接的方法是训练外部语言识别(LID)分类器，在我们的实验中，我们训练了基于自我注意网络(SAN)的LID分类模型。我们将此方法称为外部LID方法。在这种方法中，原始输入特征x用于预先训练 LID模块，每种语言的输出概率直接用于加权专家输出。LID分类器和 ASR是独立训练的。为了提高LID分类器的性能，我们采用迁移学习策略，并使用预训练的CTC模型进行初始化。

在第二种内置LID方法中，我们将两个编码器的输出用作门限网络的输入，因此门限网络的预测系数是与编码器的实时状态相关的。我们认为，这种编码器输出的高维表示更适合LID分类。对于这种内置的 LID方法，可以联合训练此MoE体系结构中的ASR和LID模块，并将客观损失更改为：

其中ylid是LID目标，α是预测的MoE插值系数。该公式包括门限网络的两种训练模式：当λ_lid>0时，表示监督的门限网络训练模式；相反，λ_lid＝0表示无监督的训练模式。

由于高维特征表示并已保留了丰富的语言信息，因此插值系数α_t＝ [α_t ^cn，α_t ^en]T可以仅用单个线性层建模：

4.实验

4.1实验装置

我们的实验是在ASRU 2019中英语种混杂挑战数据集上进行的，该数据集由大约500小时中文数据和200小时语种混杂数据组成。对于英语语料库，我们从Librispeech语料库中选择460小时数据的子集，以匹配中文数据的大小。保留额外的20小时语种混杂数据作为开发集。对于系统评估，我们使用了三个测试集：中文测试集(ZH)，英语测试集 (EN)和中英文语种混杂测试集(CSeval)。

对于声学特征，提取80维log-mel滤波器组，步长为10ms，窗口大小为25ms，并在fbank特征上应用发声级CMVN。至于建模单元，我们结合了汉字和英文BPE子词单元。我们选择在训练数据中出现超过25次的中文字符，从而得到3003个字符，其他字符映射为unk符号。我们为英语生成了1000个BPE单元，总共有4006个用于建模的符号(其中两个符号分别留作blank和sos/eos)。

我们分别报告纯中文和纯英语测试集的字错误率(CER)和词错误率(WER)。对于语种混杂测试集，我们报告了与ASRU2019挑战赛中一致的中文部分CER，英语部分WER和总混合错误率(MER)。

4.2基准系统的性能评估

我们使用ESPnet工具包来训练我们的基线Transformer模型。我们在编码器中使用12层网络，在解码器中使用6层网络，注意力维度均为 256。在整个实验过程中，我们使用SpecAugment并将λjca固定为0.3。

在解码阶段，我们使用8的波束搜索大小和0.4的解码ctc权重。

表1：使用不同数据训练的基准系统的性能(CER/WER)(％)比较。“CHN”，“ENG”和“CS”分别表示中文，英语和语种混杂训练数据，“ALL”表示同时使用语种混杂和两个单语种训练数据集。“n/a”表示结果不适用于该系统。报告的语种混杂性能(CSeval)包括中文部分的CER，英语部分的WER和总的MER。

我们在表1中给出了基准系统的性能。可以观察到，单语系统可以在单语测试集上获得较低的错误率，但是它不能处理跨语言或语种混杂任务。仅使用语种混杂训练数据的系统可以执行语种混杂，但是由于缺少语种混杂训练数据，其性能不令人满意，MER为11.84％。表1的最后一行显示，将所有数据集中在一起可以使系统识别所有类型的数据，并且语种混杂性能得到了显着提高。但是，在单语言测试集中，与单语言模型相比，它的性能要差得多。我们假设这些单语数据的潜力没有得到充分利用。

4.3对建议的双编码器MoE体系结构的评估

我们在本节中评估提出的方法。如第3.2节所述，具有两个相同的 12层Transformer编码器(尺寸为256)的双编码器双语模型是经过预训练的。后来，我们使用此预训练模型进行初始化，以使用不同的门限网络训练我们的MoE模型。为了进行公平的比较，我们使用较大的编码器 (维度512)重建基线，以便模式大小可以与建议的MoE模型相似。编码器表示通过层归一化仿射变换向下投影到解码器维度，其他条件的控制与以前的基准Transformer模型和MoE模型相同。

表2：使用所有单语和语种混杂数据训练的不同系统的性能比较 (CER/WER)(％)。中间部分给出了新提出的MoE系统的性能，通过外部LID(MoE-ext)和内置LID(MoE-in)门限网络分别学习MoE 系数。对于内置门限网络，监督模式和非监督模式分别对应于λlid＝0.1和λlid＝0.0。注意，外部LID分类器的参数是为外部LID方法计算的，因此参数要大得多。

表2的顶部和中间部分显示了基准和MoE系统的性能。可以观察到，提出的基于双编码器的MoE模型具有更好的利用单语数据的能力，并且单语集的性能甚至接近表1中的纯单语言系统的性能证明了单独编码器建模的效率。此外，该方法在语种混杂测试集上也实现了显着的改进，最高相对于基准Transformer模型的相对误差降低了10.4％。

4.4评估不同的门限网络

此外，我们比较了不同的LID门限网络的MoE系数，结果如表2所示。对于外部LID方法，我们训练了基于12层SAN的模型来对帧级 LID进行分类，预训练的CTC模型用作初始化的种子模型，以获得更高的LID精度。对于内置LID方法，LID任务仅采用单个线性层。我们还尝试用更复杂的LSTM结构替换线性层，但是没有获得进一步的改进。可以看出，内置门限网络的性能优于外部门限网络。对于内置门限网络中的两种模式，无监督模式略胜于有监督模式。

为了更好地提高语种混杂数据的系统性能，我们采用迁移学习策略仅对语种混杂训练数据进行MoE系统的再训练，其结果如表2的最后一行所示。语种混杂数据可以在语种混杂测试集上获得额外的收益，但是域不匹配的单语言测试集会大大降低性能。

4.5MoE系数分析

图3：内置LID方法的无监督学习MoE系数αcn的可视化。其中， (a)为纯中文，(b)为纯英语，(c)为中英混杂语句1，(d)为中英混杂语句2。

我们将无监督学习的MoE系数可视化为不同的话语，包括单语中文和英语话语以及语种混杂话语。如图3中的(a)和(b)所示，当输入话语是纯中文或英语时，在大多数帧中，中文和英语的MoE系数αcn分别接近1或0。从图3的(c)和(d)中可以看出，来自门限网络的MoE系数可以很好地跟随实际切换点执行语种混杂，这进一步证明了所提出的新架构对E2E进行语种混杂的有效性ASR任务。

5.结论和今后的工作

在本文中，我们提出了一种基于双编码器Transformer网络的MoE 架构，以改进基于E2E的中英混杂语音识别。提出的新模型具有更好的利用单语数据的能力，这有助于其语种混杂性能。此外，我们探究了不同的方法来学习MoE插值系数。我们还采用迁移学习策略来更好地提高语种混杂性能。

将来，我们计划研究分层注意力网络，以进一步改进在语种混杂 ASR上基于双编码器多专家模型系统。我们还计划一些知识迁移的方法利用单语语音识别模型进一步改进语种混杂模型。

请参考图4，其示出了本发明一实施例提供的一种中英语种混杂语音识别模型训练装置的框图，其中，所述语音识别模型包括中英双语模型、双编码器多专家模型和门限网络。

如图4所示，中英语种混杂语音识别模型训练装置400，包括预训练模块410、初始化模块420、输入模块430和接收模块440。

其中，预训练模块410，配置为对所述中英双语模型进行预训练；初始化模块420，配置为将预训练好的中英双语模型用作所述双编码器多专家模型的初始化，其中，所述双编码器多专家模型的中文编码器和英文编码器分别输出两个高维特征向量；输入模块430，配置为将所述两个高维特征向量作为所述门限网络的输入；以及接收模块440，配置为接收所述门限网络输出的两个标量系数，并将所述两个标量系数作为所述双编码器多专家模型的插值系数。

在一些可选的实施例中，所述预训练模块还配置为：基于声学特征的先验语种信息将所述声学特征输入对应的编码器，其中，所述编码器包括中文编码器和英文编码器；获取所述编码器的输出向量；以及将所述输出向量输入至中英文共享的连接时序分类层和解码器。

应当理解，图4中记载的诸模块与参考图1中描述的方法中的各个步骤相对应。由此，上文针对方法描述的操作和特征以及相应的技术效果同样适用于图4中的诸模块，在此不再赘述。

值得注意的是，本申请的实施例中的模块并不用于限制本申请的方案，例如接收模块可以描述为接收语音识别请求的模块。另外，还可以通过硬件处理器来实现相关功能模块，例如接收模块也可以用处理器实现，在此不再赘述。

在另一些实施例中，本发明实施例还提供了一种非易失性计算机存储介质，计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行上述任意方法实施例中的中英语种混杂语音识别模型训练方法；

作为一种实施方式，本发明的非易失性计算机存储介质存储有计算机可执行指令，计算机可执行指令设置为：

一种中英语种混杂语音识别模型训练方法，其中，所述语音识别模型包括中英双语模型、双编码器多专家模型和门限网络，所述方法包括：

对所述中英双语模型进行预训练；

将预训练好的中英双语模型用作所述双编码器多专家模型的初始化，其中，所述双编码器多专家模型的中文编码器和英文编码器分别输出两个高维特征向量；

将所述两个高维特征向量作为所述门限网络的输入；

接收所述门限网络输出的两个标量系数，并将所述两个标量系数作为所述双编码器多专家模型的插值系数。

非易失性计算机可读存储介质可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据中英语种混杂语音识别模型训练装置的使用所创建的数据等。此外，非易失性计算机可读存储介质可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至中英语种混杂语音识别模型训练装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本发明实施例还提供一种计算机程序产品，计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序，计算机程序包括程序指令，当程序指令被计算机执行时，使计算机执行上述任一项中英语种混杂语音识别模型训练方法。

图5是本发明实施例提供的电子设备的结构示意图，如图5所示，该设备包括：一个或多个处理器510以及存储器520，图5中以一个处理器510为例。中英语种混杂语音识别模型训练方法的设备还可以包括：输入装置530和输出装置540。处理器510、存储器520、输入装置530 和输出装置540可以通过总线或者其他方式连接，图5中以通过总线连接为例。存储器520为上述的非易失性计算机可读存储介质。处理器510 通过运行存储在存储器520中的非易失性软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中英语种混杂语音识别模型训练方法。输入装置530可接收输入的数字或字符信息，以及产生与中英语种混杂语音识别模型训练装置的用户设置以及功能控制有关的键信号输入。输出装置540可包括显示屏等显示设备。

上述产品可执行本发明实施例所提供的方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本发明实施例所提供的方法。

作为一种实施方式，上述电子设备应用于中英语种混杂语音识别模型训练装置中，包括：

至少一个处理器；以及，与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够：

对所述中英双语模型进行预训练；

将所述两个高维特征向量作为所述门限网络的输入；

本申请实施例的电子设备以多种形式存在，包括但不限于：

(1)移动通信设备：这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iPhone)、多媒体手机、功能性手机，以及低端手机等。

(2)超移动个人计算机设备：这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括：PDA、MID 和UMPC设备等，例如iPad。

(3)便携式娱乐设备：这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如iPod)，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

(4)服务器:提供计算服务的设备，服务器的构成包括处理器、硬盘、内存、系统总线等，服务器和通用的计算机架构类似，但是由于需要提供高可靠的服务，因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。

(5)其他具有数据交互功能的电子装置。

以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种中英语种混杂语音识别模型训练方法，其中，所述语音识别模型包括中英双语模型、双编码器多专家模型和门限网络，所述方法包括：

对所述中英双语模型进行预训练；

将所述两个高维特征向量作为所述门限网络的输入；

2.根据权利要求1所述的方法，其中，所述对所述中英双语模型进行预训练包括：

基于声学特征的先验语种信息将所述声学特征输入对应的编码器，其中，所述编码器包括中文编码器和英文编码器；

获取所述编码器的输出向量；

将所述输出向量输入至中英文共享的连接时序分类层和解码器。

3.根据权利要求2所述的方法，其中，所述声学特征包括纯中文数据和纯英文数据。

4.根据权利要求3所述的方法，其中，将预训练好的中英双语模型用作所述双编码器多专家模型的初始化包括：

基于预训练的好的中英文双语模型中的所述中文编码器、所述英文编码器、所述连接时序分类层和所述解码器对所述双编码器多专家模型进行初始化；

将纯中文数据、纯英文数据和中英文混杂数据输入至初始化后的双编码器多专家模型中进行训练。

5.根据权利要求4所述的方法，其中，所述将纯中文数据、纯英文数据和中英文混杂数据输入至初始化后的双编码器多专家模型中进行训练包括：

6.根据权利要求1-5中任一项所述的方法，其中，所述双编码器多专家模型与所述门限网络一起进行训练，所述门限网络的插值通过无监督学习得到。

7.一种中英语种混杂语音识别模型训练装置，其中，所述语音识别模型包括中英双语模型、双编码器多专家模型和门限网络，所述装置包括：

预训练模块，配置为对所述中英双语模型进行预训练；

初始化模块，配置为将预训练好的中英双语模型用作所述双编码器多专家模型的初始化，其中，所述双编码器多专家模型的中文编码器和英文编码器分别输出两个高维特征向量；

输入模块，配置为将所述两个高维特征向量作为所述门限网络的输入；

接收模块，配置为接收所述门限网络输出的两个标量系数，并将所述两个标量系数作为所述双编码器多专家模型的插值系数。

8.根据权利要求7所述的装置，其中，所述预训练模块还配置为：

获取所述编码器的输出向量；

9.一种计算机程序产品，所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，使所述计算机执行权利要求1-6中任一项所述的中英语种混杂语音识别模型训练方法的步骤。

10.一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1至6任一项所述方法的步骤。