CN110556100B

CN110556100B - 端到端语音识别模型的训练方法及系统

Info

Publication number: CN110556100B
Application number: CN201910853470.5A
Authority: CN
Inventors: 俞凯; 钱彦旻; 黄明坤; 卢怡宙; 王岚
Original assignee: Sipic Technology Co Ltd
Current assignee: AI Speech Ltd
Priority date: 2019-09-10
Filing date: 2019-09-10
Publication date: 2021-09-17
Anticipated expiration: 2039-09-10
Also published as: CN110556100A

Abstract

本发明公开一种端到端语音识别模型的训练方法，所述端到端语音识别模型包括编码器和解码器，所述方法包括：预先训练得到声学模型和交叉熵语言模型；基于所述声学模型初始化所述端到端语音识别模型的编码器；根据所述交叉熵语言模型初始化所述端到端语音识别模型的解码器；对初始化之后的所述端到端语音识别模型进行训练。采用多阶段预训练的方式，避免了模型训练早期的长时间缓慢学习阶段，从而极大削减模型训练时间。同时这种策略没有超参数需要调优，相对于现有技术，避免了大量繁琐的超参数调优。

Description

端到端语音识别模型的训练方法及系统

技术领域

本发明涉及语音识别技术领域，尤其涉及一种端到端语音识别模型的训练方法及系统。

背景技术

现有技术中为了训练出一个好的端到端系统采用的方法有预热和超长学习率调度策略，但都相当于缓慢的增加模型学习强度，当模型训练到一个比较好的状态时再按照正常的方式继续训练。

从本质上讲，预热以及超长学习率调度都是为了给模型提供一个好的初始状态。但是这些技术的缺陷是需要针对特定模型进行大量超参数调优，不通用，都需要长时间的训练，非常耗时。这些相似技术想要取得好的效果，需要使用者有丰富的调参经验，专业性要求高，人力成本高。

发明内容

本发明实施例提供一种端到端语音识别模型的训练方法及系统，用于至少解决上述技术问题之一。

第一方面，本发明实施例提供一种端到端语音识别模型的训练方法，所述端到端语音识别模型包括编码器和解码器，所述方法包括：

预先训练得到声学模型和交叉熵语言模型；

基于所述声学模型初始化所述端到端语音识别模型的编码器；

根据所述交叉熵语言模型初始化所述端到端语音识别模型的解码器；

对初始化之后的所述端到端语音识别模型进行训练。

第二方面，本发明实施例提供一种端到端语音识别模型的训练系统，所述端到端语音识别模型包括编码器和解码器，所述系统包括：

预训练模块，用于预先训练得到声学模型和交叉熵语言模型；

第一初始化模块，用于基于所述声学模型初始化所述端到端语音识别模型的编码器；

第二初始化模块，用于根据所述交叉熵语言模型初始化所述端到端语音识别模型的解码器；

端到端模型训练模块，用于对初始化之后的所述端到端语音识别模型进行训练。

第三方面，本发明实施例提供一种存储介质，所述存储介质中存储有一个或多个包括执行指令的程序，所述执行指令能够被电子设备(包括但不限于计算机，服务器，或者网络设备等)读取并执行，以用于执行本发明上述任一项端到端语音识别模型的训练方法。

第四方面，提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明上述任一项端到端语音识别模型的训练方法。

第五方面，本发明实施例还提供一种计算机程序产品，所述计算机程序产品包括存储在存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，使所述计算机执行上述任一项端到端语音识别模型的训练方法。

本发明实施例的有益效果在于：采用多阶段预训练的方式，避免了模型训练早期的长时间缓慢学习阶段，从而极大削减模型训练时间。同时这种策略没有超参数需要调优，相对于现有技术，避免了大量繁琐的超参数调优。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的端到端语音识别模型的训练方法的一实施例的流程图；

图2为本发明的端到端语音识别模型的训练方法的另一实施例的流程图；

图3为本发明的端到端语音识别模型的训练方法的另一实施例的流程图；

图4为本发明的端到端语音识别模型的训练系统的一实施例的示意图；

图5为本发明的端到端语音识别模型的训练方法的另一实施例的流程图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、元件、数据结构等等。也可以在分布式计算环境中实践本发明，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

在本发明中，“模块”、“装置”、“系统”等指应用于计算机的相关实体，如硬件、硬件和软件的组合、软件或执行中的软件等。详细地说，例如，元件可以、但不限于是运行于处理器的过程、处理器、对象、可执行元件、执行线程、程序和/或计算机。还有，运行于服务器上的应用程序或脚本程序、服务器都可以是元件。一个或多个元件可在执行的过程和/或线程中，并且元件可以在一台计算机上本地化和/或分布在两台或多台计算机之间，并可以由各种计算机可读介质运行。元件还可以根据具有一个或多个数据包的信号，例如，来自一个与本地系统、分布式系统中另一元件交互的，和/或在因特网的网络通过信号与其它系统交互的数据的信号通过本地和/或远程过程来进行通信。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”，不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本领域技术人员由于没有端到端模型部署经验，一般会套用传统模型训练的方式来训练端到端模型。而这样是行不通的，因为大量的研究工作表明，端到端模型结构复杂，需要精细化的调优才能达到好的效果。比如上文所述预热和超长学习率调度等策略。而这些策略并没有在传统模型训练过程中应用过。即使从业人员应用了上述技术，也会面临我们说到的问题：这些技术不通用，加上从业人员经验不足，导致模型调优花费巨量的人力物力，最终可能难以达到好的效果。故，连这些技术的部署都存在如此多的困难，更别说想到我们的技术了。至于为何难以想到我们的技术，根本原因在于目前的研究领域均采用上述所提及的三种方式，在某一种或一类模型上进行大量重复实验，一般会得到相对可靠的结果，这样会导致从业人员失去进一步优化的空间，因为这些技术的部署过程非常耗时耗力。

如图1所示，本发明的实施例提供一种端到端语音识别模型的训练方法，所述端到端语音识别模型包括编码器和解码器，所述方法包括：

S10、预先训练得到声学模型和交叉熵语言模型；所述声学模型为音素声学模型。

S20、基于所述声学模型初始化所述端到端语音识别模型的编码器；

S30、根据所述交叉熵语言模型初始化所述端到端语音识别模型的解码器；

S40、对初始化之后的所述端到端语音识别模型进行训练。

本申请实施例提出了一种多阶段预训练技术，通过对三种主流序列到序列模型的分析，将各自模型的潜力充分发挥出来。相对而言，Google的预训练方式只在RNN-T上部署过，而他们的模型结构是经过精心设计的，他们的预训练也是根据精心设计的模型进行调优的。我们提出的多阶段预训练策略则适用于所有端到端模型，包括目前主流的CTC、RNN-T、Attention等结构，而且这种预训练方式具有极强的扩展性，它可以应用到几乎所有模型训练中。从而它的通用性是极强的。再者，相比于预热和超长学习率调度，我们采用多阶段预训练的方式，避免了模型训练早期的长时间缓慢学习阶段，从而极大削减模型训练时间。同时这种策略没有超参数需要调优，相对于上述三种技术(Google的技术以及预热和超长学习率调度策略)，避免了大量繁琐的超参数调优。

在一些实施例中，所述交叉熵语言模型为字符交叉熵语言模型或者子单词交叉熵语言模型或者单词交叉熵语言模型；

如图2所示，在本实施例中，所述预先训练得到声学模型包括：

S11、以声学特征为输入，以音素为输出对CTC模型进行训练得到音素声学模型；

S12、将所述音素声学模型作为初始声学模型；

S13、以声学特征为输入，以设定建模单元为输出对所述初始声学模型进行训练得到目标声学模型；

其中，所述设定建模单元为字符时，所述目标声学模型为字符声学模型；所述设定建模单元为子单词时，所述目标声学模型为子单词声学模型；所述设定建模单元为单词时，所述目标声学模型为单词声学模型。

如图3所示，为本申请的端到端语音识别模型的训练方法的另一实施例的流程图，该实施例中以字块为建模单元进行示例性说明，具体包括以下步骤：

首先，训练一个CTC的音素(phone)声学模型。之所以从音素模型开始，因为音素的建模单元少，而且音素是根据发音词典选出来的，本身更接近语音的发音信息，从而模型更容易学习从语音到音素的映射关系。

其次，用训好的音素模型作为字块模型的初始化，训练一个CTC的字块声学模型。前面提到音素模型更容易训练，相对而言，字块由于更接近语言层面的信息，不包含显示的发音信息，所以直接训练起来很难。于是这种从音素起步，到字块的训练方式使得模型更容易训练，收敛得更好。

再次，用交叉熵(CrossEntropy，CE)训练一个用字块作为建模单元的语言模型。

然后，用CTC字块声学模型和CE字块语言模型分别初始化端到端系统的编码器(Encoder)和解码器(Decoder)。

最后，初始化之后端到端系统有了一个非常好的初始状态，于是接着采用以往非常平凡的训练方式接着训练这个初始化后的端到端系统，就可以得到一个性能非常好的端到端系统了。

这个过程看起来比较繁琐，实则不然。如果采用最开始我们介绍的三种类似技术来做这件事情，会发现其中有大量的超参数需要考虑。比如Google的预训练技术需要结合具体模型结构做优化，预热技术需要调节初始训练的时间和调度策略，超长学习率调度策略需要考虑前期学习率的分配方式等等。这些技术无不带来了巨大的实验探索成本。而我们提出的多阶段预训练技术则完美地解决了这些问题。首先，我们预训练的整个过程均采用常规的训练方式，没有引入特殊的策略，容易实现；其次，我们对初始化后的端到端系统采用和预训练阶段一样的训练策略，实现了预训练和正式训练之间的统一，便于大规模批量流水线部署；最后，整套系统的流程非常规范，从头到尾都是标准的训练方式，易于扩展到其它任务，实现真正的通用化。

在一些实施例中，所述交叉熵语言模型包括LSTM层和第一输入嵌入层，所述端到端语音识别模型还包括第二输入嵌入层；

所述根据所述交叉熵语言模型初始化所述端到端语音识别模型的解码器包括：将所述交叉熵语言模型的LSTM层初始化为所述解码器。

所述端到端语音识别模型的训练方法还包括：将所述第一输入嵌入层初始化为所述第二输入嵌入层。

在一些实施例中，所述端到端语言模型还包括连接于所述编码器和所述解码器之间的注意力层，所述方法还包括对所述注意力层的权重进行随机初始化。

在一些实施例中，所述对初始化之后的所述端到端语音识别模型进行训练包括：以所述声学特征作为所述编码器的输入，同时以所述设定建模单元作为所述第二输入嵌入层的输入，对所述端到端语音识别模型进行训练。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作合并，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

如图4所示，本发明的实施例还提供一种端到端语音识别模型的训练系统400，所述端到端语音识别模型包括编码器和解码器，所述系统包括：

预训练模块410，用于预先训练得到声学模型和交叉熵语言模型；所述声学模型为音素声学模型。

第一初始化模块420，用于基于所述声学模型初始化所述端到端语音识别模型的编码器；

第二初始化模块430，用于根据所述交叉熵语言模型初始化所述端到端语音识别模型的解码器；

端到端模型训练模块440，用于对初始化之后的所述端到端语音识别模型进行训练。

所述预先训练得到声学模型包括：

以声学特征为输入，以音素为输出对CTC模型进行训练得到音素声学模型；

将所述音素声学模型作为初始声学模型；

以声学特征为输入，以设定建模单元为输出对所述初始声学模型进行训练得到目标声学模型；

在一些实施例中，所述交叉熵语言模型包括LSTM层；所述根据所述交叉熵语言模型初始化所述端到端语音识别模型的解码器包括：将所述交叉熵语言模型的LSTM层初始化为所述解码器。

在一些实施例中，所述交叉熵语言模型还包括第一输入嵌入层，所述端到端语音识别模型还包括第二输入嵌入层；所述方法还包括：将所述第一输入嵌入层初始化为所述第二输入嵌入层。

在一些实施例中，本发明实施例提供一种非易失性计算机可读存储介质，所述存储介质中存储有一个或多个包括执行指令的程序，所述执行指令能够被电子设备(包括但不限于计算机，服务器，或者网络设备等)读取并执行，以用于执行本发明上述任一项端到端语音识别模型的训练方法。

在一些实施例中，本发明实施例还提供一种计算机程序产品，所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，使所述计算机执行上述任一项端到端语音识别模型的训练方法。

在一些实施例中，本发明实施例还提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行端到端语音识别模型的训练方法。

在一些实施例中，本发明实施例还提供一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现端到端语音识别模型的训练方法。

上述本发明实施例的端到端语音识别模型的训练系统可用于执行本发明实施例的端到端语音识别模型的训练方法，并相应的达到上述本发明实施例的实现端到端语音识别模型的训练方法所达到的技术效果，这里不再赘述。本发明实施例中可以通过硬件处理器(hardware processor)来实现相关功能模块。

以下实施例将从发明人作出本发明创造的过程以及对于本发明创造成果的有益效果进行实验验证的角度进行展开说明。

1、具有深度神经网络的自动语音识别(ASR)通常在具有隐马尔可夫模型(HMM)的混合框架中操作。在推理阶段，外部词典和语言模型与声学模型相结合，所有这些模型都是独立优化的。端到端语音识别是一种流行的方法，它直接将语音转录到文本而不需要声学帧和单词之间的预定义对齐。与混合方法不同，端到端模型学习从声学帧到单词序列的映射，其直接优化给定输入语音观察的单词的概率。

最近关于端到端语音识别的工作可以分类分为三种主要方法：连接时序分类(Connectionist Temporal Classification，CTC)，RNN-T(RNN-Transducer)和基于注意力的模型(attention-based models)。这些方法解决了可变长度输入和输出序列对齐的问题。CTC假设在不同时间步长给定输入帧的情况下预测是条件独立的。这不是语音识别的合理假设。RNN-T和基于注意力的模型使用额外的解码器网络建立预测之间的联系。因此，基于注意力的编码器解码器网络已经变得流行用于机器翻译和语音识别。这些模型通常经过训练以输出基于字符的单元：字形，字节对编码或字块，它们允许模型直接映射帧级输入音频特征到输出字序列，不使用任何外部发音词典。因此，当使用这种子单词单元时，端到端语音识别模型共同学习单个神经网络内的声学模型，发音模型和语言模型。实际上，当对足够大量的数据进行训练时，这些模型的性能优于传统方法。现有技术中探索了RNN-T的体系结构和建模单元，并已成功应用于实际应用。

有研究比较这三种模型。其他工作分别比较了注意力模型和RNN-T的建模单元。然而，没有确凿的研究将这些模型与各种输出单位进行比较。同时，我们发现从头开始训练最先进的端到端系统仍然很困难。

本申请研究了使用各种建模单元(字符，子单词和单词)来训练端到端语音识别模型。具体提出了一种多阶段预训练策略，即分别从CTC声学模型和CE语言模型初始化编码器和解码器网络。具体来说，对于编码器预训练，我们从CTC音素模型开始，然后使用该音素模型作为子单词模型的初始化，训练得到一个CTC子单词模型。实验表明，这种初始化策略明显优于从头开始训练甚至是CTC音素模型初始化。我们首先在Switchboard数据集上进行实验，在Hub5’00基准测试集上，所有字单元的端到端系统都要优于字符的。为了提高端到端系统的性能，我们还调查了其他训练策略，如标签平滑和数据增强。我们不使用任何外部语言模型，在Switchboard/CallHome测试集上取得了5.9％/12.1％的WER，这比以前发布的最佳混合系统(6.7％/12.5％)要好很多。

2、回顾用于ASR的序列到序列模型

以下将描述多种不同的用于语音识别的序列到序列建模的方法。给定原始语音波形，首先提取一系列输入声学特征x＝(x₁，x₂，……x_T)，然后将其馈送到序列到序列模型中。序列到序列模型的编码器将声学特征x映射到具有长度T′的高级表示h＝(h₁，h₂，……h_T′)，如果在编码器中应用时间尺度下采样，则T′可以比T短。模型的解码器利用编码表示的h并输出预测的序列。我们将U长度输出序列表示为y＝(y₁，y₂，……y_U)，其中y由字符，子单词或单词组成。通常，序列到序列模型需要定义P(y|x)的序列概率，序列到序列建模的关键挑战是整个模型不仅作为分类器，而且作为调整器用于的推断h与目标序列y之间的对齐。

2.1、连接时序分类(CTC)

CTC标准考虑了输入和输出之间的所有可能的对齐，而不需要预先分段的训练数据。只要整个输出序列正确，它就允许模型在输入序列中随时进行标签预测。引入增强预测空白单元

以完成与h相同长度的输出序列。多对一函数F(其首先移除所有重复符号然后移除所有空白单元

)被定义为从潜在路径π确定输出序列y。其反函数F^-1用于将目标序列y映射到相应的路径集。

利用映射函数和条件独立假设，CTC将给定声学序列x的输出序列y的后验概率P(y|x)定义为：

在CTC模型中用作简单解码器的单个softmax层用于估计条件概率P(π_t|h_t)。通过前向-后向动态规划算法，可以有效地计算方程1中的序列概率。通常优化CTC模型以最小化所有训练样本的P(y|x)的负对数概率。通过在每个时间步简单地选择最可能的符号，可以使用贪心算法来解码CTC模型。

2.2、RNN-T

为了建模输出符号之间的依赖关系，RNN Transducer使用附加预测网络强化了CTC模型。将

表示为空符号，预测网络将所有先前的标签预测(

y₁，y₂……y_u-1)作为输入来计算用于下一预测的向量p_u。将该语言得分p_u与声学得分h_t一起馈入联合网络以计算转移概率P(k|t，u)，其可以如下计算：

z_t，u＝tanh(W_hh_t+W_pp_u+b) (2)

e_t，u＝W_zz_t，u+d (3)

其中，W_h、W_p、W_z、b、d是模型的参数。e_t，u的第k个元素表示为e^k _t，u，P(k|t，u)定义了所有符号单元加

上的分布。

可以使用动态编程算法有效地计算条件概率P(y|x)，其类似于CTC标准。对于RNN-T模型，预测不仅依赖于声学表示，还依赖于先前的预测。因此，即使没有外部语言模型，也可以更好地建模标签上下文依赖性。

2.3、基于注意力的模型

基于注意力的模型利用解码器中的声学表示，并基于所有先前的推断标签y_＜u进行预测：

与声学特征和语言特征在单独网络中建模并通过联合网络相结合的RNN-T模型不同，基于注意力的模型使用注意力机制来生成加权系数α_u并且仅使用解码器中的加权平均向量(注意向量)。在每个解码步骤中，仅将最相关的特征用于预测。也就是说，基于注意力的模型通过注意机制产生“软”对齐：

s_u＝RNN(s_u-1，y_u-1) (6)

c_u＝Attention(s_u，α_u-1，h) (7)

P(y_u|h，y_＜u)＝MLP(s_u，c_u) (8)

其中，s_u是注意力的查询键，c_u是结果注意力向量，先前预测的符号y_u-1作为单热矢量馈入。可以采用各种注意机制，我们在实验中使用位置感知注意来考虑先前的比对α_u-1，其计算方法如下：

f_u＝F*α_u-1 (10)

其中，等式10中的F用于精确向量f_t，u在每个位置t来自先前的比对α_u-1。训练整体注意力模型以优化训练数据的交叉熵。

3.模型单元和训练策略

我们将字符(characters)，子单词(wordpieces)和单词(words)作为端到端模型的建模单元进行研究。字符单元(characters)包括字母(a至z)，数字(0至9)，标点符号(&％/-)，特殊转录符号('[笑声]'，'[噪音]'，'[发声噪音]')和一个额外的空格符号。空格符号用于将识别的字符序列分割为字序列。我们训练统计字库模型，其中字数从训练集文本数据中获得，用于将每个单词分别分成子字。子单词模型也可以输出任何字符模型具有的单元。

不同输出单元的标签长度可能不同。编码器中的时间尺度下采样量会影响模型收敛和性能。在本申请中，我们研究了三种类型的下采样方法：堆叠连续帧，金字塔池和卷积最大池。

我们发现从头开始训练端到端模型既困难又棘手。为了实现快速收敛和更好的性能，我们提出了一种多阶段预训练策略，如图5所示。即，分别从CTC训练的声学模型和CE训练的语言模型初始化编码器和解码器网络。首先，我们使用CTC标准训练音素模型。然后，我们训练从CTC训练的音素模型初始化的CTC子字模型。之后，我们将编码器网络从CTC训练的子字模型初始化为训练基于注意力的模型和RNN-T。

近年来，ADAM在序列到序列任务的优化中很受欢迎。虽然现有技术在Switchboard和Fisher任务上显示了有希望的结果，但在使用SGD时仍然很难安排学习率。为了找到更简单和更好的调度方法，我们比较了ADAM和SGD之间的性能。

4、实验

我们在Switchboard-300hrs和Switchboard+Fisher-2000hrs两个数据集上进行了实验。40维log-mel以10ms的步长和25ms的窗口大小提取滤波器组，然后进行全局归一化，使得每个输入频谱图箱具有零均值和单位方差。我们不会在任何模型中使用说话人信息。评估在NIST 2000CTS测试集的SWBD(Switchboard)和CH(Callhome)子集上进行。用于解码CTC音素模型的语言模型是swbd+fisher 3-gram LM。对于端到端系统，我们在解码过程中不使用任何语言模型。

4.1、模型说明和训练细节

我们使用40维log-mel特征作为输入。为了降低GPU内存消耗并加速训练阶段，我们降低了编码器中的输入帧速率，这对于成功训练序列到序列语音模型非常重要。因此，我们首先在CTC音素模型上探索不同的子采样率。然后我们选择最佳子采样类型来进行子字实验。具体而言，我们的编码器可选地包括两层具有32个通道的3X3卷积，导致总时间缩减因子为4。在卷积层之上，编码器包含4或5层双向LSTM，每层有512个单元。解码器由2个LSTM层和1024个隐藏单元组成，并使用现有技术中描述的位置感知的注意力机制。此外，我们比较了两种不同的优化器，SGD和ADAM。我们使用1e-3作为初始学习率和动量0.9，并且一旦验证集的损失没有改善就将其减半。对于Switchboard数据集，我们在32个批量大小的单GPU上训练模型。对于Switchboard+Fisher，我们在4个GPU上使用同步训练，批量大小为20。

4.2、训练策略探索

为了快速探索，我们首先在CTC模型上比较SGD和ADAM。表1显示ADAM在音素和字块单元上的表现优于SGD。然后我们使用ADAM优化器进行进一步的实验。

表1.SGD和ADAM在CTC模型上的性能比较。音素和字块都使用4个BLSTM层。

编码器中的时间步长减少是控制存储器使用和训练时间的有效方法。为了快速模型收敛和更好的性能，我们首先研究三种子采样方法，然后将最佳配置应用于进一步的实验。表2显示了CTC音素模型上三种子采样方法的结果：每3帧堆叠和抽取，BLSTM层之间的金字塔池和最大池的卷积前端。最后两个方法在我们的设置中给出4倍的子采样率。

表2.4BLSTM CTC音素型号的不同子采样方法的结果。

表2显示卷积前端优于其他两种子采样类型。具有卷积前端的模型在13个轮次收敛，每个轮次的运行时间约为23分钟。具有前两种方法的模型分别在16和18个轮次内收敛，并且它们的运行时间约为32分钟。考虑到更好的性能和收敛性，我们后来的实验使用卷积前端作为默认值。

速度扰动对端到端系统有很大贡献。为了进一步提高模型性能，我们比较了使用扰动训练数据时的两种策略。表3显示了CTC音素模型的结果。第1行是基线模型。第2行使用0.9,1.0和1.1扰动的训练数据。第3行仅使用1倍的扰动数据，这意味着在每个轮次，它是随机的为每个话语选择一个扰动特征。随机使用1倍的扰动数据可以提高7.4％的改善率。在我们的实验后面，我们使用这种随机扰动策略作为默认值。

表3.5BLSTM CTC音素型号的速度扰动。

通过上面讨论的策略，我们首先进行在子单词单元上进行实验。我们调查影响力各种初始化方法。为了充分利用编码器-解码器架构的潜力，我们提出了一种多阶段预训练策略。也就是说，我们从CTC音素模型开始，然后使用该音素模型来初始化CTC子单词模型。为了更快收敛，我们还从预训练的语言模型初始化解码器网络。表4显示，多阶段预训练可以从头开始显着改善训练。更具体地说，CTC音素模型初始化对于CTC，注意力和RNN-T子单词模型分别给出了8.0％，18.7％和13.5％的相对改进。使用CTC子单词模型进行初始化可以进一步使得注意力机制和RNN-T模型相对提高7.9％和5.4％。

表4.序列到序列模型的比较具有不同初始化模型的字块单元。

4.3、模型单位的比较

我们在三个建模上训练我们的序列到序列模型单位，即字符，子单词和单词。对于RNN-T模型，由于我们使用联合网络，当词汇量大小为10k时，我们甚至无法将单个话语提供给GPU内存。因此，我们跳过RNN-T对大词汇量的结果。表5显示，即使使用预训练的音素编码器，CTC字符模型仍然远离任何端到端系统。这主要是因为CTC做出的条件独立性假设使得很难对长的上下文信息进行建模。我们观察到，对于CTC模型，单词单元相对于子单词单元的相对改进为8.0％。我们发现RNN-T和注意力模型在SWBD测试集上表现相似。通过多阶段预训练，他们都有巨大的性能提升。带有子单词单元的注意力模型优于我们所有的系统。

表5.具有各种输出单元的序列到序列模型的比较。多阶段预训练用于提高注意力和RNN-T模型。使用贪婪搜索报告所有结果。

4.4优化改进

为了进一步利用注意力模型的表现，本申请使用标签平滑到我们在子单词-1k单元上的最佳系统。我们通过所有标签上的一元分布来平滑地面实况标签分布。表6示出了具有不确定性0.1的单字组标签平滑，并且通过具有光束尺寸8的光束搜索获得结果。

表6.使用SpecAugment的Unigram标签平滑(lsm)。

我们观察到在训练和验证集上报告的对数可能性仍然存在巨大差距。我们发现这些网络往往过度适应训练数据(即，过拟合)。为了提高泛化能力，我们将SpecAugment应用于我们上面报告的最佳系统。

然后，我们使用与Switchboard数据集相同的训练策略在Switchboard+Fisher数据集上进行实验，没有速度扰动。我们在4个GPU上使用同步训练，使用子单词-1k单位。我们的CTC音素模型的WER为9.4％/17.0％。表7列出了模型的性能以及其他公布的结果。

表7.与没有声学模型适应的Switchboard+Fisher Hub5'00基准测试的先前公布结果的WER比较。这里我们仅列出单系统的结果。所有混合系统都使用N-gram语言模型报告了WER。我们使用贪婪搜索报告我们的结果。

5、分析

我们观察到这项工作中描述的很大一部分改进来自于替换错误的减少，如下表8所示SWBD测试集的错误分析。

使用字块而不是字符分别导致SWBD和CH测试集的相对分别为5.7％和20.5％。关注模型。虽然RNN-T模型的改进相对较小，但SWBD和CH测试集的改进仅为3％左右。没有外部语言模型，具有字符单元的CTC模型不是与我们拥有的任何系统相当。

6、总结

我们对端到端语音识别任务的不同建模单元上的三种流行模型进行了全面比较。考虑到性能和训练/推理速度，我们发现子单词优于字符和单词。我们还提出了一个多阶段预训练策略，通过它我们可以在Switchboard/CallHome测试集上实现最新的最先进性能。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种端到端语音识别模型的训练方法，所述端到端语音识别模型包括编码器和解码器，所述方法包括：

预先训练得到声学模型和交叉熵语言模型；

对初始化之后的所述端到端语音识别模型进行训练；

其中，所述交叉熵语言模型为字符交叉熵语言模型或者子单词交叉熵语言模型或者单词交叉熵语言模型；

所述预先训练得到声学模型包括：

将所述音素声学模型作为初始声学模型；

2.根据权利要求1所述的方法，其中，所述声学模型为音素声学模型。

3.根据权利要求1所述的方法，其中，

所述交叉熵语言模型包括LSTM层；

4.根据权利要求3所述的方法，其中，所述交叉熵语言模型还包括第一输入嵌入层，所述端到端语音识别模型还包括第二输入嵌入层；所述方法还包括：将所述第一输入嵌入层初始化为所述第二输入嵌入层。

5.根据权利要求4所述的方法，其中，所述端到端语言模型还包括连接于所述编码器和所述解码器之间的注意力层，所述方法还包括对所述注意力层的权重进行随机初始化。

6.根据权利要求5所述的方法，其中，所述对初始化之后的所述端到端语音识别模型进行训练包括：

以所述声学特征作为所述编码器的输入，同时以所述设定建模单元作为所述第二输入嵌入层的输入，对所述端到端语音识别模型进行训练。

7.一种端到端语音识别模型的训练系统，所述端到端语音识别模型包括编码器和解码器，所述系统包括：

端到端模型训练模块，用于对初始化之后的所述端到端语音识别模型进行训练；

所述预先训练得到声学模型包括：

将所述音素声学模型作为初始声学模型；

8.一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-6中任意一项所述方法的步骤。

9.一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1-6中任意一项所述方法的步骤。