CN111480197B

CN111480197B - 语音识别系统

Info

Publication number: CN111480197B
Application number: CN201880079228.0A
Authority: CN
Inventors: 堀贵明; 渡部晋司; J·赫尔希
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2017-12-15
Filing date: 2018-05-21
Publication date: 2023-06-27
Anticipated expiration: 2038-05-21
Also published as: WO2019116604A1; US20190189115A1; US10672388B2; EP3711045B1; EP3711045A1; JP2021501376A; JP6929466B2; CN111480197A

Abstract

一种语音识别系统包括：接收话语声音的输入装置、一个或更多个处理器以及一个或更多个储存装置，所述一个或多个储存装置存储参数和包括使一个或更多个处理器执行操作的指令的程序模块。操作包括：从由话语声音转换的音频波形数据中提取声学特征序列；使用具有编码器网络参数的编码器网络将声学特征序列编码为隐藏向量序列；通过将隐藏向量序列馈送至具有解码器网络参数的解码器网络来预测第一输出标签序列概率；通过使用字符类语言模型(LM)和单词级LM的混合网络来预测第二输出标签序列概率；以及使用标签序列搜索模块，通过组合从解码器网络和混合网络提供的第一输出标签序列概率和第二输出标签序列概率，来搜索具有最高序列概率的输出标签序列。

Description

语音识别系统

技术领域

本发明总体上涉及用于开放词表的端到端语音识别的设备及方法，更具体地，涉及用于基于字符级和单词级语言模型的端到端自动语音识别的方法和系统。

背景技术

自动语音识别是目前已广泛展开的一组成熟技术，在诸如语音搜索之类的接口应用中取得了巨大成功。但是，构建实现高识别准确度的语音识别系统并不容易。一个问题在于它需要关于系统接受的目标语言的深入语言学知识。例如，音素的集合、词表和发音词库对于构建这样的系统是必不可少的。音素集需要由语言的语言学家仔细定义。需要通过为包括超过10万单词的词表中的每个单词指派一个或更多个音素序列来手动创建发音词库。此外，一些语言没有明确的单词边界，因此我们可能需要切分(tokenization)以从文本语料库创建词表。因此，对于非专家而言，开发语音识别系统非常困难，尤其是对于小语种。另一个问题在于语音识别系统被分解为包括单独进行优化的声学模型、词库模型和语言模型的几个模块。尽管训练每个模型以匹配其它模型，但该架构可能会导致局部最优。

端到端语音识别的目标是将传统架构简化为深度学习框架内的单个神经网络架构。为了处理或解决这些问题，在一些文献中已经讨论了各种技术。最先进的端到端语音识别系统被设计为预测给定语音输入的字符序列，这是因为直接从没有发音词库的语音中预测单词序列比预测字符序列困难得多。但是，由于对长字符序列的语言学约束进行建模的难度，因此基于字符的预测通常相对于基于单词的预测表现不佳。如果我们具有附带相应转录的更多的语音数据，我们可以训练一个预测单词序列的更好的神经网络。但是，收集这样的转录语音数据并用大数据集来训练网络是非常昂贵的。因此，在端到端语音识别中并入单词级预测以提高识别准确度并不容易。

发明内容

本公开的一些实施方式基于以下认识：在端到端自动语音识别(ASR)架构中，可以通过字符级和单词级语言模型(LM)的组合来改进标签序列预测，其中，LM可以是包含长短期记忆(LSTM)单元的递归神经网络(RNN)。

字符级LM与注意力解码器网络模块和联结主义时序分类(CTC)模块相结合，以用于端到端ASR。字符级LM提高了识别准确度，以在一些语言中与最先进的基于DNN/HMM的ASR系统媲美。尽管字符级架构可以提供开放词表的ASR的方法，但是由于对长字符序列的语言学约束进行建模的难度，因此对于具有少量字母的诸如英语之类的语言来说，字符级LM相对于单词级LM通常表现不佳。

本发明的一些实施方式提供了一种用于在字符级和单词级二者的LM进行端到端ASR解码的新颖方法。在本发明的解码过程中，首先用字符级LM对字符序列假设进行评分，直到遇到单词边界。然后，使用单词级LM对已知单词进行再评分，而字符级LM为词表外单词提供评分。

这种方法充分利用了字符级和单词级架构的优势，并实现了高准度的开放词表的端到端ASR。评估结果将在本公开的最后利用标准华尔街日报(WSJ)任务进行讨论，并示出开放词表的端到端ASR的显著改进。

根据本发明的一些实施方式，一种语音识别系统包括：接收话语声音的输入装置；一个或更多个处理器；以及一个或多个储存装置，该一个或多个储存装置存储参数和包括一个或更多个处理器能执行的指令的程序模块，当执行这些指令时使一个或更多个处理器执行包括以下内容的操作：使用声学特征提取模块从由话语声音转换的音频波形数据中提取声学特征序列；使用具有编码器网络参数的编码器网络将声学特征序列编码为隐藏向量序列；通过将隐藏向量序列馈送至具有解码器网络参数的解码器网络来预测第一输出标签序列概率；通过使用字符级语言模型(LM)和单词级LM的混合网络来预测第二输出标签序列概率；以及使用标签序列搜索模块，通过组合从解码器网络和混合网络提供的第一输出标签序列概率和第二输出标签序列概率，来搜索具有最高序列概率的输出标签序列。

根据本发明的另一实施方式，一种非暂时性计算机可读记录介质，该非暂时性计算机可读记录介质存储有程序，该程序使与存储器通信的计算机执行语音识别过程，该语音识别过程包括：提供话语声音；使用声学特征提取模块从由话语声音转换的音频波形数据中提取声学特征序列；使用具有编码器网络参数的编码器网络将声学特征序列编码为隐藏向量序列；通过将隐藏向量序列馈送至具有解码器网络参数的解码器网络来预测第一输出标签序列概率；通过使用字符级语言模型(LM)和单词级LM的混合网络来预测第二输出标签序列概率；以及使用标签序列搜索模块，通过组合从解码器网络和混合网络提供的第一输出标签序列概率和第二输出标签序列概率，来搜索具有最高序列概率的输出标签序列。

将参照附图进一步解释当前公开的实施方式。所示的附图并非按比例绘制，而是通常将重点放在说明当前公开的实施方式的原理上。

附图说明

[图1]

图1是例示了根据相关技术的基于注意力的端到端语音识别方法的框图。

[图2]

图2是例示了根据本发明的实施方式的开放词表的端到端语音识别模块的框图。

[图3]

图3是例示了根据本发明的实施方式的开放词表的端到端语音识别模块中的神经网络的示意图。

[图4]

图4是例示了根据本发明的实施方式的开放词表的端到端语音识别系统的框图。

[图5A]

图5A是根据本发明的实施方式的通过执行开放词表的端到端语音识别所获得的评估结果。

[图5B]

图5B示出了根据本发明的实施方式的具有不同语言模型的单词错误率(WER)。

[图6]

图6是根据本发明的实施方式的依据开放词表的端到端语音识别的指示作为波束宽度的函数的单词错误率的评估结果。

[图7]

图7是指示当使用从20K到65K的不同词表大小和开放词表条件时的WER比较的评估结果。

具体实施方式

尽管上面标识的附图阐述了当前公开的实施方式，但是如讨论中所指出的，也可以考虑其它实施方式。本公开通过表示而非限制的方式呈现了示例性实施方式。本领域技术人员可以设计落入当前公开的实施方式的原理的范围和精神内的许多其它变型和实施方式。

以下描述仅提供了示例性实施方式，并非旨在限制本公开的范围、适用性或配置。相反，示例性实施方式的以下描述将为本领域技术人员提供能够用于实现一个或更多个示例性实施方式的描述。在不脱离如所附权利要求书中提出的那样公开的主题的精神和范围的情况下，可以想到在元件的功能和布置上可进行各种变型。

在以下描述中给出了具体细节以提供对实施方式的透彻理解。然而，本领域普通技术人员可以理解，实施方式可以在没有这些具体细节的情况下来实践。例如，所公开的主题中的系统、过程和其它元件可以以框图形式示出为组件，以免在不必要的细节上模糊实施方式。在其它情况下，可以示出公知的过程、结构和技术，而没有不必要的细节，以避免使实施方式模糊。此外，各个附图中相似的附图标记和指定指示了相似的元件。

另外，各个实施方式可以被描述为这样的过程，该过程被描述为流程图、流图、数据流图、结构图或框图。尽管流程图可以将操作描述为顺序过程，但是许多操作可以并行或并发地执行。另外，操作的次序可以重新排列。当过程的操作完成时，过程可以终止，但是可以具有未讨论或未包含在附图中的其它步骤。此外，在具体描述的任何过程中的所有操作并非可以在所有实施方式中发生。过程可以对应于方法、函数、程序、子例程、子程序等。当过程对应于函数时，函数的终止可以对应于函数返回到调用函数或主函数。

此外，所公开主题的实施方式可以至少部分或者手动地或自动地实现。手动或自动实现可以通过使用机器、硬件、软件、固件、中间件、微代码、硬件描述语言或其任意组合来实施或至少得到辅助。当以软件、固件、中间件或微代码实现时，执行必要任务的程序代码或代码段可以存储在机器可读介质中。处理器可以执行必要任务。

本公开中示例的模块和网络可以是可以使用一个或更多个处理器来执行的计算机程序、软件或指令代码。模块和网络可以存储在一个或更多个储存装置中，或者以其它方式存储在诸如储存介质、计算机储存介质或数据储存设备(可移动和/或不可移动)之类的计算机可读介质中(例如，磁盘、光盘或磁带)，其中，从一个或更多个处理器可访问计算机可读介质以执行指令。

计算机储存介质可以包括以任何方法或技术实现的用于储存诸如计算机可读指令、数据结构、程序模块或其它数据之类的信息的易失性和非易失性、可移动和不可移动介质。计算机储存介质可以是RAM、ROM、EEPROM或闪存、CD-ROM、数字多功能磁盘(DVD)或其它光储存器、盒式磁带、磁带、磁盘储存器或其它磁储存装置，或能够用于存储所需信息并且能够通过使用一个或更多个处理器的应用、模块或应用和模块二者访问的任何其它介质。任何这样的计算机储存介质可以是装置的一部分，或者可以是装置可访问的介质或者可连接至装置。可以使用可由这种计算机可读介质存储或以其它方式保存的计算机可读/可执行指令来实现本文描述的任何应用或模块。

图1是例示了根据相关技术的基于注意力的端到端语音识别模块100的框图。在基于注意力的端到端语音识别模块100中，编码器模块102首先使用从编码器网络参数103读取的编码器网络将声学特征序列101转换为隐藏向量序列。接下来，注意力解码器模块104接收来自编码器网络模块102的隐藏向量序列和来自标签序列搜索模块106的先前标签，并使用从解码器网络参数105读取的解码器网络来计算针对先前标签的下一标签的后验概率分布，其中标签可以是字母、音节、单词或代表目标语言的任何单位，但是广泛使用字母。标签序列搜索模块106使用注意力解码器模块104给出的后验概率分布来找到具有最高序列概率的标签序列，其中，标签序列的后验概率被计算为序列中标签的后验概率的乘积。

基于注意力的端到端语音识别系统通常被设计为预测给定语音输入的字符序列，这是因为与系统预测单词序列的情况相比，可以用更少量的数据来优化编码器网络参数103和解码器网络参数105。但是，如果有足够的训练数据可用，则由于对跨长字符序列的语言学约束进行建模的难度，基于字符的预测通常相对于基于单词的预测表现不佳。然而，用相应的手动转录来收集大量语音数据是非常昂贵的。因此，在端到端语音识别中并入单词级预测来提高识别准确度并不容易。

此外，在执行单词级预测时还存在另一问题，即，所谓的词表外(OOV)问题。通常，存在未包含在ASR系统的词表中的很多单词，这是因为所有单词不会都出现在训练数据中，并且通常人为创造新单词。OOV问题是ASR系统无法正确识别语音信号中的这种OOV单词。

本发明的一些实施方式是基于这样的认识：通过将基于注意力的概率与字符级LM概率和单词级LM概率相结合，可以提高标签序列假设的准确性。可以用纯文本数据来训练字符级LM和单词级LM。由于文本数据比转录的语音数据更容易收集，因此本发明使我们能够执行用于端到端ASR的单词级预测，这通过用足够的文本数据训练单词级LM来提高语音识别准确度。此外，本发明还通过组合字符级LM和单词级LM来减轻OOV问题。

图2是例示了根据本发明的实施方式的开放词表的端到端语音识别模块200的框图。开放词表的端到端语音识别模块200包括编码器网络模块202、编码器网络参数203、注意力解码器模块204、解码器网络参数205、标签序列搜索模块206、CTC模块208、CTC网络参数209和LM模块210、字符LM参数211和单词LM参数212。编码器网络参数203、解码器网络参数205、CTC网络参数209、LM参数分别存储在储存装置中以向相应模块202、204、208和210提供参数。使用图4中的声学特征提取模块434从音频波形数据或频谱数据中提取声学特征序列201。音频波形数据或频谱数据可以存储在储存装置中并提供给编码器网络模块202。音频波形数据或频谱数据可以使用接收话语声音并将话语声音转换为音频波形或频谱数据的数字信号处理模块(未示出)经由图4中的输入装置475获得。此外，存储在储存装置430或存储器440中的音频波形或频谱数据可以被提供给编码器网络模块202。可以经由图4中的网络490提供话语声音的信号，并且输入装置475可以是麦克风装置。

编码器网络模块202包括编码器网络，使用从编码器网络参数203读取参数的编码器网络将声学特征序列201转换为隐藏向量序列。

使用注意力解码器网络模块204的注意力机制描述如下。注意力解码器网络模块204包括解码器网络。注意力解码器网络模块204接收来自编码器网络模块202的隐藏向量序列以及来自标签序列搜索模块206的先前标签，然后使用从解码器网络参数205中读取参数的解码器网络针对先前标签计算下一标签的第一后验概率分布。注意力解码器网络模块204将第一后验概率分布提供给标签序列搜索模块206。CTC模块208接收来自编码器网络模块202的隐藏向量序列以及来自标签序列搜索模块206的先前标签，并使用CTC网络参数209和动态编程技术计算下一标签序列的第二后验概率分布。在计算之后，CTC模块208将第二后验概率分布提供给标签序列搜索模块206。

LM模块210接收来自标签序列搜索模块206的先前标签，并使用LM参数211计算下一标签序列的第三后验概率分布。此外，在计算之后，LM模块210向标签序列搜索模块206提供第三后验概率分布。

标签序列搜索模块206使用从注意力解码器网络模块204、CTC模块208和LM模块210提供的第一后验概率分布、第二后验概率分布和第三后验概率分布来找到具有最高序列概率的标签序列。由注意力解码器网络模块204、CTC模块208和LM模块210计算出的标签序列的第一后验概率、第二后验概率和第三后验概率被组合为一个概率。在这种情况下，可以基于线性组合来执行计算出的后验概率的组合。利用开放词表的端到端语音识别模块200，能够考虑到基于CTC的概率、基于注意力的概率和基于LM的概率来找到对于输入声学特征序列的更好的假设。

根据本公开的实施方式，通过引入LM模块210，使得提高端对端ASR的识别准确度成为可能。LM模块210可以包括字符级递归神经网络(RNN)和单词级RNN。在一些情况下，LM模块210可以称为混合网络或混合网络模块。在这种情况下，LM模块210使用由字符LM参数211定义的字符级LM和由单词LM参数212定义的单词级LM来计算LM概率。LM模块还使得执行开放词表的语音识别成为可能，即，即使说出OOV单词，通过使用字符级LM和单词级LM二者来识别该OOV单词。在本发明的解码过程中，首先用字符级LM概率对字符序列假设进行评分，直到遇到单词边界为止。然后在字符级LM提供OOV单词的LM概率评分的同时使用单词级LM概率对已知单词进行再评分。

基于注意力的端到端语音识别

端到端语音识别通常被定义为在给定输入声学特征序列X的情况下找到最可能的标签序列

的问题，即：

其中，

表示给定预定义标签的集合/>

时的可能的标签序列的集合，标签可以是字符或单词。

在端到端语音识别中，p(Y|X)是在没有发音词库和语言模型的情况下通过预训练神经网络来计算的。在相关技术的基于注意力的端到端语音识别中，神经网络由编码器网络和解码器网络组成。

编码器模块102包括编码器网络，该编码器网络用于将声学特征序列X＝x₁,…,x_T转换为隐藏向量序列H＝h₁,…,h_T，如

H＝Encoder(X), (2)

其中，函数Encoder(X)可以由层叠的一个或更多个递归神经网络(RNN)组成。RNN可以实现为长短期记忆(LSTM)，LSTM在每个隐藏单元中具有输入门、忘记门、输出门和存储单元。另一RNN可以是双向RNN(BRNN)或双向LSTM(BLSTM)。BLSTM是一对LSTM RNN，其中一个是前向LSTM并且另一个是后向LSTM。BLSTM的隐藏向量作为前向LSTM和后向LSTM的隐藏向量的级联而被获得。

使用前向LSTM，将前向第t隐藏向量

计算为

其中，σ(·)是逐元素的S型函数，tanh(·)是逐元素的双曲正切函数，并且

和/>

分别是x_t的输入门、忘记门、输出门和单元激活向量。⊙表示向量之间的逐元素乘法。权重矩阵/>

和偏差向量/>

是LSTM的由下标z∈{x,h,i,f,o,c}标识的参数。例如，

是隐藏到输入门的矩阵，并且/>

是输入到输出门的矩阵。隐藏向量/>

是从输入向量x_t和先前的隐藏向量/>

递归获得的，其中，假设/>

为零向量。

使用后向LSTM，将后向第t隐藏向量

计算为

其中，

和/>

分别是x_t的输入门、忘记门、输出门和单元激活向量。权重矩阵/>

和偏差向量/>

是LSTM的以与前向LSTM相同方式由下标标识的参数。隐藏向量/>

是从输入向量x_t和后续的隐藏向量/>

递归获得的，其中，假设/>

为零向量。

通过按下式将前向隐藏向量和后向隐藏向量级联来获得BLSTM的隐藏向量：

其中，

表示假设全部向量为列向量而对向量的转置操作。/>

和/>

被视为BLSTM的参数。

为了获得更好的隐藏向量，我们可以通过将第一BLSTM的隐藏向量馈送至第二BLSTM，然后将第二BLSTM的隐藏向量馈送至第三BLSTM等，来层叠多个BLSTM。如果h_t′是由一个BLSTM获得的隐藏向量，则当将其馈送至另一BLSTM时，我们假设x_t＝h_t′。为了减少计算量，可以仅将一个BLSTM的每隔一个隐藏向量馈送至另一BLSTM。在这种情况下，输出隐藏向量序列的长度变为输入声学特征序列长度的一半。

多个BLSTM的由下标z∈{x，h，i，f，o，c}标识的参数

和/>

全部被存储在编码器网络参数203中，并用于计算隐藏向量序列H。

注意力解码器模块104包括解码器网络，该解码器网络用于使用隐藏向量序列H来计算标签序列概率p_att(Y|X)。假设Y是L长度的标签序列y₁，y₂，…，y_L。为了有效地计算p_att(Y|X)，可以通过概率链规则将概率分解为

并且每个标签概率p_att(y_l|y₁，…，y_l-1，X)是从关于标签的概率分布中获得的，该概率分布使用解码器网络估算为：

p_att(y|y₁，…，y_l-1，X)＝Decoder(r_l，q_l-1)， (15)

其中，y是表示标签的随机变量，r_l称为内容向量，其具有H的内容信息。q_l-1是解码器状态向量，其包含先前标签y₁，…，y_l-1和先前内容向量r₀，…，r_l-1的上下文信息。因此，在给定上下文的情况下，标签概率作为y＝y_l的概率而被获得，即，

p_att(y_l|y₁，…，y_l-1，X)＝p_att(y＝y_l|y₁，…，y_l-1，X) (16)

内容向量r_l通常作为编码器网络的隐藏向量的加权和给出，即，

其中，a_lt称为注意力权重，其满足∑_ta_lt＝1。可以使用q_l-1和H如下计算注意力权重：

e_lt＝w^Ttanh(Wq_l-1+Vh_t+Uf_lt+b) (18)

f_l＝F*a_l-1 (19)

其中，W、V、F和U是矩阵，w和b是作为解码器网络的可训练参数的向量。e_lt是第(l-1)状态向量q_l-1与第t隐藏向量h_t之间的匹配评分，以形成时间对齐分布a_l＝{a_lt|t＝1，…，}。a_l-1代表用于预测先前标签y_l-1的先前对齐分布{a_(l-1)t|t＝1，…，T}。f_l＝{f_lt|t＝1，…，T}是对于a_l-1的与F的卷积结果，其用于将先前对齐反映到当前对齐中。“*”表示卷积运算。

用状态向量q_l-1和内容向量r_l按下式来获得标签概率分布：

Decoder(r_l，q_l-1)＝softmax(W_qyq_l-1+W_ryr_l+b_y)， (21)

其中，W_qy和W_ry是矩阵，并且b_y是向量，这些是解码器网络的可训练参数。对于K维向量v，softmax()函数如下地计算：

其中，v[i]表示v的第i元素。

之后，使用LSTM按下式将解码器状态向量q_l-1更新为q_l

其中，

和/>

分别是输入向量x_l的输入门、忘记门、输出门和单元激活向量。权重矩阵/>

和偏差向量/>

是LSTM的以与前向LSTM相同的方式由下标标识的参数。状态向量q_l是从输入向量/>

和先前状态向量q_l-1递归获得的，其中假设q_-1＝0、y₀＝<sos>、a₀＝1/T来计算q₀。对于解码器网络，将输入向量/>

作为标签y_l和内容向量r_l的级联向量给出，这可以按照/>

来获得，其中Embed(·)表示标签嵌入，将标签转换为固定维的向量。例如，可以通过下式来计算

其中，OneHot(y)表示标签y的N分之1编码，它将标签索引转换为一个热向量表示。

是作为可训练参数的矩阵。

由下标z∈{x,h,i,f,o,c}标识的参数

和/>

以及W_qy,W_ry,b_y,/>

全部存储在解码器网络参数205中，并用于计算标签概率分布_att(y|y₁,…,y_l-1,X)。

相关技术的标签序列搜索模块106在式(1)中找到最可能的标签序列

然而，因为可能标签序列的数量随着序列的长度成指数增加，所以枚举Y的所有可能的标签序列并且计算p_att(Y|X)是很困难的。因此，通常使用波束搜索技术来找到/>

其中首先生成较短的标签序列假设，并且仅扩展比其它假设具有更高评分的有限数量的假设以获得更长的假设。最后，在到达序列结尾的完整假设中选择最佳标签序列假设。

利用波束搜索方法，标签序列搜索模块106如下找到

设Ω_l长度为l的部分假设的集合。在首轮波束搜索的开始，Ω₀仅包含起始符号为<sos>的一个假设。对于l＝1至L_max，通过附加可能的单个标签来扩展Ω_l-1中的每个部分假设，并将新的假设存储在Ω_l中，其中L_max是要搜索的假设的最大长度。每个新假设的评分在对数域中被计算为：

Φ_att(h)＝Φ_att(g)+log p_att(y|g，X)， (29)

其中g是Ω_l-1中的部分假设，y是附加到g的单个标签，并且h是新的假设，即，h＝g·y。可以通过式(16)计算概率p_att(y|g)，其中我们假设Φ_att(<sos>＝0。

如果y是表示序列结束的特殊标签<eos>，则将h添加到

而不是Ω_l，其中/>

表示完整假设的集合。

最终，获得

为：

在波束搜索过程中，只允许Ω_l保留具有较高评分的有限数量的假设，并剪除其它假设以提高搜索效率。

一个更具体的过程总结如下。

在此过程中，Ω_l和

分别被实现为接受长度为l的部分假设和完整假设的队列。在第1-2行中，Ω₀和/>

被初始化为空队列。在第3行中，将初始假设<sos>的评分设置为0。在第4-23行中，通过标签集u∪{<eos>}中的每个标签y来扩展Ω_l-1中的每个部分假设g，其中运算Head(Ω)返回队列Ω中的第一假设，并且Dequeue(Ω)从队列中删除第一假设。

在第11行中，使用注意力解码器网络对每个扩展的假设h进行评分。之后，如果y＝<eos>，则在第13行中假定假设h已完成并将其存储在

中，其中/>

为向/>

中添加h的运算。如果y≠<eos>，则在第15行中将h存储在Ω_l中，其中在第16行中将Ω_l中的假设数量(即，|Ω_l|)与预定数量beamWidth进行比较。如果|Ω_l|超过beamWidth，则在第17-18行中，从Ω_l中删除Ω_l中的具有最小评分h_min的假设，其中Remove(Ω_l,h_min)是从Ω_l中删除h_min的运算。最后，在第24行中选择/>

作为最佳假设。

开放词表的端到端语音识别

在根据本发明的实施方式的使用开放词表的端到端语音识别模块200执行端到端语音识别的方法中，

式(31)中的基于LM的标签序列概率p_lm(Y)和式(53)中的基于CTC的标签序列概率p_ctc(Y|X)与式(14)中的基于注意力的标签序列概率p_att(Y|X)组合，以获得更准确的标记序列概率，其中这些概率可以通过线性组合来组合。

具有多级RNN-LM的LM概率

根据本发明的实施方式，可以使用RNN-LM或多级RNN-LM按下式计算LM概率：

LM模块210包括字符级RNN-LM和单词级RNN-LM，并且它们的参数是分别从单词LM参数211和字符LM参数212读取的。

RNN-LM可以用于计算标签上的概率分布，该概率分布是使用RNN-LM按下式估算的：

其中，

是矩阵并且/>

是向量，它们是RNN-LM的可训练参数。s_l-1是LM状态向量并且可以使用RNN-LM的LSTM按下式更新为s_l：

其中，

和/>

分别是输入向量/>

的输入门、忘记门、输出门和单元激活向量。权重矩阵/>

和偏差向量/>

是RNN-LM的LSTM的参数，这些参数以与前向LSTM相同的方式由下标标识。状态向量s_l是从输入向量/>

和先前的状态向量s_l-1递归获得的，其中假设s_-1＝0并且y₀＝<sos>来计算s₀。对于解码器网络，输入向量/>

作为标签y_l的向量给出，其可以作为/>

来获取，其中，Embed(·)表示将标签转换为固定维的向量的标签嵌入。Embed(·)表示将标签转换为固定维的向量的标签嵌入。例如，可以通过下式来计算：

其中，OneHot(y)表示将标签索引转换为一个热向量表示的标签y的N分之一编码。

是作为RNN-LM的可训练参数的矩阵。

标签概率在给定上下文的情况下作为y＝y_l的概率来获得，即：

p_lm(y_l|y_1，…，y_l-1)＝p_lm(y＝y_l|y₁，…，y_l-1) (39)

与注意力解码器网络模块204给出的标签概率不同，LM概率不取决于声学特征序列X。

在下文中，我们介绍了一种通过将开放词表的端到端ASR的字符级LM和单词级LM组合来计算标签概率p_lm(y_l|y₁，…，y_l-1)的方法。

假设有两个RNN-LM，一个是用字符序列集合训练的字符级RNN-LM，另一个是用单词序列集合训练的单词级RNN-LM。

我们分别将由字符级RNN-LM计算出的字符概率表示为关于字符序列y₁,…,y_l-1,y_l的p_clm(y_l|y₁,…,y_l-1)，将由单词级RNN-LM计算出的单词概率表示为关于单词序列w₁,…,w_m-1,w_m的p_wlm(w_m|w₁,…,w_m-1)。可以按照与式(32)至(39)中相同的方式但使用不同的参数集来计算两个概率。

我们认为基于字符的端到端ASR系统可以预测单词之间的空格字符以及单词内的字符。请注意，空格字符具有实际的字符代码。使用空格字符，可以确定性地将任何字符序列映射到单词序列，例如，字符序列

a,<space>,c,a,t,<space>,e,a,t,s

被映射到唯一的单词序列

a,cat,eats

其中，<space>正式表示空格字符。因此，只有当解码器假设了空格字符时，它才使用单词级RNN-LM计算最后一个单词的概率，并简单地将其累加到假设评分。针对不同类型的同音异义词，不需要进行特殊处理：具有相同拼写但发音不同的单词通过单词语言模型以上下文相关的方式来处理，而具有相同发音但具有不同拼写的单词在波束搜索中被自动处理为不同的单词假设。同样，歧义词分段被自动处理为不同的解码假设。

可以通过如下修改字符级LM概率来实现根据实施方式的机制。

设v是单词级RNN-LM的词表并且包括诸如<UNK>之类的OOV单词的抽象符号。我们按下式来计算式(31)中的条件标签概率：

其中，S表示指示单词结尾的标签的集合，即S＝{<<space>，<eos>}，w_g是字符序列g的最后一个单词，并且ψ_g是作为与除w_g之外的g对应的单词序列的单词级历史。对于以上示例，g,w_g和ψ_g被设置为

g＝a，<space>，c，a，t，<space>，e，a，t，s

w_g＝eats

ψ_g＝a，cat.

是用于调整OOV单词的概率的比例因子。

当字符c表示前一单词的结尾时，使用式(40)右侧的第一个条件。在这种情况下，使用单词级RNN-LM计算单词级概率p_wlm(w_g|ψ_g)。分母p_clm(w_g|ψ_g)是由字符级RNN-LM获得并且用于消除针对w_g累积的字符级LM概率的w_g的概率。该概率可以按下式计算：

其中，|w_g|是单词w_g的以字符为单位的长度，w_g,i表示w_g的第i个字符，

是ψ_g的字符表示形式，例如，如果ψ_g＝a,cat,则

因此，关于字符序列g的累积字符级LM概率由相应的单词级LM概率重新评分。

第二项p_wlm(<UNK>|ψ_g)充当字符级LM的权重，并确保了组合的语言模型在单词边界及在中间均关于字符序列被归一化。

如果如同在第二个条件中那样w_g是OOV单词，则我们假设可以用单词级RNN-LM和字符级RNN-LM来计算OOV单词的单词级概率：

p_oov(w_g|ψ_g)＝p_wlm(<UNK>|ψ_g)p_clm(ω_g|<UNK>，ψ_g). (42)

由于字符级的概率满足：

p_clm(w_g|<UNK>，ψ_g)∝p_clm(ω_g|ψ_g)， (43)

所以，我们将其近似为：

并获得：

其中，我们假设比例因子

并将其设置为可调参数。在式(40)的第二个条件中，消除了基于字符的概率p_clm(w_g|ψ_g)，这是因为它已经针对假设进行了累积。该项允许预测OOV单词以及词表中的单词，并使能开放词表的ASR。

式(40)的第三种情况向单词内假设赋予了字符级LM概率。尽管字符级LM概率在每个已知单词假设的结尾处被删除并且因此仅用于对OOV单词进行评分，但它们在波束搜索中保持正确的单词假设有效直到应用单词级LM概率的单词的结尾为止的方面起着另一个重要作用。

字符级LM和单词级LM的由下标z∈{x，h，i，f，o，c}标识的全部参数

和/>

以及/>

分别存储在字符LM参数211和单词LM参数212中。

这些参数用于计算标签概率分布p_lm(y|y₁，…，y_l-1)。

CTC概率

CTC模块208计算给定隐藏向量序列H的标签序列Y的CTC前向概率。请注意，CTC公式使用具有不同标签的集合

的长度L的标签序列/>

通过引入带有附加“空白”标签的逐帧标签序列，/>

其中b代表空白标签。通过使用概率链规则和条件独立假设，后验分布p(Y|X)被如下分解：

其中，认为p(z_t|z_t-1|Y)是包含空白标签的标签转移概率。p(z_t|X)是以输入序列X为条件的逐帧后验分布，并使用双向长短期记忆(BLSTM)进行建模：

其中，用编码器网络获得h_t。

是矩阵并且/>

是向量，它们是CTC的可训练参数并存储在CTC网络参数209中。虽然式(46)必须处理所有可能Z的求和，但是通过使用前向算法可以有效地进行计算。

CTC的前向算法如下执行。我们使用长度为2L+1的扩展标签序列Y′＝y′₁，y′₂，…，y′_2L+1＝b，y₁，b，y₂，…，b，y_L，b，其中，在每对相邻标签之间插入空白标签“b”。设α_t(s)为前向概率，其表示时间帧1，…，t内标签序列y₁，…，y_l的后验概率，其中s指示在扩展标签序列Y′中的位置。

对于初始化，我们设置：

α₁(1)＝p(z₁＝b|X) (48)

α₁(2)＝p(z₁＝y₁|X) (49)

对于t＝2至T，按下式以递归方式计算α_t(s)：

其中，

最后，按下式获得基于CTC的标签序列概率：

p_ctc(Y|X)＝α_T(2L+1)+α_T(2L)· (53)

逐帧标签序列Z表示输入声学特征序列X与输出标签序列Y之间的对齐。当计算前向概率时，式(51)的递归强制Z为单调的，并且在对齐Z中不允许循环或s的大跳转，因为获得α_t(s)的递归最多只考虑了α_t-1(s)、α_t-1(s-1)、α_t-1(s-2)。这意味着，当时间帧前进一帧时，标签将从先前标签或空白改变，或保持相同的标签。此约束起转移概率p(z_t|z_t-1,Y)的作用，该转移概率p(z_t|z_t-1,Y)将对齐强制为单调。因此，当p_ctc(Y|X)基于不规则(非单调)对齐来计算时，其可以为0或非常小的值。

图3是例示了根据本发明的实施方式的组合神经网络模块300的示意图。组合神经网络300包括编码器网络模块202、注意力解码器网络模块204、CTC模块208和LM模块210。每个箭头表示进行变换或不进行转换的数据传输，每个方形节点或圆形节点表示向量或预测标签。声学特征序列X＝x₁,…,x_T被馈送到编码器网络模块202，在该编码器网络模块202中层叠有两个BLSTM，并且第一BLSTM的每隔一个隐藏向量被馈送到第二BLSTM。编码器模块202的输出得到隐藏向量序列H＝h′₁,h′₂,…,h′_T′，其中T′＝T/2。然后，将H馈送到CTC模块208和解码器网络模块204。基于CTC的序列概率、基于注意力的序列概率和基于LM的序列概率分别用CTC模块208、解码器网络模块204和LM模块210来计算，并且被组合以获得标签序列概率。

用于开放词表的端到端ASR的标签序列搜索

标签序列搜索模块206根据组合的标签序列概率按下式找到最可能的标签序列

其中，p_ctc(Y|X)是式(53)中的基于CTC的标签序列概率。p_att(Y|X)是式(14)中的基于注意力的标签序列概率，并且p_lm(Y)是式(31)中的基于LM的标签序列概率。λ和k是平衡这三个概率的比例因子。

在本发明的波束搜索过程中，每个部分假设h的评分按下式计算：

Φ_joint(h)＝λΦ_ctc(h，X)+(1-λ)Φ_att(h)+κΦ_lm(h)， (55)

其中，Φ_att(h)通过式(29)计算，并且Φ_lm(h)是按下式获得的：

Φ_lm(h)＝Φ_lm(g)+log p_lm(y|g)， (56)

为了计算Φ_ctc(h,X)，我们利用被定义为具有作为它们的前缀的h的所有标签序列的累积概率的CTC前缀概率：

并且，我们将CTC评分定义为：

其中，v代表除空字符串以外的所有可能的标签序列。CTC评分不能像式(29)中的Φ_att(h)和式(56)中的Φ_lm(h)那样递归地获得，但是可以针对每个部分假设，通过在输入时间帧上保持前向概率来有效地进行计算。

根据本发明的实施方式，标签序列搜索模块206根据以下过程找到

与用于现有技术的基于注意力的端到端ASR的波束搜索方法存在一些区别。

在第4行中，初始化LM评分。在第14行中，使用CTC评分Φ_ctc(h,X)、基于注意力的评分Φ_att(h)和LM评分Φ_lm(h)来计算联合评分Φ_joint(h)。在第20行中，使用联合评分Φ_joint(h)来选择h_min。在第27行中，将联合评分Φ_joint(h)和<eos>的单词级LM概率进行组合以确定

由于在式(40)中没有考虑<eos>的单词级LM概率，因此，需要将其结合到最终决策中。

可以使用修正的前向算法来计算CTC评分Φ_ctc(h,X)。设

和/>

为假设h在时间帧1…t上的前向概率，其中上标(n)和(b)分别表示所有CTC路径以非空白标签或空白标签结尾的不同情况。在开始波束搜索之前，对于t＝1,…,T，/>

和/>

被初始化为：

/>

其中，我们假设

并且b为空白标签。注意，由于编码器的子采样技术，时间索引t和输入长度T可以与输入话语的时间索引和输入长度不同。可以如下实现CTC评分函数。

在此函数中，在第1行中，首先将给定的假设h分割为最后标签y和其余标签g。如果y为<eos>，则在第3行中，返回假设h是完整假设的前向概率的对数。根据

和/>

的定义，h的前向概率按下式给出：

如果y不是<eos>，则假定h不是完整假设来计算前向概率

和/>

以及前缀概率Ψ＝p_ctc(h,…|X)。第5-13行描述了这些概率的初始化和递归步骤。在该函数中，假设在第10-12行中每次计算/>

和Ψ时已经通过波束搜索过程获得了第9行中的概率/>

和/>

这是因为g是h的前缀，使得|g|＜|h|。因此，能够有效地计算前缀概率和前向概率。请注意，第9行中last(g)是返回g的最后一个标签的函数。

因此，波束搜索方法能够在搜索过程中通过CTC评分来排除具有不规则对齐的部分假设，并且与再评分方法相比，有希望以更少的计算来减少搜索错误的数量。搜索错误表示波束搜索错过了最可能的假设。在这种情况下，获得具有更小评分的替代假设，而不是最佳假设，其中替代假设通常包含比最佳假设更多的识别错误。

网络训练

在使用ASR系统之前，要对网络参数203、205和209进行联合优化，使得损失函数：

被减小，其中，X和Y是包含声学特征序列和标签序列的训练数据。Θ表示网络参数的集合。N是训练样本的数量，X_n和Y_n分别是训练数据中的第n个声学特征序列和相应的标签序列。p_ctc(Y_n|X_n,Θ)是用参数集Θ计算出的、式(53)中的基于CTC的序列概率，p_att(Y_n|X_n,Θ)是用参数集Θ计算出的、式(14)中的基于注意力的序列概率。可以通过随机梯度下降法来优化网络参数以降低损失函数。训练过程联合优化了编码器、解码器和CTC网络。

使用字符序列数据Y^(c)和单词序列数据Y^(w)独立地优化字符LM参数211和单词级LM参数212。

字符级RNN-LM的损失函数为：

并且，单词级RNN-LM的损失函数为：

其中，Θ_clm和Θ_wlm分别表示字符LM参数的集合和单词LM参数的集合。

和/>

是按式(31)计算的LM概率。N^(c)是Y^(c)中的训练样本数，

是Y^(c)中的第n个字符序列。N^(w)是Y^(w)中的训练样本数，并且/>

是Y^(w)中的第n个单词序列。

可以通过随机梯度下降法来优化LM参数以降低损失函数。

开放词表的端到端语音识别设备

图4示出了根据本发明的一些实施方式的开放词表的端到端语音识别系统(语音识别系统)400的框图。语音识别系统400包括可与键盘411和定点装置/介质412连接的人机接口(HMI)410、一个或更多个处理器420、储存装置430、存储器440、可与包括局域网和互联网的网络490连接的网络接口控制器450(NIC)、显示接口460、可与麦克风装置475连接的音频接口470、可与打印装置485连接的打印机接口480。存储器440可以是一个或更多个存储器单元。端到端语音识别系统400可以经由连接到NIC 450的网络490接收电音频波形/频谱数据495。储存装置430包括端到端语音识别模块200、注意力解码器网络模块204、编码器网络模块202、CTC模块208和声学特征提取模块434。在附图中省略了标签序列搜索模块、编码器网络参数、解码器网络参数和CTC网络参数。定点装置/介质412可以包括读取计算机可读记录介质上存储的程序的模块。注意力解码器网络模块204、编码器网络模块202和CTC模块208可以由神经网络参数形成。声学特征提取模块434是用于从中提取声学特征序列的程序。声学特征序列可以是具有一阶和二阶时间导数和/或音节特征的梅尔级滤波器组系数(mel-scale filterbank coefficient)的序列。

为了执行端到端语音识别，可以使用键盘411、定点装置/介质412或经由连接到其它计算机(图中未示出)的网络490向端到端语音识别系统400发送指示。系统400经由HMI410接收指示，并通过加载储存装置430中存储的端到端语音识别模块200、注意力解码器网络模块204、编码器网络模块202、CTC模块208和声学特征提取模块434，来执行用于使用与存储器440连接的处理器420执行端到端语音识别的指示。

评估结果

图5是根据本发明的实施方式的通过执行开放词表的端到端语音识别所获得的评估结果。

使用华尔街日报(WSJ)语料库执行评估，WSJ语料库是著名的英语纯净语音数据库。我们使用si284数据集进行训练，使用dev93数据集进行验证，并且使用eval92数据集进行评估。数据集被汇总在图5A中。

作为输入特征，我们针对BLSTM编码器使用了具有音节特征以及它们的德耳塔和德耳塔delta特征的80个梅尔级滤波器组系数，在BLSTM编码器之前，我们还添加了卷积神经网络(CNN)层。对于注意力模型，我们仅使用了32个不同的标签：26个英文字母、撇号、句号、破折号、空格、噪音和sos/eos标记。CTC模型使用空白代替sos/eos，而我们的MTL模型同时使用了sos/eos和空白。

此外，编码器网络是通过使用CNN来增强的，这是由先前的研究激发的。我们使用了基于CNN架构的初始层的6层架构，然后是编码器网络中的8个BLSTM层。在CNN架构中，初始的三个输入通道由频谱特征、德耳塔以及德耳塔delta特征组成。输入的语音特征图像通过两个最大池化层与时频轴一起被下采样为(1/4×1/4)图像。BLSTM层在每个层和方向上具有320个单元，每个BLSTM层后面是具有320个单元的线性投影层。

我们使用了基于位置的注意力机制，其中使用了宽度为100的10个中心化卷积滤波器来提取卷积特征。解码器是具有300个单元的单层单向LSTM。

使用具有梯度裁剪的AdaDelta算法进行优化。我们还应用了一元标签平滑技术(unigram label smoothing technique)以避免过度自信的预测。在混合注意力/CTC架构中，我们使用λ＝0.1进行训练，并且使用λ＝0.2和γ＝1.1进行解码。在所有条件下的解码中，波束宽度被设置为30。通过使用Chainer深度学习工具包实现具有多层次LM的基于注意力/CTC的混合ASR。

用由来自1.6M句子的37M单词组成的WSJ文本语料库来训练字符级RNN-LM和单词级RNN-LM。字符级LM具有包含800个单元的单个LSTM层和32维softmax层，而单词级LM具有包含1000个单元的单个LSTM层和20000维softmax层，这等于LM的词表大小。我们使用随机梯度下降(SGD)来优化RNN-LM。第一个实验评估了语言模型的贡献。

图5B示出了根据本发明的实施方式的具有不同语言模型的单词错误率(WER)。即使当使用其大小仅为WSJ文本语料库的1.8％的si284语音数据的转录进行LM训练，字符级LM的WER也从13.4％降低到11.5％。这意味着单独的语言模型对预测性能具有一些互补效果。通过使用来自WSJ文本语料库的更多数据，WER降低到7.7％。接下来，我们并入单词级RNN-LM而没有字符级。

RNN-LM，其中在空格字符或句子结尾字符的每个位置仅应用单词级RNN-LM概率。在这种情况下，WER增加到12.6％。最后，当根据提出的方法同时使用字符级RNN-LM和单词级RNN-LM时，我们获得了5.6％的WER的巨大改进。

为了研究仅使用单词级RNN-LM时WER高的原因，我们进行了范围从5至40的不同波束宽度的附加实验。

图6是根据本发明的实施方式的依据开放词表的端到端语音识别的指示作为波束宽度的函数的单词错误率的评估结果。图6示出了每个波束宽度的WER。在没有字符LM(即，无LM或单词LM)的情况下，WER几乎与波束宽度无关。这意味着解码器网络以高可信度预测标签，即使波束更宽也不会改变结果。因此，在每个单词结尾应用单词级LM概率太晚而无法使用单词级信息恢复更好的假设。我们提出的方法(单词+字符LM)通过结合字符级LM作为在波束搜索中找到更好的单词序列假设的指导，实现了最低的WER。尽管我们用于训练网络的标签平滑技术在一定程度上减轻了这种过分自信的问题，但是在没有字符级LM的任何帮助的情况下，似乎很难恢复不太自信的标签。

第二个实验研究了通过提出的方法所提供的开放词表的益处。

图7是对使用从20K到65K的不同词表大小和开放词表条件时的WER进行比较的评估结果。WER的比较是在解码期间以有限词表执行的。

这些词表仅用于约束仅由词表中的单词组成的所有假设。通过在解码期间仅允许出现在词表中的字符序列来强制执行此约束。如表中所示，当使用封闭词表时，WER在开放词表条件下无法达到最佳WER。即使通过65K的词表而具有小的OOV率，与最佳WER的差距仍为1.8％。我们检查了识别结果，并发现它们有更多的删除错误。这似乎是因为当解码器由于词表约束而无法假设具有高概率的标签序列时，有效假设的评分变小，并因此倾向于选择较短的假设作为结果。在标准的华尔街日报(WSJ)任务中，我们仅使用SI284训练集和WSJ文本数据，对于Eval’92测试集实现了5.6％的WER，这是最好的。

在本公开的一些实施方式中，当上述的端到端语音识别系统安装在计算机系统中时，能够以较少的计算能力有效且准确地执行语音识别，由此使用本公开的端到端语音识别方法或系统能够减少中央处理单元的使用和功耗。

此外，根据本公开的实施方式提供了用于执行端到端语音识别的有效方法，因此，使用端到端语音识别模型的方法和系统的使用能够减少中央处理器(CPU)的使用、功耗和/或网络带宽使用。

可以以多种方式中的任何一种来实现本公开的上述实施方式。例如，可以使用硬件、软件或其组合来实现实施方式。当以软件实现时，软件代码无论是设置于单台计算机中还是分布在多台计算机中，都可以在任何合适的处理器或处理器集合上执行。这样的处理器可以被实现为集成电路，并且集成电路组件中具有一个或更多个处理器。但是，可以使用任何适当格式的电路来实现处理器。

另外，本文概述的各种方法或过程可以被编码为在采用多种操作系统或平台中的任何一种的一个或更多个处理器上可执行的软件。附加地，可以使用多个合适的编程语言和/或编程或脚本工具中的任何一种来编写这种软件，并且还可以将这种软件编译为可执行的机器语言代码或在框架或虚拟机上执行的中间代码。通常，在各种实施方式中，程序模块的功能可以根据需要进行组合或分布。

此外，本公开的实施方式可以被体现为一种方法，已经提供了该方法的示例。作为该方法的一部分而执行的动作可以以任何合适的方式排序。因此，可以构造实施方式，在该实施方式中以与所例示的次序不同的次序来执行动作，这可以包括并发地执行一些动作，即使这些动作在示例性实施方式中被示为顺序动作。此外，在权利要求中使用诸如第一、第二之类的序数术语来修饰权利要求要素本身并不意味着一个权利要求要素相对于另一个具有任何优先权、优先级或次序，或者执行方法的动作的时间次序，而是仅用作标签，以将具有特定名称的一个权利要求要素与具有相同名称(除了序数词的使用)的另一要素区分开，以区分权利要求要素。

Claims

1.一种语音识别系统，该语音识别系统包括：

一个或更多个处理器；以及

一个或更多个储存装置，所述一个或更多个储存装置存储参数和包括由所述一个或更多个处理器能执行的指令的程序模块，当执行所述指令时使所述一个或更多个处理器执行包括以下内容的操作：

从经由音频接口或网络接口控制器获得的音频波形数据中提取声学特征序列；

使用具有编码器网络参数的编码器网络将所述声学特征序列编码为隐藏向量序列；

通过将所述隐藏向量序列馈送至具有解码器网络参数的解码器网络来预测第一输出标签序列概率；

通过使用字符级语言模型和单词级语言模型的混合网络来预测第二输出标签序列概率，其中，当在先前单词之后的字符属于指示单词的结尾的预定标签的集合并且所述先前单词被包括在所述单词级语言模型的词表中时，根据通过使用所述单词级语言模型获得的概率和通过使用所述字符级语言模型获得的概率的除法来计算所述第二输出标签序列概率，其中，当所述先前单词之后的所述字符属于所述预定标签的集合并且所述先前单词未被包括在所述单词级语言模型的词表中时，通过使用所述单词级语言模型和缩放因子来计算所述第二输出标签序列概率，其中，当所述先前单词之后的所述字符不属于所述预定标签的集合时，通过使用所述字符级语言模型来计算所述第二输出标签序列概率；以及

通过将从所述解码器网络和所述混合网络提供的所述第一输出标签序列概率和所述第二输出标签序列概率组合，来搜索具有最高序列概率的输出标签序列。

2.根据权利要求1所述的语音识别系统，其中，所述操作还包括：

由联结主义时序分类使用联结主义时序分类网络参数和来自所述编码器网络的隐藏向量序列来预测第三输出标签序列概率，其中，通过将从所述解码器网络、所述混合网络和所述联结主义时序分类提供的所述第一输出标签序列概率、所述第二输出标签序列概率和所述第三输出标签序列概率组合来执行所述搜索。

3.根据权利要求1所述的语音识别系统，其中，所述混合网络包括：计算字符级概率的字符级递归神经网络以及计算单词级概率的单词级递归神经网络。

4.根据权利要求1所述的语音识别系统，其中，所述解码器网络在预测所述第一输出标签序列概率之前接收先前标签。

5.根据权利要求2所述的语音识别系统，其中，所述联结主义时序分类在预测所述第三输出标签序列概率之前接收先前标签。

6.根据权利要求1所述的语音识别系统，其中，所述编码器网络包括层叠的双向长短期记忆和卷积神经网络。

7.根据权利要求1所述的语音识别系统，其中，所述解码器网络包括层叠的长短期记忆并且使用所述隐藏向量序列的注意力机制来预测所述第一输出标签序列概率中的每一个。

8.根据权利要求1所述的语音识别系统，其中，对数域中的线性组合被用于组合所述第一输出标签序列概率和所述第二输出标签序列概率。

9.根据权利要求1所述的语音识别系统，其中，搜索操作使用波束搜索来找到具有通过组合从所述解码器网络和所述混合网络提供的所述第一输出标签序列概率和所述第二输出标签序列概率而获得的最高序列概率的输出标签序列。

10.根据权利要求9所述的语音识别系统，其中，所述波束搜索首先使用从所述解码器网络提供的第一标签序列概率来找到完整标签序列假设的集合，然后从所述完整标签序列假设的集合当中找到具有最高序列概率的所述输出标签序列，所述最高序列概率通过组合从所述解码器网络和所述混合网络提供的所述第一输出标签序列概率和所述第二输出标签序列概率而获得。

11.根据权利要求9所述的语音识别系统，其中，所述波束搜索剪除与其它不完整标签序列假设相比具有低序列概率的不完整标签序列假设，并且所述组合的输出标签序列概率是通过组合从所述解码器网络和所述混合网络提供的所述第一输出标签序列概率和所述第二输出标签序列概率而获得的。

12.根据权利要求2所述的语音识别系统，其中，所述联结主义时序分类使用所述联结主义时序分类网络参数和动态编程技术来计算后验概率分布，以预测所述第三输出标签序列概率。

13.一种非暂时性计算机可读记录介质，该非暂时性计算机可读记录介质存储有程序，该程序使与存储器通信的计算机执行语音识别过程，该语音识别过程包括：

提供话语声音；

从由所述话语声音转换的音频波形数据中提取声学特征序列；

通过组合从所述解码器网络和所述混合网络提供的所述第一输出标签序列概率和所述第二输出标签序列概率，来搜索具有最高序列概率的输出标签序列。

14.根据权利要求13所述的介质，其中，所述语音识别过程还包括：

15.根据权利要求13所述的介质，其中，所述混合网络包括：计算字符级概率的字符级递归神经网络以及计算单词级概率的单词级递归神经网络。

16.根据权利要求13所述的介质，其中，所述解码器网络在预测所述第一输出标签序列概率之前接收先前标签。

17.根据权利要求14所述的介质，其中，所述联结主义时序分类在预测所述第三输出标签序列概率之前接收先前标签。