CN109937446A

CN109937446A - 用于端到端语音识别的极深卷积神经网络

Info

Publication number: CN109937446A
Application number: CN201780069463.5A
Authority: CN
Inventors: N.杰伊特利; 张羽; W.陈
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2016-10-10
Filing date: 2017-10-10
Publication date: 2019-06-25
Anticipated expiration: 2037-10-10
Also published as: CN109937446B; WO2018071389A1; US20200090044A1; JP2019534472A; US11080599B2; US10510004B2; JP6737956B2; EP3510594A1; US20190236451A1; EP3510594B1

Abstract

一种语音识别神经网络系统，包括编码器神经网络和解码器神经网络。编码器神经网络根据表示话语的输入声学序列生成编码序列。输入声学序列包括在多个输入时间步中的每一个处的相应声学特征表示，编码序列包括在多个时间减少的时间步中的每一个处的相应编码表示，并且时间减少的时间步的数量小于输入时间步的数量。编码器神经网络包括时间减少子网、卷积LSTM子网和网络中网络子网。解码器神经网络接收编码序列和处理编码序列以对于输出序列顺序中的每个位置生成一组子串分数，该组子串分数包括对于一组子串中每个子串的相应子串分数。

Description

用于端到端语音识别的极深卷积神经网络

相关申请的交叉引用

本申请要求2016年10月10日提交的美国临时申请序列号62/406,345的优先权。该在先申请的公开被认为是本申请的公开的一部分并且通过引用并入在本申请的公开中。

背景技术

本说明书涉及使用神经网络的语音识别。

语音识别系统接收声学序列并生成由声学序列表示的话语的转录(transcription)。一些语音识别系统包括发音系统、声学建模系统和语言模型。声学建模系统生成声学序列的音素表示，发音系统根据音素表示生成声学序列的字素表示，语言模型根据字素表示生成由声学序列表示的话语的转录。

发明内容

本说明书描述了在一个或多个位置中的一个或多个计算机上实施为计算机程序的语音识别系统。

语音识别包括编码器神经网络，该编码器神经网络被配置为根据输入声学序列生成编码序列。输入声学序列表示话语。输入声学序列包括在多个输入时间步中的每一个处的相应声学特征表示。编码序列包括在多个时间减少的时间步(time reduced time step)中的每一个处的相应编码表示。时间减少的时间步的数量小于输入时间步的数量。

编码器神经网络包括时间减少子网，该时间减少子网被配置为处理输入声学序列以生成简化表示序列，该简化表示序列包括在多个时间减少的时间步中的每一个处的相应简化表示。编码器神经网络还包括卷积LSTM子网，该卷积LSTM子网被配置为，对于每个时间减少的时间步，在时间减少的时间步处处理简化表示以生成对于时间步的卷积LSTM输出。编码器神经网络还包括网络中网络子网，该网络中网络子网被配置为，对于每个时间减少的时间步，在时间减少的时间步处处理卷积LSTM输出以生成对于时间减少的时间步的编码表示。

语音识别系统还包括解码器神经网络，该解码器神经网络被配置为接收编码序列并处理编码序列以，对于输出序列顺序中的每个位置生成一组子串分数，该组子串分数包括一组子串中的每个子串的相应子串分数。

可以实施本说明书中描述的主题的具体实施例，以便实现以下优点中的一个或多个。通过使用如本说明书中描述的编码器神经网络生成接收的声学序列的编码表示，可以改进包括编码器神经网络的语音识别神经网络的性能。具体地，本说明书中描述的编码器神经网络使用更多的非线性和表达力来增加处理深度，同时保持编码器神经网络的参数的数量可管理，实际上增加了每个参数的计算量。也就是说，编码器神经网络以有效的方式增加处理深度以引起改进的性能并保持合理的计算足迹(computational footprint)，即，不需要过多的处理资源和存储器来存储语音识别神经网络或来使用神经网络以识别输入语音。

在附图和以下描述中阐述了本说明书的主题的一个或多个实施例的细节。根据说明书、附图和权利要求，本主题的其他特征、方面和优点将变得显而易见。

附图说明

图1示出了示例语音识别系统。

图2示出了编码器神经网络的示例架构。

图3是用于生成表示由输入声学序列表示的话语的转录的子串序列的示例过程的流程图。

在各个附图中相同的附图编号和标记指示相同的元素。

具体实施方式

图1示出了示例语音识别系统100。语音识别系统100是在一个或多个位置中的一个或多个计算机上实施为计算机程序的系统的示例，其中可以实施下面描述的系统、组件和技术。

语音识别系统100获得输入声学序列并处理输入声学序列以生成子串序列。每个子串序列是由对应的输入声学序列表示的话语的转录。例如，语音识别系统100可以获得输入声学序列102并生成对应的子串序列116，该子串序列116是由输入声学序列102表示的话语的转录。

输入声学序列102可以包括多帧音频数据序列，该多帧音频数据序列是话语的数字表示，例如连续的数据流。多帧音频数据序列可以对应于第一组时间步，例如，其中每帧音频数据与10毫秒的音频流数据相关联。多帧音频数据序列中的每帧音频数据可以包括表征对应的时间步处的话语的帧的特征值。

子串序列116可以包括作为由输入声学序列102表示的话语的转录的子串序列。子串可以包括一个或多个字符。例如，一组子串可以是包括字母的字母表的字符集。通常因为字母表示口语自然语言中的音素，所以字母表是一组标准字母，用于书写一种或多种自然语言。例如，字母表可以是英语字母表。字符集还可以包括阿拉伯数字、空格字符、逗号字符、句点字符、省略字符和未知字符。在另一个示例中，一组子串可以包括单词片段，即部分单词、单词或两者。

为了生成输入声学序列的子串序列，语音识别系统100实施基于注意的序列对序列(sequence to sequence，seq2seq)模型，该模型已经被训练为将输入声学序列转录成子串序列。例如，假设音频帧的输入声学序列102被表示为x＝(x₁，...，x_T)，并且子串的输出子串序列116被表示为y＝(y₁，...，ys)，则该模型对先前生成的子串y＜i和输入序列x使用条件分布来确定输出子串序列中的每个子串y_i。使用概率链规则计算整个输出子串序列的概率：

模型包括两个子模块，声学模型编码器，例如，编码器神经网络104；和基于注意的字符解码器，例如解码器神经网络114。

编码器神经网络104被配置为处理输入声学序列102并生成输入声学序列102的替代表示。替代表示可以包括对应于第二组时间步的多帧音频数据的编码序列112。在一些实施方式中，编码序列112是输入声学序列102的高级(high level)表示，即，编码序列112中的第二组时间步小于输入声学序列102中的第一组时间步。即，编码器神经网络104可以将原始输入序列x转换为高级表示：

h＝(h₁，...，h_U)with U≤T. (2)

为了生成输入声学序列102的高级表示，编码器神经网络104包括时间减少子网106、卷积长短期存储器(convolutional long short-term memory，LSTM)子网108和网络中网络子网(network-in-network subnetwork)110。NiN(network-in-network，网络中网络)子网110通常包括多个双向LSTM神经网络层。BLSTM神经网络层是具有一个或多个LSTM存储器块并且基于元素的过去和未来环境来预测或标记序列的每个元素的神经网络层。可以用于处理声学序列的示例BLSTM神经网络在“Hybrid Speech Recognition withBidirectional LSTM”，Alex Graves，Navdeep Jaitly和Abdel-rahman Mohamed，自动语音识别和理解研讨会，2013，中被更详细地描述了。时间减少子网106包括多个残差块，其中每个块包括由至少批量归一化(batch normalization)层分离的卷积LSTM神经网络层和卷积神经网络层。时间减少子网106包括多个时间减少块，其中每个块包括深度级联层和时间减少卷积层。参考图2更详细地描述编码器神经网络104的架构。

在编码器神经网络104已经生成编码序列112之后，解码器神经网络114被配置为处理编码序列112并根据编码序列112生成子串序列116。具体地，解码器神经网络114被配置为，对于输出序列顺序中的每个位置，生成一组子串分数，该组子串分数包括对于子串序列116中每个子串的相应子串分数。对于每个子串的相应子串分数定义了该子串表示由输入声学序列102表示的话语的正确转录的可能性。

然后，解码器神经网络114被配置为根据该组子串分数生成子串序列116。子串序列116表示由输入声学序列102表示的话语的转录。

在一些实施方式中，解码器神经网络114是基于注意的递归神经网络。解码器神经网络114的示例和关于使用由解码器神经网络114生成的子串分数来生成话语的转录的示例技术在W.Chan，N.Jaitly，Q.Le和O.Vinyals的“Listen,Attend and Spell:A NeuralNetwork for Large Vocabulary Conversational Speech Recognition”，声学、语音和信号处理国际会议，2016年，中被更详细地描述了。

图2示出了语音识别系统的编码器神经网络的示例架构，例如，图1的语音识别系统100的编码器神经网络104。

编码器神经网络104包括时间减少子网106、卷积LSTM子网108和网络中网络子网110。

时间减少子网106包括多个时间减少块，例如，第一时间减少块208和第二时间减少块210。时间减少子网106被配置为通过时间减少块208和210来接收和处理输入声学序列102。输入声学序列102可以包括多帧音频数据的序列，该多帧音频数据的序列是话语的数字表示，例如连续的数据流。多帧音频数据的序列可以对应于第一组时间步，例如，其中每帧音频数据与10毫秒的音频流数据相关联。每个时间减少块包括深度级联层和时间减少卷积层。例如，时间减少块208包括深度级联层230和时间减少卷积层232。时间减少块208包括深度级联层234和时间减少卷积层236。

由于seq2seq模型可能需要处理非常长的输入声学序列(即>2000帧)，如果卷积神经网络(Convolutional Neural Network，CNN)层是简单地堆叠在双向长短期记忆(Bidirectional Long-Short Term Memory，BLSTM)神经网络层(例如，如下面描述的网络中网络子网110中的BLSTM层)的前面，则系统可能很快耗尽GPU内存以用于深度模型，并且还可能具有过多的计算时间。为了缓解该问题，时间减少子网106被配置为在每个时间减少块中应用级联和跨层(striding)以减少时间维度和内存占用。时间减少子网106被配置为通过时间减少块处理输入声学序列102以生成简化序列，该简化序列包括在一组时间减少的时间步中的每个时间减少的时间步处的相应简化表示，其中第二组中的时间减少的时间步的数量少于输入声学序列102的第一组时间步中的时间步的数量。

具体地，块208中的深度级联层234被配置为在输入声学序列中以预定间隔在多个相邻输入时间步处深度级联声学特征表示，以生成第一级联表示序列。例如，假设输入时间步是{t₁、t₂、t₃、…、t_n}，深度级联层234可以在多个相邻时间步(例如，三个时间步t₁、t₂、和t₃)处深度级联声学特征表示，以生成第一初始时间减少的时间步t_1-3的第一级联表示。然后，深度级联层234向前移动由卷积NN(neural network，神经网络)层236的跨层确定的多个时间步，例如，如果层236具有k个跨层，则向前移动k个时间步，并且继续级联相同数量的时间步。例如，层234被配置为向前移动两个时间步并且级联接下来的三个时间步t₃、t₄、和t₅以生成第二初始时间减少的时间步t_3-5的第二级联表示。层234重复上述过程，直到到达最后的输入时间步，以便生成对于初始时间减少的时间步的输入声学序列的第一级联表示序列。结果，初始时间减少的时间步的数量已减少到该组输入时间步中的时间步数量的一半。

然后，时间减少卷积层236被配置为处理第一级联表示序列以生成初始简化表示序列，该初始简化表示序列包括在多个初始时间减少的时间步中的每一个处的相应初始简化表示。

时间减少块210中的深度级联层230被配置为在初始简化序列中以预定间隔在多个相邻初始时间减少的时间步处深度级联初始简化表示，以生成第二级联表示序列。例如，层230被配置为在三个初始时间减少的时间步t_1-3、t_3-5、和t_5-7处级联初始简化表示。然后，层230被配置为移动两个初始时间减少的时间步(即，假设时间减少卷积层232具有2个跨层)并且级联接下来的三个初始时间减少的时间步t_5-7、t_7-9和t_9-11。层230重复上述过程，直到到达最后的初始时间减少的时间步，以便生成输入声学序列的第二级联表示序列。

然后，时间减少卷积层232被配置为处理第二级联表示序列以生成简化表示序列，该简化表示序列包括在多个时间减少的时间步中的每一个处的简化表示。通过如以上示例中描述的通过时间减少块208和210处理输入声学序列，时间减少子网106的输出中的时间步的数量(例如，简化表示序列)已减少了4倍原始输入声学序列的输入时间步的数量。

在一些实施方式中，子网106中的每个时间减少块中的每个时间减少卷积层之后是批量归一化层，该批量归一化层对每个层的输入进行归一化以减少内部协变量(covariate)偏移。批量归一化层通过使归一化成为模型架构的一部分并且对训练数据的每个训练小批量执行归一化，来实现更高的学习速率和稳健的初始化以及提高泛化(improving generalization)。批量归一化对于训练seq-2-seq模型特别有用，这些模型在(特别是来自随机初始化的)梯度中具有高方差。在S.Ioffe和C.Szegedy的“Batchnormalization:Accelerating deep network training by reducing internalcovariate shift”，第32届机器学习国际会议论文集，第448-456页，2015，中详细描述了批量归一化。

卷积LSTM子网108包括多个残差块(例如，四个残差块212-218)。每个残差块包括由至少批量归一化层分离的卷积LSTM神经网络层(例如，3×3卷积LSTM滤波器)和卷积层。卷积层可以在每个块中的卷积LSTM层之前，反之亦然。卷积LSTM神经网络层使用卷积来替换LSTM单元内的内积。每个残差块中的卷积LSTM神经网络层可以是双向卷积LSTM层。每个残差块包括从到残差块的输入到残差块中的卷积LSTM神经网络层的输出的跳过连接(skipconnection)。

在时间减少子网106已经生成包括在第二组时间步中的每个时间减少的时间步处的相应简化表示的简化序列之后，卷积LSTM子网108被配置为，对于每个时间减少的时间步，通过残差块共同地处理在时间减少的时间步处的简化表示以生成对于时间减少的时间步的卷积LSTM输出。

网络中网络(NiN)子网110通常包括多个双向LSTM神经网络层(例如，双向LSTM神经网络层220、224和228)。NiN子网110还包括在每对双向LSTM神经网络层之间的相应1x1卷积层，以增加网络深度。例如，NiN子网110包括双向LSTM层220和双向LSTM层224之间的1x1卷积层222，以及双向LSTM层224和双向LSTM层228之间的1x1卷积层226。每个1x1卷积层之后是相应的批量归一化层。1x1卷积层的使用增加了编码器神经网络104的深度和表达力，同时减少了构建这种深度网络所需的参数总数。

NiN子网110被配置为，对于第二组时间步中的每个时间减少的时间步，在时间减少的时间步处共同地处理由卷积LSTM子网108生成的卷积LSTM输出，以生成对于该时间减少的时间步的编码表示。

上述编码器神经网络104使用多个非线性和表达力来增加处理深度，同时保持编码器神经网络的参数的数量可管理，实际上增加了每个参数的计算量。也就是说，编码器神经网络以有效的方式增加处理深度以引起改进的性能并保持合理的计算足迹，即，不需要过多的处理资源和存储器来存储语音识别神经网络或来使用神经网络以识别输入语音。这些优点通过例如使用跳过连接和批量归一化的组合来实现，这允许编码器神经网络被构造和被有效地训练，而不会遭受当网络104陷于局部极小值时可能发生的不良优化或泛化。另外，包括捕获频谱结构并提供共享权重滤波器的卷积的卷积LSTM神经网络层的使用，允许编码器神经网络保持结构表示并增加更多计算能力，同时减少参数的数量以便更好地泛化。

图3是用于生成由声学序列表示的话语的转录的示例过程300的流程图。为方便起见，过程300将被描述为由位于一个或多个位置的一个或多个计算机的系统执行。例如，适当编程的语音识别系统(例如，图1的语音识别系统100)可以执行过程300。

系统接收输入声学序列(步骤302)。声学序列表示话语并且包括对于第一组时间步中的每一个的相应音频数据帧。每帧数据是在对应的时间步处的话语的声学特征表示。

系统处理输入声学序列以生成输入声学序列的编码序列(步骤304)。编码序列是与第二组时间步相对应的多帧音频数据的序列。在一些实施方式中，编码序列是输入声学序列的高级表示，即，编码序列中的第二组时间步小于输入声学序列中的第一组时间步。系统使用编码器神经网络(例如图1和图2的编码器神经网络)处理输入声学序列，该编码器神经网络包括时间减少子网、卷积LSTM子网和网络中网络子网。

具体地，系统使用时间减少子网处理输入声学序列，以生成包括在第二组时间步的每个时间减少的时间步处的相应简化表示的简化表示序列。对于每个时间减少的时间步，系统使用卷积LSTM子网，在时间减少的时间步处处理简化表示，以生成对于该时间步的卷积LSTM输出。然后，对于每个时间减少的时间步，系统在时间减少的时间步处处理卷积LSTM输出，以生成对于该时间减少的时间步的编码表示。编码序列包括由系统对于第二组时间步中的所有时间减少的时间步而生成的编码表示。

系统处理编码序列以对于输出序列顺序中的每个位置，生成一组子串分数，该组子串分数包括对于一组子串中每个子串的相应子串分数(步骤306)。在一些实施方式中，子串可以包括一个或多个字符。例如，系统可以使用基于注意的字符解码器(例如，图1的解码器神经网络114)来处理输入声学序列的编码序列，以对于输出序列顺序中的每个位置生成一组子串分数，该组子串分数包括一组子串中的每个子串的相应子串分数。该组子串可以包括可以用于编写一种或多种自然语言的一组字母，例如英文字母和阿拉伯数字{a、b、c、...、z、0、...、9}。一组子串还可以包括空格字符、逗号字符、句点字符、省略字符和未知字符。在一些情况下，一组子串可以包括单词片段，即部分单词、单词或两者。对于每个子串的相应子串分数定义了该子串表示由输入声学序列表示的话语的正确转录的可能性。

系统根据子串分数生成表示话语的转录的子串序列(步骤308)。关于使用由解码器神经网络生成的分数生成话语的转录的示例技术在W.Chan，N.Jaitly，Q.Le和O.Vinyals的“Listen,Attend and Spell:A Neural Network for Large VocabularyConversational Speech Recognition”，声学、语音和信号处理国际会议上，2016年，中被更详细地描述。

本说明书使用与系统和计算机程序组件相关的术语“被配置”。对于一个或多个计算机的系统被配置为执行具体操作或动作意味着系统已经在其上安装了软件、固件、硬件或它们的组合，其在操作中使系统执行操作或动作。对于一个或多个计算机程序被配置为执行具体操作或动作意味着该一个或多个程序包括当由数据处理装置运行时使装置执行操作或动作的指令。

本说明书中描述的主题和功能操作的实施例可以在数字电子电路中、在有形体现的计算机软件或固件中、在计算机硬件中，包括本说明书中公开的结构及其结构等同物、或者它们的一个或多个的组合中实施。本说明书中描述的主题的实施例可以实施为一个或多个计算机程序，即，在有形非暂时性存储介质上编码的一个或多个计算机程序指令模块，用于由数据处理装置运行或者用于控制数据处理装置的操作。计算机存储介质可以是机器可读存储设备、机器可读存储基板、随机或串行存取存储器设备、或者它们中的一个或多个的组合。可替代地或另外地，程序指令可以在人工生成的传播信号上编码，例如，机器生成的电信号、光信号或电磁信号，人工生成的传播信号被生成以编码信息以便传输到合适的接收器装置以供数据处理装置运行。

术语“数据处理装置”指的是数据处理硬件并且包括用于处理数据的所有类型的装置、设备和机器，包括例如可编程处理器、计算机或多个处理器或计算机。装置还可以或者进一步包括专用逻辑电路，例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)。除了硬件之外，装置可以可选地包括为计算机程序创建运行环境的代码，例如，构成处理器固件、协议栈、数据库管理系统、操作系统、或者它们中的一个或多个的组合的代码。

计算机程序，也可以被称为或被描述为程序、软件、软件应用、应用、模块、软件模块、脚本或代码，可以用任何形式的编程语言编写，包括编译或解释性语言、或者声明性或程序性语言；并且它可以以任何形式部署，包括作为独立程序或者作为模块、组件、子程序或适用于在计算环境中使用的其他单元。程序可以但不必对应于文件系统中的文件。程序可以存储在保存其他程序或数据的文件的一部分中，例如，存储在标记语言文档中的一个或多个脚本；存储在专用于所讨论的程序的单个文件中；或者存储在多个协调文件中，例如存储一个或多个模块、子程序或代码的一部分的文件。可以部署计算机程序以在一个计算机上或者在位于一个站点上或分布在多个站点上并通过数据通信网络互连的多个计算机上运行。

本说明书中描述的过程和逻辑流程可以由运行一个或多个计算机程序的一个或多个可编程计算机执行，以通过对输入数据进行操作并生成输出来执行功能。过程和逻辑流程也可以由专用逻辑电路(例如FPGA或ASIC)或专用逻辑电路和一个或多个编程的计算机的组合来执行。

适合于计算机程序的运行的计算机可以基于通用或专用微处理器或两者、或者任何其他类型的中央处理单元。通常，中央处理单元将从只读存储器或随机存取存储器或两者接收指令和数据。计算机的基本元素是用于执行或运行指令的中央处理单元和用于存储指令和数据的一个或多个存储器设备。中央处理单元和存储器可以由专用逻辑电路补充或并入专用逻辑电路中。通常，计算机还将包括或可操作地耦合到用于存储数据的一个或多个大容量存储设备(例如磁盘、磁光盘或光盘)以从其接收数据或者向其传送数据或者进行接收数据和传输数据两者。但是，计算机不需要这样的设备。此外，计算机可以嵌入在另一个设备中，例如移动电话、个人数字助理(Personal Digital Assistant，PDA)、移动音频或视频播放器、游戏控制台、全球定位系统(Global Positioning System，GPS)接收器或便携式存储设备(例如，通用串行总线(Universal Serial Bus，USB)闪存驱动器)，以上仅仅只是几个列子。

适用于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、介质和存储器设备，包括例如半导体存储器设备，例如EPROM、EEPROM和闪存设备，磁盘，例如内部硬盘或可移动磁盘，磁光盘，和CDROM和DVD-ROM磁盘。

为了提供与用户的交互，本说明书中描述的主题的实施例可以在具有显示设备(例如CRT(阴极射线管)或LCD(液晶显示器)监视器)的计算机上实施，以便向用户显示信息；以及键盘和指示设备(例如鼠标或跟踪球)，用户可以通过它们向计算机提供输入。其他类型的设备也可以用于提供与用户的交互，例如，提供给用户的反馈可以是任何形式的感觉反馈，例如视觉反馈、听觉反馈或触觉反馈，并且可以以任何形式接收来自用户的输入，包括声学、语音或触觉输入。另外，计算机可以通过向用户使用的设备发送文档和从用户使用的设备接收文档来与用户交互，例如，通过响应于从web浏览器接收的请求将网页发送到用户的设备上的web浏览器。此外，计算机可以通过向个人设备(例如，运行消息应用的智能电话)发送文本消息或其他形式的消息和反过来从用户接收响应消息来与用户交互。

用于实施机器学习模型的数据处理装置还可以包括，例如，专用硬件加速器单元，用于处理机器学习训练或生产(production)的公共和计算密集部分，即推理、工作负载(workload)。

可以使用机器学习框架来实施和部署机器学习模型，例如TensorFlow框架、Microsoft认知工具包框架、ApacheSinga框架或ApacheMXNet框架。

本说明书中描述的主题的实施例可以在包括后端组件的计算系统中实施，该后端组件例如作为数据服务器；或者可以在包括中间组件的计算系统中实施，该中间件组件例如应用服务器；或者可以在包括前端-终端组件的计算系统中实施，该前端-终端组件，例如，具有用户通过其可以与本说明书中描述的主题的实施方式进行交互的图形用户界面、网络浏览器或应用的客户端计算机；或者可以在包括一个或多个这样的后端组件、中间组件或前端-终端组件的任何组合的计算系统中实施。系统的组件可以由任何形式或介质的数字数据通信互连，例如通信网络。通信网络的示例包括局域网(Local Area Network，LAN)和广域网(Wide Area Network，WAN)，例如因特网。

计算系统可以包括客户端和服务器。客户端和服务器通常彼此远离，并且典型地通过通信网络进行交互。客户端和服务器之间的关系凭借在各自的计算机上运行的并且彼此之间具有客户端-服务器关系的计算机程序发生。在一些实施例中，服务器将数据(例如，HTML页面)传输到用户设备，例如，为了向与作为客户端的设备交互的用户显示数据和从与作为客户端的设备交互的用户接收用户输入的目的。可以在服务器处从设备接收在用户设备处生成的数据，例如，用户交互的结果。

虽然本说明书包含许多特定的实施方式细节，但是这些不应被解释为对任何发明的范围或可以要求保护的范围的限制，而是作为可以特定于具体发明的具体实施例的特征的描述。在本说明书中在单独实施例的上下文中描述的某些特征也可以在单个实施例中组合实施。相反地，在单个实施例的上下文中描述的各种特征还可以分离地或者以任何合适的子组合实施在多个实施例中。此外，尽管上面的特征可以被描述为以某些组合起作用并且甚至最初这样要求保护，但是在一些情况下可以从组合和所要求保护的组合中切除一个或多个特征，并且所要求保护的组合可以针对子组合或子组合的变化。

类似地，虽然在附图和列举的权利要求中以具体顺序描绘了操作，但是这不应该被理解为为了获得理想的效果需要以所示的具体顺序或以次序顺序来执行这些操作、或者需要执行所有示出的操作。在某些情况下，多任务处理和并行处理可能是有利的。此外，上面描述的实施例中的各种系统模块和组件的分离不应该被理解为在所有实施例中都需要这种分离，并且应该理解，描述的程序组件和系统通常可以集成在单个软件产品中或者封装成多个软件产品。

已经描述了主题的具体实施例。其他实施例在以下权利要求的范围内。例如，权利要求中列举的动作可以以不同的顺序执行并且仍然获得期望的结果。作为一个示例，附图中描绘的过程不一定需要所图示的具体顺序或次序顺序来获得期望的结果。在一些情况下，多任务处理和并行处理可能是有利的。

Claims

1.一种由一个或多个计算机实施的语音识别神经网络系统，包括：

编码器神经网络，被配置为根据输入声学序列生成编码序列，

所述输入声学序列表示话语，

所述输入声学序列包括在多个输入时间步中的每一个处的相应声学特征表示，

所述编码序列包括在多个时间减少的时间步中的每一个处的相应编码表示，

所述时间减少的时间步的数量少于所述输入时间步的数量，并且

所述编码器神经网络包括：

时间减少子网，被配置为处理所述输入声学序列以生成包括在多个时间减少的时间步中的每一个处的相应简化表示的简化表示序列；

卷积LSTM子网，被配置为，对于每个时间减少的时间步，在所述时间减少的时间步处处理所述简化表示，以生成对于所述时间步的卷积LSTM输出；和

网络中网络子网，被配置为，对于每个时间减少的时间步，在所述时间减少的时间步处处理所述卷积LSTM输出以生成对于所述时间减少的时间步的所述编码表示；和

解码器神经网络，被配置为接收所述编码序列并且处理所述编码序列，以对于输出序列顺序中的每个位置，生成一组子串分数，所述一组子串分数包括对于一组子串中每个子串的相应子串分数。

2.如权利要求1所述的系统，其中，所述时间减少子网包括：

第一时间减少块，包括：

第一深度级联层，被配置为在所述输入声学序列中以预定间隔在多个相邻输入时间步处深度级联声学特征表示，以生成第一级联表示序列；和

第一时间减少卷积层，被配置为处理所述第一级联表示序列以生成初始简化表示序列，所述初始简化表示序列包括在多个初始时间减少的时间步中的每一个处的相应初始简化表示；和

第二时间减少块，包括：

第二深度级联层，被配置为在所述初始简化序列中以预定间隔在多个相邻初始时间减少的时间步处深度级联初始简化表示，以生成第二级联表示序列；和

第二时间减少卷积层，被配置为处理所述第二级联表示序列以生成包括在多个时间减少的时间步中的每一个处的简化表示的所述简化表示序列。

3.如权利要求1或2所述的系统，其中，所述卷积LSTM子网包括一个接一个地堆叠的多个残差块。

4.如权利要求3所述的系统，其中，每个残差块包括：

由至少批量归一化层分离的卷积LSTM神经网络层和卷积神经网络层。

5.如权利要求4所述的系统，其中，每个残差块还包括：

从到所述残差块的输入到所述卷积LSTM神经网络层的输出的跳过连接。

6.如前述权利要求中任一项所述的系统，其中，所述网络中网络子网包括多个LSTM层。

7.如权利要求6所述的系统，其中，所述网络中网络子网包括在每对LSTM层之间的相应1×1卷积层。

8.如权利要求7所述的系统，其中，每个1×1卷积层之后是相应的批量归一化层。

9.如权利要求1至8中任一项所述的系统，还包括：

解码器子系统，被配置为根据所述子串分数生成子串序列，所述子串序列表示所述话语的转录。

10.一种方法，包括：

接收表示话语的输入声学序列；以及

使用权利要求1至9中任一项所述的编码器神经网络来处理所述输入声学序列，以生成包括在多个时间减少的时间步中的每一个处的相应编码表示的编码序列。

11.如权利要求10所述的方法，还包括：

使用解码器神经网络处理所述编码序列，以对于输出序列顺序中的每个位置，生成一组子串分数，所述一组子串分数包括对于一组子串中每个子串的相应子串分数。

12.如权利要求11所述的方法，还包括：

根据所述子串分数生成子串序列，所述子串序列表示所述话语的转录。

13.一种或多种存储指令的计算机存储介质，所述指令在由一个或多个计算机运行时使得所述一个或多个计算机实施如权利要求1至9中任一项所述的相应系统。

14.一种或多种存储指令的计算机存储介质，所述指令在由一个或多个计算机运行时使得所述一个或多个计算机执行如权利要求10至12中任一项所述的相应方法的所述操作。

15.一种装置，包括至少一个处理器和存储指令的至少一个计算机存储介质，所述指令在由所述至少一个处理器运行时，使得如权利要求1至9中任一项所述的系统被实施和/或如权利要求10至12中任一项所述的方法被执行。