CN109923559B - 准循环神经网络 - Google Patents

准循环神经网络 Download PDF

Info

Publication number
CN109923559B
CN109923559B CN201780068556.6A CN201780068556A CN109923559B CN 109923559 B CN109923559 B CN 109923559B CN 201780068556 A CN201780068556 A CN 201780068556A CN 109923559 B CN109923559 B CN 109923559B
Authority
CN
China
Prior art keywords
vector
qrnn
gate
sequence
vectors
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201780068556.6A
Other languages
English (en)
Other versions
CN109923559A (zh
Inventor
J·布拉德伯里
S·J·梅里蒂
熊蔡明
R·佐赫尔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shuo Power Co
Original Assignee
Shuo Power Co
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shuo Power Co filed Critical Shuo Power Co
Publication of CN109923559A publication Critical patent/CN109923559A/zh
Application granted granted Critical
Publication of CN109923559B publication Critical patent/CN109923559B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/44Statistical methods, e.g. probability models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/10Interfaces, programming languages or software development kits, e.g. for simulating neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Image Analysis (AREA)
  • Machine Translation (AREA)
  • Error Detection And Correction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Complex Calculations (AREA)

Abstract

所公开的技术提供了一种准循环神经网络(QRNN),其交替跨时间步长并行应用的卷积层,和跨特征维度并行应用的极简主义循环池化层。

Description

准循环神经网络
其他申请的交叉引用
本申请要求于2016年11月4日提交的申请号为62/417,333的美国临时专利申请“准循环神经网络(QUASI-RECURRENT NEURAL NETWORKS)”(代理人案卷号为SALE 1180-1/1946PROV)的权益。在此通过引用并入优先权临时申请以用于所有目的。
本申请要求于2016年11月4日提交的申请号为62/418,075的美国临时专利申请“准循环神经网络(QUASI-RECURRENT NEURAL NETWORKS)”(代理人案卷号为SALE 1180-2/1946PROV2)的权益。在此通过引用并入优先权临时申请以用于所有目的。
本申请要求于2017年1月31日提交的,申请号为15/420,710的美国非临时专利申请“准循环神经网络(QUASI-RECURRENT NEURAL NETWORKS”(代理人案卷号SALE 1180-3/1946US)的权益。在此通过引用并入优先权非临时申请以用于所有目的。以及
本申请要求于2017年1月31日提交的,申请号为15/420,801的美国非临时专利申请“基于准循环神经网络的编码器-解码器模型(QUASI-RECURRENT NEURAL NETWORK BASEDENCODER-DECODER MODEL)”(代理人案卷号SALE 1180-4/1946US2)的权益。在此通过参引用并入优先权非临时申请以用于所有目的。
所公开的技术的技术领域
所公开的技术一般涉及使用深度神经网络进行自然语言处理(NLP),尤其涉及涉及提高NLP任务中的计算效率的准循环神经网络(QRNN)务。
背景技术
不应将本节中讨论的主题仅因其在本节中提及就假设为现有技术。类似地,本节中提到的或与所提供的作为背景的主题相关的问题不应假设先前已在现有技术中认识。本节中的主题仅表示不同的方法,这些方法本身也可以对应于所要求保护的技术的实现。
循环神经网络(RNN)是用于对序列数据建模的强大工具,但是每个时间步长计算对先前时间步长输出的依赖性限制了并行性并使得RNN对于非常长的序列而言不实用。所公开的技术提供了一种准循环神经网络(QRNN),所述准循环神经网络交替跨时间步长中并行应用的卷积层和跨特征维度并行应用的极简循环池化层。
尽管缺乏可训练的循环层,但堆叠的QRNN具有比具有相同隐藏尺寸的堆叠长短期记忆网络(LSTM)更好的预测精度。由于它们的并行性增加,它们在训练和测试时间上快了高达16倍。语言建模、情感分类和字符级神经机器翻译的实验证明了这些优点,并强调了QRNN作为各种序列任务的基本构建块的可行性。
附图的简要说明
在附图中,相同的附图标记在不同视图中通常指代相同的部分。而且,附图不一定按比例绘制,而是通常将重点放在说明所公开的技术的原理上。在以下描述中,参考以下附图描述所公开的技术的各种实现方式,其中:
图1示出了提高了自然语言处理(NLP)任务中的计算效率的准循环神经网络(QRNN)的各方面。
图2示出了在输入向量的时间序列上并行操作并同时输出卷积向量的卷积层的一种实现。
图3描绘了包括激活向量、遗忘门向量、输入门向量和输出门向量的卷积向量的一种实现。
图4是包括由卷积层同时输出的激活向量和门向量的多个卷积向量的一种实现。
图5示出了由卷积层同时输出的激活向量和门向量中的序数位置处的特征值的一种实现。
图6是并行地应用累加器以在状态向量中同时累加特征和的有序集合,并且顺序地输出连续的状态向量的单门池化层的一种实现。
图7示出了并行地应用累加器以在状态向量中同时累加特征和的有序集合,并且顺序地输出连续的状态向量的多门池化层的一种实现。
图8描绘了由池化层顺序输出的连续状态向量的一种实现。
图9是准循环神经网络(QRNN)编码器-解码器模型的一种实现。
图10是示出QRNN对情绪分类任务的准确性比较的表。
图11示出了QRNN的状态向量的可视化的一种实现。
图12描绘了示出QRNN对语言建模任务的准确性进行比较的表格。
图13是示出QRNN对语言翻译任务的准确性比较的表。
图14描绘了示出QRNN的训练速度和推理速度的图表。
图15是可用于实现准循环神经网络(QRNN)的计算机系统的简化框图。
详细说明
呈现以下讨论以使得本领域技术人员能够制造和使用所公开的技术,并且在特定应用及其要求的背景下提供以下讨论。对于本领域技术人员来说,所公开的实现的各种修改是显而易见的,并且在不脱离所公开的技术的精神和范围的情况下,这里定义的一般原则可以应用于其他实现和应用。因此,所公开的技术不旨在限于所示的实现方式,而是符合与本文公开的原则和特征相一致的最宽范围。
讨论组织如下。首先,呈现描述QRNN解决的一些问题的介绍。然后,描述了实现时间步长方面并行性的卷积层,接着是实现特征尺寸方面并行性的池化层。接下来,讨论了QRNN编码器-解码器模型。最后,提供了一些实验结果,说明了QRNN在各种NLP任务上的性能。
介绍
包括诸如长短期记忆(LSTM)的门控变体的循环神经网络(RNN)已经成为用于序列建模任务的深度学习方法的标准模型架构。RNN重复将具有可训练参数的函数应用于隐藏状态。
还可以堆叠循环层,增加网络深度、代表性功率以及通常情况下的精确度。自然语言领域中的RNN应用范围从句子分类到单词级和字符级语言建模。RNN通常也是用于诸如机器翻译或问答的任务的更复杂模型的基本构建块。
在RNN中,在每个时间步长处的计算取决于来自先前时间步长的结果。由于这个原因,包括LSTM在内的RNN在处理包含很长序列的任务的能力方面受到限制,例如文档分类或字符级机器翻译,因为对文档不同部分的特征或状态的计算不能并行发生。
卷积神经网络(CNN)虽然在包含图像数据的任务上更受欢迎,但也已应用于序列编码任务。这些模型沿着输入序列与窗口并行地应用时间不变的滤波器函数。与循环模型相比,CNN具有几个优点,包括增加的并行性和更好地扩展到诸如那些通常用字符级语言数据看到的序列的长序列。当在混合架构中与RNN层结合时,用于序列处理的卷积模型已经更成功,因为跨时间步长结合卷积特征的传统最大池和平均池方法假设时间不变,因此不能充分利用大规模序列次序信息。
所公开的技术提供了一种准循环神经网络(QRNN),其解决了类似RNN和CNN的标准模型的缺点。QRNN允许跨时间步长和特征维度进行并行计算,从而实现高吞吐量和长序列的良好缩放。与RNN一样,QRNN允许输出取决于序列中元素的整体顺序。QRNN适用于多种自然语言任务,包括文档级情感分类、语言建模和字符级机器翻译。QRNN在所有三项任务上都优于强大的LSTM基线,同时大大缩短了计算时间。
直观地,长序列的语义的许多方面是上下文不变的并且可以并行地(例如,卷积地)计算,但是一些方面需要长距离上下文并且必须循环地计算。许多现有的神经网络架构要么无法利用上下文信息,要么无法利用并行性。QRNN开发并行性和上下文,展现出卷积和循环神经网络的优势。QRNN比具有相同隐藏大小的基于LSTM的模型具有更好的预测准确性,即使它们使用更少的参数并且实质上运行得更快。
实验表明,速度和准确度优势在任务以及单词和字符级别上保持一致。CNN和RNN的扩展直接适用于QRNN,而模型的隐藏状态比其他循环架构更容易解释,因为它的通道跨时间步长保持独立性。因此,QRNN有机会充当以前对传统RNN不切实际的长序列任务的构建块。
准循环神经网络(QRNN)
图1示出了QRNN 100的计算结构。QRNN 100包含两种组件或层,即卷积层(如102,106)和池化层(如104,108)。卷积层102,106允许跨序列微小区(minibatches)和时间步长的完全并行计算。池化层104,108缺少可训练参数并且跨序列微小区和特征维度应用完全并行计算。在图1中,池化层104,108的连续块表示沿着特征尺寸并行操作的无参数函数。
图1还示出了子QRNN110,112。子QRNN110包含至少一个卷积层102和至少一个池化层104。子QRNN112包含至少一个卷积层106和至少一个池化层108。在其他实现中,子QRNN110,112中的每一个包括任何数量的卷积层(例如,两个,三个或更多个)和任何数量的池化层(例如,两个,三个或更多个)。同样在其他实现中,QRNN100可以包括一个或更多个子QRNN。
在一些实现方式中,QRNN 100包含从序列中的最低子QRNN到序列中的最高子QRNN布置的子QRNN序列。如这里所使用的,将具有以序列布置的的多个子QRNN的QRNN称为“堆叠的QRNN”。诸如QRNN 100的堆叠QRNN通过序列中的每个子QRNN处理所接收的输入数据,以生成输入数据的替代表示。另外,子QRNN(例如,子QRNN 110,112)接收由序列中的前一子QRNN生成的先前输出作为输入。这些接收的步骤由子QRNN的输入接收器(例如,输入接收器144)实现。例如,在图1中,第二子QRNN 112的第二卷积层106处理作为输入的、来自第一子QRNN110的前一个第一池化层104的输出。相反,第一子QRNN 110的第一卷积层102将作为输入的、嵌入的向量(例如,单词向量、字符向量、短语向量)映射到高维嵌入空间。因此,在一些实现方式中,将变化的输入提供给堆叠的QRNN的不同子QRNN和/或子QRNN内的不同组件(例如,卷积层、池化层)。
此外,QRNN 100通过卷积层处理来自前一子QRNN的输出,以产生前一输出的替代表示。然后,QRNN 100通过池化层处理替代表示以产生输出。例如,在图1中,第二子QRNN112使用第二卷积层106来对来自第一子QRNN 110的第一池化层104的先前输出114进行卷积。卷积产生替代表示116,其由第二子QRNN 112的第二池化层108进一步处理以产生输出118。
在一些实现方式中,QRNN 100还包括子QRNN之间和/或子QRNN中的层之间的跳跃连接。跳跃连接,例如120,122,124,将前一层的输出与当前层的输出连接,并将连接提供给后一层作为输入。在子QRNN的层之间的跳跃连接的一个示例中,跳跃连接120将第一子QRNN110的第一卷积层102的输出126与第一子QRNN 110的第一池化层104的输出128连接。该连接随后作为输入提供给第二子QRNN 112的第二卷积层106。在子QRNN之间的跳跃连接的一个示例中,跳跃连接122连接第一子QRNN 110的第一卷积层102的输出126和第二子QRNN112的第二卷积层106的输出130。该连接随后作为输入提供给第二子QRNN 112的第二池化层108。同样,跳跃连接124连接第一子QRNN 110的第一池化层104的输出128和第二子QRNN112的第二卷积层106的输出130。该连接随后作为输入提供给第二子QR NN 112的第二池化层108。
对于序列分类任务,QRNN 100包括每个QRNN层之间的跳跃连接,其在本文中称为“密集连接”。在一种实现中,QRNN 100包括输入嵌入与每个QRNN层之间以及每对QRNN层之间的密集连接。这导致在将得到的状态向量馈送到下一层之前QRNN 100沿着特征维度将每个QRNN层的输入连接到其输出后。然后将最后一层的输出用作整体编码结果。
ORNN卷积层-时间步骤并行性
图2示出了QRNN卷积层200的操作的一种实现。图2示出了表示输入序列中的n个元素的d维输入向量x1,...,x6,...,xn。输入向量x1,...,x6,...,xn分别在n时间步长上产生。在一种实现中,输入序列是具有n个单词的单词级输入序列。在另一实现中,输入序列是具有n个字符的字符级输入序列。在又一实现中,输入序列是具有n个短语的短语级输入序列。输入向量x1,...,x6,...,xn被映射到高维向量空间,在此称为“嵌入空间”。使用嵌入矩阵来定义嵌入空间,其中ν表示词汇的大小。在实现中,嵌入空间可以是单词嵌入空间,字符嵌入空间或短语嵌入空间。在一些实现中,使用诸如GloVe和word2vec的预训练嵌入模型来初始化输入向量x1,...,x6,...,xn。在其他实现中,输入向量基于独热编码。
QRNN卷积层200利用b个一组的滤波器对输入向量x1,...,x6,...,xn上的m个时间序列窗口执行并行卷积,以同时输出m个卷积向量y1,...,y5,...,ym的序列ζd是每个卷积向量的维度,其中ζ标识维度增加参数。这些产生并发卷积向量的步骤由卷积层的卷积向量产生器(例如,卷积向量产生器212)实现。这些增加步骤由卷积层的维度增加器(例如,维度增加器214)体现。如这里所使用的,“跨越时间步长或时间序列维度的并行性”或“时间步长或时间序列并行性”是指在时间序列m个时间序列窗口上将卷积滤波器组并行应用到输入向量x1,...,x6,...,xn以同时生成m个卷积向量y1,...,y5,...,ym的QRNN卷积层200。
在实现中,根据卷积滤波器组中的多个卷积滤波器,相对于输入向量x1,...,x6,...,xn的维度增加了同时产生的卷积向量y1,...,y5,...,ym的维度。因此,维度增加参数ζ成比例地取决于卷积滤波器组中的卷积滤波器的数量,从而ζd=b。例如,如果输入向量x1,...,x6,...,xn的维度是100,即d=100,并且卷积滤波器组包含200个卷积滤波器,即b=200,同时输出的卷积向量y1,...,y5,...,ym的维度是200,即ζd=200和ζ=2。在其他实现中,卷积滤波器组(例如,卷积滤波器组210)配置有不同数量的卷积滤波器,使得同时输出的卷积向量的维度ζd是300,400,500,800或任何其他数。
图3描绘了卷积向量ym208的一种实现,其包括激活向量zm302、遗忘门向量fm304、输入门向量im306和输出门向量om308。在实现中,卷积向量可以包括激活向量和一个或更多个门向量的任何组合。例如,在一种实现中,卷积向量208包括激活向量302和遗忘门向量304。在另一实现中,卷积向量208包括激活向量302、遗忘门向量304和输入门向量306。在又一个实现中,卷积向量208包括激活向量302、遗忘门向量304和输出门向量308。
在实现中,卷积向量208中的多个门向量根据卷积向量的维度ζd来配置,使得维度ζd在激活向量和卷积向量的一个或更多个门向量之间成比例地分开。在一个示例中,对于卷积向量ym 208,如果ζd=400,则激活向量zm302,遗忘门向量fm304,输入门向量im306和输出门向量om308都具有相同的维度d=100。在另一个示例中,对于维度ζd=200的卷积向量,卷积向量包括激活向量和仅一个门向量(例如,遗忘门向量),每一个的维度d=100。在又一示例中,对于维度ζd=300的卷积向量,卷积向量包括激活向量和两个门向量(例如,遗忘门向量和输出门向量或遗忘门向量和输入门向量),每一个的维度d=100。
图4是多个卷积向量y1,...,y5,...,ym的一种实现,包括由QRNN卷积层200同时输出的激活向量和门向量。图4示出了由QRNN卷积层200生成的第一时间序列窗口的卷积向量y1202。卷积向量y1202包括激活向量z1402,遗忘门向量f1404,输入门向量i1406和输出门向量o1408.类似地,QRNN卷积层200产生第m个时间序列窗口的卷积向量208。
在一些实现中,为了对包括预测输入序列的下一元素的任务有用,卷积滤波器必须不允许对任何给定时间步长的计算访问来自未来时间步长的信息。也就是说,对于宽度为k的滤波器,每个卷积向量yt仅取决于xt-k+1到xt的输入向量。这种卷积操作在本文中称为“掩蔽卷积”。在一个实现中,通过将卷积的滤波器大小减去1将输入填充到左侧来应用掩蔽卷积。
同时产生的卷积向量y1,...,y5,...,ym提供由QRNN池化层使用以实现一个或更多个QRNN池化功能的激活向量和门向量。在一种实现中,在被QRNN池化层使用之前,激活向量和门向量经历预处理。在一种实现中,预处理包括使激活向量通过双曲正切非线性激活(tanh)。在一种实现中,预处理包括使门向量通过逐元素的sigmoid非线性激活(σ)。对于在每个时间步长窗口需要遗忘门向量ft和输出门向量ot的QRNN池化函数,相应QRNN卷积层中的计算由以下数学公式定义:
Z=tanh(Wz*X)
F=σ(Wf*X)
O=σ(Wo*X)
其中,激活向量Wz,Wf,和Wo,每一个在中,是卷积滤波器组并且*表示沿时间步长维度的掩蔽卷积。
在一个典型实现中,当卷积滤波器的滤波器宽度为2时,激活向量和门向量表示类似LSTM的门,并且由以下数学公式定义:
其中激活向量zt,遗忘门向量ft,输入门向量it,和输出门向量ot通过将各自的卷积滤波器权重矩阵Wz 1,Wz 2,Wf 1,Wf 2,Wi 1,Wi 2,Wo 1,Wo 2应用到输入向量xt-1和xt而同时生成。
在其他实现中,更大宽度的卷积滤波器用于在每个时间步长窗口处计算更高的n-gram特征。在实现中,更大的宽度对于字符级任务尤其有效。
QRNN池化层-QRNN池化函数
QRNN池化层实现各种QRNN池化函数。QRNN池化函数由对应的QRNN卷积层提供的一个或多个门向量控制。门向量跨时间步长窗口上混合状态向量,同时在状态向量的每个元素上独立地操作。在实现中,QRNN池化函数从LSTM单元的逐元素门构建。在其他实现中,QRNN池化函数基于LSTM的变体构建,例如无输入门(NIG)变体、无遗忘门(NFG)变体、无输出门(NOG)变体、无输入激活函数(NIAF)变体、无输出激活函数(NOAF)变体,耦合输入-遗忘门(CIFG)变体和全门循环(FGR)变体。在其他实现中,QRNN池化函数是基于门控循环单元(GRU)或任何其他类型的RNN或任何其他传统或未来开发的神经网络的操作来构建的。
f-池化
考虑以下数学公式,其定义QRNN池化函数的一个实现,在此称为“f-池化”,其使用单个门向量:
其中,
ct是当前状态向量
ft是当前遗忘状态向量
ct-1是先前状态向量
zt是当前激活状态向量
表示逐元素相乘或Hadamard乘积
关于状态向量,当前状态向量ct是当前激活向量zt与过去状态向量ct-1的合并。当前激活向量zt由当前卷积向量yt识别,该卷积向量yt是从输入向量xt,...,xt+k-1的当前时间序列窗口上的卷积导出的,其中k是卷积滤波器的大小或宽度。像人一样,当前状态向量ct知道将当前卷积的输入向量窗口xt,...,xt+k-1与过去状态向量ct-1组合或混合的配方,以便根据上下文过去来概括当前的输入向量窗口xt,...,xt+k-1。因此,当前激活向量zt和过去状态向量ct-1用于生成包括当前输入向量窗口xt,...,xt+k-1的各方面的当前状态向量ct
关于遗忘门向量,当前遗忘门向量ft评估过去状态向量ct-1对计算当前状态向量ct有多少用。此外,当前遗忘门向量ft还提供了对当前激活向量zt对计算当前状态向量ct有多少用的评估。
fo-池化
在一些实现中,QRNN池化函数,除遗忘门向量之外还使用输出门向量,在本文中被称为“fo-池化”并且由以下数学公式定义:
其中,
ht是当前隐藏状态向量
ot是当前输出状态向量
ct是当前状态向量
表示逐元素相乘或Hadamard乘积
当前状态向量ct可以包含不一定需要保存的信息。当前输出门向量ot评估当前状态向量ct的哪些部分需要暴露或存在于当前隐藏状态向量ht中。Ifo-池化
考虑以下数学公式,其定义QRNN池化函数的一个实现,在此称为“ifo-池化”,其使用多个门向量:
其中,
ct是当前状态向量
ft是当前遗忘状态向量
ct-1是先前状态向量
it是当前输入门向量
zt是当前激活状态向量
表示逐元素相乘或Hadamard乘积
关于输入门向量,为了生成当前状态向量ct,当前输入门向量it考虑当前激活向量zt的重要性,并且引申开来,考虑当前输入向量窗口xt,...,xt+k-1的重要性。输入门向量it是有多少当前输入值得保留的指示器,因此用于门控当前状态向量ct
因此,跟人一样,数学公式(3)涉及:获取当前遗忘门向量ft的建议以确定应忘记多少过去状态向量ct-1,接受当前输入门向量it的建议以确定应考虑多少当前激活向量zt,并将两个结果相加以产生当前状态向量ctQRNN池化层-特征维度并行性
QRNN池化层使用诸如f-池化,fo-池化和ifo-池化之类的一个或多个QRNN池化函数来计算m个时间序列窗口中的每一个的状态向量。每个状态向量由多个元素组成。状态向量的每个元素在本文中称为“特征和”。状态向量的每个特征和由状态向量中的对应序数位置标识。
考虑图8中描绘的状态向量序列C。序列C包括状态向量c1,...,cm。在一个示例中,第一时间序列窗口的状态向量c1802由以下100个特征和的有序集合组成:
c1 1,...,c1 100
其中,上标标识特定状态向量中给定特征和的序数位置,下标标识特定状态向量,并且引申开来,还标识特定时间序列窗口。
类似地,第m个时间序列窗口的状态向量cm 804也由100个特征和cm 1,...,cm 100的有序集合组成。
状态向量中的特征和或元素的数量成比例地取决于状态向量的维度d。因此,由于状态向量c1802具有维度100,即d=100,它具有100个特征和。此外,状态向量的维度d取决于用于计算状态向量的激活向量和门向量的维度。在实现中,激活向量,门向量和结果状态向量共享相同的维度d。
通常,由QRNN池化层为给定输入序列产生的所有状态向量共享相同的维度d。因此,如图8所示,状态向量c1,...,cm具有相同数量的特征和或元素,每个特征和由每个状态向量内的相应序数位置标识。
类似状态向量,激活向量和门向量也由多个元素组成。激活向量的每个元素在本文中被称为“特征值”。类似地,门向量的每个元素在本文中也称为“特征值”。激活向量的每个特征值由激活向量中的对应序数位置标识。类似地,门向量的每个特征值由门向量中的对应序数位置标识。
转到图5,其示出了激活向量z1,...,zm的激活向量序列Z,遗忘门向量f1,...,fm的遗忘门向量序列F,输入门向量i1,...,im的输入门向量序列I,以及输出门向量o1,...,om的输出门向量序列O。如上所述,QRNN卷积层200同时输出序列中Z,F,I和O的所有激活向量和门向量。
在一个示例中,第一时间序列窗口的激活向量z1402由以下100个特征值的有序集合组成:
z1 1,...,z1 100
其中,上标标识特定激活向量中给定特征值的序数位置,下标标识特定激活向量,并且引申开来还标识特定时间序列窗口。
类似地,图3中第m个时间序列窗口的激活向量zm302也由一组100个特征值zm 1,...,zm 100的有序集合组成。
在另一示例中,第一时间序列窗口的遗忘门向量f1404由以下的100个特征值的有序集合组成:
f1 1,...,f1 100
其中,上标标识特定遗忘门向量中给定特征值的序数位置,下标标识特定遗忘门向量,并且引申开来,还标识特定时间序列窗口。
类似地,第m时间序列窗口的遗忘门向量fm304也由100个特征值fm 1,...,fm 100的有序集合组成。
在又一示例中,用于第一时间序列窗口的输入门向量i1406由以下的100个特征值的有序集合组成:
i1 1,...,i1 10w
其中,上标标识特定输入门向量中给定特征值的序数位置,下标标识特定输入门向量,并且引申开来,还标识特定时间序列窗口。
类似地,第m时间序列窗口的输入门向量im306也由100个特征值im1,...,im100的有序集合构成。
在又一示例中,第一时间序列窗口的输出门向量o1408由以下的的100个特征值的有序集合组成:
o11,...,o1100
其中,上标标识特定输出门向量中给定特征值的序数位置,下标标识特定输出门向量,并且引申开来还标识特定时间序列窗口。
类似地,第m个时间序列窗口的输出门向量om308也由100个特征值om1,...,om100的有序集合构成。
如本文所使用的,“跨特征维度的并行性”或“特征并行性”是指在卷积向量的特征值上(即,在相应激活向量和由卷积向量产生的一个或多个门向量中的相应特征值上)并行操作,以在状态向量中同时累加特征和的有序集合的QRNN池化层。特征和的累加可以基于一个或多个QRNN池化函数,例如f-池化,fo-池化和ifo-池化。逐元素累加涉及用作参数的门向量中的特征值,所述参数分别通过序数位置应用于激活向量中的特征值。
考虑图6中的特征并行性的一个示例,其基于由单门QRNN池化层600实现的f-池化。注意,QRNN池化层600使用以下数学公式应用f-池化“逐序数位置”:
其中,所有符号的对指示在矩阵的两个维度上的操作以及
表示连续时间序列窗口上的操作
表示在序数位置之上的操作,其是可并行的操作
是在当前状态向量ct中的j序数位置处的特征和
是在当前遗忘门向量ft中的j序数位置处的特征值
在前期状态向量ct-1中的j序数位置处的特征值
是在当前激活向量zt中的j序数位置处的特征值
·表示乘法
数学公式(4)涉及根据以下情况计算当前时间序列窗口t的状态向量ct中的给定序数位置j的特征和在先前时间序列窗口t-1的状态向量ct-1中的相同序数位置j处的特征和当前时间序列窗口t的遗忘门向量ft中的相同序号位置j处的特征值ftj,以及当前时间序列窗口t的遗忘门向量zt中的相同序号位置j处的特征值ftj。
因此,跟人一样,在数学公式(4)中,当前遗忘门向量的每个特征值控制来自当前激活向量的相应特征值和来自先前状态向量的相应特征和的逐序数位置累加。因此,在图6中,根据特征和特征值f1 1和特征值累加特征和类似地,根据特征和特征值f1 2和特征值累加特征和同样,根据特征和特征值f1 100和特征值累加特征和在实现中,第一状态向量c0的特征和可以被初始化为零,或者被初始化为预训练的值,或者被初始化为取决于激活向量的特征值的值。
关于特征并行性,对于当前时间序列状态向量ct,QRNN池化层600并行地应用累加器(例如,累加器602)以根据数学公式(4)同时累加状态向量ct中的所有序数位置的特征和。因此,在图6中,并行地累加第一时间序列窗口的状态向量c1 802的特征和c1 1,...,c1 100。类似地,并行地累加第二时间序列窗口的状态向量c2的特征和c2 1,...,c2 100。同样地,并行地累加第m个时间序列窗口的状态向量cm 804的特征和cm 1,...,cm 100
此外,QRNN池化层600顺序输出m时间序列窗口中的每个连续时间序列窗口的状态向量c1,...,cm。这些顺序输出状态向量的步骤由QRNN 100的输出产生器(例如,输出产生器604)体现。
考虑图7中的特征并行性的另一示例,其基于由多门池化层700实现的ifo-池化。注意,QRNN池化层700使用以下数学公式应用ifo-池化“逐序数位置”:
其中,所有符号的对表示在矩阵的两个维度上的操作以及
表示连续时间序列窗口上的操作
表示在序数位置之上的操作,其是可并行的操作
是在当前状态向量ct中的j序数位置处的特征和
ft j是在当前遗忘门向量ft中的j序数位置处的特征值
在先前的状态向量ct-1中的j序数位置处的特征值
是在当前输入门向量it中的i序数位置处的特征值
是在当前激活向量zt中的j序数位置处的特征值
·表示乘法
数学公式(5)涉及根据以下情况计算当前时间序列窗口t的状态向量ct中的给定序数位置j的特征和在先前时间序列窗口t-1的状态向量ct-1中的相同序数位置j处的特征和当前时间序列窗口t的遗忘门向量ft中相同序数位置j的特征值ft j,当前时间序列窗口t的输入门向量it中相同序数位置j的特征值以及在当前时间序列窗口t的遗忘门向量zt中相同序数位置j的特征值
因此,像人一样,在数学公式(5)中,当前遗忘门向量的每个特征值控制来自先前状态向量的相应特征和的逐序数位置累加,以及当前输入门向量的每个特征值控制来自当前激活向量相应的特征值的逐序数位置累加。因此,在图7中,根据特征和特征值f1 1,特征值和特征值来累加特征和类似地,根据特征和特征值f1 2,特征值和特征值来累加特征和同样,根据特征和特征值f1 100,特征值和特征值累来累加特征和在实现中,可以将第一状态向量的特征和c0初始化为零,或者初始化为预训练的值,或者初始化为取决于激活向量的特征值的值。
关于特征并行性,对于当前时间序列状态向量ct,QRNN池化层700并行地应用累加器以根据数学公式(5)同时累加状态向量ct中的所有序数位置处的特征和。因此,在图7中,将第一时间序列窗口的状态向量c1 802的特征和c1 1,...,c1 100并行累加。类似地,并行地累加第二时间序列窗口的状态向量c2的特征和c2 1,...,c2 100。同样地,并行地累加第m个时间序列窗口的状态向量cm 804的特征和cm 1,...,cm 100
此外,QRNN池化层700顺序地输出m时间序列窗口中的每个连续时间序列窗口的状态向量c1,...,cm
因此,单个QRNN池化层执行依赖于输入的池化,接着是卷积特征的门控线性组合。虽然QRNN池化函数的循环部分是由输入序列中每个时间步长的QRNN池化层计算的,但QRNN池化层沿特征维度的并行性意味着,实际上,在长输入序列上实现QRNN池化函数需要的计算时间的量可以忽略不计。
在一个实现中,通过要求当前时间序列窗口的状态向量中的给定序数位置处的特征和的随机子集来使QRNN规则化,以在先前的时间序列窗口同时累加的状态向量中的给定序数位置处复制相应的特征和。这是通过要求当前时间序列窗口的遗忘门向量中的给定序数位置处的相应特征值一致来实现的。
QRNN编码器-解码器模型
图9是QRNN编码器-解码器模型900的一种实现,其增加了神经网络序列到序列建模中的计算效率。模型900包括QRNN编码器和QRNN解码器。QRNN编码器包括一个或多个编码器卷积层(如902,906)和一个或多个编码器池化层(如904,908)。至少一个编码器卷积层(如902)接收编码器输入向量的时间序列,并同时输出用于时间序列窗口的编码的卷积向量。此外,至少一个编码器池化层(如904或908)接收时间序列窗口的编码的卷积向量,同时在当前时间序列窗口的编码的状态向量中累加特征和的有序集合,并顺序输出用于在时间序列窗口中的每个连续时间序列窗口的编码的状态向量(如922a,922b或922c)。
QRNN解码器包括一个或多个解码器卷积层(如914,918)和一个或多个解码器池化层(如916,920)。至少一个解码器卷积层(如914)接收解码器输入向量的时间序列,并同时输出时间序列窗口的解码的卷积向量。至少一个解码器池化层(如916或920)接收时间序列窗口的解码的卷积向量(如915a,915b,915c),其分别与由最终时间序列窗口的编码器池化层(如904或908)输出的编码的状态向量(如910或912)连接,同时在当前时间序列窗口的解码的状态向量中累加特征和的有序集合,并为时间序列窗口中的每个连续时序序列窗口顺序输出解码的状态向量(如924a,924b或924c)。因此,每个解码器QRNN层的卷积函数的输出在每个时间步长处用最终编码器隐藏状态进行补充。这是通过将l层的卷积结果(例如,)用广播添加到层l的最后编码器状态(例如,)(如910或912)的线性投影副本来实现的。补充解码器池化输入的这些步骤由QRNN 100的补充器(例如,补充器934)体现。
QRNN编码器-解码器模型900的激活向量和门向量由以下数学公式定义:
其中,波浪字符是编码器变量。
然后,状态比较器计算编码的状态向量(如922a,922b或922c)与解码的状态向量(如924a,924b或924c)之间的语言相似性(例如,使用点积或内积或双线性乘积),以产生具有逐编码轴和逐解码轴的亲和度矩阵926。这些计算语言相似性的步骤由关注编码器/注意力接口938的状态比较器(例如,状态比较器940)表现。接下来,诸如softmax的指数归一化器928逐编码归一化亲和度矩阵926以产生相应的编码-解码注意权重αst,定义为:
然后,编码混合器(例如,注意编码器/注意力接口938的编码混合器942)分别将编码的状态向量(如922a,922b或922c)与编码-解码注意权重结合以生成相应的编码的状态向量的上下文摘要kt,定义如下:
最后,注意编码器分别将解码的状态向量(如924a,924b或924c)与编码的状态向量的相应的上下文摘要结合,以产生每个时间序列窗口的注意编码。在一个实现中,注意编码器是多层感知器,其将经解码的状态向量和编码的状态向量的相应的上下文摘要的连接投影到非线性投影中,以产生每个时间序列窗口的注意编码。
在一些实现中,经编码的状态向量(如922a,922b或922c)分别乘以经编码的卷积向量的输出门向量(例如,注意编码器/注意力接口938的解码器输出门948)以产生相应的编码的隐藏状态向量。在这样的实现中,状态比较器计算(例如,使用点积或内积或双线性乘积)编码的隐藏状态向量和解码的状态向量之间的语言相似性,以产生具有逐编码轴和逐解码轴的亲和度矩阵。而且,在这样的实现中,编码混合器分别将编码的隐藏状态向量与编码-解码注意权重相结合,以生成编码的隐藏状态向量的相应的上下文摘要。此外,在这样的实现中,注意编码器分别将解码的状态向量与编码的隐藏状态向量的相应的上下文摘要结合,并且进一步将这些组合与解码的卷积向量的相应输出门向量相乘,以产生每个时间序列窗口的注意编码。在一个实现中,注意编码器是多层感知器,其将经解码的状态向量和编码的隐藏状态向量的相应上下文摘要的连接投影到非线性投影中,并且进一步将线性投影930与解码的卷积向量相应的输出门向量932相乘,以产生每个时间序列窗口的注意编码,定义如下:
其中L为最后一层为。线性投影的这些步骤由注意编码器/注意力接口938的线性感知器944实现。这些连接步骤由注意编码器/注意力接口938的连接器946实现。
虽然注意过程的第一步是序列长度的二次方,但实际上由于简单且高度并行的点积打分函数,它比模型的线性和卷积层花费明显更少的计算时间。
所公开的技术的其他实施方式包括使用与指数归一化器不同的,与指数归一化器一起使用的归一化器和/或与指数归一化器组合使用的归一化器。一些示例包括基于sigmoid的归一化器(例如,多类sigmoid,分段斜坡),基于双曲正切的归一化器,基于整流线性单元(ReLU)的归一化器,基于标识的归一化器,基于逻辑的归一化器,基于正弦的归一化器,基于余弦的归一化器,基于单位和的归一化器和基于步长的归一化器。其他示例包括分层softmax(分类器),差分softmax,重要性采样,噪声对比估计,负采样,门控分类器球面softmax,泰勒(Taylor)softmax和离散最大化器。在其他实施方式中,可以使用任何其他常规或未来开发的归一化器。
实验结果
QRNN在三种不同的自然语言处理(NLP)任务(即文档级情感分类,语言建模和基于字符的神经网络机器翻译)上优于相等状态向量大小的基于LSTM的模型,同时显著提高计算速度。使用状态向量执行不同NLP任务的这些步骤由QRNN 100的分类器(例如,分类器806)或QRNN编码器-解码器模型900的翻译器950实现。
图10是示出QRNN在流行文档级情绪分类基准,IMDb电影评论数据集的情绪分类任务上的的准确性比较的表。该数据集由25000个正面和25000个负面评论的平衡样本组成,分为等大小的训练和测试集,平均文档长度为231个单词。在一种实现中,具有四层密集连接架构的QRNN(每层256个单元)和使用300维度的外壳(cased)GloVe嵌入初始化的单词向量在保持开发上实现最佳性能。
图11示出了在来自IMDb数据集的示例的一部分上的最终QRNN层的隐藏状态向量的可视化的一种实现,其具有沿垂直轴的时间步长。即使没有任何后处理,隐藏状态的变化也是可见的,并且可以根据输入进行解释。这是循环池化函数的逐元素性质的结果,其延迟隐藏状态的不同通道之间的直接交互,直到下一个QRNN层的计算。
在图11中,颜色表示神经元激活。在最初的正向声明“这部电影简直华丽(Thismovie is simply gorgeous)”之后(在时间步长9处关闭图表),由于短语“不完全是一个坏故事(not exactly a bad story)”(在“主要弱点是其故事”之后不久),时间步长117触发大多数隐藏状态的重置。只有在时间步158中,在“我向所有人推荐这部电影,即使你从未玩过游戏(Irecommend this movie to everyone,even if you’ve never played thegame)”之后,进行隐藏的单元的恢复。
图12描绘了表格,其表示QRNN在语言建模任务上的准确性比较。该实验使用宾夕法尼亚大学树图资料库(Penn Treebank)(PTB)的标准预处理版本。图12显示了单一模型在宾夕法尼亚大学树图资料库(Penn Treebank)语言建模任务的生效和测试集上的困惑。越低越好。“中值”是指每层具有640或650个隐藏单元的双层网络。在一些实现中,所有QRNN模型在嵌入上以及层之间包括0.5的丢失。MC指测试时的蒙特卡洛辍学平均值。
如图12所示,QRNN强烈地优于不同类型的LSTM。这是归因于QRNN的池化层相对于LSTM的重复权重的有效计算能力,其在循环上提供结构正则化。
图13是示出QRNN对语言翻译任务的准确性比较的表。QRNN编码器-解码器模型在具有挑战性的应用完全字符级字段的神经网络机器翻译任务,(IWSLT德语-英语口语域翻译)上进行评估。该数据集包括来自转录的TED和TEDx演示文稿中的并行训练数据的209772个句子对,德语的平均句子长度为103个字符,英语的平均句子长度为93个字符。
QRNN编码器-解码器模型使用每个层具有320个单元、没有丢失或L2正则化的四层编码器-解码器QRNN在开发集(TED.tst2013)上以及梯度重新缩放到最大幅度为5的情况下实现最佳性能。图13示出QRNN编码器-解码器模型优于字符级LSTM,几乎匹配单词级注意基线的性能。
图14描绘了示出QRNN的训练速度和推理速度的图表。在图14中,左侧示出了105时间步长中一批20个示例上的两层640单元PTB LM的训练速度。“RNN”和“softmax”包括前向和后向时间,而“优化开销”包括梯度限幅,L2正则化和SGD计算。在右边,图14示出了对于具有给定批大小和序列长度的数据,320单位QRNN层的推理速度相对于相等大小的cuDNNLSTM层具有优势。训练结果相似。
示例代码
下面的示例代码示出了QRNN100的一个实现:
我们描述了用于准循环神经网络(QRNN)的系统、方法和制造产品。实现的一个或多个特征可以与基础实现组合。可以将不相互排斥的实现教导为是可组合的。实现的一个或多个特征可以与其他实现组合。本公开定期提醒用户这些选项。不应将重复这些选项的一些实施方案的省略视为限制前面部分中教导的组合-这些叙述通过引用结合到以下每个实现中。
在该特别实现部分中,在不改变其操作原理或QRNN 100或QRNN编码器-解码器模型900的情况下,使用较小的模块化模块或组件来替代地描述先前描述的QRNN 100和QRNN编码器-解码器模型900的模块或组件,诸如卷积层、池化层和关注编码器。
该特定实现部分中的模块可以用硬件或软件实现,并且不需要以与该特定实现部分中讨论的完全相同的方式进行划分。一些模块也可以在不同的处理器或计算机上实现,或者在许多不同的处理器或计算机之间传播。此外,应当理解,一些模块可以组合,并行操作或以与该特定实现部分中讨论的顺序不同的顺序操作,而不影响所实现的功能。同样如这里所使用的,术语“模块”可以包括“子模块”,可以将这些子模块本身认为是构成模块。例如,在此可以将卷积滤波器组210,卷积向量产生器212和维度增加器214认为是卷积层200的子模块。在另一个例子中,在此可以将状态比较器940,编码混合器942,线性感知器944,连接器946和解码器输出门948认为是关注编码器或注意力接口938的子模块。在另一个示例中,这里可以将用于编码状态向量中的元素的顺序和上下文信息的编码器认为是池化层的子模块。可以认为在该特定实现中讨论的模块也是方法中的流程图步骤。模块也不一定必须将其所有代码连续地存储在存储器中;代码的某些部分可以与来自其他模块或其他功能的代码的其他部分分开。
QRNN
在一个实现中,所公开的技术呈现了准循环神经网络(缩写为QRNN)系统。QRNN系统在许多并行处理核心上运行。QRNN系统提高了基于神经网络的序列分类任务的训练和推理阶段期间的计算速度。
QRNN系统包括卷积层、池化层、输出产生器(例如,输出产生器604)和分类器(例如,分类器806)。
卷积层包括卷积滤波器组,用于在输入向量的多个时间序列中的一组输入向量的时间序列上在时间序列窗口中的输入向量的并行卷积。卷积层还包括卷积向量产生器,用于基于并行卷积同时输出每个时间序列窗口的卷积向量。每个卷积向量包括激活向量和一个或多个门向量中的特征值,并且门向量中的特征值分别是按序数位置逐元素应用于激活向量中的特征值的参数。
池化层包括累加器(例如,累加器602),用于通过在逐序数位置的基础上同时累加卷积向量的分量的特征值,在当前时间序列窗口的状态向量中并行累加特征和的有序集合。每个特征和由累加器根据为当前时间序列窗口输出的激活向量中的给定序数位置处的特征值,在为当前时间序列窗口输出的一个或多个门向量中的给定序数位置处的一个或多个特征值,以及在用于先前时间序列窗口的状态向量中给定序数位置处的特征和进行累加。
输出产生器在每个连续时间序列窗口处顺序输出由池化层池化的状态向量。
分类器使用由输出产生器产生的连续状态向量来执行序列分类任务。
所公开的该系统实现和其他系统可选地包括以下特征中的一个或多个。系统还可以包括结合所公开的方法描述的特征。为了简明起见,系统特征的替代组合不是单独列举的。对于每个法定类别的基本特征组,不重复适用于系统、方法和制品的特征。读者将理解本节中确定的特征如何能够与其他法定类别中的基本特征相结合。
QRNN系统还包括维度增加器,用于根据卷积滤波器组中的多个卷积滤波器来增加卷积向量相对于输入向量的维度的维度。
输入向量可以表示输入序列的元素。池化层可以包括编码器(例如,编码器142,146),用于编码状态向量中的元素的顺序和上下文信息。这些编码步骤由池化层的编码器(例如,编码器142,146)实现。
在一些实现中,输入序列可以是单词级序列。在其他实现中,输入序列可以是字符级序列。
门向量可以是遗忘门向量。在这样的实现中,池化层可以使用用于当前时间序列窗口的遗忘门向量来控制来自先前时间序列窗口累加的状态向量的信息和来自当前时间序列窗口的激活向量的信息的累加。
门向量可以是输入门向量。在这样的实现中,池化层可以使用用于当前时间序列窗口的输入门向量来控制来自当前时间序列窗口的激活向量的信息的累加。
门向量可以是输出门向量。在这样的实现中,池化层可以使用用于当前时间序列窗口的输出门向量来控制来自当前时间序列窗口的状态向量的信息的累加。
QRNN系统还可以包括以从最低到最高的顺序布置的多个子QRNN。每个子QRNN可以包括至少一个卷积层和至少一个池化层。
子QRNN还可以包括输入接收器(例如,输入接收器144),用于接收由序列中的前一子QRNN系统生成的在前输出作为输入,用于在前输出的并行卷积以产生在前输出的替代表示的卷积层,以及用于并行累加替代表示以产生输出的池化层。
QRNN系统还可以包括子QRNN之间以及子QRNN中的层之间的跳跃连接,用于将先前层的输出与当前层的输出连接,并且用于将连接作为输入提供给后续层。
序列分类任务可以是语言建模,情感分类,文档分类,单词级机器翻译或字符级机器翻译。
QRNN系统还可以包括正则化器(例如,正则化器140),用于通过要求的当前时间序列窗口的遗忘门向量中的给定序数位置处的相应特征值一致来使卷积层和池化层正则化。这在当前时间序列窗口的状态向量中的给定序数位置处产生特征和的随机子集,其匹配在先前时间序列窗口同时累加的状态向量中的给定序数位置处的各个特征和。
其他实现可以包括存储可由处理器执行以执行上述系统的动作的指令的非暂时性计算机可读存储介质。
在另一实现中,所公开的技术呈现了准循环神经网络(缩写为QRNN)系统。QRNN系统在许多并行处理核心上运行。QRNN系统提高基于神经网络的序列分类任务的训练和推理阶段期间的计算速度。
QRNN系统包括卷积层,池化层,输出产生器(例如,输出产生器604)和分类器(例如,分类器806)。
卷积层包括卷积滤波器组,用于在输入向量的多个时间序列中的一组输入向量的时间序列上在时间序列窗口的输入向量的并行卷积。卷积层还包括卷积向量产生器,用于基于并行卷积同时输出每个时间序列窗口的卷积向量。
池化层包括累加器(例如,累加器602),用于通过在逐序数位置的基础上同时累加卷积向量的分量的特征值,在当前时间序列窗口的状态向量中特征和的有序集合的并行累加。
输出产生器在每个连续时间序列窗口处顺序地输出由池化层池化的状态向量。
分类器使用由输出生成器生成的连续状态向量来执行序列分类任务。
在该特定实现部分中针对第一系统实现所讨论的每个特征同样适用于该系统实现。如上所述,这里不重复所有系统特征,应该通过引用重复考虑。
其他实现可以包括非暂时性计算机可读存储介质,其存储可由处理器执行以执行上述系统的动作的指令。
在又一实现中,所公开的技术提出了一种条在基于神经网络的序列分类任务的训练和推理阶段期间的计算速度的方法。
该方法包括将卷积滤波器组并行地应用于输入向量的多个时间序列中的一组输入向量的时间序列上时间序列窗口中的输入向量,以同时输出每个时间序列窗口的卷积向量。每个卷积向量包括激活向量和一个或多个门向量中的特征值,并且门向量中的特征值分别是按序数位置逐元素应用于激活向量中的特征值的参数。
该方法包括在卷积向量的分量的特征值上并行地应用累加器,以在逐序数位置的基础上、在当前时间序列窗口的状态向量中同时累加特征和的有序集合。每个特征和由累加器根据在为当前时间序列窗口输出的激活向量中的给定序数位置处的特征值、在为当前时间序列窗口输出的一个或多个门向量中的给定序数位置处的一个或多个特征值,以及在先前时间序列窗口累加的状态向量中给定序数位置处的特征和进行累加。
该方法包括在每个连续时间序列窗口处顺序输出由累加器累加的状态向量。
该方法包括使用连续状态向量执行序列分类任务。
在第一系统实现的这一特定实现部分中所讨论的每个特征同样适用于该方法实现。如上所述,这里不重复所有系统特征,应该通过引用重复考虑。
其他实现可以包括存储可由处理器执行以执行上述方法的指令的非暂时性计算机可读存储介质(CRM)。又一实现可以包括一种系统,该系统包括存储器和一个或多个处理器,处理可操作以执行存储在存储器中的指令,以执行上述方法。
所公开的技术提出了一种准循环神经网络(QRNN)系统,其增加了神经网络序列建模中的计算效率。
QRNN系统包括在许多处理核上运行的卷积层。卷积层接收输入向量的时间序列,将卷积滤波器组并行地应用于输入向量上的时间序列窗口,并同时输出时间序列窗口的卷积向量。每个卷积向量包括激活向量和一个或多个门向量中的特征值,并且门向量中的特征值分别是通过序数位置逐元素应用于激活向量中的特征值的参数。
QRNN系统包括在多个处理核上运行的池化层。池化层接收时间序列窗口的卷积向量,并且在卷积向量的特征值上并行操作,以在当前时间序列窗口的状态向量中同时累加逐序数位置的特征和的有序集合。
对特征和根据在为当前时间序列窗口输出的激活向量中的给定序数位置处的特征值,在为当前时间序列窗口输出的一个或多个输出的门向量中的给定序数位置处的一个或多个特征值,以及在为先前时间序列窗口累加的状态向量中给定序数位置处的特征和进行累加。
所公开的该系统实现和其他系统可选地包括以下特征中的一个或多个。系统还可以包括结合所公开的方法描述的特征。为了简明起见,系统特征的替代组合不是单独列举的。对于每个法定类别的基本特征组,不重复适用于系统,方法和制品的特征。读者将理解本节中确定的特征如何能够与其他法定类别中的基本特征相结合。
在该特定实现部分中讨论的用于现有方法和系统实现的每个特征同样适用于该系统实现。如上所述,这里不重复所有方法和系统特征,并且应该通过引用重复考虑。
然后,池化层顺序地输出时间序列窗口中的每个连续时间序列窗口的状态向量。
根据卷积滤波器组中的多个卷积滤波器,可以相对于输入向量的维度来增加卷积向量的维度。
输入向量可以表示输入序列的元素。在这样的实现中,池化层可以编码状态向量中的元素的顺序和上下文信息。
在一些实现中,输入序列可以是单词级序列。在其他实现中,输入序列可以是字符级序列。
门向量可以是遗忘门向量。在这样的实现中,池化层可以使用用于当前时间序列窗口的遗忘门向量来控制来自先前时间序列窗口累加的状态向量的信息以及来自当前时间序列窗口的激活向量的信息的累加。
门向量可以是输入门向量。在这样的实现中,池化层可以使用用于当前时间序列窗口的输入门向量来控制来自当前时间序列窗口的激活向量的信息的累加。
门向量可以是输出门向量。在这样的实现中,池化层可以使用用于当前时间序列窗口的输出门向量来控制来自当前时间序列窗口的状态向量的信息的累加。
QRNN系统可以包括从最低到最高的顺序布置的多个子QRNN。每个子QRNN可以包括至少一个卷积层和至少一个池化层。
子QRNN可以配置成接收由序列中的先前子QRNN生成的先前输出作为输入,通过卷积层处理先前输出以产生先前输出的替代表示,以及通过池化层处理该替代表示以产生输出。
QRNN系统可以包括子QRNN之间以及子QRNN中的层之间的跳跃连接。跳跃连接可以将在先层的输出与当前层的输出相连接,并将连接提供给后一层作为输入。
可以使用序列任务来训练卷积滤波器组中的卷积滤波器。序列任务可以是语言建模,情感分类,文档分类,单词级机器翻译或字符级机器翻译。
通过要求当前时间序列窗口的遗忘门向量中的给定序数位置处的相应特征值一致,可以使QRNN系统正规化。这在当前时间序列窗口的状态向量中的给定序数位置处产生特征和的随机子集,其匹配在先前时间序列窗口同时累加的状态向量中的给定序数位置处的各个特征和。
其他实现可以包括存储可由处理器执行以执行上述系统的动作的指令的非暂时性计算机可读存储介质。
所公开的技术提出了一种准循环神经网络(QRNN)系统,其增加了神经网络序列建模中的计算效率。
QRNN系统包括在许多处理核上运行的卷积层。卷积层接收输入向量的时间序列,将卷积滤波器组并行地应用于输入向量上的时间序列窗口,并同时输出时间序列窗口的卷积向量。每个卷积向量包括激活向量和一个或多个门向量中的特征值,并且门向量中的特征值分别是按照序数位置逐元素应用于激活向量中的特征值的参数。
QRNN系统包括在多个处理核上运行的池化层。池化层接收时间序列窗口的卷积向量,并且将累加器并行地应用于卷积向量的各个特征值,以计算时间序列窗口中每个连续时间步长的状态向量。
在每个时间步长,对于卷积向量的激活向量个一个或多个门向量中的各个序数位置,累加器以来自先前时间步长的状态向量中的给定序数位置处的特征和开始,如果有的话,对于当前时间步长,在遗忘门向量中的给定序数位置处乘以相应的特征值,将当前时间步长的激活向量中的给定序数位置处的相应特征值与当前时间步长的门向量中的给定序数位置的一个或多个相应特征值相加,并输出当前时间步的状态向量,该状态向量组合所有相应的序数位置上累加器的结果。
在该特定实现部分中讨论的用于现有方法和系统实现的每个特征同样适用于该系统实现。如上所述,这里不重复所有方法和系统特征,并且应该通过引用重复考虑。
其他实现可以包括非暂时性计算机可读存储介质,其存储可由处理器执行以执行上述系统的动作的指令。
所公开的技术提出了一种在神经网络序列建模中提高计算效率的方法。
该方法包括接收输入向量的时间序列,将卷积滤波器组并行地应用于于输入向量上的时间序列窗口,以及同时输出时间序列窗口的卷积向量。每个卷积向量包括激活向量和一个或多个门向量中的特征值,并且门向量中的特征值分别是按序数位置逐元素应用于激活向量中的特征值的参数。
该方法包括并行地在卷积向量的特征值上操作,以在当前时间序列窗口的状态向量中同时累加逐序数位置的特征和的有序集合。特征和根据在为当前时间序列窗口输出的激活向量中的给定序数位置处的特征值,在为当前时间序列窗口输出的一个或多个门向量中的给定序数位置处的一个或多个特征值来,以及在先前时间序列窗口累加的状态向量中给定序数位置处的特征和进行累加。
在该特定实现部分中讨论的用于现有方法和系统实现的每个特征同样适用于该方法实现。如上所述,这里不重复所有方法和系统特征,并且应该通过引用重复考虑。
其他实现可以包括存储可由处理器执行以执行上述方法的指令的非暂时性计算机可读存储介质(CRM)。又一实现可以包括一种系统,该系统包括存储器和一个或多个处理器,其可操作以执行存储在存储器中的指令,以执行上述方法。
所公开的技术提出了一种准循环神经网络(QRNN)系统,其增加了神经网络序列建模中的计算效率。
QRNN系统包括卷积层,其接收输入向量的时间序列并同时输出用于时间序列窗口的卷积向量。
QRNN系统包括池化层,其接收时间序列窗口的卷积向量并同时在当前时间序列窗口的状态向量中累加特征值的有序集合,以及顺序地输出时间序列窗口中的每个连续时间序列窗口的状态向量。
在该特定实现部分中讨论的用于现有方法和系统实现的每个特征同样适用于该系统实现。如上所述,这里不重复所有方法和系统特征,并且应该通过引用重复考虑。
其他实现可以包括非暂时性计算机可读存储介质,其存储可由处理器执行以执行上述系统的动作的指令。
QRNN编码器-解码器模型
在一个实现中,所公开的技术呈现了准循环神经网络(缩写为QRNN)系统。QRNN系统在许多并行处理核心上运行。QRNN系统提高在将源语言序列翻译成目标语言序列的基于神经网络的序列到序列机器翻译任务的训练和推理阶段期间的计算速度。
QRNN系统包括QRNN编码器、QRNN解码器和翻译器。QRNN编码器包括至少一个编码器卷积层、至少一个编码器池化层和至少一个编码器输出门。QRNN解码器包括至少一个解码器卷积层、至少一个解码器池化层、以及至少一个注意力接口或注意力编码器。该注意力接口包括状态比较器、编码混合器、感知器或线性感知器、以及解码器输出门。
编码器卷积层包括编码器卷积滤波器组,用于在源语言向量的多个时间序列中的源语言向量的一组时间序列上的编码器时间序列窗口中的源语言向量的并行卷积。编码器卷积层还包括编码器卷积向量产生器,用于基于并行卷积同时输出每个编码器时间序列窗口的编码器的卷积向量。
编码器池化层包括累加器,用于通过在逐序数位置的基础上同时累加编码器的卷积向量的分量的特征值,在每个连续编码器时间序列窗口顺序产生的编码器的每个状态向量中特征和的有序集合的并行累加。
编码器输出门(例如,编码器输出门936)包括编码器隐藏状态产生器(例如,编码器隐藏状态产生器937),用于将输出门向量应用于编码器的状态向量,从而产生编码器的隐藏状态向量。
解码器卷积层包括解码器卷积滤波器组,用于在解码器输入向量的多个时间序列中的解码器输入向量的一组时间序列上的解码器时间序列窗口中的解码器输入向量的并行卷积。在初始解码器时间序列窗口处,解码器卷积滤波器组仅在单个解码器输入向量上进行卷积,该解码器输入向量是翻译开始令牌。在连续的解码器时间序列窗口处,解码器卷积滤波器组在解码器输入向量上进行卷积,该输入向量包括翻译开始令牌和先前发射的目标语言向量。
解码器卷积层还包括解码器卷积向量产生器,用于基于并行卷积同时输出解码器时间序列窗口中的每一个的解码器的卷积向量。
解码器池化层包括累加器,用于通过在逐序数位置的基础上同时累加解码器的卷积向量的分量的特征值,在每个连续的解码器时间序列窗口顺序产生的解码器的每个状态向量中的特征和的有序集合的并行累加。
注意力接口包括状态比较器(例如,状态比较器940),用于确定编码器的隐藏状态向量与解码器的状态向量之间的逐对相似性得分。
注意力接口包括编码混合器(例如,编码混合器942),用于生成编码器的隐藏状态向量的上下文摘要,作为编码器的隐藏状态向量的凸组合,其通过沿着编码器时间序列窗口所生成的指数归一化的相似性得分序列进行缩放。
注意力接口包括感知器或线性感知器(例如,线性感知器944),用于线性投影上下文摘要和解码器的状态向量。
注意力接口包括连接器(例如,连接器946),用于结合线性投影的上下文摘要和解码器的状态向量。
注意力接口包括解码器输出门(例如,解码器输出门948),用于将输出门向量应用于结合的线性投影的上下文摘要和解码器的状态向量,从而产生解码器的隐藏状态向量。
QRNN系统包括翻译器(例如,翻译器950),用于通过基于解码的隐藏状态向量发射目标语言向量来执行序列到序列机器翻译任务。
在该特定实现部分中讨论的用于现有方法和系统实现的每个特征同样适用于该系统实现。如上所述,这里不重复所有方法和系统特征,并且应该通过引用重复考虑。
QRNN系统还包括补充器(例如,补充器934),用于利用编码器隐藏状态产生器为最终编码器时间序列窗口产生的编码器的最终隐藏状态向量来补充每个输入到解码器池化层。
状态比较器可以使用点积或双线性乘积来确定编码器的隐藏状态向量与解码器的状态向量之间的逐对相似性得分。
源语言序列和目标语言序列可以是单词级序列或字符级序列。
其他实现可以包括非暂时性计算机可读存储介质,其存储可由处理器执行以执行上述系统的动作的指令。
在另一实现中,所公开的技术呈现了准循环神经网络(缩写为QRNN)系统。QRNN系统在许多并行处理核心上运行。QRNN系统提高在将源语言序列翻译成目标语言序列的基于神经网络的序列到序列机器翻译任务的训练和推理阶段期间的计算速度。
QRNN系统包括QRNN编码器、QRNN解码器和翻译器。
QRNN编码器包括至少一个编码器卷积层,用于通过在多个源语言向量的时间序列中的源语言向量的一组时间序列上并行卷积编码器时间序列窗口中的源语言向量,从而同时输出用于每个编码器时间序列窗口的编码器的卷积向量;至少一个编码器池化层,用于在为每个连续编码器时间序列窗口顺序产生的编码器的每个状态向量中并行累加特征和的有序集合,以及编码器隐藏状态产生器,用于将输出门向量应用于编码器的状态向量,从而产生编码器的隐藏状态向量。
QRNN解码器包括至少一个解码器卷积层,用于在解码器输入向量的多个时间序列中的解码器输入向量的时间序列集合上的解码器时间序列窗口的解码器输入向量的并行卷积,从而同时输出用于每个解码器时间序列窗口的解码器的卷积向量和至少一个解码器池化层,用于在为每个连续的解码器时间序列窗口顺序产生的解码器的每个状态向量中并行累加特征和的有序集合。
QRNN系统包括用于通过结合编码器的隐藏状态向量的上下文摘要与解码器的状态向量来生成解码器的隐藏状态向量的注意力接口(attender)。
QRNN系统包括翻译器(例如,翻译器950),用于通过基于解码的隐藏状态向量发射目标语言向量来执行序列到序列机器翻译任务。
在该特定实现部分中讨论的用于现有方法和系统实现的每个特征同样适用于该系统实现。如上所述,这里不重复所有方法和系统特征,并且应该通过引用重复考虑。
其他实现可以包括非暂时性计算机可读存储介质,其存储可由处理器执行以执行上述系统的动作的指令。
所公开的技术提出了一种在将源语言序列翻译成目标语言序列的基于神经网络的序列到序列机器翻译任务的训练和推理阶段期间提高计算速度的方法。
该方法包括在源语言向量的多个时间序列中的源语言向量的一组时间序列上并行地卷积编码器时间序列窗口中的源语言向量,以同时输出每个编码器时间序列窗口的编码器的卷积向量,并行地累加在为每个连续编码器时间序列窗口顺序产生的编码器的每个状态向量中的特征和的有序集合,以及将输出门向量应用于编码器的状态向量以产生编码器的隐藏状态向量。
该方法包括在解码器输入向量的多个时间序列中的一组解码器输入向量的时间序列上并行累加解码器时间序列窗口中的解码输入向量,以同时输出每个解码器时间序列窗口的解码器卷积向量,以及并行地累加在为每个连续解码器时间序列窗口顺序产生的解码器的每个状态向量中的特征和的有序集合。
该方法包括通过结合编码器的隐藏状态向量的上下文摘要与解码器的状态向量来生成解码器的隐藏状态向量。
该方法包括通过基于解码的隐藏状态向量发射目标语言向量来执行序列到序列机器翻译任务。
在该特定实现部分中针对先前方法和系统实现所讨论的每个特征同样适用于该方法实现。如上所述,这里不重复所有方法和系统特征,并且应该通过引用重复考虑。
其他实现可以包括存储可由处理器执行以执行上述方法的指令的非暂时性计算机可读存储介质(CRM)。又一实现可以包括一种系统,该系统包括存储器和一个或多个处理器,处理器可操作以执行存储在存储器中的指令,以执行上述方法。
在一个实现中,所公开的技术提出了一种准循环神经网络(缩写为QRNN)系统。QRNN系统在许多并行处理核上运行。QRNN系统提高在基于神经网络的序列到序列分类任务的训练和推理阶段期间的计算速度。
QRNN系统包括QRNN编码器、QRNN解码器和分类器。QRNN编码器包括至少一个编码器卷积层、至少一个编码器池化层和至少一个编码器输出门。QRNN解码器,包括至少一个解码器卷积层、至少一个解码器池化层,以及至少一个注意力接口或注意力编码器。该注意力接口包括状态比较器、编码混合器、感知器或线性感知器,以及解码器输出门。
编码器卷积层包括编码器卷积滤波器组,用于在编码器输入向量的多个时间序列中的编码器输入向量的一组时间序列上对编码器时间序列窗口中的编码器输入向量进行并行卷积。编码器卷积层还包括编码器卷积向量产生器,用于基于并行卷积同时输出每个编码器时间序列窗口的编码器的卷积向量。
编码器池化层包括累加器,用于通过在逐序数位置的基础上同时累加编码器的卷积向量的分量的特征值,在每个连续编码器时间序列窗口顺序产生的编码器的每个状态向量中并行累加特征和的有序集合。
编码器输出门(例如,编码器输出门936)包括编码器隐藏状态产生器(例如,编码器隐藏状态产生器937),用于将输出门向量应用于编码器的状态向量,从而产生编码器的隐藏状态向量。
解码器卷积层包括解码器卷积滤波器组,用于在解码器输入向量的多个时间序列中的解码器输入向量的一组时间序列上的解码器时间序列窗口中的解码器输入向量的并行卷积。在初始解码器时间序列窗口处,解码器卷积滤波器组仅在单个解码器输入向量上进行卷积,该解码器输入向量是翻译开始令牌。在连续的解码器时间序列窗口处,解码器卷积滤波器组在解码器输入向量上进行卷积,该输入向量包括翻译起始令牌和先前发射的目标语言向量。
解码器卷积层还包括解码器卷积向量产生器,用于基于并行卷积同时输出每个解码器时间序列窗口的解码器的卷积向量。
解码器池化层包括累加器,用于通过在逐序数位置的基础上同时累加编码器的卷积向量的分量的特征值,在每个连续编码器时间序列窗口顺序产生的编码器的每个状态向量中的累加特征和的有序集合的并行累加。
所述注意力接口包括状态比较器(例如,状态比较器940),用于确定编码器的隐藏状态向量与解码器的状态向量之间的逐对相似性得分。
所述注意力接口包括编码混合器(例如,编码混合器942),用于生成所述编码器的隐藏状态向量的上下文摘要,作为所述编码器的隐藏状态向量的凸组合,所述隐藏状态向量通过沿着所述编码器时间序列窗口生成的指数标准化的相似性得分序列进行缩放。
所述注意力接口包括感知器或线性感知器(例如,线性感知器944),用于线性投影上下文摘要和解码器的状态向量。
所述注意力接口包括用于结合线性投影的上下文摘要和解码器的状态向量的连接器(例如,连接器946)。
所述注意力接口包括解码器输出门(例如,解码器输出门948),用于将输出门向量应用于所结合的线性投影的上下文摘要和解码器的状态向量,从而产生解码器的隐藏状态向量。
QRNN系统包括分类器,用于使用解码的隐藏状态向量执行序列到序列分类任务。
在该特定实现部分中讨论的用于现有方法和系统实现的每个特征同样适用于该系统实现。如上所述,这里不重复所有方法和系统特征,并且应该通过引用重复考虑。
序列到序列分类任务可以是机器翻译、语音识别、文本到语音合成、问题回答和抽象文本摘要。
其他实现可以包括非暂时性计算机可读存储介质,其存储可由处理器执行以执行上述系统的动作的指令。
所公开的技术提出了一种准循环神经网络(QRNN)系统,其增加了神经网络序列到序列建模的计算效率。
QRNN系统包括QRNN编码器,其还包括一个或更多个编码器卷积层和一个或更多个编码器池化层。
至少一个编码器卷积层接收编码器输入向量的时间序列,并同时输出用于时间序列窗口的经编码的卷积向量。
至少一个编码器池化层接收时间序列窗口的编码卷积向量,同时在当前时间序列窗口的编码状态向量中累加特征和的有序集合,并且顺序输出时间序列窗口中的每个连续时间序列窗口的编码的状态向量。
QRNN系统包括QRNN解码器,QRNN解码器还包括一个或更多个解码器卷积层和一个或更多个解码器池化层。
至少一个解码器卷积层接收解码器输入向量的时间序列,并同时输出用于时间序列窗口的经解码的卷积向量。
至少一个解码器池化层接收用于分别与由编码器池化层输出的用于最终时间序列窗口的编码的状态向量连接的时间序列窗口的解码的卷积向量,同时累加用于当前时间序列窗口的解码的状态向量中的特征和的有序集合,并顺序输出用于时间序列窗口中每个连续时间序列窗口的解码的状态向量。
QRNN系统包括状态比较器,其计算编码状态向量与解码状态向量之间的语言相似性,以产生具有逐编码轴和逐解码轴的亲和度矩阵。
QRNN系统包括指数归一化器,其对逐编码的亲和度矩阵进行归一化以产生相应的编码-解码注意力权重。
QRNN系统包括编码混合器,其分别将编码的状态向量与编码-解码注意力权重相结合,以生成编码状态向量的相应上下文摘要。
QRNN系统包括关注编码器,其分别将解码的状态向量与编码的状态向量的相应的上下文摘要结合以产生用于每个时间序列窗口的注意编码。
所公开的该系统实现和其他系统可选地包括以下特征中的一个或多个。系统还可以包括结合所公开的方法描述的特征。为了简明起见,系统特征的替代组合不是单独列举的。对于每个法定类别的基本特征组,不重复适用于系统、方法和制品的特征。读者将理解本节中确定的特征如何能够与其他法定类别中的基本特征相结合。
在该特定实现部分中讨论的用于现有方法和系统实现的每个特征同样适用于该系统实现。如上所述,这里不重复所有方法和系统特征,并且应该通过引用重复考虑。
注意编码器可以是多层感知器,其将经解码的状态向量和编码的状态向量的相应的上下文摘要的连接投影到线性投影中,以产生每个时间序列窗口的注意编码。
可以将编码的状态向量分别乘以编码的卷积向量的输出门向量,以产生相应的编码的隐藏状态向量。
状态比较器可以计算编码的隐藏状态向量和解码的状态向量之间的语言相似性,以产生具有编码方向和解码方向轴的亲和度矩阵。
编码混合器可以分别将编码的隐藏状态向量与编码-解码注意力权重相结合,以生成编码的隐藏状态向量的相应的上下文摘要。
注意编码器可以分别将解码的状态向量与编码的隐藏状态向量的相应的上下文摘要结合,并且可以进一步将这些结合与解码的卷积向量的相应输出门向量相乘,以产生每个时间序列窗口的注意编码。
注意编码器可以是多层感知器,其将经解码的状态向量和经编码的隐藏状态向量的相应上下文摘要的连接投影到线性投影中,并且可以进一步将非线性投影与解码的卷积向量的相应的输出门向量相乘,以产生每个时间序列窗口的注意编码。
其他实现可以包括存储可由处理器执行以执行上述系统的动作的指令的非暂时性计算机可读存储介质。
所公开的技术提出了一种提高神经网络序列到序列建模的效率的方法。
该方法包括在QRNN编码器的编码器卷积层处接收编码器输入向量的时间序列,并同时输出用于时间序列窗口的编码的卷积向量。
该方法包括在QRNN编码器的编码器池化层接收用于时间序列窗口的编码的卷积向量,同时在当前时间序列窗口的编码的状态向量中累加特征和的有序集合,并且顺序地输出时间序列窗口中每个连续时间序列窗口的编码的状态向量。
该方法包括在QRNN解码器的解码器卷积层接收解码器输入向量的时间序列,并同时输出用于时间序列窗口的解码的卷积向量。
该方法包括在QRNN解码器的解码器池化层处接收用于时间序列窗口的解码的卷积向量,其分别与由编码器池化层输出的用于最终时间序列窗口的编码的状态向量连接,同时累加当前时间序列窗口的解码的状态向量中的特征和的有序集合,并且顺序输出时间序列窗口中每个连续时间序列窗口的解码的状态向量。
该方法包括计算编码的状态向量和解码的状态向量之间的语言相似性,以产生具有逐编码轴和逐解码轴的亲和度矩阵。
该方法包括以编码方向地对亲和度矩阵进行指数归一化以产生相应的编码-解码注意力权重。
该方法包括将编码的状态向量与编码-解码注意力权重相结合以生成编码的状态向量的相应上下文摘要。
该方法包括将解码的状态向量与编码的状态向量的相应的上下文摘要结合以产生用于每个时间序列窗口的注意编码。
在该特定实现部分中针对现有方法和系统实现所讨论的每个特征同样适用于该方法实现。如上所述,这里不重复所有方法和系统特征,并且应该通过引用重复考虑。
其他实现可以包括存储可由处理器执行以执行上述方法的指令的非暂时性计算机可读存储介质(CRM)。又一实现可以包括一种系统,该系统包括存储器和一个或多个处理器,其可操作以执行存储在存储器中的指令,以执行上述方法。
计算机系统
图15是可用于实现准循环神经网络(QRNN)100的计算机系统1500的简化框图。计算机系统1500包括通过总线子系统1522与多个外围设备通信的至少一个中央处理单元(CPU)1524。这些外围设备可以包括存储子系统1510,其包括例如存储器设备和文件存储子系统1518、用户接口输入设备1520、用户接口输出设备1528和网络接口子系统1526。输出和输入设备允许用户与计算机系统1500交互。网络接口子系统1526提供到外部网络的接口,包括到其他计算机系统中的相应接口设备的接口。
在一个实现中,QRNN 100可通信地链接到存储子系统1510和用户接口输入设备1520。
用户接口输入设备1520可包括键盘;指向设备,如鼠标,轨迹球,触摸板或图形输入板;扫描仪;一个包含在显示器中的触摸屏;音频输入设备,如语音识别系统和麦克风;和其他类型的输入设备。通常,术语“输入设备”的使用旨在包括所有可能类型的设备和将信息输入计算机系统1500的方式。
用户接口输出设备1528可以包括显示子系统、打印机、传真机或诸如音频输出设备的非可视显示器。显示子系统可包括阴极射线管(CRT)、诸如液晶显示器(LCD)的平板装置、投影装置或用于产生可见图像的一些其他机构。显示子系统还可以提供非可视显示,例如音频输出设备。通常,术语“输出设备”的使用旨在包括所有可能类型的设备和将信息从计算机系统1500输出到用户或另一个机器或计算机系统的方式。
存储子系统1510存储编程和数据构造,其提供本文描述的一些或所有模块和方法的功能。这些软件模块通常由深度学习处理器1530执行。
深度学习处理器1530可以是图形处理单元(GPU)或现场可编程门阵列(FPGA)。深度学习处理器1530可以由诸如Google Cloud PlatformTM,XilinxTM和CirrascaleTM的深度学习云平台托管。深度学习处理器1530的示例包括Google的张量处理单元(TPU)TM,机架式解决方案,如GX4 Rackmount SeriesTM,GX8 Rackmount SeriesTM,NVIDIA DGX-1TM,Microsoft的Stratix V FPGATM,Graphcore的智能处理器单元(IPU)TM,Qualcomm’s ZerothPlatformTM采用Snapdragon处理器TM,NVIDIA的VoltaTM,NVIDIA的DRIVE PXTM,NVIDIA的JETSON TX1/TX2 MODULETM,Intel的NirvanaTM,Movidius VPUTM,Fujitsu DPITM,ARM的DynamicIQTM,IBM TrueNorthTM等。
存储子系统1510中使用的存储器子系统1512可以包括包含用于在程序执行期间存储指令和数据的主随机存取存储器(RAM)1514和其中存储有固定指令的只读存储器(ROM)1516的多个存储器。文件存储子系统1518可以为程序和数据文件提供持久存储,并且可以包括硬盘驱动器,软盘驱动器以及相关联的可移动介质、CD-ROM驱动器、光盘驱动器或可移动介质盒。实现某些实现的功能的模块可以由文件存储子系统1518存储在存储子系统1510中,或者存储在处理器可访问的其他机器中。
总线子系统1522提供用于使计算机系统1500的各种组件和子系统按预期彼此通信的机制。虽然总线子系统1522示意性地示为单个总线,但总线子系统的替代实施方式可以使用多个总线。
计算机系统1500本身可以是各种类型,包括个人计算机、便携式计算机、工作站、计算机终端、网络计算机、电视、大型机、服务器群、一组广泛分布的离散网络计算机或任何其他数据处理系统或用户设备。由于计算机和网络的不断变化的性质,图15中描述的计算机系统1500仅用作说明本发明优选实施例的具体例子。计算机系统1500的许多其他配置可能具有比图15中描绘的计算机系统更多或更少的组件。
提供前述描述以使得能够制造和使用所公开的技术。对所公开的实现的各种修改将是显而易见的,并且在不脱离所公开的技术的精神和范围的情况下,本文定义的一般原理可以应用于其他实现和应用。因此,所公开的技术不旨在限于所示的实现,而是与符合本文公开的原理和特征的最宽范围相一致。所公开的技术的范围由所附权利要求限定。根据ICLR 2017在审核的会议文件《准循环神经网络》,詹姆斯·布拉德伯里(James Bradbury),斯提芬·麦瑞提Stephen Merity,熊蔡明(Claiming Xiong),理查德·苏尔赫(RichardSocher),软件营销部队研发中心(Salesforce Research),帕洛阿尔托,加利福尼亚,{james.bradbury,smerit y,cxionq,rsocher}@salesforce.com,通过引用并入全文。

Claims (20)

1.一种用于从准循环神经网络QRNN生成输出的方法,所述准循环神经网络QRNN执行将源语言序列翻译成目标语言序列的序列到序列机器翻译任务,所述方法包括:
接收表示所述源语言序列的输入向量的时间序列;
使所述输入向量的时间序列通过多个QRNN层,每个QRNN层包括相应的卷积层和相应的池化层;
由每个相应的卷积层通过双曲正切非线性激活从所述输入向量生成激活向量以及通过卷积滤波器组生成一个或多个门向量;
由每个相应的池化层通过如下将QRNN fo-池化操作应用于所述一个或多个门向量:
基于来自所述一个或多个门向量的当前遗忘门向量、先前状态向量和所述激活向量,计算当前状态向量,和
通过对来自所述一个或多个门向量的输出门向量和计算出的当前状态向量进行逐元素相乘,计算当前隐藏状态向量;
使计算出的当前隐藏状态向量通过来自所述多个QRNN层中的下一个QRNN层;
对于与所述输入向量的时间序列相对应的多个时间序列窗口中的每个连续时间序列窗口,从所述多个QRNN层中的最后一个QRNN层顺序地输出编码的隐藏状态向量;和
通过基于所述编码的隐藏状态向量生成所述目标语言序列,执行所述序列到序列机器翻译任务。
2.根据权利要求1所述的方法,其中所述一个或多个门向量对应于相对于所述输入向量的维度增加的维度,其取决于所述卷积滤波器组中的卷积滤波器的数量。
3.根据权利要求1所述的方法,其中所述输入向量表示输入序列的元素,所述输入序列选自由单词级序列和字符级序列组成的组。
4.根据权利要求1所述的方法,其中所述一个或多个门向量包括遗忘门向量,并且
其中所述相应的池化层使用用于当前时间序列窗口的遗忘门向量而控制来自为先前时间序列窗口累加的所述先前状态向量的信息与来自用于所述当前时间序列窗口的激活向量的信息的累加。
5.根据权利要求1所述的方法,其中所述一个或多个门向量包括输入门向量,并且
其中所述相应的池化层使用用于当前时间序列窗口的输入门向量而控制来自用于所述当前时间序列窗口的激活向量的信息的累加。
6.根据权利要求1所述的方法,其中所述一个或多个门向量包括输出门向量,并且
其中所述池化层使用用于当前时间序列窗口的输出门向量而控制来自用于所述当前时间序列窗口的所述当前状态向量的信息的累加。
7.根据权利要求1所述的方法,还包括:
接收由所述多个QRNN层中的前一个QRNN层生成的在前输出作为输入;
通过所述相应的卷积层处理所述在前输出,以产生所述在前输出的替代表示;和
通过所述相应的池化层处理所述替代表示以产生输出。
8.根据权利要求1所述的方法,还包括:
在所述多个QRNN层之间包括跳跃连接,
其中所述跳跃连接将前一个QRNN层的输出与当前QRNN层的输出连接,并且将所述连接提供给后续层作为输入。
9.根据权利要求1所述的方法,其中所述激活向量由所述相应的卷积层通过如下生成:
将所述卷积滤波器组应用于并行排列的多个时间序列窗口,所述多个时间序列窗口对应于所述输入向量的时间序列;
从所述卷积滤波器组同时输出与所述时间序列窗口的数量相并行对应的卷积向量,
所述卷积向量中的每个包括激活向量中和一个或多个门向量中的特征值,并且
所述门向量中的所述特征值是分别按序数位置逐元素应用于激活向量中的所述特征值的参数。
10.根据权利要求9所述的方法,其中所述当前状态向量由如下生成:
在卷积向量的特征值上并行应用累加器,以在用于当前时间序列窗口的所述状态向量中同时逐序数位置地累加所述当前状态向量中所有有序位置的特征和的有序集合,所述特征和的有序集合取决于针对所述当前时间序列窗口输出的激活向量中给定序数位置的特征值,
针对所述当前时间序列窗口输出的一个或多个门向量中所述给定序数位置处的一个或多个特征值,以及
针对前一时间序列窗口累加的前一个所述状态向量中所述给定序数位置处的特征和;和
针对所述时间序列窗口中的每个连续时间序列窗口,顺序地输出所述当前状态向量。
11.一种执行将源语言序列翻译成目标语言序列的序列到序列机器翻译任务的准循环神经网络QRNN的系统,所述系统包括:
输入层,其用于接收表示所述源语言序列的输入向量的时间序列;
多个QRNN层,每个QRNN层包括相应的卷积层和相应的池化层,每个相应的卷积层通过双曲正切非线性激活从所述输入向量生成激活向量以及通过卷积滤波器组生成一个或多个门向量,
每个相应的池化层通过如下将QRNN fo-池化操作应用于所述一个或多个门向量:
基于来自所述一个或多个门向量的当前遗忘门向量、先前状态向量和所述激活向量,计算当前状态向量,和
通过对来自所述一个或多个门向量的输出门向量和计算出的当前状态向量进行逐元素相乘,计算当前隐藏状态向量;其中所述相应的QRNN层使得计算出的当前隐藏状态向量通过来自所述多个QRNN层中的下一个QRNN层;
输出层,其对于与所述输入向量的时间序列相对应的多个时间序列窗口中的每个连续时间序列窗口,从所述多个QRNN层中的最后一个QRNN层顺序地输出编码的隐藏状态向量;
其中通过基于所述编码的隐藏状态向量生成所述目标语言序列,执行所述序列到序列机器翻译任务。
12.根据权利要求11所述的系统,其中所述一个或多个门向量对应于相对于所述输入向量的维度增加的维度,其取决于所述卷积滤波器组中的卷积滤波器的数量。
13.根据权利要求11所述的系统,其中所述输入向量表示输入序列的元素,所述输入序列选自由单词级序列和字符级序列组成的组。
14.根据权利要求11所述的系统,其中所述一个或多个门向量包括遗忘门向量,并且
其中所述相应池化层使用用于当前时间序列窗口的遗忘门向量而控制来自为先前时间序列窗口累加的所述先前状态向量的信息与来自用于所述当前时间序列窗口的激活向量的信息的累加。
15.根据权利要求11所述的系统,其中所述一个或多个门向量包括输入门向量,并且
其中所述相应的池化层使用用于当前时间序列窗口的输入门向量而控制来自用于所述当前时间序列窗口的激活向量的信息的累加。
16.根据权利要求11所述的系统,其中所述一个或多个门向量包括输出门向量,并且
其中所述相应的池化层使用用于当前时间序列窗口的输出门向量而控制来自用于所述当前时间序列窗口的所述当前状态向量的信息的累加。
17.根据权利要求11所述的系统,其中所述多个QRNN层中的每个QRNN层接收由所述多个QRNN层中的前一个QRNN层生成的在前输出作为输入,通过所述相应的卷积层处理所述在前输出以产生所述在前输出的替代表示,并且通过所述相应的池化层处理所述替代表示以产生输出。
18.根据权利要求11所述的系统,其中所述多个QRNN层包括层之间的跳跃连接,其中所述跳跃连接将前一个QRNN层的输出与当前QRNN层的输出连接,并且将连接提供给后续层作为输入。
19.根据权利要求11所述的系统,其中所述激活向量通过如下由所述相应的卷积层生成:
将所述卷积滤波器组应用于并行排列的多个时间序列窗口,所述多个时间序列窗口对应于所述输入向量的时间序列;
从所述卷积滤波器组同时输出与所述时间序列窗口的数量并行相对应的卷积向量,
所述卷积向量中的每个包括激活向量中和一个或多个门向量中的特征值,并且
所述门向量中的所述特征值是分别按序数位置逐元素应用于所述激活向量中的所述特征值的参数。
20.一种非暂时性处理器可读介质,其存储用于从准循环神经网络QRNN生成输出的处理器可执行指令,所述准循环神经网络QRNN执行将源语言序列翻译成目标语言序列的序列到序列机器翻译任务,所述指令能够由处理器执行以进行包括如下的操作:
接收表示所述源语言序列的输入向量的时间序列;
使所述输入向量的时间序列通过多个QRNN层,每个QRNN层包括相应的卷积层和相应的池化层;
由每个相应的卷积层通过双曲正切非线性激活从所述输入向量生成激活向量以及通过卷积滤波器组生成一个或多个门向量;
由每个相应的池化层通过如下将QRNN fo-池化操作应用于所述一个或多个门向量:
基于来自所述一个或多个门向量的当前遗忘门向量、先前状态向量和所述激活向量,计算当前状态向量,和
通过对来自所述一个或多个门向量的输出门向量和计算出的当前状态向量进行逐元素相乘,计算当前隐藏状态向量;
使计算出的当前隐藏状态向量通过所述多个QRNN层中的下一个QRNN层;
对于与所述输入向量的时间序列相对应的多个时间序列窗口中的每个连续时间序列窗口,从所述多个QRNN层中的最后一个QRNN层顺序地输出编码的隐藏状态向量;和
通过基于所述编码的隐藏状态向量生成所述目标语言序列,执行所述序列到序列机器翻译任务。
CN201780068556.6A 2016-11-04 2017-11-03 准循环神经网络 Active CN109923559B (zh)

Applications Claiming Priority (9)

Application Number Priority Date Filing Date Title
US201662418075P 2016-11-04 2016-11-04
US201662417333P 2016-11-04 2016-11-04
US62/418,075 2016-11-04
US62/417,333 2016-11-04
US15/420,710 2017-01-31
US15/420,710 US20180129937A1 (en) 2016-11-04 2017-01-31 Quasi-recurrent neural network
US15/420,801 2017-01-31
US15/420,801 US11080595B2 (en) 2016-11-04 2017-01-31 Quasi-recurrent neural network based encoder-decoder model
PCT/US2017/060049 WO2018085722A1 (en) 2016-11-04 2017-11-03 Quasi-recurrent neural network

Publications (2)

Publication Number Publication Date
CN109923559A CN109923559A (zh) 2019-06-21
CN109923559B true CN109923559B (zh) 2024-03-12

Family

ID=62064602

Family Applications (2)

Application Number Title Priority Date Filing Date
CN201780068556.6A Active CN109923559B (zh) 2016-11-04 2017-11-03 准循环神经网络
CN201780068559.XA Active CN109952580B (zh) 2016-11-04 2017-11-03 基于准循环神经网络的编码器-解码器模型

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN201780068559.XA Active CN109952580B (zh) 2016-11-04 2017-11-03 基于准循环神经网络的编码器-解码器模型

Country Status (7)

Country Link
US (3) US20180129937A1 (zh)
EP (2) EP3535699A1 (zh)
JP (3) JP6903752B2 (zh)
CN (2) CN109923559B (zh)
AU (3) AU2017355535B2 (zh)
CA (2) CA3040188C (zh)
WO (2) WO2018085724A1 (zh)

Families Citing this family (151)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10366328B2 (en) * 2017-09-19 2019-07-30 Gyrfalcon Technology Inc. Approximating fully-connected layers with multiple arrays of 3x3 convolutional filter kernels in a CNN based integrated circuit
US10339445B2 (en) * 2016-10-10 2019-07-02 Gyrfalcon Technology Inc. Implementation of ResNet in a CNN based digital integrated circuit
US10360470B2 (en) * 2016-10-10 2019-07-23 Gyrfalcon Technology Inc. Implementation of MobileNet in a CNN based digital integrated circuit
US20180129937A1 (en) 2016-11-04 2018-05-10 Salesforce.Com, Inc. Quasi-recurrent neural network
US10855550B2 (en) * 2016-11-16 2020-12-01 Cisco Technology, Inc. Network traffic prediction using long short term memory neural networks
US10565305B2 (en) 2016-11-18 2020-02-18 Salesforce.Com, Inc. Adaptive attention model for image captioning
KR20180070103A (ko) * 2016-12-16 2018-06-26 삼성전자주식회사 인식 방법 및 인식 장치
US11250311B2 (en) 2017-03-15 2022-02-15 Salesforce.Com, Inc. Deep neural network-based decision network
JP6736786B2 (ja) * 2017-03-29 2020-08-05 グーグル エルエルシー エンドツーエンドのテキスト音声変換
US10997502B1 (en) 2017-04-13 2021-05-04 Cadence Design Systems, Inc. Complexity optimization of trainable networks
US10565318B2 (en) 2017-04-14 2020-02-18 Salesforce.Com, Inc. Neural machine translation with latent tree attention
US11386327B2 (en) 2017-05-18 2022-07-12 Salesforce.Com, Inc. Block-diagonal hessian-free optimization for recurrent and convolutional neural networks
US10817650B2 (en) 2017-05-19 2020-10-27 Salesforce.Com, Inc. Natural language processing using context specific word vectors
CN107633842B (zh) * 2017-06-12 2018-08-31 平安科技(深圳)有限公司 语音识别方法、装置、计算机设备及存储介质
US11113599B2 (en) * 2017-06-22 2021-09-07 Adobe Inc. Image captioning utilizing semantic text modeling and adversarial learning
CN118240025A (zh) 2017-07-10 2024-06-25 斯坦福国际研究院 用于治疗癌症的肽皂草素缀合物
US11227108B2 (en) * 2017-09-11 2022-01-18 Nec Corporation Convolutional neural network architecture with adaptive filters
US11562287B2 (en) 2017-10-27 2023-01-24 Salesforce.Com, Inc. Hierarchical and interpretable skill acquisition in multi-task reinforcement learning
US11604956B2 (en) 2017-10-27 2023-03-14 Salesforce.Com, Inc. Sequence-to-sequence prediction using a neural network model
US11170287B2 (en) 2017-10-27 2021-11-09 Salesforce.Com, Inc. Generating dual sequence inferences using a neural network model
US10592767B2 (en) 2017-10-27 2020-03-17 Salesforce.Com, Inc. Interpretable counting in visual question answering
US10573295B2 (en) 2017-10-27 2020-02-25 Salesforce.Com, Inc. End-to-end speech recognition with policy learning
US11928600B2 (en) 2017-10-27 2024-03-12 Salesforce, Inc. Sequence-to-sequence prediction using a neural network model
US10542270B2 (en) 2017-11-15 2020-01-21 Salesforce.Com, Inc. Dense video captioning
US11276002B2 (en) 2017-12-20 2022-03-15 Salesforce.Com, Inc. Hybrid training of deep networks
US10776581B2 (en) 2018-02-09 2020-09-15 Salesforce.Com, Inc. Multitask learning as question answering
US10929607B2 (en) 2018-02-22 2021-02-23 Salesforce.Com, Inc. Dialogue state tracking using a global-local encoder
US11227218B2 (en) 2018-02-22 2022-01-18 Salesforce.Com, Inc. Question answering from minimal context over documents
US10783875B2 (en) 2018-03-16 2020-09-22 Salesforce.Com, Inc. Unsupervised non-parallel speech domain adaptation using a multi-discriminator adversarial network
US11106182B2 (en) 2018-03-16 2021-08-31 Salesforce.Com, Inc. Systems and methods for learning for domain adaptation
US11062240B2 (en) * 2018-03-30 2021-07-13 Accenture Global Solutions Limited Determining optimal workforce types to fulfill occupational roles in an organization based on occupational attributes
US10887182B1 (en) * 2018-05-10 2021-01-05 Hrl Laboratories, Llc System and method for pairwise network alignment
US11600194B2 (en) 2018-05-18 2023-03-07 Salesforce.Com, Inc. Multitask learning as question answering
US10909157B2 (en) 2018-05-22 2021-02-02 Salesforce.Com, Inc. Abstraction of text summarization
US11631009B2 (en) 2018-05-23 2023-04-18 Salesforce.Com, Inc Multi-hop knowledge graph reasoning with reward shaping
CN108874978B (zh) * 2018-06-08 2021-09-10 杭州一知智能科技有限公司 一基于分层适应性分段网络解决会议内容摘要任务的方法
CN109447305B (zh) * 2018-06-23 2021-09-07 四川大学 一种基于量子加权长短时记忆神经网络的趋势预测方法
US12056594B2 (en) * 2018-06-27 2024-08-06 International Business Machines Corporation Low precision deep neural network enabled by compensation instructions
WO2020013946A1 (en) * 2018-07-13 2020-01-16 Google Llc End-to-end streaming keyword spotting
CN109035233B (zh) * 2018-07-24 2021-09-21 西安邮电大学 视觉注意力网络系统及工件表面缺陷检测方法
US10210860B1 (en) 2018-07-27 2019-02-19 Deepgram, Inc. Augmented generalized deep learning with special vocabulary
CN109241377B (zh) * 2018-08-30 2021-04-23 山西大学 一种基于深度学习话题信息增强的文本文档表示方法和装置
US10970486B2 (en) 2018-09-18 2021-04-06 Salesforce.Com, Inc. Using unstructured input to update heterogeneous data stores
US11436481B2 (en) 2018-09-18 2022-09-06 Salesforce.Com, Inc. Systems and methods for named entity recognition
CN110929837B (zh) * 2018-09-19 2024-05-10 北京搜狗科技发展有限公司 一种联想词预测方法及装置
US11087177B2 (en) 2018-09-27 2021-08-10 Salesforce.Com, Inc. Prediction-correction approach to zero shot learning
US11029694B2 (en) 2018-09-27 2021-06-08 Salesforce.Com, Inc. Self-aware visual-textual co-grounded navigation agent
US11645509B2 (en) 2018-09-27 2023-05-09 Salesforce.Com, Inc. Continual neural network learning via explicit structure learning
US10872601B1 (en) * 2018-09-27 2020-12-22 Amazon Technologies, Inc. Natural language processing
US11514915B2 (en) 2018-09-27 2022-11-29 Salesforce.Com, Inc. Global-to-local memory pointer networks for task-oriented dialogue
US10956704B2 (en) * 2018-11-07 2021-03-23 Advanced New Technologies Co., Ltd. Neural networks for biometric recognition
CN109543180B (zh) * 2018-11-08 2020-12-04 中山大学 一种基于注意力机制的文本情感分析方法
CN109685252B (zh) * 2018-11-30 2023-04-07 西安工程大学 基于循环神经网络和多任务学习模型的建筑能耗预测方法
US11822897B2 (en) 2018-12-11 2023-11-21 Salesforce.Com, Inc. Systems and methods for structured text translation with tag alignment
US10963652B2 (en) 2018-12-11 2021-03-30 Salesforce.Com, Inc. Structured text translation
CN109815484B (zh) * 2018-12-21 2022-03-15 平安科技(深圳)有限公司 基于交叉注意力机制的语义相似度匹配方法及其匹配装置
CN111476039B (zh) * 2019-01-04 2023-06-30 深圳永德利科技股份有限公司 智能车载系统的即时语言翻译方法及相关产品
US11922323B2 (en) 2019-01-17 2024-03-05 Salesforce, Inc. Meta-reinforcement learning gradient estimation with variance reduction
US11250842B2 (en) 2019-01-27 2022-02-15 Min Ku Kim Multi-dimensional parsing method and system for natural language processing
US11568306B2 (en) 2019-02-25 2023-01-31 Salesforce.Com, Inc. Data privacy protected machine learning systems
JP7293729B2 (ja) * 2019-03-01 2023-06-20 富士フイルムビジネスイノベーション株式会社 学習装置、情報出力装置、及びプログラム
US11003867B2 (en) 2019-03-04 2021-05-11 Salesforce.Com, Inc. Cross-lingual regularization for multilingual generalization
US11366969B2 (en) 2019-03-04 2022-06-21 Salesforce.Com, Inc. Leveraging language models for generating commonsense explanations
US11087092B2 (en) 2019-03-05 2021-08-10 Salesforce.Com, Inc. Agent persona grounded chit-chat generation framework
US11580445B2 (en) 2019-03-05 2023-02-14 Salesforce.Com, Inc. Efficient off-policy credit assignment
US11120328B1 (en) 2019-03-15 2021-09-14 Facebook, Inc. Systems and methods for reducing power consumption of convolution operations for artificial neural networks
US10902289B2 (en) 2019-03-22 2021-01-26 Salesforce.Com, Inc. Two-stage online detection of action start in untrimmed videos
CN109979432B (zh) * 2019-04-02 2021-10-08 科大讯飞股份有限公司 一种方言翻译方法及装置
CN110032633B (zh) * 2019-04-17 2021-03-23 腾讯科技(深圳)有限公司 多轮对话处理方法、装置和设备
US11281863B2 (en) 2019-04-18 2022-03-22 Salesforce.Com, Inc. Systems and methods for unifying question answering and text classification via span extraction
US11334467B2 (en) 2019-05-03 2022-05-17 International Business Machines Corporation Representing source code in vector space to detect errors
US11487939B2 (en) 2019-05-15 2022-11-01 Salesforce.Com, Inc. Systems and methods for unsupervised autoregressive text compression
US11604965B2 (en) 2019-05-16 2023-03-14 Salesforce.Com, Inc. Private deep learning
US11562251B2 (en) 2019-05-16 2023-01-24 Salesforce.Com, Inc. Learning world graphs to accelerate hierarchical reinforcement learning
US11620572B2 (en) 2019-05-16 2023-04-04 Salesforce.Com, Inc. Solving sparse reward tasks using self-balancing shaped rewards
US11687588B2 (en) 2019-05-21 2023-06-27 Salesforce.Com, Inc. Weakly supervised natural language localization networks for video proposal prediction based on a text query
US11775775B2 (en) 2019-05-21 2023-10-03 Salesforce.Com, Inc. Systems and methods for reading comprehension for a question answering task
US11669712B2 (en) 2019-05-21 2023-06-06 Salesforce.Com, Inc. Robustness evaluation via natural typos
US11657269B2 (en) 2019-05-23 2023-05-23 Salesforce.Com, Inc. Systems and methods for verification of discriminative models
CN110210024B (zh) * 2019-05-28 2024-04-02 腾讯科技(深圳)有限公司 一种信息处理方法、装置及存储介质
CN110263916B (zh) * 2019-05-31 2021-09-10 腾讯科技(深圳)有限公司 数据处理方法和装置、存储介质及电子装置
CN110390952B (zh) * 2019-06-21 2021-10-22 江南大学 基于双特征2-DenseNet并联的城市声音事件分类方法
US20200410353A1 (en) * 2019-06-25 2020-12-31 Neuchips Corporation Harmonic densely connecting method of block of convolutional neural network model and system thereof
CN110197665B (zh) * 2019-06-25 2021-07-09 广东工业大学 一种用于公安刑侦监听的语音分离与跟踪方法
CN112151003A (zh) * 2019-06-27 2020-12-29 百度在线网络技术(北京)有限公司 并行语音合成方法、装置、设备以及计算机可读存储介质
CN112151024B (zh) * 2019-06-28 2023-09-22 声音猎手公司 用于生成语音音频的经编辑的转录的方法和装置
CN110377918B (zh) * 2019-07-15 2020-08-28 昆明理工大学 融合句法解析树的汉-越神经机器翻译方法
US11836613B2 (en) * 2019-07-17 2023-12-05 International Business Machines Corporation Neural programmer interpreters with modeled primitives
KR102205430B1 (ko) * 2019-08-05 2021-01-20 에스케이텔레콤 주식회사 인공 신경망을 이용한 학습 방법
CN110263923B (zh) * 2019-08-12 2019-11-29 上海燧原智能科技有限公司 张量卷积计算方法及系统
KR102232871B1 (ko) * 2019-08-14 2021-03-26 펜타시큐리티시스템 주식회사 Can 기반의 통신 네트워크에서 신호 검출 방법 및 장치
US11615240B2 (en) 2019-08-15 2023-03-28 Salesforce.Com, Inc Systems and methods for a transformer network with tree-based attention for natural language processing
US20210056220A1 (en) * 2019-08-22 2021-02-25 Mediatek Inc. Method for improving confidentiality protection of neural network model
CN110797018B (zh) * 2019-08-28 2022-03-25 腾讯科技(深圳)有限公司 语音识别方法及装置、介质和设备
CN110728991B (zh) * 2019-09-06 2022-03-01 南京工程学院 一种改进的录音设备识别算法
US11568000B2 (en) 2019-09-24 2023-01-31 Salesforce.Com, Inc. System and method for automatic task-oriented dialog system
US11599792B2 (en) 2019-09-24 2023-03-07 Salesforce.Com, Inc. System and method for learning with noisy labels as semi-supervised learning
US11640527B2 (en) 2019-09-25 2023-05-02 Salesforce.Com, Inc. Near-zero-cost differentially private deep learning with teacher ensembles
US11074438B2 (en) 2019-10-01 2021-07-27 Toyota Research Institute, Inc. Disentangling human dynamics for pedestrian locomotion forecasting with noisy supervision
KR20210044056A (ko) 2019-10-14 2021-04-22 삼성전자주식회사 중복 토큰 임베딩을 이용한 자연어 처리 방법 및 장치
KR20210043995A (ko) * 2019-10-14 2021-04-22 삼성전자주식회사 모델 학습 방법 및 장치, 및 시퀀스 인식 방법
US11620515B2 (en) 2019-11-07 2023-04-04 Salesforce.Com, Inc. Multi-task knowledge distillation for language model
US11347708B2 (en) 2019-11-11 2022-05-31 Salesforce.Com, Inc. System and method for unsupervised density based table structure identification
CN110889509B (zh) * 2019-11-11 2023-04-28 安徽超清科技股份有限公司 一种基于梯度动量加速的联合学习方法及装置
US11334766B2 (en) 2019-11-15 2022-05-17 Salesforce.Com, Inc. Noise-resistant object detection with noisy annotations
US11288438B2 (en) 2019-11-15 2022-03-29 Salesforce.Com, Inc. Bi-directional spatial-temporal reasoning for video-grounded dialogues
US11537899B2 (en) 2019-11-18 2022-12-27 Salesforce.Com, Inc. Systems and methods for out-of-distribution classification
US11922303B2 (en) 2019-11-18 2024-03-05 Salesforce, Inc. Systems and methods for distilled BERT-based training model for text classification
US11416688B2 (en) 2019-12-09 2022-08-16 Salesforce.Com, Inc. Learning dialogue state tracking with limited labeled data
US11573957B2 (en) 2019-12-09 2023-02-07 Salesforce.Com, Inc. Natural language processing engine for translating questions into executable database queries
US12086539B2 (en) 2019-12-09 2024-09-10 Salesforce, Inc. System and method for natural language processing using neural network with cross-task training
US11640505B2 (en) 2019-12-09 2023-05-02 Salesforce.Com, Inc. Systems and methods for explicit memory tracker with coarse-to-fine reasoning in conversational machine reading
US11487999B2 (en) 2019-12-09 2022-11-01 Salesforce.Com, Inc. Spatial-temporal reasoning through pretrained language models for video-grounded dialogues
US11256754B2 (en) 2019-12-09 2022-02-22 Salesforce.Com, Inc. Systems and methods for generating natural language processing training samples with inflectional perturbations
CN110991619A (zh) * 2019-12-09 2020-04-10 Oppo广东移动通信有限公司 神经网络处理器、芯片和电子设备
EP4022516A1 (en) * 2019-12-18 2022-07-06 Google LLC Processing multi-horizon forecasts for time series data
KR102315830B1 (ko) * 2019-12-27 2021-10-22 한국과학기술원 반지도 학습 기반 단어 단위 감정 임베딩과 lstm 모델을 이용한 대화 내에서 발화의 감정 분류 방법
US11669745B2 (en) 2020-01-13 2023-06-06 Salesforce.Com, Inc. Proposal learning for semi-supervised object detection
CN111312285B (zh) * 2020-01-14 2023-02-14 腾讯音乐娱乐科技(深圳)有限公司 一种开头爆音检测方法及装置
US11562147B2 (en) 2020-01-23 2023-01-24 Salesforce.Com, Inc. Unified vision and dialogue transformer with BERT
US20210249105A1 (en) 2020-02-06 2021-08-12 Salesforce.Com, Inc. Systems and methods for language modeling of protein engineering
CN111291940B (zh) * 2020-03-02 2022-06-07 桂林电子科技大学 一种基于Attention深度学习模型的学生辍课预测方法
CN111414749B (zh) * 2020-03-18 2022-06-21 哈尔滨理工大学 基于深度神经网络的社交文本依存句法分析系统
US11263476B2 (en) 2020-03-19 2022-03-01 Salesforce.Com, Inc. Unsupervised representation learning with contrastive prototypes
US11328731B2 (en) 2020-04-08 2022-05-10 Salesforce.Com, Inc. Phone-based sub-word units for end-to-end speech recognition
CN111222347B (zh) * 2020-04-15 2020-07-28 北京金山数字娱乐科技有限公司 语句翻译模型的训练方法及装置、语句翻译方法及装置
US11669699B2 (en) 2020-05-31 2023-06-06 Saleforce.com, inc. Systems and methods for composed variational natural language generation
US11720559B2 (en) 2020-06-02 2023-08-08 Salesforce.Com, Inc. Bridging textual and tabular data for cross domain text-to-query language semantic parsing with a pre-trained transformer language encoder and anchor text
US11455146B2 (en) 2020-06-22 2022-09-27 Bank Of America Corporation Generating a pseudo-code from a text summarization based on a convolutional neural network
US11393456B1 (en) * 2020-06-26 2022-07-19 Amazon Technologies, Inc. Spoken language understanding system
US11625436B2 (en) 2020-08-14 2023-04-11 Salesforce.Com, Inc. Systems and methods for query autocompletion
US11934952B2 (en) 2020-08-21 2024-03-19 Salesforce, Inc. Systems and methods for natural language processing using joint energy-based models
US11934781B2 (en) 2020-08-28 2024-03-19 Salesforce, Inc. Systems and methods for controllable text summarization
CN112185352B (zh) * 2020-08-31 2024-05-17 华为技术有限公司 语音识别方法、装置及电子设备
CN112183846B (zh) * 2020-09-25 2022-04-19 合肥工业大学 基于模糊c均值聚类的tvf-emd-mcqrnn负荷概率预测方法
CA3194614A1 (en) * 2020-10-02 2022-04-07 Narsimha CHILKURI Methods and systems for parallelizing computations in recurrently connected artificial neural networks
CN112259075A (zh) * 2020-10-10 2021-01-22 腾讯科技(深圳)有限公司 语音信号处理方法、装置、电子设备和存储介质
CN112309405A (zh) * 2020-10-29 2021-02-02 平安科技(深圳)有限公司 多种声音事件的检测方法、装置、计算机设备及存储介质
US11829442B2 (en) 2020-11-16 2023-11-28 Salesforce.Com, Inc. Methods and systems for efficient batch active learning of a deep neural network
CN112651170B (zh) * 2020-12-14 2024-02-27 德清阿尔法创新研究院 一种纵向联邦学习场景中高效的特征贡献评估方法
KR102587232B1 (ko) * 2020-12-29 2023-10-12 인하대학교 산학협력단 인간 활동 인식을 위한 희소 특성 학습 방법 및 시스템
CN113096206B (zh) * 2021-03-15 2022-09-23 中山大学 基于注意力机制网络的人脸生成方法、装置、设备及介质
CN112925896A (zh) * 2021-04-04 2021-06-08 河南工业大学 一种基于联合解码的话题扩展情感对话生成方法
CN113257239B (zh) * 2021-06-15 2021-10-08 深圳市北科瑞声科技股份有限公司 语音识别方法、装置、电子设备及存储介质
CN113919587A (zh) * 2021-11-03 2022-01-11 中大检测(湖南)股份有限公司 基于神经网络的地质灾害的预测方法及系统
US20230306201A1 (en) * 2022-02-25 2023-09-28 Optum Services (Ireland) Limited Natural language processing techniques using multi-context self-attention machine learning frameworks
CN114757177B (zh) * 2022-03-11 2024-09-27 广西电网有限责任公司 一种基于bart融合指针生成网络的文本摘要方法
WO2023196014A1 (en) * 2022-04-05 2023-10-12 Innopeak Technology, Inc. Object prior embedded network for query-agnostic image retrieval
CN117200933A (zh) * 2022-05-25 2023-12-08 华为技术有限公司 一种信道编译码方法及装置
CN115905717B (zh) * 2023-03-02 2023-05-09 中南大学 基于混合3d卷积融合评级与评论的景点推荐方法及装置
CN118194879A (zh) * 2024-03-02 2024-06-14 深圳威科未来科技有限公司 一种通过流程图实现任务型ai对话系统的方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103345581A (zh) * 2013-07-04 2013-10-09 上海交通大学 基于在线自中心模型的动态网络分析系统及方法
CN104850845A (zh) * 2015-05-30 2015-08-19 大连理工大学 一种基于非对称卷积神经网络的交通标志识别方法
CN105844239A (zh) * 2016-03-23 2016-08-10 北京邮电大学 一种基于cnn和lstm的暴恐视频检测方法

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6128606A (en) 1997-03-11 2000-10-03 At&T Corporation Module for constructing trainable modular network in which each module inputs and outputs data structured as a graph
US7054850B2 (en) 2000-06-16 2006-05-30 Canon Kabushiki Kaisha Apparatus and method for detecting or recognizing pattern by employing a plurality of feature detecting elements
KR100586841B1 (ko) * 2003-12-15 2006-06-07 삼성전자주식회사 가변 딜레이 제어 방법 및 회로
US9443141B2 (en) 2008-06-02 2016-09-13 New York University Method, system, and computer-accessible medium for classification of at least one ICTAL state
US9836455B2 (en) 2011-02-23 2017-12-05 New York University Apparatus, method and computer-accessible medium for explaining classifications of documents
US8873813B2 (en) 2012-09-17 2014-10-28 Z Advanced Computing, Inc. Application of Z-webs and Z-factors to analytics, search engine, learning, recognition, natural language, and other utilities
US10783900B2 (en) 2014-10-03 2020-09-22 Google Llc Convolutional, long short-term memory, fully connected deep neural networks
US10409908B2 (en) 2014-12-19 2019-09-10 Google Llc Generating parse trees of text segments using neural networks
US11080587B2 (en) * 2015-02-06 2021-08-03 Deepmind Technologies Limited Recurrent neural networks for data item generation
US10846589B2 (en) * 2015-03-12 2020-11-24 William Marsh Rice University Automated compilation of probabilistic task description into executable neural network specification
US20160283864A1 (en) 2015-03-27 2016-09-29 Qualcomm Incorporated Sequential image sampling and storage of fine-tuned features
US9786036B2 (en) 2015-04-28 2017-10-10 Qualcomm Incorporated Reducing image resolution in deep convolutional networks
US20160350653A1 (en) 2015-06-01 2016-12-01 Salesforce.Com, Inc. Dynamic Memory Network
US11113598B2 (en) 2015-06-01 2021-09-07 Salesforce.Com, Inc. Dynamic memory network
US20170032280A1 (en) 2015-07-27 2017-02-02 Salesforce.Com, Inc. Engagement estimator
US10282663B2 (en) 2015-08-15 2019-05-07 Salesforce.Com, Inc. Three-dimensional (3D) convolution with 3D batch normalization
US20180129937A1 (en) 2016-11-04 2018-05-10 Salesforce.Com, Inc. Quasi-recurrent neural network
US10346721B2 (en) 2017-11-01 2019-07-09 Salesforce.Com, Inc. Training a neural network using augmented training datasets

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103345581A (zh) * 2013-07-04 2013-10-09 上海交通大学 基于在线自中心模型的动态网络分析系统及方法
CN104850845A (zh) * 2015-05-30 2015-08-19 大连理工大学 一种基于非对称卷积神经网络的交通标志识别方法
CN105844239A (zh) * 2016-03-23 2016-08-10 北京邮电大学 一种基于cnn和lstm的暴恐视频检测方法

Also Published As

Publication number Publication date
US20180129937A1 (en) 2018-05-10
JP2019537134A (ja) 2019-12-19
WO2018085722A1 (en) 2018-05-11
AU2017355535A1 (en) 2019-05-02
CA3040188A1 (en) 2018-05-11
JP2020501231A (ja) 2020-01-16
JP7233475B2 (ja) 2023-03-06
CA3040153C (en) 2023-09-26
AU2021201242B2 (en) 2022-08-11
CA3040188C (en) 2021-08-03
AU2017355535B2 (en) 2020-11-26
JP6903752B2 (ja) 2021-07-14
US11080595B2 (en) 2021-08-03
CN109952580B (zh) 2023-08-01
AU2017355537A1 (en) 2019-05-02
AU2017355537B2 (en) 2021-02-18
AU2021201242A1 (en) 2021-03-11
JP6992064B2 (ja) 2022-01-13
CN109952580A (zh) 2019-06-28
CN109923559A (zh) 2019-06-21
CA3040153A1 (en) 2018-05-11
JP2021166073A (ja) 2021-10-14
EP3535700A1 (en) 2019-09-11
EP3535699A1 (en) 2019-09-11
US20210103816A1 (en) 2021-04-08
US20180129931A1 (en) 2018-05-10
WO2018085724A1 (en) 2018-05-11

Similar Documents

Publication Publication Date Title
CN109923559B (zh) 准循环神经网络
Choudhary et al. A comprehensive survey on model compression and acceleration
Ge et al. Classification using hyperdimensional computing: A review
CN109906460B (zh) 用于问答的动态协同注意力网络
Fan et al. Bayesian attention modules
US20240013059A1 (en) Extreme Language Model Compression with Optimal Sub-Words and Shared Projections
CN108959482A (zh) 基于深度学习的单轮对话数据分类方法、装置和电子设备
Belanger et al. A linear dynamical system model for text
Deng et al. Convergence of two-layer regression with nonlinear units
Huai et al. Latency-constrained DNN architecture learning for edge systems using zerorized batch normalization
Su et al. Compact neural architecture designs by tensor representations
Chen et al. Coseparable Nonnegative Tensor Factorization With T-CUR Decomposition
CN111723186A (zh) 用于对话系统的基于人工智能的知识图谱生成方法、电子设备
Han et al. Latent variable autoencoder
Horváth et al. Maestro: Uncovering Low-Rank Structures via Trainable Decomposition
US20210256388A1 (en) Machine-Learned Models Featuring Matrix Exponentiation Layers
Reiz On the Algorithmic Impact of Scientific Computing on Machine Learning
Liang Experiments on the generalization and learning dynamics of deep neural networks
Bodiwala Enhancing Efficiency of Deep Neural Networks using Hardware Driven Activation Function with Stochastic Computing
Huang et al. Tensor-Solver for Deep Neural Network
Ma Irreversibility in Stochastic Dynamic Models and Efficient Bayesian Inference
Groenland et al. Efficient forward propagation of time-sequences in convolutional neural networks using deep shifting
Genchi Design compact and efficient recurrent neural networks for natural language processing tasks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: California, USA

Applicant after: Shuo Power Co.

Address before: California, USA

Applicant before: SALESFORCE.COM, Inc.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant