CN109844773A - 使用卷积神经网络处理序列 - Google Patents
使用卷积神经网络处理序列 Download PDFInfo
- Publication number
- CN109844773A CN109844773A CN201780065178.6A CN201780065178A CN109844773A CN 109844773 A CN109844773 A CN 109844773A CN 201780065178 A CN201780065178 A CN 201780065178A CN 109844773 A CN109844773 A CN 109844773A
- Authority
- CN
- China
- Prior art keywords
- sequence
- output
- network
- input
- list entries
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000013527 convolutional neural network Methods 0.000 title claims abstract description 31
- 238000012545 processing Methods 0.000 title claims description 24
- 238000000034 method Methods 0.000 claims abstract description 25
- 238000013528 artificial neural network Methods 0.000 claims abstract description 23
- 238000003860 storage Methods 0.000 claims abstract description 12
- 230000000694 effects Effects 0.000 claims description 50
- 210000005036 nerve Anatomy 0.000 claims description 34
- 230000004913 activation Effects 0.000 claims description 18
- 230000001537 neural effect Effects 0.000 claims description 5
- 238000013519 translation Methods 0.000 claims description 4
- 238000004590 computer program Methods 0.000 abstract description 14
- 238000009826 distribution Methods 0.000 description 20
- 230000006870 function Effects 0.000 description 13
- 238000012549 training Methods 0.000 description 7
- 238000012800 visualization Methods 0.000 description 7
- 238000004891 communication Methods 0.000 description 5
- 238000010801 machine learning Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 230000036541 health Effects 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 230000015654 memory Effects 0.000 description 3
- 230000000306 recurrent effect Effects 0.000 description 3
- 102000001690 Factor VIII Human genes 0.000 description 2
- 108010054218 Factor VIII Proteins 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 230000000712 assembly Effects 0.000 description 2
- 238000000429 assembly Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 235000013399 edible fruits Nutrition 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 125000006850 spacer group Chemical group 0.000 description 2
- 241000009334 Singa Species 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000001364 causal effect Effects 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000010339 dilation Effects 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 230000009191 jumping Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 238000011022 operating instruction Methods 0.000 description 1
- 238000003825 pressing Methods 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2250/00—Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
- G10H2250/311—Neural networks for electrophonic musical instruments or musical processing, e.g. for musical recognition or control, automatic composition or improvisation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
用于生成从输入序列生成神经网络输出的方法、系统和装置,包括编码在计算机存储介质上的计算机程序。其中一种方法包括,对于输入中的每一个,将包括输入序列中的该输入和该输入之前的输入的当前输入序列提供给包括多个扩张卷积神经网络层的卷积子网络,其中卷积子网络被配置为,对于多个输入中的每一个:接收该输入的当前输入序列,并处理当前输入序列以生成输入的替代表示;以及向输出子网络提供替代表示,其中输出子网络被配置为接收替代表示并处理替代表示以生成神经网络输出。
Description
背景技术
本说明书涉及使用神经网络处理序列。
神经网络是机器学习模型,它采用一层或多层非线性单元来对于接收的输入预测输出。一些神经网络除了输出层之外还包括一个或多个隐藏层。在网络中,每个隐藏层的输出被用作下一层(即,下一隐藏层或输出层)的输入。网络的每一层根据相应参数集的当前值从接收的输入生成输出。
发明内容
本说明书描述了在一个或多个位置的一个或多个计算机上实施为计算机程序的系统可以如何通过处理包括多个输入的序列来生成神经网络输出。
在一个创新方面,由一个或多个计算机实施的神经网络系统被配置为接收包括多个输入的输入序列,并从输入序列生成神经网络输出。神经网络系统可以包括卷积子网络,该卷积子网络包括多个扩张卷积神经网络层和输出子网络。卷积子网络可以被配置为,对于多个输入中的每一个:接收包括输入序列中的该输入和该输入之前的输入的当前输入序列,并且处理当前输入序列以生成输入的替代表示。因此,该替代表示可以包括数字表示,即数字值的有序集合,其中当前输入序列已经由卷积子网络编码,例如编码当前序列的特征。输出子网络可以被配置为接收输入的替代表示,并处理替代表示以生成神经网络输出。
这种系统的许多优点中的一些将在后面描述。
神经网络输出可以包括多个分数集,每个分数集包括多个可能输出中的每一个的相应分数。该系统可以根据分数集选择输出,以生成包括多个输出的输出序列。
在一些实施方式中,卷积神经网络层是扩张因果卷积神经网络层。如后面更详细描述的,扩张卷积神经网络层将卷积应用于序列(即,如由来自前一层的输出定义的)中的非相邻值。这可以按数量级增加卷积子网络的接受域(receptive field),同时保持输入(时间)分辨率并维持计算效率。
在一些实施方式中,卷积神经网络层包括多个堆叠的扩张卷积神经网络层的块。每个块可以包括具有逐渐增加的扩张因子(dilation)的多个扩张卷积神经网络层。例如,对于每个连续层,扩张因子可以增加因子n,直到每个块内的极限。这可以进一步增加接受域的大小。
在一些实施方式中,卷积神经网络层中的一个或多个可以具有门控激活单元(gated activation unit)。例如,由层实施的卷积之后的修正线性(rectified linear)或其他单元可以被门控激活单元代替。在门控激活单元中,输出可以是两个(因果)卷积的组合,即主卷积和门卷积。卷积可以各自被应用于来自前一层的一些或全部相同的输出。该组合可以包括应用于门卷积的非线性激活函数,例如,诸如sigmoid的具有(0,1)范围的激活。然后,这可以乘以来自主卷积的值;非线性激活函数可以但不需要应用于主卷积。这种方法可以帮助捕捉数据中更复杂的结构。
卷积子网络可以包括残差连接(residual connection),例如从卷积层的输入到将卷积层的输入与该层的中间输出相加的加法器的连接。这有效地允许网络被训练来跳过或部分地跳过层,从而加速收敛并促进更深模型的训练。卷积子网络可以附加地或替代地包括跳跃连接(skip connection),例如直接从卷积子网络的一个或多个中间层中的每一个到直接生成提供给输出层的替代表示的一个或多个操作。
在一些实施方式中,例如,系统用于语音识别的实施方式中,输出子网络包括:平均池化层,被配置为:接收替代表示的子集,并对替代表示的子集执行平均池化,以生成子集的平均池化的表示;以及一个或多个附加神经网络层,被配置为对于替代表示的每个子集,接收该子集的平均池化表示,并且为输出序列中对应于该子集的位置生成分数集。
在一些实施方式中,使用卷积子网络处理当前序列以生成输入的替代表示重复使用为先前时间步计算的值。重复使用的值可以包括从卷积滤波器应用于输入数据或从其导出的数据导出的值。当相同的滤波器被应用于相同的(或相同中的一些)输入数据或从其导出的数据时,重复使用的值可以在一个时间步处被存储,并在稍后的时间步处被检索。这可以使系统在计算上更有效并因此更快,因为不需要重新计算存储的值。
可以实施本说明书中描述的主题的特定实施例,以便实现一个或多个以下优点。如本说明书中描述的神经网络系统可以在各种序列处理任务(例如,语音识别)上实现优于现有技术的结果。通过使用卷积神经网络层(例如,扩张卷积层)代替递归神经网络层,神经网络系统可以实现这些结果,同时不需要与包括递归神经网络层的其他系统一样多的计算资源来训练,从而导致训练时间减少。通过使用卷积神经网络层(例如,因果卷积层)代替递归神经网络层(例如,代替长短期记忆(long short-term memory,LSTM)层),神经网络系统可以实现这些有利的结果,同时不需要与包括递归神经网络层的其他系统一样多的计算资源来训练,从而导致训练时间减少。通过采用卷积层而不是递归层,神经网络系统的计算可以被更容易地批量化和更容易地并行化,例如,因为网络的层不必为每个时间步展开,允许更有效地执行系统的计算。此外,通过采用扩张因果卷积层,卷积子网络的接受域以及因此由系统生成的输出序列的质量可以被改善,而不会大大增加生成输出序列的计算成本。此外,系统中输入和输出之间由正向和反向信号穿过的路径与输入和输出之间的序列距离无关,这允许更好的信号传播和长程依赖学习,从而改善输出质量。
本说明书中描述的主题的一个或多个实施例的细节在附图和以下描述中阐述。从说明书、附图和权利要求书中,主题的其他特征、方面和优点将变得显而易见。
附图说明
图1示出了示例神经网络系统。
图2示出了扩张因果卷积层的示例块的可视化。
图3示出了卷积子网络的示例架构。
图4是用于处理当前输入序列的示例过程的流程图。
不同附图中相同的附图标记和名称指示相同的元件。
具体实施方式
图1示出了示例神经网络系统100。神经网络系统100是在一个或多个位置的一个或多个计算机上实施为计算机程序的系统的示例,其中可以实施下面描述的系统、组件和技术。
神经网络系统100是执行序列处理任务的系统,即,从输入序列102生成输出序列152。系统100可以被配置成执行多种序列处理任务中的任何一种。
例如,系统100可以被配置为执行语音识别任务,其中输入序列是音频数据序列,例如原始音频数据,并且系统100生成作为输入序列的音素表示的音素序列或者作为输入序列的字素表示的字素序列。
作为另一示例,系统100可以被配置为执行语言建模任务,其中输入序列是音素或字素序列,并且由系统100生成的输出序列是表示输入序列的第一自然语言的文字序列。
作为另一示例,系统100可以被配置为执行机器翻译任务,其中输入序列是第一自然语言的文字序列,并且由系统100生成的输出序列是第二自然语言的文字序列,其是输入序列到第二自然语言的翻译。
作为另一示例,系统100可以被配置为执行自然语言处理任务,例如句子总结、句子解析、词性标注(part of speech tagging)等,其中输入序列是第一自然语言的文字序列,并且由系统100生成的输出序列是根据自然语言处理任务所要求的输出的种类对输入序列中的文字进行分类的序列。
作为另一示例,系统100可以被配置为执行压缩任务,其中输入序列是从输入样本提取的数据序列,例如音频数据或图像数据,并且输出序列是压缩的或编码的样本。
作为另一示例,系统100可以被配置为执行医学分析任务,其中输入序列是特定患者的健康数据序列,并且输出序列包括表征患者健康或预测患者未来健康的数据。
更具体地,输入序列102包括多个输入时间步中的每一个处的相应输入,并且神经网络系统100通过在一些或全部时间步处处理当前输入序列来生成输出序列152。给定时间步处的当前输入序列包括输入序列中给定时间步处的输入和该输入之前的输入。例如,对于输入序列102中的时间步140,当前输入序列142包括输入序列102中时间步140处的输入和时间步140之前的时间步处的输入。
在一些实施方式中,神经网络系统100为输入序列中的每个时间步处理相应的当前输入序列。在一些其他实施方式中,神经网络系统100不处理输入序列中的一个或多个初始输入的当前输入序列,即,系统100在开始处理之前等待,直到已经看到指定数量的输入。
神经网络系统100包括卷积子网络110和输出子网络120。
在输出序列的生成期间的给定时间步处,卷积子网络110被配置为接收当前输入序列,即,包括给定时间步处和给定时间步之前的输入的序列,并处理当前输入序列以生成该时间步的替代表示。例如,对于输入序列102中的时间步140,卷积子网络110可以接收当前输入序列142,并处理当前输入序列142以生成替代表示144。
输出子网络120被配置为接收时间步中的每个的替代表示,并根据替代表示生成输出序列中的每个位置的可能输出的相应分数分布。例如,输出子网络可以为输出序列152中的特定位置生成分数分布146。每个分数分布包括多个可能输出中的每一个的相应分数,并且在输出序列152的生成期间由输出子网络120生成的分数分布统称为输入序列102的神经网络输出。
具体地,当神经网络系统100被配置为生成音素序列时,每个分数分布包括音素词汇表中的每个音素的相应分数。当神经网络系统100被配置为生成字素序列时,分数分布包括字素词汇表中的每个字素的相应分数。当神经网络系统100被配置为生成文字序列时,分数分布包括文字词汇表中的每个文字的相应分数。在一些实施方式中,对应的词汇表,即,字素、音素或文字的词汇表,包括一个或多个特殊输出,例如,指示输出序列中的下一输出尚未准备好生成的空白输出。
一旦输出子网络146已经生成了输出序列中给定位置的分数分布,神经网络系统100可以根据分数分布从多个可能输出中选择要包括在输出序列中该位置处的输出。例如,神经网络系统100可以通过从分数分布中采样来选择输出,即,根据分数分布中的分数从可能输出中采样,或者可以根据分数分布来选择具有最高分数的可能输出。
卷积子网络110一般包括多个卷积神经网络层。更具体地,卷积神经网络层包括多个因果卷积层。
因果卷积层是对在多个时间步中的每一个处都具有相应输入的输入序列进行操作的卷积层:对于每个时间步,生成仅依赖于输入序列中该时间步和该时间步之前的时间步处的输入的输出,即,并不依赖于输入序列中该时间步之后的任何时间步处的任何输入。在一些情况下,因果卷积层通过应用正常卷积并且然后将正常卷积的每个输出移动几个时间步来实施,即,在应用卷积层的激活函数之前,将每个输出向前移动(滤波器长度–1)个时间步,其中“滤波器长度”是所应用的卷积的滤波器长度。
为了增加因果卷积层的接受域,而不需要过多数量的层或过长的滤波器,卷积层中的一些或全部可以是扩张因果卷积层。扩张卷积是一种卷积,其中通过跳过由扩张卷积的扩张因子值定义的某一步长的输入值,在大于滤波器长度的区域上应用滤波器。通过结合扩张因果卷积,卷积神经网络层以比正常卷积更粗的尺度有效地对它们的输入进行操作。
在一些实施方式中,卷积神经网络层包括多个扩张因果卷积层块的堆叠。堆叠中的每个块可以包括具有增加的扩张因子的多个扩张卷积神经网络层。例如,在一个块中,从初始扩张因子开始,每一层的扩张因子可以翻倍,然后在下一块中返回到第一层的初始扩张因子。作为说明性的示例,块中的扩张卷积层的扩张因子可以按顺序为:1,2,4,…,512。下面参照图2描述一组扩张因果卷积层的块的简化示例。
在一些实施方式中,卷积子网络包括残差连接、跳跃连接或两者。下面参考图3描述包括残差连接和跳跃连接两者的卷积子网络的示例架构。
通常,输出子网络120可以是基于任何神经网络的子网络,其适于生成系统100被配置为使用由卷积子网络110生成的替代表示生成的这种神经网络输出,例如基于递归神经网络的子网络、完全连接子网络、单个输出层等等。
在一些特定实施方式中,例如,在系统100被配置为执行语音识别的实施方式中,输出子网络120包括被配置为接收替代表示(即输入序列中指定数量的时间步的替代表示)的子集的平均池化层,并对替代表示执行平均池化,以生成将替代表示聚集到更粗帧的替代表示的平均池化表示。在这些实施方式中,输出子网络120还包括一个或多个附加层,例如一个或多个非因果卷积层,随后是柔性最大值(softmax)输出层,被配置为接收平均池化表示,并在对应于更粗帧的位置处为输出序列中的输出生成分数分布。也就是说,输出序列中的每个输出位置对应于卷积子网络110生成的替代表示的不同子集。
图2示出了扩张因果卷积层的示例块的可视化200。具体地,示例块包括具有扩张因子1的扩张因果卷积层204、具有扩张因子2的扩张因果卷积层206、具有扩张因子4的扩张因果卷积层208和具有扩张因子8的扩张因果卷积层210。
在可视化200中,扩张因果卷积层块正对当前输入序列202进行操作以生成输出序列。具体地,可视化200使用粗体箭头将该块如何生成输出212和输出序列可视化,该输出212是当前输入序列202中当前的最后一个时间步处的输出。
如从可视化200可以看出的,因为块中的每一层都是因果卷积层,所以输出212仅依赖于在由块中的层操作的各种序列中的最后一个当前时间步或最后一个当前时间步之前的时间步处的输出。
此外,如从可视化200中可以看出的,块中的层按照扩张因子增加的顺序布置,其中,块中的第一层,即扩张因果卷积层204,具有扩张因子1,并且块中的最后一层,即扩张因果卷积层204,具有扩张因子8。具体地,如可视化200中的粗体箭头所示,因为扩张因果卷积层204具有扩张因子1,所以层204的滤波器被应用于当前输入序列202中的相邻输入。因为扩张因果卷积层206具有扩张因子2,所以层206的滤波器被应用于由层204生成的输出序列中由1个输出隔开的输出。因为扩张因果卷积层208具有扩张因子4,所以层208的滤波器被应用于由层206生成的输出序列中由3个输出隔开的输出。因为扩张因果卷积层210具有扩张因子8,所以层210的滤波器被应用于由层208生成的输出序列中由7个输出隔开的输出。
图3示出了图1的卷积子网络110的示例架构300。如上所述,在示例架构300中,卷积子网络中的扩张因果卷积层具有残差连接和跳跃连接。
具体地,在架构300中,卷积子网络110包括处理当前输入序列142的因果卷积层302。
卷积子网络110然后通过扩张因果卷积层的堆叠来处理因果卷积层302的输出。
堆叠中的每个扩张因果卷积层304将扩张因果卷积308应用于扩张因果卷积层304的输入306。如上所述,在一些实施方式中,堆叠中的扩张因果卷积层以块的形式布置,其中,由每一层应用的扩张因果卷积的扩张因子在给定块内增加,然后在下一块中以第一层的初始值重新开始。
在一些实施方式中,堆叠中的扩张因果卷积层具有门控激活单元,在该门控激活单元中,按元素(element-wise)非线性的输出,即传统激活函数的输出,被按元素乘以门向量。在这些实施方式中的一些实施方式中,扩张因果卷积308包括层输入302上的两个扩张因果卷积——层304的主滤波器和层输入306之间的第一扩张因果卷积,以及层304的门滤波器和层输入306之间的另一扩张因果卷积。在这些实施方式中的其他实施方式中,扩张因果卷积308是单扩张因果卷积,并且单卷积的输出的一半被提供作为层304的主滤波器和层输入306之间的扩张因果卷积的输出,并且单卷积的输出的另一半被提供作为层304的门滤波器和层输入306之间的扩张因果卷积的输出。
扩张因果卷积层304然后使用扩张因果卷积的输出来确定层304的激活单元的输出。
具体地,当激活函数是门控激活单元时,层304将在图3的示例中为tanh函数的按元素非线性函数310应用于与主滤波器的扩张卷积的输出,并将在图3的示例中为sigmoid函数的按元素门控函数应用于与门滤波器的扩张卷积的输出。层304然后在非线性函数310的输出和门控函数312的输出之间执行按元素乘法314,以生成激活单元输出。
更具体地,当按元素非线性为tanh并且按元素门控函数为sigmoid函数时,层k的激活单元z的输出满足:
z=tanh(Wf,k*x)⊙σ(Wg,k*x),
其中Wf,k是层k的主滤波器,x是层输入,*表示因果扩张卷积,⊙表示按元素乘法,并且Wg,k是层k的门滤波器。
因为架构300包括用于扩张因果卷积层的跳跃连接和残差连接,层304然后对激活单元输出执行1×1卷积316。
层304提供1×1卷积的输出作为该层的跳跃输出318,并将残差(即,层输入306)和1×1卷积的输出相加,以生成层304的最终输出320。
在一些实施方式中,层304对激活单元输出执行两次1×1卷积,一次使用残差滤波器,另一次使用跳跃滤波器。在这些实施方式中,层304提供使用跳跃滤波器的卷积的输出作为该层的跳跃输出318,并将残差和使用残差滤波器的1×1卷积的输出相加,以生成层304的最终输出320。
卷积子网络110然后提供最终输出320作为堆叠中的下一扩张卷积层的层输入。对于堆叠中的最后一层,因为没有下一层,卷积子网络110或者可以丢弃由最后一层生成的最终输出320,或者可以避免计算最终输出,即,可以避免对堆叠中的最后一层执行1×1卷积和残差和。
一旦扩张卷积层的堆叠中的所有层304的处理完成,卷积子网络110将层304生成的跳跃输出相加322,并且可选地,对该和应用一个或多个附加操作以生成替代表示144。具体地,在图3的示例中,卷积子网络110应用按元素非线性324,例如ReLU,以生成替代表示144。
如上所述,输出子网络120然后处理替代表示144以生成分数分布146。虽然在图3中被示出为从单个替代表示生成分数分布146,但是在输出序列具有比输入序列中的输入更少的位置的实施方式中,输出子网络120可以替代地聚集多个替代表示来生成分数分布146,例如通过采用如上所述的平均池化层。
图4是用于处理当前输入序列的示例过程400的流程图。为了方便,过程400将被描述为由位于一个或多个位置的一个或多个计算机的系统执行。例如,神经网络系统,例如图1的被适当编程的神经网络系统100,可以执行过程400。
系统提供在给定时间步的当前输入序列作为卷积子网络的输入(步骤402)。当前输入序列是一个包括输入序列中给定时间步处的输入和该给定时间步之前的时间步处的输入的序列。如上所述,卷积子网络包括卷积神经网络层,例如扩张因果卷积层,并且被配置为处理当前序列以生成给定时间步的替代表示。
系统提供替代表示作为输出子网络的输入(步骤404)。输出子网络被配置为处理替代表示,并且可选地,处理来自其他时间步的替代表示,以生成输出序列中的位置的可能输出的分数分布。
系统根据分数分布选择用于包含在输出序列中的输出(步骤406)。例如,系统可以根据分数分布对可能输出进行采样,或者可以选择具有最高分数的可能输出。
系统可以在包括源序列-目标序列对的训练数据上进行训练。在一些实施方式中,在训练时间,即在训练卷积子网络和输出子网络以确定卷积层的滤波器的训练值和系统的任何其他参数期间,系统用一个测量网络对帧的分类好坏的损耗项来训练网络。在一些其他实施方式中,系统用两个损耗项来训练网络,一个用来预测下一样本,另一个用来对帧进行分类。
此外,因为系统在多个通路中处理来自输入序列的值,所以在一些实施方式中,卷积子网络在计算给定时间步的替代表示时重复使用为先前时间步计算的值。具体地,因为相同的输入被不止一次地作为输入提供给子网络,即作为多个当前输入序列的一部分,由卷积子网络执行的计算中的一些在多个不同的时间步处将是相同的。在这些实施方式中,卷积子网络可以在第一次执行计算时存储计算的输出值,然后在随后的时间步处重复使用存储的输出值,而不是每一时间步重新计算这些计算。作为一个简单的示例,卷积子网络中的第一卷积层将在输出序列生成期间对相同的输入应用相同的一个或多个滤波器多次。系统可以重复使用在先前时间步处计算的输出,而不是在每个时间步处重新计算这些滤波器应用的输出。
在一些实施方式中,作为增加接受域的另一方式,可以采用一个具有非常大(长)的接受域但优选每层更少单元的扩张因果卷积层的堆叠来调节另一(更大的)具有更小接受域的堆叠。更大的堆叠可以处理输入序列的更短的部分,例如在末尾裁剪。
本说明书结合系统和计算机程序组件使用术语“配置”。对于一个或多个计算机的系统被配置为执行特定操作或动作,意味着该系统已经在其上安装了软件、固件、硬件或它们的组合,这些软件、固件、硬件或它们的组合在操作中使得系统执行这些操作或动作。对于一个或多个计算机程序被配置为执行特定操作或动作,意味着该一个或多个程序包括当由数据处理装置运行时使得该装置执行这些操作或动作的指令。
本说明书中描述的主题和功能操作的实施例可以在数字电子电路、有形体现的计算机软件或固件、计算机硬件(包括本说明书中公开的结构及其结构等同物)中实施,或者在它们中的一个或多个的组合中实施。本说明书中描述的主题的实施例可以实施为一个或多个计算机程序,即编码在有形非暂时性存储介质上的计算机程序指令的一个或多个模块,用于由数据处理装置运行或控制数据处理装置的操作。计算机存储介质可以是机器可读存储设备、机器可读存储基底、随机或串行访问存储器设备,或者它们中的一个或多个的组合。可替换地或附加地,程序指令可以被编码在人工生成的传播的信号上,例如机器生成的电、光或电磁信号,该信号被生成以编码信息,用于传输到合适的接收器装置以由数据处理装置运行。
术语“数据处理装置”指的是数据处理硬件,并且包括用于处理数据的各种装置、设备和机器,举例来说包括可编程处理器、计算机或多个处理器或计算机。装置还可以是或进一步包括专用逻辑电路,例如,FPGA(Field Programmable Gate Array,现场可编程门阵列)或ASIC(Application Specific Integrated Circuit,专用集成电路)。除了硬件之外,装置可以可选地包括为计算机程序创建运行环境的代码,例如构成处理器固件、协议栈、数据库管理系统、操作系统或它们中的一个或多个的组合的代码。
计算机程序,也可以被称为或描述为程序、软件、软件应用、应用(app)、模块、软件模块、脚本或代码,可以用任何形式的编程语言编写,包括编译或解释语言,或者声明性或程序性语言;并且它可以以任何形式部署,包括作为独立程序或作为模块、组件、子程序或其他适合在计算环境中使用的单元。程序可以但不需要对应于文件系统中的文件。程序可以存储在保存其他程序或数据的文件的一部分(例如存储在标记语言文档中的一个或多个脚本)中、存储在专用于所讨论的程序的单个文件中、或者存储在多个协调文件(例如存储一个或多个模块、子程序或部分代码的文件)中。计算机程序可以被部署为在位于一个站点或跨多个站点分布并通过数据通信网络互连的一个或多个计算机上运行。
在本说明书中,术语“数据库”被广泛用于指代任何数据集合:数据不需要以任何特定的方式结构化,或者根本不需要结构化,并且它可以存储在一个或多个位置的存储设备上。因此,例如,索引数据库可以包括多个数据集合,每个数据集合可以被不同地组织和访问。
类似地,在本说明书中,术语“引擎”被广泛用于指基于软件的系统、子系统或过程,其被编程为执行一个或多个特定功能。通常,引擎将被实施为安装在一个或多个位置的一个或多个计算机上的一个或多个软件模块或组件。在一些情况下,一个或多个计算机将专用于特定的引擎;在其他情况下,可以在同一个或多个计算机上安装和运行多个引擎。
本说明书中描述的过程和逻辑流程可以由一个或多个可编程计算机执行,该一个或多个可编程计算机运行一个或多个计算机程序,以通过对输入数据进行操作并生成输出来执行功能。过程和逻辑流程也可以由专用逻辑电路,例如FPGA或ASIC,或者由专用逻辑电路和一个或多个编程的计算机的组合来执行。
适于运行计算机程序的计算机可以基于通用或专用微处理器或两者,或者任何其他种类的中央处理单元。通常,中央处理单元将从只读存储器或随机存取存储器或两者接收指令和数据。计算机的基本元件是用于执行或运行指令的中央处理单元和用于存储指令和数据的一个或多个存储器设备。中央处理单元和存储器可以由专用逻辑电路补充或结合到专用逻辑电路中。一般地,计算机还将包括用于存储数据的一个或多个大容量存储设备,例如磁盘、磁光盘或光盘,或者被可操作地耦合以从用于存储数据的一个或多个大容量存储设备接收数据或向其传送数据或两者。然而,计算机不需要这样的设备。此外,计算机可以嵌入在另一设备中,例如移动电话、个人数字助理(Personal Digital Assistant,PDA)、移动音频或视频播放器、游戏控制台、全球定位系统(Global Positioning System,GPS)接收器或便携式存储设备,例如通用串行总线(Universal Serial Bus,USB)闪速驱动器,仅举几例。
适于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、介质和存储器设备,举例来说包括半导体存储器设备,例如EPROM、EEPROM和闪速存储器设备;磁盘,例如内部硬盘或可移动磁盘;磁光盘;CD ROM和DVD-ROM盘。
为了提供与用户的交互,本说明书中描述的主题的实施例可以在具有用于向用户显示信息的显示器设备(例如CRT(Cathode Ray Tube,阴极射线管)或LCD(Liquid CrystalDisplay,液晶显示器)监视器)以及键盘和用户通过其可以向计算机提供输入的定点设备(例如鼠标或轨迹球)的计算机上实施。也可以使用其他种类的设备来提供与用户的交互;例如,提供给用户的反馈可以是任何形式的感觉反馈,例如视觉反馈、听觉反馈或触觉反馈;并且可以以任何形式接收来自用户的输入,包括声音、语音或触觉输入。此外,计算机可以通过向用户使用的设备发送文档和从用户使用的设备接收文档来与用户交互;例如,通过响应于从网络浏览器接收的请求,向用户的设备上的网络浏览器发送网页。此外,计算机可以通过向个人设备(例如,正在运行消息传递应用的智能手机)发送文本消息或其他形式的消息并且作为回报从用户接收响应消息来与用户交互。
用于实施机器学习模型的数据处理装置还可以包括例如专用硬件加速器单元,用于处理机器学习训练或生产的公共和计算密集部分,即推理、工作负载。
机器学习模型可以使用机器学习框架来实施和部署,例如TensorFlow框架、Microsoft Cognitive Toolkit框架、Apache Singa框架或Apache MXNet框架。
本说明书中描述的主题的实施例可以在计算系统中实施,该计算系统包括后端组件,例如作为数据服务器,或者包括中间件组件,例如应用服务器,或者包括前端组件,例如具有图形用户界面、网络浏览器或用户通过其可以与本说明书中描述的主题的实施方式交互的应用的客户端计算机,或者一个或多个这样的后端、中间件或前端组件的任意组合。系统的组件可以通过任何形式或介质的数字数据通信相互连接,例如通信网络。通信网络的示例包括局域网(Local Area Network,LAN)和广域网(Wide Area Network,WAN),例如互联网。
计算系统可以包括客户端和服务器。客户端和服务器一般彼此远离,并且通常通过通信网络进行交互。客户端和服务器的关系是通过在各自的计算机上运行并且彼此之间具有客户端-服务器关系的计算机程序产生的。在一些实施例中,服务器将数据(例如,HTML页面)传输到用户设备,例如,用于向与充当客户端的设备交互的用户显示数据和从该用户接收用户输入的目的。在用户设备处生成的数据,例如用户交互的结果,可以在服务器处从设备接收。
虽然本说明书包含许多具体的实施方式细节,但这些不应被解释为对任何发明的范围或可能要求保护的范围的限制,而是对特定于特定发明的特定实施例的特征的描述。本说明书中在分开的实施例的上下文中描述的某些特征也可以在单个实施例中组合实施。相反,在单个实施例的上下文中描述的各种特征也可以在多个实施例中分开地或以任何合适的子组合来实施。此外,尽管特征在上面可以被描述为以某些组合起作用,并且甚至最初被要求保护如此,但是在一些情况下,来自所要求保护的组合的一个或多个特征可以从该组合中删除,并且所要求保护的组合可以指向子组合或子组合的变体。
类似地,虽然在附图中描绘了操作,并且在权利要求中以特定顺序列举了操作,但是这不应该被理解为要求这些操作以所示的特定顺序或连续顺序执行,或者要求执行所有示出的操作,以获得期望的结果。在某些情况下,多任务处理和并行处理可能是有利的。此外,上述实施例中各种系统模块和组件的分离不应理解为在所有实施例中都需要这种分离,并且应理解,所描述的程序组件和系统一般可以在单个软件产品中被集成在一起或者被打包到多个软件产品中。
已经描述了主题的特定实施例。其他实施例在以下权利要求的范围内。例如,权利要求中列举的动作可以以不同的顺序执行,并仍然获得期望的结果。作为一个示例,附图中描绘的过程不一定要求所示的特定顺序或连续顺序来获得期望的结果。在一些情况下,多任务处理和并行处理可能是有利的。
Claims (26)
1.一种由一个或多个计算机实施的神经网络系统,
其中所述神经网络系统被配置为接收包括多个输入的输入序列,并从所述输入序列生成神经网络输出,以及
其中所述神经网络系统包括:
卷积子网络,包括多个扩张卷积神经网络层,其中所述卷积子网络被配置为,对于多个输入中的每一个:
接收包括所述输入序列中的输入和所述输入之前的输入的当前输入序列,以及
处理所述当前输入序列以生成所述输入的替代表示;和
输出子网络,其中所述输出子网络被配置为接收所述输入的替代表示,并处理所述替代表示以生成神经网络输出。
2.根据权利要求1所述的神经网络系统,
其中所述神经网络输出包括多个分数集,
其中每个分数集包括多个可能输出中的每一个的相应分数,并且
其中所述神经网络系统还包括:
子系统,被配置为根据分数集选择输出,以生成包括多个输出的输出序列。
3.根据权利要求2所述的神经网络系统,其中所述输入序列是音频数据序列,并且所述输出序列是作为所述输入序列的字素表示的字素序列。
4.根据权利要求2所述的神经网络系统,其中所述输入序列是音频数据序列,并且所述输出序列是作为所述输入序列的音素表示的音素序列。
5.根据权利要求2所述的神经网络系统,其中所述输入序列是音素或字素序列,并且所述输出序列是表示所述输入序列的第一自然语言的文字序列。
6.根据权利要求2-5中任一项所述的神经网络系统,其中所述输出子网络包括:
平均池化层,被配置为:
接收替代表示的子集,以及
对所述替代表示的子集执行平均池化,以生成所述子集的平均池化表示;和
一个或多个附加神经网络层,被配置为对于所述替代表示的每个子集,接收所述子集的平均池化表示,并且为输出序列中对应于所述子集的位置生成分数集。
7.根据权利要求1-6中任一项所述的神经网络系统,其中所述扩张卷积神经网络层是因果卷积神经网络层。
8.根据权利要求1-7中任一项所述的神经网络系统,其中所述扩张卷积神经网络层包括扩张卷积神经网络层的多个块,其中每个块包括具有增加的扩张因子的多个扩张卷积神经网络层。
9.根据权利要求1-8中任一项所述的神经网络系统,其中所述扩张卷积神经网络层中的一个或多个具有门控激活单元。
10.根据权利要求1-9中任一项所述的神经网络系统,其中所述卷积子网络包括残差连接。
11.根据权利要求1-10中任一项所述的神经网络系统,其中所述卷积子网络包括跳跃连接。
12.编码有指令的一个或多个计算机存储介质,所述指令在由一个或多个计算机执行时使得所述一个或多个计算机实施权利要求1-11或26中任一项的相应神经网络系统。
13.一种从包括多个输入的输入序列生成神经网络输出的方法,所述方法包括:
对于输入中的每一个,将包括输入序列中的所述输入和所述输入之前的输入的当前输入序列提供给包括多个扩张卷积神经网络层的卷积子网络,其中所述卷积子网络被配置为对于多个输入中的每一个:
接收输入的当前输入序列,以及
处理所述当前输入序列以生成所述输入的替代表示;和
向输出子网络提供所述替代表示,其中所述输出子网络被配置为接收所述替代表示并处理所述替代表示以生成所述神经网络输出。
14.根据权利要求13所述的方法,其中所述神经网络输出包括多个分数集,
其中每个分数集包括多个可能输出中的每一个的相应分数,并且
其中所述方法还包括:
根据分数集选择输出,以生成包括多个输出的输出序列。
15.根据权利要求14所述的方法,其中所述输入序列是音频数据序列,并且所述输出序列是作为所述输入序列的字素表示的字素序列。
16.根据权利要求14所述的方法,其中所述输入序列是音频数据序列,并且所述输出序列是作为所述输入序列的音素表示的音素序列。
17.根据权利要求14所述的方法,其中所述输入序列是音素或字素序列,并且所述输出序列是表示所述输入序列的第一自然语言的文字序列。
18.根据权利要求14-17中任一项所述的方法,其中所述输出子网络包括:
平均池化层,被配置为:
接收替代表示的子集,以及
对所述替代表示的子集执行平均池化,以生成所述子集的平均池化表示;和
一个或多个附加神经网络层,被配置为对于所述替代表示的每个子集,接收所述子集的平均池化表示,并且生成定义输出序列中对应于所述子集的位置处的输出的子集输出。
19.根据权利要求13-18中任一项所述的方法,其中所述扩张卷积神经网络层是因果卷积神经网络层。
20.根据权利要求13-19中任一项所述的方法,其中所述扩张卷积神经网络层包括扩张卷积神经网络层的多个块,其中每个块包括具有增加的扩张因子的多个扩张卷积神经网络层。
21.根据权利要求13-20中任一项所述的方法,其中所述扩张卷积神经网络层中的一个或多个具有门控激活单元。
22.根据权利要求13-21中任一项所述的方法,其中所述卷积子网络包括残差连接。
23.根据权利要求13-22中任一项所述的方法,其中所述卷积子网络包括跳跃连接。
24.根据权利要求14或18-23中任一项所述的方法,其中所述输入序列是第一自然语言的文字序列,并且所述输出序列是第二自然语言的文字序列,所述输出序列是所述输入序列到所述第二自然语言的翻译。
25.编码有指令的一个或多个计算机存储介质,所述指令在由一个或多个计算机执行时使得所述一个或多个计算机执行权利要求13-24中任一项的相应方法的操作。
26.根据权利要求2或6-11中任一项所述的神经网络系统,其中所述输入序列是第一自然语言的文字序列,并且所述输出序列是第二自然语言的文字序列,所述输出序列是所述输入序列到所述第二自然语言的翻译。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201662384123P | 2016-09-06 | 2016-09-06 | |
US62/384,123 | 2016-09-06 | ||
PCT/US2017/050335 WO2018048945A1 (en) | 2016-09-06 | 2017-09-06 | Processing sequences using convolutional neural networks |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109844773A true CN109844773A (zh) | 2019-06-04 |
CN109844773B CN109844773B (zh) | 2023-08-01 |
Family
ID=60022155
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201780065178.6A Active CN109844773B (zh) | 2016-09-06 | 2017-09-06 | 使用卷积神经网络处理序列 |
Country Status (6)
Country | Link |
---|---|
US (2) | US10586531B2 (zh) |
EP (2) | EP3497630B1 (zh) |
JP (2) | JP6750121B2 (zh) |
KR (1) | KR102392094B1 (zh) |
CN (1) | CN109844773B (zh) |
WO (1) | WO2018048945A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113313240A (zh) * | 2021-08-02 | 2021-08-27 | 成都时识科技有限公司 | 计算设备及电子设备 |
Families Citing this family (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA3155320A1 (en) | 2016-09-06 | 2018-03-15 | Deepmind Technologies Limited | Generating audio using neural networks |
US11080591B2 (en) * | 2016-09-06 | 2021-08-03 | Deepmind Technologies Limited | Processing sequences using convolutional neural networks |
EP3497630B1 (en) * | 2016-09-06 | 2020-11-04 | Deepmind Technologies Limited | Processing sequences using convolutional neural networks |
JP6756916B2 (ja) | 2016-10-26 | 2020-09-16 | ディープマインド テクノロジーズ リミテッド | ニューラルネットワークを使用したテキストシーケンスの処理 |
US11134877B2 (en) | 2017-08-09 | 2021-10-05 | Genetesis, Inc. | Biomagnetic detection |
US11222627B1 (en) * | 2017-11-22 | 2022-01-11 | Educational Testing Service | Exploring ASR-free end-to-end modeling to improve spoken language understanding in a cloud-based dialog system |
CN108550364B (zh) | 2018-04-20 | 2019-04-30 | 百度在线网络技术(北京)有限公司 | 语音识别方法、装置、设备及存储介质 |
US11735028B2 (en) | 2018-06-12 | 2023-08-22 | Intergraph Corporation | Artificial intelligence applications for computer-aided dispatch systems |
CN111128222B (zh) * | 2018-10-30 | 2023-09-08 | 富士通株式会社 | 语音分离方法、语音分离模型训练方法和计算机可读介质 |
GB201817893D0 (en) * | 2018-11-01 | 2018-12-19 | Imperial Innovations Ltd | Predicting physological parameters |
US11313950B2 (en) | 2019-01-15 | 2022-04-26 | Image Sensing Systems, Inc. | Machine learning based highway radar vehicle classification across multiple lanes and speeds |
US11585869B2 (en) | 2019-02-08 | 2023-02-21 | Genetesis, Inc. | Biomagnetic field sensor systems and methods for diagnostic evaluation of cardiac conditions |
US10984246B2 (en) * | 2019-03-13 | 2021-04-20 | Google Llc | Gating model for video analysis |
US11587552B2 (en) | 2019-04-30 | 2023-02-21 | Sutherland Global Services Inc. | Real time key conversational metrics prediction and notability |
CA3078748A1 (en) * | 2019-05-22 | 2020-11-22 | Element Ai Inc. | Neural network execution block and transfer learning |
KR20210003507A (ko) * | 2019-07-02 | 2021-01-12 | 한국전자통신연구원 | 오디오 코딩을 위한 잔차 신호 처리 방법 및 오디오 처리 장치 |
KR102292046B1 (ko) * | 2019-07-17 | 2021-08-20 | 엔에이치엔 주식회사 | 딥러닝 기반의 바둑 게임 서비스 방법 및 그 장치 |
KR102316930B1 (ko) * | 2019-07-17 | 2021-10-26 | 엔에이치엔 주식회사 | 딥러닝 기반의 바둑 게임 서비스 방법 및 그 장치 |
US11538464B2 (en) | 2020-09-09 | 2022-12-27 | International Business Machines Corporation . | Speech recognition using data analysis and dilation of speech content from separated audio input |
US11495216B2 (en) | 2020-09-09 | 2022-11-08 | International Business Machines Corporation | Speech recognition using data analysis and dilation of interlaced audio input |
CN112890828A (zh) * | 2021-01-14 | 2021-06-04 | 重庆兆琨智医科技有限公司 | 一种密集连接门控网络的脑电信号识别方法及系统 |
CN112596684B (zh) * | 2021-03-08 | 2021-06-22 | 成都启英泰伦科技有限公司 | 一种用于语音深度神经网络运算的数据存储方法 |
CN116469413B (zh) * | 2023-04-03 | 2023-12-01 | 广州市迪士普音响科技有限公司 | 一种基于人工智能的压缩音频静默检测方法及装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2810457A1 (en) * | 2013-03-25 | 2014-09-25 | Gerald Bradley PENN | System and method for applying a convolutional neural network to speech recognition |
CN105210064A (zh) * | 2013-03-13 | 2015-12-30 | 谷歌公司 | 使用深度网络将资源分类 |
CN105868829A (zh) * | 2015-02-06 | 2016-08-17 | 谷歌公司 | 用于数据项生成的循环神经网络 |
Family Cites Families (35)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5377302A (en) * | 1992-09-01 | 1994-12-27 | Monowave Corporation L.P. | System for recognizing speech |
WO1995030193A1 (en) | 1994-04-28 | 1995-11-09 | Motorola Inc. | A method and apparatus for converting text into audible signals using a neural network |
JPH10333699A (ja) | 1997-06-05 | 1998-12-18 | Fujitsu Ltd | 音声認識および音声合成装置 |
US8645137B2 (en) * | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
DE10018134A1 (de) | 2000-04-12 | 2001-10-18 | Siemens Ag | Verfahren und Vorrichtung zum Bestimmen prosodischer Markierungen |
JP2002123280A (ja) | 2000-10-16 | 2002-04-26 | Seiko Epson Corp | 音声合成方法および音声合成装置ならびに音声合成処理プログラムを記録した記録媒体 |
US7062437B2 (en) | 2001-02-13 | 2006-06-13 | International Business Machines Corporation | Audio renderings for expressing non-audio nuances |
US20060064177A1 (en) * | 2004-09-17 | 2006-03-23 | Nokia Corporation | System and method for measuring confusion among words in an adaptive speech recognition system |
FR2950713A1 (fr) * | 2009-09-29 | 2011-04-01 | Movea Sa | Systeme et procede de reconnaissance de gestes |
TWI413104B (zh) | 2010-12-22 | 2013-10-21 | Ind Tech Res Inst | 可調控式韻律重估測系統與方法及電腦程式產品 |
CN102651217A (zh) | 2011-02-25 | 2012-08-29 | 株式会社东芝 | 用于合成语音的方法、设备以及用于语音合成的声学模型训练方法 |
US8527276B1 (en) | 2012-10-25 | 2013-09-03 | Google Inc. | Speech synthesis using deep neural networks |
US9190053B2 (en) * | 2013-03-25 | 2015-11-17 | The Governing Council Of The Univeristy Of Toronto | System and method for applying a convolutional neural network to speech recognition |
US9953634B1 (en) | 2013-12-17 | 2018-04-24 | Knowles Electronics, Llc | Passive training for automatic speech recognition |
US9821340B2 (en) * | 2014-07-28 | 2017-11-21 | Kolo Medical Ltd. | High displacement ultrasonic transducer |
ES2880316T3 (es) | 2014-08-29 | 2021-11-24 | Google Llc | Procesamiento de imágenes mediante redes neuronales profundas |
US9542927B2 (en) | 2014-11-13 | 2017-01-10 | Google Inc. | Method and system for building text-to-speech voice from diverse recordings |
CN105096939B (zh) | 2015-07-08 | 2017-07-25 | 百度在线网络技术(北京)有限公司 | 语音唤醒方法和装置 |
US9786270B2 (en) | 2015-07-09 | 2017-10-10 | Google Inc. | Generating acoustic models |
CN105321525B (zh) | 2015-09-30 | 2019-02-22 | 北京邮电大学 | 一种降低voip通信资源开销的系统和方法 |
US10733979B2 (en) | 2015-10-09 | 2020-08-04 | Google Llc | Latency constraints for acoustic modeling |
US10332509B2 (en) * | 2015-11-25 | 2019-06-25 | Baidu USA, LLC | End-to-end speech recognition |
CN105513591B (zh) | 2015-12-21 | 2019-09-03 | 百度在线网络技术(北京)有限公司 | 用lstm循环神经网络模型进行语音识别的方法和装置 |
KR102223296B1 (ko) | 2016-03-11 | 2021-03-04 | 매직 립, 인코포레이티드 | 콘볼루셔널 신경 네트워크들에서의 구조 학습 |
US10460747B2 (en) | 2016-05-10 | 2019-10-29 | Google Llc | Frequency based audio analysis using neural networks |
US11373672B2 (en) * | 2016-06-14 | 2022-06-28 | The Trustees Of Columbia University In The City Of New York | Systems and methods for speech separation and neural decoding of attentional selection in multi-speaker environments |
US9984683B2 (en) | 2016-07-22 | 2018-05-29 | Google Llc | Automatic speech recognition using multi-dimensional models |
EP3497630B1 (en) * | 2016-09-06 | 2020-11-04 | Deepmind Technologies Limited | Processing sequences using convolutional neural networks |
CA3155320A1 (en) * | 2016-09-06 | 2018-03-15 | Deepmind Technologies Limited | Generating audio using neural networks |
US11080591B2 (en) * | 2016-09-06 | 2021-08-03 | Deepmind Technologies Limited | Processing sequences using convolutional neural networks |
JP6756916B2 (ja) | 2016-10-26 | 2020-09-16 | ディープマインド テクノロジーズ リミテッド | ニューラルネットワークを使用したテキストシーケンスの処理 |
US10049106B2 (en) | 2017-01-18 | 2018-08-14 | Xerox Corporation | Natural language generation through character-based recurrent neural networks with finite-state prior knowledge |
US11934935B2 (en) * | 2017-05-20 | 2024-03-19 | Deepmind Technologies Limited | Feedforward generative neural networks |
US10726858B2 (en) * | 2018-06-22 | 2020-07-28 | Intel Corporation | Neural network for speech denoising trained with deep feature losses |
US10971170B2 (en) | 2018-08-08 | 2021-04-06 | Google Llc | Synthesizing speech from text using neural networks |
-
2017
- 2017-09-06 EP EP17780544.7A patent/EP3497630B1/en active Active
- 2017-09-06 WO PCT/US2017/050335 patent/WO2018048945A1/en unknown
- 2017-09-06 KR KR1020197008257A patent/KR102392094B1/ko active IP Right Grant
- 2017-09-06 EP EP20192441.2A patent/EP3767547A1/en active Pending
- 2017-09-06 JP JP2019533306A patent/JP6750121B2/ja active Active
- 2017-09-06 CN CN201780065178.6A patent/CN109844773B/zh active Active
-
2018
- 2018-12-04 US US16/209,661 patent/US10586531B2/en active Active
-
2019
- 2019-12-18 US US16/719,424 patent/US11069345B2/en active Active
-
2020
- 2020-08-11 JP JP2020135790A patent/JP7068398B2/ja active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105210064A (zh) * | 2013-03-13 | 2015-12-30 | 谷歌公司 | 使用深度网络将资源分类 |
CA2810457A1 (en) * | 2013-03-25 | 2014-09-25 | Gerald Bradley PENN | System and method for applying a convolutional neural network to speech recognition |
CN105868829A (zh) * | 2015-02-06 | 2016-08-17 | 谷歌公司 | 用于数据项生成的循环神经网络 |
Non-Patent Citations (1)
Title |
---|
AARON VAN DEN OORD等: ""Pixel Recurrent Neural Networks"", 《ARXIV》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113313240A (zh) * | 2021-08-02 | 2021-08-27 | 成都时识科技有限公司 | 计算设备及电子设备 |
WO2023010663A1 (zh) * | 2021-08-02 | 2023-02-09 | 成都时识科技有限公司 | 计算设备及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
US10586531B2 (en) | 2020-03-10 |
KR102392094B1 (ko) | 2022-04-28 |
EP3497630B1 (en) | 2020-11-04 |
US20200126539A1 (en) | 2020-04-23 |
KR20190042055A (ko) | 2019-04-23 |
JP6750121B2 (ja) | 2020-09-02 |
JP7068398B2 (ja) | 2022-05-16 |
EP3497630A1 (en) | 2019-06-19 |
US20190108833A1 (en) | 2019-04-11 |
US11069345B2 (en) | 2021-07-20 |
EP3767547A1 (en) | 2021-01-20 |
JP2019535091A (ja) | 2019-12-05 |
JP2020201971A (ja) | 2020-12-17 |
WO2018048945A1 (en) | 2018-03-15 |
CN109844773B (zh) | 2023-08-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109844773A (zh) | 使用卷积神经网络处理序列 | |
JP6891236B2 (ja) | ニューラルネットワークを使用したオーディオの生成 | |
JP6790286B2 (ja) | 強化学習を用いたデバイス配置最適化 | |
EP3688672B1 (en) | Attention-based decoder-only sequence transduction neural networks | |
US20190311708A1 (en) | End-to-end text-to-speech conversion |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |