CN109891434A - 使用神经网络生成音频 - Google Patents

使用神经网络生成音频 Download PDF

Info

Publication number
CN109891434A
CN109891434A CN201780065523.6A CN201780065523A CN109891434A CN 109891434 A CN109891434 A CN 109891434A CN 201780065523 A CN201780065523 A CN 201780065523A CN 109891434 A CN109891434 A CN 109891434A
Authority
CN
China
Prior art keywords
neural network
audio
time step
time
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201780065523.6A
Other languages
English (en)
Other versions
CN109891434B (zh
Inventor
A.G.A.范登奥德
S.E.L.迪尔曼
N.E.卡尔赫布伦纳
K.西蒙延
O.文雅尔斯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yin Hui Technology Co Ltd
Original Assignee
Yin Hui Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yin Hui Technology Co Ltd filed Critical Yin Hui Technology Co Ltd
Priority to CN202011082855.5A priority Critical patent/CN112289342B/zh
Publication of CN109891434A publication Critical patent/CN109891434A/zh
Application granted granted Critical
Publication of CN109891434B publication Critical patent/CN109891434B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/06Elementary speech units used in speech synthesisers; Concatenation rules
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/311Neural networks for electrophonic musical instruments or musical processing, e.g. for musical recognition or control, automatic composition or improvisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Complex Calculations (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Stereophonic System (AREA)

Abstract

方法、系统和装置,包括编码在计算机存储介质上的计算机程序,用于生成包括多个时间步中的每一个处的相应音频样本的音频数据的输出序列。方法之一包括,对于时间步中的每一个:提供音频数据的当前序列作为卷积子网络的输入,其中当前序列包括输出序列中该时间步之前的每个时间步处的相应音频样本,并且其中卷积子网络被配置为处理音频数据的当前序列以生成时间步的替代表示;以及提供时间步的替代表示作为输出层的输入,其中输出层被配置为:处理替代表示以生成定义时间步的多个可能的音频样本上的分数分布的输出。

Description

使用神经网络生成音频
背景技术
本说明书涉及使用神经网络处理和生成音频。
神经网络是机器学习模型,它采用一层或多层非线性单元来对于接收的输入预测输出。一些神经网络除了输出层之外还包括一个或多个隐藏层。在网络中,每个隐藏层的输出被用作下一层(即,下一隐藏层或输出层)的输入。网络的每一层根据相应参数集的当前值从接收的输入生成输出。
发明内容
本说明书描述了在一个或多个位置的一个或多个计算机上实施为计算机程序的系统可以如何生成包括多个时间步中的每一个处的相应音频样本的音频数据序列。例如,音频数据序列可以用特定的自然语言或一段音乐来表示语音。
在一个创新方面,由一个或多个计算机实施的神经网络系统被配置为生成包括多个时间步中的每一个处的相应音频样本的音频数据的输出序列。神经网络系统可以包括卷积子网络,该卷积子网络包括一个或多个音频处理卷积神经网络层;和输出层。卷积子网络可以被配置为,对于多个时间步中的每一个:接收包括输出序列中该(当前)时间步之前的每个时间步处的相应音频样本的音频数据的当前序列。卷积子网络还可以被配置为处理音频数据的当前序列,以生成时间(当前)步的替代表示。替代表示因此可以包括数字表示,即数字值的有序集合,其中音频数据的当前序列已经由卷积子网络编码,例如编码当前序列的特征。输出层可以被配置为对于多个时间步中的每一个:接收该时间步的替代表示,并且处理该时间步的替代表示以生成定义该时间步的多个可能的音频样本上的分数分布的输出。
这种系统的许多优点中的一些将在后面描述。系统可以通过从分布中采样来使用分数分布选择当前时间步的样本。输出可以但不是必须对每个可能的音频样本值包括一个分数,例如256个可能值的256个分数。因此,压缩(compress)或缩扩(compand)音频样本值(可以是幅度值),以减少模型输出的数量是有用的。
在一些实施方式中,卷积神经网络层是因果卷积神经网络层,如后面更详细描述的。具体地,音频处理卷积神经网络层可以包括一个或多个扩张因果卷积神经网络层。再次如后面更详细描述的,扩张卷积神经网络层将卷积应用于序列(即,如由来自前一层的输出定义的)中的非相邻值。这可以按数量级增加卷积子网络的接受域(receptive field),同时保持输入(时间)分辨率并维持计算效率。
在一些实施方式中,卷积神经网络层包括多个堆叠的扩张卷积神经网络层的块。每个块可以包括具有增加的扩张因子(dilation)的多个扩张卷积神经网络层。例如,对于每个连续层,扩张因子可以增加因子n,直到每个块内的极限。这可以进一步增加接受域的大小。
在一些实施方式中,卷积神经网络层中的一个或多个可以具有门控激活单元(gated activation unit)。例如,由层实施的卷积之后的修正线性(rectified linear)或其他单元可以被门控激活单元代替。在门控激活单元中,输出可以是两个(因果)卷积的组合,即主卷积和门卷积。卷积可以各自被应用于来自前一层的一些或全部相同的输出。该组合可以包含应用于门卷积的非线性激活函数,例如,诸如sigmoid的具有(0,1)范围的激活。然后,这可以乘以来自主卷积的值;非线性激活函数可以但不需要应用于主卷积。这种方法可以帮助捕捉数据中更复杂的结构。
在每个时间步处来自卷积子网络的替代表示基于神经网络输入被调节(conditioned),例如调节输入的潜在表示。调节输入可以是全局的(实质上时间无关的)和/或局部的(时间相关的)。调节输入可以包括例如文本、图像或视频数据、或者音频数据,例如特定说话者或语言或音乐的示例。神经网络输入可以包括调节输入的嵌入。例如,在文本到语音(text-to-speech)系统中,全局调节输入可以包括说话者嵌入,并且局部调节输入可以包括语言特征。该系统可以被配置成将神经网络输入或调节输入从较低采样频率映射到音频样本生成频率,例如通过重复输入或使用神经网络对输入进行上采样。因此,神经网络输入可以包括文本段的特征,并且输出序列可以表示文本段的言语表达;和/或神经网络输入可以包括说话者或语调模式值;和/或神经网络输入可以包括以下中的一个或多个:说话者标识信息、语言标识信息和说话风格信息。可替代地,输出序列表示一段音乐。
卷积子网络可以包括残差连接(residual connection),例如从卷积层的输入到将卷积层的输入与该层的中间输出相加的加法器的连接。这有效地允许网络被训练来跳过或部分地跳过层,从而加速收敛并促进更深模型的训练。卷积子网络可以附加地或替代地包括跳跃连接(skip connection),例如直接从卷积子网络的一个或多个中间层中的每一个到直接生成提供给输出层的替代表示的一个或多个操作。
在一些实施方式中,使用卷积子网络处理音频数据的当前序列以生成时间步的替代表示重复使用为先前时间步计算的值。重复使用的值可以包括从卷积滤波器应用于音频样本数据或从其导出的数据导出的值。当相同的滤波器被应用于相同的(或相同中的一些)音频样本数据或从其导出的数据时,重复使用的值可以在一个时间步处被存储,并在稍后的时间步处被检索。这可以使系统在计算上更有效并因此更快,因为不需要重新计算存储的值。
可以实施本说明书中描述的主题的特定实施例,以便实现一个或多个以下优点。该神经网络系统每秒可以生成数万个音频样本,提供了比基于其他神经网络的音频生成系统更大的粒度级别。该神经网络系统可以实现在音频生成任务上明显优于现有技术的结果,例如,通过从具有比现有技术更高质量的文本生成语音。单个训练的神经网络系统可以基于说话者标识通过调节来生成不同的声音。通过使用卷积神经网络层(例如,因果卷积层)代替递归神经网络层(例如,代替长短期记忆(long short-term memory,LSTM)层),神经网络系统可以实现这些有利的结果,同时不需要与包括递归神经网络层的其他系统那样多的计算资源来训练,从而导致训练时间减少。通过采用卷积层而不是递归层,神经网络系统的计算可以更容易地批量化和更容易地并行化,例如,因为网络层不必为每个时间步展开,允许更有效地执行系统的计算。此外,通过采用扩张因果卷积层,卷积子网络的接受域以及因此由系统生成的音频质量可以被改善,而不会大大增加生成音频的计算成本。
本说明书中描述的主题的一个或多个实施例的细节在附图和以下描述中阐述。从说明书、附图和权利要求书中,主题的其他特征、方面和优点将变得显而易见。
附图说明
图1示出了示例神经网络系统。
图2示出了扩张因果卷积层的示例块的可视化。
图3示出了卷积子网络的示例架构。
图4是用于在音频序列中的给定时间步处生成音频样本的示例过程的流程图。
不同附图中相同的附图标记和名称指示相同的元件。
具体实施方式
图1示出了示例神经网络系统100。神经网络系统100是在一个或多个位置的一个或多个计算机上实施为计算机程序的系统的示例,其中可以实施下面描述的系统、组件和技术。
神经网络系统100生成音频数据序列,每个音频数据序列包括多个时间步中的每一个处的相应音频样本,例如音频数据的输出序列152。
一般地,给定音频序列中的每个时间步与音频波形中的相应时间对应,并且该时间步处的音频样本表征对应时间处的波形。在一些实施方式中,序列中每个时间步处的音频样本是对应时间处的音频波形的幅度,即,由神经网络系统100生成的序列是原始音频波形。在一些其他实施方式中,序列中每个时间步处的音频样本是对应时间处的波形的压缩或缩扩表示。例如,音频样本可以是波形的μ-law变换表示。
更具体地,神经网络系统100自回归地生成音频序列。也就是说,对于输出音频序列中的每个特定时间步,神经网络系统100基于截至该特定时间步已经生成的音频样本(即,基于比音频序列中该特定时间步更早的时间步处的音频样本)生成调节的时间步处的音频样本。
神经网络系统100包括卷积子网络110和输出层120。
在音频序列生成期间的每个时间步处,卷积子网络110被配置为接收当前音频序列,即截至该时间步已经生成的音频序列,并处理当前音频序列以生成该时间步的替代表示。例如,当在音频序列152中生成音频样本140时,卷积子网络110可以接收包括音频序列152中在音频样本140之前的音频样本的当前音频序列142,并且处理当前音频序列142以生成替代表示144。
输出层120被配置为在每个时间步处接收该时间步的替代表示,并生成该时间步的可能的音频样本上的分数分布。分数分布包括多个可能的音频样本中的每一个的相应分数。在一些实施方式中,输出层120是柔性最大值(softmax)输出层。例如,输出层120可以接收替代表示144,并处理替代表示144以生成分数分布146。
具体地,当神经网络系统100被配置为生成原始音频数据时,分数分布包括多个可能的幅度值中的每一个的相应分数。当神经网络系统100被配置为生成压缩或缩扩值时,分数分布包括多个可能的压缩或缩扩值中的每一个的相应分数。
一旦输出层146已经生成了给定时间步的分数分布,神经网络系统100可以根据给定时间步的分数分布从多个可能的音频样本中选择要包括在给定时间步处的输出序列中的音频样本。例如,神经网络系统100可以通过从分数分布中采样来选择音频样本,即,根据分数分布中的分数从可能的音频样本中采样,使得每个音频样本以与该音频样本的分数相对应的可能性被选择,或者可以根据分数分布来选择具有最高分数的可能的音频样本。
卷积子网络110一般包括多个音频处理卷积神经网络层。更具体地,音频处理卷积神经网络层包括多个因果卷积层。
因果卷积层是对在多个时间步中的每一个处都具有相应输入的输入序列进行操作的卷积层:对于每个时间步,生成仅依赖于输入序列中该时间步和该时间步之前的时间步处的输入的输出,即,并不依赖于输入序列中该时间步之后的任何时间步处的任何输入。在一些情况下,因果卷积层通过应用正常卷积并且然后将正常卷积的每个输出移动几个时间步来实施,即,在对卷积层应用激活函数之前,将每个输出向前移动(滤波器长度–1)个时间步,其中“滤波器长度”是所应用的卷积的滤波器长度。
为了增加音频处理卷积层的接受域,而不需要过多数量的层或过长的滤波器,音频处理卷积层中的一些或全部可以是扩张因果卷积层。扩张卷积是一种卷积,其中通过跳过由扩张卷积的扩张因子值定义的某一步长的输入值,在大于滤波器长度的区域上应用滤波器。通过结合扩张因果卷积,音频处理神经网络层以比正常卷积更粗的尺度有效地对它们的输入进行操作。
在一些实施方式中,音频处理神经网络层包括多个扩张因果卷积层块的堆叠。堆叠中的每个块可以包括具有增加的扩张因子的多个扩张卷积神经网络层。例如,在一个块中,从初始扩张因子开始,每一层的扩张因子可以翻倍,然后在下一块中返回到第一层的初始扩张因子。作为说明性的示例,块中的扩张卷积层的扩张因子可以按顺序为:1,2,4,,512。下面参照图2描述一组扩张因果卷积层的块的简化示例。
在一些实施方式中,卷积子网络包括残差连接、跳跃连接或两者。下面参考图3描述包括残差连接和跳跃连接两者的卷积子网络的示例架构。
在一些实施方式中,神经网络系统100基于神经网络输入生成调节的音频序列。例如,神经网络系统100可以基于神经网络输入102生成调节的音频序列152。
在一些情况下,神经网络输入包括一个或多个局部特征,即对于输出序列中的不同时间步的不同的一个或多个特征。例如,神经网络系统100可以获得文本段的语言特征作为输入,并且可以生成表示文本段的言语表达的音频序列,即,神经网络系统100可以作为将书面文本转换成口语语音的文本到语音系统的一部分,并且还包括将由神经网络系统100生成的音频序列言语化的组件。
在一些其他情况下,神经网络输入包括一个或多个全局特征,即在整个输出序列中相同的一个或多个特征。作为示例,神经网络系统100可以基于说话者的标识生成调节的语音,即,使得生成的语音听起来像说话者的声音。在这个示例中,神经网络系统100可以获得对说话者的标识进行编码的向量,例如识别说话者的独热编码(one-hot encoded)的向量,并且基于获得的向量调节生成的语音。
一般地,通过调节卷积子网络中的一些或全部卷积层的激活函数,音频序列基于神经网络输入被调节。也就是说,激活函数的输出以及相应的卷积层的输出不仅取决于由该层执行的卷积的输出,还取决于神经网络的输入。
下面将参考图3更详细地描述基于神经网络输入调节卷积层的激活函数。
图2示出了扩张因果卷积层的示例块的可视化200。具体地,示例块包括具有扩张因子1的扩张因果卷积层204、具有扩张因子2的扩张因果卷积层206、具有扩张因子4的扩张因果卷积层208和具有扩张因子8的扩张因果卷积层210。
在可视化200中,扩张因果卷积层块正对当前输入序列202进行操作以生成输出序列。具体地,可视化200使用粗体箭头将该块如何生成输出212和输出序列可视化,该输出212是当前输入序列202中当前的最后一个时间步处的输出。
如从可视化200可以看出的,因为块中的每一层都是因果卷积层,所以输出212仅依赖于在由块中的层操作的各种序列中的最后一个当前时间步或最后一个当前时间步之前的时间步处的输出。
此外,如从可视化200中可以看出的,块中的层按照扩张因子增加的顺序布置,其中,块中的第一层,即扩张因果卷积层204,具有扩张因子1,并且块中的最后一层,即扩张因果卷积层204,具有扩张因子8。具体地,如可视化200中的粗体箭头所示,因为扩张因果卷积层204具有扩张因子1,所以层204的滤波器被应用于当前输入序列202中的相邻输入。因为扩张因果卷积层206具有扩张因子2,所以层206的滤波器被应用于由层204生成的输出序列中由1个输出隔开的输出。因为扩张因果卷积层208具有扩张因子4,所以层208的滤波器被应用于由层206生成的输出序列中由3个输出隔开的输出。因为扩张因果卷积层210具有扩张因子8,所以层210的滤波器被应用于由层208生成的输出序列中由7个输出隔开的输出。
图3示出了图1的卷积子网络110的示例架构300。如上所述,在示例架构300中,卷积子网络中的扩张因果卷积层具有残差连接和跳跃连接。
具体地,在架构300中,卷积子网络110包括处理当前输出序列142(即,通过将因果卷积应用于当前输出序列142)的因果卷积层302。
卷积子网络110然后通过扩张因果卷积层的堆叠来处理因果卷积层302的输出。
堆叠中的每个扩张因果卷积层304将扩张因果卷积308应用于到扩张因果卷积层304的输入306。如上所述,在一些实施方式中,堆叠中的扩张因果卷积层以块的形式布置,其中,由每一层应用的扩张因果卷积的扩张因子在给定块内增加,然后在下一块中以第一层的初始值重新开始。
在一些实施方式中,堆叠中的扩张因果卷积层具有门控激活函数,在该门控激活函数中,按元素(element-wise)非线性的输出,即传统激活函数的输出,被按元素乘以门向量。在这些实施方式中的一些实施方式中,扩张因果卷积308包括层输入302上的两个扩张因果卷积——层304的主滤波器和层输入306之间的第一扩张因果卷积,以及层304的门滤波器和层输入306之间的另一扩张因果卷积。在这些实施方式中的其他实施方式中,扩张因果卷积308是单扩张因果卷积,并且单卷积的输出的一半被提供作为层304的主滤波器和层输入306之间的扩张因果卷积的输出,并且单卷积的输出的另一半被提供作为层304的门滤波器和层输入306之间的扩张因果卷积的输出。
扩张因果卷积层304然后使用扩张因果卷积的输出来确定层304的激活函数的输出。
特别地,当激活函数是门控激活函数并且未基于神经网络输入调节正在生成的输出序列时,层304将在图3的示例中为tanh函数的按元素非线性函数310应用于主滤波器的扩张卷积的输出,并将在图3的示例中为sigmoid函数的按元素门控函数应用于门滤波器的扩张卷积的输出。层304然后在非线性函数310的输出和门控函数312的输出之间执行按元素相乘314,以生成激活函数输出。
更具体地,当按元素非线性为tanh并且按元素门控函数为sigmoid函数时,层k的激活函数z的输出满足:
z=tanh(Wf,k*x)⊙σ(Wg,k*x),
其中Wf,k是层k的主滤波器,x是层输入,*表示因果扩张卷积,⊙表示按元素相乘,并且Wg,k是层k的门滤波器。
当基于神经网络输入调节正在生成的输出序列时,层304也基于神经网络输入调节激活函数的输出。具体地,非线性函数和门控函数各自将对应的扩张卷积输出和从神经网络输入生成的输入的组合作为输入。
更具体地,当神经网络输入包括全局特征并且因此对于序列中的所有时间步都相同时,按元素非线性是tanh,并且按元素门控函数是sigmoid函数,层k的激活函数z的输出满足:
其中,是层k的主可学习线性投影(h到激活函数的主分量的),h是神经网络输入,并且是层k的门可学习线性投影(h到激活函数的门分量的)。
可替代地,当神经网络输入包括局部特征时,即,随时间步改变的特征,系统100获得包括输出序列中每个时间步的特征集的序列y。然后层k的激活函数z的输出满足:
z=tanh(Wf,k*x+Vf,k*y)⊙σ(Wg,k*x+Vg,k*y),
其中f,k*y和Vg,k*y分别是1×1卷积。在一些实施方式中,系统100直接接收序列y作为神经网络输入,即,直接接收具有与输出序列相同的分辨率的序列。在其他实施方式中,系统100接收具有比输出序列更低分辨率的序列,即具有更低的采样频率。在这些情况下,系统可以通过使用转置的(学习的上采样)卷积网络处理更低分辨率的序列来生成序列y来生成序列y,或者可以跨时间重复来自更低分辨率的序列的值来生成序列y。
作为示例,当局部特征是用于在文本到语音生成中使用的语言特征时,语言特征可以包括电话、音节、文字、短语和文本的话语等级(utterance-level)特征中的一些或全部。可以使用的语言特征的示例集在Zen,Heiga.An example of context-dependentlabel format for HMM-based speech synthesis in English,2006.URL http://hts.sp.nitech.ac.jp/?Download and Zen,Heiga,Senior,Andrew,and Schuster,Mike.Statistical parametric speech synthesis using deep neural networks.InProc.ICASSP,pp.7962–7966,2013中描述。
因为架构300包括用于扩张因果卷积层的跳跃连接和残差连接,层304然后对激活函数输出执行1×1卷积316。
层304提供1×1卷积的输出作为该层的跳跃输出318,并将残差(即,层输入306)和1×1卷积的输出相加,以生成层304的最终输出320。卷积子网络110然后提供最终输出320作为堆叠中下一扩张卷积层的层输入。
在一些实施方式中,层304对激活函数输出执行两次1×1卷积,一次使用残差滤波器,另一次使用跳跃滤波器。在这些实施方式中,层304提供使用跳跃滤波器的卷积的输出作为该层的跳跃输出318,并将残差和使用残差滤波器的1×1卷积的输出相加,以生成层304的最终输出320。
卷积子网络110然后提供最终输出320作为堆叠中的下一扩张卷积层的层输入。对于堆叠中的最后一层,因为没有下一层,卷积子网络110或者可以丢弃由最后一层生成的最终输出320,或者可以避免计算最终输出,即,可以避免对堆叠中的最后一层执行1×1卷积和残差和。
一旦扩张卷积层的堆叠中的所有层304的处理完成,卷积子网络110将层304生成的跳跃输出相加322。卷积子网络110然后可以将一个或多个非线性函数、一个或多个1×1卷积或两者应用于总和322,以生成替代表示144。特别地,在图3的示例中,卷积子网络110应用按元素非线性324,例如ReLU,随后是1×1卷积326,随后是另一按元素非线性328,随后是最终的1×1卷积330,以生成替代表示144。
如上所述,输出层120然后处理替代表示144以生成分数分布146。
图4是用于在音频序列中的给定时间步处生成音频样本的示例过程400的流程图。为了方便,过程400将被描述由位于一个或多个位置的一个或多个计算机的系统执行。例如,神经网络系统,例如图1的被适当编程的神经网络系统100,可以执行过程400。
系统提供当前音频序列作为卷积子网络的输入(步骤402)。当前音频序列是截至给定时间步已经生成的音频序列,即,包括在给定时间步之前的时间步处的输出音频样本的序列。如上所述,卷积子网络包括音频处理卷积神经网络层,例如,扩张因果卷积层,并且被配置为处理音频数据的当前序列,以生成给定时间步的替代表示。
系统提供替代表示作为输出层的输入,例如柔性最大值(softmax)输出层(步骤404)。输出层被配置为处理替代表示,以生成该时间步的可能的音频样本上的分数分布。
系统根据分数分布选择在给定时间步处包含在音频序列中的音频样本(步骤406)。例如,系统可以根据分数分布对可能的音频样本进行采样。
系统可以在原始的或压缩的和/或缩扩的音频数据上进行训练,例如人类说话者、音乐等的波形。可选地,可以包括调节数据,例如文本到语音数据,其可以被表示为从与用于文本的言语表达的音频数据配对的文本中导出的语言特征。在训练时间,即在训练卷积子网络和输出层以确定卷积层的滤波器的训练值和系统的任何其他参数期间,系统可以并行地,即不是自回归地,生成所有时间步的条件(conditional)预测,因为应当由系统生成的真实标定(ground truth)输出的所有时间步都是已知的。一般地,系统可以使用传统的有监督学习技术,例如基于反向传播技术的随机梯度下降,来执行训练以确定参数的训练值。如上所述,由于这种并行化和因果卷积层的使用,系统不需要像其他系统(例如,包括递归神经网络层的那些系统)那样多的计算资源来训练,从而导致训练时间减少。
此外,因为系统自回归地生成输出序列,所以在一些实施方式中,卷积子网络在计算给定时间步的替代表示时重复使用为先前时间步计算的值。具体地,因为相同的音频样本被不止一次地作为输入提供给子网络,卷积子网络执行的计算中的一些在多个不同的时间步处将是相同的。在这些实施方式中,卷积子网络可以在第一次执行计算时存储计算的输出值,然后在随后的时间步处重复使用存储的输出值,而不是每一时间步重新计算这些计算。作为一个简单的示例,卷积子网络中的第一卷积层将在音频序列生成期间对相同的音频样本值应用相同的一个或多个滤波器多次。系统可以重复使用在先前时间步处计算的输出,而不是在每个时间步处重新计算这些滤波器应用的输出。
在一些实施方式中,作为增加接受域的另一方式,可以采用一个具有非常大(长)的接受域但优选每层更少单元的扩张因果卷积层的堆叠来调节另一(更大的)具有更小接受域的堆叠。更大的堆叠可以处理音频信号的更短的部分,例如在末尾裁剪。
本说明书结合系统和计算机程序组件使用术语“配置”。对于一个或多个计算机的系统被配置为执行特定操作或动作,意味着该系统已经在其上安装了软件、固件、硬件或它们的组合,这些软件、固件、硬件或它们的组合在操作中使得系统执行这些操作或动作。对于一个或多个计算机程序被配置为执行特定操作或动作,意味着该一个或多个程序包括当由数据处理装置运行时使得该装置执行这些操作或动作的指令。
本说明书中描述的主题和功能操作的实施例可以在数字电子电路、有形体现的计算机软件或固件、计算机硬件(包括本说明书中公开的结构及其结构等同物)中实施,或者在它们中的一个或多个的组合中实施。本说明书中描述的主题的实施例可以实施为一个或多个计算机程序,即编码在有形非暂时性存储介质上的计算机程序指令的一个或多个模块,用于由数据处理装置运行或控制数据处理装置的操作。计算机存储介质可以是机器可读存储设备、机器可读存储基底、随机或串行访问存储器设备,或者它们中的一个或多个的组合。可替换地或附加地,程序指令可以被编码在人工生成的传播的信号上,例如机器生成的电、光或电磁信号,该信号被生成以编码信息,用于传输到合适的接收器装置以由数据处理装置运行。
术语“数据处理装置”指的是数据处理硬件,并且包括用于处理数据的各种装置、设备和机器,举例来说包括可编程处理器、计算机或多个处理器或计算机。装置还可以是或进一步包括专用逻辑电路,例如,FPGA(Field Programmable Gate Array,现场可编程门阵列)或ASIC(Application Specific Integrated Circuit,专用集成电路)。除了硬件之外,装置可以可选地包括为计算机程序创建运行环境的代码,例如构成处理器固件、协议栈、数据库管理系统、操作系统或它们中的一个或多个的组合的代码。
计算机程序,也可以被称为或描述为程序、软件、软件应用、应用(app)、模块、软件模块、脚本或代码,可以用任何形式的编程语言编写,包括编译或解释语言,或者声明性或程序性语言;并且它可以以任何形式部署,包括作为独立程序或作为模块、组件、子程序或其他适合在计算环境中使用的单元。程序可以但不需要对应于文件系统中的文件。程序可以存储在保存其他程序或数据的文件的一部分(例如存储在标记语言文档中的一个或多个脚本)中、存储在专用于所讨论的程序的单个文件中、或者存储在多个协调文件(例如存储一个或多个模块、子程序或部分代码的文件)中。计算机程序可以被部署为在位于一个站点或跨多个站点分布并通过数据通信网络互连的一个或多个计算机上运行。
在本说明书中,术语“数据库”被广泛用于指代任何数据集合:数据不需要以任何特定的方式结构化,或者根本不需要结构化,并且它可以存储在一个或多个位置的存储设备上。因此,例如,索引数据库可以包括多个数据集合,每个数据集合可以被不同地组织和访问。
类似地,在本说明书中,术语“引擎”被广泛用于指基于软件的系统、子系统或过程,其被编程为执行一个或多个特定功能。通常,引擎将被实施为安装在一个或多个位置的一个或多个计算机上的一个或多个软件模块或组件。在一些情况下,一个或多个计算机将专用于特定的引擎;在其他情况下,可以在同一个或多个计算机上安装和运行多个引擎。
本说明书中描述的过程和逻辑流程可以由一个或多个可编程计算机执行,该一个或多个可编程计算机运行一个或多个计算机程序,以通过对输入数据进行操作并生成输出来执行功能。过程和逻辑流程也可以由专用逻辑电路,例如FPGA或ASIC,或者由专用逻辑电路和一个或多个编程的计算机的组合来执行。
适于运行计算机程序的计算机可以基于通用或专用微处理器或两者,或者任何其他种类的中央处理单元。通常,中央处理单元将从只读存储器或随机存取存储器或两者接收指令和数据。计算机的基本元件是用于执行或运行指令的中央处理单元和用于存储指令和数据的一个或多个存储器设备。中央处理单元和存储器可以由专用逻辑电路补充或结合到专用逻辑电路中。一般地,计算机还将包括用于存储数据的一个或多个大容量存储设备,例如磁盘、磁光盘或光盘,或者被可操作地耦合以从用于存储数据的一个或多个大容量存储设备接收数据或向其传送数据或两者。然而,计算机不需要这样的设备。此外,计算机可以嵌入在另一设备中,例如移动电话、个人数字助理(Personal Digital Assistant,PDA)、移动音频或视频播放器、游戏控制台、全球定位系统(Global Positioning System,GPS)接收器或便携式存储设备,例如通用串行总线(Universal Serial Bus,USB)闪速驱动器,仅举几例。
适于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、介质和存储器设备,举例来说包括半导体存储器设备,例如EPROM、EEPROM和闪速存储器设备;磁盘,例如内部硬盘或可移动磁盘;磁光盘;CD ROM和DVD-ROM盘。
为了提供与用户的交互,本说明书中描述的主题的实施例可以在具有用于向用户显示信息的显示器设备(例如CRT(Cathode Ray Tube,阴极射线管)或LCD(Liquid CrystalDisplay,液晶显示器)监视器)以及键盘和用户通过其可以向计算机提供输入的定点设备(例如鼠标或轨迹球)的计算机上实施。也可以使用其他种类的设备来提供与用户的交互;例如,提供给用户的反馈可以是任何形式的感觉反馈,例如视觉反馈、听觉反馈或触觉反馈;并且可以以任何形式接收来自用户的输入,包括声音、语音或触觉输入。此外,计算机可以通过向用户使用的设备发送文档和从用户使用的设备接收文档来与用户交互;例如,通过响应于从网络浏览器接收的请求,向用户的设备上的网络浏览器发送网页。此外,计算机可以通过向个人设备(例如,正在运行消息传递应用的智能手机)发送文本消息或其他形式的消息并且作为回报从用户接收响应消息来与用户交互。
用于实施机器学习模型的数据处理装置还可以包括例如专用硬件加速器单元,用于处理机器学习训练或生产的公共和计算密集部分,即推理、工作负载。
机器学习模型可以使用机器学习框架来实施和部署,例如TensorFlow框架、Microsoft Cognitive Toolkit框架、Apache Singa框架或Apache MXNet框架。
本说明书中描述的主题的实施例可以在计算系统中实施,该计算系统包括后端组件,例如作为数据服务器,或者包括中间件组件,例如应用服务器,或者包括前端组件,例如具有图形用户界面、网络浏览器或用户通过其可以与本说明书中描述的主题的实施方式交互的应用的客户端计算机,或者一个或多个这样的后端、中间件或前端组件的任意组合。系统的组件可以通过任何形式或介质的数字数据通信相互连接,例如通信网络。通信网络的示例包括局域网(Local Area Network,LAN)和广域网(Wide Area Network,WAN),例如互联网。
计算系统可以包括客户端和服务器。客户端和服务器一般彼此远离,并且通常通过通信网络进行交互。客户端和服务器的关系是通过在各自的计算机上运行并且彼此之间具有客户端-服务器关系的计算机程序产生的。在一些实施例中,服务器将数据(例如,HTML页面)传输到用户设备,例如,用于向与充当客户端的设备交互的用户显示数据和从该用户接收用户输入的目的。在用户设备处生成的数据,例如用户交互的结果,可以在服务器处从设备接收。
虽然本说明书包含许多具体的实施方式细节,但这些不应被解释为对任何发明的范围或可能要求保护的范围的限制,而是对特定于特定发明的特定实施例的特征的描述。本说明书中在分开的实施例的上下文中描述的某些特征也可以在单个实施例中组合实施。相反,在单个实施例的上下文中描述的各种特征也可以在多个实施例中分开地或以任何合适的子组合来实施。此外,尽管特征在上面可以被描述为以某些组合起作用,并且甚至最初被要求保护如此,但是在一些情况下,来自所要求保护的组合的一个或多个特征可以从该组合中删除,并且所要求保护的组合可以指向子组合或子组合的变体。
类似地,虽然在附图中描绘了操作,并且在权利要求中以特定顺序列举了操作,但是这不应该被理解为要求这些操作以所示的特定顺序或连续顺序执行,或者要求执行所有示出的操作,以获得期望的结果。在某些情况下,多任务处理和并行处理可能是有利的。此外,上述实施例中各种系统模块和组件的分离不应理解为在所有实施例中都需要这种分离,并且应理解,所描述的程序组件和系统一般可以在单个软件产品中被集成在一起或者被打包到多个软件产品中。
已经描述了主题的特定实施例。其他实施例在以下权利要求的范围内。例如,权利要求中列举的动作可以以不同的顺序执行,并仍然获得期望的结果。作为一个示例,附图中描绘的过程不一定要求所示的特定顺序或连续顺序来获得期望的结果。在一些情况下,多任务处理和并行处理可能是有利的。

Claims (37)

1.一种由一个或多个计算机实施的神经网络系统,
其中所述神经网络系统被配置为生成音频数据的输出序列,所述音频数据的输出序列包括在多个时间步中的每一个处的相应音频样本,并且
其中所述神经网络系统包括:
卷积子网络,包括一个或多个音频处理卷积神经网络层,其中所述卷积子网络被配置为对于多个时间步中的每一个:
接收包括输出序列中所述时间步之前的每个时间步处的相应音频样本的音频数据的当前序列,以及
处理音频数据的当前序列以生成所述时间步的替代表示;和
输出层,其中所述输出层被配置为对于多个时间步中的每一个:
接收所述时间步的替代表示,以及
处理所述时间步的替代表示以生成定义所述时间步的多个可能的音频样本上的分数分布的输出。
2.根据权利要求1所述的神经网络系统,其中,所述神经网络系统还包括:
子系统,被配置为对于多个时间步中的每一个:
根据所述时间步的分数分布,选择输出序列中所述时间步处的音频样本。
3.根据权利要求2所述的神经网络系统,其中选择音频值包括:
从所述分数分布中采样。
4.根据权利要求2所述的神经网络系统,其中选择音频值包括:
根据所述分数分布选择具有最高分数的音频样本。
5.根据权利要求1-4中任一项所述的神经网络系统,其中所述多个时间步中的每一个与音频波形中的相应时间对应,并且其中在所述多个时间步中的每一个处的相应音频样本是在对应时间处的音频波形的幅度值。
6.根据权利要求1-4中任一项所述的神经网络系统,其中所述多个时间步中的每一个与音频波形中的相应时间对应,并且其中在所述多个时间步中的每一个处的相应音频样本是在对应时间处的音频波形的压缩或缩扩表示。
7.根据权利要求1-6中任一项所述的神经网络系统,其中所述音频处理卷积神经网络层是因果卷积神经网络层。
8.根据权利要求1-7中任一项所述的神经网络系统,其中所述音频处理卷积神经网络层包括一个或多个扩张卷积神经网络层。
9.根据权利要求8所述的神经网络系统,其中所述音频处理卷积神经网络层包括扩张卷积神经网络层的多个块,其中每个块包括具有增大的扩张因子的多个扩张卷积神经网络层。
10.根据权利要求1-9中任一项所述的神经网络系统,其中所述音频处理卷积神经网络层中的一个或多个具有门控激活单元。
11.根据权利要求1-10中任一项所述的神经网络系统,其中,在所述多个时间步中的每一个处,基于神经网络输入调节所述替代表示。
12.根据权利要求11所述的神经网络系统,其中所述神经网络输入包括文本段的特征,并且其中所述输出序列表示所述文本段的言语表达。
13.根据权利要求12所述的神经网络系统,其中,所述神经网络输入还包括语调模式值。
14.根据权利要求11-13中任一项所述的神经网络系统,其中,所述神经网络输入包括以下中的一个或多个:说话者标识信息、语言标识信息和说话风格信息。
15.根据权利要求1-14中任一项所述的神经网络系统,其中所述输出序列表示一段音乐。
16.根据权利要求1-15中任一项所述的神经网络系统,其中所述卷积子网络包括残差连接。
17.根据权利要求1-16中任一项所述的神经网络系统,其中所述卷积子网络包括跳跃连接。
18.根据权利要求1-17中任一项所述的神经网络系统,其中处理音频数据的当前序列以生成时间步的替代表示包括重复使用为先前时间步计算的值。
19.编码有指令的一个或多个计算机存储介质,所述指令在由一个或多个计算机执行时使得所述一个或多个计算机实施权利要求1-18中任一项的相应神经网络系统。
20.一种生成包括多个时间步中的每一个处的相应音频样本的音频数据的输出序列的方法,
其中所述方法包括,对于多个时间步中的每一个:
提供音频数据的当前序列作为包括一个或多个音频处理卷积神经网络层的卷积子网络的输入,
其中所述当前序列包括输出序列中所述时间步之前的每个时间步处的相应音频样本,并且
其中所述卷积子网络被配置为对于多个时间步中的每一个:
接收音频数据的当前序列,以及
处理音频数据的当前序列以生成所述时间步的替代表示;和
提供所述时间步的替代表示作为输出层的输入,其中所述输出层被配置为对于多个时间步中的每一个:
接收所述时间步的替代表示,以及
处理所述时间步的替代表示以生成定义所述时间步的多个可能的音频样本上的分数分布的输出。
21.根据权利要求20所述的方法,还包括:
对于多个时间步中的每一个:
根据所述时间步的分数分布,选择输出序列中所述时间步处的音频样本。
22.根据权利要求21所述的方法,其中选择音频值包括:
从所述分数分布中采样。
23.根据权利要求21所述的方法,其中选择音频值包括:
根据所述分数分布选择具有最高分数的音频样本。
24.根据权利要求20-23中任一项所述的方法,其中所述多个时间步中的每一个与音频波形中的相应时间对应,并且其中在所述多个时间步中的每一个处的相应音频样本是在对应时间处的音频波形的幅度值。
25.根据权利要求20-23中任一项所述的方法,其中所述多个时间步中的每一个与音频波形中的相应时间对应,并且其中在所述多个时间步中的每一个处的相应音频样本是在对应时间处的音频波形的压缩或缩扩表示。
26.根据权利要求20-25中任一项所述的方法,其中所述音频处理卷积神经网络层是因果卷积神经网络层。
27.根据权利要求20-26中任一项所述的方法,其中所述音频处理卷积神经网络层包括一个或多个扩张卷积神经网络层。
28.根据权利要求27所述的方法,其中所述音频处理卷积神经网络层包括扩张卷积神经网络层的多个块,其中每个块包括具有增大的扩张因子的多个扩张卷积神经网络层。
29.根据权利要求20-28中任一项所述的方法,其中所述音频处理卷积神经网络层中的一个或多个具有门控激活单元。
30.根据权利要求20-29中任一项所述的方法,其中,在所述多个时间步中的每一个处,基于神经网络输入调节所述替代表示。
31.根据权利要求30所述的方法,其中所述神经网络输入包括文本段的特征,并且其中所述输出序列表示所述文本段的言语表达。
32.根据权利要求31所述的方法,其中,所述神经网络输入还包括语调模式值。
33.根据权利要求30-32中任一项所述的方法,其中所述神经网络输入包括以下中的一个或多个:说话者标识信息、语言标识信息和说话风格信息。
34.根据权利要求20-33中任一项所述的方法,其中所述输出序列表示一段音乐。
35.根据权利要求20-34中任一项所述的方法,其中所述卷积子网络包括残差连接。
36.根据权利要求20-35中任一项所述的方法,其中所述卷积子网络包括跳跃连接。
37.根据权利要求20-36中任一项所述的方法,其中处理音频数据的当前序列以生成时间步的替代表示包括重复使用为先前时间步计算的值。
CN201780065523.6A 2016-09-06 2017-09-06 使用神经网络生成音频 Active CN109891434B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011082855.5A CN112289342B (zh) 2016-09-06 2017-09-06 使用神经网络生成音频

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201662384115P 2016-09-06 2016-09-06
US62/384,115 2016-09-06
PCT/US2017/050320 WO2018048934A1 (en) 2016-09-06 2017-09-06 Generating audio using neural networks

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CN202011082855.5A Division CN112289342B (zh) 2016-09-06 2017-09-06 使用神经网络生成音频

Publications (2)

Publication Number Publication Date
CN109891434A true CN109891434A (zh) 2019-06-14
CN109891434B CN109891434B (zh) 2020-10-30

Family

ID=60022154

Family Applications (2)

Application Number Title Priority Date Filing Date
CN201780065523.6A Active CN109891434B (zh) 2016-09-06 2017-09-06 使用神经网络生成音频
CN202011082855.5A Active CN112289342B (zh) 2016-09-06 2017-09-06 使用神经网络生成音频

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN202011082855.5A Active CN112289342B (zh) 2016-09-06 2017-09-06 使用神经网络生成音频

Country Status (9)

Country Link
US (5) US10304477B2 (zh)
EP (2) EP3822863B1 (zh)
JP (3) JP6577159B1 (zh)
KR (1) KR102353284B1 (zh)
CN (2) CN109891434B (zh)
AU (1) AU2017324937B2 (zh)
BR (1) BR112019004524B1 (zh)
CA (2) CA3036067C (zh)
WO (1) WO2018048934A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110728991A (zh) * 2019-09-06 2020-01-24 南京工程学院 一种改进的录音设备识别算法

Families Citing this family (90)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10095470B2 (en) 2016-02-22 2018-10-09 Sonos, Inc. Audio response playback
US10509626B2 (en) 2016-02-22 2019-12-17 Sonos, Inc Handling of loss of pairing between networked devices
US9947316B2 (en) 2016-02-22 2018-04-17 Sonos, Inc. Voice control of a media playback system
US10264030B2 (en) 2016-02-22 2019-04-16 Sonos, Inc. Networked microphone device control
US10743101B2 (en) 2016-02-22 2020-08-11 Sonos, Inc. Content mixing
US9965247B2 (en) 2016-02-22 2018-05-08 Sonos, Inc. Voice controlled media playback system based on user profile
US9978390B2 (en) 2016-06-09 2018-05-22 Sonos, Inc. Dynamic player selection for audio signal processing
US10134399B2 (en) 2016-07-15 2018-11-20 Sonos, Inc. Contextualization of voice inputs
US10115400B2 (en) 2016-08-05 2018-10-30 Sonos, Inc. Multiple voice services
EP3497630B1 (en) * 2016-09-06 2020-11-04 Deepmind Technologies Limited Processing sequences using convolutional neural networks
US11080591B2 (en) * 2016-09-06 2021-08-03 Deepmind Technologies Limited Processing sequences using convolutional neural networks
EP3822863B1 (en) * 2016-09-06 2022-11-02 DeepMind Technologies Limited Generating audio using neural networks
US9942678B1 (en) 2016-09-27 2018-04-10 Sonos, Inc. Audio playback settings for voice interaction
US10181323B2 (en) 2016-10-19 2019-01-15 Sonos, Inc. Arbitration-based voice recognition
WO2018081089A1 (en) 2016-10-26 2018-05-03 Deepmind Technologies Limited Processing text sequences using neural networks
JP6736786B2 (ja) * 2017-03-29 2020-08-05 グーグル エルエルシー エンドツーエンドのテキスト音声変換
US10475449B2 (en) 2017-08-07 2019-11-12 Sonos, Inc. Wake-word detection suppression
KR102410820B1 (ko) * 2017-08-14 2022-06-20 삼성전자주식회사 뉴럴 네트워크를 이용한 인식 방법 및 장치 및 상기 뉴럴 네트워크를 트레이닝하는 방법 및 장치
JP7209275B2 (ja) * 2017-08-31 2023-01-20 国立研究開発法人情報通信研究機構 オーディオデータ学習装置、オーディオデータ推論装置、およびプログラム
US10048930B1 (en) 2017-09-08 2018-08-14 Sonos, Inc. Dynamic computation of system response volume
US10446165B2 (en) 2017-09-27 2019-10-15 Sonos, Inc. Robust short-time fourier transform acoustic echo cancellation during audio playback
US10482868B2 (en) 2017-09-28 2019-11-19 Sonos, Inc. Multi-channel acoustic echo cancellation
US10621981B2 (en) 2017-09-28 2020-04-14 Sonos, Inc. Tone interference cancellation
US10051366B1 (en) 2017-09-28 2018-08-14 Sonos, Inc. Three-dimensional beam forming with a microphone array
US10466962B2 (en) 2017-09-29 2019-11-05 Sonos, Inc. Media playback system with voice assistance
US10880650B2 (en) 2017-12-10 2020-12-29 Sonos, Inc. Network microphone devices with automatic do not disturb actuation capabilities
KR102401512B1 (ko) * 2018-01-11 2022-05-25 네오사피엔스 주식회사 기계학습을 이용한 텍스트-음성 합성 방법, 장치 및 컴퓨터 판독가능한 저장매체
US11343614B2 (en) 2018-01-31 2022-05-24 Sonos, Inc. Device designation of playback and network microphone device arrangements
US11175880B2 (en) 2018-05-10 2021-11-16 Sonos, Inc. Systems and methods for voice-assisted media content selection
US10959029B2 (en) 2018-05-25 2021-03-23 Sonos, Inc. Determining and adapting to changes in microphone performance of playback devices
AU2019284379A1 (en) 2018-06-12 2021-01-28 Intergraph Corporation Artificial intelligence applications for computer-aided dispatch systems
US10681460B2 (en) 2018-06-28 2020-06-09 Sonos, Inc. Systems and methods for associating playback devices with voice assistant services
US10971170B2 (en) * 2018-08-08 2021-04-06 Google Llc Synthesizing speech from text using neural networks
US11076035B2 (en) 2018-08-28 2021-07-27 Sonos, Inc. Do not disturb feature for audio notifications
US10461710B1 (en) 2018-08-28 2019-10-29 Sonos, Inc. Media playback system with maximum volume setting
US10587430B1 (en) 2018-09-14 2020-03-10 Sonos, Inc. Networked devices, systems, and methods for associating playback devices based on sound codes
US11024331B2 (en) 2018-09-21 2021-06-01 Sonos, Inc. Voice detection optimization using sound metadata
US10811015B2 (en) 2018-09-25 2020-10-20 Sonos, Inc. Voice detection optimization based on selected voice assistant service
EP3834137A1 (en) 2018-09-27 2021-06-16 DeepMind Technologies Limited Committed information rate variational autoencoders
US11100923B2 (en) 2018-09-28 2021-08-24 Sonos, Inc. Systems and methods for selective wake word detection using neural network models
US10692518B2 (en) 2018-09-29 2020-06-23 Sonos, Inc. Linear filtering for noise-suppressed speech detection via multiple network microphone devices
US11899519B2 (en) 2018-10-23 2024-02-13 Sonos, Inc. Multiple stage network microphone device with reduced power consumption and processing load
US10977872B2 (en) 2018-10-31 2021-04-13 Sony Interactive Entertainment Inc. Graphical style modification for video games using machine learning
US10854109B2 (en) 2018-10-31 2020-12-01 Sony Interactive Entertainment Inc. Color accommodation for on-demand accessibility
US11636673B2 (en) 2018-10-31 2023-04-25 Sony Interactive Entertainment Inc. Scene annotation using machine learning
US11375293B2 (en) 2018-10-31 2022-06-28 Sony Interactive Entertainment Inc. Textual annotation of acoustic effects
EP3654249A1 (en) 2018-11-15 2020-05-20 Snips Dilated convolutions and gating for efficient keyword spotting
US11024321B2 (en) 2018-11-30 2021-06-01 Google Llc Speech coding using auto-regressive generative neural networks
US11183183B2 (en) 2018-12-07 2021-11-23 Sonos, Inc. Systems and methods of operating media playback systems having multiple voice assistant services
US11132989B2 (en) 2018-12-13 2021-09-28 Sonos, Inc. Networked microphone devices, systems, and methods of localized arbitration
CN109771944B (zh) * 2018-12-19 2022-07-12 武汉西山艺创文化有限公司 一种游戏音效生成方法、装置、设备和存储介质
US10602268B1 (en) 2018-12-20 2020-03-24 Sonos, Inc. Optimization of network microphone devices using noise classification
JP7192882B2 (ja) * 2018-12-26 2022-12-20 日本電信電話株式会社 発話リズム変換装置、モデル学習装置、それらの方法、およびプログラム
US11315556B2 (en) 2019-02-08 2022-04-26 Sonos, Inc. Devices, systems, and methods for distributed voice processing by transmitting sound data associated with a wake word to an appropriate device for identification
US10867604B2 (en) 2019-02-08 2020-12-15 Sonos, Inc. Devices, systems, and methods for distributed voice processing
US11587552B2 (en) 2019-04-30 2023-02-21 Sutherland Global Services Inc. Real time key conversational metrics prediction and notability
US11120794B2 (en) 2019-05-03 2021-09-14 Sonos, Inc. Voice assistant persistence across multiple network microphone devices
CN110136731B (zh) * 2019-05-13 2021-12-24 天津大学 空洞因果卷积生成对抗网络端到端骨导语音盲增强方法
CN113874934A (zh) * 2019-05-23 2021-12-31 谷歌有限责任公司 有表达力的端到端语音合成中的变分嵌入容量
JP2020194098A (ja) * 2019-05-29 2020-12-03 ヤマハ株式会社 推定モデル確立方法、推定モデル確立装置、プログラムおよび訓練データ準備方法
US11361756B2 (en) 2019-06-12 2022-06-14 Sonos, Inc. Conditional wake word eventing based on environment
US10586540B1 (en) 2019-06-12 2020-03-10 Sonos, Inc. Network microphone device with command keyword conditioning
US11200894B2 (en) 2019-06-12 2021-12-14 Sonos, Inc. Network microphone device with command keyword eventing
US11138975B2 (en) 2019-07-31 2021-10-05 Sonos, Inc. Locally distributed keyword detection
US10871943B1 (en) 2019-07-31 2020-12-22 Sonos, Inc. Noise classification for event detection
US11138969B2 (en) 2019-07-31 2021-10-05 Sonos, Inc. Locally distributed keyword detection
WO2021075994A1 (en) 2019-10-16 2021-04-22 Saudi Arabian Oil Company Determination of elastic properties of a geological formation using machine learning applied to data acquired while drilling
US11189286B2 (en) 2019-10-22 2021-11-30 Sonos, Inc. VAS toggle based on device orientation
KR20210048310A (ko) 2019-10-23 2021-05-03 삼성전자주식회사 전자 장치 및 그 제어 방법
KR102556096B1 (ko) * 2019-11-29 2023-07-18 한국전자통신연구원 이전 프레임의 정보를 사용한 오디오 신호 부호화/복호화 장치 및 방법
US11200900B2 (en) 2019-12-20 2021-12-14 Sonos, Inc. Offline voice control
US11373095B2 (en) * 2019-12-23 2022-06-28 Jens C. Jenkins Machine learning multiple features of depicted item
US11562740B2 (en) 2020-01-07 2023-01-24 Sonos, Inc. Voice verification for media playback
US11556307B2 (en) 2020-01-31 2023-01-17 Sonos, Inc. Local voice data processing
US11308958B2 (en) 2020-02-07 2022-04-19 Sonos, Inc. Localized wakeword verification
US20210312258A1 (en) * 2020-04-01 2021-10-07 Sony Corporation Computing temporal convolution networks in real time
US20210350788A1 (en) * 2020-05-06 2021-11-11 Samsung Electronics Co., Ltd. Electronic device for generating speech signal corresponding to at least one text and operating method of the electronic device
US11482224B2 (en) 2020-05-20 2022-10-25 Sonos, Inc. Command keywords with input detection windowing
US11308962B2 (en) 2020-05-20 2022-04-19 Sonos, Inc. Input detection windowing
US11727919B2 (en) 2020-05-20 2023-08-15 Sonos, Inc. Memory allocation for keyword spotting engines
EP3719711A3 (en) 2020-07-30 2021-03-03 Institutul Roman De Stiinta Si Tehnologie Method of detecting anomalous data, machine computing unit, computer program
US11698771B2 (en) 2020-08-25 2023-07-11 Sonos, Inc. Vocal guidance engines for playback devices
US11984123B2 (en) 2020-11-12 2024-05-14 Sonos, Inc. Network device interaction by range
WO2022125771A1 (en) 2020-12-10 2022-06-16 Saudi Arabian Oil Company Determination of mechanical properties of a geological formation using deep learning applied to data acquired while drilling
GB202106969D0 (en) * 2021-05-14 2021-06-30 Samsung Electronics Co Ltd Method and apparatus for improving model efficiency
CN113724683B (zh) * 2021-07-23 2024-03-22 阿里巴巴达摩院(杭州)科技有限公司 音频生成方法、计算机设备及计算机可读存储介质
JP7574770B2 (ja) 2021-09-13 2024-10-29 トヨタ自動車株式会社 情報処理装置
WO2023177145A1 (ko) * 2022-03-16 2023-09-21 삼성전자주식회사 전자 장치 및 전자 장치의 제어 방법
WO2023219292A1 (ko) * 2022-05-09 2023-11-16 삼성전자 주식회사 장면 분류를 위한 오디오 처리 방법 및 장치
EP4293662A1 (en) * 2022-06-17 2023-12-20 Samsung Electronics Co., Ltd. Method and system for personalising machine learning models

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2810457A1 (en) * 2013-03-25 2014-09-25 Gerald Bradley PENN System and method for applying a convolutional neural network to speech recognition
CN105096939A (zh) * 2015-07-08 2015-11-25 百度在线网络技术(北京)有限公司 语音唤醒方法和装置
CN105321525A (zh) * 2015-09-30 2016-02-10 北京邮电大学 一种降低voip通信资源开销的系统和方法
CN105513591A (zh) * 2015-12-21 2016-04-20 百度在线网络技术(北京)有限公司 用lstm循环神经网络模型进行语音识别的方法和装置
CN105868829A (zh) * 2015-02-06 2016-08-17 谷歌公司 用于数据项生成的循环神经网络

Family Cites Families (67)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US2810457A (en) * 1953-04-10 1957-10-22 Gen Motors Corp Lubricator
JPH0450121Y2 (zh) 1986-04-30 1992-11-26
JP2522400B2 (ja) * 1989-08-10 1996-08-07 ヤマハ株式会社 楽音波形生成方法
US5377302A (en) 1992-09-01 1994-12-27 Monowave Corporation L.P. System for recognizing speech
AU675389B2 (en) 1994-04-28 1997-01-30 Motorola, Inc. A method and apparatus for converting text into audible signals using a neural network
JP3270668B2 (ja) * 1995-10-31 2002-04-02 ナショナル サイエンス カウンシル テキストからスピーチへの人工的ニューラルネットワークに基づく韻律の合成装置
US6357176B2 (en) * 1997-03-19 2002-03-19 Mississippi State University Soilless sod
JPH10333699A (ja) * 1997-06-05 1998-12-18 Fujitsu Ltd 音声認識および音声合成装置
US5913194A (en) * 1997-07-14 1999-06-15 Motorola, Inc. Method, device and system for using statistical information to reduce computation and memory requirements of a neural network based speech synthesis system
JPH11282484A (ja) * 1998-03-27 1999-10-15 Victor Co Of Japan Ltd 音声合成装置
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
DE10018134A1 (de) * 2000-04-12 2001-10-18 Siemens Ag Verfahren und Vorrichtung zum Bestimmen prosodischer Markierungen
JP2002123280A (ja) * 2000-10-16 2002-04-26 Seiko Epson Corp 音声合成方法および音声合成装置ならびに音声合成処理プログラムを記録した記録媒体
US7062437B2 (en) * 2001-02-13 2006-06-13 International Business Machines Corporation Audio renderings for expressing non-audio nuances
US20060064177A1 (en) 2004-09-17 2006-03-23 Nokia Corporation System and method for measuring confusion among words in an adaptive speech recognition system
US7747070B2 (en) * 2005-08-31 2010-06-29 Microsoft Corporation Training convolutional neural networks on graphics processing units
KR100832556B1 (ko) * 2006-09-22 2008-05-26 (주)한국파워보이스 강인한 원거리 음성 인식 시스템을 위한 음성 인식 방법
US8504361B2 (en) * 2008-02-07 2013-08-06 Nec Laboratories America, Inc. Deep neural networks and methods for using same
WO2009144368A1 (en) * 2008-05-30 2009-12-03 Nokia Corporation Method, apparatus and computer program product for providing improved speech synthesis
FR2950713A1 (fr) 2009-09-29 2011-04-01 Movea Sa Systeme et procede de reconnaissance de gestes
TWI413104B (zh) * 2010-12-22 2013-10-21 Ind Tech Res Inst 可調控式韻律重估測系統與方法及電腦程式產品
CN102651217A (zh) * 2011-02-25 2012-08-29 株式会社东芝 用于合成语音的方法、设备以及用于语音合成的声学模型训练方法
EP2565667A1 (en) 2011-08-31 2013-03-06 Friedrich-Alexander-Universität Erlangen-Nürnberg Direction of arrival estimation using watermarked audio signals and microphone arrays
US8527276B1 (en) * 2012-10-25 2013-09-03 Google Inc. Speech synthesis using deep neural networks
US9230550B2 (en) * 2013-01-10 2016-01-05 Sensory, Incorporated Speaker verification and identification using artificial neural network-based sub-phonetic unit discrimination
US9141906B2 (en) * 2013-03-13 2015-09-22 Google Inc. Scoring concept terms using a deep network
US9147154B2 (en) 2013-03-13 2015-09-29 Google Inc. Classifying resources using a deep network
US9190053B2 (en) 2013-03-25 2015-11-17 The Governing Council Of The Univeristy Of Toronto System and method for applying a convolutional neural network to speech recognition
US20150032449A1 (en) * 2013-07-26 2015-01-29 Nuance Communications, Inc. Method and Apparatus for Using Convolutional Neural Networks in Speech Recognition
CN104681034A (zh) * 2013-11-27 2015-06-03 杜比实验室特许公司 音频信号处理
US9953634B1 (en) 2013-12-17 2018-04-24 Knowles Electronics, Llc Passive training for automatic speech recognition
US10275704B2 (en) 2014-06-06 2019-04-30 Google Llc Generating representations of input sequences using neural networks
US10181098B2 (en) 2014-06-06 2019-01-15 Google Llc Generating representations of input sequences using neural networks
US9821340B2 (en) * 2014-07-28 2017-11-21 Kolo Medical Ltd. High displacement ultrasonic transducer
KR102332729B1 (ko) 2014-07-28 2021-11-30 삼성전자주식회사 발음 유사도를 기반으로 한 음성 인식 방법 및 장치, 음성 인식 엔진 생성 방법 및 장치
US20160035344A1 (en) * 2014-08-04 2016-02-04 Google Inc. Identifying the language of a spoken utterance
ES2880316T3 (es) 2014-08-29 2021-11-24 Google Llc Procesamiento de imágenes mediante redes neuronales profundas
EP3889954B1 (en) 2014-09-25 2024-05-08 Sunhouse Technologies, Inc. Method for extracting audio from sensors electrical signals
US10783900B2 (en) * 2014-10-03 2020-09-22 Google Llc Convolutional, long short-term memory, fully connected deep neural networks
US9542927B2 (en) * 2014-11-13 2017-01-10 Google Inc. Method and system for building text-to-speech voice from diverse recordings
US9824684B2 (en) 2014-11-13 2017-11-21 Microsoft Technology Licensing, Llc Prediction-based sequence recognition
US9607217B2 (en) * 2014-12-22 2017-03-28 Yahoo! Inc. Generating preference indices for image content
US10403269B2 (en) 2015-03-27 2019-09-03 Google Llc Processing audio waveforms
US20160343366A1 (en) * 2015-05-19 2016-11-24 Google Inc. Speech synthesis model selection
US9595002B2 (en) 2015-05-29 2017-03-14 Sas Institute Inc. Normalizing electronic communications using a vector having a repeating substring as input for a neural network
US9786270B2 (en) 2015-07-09 2017-10-10 Google Inc. Generating acoustic models
CN106375231B (zh) * 2015-07-22 2019-11-05 华为技术有限公司 一种流量切换方法、设备及系统
KR102413692B1 (ko) 2015-07-24 2022-06-27 삼성전자주식회사 음성 인식을 위한 음향 점수 계산 장치 및 방법, 음성 인식 장치 및 방법, 전자 장치
CN105068998B (zh) 2015-07-29 2017-12-15 百度在线网络技术(北京)有限公司 基于神经网络模型的翻译方法及装置
US10733979B2 (en) 2015-10-09 2020-08-04 Google Llc Latency constraints for acoustic modeling
US10395118B2 (en) 2015-10-29 2019-08-27 Baidu Usa Llc Systems and methods for video paragraph captioning using hierarchical recurrent neural networks
US10043512B2 (en) * 2015-11-12 2018-08-07 Google Llc Generating target sequences from input sequences using partial conditioning
US10319374B2 (en) 2015-11-25 2019-06-11 Baidu USA, LLC Deployed end-to-end speech recognition
US10402700B2 (en) 2016-01-25 2019-09-03 Deepmind Technologies Limited Generating images using neural networks
CN108780519B (zh) * 2016-03-11 2022-09-02 奇跃公司 卷积神经网络的结构学习
US10460747B2 (en) 2016-05-10 2019-10-29 Google Llc Frequency based audio analysis using neural networks
US9972314B2 (en) 2016-06-01 2018-05-15 Microsoft Technology Licensing, Llc No loss-optimization for weighted transducer
US11373672B2 (en) 2016-06-14 2022-06-28 The Trustees Of Columbia University In The City Of New York Systems and methods for speech separation and neural decoding of attentional selection in multi-speaker environments
US9984683B2 (en) 2016-07-22 2018-05-29 Google Llc Automatic speech recognition using multi-dimensional models
EP3497630B1 (en) 2016-09-06 2020-11-04 Deepmind Technologies Limited Processing sequences using convolutional neural networks
EP3822863B1 (en) 2016-09-06 2022-11-02 DeepMind Technologies Limited Generating audio using neural networks
US11080591B2 (en) 2016-09-06 2021-08-03 Deepmind Technologies Limited Processing sequences using convolutional neural networks
WO2018081089A1 (en) 2016-10-26 2018-05-03 Deepmind Technologies Limited Processing text sequences using neural networks
US10049106B2 (en) 2017-01-18 2018-08-14 Xerox Corporation Natural language generation through character-based recurrent neural networks with finite-state prior knowledge
TWI767000B (zh) 2017-05-20 2022-06-11 英商淵慧科技有限公司 產生波形之方法及電腦儲存媒體
US10726858B2 (en) 2018-06-22 2020-07-28 Intel Corporation Neural network for speech denoising trained with deep feature losses
US10971170B2 (en) 2018-08-08 2021-04-06 Google Llc Synthesizing speech from text using neural networks

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2810457A1 (en) * 2013-03-25 2014-09-25 Gerald Bradley PENN System and method for applying a convolutional neural network to speech recognition
CN105868829A (zh) * 2015-02-06 2016-08-17 谷歌公司 用于数据项生成的循环神经网络
CN105096939A (zh) * 2015-07-08 2015-11-25 百度在线网络技术(北京)有限公司 语音唤醒方法和装置
CN105321525A (zh) * 2015-09-30 2016-02-10 北京邮电大学 一种降低voip通信资源开销的系统和方法
CN105513591A (zh) * 2015-12-21 2016-04-20 百度在线网络技术(北京)有限公司 用lstm循环神经网络模型进行语音识别的方法和装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110728991A (zh) * 2019-09-06 2020-01-24 南京工程学院 一种改进的录音设备识别算法

Also Published As

Publication number Publication date
CN112289342B (zh) 2024-03-19
AU2017324937A1 (en) 2019-03-28
CA3036067C (en) 2023-08-01
US20180322891A1 (en) 2018-11-08
US10304477B2 (en) 2019-05-28
CN112289342A (zh) 2021-01-29
WO2018048934A1 (en) 2018-03-15
AU2017324937B2 (en) 2019-12-19
EP3822863A1 (en) 2021-05-19
US11386914B2 (en) 2022-07-12
CN109891434B (zh) 2020-10-30
US20220319533A1 (en) 2022-10-06
EP3497629B1 (en) 2020-11-04
KR102353284B1 (ko) 2022-01-19
JP6891236B2 (ja) 2021-06-18
EP3497629A1 (en) 2019-06-19
JP2019532349A (ja) 2019-11-07
US20190251987A1 (en) 2019-08-15
US10803884B2 (en) 2020-10-13
CA3155320A1 (en) 2018-03-15
BR112019004524A2 (pt) 2019-05-28
EP3822863B1 (en) 2022-11-02
US11869530B2 (en) 2024-01-09
BR112019004524B1 (pt) 2023-11-07
US20240135955A1 (en) 2024-04-25
CA3036067A1 (en) 2018-03-15
US20200411032A1 (en) 2020-12-31
JP2021152664A (ja) 2021-09-30
KR20190042730A (ko) 2019-04-24
JP6577159B1 (ja) 2019-09-18
JP7213913B2 (ja) 2023-01-27
JP2020003809A (ja) 2020-01-09

Similar Documents

Publication Publication Date Title
CN109891434B (zh) 使用神经网络生成音频
CN109844773B (zh) 使用卷积神经网络处理序列
KR102324801B1 (ko) 종단 간 텍스트 대 스피치 변환
US11948066B2 (en) Processing sequences using convolutional neural networks
CN110546656B (zh) 前馈生成式神经网络
US11355097B2 (en) Sample-efficient adaptive text-to-speech
US20210089909A1 (en) High fidelity speech synthesis with adversarial networks
CN111699497A (zh) 使用离散潜变量的序列模型的快速解码
EP4150616B1 (en) End-to-end speech waveform generation through data density gradient estimation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant