CN114175143A - 控制端到端语音合成系统中的表达性 - Google Patents

控制端到端语音合成系统中的表达性 Download PDF

Info

Publication number
CN114175143A
CN114175143A CN202080055081.9A CN202080055081A CN114175143A CN 114175143 A CN114175143 A CN 114175143A CN 202080055081 A CN202080055081 A CN 202080055081A CN 114175143 A CN114175143 A CN 114175143A
Authority
CN
China
Prior art keywords
text
current input
embedding
input text
style
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202080055081.9A
Other languages
English (en)
Inventor
戴西·斯坦通
埃里克·迪恩·巴滕贝格
鲁塞尔·约翰·怀亚特·斯克里-瑞安
索罗什·马里奥里亚德
戴维·泰赫-华·高
托马斯·爱德华·巴格比
肖恩·马修·香农
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Google LLC
Original Assignee
Google LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Google LLC filed Critical Google LLC
Publication of CN114175143A publication Critical patent/CN114175143A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • G10L13/047Architecture of speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Biomedical Technology (AREA)
  • Software Systems (AREA)
  • Signal Processing (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Vehicle Body Suspensions (AREA)
  • Stereophonic System (AREA)
  • Massaging Devices (AREA)

Abstract

一种系统(900)包括场境编码器(610)、文本预测网络(520)和文本至语音(TTS)模型(650)。场境编码器被配置成接收与当前输入文本(502)相关联的一个或多个场境特征(602)并处理该一个或多个场境特征以生成与当前输入文本相关联的场境嵌入(612)。文本预测网络被配置成处理当前输入文本和场境嵌入以预测用于当前输入文本的风格嵌入(650)作为输出。风格嵌入指定用于将当前输入文本合成为表达语音的特定韵律和/或风格(680)。TTS模型被配置成处理当前输入文本和风格嵌入以生成当前输入文本的表达语音的输出音频信号(670)。该输出音频信号具有由风格嵌入指定的特定韵律和/或风格。

Description

控制端到端语音合成系统中的表达性
技术领域
本公开涉及在表达端到端语音合成系统中使用场境特征。
背景技术
神经网络是机器学习模型,其采用非线性单元的一层或多层来预测所接收的输入的输出。例如,神经网络可以转换输入文本以输出语音。除了输出层之外,一些神经网络包括一个或多个隐藏层。每个隐藏层的输出被用作对于在网络中下一层的输入,即,下一个隐藏层或输出层。网络的每一层根据相应参数集的当前值从所接收的输入生成输出。
一些神经网络是循环神经网络。循环神经网络是一种接收输入序列并从输入序列生成输出序列的神经网络。特别地,循环神经网络能够在以当前时间步长计算输出时使用来自先前时间步长的一些或所有网络的内部状态。循环神经网络的示例是长短期(LSTM)神经网络,其包括一个或多个LSTM存储块。每个LSTM存储块能够包括一个或多个单元,每个单元包括输入门、忘记门和输出门,其允许该单元存储该单元的先前状态,例如,用于生成当前激活或要被提供给LSTM神经网络的其他组件。
发明内容
本公开的一个方面提供一种用于生成当前输入文本的表达语音的输出音频信号的系统。该系统包括场境编码器、与该场境编码器通信的文本预测网络、和与该文本预测网络通信的文本至语音(TTS)模型。场境编码器被配置成接收与要被合成为表达语音的当前输入文本相关联的一个或多个场境特征,并且处理该一个或多个场境特征以生成与当前输入文本相关联的场境嵌入。每个场境特征是从当前输入文本的文本源推导的。文本预测网络被配置成从文本源接收当前输入文本,从场境编码器接收与当前输入文本相关联的场境嵌入,并且处理当前输入文本和与当前输入文本相关联的场境嵌入以预测当前输入文本的风格嵌入作为输出。文本源包括要被合成为表达语音的文本的序列,并且风格嵌入指定用于将当前输入文本合成为表达语音的特定韵律和/或风格。TTS模型被配置成从文本源接收当前输入文本,接收由文本预测网络预测的风格嵌入,并且处理当前输入文本和风格嵌入以生成当前输入文本的表达语音的输出音频信号。输出音频信号具有由风格嵌入指定的特定韵律和/或风格。
本公开的实施方式可以包括以下可选特征中的一个或多个。在一些实施方式中,与当前输入文本相关联的一个或多个场境特征包括以下各项中的至少一个:当前输入文本;来自文本源的先于当前输入文本的先前文本;从先前文本合成的先前语音;来自文本源的跟随当前输入文本的即将到来的文本;或由文本预测网络基于先前文本和与先前文本相关联的先前场境嵌入所预测的先前风格嵌入。在一些示例中,文本源包括文本文档并且与当前输入文本相关联的一个或多个场境特征包括以下各项中的至少一个:文本文档的标题;文本文档中的章的标题;文本文档中的节的标题;文本文档中的页头标题;文本文档中的一个或多个要点;来自从文本文档中提取的概念图的实体;或从文本文档中提取的一个或多个结构化答案表示。
在其它示例中,文本源包括对话转录并且当前输入文本对应于对话转录中的当前轮次。在这些示例中,与当前输入文本相关联的一个或多个场境特征包括对话转录中与对话转录中的先前轮次相对应的先前文本或对话转录中与对话转录中的下一轮次相对应的即将到来的文本中的至少一个。
文本源还可以包括查询响应系统,其中当前输入文本对应于对在查询响应系统处接收到的当前查询的响应。这里,与当前输入文本相关联的一个或多个场境特征可以包括以下各项中的至少一个:与当前查询相关联的文本或与在查询响应系统处接收到的查询的序列相关联的文本,或与当前查询相关联的音频特征或与在查询响应系统处接收到的查询的序列相关联的音频特征。查询的序列可以包括当前查询和先于当前查询的一个或多个查询。
在一些实施方式中,TTS模型包括编码器神经网络、级联器和基于注意力的解码器循环神经网络。编码器神经网络被配置成从文本源接收当前输入文本并且处理当前输入文本以生成当前输入文本的相应编码序列。级联器被配置成从编码器神经网络接收当前输入文本的相应编码序列,接收由文本预测网络预测的风格嵌入并且生成当前输入文本的相应编码序列与风格嵌入之间的级联。基于注意力的解码器循环神经网络被配置成接收解码器输入的序列,并且对于序列中的每个解码器输入,处理对应的解码器输入和当前输入文本的相应编码序列与风格嵌入之间的级联以生成输出音频信号的r个帧,其中,r包括大于一的整数。
在当TTS模型包括编码器神经网络时的实施方式中,编码器神经网络可以包括编码器去雨(pre-net)神经网络和编码器CBHG神经网络。编码器pre-net神经网络被配置成接收当前输入文本的字符的序列中的每个字符的相应嵌入,并且对于每个字符,处理相应嵌入以生成字符的相应变换的嵌入。编码器CBHG神经网络被配置成接收由编码器pre-net神经网络生成的变换的嵌入,并且处理该变换的嵌入以生成当前输入文本的相应编码序列。在一些配置中,编码器CBHG神经网络包括1-D卷积滤波器组,接着是高速路网络,并且接着是双向循环神经网络。
在一些配置中,文本预测网络包括时间聚合门控循环单元(GRU)循环神经网络(RNN)和一个或多个全连接层。GRU RNN被配置成接收与当前输入文本相关联的场境嵌入和当前输入文本的编码序列,并且通过处理场境嵌入和编码序列来生成固定长度特征向量。一个或多个全连接层被配置成通过处理固定长度特征向量来预测风格嵌入。在这些配置中,一个或多个全连接层可以包括使用ReLU激活的一个或多个隐藏全连接层和使用tanh激活来发出所预测的风格嵌入的输出层。
场境模型、文本预测模型和TTS模型可以被联合地训练。替代地,两步训练过程可以在训练过程的第一步期间训练TTS模型,并且在训练过程的第二步期间联合地分开训练场境模型和文本预测模型。
本公开的另一方面提供一种用于生成当前输入文本的表达语音的输出音频信号的方法。该方法包括在数据处理硬件处,接收来自文本源的当前输入文本。当前输入文本将由文本至语音(TTS)模型合成为表达语音。该方法还包括由数据处理硬件使用场境模型通过处理从文本源推导的一个或多个场境特征来生成与当前输入文本相关联的场境嵌入。该方法还包括由数据处理硬件使用文本预测网络通过处理当前输入文本和与当前输入文本相关联的场境嵌入来预测当前输入文本的风格嵌入。风格嵌入指定用于将当前输入文本合成为表达语音的特定韵律和/或风格。该方法还包括由数据处理硬件使用TTS模型通过处理风格嵌入和当前输入文本来生成当前输入文本的表达语音的输出音频信号。输出音频信号具有由风格嵌入指定的特定韵律和/或风格。
该方面可以包括以下可选特征中的一个或多个。在一些实施方式中,与当前输入文本相关联的一个或多个场境特征包括以下各项中的至少一个:当前输入文本;来自文本源的先于当前输入文本的先前文本;从先前文本合成的先前语音;来自文本源的跟随当前输入文本的即将到来的文本;或由文本预测网络基于先前文本和与先前文本相关联的先前场境嵌入预测的先前风格嵌入。在一些示例中,文本源包括文本文档并且与当前输入文本相关联的一个或多个场境特征包括以下各项中的至少一个:文本文档的标题;文本文档中的章的标题;文本文档中的节的标题;文本文档中的页头标题;文本文档中的一个或多个要点;来自从文本文档中提取的概念图的实体;或从文本文档中提取的一个或多个结构化答案表示。
在其他示例中,文本源包括对话转录并且当前输入文本对应于对话转录中的当前轮次。在这些示例中,与当前输入文本相关联的一个或多个场境特征包括对话转录中与对话转录中的先前轮次相对应的先前文本或对话转录中与对话记录中的下一轮次相对应的即将到来的文本中的至少一个。
文本源还可以包括查询响应系统,其中当前输入文本对应于对在查询响应系统处接收到的当前查询的响应。这里,与当前输入文本相关联的一个或多个场境特征可以包括以下各项中的至少一个:与当前查询相关联的文本或与在查询响应系统处接收到的查询的序列相关联的文本,或与当前查询相关联的音频特征或与在查询响应系统处接收到的查询的序列相关联的音频特征。查询的序列可以包括当前查询和先于当前查询的一个或多个查询。
在一些实施方式中,生成输出音频信号包括:在文本至语音模型的编码器神经网络处,接收来自文本源的当前输入文本;使用编码器神经网络来生成当前输入文本的相应编码序列;使用文本至语音模型的级联器来生成当前输入文本的相应编码序列与风格嵌入之间的级联;在文本至语音模型的基于注意力的解码器循环神经网络处,接收解码器输入的序列;以及对于解码器输入的序列中的每个解码器输入,使用基于注意力的解码器循环神经网络来处理对应的解码器输入和当前输入文本的相应编码序列与风格嵌入之间的级联以生成输出音频信号的r个帧,其中,r包括大于一的整数。在这些实施方式中,生成当前输入文本的相应编码序列包括:在编码器神经网络的编码器pre-net神经网络处,接收当前输入文本的字符的序列中的每个字符的相应嵌入;对于字符的序列中的每个字符,使用编码器pre-net神经网络来处理相应嵌入以生成字符的相应变换的嵌入;以及使用编码器神经网络的编码器CBHG神经网络通过处理变换的嵌入来生成当前输入文本的相应编码序列。在一些配置中,编码器CBHG神经网络包括1-D卷积滤波器组,接着是高速路网络,并且接着是双向循环神经网络。
在一些示例中,预测当前输入文本的风格嵌入包括:使用文本预测模型的时间聚合门控循环单元(GRU)循环神经网络(RNN)通过处理与当前输入文本相关联的场境嵌入和当前输入文本的编码序列来生成固定长度特征向量;以及使用文本预测模型的跟随GRU-RNN的一个或多个全连接层通过处理固定长度特征向量来预测风格嵌入。一个或多个全连接层可以包括使用ReLU激活的一个或多个隐藏全连接层和使用tanh激活来发出所预测的风格嵌入的输出层。
场境模型、文本预测模型和TTS模型可以被联合地训练。替代地,两步训练过程可以在训练过程的第一步期间训练TTS模型,并且在训练过程的第二步期间联合地分开训练场境模型和文本预测模型。
在附图和下面的描述中阐述了本公开的一种或多种实施方式的细节。从描述和附图以及从权利要求中,其他方面、特征和优点将是明显的。
附图说明
图1是示例文本至语音转换系统的示意图。
图2是示例CBHG神经网络的示意图。
图3是用于从输入文本合成语音的操作的示例布置。
图4是用于产生韵律嵌入的示例确定性参考编码器的示意图。
图5A和5B是示例文本预测系统的示意图。
图6A和6B是示例场境预测系统的示意图。
图7A-7D是示例场境文本至语音(TTS)模型的示意图。
图8是示例测试源的示意图。
图9是可以被用于实现本文中描述的系统和方法的示例计算设备的示意图。
图10是用于生成表达语音的输出音频信号的方法的示例操作布置的流程图。
各图中相同的附图标记指示相同的元件。
具体实施方式
逼真的人类语音的合成是一个未确定问题的原因在于相同文本输入具有无限数量的合理口语实现。虽然基于端到端神经网络的方法在进步以与短类似助理的话语的人类性能相匹配,但是神经网络模型有时被视为与包括每个处理步关于细化语言或语音表示操作的多个处理步的更常规模型比不太可理解或可控的。
文本至语音(TTS)系统的主要挑战是开发用于针对一条给定输入文本生成听起来自然的讲话风格的模型。特别地,促成用于产生听起来自然的语音的挑战的一些因素包括高音频保真度、正确的发音以及可接受的韵律和风格,由此“韵律”通常是指诸如音高、重音、中断和节奏的低级特性。韵律影响“风格”,风格是指语音的更高级特性,诸如情绪效价和唤醒度。因此,韵律和风格难以建模,因为它们涵盖要被合成的文本中未指定的信息,并且允许合成语音以无限多种方式被讲出。简而言之,文本未指定的原因在于关于风格和韵律的信息是不可用的,从而让从文本至语音的映射成为一对多问题。
虽然将高级风格标签(例如,传达情绪)或低级注释(例如,音节重音标记、速度控制、音高轨道等)作为输入提供给合成器可以改进韵律和风格的建模,但是这些方法存在许多缺点。即,显式标签难以精确地定义、获取成本高、性质上有噪声,并且不保证与听众感知质量的相关性。此外,用于对韵律和风格进行建模的显式标签输入常常是从手动调谐的启发式或单独地训练的模型而推导的。另外,这些输入从其中被推导的文本通常丢失。
通常,TTS系统通过一次合成单个句子或段落来生成语音。结果,当一条文本从其中被汲取的场境不可访问时,得到的合成语音的自然表达性是有限的。当从诸如有声读物的文本的长篇表达数据集合成语音时传达各式各样讲话风格是特别有挑战性的。例如,简单地将各式各样不同的话音特性折叠成韵律风格的单个平均模型导致合成语音具有可能未准确地反映文本意在传达的适当情绪效价和唤醒度的特定讲话风格。在示例中,应用韵律风格的单个平均模型来合成有声读物的语音不会充分地表示传达不同情绪所需的所有讲话风格,诸如从有声读物中的快乐章到有声读物中接下来的悲伤章的情绪转变。类似地,有声读物可能包含具有显著风格变化的角色声音。在这些示例中,使用韵律风格的平均模型将产生听起来单调的语音,该听起来单调的语音不会传达情绪转变或不同角色声音之间的风格变化。虽然提供对于要被合成的语音传达目标韵律风格的参考音频或者在推断时间手动地选择权重以选择目标韵律风格可以有效地分清不同讲话风格的因素,但是这些方法是在监督学习模型上被训练的并且对于从输入文本(例如,有声读物)的这种长篇表达数据集合成语音不是理想的。
本文中的实施方式针对被配置成应用韵律风格嵌入作为“虚拟”讲话风格标签以便在端到端文本至语音(TTS)模型中用于从输入文本序列生成合成语音的示例性架构。如将变得明显的,这些示例性架构能够使用无监督模型来训练以根据单独从输入文本序列推导的场境学习并预测风格渲染,从而在训练期间既不需要显式标签,在推断时也不需要其他辅助输入。因此,这些实施方式能够单独从文本中捕获讲话者无关的变化因素,包括讲话风格和背景噪声。
本文中的实施方式进一步针对被配置成接收附加场境特征作为用于针对当前输入文本序列预测风格渲染的条件输入的场境预测系统。这里,输入文本序列和每个场境特征可以充当用于预测从输入文本序列合成的语音的合适风格渲染的场境。场境特征可以包括词嵌入、句子嵌入和/或语音标签(例如,名词、动词、形容词等)。如本文中所使用的,可用的场境特征能够包括但不限于先前/过去的文本、即将到来/将来的文本和先前/过去的音频。换句话说,场境特征可以从要被合成的当前输入文本的文本源来推导。能够从包含要被合成的文本的文档结构,诸如标题、章标题、节标题、页头标题、要点等,获得场境特征的附加源。在一些示例中,与来自概念图(例如,维基百科)的实体相关的概念和/或结构化答案表示是源场境特征。此外,在数字助理设置中,从查询(或查询的序列)推导的音频/文本特征可以在合成响应时被用作场境特征,而对话中的前一和/或下一“轮次”的文本可以被推导为用于合成对应对话的场境特征。另外或替代地,虚拟环境内存在的字符和对象(例如,表情符号)也可以是用于针对当前输入文本序列预测风格渲染的场境特征的源。
参考图1,在一些实施方式中,示例文本至语音(TTS)转换系统100包括子系统102,该子系统102被配置成接收输入文本104作为输入并且处理输入文本104以生成语音120作为输出。输入文本104包括特定自然语言的字符的序列。字符的序列可以包括字母表字母、数字、标点符号和/或其他特殊字符。输入文本104能够是不同长度的字符的序列。文本至语音转换系统100是实现为在一个或多个位置中的一个或多个计算机上的计算机程序的系统的示例,其中能够实现下述系统、组件和技术。例如,系统100可以在图9的计算机系统900上运行。
为了处理输入文本104,子系统102被配置成与端到端文本至语音模型150交互,该端到端文本至语音模型150包括序列到序列循环神经网络106(此后为“seq2seq网络106”)、后处理神经网络108和波形合成器110。
在子系统102接收到包括特定自然语言的字符的序列的输入文本104之后,子系统102向seq2seq网络106提供字符的序列作为输入。seq2seq网络106被配置成从子系统102接收字符的序列并且处理字符的序列以生成特定自然语言的字符的序列的口头话语的频谱图。
特别地,seq2seq网络106使用以下各项来处理字符的序列:(i)编码器神经网络112,其包括编码器去雨(pre-net)神经网络114和编码器CBHG神经网络116,以及(ii)基于注意力的解码器循环神经网络118。CBHG是用于卷积(Convolutions)、滤波器组(FilterBanks)和高速路层(Highway layers)、门控循环单元(Gated Recurrent Units)的首字母缩写词。字符的序列中的每个字符能够被表示为独热向量并且被嵌入到连续向量中。即,子系统102能够将序列中的每个字符表示为独热向量,然后在向seq2seq网络106提供序列作为输入之前生成字符的嵌入,即,数值的向量或其他有序合集。
编码器pre-net神经网络114被配置成接收序列中的每个字符的相应嵌入并且处理每个字符的相应嵌入以生成字符的变换的嵌入。例如,编码器pre-net神经网络114能够对每个嵌入应用非线性变换集以生成变换的嵌入。在一些情况下,编码器pre-net神经网络114包括具有漏失的瓶颈神经网络层以提高收敛速度并且改进系统在训练期间的泛化能力。
编码器CBHG神经网络116被配置成从编码器pre-net神经网络206接收变换的嵌入并且处理变换的嵌入以生成字符的序列的编码表示。编码器CBHG神经网络112包括CBHG神经网络200(图2),其在下面参考图2被更详细地描述。如本文中所描述的编码器CBHG神经网络112的使用可以减少过拟合。另外,当与例如多层RNN编码器相比较时,编码器CBHG神经网络112可以产生更少的发音错误。
基于注意力的解码器循环神经网络118(在本文中称为“解码器神经网络118”)被配置成接收解码器输入的序列。对于序列中的每个解码器输入,解码器神经网络118被配置成处理解码器输入和由编码器CBHG神经网络116生成的编码表示以生成字符的序列的频谱图的多个帧。即,不是在每个解码器步生成(预测)一个帧,而是解码器神经网络118生成频谱图的r个帧,其中r是大于一的整数。在许多情况下,在r个帧集之间没有重叠。
特别地,在解码器步t,至少在解码器步t-1生成的r个帧中的最后的帧在解码器步t+1作为输入被馈送到解码器神经网络118。在一些实施方式中,在解码器步t-1生成的所有r个帧在解码器步t+1作为输入被馈送到解码器神经网络118。用于第一解码器步的解码器输入能够是全零帧(即<GO>帧)。对编码表示的注意力被应用于所有解码器步,例如,使用常规注意力机制。解码器神经网络118可以使用具有线性激活的全连接神经网络层在给定解码器步同时地预测r个帧。例如,为了预测5个帧,每个帧是80-D(80维)向量,解码器神经网络118使用具有线性激活的全连接神经网络层来预测400-D向量并且重塑400-D向量以获得5个帧。
通过在每个时间步生成r个帧,解码器神经网络118将解码器步的总数除以r,从而减少模型大小、训练时间和推断时间。另外,该技术实质上提高收敛速度,即,因为它如通过注意力机制学习的那样导致帧与编码表示之间更快的(且更稳定的)对准。这是因为邻近语音帧是相关的并且每个字符通常对应于多个帧。在一时间步发出多个帧允许解码器神经网络118利用这种质量来快速地学习如何,即,被训练成在训练期间高效地关注编码表示。
解码器神经网络118可以包括一个或多个门控循环单元神经网络层。为了加速收敛,解码器神经网络118可以包括一个或多个垂直残差连接。在一些实施方式中,频谱图是诸如梅尔尺度频谱图的压缩频谱图。使用压缩频谱图代替例如原始频谱图可以减少冗余,从而减少在训练和推断期间所需要的计算。
后处理神经网络108被配置成接收压缩频谱图并且处理压缩频谱图以生成波形合成器输入。为了处理压缩频谱图,后处理神经网络108包括CBHG神经网络200(图2)。特别地,CBHG神经网络200包括1-D卷积子网络,接着是高速路网络,并且接着是双向循环神经网络。CBHG神经网络200可以包括一个或多个残差连接。1-D卷积子网络可以包括1-D卷积滤波器组,接着是具有步幅一的沿时间最大池化层。在一些情况下,双向循环神经网络是门控循环单元(GRU)循环神经网络(RNN)。在下面参考图2更详细地描述CBHG神经网络200。
在一些实施方式中,处理神经网络108和序列到序列循环神经网络106被联合地训练。即,在训练期间,系统100(或外部系统)使用相同的神经网络训练技术例如基于梯度下降的训练技术在相同的训练数据集上训练后处理神经网络108和seq2seq网络106。更具体地,系统100(或外部系统)能够反向传播损失函数的梯度的估计以联合地调整后处理神经网络108和seq2seq网络106的所有网络参数的当前值。与具有需要被单独地训练或预训练的组件并且因此每个组件的误差能够复合的常规系统不同,具有被联合地训练的后处理神经网络108和seq2seq网络106的系统更鲁棒(例如,它们具有较小的误差并且能够从头开始训练)。这些优势能够在真实世界中发现的大量丰富的表达性但常常有噪声的数据上训练端到端文本至语音模型150。
波形合成器110被配置成接收波形合成器输入,并且处理波形合成器输入以生成特定自然语言的输入字符的序列的口头话语的波形。在一些实施方式中,波形合成器是Griffin-Lim合成器。在一些其他实施方式中,波形合成器是声码器。在一些其他实施方式中,波形合成器是可训练的频谱图到波形变换器。在波形合成器110生成波形之后,子系统102能够使用波形来生成语音120并且提供所生成的语音120以用于例如在用户设备上回放,或者将所生成的波形提供给另一系统以允许另一系统生成并回放语音。在一些示例中,WaveNet神经声码器替换波形合成器110。与由波形合成器110生成的合成语音相比,WaveNet神经声码器可以提供合成语音的不同的音频保真度。
图2示出示例CBHG神经网络200。CBHG神经网络200能够是包括在编码器CBHG神经网络116中的CBHG神经网络或包括在图1的后处理神经网络108中的CBHG神经网络。CBHG神经网络200包括1-D卷积子网络208,接着是高速路网络212,并且接着是双向循环神经网络214。CBHG神经网络200可以包括一个或多个残差连接,例如,残差连接210。
1-D卷积子网络208可以包括1-D卷积滤波器组204,接着是具有步幅一的沿时间最大池化层206。1-D卷积滤波器组204可以包括1-D卷积滤波器的K个集,其中第k集包括各自具有卷积宽度k的Ck个滤波器。1-D卷积子网络208被配置成接收输入序列202,例如,由编码器pre-net神经网络114(图1)生成的字符的序列的变换的嵌入。子网络208使用1-D卷积滤波器组204来处理输入序列202以生成输入序列202的卷积输出。子网络208然后将卷积输出堆叠在一起并且使用具有步幅一的沿时间最大池化层206来处理堆叠后的卷积输出以生成最大池化输出。子网络208然后使用一个或多个固定宽度1-D卷积滤波器来处理最大池化输出以生成子网络208的子网络输出。
在1-D卷积子网络208生成子网络输出之后,残差连接210被配置成将子网络输出与原始输入序列202组合以生成卷积输出。高速路网络212和双向循环神经网络214然后被配置成处理卷积输出以生成字符的序列的编码表示。特别地,高速路网络212被配置成处理卷积输出以生成字符的序列的高级特征表示。在一些实施方式中,高速路网络包括一个或多个全连接神经网络层。
双向循环神经网络214被配置成处理高级特征表示以生成字符的序列的顺序特征表示。顺序特征表示表示特定字符周围的字符的序列的局部结构。顺序特征表示可以包括特征向量的序列。在一些实施方式中,双向循环神经网络是门控循环单元神经网络。
在训练期间,能够使用批归一化方法来训练1-D卷积子网络208的一个或多个卷积滤波器,在S.Ioffe和C.Szegedy,“Batch normalization:Accelerating deep networktraining by reducing internal covariate shift,(批归一化:通过减少内部协变量偏移来加速深度网络训练)”arXiv preprint arXiv:1502.03167,2015中其被详细地描述。在一些实施方式中,CBHG神经网络200中的一个或多个卷积滤波器是非因果卷积滤波器,即,在给定时间步T能够在两个方向(例如,……、T-1、T-2和T+1、T+2、……等)上与周围输入进行卷积的卷积滤波器。相比之下,因果卷积滤波器仅能够与先前输入(……、T-1、T-2等)进行卷积。在一些其他实施方式中,CBHG神经网络200中的所有卷积滤波器都是非因果卷积滤波器。非因果卷积滤波器、批归一化、残差连接和具有步幅一的沿时间最大池化层的使用改进CBHG神经网络200在输入序列上的泛化能力,从而使文本至语音转换系统能够生成高质量语音。
图3是用于从字符的序列生成语音的方法300的操作的示例布置。为了方便,方法300将被描述为由位于一个或多个位置中的一个或多个计算机的系统执行。例如,适当地编程的文本至语音转换系统(例如,图1的文本至语音转换系统100)或文本至语音转换系统的子系统(例如,图1的子系统102)能够执行方法300。
在操作302,方法300包括系统接收特定自然语言的字符的序列,并且在操作304,方法300包括系统向序列到序列的输入(seq2seq)循环神经网络106提供字符的序列作为输入以获得特定自然语言的字符的序列的口头话语的频谱图作为输出。在一些实施方式中,频谱图是压缩频谱图,例如,梅尔尺度频谱图。特别地,seq2seq循环神经网络106使用编码器神经网络112来处理字符的序列以生成序列中的每一个字符的相应编码表示,该编码器神经网络112包括编码器pre-net神经网络114和编码器CBHG神经网络116。
更具体地,字符的序列中的每个字符能够被表示为独热向量并且被嵌入到连续向量中。编码器pre-net神经网络114接收序列中的每个字符的相应嵌入并且处理序列中的每个字符的相应嵌入以生成字符的变换的嵌入。例如,编码器pre-net神经网络114能够对每个嵌入应用非线性变换集以生成变换的嵌入。编码器CBHG神经网络116然后从编码器pre-net神经网络114接收变换的嵌入并且处理变换的嵌入以生成字符的序列的编码表示。
为了生成字符的序列的口头话语的频谱图,seq2seq循环神经网络106使用基于注意力的解码器循环神经网络118来处理编码表示。特别地,基于注意力的解码器循环神经网络118接收解码器输入的序列。序列中的第一解码器输入是预定初始帧。对于序列中的每个解码器输入,基于注意力的解码器循环神经网络118处理解码器输入和编码表示以生成频谱图的r个帧,其中r是大于一的整数。所生成的r个帧中的一个或多个能够被用作序列中的下一解码器输入。换句话说,序列中的每个其他解码器输入是通过处理序列中先于解码器输入的解码器输入生成的r个帧中的一个或多个。
基于注意力的解码器循环神经网络的输出因此包括形成频谱图的多个帧集,其中每个集包括r个帧。在许多情况下,在r个帧集之间没有重叠。通过一次生成r个帧,由基于注意力的解码器循环神经网络执行的解码器步的总数减少了因数r,从而减少训练和推断时间。该技术通常还帮助提高基于注意力的解码器循环神经网络和系统的收敛速度和学习速率。
在操作306,方法300包括使用特定自然语言的字符的序列的口头话语的频谱图来生成语音。在一些实施方式中,当频谱图是压缩频谱图时,系统能够从压缩频谱图生成波形并且使用该波形来生成语音。
在操作308,方法300包括提供所生成的语音以供回放。例如,方法300可以通过越过网络将所生成的语音从系统发送到用户设备(例如,音频扬声器)以供回放来提供所生成的语音以用于回放。
图4示出由“Towards End-to-End Prosody Transfer for Expressive SpeechSynthesis with Tacotron(利用Tacotron实现表达性语音合成的端到端韵律转移)”,arXiv preprint arXiv:1803.09047,2018年3月24日公开的确定性参考编码器400,其内容通过引用以其整体并入。在一些实施方式中,参考编码器400被配置成接收参考音频信号402并且根据参考音频信号402生成/预测固定长度韵律嵌入PE 450(也称为‘韵律嵌入’)。韵律嵌入PE 450可以捕获与语音信息和特异性讲话者性状,诸如重音、语调和定时,无关的参考音频信号402的特性。韵律嵌入PE 450可以被用作用于执行韵律转移的输入,在该韵律转移中为与参考讲话者完全不同的讲话者生成合成语音,但是显示出参考讲话者的韵律。
在所示示例中,参考音频信号402可以被表示为具有长度LR和维度DR的频谱图切片。与参考音频信号402相关联的频谱图切片可以指示梅尔翘曲(Mel-warped)频谱。在所示示例中,参考编码器400包括六层卷积层网络404,其中每个层包括具有2x2步幅、相同填充和ReLU激活的3x3滤波器。批归一化被应用于每一层,并且每个层中的滤波器的数量以下采样速率:32、32、64、128、128的一半加倍。具有单个128宽度门控循环单元(GRU-RNN)层的循环神经网络410从最后卷积层接收输出406并且输出128维输出412,该128维输出412被应用于全连接层420,接着是输出所预测的韵律嵌入PE 450的激活函数430。循环神经网络410可以包括其他类型的双向循环神经网络。
对参考编码器400中的激活函数430(例如,softmax或tanh)的选择可以约束包含在韵律嵌入PE 450中的信息并且通过控制韵律嵌入PE450的幅度来帮助促进学习。此外,对输入到参考编码器400的参考音频信号402的长度LR和维度DR的选择影响由编码器400学习的韵律的不同方面。例如,音高轨道表示可能不许可在某种语言中对突出度进行建模,因为编码器不包含能量信息,然而梅尔频率倒谱系数(MFCC)表示可能,至少在取决于所训练的系数的数量的一定程度上,防止编码器400对语调进行建模。
虽然从参考编码器400输出的韵律嵌入PE 450在多种不同的TTS架构中能够被用于产生合成语音,但是在推断时间产生韵律嵌入PE 450需要种子信号(例如,参考音频信号402)。例如,种子信号可能是“Say it like this(像这样说)”参考音频信号402。替代地,为了传达具有期望韵律/风格的合成语音,一些TTS架构能够被适配成在推断时间使用手动风格嵌入选择而不是使用参考编码器400来从种子信号输出韵律嵌入PE 450。参考图5A和图5B,在一些实施方式中,文本预测系统500、500a-b被配置成在推断时间没有种子信号(例如,参考音频信号402)或手动风格嵌入选择的情况下根据输入文本502预测风格嵌入SE550,并且向端到端TTS模型650提供所预测的风格嵌入SE 550以用于将输入文本502转换成具有由风格嵌入SE 550指定的风格/韵律的合成语音680(图6A和图6B)。即,文本预测系统500使用输入文本502作为场境的源来预测由TTS模型650合成的表达语音680的讲话风格,而不用依靠在推断时间的辅助输入。
在训练期间,图5A和图5B的文本预测系统500包括参考编码器400、风格标记层510、文本预测模型520、520a-b和端到端TTS模型650。文本预测模型520还可以被称为文本预测网络520。参考编码器400可以包括上面参考图4描述的参考编码器400。在所示示例中,参考编码器400被配置成从参考音频信号402输出韵律嵌入PE 450并且向风格标记层510提供韵律嵌入PE 450以用于生成风格嵌入SE 550,该风格嵌入SE 550传达与参考音频信号402相关联的韵律和/或风格信息。参考音频信号402的转录与输入到TTS模型650的文本编码器652的输入文本502的字符的序列(也称为“输入文本序列”)相匹配,使得从解码器658输出的得到的输出音频信号670(图6A和图6B)将与参考音频信号402相匹配。另外,文本预测模型520还使用文本编码器652来接收与参考音频信号402的转录相对应的输入文本502的每个训练样本以用于预测与由风格标记层510生成的风格嵌入SE 550相关联的组合权重(CW)516P(图5A)或者以用于直接预测与由风格标记层510生成的风格嵌入SE 550相匹配的风格嵌入SE 550P(图5B)。因此,训练阶段使用参考音频信号402的训练集(例如,地面实况)和输入文本502的对应转录来许可文本预测模型520的联合训练,以针对输入文本502的每个训练样本预测风格嵌入SE 550P,并且使用TTS模型650来确定(经由解码器658)具有由目标风格嵌入SE 550T指定的风格/韵律并且与参考音频信号402的训练样本相匹配的输出音频信号670。
在一些实施方式中,风格标记层510包括由“Style Tokens:Unsupervised StyleModeling,Control and Transfer in End-to-End Speech Synthsis(风格标记:端到端语音合成中的无监管风格建模、控制和转移)”,arXiv preprint arXiv:1803.09017,2018年3月23日公开的风格标记层,其内容通过引用以其整体并入。风格标记层510包括风格注意力模块512,该风格注意力模块512被配置成在训练期间以无监督方式学习可训练的风格标记514、514a-n的凸组合,这些可训练的风格标记表示从参考编码器400输出的韵律嵌入PE450。这里,风格标记层510使用韵律嵌入PE 450作为对注意力模块512的查询向量,该注意力模块512被配置成学习韵律嵌入与随机初始化的风格标记514组、514a-n中的每个风格标记514之间的相似性量度。风格标记514(也称为“风格嵌入”)可以包括跨所有训练序列共享的对应嵌入。因此,注意力模块512输出表示每个风格标记514对编码韵律嵌入PE 450的贡献的组合权重516集、516a-n。注意力模块512可以通过经由softmax激活使风格标记514归一化来确定组合权重516。从风格标记层510输出的得到的风格嵌入SE 550对应于风格标记514的加权和。每个风格标记514可以包括与文本编码器502的状态的维度相匹配的维度。虽然示例显示风格标记层510包括五(5)个风格标记514,但是风格标记层510可以包括任何数量的风格标记514。在一些示例中,选择十(10)个风格标记514以在训练数据中提供丰富多样的韵律维度。
在一些配置中,风格标记层510与TTS模型650和文本预测模型520被联合地训练。在其他配置中,风格标记层510和TTS模型650被分开训练,然而风格标记层510和文本预测模型520被联合地训练。
继续参考图5A和图5B,文本预测网络520各自接收从TTS模型650的文本编码器652输出的编码序列653作为输入。这里,编码序列653对应于输入文本序列502的编码。在一些示例中,文本编码器652包括CBHG神经网络200(图2)以将输入文本序列502编码成可变长度编码序列653以对输入文本序列502中的局部和场境信息显式地建模。输入文本序列502可以包括自韵律被解决以来由文本归一化前端和词典产生的音素输入,而不是模型从字素学习发音的能力。文本预测网络520包括双向RNN 522,诸如64单元时间聚合GRU-RNN 522,其充当文本编码器502的综合器,类似于128单元GRU-RNN 410(图4)如何通过将可变长度输入(例如,编码序列553)时间聚合成固定长度(例如,64维)输出524来充当参考编码器400的综合器。这里,固定长度输出524对应于固定长度文本特征向量,即,固定长度文本特征524。
文本预测网络520a、520b提供用于在基于输入文本502的推断期间预测风格嵌入550的两个文本预测途径。可以通过使用被配置成停止梯度流的算子来联合地训练这些网络520a、520b中的每一个。参考图5A,文本预测模型520a提供第一文本预测途径来通过使用根据输入文本序列502预测的组合权重516、516P来预测在训练期间学习的风格标记514。文本预测模型520a可以被称为文本预测组合权重(TPCW)模型520a。在对模型520a进行无监督训练的训练阶段期间,模型520a将由风格标记层510确定的组合权重516设置为预测目标,然后将从时间聚合GRU-RNN 522输出的固定长度文本特征524馈送到全连接层526。因此,组合权重516、516T可以被称为目标组合权重(CW)516T。由于反向传播能够更新风格注意力模块512和风格标记514,所以组合权重516T可以在训练阶段期间形成移动目标。在一些示例中,全连接层526被配置成输出与所预测的组合权重516P相对应的分对数以允许模型520a确定所预测的组合权重516P与从风格标记层510输出的目标组合权重516T之间的交叉熵损失。通过插值,能够根据这些预测的组合权重516P预测风格嵌入SE 550。此后,模型520a可以被配置成停止梯度流以防止任何文本预测误差通过风格标记层510的反向传播。此外,能够在训练期间将交叉熵损失添加到TTS模型650的最终损失。
继续参考图5A,在推断阶段期间,风格标记514是固定的并且文本预测模型520a(TPCW模型520a)被配置成单独基于输入文本序列502预测组合权重516P。这里,输入文本序列502对应于TTS模型650要将其合成为表达语音的当前输入文本。因此,文本编码器652将输入文本序列502编码成编码序列653并且将该编码序列653提供给TTS模型650的级联器654和文本预测模型520a两者以用于预测组合权重516P。这里,模型520a可以使用所预测的组合权重516P来确定所预测的风格嵌入SE 550P并且将所预测的风格嵌入SE 550P提供给TTS模型650的级联器654。在一些示例中,级联器654级联从文本编码器652输出的编码序列653和所预测的风格嵌入SE 550P输出,并且将级联提供给TTS模型650的解码器658以用于转换成具有由所预测的风格嵌入SE指定的风格/韵律的合成语音680。
参考图5B,文本预测模型520b忽略在训练期间学习的风格标记514和组合权重516并且根据输入文本序列502直接预测风格嵌入SE 550。文本预测模型520b可以被称为文本预测风格嵌入(TPSE)模型520b。在模型520b以无监督方式(并且还与图5A的模型520a一起联合地)被训练的训练阶段期间,模型520b将风格嵌入SE 550(550T)设置为预测目标并且将从时间聚合GRU-RNN 522输出的固定长度文本特征524馈送到一个或多个全连接层527以输出所预测的风格嵌入SE 550、550P。在一些示例中,全连接层527包括使用ReLU激活的一个或多个隐藏全连接层和使用tanh激活来发出文本预测的风格嵌入SE 550P的输出层。在一些示例中,由输出层应用的tanh激活被选取成与文本编码器652的最终双向GRU-RNN(例如,图2的CBHG神经网络200的双向RNN 214)的tanh激活相匹配。类似地,该tanh激活可以与由风格标记层510的注意力风格模块512使用的风格标记tanh激活相匹配。
在一些实施方式中,文本预测模型520确定所预测的风格嵌入SE 550P与从风格标记层510输出的目标风格嵌入SE 550T之间的L1损失。此后,模型520b可以被配置成停止梯度流以防止任何文本预测误差通过风格标记层510的反向传播。此外,交叉熵损失能够在训练期间被添加到TTS模型650的最终损失。
继续参考图5B,在推断阶段期间,文本预测模型520b(TPSE模型520b)忽略风格标记层510并且单独基于输入文本序列502直接预测风格嵌入SE 550P。与图5A的TPCW模型520a一样,输入文本序列502对应于TTS模型650要将其合成为表达语音的当前输入文本。因此,文本编码器652将输入文本序列502编码成编码序列653并且将该编码序列653提供给TTS模型650的级联器654和文本预测模型520b两者以用于预测风格嵌入SE 550P。在预测风格嵌入SE 550P之后,系统520b将所预测的风格嵌入SE 550P提供给TTS模型650的级联器654。在一些示例中,级联器654级联从文本编码器652输出的编码序列653和所预测的风格嵌入SE 550P,并且将级联提供给TTS模型650的解码器658以用于转换成具有由所预测的嵌入SE指定的风格/韵律的合成语音680。
图6A和图6B包括场境预测系统600的训练(图6A)和推断(图6B)阶段,该场境预测系统600被配置成在推断时没有种子信号(例如,参考音频信号402)或手动风格嵌入选择的情况下根据输入文本502和与输入文本502相关联的一个或多个场境特征602预测风格嵌入SE 550。与图5A和图5B的文本预测系统500一样,所预测的风格嵌入SE 550从文本预测网络520被馈送到端到端TTS模型650以用于将输入文本502转换成具有由风格嵌入SE 550指定的风格/韵律的输出音频信号670。系统600可以使用存储在存储器硬件920(图9)上的指令在数据处理硬件910(图9)上运行。在所示示例中,系统600包括场境模型610、参考编码器400、与场境模型610通信的文本预测网络520、以及与文本预测模型520通信的TTS模型650。
通常,场境模型610被配置成接收并处理一个或多个场境特征602以生成与当前输入文本502相关联的场境嵌入612。当前输入文本502是指要被合成为表达语音680的字符的序列。在一些示例中当前输入文本502可以是单个句子,然而在其他示例中,当前输入文本502包括段落。当前输入文本502中的字符的序列和当前输入文本502的得到的合成表达语音680与特定语言相关联。此外,可以从当前输入文本502的文本源800(图8)推导每个场境特征602,由此文本源800包括要被合成为表达语音680的文本的序列。
文本预测模型520可以包括上面参考图5A和图5B描述的文本预测模型520。如本文中所使用的,术语“文本预测模型”和“文本预测网络”被可互换地使用。然而,通过与图5A和图5B对比,系统600可以将文本预测模型520修改成除了接收当前输入文本502之外还接收由场境模型610基于与当前输入文本502相关联的一个或多个场境特征602所生成的场境嵌入612作为输入。此后,场境预测系统600的文本预测模型520被配置成处理当前输入文本502和与当前输入文本502相关联的场境嵌入612以预测当前输入文本502的风格嵌入SE550、550P作为输出。如上面参考图5A所描述的,文本预测模型520可以被配置成预测表示风格标记514集的贡献的组合权重516P,使得所预测的风格嵌入SE 550P能够基于风格标记514的加权和被插值。另一方面,如上面参考图5B所描述的,文本预测模型520可以被配置成根据当前输入文本502和场境嵌入612直接预测风格嵌入SE 550P。不管风格嵌入SE 550P是由文本预测模型520经由插值还是直接预测的,风格嵌入SE 550P都是在推断时不使用种子信号(例如,参考音频信号402)或手动风格嵌入选择的情况下被预测的。
在一些示例中,TTS模型650被配置成接收当前输入文本502(例如,来自文本源800),接收由文本预测模型520预测的风格嵌入SE 550P,并且处理输入文本502和风格嵌入SE 550P以生成当前输入文本502的表达语音的输出音频信号670。这里,输出音频信号670具有由风格嵌入SE 550指定的特定韵律和风格。
TTS模型650包括编码器652、级联器654、注意力模块656、解码器658和合成器475。在一些实施方式中,TTS模型650包括图1的TTS模型150。例如,编码器652、注意力模块656和解码器658可以共同地对应于seq2seq循环神经网络106,并且合成器675可以包括波形合成器110或WaveNet神经声码器。然而,对合成器675的选择对合成语音680的得到的韵律和/或风格没有影响,并且在实践中,仅影响合成语音680的音频保真度。注意力模块656可以包括高斯混合模型(GMM)注意力以改进对长话语的泛化。因此,TTS模型650的编码器652可以使用CBHG神经网络200(图2)来将输入文本502编码成被馈送到级联器654的编码序列653。从文本预测模型520输出的所预测的风格嵌入SE 550P也被馈送到级联器654,并且级联器654被配置成在当前输入文本502的相应编码序列653与风格嵌入SE 550P之间生成级联655。在一些示例中,级联器654包括广播级联器。在一些实施方式中,注意力模块656被配置成针对解码器658的每个输出步将级联655转换为固定长度场境向量657以产生输出音频信号670,yt
输入文本502可以包括自韵律被解决以来由文本归一化前端和词典产生的音素输入,而不是模型从字素学习发音的能力。然而,输入文本502可以附加地或替代地包括字素输入。注意力模型656和解码器658可以共同地包括基于注意力的解码器循环神经网络118(图1)并且使用等于二(2)的缩减因子,从而每时间步产生两个频谱图帧(例如,输出音频信号670)。在一些示例中,使用概率等于0.1的zoneout的256单元长短期记忆(LSTM)的两个层可以替换解码器658的GRU单元。在其他实施方式中,TTS模型650包括2018年8月8日提交的美国申请No.16/058,640中公开的语音合成系统,该申请的内容通过引用以其整体并入。
在训练阶段期间,图6A示出包括参考编码器400的场境预测系统600,该参考编码器400被配置成根据参考音频信号402输出韵律嵌入PE 450并且将韵律嵌入PE 450提供给风格标记层510以用于生成风格嵌入SE 550(550T),其传达与参考音频信号402相关联的韵律和/或风格信息。在上面参考图5A和图5B描述了参考编码器400和风格标记层510。参考音频信号402的转录与输入到文本编码器652的输入文本502的字符的序列(也称为‘输入文本序列’)相匹配,使得从解码器658输出的得到的输出音频信号670将与参考音频信号402匹配。在一个示例中,参考音频信号402可以包括讲话者阅读文本文档(例如,文本源)并且输入文本502的对应转录对应于讲话者正在从其中阅读的文本文档中的文本/句子。
场境特征602是从当前输入文本502的文本源800推导的,其中,场境模型610被配置成通过处理场境特征602来生成与当前输入文本502相关联的场境嵌入612并且将场境嵌入612馈送到文本预测模型520。例如,在上述示例中,场境特征602是从文本文档推导的,并且可以包括但不限于要被合成的当前输入文本502(Tt)、来自文本源的先于当前输入文本的先前文本(Tt-1)、从先前文本合成的先前语音680(例如,先前输出音频信号670(yt-1))、来自文本源的跟随当前输入文本的即将到来的文本(Tt+1)、由文本预测网络520基于先前文本和与先前文本相关联的先前场境嵌入所预测的先前风格嵌入。另外,从文本文档推导的一个或多个场境特征602d可以包括以下各项中的至少一个:文本文档的标题;文本文档中的章的标题;文本文档中的节的标题;文本文档中的页头标题;文本文档中的一个或多个要点;来自从文本文档中提取的概念图的实体;或从文本文档中提取的一个或多个结构化答案表示。在一些示例中,与文本(例如,当前输入文本、先前文本、即将到来的文本等)相关联的场境特征602包括从文本中提取的特征,这些特征可以包括但不限于每个词的元音级嵌入、词级嵌入、句子级嵌入、段落级嵌入和/或语音标签(例如,名词、动词、形容词等)。
另外,文本预测模型520接收与参考音频信号402的转录相对应的输入文本502的每个训练样本和针对输入文本502的每个训练样本生成的对应场境嵌入612以用于预测与由风格标记层510生成的风格嵌入SE 550相关联的组合权重(CW)516P(图5A)或者以用于直接预测与由风格标记层510生成的风格嵌入SE 550相匹配的风格嵌入SE 550P(图5B)。因此,训练阶段使用参考音频信号402的训练集(例如,地面实况)、输入文本502的对应转录、以及从输入文本502的转录推导的场境特征602来许可场境模型610和文本预测模型520的联合训练,以针对输入文本502的每个训练样本预测风格嵌入SE 550P,并且使用TTS模型650来确定(经由解码器658)具有由目标风格嵌入SE 550T指定的风格/韵律并且与参考音频信号402的训练样本相匹配的输出音频信号670。然而,在一些配置中,训练阶段替代地包括两步训练过程,其中参考编码器400、风格标记层510和TTS模型650在训练过程的第一步期间被预训练和冻结,而场境模型610和文本预测模型520在训练过程的第二步期间被分开训练。
图6B示出在用于根据当前输入文本502(Tt)和与当前输入文本502相关联的一个或多个场境特征602预测风格嵌入SE 550P的在推断阶段期间省略参考编码器400和风格标记层510的场境预测系统600。文本预测模型520可以经由第一文本预测途径(图5A)或第二文本预测途径(图5B)中的任何一个预测风格嵌入SE 550P。这里,当前输入文本502对应于来自文本源800(图8)的TTS模型650要将其合成为表达语音的当前输入文本。图8示出包括要被合成为表达语音的文本的序列的示例文本源800。文本源800仅作为示例被提供,并且可以包括包含能够被合成为表达语音的文本的其他文本源800(未示出)。文本源800可以包括文本文档、对话转录、查询响应系统或虚拟环境。文本文档能够涵盖从诸如小说/教科书的长篇文本文档到诸如网页或谈话文档的短篇文档的各式各样文档。
对于文本文档,场境特征602可以包括独白场境,诸如先前文本(例如,在当前文本502之前的N个句子)、与先前文本相对应的先前音频670、即将到来的文本(例如,在当前文本502之后的N个句子)。例如,描述悲伤事件的先前文本能够帮助预测用于合成当前文本的表达语音的风格嵌入,该风格嵌入传达指示悲伤情绪的韵律/风格。场境特征602还可以从诸如标题、章标题、节标题、页头标题、要点等的文档结构被推导。文本文档还可以包括诸如来自可以被提取作为场境特征602的概念图(例如,维基百科条目)的实体的概念。
对于查询响应系统(例如,问答),场境特征602可以包括来自口头查询的音频/文本特征或来自当前文本502对应于要被合成为表达语音的响应的转录的文本查询的文本特征。场境特征602可以包括来自导致当前响应的查询的序列的音频/文本特征。另外或替代地,场境特征602可以从由数字助理使用的响应的结构化答案表示中被提取。对于对话转录(轮换),场境特征602可以包括对话中的先前“轮次”的先前文本特征和/或对话中的下一“轮次”的即将到来的文本特征。与虚拟环境相对应的文本源800可以提供与虚拟环境中存在的任何字符和/或对象相对应的场境特征802。
返回参考图6B的推断阶段,当前输入文本502可以是包括在文本源800如书(例如,文本文档)中的一条文本(例如,一个或多个句子),并且一个或多个场境特征602是从文本源800推导的。例如,文本文档可以是电子书(e-book)并且计算设备900可以运行将电子书合成为表达语音680的电子阅读器软件。因此,运行电子阅读器软件的计算设备900可以运行场境预测系统600以仅基于输入文本502和场境特征602(例如,在不使用控制/选择韵律/风格的任何辅助输入的情况下)合成具有自然发声韵律/风格的表达语音680。在另一示例中,当文本源800包括对话转录时,要被合成的当前输入文本502对应于对话转录中的当前轮次。在该示例中,场境特征602可以包括对话转录中与对话转录中的先前轮次相对应的先前文本和/或对话转录中与对话转录中的下一轮次相对应的即将到来的文本。在又一示例中,当文本源800包括允许用户向计算设备900(图9)输入文本或口语查询的查询响应系统(例如,诸如数字助理)并且搜索引擎(远程的或在用户设备上)提取要被合成为表达语音680的响应以从计算设备获得可听输出时,当前输入文本对应于对当前查询的响应,并且场境特征包括以下各项中的至少一个:与当前查询相关联的文本或与在查询响应系统处接收到的查询的序列相关联的文本、或与当前查询相关联的音频特征或与在查询响应系统处接收到的查询的序列相关联的音频特征。这些场境特征602能够从文本源800容易地推导以提供附加场境用于更精确地预测最好地传达从当前输入文本502合成的表达语音680的自然风格/韵律的风格嵌入SE 550。
图7A-7D图示实现图6A和图6B的场境预测系统600以便在多个时间步上合成表达语音的示例场境TTS网络700a-d。虽然TTS网络700a-d利用场境特征602和输入文本502两者来预测风格嵌入SE 550,但是TTS网络700a-d能够被修改成如上面关于图5A和图5B的文本预测系统500所描述的那样使用仅输入文本502来预测风格嵌入SE 550。为了简化,场境TTS网络700a-d包括TTS模型650和共同地包括上面参考图6A和图6B描述的场境模型610和文本预测模型520的场境模块710。在当使用仅当前输入文本(例如,实现文本预测系统500)时的配置中,场境模块710可以简单地包括文本预测模型520,其中当前输入文本是输入到场境模块710的唯一场境模块。如本文中所使用的,“T”表示文本输入502,“t”表示指示时间步的索引,“x”表示场境模块输入,“y”表示从TTS模型650输出的输出音频信号670,并且“SE”表示风格嵌入550。
图7A示出端到端训练单个模型以使音频重构误差最小化并且能够在每个时间步使用对所有先前场境模块输入(xt-1、xt、xt+1)的注意力来计算场境模块710的相应场境状态(st-2、st-1、st、st+1)的完整场境TTS网络700a的示意图。在每个时间步(t-1、t、t+1)期间,场境模块710接收在先前时间步从场境模块710输出的场境状态(st-2、st-1、st、st+1)以及包括当前文本输入Tt、先前文本输入Tt-1和先前输出音频信号yt-1的任何组合的场境模块输入(xt-1、xt、xt+1)。这里,先前输出音频信号对应于针对先前时间步t-1的先前输入文本Tt-1从TTS模型650输出的输出音频信号。在每个时间步(例如,当前时间步“t”)期间,场境模块710通过处理场境状态(st-1)和当前场境模块输入(xt)来计算对应的场境输出(ct)。在一些示例中,场境模块输入xt还可以包括在有或没有其他前述输入的任何组合的情况下由TTS模型650在后续时间步t+1期间要合成的即将到来的文本Tt+1。该选项对长篇应用,诸如在计算设备上运行以便合成电子书中的文本的语音的电子阅读器来说,可能是尤其有益的。在一些实施方式中,当TTS模型650用于谈话语音合成时,在具有完美奖励函数的真实环境中使用重构损失(RL)来训练网络700a。在这些实施方式中,场境模块输入xt还可以包括与谈话语音合成相关联的一个或多个环境输入Et
图7B示出不像在图7A的网络700a中一样在所有先前场境模块输入上计算场境状态的单步场境TTS网络700b的示意图。替代地,在每个时间步(例如,当前时间步“t”)期间,场境模块710仅接收包括当前文本输入Tt、先前文本输入Tt-1和先前输出音频信号yt-1的任何组合的场境模块输入(xt-1、xt、xt+1),并且通过处理当前场境模块输入(xt)来计算对应场境输出(ct)。场境模块输入xt还可以包括与谈话语音合成相关联的一个或多个环境输入Et。与图7A的完整场境TTS网络700a一样,单步场境TTS网络700b端到端训练单个模型,但是由于未计算使用对所有先前场境模块输入的注意力的场境状态,所以不能跟踪长期场境。在一些示例中,网络700b在截断马尔可夫(单步)状态上训练以提高训练效率。
图7C示出解耦的完整场境TTS网络700c的示意图,其中场境模块710和TTS模型650被分开训练,而不是端到端训练单个模型。即,网络700c使用两步训练过程来训练。例如,在训练过程的第一步期间结合风格编码器750预训练TTS模型650,该风格编码器750被配置成针对每个时间步(t)基于参考音频信号yref(t)生成目标风格嵌入SE(t)。在一些示例中,风格编码器750共同地包括图5A和图5B的韵律编码器400和风格标记层410。TTS模型650然后接收并处理输入文本Tt和目标风格嵌入SE以产生输出音频信号yt。这里,对于当前时间步t,输出音频信号yt与参考音频信号yref(t)相匹配并且输入文本Tt对应于参考音频信号yref(t)的转录。
在两步训练过程的第二步期间,解耦的场境模块710使用由预训练后的风格编码器750针对每个时间步(t)生成的目标风格嵌入SE(t)来预测对应风格嵌入SE(t)。与图7A的完整场境TTS网络700a一样,解耦的完整场境TTS网络700b能够在每个时间步使用对所有先前场境模块输入(xt-1、xt、xt+1)的注意力来计算场境模块710的相应场境状态(st-2、st-1、st、st+1)。然而,由于场境模块710被解耦,所以在每个时间步的场境模块输入(xt-1、xt、xt+1)不包括针对先前时间步t-1的先前输入文本Tt-1从TTS模型650输出的输出音频信号。替代地,在每个时间步的场境模块输入包括当前输入文本Tt、先前风格嵌入SE(t-1)和由TTS模型650在后续时间步t+1期间要合成的即将到来的文本Tt+1的任意组合。这里,先前风格嵌入SE(t-1)包括对应于针对先前时间步t-1的先前场境模块输入xt-1从场境模块710输出的风格嵌入。
图7D示出不像在图7C的网络700c中一样在所有先前场境模块输入上计算场境状态的解耦的单步场境TTS网络700d的示意图。替代地,在每个时间步(例如,当前时间步“t”)期间,场境模块710仅接收包括当前输入文本Tt、先前风格嵌入SE(t-1)和即将到来的文本Tt+1的任何组合的场境模块输入(xt-1、xt、xt+1),然后通过处理当前场境模块输入(xt)来计算/预测对应的当前风格嵌入SE(t)。场境模块输入xt还可以包括与谈话语音合成相关联的一个或多个环境输入Et。与图7D的解耦的完整场境TTS网络700c一样,解耦的单步场境TTS网络700d使用两步训练过程来训练,其中风格编码器750和TTS模型650被解耦并且与场境模块710分开预训练,但是由于未计算使用对所有先前场境模块输入的注意力的场境状态,所以不能跟踪长期场境。
通过使场境模块710与TTS模型650解耦,网络700c、700d各自提供良好的训练效率,其中,跟踪长期场境的能力仅在网络700c中是可用的。另外,使TTS模型650解耦许可将TTS模型650用于场境模式(如图5A-6B中描述的)和其中风格嵌入空间充当控制接口的韵律/风格转移(例如,“say it like this”)两者。即,能够训练单个TTS模型650以供在场境模式和韵律转移两者中使用,在场境模式中,(在不使用参考音频信号或手动风格嵌入选择的情况下)单独从输入文本(图5A和图5B的文本预测系统500)或输入文本和场境特征的组合(图6A和图6B的场境预测系统600)产生风格嵌入,在韵律转移中,在推断时提供参考音频信号(例如,像这样说)或手动风格嵌入以便将韵律风格从一个讲话者转移到另一讲话者。
软件应用(即,软件资源)可以是指使计算设备执行任务的计算机软件。在一些示例中,软件应用可以被称为“应用”、“app”或“程序”。示例应用包括但不限于系统诊断应用、系统管理应用、系统维护应用、词处理应用、电子表格应用、消息传送应用、媒体流送应用、社交网络应用和游戏应用。
非暂时性存储器可以是用于在临时或永久基础上存储程序(例如,指令的序列)或数据(例如,程序状态信息)以供由计算设备使用的物理设备。非暂时性存储器可以是易失性和/或非易失性可寻址半导体存储器。非易失性存储器的示例包括但不限于闪存和只读存储器(ROM)/可编程只读存储器(PROM)/可擦除可编程只读存储器(EPROM)/电子可擦除可编程只读存储器(EEPROM)(例如,通常用于固件,诸如引导程序)。易失性存储器的示例包括但不限于随机存取存储器(RAM)、动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)、相变存储器(PCM)以及磁盘或磁带。
图9是可以被用于实现本文档中描述的系统和方法的示例计算设备900的示意图。计算设备900旨在表示各种形式的数字计算机,诸如膝上型计算机、台式机、工作站、个人数字助理、服务器、刀片服务器、大型机和其他适当的计算机。这里示出的组件、它们的连接和关系以及它们的功能仅意在为示例性的,而不意在限制本文档中描述和/或要求保护的发明的实施方式。
计算设备900包括数据处理硬件(例如,处理器)910、存储器920、存储设备930、连接到存储器920和高速扩展端口950的高速接口/控制器940、以及连接到低速总线970和存储设备930的低速接口/控制器960。计算设备900可以提供(经由在数据处理硬件910上运行)文本至语音转换系统100、TTS模型150、650、参考编码器400、确定性参考编码器400、场境模型610和文本预测模型520。组件910、920、930、940、950和960中的每一个使用各种总线来互连,并且可以被安装在公共主板上或者酌情以其他方式安装。处理器910能够处理用于在计算设备900内运行的指令,包括存储在存储器920中或在存储设备930上以在诸如耦合到高速接口940的显示器980的外部输入/输出设备上显示图形用户界面(GUI)的图形信息的指令。在其他实施方式中,可以酌情使用多个处理器和/或多个总线以及多个存储器和存储器类型。另外,可以连接多个计算设备900,其中每个设备提供必要操作的部分(例如,作为服务器组、刀片服务器群组或多处理器系统)。
存储器920在计算设备900内非暂时性地存储信息。存储器920可以是计算机可读介质、易失性存储器单元或非易失性存储器单元。非暂时性存储器920可以是用于在临时或永久基础上存储程序(例如,指令的序列)或数据(例如,程序状态信息)以供由计算设备900使用的物理设备。非易失性存储器的示例包括但不限于闪存和只读存储器(ROM)/可编程只读存储器(PROM)/可擦除可编程只读存储器(EPROM)/电子可擦除可编程只读存储器(EEPROM)(例如,通常用于固件,诸如引导程序)。易失性存储器的示例包括但不限于随机存取存储器(RAM)、动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)、相变存储器(PCM)以及磁盘或磁带。
存储设备930能够为计算设备900提供大容量存储。在一些实施方式中,存储设备930是计算机可读介质。在各种不同的实施方式中,存储设备930可以是软盘设备、硬盘设备、光盘设备或磁带设备、闪存或其他类似的固态存储器设备、或设备的阵列,包括在存储区域网络或其他配置中的设备。在另外的实施方式中,计算机程序产品被有形地体现在信息载体中。计算机程序产品包含指令,当被执行时,指令执行一种或多种方法,诸如上述那些方法。信息载体是计算机或机器可读介质,诸如存储器920、存储设备930或处理器910上的存储器。
高速控制器940管理计算设备900的带宽密集操作,而低速控制器960管理较低带宽密集操作。职责的这种分配仅是示例性的。在一些实施方式中,高速控制器940被耦合到存储器920、显示器980(例如,通过图形处理器或加速器),并且被耦合到高速扩展端口950,其可以接受各种扩展卡(未示出)。在一些实施方式中,低速控制器960被耦合到存储设备930和低速扩展端口990。可以包括各种通信端口(例如,USB、蓝牙、以太网、无线以太网)的低速扩展端口990可以例如通过网络适配器被耦合到一个或多个输入/输出设备,诸如键盘、定点设备、扫描仪或联网设备,诸如交换机或路由器。
计算设备900可以被实现为多种不同的形式,如附图所示。例如,它可以被实现作为标准服务器900a或在这种服务器900a群组中多次、作为膝上型计算机900b、或作为机架服务器系统900c的一部分。
图10图示用于从输入文本502生成用于表达合成语音680的输出信号670的方法1000的示例操作布置的流程图。该方法可以参考图5A-6B来描述。数据处理硬件910(图9)可以执行存储在存储器硬件920上的指令以执行方法1000的示例性操作布置。在操作1002,方法1000包括在数据处理硬件910处接收来自文本源800的当前输入文本502。这里,当前输入文本502要由文本至语音(TTS)模型650合成为表达语音680。
在操作1004,方法1000包括由数据处理硬件910使用场境模型610通过处理从文本源800推导出的一个或多个场境特征602来生成与当前输入文本502相关联的场境嵌入612。在操作1006,方法1000包括由数据处理硬件910使用文本预测网络(也称为“文本预测模型”)520通过处理当前输入文本502和与当前输入文本502相关联的场境嵌入612来预测用于当前输入文本502的风格嵌入550。值得注意的是,由文本预测网络520预测的风格嵌入550指定用于将当前输入文本502合成为表达语音680的特定韵律和/或风格。风格嵌入550可以由图5A的文本预测网络520a或图5B的文本预测网络520b中的任一个来预测。
在操作1008,方法1000还包括由数据处理硬件910使用TTS模型650通过处理风格嵌入550和当前输入文本502生成当前输入文本502的表达语音680的输出音频信号670。这里,输出音频信号670具有由风格嵌入550指定的特定韵律和/或风格。如上所述,TTS模型650(或模型650下游的其他系统)使用合成器675来合成得到的表达语音680。因此,表达语音680指的是合成语音。
本文中描述的系统和技术的各种实施方式能够以数字电子和/或光电路系统、集成电路系统、专门地设计的ASIC(专用集成电路)、计算机硬件、固件、软件和/或其组来实现。这些各种实施方式能够包括在一个或多个计算机程序中的实施方式,这些计算机程序在包括至少一个可编程处理器的可编程系统上可执行和/或可解释,可编程处理器可以是专用或通用的,被耦合以从存储系统、至少一个输入设备和至少一个输出设备接收数据和指令,并且向存储系统、至少一个输入设备和至少一个输出设备传送数据和指令。
这些计算机程序(也称为程序、软件、软件应用或代码)包括用于可编程处理器的机器指令,并且能够以高级过程和/或面向对象编程语言和/或用汇编/机器语言来实现。如本文中所使用的,术语“机器可读介质”和“计算机可读介质”是指用于向可编程处理器提供机器指令和/或数据的任何计算机程序产品、非暂时性计算机可读介质、装置和/或设备(例如,磁盘、光盘、存储器、可编程逻辑器件(PLD),包括接收机器指令作为机器可读信号的机器可读介质。术语“机器可读信号”是指用于向可编程处理器提供机器指令和/或数据的任何信号。
本说明书中描述的过程和逻辑流程能够通过一个或多个可编程处理器,也称为数据处理硬件,运行一个或多个计算机程序以通过对输入数据进行操作并生成输出来执行功能而被执行。过程和逻辑流程也能够由专用逻辑电路系统,例如,FPGA(现场可编程门阵列)或ASIC(专用集成电路)执行。通过示例,适合于执行计算机程序的处理器包括通用微处理器和专用微处理器两者,以及任何种类的数字计算机的任何一个或多个处理器。通常,处理器将从只读存储器或随机存取存储器或两者接收指令和数据。计算机的必要元件是用于执行指令的处理器以及用于存储指令和数据的一个或多个存储器设备。通常,计算机也将包括或在操作上耦合以从用于存储数据的一个或多个大容量存储设备,例如,磁盘、磁光盘或光盘,接收数据或者将数据转移到该一个或多个大容量存储设备,或者两者。然而,计算机不必须具有这种设备。适合于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、介质和存储器设备,作为示例包括半导体存储器设备,例如,EPROM、EEPROM和闪存设备;磁盘,例如内部硬盘或可移动盘;磁光盘;以及CD ROM和DVD-ROM盘。处理器和存储器能够由专用逻辑电路系统补充,或者被并入在专用逻辑电路系统中。
为了提供与用户的交互,能够在计算机上实现本公开的一个或多个方面,该计算机具有显示设备,例如,CRT(阴极射线管)、LCD(液晶显示器)监视器或用于向用户显示信息的触摸屏以及可选地用户能够通过其向计算机提供输入的键盘和定点设备,例如,鼠标或轨迹球。其他种类的设备也能够被用于提供与用户的交互;例如,提供给用户的反馈能够是任何形式的感觉反馈,例如视觉反馈、听觉反馈或触觉反馈;并且能够以任何形式接收来自用户的输入,包括声学、语音或触觉输入。另外,计算机能够通过向由用户使用的设备发送文档和从由用户使用的设备接收文档来与用户交互;例如,通过响应于从web浏览器接收到的请求而向用户的客户端设备上的web浏览器发送web页面。
已经描述了许多实施方式。然而,应理解,可以在不脱离本公开的精神和范围的情况下做出各种修改。因此,其他实施方式在以下权利要求的范围内。

Claims (24)

1.一种系统(900),包括:
场境编码器(610),所述场境编码器(610)被配置成:
接收与要被合成为表达语音(680)的当前输入文本(502)相关联的一个或多个场境特征(602),每个场境特征(602)是从所述当前输入文本(502)的文本源(800)推导的;以及
处理所述一个或多个场境特征(602)以生成与所述当前输入文本(502)相关联的场境嵌入(612);
文本预测网络(520),所述文本预测网络(520)与所述场境编码器(610)通信并且被配置成:
从所述文本源(800)接收所述当前输入文本(502),所述文本源(800)包括要被合成为表达语音(680)的文本的序列;
从所述场境编码器(610)接收与所述当前输入文本(502)相关联的所述场境嵌入(612),以及
处理所述当前输入文本(502)和与所述当前输入文本(502)相关联的所述场境嵌入(612),以预测所述当前输入文本(502)的风格嵌入(550)作为输出,所述风格嵌入(550)指定用于将所述当前输入文本(502)合成为表达语音(680)的特定韵律和/或风格;以及文本至语音模型(650),所述文本至语音模型(650)与所述文本预测网络(520)通信并且被配置成:
从所述文本源(800)接收所述当前输入文本(502);
接收由所述文本预测网络预测的所述风格嵌入(550);以及
处理所述当前输入文本(502)和所述风格嵌入(550)以生成所述当前输入文本(502)的表达语音(680)的输出音频信号,所述输出音频信号(670)具有由所述风格嵌入(550)所指定的所述特定韵律和/或风格。
2.根据权利要求1所述的系统(900),其中,与所述当前输入文本(502)相关联的所述一个或多个场境特征(602)包括以下各项中的至少一个:
所述当前输入文本(502);
来自所述文本源(800)的先于所述当前输入文本(502)的先前文本;
从所述先前文本合成的先前语音;
来自所述文本源(800)的跟随所述当前输入文本(502)的即将到来的文本;或
由所述文本预测网络(520)基于所述先前文本和与所述先前文本相关联的先前场境嵌入(612)预测的先前风格嵌入(550)。
3.根据权利要求1或2所述的系统(900),其中:
所述文本源(800)包括文本文档;以及
与所述当前输入文本(502)相关联的所述一个或多个场境特征(602)包括以下各项中的至少一个:
所述文本文档的标题;
所述文本文档中的章的标题;
所述文本文档中的节的标题;
所述文本文档中的页头标题;
所述文本文档中的一个或多个要点;
来自从所述文本文档中提取的概念图的实体;或
从所述文本文档中提取的一个或多个结构化答案表示。
4.根据权利要求1-3中的任一项所述的系统(900),其中:
所述文本源(800)包括对话转录;
所述当前输入文本(502)对应于所述对话转录中的当前轮次;以及
与所述当前输入文本(502)相关联的所述一个或多个场境特征(602)包括以下各项中的至少一个:
与所述对话转录中的先前轮次相对应的所述对话转录中的先前文本;或
与所述对话转录中的下一轮次相对应的所述对话转录中的即将到来的文本。
5.根据权利要求1-4中的任一项所述的系统(900),其中:
所述文本源(800)包括查询响应系统;
所述当前输入文本(502)与在所述查询响应系统处接收到的当前查询的响应相对应;以及
与所述当前输入文本(502)相关联的所述一个或多个场境特征(602)包括以下各项中的至少一个:
与所述当前查询相关联的文本或与在所述查询响应系统处接收到的查询的序列相关联的文本,所述查询的序列包括所述当前查询和先于所述当前查询的一个或多个查询;或
与所述当前查询相关联的音频特征或与在所述查询响应系统处接收到的所述查询的序列相关联的音频特征。
6.根据权利要求1-5中的任一项所述的系统(900),其中,所述文本至语音模型(650)包括:
编码器神经网络(112),所述编码器神经网络(112)被配置成:
从所述文本源(800)接收所述当前输入文本(502);以及
处理所述当前输入文本(502)以生成所述当前输入文本(502)的相应编码序列(653);
级联器(654),所述级联器(654)被配置成:
从所述编码器神经网络(112)接收所述当前输入文本(502)的所述相应编码序列(653);
接收由所述文本预测网络预测的所述风格嵌入(550);以及
生成在所述当前输入文本(502)的相应编码序列(653)与所述风格嵌入(550)之间的级联(655);以及
基于注意力的解码器循环神经网络(118),所述基于注意力的解码器循环神经网络(118)被配置成:
接收解码器输入的序列;并且
对于所述序列中的每个解码器输入,处理对应的解码器输入和在所述当前输入文本(502)的相应编码序列(653)与所述风格嵌入(550)之间的所述级联(655),以生成所述输出音频信号(670)的r个帧,其中,r包括大于一的整数。
7.根据权利要求6所述的系统(900),其中,所述编码器神经网络(112)包括:
编码器pre-net神经网络(114),所述编码器pre-net神经网络(114)被配置成:
接收所述当前输入文本(502)的字符的序列中的每个字符的相应嵌入;以及
对于每个字符,处理所述相应嵌入以生成所述字符的相应的变换的嵌入;以及
编码器CBHG神经网络(116),所述编码器CBHG神经网络被配置成:
接收由所述编码器pre-net神经网络生成的所述变换的嵌入;以及
处理所述变换的嵌入以生成所述当前输入文本(502)的相应编码序列(653)。
8.根据权利要求7所述的系统(900),其中,所述编码器CBHG神经网络(116)包括1-D卷积滤波器组,接着是高速路网络,并且接着是双向循环神经网络。
9.根据权利要求1-8中的任一项所述的系统(900),其中,所述文本预测网络(520)包括:
时间聚合门控循环单元GRU循环神经网络RNN,所述时间聚合门控循环单元GRU循环神经网络RNN被配置成:
接收与所述当前输入文本(502)相关联的所述场境嵌入(612)和所述当前输入文本(502)的编码序列(653);以及
通过处理所述场境嵌入(612)和所述编码序列(653)来生成固定长度特征向量;以及
一个或多个全连接层,所述一个或多个全连接层被配置成通过处理所述固定长度特征向量来预测所述风格嵌入(550)。
10.根据权利要求9所述的系统(900),其中,所述一个或多个全连接层包括使用ReLU激活的一个或多个隐藏全连接层和使用tanh激活来发出所预测的风格嵌入(550)的输出层。
11.根据权利要求1-10中的任一项所述的系统(900),其中,所述场境模型(610)、所述文本预测网络(520)和所述文本至语音模型(650)被联合地训练。
12.根据权利要求1-11中的任一项所述的系统(900),其中,两步训练过程在所述训练过程的第一步期间训练所述文本至语音模型(650),并且在所述训练过程的第二步期间联合地分开训练所述场境模型(610)和所述文本预测网络(520)。
13.一种用于生成表达合成语音(680)的输出音频信号(670)的方法,所述方法(1000)包括:
在数据处理硬件(910)处,从文本源(800)接收当前输入文本(502),所述当前输入文本(502)由文本至语音TTS模型(650)要合成为表达语音(680);
由所述数据处理硬件(910)使用场境模型(610)通过处理从所述文本源(800)推导的一个或多个场境特征(602)来生成与所述当前输入文本(502)相关联的场境嵌入;
由所述数据处理硬件(910)使用文本预测网络(520)通过处理所述当前输入文本(502)和与所述当前输入文本(502)相关联的所述场境嵌入(612)来预测所述当前输入文本(502)的风格嵌入(550),所述风格嵌入(550)指定用于将所述当前输入文本(502)合成为表达语音(680)的特定韵律和/或风格;以及
由所述数据处理硬件(910)使用所述TTS模型(650)通过处理所述风格嵌入(550)和所述当前输入文本(502)来生成所述当前输入文本(502)的表达语音(680)的所述输出音频信号(670),所述输出音频信号(670)具有由所述风格嵌入(550)所指定的所述特定韵律和/或风格。
14.根据权利要求13所述的方法(1000),其中,与所述当前输入文本(502)相关联的所述一个或多个场境特征(602)包括以下各项中的至少一个:
所述当前输入文本(502);
来自所述文本源(800)的先于所述当前输入文本(502)的先前文本;
从所述先前文本合成的先前语音;
来自所述文本源(800)的跟随所述当前输入文本(502)的即将到来的文本;或
由所述文本预测网络(520)基于所述先前文本和与所述先前文本相关联的先前场境嵌入(612)所预测的先前风格嵌入(550)。
15.根据权利要求13或14所述的方法(1000),其中:
所述文本源(800)包括文本文档;以及
与所述当前输入文本(502)相关联的所述一个或多个场境特征(602)包括以下各项中的至少一个:
所述文本文档的标题;
所述文本文档中的章的标题;
所述文本文档中的节的标题;
所述文本文档中的页头标题;
所述文本文档中的一个或多个要点;
来自从所述文本文档中提取的概念图的实体;或
从所述文本文档中提取的一个或多个结构化答案表示。
16.根据权利要求13-15中的任一项所述的方法(1000),其中:
所述文本源(800)包括对话转录;
所述当前输入文本(502)对应于所述对话转录中的当前轮次;以及
与所述当前输入文本(502)相关联的所述一个或多个场境特征(602)包括以下各项中的至少一个:
与所述对话转录中的先前轮次相对应的所述对话转录中的先前文本;或
与所述对话转录中的下一轮次相对应的所述对话转录中的即将到来的文本。
17.根据权利要求13-16中的任一项所述的方法(1000),其中:
所述文本源(800)包括查询响应系统;
所述当前输入文本(502)与在所述查询响应系统处接收到的当前查询的响应相对应;以及
与所述当前输入文本(502)相关联的所述一个或多个场境特征(602)可以包括以下各项中的至少一个:
与所述当前查询相关联的文本或与在所述查询响应系统处接收到的查询的序列相关联的文本,所述查询的序列包括所述当前查询和先于所述当前查询的一个或多个查询;或
与所述当前查询相关联的音频特征或与在所述查询响应系统处接收到的所述查询的序列相关联的音频特征。
18.根据权利要求13-17中的任一项所述的方法(1000),其中,生成所述输出音频信号(670)包括:
在所述文本至语音模型(650)的编码器神经网络(112)处从所述文本源(800)接收所述当前输入文本(502);
使用所述编码器神经网络(112)生成所述当前输入文本(502)的相应编码序列(653);
使用所述文本至语音模型(650)的级联器(654)生成在所述当前输入文本(502)的相应编码序列(653)与所述风格嵌入(550)之间的级联(655);
在所述文本至语音模型(650)的基于注意力的解码器循环神经网络(118)处接收解码器输入的序列;以及
对于所述解码器输入序列中的每个解码器输入,使用所述基于注意力的解码器循环神经网络(118)处理对应的解码器输入和在所述当前输入文本(502)的相应编码序列(653)与所述风格嵌入(550)之间的所述级联(655),以生成所述输出音频信号(670)的r个帧,其中,r包括大于一的整数。
19.根据权利要求18所述的方法(1000),其中,生成所述当前输入文本(502)的相应编码序列(653)包括:
在所述编码器神经网络(112)的编码器pre-net神经网络(114)处,接收所述当前输入文本(502)的字符的序列中的每个字符的相应嵌入;
对于所述字符的序列中的每个字符,使用所述编码器pre-net神经网络(114)处理所述相应嵌入以生成所述字符的相应的变换的嵌入;以及
使用所述编码器神经网络(112)的编码器CBHG神经网络(116),通过处理所述变换的嵌入来生成所述当前输入文本(502)的相应编码序列(653)。
20.根据权利要求19所述的方法(1000),其中,所述编码器CBHG神经网络(116)包括1-D卷积滤波器组,接着是高速路网络,并且接着是双向循环神经网络。
21.根据权利要求13-20所述的方法(1000),其中,预测所述当前输入文本(502)的所述风格嵌入(550)包括:
使用所述文本预测网络(520)的时间聚合门控循环单元GRU循环神经网络RNN,通过处理与所述当前输入文本(502)相关联的所述场境嵌入(612)和所述当前输入文本(502)的编码序列(653)来生成固定长度特征向量;以及
使用所述文本预测网络(520)的跟随所述GRU-RNN的一个或多个全连接层,通过处理所述固定长度特征向量来预测所述风格嵌入(550)。
22.根据权利要求21所述的方法(1000),其中,所述一个或多个全连接层包括使用ReLU激活的一个或多个隐藏全连接层和使用tanh激活来发出所预测的风格嵌入(550)的输出层。
23.根据权利要求13-22中的任一项所述的方法(1000),其中,所述场境模型(610)、所述文本预测网络(520)和所述TTS模型(650)被联合地训练。
24.根据权利要求13-23中的任一项所述的方法(1000),其中,两步训练过程在所述训练过程的第一步期间训练所述TTS模型(650),并且在所述训练过程的第二步期间联合地分开训练所述场境模型(610)和所述文本预测网络(520)。
CN202080055081.9A 2019-08-03 2020-07-16 控制端到端语音合成系统中的表达性 Pending CN114175143A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201962882511P 2019-08-03 2019-08-03
US62/882,511 2019-08-03
PCT/US2020/042416 WO2021025844A1 (en) 2019-08-03 2020-07-16 Controlling expressivity in end-to-end speech synthesis systems

Publications (1)

Publication Number Publication Date
CN114175143A true CN114175143A (zh) 2022-03-11

Family

ID=72050918

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202080055081.9A Pending CN114175143A (zh) 2019-08-03 2020-07-16 控制端到端语音合成系统中的表达性

Country Status (6)

Country Link
US (2) US11676573B2 (zh)
EP (2) EP4345815A3 (zh)
JP (1) JP7204989B2 (zh)
KR (2) KR102616214B1 (zh)
CN (1) CN114175143A (zh)
WO (1) WO2021025844A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115578995A (zh) * 2022-12-07 2023-01-06 北京邮电大学 面向语音对话场景的语音合成方法、系统及存储介质

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11954577B2 (en) * 2019-09-13 2024-04-09 Intuit Inc. Deep neural network based user segmentation
US11282495B2 (en) * 2019-12-12 2022-03-22 Amazon Technologies, Inc. Speech processing using embedding data
US11562744B1 (en) * 2020-02-13 2023-01-24 Meta Platforms Technologies, Llc Stylizing text-to-speech (TTS) voice response for assistant systems
US11322133B2 (en) * 2020-07-21 2022-05-03 Adobe Inc. Expressive text-to-speech utilizing contextual word-level style tokens
KR102392904B1 (ko) * 2020-09-25 2022-05-02 주식회사 딥브레인에이아이 텍스트 기반의 음성 합성 방법 및 장치
CN112017644B (zh) * 2020-10-21 2021-02-12 南京硅基智能科技有限公司 一种声音变换系统、方法及应用
CN113096641B (zh) * 2021-03-29 2023-06-13 北京大米科技有限公司 信息处理方法及装置
CN113327575B (zh) * 2021-05-31 2024-03-01 广州虎牙科技有限公司 一种语音合成方法、装置、计算机设备和存储介质
CN113096638B (zh) * 2021-06-09 2021-09-07 北京世纪好未来教育科技有限公司 语音合成模型训练方法、语音合成方法及装置
GB2607903B (en) * 2021-06-14 2024-06-19 Deep Zen Ltd Text-to-speech system
CN113838448B (zh) * 2021-06-16 2024-03-15 腾讯科技(深圳)有限公司 一种语音合成方法、装置、设备及计算机可读存储介质
CN113628610B (zh) * 2021-08-12 2024-02-13 科大讯飞股份有限公司 一种语音合成方法和装置、电子设备
WO2023112095A1 (ja) * 2021-12-13 2023-06-22 日本電信電話株式会社 音声合成装置、音声合成方法、及びプログラム
WO2024116382A1 (ja) * 2022-12-01 2024-06-06 日本電信電話株式会社 学習方法、学習装置及びプログラム
CN117153144B (zh) * 2023-10-31 2024-02-06 杭州宇谷科技股份有限公司 基于端计算的电池信息语音播报方法和装置

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9195656B2 (en) * 2013-12-30 2015-11-24 Google Inc. Multilingual prosody generation
US10127901B2 (en) 2014-06-13 2018-11-13 Microsoft Technology Licensing, Llc Hyper-structure recurrent neural networks for text-to-speech
US9697820B2 (en) * 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US11069335B2 (en) * 2016-10-04 2021-07-20 Cerence Operating Company Speech synthesis using one or more recurrent neural networks
US10475438B1 (en) 2017-03-02 2019-11-12 Amazon Technologies, Inc. Contextual text-to-speech processing
US10796686B2 (en) * 2017-10-19 2020-10-06 Baidu Usa Llc Systems and methods for neural text-to-speech using convolutional sequence learning
CN111587455B (zh) * 2018-01-11 2024-02-06 新智株式会社 利用机器学习的文本语音合成方法、装置及计算机可读存储介质
US10799795B1 (en) * 2019-03-26 2020-10-13 Electronic Arts Inc. Real-time audio generation for electronic games based on personalized music preferences

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115578995A (zh) * 2022-12-07 2023-01-06 北京邮电大学 面向语音对话场景的语音合成方法、系统及存储介质
CN115578995B (zh) * 2022-12-07 2023-03-24 北京邮电大学 面向语音对话场景的语音合成方法、系统及存储介质

Also Published As

Publication number Publication date
EP4007997A1 (en) 2022-06-08
WO2021025844A1 (en) 2021-02-11
EP4345815A2 (en) 2024-04-03
JP7204989B2 (ja) 2023-01-16
KR20240001262A (ko) 2024-01-03
EP4007997B1 (en) 2024-03-27
US11676573B2 (en) 2023-06-13
JP2022536558A (ja) 2022-08-17
KR20220035180A (ko) 2022-03-21
KR102616214B1 (ko) 2023-12-21
US20210035551A1 (en) 2021-02-04
JP2023036888A (ja) 2023-03-14
EP4345815A3 (en) 2024-06-12
US20230274728A1 (en) 2023-08-31

Similar Documents

Publication Publication Date Title
US11676573B2 (en) Controlling expressivity in end-to-end speech synthesis systems
Tan et al. A survey on neural speech synthesis
JP7108147B2 (ja) 表現用エンドツーエンド音声合成における変分埋め込み容量
US11514888B2 (en) Two-level speech prosody transfer
KR102327614B1 (ko) 클록워크 계층적 변이 인코더
CN110782870A (zh) 语音合成方法、装置、电子设备及存储介质
KR20230003056A (ko) 비음성 텍스트 및 스피치 합성을 사용한 스피치 인식
US11763797B2 (en) Text-to-speech (TTS) processing
US20240038214A1 (en) Attention-Based Clockwork Hierarchical Variational Encoder
Shiga et al. Text-to-speech synthesis
Fahmy et al. A transfer learning end-to-end arabic text-to-speech (tts) deep architecture
CN116783647A (zh) 生成多样且自然的文本到语音样本
JP7504188B2 (ja) エンドツーエンド音声合成システムにおける表現度の制御
KR102677459B1 (ko) 2-레벨 스피치 운율 전송
Oralbekova et al. Current advances and algorithmic solutions in speech generation
Eirini End-to-End Neural based Greek Text-to-Speech Synthesis
KR20240096867A (ko) 2-레벨 스피치 운율 전송
Gaddime et al. Text to Speech Synthesis in Celebrity’s Voice
EP4352724A1 (en) Two-level text-to-speech systems using synthetic training data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination