CN116034424A - 两级语音韵律迁移 - Google Patents
两级语音韵律迁移 Download PDFInfo
- Publication number
- CN116034424A CN116034424A CN202180056199.8A CN202180056199A CN116034424A CN 116034424 A CN116034424 A CN 116034424A CN 202180056199 A CN202180056199 A CN 202180056199A CN 116034424 A CN116034424 A CN 116034424A
- Authority
- CN
- China
- Prior art keywords
- speech
- prosody
- representation
- embedding
- utterance
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013508 migration Methods 0.000 title description 27
- 230000005012 migration Effects 0.000 title description 27
- 230000005236 sound signal Effects 0.000 claims abstract description 91
- 238000000034 method Methods 0.000 claims abstract description 58
- 230000008569 process Effects 0.000 claims abstract description 22
- 238000012549 training Methods 0.000 claims description 91
- 230000015654 memory Effects 0.000 claims description 49
- 238000012545 processing Methods 0.000 claims description 44
- 238000013518 transcription Methods 0.000 claims description 27
- 230000035897 transcription Effects 0.000 claims description 27
- 238000013528 artificial neural network Methods 0.000 claims description 23
- 230000003595 spectral effect Effects 0.000 claims description 19
- 239000013598 vector Substances 0.000 claims description 11
- 238000004891 communication Methods 0.000 claims description 4
- 238000005070 sampling Methods 0.000 claims 2
- 238000001228 spectrum Methods 0.000 description 44
- 238000003780 insertion Methods 0.000 description 11
- 230000037431 insertion Effects 0.000 description 11
- 230000015572 biosynthetic process Effects 0.000 description 9
- 238000003786 synthesis reaction Methods 0.000 description 9
- 238000004590 computer program Methods 0.000 description 8
- 230000003287 optical effect Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 210000005036 nerve Anatomy 0.000 description 3
- 230000001537 neural effect Effects 0.000 description 3
- 238000010606 normalization Methods 0.000 description 3
- 239000004065 semiconductor Substances 0.000 description 3
- 230000002194 synthesizing effect Effects 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000036651 mood Effects 0.000 description 2
- 230000006855 networking Effects 0.000 description 2
- 230000033764 rhythmic process Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 241000736026 Sarcandra Species 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000001143 conditioned effect Effects 0.000 description 1
- 230000003750 conditioning effect Effects 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
- G10L13/10—Prosody rules derived from text; Stress or intonation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/082—Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/096—Transfer learning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/04—Details of speech synthesis systems, e.g. synthesiser structure or memory management
- G10L13/047—Architecture of speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/18—Artificial neural networks; Connectionist approaches
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
Abstract
一种方法(500)包括:接收要合成为具有预期韵律和目标话音的表达性语音(152)的输入文本话语(320);以及使用第一文本到语音(TTS)模型(212)来生成输入文本话语的中间合成语音表示(202)。该中间合成语音表示拥有预期韵律。该方法还包括:将中间合成语音表示提供给第二TTS模型(220),该第二TTS模型(220)包括编码器部分(300)和解码器部分(400)。该编码器部分被配置成将中间合成语音表示编码成指定预期韵律的话语嵌入(204)。该解码器部分被配置成处理输入文本话语和话语嵌入以生成表达性语音的输出音频信号(280),该输出音频信号(280)具有由话语嵌入指定的预期韵律和目标话音的讲话者特性。
Description
技术领域
本公开涉及两级语音韵律迁移。
背景技术
语音合成系统使用文本到语音(TTS)模型来从文本输入生成语音。所生成/合成的语音应该准确地传达消息(可理解度),同时听起来像具有预期韵律(表现力)的人类语音(自然度)。虽然传统的级联和参数合成模型能够提供可理解的语音并且语音的神经建模方面的最近进步已显著地改进了合成语音的自然度,但是大多数现有的TTS模型在对各种各样的韵律风格进行建模时无效,从而使重要应用所使用的合成语音缺乏表现力。例如,对于诸如谈话助理和长篇阅读器的应用来说,期望通过归纳文本输入中没有传达的韵律特征,诸如语调、重音以及节律和风格,来产生逼真的语音。例如,简单的陈述能够用许多不同的方式讲出,这取决于该陈述是问题、问题的答案、在该陈述中是否存在不确定性,还是传达输入文本未指定的关于环境或情景的任何其他含义。
在一些场景中将从特定韵律域/垂直行业中的各种不同的讲话者,诸如新闻读者、体育解说员、教育讲师等,建模的韵律模型迁移到现有的目标话音可以是有用的。以这种方式将目标话音应用于新韵律域/垂直行业能够是特别困难的,因为在新域/垂直行业中与目标话音相关联的训练数据的量不足。
发明内容
本公开的一个方面提供一种用于将输入文本话语合成为具有预期韵律和目标话音的表达性语音的方法。该方法包括:在数据处理硬件处接收要合成为具有预期韵律和目标话音的表达性语音的输入文本话语。该方法还包括:由数据处理硬件使用第一文本到语音(TTS)模型来生成输入文本话语的中间合成语音表示。中间合成语音表示拥有预期韵律。该方法还包括:由数据处理硬件将中间合成语音表示提供给第二TTS模型,该第二TTS模型包括编码器部分和解码器部分。该编码器部分被配置成将中间合成语音表示编码成指定预期韵律的话语嵌入。该解码器部分被配置成处理输入文本话语和话语嵌入以生成表达性语音的输出音频信号。该输出音频信号具有由话语嵌入指定的预期韵律和目标话音的讲话者特性。
本公开的实施方式可以包括以下可选特征中的一个或多个。在一些实施方式中,该方法还包括:由数据处理硬件从中间合成语音表示中对提供韵律特征的固定长度参考帧的序列进行采样,该韵律特征表示中间合成语音表示所拥有的预期韵律。这里,将中间合成语音表示提供给第二TTS模型包括将从中间合成语音表示中采样的固定长度参考帧的序列提供给编码器部分,由此编码器部分被配置成将固定长度参考帧的序列编码成话语嵌入。表示中间合成语音表示所拥有的预期韵律的韵律特征可以包括持续时间、音高轮廓、能量轮廓和/或梅尔频率频谱轮廓。在这些实施方式中,编码器部分可以被配置成通过以下操作将固定长度参考帧的序列编码成话语嵌入:对于中间合成语音表示中的每个音节:将与音节中的每个音素相关联的音素级语言特征编码成基于音素特征的音节嵌入;将与音节相关联的固定长度参考帧编码成基于帧的音节嵌入,该基于帧的音节嵌入指示与对应音节相关联的持续时间、音高和/或能量;以及将具有以下各项的基于音素特征的音节嵌入和基于帧的音节嵌入编码成音节的对应韵律音节嵌入:与音节相关联的音节级语言特征、与中间合成语音表示相关联的句子级语言特征、以及与包括对应音节的单词相关联的单词级语言特征。
单词级语言特征可以包括从由来自转换器的双向编码器表示(BERT)模型从输入文本话语生成的词条嵌入的序列获得的词条嵌入。在一些示例中,解码器部分被配置成处理输入文本话语和话语嵌入,以通过使用输入文本话语将对应话语嵌入解码成提供输入文本话语的韵律表示的固定长度预测帧的序列来生成输出音频信号。这里,韵律表示表示由话语嵌入指定的预期韵律。第二TTS模型可以被训练为使得由解码器部分解码的固定长度预测帧的数目等于从中间合成语音表示中采样的固定长度参考帧的数目。
在一些示例中,话语嵌入包括固定长度数值向量。中间合成语音表示可以包括捕获预期韵律的音频波形或梅尔频率频谱序列,使得将中间合成语音表示提供给第二TTS模型可以包括将音频波形或梅尔频率频谱序列提供给编码器部分。这里,编码器部分被配置成将音频波形或梅尔频率频谱序列编码成话语嵌入。
在一些实施方式中,该方法还包括:由数据处理硬件获得表示目标话音的讲话者特性的讲话者嵌入;以及由数据处理硬件将讲话者嵌入提供给第二TTS模型的解码器部分以处理输入文本话语、话语嵌入和讲话者嵌入,以生成表达性语音的输出音频信号。使用第一TTS模型生成的中间合成语音表示可以包括中间话音,该中间话音缺乏目标话音的讲话者特性并且包括不期望的声学伪迹。
该方法还可以包括:在数据处理硬件处接收包括多个训练音频信号和对应转录的训练数据,每个训练音频信号包括具有由与预期韵律相关联的韵律域/垂直行业中的对应讲话者讲出的预期韵律的人类语音的话语。每个转录包括对应训练音频信号的文本表示。对于训练数据的每个对应转录:该方法还包括:由数据处理硬件训练第一TTS模型以生成对应参考音频信号,该对应参考音频信号包括捕获人类语音的对应话语的预期韵律的训练合成语音表示;由数据处理硬件通过将对应训练合成语音表示编码成表示由训练合成语音表示捕获的预期韵律的对应话语嵌入来训练第二TTS模型的编码器部分;由数据处理硬件使用训练数据的对应转录通过将由编码器部分编码的对应话语嵌入解码成具有预期韵律的表达性语音的预测输出音频信号来训练第二TTS模型的解码器部分;生成预测输出音频信号与对应参考音频信号之间的梯度/损失;以及通过第二TTS模型反向传播梯度/损失。
可以分开地或联合地训练第一TTS模型和第二TTS模型。在一些示例中,第一TTS模型包括第一神经网络架构,并且第二TTS模型包括与第一神经网络架构不同的第二神经网络架构。在其他示例中,第一TTS模型和第二TTS模型包括相同的神经网络架构。
本公开的另一方面提供一种用于将输入文本话语合成为具有预期韵律和目标话音的表达性语音的系统。该系统包括数据处理硬件和存储器硬件,该存储器硬件与数据处理硬件通信并存储指令,这些指令当由数据处理硬件运行时,使数据处理硬件执行操作。这些操作包括:接收要合成为具有预期韵律和目标话音的表达性语音的输入文本话语。这些操作还包括:使用第一文本到语音(TTS)模型来生成输入文本话语的中间合成语音表示。中间合成语音表示拥有预期韵律。这些操作还包括:将中间合成语音表示提供给第二TTS模型,该第二TTS模型包括编码器部分和解码器部分。该编码器部分被配置成将中间合成语音表示编码成指定预期韵律的话语嵌入。该解码器部分被配置成处理输入文本话语和话语嵌入以生成表达性语音的输出音频信号。该输出音频信号具有由话语嵌入指定的预期韵律和目标话音的讲话者特性。
该方面可以包括以下可选特征中的一个或多个。在一些实施方式中,这些操作还包括:从中间合成语音表示中对提供韵律特征的固定长度参考帧的序列进行采样,该韵律特征表示中间合成语音表示所拥有的预期韵律。这里,将中间合成语音表示提供给第二TTS模型包括将从中间合成语音表示中采样的固定长度参考帧的序列提供给编码器部分,由此编码器部分被配置成将固定长度参考帧的序列编码成话语嵌入。表示中间合成语音表示所拥有的预期韵律的韵律特征可以包括持续时间、音高轮廓、能量轮廓和/或梅尔频率频谱轮廓。在这些实施方式中,编码器部分可以被配置成通过以下操作将固定长度参考帧的序列编码成话语嵌入:对于中间合成语音表示中的每个音节:将与音节中的每个音素相关联的音素级语言特征编码成基于音素特征的音节嵌入;将与音节相关联的固定长度参考帧编码成基于帧的音节嵌入,该基于帧的音节嵌入指示与对应音节相关联的持续时间、音高和/或能量;以及将具有以下各项的基于音素特征的音节嵌入和基于帧的音节嵌入编码成音节的对应韵律音节嵌入:与音节相关联的音节级语言特征、与中间合成语音表示相关联的句子级语言特征、以及与包括对应音节的单词相关联的单词级语言特征。
单词级语言特征可以包括从由来自转换器的双向编码器表示(BERT)模型从输入文本话语生成的词条嵌入的序列获得的词条嵌入。在一些示例中,解码器部分被配置成处理输入文本话语和话语嵌入,以通过使用输入文本话语来将对应话语嵌入解码成提供输入文本话语的韵律表示的固定长度预测帧的序列而生成输出音频信号。这里,韵律表示表示由话语嵌入指定的预期韵律。第二TTS模型可以被训练为使得由解码器部分解码的固定长度预测帧的数目等于从中间合成语音表示中采样的固定长度参考帧的数目。
在一些示例中,话语嵌入包括固定长度数值向量。中间合成语音表示可以包括捕获预期韵律的音频波形或梅尔频率频谱序列,使得将中间合成语音表示提供给第二TTS模型可以包括将音频波形或梅尔频率频谱序列提供给编码器部分。这里,编码器部分被配置成将音频波形或梅尔频率频谱序列编码成话语嵌入。
在一些实施方式中,这些操作还包括:获得表示目标话音的讲话者特性的讲话者嵌入;以及将讲话者嵌入提供给第二TTS模型的解码器部分以处理输入文本话语、话语嵌入和讲话者嵌入以生成表达性语音的输出音频信号。使用第一TTS模型生成的中间合成语音表示可以包括中间话音,该中间话音缺乏目标话音的讲话者特性并且包括不期望的声学伪迹。
这些操作还包括:接收包括多个训练音频信号和对应转录的训练数据,每个训练音频信号包括具有由与预期韵律相关联的韵律域/垂直行业中的对应讲话者讲出的预期韵律的人类语音的话语。每个转录包括对应训练音频信号的文本表示。对于训练数据的每个对应转录:这些操作还包括:训练第一TTS模型以生成对应参考音频信号,该对应参考音频信号包括捕获人类语音的对应话语的预期韵律的训练合成语音表示;通过将对应训练合成语音表示编码成表示由训练合成语音表示捕获的预期韵律的对应话语嵌入来训练第二TTS模型的编码器部分;使用训练数据的对应转录通过将由编码器部分编码的对应话语嵌入解码成具有预期韵律的表达性语音的预测输出音频信号来训练第二TTS模型的解码器部分;生成预测输出音频信号与对应参考音频信号之间的梯度/损失;以及通过第二TTS模型反向传播梯度/损失。
可以分开地或联合地训练第一TTS模型和第二TTS模型。在一些示例中,第一TTS模型包括第一神经网络架构,并且第二TTS模型包括与第一神经网络架构不同的第二神经网络架构。在其他示例中,第一TTS模型和第二TTS模型包括相同的神经网络架构。
本公开的一个或多个实施方式的细节在下面的附图和描述中被阐述。根据说明书和附图,并且根据权利要求书,其他方面、特征和优点将是明显的。
附图说明
图1是用于训练两级韵律迁移系统以产生在目标话音中具有预期韵律的表达性语音的示例系统的示意性视图。
图2A是并入基于变分自动编码器的文本到语音模型的图1的韵律迁移系统的示意性视图。
图2B是并入基于序列到序列预测网络的文本到语音模型的图1的韵律迁移系统的示意性视图。
图3是图2A的基于变分自动编码器的文本到语音模型的编码器部分的示意性视图。
图4A是图2A的基于变分自动编码器的文本到语音模型的解码器部分的示意性视图。
图4B是图2B的基于序列到序列预测网络的文本到语音模型的解码器部分的示意视图。
图5是针对具有预期韵律的文本话语生成表达性语音的输出音频信号的方法的操作的示例布置的流程图。
图6是可以用于实现本文中描述的系统和方法的示例计算设备的示意性视图。
在各个附图中相同的附图标记指示相同的元件。
具体实施方式
由语音合成系统经常使用的文本到语音(TTS)模型在运行时通常仅被给予文本输入而没有任何参考声学表示,并且必须归纳不由文本输入提供的许多语言因素以便产生听起来逼真的合成语音。这些语言因素的子集被统称为韵律并且可以包括语音的语调(音高变化)、重音(强调音节对非强调音节)、声音的持续时间、响度、音高、节奏和风格。韵律可以指示语音的情绪状态、语音的形式(例如,陈述、问题、命令等)、语音的讽刺或挖苦的存在、语音的知识的不确定性,或无法通过输入文本的语法或词汇选择来编码的其他语言要素。因此,与高度韵律变化相关联的给定文本输入能够产生具有局部音高和讲话持续时间变化来传达不同语义含义的合成语音,而且也产生具有全局整体音高轨迹变化来传达不同心情和情绪的合成语音。
特定域/垂直行业,诸如但不限于新闻读者(例如,新闻主播)、体育解说员、教育讲师,各自包括由具有不同的话音特性(例如,男性/女性、语言、口音等)但是拥有与该特定域/垂直行业相关联的相同韵律风格的各种不同的讲话者/话音讲出的话语。例如,由体育解说员讲出的话语的韵律表示可以传达许多情绪,然而由新闻主播讲出的话语的韵律表示可以传达较慢讲话速率和更清晰的单词发音。虽然语音的神经建模方面的最近进步已显著地改进了合成语音的自然度并且提供了用于通过预测不由文本输入提供的与韵律相对应语言因素来稳定地合成语音的可能性,但是仅对韵律进行建模的任务是非常困难的,因为将韵律与诸如口音的讲话者特性解开是非平常过程。此外,任务是使用来自属于与特定韵律相关联的特定域/垂直行业的各种话音的大语料库的训练话语来对特定韵律进行建模的基于神经网络的韵律模型,由于大语料库缺乏由同一讲话者讲出的足够数目的训练话语而固有地生成具有包含不希望/不想要的声学伪迹的不完美话音的合成语音。
语音合成系统可以采用能够产生特定目标话音的合成语音的TTS模型。例如,对于电子阅读器应用,可能期望以Bob Dylan的话音从输入文本产生合成语音,或者作为另一示例,文本消息应用能够以发送文本消息的人的话音的合成语音表示来产生接收到的文本消息的合成语音表示。然而,训练TTS模型以产生特定目标话音并也具有预期韵律的合成语音是非平常任务,特别是当由目标话音的讲话者讲出并具有预期韵律的足够的训练话语不可用时如此。例如,在从旧金山49人队与堪萨斯城酋长队之间的超级碗LIV的体育比赛现场解说转录产生已故新闻主播Peter Jennings的话音的合成语音的场景中,将期望所得的Peter Jennings的话音的合成语音也具有体育解说员垂直行业中的韵律。虽然能够从1983年至2005年Peter Jennings为主持的ABC今晚世界新闻的录音中对由Peter Jennings讲出的大量话语进行采样,但是这些采样的话语作为用于对体育解说员垂直行业中的韵律进行建模的训练示例没有什么价值,因为这些话语是从完全不同的垂直行业(例如,新闻主播垂直行业)中采样的。更麻烦的是,由于Peter Jennings自2005年8月7日以来已去世,所以Peter Jennings无法提供任何有价值的训练话语,这将包括他用体育解说员垂直行业中的韵律风格进行的讲话。
本文中的实施方式涉及学习由不同讲话者以各种话音讲出的训练话语的语料库所拥有的特定韵律并且从输入文本生成合成表达性语音,使得该合成表达性语音在目标话音中再现所学习的特定韵律。这里,训练不需要在目标话音中拥有特定韵律的话语。更具体地,实施方式涉及两级语音韵律迁移系统,其中第一文本到语音(TTS)模型的任务是仅学习训练话语的语料库所拥有的预期韵律,而第二TTS模型的任务是将由第一TTS模型学习的预期韵律迁移到目标话音的合成语音表示。
在下面更详细地描述的是,第一TTS模型被训练在不试图解开预期韵律和讲话者特性的情况下产生捕获预期韵律的中间语音表示。因此,所得的由第一TTS模型产生的中间合成语音表示捕获训练话语中传达的预期韵律(表现力),但是可能包括具有降低的质量(例如,噪声伪迹)并缺乏讲话者特性(例如,口音)的不完美语音。因此,中间合成语音表示不适合于人类聆听,因为它不旨在准确地传达消息(可理解度),中间合成语音表示也不旨在听起来像人类语音(自然度)。尽管中间合成语音表示具有不完美话音,并且因此不传达表示目标话音的讲话者特性,但是第二TTS模型被训练能够再现由中间语音表示捕获的预期韵律并且生成在目标话音中具有预期韵律的表达性语音。也就是说,第二TTS模型生成具有预期韵律并具有与目标话音相关联的讲话者特性的表达性语音。这里,目标话音可以与从未讲出拥有预期韵律的任何训练话语的男演员相关联。
第二TTS模型可以对应于包括编码器部分和解码器部分的韵律迁移模型。这里,韵律迁移模型可以对应于变分自动编码器(VAE)架构或序列到序列特征预测网络架构。编码器部分被配置成将由第一TTS模型产生的中间合成语音表示编码成指定由中间合成语音表示捕获的预期韵律的话语嵌入,然而解码器部分被配置成对话语嵌入进行解码以预测韵律特征,诸如每个音节的音素的持续时间以及音高和能量轮廓。在一些示例中,解码器部分被配置成对话语嵌入进行解码以预测梅尔谱频谱作为对韵律特征的补充或替代。梅尔谱频谱可以固有地传达预期韵律。
第一TTS系统可以在人类语音的训练话语和对应转录上训练以从转录产生训练合成语音表示,该训练合成语音表示捕获人类语音的对应训练话语的韵律。训练话语可以全部从特定韵律垂直行业中采样,使得每个训练话语拥有与特定韵律垂直行业相关联的预期韵律。第二TTS模型的编码器部分可以通过对由第一TTS模型以表示训练合成语音表示的韵律特征和语言特征嵌入为条件而产生的众多训练合成语音表示进行编码在表示所捕获的韵律的话语嵌入上训练。韵律特征可以在音高(F0)、音素持续时间和能量(C0)方面表示关于参考音频信号的声学信息。例如,韵律特征可以包括从参考音频信号中采样的音素持续时间以及音高和能量的固定长度帧。语言特征可以包括但不限于:音素级语言特征,其包含关于音节中的音素的位置、音素标识和音节中的音素的数目的信息;音节级语言特征,其包含诸如是否音节标识并且音节是重音还是无重音的信息;对关于每个单词的句法信息进行编码的单词级语言特征;以及句子级语言特征,其包含关于讲话者、讲话者的性别和/或话语是问题还是短语的信息。可以从针对每个训练话语的对应转录中提取语言特征。在一些示例中,第二TTS模型并入被配置成输出词条嵌入的来自转换器的双向编码器表示(BERT)模型。在这些示例中,词条嵌入可以替换以其他方式将显式地对关于每个单词的句法信息进行编码的单词级语言特征。
由编码器部分编码的每个话语嵌入可以由固定长度数值向量表示。在一些实施方式中,固定长度数值向量包括等于256的值。然而,其他实施方式可以使用其值大于或小于256的固定长度数值向量。对于给定输入文本话语,解码器部分可以处理输入文本话语和固定长度话语嵌入以生成表达性语音的输出音频信号。这里,输出音频信号具有由话语嵌入指定的预期韵律。输出音频信号可以包括音高、能量和/或音素持续时间的预测固定长度帧(例如,五毫秒)的序列,或者输出音频信号可以包括传达预期韵律的梅尔频率频谱帧。另外,解码器部分可以接收提供目标话音的讲话者特性的讲话者嵌入。因此,具有预期韵律的输出音频信号也可以包括目标话音的讲话者特性。合成器可以接收由第二TTS模型产生的输出音频信号作为输入并且生成输入文本话语的具有预期韵律并以目标话音讲出的合成语音表示作为输出。
图1示出用于训练两级韵律迁移系统200以将文本话语320合成为目标话音并具有韵律表示302的表达性语音152的示例系统100,韵律表示302表示与特定韵律垂直行业20相关联的预期韵律。系统100包括具有数据处理硬件122和存储器硬件124的计算系统(可互换地称为“计算设备”)120,存储器硬件124与数据处理硬件122通信并存储指令,这些指令可由数据处理硬件122运行以使数据处理硬件122执行操作。在一些实施方式中,计算系统120(例如,数据处理硬件122)提供两级韵律迁移系统200,该两级韵律迁移系统200被训练从输入文本话语320生成表达性语音的输出音频信号280,使得输出音频信号280具有来自特定韵律垂直行业20的预期韵律和目标话音的讲话者特性。输出音频信号280传达表示预期韵律的韵律表示302以使得语音合成器150能够生成在目标话音中具有预期韵律的合成语音152的音频波形。
韵律迁移系统200包括具有第一TTS模型212的第一文本到语音(TTS)系统210和具有第二TTS模型222的第二TTS系统220。第一TTS系统210和第二TTS系统220可以各自包括语音合成器150。第一TTS模型212和第二TTS模型222可以各自包括可以相同或不同的相应神经网络架构。第一TTS系统210被配置成将第一TTS模型212用于生成输入文本话语320的中间合成语音表示202。例如,第一TTS模型212可以生成中间输出信号201,诸如梅尔频率频谱序列,其捕获/拥有来自特定韵律垂直行业20的预期韵律。语音合成器150然后可以从中间输出信号201生成中间合成语音表示202,并且将中间合成语音表示202提供给第二TTS模型222。第二TTS系统220被配置成将第二TTS模型222用于将由中间合成语音表示202捕获的预期韵律迁移或再现到表达性语音的输出音频信号280中以将输入文本话语320作为在目标话音中具有预期韵律的口语表示来传达。第二TTS模型222可以接收包括目标话音的讲话者特性的讲话者嵌入Z。在一些示例中,第二TTS模型222接收由第一TTS模型222产生的中间输出信号201(例如,梅尔频率频谱)作为用于将预期韵律迁移到表达性语音的输出音频信号280中的中间合成语音表示202的补充或替代。由于输入文本话语320没有办法传达情景、语义和语用学来指导合成语音152的预期韵律,所以韵律迁移系统200可以通过在从文本话语320中提取的语言特征上调节第二TTS模型222并且使用固定长度话语嵌入204作为表示文本话语320的预期韵律的潜在变量来预测输入文本话语320的韵律表示302。在下面更详细地描述的是,由第一TTS系统210产生的中间合成语音表示202的任务是仅捕获/拥有来自特定韵律垂直行业20的预期韵律,使得第二TTS模型222能够通过将中间合成语音表示202编码成话语嵌入204来再现文本话语320的预期韵律。计算系统120可以包括分布式系统(例如,云计算环境)。合成器150可以包括声码器155。
在一些实施方式中,系统100训练多个韵律迁移系统200、200A-N,每个韵律迁移系统被配置成将不同的相应预期韵律从对应韵律垂直行业20、20A-N迁移到目标话音的表达性语音152中。例如,不同的韵律垂直行业20中的每一个可以包括由具有不同的话音特性(例如,男性/女性、语言、口音等)并且拥有与对应韵律垂直行业20相关联的相同韵律风格的各种不同的人类讲出的话语。例如,韵律垂直行业20A可以对应于与新闻读者(例如,新闻主播)相关联的人类语音的话语,韵律垂直行业20B可以对应于与体育解说员相关联的人类语音的话语,并且韵律垂直行业20N可以对应于与教育讲师相关联的人类语音的话语。虽然体育解说员垂直行业20B能够广泛地包含从对许多不同体育进行评论的讲话者中采样的话语,但是每个特定韵律垂直行业20能够传达从更窄的话语集中采样的预期韵律。例如,能够存在许多不同的体育解说员韵律垂直行业20,其中每个对应于与特定体育相关联的人类语音的话语。这可能是有利的,因为与体育解说员针对橄榄球体育运动的话语相比,韵律风格可以在由体育解说员针对冰壶体育运动讲出的话语之间变化。
继续参考图1,对于每个韵律垂直行业20、20A-N,计算设备120(例如,数据处理硬件122)接收包括多个训练音频信号104和对应转录106的对应训练数据10。每个训练音频信号104包括由与预期韵律相关联的韵律垂直行业(可互换地称为“韵律域”)中的对应讲话者讲出的、具有预期韵律的人类语音的话语。每个转录106包括对应训练音频信号104的文本表示。对于训练数据10的每个对应转录106,计算设备120训练第一TTS模型212以生成对应参考音频信号202T,该对应参考音频信号202T包括捕获人类语音的对应话语104的预期音韵的训练合成语音表示。此后,计算设备120训练第二TTS系统220的第二TTS模型222。更具体地,训练第二TTS模型222可以包括,对于训练数据10的每个对应转录106,训练第二TTS模型222的编码器部分300和解码器部分400两者。训练编码器部分300包括将对应训练合成语音表示202T(例如,音频波形或梅尔频率频谱)编码成表示由训练合成语音表示202T捕获的预期韵律的对应话语嵌入204。值得注意的是,第一TTS系统220并且更具体地第一TTS模型222的参数被优化以仅产生合成语音表示202T,该合成语音表示202T准确地捕获人类语音的真实值话语104的韵律,因此,被许可包括缺乏足够的话音特征的中间话音并且具有降低的音频质量(例如,包含声学伪迹)。
训练解码器部分400包括使用训练数据10的对应转录106来将由编码器部分300编码的话语嵌入204解码成具有预期韵律的表达性语音的预测输出音频信号280。也就是说,预测输出音频信号280与再现通过训练中间合成语音表示202T从人类语音的对应真实值话语104捕获的预期韵律的韵律表示302相关联。解码器部分400可以被进一步训练学习特定目标话音的讲话者特性,使得表达性语音的音频信号280具有预期韵律和目标话音的讲话者特性。在一些示例中,第一TTS模型212和第二TTS模型222被联合地训练。在其他示例中,第一TTS模型212和第二TTS模型222被分开地训练。
最后,对于对应韵律垂直行业20的训练数据10中的每个训练音频信号104和对应转录106,计算设备120(例如,数据处理硬件122)生成预测输出音频信号280与对应参考音频信号202T之间的梯度/损失,并且通过第二TTS模型222反向传播梯度/损失。因此,计算设备120可以针对许多不同的韵律垂直行业20、20A-N中的每一个来训练对应韵律迁移系统200、200A-N,使得每个韵律迁移系统200被配置成将文本话语320合成为目标话音并具有韵律表示302的表达性语音152,韵律表示302表示与对应特定韵律垂直行业20相关联的预期韵律。例如,应用以上示例,训练后的韵律迁移系统200A可以以具有与新闻读者韵律垂直行业l20A相关联的预期韵律的目标话音合成表达性语音152,训练后的韵律迁移系统200B可以以具有与体育解说员韵律垂直行业20B相关联的预期韵律的目标话音合成表达性语音,并且训练后的韵律迁移系统200N可以以具有与教育讲师韵律垂直行业20N相关联的预期韵律的目标话音合成表达性语音。计算设备120可以将每个训练后的韵律迁移系统200存储在数据存储装置180(例如,存储器硬件124)上以供以后在推理期间使用。
在推理期间,计算设备120可以使用训练后的韵律迁移系统200将文本话语320合成为目标话音并具有韵律表示302的表达性语音152,韵律表示302表示与特定韵律垂直行业l20相关联的预期韵律。韵律表示302可以对应于每个音素的音高、能量和持续时间的预测韵律特征。即,在第一级别/阶段期间,训练后的韵律迁移系统200使用第一TTS模型212来生成输入文本话语320的中间合成语音表示202,由此中间合成语音表示202拥有预期韵律并且被许可具有降低的音频质量并缺乏讲话者特性。在第二级别/阶段期间,训练后的韵律迁移系统200将中间合成语音表示202提供给第二TTS模型222。这里,第二TTS模型222的编码器部分300被配置成将中间合成语音表示202编码成指定预期韵律的话语嵌入204,然而第二TTS模型222的解码器部分400被配置成处理输入文本话语320和话语嵌入204以生成表达性语音的输出音频信号280。输出音频信号280具有由话语嵌入204指定的预期韵律和目标话音的讲话者特性。解码器部分400可以接收传达讲话者特性(例如,口音、男性/女性和口音)的与目标话音相关联的讲话者嵌入Z。在所示出的示例中,语音合成器150使用输出音频信号280来产生来自文本话语320并在目标话音中具有预期韵律的合成语音152。
图2A提供韵律迁移系统200、200a的示意视图,其中第二TTS系统220处的第二TTS模型222a对应于基于变分自动编码器(VAE)的第二TTS模型222a。更具体地,第二TTS模型222a可以为时钟装置层次变分自动编码器(CHiVE)提供层次语言结构。然而,第二TTS模型222a可以包括其他类型的VAE。在所示出的示例中,第一TTS系统210接收文本话语320和可选的其他输入325作为输入,可选的其他输入325可以包括目标话音的讲话者特性(例如,讲话者嵌入Z)。其他输入325可以另外或替代地包括语言标识符、文本规范化、或对应韵律域的韵律垂直行业标识符中的一个或多个。使用输入文本话语和可选的其他输入325,第一TTS模型212生成包括固有地拥有输入文本话语320的预期韵律的梅尔频率频谱序列的中间输出音频信号201。第一TTS系统210可以将中间输出音频信号201合成(例如,使用语音合成器150)为中间合成语音表示202。如以上所阐述的,中间合成语音表示202被配置成准确地捕获预期韵律,并且被许可包括降低的音频质量并缺乏用于识别目标话音的讲话者特性。换句话说,中间合成语音表示202可能不一定适合于人类聆听,而是相反,用作传达预期韵律以供由第二TTS模型222使用以再现和并入到目标话音的表达性语音中的韵律信息的载体。
提取器214然后可以从中间合成语音表示202中对提供韵律特征的固定长度参考帧211的序列进行采样,韵律特征表示中间合成语音表示202所拥有的预期韵律。基于VAE的第二TTS模型222a的编码器部分300、300a被配置成将固定长度参考帧211的序列编码成指定预期韵律的话语嵌入204。表示中间合成语音表示202所拥有的预期韵律的韵律特征可以包括持续时间、音高轮廓、能量轮廓和/或梅尔频率频谱轮廓。
继续参考图2A,基于CHiVE的第二TTS模型222a的解码器部分400、400a被配置成处理输入文本话语320和话语嵌入204,以通过使用输入文本话语320将对应话语嵌入204解码成提供输入文本话语320的韵律表示302的固定长度预测帧280的序列来生成输出音频信号280。
图3和图4A示出用于提供韵律迁移的可控模型的图2A的基于CHiVE的第二TTS模型222a的层次语言结构。模型222a可以在不用依靠来自给定输入文本或其他语言规范的任何唯一映射以产生在目标话音中具有预期韵律的合成语音152的情况下,针对给定输入文本320的每个音节,联合地预测该音节的持续时间以及该音节的音高(F0)和能量(C0)轮廓。第二TTS模型222a包括:编码器部分300a(图2A和图3),其将从中间合成语音表示202中(或从中间输出中)采样的多个固定长度参考帧211编码成固定长度话语嵌入204;以及解码器部分400a(图2A和图4A),其学习如何对固定长度话语嵌入204进行解码。解码器部分400a可以将固定长度话语嵌入204解码成表达性语音的输出音频信号280,该输出音频信号280可以包括多个固定长度预测帧280(例如,以预测话语嵌入204的音高(F0)、能量(C0)或频谱特性(M0))。如将变得明显的那样,第二TTS模型222a被训练为使得从解码器部分400a输出的预测帧280的数目等于输入到编码器部分300a的参考帧211的数目。此外,第二TTS模型222a被训练为使得与参考帧211和预测帧280相关联的韵律信息基本上彼此匹配。
参考图2A和图3,编码器部分300a接收从自第一TTS系统210输出的中间合成语音表示202中采样的固定长度参考帧211的序列。中间合成语音表示202捕获输入文本话语320的预期韵律。参考帧211可以各自包括5毫秒(ms)的持续时间并且表示中间合成语音表示202的音高(F0)的轮廓或能量(C0)的轮廓(和/或频谱特性(M0)的轮廓)中的一者。特别地,编码器部分300a也可以接收各自包括5ms的持续时间并且表示中间合成语音表示202的音高(F0)的轮廓或能量(C0)的轮廓(和/或频谱特性(M0)的轮廓)中的另一者的参考帧211的第二序列。因此,从中间合成语音表示法202中采样的序列参考帧211提供持续时间、音高轮廓、能量轮廓和/或频谱特性轮廓以表示由中间合成语音表示法202捕获的预期韵律。中间合成语音表示202的长度或持续时间与参考帧211的总数之和相关。
编码器部分300a包括相对于彼此计时的中间合成语音表示202的参考帧211、音素321、321a、音节330、330a、单词340、340a以及句子350、350a的层次级别。例如,与参考帧211的序列相关联的级别比与音素321的序列相关联的下一个级别更快地计时。类似地,与音节330的序列相关联的级别比与音素321的序列相关联的级别更慢地计时并且比与单词340的序列相关联的级别更快地计时。因此,较慢计时层接收来自较快计时层的输出作为输入,使得在较快层的最后时钟(即,状态)之后的输出被视为对应较慢层的输入以实质上提供序列到序列编码器。在所示出的示例中,层次级别包括长短期记忆(LSTM)级别。
在所示出的示例中,中间合成语音表示202包括具有三个单词340、340A-C的一个句子350、350A。第一单词340、340A包括两个音节330、330Aa-Ab。第二单词340、340B包括一个音节330、330Ba。第三单词340、340a包括两个音节330、330Ca-Cb。第一单词340、340A的第一音节330、330Aa包括两个音素321、321Aa1-Aa2。第一单词340、340A的第二音节330、330Ab包括一个音素321、321Ab1。第二单词340、340B的第一音节330、330Ba包括三个音素321、321Ba1-Ba3。第三单词340、340C的第一音节330、330Ca包括一个音素321、321Ca1。第三单词340、340C的第二音节330、330Cb包括两个音素321、321Cb1-Cb2。
在一些实施方式中,编码器部分300a首先将参考帧211的序列编码成基于帧的音节嵌入332、332Aa-Cb。每个基于帧的音节嵌入332可以指示被表示为指示与对应音节330相关联的持续时间、音高(F0)和/或能量(C0)的数值向量的参考韵律特征。在一些实施方式中,参考帧211定义音素321Aa1-321Cb2的序列。这里,不是将参考帧211的子集编码成一个或多个音素321,而是编码器部分300a替代地通过将音素级语言特征322、322Aa1-Cb2编码成基于音素特征的音节嵌入334、334Aa-Cb来说明音素321。每个音素级语言特征322可以指示音素的位置,然而每个基于音素特征的音节嵌入334包括指示对应音节330内的每个音素的位置以及对应音节330内的音素321数目的向量。对于每个音节330,相应的音节嵌入332、334可以与对应音节330的相应的音节级语言特征336、336Aa-Cb级联和编码。此外,每个音节嵌入332、334指示音节330的级别的对应状态。
继续参考图3,层次层中包括对角线阴影图案的块对应于层次的特定级别的语言特征(除了单词级别340之外)。单词级别340处的阴影图案包括作为语言特征从输入文本话语320中提取的单词嵌入342或基于从转录206获得的单词单元272从BERT模型270输出的WP嵌入342。由于编码器300a的循环神经网络(RNN)部分没有词条的观念,所以可以选择对应于每个单词的第一词条的WP嵌入342来表示可以包含一个或多个音节330的单词。利用基于帧的音节嵌入332和基于音素特征的音节嵌入334,编码器部分300a将这些音节嵌入332、334与其他语言特征336、352、342(或WP嵌入342)级联并对其进行编码。例如,编码器部分300a利用音节级语言特征336、336Aa-Cb、单词级语言特征(或从BERT模型270输出的WP嵌入342、342A-C)和/或句子级语言特征352、352A对级联后的音节嵌入332、334进行编码。通过利用语言特征336、352、342(或WP嵌入342)对音节嵌入332、334进行编码,编码器部分300a为中间合成语音表示202生成话语嵌入204。话语嵌入204可以连同中间合成语音表示202的输入文本话语320(例如,文本表示)一起被存储在数据存储装置180(图1)中。从输入文本话语320中,可以提取并存储语言特征322、336、342、352以供在调节层次语言结构的训练时使用。语言特征(例如,语言特征322、336、342、352)可以包括但不限于每个音素的单独声音和/或音节中的每个音素的位置、每个音节是重音还是无重音、每个单词的句法信息、以及话语是问题还是短语和/或话语的讲话者的性别。如本文中所使用的,对关于基于VAE的第二TTS模型222a的编码器部分300a和解码器部分400a的单词级语言特征342的任何参考能够用来自BERT模型270的WP嵌入替换。
在图3的示例中,编码块322、322Aa-Cb被示出来描绘语言特征336、342、352与音节嵌入332、334之间的编码。这里,块322是以音节速率编码生成话语嵌入204的序列。作为图示,第一块322Aa作为输入被馈送到第二块322Ab中。第二块322Ab作为输入被馈送到第三块322Ba中。第三块322Ca作为输入被馈送到第四块322Ca中。第四块322Ca被馈送到第五块322Cb中。在一些配置中,话语嵌入204包括中间合成语音表示202的均值μ和标准差σ,其中均值μ和标准差σ是相对于多个中间合成语音表示202的训练数据的。
在一些实施方式中,每个音节330接收参考帧211的子集的对应编码作为输入并且包括等于编码的子集中的参考帧211数目的持续时间。在所示出的示例中,前七个固定长度参考帧211被编码成音节330Aa;接下来四个固定长度参考帧211被编码成音节330Ab;接下来十一个固定长度参考帧211被编码成音节330Ba;接下来三个固定长度参考帧211被编码成音节330Ca;并且最后六个固定长度参考帧211被编码成音节330Cb。因此,音节330的序列中的每个音节330可以包括基于编码成音节330的参考帧211的数目的对应持续时间以及对应音高和/或能量轮廓。例如,音节330Aa包括等于35ms(即,各自具有五毫秒的固定长度的七个参考帧211)的持续时间并且音节330Ab包括等于20ms(即,各自具有五毫秒的固定长度的四个参考帧211)的持续时间。因此,参考帧211的级别在音节330的级别对于音节330Aa与下一个音节330Ab之间的单次计时计时了总共十次。音节330的持续时间可以指示音节330的定时和相邻音节330之间的暂停。
在一些示例中,由编码器部分300a生成的话语嵌入204是包括表示中间合成语音表示202的韵律的数值向量的固定长度话语嵌入204。在一些示例中,固定长度话语嵌入204包括其值等于“128”或“256”的数值向量。
现在参考图2A和图4A,基于VAE的第二TTS模型222a的解码器部分400a被配置成通过最初对指定输入文本话语320的预期韵律的固定长度话语嵌入204进行解码来产生多个固定长度音节嵌入335。更具体地,话语嵌入204表示输入文本话语320的从第一TTS系统210输出的中间合成语音表示202所拥有的预期韵律。因此,解码器部分400a被配置成反向传播话语嵌入204以生成与多个固定长度参考帧211紧密地匹配的多个固定长度预测帧280。例如,可以并行生成针对音高(F0)和能量(C0)两者的固定长度预测帧280以表示与训练数据所拥有的预期韵律实质上匹配的预期韵律(例如,预测韵律)。在一些示例中,语音合成器150使用固定长度预测帧280来基于固定长度话语嵌入204产生具有预期韵律和目标话音的合成语音152。例如,语音合成器150的单元选择模块或WaveNet模块可以使用帧280来产生具有预期韵律的合成语音152。
在所示出的示例中,解码器部分400a将从编码器部分300a(图2A和图3)接收到的话语嵌入204(例如,“256”的数值)编码成单词340、340b、音节330、330b、音素321、321b和固定长度预测帧280的层次级别。具体地,固定长度话语嵌入204对应于用于解码器部分400a的层次输入数据的变分层,并且堆叠的层次级别中的每一个包括可变地计时到层次输入数据的长度的长短期记忆(LSTM)处理单元。例如,音节级别330比单词级别340更快地计时并且比音素级别321更慢地计时。每个级别中的矩形块对应于用于相应的单词、音节、音素或帧的LSTM处理单元。有利地,基于VAE的第二TTS模型222a给予单词级别340的LSTM处理单元超过最后100个单词的记忆,给予音节级别330的LSTM单元超过最后100个音节的记忆,给予音素级别321的LSTM单元超过最后100个音素的记忆,并且给予固定长度音高和/或能量帧280的LSTM单元超过最后100个固定长度帧280的记忆。当固定长度帧280各自包括五毫秒的持续时间(例如,帧速率)时,对应LSTM处理单元提供超过最后500毫秒(例如,半秒)的记忆。
在所示出的示例中,层次语言结构的解码器部分400a简单地反向传播由编码器部分300a编码成三个单词340A-340C的序列、五个音节330Aa-330Cb的序列和九个音素321Aa1-321Cb2的序列以生成预测固定长度帧280的序列的固定长度话语嵌入204。解码器部分400a以输入文本话语320的语言特征为条件。通过与其中来自较快计时层的输出被较慢计时层作为输入接收的图3的编码器部分300a对比,解码器部分400a包括来自馈送较快计时层的较慢计时层的输出,使得较慢计时层的输出以附加有定时信号的每个时钟周期被分发给较快计时层的输入。
参考图2A、图3和图4A,在一些实施方式中,用于时钟装置层次变分自动编码器222a的层次语言结构被适配成提供用于预测输入文本话语320的梅尔频谱信息的可控模型,而同时有效地控制梅尔频率信息中隐式地表示的韵律。具体地,第二TTS模型222a可以预测输入文本话语(简称为“输入文本”320)的梅尔频率频谱502并且将梅尔频率频谱502作为输入提供给语音合成器的声码器网络155以用于转换成时域音频波形。时域音频波形包括定义音频信号随时间的振幅的音频波形。如将变得明显,语音合成器150能够使用在样本输入文本和单独从第一TTS模型212输出的对应梅尔频率频谱201上训练的自动编码器222a来从输入文本320生成合成语音152。也就是说,基于VAE的第二TTS模型222a不接收需要相当多的域专业知识才能产生的复杂语言和声学特征,而是相反,能够使用端到端深度神经网络来将输入文本320转换为梅尔频率频谱502。声码器网络155,即,神经声码器被分开地训练并且以用于转换成时域音频波形的梅尔频率频谱为条件。
梅尔频率频谱包括声音的频域表示。梅尔频率频谱强调对语音可理解度至关重要的较低频率,然而不强调由摩擦音和其他噪声突发主导并且通常不需要高保真地建模的高频率。声码器网络155能够是被配置成接收梅尔频率频谱并且基于梅尔频率频谱生成音频输出样本的任何网络。例如,声码器网络155能够是或者能够基于在https://arxiv.org/pdf/1711.10433.pdf可获得并通过引用并入本文的van den Oord,Parallel WaveNet:Fast High-Fidelity Speech Synthesis(并行WaveNet:快速高保真语音合成)中描述的并行前馈神经网络。替代地,声码器网络155可以是自回归神经网络。
如以上参考图2A、图3和图4A描述的,基于VAE的第二TTS模型222a包括编码器部分300a和解码器部分400a。编码器部分300a被配置成将从中间合成语音表示202中采样/提取的多个固定长度参考梅尔频率频谱帧211编码成话语嵌入204。解码器部分400a被配置成学习如何将话语嵌入解码成多个固定长度预测梅尔频率频谱帧280M0。基于VAE的TTS模型222a可以被训练为使得从解码器部分400a输出的预测梅尔频率频谱帧280的数目等于输入到编码器部分300a的参考梅尔频率频谱帧211的数目。此外,基于VAE的TTS模型222a被训练为使得与参考梅尔频率频谱帧211和预测梅尔频率频谱帧280相关联的韵律信息实质上彼此匹配。预测梅尔频率频谱帧280可以隐式地提供中间合成语音表示202的韵律表示。参考梅尔频率频谱帧211可以从从第一TTS系统210输出的中间输出音频信号201中被采样作为对中间合成语音表示202的补充或替代。参考于2020年5月5日提交的美国专利申请No.16/867,427描述基于VAE的第二TTS模型222a的附加细节,该美国专利申请的内容通过引用以其整体并入。
图2B提供韵律迁移系统200、200b的示意性视图,其中第二TTS系统220处的第二TTS模型222对应于基于序列到序列特征预测网络的第二TTS模型222b(在下文中为基于S2S的第二TTS模型222b)。在所示出的示例中,第一TTS系统210接收文本话语320和可选的其他输入325作为输入,该可选的其他输入325可以包括目标话音的讲话者特性(例如,讲话者嵌入Z)。其他输入325可以另外或替代地包括语言标识符、文本规范化、或对应韵律域的韵律垂直行业标识符中的一个或多个。使用输入文本话语和可选的其他输入325,第一TTS模型212生成可以包括拥有输入文本话语320的预期韵律的梅尔频率频谱的序列的中间输出音频信号201。第一TTS系统210可以将中间输出音频信号201合成(例如,使用语音合成器150)为中间合成语音表示202。如以上所阐述的,中间合成语音表示202被配置成准确地捕获预期韵律,并且被许可包括降低的音频质量并缺乏用于识别目标话音的讲话者特性。换句话说,中间合成语音表示202不适合于人类聆听,而是相反,用作传达预期韵律以供第二TTS模型222使用以再现和并入到目标话音的表达性语音中的韵律信息的载体。
基于S2S的第二TTS模型222b的编码器部分300、300b被配置成将中间合成语音表示202(或中间输出音频信号201)编码成指定预期韵律的话语嵌入204。馈送到编码器部分300b的中间合成语音表示202(或中间输出音频信号201)可以隐式地表示输入文本话语320的预期韵律。在一些实施方式中,编码器部分300b对应于将预期韵律作为潜在因素编码成话语嵌入204的变分自动编码器。在这些实施方式中,话语嵌入204可以对应于潜在嵌入。通常不在解码器部分400b的调节输入中表示这些潜在因素,由此调节输入可以包括输入文本话语320和其他输入325,诸如与目标话音的讲话者特性相关联的讲话者嵌入116、与输入文本话语320的母语相关联的语言嵌入、以及标识传达预期韵律的特定韵律垂直行业20(图1)的韵律垂直行业标识符。因此,编码器部分300b将话语嵌入204传递给解码器400b。
现在参考图2B和图4B,基于S2S的第二TTS模型222b的解码器部分400a可以包括具有pre-net 410、长短期记忆(LSTM)子网络420、线性投影430和卷积post-net 440的架构。针对前一个时间步的梅尔频率频谱预测通过的pre-net 410可以包括隐藏ReLU的两个全连接层。Pre-net 410充当用于学习注意力以提高收敛速度并且在训练期间改进语音合成系统的概括能力的信息瓶颈。为了在推理时引入输出变化,可以对pre-net中的各层应用具有0.5概率的dropout。
LSTM子网络420可以包括两个或多个LSTM层。在每个时间步,LSTM子网络420接收pre-net 410的输出、话语嵌入204和该时间步的文本话语320的一部分的级联。LSTM层可以使用具有例如0.1概率的zoneout来正则化。线性投影430接收LSTM子网络420的输出作为输入并且产生梅尔频率频谱118P的预测。
具有一个或多个卷积层的卷积post-net 440处理时间步的预测梅尔频率频谱118P以预测残差242以在加法器244处加到预测梅尔频率频谱118P。这改进整体重建。除了最后卷积层之外的每个卷积层可以后面有批量规范化和双曲正切(TanH)激活。卷积层使用具有例如0.5概率的dropout来正则化。残差242被加到由线性投影430生成的预测梅尔频率频谱118P,并且和(即,梅尔频率频谱118)可以被提供给语音合成器150。在一些实施方式中,与解码器部分400b预测每个时间步的梅尔频率频谱118并行地,LSTM子网络420的输出、话语嵌入204和文本话语320的部分(例如,由文本编码器(未示出)生成的字符嵌入)被投射到标量并且通过sigmoid激活来预测梅尔频率频谱118的输出序列已完成的概率。输出序列梅尔频率频谱118对应于输入文本话语320的表达性语音的输出音频信号280并且包括与目标话音相关联的预期韵律和讲话者特性。
在推理期间使用此“停止词元”预测以允许模型222b动态地确定何时终止生成,而不是总生成达到固定持续时间。当停止词元指示生成已终止时,即,当停止词元概率超过阈值时,解码器部分400b停止预测梅尔频率频谱118P并且返回直到该点预测的梅尔频率频谱作为表达性语音的输出音频信号280。替代地,解码器部分400b可以总是生成相同长度(例如,10秒)的梅尔频率频谱118。在一些实施方式中,语音合成器是Griffin-Lim合成器。在一些其他实施方式中,语音合成器包括声码器155。例如,语音合成器150可以包括WaveRNN声码器155。这里,WaveRNN声码器155可以以由TTS模型222b预测的频谱118为条件生成以24kHz采样的16位信号。在一些其他实施方式中,波形合成器是可训练的频谱到波形变换器。在波形合成器150生成波形之后,音频输出系统能够使用波形来生成语音152并且提供所生成的语音152以供例如在用户设备上重放,或者将所生成的波形提供给另一系统以允许另一系统生成和重放语音152。在一些示例中,WaveNet神经声码器155替换波形合成器150。与由波形合成器150产生的合成语音相比,WaveNet神经声码器可以提供不同音频保真度的合成语音。因此,在一些示例中,第一TTS系统210可以采用常规波形合成器150来以具有降低的质量但准确地拥有预期韵律的中间话音生成中间合成语音表示202,然而第二TTS系统220可以将来自中间合成语音表示202的预期韵律迁移到由WaveNet神经声码器155产生的目标话音的合成语音中。
在一些实施方式中,解码器部分400b包括基于注意力的序列到序列模型,其被配置成基于输入文本话语320以及诸如提供与目标话音相关联的讲话者特性的讲话者嵌入Z的附加输入来生成输出对数梅尔频谱帧的序列,例如,输出梅尔频谱118。例如,解码器部分400b可以基于Tacotron 2模型(参见在例如https://arxiv.org/abs/1712.05884的J.Shen等人的“Natural TTS Synthesis by Conditioning WaveNet on Mel SpectrogramPredictions(通过在Mel频谱图预测上调节WaveNet进行自然TTS合成)”,其通过引用并入本文)。因此,基于S2S的第二TTS模型222b提供用于将中间合成语音表示202中拥有的预期韵律迁移到话语嵌入204中并且利用附加输入325(例如,讲话者嵌入z)处理话语嵌入204和输入文本话语320以产生在目标话音中具有预期韵律的表达性语音的输出音频信号280的增强型TTS模型。诸如讲话者嵌入z、语言标识符和韵律垂直行业标识符的附加输入325帮助许可跨系统200在上面被训练的任何预期韵律的不同语言的不同话音的迁移。
图5是将输入文本话语合成为在目标话音中具有预期韵律的表达性语音的方法500的操作的示例布置的流程图。数据处理硬件122(图1)可以通过运行存储在存储器硬件124上的指令来执行方法500的操作。在操作502,方法500包括接收要合成为具有预期韵律和目标话音的表达性语音152的输入文本话语320。在操作504,方法500包括使用第一文本到语音(TTS)模型212来生成输入文本话语320的中间合成语音表示202。这里,中间合成语音表示202拥有预期韵律。中间合成语音表示202可以包括捕获预期韵律的音频波形或梅尔频率频谱序列。此外,中间合成语音表示202可以包括中间话音,该中间话音缺乏目标话音的讲话者特性并且包括不期望的声学伪迹。因此,中间合成语音表示202提供表现力,但是可能缺乏可理解度和自然度。
在操作506,方法500包括将中间合成语音表示提供给第二TTS模型222,该第二TTS模型222包括编码器部分300和解码器部分400。编码器部分300被配置成将中间合成语音表示202编码成指定预期韵律的话语嵌入204。解码器部分400被配置成处理输入文本话语320和话语嵌入204以生成表达性语音152的输出音频信号280。这里,输出音频信号具有由话语嵌入204指定的预期韵律和目标话音的讲话者特性。
在一些示例中,方法500还包括获得表示目标话音的讲话者特性的讲话者嵌入Z的附加输入325。在这些示例中,解码器部分400被配置成处理输入文本话语320、话语嵌入204和讲话者嵌入Z,以生成表达性语音的输出音频信号。第一TTS模型212和第二TTS模型222可以各自包括相同或不同类型的神经网络架构。
软件应用(即,软件资源)可以指使计算设备执行任务的计算机软件。在一些示例中,可以将软件应用称为“应用”、“App”或“程序”。示例应用包括但不限于系统诊断应用、系统管理应用、系统维护应用、文字处理应用、电子表格应用、消息传送应用、媒体流应用、社交联网应用和游戏应用。
非暂时性存储器可以是用于在暂时或永久基础上存储程序(例如,指令的序列)或数据(例如,程序状态信息)以供计算设备使用的物理设备。非暂时性存储器可以是易失性可寻址半导体存储器和/或非易失性可寻址半导体存储器。非易失性存储器的示例包括但不限于闪存和只读存储器(ROM)/可编程只读存储器(PROM)/可擦除可编程只读存储器(EPROM)/电子可擦除可编程只读存储器(EEPROM)(例如,通常用于固件,诸如引导程序)。易失性存储器的示例包括但不限于随机存取存储器(RAM)、动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)、相变存储器(PCM)以及磁盘或磁带。
图6是可以用于实现本文档中描述的系统和方法的示例计算设备600的示意视图。计算设备600旨在表示各种形式的数字计算机,诸如膝上型电脑、台式机、工作站、个人数字助理、服务器、刀片服务器、主机和其他适当的计算机。这里示出的组件、它们的连接和关系及其功能仅意在为示例性的,而不意在限制本文档中描述和/或要求保护的发明的实施方式。
计算设备600包括处理器610、存储器620、存储设备630、连接到存储器620和高速扩展端口650的高速接口/控制器640以及连接到低速总线670和存储设备630的低速接口/控制器660。组件610、620、630、640、650和660中的每一个使用各种总线来互连,并且可以被安装在公共母板上或者酌情以其他方式安装。处理器610能够处理在计算设备600内运行的指令,包括存储在存储器620中或在存储设备630上以在外部输入/输出设备,诸如耦合到高速接口640的显示器680,上显示图形用户界面(GUI)的图形信息的指令。在其他实施方式中,可以酌情使用多个处理器和/或多个总线以及多个存储器和多种类型的存储器。另外,多个计算设备600可以被连接,其中每个设备提供必要操作的部分(例如,作为服务器组、刀片服务器组、或多处理器系统)。
存储器620在计算设备600内非暂时性地存储信息。存储器620可以是计算机可读介质、(多个)易失性存储单元或(多个)非易失性存储单元。非暂时性存储器620可以是用于在暂时或永久基础上存储程序(例如,指令的序列)或数据(例如,程序状态信息)以供计算设备600使用的物理设备。非易失性存储器的示例包括但不限于闪存和只读存储器(ROM)/可编程只读存储器(PROM)/可擦除可编程只读存储器(EPROM)/电子可擦除可编程只读存储器(EEPROM)(例如,通常用于固件,诸如引导程序)。易失性存储器的示例包括但不限于随机存取存储器(RAM)、动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)、相变存储器(PCM)以及磁盘或磁带。
存储设备630能够为计算设备600提供大容量存储。在一些实施方式中,存储设备630是计算机可读介质。在各种不同的实施方式中,存储设备630可以是软盘设备、硬盘设备、光盘设备、或磁带设备、闪存或其他类似的固态存储器设备或设备的阵列,包括存储区域网络或其他配置中的设备。在附加实施方式中,计算机程序产品被有形地体现在信息载体中。计算机程序产品包含指令,这些指令当被运行时,执行一种或多种方法,诸如上述那些方法。信息载体是计算机或机器可读介质,诸如存储器620、存储设备630、或处理器610上的存储器。
高速控制器640管理计算设备600的带宽密集操作,然而低速控制器660管理较低带宽密集操作。职责的这种分配仅是示例性的。在一些实施方式中,高速控制器640耦合到存储器620、显示器680(例如,通过图形处理器或加速器),并且耦合到可以接受各种扩展卡(未示出)的高速扩展端口650。在一些实施方式中,低速控制器660耦合到存储设备630和低速扩展端口690。可以包括各种通信端口(例如,USB、蓝牙、以太网、无线以太网)的低速扩展端口690可以例如通过网络适配器耦合到一个或多个输入/输出设备,诸如键盘、指点设备、扫描仪,或诸如交换机或路由器联网设备。
如图所示,可以以许多不同的形式实现计算设备600。例如,它可以作为标准服务器600a被实现或者在此类服务器600a组中被多次实现,作为膝上型计算机600b或作为机架服务器系统600c的部分被实现。
本文中描述的系统和技术的各种实施方式能够以数字电子和/或光学电路系统、集成电路系统、专门地设计的ASIC(专用集成电路)、计算机硬件、固件、软件和/或其组合实现。这些各种实施方式能够包括在包括至少一个可编程处理器的可编程系统上可运行和/或可解释的一个或多个计算机程序中的实施方式,该至少一个可编程处理器可以是专用的或通用的,耦合以从存储系统、至少一个输入设备和至少一个输出设备接收数据和指令,并且向存储系统、至少一个输入设备和至少一个输出设备发送数据和指令。
这些计算机程序(也称为程序、软件、软件应用或代码)包括用于可编程处理器的机器指令,并且能够以高级过程语言和/或面向对象编程语言和/或用汇编/机器语言实现。如本文中所使用的,术语“机器可读介质”和“计算机可读介质”是指用于向可编程处理器提供机器指令和/或数据的任何计算机程序产品、非暂时性计算机可读介质、装置和/或设备(例如,磁盘、光盘、存储器、可编程逻辑器件(PLD)),包括接收机器指令作为机器可读信号的机器可读介质。术语“机器可读信号”是指用于向可编程处理器提供机器指令和/或数据的任何信号。
本说明书中描述的过程和逻辑流程能够通过一个或多个可编程处理器,也称为数据处理硬件,运行一个或多个计算机程序以通过对输入数据进行操作并且生成输出来执行功能而执行。过程和逻辑流程也能够由专用逻辑电路系统,例如,FPGA(现场可编程门阵列)或ASIC(专用集成电路),执行。作为示例,适合于运行计算机程序的处理器包括通用微处理器和专用微处理器两者,以及任何种类的数字计算机的任何一个或多个处理器。通常,处理器将从只读存储器或随机存取存储器或两者中接收指令和数据。计算机的必要元件是用于执行指令的处理器以及用于存储指令和数据的一个或多个存储器设备。通常,计算机也将包括用于存储数据的一个或多个大容量存储设备(例如,磁盘、磁光盘或光盘),或者可操作地耦合以从用于存储数据的一个或多个大容量存储设备(例如,磁盘、磁光盘或光盘)接收数据或者向用于存储数据的一个或多个大容量存储设备(例如,磁盘、磁光盘或光盘)发送数据,或者两者。然而,计算机不必须具有此类设备。适合于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、介质和存储器设备,作为示例包括半导体存储器设备,例如,EPROM、EEPROM和闪存设备;磁盘,例如,内部硬盘或可移动盘;磁光盘;以及CD ROM和DVD-ROM盘。处理器和存储器能够由专用逻辑电路系统补充,或者并入在专用逻辑电路系统中。
为了提供与用户的交互,能够在计算机上实现本公开的一个或多个方面,该计算机具有显示设备,例如,用于向用户显示信息的CRT(阴极射线管)、LCD(液晶显示器)监视器或触摸屏,并且可选地具有用户能够通过其向计算机提供输入的键盘和指点设备,例如,鼠标或轨迹球。其他种类的设备也能够用于提供与用户的交互;例如,提供给用户的反馈能够是任何形式的感觉反馈,例如,视觉反馈、听觉反馈或触觉反馈;并且能够以任何形式接收来自用户的输入,包括声学、语音或触觉输入。另外,计算机能够通过向由用户使用的设备发送文档和从由用户使用的设备接收文档来与用户交互;例如,通过响应于从web浏览器接收到的请求向用户的客户端设备上的web浏览器发送web页面。
已经描述了许多实施方式。然而,应理解,在不背离本公开的精神和范围的情况下,可以做出各种修改。因此,其他实施方式在所附权利要求的范围内。
Claims (30)
1.一种方法(500),包括:
在数据处理硬件(122)处接收要合成为具有预期韵律和目标话音的表达性语音(152)的输入文本话语(320);
由所述数据处理硬件(122)使用第一文本到语音TTS模型(212)来生成所述输入文本话语(320)的中间合成语音表示(202),所述中间合成语音表示(202)拥有所述预期韵律;以及
由所述数据处理硬件(122)将所述中间合成语音表示(202)提供给第二TTS模型(222),所述第二TTS模型(222)包括:
编码器部分(300),所述编码器部分(300)被配置成将所述中间合成语音表示(202)编码成指定所述预期韵律的话语嵌入(204);以及
解码器部分(400),所述解码器部分(400)被配置成处理所述输入文本话语(320)和所述话语嵌入(204)以生成表达性语音(152)的输出音频信号(280),所述输出音频信号(280)具有由所述话语嵌入(204)指定的所述预期韵律和所述目标话音的讲话者特性。
2.根据权利要求1所述的方法(500),进一步包括:
由所述数据处理硬件(122)从所述中间合成语音表示(202)中对提供韵律特征的固定长度参考帧(211)的序列进行采样,所述韵律特征表示所述中间合成语音表示(202)所拥有的所述预期韵律,
其中,将所述中间合成语音表示(202)提供给所述第二TTS模型(222)包括将从所述中间合成语音表示(202)中采样的所述固定长度参考帧(211)的序列提供给所述编码器部分(300),所述编码器部分(300)被配置成将所述固定长度参考帧(211)的序列编码成所述话语嵌入(204)。
3.根据权利要求2所述的方法(500),其中,表示所述中间合成语音表示(202)所拥有的所述预期韵律的所述韵律特征包括持续时间、音高轮廓、能量轮廓和/或梅尔频率频谱轮廓。
4.根据权利要求2或3所述的方法(500),其中,所述编码器部分(300)被配置成通过对于所述中间合成语音表示(202)中的每个音节(330)执行以下操作将所述固定长度参考帧(211)的序列编码成所述话语嵌入(204):
将与所述音节(330)中的每个音素(321)相关联的音素级语言特征(322)编码成基于音素特征的音节嵌入(332);
将与所述音节(330)相关联的所述固定长度参考帧(211)编码成基于帧的音节嵌入(334),所述基于帧的音节嵌入(334)指示与对应音节(330)相关联的持续时间、音高和/或能量;以及
将具有以下项的所述基于音素特征的音节嵌入和所述基于帧的音节嵌入(332、334)编码成所述音节(330)的对应韵律音节嵌入(335):与所述音节(330)相关联的音节级语言特征(336)、与所述中间合成语音表示(202)相关联的句子级语言特征(352)、以及与包括所述对应音节(330)的单词(340)相关联的单词级语言特征(342)。
5.根据权利要求4所述的方法(500),其中,所述单词级语言特征(342)包括从词条嵌入的序列获得的词条嵌入,所述词条嵌入的序列是由来自转换器的双向编码器表示(BERT)模型从所述输入文本话语(320)生成的。
6.根据权利要求2-5中的任一项所述的方法(500),其中,所述解码器部分(400)被配置成处理所述输入文本话语(320)和所述话语嵌入(204),以通过使用所述输入文本话语(320)将对应话语嵌入(204)解码成提供所述输入文本话语(320)的韵律表示(302)的固定长度预测帧(280)的序列来生成所述输出音频信号(280),所述韵律表示(302)表示由所述话语嵌入(204)指定的所述预期韵律。
7.根据权利要求6所述的方法(500),其中,所述第二TTS模型(222)被训练为使得由所述解码器部分(400)解码的所述固定长度预测帧(280)的数目等于从所述中间合成语音表示(202)中采样的所述固定长度参考帧(211)的数目。
8.根据权利要求1-7中的任一项所述的方法(500),其中,所述话语嵌入(204)包括固定长度数值向量。
9.根据权利要求1-8中的任一项所述的方法(500),其中:
所述中间合成语音表示(202)包括捕获所述预期韵律的音频波形或梅尔频率频谱序列(502);并且
将所述中间合成语音表示(202)提供给所述第二TTS模型(222)包括将所述音频波形或所述梅尔频率频谱序列(502)提供给所述编码器部分(300),所述编码器部分(300)被配置成将所述音频波形或所述梅尔频率频谱序列(502)编码成所述话语嵌入(204)。
10.根据权利要求1-9中的任一项所述的方法(500),进一步包括:
由所述数据处理硬件(122)获得表示所述目标话音的所述讲话者特性的讲话者嵌入(116);以及
由所述数据处理硬件(122)将所述讲话者嵌入(116)提供给所述第二TTS模型(222)的所述解码器部分(400),所述解码器部分(400)被配置成处理所述输入文本话语(320)、所述话语嵌入(204)和所述讲话者嵌入(116)以生成表达性语音(152)的所述输出音频信号(280)。
11.根据权利要求1-10中的任一项所述的方法(500),其中,使用所述第一TTS模型(212)生成的所述中间合成语音表示(202)包括中间话音,所述中间话音缺乏所述目标话音的所述讲话者特性并且包括不期望的声学伪迹。
12.根据权利要求1-11中的任一项所述的方法(500),进一步包括:
在所述数据处理硬件(122)处接收包括多个训练音频信号(104)和对应转录(106)的训练数据(10),每个训练音频信号(104)包括具有由与所述预期韵律相关联的韵律域/垂直行业中的对应讲话者讲出的所述预期韵律的人类语音的话语,每个转录(106)包括对应训练音频信号(104)的文本表示;以及
对于所述训练数据(10)的每个对应转录(106):
由所述数据处理硬件(122)训练所述第一TTS模型(212)以生成对应参考音频信号,所述对应参考音频信号包括捕获人类语音的对应话语的所述预期韵律的训练合成语音表示;
由所述数据处理硬件(122)通过将对应训练合成语音表示编码成表示由所述训练合成语音表示捕获的所述预期韵律的对应话语嵌入(204)来训练所述第二TTS模型(222)的所述编码器部分(300);
由所述数据处理硬件(122)使用所述训练数据(10)的对应转录(106)通过将由所述编码器部分(300)编码的所述对应话语嵌入(204)解码成具有所述预期韵律的表达性语音(152)的预测输出音频信号(280)来训练所述第二TTS模型(222)的所述解码器部分(400);
生成所述预测输出音频信号(280)与所述对应参考音频信号之间的梯度/损失;以及
通过所述第二TTS模型(222)反向传播所述梯度/损失。
13.根据权利要求1-12中的任一项所述的方法(500),其中,所述第一TTS模型(212)和所述第二TTS模型(222)被分开地训练。
14.根据权利要求1-13中的任一项所述的方法(500),其中,所述第一TTS模型(212)包括第一神经网络架构,并且所述第二TTS模型(222)包括与所述第一神经网络架构不同的第二神经网络架构。
15.根据权利要求1-14中的任一项所述的方法(500),其中,所述第一TTS模型(212)和所述第二TTS模型(222)包括相同的神经网络架构。
16.一种系统(100),包括:
数据处理硬件(122);以及
存储器硬件(124),所述存储器硬件(124)与所述数据处理硬件(122)通信,所述存储器硬件(124)存储指令,所述指令当在所述数据处理硬件(122)上运行时,使所述数据处理硬件(122)执行包括以下的操作:
接收要合成为具有预期韵律和目标话音的表达性语音(152)的输入文本话语(320);
使用第一文本到语音TTS模型来生成所述输入文本话语(320)的中间合成语音表示(202),所述中间合成语音表示(202)拥有所述预期韵律;以及
将所述中间合成语音表示(202)提供给第二TTS模型(222),所述第二TTS模型(222)包括:
编码器部分(300),所述编码器部分(300)被配置成将所述中间合成语音表示(202)编码成指定所述预期韵律的话语嵌入(204);以及
解码器部分(400),所述解码器部分(400)被配置成处理所述输入文本话语(320)和所述话语嵌入(204)以生成表达性语音(152)的输出音频信号(280),所述输出音频信号(280)具有由所述话语嵌入(204)指定的所述预期韵律和所述目标话音的讲话者特性。
17.根据权利要求16所述的系统(100),其中,所述操作进一步包括:
从所述中间合成语音表示(202)中对提供韵律特征的固定长度参考帧(211)的序列进行采样,所述韵律特征表示所述中间合成语音表示(202)所拥有的所述预期韵律,
其中,将所述中间合成语音表示(202)提供给所述第二TTS模型(222)包括将从所述中间合成语音表示(202)中采样的所述固定长度参考帧(211)的序列提供给所述编码器部分(300),所述编码器部分(300)被配置成将所述固定长度参考帧(211)的序列编码成所述话语嵌入(204)。
18.根据权利要求17所述的系统(100),其中,表示所述中间合成语音表示(202)所拥有的所述预期韵律的所述韵律特征包括持续时间、音高轮廓、能量轮廓和/或梅尔频率频谱轮廓。
19.根据权利要求17或18所述的系统(100),其中,所述编码器部分(300)被配置成通过对于所述中间合成语音表示(202)中的每个音节(330)执行以下操作将所述固定长度参考帧(211)的序列编码成所述话语嵌入(204):
将与所述音节(330)中的每个音素(321)相关联的音素级语言特征(322)编码成基于音素特征的音节嵌入(332);
将与所述音节(330)相关联的所述固定长度参考帧(211)编码成基于帧的音节嵌入(334),所述基于帧的音节嵌入(334)指示与对应音节(330)相关联的持续时间、音高和/或能量;以及
将具有以下各项的所述基于音素特征的音节嵌入和所述基于帧的音节嵌入(332、334)编码成所述音节(330)的对应韵律音节嵌入(335):与所述音节(330)相关联的音节级语言特征(336)、与所述中间合成语音表示(202)相关联的句子级语言特征(352)、以及与包括对应音节(330)的单词(340)相关联的单词级语言特征(342)。
20.根据权利要求19所述的系统(100),其中,所述单词级语言特征(342)包括从词条嵌入的序列获得的词条嵌入,所述词条嵌入的序列是由来自转换器的双向编码器表示(BERT)模型从所述输入文本话语(320)生成的。
21.根据权利要求16-20中的任一项所述的系统(100),其中,所述解码器部分(400)被配置成处理所述输入文本话语(320)和所述话语嵌入(204),以通过使用所述输入文本话语(320)将对应话语嵌入(204)解码成提供所述输入文本话语(320)的韵律表示(302)的固定长度预测帧(280)的序列来生成所述输出音频信号(280),所述韵律表示(302)表示由所述话语嵌入(204)指定的所述预期韵律。
22.根据权利要求21所述的系统(100),其中,所述第二TTS模型(222)被训练为使得由所述解码器部分(400)解码的所述固定长度预测帧(280)的数目等于从所述中间合成语音表示(202)中采样的所述固定长度参考帧(211)的数目。
23.根据权利要求16-22中的任一项所述的系统(100),其中,所述话语嵌入(204)包括固定长度数值向量。
24.根据权利要求16-23中的任一项所述的系统(100),其中:
所述中间合成语音表示(202)包括捕获所述预期韵律的音频波形或梅尔频率频谱序列(502);并且
将所述中间合成语音表示(202)提供给所述第二TTS模型(222)包括将所述音频波形或所述梅尔频率频谱序列(502)提供给所述编码器部分(300),所述编码器部分(300)被配置成将所述音频波形或所述梅尔频率频谱序列(502)编码成所述话语嵌入(204)。
25.根据权利要求16-24中的任一项所述的系统(100),其中,所述操作进一步包括:
获得表示所述目标话音的所述讲话者特性的讲话者嵌入(116);以及
将所述讲话者嵌入(116)提供给所述第二TTS模型(222)的所述解码器部分(400),所述解码器部分(400)被配置成处理所述输入文本话语(320)、所述话语嵌入(204)和所述讲话者嵌入(116)以生成表达性语音(152)的所述输出音频信号(280)。
26.根据权利要求16-25中的任一项所述的系统(100),其中,使用所述第一TTS模型(212)生成的所述中间合成语音表示(202)包括中间话音,所述中间话音缺乏所述目标话音的所述讲话者特性并且包括不期望的声学伪迹。
27.根据权利要求16-26中的任一项所述的系统(100),其中,所述操作进一步包括:
接收包括多个训练音频信号(104)和对应转录(106)的训练数据(10),每个训练音频信号(104)包括具有由与所述预期韵律相关联的韵律域/垂直行业中的对应讲话者讲出的、具有所述预期韵律的人类语音的话语,每个转录(106)包括对应训练音频信号(104)的文本表示;以及
对于所述训练数据(10)的每个对应转录(106):
训练所述第一TTS模型(212)以生成对应参考音频信号,所述对应参考音频信号包括捕获人类语音的对应话语的所述预期韵律的训练合成语音表示;
通过将对应训练合成语音表示编码成表示由所述训练合成语音表示捕获的所述预期韵律的对应话语嵌入(204)来训练所述第二TTS模型(222)的所述编码器部分(300);
使用所述训练数据(10)的对应转录(106)通过将由所述编码器部分(300)编码的对应话语嵌入(204)解码成具有所述预期韵律的表达性语音(152)的预测输出音频信号(280)来训练所述第二TTS模型(222)的所述解码器部分(400);
生成所述预测输出音频信号(280)与所述对应参考音频信号之间的梯度/损失;以及
通过所述第二TTS模型(222)反向传播所述梯度/损失。
28.根据权利要求16-27中的任一项所述的系统(100),其中,所述第一TTS模型(212)和所述第二TTS模型(222)被分开地训练。
29.根据权利要求16-28中的任一项所述的系统(100),其中,所述第一TTS模型(212)包括第一神经网络架构,并且所述第二TTS模型(222)包括与所述第一神经网络架构不同的第二神经网络架构。
30.根据权利要求16-29中的任一项所述的系统(100),其中,所述第一TTS模型(212)和所述第二TTS模型(222)包括相同的神经网络架构。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US16/992,410 US11514888B2 (en) | 2020-08-13 | 2020-08-13 | Two-level speech prosody transfer |
US16/992,410 | 2020-08-13 | ||
PCT/US2021/043334 WO2022035586A1 (en) | 2020-08-13 | 2021-07-27 | Two-level speech prosody transfer |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116034424A true CN116034424A (zh) | 2023-04-28 |
Family
ID=77398670
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202180056199.8A Pending CN116034424A (zh) | 2020-08-13 | 2021-07-27 | 两级语音韵律迁移 |
Country Status (6)
Country | Link |
---|---|
US (2) | US11514888B2 (zh) |
EP (1) | EP4172984A1 (zh) |
JP (2) | JP7395792B2 (zh) |
KR (2) | KR20240096867A (zh) |
CN (1) | CN116034424A (zh) |
WO (1) | WO2022035586A1 (zh) |
Families Citing this family (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112259072B (zh) * | 2020-09-25 | 2024-07-26 | 北京百度网讯科技有限公司 | 语音转换方法、装置和电子设备 |
US11790884B1 (en) * | 2020-10-28 | 2023-10-17 | Electronic Arts Inc. | Generating speech in the voice of a player of a video game |
EP4310835A1 (en) * | 2021-03-16 | 2024-01-24 | Samsung Electronics Co., Ltd. | Electronic device and personalized text-to-speech model generation method by electronic device |
US11574131B2 (en) * | 2021-05-21 | 2023-02-07 | Google Llc | Machine-learned language models which generate intermediate textual analysis in service of contextual text generation |
US11694674B1 (en) * | 2021-05-26 | 2023-07-04 | Amazon Technologies, Inc. | Multi-scale spectrogram text-to-speech |
US11996083B2 (en) * | 2021-06-03 | 2024-05-28 | International Business Machines Corporation | Global prosody style transfer without text transcriptions |
US11830476B1 (en) * | 2021-06-08 | 2023-11-28 | Amazon Technologies, Inc. | Learned condition text-to-speech synthesis |
EP4293660A4 (en) * | 2021-06-22 | 2024-07-17 | Samsung Electronics Co Ltd | ELECTRONIC DEVICE AND ITS CONTROL METHOD |
KR102655933B1 (ko) * | 2021-07-06 | 2024-04-11 | 한국전자통신연구원 | 데이터 증강 방법 및 장치 |
US20230099732A1 (en) * | 2021-09-30 | 2023-03-30 | Microsoft Technology Licensing, Llc | Computing system for domain expressive text to speech |
US12087268B1 (en) * | 2021-12-03 | 2024-09-10 | Amazon Technologies, Inc. | Identity transfer models for generating audio/video content |
CN114373445B (zh) * | 2021-12-23 | 2022-10-25 | 北京百度网讯科技有限公司 | 语音生成方法、装置、电子设备及存储介质 |
CN114333762B (zh) * | 2022-03-08 | 2022-11-18 | 天津大学 | 基于表现力的语音合成方法、系统、电子设备及存储介质 |
CN114708849A (zh) * | 2022-04-27 | 2022-07-05 | 网易(杭州)网络有限公司 | 语音处理方法、装置、计算机设备及计算机可读存储介质 |
US11880645B2 (en) | 2022-06-15 | 2024-01-23 | T-Mobile Usa, Inc. | Generating encoded text based on spoken utterances using machine learning systems and methods |
CN114781377B (zh) * | 2022-06-20 | 2022-09-09 | 联通(广东)产业互联网有限公司 | 非对齐文本的纠错模型、训练及纠错方法 |
CN116092479B (zh) * | 2023-04-07 | 2023-07-07 | 杭州东上智能科技有限公司 | 一种基于对比文本-音频对的文本韵律生成方法和系统 |
CN117636842B (zh) * | 2024-01-23 | 2024-04-02 | 北京天翔睿翼科技有限公司 | 基于韵律情感迁移的语音合成系统及方法 |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040054534A1 (en) * | 2002-09-13 | 2004-03-18 | Junqua Jean-Claude | Client-server voice customization |
TWI573129B (zh) * | 2013-02-05 | 2017-03-01 | 國立交通大學 | 編碼串流產生裝置、韻律訊息編碼裝置、韻律結構分析裝置與語音合成之裝置及方法 |
JP7142333B2 (ja) * | 2018-01-11 | 2022-09-27 | ネオサピエンス株式会社 | 多言語テキスト音声合成方法 |
CN112005298B (zh) | 2018-05-11 | 2023-11-07 | 谷歌有限责任公司 | 时钟式层次变分编码器 |
US10699695B1 (en) | 2018-06-29 | 2020-06-30 | Amazon Washington, Inc. | Text-to-speech (TTS) processing |
CN109036375B (zh) * | 2018-07-25 | 2023-03-24 | 腾讯科技(深圳)有限公司 | 语音合成方法、模型训练方法、装置和计算机设备 |
KR20200015418A (ko) * | 2018-08-02 | 2020-02-12 | 네오사피엔스 주식회사 | 순차적 운율 특징을 기초로 기계학습을 이용한 텍스트-음성 합성 방법, 장치 및 컴퓨터 판독가능한 저장매체 |
KR20200080681A (ko) * | 2018-12-27 | 2020-07-07 | 삼성전자주식회사 | 음성 합성 방법 및 장치 |
US11289073B2 (en) * | 2019-05-31 | 2022-03-29 | Apple Inc. | Device text to speech |
CN110782870B (zh) * | 2019-09-06 | 2023-06-16 | 腾讯科技(深圳)有限公司 | 语音合成方法、装置、电子设备及存储介质 |
US11380300B2 (en) * | 2019-10-11 | 2022-07-05 | Samsung Electronics Company, Ltd. | Automatically generating speech markup language tags for text |
KR20210089347A (ko) * | 2020-01-08 | 2021-07-16 | 엘지전자 주식회사 | 음성 인식 장치 및 음성데이터를 학습하는 방법 |
US11830473B2 (en) * | 2020-01-21 | 2023-11-28 | Samsung Electronics Co., Ltd. | Expressive text-to-speech system and method |
US11322133B2 (en) * | 2020-07-21 | 2022-05-03 | Adobe Inc. | Expressive text-to-speech utilizing contextual word-level style tokens |
-
2020
- 2020-08-13 US US16/992,410 patent/US11514888B2/en active Active
-
2021
- 2021-07-27 EP EP21756135.6A patent/EP4172984A1/en active Pending
- 2021-07-27 WO PCT/US2021/043334 patent/WO2022035586A1/en active Application Filing
- 2021-07-27 CN CN202180056199.8A patent/CN116034424A/zh active Pending
- 2021-07-27 KR KR1020247019410A patent/KR20240096867A/ko not_active Application Discontinuation
- 2021-07-27 JP JP2023509803A patent/JP7395792B2/ja active Active
- 2021-07-27 KR KR1020237006493A patent/KR102677459B1/ko active IP Right Grant
-
2022
- 2022-11-11 US US18/054,604 patent/US20230064749A1/en active Pending
-
2023
- 2023-11-28 JP JP2023200955A patent/JP2024023421A/ja active Pending
Also Published As
Publication number | Publication date |
---|---|
US11514888B2 (en) | 2022-11-29 |
JP7395792B2 (ja) | 2023-12-11 |
US20220051654A1 (en) | 2022-02-17 |
EP4172984A1 (en) | 2023-05-03 |
KR20240096867A (ko) | 2024-06-26 |
WO2022035586A1 (en) | 2022-02-17 |
US20230064749A1 (en) | 2023-03-02 |
JP2024023421A (ja) | 2024-02-21 |
KR102677459B1 (ko) | 2024-06-24 |
JP2023535230A (ja) | 2023-08-16 |
KR20230034423A (ko) | 2023-03-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11514888B2 (en) | Two-level speech prosody transfer | |
US11664011B2 (en) | Clockwork hierarchal variational encoder | |
US11222620B2 (en) | Speech recognition using unspoken text and speech synthesis | |
US11881210B2 (en) | Speech synthesis prosody using a BERT model | |
US11393453B2 (en) | Clockwork hierarchical variational encoder | |
US11475874B2 (en) | Generating diverse and natural text-to-speech samples | |
US12080272B2 (en) | Attention-based clockwork hierarchical variational encoder | |
US11830474B2 (en) | Predicting parametric vocoder parameters from prosodic features | |
US20230018384A1 (en) | Two-Level Text-To-Speech Systems Using Synthetic Training Data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |