CN117597728A - 使用未完全训练的文本到语音模型的个性化和动态的文本到语音声音克隆 - Google Patents

使用未完全训练的文本到语音模型的个性化和动态的文本到语音声音克隆 Download PDF

Info

Publication number
CN117597728A
CN117597728A CN202280046394.7A CN202280046394A CN117597728A CN 117597728 A CN117597728 A CN 117597728A CN 202280046394 A CN202280046394 A CN 202280046394A CN 117597728 A CN117597728 A CN 117597728A
Authority
CN
China
Prior art keywords
speaker
speech
new target
text
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202280046394.7A
Other languages
English (en)
Inventor
李博涵
何磊
邓妍
刘冰
刘砚清
赵晟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Technology Licensing LLC
Original Assignee
Microsoft Technology Licensing LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Technology Licensing LLC filed Critical Microsoft Technology Licensing LLC
Publication of CN117597728A publication Critical patent/CN117597728A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/086Detection of language
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

提供了用于被配置成零样本学习的经个性化的文本到语音模型的机器学习模型的系统和方法,该模型包括特征提取器、说话者编码器和文本到语音模块。该特征提取器被配置成从与该新的目标说话者相关联的新的目标参考语音中提取声学特征和韵律特征。该说话者编码器被配置成基于从该新的目标参考语音提取的声学特征来生成与该新的目标说话者相对应的说话者嵌入。该文本到语音模块被配置成基于该说话者嵌入和从该新的目标参考语音中提取的该韵律特征来生成与该新的目标说话者相对应的个性化声音,而无需将该文本到语音模块应用于与该新的目标说话者相关联的新的标记的训练数据。

Description

使用未完全训练的文本到语音模型的个性化和动态的文本到 语音声音克隆
背景技术
自动语音识别系统和其他语音处理系统用于处理和解码音频数据,以检测语音话语(例如,单词、短语和/或句子)。随后,经处理的音频数据被用于各种下游任务,诸如基于搜索的查询、语音到文本的转录、语言翻译等。相反,文本到语音(TTS)系统被用于检测基于文本的话语,并随后生成与检测到的基于文本的话语相对应的模拟口语语言话语。
在大多数TTS系统中,原始文本被标记为单词和/或发音单元。然后,每个单词或发音单元都与特定的发音转录和韵律单元相关联,从而形成文本的语言学的表示。发音转录包含关于如何向发音单元发音的信息,而韵律单元包含关于较大语音单元的信息,包括语调、重音、节奏、音色、语速等。一旦生成了语言学的表示,合成器或声码器就能够将语言学的表示转换为人耳可听见和可识别的合成语音。
通常,传统TTS系统需要大量标记的训练数据,首先用于将TTS系统训练为独立于说话者和/或多语言TTS系统。然而,还需要大量的标记日期,特别是在TTS系统以前没有针对新的说话者和/或新的语言被训练时个性化TTS系统的情况下。鉴于上述情况,目前需要改进的系统和方法来构建和使用低延迟、高质量的个性化TTS系统来从基于文本的输入生成合成语音。
本文中所要求保护的主题不限于解决任何缺点或仅在诸如以上所描述的环境那样的环境中操作的各实施例。相反,提供本背景仅用于解说其中可实践本文中所描述的一些实施例的一个示例性技术领域。
发明内容
所公开的实施例包括用于执行TTS处理以及用于生成和利用被配置成零样本学习(zero-shot)的机器学习模块的系统、方法和设备,所述机器学习模块被个性化以促进从基于文本的输入生成将用于生成合成语音的个性化声音。
一些公开的实施例包括机器学习模型,所述机器学习模型被配置成当机器学习模型尚未被应用于与新的目标说话者相关联的任何目标参考语音时为该新的目标说话者生成个性化声音。这些机器学习模型包括零样本学习的经个性化的文本到语音模型,该文本到语音模型包括特征提取器、说话者编码器和文本到语音模块。
特征提取器被配置成从与新的目标说话者相关联的新的目标参考语音中提取声学特征和韵律特征。
说话者编码器被配置成基于从该新的目标参考语音提取的所述声学特征来生成与该新的目标说话者相对应的说话者嵌入。
文本到语音模块被配置成基于该新的目标说话者嵌入和从该新的目标参考语音中提取的该韵律特征来生成与该说话者相对应的个性化声音,而无需将该文本到语音模块应用于与该新的目标说话者相关联的新的标记的训练数据。
在这些实施例中,特征提取器、说话者编码器和文本到语音模块在机器学习模型中以串行架构进行配置,使得将特征提取器提取的声学特征作为输入提供给说话者编码器,并使得将(i)特征提取器提取的韵律特征和(ii)说话者编码器生成的说话者嵌入提供给文本到语音模块。这将机器学习模型配置成零样本学习的经个性化的文本到语音模型,其被配置成响应于将机器学习模型应用于新的参考语音(诸如新的目标参考语音)作为模型输入而生成针对新的目标说话者的个性化声音作为模型输出。
所公开的系统还被配置用于使用上述零样本学习的文本到语音模型为新的目标说话者生成个性化声音。这些系统访问所描述的模型并接收与新的目标说话者相关联的新的目标参考语音,并从新的目标参照语音中提取声学特征和韵律特征。随后,系统使用零样本学习的经个性化的文本到语音模型的说话者编码器来基于声学特征生成与新的目标说话者相对应的说话者嵌入。最后,系统能够基于该说话者嵌入和该韵律特征为该新的目标说话者生成该个性化声音。
所公开的系统还被配置成促进创建上述零样本学习的个人文本到语音模型。例如,此类系统包括可由远程计算系统的一个或多个处理器执行的第一计算机可执行指令集,其用于使得远程计算系统执行与创建零样本学习的个人文本到语音模型的方法相关联的多个动作,以及可由远程计算系统的一个或多个处理器执行的第二计算机可执行指令集,其用于使得该远程计算系统向该远程计算系统发送该第一计算机可执行指令集。
第一指令可执行以用于使远程系统访问特征提取器、说话者编码器和文本到语音模块。第一指令也可执行以用于使远程系统以串行架构编译特征提取器、说话者编码器和文本到语音模块,作为零样本学习的个人文本到语音模型,使得将由特征提取器提取的声学特征作为输入提供给说话者编码器,并使得将(i)由特征提取器提取的韵律特征和(ii)说话者编码器生成的说话者嵌入被提供作为对该文本到语音模块的输入。
此外,一些公开的系统被配置成使得第一计算机可执行指令集进一步包括用于使远程系统在生成零样本学习的个人文本到语音模型之前,将文本到语音模块应用于多说话者多语言训练语料库以不仅使用TTS损失(诸如Mel频谱、音高和/或历时损失)还使用说话者循环一致性训练损失来训练该文本到语音模块的指令。
一些公开的实施例还涉及用于生成和使用跨语言零样本学习的个人文本到语音模型的系统和方法。在此类实施例中,例如,文本到语音模块被进一步配置成基于该说话者嵌入、该韵律特征和语言嵌入来生成与该新的目标说话者相对应的该个性化声音,使得该机器学习模型被配置成跨语言的零样本学习的经个性化的文本到语音模型,该文本到语音模型能够通过使用与该新的目标说话者相关联的该个性化声音来生成与对应于该新的目标参考语音的第一语言不同的第二语言的语音。
提供本发明内容以便以简化的形式介绍以下在具体实施方式中还描述的概念的选集。本发明内容并不旨在标识所要求保护的主题的关键特征或必要特征,亦非旨在用于帮助确定所要求保护的主题的范围。
附加特征和优点将在以下描述中阐述,且部分会从描述中显而易见,或者可以通过实践本文中的示教来习得。本发明的特征和优点可借助于在所附权利要求书中特别指出的工具和组合来实现和获得。本发明的特征将从以下描述和所附权利要求书中变得更完全的显见,或者可以通过如下文所阐述的本发明的实践来习得。
附图说明
为了描述可获得以上记载的及其他优点和特征的方式,将参照各具体实施例呈现以上简述的主题的更具体描述,各具体实施例在附图中例示。理解这些附图仅描述典型的实施例,因此不应被视为限制本发明的范围,各实施例将通过使用附图以附加的具体性和细节来描述和解释,附图中:
图1例示了其中纳入了计算系统和/或被用于执行所公开的各实施例的所公开的各方面的计算环境。
图2例示了用于生成合成语音的过程流图的示例实施例。
图3例示了包括在零样本学习的经个性化的文本到语音模型,例如图2的零样本学习的经个性化的文本到语音模型,中的特征提取器的示例实施例。
图4例示了包括在零样本学习的经个性化的文本到语音模型,例如图2的零样本学习的经个性化的文本到语音模型,中的说话者编码器的示例实施例。
图5例示了包括在零样本学习的经个性化的文本到语音模型,例如图2的零样本学习的经个性化的文本到语音模型,中的预训练的文本到语音模块的示例实施例。
图6例示了用于训练将被配置成零样本学习的经个性化的文本到语音模型的源文本到语音模型的过程流程图的示例实施例。
图7例示了零样本学习的经个性化的文本到语音模型的流程图的一个实施例。
图8例示了具有使用零样本学习的经个性化的文本到语音模型(例如图7所示的零样本学习的经个性化的文本到语音模型)生成个性化语音的多个动作的流程图的另一实施例。
图9例示了具有与促进零样本学习的经个性化的文本到语音模型的创建相关联的多个动作的流程图的一个实施例。
具体实施方式
所公开的实施例是针对用于促进机器学习模型的创建和使用以生成针对目标说话者的个性化声音的改进的系统、方法和框架。
所公开的实施例提供了与现有系统相比的许多技术优势,包括高质量TTS系统架构的生成和利用,该高质量TTS系统架构在本文中有时被称为零样本学习的经个性化的文本到语音模型,并且与确实需要用新的标记的训练数据进行额外训练的传统系统相比,该TTS系统体系架构能够在不将该模型应用于与新的目标说话者相关联的新的标记的训练数据的情况下为新的目标说话者生成个性化声音,并且不牺牲由这种传统系统实现的质量。
传统的零样本处理系统需要额外的训练,因为它们依赖于利用说话者验证系统来生成说话者嵌入的技术,这些说话者嵌入被馈送到它们的文本到语音(TTS)系统中,而无需捕获目标说话者的韵律特征,诸如目标说话者的基频、能量和历时,即使韵律特征在语音克隆中起着重要作用。
通过实现所公开的实施例,TTS系统能够生成更自然和更具表现力的合成语音,从而增加合成语音与自然口语语言的相似性。此类TTS系统能够仅使用少数音频片段而不使用来自目标说话者的文本转录来合成针对该目标说话者的个性化声音(即,个人声音;克隆声音)。在经历训练过程之后,TTS系统可以克隆目标说话者的特定特性以纳入个性化声音中。本文公开的零样本方法能够通过仅使用几秒钟的音频来克隆说话者声音,而无需使用来自新的或未见过的说话者的相应文本转录作为参考。并且,如所描述的,所公开的系统能够通过从这几秒钟的参考音频中提取的说话者信息来快速克隆目标说话者的特性。
用于说话者语音克隆的零样本学习方法有益地利用了训练有素的多说话者TTS源模型。为了克隆未见过的语音,系统只使用给源模型的说话者信息输入来直接合成新的目标说话者的语音,而不需要额外的训练过程。通过使用用于语音克隆的零样本学习方法,并且因为不需要生成新的目标说话者的新的训练数据集,训练计算成本在训练时间上显著降低。
将理解,这是所公开的实施例相对于关注单语TTS场景的传统零样本学习的TTS系统的另一个益处,这意味着它们的合成语音是以与参考语音相同的语言生成的。与这些传统系统不同,所公开的实施例有益地提供了用于跨语言TTS语音克隆的框架,这意味着合成语音可以用与对应于参考音频的语言不同的语言生成。
上述优点在语音克隆和合成语音的实时应用中尤其明显。实时应用的一些示例包括Skype翻译器和物联网设备中的其他语音翻译器。
现在将注意力转向图1,图1例示了可包括和/或被用于实现所公开的发明的各方面的计算系统110的各组件。如图所示,计算系统包括多个机器学习(ML)引擎、模型、神经网络以及与机器学习引擎和模型的输入和输出相关联的数据类型。
首先将注意力转向图1,图1解说了作为计算环境100的一部分的计算系统110,计算环境100还包括与计算系统110(经由网络130)处于通信的(诸)第三方系统120。计算系统110被配置成生成用于新的目标说话者的个性化声音,并且还使用该个性化声音生成合成语音。计算系统110和/或第三方系统120(例如远程系统)也被配置成促进创建零样本学习的经个性化的文本到语音模型。
计算系统110例如包括一个或多个处理器112(诸如一个或多个硬件处理器)和存储计算机可读指令118的存储(即(诸)硬件存储设备140),其中一个或多个硬件存储设备140能够容纳任何数目的数据类型以及任何数目的计算机可读指令118,计算系统110被配置成在计算机可读指令118由该一个或多个处理器112执行时藉由该计算机可读指令118来实现所公开的各实施例的一个或多个方面。计算系统110还被示为包括(诸)用户接口114和(诸)输入/输出(I/O)设备116。
如图1所示,(诸)硬件存储设备140被示为单个存储单元。然而,将领会,(诸)硬件存储设备140是被分布到若干分开的且有时是远程系统和/或第三方的系统120的分布式存储。计算系统110还可包括分布式系统,其中计算系统110的一个或多个组件由彼此远离并且各自执行不同任务的不同的分立系统来维护/运行。在一些实例中,多个分布式系统执行用于,诸如在分布式云环境中,实现所公开的功能性的类似和/或共享任务。
存储器(例如,硬件存储设备140)包括用于实例化或执行计算系统110中所示的模型和/或引擎中的一者或多者的计算机可读指令118(例如,零样本学习模型144(例如,如本文所描述的零样本学习的经个性化的文本到语音模型)、特征提取器145、说话者编码器146、TTS模块147、数据检索引擎151、训练引擎152和/或实现引擎153)。
这些模型被配置成机器学习模型或经机器学习的模型,诸如深度学习模型和/或算法和/或神经网络。在一些实例中,该一个或多个模型被配置为引擎或处理系统(例如,集成在计算系统110内的计算系统),其中每一引擎包括一个或多个处理器(例如,(诸)硬件处理器112)以及与计算系统110相对应的计算机可读指令118。在一些配置中,模型是嵌入在数据结构中的一组数字权重,并且引擎是一段单独的代码,其在被执行时被配置成加载所述模型并在输入音频的上下文中计算该模型的输出。
(诸)硬件存储设备140被配置成在存储器存储中存储和/或高速缓存不同的数据类型,包括本文所描述的参考语音141、输入文本、克隆语音143(例如,个性化声音)和/或合成语音148。
这里,“训练数据”是指被配置成用于预训练TTS模型的标记的数据和/或地面真值数据,该TTS模型被用作可配置成零样本学习模型144的源模型。相反,参考语音141仅包括自然语言音频,例如,从特定说话者记录的参考语音141。
利用本文所描述的个性化训练方法,零样本学习模型144仅使用基于来自新的目标说话者的参考语音的几秒钟的地面真值数据来配置该模型以生成/克隆用于新的目标说话者的个性化声音。这是对传统模型的改进,因为当为新的目标说话者生成新的个性化声音时,系统不需要获得标记的训练数据来微调零样本学习模型144。
关于术语“零样本学习”的使用,如参考所公开的零样本学习模型所使用的,将理解,该术语通常意味着对应的零样本学习模型能够并且被配置成响应于将零样本学习模型应用于来自新的目标说话者的目标参考语音(音频)而为新的目标说话者生成个性化声音,并且即使该模型先前没有被应用于与新的目标说话者相关联的任何目标参考语音或音频。
在一些情况下,从先前记录的文件(诸如具有音频的视频记录或仅音频记录)中提取自然语言音频,诸如可以用于新的目标参考语音。记录的一些示例包括视频、播客、语音邮件、语音备忘录、歌曲等。自然语言音频也从活跃的流式内容(其是实时连续语音,诸如新闻广播、电话、虚拟或面对面会议等)中提取。在一些实例中,先前记录的音频文件被流式传送。自然音频数据包括没有对应的干净语音参考信号的口语语言话语。自然音频数据是从多个源记录的,包括应用、包含一个或多个发言者的会议、包含背景噪声和人类发言者的周围环境等。应领会,自然语言音频包括世界口语语言中的一种或多种口语语言。因此,零样本学习模型144可以用一种或多种语言进行训练。
训练数据包括口语语言话语(例如,自然语言和/或合成语音)和相应的文本转录(例如,文本数据)。训练数据包括文本数据和自然语言音频以及模拟音频,模拟音频包括与文本数据中包括的单词、短语和句子相对应的语音话语。换句话说,语音话语是文本数据输入的地面真值输出。从多个位置和应用获得自然语言音频。
模拟音频数据包括模拟干净语音(例如,干净参考音频数据)和以下一种或多种的混合:房间脉冲响应、各向同性噪声、或针对任何特定实际或模拟环境的环境或瞬态噪声、或者使用文本到语音技术提取的噪声。因此,一方面使用干净的参考音频数据,以及干净的参考音频数据和背景噪声数据的混合来生成并行的干净音频数据和噪声音频数据。模拟的噪声语音数据也通过扭曲干净的参考音频数据来生成。
文本数据142包括从各种源提取的字符、码元和/或数字的序列。例如,文本数据142包括文本消息数据、来自电子邮件的内容、报纸文章、网页、书籍、移动应用页面等。在一些实例中,使用文本数据142的物理或数字样本的光学文本识别来识别文本数据142中的字符。附加地或替换地,通过处理文本数据142的数字样本的元数据来识别文本数据142中的字符。
文本数据142还用于创建输入文本的数据集,该数据集被配置成由零样本学习模型144处理以便生成合成语音148。在此类示例中,输入文本包括与用于训练源模型的训练数据集相同、相似或不同的文本数据142的子集。
合成语音148包括合成音频数据,该合成音频数据包括与文本数据142中识别的单词、短语和句子相对应的语音话语。合成语音148使用克隆声音143和包括文本数据142的输入文本。合成语音148包括可以以不同的目标说话者声音(即,克隆声音)、不同的语言、不同的说话风格等生成的语音话语。合成语音148包括由特征提取器145提取的参考语音特征(例如,声学特征、语言特征和/或韵律特征)表征的语音话语。有利地生成合成语音148以模仿自然语言音频(例如,目标说话者的自然说话声音)。
用于存储(诸)机器学习(ML)引擎150的附加存储单元在图1中被演示地呈现为存储多个机器学习模型和/或引擎。例如,计算系统110包括以下一者或多者:数据检索引擎151、训练引擎152和实现引擎153,这些引擎被个别地和/或共同地配置成实现本文描述的不同功能性。
该计算系统还配置有数据检索引擎151,该数据检索引擎151被配置成定位和访问包括一个或多个数据类型的数据源、数据库和/或存储设备,数据检索引擎151可以从中提取要用作训练数据(例如,训练数据)和输入文本数据(例如,文本数据142)的数据集或子集。数据检索引擎151从数据库和/或硬件存储设备接收数据,其中数据检索引擎151被配置成重新格式化或以其他方式扩增接收到的数据以供在文本识别和TTS应用中使用。
附加地或替换地,数据检索引擎151与包括第三方数据集和/或数据源的一个或多个远程系统(例如,第三方系统120)通信。在一些实例中,这些数据源包括可记录或流传输文本、图像和/或视频的视听服务数据检索引擎151被配置成实时地检索文本数据142,使得文本数据142是“流式”的并且被实时地处理(即,用户以与检索和识别文本数据142相同的速率听到与文本数据142相对应的合成语音148)。
数据检索引擎151是智能引擎,该智能引擎能够学习最优数据集提取处理以便以适时的方式提供足量数据以及检索最适于机器学习模型/引擎将针对其被使用的期望应用的数据。由数据检索引擎151检索的音频数据可以从混合媒体(例如,视听数据)以及从记录的和流传输的音频数据源中提取/检索。
数据检索引擎151定位、选择和/或存储原始记录的源数据(例如,提取/检索的音频数据),其中数据检索引擎151与计算系统110中包括的一个或多个其他ML引擎和/或模型通信。在此类实例中,与数据检索引擎151通信的其他引擎能够接收已经从一个或多个数据源检索(即,提取、拉取等)的数据,以使得接收到的数据被进一步扩增和/或应用于下游处理。例如,数据检索引擎151与训练引擎152和/或实现引擎153通信。
训练引擎152被配置成训练并行卷积递归神经网络和/或各个卷积神经网络、递归神经网络、可学习标量或包括在并行卷积递归神经网络中的其他模型。训练引擎152被配置成训练零样本学习模型144和/或单独的模型组件(例如,特征提取器145、说话者编码器146和/或TTS模块147等)。
计算系统110包括实现引擎153,该实现引擎153与计算系统110中包括的模型和/或ML引擎150中的任一者(或全部模型/引擎)通信,以使得实现引擎153被配置成实现、发起、或运行多个ML引擎150的一个或多个功能。在一个示例中,实现引擎153被配置成运行数据检索引擎151,以使得数据检索引擎151在恰适的时间检索数据,以能够获得文本数据供零样本学习模型144处理。实现引擎153促进一个或多个ML引擎150之间的过程通信和通信定时,并且被配置成实现和操作机器学习模型(或一个或多个ML引擎150),其被配置成零样本学习模型144。
通过以这种方式实现所公开的实施例,实现了与现有系统相比的许多技术优势,包括生成改进的TTS系统的能力,该TTS系统能够快速且有效地生成新的克隆语音,该克隆语音可以用于生成合成语音而不必微调TTS系统,而传统TTS系统需要使用新的目标说话者的训练数据进行一次或多次额外的训练迭代,以便为新的目标说话者生成克隆的语音。
总体而言,所公开的系统提高了将语言学、声学和韵律意义传输到克隆声音143以及随后的合成语音148中的效率和质量,尤其是在流模式中。这还通过减少等待时间、提高语音质量(即,合成语音清晰/可理解并听起来像自然语音)来改善整体用户体验。
计算系统与包括一个或多个处理器122、一个或多个计算机可读指令118和一个或多个硬件存储设备124的第三方系统120进行通信。在一些实例中,可以预期(诸)第三方系统120进一步包括容纳能够被用作训练数据(例如,未被包括在本地存储中的文本数据)的数据的数据库。附加地或替换地,(诸)第三方系统120包括在计算系统110外部的机器学习系统。(诸)第三方系统120是软件程序或应用。
现在将注意力转向图2,图2例示了使用零样本学习的经个性化的文本到语音模型200(例如,图1中显示为零样本学习模型144)生成合成语音的过程流程图的示例实施例。
如图所示,模型200由三个主要模块组成,即特征提取模块(例如,特征提取器202)、说话者编码器模块(例如,说话者编码器204)和TTS模块(例如TTS模块206)。特征提取模块去除目标说话者的参考音频(例如,参考语音208)中的噪声,然后从去噪音频中提取声学和韵律特征。然后,说话者编码器模块将声学特征作为输入,并输出说话者嵌入,其表示目标说话者的说话者身份。声学特征包括音频特征(诸如元音、辅音、长度和单个音素的重读)、以及语速、说话音量和单词之间是否有停顿。语言学特征是用于将音频数据分类为音素和单词的特性。语言学特征还包括语法、句法、以及与单词的序列和含义相关联的其他特征。这些单词形成由TTS系统(例如,零样本学习模型144)识别的语音话语。TTS模块然后通过消耗说话者嵌入以及从参考音频中提取的韵律特征以零样本学习方式合成语音。
如前所提及的,传统的零样本学习处理技术使用说话者验证系统来生成说话者嵌入并将嵌入馈送到文本到语音(TTS)系统中。这些传统技术只捕捉目标说话者的身份,而不是诸如目标说话者的基频、能量和历时等韵律特征,这些特征在本文描述的声音克隆技术中起着重要作用。
如图所示,当前公开的零样本学习的经个性化的TTS模型200被应用于参考语音208,该参考语音208被接收作为特征提取器202的输入。特征提取器202提取声学特征(例如,参考梅尔谱图210)和包括基频212A和能量212B的韵律特征212。参考梅尔谱图210由说话者编码器204接收,说话者编码器204生成说话者嵌入214。TTS模块206随后被应用于韵律特征212和说话者嵌入214,以便生成捕捉说话者身份以及目标说话者的自然说话语音的声学和韵律特征的个性化声音。
在克隆/生成个性化声音之后,TTS模块206可以应用于输入文本215以便生成合成语音216,该合成语音216包括与输入文本215的文本话语相对应的合成语言话语并且该合成语言话语是用个性化声音生成的。用于利用TTS模块206的声音克隆和合成语音的一些应用包括免提电子邮件和文本TTS阅读器、交互式和多人游戏聊天界面等等。配置的TTS模块206的其他实际下游用途包括,例如,实时多语言应用,诸如Skype翻译器应用和并入物联网设备的其他语音翻译器。
现在将注意力转向图3,图3例示了包括在零样本学习的经个性化的文本到语音模型中的特征提取器的示例实施例,例如图2的零样本学习的经个性化的文本到语音模型。零样本学习的经个性化的文本到语音模型的第一模块是特征提取器300。此模块对目标未见过的说话者所说的参考语音进行去噪,然后提取声学特征,诸如梅尔谱图和韵律特征,包括基频和能量,这些特征被馈送入说话者编码器和TTS模块。
例如,应用于参考语音302的特征提取器300的去噪器304利用频谱相减方法进行去噪,该方法通过从噪声信号中减去平均噪声频谱的估计来恢复在加性噪声中观察到的信号的频谱的功率。去噪器304生成去噪的参考语音306(例如,干净的参考音频),然后由音量归一化器308接收。音量归一化器308被配置成对去噪的参考语音306的音量进行归一化,并生成经音量归一化的参考语音310。然后将梅尔谱图提取器312应用于经音量归一化的参考语音310,以便提取梅尔谱图314。在一些实例中,梅尔谱图提取器312被配置成将短期傅立叶变换(即STFT)应用于经音量归一化的参考语音310,以便将其转换为梅尔标度。
使用上文描述的配置,基于从新的目标说话者获得的参考语音302,为新的目标说话者生成梅尔谱图314。梅尔谱图314在整个零样本学习的经个性化的文本到语音模型中被利用,以确保新的目标说话者的声学特征保持嵌入在个性化声音和随后使用个性化声音生成的合成语音中。
在前述配置中,特征提取器300还被配置成从音量归一化的参考语音中提取韵律特征316,包括与参考语音302相关联的基频和与参考语音302相关联的能量。
现在将注意力转向图4,图4例示了包括在零样本学习的经个性化的文本到语音模型,例如图2的零样本学习的经个性化的文本到语音模型,中的说话者编码器的示例实施例。说话者编码器400将参考梅尔谱图(例如,图3中的梅尔谱图314)作为输入,并基于接收到的每个梅尔谱图为每个目标说话者生成256维说话者嵌入(例如,说话者嵌入408)。如图4所示,说话者编码器400包括一个或多个LSTM层(例如,LSTM层404)和线性变换层406。
输入是从参考音频中提取的参考梅尔谱图402,其中一个或多个LSTM层(例如,LSTM层404)被应用于参考梅尔谱图402以便生成说话者嵌入。线性变换层406和RELU激活函数将信息转换成256维空间。在一些实例中,该模块是通过来自内部预训练的说话者验证模型的知识精华来构建的。
现在将注意力转向图5,图5例示了包括在零样本学习的经个性化的文本到语音模型,例如图2的零样本学习的经个性化的文本到语音模型,中的文本到语音模块的示例实施例。在说话者编码器之后,TTS模块将说话者嵌入、韵律特征和文本作为输入,并生成目标说话者的合成语音作为输出。如图5所示,TTS模块包括基于构象器TTS模型的组件,其中TTS模块500获取输入文本502并将其转换为音素标识符(例如,音素ID 504)。然后,这些被转换为电话嵌入506。
构象器编码器508将音素(例如,电话嵌入506)作为输入,并输出与其他嵌入(例如,语言嵌入510、全局风格标记512、全局韵律特征514和说话者嵌入528)组合的输入音素的表示,以生成提供给方差适配器516的嵌入的组合。现在将更详细地描述不同嵌入中的每一者。
例如,说话者嵌入528包括由说话者编码器522响应于说话者输入样本而生成的嵌入。
全局韵律特征514(例如,在话语级别)包括从参考语音中提取的基频和能量。采用这样的全局韵律特征514来增强人类记录(例如,目标说话者参考语音)和合成语音之间的相似性。特别地,参考音频的基频和能量的添加可以帮助TTS模块以解纠缠的方式捕捉说话者的韵律。
全局风格标记512是由全局风格标记模块生成的,该模块由参考编码器和风格关注层组成。全局风格标记模块被配置成除了使用特征提取器提取的其他韵律特征之外还帮助捕捉残差韵律特征,包括目标说话者的说话速率。
参考语言嵌入510包括在输入文本502和/或参考语音中标识的每种语言的语言信息。
如上所描述的,嵌入的组合最终由方差适配器516接收。方差适配器516被用于预测音素历时,这意味着它预测每个音素所花费的总时间。它还预测了手机级的基频,即人类感知到的音调的相对高或低。
在电话电平历时和基频预测之后,编码器输出根据音素历时扩展,然后将其输入到构象器解码器518。构象器解码器518被配置成生成声学特征,诸如目标说话者声音的预测梅尔谱图(例如梅尔谱图520)。
最后,声码器(诸如,训练有素的通用梅尔GAN声码器)可以用于将预测的梅尔谱图转换为波形。
在一些实施例中,用基于流的解码器来代替构象器解码器。在源模型训练阶段期间,基于流的解码器接收地面真值梅尔谱图作为输入,并输出先验分布,该先验分布可以以多变量高斯分布的形式输出。通过在先验分布和编码器输出之间采用单调对齐搜索,该模块可以学习文本和梅尔谱图之间的对齐,而无需地面真值历时作为指导。在推理阶段期间,编码器输出根据预测的历时进行扩展,并在相反方向上将扩展的编码器输出输入到解码器中。
使用上述基于流的架构,该模型能够在不需要来自外部工具的地面真值历时的情况下学习适当的目标说话者对准。这可以帮助TTS模块为目标说话者合成听起来更自然的语音。
此外,在训练期间,使用循环损失训练方法(例如,循环损失525)将预测的嵌入524与说话者嵌入528对准,使得预测的说话者嵌入更准确地与目标说话者的自然说话声音对准。
对于跨语言语音合成,所公开的实施例使用语言嵌入510来控制语言信息。在一些实例中,语言嵌入是从查找表中访问的。例如,当给定目标语言身份作为输入时,该表返回其密集表示(例如,语言嵌入510)。此外,通过以解码器层规范为条件的说话者嵌入,目标说话者身份和音色可以更准确地保持,并以更高的质量用于跨语言语音合成。
现在将注意力转向图6,图6例示了用于训练将被配置成零样本学习的经个性化的文本到语音模型的源文本到语音模型的过程流程图的示例实施例。对于多说话者多语言源TTS模型训练,系统被配置成在覆盖多个地点的数千个说话者和包括在训练语料库602中的超过6000小时的人类记录上训练源模型。训练语料库602增强了模型的鲁棒性和容量。添加说话者循环一致性训练损失(例如,循环损失614)以最小化根据地面真值生成的说话者嵌入与合成音频之间的余弦相似性,这鼓励TTS模型608合成更高的说话者相似性语音。给定更大的训练语料库,TTS模型可以适用于以前未见过的说话者。在一些实例中,说话者编码器606中的参数在源模型训练期间是固定的。
如图6所示,训练语料库602被传送到TTS模型608、说话者编码器606和TSS损失604。TTS模型608被配置成生成预测的梅尔频谱610。此预测的梅尔频谱被发送到预训练的说话者编码器612,其中使用循环损耗614来对准来自说话者编码器606的输出和来自预训练的说话者编码器612的输出。一旦完成TTS模型608的源模型训练,就将其用作零样本学习声音克隆框架中的预训练的TTS模块。在一些实例中,说话者编码器606和说话者编码器612是相同的说话者编码器模块。替换地,说话者编码器606和说话者编码器612是不同的说话者编码器模型。
当克隆未见过的语音(目标说话者的目标声音和尚未应用于模型的目标语音)时,响应于从目标说话者接收参考音频,TTS模块将目标/未见过声音的说话者嵌入和韵律特征作为输入,然后快速合成与这些输入特征相对应的目标说话者的自然语音。
现在将注意力转向图7,图7例示了零样本学习的经个性化的TTS机器学习模型700,该模型包括各种模块(模块710、模块720和模块730,它们根据参考框740中描述的串行架构来布置)。
该特征提取器710被配置成从与该新的目标说话者相关联的新的目标参考语音中提取声学特征和韵律特征。通过提取声学特征和韵律特征,使用这种提取的特征生成的个性化声音将与目标说话者的自然说话声音保持更高的质量和相似性。
该说话者编码器720被配置成基于从该新的目标参考语音提取的该声学特征来生成与该新的目标说话者相对应的说话者嵌入。说话者嵌入有益地保留了准确的说话者身份以及由特征提取器提取的声学特征。
该文本到语音模块730被配置成基于该说话者嵌入和从该新的目标参考语音中提取的该韵律特征来生成与该新的目标说话者相对应的个性化声音,而无需将该文本到语音模块应用于与该新的目标说话者相关联的新的标记的训练数据。
如前所提及的,前述特征提取器、说话者编码器和文本到语音模块被布置/配置在串行架构中(配置740),使得将特征提取器提取的声学特征作为输入提供给说话者编码器,并使得将(i)特征提取器提取的韵律特征和(ii)说话者编码器生成的说话者嵌入提供给文本到语音模块。利用此配置,可以响应于将机器学习模型应用于包括新的/目标参考语音的模型输入以用于为新的目标说话者生成个性化声音作为模型输出。
这样的配置对于促进模型的训练是非常有益的,因为配置有这样的模型的系统只需要说话者的简单输入,其被提供作为对源模型的输入,以使源模型能够使用克隆声音来合成语音,而无需使用说话者标记的数据进行任何额外的训练过程。这种零样本学习方法对于降低大规模应用的训练计算成本是非常有帮助的。
总体而言,所公开的系统提高了将语言学、声学和韵律意义传输到克隆声音以及随后的合成语音中的效率和质量,尤其是在流应用中。
前述模型的附加应用和修改包括包含去噪器,该去噪器被配置成在将新的目标参考语音提供给模型以训练该模型以克隆目标说话者声音之前对其去噪。
此外,模型还可以包括以下中的一者或多者:(1)被配置成响应于接收到的音素而生成音素表示的构象器编码器,(2)被配置成响应于接收到由说话者编码器生成的说话者嵌入而预测音素历时和电话级基频的方差适配器,(3)被配置成捕捉残差韵律特征并生成风格标记并且被配置成捕捉与新的目标说话者相关联的说话速率的全局风格标记模块。
在一些替换实施例中,零样本学习的经个性化的文本到语音模型也可配置成多语言模型,其中文本到语音模块被具体配置成基于说话者嵌入、韵律特征和语言嵌入来生成与新的目标说话者相对应的个性化声音。利用此类配置,机器学习模型被配置成跨语言的零样本学习的经个性化的文本到语音模型,其能够通过使用与新的目标说话者相关联的个性化声音来生成与对应于新的目标参考语音的第一语言不同的第二语言的语音。
当零样本学习的经个性化的文本到语音模型被配置成多语言和/或跨语言TTS系统时,新的目标参考语音包括第一语言的口语话语,并且新的输入文本包括第二语言的基于文本的语言话语。使用此类配置,系统能够基于与新的输入文本相关联的第二语言来标识新的目标语言,访问被配置成控制合成语音的语言信息的语言嵌入,并且使用该语言嵌入以第二语言生成合成语音。这允许该模型以非目标说话者的母语的语言为目标说话者生成合成语音,而不牺牲目标说话者的自然说话声音的固有声学和韵律特征(如克隆声音中所体现的)。
现在将注意力转向图8,图8解说了流程图800,该流程图800包括与示例性方法相关联的各种动作(动作810、动作820、动作830、动作840和动作850),这些示例性方法可以由计算系统110实现以用于使用上述零样本学习的经个性化的文本到语音模型和配置为新的目标说话者生成个性化声音++。
所示的第一动作包括计算系统访问零样本学习的经个性化的文本到语音模型(例如,机器学习模型700)(动作810)。接下来,系统获得与新的目标说话者相关联的新的目标参考语音(动作820),并从新的目标参照语音中提取声学特征和韵律特征(动作830)。随后,系统基于声学特征生成与新的目标说话者相对应的说话者嵌入(动作840)。最后,系统基于说话者嵌入和韵律特征为新的目标说话者生成个性化声音(动作850)。
与使用传统TTS系统相比,这种方法提供了许多技术优势,包括快速有效地生成新的克隆声音的能力,该克隆声音可被用于生成合成语音而不必微调TTS系统。特别地,传统TTS系统需要使用新的目标说话者的训练数据的一个或多个附加训练迭代,以便为新的目标说话者生成克隆的声音。因此,所公开的方法和系统有助于克隆目标声音,同时总体上减少了所需的训练成本,以及减少了执行训练的等待时间。
一些实施例还涉及用于使用来自专门配置的模型的个性化声音来生成合成语音的方法。例如,一些公开的系统被配置成在文本到语音模块处接收新的输入文本并基于新的输入文本以个性化声音生成合成语音。该合成语音与目标说话者的自然声音保持高度相似性。
现在将注意力转向图9,图9例示了流程图900,该流程图900包括与示例性方法相关联的各种动作(动作910、动作920、动作930、动作940和动作950),这些示例性方法可以由计算系统110实现以便于创建零样本学习的经个性化的文本到语音模型。
如图所示,动作910、920、930和940例示了与第一计算机可执行指令集具体相关联的动作,该第一计算机可执行指令集(在本地或远程系统处)可执行用于生成/编译本文所描述的零样本学习的经个性化的TTS模型。剩余动作(动作950)与第二计算机可执行指令集相关联,该第二计算机可执行指令集用于使第一计算机可执行指令集被传送到远程系统以使远程系统生成/编译零样本学习的经个性化的TTS模型。
如图所示,动作910包括计算系统访问特征提取器,该特征提取器被配置成从与新的目标说话者相关联的新的目标参考语音中提取声学特征和韵律特征。
动作920用于计算系统访问说话者编码器,该说话者编码器被配置成基于从该新的目标参考语音提取的该声学特征来生成与该新的目标说话者相对应的说话者嵌入。
动作930用于系统访问文本到语音模块,该文本到语音模块被配置成基于该说话者嵌入和从该新的目标参考语音中提取的该韵律特征来生成与该新的目标说话者相对应的个性化声音,而无需将该文本到语音模块应用于与该新的目标说话者相关联的新的标记的训练数据。
最后,动作940用于计算系统(例如,本地或远程系统)通过在零样本学习的经个性化的文本到语音模型内以串行架构编译特征提取器、说话者编码器和文本到语音模块来生成零样本学习的经个性化的文件到语音模型,使得由特征提取器提取的声学特征被提供作为对说话者编码器的输入,并且使得(i)由特征提取器所提取的韵律特征和(ii)由说话者编码器生成的说话者嵌入被提供作为对文本到语音模块的输入。
一旦生成,零样本学习的经个性化的文本到语音模型被配置成响应于将零样本学习的经个性化的文本到语音模型应用于包括新的/目标参考语音的模型输入而生成新的目标说话者的个性化声音作为模型输出。
如将理解的,用于实现动作910、920、930和940的计算机可执行指令(例如,第一指令集)可以由存储第一指令集的本地系统和/或由发送第一指令集以供执行的远程系统执行以创建参考的零样本学习的经个性化的TTS模型。特别地,在一些实例中,所公开的方法包括向远程计算系统发送第一指令集(动作950)。在此类实施例中,第一指令集可以包括用于执行第一指令集的指令,并由此使得远程计算系统执行第一计算机可执行指令集以生成零样本学习的经个性化的文本到语音模型。
此外,在一些替换实施例中,第一计算机可执行指令集进一步包括用于使远程系统将文本到语音模块应用于多说话者多语言训练语料库以使用说话者循环一致性训练损失来训练文本到语音模块的指令。
鉴于前述内容,将认识到,所公开的实施例提供了超越用于使用零样本学习的经个性化的文本到语音模型为新的目标说话者生成个性化声音的传统系统和方法的许多技术优势。通过以这种方式实现所公开的实施例,实现了超越现有系统的许多技术优势,包括生成改进的TTS系统的能力,该TTS系统能够快速且有效地生成新的克隆声音,该克隆声音可以用于生成合成语音而不必微调TTS系统,而传统TTS系统需要使用新的目标说话者的训练数据进行一次或多次额外的训练迭代,以便为新的目标说话者生成克隆的声音。
示例计算系统
本发明的各实施例可以包括或利用包括计算机硬件的专用或通用计算机(例如,计算系统110),这将在以下做出进一步讨论。本发明范围内的各实施例还包括用于携带或存储计算机可执行指令和/或数据结构的物理介质和其他计算机可读介质。这些计算机可读介质可以是通用或专用计算机系统能够访问的任何可用介质。存储计算机可执行指令(例如,图1的计算机可读指令118)的计算机可读介质(例如,图1的(诸)硬件存储设备140)是排除传输介质的物理硬件存储介质/设备。在一个或多个载波或信号中携带计算机可执行指令或计算机可读指令(例如,计算机可读指令118)的计算机可读介质是传输介质。由此,作为示例而非限制,本发明的各实施例可包括至少两种完全不同类型的计算机可读介质:物理计算机可读存储介质/设备以及传输计算机可读介质。
物理计算机存储介质/设备是硬件并且包括RAM、ROM、EEPROM、CD-ROM或其他光盘存储(诸如CD、DVD等)、磁盘存储或其他磁存储设备、或可用于存储计算机可执行指令或数据结构形式的所需程序代码装置且可由通用或专用计算机访问的任何其他硬件。
“网络”(例如,图1的网络130)被定义为允许在计算机系统和/或模块和/或其他电子设备之间传输电子数据的一个或多个数据链路。当信息通过网络或另一个通信连接(硬连线、无线、或者硬连线或无线的组合)传输或提供给计算机时,该计算机将该连接适当地视为传输介质。传输介质可以包括可用于携带计算机可执行指令或数据结构形式的期望程序代码装置并可被通用或专用计算机访问的网络和/或数据链路。以上介质的组合也被包括在计算机可读介质的范围内。
此外,在到达各种计算机系统组件之后,计算机可执行指令或数据结构形式的程序代码装置可从传输计算机可读介质自动转移到物理计算机可读存储介质(或者相反)。例如,通过网络或数据链路接收到的计算机可执行指令或数据结构可被缓存在网络接口模块(例如,“NIC”)内的RAM中,并且然后最终被传送到计算机系统RAM和/或计算机系统处的较不易失的计算机可读物理存储介质。因此,计算机可读物理存储介质可被包括在同样(或甚至主要)利用传输介质的计算机系统组件中。
计算机可执行指令包括,例如使通用计算机、专用计算机、或专用处理设备执行某一功能或某组功能的指令和数据。计算机可执行指令可以是例如二进制代码、诸如汇编语言之类的中间格式指令、或甚至源代码。尽管用结构特征和/或方法动作专用的语言描述了本主题,但可以理解,所附权利要求书中定义的主题不必限于上述特征或动作。相反,上述特征和动作是作为实现权利要求的示例形式而公开的。
本领域的技术人员将理解,本发明可以在具有许多类型的计算机系统配置的网络计算环境中实践,这些计算机系统配置包括个人计算机、台式计算机、膝上型计算机、消息处理器、手持式设备、多处理器系统、基于微处理器的或可编程消费电子设备、网络PC、小型计算机、大型计算机、移动电话、PDA、寻呼机、路由器、交换机等等。本发明也可在其中通过网络链接(或者通过硬连线数据链路、无线数据链路,或者通过硬连线和无线数据链路的组合)的本地和远程计算机系统两者都执行任务的分布式系统环境中实施。在分布式系统环境中,程序模块可以位于本地和远程存储器存储设备二者中。
替换地或附加地,本文中所描述的功能性可以至少部分地由一个或多个硬件逻辑组件来执行。例如、但非限制,可使用的硬件逻辑组件的说明性类型包括现场可编程门阵列(FPGA)、程序专用的集成电路(ASIC)、程序专用的标准产品(ASSP)、片上系统系统(SOC)、复杂可编程逻辑器件(CPLD)、等等。
本发明可以不背离其本质特征的情况下体现为其他具体形式。所描述的实施例在所有方面都应被认为仅是说明性而非限制性的。因此,本发明的范围由所附权利要求书而非前述描述指示。落入权利要求书的等效方案的含义和范围内的所有改变都被权利要求书的范围所涵盖。

Claims (15)

1.一种被配置成实例化机器学习模型的计算系统,所述机器学习模型能够响应于将所述机器学习模型应用于来自新的目标说话者的目标参考语音而为新的目标说话者生成个性化声音,所述计算系统包括:
一个或多个处理器;以及
存储可由所述一个或多个处理器执行以用于实例化机器学习模型的计算机可执行指令的一个或多个存储设备,所述机器学习模型被配置成:
从新的目标参考语音中提取声学特征和韵律特征;
基于所提取的声学特征来生成与所述新的目标说话者相对应的说话者嵌入;以及
基于具有所述说话者嵌入和从所述新的目标参考语音中提取的所述韵律特征的文本到语音处理来生成与所述新的目标说话者相对应的所述个性化声音,而无需先将所述机器学习模型应用于与所述新的目标说话者相关联的任何标记的训练数据;以及
响应于将所述机器学习模型应用于包括所述新的目标参考语音的输入,使用所提取的声学特征来生成所述说话者嵌入并且利用(i)所提取的韵律特征和(ii)所述说话者嵌入两者来生成针对所述新的目标说话者的所述个性化声音作为输出。
2.如权利要求1所述的计算系统,其特征在于,所述声学特征包括梅尔谱图。
3.如权利要求1所述的计算系统,其特征在于,所述韵律特征包括基频或能量中的一者或多者。
4.如权利要求1所述的计算系统,其特征在于,所述机器学习模型被进一步配置成:
响应于接收到音素来生成音素表示;
响应于接收到所述说话者嵌入来预测音素历时和电话级基频;以及
将所述说话者嵌入与编码器输出和其他输入特征一起解码。
5.如权利要求1所述的计算系统,其特征在于,所述机器学习模型被进一步配置成捕捉残差韵律特征并生成风格标记。
6.如权利要求5所述的计算系统,其特征在于,所述机器学习模型被进一步配置成捕捉与新的目标说话者相关联的说话速率。
7.如权利要求1所述的计算系统,其特征在于,所述机器学习模型被进一步配置成基于所述说话者嵌入、所述韵律特征和语言嵌入来生成与所述新的目标说话者相对应的所述个性化声音,使得所述机器学习模型被配置成跨语言个性化文本到语音模型,所述跨语言个性化文本到语音模型能够通过使用与所述新的目标说话者相关联的所述个性化声音来生成与对应于所述新的目标参考语音的第一语言不同的第二语言的语音。
8.如权利要求1所述的计算系统,其特征在于,所述机器学习模型被进一步配置成对所述新的目标参考语音进行去噪。
9.一种用于使用零样本学习的经个性化的文本到语音模型为新的目标说话者生成个性化声音的方法,所述方法包括:
访问被配置成基于说话者嵌入和从所述新的目标说话者的新的目标参考语音提取的韵律特征来生成与新的目标说话者相对应的个性化声音的个性化文本到语音模型,而无需先基于与所述新的目标说话者相关联的新的标记的训练数据来微调所述文本到语音模型;
接收与所述新的目标说话者相关联的所述新的目标参考语音;
从所述新的目标参考语音中提取声学特征和所述韵律特征;
基于所述声学特征来生成与所述新的目标说话者相对应的说话者嵌入;以及
基于所述说话者嵌入和所述韵律特征为所述新的目标说话者生成所述个性化声音。
10.如权利要求9所述的方法,其特征在于,进一步包括:
接收新的输入文本;以及
基于所述新的输入文本来生成所述个性化声音中的合成语音。
11.如权利要求10所述的方法,其特征在于,所述新的目标参考语音包括第一语言的口语语言话语,并且所述新的输入文本包括第二语言的基于文本的语言话语,所述方法进一步包括:
基于与所述新的输入文本相关联的所述第二语言来标识新的目标语言;
访问被配置成控制所述合成语音的语言信息的语言嵌入;以及
使用所述语言嵌入来生成所述第二语言的所述合成语音。
12.如权利要求9所述的方法,其特征在于,所述特征提取器被进一步配置成在提取所述声学特征和所述韵律特征之前对所述新的目标参考语音进行去噪。
13.一种被配置成便于创建零样本学习个人文本到语音模型的系统,所述系统包括:
至少一个硬件处理器;以及
至少一个硬件存储设备,其存储:
(a)可由远程计算系统的一个或多个处理器执行的第一计算机可执行指令集,其用于使得所述远程计算系统至少:
访问特征提取器,所述特征提取器被配置成从与新的目标说话者相关联的新的目标参考语音中提取声学特征和韵律特征,
访问说话者编码器,所述说话者编码器被配置成基于从所述新的目标参考语音提取的所述声学特征来生成与所述新的目标说话者相对应的说话者嵌入,
访问文本到语音模块,所述访问文本到语音模块被配置成基于所述说话者嵌入和从所述新的目标参考语音中提取的所述韵律特征来生成与所述新的目标说话者相对应的个性化声音,而无需将所述文本到语音模块应用于与所述新的目标说话者相关联的新的标记的训练数据,以及
通过编译所述特征提取器、所述说话者编码器和所述文本到语音模块以下述这样的方式来生成所述个性化文本到语音模型:由所述特征提取器提取的所述声学特征被提供作为到所述说话者编码器的输入,并且使得(i)由所述特征提取器提取的所述韵律特征和(ii)由所述说话者编码器生成的所述说话者嵌入被提供作为对所述文本到语音模块的输入,从而响应于将机器学习模型应用于包括所述新的目标参考语音的模型输入,配置所述个性化文本到语音模型以生成针对所述新的目标说话者的所述个性化声音作为模型输出;以及
(b)可由所述至少一个硬件处理器执行的第二计算机可执行指令集,其用于使得所述系统向所述远程计算系统发送所述第一计算机可执行指令集。
14.如权利要求13所述的系统,其特征在于,所述第一计算机可执行指令集进一步包括用于所述远程计算系统执行所述第一计算机可执行指令集以生成所述零样本学习个人文本到语音模型的指令。
15.如权利要求14所述的系统,其特征在于,所述第一计算机可执行指令集进一步包括用于使所述远程系统在生成所述零样本学习个人文本到语音模型之前将所述文本到语音模块应用于多说话者多语言训练语料库以使用说话者循环一致性训练损失来训练所述文本到语音模块的指令。
CN202280046394.7A 2022-04-13 2022-04-13 使用未完全训练的文本到语音模型的个性化和动态的文本到语音声音克隆 Pending CN117597728A (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2022/086591 WO2023197206A1 (en) 2022-04-13 2022-04-13 Personalized and dynamic text to speech voice cloning using incompletely trained text to speech models

Publications (1)

Publication Number Publication Date
CN117597728A true CN117597728A (zh) 2024-02-23

Family

ID=81654860

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202280046394.7A Pending CN117597728A (zh) 2022-04-13 2022-04-13 使用未完全训练的文本到语音模型的个性化和动态的文本到语音声音克隆

Country Status (2)

Country Link
CN (1) CN117597728A (zh)
WO (1) WO2023197206A1 (zh)

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020242662A1 (en) * 2019-05-31 2020-12-03 Google Llc Multilingual speech synthesis and cross-language voice cloning

Also Published As

Publication number Publication date
WO2023197206A1 (en) 2023-10-19

Similar Documents

Publication Publication Date Title
Tan et al. A survey on neural speech synthesis
US9761219B2 (en) System and method for distributed text-to-speech synthesis and intelligibility
CN107516511B (zh) 意图识别和情绪的文本到语音学习系统
US9922641B1 (en) Cross-lingual speaker adaptation for multi-lingual speech synthesis
WO2020118521A1 (en) Multi-speaker neural text-to-speech synthesis
KR20220004737A (ko) 다국어 음성 합성 및 언어간 음성 복제
US11881210B2 (en) Speech synthesis prosody using a BERT model
US9412359B2 (en) System and method for cloud-based text-to-speech web services
CN111899719A (zh) 用于生成音频的方法、装置、设备和介质
US20220230628A1 (en) Generation of optimized spoken language understanding model through joint training with integrated knowledge-language module
JP2024023421A (ja) 2レベル音声韻律転写
CN114203147A (zh) 用于文本到语音的跨说话者样式传递以及用于训练数据生成的系统和方法
US20130066632A1 (en) System and method for enriching text-to-speech synthesis with automatic dialog act tags
Olev et al. Estonian speech recognition and transcription editing service
US20220230625A1 (en) Generation of optimized knowledge-based language model through knowledge graph multi-alignment
El Ouahabi et al. Toward an automatic speech recognition system for amazigh-tarifit language
Xin et al. Exploring the effectiveness of self-supervised learning and classifier chains in emotion recognition of nonverbal vocalizations
CN116601702A (zh) 一种用于多说话者和多语言语音合成的端到端神经系统
CN110930975A (zh) 用于输出信息的方法和装置
WO2022046226A1 (en) System and method for cross-speaker style transfer in text-to-speech and training data generation
US20220230629A1 (en) Generation of optimized spoken language understanding model through joint training with integrated acoustic knowledge-speech module
WO2022159211A1 (en) Generation of optimized spoken language understanding model through joint training with integrated knowledge-language module
WO2023197206A1 (en) Personalized and dynamic text to speech voice cloning using incompletely trained text to speech models
WO2022159198A1 (en) Generation of optimized knowledge-based language model through knowledge graph multi-alignment
JP2004347732A (ja) 言語自動識別方法及び装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination