CN114203147A

CN114203147A - 用于文本到语音的跨说话者样式传递以及用于训练数据生成的系统和方法

Info

Publication number: CN114203147A
Application number: CN202010885556.9A
Authority: CN
Inventors: 潘诗锋; 何磊; 李玉林; 赵晟; 马春玲
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2020-08-28
Filing date: 2020-08-28
Publication date: 2022-03-18
Also published as: US11361753B2; US20220068259A1

Abstract

各系统被配置成用于通过以下操作来生成由目标说话者的声音音色以及源说话者的韵律样式所表征的频谱图数据：将源说话者数据的波形转换成语音后验图(PPG)数据，从源说话者数据中提取附加韵律特征，以及基于PPG数据和所提取的韵律特征来生成频谱图。各系统被配置成利用/训练机器学习模型以用于生成频谱图数据以及用于用所生成的频谱图数据来训练神经的、文本到语音的模型。

Description

用于文本到语音的跨说话者样式传递以及用于训练数据生成的系统和方法

背景技术

文本到语音(TTS)模型是被配置成将任意文本转换成听起来是人类的语音数据的模型。有时被称为声音字体的TTS模型通常包括前端模块、声学模型和语音编码器。前端模块被配置成完成文本归一化(例如，将单位符号转换成可读单词)并且通常将文本转换成对应的音素序列。声学模型被配置成将输入的文本(或经转换的音素)转换成频谱序列，而语音编码器被配置成将频谱序列转换成语音波形数据。此外，声学模型决定文本将如何被发音(例如，以什么韵律、音色等)。

韵律通常指的是节奏和声音的模式，或者语言中重音和/或语调的模式。例如，在语言学中，韵律负责音节和较大语音单元(即，大于个体语音段)的属性。韵律通常由语音响度的变化、暂停、和节奏(例如，说话速率)的变化来表征。说话者还可以通过改变音高(即，由产生声音的震动的速率所确定的该声音的音质、或换言之音调的高或低的程度)来表达韵律。在一些实例中，音高指的是与语音的特定段相关联的基础频率。韵律还通过改变语音的能量来表达。能量通常指的是语音信号的能量(即，语音信号的功率波动)。在一些实例中，能量基于语音信号的音量或幅值。

在音乐中，音色(即，音调质量)通常指的是音乐声或声音的特性或质量，与音色相关联的特性不同于音乐声的音高和强度。音色是允许人类耳朵将小提琴与笛子(或者甚至更细微的中提琴)进行区分的特质。以相同的方式，人类耳朵可以区分具有不同音色的不同声音。

源声学模型被配置为在多说话者数据上进行训练的多说话者模型。在一些情形中，使用目标说话者数据对源声学模型进一步细化或适配。通常，声学模型是依赖于说话者的，这意味着声学模型是直接在来自特定目标说话者的说话者数据上被训练的，或者使用来自特定目标说话者的说话者数据来细化源声学模型。

在经过良好训练的情况下，该模型能够将任何文本转换成接近地模仿目标说话者如何说话的语音，即，以相同的声音音色和类似的韵律。用于TTS模型的训练数据通常包括在特定目标说话者说话的同时对所述特定说话者进行录音所获得的音频数据以及对应于该音频数据的文本集(即，目标说话者为了产生该音频数据所说的内容的文本表示)。

在一些实例中，用于训练TTS模型的文本由语音识别模型和/或自然语言理解模型生成，该语音识别模型和/或自然语言理解模型被具体地配置成识别和解读语音并且提供在音频数据中被识别出的单词的文本表示。在其他实例中，说话者被给予要大声朗读的预定稿件，其中该预定稿件和对应的音频数据被用于训练TTS模型。

注意，目标说话者能够用各种方式和样式来产生语音。例如，个人可以在他们激动的时候说话很快或者在他们紧张的时候结巴。另外，个人可以在他们与一朋友对话时相对于对观众进行朗诵时以不同方式说话。

如果用户想要经训练的模型的声音字体能够以特定样式或特定情绪感染力来说话，该特定样式或特定情绪感染力诸如快乐地、或悲伤地、以新闻播报员的样式、以演讲者的样式、以讲故事的样式等，则有必要通过具有该对应目标样式的训练数据来训练该模型。例如，首先必须收集目标说话者采用目标样式的录音，接着用户可以使用该样式的训练数据来构建对应的声音字体。

最初，需要几千小时来构建源声学模型。接着，需要大量的训练数据来针对一种特定样式正确地训练TTS模型。在一些实例中，源声学模型针对特定样式的训练/细化可能需要数百个有时数千个句子的语音训练数据。因而，为了针对多种不同样式正确地训练(诸)TTS模型，必须针对不同目标说话者样式中的每一者收集成比例的训练数据量。这是一种用于记录和分析每种期望样式的数据的极端耗时且成本高昂的过程。此外，在一些实例中，目标说话者不能够或无法良好地适于产生期望目标样式的语音，这进一步加重了训练声学模型的难度。这对于快速且高效地训练具有(诸)不同目标说话样式的声音字体的TTS模型而言是一个重大障碍。

鉴于上述内容，存在对用于为TTS模型生成训练数据并且训练模型以产生一个或多个目标说话者的多种说话样式的语音数据的改进的系统和方法的持续需要。

本文中所要求保护的主题不限于解决任何缺点或仅在诸如以上所描述的环境那样的环境中操作的各实施例。相反，提供本背景仅用于解说其中可实践本文中所描述的一些实施例的一个示例性技术领域。

简要概述

所公开的各实施例涉及用于文本到语音的跨说话者样式传递以及用于训练数据生成的各实施例。在一些实例中，所公开的各实施例包括生成并且利用目标说话者采用特定韵律样式的频谱图数据。在一些实例中，频谱图数据被用于训练机器学习模型以供文本到语音(TTS)的转换。

一些实施例包括用于接收电子内容的各方法和系统，该电子内容包括来自源说话者的源说话者数据。在这些实施例中，一计算系统通过将源说话者数据的波形与语音后验图(phonetic posterior gram)(PPG)数据对齐来将源说话者数据的波形转换成PPG数据，其中该PPG数据定义了对应于源说话者数据的韵律样式的一个或多个特征。

除了由PPG数据定义的一个或多个特征，一个或多个附加韵律特征从源说话者数据中被提取。该计算系统接着基于(i)PPG数据(ii)所提取的一个或多个附加韵律特征以及(iii)目标说话者的声音音色来生成频谱图。使用这一技术，所生成的频谱图由源说话者的韵律样式以及目标说话者的声音音色来表征。

在一些实例中，所公开的各实施例涉及用于训练声音转换机器学习模型以生成跨说话者样式传递频谱图数据的各实施例。附加地，一些实施例涉及用于在由频谱图数据生成的训练数据上训练神经TTS模型的各系统和方法。

提供本发明内容以便以简化的形式介绍以下在具体实施方式述中进一步描述的概念的选集。本概述并不旨在标识所要求保护的主题的关键特征或必要特征，亦非旨在用于帮助确定所要求保护的主题的范围。

附加特征和优点将在以下描述中阐述，且部分会从描述中显而易见，或者可以通过实践本文中的示教来习得。本发明的特征和优点可借助于在所附权利要求书中特别指出的工具和组合来实现和获得。本发明的特征将从以下描述和所附权利要求书中变得更完全的显见，或者可以通过如下文所阐述的本发明的实践来习得。

附图简述

为了描述可获得以上记载的及其他优点和特征的方式，将参照各具体实施例呈现以上简述的主题的更具体描述，各具体实施例在附图中例示。理解这些附图仅描述典型的实施例，因此不应被视为限制本发明的范围，各实施例将通过使用附图以附加的具体性和细节来描述和解释，附图中：

图1例示了其中纳入了计算系统和/或被用于执行所公开的各实施例的所公开的各方面的计算环境。所例示的计算系统被配置成用于声音转换，并且包括(诸)硬件存储设备和多个机器学习引擎。该计算系统与(诸)远程/第三方系统处于通信。

图2例示了具有与用于生成机器学习训练数据的方法相关联的多个动作的流程图的一实施例，该机器学习训练数据包括目标说话者的频谱图数据。

图3例示了具有与用于将源说话者数据的波形与对应的语音后验图(PPG)数据对齐的各方法相关联的多个动作的示图的一实施例。

图4例示了具有与用于从源说话者数据中提取附加韵律特征的各方法相关联的多个动作的示图的一实施例。

图5例示了具有与用于训练声音转换机器学习模型(包括该声音转换机器学习模型的PPG频谱图组件)的各方法相关联的多个动作的流程图的一实施例。

图6例示了具有与用于在针对采用特定韵律样式的目标说话者生成的频谱图数据上训练神经TTS模型的各方法相关联的多个动作的流程图的一实施例。

图7例示了具有用于使用经训练的TTS模型从文本生成语音数据的多个动作的流程图的一实施例。

图8例示了示出生成训练数据并且训练神经TTS模型的高级视图的过程流程图的一实施例。

图9例示了包括训练语音识别模块内的声音转换模型的示例过程流程图的一实施例。该声音转换模型包括MFCC-PPG组件和PPG-Mel组件。

图10例示了根据本文所公开的各实施例的神经TTS模型的示例配置的一实施例。

图11例示了示例波形到PPG组件(例如，MFCC-PPG)的一实施例，其中计算系统生成PPG数据。

图12例示了声音转换模型的示例PPG-频谱图(PPG-Mel)组件的一实施例。

具体实施方式

所公开的各实施例中的一些实施例包括生成具有第一说话者(例如，目标说话者)的特定声音音色和传递自第二说话者(例如，源说话者)的特定韵律样式的频谱图数据。

例如，在一些实施例中，计算系统接收电子内容，该电子内容包括从源说话者获得的源说话者数据。源说话者数据的波形被转换成语音数据(例如，语音后验图PPG)。PPG数据与波形说话者数据对齐，并且定义了对应于源说话者的韵律样式的一个或多个特征。除了由PPG数据定义的一个或多个特征，计算系统还从源说话者数据中提取一个或多个附加韵律特征。接着，基于(i)PPG数据、(ii)附加提取的韵律特征、以及(iii)目标说话者的声音音色，计算系统生成具有目标说话者的声音音色以及源说话者的韵律样式的频谱图。

存在与所公开的各实施例相关联的许多技术益处。例如，因为频谱图数据能够基于从目标说话者获得的数据集以及从源说话者获得的数据集来生成，所以频谱图数据能够以更高效的速率被生成。另外，频谱图数据能够基于从多个源说话者获得的韵律样式中的任一者来生成。以此方式，频谱图数据能够采用目标说话者的声音音色以及源说话者数据集所定义的任何韵律样式。在一些实施例中，声音音色被配置为计及特定说话者(例如，目标说话者)的声音音色的说话者向量。这是一种高度通用的方法，并且减少数据生成所要求的计算时间以及减少初始说话者数据收集的时间和成本两者。

所公开的各实施例的技术益处还包括神经TTS模型的训练以及使用神经TTS模型从基于文本的输入生成语音输出。例如，因为所公开的方法是用于生成频谱图数据的，所以优选用于正确训练TTS模型的大数据集能够以与常规方法相比更快的方法被获得。

所公开的各实施例的附加益处和功能性将在下文中描述，包括声音转换模型的训练以及用于以基于帧的粒度将PPG数据(以及其他韵律特征数据)与源说话者数据对齐的方法。

现在将注意力转向图1，图1例示了可包括和/或被用于实现所公开的发明的各方面的计算系统110的各组件。如图所示，计算系统包括多个机器学习(ML)引擎、模型、以及与机器学习引擎和模型的输入与输出相关联的数据类型。

首先将注意力转向图1，图1例示了作为计算环境100的一部分的计算系统100，计算环境100还包括与计算系统110(经由网络130)处于通信的(诸)远程/第三方系统120。计算系统110被配置成训练用于语音识别、自然语言理解、文本到语音、以及更具体地跨说话者样式传递应用的多个机器学习模型。计算系统110还被配置成生成训练数据，该训练数据被配置成用于训练机器学习模型以生成针对目标说话者的语音数据，该语音数据由目标说话者的音色以及特定源说话者的韵律样式来表征。附加地或替换地，计算系统被配置成运行经训练的机器学习模型以用于文本到语音的生成。

计算系统110例如包括一个或多个处理器112(诸如一个或多个硬件处理器)和存储计算机可执行指令118的存储140(即(诸)硬件存储设备)，其中存储140能够容纳任何数目的数据类型以及任何数目的计算机可执行指令118，计算系统110被配置成藉由该计算机可执行指令118在计算机可执行指令118由该一个或多个处理器112执行时来实现所公开的各实施例的一个或多个方面。计算系统110还被示为包括(诸)用户接口和(诸)输入/输出(I/O)设备116。

存储140被示为单个存储单元。然而，将领会，在一些实施例中，存储140是被分布到若干分开的且有时是远程的/第三方的系统120的分布式存储。在一些实施例中，系统110还可包括分布式系统，其中一个或多个系统110组件由彼此远离并且各自执行不同任务的不同的分立系统来维护/运行。在一些实例中，多个分布式系统执行用于实现所公开的功能性的类似和/或共享任务，诸如在分布式云环境中。

在一些实施例中，存储140被配置成存储以下一者或多者：目标说话者数据141、源说话者数据142、PPG数据143、频谱图数据144、韵律特征数据145、神经TTS模型146、声音转换模型147、(诸)可执行指令118或韵律样式148。

在一些实例中，存储140包括用于实例化或执行计算系统110中示出的模型和/或引擎中的一者或多者的计算机可执行指令118。在一些实例中，该一个或多个模型被配置为机器学习模型或经机器学习的模型。在一些实例中，该一个或多个模型被配置为深度学习模型和/或算法。在一些实例中，该一个或多个模型被配置为引擎或处理系统(例如，集成在计算系统110内的计算系统)，其中每一引擎(即模型)包括一个或多个处理器(例如，硬件处理器112)和对应的计算机可执行指令118。

在一些实施例中，目标说话者数据141包括从目标说话者获得的电子内容/数据，而源说话者数据142包括来自源说话者的电子内容/数据。在一些实例中，目标说话者数据141和/或源说话者数据142包括音频数据、文本数据和/或视觉数据。附加地或替换地，在一些实施例中，目标说话者数据141和/或源说话者数据142包括对应于从其收集数据的特定说话者的元数据(即，属性、信息、说话者标识符等)。在一些实施例中，该元数据包括与说话者的身份相关联的属性、说话者和/或说话者的声音的特性、和/或关于在何地、何时和/或如何获得说话者数据的信息。

在一些实施例中，目标说话者数据141和/或源说话者数据142是原始数据(例如，直接录音)。附加地或替换地，在一些实施例中，目标说话者数据141和/或源说话者数据142包括经处理的数据(例如，说话者数据的波形格式和/或对应于目标和/或源说话者的PPG数据(例如，PPG数据143))。

在一些实施例中，PPG数据143包括关于来自特定说话者(例如，源说话者和/或目标说话者)的语音数据的语音信息。在一些实例中，语音信息以所确定的粒度来获得，例如，以基于帧的粒度。换言之，针对每一帧生成语音后验图，以使得源说话者的语音历时信息(即，源韵律样式)在声音转换和样式传递期间被准确地维持。

在一些实施例中，每条语音信息的帧长度包括完整的语音短语、完整的语音单词、特定的语音音素和/或预定时间历时。在一些示例中，帧包括在1毫秒到10秒之间选择的一时间历时，或者优选地在1毫秒到1秒之间或者甚至更优选地在1毫秒到50毫秒之间选择的时间历时或者更进一步优选地约12.5毫秒的历时。

在一些实施例中，PPG数据143由声音转换模型或声音转换模型(例如，MFCC-PPG模型)的组件生成，其中从源说话者数据中提取语音信息(例如，源说话者数据的波形)。在一些实施例中，PPG数据143被输入到被配置成生成频谱图数据(例如，频谱图数据144)的声音转换模型，更具体地被输入到PPG-Mel模型。

所生成的频谱图数据将具有与源数据相同的内容，同时维持PPG数据143与频谱图数据144之间的定时对齐的完整性。因而，在一些实例中，PPG数据143包括一个或多个韵律特征(即韵律属性)，其中该一个或多个韵律属性包括历时信息(例如，语音历时、定时信息、和/或说话速率)。

在一些实施例中，从PPG数据中提取的韵律属性被包括在韵律特征数据145中。附加地或替换地，韵律特征数据145包括附加的韵律特征或韵律属性。例如，在一些实例中，附加的韵律特征包括对应于语音波形数据的音高和/或能量轮廓的属性。

在一些实施例中，频谱图数据144包括多个频谱图。通常，频谱图是信号频率在其随着时间变化时的频谱(例如，构成说话者数据的频率的频谱)的视觉表示。在一些实例中，频谱图有时被称为声谱仪、声纹、或语音报。在一些实施例中，频谱图数据144中包括的频谱图由目标说话者的声音音色和韵律样式来表征。附加地或替换地，频谱图数据144中包括的频谱图由目标说话者的声音音色以及源说话者的韵律样式来表征。

在一些实施例中，频谱图被转换成梅尔(mel)刻度。梅尔刻度是由彼此等距离的收听者所确定的音高的非线性刻度，并且相对于频率的线性刻度更接近地模仿人类对声音的反应/人类对声音的识别。在此类实施例中，频谱图数据包括梅尔频率倒谱(MFC)(即，基于在频率的非线性梅尔刻度上的对数功率谱的线性余弦变换，声音的短期功率谱的表示)。因而，梅尔频率倒谱系数(MFCC)是包括MFC的系数。例如，频带针对MFC被均等间隔在梅尔刻度上。

在一些实施例中，硬件存储设备140存储神经TTS模型146，该神经TTS模型146被配置为能够被训练或者被训练成将输入的文本转换成语音数据的神经网络。例如，包含一个或多个句子(例如，特定数目的机器可识别单词)的电子邮件的一部分被应用于该神经TTS模型，其中该模型能够识别单词或单词的一部分(例如，音素)并且被训练成产生与该音素或单词相对应的声音。

在一些实施例中，神经TTS模型146被适配成用于特定目标说话者。例如，目标说话者数据(例如，目标说话者数据141)包括音频数据，包括从目标说话者获得和/或记录的说出的单词和/或短语。神经TTS模型1000的一个示例在下文参考图10更详细地描述。

在一些实例中，目标说话者数据141被格式化为训练数据，其中神经TTS模型146在目标说话者训练数据上被训练(或被预训练)，以使得神经TTS模型146能够基于输入的文本产生采用目标说话者的声音音色和韵律样式的语音数据。在一些实施例中，神经TTS模型146是独立于说话者的，这意味着该模型基于目标说话者数据集(例如，目标说话者数据141)之一或组合来产生任意的语音数据。在一些实施例中，神经TTS模型146是多说话者神经网络，这意味着该模型被配置成产生对应于多个分立说话者/说话者简档的语音数据。在一些实施例中，神经TTS模型146是依赖于说话者的，这意味着该模型被配置成产生主要针对特定目标说话者的语音。

在一些实施例中，神经TTS模型146被进一步训练和/或适配成使得该模型在包括和/或基于目标说话者数据141和源说话者数据142的组合的训练数据上被训练，以使得神经TTS模型146被配置成产生采用目标说话者的声音音色和源说话者数据的韵律样式的语音数据。

在一些实施例中，提供数据库，该数据库存储了对应于多个目标说话者的多个声音音色简档(例如，声音音色149)以及对应于多个源说话者的多个韵律样式(例如，韵律样式148)。在一些实例中，用户能够从该多个声音音色简档中选择一特定的声音音色简档以及从该多个韵律样式中选择一韵律样式，其中神经TTS模型146被配置成基于该特定声音音色和该特定韵律样式将输入的文本转换成语音数据。在此类实施例中，应当领会，存在声音音色149和韵律样式148的任何数目的组合。

在一些实施例中，新生成的韵律样式基于先前存储的韵律样式的组合和/或源说话者数据集的组合。在一些实施例中，新生成的声音音色基于先前存储的声音音色的组合和/或目标说话者数据集的组合。

在一些实施例中，韵律样式指的是韵律属性集或韵律属性子集。在一些实例中，韵律属性对应于特定说话者(例如，目标说话者或源说话者)。在一些实例中，特定韵律样式被指派标识符，例如，名称标识符。例如，韵律样式与名称标识符相关联，该名称标识符标识从其生成/获得该韵律样式的说话者。在一些示例中，韵律样式包括描述性标识符，诸如讲故事样式(例如，在大声朗读小说或将故事作为演讲或对话的一部分进行关联时通常采用的说话方式)、新闻播报员样式(例如，在以客观、无情绪、直接的样式递送新闻时通常由新闻播报员采用的说话方式)、演讲样式(例如，在一个人正在进行演讲时通常采用的正式说话样式)、对话样式(例如，在一个人跟朋友或亲戚说话时通常采用的口语化说话样式)。附加的样式包括但不限于严肃样式、休闲样式和客服样式。将领会，除了那些列举的样式之外的任何其他类型的说话样式也可被用于通过所述(诸)样式的对应训练数据来训练声学模型。

在一些实施例中，韵律样式归因于典型的人类表达的情绪，诸如快乐情绪、悲伤情绪、激动情绪、紧张情绪或其他情绪。很多时候，特定说话者正在感受一特定情绪，并且因而该说话者说话的方式以以下方式受到该特定情绪的影响：向收听者指示该说话者正在感受此类情绪。作为示例，正感到生气的一说话者可能以高度能量化的方式、以大音量和/或以删减的语音说话。在一些实施例中，说话者可能希望向观众传达特定情绪，其中该说话者将有意识地选择以某种方式说话。例如，说话者可能希望向观众灌输一种敬畏感并且将以安静、恭敬的音调以较慢、较流畅的语音说话。应当领会，在一些实施例中，韵律样式不会由描述性标识符被进一步分类或定义。

在一些实施例中，硬件存储设备140存储声音转换模型147，该声音转换模型147被配置成将来自第一说话者(例如，源说话者)的语音数据转换成听上去像第二说话者(例如，目标说话者)的语音。在一些实施例中，经转换的语音数据被适配成目标说话者的声音音色，同时维持源说话者的韵律样式。换言之，经转换的语音模仿目标说话者的声音(即声音音色)但保留源说话者的一个或多个韵律属性(例如，说话历时、音高、能量等)。

用于存储机器学习(ML)引擎150的附加存储单元在图1中被演示地呈现为存储多个机器学习模型和/或引擎。例如，计算系统110包括以下一者或多者：数据检索引擎151、转换引擎152、特征提取引擎153、训练引擎154、对齐引擎155、实现引擎156、细化引擎157或解码引擎158，这些引擎被个别地和/或共同地配置成实现本文描述的不同功能性。

例如，在一些实例中，数据检索引擎151被配置成定位和访问数据检索引擎151可以从中提取要被用作训练数据的数据集或数据子集的包括一个或多个数据类型的数据源、数据库、和/或存储设备。在一些实例中，数据检索引擎151从数据库和/或硬件存储设备接收数据，其中数据检索引擎151被配置成重新格式化或以其他方式扩增接收到的数据以供被用作训练数据。附加地或替换地，数据检索引擎151与包括远程/第三方数据集和/或数据源的远程/第三方系统(例如，远程/第三方系统120)处于通信。在一些实例中，这些数据源包括音视频服务，该音视频服务记录要在跨说话者样式传递应用中被使用的语音、文本、图像、和/或视频。

在一些实施例中，数据检索引擎151访问电子内容，该电子内容包括目标说话者数据141、源说话者数据142、PPG数据143、频谱图数据144、韵律特征数据145、韵律样式148、和/或声音音色149。

在一些实施例中，数据检索引擎151是智能引擎，该智能引擎能够学习最优数据集提取过程以及时的方式提供足量数据以及检索最适于机器学习模型/引擎将针对其被训练的期望应用的数据。例如，数据检索引擎151可以学习哪些数据库和/或数据集将生成将一模型(例如，针对特定查询或特定任务)进行训练以提高该模型在期望的自然语言理解应用中的准确性、效率和功效的训练数据。

在一些实例中，数据检索引擎151定位、选择、和/或存储原始的未结构化的源数据(例如，说话者数据)，其中数据检索引擎151与计算系统110中包括的一个或多个其他ML引擎和/或模型(例如，转换引擎152、特征提取引擎153、训练引擎154等)处于通信。在此类实例中，与数据检索引擎151处于通信的其他引擎能够接收已经从一个或多个数据源检索(即，提取、拉取等)的数据，以使得接收到的数据被进一步扩增和/或应用于下游过程。

例如，在一些实施例中，数据检索引擎151与转换引擎152处于通信。转换引擎152被配置成用于在数据类型之间进行转换，并且将原始数据转换成可用于训练本文描述的任何机器学习模型的训练数据。转换模型有益地转换数据以促进模型训练的效率和准确性的提升。在一些实施例中，转换引擎152被配置成接收说话者数据(例如，源说话者数据142)并且将原始说话者数据转换成波形数据。另外，转换引擎152被配置成将源说话者数据的波形转换成PPG数据。附加地或替换地，在一些实施例中，转换引擎152被配置成促进语音数据从第一说话者到第二说话者的转换(例如，经由声音转换模型的声音转换)。

在一些实施例中，计算系统110存储和/或访问特征提取引擎153。特征提取引擎153被配置成从目标说话者数据141和源说话者数据142中提取特征和/或属性。这些所提取的属性包括对应于语音信息、韵律信息和/或音色信息的属性。在一些实施例中，特征提取引擎153提取源说话者数据的一个或多个附加韵律特征，包括源说话者数据的音高轮廓和/或能量轮廓。在此类实施例中，所提取的属性被包括在训练数据集内，该训练数据集被配置成训练机器学习模型。

在一些实施例中，特征提取引擎153被配置成接收包括多个韵律特征和/或属性的电子内容，其中特征提取引擎153被配置成检测分立属性并且将特定属性彼此区分。例如，在一些实例中，特征提取引擎153能够在对应于源说话者数据的音高轮廓的音高属性与对应于源说话者数据的能量轮廓的能量属性之间进行区分。

在一些实施例中，数据检索引擎151、转换引擎152、和/或特征提取引擎153与训练引擎154处于通信。训练引擎154被配置成从数据检索引擎151、转换引擎152、和/或特征提取引擎153接收一个或多个训练数据集。在接收到与特定应用或任务相关的训练数据之后，训练引擎154在该训练数据上针对特定的自然语言理解应用、语音识别应用、语音生成应用、和/或跨说话者样式传递应用来训练一个或多个模型。在一些实施例中，训练引擎154被配置成经由无监督训练或有监督训练来训练模型。

在一些实施例中，基于由特征提取引擎153提取的属性，训练引擎154能够适配训练过程和方法，以使得训练过程产生经训练的模型，该经训练的模型被配置成生成反映包括了对期望韵律样式作出贡献的特定特征和属性的专门化的训练数据。例如，包括音高属性将有助于确定要以其生成频谱图数据的基础频率，而包括能量属性将有助于确定以什么音量(或音量的变化)来生成频谱图数据。每一属性对整体韵律样式不同地作出贡献。

例如，在一些实施例中，训练引擎154被配置成通过训练数据(例如，频谱图数据144)来训练模型(例如，神经TTS模型146，同样参见图10的模型1000)，以使得机器学习模型被配置成如根据本文所描述的各实施例那样从任意文本生成语音。在一些示例中，训练引擎154被配置成在说话者数据(例如，目标说话者数据141、源说话者数据142、或多说话者数据)上训练声音转换模型147、或声音转换模型的各组件。

在一些实施例中，转换引擎152和/或训练引擎154与对齐引擎155处于通信。对齐引擎155被配置成将源说话者数据142的波形以特定粒度(例如，基于帧的粒度)与PPG数据143对齐。对齐引擎155还被配置成将从源说话者数据中提取的一个或多个附加韵律特征(例如，音高、能量、说话速率、说话历时)以用于将PPG数据143与源说话者数据142对齐的相同的粒度与PPG数据143对齐。以此方式对齐数据有益地维持了源说话者的韵律样式在样式传递期间的完整性。

在一些实施例中，计算系统110包括细化引擎157。在一些实例中，细化引擎157与训练引擎处于通信。细化引擎157被配置成通过使用目标说话者数据141将声音转换模型的模型组件(或子组件)适配于目标说话者来细化声音转换模型或声音转换模型的组件(例如，PPG-频谱图组件)。

在一些实施例中，计算系统110包括被配置成编码和解码数据的解码引擎158(或编码-解码引擎)。一般来说，解码器是从编码器取得特征图、向量、和/或张量并且生成与预期输入的最佳匹配的神经网络。在一些实施例中，编码/解码引擎158被配置成对输入到神经TTS模型146的文本进行编码并且解码该编码以将输入文本转换成梅尔频谱。(参见图10)。在一些实施例中，编码/解码引擎158被配置成对PPG数据143进行编码以作为频谱图生成过程的一部分。(参见图12)。

在一些实施例中，计算系统110包括被配置成学习和/或运行一个或多个模型之间的共享编码器的单独编码引擎(未示出)。在一些实施例中，编码器是取得输入并且输出特征图、向量、和/或张量的神经网络。在一些实施例中，共享编码器是编码器-解码器网络的一部分。

在一些实施例中，解码引擎158与细化引擎157处于通信，细化引擎157被配置成通过在编码器和解码器之间采用反馈环路来细化神经TTS模型146的编码器/解码器网络。神经TTS模型146接着通过迭代地最小化将输入文本转变成语音数据以及将语音数据转变回文本数据所带来的重构损耗来被训练和细化。在一些实施例中，细化引擎157还被配置成细化和/或优化计算系统110中包括的机器学习引擎/模型中的任一者或组合以促进该引擎/模型的效率、功效、以及准确性的提升。

在一些实施例中，计算系统110包括实现引擎156，实现引擎156与计算系统110中包括的模型和/或ML引擎150中的任一者(或全部模型/引擎)处于通信，以使得实现引擎156被配置成实现、发起、或运行多个ML引擎150的一个或多个功能。在一个示例中，实现引擎156被配置成运行数据检索引擎151，以使得数据检索引擎151在恰适的时间检索数据以便能够生成供训练引擎154的训练数据。

在一些实施例中，实现引擎156促进ML引擎150中的一者或多者之间的通信过程和通信定时。在一些实施例中，实现引擎156被配置成实现声音转换模型以生成频谱图数据。附加地或替换地，实现引擎156被配置成通过执行将文本转变成语音数据(例如，经由神经TTS模型)来执行自然语言理解任务。

在一些实施例中，计算系统与包括一个或多个处理器122以及一个或多个计算机可执行指令124的远程/第三方系统120处于通信。在一些实例中，可以预期远程/第三方系统120进一步包括容纳能够被用作训练数据(例如，外部说话者数据)的数据库。附加地或替换地，远程/第三方系统120包括在计算系统110外部的机器学习系统。在一些实施例中，远程/第三方系统120是软件程序或应用。

现在将注意力转向图2，图2例示了包括与能够被计算系统(诸如上文参考图1描述的计算系统110)实现的示例性方法相关联的各个动作的流程图200。如在图2中所示，流程图200包括与用于生成训练数据以及针对自然语言理解任务(例如将文本转变成语音数据)来训练机器学习模型的各方法相关联的多个动作(动作210、动作220、动作230、动作240和动作250)。各动作中所要求保护的各组件的示例参考计算系统(例如图1的计算系统110)的各特征进行描述。

如图2所示，流程图200和对应的方法包括计算系统(例如，计算系统110)接收包括来自源说话者的源说话者数据(例如，源说话者数据142)的电子内容的动作(动作210)。在接收到源说话者数据之后，计算系统通过将源说话者数据的波形与语音后验图(PPG)数据对齐来将源说话者数据的波形转换成PPG数据(例如，PPG数据143)，其中PPG数据定义了对应于源说话者数据的韵律样式的一个或多个特征(动作220)。

流程图200还包括从源说话者数据中提取一个或多个附加韵律特征(例如，韵律特征数据145)的动作(动作230)。之后，计算系统基于PPG数据、所提取的一个或多个附加韵律特征、以及目标说话者的声音音色来生成频谱图(例如，频谱图数据144)，其中该频谱图由源说话者的韵律样式(例如，韵律样式148)以及目标说话者的声音音色(例如，声音音色149)来表征(动作240)。诸如音频或视频频谱图之类的频谱图对于本领域技术人员而言是已知的，并且包括声音属性的数字表示，该声音属性诸如在特定声音或其他信号的频率随着时间变化时的频率频谱。在当前实施例中，频谱图由特定韵律样式(例如，源说话者的韵律)以及声音音色(例如，目标说话者的声音音色)来表征。

在一些实施例中，计算系统250用所生成的频谱图来训练神经的文本到语音(TTS)的模型(例如，神经TTS模型146)，其中该神经TTS模型被配置成从任意文本生成语音数据，该语音数据由源说话者的韵律样式以及目标说话者的声音音色来表征(动作250)。

能够被训练的TTS模型的一个示例是神经TTS模型100，诸如图10所示的，其包括文本编码器1020和解码器1040，并且其中该模型使用注意力1030来引导和通知在该模型的各层处的编码-解码(例如，音素和/或帧层、以及上下文层)。神经TTS模型1000能够生成梅尔频谱中的输出(例如，频谱图数据或语音波形数据)，以使得所生成的输出是基于输入文本1010的语音数据。梅尔频谱1050由第一说话者(例如，目标说话者)的声音音色以及第二说话者(例如，源说话者)的韵律样式来表征。

关于图2中描述的各动作，将领会，它们能够以与在流程图200中明示的顺序不同的顺序被执行。例如，动作210和220可以与动作230并行地执行，在一些替换实施例中，动作210和220与动作230、240和250串行地执行。

还将领会，执行自然语言理解任务的动作可以通过与执行前述动作(例如，动作210-250)的计算机设备相同的计算机设备来进行，或者替换地由同一分布式系统的一个或多个不同的计算机设备来进行。

现在将注意力转向图3，图3例示了包括与能够被计算系统(诸如上文参考图1描述的计算系统110)实现的各示例性方法相关联的动作的变型的图示300。如图3所示，图示300包括与用于执行将波形数据转换成PPG数据的动作(动作310)的各方法相关联的多个动作(动作320、动作330、和动作340)。各动作中所要求保护的各组件的示例参考计算系统(例如图1的计算系统110)的各特征进行描述。应当领会，在一些实施例中，动作310表示图2的动作220。

例如，图示300包括通过将源说话者数据的波形与语音后验图(PPG)数据对齐来将源说话者的波形转换成PPG数据(例如，PPG数据143)的动作，其中该PPG数据定义了对应于源说话者数据的韵律样式的一个或多个特征(动作310)。

在一些实施例中，计算系统以比基于音素的粒度更窄的一粒度来对齐源说话者数据的波形(动作320)。在一些实施例中，计算系统以基于帧的粒度来将源说话者数据的波形与PPG数据对齐(动作330)。在一些实施例中，计算系统基于特定帧率以基于帧的粒度来将源说话者数据的波形数据与PPG数据对齐(动作340)，该特定帧率诸如12.5毫秒的帧率、或例如更短或更长历时的帧率。

现在将注意力转向图4，图4例示了包括与能够被计算系统(诸如上文参考图1描述的计算系统110)实现的各示例性方法相关联的动作的变型的图示400。如图4所示，图示400包括与用于执行提取附加韵律特征的动作(动作410)的各方法相关联的多个动作(动作420、动作430、动作440、动作450、和动作460)。在一些实例中，动作410表示图2的动作230。

例如，图示400包括除了由PPG数据(例如，PPG数据143)定义的一个或多个特征之外，从源说话者数据(例如，源说话者数据142)中提取一个或多个附加韵律特征(例如，韵律特征数据145)的动作(动作410)。在一些实施例中，计算系统提取包括音高的附加韵律特征(动作420)。附加地或替换地，计算系统提取包括说话历时的附加韵律特征(动作430)。附加地或替换地，计算系统提取包括能量的附加韵律特征(动作440)。附加地或替换地，计算系统提取包括说话速率的附加韵律特征(动作450)。此外，在一些实施例中，计算系统以基于帧的粒度提取一个或多个附加韵律特征(动作460)。

现在将注意力转向图5，图5例示了包括与能够被计算系统(诸如上文参考图1描述的计算系统110)实现的各示例性方法相关联的各个动作的流程图500。如图5所示，流程图500包括与用于针对自然语言理解任务(例如训练和使用声音转换机器学习模型的PPG-频谱图组件来生成频谱图)来训练机器学习模型的各方法相关联的多个动作(动作510、动作520、动作530、动作540和动作550)。

如图5所示，流程图500和对应的方法包括计算系统(例如，计算系统110)训练声音转换机器学习模型的语音后验图(PPG)到频谱图组件的动作，其中声音转换机器学习模型的PPG到频谱图组件在训练期间最初在多说话者数据上被训练并且被配置成用于将PPG数据转换成频谱图数据(动作510)。

在训练PPG到频谱图组件之后，计算系统用来自目标说话者的具有特定声音音色和特定韵律样式的目标说话者数据，通过将声音转换机器学习模型的PPG到频谱图组件适配成将PPG数据转换成具有目标说话者的特定韵律样式的频谱图数据，来细化PPG到频谱图组件(动作520)。

流程图500还包括：接收包括从源说话者数据的波形转换的新PPG数据的电子内容的动作，其中该新PPG数据与源说话者数据的波形对齐(动作530)，以及接收从源说话者数据的波形中提取的一个或多个韵律特征的动作(动作540)。在一些实施例中，动作510、520、530和/或540被串行执行。在一些实施例中，如图所示，动作510和520被串行执行，并且动作530和540独立于彼此且独立于动作510和520地执行。

在执行动作510-540之后，计算系统将源说话者数据应用于声音转换机器学习模型，其中声音转换机器学习模型的经细化的PPG到频谱图组件被配置成生成采用目标说话者的特定声音音色、但具有源说话者的新韵律样式而非目标说话者的特定韵律样式的频谱图(动作550)。在一些实施例中，动作530表示图2的动作210和220。在一些实施例中，动作540表示图2的动作230。在一些实施例中，图2的用于生成频谱图数据的动作240由方法500中包括的一个或多个动作进行。

现在将注意力转向图6，图6例示了包括与能够被计算系统(诸如上文参考图1、8-12描述的计算系统110)实现的各示例性方法相关联的各个动作的流程图600。如图6所示，流程图600包括与用于针对自然语言理解任务(例如生成被配置成用于训练神经TTS模型的训练数据)来训练机器学习模型的各方法相关联的多个动作(动作610、动作620、动作630、动作640和动作650)。

作为示例，方法600包括接收包括来自源说话者的源说话者数据(例如，源说话者数据142)的电子内容的动作(动作610)。计算系统接着将源说话者数据的波形转换成语音后验图(PPG)数据(例如，PPG数据143)。方法600进一步包括从源说话者数据中提取一个或多个韵律特征(例如，韵律特征数据145)的动作(动作630)。

在(例如，使用图9的MFCC-PPG独立于说话者的模型)将波形转换成PPG数据并且提取附加韵律特征之后，计算系统将至少该PPG数据和该一个或多个所提取的韵律特征应用于声音转换模块的经预训练的PPG到频谱图组件(例如，图9的PPG-Mel模型)，该经预训练的PPG到频谱图组件被配置成生成采用目标说话者的特定声音音色(例如，声音音色149)、但具有源说话者的新韵律样式(例如，韵律样式148)而非目标说话者的特定韵律样式的频谱图(例如，频谱图数据)(动作640)。

计算系统还生成被配置成用于训练神经TTS模型(例如，神经TTS模型146)的训练数据，该训练数据包括由目标说话者的特定声音音色以及源说话者的新韵律样式来表征的多个频谱图(动作650)。

可任选地，在一些实施例中，计算系统在所生成的训练数据上训练神经TTS模型，以使得神经TTS模型被配置成通过执行跨说话者样式传递来从任意文本生成语音数据，其中该语音数据由源说话者的韵律样式以及目标说话者的声音音色来表征(动作650)。

现在将注意力转向图7，图7例示了包括与能够被计算系统(诸如上文参考图1和图10描述的计算系统110)实现的各示例性方法相关联的各个动作的流程图700。如图7所示，流程图700包括与用于基于输入文本从TTS模型生成语音输出的各方法相关联的多个动作(动作710、动作720和动作730)。

例如，流程图700包括接收包括任意文本(例如，文本1010)的电子内容的动作(动作710)。计算系统接着将该任意文本作为输入应用于经训练的神经TTS模型(例如，TTS模型1000)。使用经训练的神经TTS模型，计算系统生成包括基于该任意文本的语音数据的输出(例如，梅尔频谱数据1040)，其中该语音数据由源说话者的韵律样式以及目标说话者的声音音色来表征(动作730)。应当领会，在一些实施例中，经训练的神经TTS模型在由本文所公开的各方法(例如方法200和/或方法600)所生成的频谱图数据上被训练。

现在将注意力转向图8。图8例示了示出生成训练数据并且训练神经TTS模型的高级视图的过程流程图的一实施例。例如，用于生成由目标说话者的声音音色以及源说话者的韵律样式表征的语音数据的过程至少部分地基于双步骤过程进行。

首先，获得对应于特定源韵律样式和特定源声音音色的源说话者的数据810(例如，源说话者数据142，诸如音频/文本)。该数据被应用于声音转换模块820(例如，声音转换模型147)，声音转换模块820被配置成通过将源说话者的音色转换成目标说话者的声音音色同时保留源说话者的韵律样式来将源说话者语音数据转换成目标说话者语音数据830。在步骤二，该数据(目标说话者数据830)被用于训练神经TTS模型(例如，TTS模型146)(参见神经TTS训练840)，其中神经TTS模型能够从文本输入生成语音数据850。该语音数据是采用目标说话者的声音音色以及传递自源说话者的样式的TTS数据。

现在将注意力转向图9，图9例示了包括在训练语音识别模块(参见图10)内的声音转换模型930的示例过程流程图900的一实施例。声音转换模型包括MFCC-PPG组件934和PPG-Mel组件938。例如，从源说话者获得源说话者音频(例如，源说话者数据142)，其包括对应于源说话者的音频910的对应文本920。源说话者的音频910由语音识别(SR)前端932接收，语音识别前端932被配置成对输入语音执行信号处理，包括但不限于信号降噪和特征提取，例如，提取MFCC。该语音还被转换成波形格式或其他基于信号的音频表示。在一些实施例中，该波形被转换成梅尔刻度。

声音转换模型930还包括MFCC到PPG模型，该MFCC到PPG模型被配置成将语音数据转换成PPG数据936(例如，PPG数据143)。在一些实施例中，MFCC到PPG模型934是独立于说话者的，其中该组件934使用多说话者数据被预训练。有益的是，该模型不必针对源说话者的音频被进一步细化或适配。

参考图11，图11例示了示例波形到PPG组件(例如，MFCC-PPG)的一实施例，其中计算系统生成PPG数据。

在一些实施例中，MFCC-PPG模型1130是语音识别(SR)模型(例如，SR前端1120、SR声学模型(AM)1122、以及SR语言模型(LM)1124)的一部分。在子模型或组件的训练期间，训练完整的SR AM。一旦SR AM被训练，在频谱图生成过程和TTS模型训练期间仅MFCC到PPG模型1130被使用。例如，从源说话者数据获得的波形1110由SR前端接收，该SR前端被配置成对源说话者音频中包括的输入语音执行信号处理。在由SR前端1120处理之后，该数据被输入到MFCC-PPG模块1130。MFCC-PPG模块1130包括若干组件和/或层，例如，网前层1132、多个LC-BLSTM(等待时间受控的双向长短期存储器)层、以及第一投射1136。接着从第一投射(LC-BLSTM层的输出)中提取PPG数据1140。PPG数据包括基于帧的粒度的语音信息和韵律信息(例如，说话历时/说话速率)。

一旦PPG数据936被生成，PPG-Mel模型938就接收该PPG数据。PPG-Mel模型938或更广义的PPG-频谱图模型被配置成基于接收到的PPG数据936来生成频谱图数据。PPG到Mel模型最初是源PPG到Mel模型，其中源PPG到Mel模型938在多说话者数据上被训练。在初始训练之后，PPG到Mel模型938接着针对特定(或附加)目标说话者被细化和/或被适配成依赖于说话者的。这是通过在目标说话者的数据(例如，目标说话者数据141)上训练PPG到Mel模型938来完成的。以此方式，PPG-Mel模型能够生成具有归因于依赖于说话者的适配而提升的质量的目标说话者的音色的频谱图或梅尔频谱图。

在一些实施例中，源PPG到频谱图总是依赖于说话者的，例如，多说话者源模型被配置成生成针对许多说话者(例如，出现在训练数据中的说话者)的频谱图，或者已经用目标说话者数据被细化(在此情形中，其被配置成生成主要针对目标说话者配置的频谱图)。在一些替换实施例中，训练独立于说话者的多说话者源PPG到频谱图模型是可能的，其中所生成的频谱图是针对平均化声音生成的。

因而，现在经细化/经适配的PPG到Mel模型被用于转换从源说话者的音频910获得的PPG数据936，并且使用目标说话者的梅尔频谱(梅尔频谱是一种频率根据梅尔刻度进行转换的频谱图，该刻度是本领域技术人员知晓的刻度)但以源说话者的韵律样式来生成频谱图。在一些实施例中，也可以使用除了梅尔频谱之外的其他频谱。目标说话者的梅尔频谱954(具有传递自源说话者的韵律样式)连同对应文本920被配置为训练数据950，训练数据950能够用于训练神经TTS模型(例如，神经TTS模型1000)以生成具有与新生成的频谱图相同特性(例如，目标说话者的声音音色以及源说话者的韵律样式)的语音数据。在一些实施例中，频谱图数据被转换成梅尔刻度，以使得其成为梅尔频谱图(例如，目标说话者的梅尔频谱图940)。

现在参考图12，图12例示了声音转换模型的示例PPG-频谱图(例如，PPG-Mel)组件的一实施例。例如，PPG到Mel模块1200(也被称为PPG到频谱图模型)被示为具有编码器-解码器网络(例如，被配置成对PPG数据1210进行编码的PPG编码器1212、被配置成对lf0或音高数据1220进行编码的lf0编码器1222、被配置成对能量数据1230进行编码的能量编码器1232、以及被配置成对由多个编码器输出的经编码数据进行解码的解码器1260)以及注意力层1250。PPG到Mel模块1200被配置成接收多种数据类型，包括来自源说话者的PPG 1210(例如，PPG数据143、PPG 1140)、lf0/uv数据1220(例如，音高数据/属性)、能量数据1230、以及对应于目标说话者的说话者ID 1240。使用说话者ID 1240，计算系统能够使用说话者查找表(LUT)1242来标识特定目标说话者，该说话者查找表(LUT)1242被配置成存储对应于多个目标说话者的多个说话者ID以及相关联的目标说话者数据(包括目标说话者梅尔频谱数据)。

PPG到Mel模块1200因而被配置成作为输入来接收从源说话者数据提取的PPG1210以及包括从源说话者数据提取的音高数据1220和/或从源说话者数据提取的能量数据1230的一个或多个韵律特征。在一些实施例中，PPG 1210、音高数据1220和能量数据1230是在基于帧的粒度的基础上从源说话者数据中提取的。在一些实施例中，PPG 1210、音高数据1220和能量数据1230对应于目标说话者梅尔频谱(例如，所生成的目标梅尔频谱或现实的目标说话者的梅尔频谱)，并且使得所生成的(或经转换的)梅尔频谱准确地遵循/匹配源说话者的(诸)韵律特征。

基于图12中所示的输入，PPG到Mel模块1200能够生成频谱图数据(例如，梅尔频谱图1270)，该频谱图数据由基于从说话者ID 1240和说话者LUT 1242获得的数据的声音说话者的声音音色来表征。另外，频谱图数据由基于从源说话者数据转换和/或提取的数据(例如，PPG、音高轮廓和/或能量轮廓)的源说话者的韵律样式来表征。应当领会，PPG到Mel模块1200被配置成接收从源说话者音频数据提取的任何数目的韵律特征，包括说话速率和说话历时以及对由源说话者表达的整体韵律样式作出贡献的其他节奏和声学属性。

在一些实施例中，PPG到Mel模块1200能够在各韵律属性(例如，音高相对于能量)之间进行区分，并且选择一特定属性以改进模块在生成频谱图数据时的效率和功效。另外，应当领会，训练过程和训练数据生成过程基于哪些韵律特征或属性被检测和选择用于如本文所描述的各个过程而被不同地执行。

在训练过程和数据生成过程期间可供使用的韵律特征越多，所生成的数据将越准确并具有越高的质量(例如，更接近地与源说话者的韵律样式对齐，并且听起来更像目标说话者的声音音色)。

鉴于上述内容，将领会，所公开的各实施例提供了相比于用于生成机器学习训练数据的常规系统和方法的许多技术益处，该机器学习训练数据被配置成训练机器学习模型以用于生成跨说话者样式传递应用中的频谱图数据，藉此消除了记录来自目标说话者的大量数据以捕捉多说话者韵律样式的需求。此外，其提供了一种以高效且快速的方式生成频谱图和对应的文本到语音数据的系统。这与仅使用目标说话者数据、难以产生大量训练数据的常规系统形成对比。

在一些实例中，所公开的各实施例提供了相比于用于训练机器学习模型以执行文本到语音的数据生成的常规系统和方法的技术益处。例如，通过在经由本文所描述的方法生成的频谱图数据上训练TTS模型，该TTS模型能够被快速训练以产生采用目标说话者的声音音色以及源说话者的任何数目的韵律样式的语音数据。此外，其提高了先前不可接入的自然语言数据的源的可用性以及对所述源的接入。

本发明的各实施例可以包括或使用包括计算机硬件的专用或通用计算机(例如，计算系统110)，如以下更详细讨论的。本发明范围内的各实施例也包括用于实现或存储计算机可执行指令和/或数据结构的实体及其他计算机可读介质。这样的计算机可读介质可以是可由通用或专用计算机系统访问的任何可用介质。存储计算机可执行指令(例如，图1的组件118)的计算机可读介质(例如，图1的存储140)是物理存储介质。承载计算机可执行指令的计算机可读介质是传输介质。由此，作为示例而非限制，本发明的各实施例可包括至少两种显著不同的计算机可读介质：物理计算机可读存储介质和传输计算机可读介质。

物理计算机可读存储介质是硬件，并且包括RAM、ROM、EEPROM、CD-ROM或其他光盘存储(诸如CD、DVD等)、磁盘存储或其他磁存储设备、或可被用来存储计算机可执行指令或数据结构形式的所需程序代码装置且通过通用或专用计算机可访问的任何其他硬件。

“网络”(例如，图1的网络130)被定义为使得电子数据能够在计算机系统和/或模块和/或其他电子设备之间传输的一个或多个数据链路。当信息通过网络或另一个通信连接(硬连线、无线、或者硬连线或无线的组合)传输或提供给计算机时，该计算机将该连接适当地视为传输介质。传输介质可以包括可用于携带计算机可执行指令或数据结构形式的期望程序代码装置并可被通用或专用计算机访问的网络和/或数据链路。以上的组合也被包括在计算机可读介质的范围内。

此外，在到达各种计算机系统组件之后，计算机可执行指令或数据结构形式的程序代码装置可从传输计算机可读介质自动转移到物理计算机可读存储介质(或者相反)。例如，通过网络或数据链路接收到的计算机可执行指令或数据结构可被缓存在网络接口模块(例如，“NIC”)内的RAM中，并且然后最终被传输至计算机系统RAM和/或计算机系统处的较不易失性的计算机可读物理存储介质。因此，计算机可读物理存储介质可以被包括在同样(或甚至主要)利用传输介质的计算机系统组件中。

计算机可执行指令包括例如使通用计算机、专用计算机或专用处理设备执行某一功能或一组功能的指令和数据。计算机可执行指令可以是例如二进制代码、诸如汇编语言之类的中间格式指令、或甚至源代码。尽管用结构特征和/或方法动作专用的语言描述了本主题，但可以理解，所附权利要求书中定义的主题不必限于上述特征或动作。相反，上述特征和动作是作为实现权利要求的示例形式而公开的。

本领域的技术人员将理解，本发明可以在具有许多类型的计算机系统配置的网络计算环境中实践，这些计算机系统配置包括个人计算机、台式计算机、膝上型计算机、消息处理器、手持式设备、多处理器系统、基于微处理器的或可编程消费电子设备、网络PC、小型计算机、大型计算机、移动电话、PDA、寻呼机、路由器、交换机等等。本发明也可在其中通过网络链接(或者通过硬连线数据链路、无线数据链路，或者通过硬连线和无线数据链路的组合)的本地和远程计算机系统两者都执行任务的分布式系统环境中实施。在分布式系统环境中，程序模块可以位于本地和远程存储器存储设备二者中。

替代地或附加地，本文中所描述的功能性可以至少部分地由一个或多个硬件逻辑组件来执行。例如、但非限制，可使用的硬件逻辑部件的说明性类型包括现场可编程门阵列(FPGA)、程序专用的集成电路(ASIC)、程序专用的标准产品(ASSP)、片上系统系统(SOC)、复杂可编程逻辑器件(CPLD)、等等。

本发明可以以其他具体形式来体现，而不背离其精神或特性。所描述的实施例在全部方面都应被认为仅是说明性而非限制性的。从而，本发明的范围由所附权利要求书而非前述描述指示。落入权利要求书的等效方案的含义和范围内的全部改变应被权利要求书的范围所涵盖。

Claims

1.一种由计算系统实现的方法，所述方法用于生成针对目标说话者的采用源说话者的韵律样式的频谱图，所述方法包括：

接收包括来自所述源说话者的源说话者数据的电子内容；

通过将所述源说话者数据的波形与语音后验图(PPG)数据对齐来将所述源说话者数据的波形转换成PPG数据，其中所述PPG数据定义对应于所述源说话者数据的韵律样式的一个或多个特征；

除了由所述PPG数据定义的所述一个或多个特征之外，从所述源说话者数据中提取一个或多个附加韵律特征；以及

基于所述PPG数据、所提取的一个或多个附加韵律特征、以及所述目标说话者的声音音色来生成频谱图，其中所述频谱图由所述源说话者的韵律样式以及所述目标说话者的声音音色来表征。

2.如权利要求1所述的方法，其特征在于，所述源说话者数据的波形按照比基于音素的粒度窄的一粒度与所述PPG数据对齐。

3.如权利要求1所述的方法，其特征在于，所述源说话者数据的波形按照基于帧的粒度与所述PPG数据对齐。

4.如权利要求1所述的方法，其特征在于，所述基于帧的粒度是基于多个帧的，每一帧包括12.5毫秒。

5.如权利要求1所述的方法，其特征在于，从所述源说话者数据中提取的所述一个或多个附加韵律特征包括以下一者或多者：音高或能量。

6.如权利要求5所述的方法，其特征在于，从所述源说话者数据中提取的所述一个或多个附加韵律特征包括所述能量，所述能量以所述源说话者数据的音量来被测量。

7.如权利要求1所述的方法，其特征在于，所述一个或多个附加韵律特征是按照基于帧的粒度从所述源说话者数据的波形中被提取的。

8.如权利要求1所述的方法，其特征在于，进一步包括：

用所生成的频谱图来训练神经文本到语音(TTS)模型，其中所述神经TTS模型被配置成从任意文本生成语音数据，所述语音数据由所述源说话者的韵律样式以及所述目标说话者的声音音色来表征。

9.如权利要求1所述的方法，其特征在于，所述方法包括所述计算系统定义所述源说话者的韵律样式，所述韵律样式包括以下之一：新闻播报员样式、讲故事样式、严肃样式、休闲样式、客服样式或基于情绪的样式，所述方法包括所述计算系统从多个可能的韵律样式中区分出所述韵律样式，所述多个可能的韵律样式包括所述新闻播报员样式、所述讲故事样式、所述严肃样式、所述休闲样式、所述客服样式以及所述基于情绪的样式。

10.如权利要求1所述的方法，其特征在于，所述基于情绪的样式由所述计算系统检测为以下至少一者：快乐情绪、悲伤情绪、生气情绪、激动情绪或尴尬情绪，所述方法包括所述计算系统从多个可能的基于情绪的样式中区分出基于情绪的样式，所述多个可能的基于情绪的样式包括所述快乐情绪、所述悲伤情绪、所述生气情绪、所述激动情绪或所述尴尬情绪。

11.一种由计算系统实现的方法，所述方法用于训练声音转换模块内的声音转换机器学习模型以生成针对目标说话者的具有源说话者的新韵律样式的频谱图，所述方法包括：

训练所述声音转换机器学习模型的语音后验图(PPG)到频谱图组件，其中所述声音转换机器学习模型的所述PPG到频谱图组件在训练期间最初在多说话者数据上被训练，并且被配置成用于将PPG数据转换成频谱图数据；

用来自目标说话者的具有特定声音音色和特定韵律样式的目标说话者数据，通过将所述声音转换机器学习模型的所述PPG到频谱图组件适配成将PPG数据转换成具有所述目标说话者的特定韵律样式的频谱图数据，来细化所述PPG到频谱图组件；

接收包括从源说话者数据的波形转换的新PPG数据的电子内容，其中所述新PPG数据与所述源说话者数据的波形对齐；

接收从所述源说话者数据的波形中提取的一个或多个韵律特征；以及

将所述源说话者数据应用于所述声音转换机器学习模型，其中所述声音转换机器学习模型的经细化的PPG到频谱图组件被配置成生成采用所述目标说话者的特定声音音色、但具有所述源说话者的所述新韵律样式而非所述目标说话者的特定韵律样式的频谱图。

12.如权利要求11所述的方法，其特征在于，所述新PPG数据按照比基于音素的粒度窄的一粒度与所述源说话者数据的波形对齐。

13.如权利要求11所述的方法，其特征在于，所述新PPG数据按照基于帧的粒度与所述源说话者数据的波形对齐。

14.如权利要求13所述的方法，其特征在于，所述基于帧的粒度是基于多个帧的，每一帧包括约12.5毫秒。

15.如权利要求11所述的方法，其特征在于，从所述源说话者数据的波形中提取的所述一个或多个韵律特征包括以下至少一者：音高轮廓、能量轮廓、说话历时或说话速率。

16.如权利要求15所述的方法，其特征在于，所述声音转换机器学习模型的经细化的PPG到频谱图组件被配置成基于以下至少一者来生成采用所述目标说话者的特定声音音色、但具有所述源说话者的所述新韵律样式而非所述目标说话者的特定韵律样式的频谱图：从所述源说话者数据中提取的所述音高轮廓、能量轮廓、说话历时或说话速率。

17.如权利要求15所述的方法，其特征在于，所述音高轮廓和/或所述能量轮廓是按照基于帧的粒度从所述源说话者数据的波形中被提取的。

18.一种由计算系统实现的用于生成训练数据的方法，所述训练数据用于训练被配置成从任意文本生成语音数据的神经文本到语音(TTS)模型，所述方法包括：

接收包括来自源说话者的源说话者数据的电子内容；

将所述源说话者数据的波形转换成语音后验图(PPG)数据；

从所述源说话者数据中提取一个或多个韵律特征；

将至少所述PPG数据和一个或多个所提取的韵律特征应用于声音转换模块的经预训练的PPG到频谱图组件，所述经预训练的PPG到频谱图组件被配置成生成采用目标说话者的特定声音音色、但具有所述源说话者的新韵律样式而非所述目标说话者的特定韵律样式的频谱图；以及

生成被配置成用于训练神经TTS模型的训练数据，所述训练数据包括由所述目标说话者的特定声音音色以及所述源说话者的新韵律样式来表征的多个频谱图。

19.如权利要求18所述的方法，其特征在于，进一步包括：

在所生成的训练数据上训练所述神经TTS模型，以使得所述神经TTS模型被配置成通过执行跨说话者样式传递来从任意文本生成语音数据，其中所述语音数据由所述源说话者的韵律样式以及所述目标说话者的声音音色来表征。

20.如权利要求19所述的方法，其特征在于，进一步包括：

接收包括任意文本的电子内容；

将所述任意文本作为输入应用于经训练的神经TTS模型；以及

生成包括基于所述任意文本的语音数据的输出，其中所述语音数据由所述源说话者的韵律样式以及所述目标说话者的声音音色来表征。