CN115602145A

CN115602145A - 基于文本的语音生成

Info

Publication number: CN115602145A
Application number: CN202110721773.9A
Authority: CN
Inventors: 谭旭; 秦涛; 赵晟; 刘铁岩
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2021-06-28
Filing date: 2021-06-28
Publication date: 2023-01-13
Also published as: WO2023278065A1; EP4364134A1

Abstract

根据本公开的实现，提出了一种基于文本生成语音的方案。在该方案中，生成与文本对应的初始音素序列，初始音素序列包括多个音素的特征表示。通过在初始音素序列中插入附加音素的特征表示来生成第一音素序列，附加音素与自然口语的特性有关。通过利用与多个音素和附加音素中的音素对应的专家模型来确定音素的持续时间，基于第一音素序列来生成第二音素序列。基于第二音素序列，确定与文本对应的自然口语类型的语音。以此方式，该方案能够基于自然口语类型的附加音素和多个专家模型来生成具有多变韵律的更真实的自然口语类型的语音。

Description

基于文本的语音生成

背景技术

基于文本的语音生成又称为从文本到语音(Text to Speech,TTS)。TTS用于将文本转换成自然语音输出。TTS是语音合成应用的一种，并且在诸如辅助阅读、语音提示等应用中发挥重要作用。然而，目前利用TTS方法生成的语音与人类的真实语音仍然存在一定差距。例如，所生成的语音相比人类的真实语音更僵硬、更不流畅。因此，需要能够基于文本生成更真实的语音的方法。

发明内容

提供发明内容部分是为了简化的形式来介绍对概念的选择，其在下文的具体实施方式中将被进一步描述。发明内容部分无意标识要求保护的主题的关键特征或主要特征，也无意限制要求保护的主题的范围。

附图说明

图1示出了能够实施本公开的多个实现的计算设备的框图；

图2示出了根据本公开的实现的用于基于文本生成语音的系统架构图；

图3示出了根据本公开的实现的利用持续时间确定模块生成第二音素序列的过程的示意图；

图4示出了根据本公开的实现的基于文本生成语音的方法的流程图；以及

图5示出了根据本公开的实现的用于训练基于文本生成语音的模型的方法的流程图；

这些附图中，相同或相似参考符号用于表示相同或相似元素。

具体实施方式

现在将参照若干示例实现来论述本公开。应当理解，论述了这些实现仅是为了使得本领域普通技术人员能够更好地理解且因此实现本公开，而不是暗示对本公开的范围的任何限制。

如本文所使用的，术语“包括”及其变体要被解读为意味着“包括但不限于”的开放式术语。术语“基于”要被解读为“至少部分地基于”。术语“一个实现”和“一种实现”要被解读为“至少一个实现”。术语“另一个实现”要被解读为“至少一个其他实现”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。

如本文所使用的，“神经网络”能够处理输入并且提供相应输出，其通常包括输入层和输出层以及在输入层与输出层之间的一个或多个隐藏层。在深度学习应用中使用的神经网络通常包括许多隐藏层，从而延长网络的深度。神经网络的各个层按顺序相连，从而前一层的输出被提供作为后一层的输入，其中输入层接收神经网络的输入，而输出层的输出作为神经网络的最终输出。神经网络的每个层包括一个或多个节点(也称为处理节点或神经元)，每个节点处理来自上一层的输入。在本文中，术语“神经网络”、“网络”和“神经网络模型”可替换地使用。

如上所述，目前的TTS方案所生成的语音与人类的真实语音仍然存在一定差距。例如，所生成的语音相比人类的真实语音更僵硬、更不流畅。常规的TTS方案已经提出了一些方法来模拟人类真实语音中的音调和音量变化，从而能够生成较高质量的朗读类型的语音(reading-style speech)。然而，所生成的语音不能很好地模拟人类的口语类型的语音中的停顿、重复、以及更多变的韵律等特性。因此，仍然需要能够基于文本生成自然口语类型的语音(也称为自发性语音，spontaneous speech)的方案。

根据本公开的实现，提出了一种用于基于文本生成语音的方案，在该方案中，生成与文本对应的初始音素序列，初始音素序列包括多个音素的特征表示。通过在初始音素序列中插入附加音素的特征表示来生成第一音素序列，附加音素与自然口语的特性有关。通过利用与多个音素和附加音素中的音素对应的专家模型来确定音素的持续时间，基于第一音素序列来生成第二音素序列。基于第二音素序列，确定与文本对应的自然口语类型的语音。以下进一步结合附图来详细描述该方案的各种示例实现。

图1示出了能够实施本公开的多个实现的计算设备100的框图。应当理解，图1所示出的计算设备100仅仅是示例性的，而不应当构成对本公开所描述的实现的功能和范围的任何限制。如图1所示，计算设备100包括通用计算设备形式的计算设备100。计算设备100的组件可以包括但不限于一个或多个处理器或处理单元110、存储器120、存储设备130、一个或多个通信单元140、一个或多个输入设备150以及一个或多个输出设备160。

在一些实现中，计算设备100可以被实现为具有计算能力的各种用户终端或服务终端。服务终端可以是各种服务提供方提供的服务器、大型计算设备等。用户终端诸如是任意类型的移动终端、固定终端或便携式终端，包括移动手机、站点、单元、设备、多媒体计算机、多媒体平板、互联网节点、通信器、台式计算机、膝上型计算机、笔记本计算机、上网本计算机、平板计算机、个人通信系统(PCS)设备、个人导航设备、个人数字助理(PDA)、音频/视频播放器、数码相机/摄像机、定位设备、电视接收器、无线电广播接收器、电子书设备、游戏设备或者其任意组合，包括这些设备的配件和外设或者其任意组合。还可预见到的是，计算设备100能够支持任意类型的针对用户的接口(诸如“可佩戴”电路等)。

处理单元110可以是实际或虚拟处理器并且能够根据存储器120中存储的程序来执行各种处理。在多处理器系统中，多个处理单元并行执行计算机可执行指令，以提高计算设备100的并行处理能力。处理单元110也可以被称为中央处理单元(CPU)、微处理器、控制器、微控制器。

计算设备100通常包括多个计算机存储介质。这样的介质可以是计算设备100可访问的任何可以获得的介质，包括但不限于易失性和非易失性介质、可拆卸和不可拆卸介质。存储器120可以是易失性存储器(例如寄存器、高速缓存、随机访问存储器(RAM))、非易失性存储器(例如，只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、闪存)或其某种组合。存储器120可以包括语音生成模块122，这些程序模块被配置为执行本文所描述的各种实现的功能。语音生成模块122可以由处理单元110访问和运行，以实现相应功能。

存储设备130可以是可拆卸或不可拆卸的介质，并且可以包括机器可读介质，其能够用于存储信息和/或数据并且可以在计算设备100内被访问。计算设备100可以进一步包括另外的可拆卸/不可拆卸、易失性/非易失性存储介质。尽管未在图1中示出，可以提供用于从可拆卸、非易失性磁盘进行读取或写入的磁盘驱动和用于从可拆卸、非易失性光盘进行读取或写入的光盘驱动。在这些情况中，每个驱动可以由一个或多个数据介质接口被连接至总线(未示出)。

通信单元140实现通过通信介质与另外的计算设备进行通信。附加地，计算设备100的组件的功能可以以单个计算集群或多个计算机器来实现，这些计算机器能够通过通信连接进行通信。因此，计算设备100可以使用与一个或多个其他服务器、个人计算机(PC)或者另一个一般网络节点的逻辑连接来在联网环境中进行操作。

输入设备150可以是一个或多个各种输入设备，例如鼠标、键盘、追踪球、语音输入设备等。输出设备160可以是一个或多个输出设备，例如显示器、扬声器、打印机等。计算设备100还可以根据需要通过通信单元140与一个或多个外部设备(未示出)进行通信，外部设备诸如存储设备、显示设备等，与一个或多个使得用户与计算设备100交互的设备进行通信，或者与使得计算设备100与一个或多个其他计算设备通信的任何设备(例如，网卡、调制解调器等)进行通信。这样的通信可以经由输入/输出(I/O)接口(未示出)来执行。

在一些实现中，除了被集成在单个设备上之外，计算设备100的各个部件中的一些或所有部件还可以以云计算架构的形式被设置。在云计算架构中，这些部件可以被远程布置，并且可以一起工作以实现本公开所描述的功能。在一些实现中，云计算提供计算、软件、数据访问和存储服务，它们不需要终端用户知晓提供这些服务的系统或硬件的物理位置或配置。在各种实现中，云计算使用适当的协议通过广域网(诸如因特网)提供服务。例如，云计算提供商通过广域网提供应用，并且它们可以通过web浏览器或任何其他计算组件被访问。云计算架构的软件或组件以及相应的数据可以被存储在远程位置处的服务器上。云计算环境中的计算资源可以在远程数据中心位置处被合并或者它们可以被分散。云计算基础设施可以通过共享数据中心提供服务，即使它们表现为针对用户的单一访问点。因此，可以使用云计算架构从远程位置处的服务提供商提供本文所描述的组件和功能。备选地，它们也可以从常规服务器被提供，或者它们可以直接或以其他方式被安装在客户端设备上。

计算设备100可以根据本公开的多种实现来进行基于文本的语音生成。如图1所示，计算设备100可以通过输入设备150接收文本170。文本170用于生成所需的语音。文本170可以包括多个文本序列。输入设备150可以将文本170传输给语音生成模块122。语音生成模块122根据文本170生成对应的自然口语类型的语音190。自然口语类型的语音190具有独特的特性。与朗读类型的语音相比，自然口语类型的语音190可以具有更多变的韵律。语音的韵律可以利用音素的持续时间和音高来表征。自然口语类型的语音190可以包括更多变的音素的持续时间。例如，在人类的口语中更常出现特定音素的延长或缩短。

自然口语类型的语音190可以具有附加音素。附加音素可以是无实际涵义的、不提供额外信息量的语音的音素。附加音素的示例可以包括指示停顿的音素、指示重复的音素以及指示习惯用语的音素。例如，在自然口语类型的语音190中，可以出现诸如“嗯”、“啊”之类的停顿。在另一示例中，人类倾向于在说出特定字词后再次重复该字词，以使得自然口语类型的语音190可以包括指示重复的音素。在又一示例中，一些人习惯在说出特定字词之后说出诸如“对吧”之类的习惯用语，以使得自然口语类型的语音190可以包括指示个人习惯用语的音素。

图2示出了根据本公开的实现的用于基于文本生成语音的系统200的架构图。系统200可以被实现在图1的计算设备100中。系统200可以是端到端的神经网络模型。如图2所示，系统200可以包括预处理模块210、附加音素确定模块220、持续时间确定模块230和后处理模块240。

预处理模块210对所接收的文本170进行预处理。预处理模块210可以对文本170进行字音转换。字音转换可以将英文文本“It’s called um right uh apple”转换为对应的音素“ihtsk aoldah mraytahae paxl”。可以利用多种字音转换方法来将文本170转换为对应的音素。本公开的范围在音素转换的方法方面不受限制。

预处理模块210还可以编码由字音转换得到的音素以生成与文本170对应的初始音素序列250。初始音素序列250包括多个音素的特征表示，每个音素具有对应的向量形式的特征表示。初始音素序列250可以是用来表示文本170的初始特征表示。可以利用多种方法来基于转换得到的音素生成初始音素序列250。预处理模块210可以利用嵌入器生成向量形式的音素的嵌入。嵌入器可以使用音素嵌入算法来捕捉音素中的声学信息(例如发音特征)以生成表示这些声学信息的音素的嵌入。预处理模块210还可以利用编码器来将音素的嵌入编码为音素的特征表示。编码器可以是由注意力层和卷积层构成的网络。针对音素的嵌入和编码的网络的训练将在下文描述。本公开的范围在音素的嵌入和编码的方法方面不受限制。

附加音素确定模块220基于初始音素序列250来生成第一音素序列260。附加音素确定模块220通过在初始音素序列250中插入附加音素的特征表示来生成第一音素序列260。换句话说，第一音素序列260不仅包括初始音素序列250中的多个音素的特征表示，还包括附加音素的特征表示。如上所述，附加音素与自然口语特性有关。例如，附加音素可以与停顿、重复或习惯用语有关。

在一些实现中，附加音素的特征表示可以是附加音素的嵌入。附加音素的特征表示还可以是附加音素的嵌入的变型。在另一些实现中，附加音素的特征表示可以由附加音素确定模块220基于初始音素序列250来确定。

附加音素确定模块220可以基于初始音素序列250确定在初始音素序列250中插入附加音素的合适的位置。换句话说，附加音素确定模块220可以基于初始音素序列250确定在与文本170对应的多个音素中的何处插入何种附加音素。例如，初始音素序列250可以确定在与文本170的示例“这是苹果”对应的语音中插入指示停顿“嗯”的音素，并且初始音素序列250可以确定在“这是”和“苹果”之间的位置插入停顿“嗯”。在另一示例中，初始音素序列250可以确定在与文本170的示例“这是苹果”对应的语音中插入指示习惯用语“对吧”的音素，并且初始音素序列250可以确定在“这是苹果”的结尾位置插入习惯用语“对吧”。

附加音素确定模块220可以是由卷积层、线性层和归一化层等常见的神经网络层构成的网络。在一些实现中，附加音素确定模块220可以包括具有ReLu激活函数的两层1维卷积层、丢弃层、归一化层、线性层和softmax层。Softmax层可以用来预测附加音素属于不同类别的概率。例如，附加音素的类别可以包括无附加音素、停顿“嗯”、停顿“啊”、重复前一个词、习惯用语“对吧”，等等。附加音素确定模块220的训练将下文详述。本公开的范围在附加音素确定模块220的模型构建和训练方面不受限制。

通过在初始音素序列250中的合适位置插入合适的附加音素的特征表示来生成第一音素序列260，可以使得基于文本170生成的语音包括更多与自然口语有关的附加音素。以此方式，可以提高所生成的语音与人类真实的自然口语之间的相似性，使得所生成的自然口语类型的语音190听起来更加真实生动。

基于第一音素序列260，持续时间确定模块230通过确定第一音素序列260中的音素的持续时间来生成第二音素序列270。应理解，第一音素序列260中的音素包括所插入的附加音素。音素的持续时间可以帧为单位，每帧的时长可以例如是10ms。持续时间确定模块230可以针对第一音素序列260中的每个音素，预测以帧数表示的相应的持续时间。具体地，持续时间确定模块230通过利用与第一音素序列260中的音素对应的专家模型来确定音素的持续时间。持续时间确定模块230可以利用混合专家(MOE)算法来确定音素的持续时间。以下将参考图3来描述持续时间确定模块230的细节。

图3示出了根据本公开的实现的利用持续时间确定模块230生成第二音素序列270的示意图。持续时间确定模块230可以包括路由模块(如图3所示的路由模块310)和多个专家模型。路由模块310可以将第一音素序列260中的音素分类到不同的类别。类别可以与音素的持续时间有关。在一些实现中，路由模块310可以将音素分类为两个类别，即，持续时间长或持续时间短。

针对不同类别的音素，可以使用多个专家模型中针对该类别音素具有最优表现的专家模型来预测相应的音素的持续时间。多个专家模型可以包括2个、3个或以上的专家模型。多个专家模型可以包括如图3所示的第一专家模型320-1和第二专家模型320-2。在一些实现中，第一专家模型320-1可以用于预测类别为持续时间长的音素的持续时间，第二专家模型320-2可以用于预测类别为持续时间短的音素的持续时间。

在一些实现中，可以综合考虑多个专家模型对同一音素的持续时间的预测。作为示例，路由模块310可以在确定音素的分类的同时确定音素被分类到不同类别的概率。可以使用多个专家模型来预测同一音素的持续时间。可以将不同类别的概率作为权重来对由多个专家模型预测的同一音素的持续时间进行求和。经加权求和的持续时间可以作为由持续时间确定模块230所确定的音素的持续时间。

持续时间确定模块230还基于所确定的音素的持续时间来更新第一音素序列260，从而生成第二音素序列270。在一些实现中，基于所确定的音素的持续时间，持续时间确定模块230可以扩展第一音素序列260来更新第一音素序列260。换句话说，可以按照相应的持续时间来排列第一音素序列260中的音素的特征表示。例如，如果确定第一音素序列260中的第一音素的持续时间为5帧并且第二音素的持续时间为2帧，则可以利用重复5次的第一音素的特征表示和重复2次的第二音素的特征表示的排列来更新第一音素序列260，以作为第二音素序列270。

在一些实现中，如果第一音素序列260已经与初始化的持续时间有关，则持续时间确定模块230可以通过延长或缩短第一音素序列260中的音素的持续时间来更新第一音素序列260。例如，如果确定第一音素序列260中的第一音素的持续时间为5帧，则可以将第一音素序列260中重复3次的第一音素的特征表示延长为重复5次的第一音素的特征表示，从而更新第一音素序列260以作为第二音素序列270。

路由模块310和多个专家模型的网络结构可以与上述附加音素确定模块220类似。路由模块310和多个专家模型的训练将下文详述。本公开的范围在持续时间确定模块230的模型构建和训练方面不受限制。

通过基于音素的持续时间来更新第一音素序列260，可以使得基于文本170生成的语音具有更多变的韵律。以此方式，可以提高所生成的语音与人类真实的自然口语之间的相似性，使得所生成的自然口语类型的语音190听起来更加真实生动。

继续参考图2，基于第二音素序列270，后处理模块240可以确定与文本170对应的自然口语类型的语音190。在一些实现中，后处理模块240可以确定第二音素序列270中的音素的音高。后处理模块240可以基于所确定的音高来更新第二音素序列270。具体地，后处理模块240可以利用类似于附加音素确定模块230的网络来预测音素的音高。所预测的音高可以被转换为音高的嵌入向量。可以将音高的嵌入向量添加到相应音素的特征表示，从而更新第二音素序列270。本公开的范围在用于确定音高的方法方面不受限制。

在一些实现中，后处理模块240可以基于目标说话人的语音特性来更新第二音素序列270以生成第三音素序列(未示出)。目标说话人的语音特性可以是音色。后处理模块240可以基于第三音素序列来确定与文本170和目标说话人两者对应的自然口语类型的语音190。具体地，后处理模块240可以将指示目标说话人的语音特性的嵌入向量添加到相应音素的特征表示，从而更新第二音素序列270。本公开的范围在用于确定指示目标说话人的语音特性的嵌入向量的方法方面不受限制。

在一些实现中，后处理模块240可以使用解码器来基于第二音素序列270生成与文本170对应的梅尔频谱。该梅尔频谱继而可以被转换为语音，即，自然口语类型的语音190。解码器可以是任何合适的网络结构，本公开的范围在此方面不受限制。

应当理解，仅出于示例性的目的描述系统200的结构和功能而不是暗示对于本文所描述主题的范围的任何限制。本文所描述主题可以被体现在不同的结构和/或功能中。

图4示出了根据本公开一些实现的基于文本生成语音的方法400的流程图。方法400可以由计算设备100来实现，例如可以被实现在计算设备100的存储器120中的语音生成模块122处。

如图4所示，在框410处，计算设备100生成与文本170对应的初始音素序列250，初始音素序列250包括多个音素的特征表示。在框420处，计算设备100通过在初始音素序列250中插入附加音素的特征表示来生成第一音素序列260，附加音素与自然口语的特性有关。在一些实现中，附加音素包括以下至少一项：指示停顿的音素；指示重复的音素；以及指示习惯用语的音素。

在框430处，计算设备100通过利用与多个音素和附加音素中的音素对应的专家模型来确定音素的持续时间，基于第一音素序列260来生成第二音素序列270。在一些实现中，基于第一音素序列260来生成第二音素序列270包括：确定多个音素和附加音素中的音素的类别；以及利用多个专家模型中与类别对应的专家模型预测音素的持续时间。

在框440处，计算设备100基于第二音素序列270，确定与文本170对应的自然口语类型的语音190。在一些实现中，基于第二音素序列270确定与文本170对应的自然口语类型的语音190包括：基于目标说话人的语音特性来更新第二音素序列270，以生成第三音素序列；以及基于第三音素序列，确定与文本170和目标说话人两者对应的自然口语类型的语音190。

以此方式，基于与自然口语的特性有关的附加音素和多变的音素的持续时间，可以提高所生成的语音与人类真实的自然口语之间的相似性，使得所生成的自然口语类型的语音190听起来更加真实生动。

以上参考附图1-4详细描述了根据本公开的实现的基于文本生成语音的方法的工作原理。下文将描述在该方法中使用的端到端的神经网络模型的训练过程。

图5示出了根据本公开一些实现的用于训练基于文本生成语音的模型的方法500的流程图。方法500可以由计算设备100来实现，例如可以被实现在计算设备100的存储器120中的语音生成模块122处。

如图5所示，在框510处，计算设备100利用第一训练数据集来训练第一模型，第一模型用于基于文本来生成语音。第一模型可以基于文本170来生成与文本170对应的语音。第一模型可以是任何合适的TTS模型。第一模型可以是多说话人(multi-speaker)TTS模型。第一模型可以包括与图2中所示的预处理模块210和后处理模块240类似的模块。第一模型还可以包括用于预测音素的持续时间和音高的韵律确定模块。

第一训练数据集可以是针对语音合成的任何合适的数据集。在一些实现中，第一训练数据集可以包括文本和对应的语音。可以利用音频转录方法来基于原始语音获取对应的文本。文本和原始语音可以在时间上对齐。在一些实现中，文本可以被转换为对应的一系列音素。第一训练数据集可以包括一系列音素和对应的原始语音。第一训练数据集还可以包括每个音素的持续时间。第一训练数据集还可以包括从原始语音提取的每个音素的音高。针对作为多说话人(multi-speaker)TTS模型的第一模型，第一训练数据集还可以包括来自多个说话人的原始语音以及对应的说话人的标识。

在框520处，计算设备100利用第二训练数据集来微调基于第一模型生成的第二模型，第二模型用于基于文本来生成自然口语类型的语音。第二模型可以用于如图2所示基于文本170生成自然口语类型的语音190。第二模型可以包括图2中所示的预处理模块210、附加音素确定模块220、持续时间确定模块230、后处理模块240，或与其类似的模块。备选地或附加地，第二模型也可以包括任何其他合适的用于生成自然口语类型的语音的模块。

第二训练数据集可以是针对自然口语类型的语音的合成的任何合适的数据集。第二训练数据集可以由自然口语的类型的原始语音构建。相比第一训练数据集，第二训练数据集具有更少的训练数据。换句话说，第二训练数据集可以由更少的语音数据构建。可以使用类似于确定第一训练数据集的方法来基于原始语音确定对应的文本和一系列音素。基于原始语音以及所确定的文本和一系列音素，可以针对第二模型中的特定模块来构建第二训练数据集。

在一些实现中，可以通过在第一模型中添加附加音素确定模块220来生成第二模型。如上文参考图2所述，附加音素确定模块220用于确定与自然口语类型的语音对应的多个音素中与自然口语的特性有关的附加音素。附加音素可以是指示停顿的音素、指示重复的音素、以及指示习惯用语的音素。在这种情况下，可以构建用于针对性地训练附加音素确定模块220的第二训练数据集。具体地，可以标识从原始语音确定的一系列音素中的附加音素。可以为一系列音素中跟随有附加音素的音素分配对应的标签。标签可以指示该音素未跟随有附加音素。标签还可以指示附加音素的类别。例如，标签可以指示无附加音素、附加音素是停顿“嗯”、停顿“啊”、重复前一个词、或习惯用语“对吧”等。可以从一系列音素中移除附加音素以生成纯净的一系列音素。纯净的一系列音素中的每个音素具有指示附加音素的标签。

可以利用具有标签的纯净的一系列音素作为第二训练数据集来微调添加了附加音素确定模块220的第二模型。换句话说，可以接受经训练的第一模型的参数中的一部分作为第二模型的对应的参数。可以在保持这些参数不变的情况下利用第二训练数据集来针对性地训练附加音素确定模块220中的参数。如上文参考图2所描述的，附加音素确定模块220可以接收初始音素序列250。初始音素序列250可以由嵌入器和编码器基于字音转换得到的音素生成。因此，在训练附加音素确定模块220时，可以保持经训练的嵌入器和编码器的参数不变，而仅训练附加音素确定模块220中的参数。

在一些实现中，可以使用公式(1)作为用于训练附加音素确定模块220的损失函数：

其中，[s₀，s₁，s₂]表示音素被预测为三种不同附加音素类别的概率，s0表示无附加音素的概率，s1表示附加音素“嗯”的概率，s2表示附加音素“啊”的概率，[y₀，y₁，y₂]表示音素的真实类别标签的独热编码，σ表示用于调节附加音素的密度的可调节参数。

在一些实现中，可以通过在第一模型中添加持续时间确定模块230来生成第二模型。备选地，可以通过将第一模型中的用于确定持续时间的模块修改为图2中所示的持续时间确定模块230来生成第二模型。在这种情况下，可以构建用于针对性地训练持续时间确定模块230的第二训练数据集。具体地，可以使用对齐工具从原始语音确定一系列音素的持续时间。对齐工具的细节不在此赘述。

可以利用标记有真实持续时间的一系列音素作为第二训练数据集来微调包括持续时间确定模块230的第二模型。类似地，可以接受经训练的第一模型的参数中的一部分作为第二模型的对应的参数。可以在保持这些参数不变的情况下利用第二训练数据集来针对性地训练持续时间确定模块230中的参数。例如，可以保持经训练的嵌入器和编码器的参数不变，而仅训练持续时间确定模块230中的参数。

具体地，可以利用标记有真实的持续时间的一系列音素来训练持续时间确定模块230。在一些实现中，可以根据音素的真实持续时间确定真实的持续时间类别。可以利用标记有真实的持续时间类别的一系列音素来训练持续时间确定模块230中的路由模块310。如上所述，路由模块310可以将音素分类到与音素的持续时间有关的相应类别。换句话说，路由模块310可以确定多个专家模型中与音素对应的专家模型。在一些实现中，每个专家模型的参数可以由经训练的第一模型中的用于确定持续时间的模块的参数来初始化。

在一些实现中，针对第二模型中的附加音素确定模块220和持续时间确定模块230的训练也可以是分阶段的。具体地，可以利用用于训练附加音素确定模块220的训练数据集首先确定附加音素确定模块220的参数。继而，可以在继承附加音素确定模块220的参数的基础上，利用用于训练持续时间确定模块230的训练数据集确定持续时间确定模块230的参数。

以此方式，通过继承经训练的第一模型的部分参数，可以利用较少的自然口语的类型的语音数据来微调第二模型，从而提高训练的效率。

在框530处，计算设备100利用第三训练数据集来二次微调第二模型，经二次微调的第二模型用于基于文本来生成与目标说话人的语音特性有关的自然口语类型的语音。第三训练数据集可以由目标说话人的原始语音来构建。相比第一训练数据集和第二训练数据集，第三训练数据集具有更少的训练数据。可以使用原始语音和对应的一系列音素来构建第三训练数据集。应注意的是，第三训练数据集可以由非自然口语类型的语音数据构建。

可以利用第三训练数据集来二次微调第二模型以学习目标说话人的语音特性。类似地，可以保持经微调的第二模型的参数中的一部分参数不变，利用第三训练数据集来针对性地训练第二模型中针对目标说话人的语音特性的模块。例如，可以保持经训练的嵌入器、编码器、附加音素确定模块220、持续时间确定模块230的参数不变。可以仅训练后处理模块240中用于学习目标说话人的语音特性的层的参数，例如条件层归一化(conditionallayer normalization)的参数。

以此方式，通过继承经微调的第二模型的部分参数，可以利用较少的目标说话人的语音数据来二次微调第二模型，从而提高训练的效率。经二次微调的第二模型可以基于文本170来生成符合目标说话人的语音特性的自然口语类型的语音190。

应理解，基于本公开的实施例的分阶段训练语音合成模型的策略还可以应用于其他场景。例如，可以在经训练的第一模型的基础上，利用针对不同自然语言类型的语音的第二训练数据集来微调基于第一模型生成的第二模型。不同自然语言类型的语音的示例可以包括耳语(whisper)类型的语音、演讲类型的语音等。以此方式，可以减少对特定自然语言类型的语音的训练数据的需要，从而提高训练效率。

以下列出了本公开的一些示例实现方式。

在第一方面，本公开提供了一种计算机实现的方法。所述方法包括：生成与文本对应的初始音素序列，初始音素序列包括多个音素的特征表示。通过在初始音素序列中插入附加音素的特征表示来生成第一音素序列，附加音素与自然口语的特性有关。通过利用与多个音素和附加音素中的音素对应的专家模型来确定音素的持续时间，基于第一音素序列来生成第二音素序列。基于第二音素序列，确定与文本对应的自然口语类型的语音。

在一些实现中，附加音素包括以下至少一项：指示停顿的音素；指示重复的音素；以及指示习惯用语的音素。

在一些实现中，基于第一音素序列260来生成第二音素序列270包括：确定多个音素和附加音素中的音素的类别；以及利用多个专家模型中与类别对应的专家模型预测音素的持续时间。

在一些实现中，基于第二音素序列270确定与文本170对应的自然口语类型的语音190包括：基于目标说话人的语音特性来更新第二音素序列270，以生成第三音素序列；以及基于第三音素序列，确定与文本170和目标说话人两者对应的自然口语类型的语音190。

在第二方面，本公开提供了一种电子设备。所述电子设备包括：处理单元；以及存储器，耦合至所述处理单元并且包含存储于其上的指令，所述指令在由所述处理单元执行时，使得所述设备执行动作，所述动作包括：生成与文本对应的初始音素序列，初始音素序列包括多个音素的特征表示。通过在初始音素序列中插入附加音素的特征表示来生成第一音素序列，附加音素与自然口语的特性有关。通过利用与多个音素和附加音素中的音素对应的专家模型来确定音素的持续时间，基于第一音素序列来生成第二音素序列。基于第二音素序列，确定与文本对应的自然口语类型的语音。

在一些实现中，基于第二音素序列270确定与文本170对应的自然口语类型的语音190包括：基于目标说话人的语音特性来更新第二音素序列270，以生成第三音素序列；以及基于第三音素序列，确定与文本170和目标说话人两者对应的自然口语类型的语音190。在又一方面，本公开提供了一种计算机程序产品，计算机程序产品被有形地存储在非瞬态计算机存储介质中并且包括机器可执行指令，机器可执行指令在由设备执行时使设备执行上述方面的方法。

在第三方面，本公开提供了一种计算机程序产品，计算机程序产品包括机器可执行指令，机器可执行指令在由设备执行时使设备执行第一方面的方法。

在第四方面，本公开提供了一种计算机可读介质，其上存储有机器可执行指令，机器可执行指令在由设备执行时使设备执行第二方面的方法。

在第五方面，本公开提供了一种计算机实现的方法。所述方法包括：利用第一训练数据集来训练第一模型，第一模型用于基于文本来生成语音；利用第二训练数据集来微调基于第一模型生成的第二模型，第二模型用于基于文本来生成自然口语类型的语音；以及利用第三训练数据集来二次微调第二模型，经二次微调的第二模型用于基于文本来生成与目标说话人的语音特性有关的自然口语类型的语音；并且其中第一训练数据集、第二训练数据集和第三训练数据集的大小依次减小。

在一些实现中，利用第二训练数据集来微调基于第一模型生成的第二模型包括：在第一模型中添加附加音素确定模块以生成第二模型，附加音素预测模块用于确定与自然口语类型的语音对应的多个音素中与自然口语的特性有关的附加音素；以及利用第二训练数据集来训练附加音素确定模块。

在一些实现中，利用第二训练数据集来微调基于第一模型生成的第二模型包括：利用第二训练数据集来训练第二模型中的持续时间确定模块，持续时间确定模块用于确定与自然口语类型的语音对应的多个音素的持续时间。

在一些实现中，确定与自然口语类型的语音对应的多个音素的持续时间包括：确定多个专家模型中与多个音素中的音素对应的专家模型；以及利用专家模型来确定音素的持续时间。

在第六方面，本公开提供了一种电子设备。所述电子设备包括：处理单元；以及存储器，耦合至所述处理单元并且包含存储于其上的指令，所述指令在由所述处理单元执行时，使得所述设备执行动作，所述动作包括：利用第一训练数据集来训练第一模型，第一模型用于基于文本来生成语音；利用第二训练数据集来微调基于第一模型生成的第二模型，第二模型用于基于文本来生成自然口语类型的语音；以及利用第三训练数据集来二次微调第二模型，经二次微调的第二模型用于基于文本来生成与目标说话人的语音特性有关的自然口语类型的语音；并且其中第一训练数据集、第二训练数据集和第三训练数据集的大小依次减小。

在第七方面，本公开提供了一种计算机程序产品，计算机程序产品包括机器可执行指令，机器可执行指令在由设备执行时使设备执行第五方面的方法。

在第八方面，本公开提供了一种计算机可读介质，其上存储有机器可执行指令，机器可执行指令在由设备执行时使设备执行第五方面的方法。

本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如，非限制性地，可以使用的示范类型的硬件逻辑部件包括：场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)等等。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

此外，虽然采用特定次序描绘了各操作，但是这应当理解为要求这样操作以所示出的特定次序或以顺序次序执行，或者要求所有图示的操作应被执行以取得期望的结果。在一定环境下，多任务和并行处理可能是有利的。同样地，虽然在上面论述中包含了若干具体实现细节，但是这些不应当被解释为对本公开的范围的限制。在单独的实现的上下文中描述的某些特征还可以组合地实现在单个实现中。相反地，在单个实现的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实现中。

尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题，但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反，上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。

Claims

1.一种计算机实现的方法，包括：

生成与文本对应的初始音素序列，所述初始音素序列包括多个音素的特征表示；

通过在所述初始音素序列中插入附加音素的特征表示来生成第一音素序列，所述附加音素与自然口语的特性有关；

通过利用与所述多个音素和所述附加音素中的音素对应的专家模型来确定所述音素的持续时间，基于所述第一音素序列来生成第二音素序列；以及

基于所述第二音素序列，确定与所述文本对应的自然口语类型的语音。

2.根据权利要求1所述的方法，其中基于所述第一音素序列来生成第二音素序列包括：

确定所述多个音素和所述附加音素中的所述音素的类别；以及

利用多个专家模型中与所述类别对应的专家模型预测所述音素的持续时间。

3.根据权利要求1所述的方法，其中基于所述第二音素序列确定与所述文本对应的自然口语类型的语音包括：

基于目标说话人的语音特性来更新所述第二音素序列，以生成第三音素序列；以及

基于所述第三音素序列，确定与所述文本和所述目标说话人两者对应的自然口语类型的语音。

4.根据权利要求1所述的方法，其中所述附加音素包括以下至少一项：

指示停顿的音素；

指示重复的音素；以及

指示习惯用语的音素。

5.一种计算机实现的方法，包括：

利用第一训练数据集来训练第一模型，所述第一模型用于基于文本来生成语音；

利用第二训练数据集来微调基于所述第一模型生成的第二模型，所述第二模型用于基于所述文本来生成自然口语类型的语音；以及

利用第三训练数据集来二次微调所述第二模型，经二次微调的所述第二模型用于基于所述文本来生成与目标说话人的语音特性有关的自然口语类型的语音；并且

其中所述第一训练数据集、所述第二训练数据集和所述第三训练数据集的大小依次减小。

6.根据权利要求5所述的方法，其中利用第二训练数据集来微调基于所述第一模型生成的第二模型包括：

在所述第一模型中添加附加音素确定模块以生成所述第二模型，所述附加音素预测模块用于确定与所述自然口语类型的语音对应的多个音素中与自然口语的特性有关的附加音素；以及

利用所述第二训练数据集来训练所述附加音素确定模块。

7.根据权利要求6所述的方法，其中所述附加音素包括以下至少一项：

指示停顿的音素；

指示重复的音素；以及

指示习惯用语的音素。

8.根据权利要求5所述的方法，其中利用第二训练数据集来微调基于所述第一模型生成的第二模型包括：

利用所述第二训练数据集来训练所述第二模型中的持续时间确定模块，所述持续时间确定模块用于确定与所述自然口语类型的语音对应的多个音素的持续时间。

9.根据权利要求8所述的方法，其中确定与所述自然口语类型的语音对应的多个音素的持续时间包括：

确定多个专家模型中与所述多个音素中的音素对应的专家模型；以及

利用所述专家模型来确定所述音素的持续时间。

10.一种电子设备，包括：

处理单元；以及

存储器，耦合至所述处理单元并且包含存储于其上的指令，所述指令在由所述处理单元执行时，使得所述设备执行动作，所述动作包括：

11.根据权利要求10所述的设备，其中基于所述第一音素序列来生成第二音素序列包括：

12.根据权利要求10所述的设备，其中基于所述第二音素序列确定与所述文本对应的自然口语类型的语音包括：

13.根据权利要求10所述的设备，其中所述附加音素包括以下至少一项：

指示停顿的音素；

指示重复的音素；以及

指示习惯用语的音素。

14.一种电子设备，包括：

处理单元；以及

15.根据权利要求14所述的设备，其中利用第二训练数据集来微调基于所述第一模型生成的第二模型包括：

在所述第一模型中添加附加音素确定模块以生成所述第二模型；所述附加音素确定模块用于确定与所述自然口语类型的语音对应的多个音素中与自然口语的特性有关的附加音素；以及

利用所述第二训练数据集来训练所述附加音素确定模块。

16.根据权利要求15所述的设备，其中所述附加音素包括以下至少一项：

指示停顿的音素；

指示重复的音素；以及

指示习惯用语的音素。

17.根据权利要求14所述的设备，其中利用第二训练数据集来微调基于所述第一模型生成的第二模型包括：

18.根据权利要求17所述的设备，其中确定与所述自然口语类型的语音对应的多个音素的持续时间包括：

利用所述专家模型来确定所述音素的持续时间。

19.一种计算机程序产品，所述计算机程序产品包括机器可执行指令，所述机器可执行指令在由设备执行时使所述设备执行动作，所述动作包括：

20.一种计算机程序产品，所述计算机程序产品包括机器可执行指令，所述机器可执行指令在由设备执行时使所述设备执行动作，所述动作包括：