CN113409765A

CN113409765A - 一种语音合成方法、装置和用于语音合成的装置

Info

Publication number: CN113409765A
Application number: CN202110657200.4A
Authority: CN
Inventors: 王睿敏; 孟凡博; 刘恺; 陈伟
Original assignee: Beijing Sogou Technology Development Co Ltd
Current assignee: Beijing Sogou Technology Development Co Ltd
Priority date: 2021-06-11
Filing date: 2021-06-11
Publication date: 2021-09-17
Anticipated expiration: 2041-06-11
Also published as: CN113409765B

Abstract

本发明实施例提供了一种语音合成方法、装置和用于语音合成的装置。其中的方法包括：获取音频训练数据，音频训练数据包括不同音色特征以及不同情感特征的音频数据；根据音频训练数据训练语音合成模型，所述语音合成模型包括不同音色特征的音频训练数据训练得到的音色模型参数，以及不同情感特征的音频训练数据训练得到的韵律模型参数；将待合成的文本数据、至少一个说话人标识、以及情感标识输入语音合成模型，通过语音合成模型输出语音合成数据，语音合成数据包含说话人标识对应的音色特征以及情感标识对应的情感特征。本发明实施例可以合成不同音色特征以及不同情感特征组合的目标音频，可以扩展语音合成模型的适用范围。

Description

一种语音合成方法、装置和用于语音合成的装置

技术领域

本发明涉及语音处理技术领域，尤其涉及一种语音合成方法、装置和用于语音合成的装置。

背景技术

随着深度学习的发展，语音合成技术进入到端到端的发展阶段。端到端的语音合成模型能够基于输入的文本，直接输出与该文本对应的语音。

语音合成技术广泛应用在智能问答、语音播报、有声读物、虚拟主播等场景中。端到端的语音合成技术合成的语音情感较为单一，在某些场景下，需要合成同一个说话人不同情感的语音。这就需要针对每个说话人，分别使用每个说话人录制的不同情感的语音作为训练数据，分别生成用于合成一个说话人的单一情感的语音合成模型，不仅训练开销大，而且语音合成模型仅可以生成单一情感的语音，导致语音合成模型的适用范围较为局限。

发明内容

本发明实施例提供一种语音合成方法、装置和用于语音合成的装置，可以合成不同音色特征以及不同情感特征组合的目标音频，可以扩展语音合成模型的适用范围，并且降低对训练数据的要求以及降低训练数据的采集成本。

为了解决上述问题，本发明实施例公开了一种语音合成方法，所述方法包括：

获取音频训练数据，所述音频训练数据包括不同音色特征以及不同情感特征的音频数据；

根据所述音频训练数据训练语音合成模型，所述语音合成模型包括不同音色特征的音频训练数据训练得到的音色模型参数，以及不同情感特征的音频训练数据训练得到的韵律模型参数；

将待合成的文本数据、至少一个说话人标识、以及情感标识输入所述语音合成模型，通过所述语音合成模型输出语音合成数据，所述语音合成数据包含所述说话人标识对应的音色特征以及所述情感标识对应的情感特征。

可选地，所述根据所述音频训练数据训练语音合成模型，包括：

从所述音频训练数据中提取韵律特征；

将提取的韵律特征输入解码器，训练语音合成模型，所述语音合成模型包括编码器参数、韵律提取参数、音色模型参数、韵律模型参数；

从所述音频训练数据中分别选取单一音色特征的音频数据，并固定所述语音合成模型中的编码器参数和韵律提取参数不变，分别训练不同音色特征对应的音色模型参数；

从所述音频训练数据中分别选取单一音色特征以及单一情感特征的音频数据，并固定所述语音合成模型中的编码器参数和韵律提取参数不变，分别训练不同情感特征的韵律模型参数。

可选地，所述从所述音频训练数据中提取韵律特征，包括：

从所述音频训练数据中提取声学特征；

从提取的声学特征中提取层级变分自动编码器向量；

所述将提取的韵律特征输入解码器，训练语音合成模型，包括：

将提取的层级变分自动编码器向量作为韵律特征输入解码器，基于提取的声学特征训练语音合成模型。

可选地，所述通过所述语音合成模型输出语音合成数据，包括：

通过所述语音合成模型确定所述说话人标识对应的音色模型参数，以及所述情感标识对应的韵律模型参数；

根据所述文本数据和所述韵律模型参数，预测目标音频的层级变分自动编码器向量；

根据所述文本数据预测文本时长特征，并根据预测的时长特征对所述文本数据的音素级文本特征进行扩帧处理，得到扩帧后的帧级文本特征；

将所述帧级文本特征、预测的层级变分自动编码器向量、以及说话人标识输入解码器，通过解码器根据所述帧级文本特征、预测的层级变分自动编码器向量、以及所述说话人标识对应的音色模型参数，预测目标声学特征；

将预测的目标声学特征转换成语音波形，得到目标音频。

可选地，所述层级变分自动编码器向量包括句子级、音素级、帧级的变分自动编码器向量。

可选地，所述从所述音频训练数据中提取韵律特征，包括：

从所述音频训练数据中提取声学特征、基频特征、以及能量特征；

将提取的基频特征和能量特征作为韵律特征输入解码器，基于提取的声学特征训练语音合成模型。

另一方面，本发明实施例公开了一种语音合成装置，所述装置包括：

数据获取模块，用于获取音频训练数据，所述音频训练数据包括不同音色特征以及不同情感特征的音频数据；

模型训练模块，用于根据所述音频训练数据训练语音合成模型，所述语音合成模型包括不同音色特征的音频训练数据训练得到的音色模型参数，以及不同情感特征的音频训练数据训练得到的韵律模型参数；

语音合成模块，用于将待合成的文本数据、至少一个说话人标识、以及情感标识输入所述语音合成模型，通过所述语音合成模型输出语音合成数据，所述语音合成数据包含所述说话人标识对应的音色特征以及所述情感标识对应的情感特征。

可选地，所述模型训练模块，包括：

韵律特征提取子模块，用于从所述音频训练数据中提取韵律特征；

模型训练子模块，用于将提取的韵律特征输入解码器，训练语音合成模型，所述语音合成模型包括编码器参数、韵律提取参数、音色模型参数、韵律模型参数；

音色模型参数训练子模块，用于从所述音频训练数据中分别选取单一音色特征的音频数据，并固定所述语音合成模型中的编码器参数和韵律提取参数不变，分别训练不同音色特征对应的音色模型参数；

韵律模型参数训练子模块，用于从所述音频训练数据中分别选取单一音色特征以及单一情感特征的音频数据，并固定所述语音合成模型中的编码器参数和韵律提取参数不变，分别训练不同情感特征的韵律模型参数。

可选地，所述韵律特征提取子模块，包括：

声学特征提取单元，用于从所述音频训练数据中提取声学特征；

向量提取单元，用于从提取的声学特征中提取层级变分自动编码器向量；

所述模型训练子模块，具体用于将提取的层级变分自动编码器向量作为韵律特征输入解码器，基于提取的声学特征训练语音合成模型。

可选地，所述语音合成模型包括：

参数确定子模块，用于确定所述说话人标识对应的音色模型参数，以及所述情感标识对应的韵律模型参数；

向量预测子模块，用于根据所述文本数据和所述韵律模型参数，预测目标音频的层级变分自动编码器向量；

扩帧处理子模块，用于根据所述文本数据预测文本时长特征，并根据预测的时长特征对所述文本数据的音素级文本特征进行扩帧处理，得到扩帧后的帧级文本特征；

声学特征预测子模块，用于将所述帧级文本特征、预测的层级变分自动编码器向量、以及说话人标识输入解码器，通过解码器根据所述帧级文本特征、预测的层级变分自动编码器向量、以及所述说话人标识对应的音色模型参数，预测目标声学特征；

音频转换子模块，用于将预测的目标声学特征转换成语音波形，得到目标音频。

可选地，所述韵律特征提取子模块，具体用于从所述音频训练数据中提取声学特征、基频特征、以及能量特征；

所述模型训练子模块，具体用于将提取的基频特征和能量特征作为韵律特征输入解码器，基于提取的声学特征训练语音合成模型。

再一方面，本发明实施例公开了一种用于语音合成的装置，所述装置包括有存储器，以及一个以上的程序，其中一个以上程序存储于存储器中，且经配置以由一个以上处理器执行所述一个以上程序，所述一个以上程序包含用于进行前述任一所述的语音合成方法的指令。

又一方面，本发明实施例公开了一种机器可读介质，其上存储有指令，当由一个或多个处理器执行时，使得装置执行如前述一个或多个所述的语音合成方法。

本发明实施例包括以下优点：

本发明实施例预先根据音频训练数据训练语音合成模型，所述音频训练数据包括不同音色特征以及不同情感特征的音频数据，所述语音合成模型包括不同音色特征的音频训练数据训练得到的音色模型参数，以及不同情感特征的音频训练数据训练得到的韵律模型参数。由此，将待合成的文本数据、至少一个说话人标识、以及情感标识输入训练完成的语音合成模型，通过该语音合成模型可以输出语音数据，该语音数据包含所述说话人标识对应的音色特征以及所述情感标识对应的情感特征。通过本发明实施例，任意用户均可以使用其他用户的情感特征合成自己音色特征的目标音频，即实现了跨说话人的情感特征迁移，使得语音合成的方式更加多样、灵活、便利，扩展了语音合成模型的适用范围。此外，本发明实施例不需要每个说话人录制的不同情感特征的语音作为训练数据，可以降低对训练数据的要求以及降低训练数据的采集成本。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明的一种语音合成方法实施例的步骤流程图；

图2是本发明的一种语音合成模型的结构示意图；

图3是本发明的一种语音合成装置实施例的结构框图；

图4是本发明的一种用于语音合成的装置800的框图；

图5是本发明的一些实施例中服务器的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

方法实施例

参照图1，示出了本发明的一种语音合成方法实施例的步骤流程图，所述方法具体可以包括如下步骤：

步骤101、获取音频训练数据，所述音频训练数据包括不同音色特征以及不同情感特征的音频数据；

步骤102、根据所述音频训练数据训练语音合成模型，所述语音合成模型包括不同音色特征的音频训练数据训练得到的音色模型参数，以及不同情感特征的音频训练数据训练得到的韵律模型参数；

步骤103、将待合成的文本数据、至少一个说话人标识、以及情感标识输入所述语音合成模型，通过所述语音合成模型输出语音合成数据，所述语音合成数据包含所述说话人标识对应的音色特征以及所述情感标识对应的情感特征。

本发明实施例提供的语音合成方法的执行主体为语音合成装置，该语音合成装置可以为电子实体，或者也可以为采用软件集成的应用。该电子实体包括但不限于：耳机、录音笔、家居智能终端(包括：空调、冰箱、电饭煲、热水器等)，商务智能终端(包括：可视电话、会议桌面智能终端等)，可穿戴设备(包括智能手表、智能眼镜等)，金融智能终端机，以及智能手机、平板电脑、个人数字助理(Personal Digital Assistant，PDA)、车载设备、计算机等。

本发明实施例预先根据音频训练数据训练语音合成模型，所述音频训练数据包括不同音色特征以及不同情感特征的音频数据，所述语音合成模型包括不同音色特征的音频训练数据训练得到的音色模型参数，以及不同情感特征的音频训练数据训练得到的韵律模型参数。由此，本发明实施例可以根据给定的文本数据、说话人标识、以及情感标识，合成目标音频，使得合成的目标音频包含所述说话人标识对应的音色特征以及所述情感标识对应的情感特征。

具体地，将待合成目标音频的文本数据、至少一个说话人标识、以及情感标识，输入至预先训练的语音合成模型中，该语音合成模型可以基于输入的信息，生成并输出目标音频的声学特征信息，该声学特征信息中可以携带文本信息、音色信息和韵律信息，具体可以采用梅尔(MEL)频谱序列的形式。然后再将该声学特征信息输入至预先训练的声码器中，由该声码器合成最终的目标音频。该目标音频具有该说话人标识对应的音色特征以及该情感标识对应的情感特征。

音色特征可以包括但不限于音高、长度、音调等特征。情感特征可用于表征一个人说话时的情感，进一步的，所述情感特征包括开心、高兴、生气、悲伤、愤怒中的任意一种。

本发明实施例可以预先训练语音合成模型，该语音合成模型包括不同音色特征的音频训练数据训练得到的音色模型参数，以及不同情感特征的音频训练数据训练得到的韵律模型参数。在使用该语音合成模型时，可以采用任意的文本数据、说话人标识和情感标识，任意组合得到指定的说话人标识对应的音色特征以及情感标识对应的情感特征的目标音频，语音合成的方式多样、灵活、便利。

作为一种可能的实现方式，在用户使用具有语音合成功能的应用软件的过程中，在用户上传完待合成的文本数据后，可在应用软件对应的用户交互界面上为用户提供可供选择的多个说话人以及可供选择的多种情感特征，并获取用户从多个说话人选择的目标说话人以及从多种情感特征中选择的目标情感特征。在检测到用户触发交互界面上的确认指令后，可获取目标说话人的说话人标识以及目标情感特征的情感标识，并将获取的待合成文本、说话人标识、以及情感标识输入语音合成模型进行语音合成，得到目标音频。

本发明实施例预先训练包括多种音色模型参数和多种韵律模型参数的语音合成模型，通过该语音合成模型可以进行在线语音合成处理，向该语音合成模型实时输入获取的文本数据、说话人标识、以及情感标识，即可输出说话人标识对应的音色特征以及情感标识对应的情感特征的合成语音数据，可以提高语音处理的效率。

本发明实施例的语音合成模型可以将语音中的音色特征和韵律特征进行解耦，进而对于音色特征和韵律特征可以使用不同解码器分别进行建模及预测，通过组合使用各种音色模型参数与韵律模型参数，可以合成不同音色特征以及不同情感特征组合的目标音频。任意用户均可以使用其他用户的情感特征合成自己音色特征的目标音频，即实现跨说话人的情感特征迁移。

例如，本发明实施例预先训练了语音合成模型，该语音合成模型中包含说话人a的音色模型参数以及说话人a对应情感特征1的韵律模型参数，还包含说话人b的音色模型参数以及说话人b对应情感特征2的韵律模型参数。假设给定文本数据、说话人标识为说话人a的标识、以及情感标识为情感特征2的标识，则利用该语音合成模型，可以合成具有说话人a的音色特征以及情感特征2的目标音频。同样地，利用该语音合成模型，还可以合成具有说话人b的音色特征以及情感特征1的目标音频。也即，通过该语音合成模型，可以实现跨说话人的情感特征迁移，可以实现音色特征的情感多样性。

一个示例中，训练语音合成模型的音频训练数据中包含说话人a使用情感特征1(情感特征1为开心)录制的音频数据，假设该音频数据为说话人a开心地用东北话读小说，记为a1。基于该音频训练数据，可以训练得到说话人a对应的音色模型参数，以及情感特征1对应的韵律模型参数。假设训练语音合成模型的音频训练数据中还包含说话人b使用情感特征2(情感特征2为气愤)录制的音频数据，假设该音频数据为说话人b气愤地用陕西话播新闻，记为b2。基于该音频训练数据，训练得到的语音合成模型中还包括说话人b对应的音色模型参数，以及情感特征2对应的韵律模型参数。

在该示例中，利用已训练的语音合成模型，可以合成目标音频a1，该目标音频为使用说话人a的音色特征开心地用东北话读小说。还可以合成目标音频b2，该目标音频为使用说话人b的音色特征气愤地用陕西话播新闻。此外，还可以合成目标音频a2，该目标音频为使用说话人a的音色特征气愤地用陕西话播新闻。还可以合成目标音频b1，该目标音频为使用说话人b的音色特征开心地用东北话读小说。

在本发明的一种可选实施例中，所述根据所述音频训练数据训练语音合成模型，包括：

步骤S11、从所述音频训练数据中提取韵律特征；

步骤S12、将提取的韵律特征输入解码器，训练语音合成模型，所述语音合成模型包括编码器参数、韵律提取参数、音色模型参数、韵律模型参数；

步骤S13、从所述音频训练数据中分别选取单一音色特征的音频数据，并固定所述语音合成模型中的编码器参数和韵律提取参数不变，分别训练不同音色特征对应的音色模型参数；

步骤S14、从所述音频训练数据中分别选取单一音色特征以及单一情感特征的音频数据，并固定所述语音合成模型中的编码器参数和韵律提取参数不变，分别训练不同情感特征的韵律模型参数。

本发明实施例可以获取不同说话人录制的不同情感特征的音频数据作为语音合成模型的音频训练数据。音频训练数据的文本可以是任意文本。

需要说明的是，本发明实施例对音频训练数据的来源不做限制，音频训练数据可以通过录音设备实时采集，也可以是例如广播节目、电视节目的录音，真人语音录音，各类网站、应用中获取的录音等。本发明实施例不需要每个说话人录制的不同情感特征的语音作为训练数据，可以降低对训练数据的要求以及降低训练数据的采集成本。

获取音频训练数据之后，从所述音频训练数据中提取韵律特征，并将提取的韵律特征输入解码器，训练语音合成模型，所述语音合成模型包括编码器参数、韵律提取参数、音色模型参数、韵律模型参数。

进一步地，在提取韵律特征之前，可以标注所述训练数据的音素以及音素对应的时长边界，然后基于所述音素的时长边界，从所述音素中提取韵律特征。

韵律特征属于语言的一种音系结构，与句法和语篇结构、信息结构等其他语言学结构密切相关。韵律特征可以分为三个主要方面：语调、时域分布和重音。

将提取的韵律特征输入解码器，训练语音合成模型，所述语音合成模型可以采用编码器-解码器的结构，所述语音合成模型包括编码器参数、韵律提取参数、音色模型参数、韵律模型参数。一个示例中，训练得到的语音合成模型记为{ABCD}，其中，A为编码器参数，B为韵律提取参数、C为音色模型参数，D为韵律模型参数。

接下来，分别训练音色模型参数和韵律模型参数。

训练音色模型参数的过程如下：从所述音频训练数据中分别选取单一音色特征的音频数据，并固定所述语音合成模型中的编码器参数和韵律提取参数不变，分别训练不同音色特征对应的音色模型参数。

具体地，从音频训练数据中选取单一音色特征的音频训练数据，如选取说话人a的音频数据；模型读取已训练的模型参数，如编码器参数A、韵律提取参数B、音色模型参数C，韵律模型参数D；固定其中的编码器参数A和韵律提取参数B不变，进行自适应训练，得到说话人a的音色特征对应的音色模型参数，如C1。采用同样的方法，还可以训练得到说话人b的音色特征对应的音色模型参数，如C2等。

训练韵律模型参数的过程如下：从所述音频训练数据中分别选取单一音色特征以及单一情感特征的音频数据，并固定所述语音合成模型中的编码器参数和韵律提取参数不变，分别训练不同情感特征的韵律模型参数。

具体地，从音频训练数据中选取单一音色特征以及单一情感特征的音频数据，如说话人a对应情感特征1的音频数据；模型读取已训练的模型参数，如编码器参数A、韵律提取参数B、音色模型参数C，韵律模型参数D；固定其中的编码器参数A和韵律提取参数B不变，进行自适应训练，得到情感特征1对应的韵律模型参数，如D1。采用同样的方法，可以训练得到情感特征2的韵律模型参数，如D2等。

需要说明的是，同一个音色可能包含多种情感特征，多种音色可能包含同一种情感特征，因此，本发明实施例在训练韵律模型参数时选取的是同一个音色中同一种情感特征的音频数据，即单一音色特征以及单一情感特征的音频数据。

一个示例中，通过模型训练得到参数为{ABCD}的语音合成模型，并且训练得到音色模型参数C1以及韵律模型D1，由此可以组合得到参数为{ABC1D1}的语音合成模型，使用该语音合成模型合成的目标音频具有音色模型参数C1对应的音色特征以及韵律模型D1对应的情感特征。

使用本发明的语音合成方法，在训练数据的采集阶段，可以采集不同说话人录制的不同情感特征的音频数据，在语音合成阶段，对语音合成模型中已有的任意音色特征都可以合成已训练的任意韵律模型参数对应情感特征的目标音频。需要说明的是，在语音合成阶段，说话人标识对应的音色模型参数和情感标识对应的韵律模型参数均为语音合成模型中训练过的音色模型参数和韵律模型参数。

在本发明的一种可选实施例中，所述从所述音频训练数据中提取韵律特征，包括：

步骤S21、从所述音频训练数据中提取声学特征；

步骤S22、从提取的声学特征中提取层级变分自动编码器向量；

具体地，本发明实施例首先标注所述训练数据的音素以及音素对应的时长边界，然后基于所述音素的时长边界，从所述音素中提取声学特征，所述声学特征可以为MEL谱特征，并额外从提取的MEL谱特征中无监督地提取层级VAE(Variational Auto-Encoder，变分自动编码器)向量。将提取的层级VAE向量作为韵律特征输入解码器，基于提取的声学特征训练语音合成模型。

可选地，所述层级VAE向量可以包括句子级、音素级、帧级的VAE向量。

VAE是变分自动编码器技术，将一段MEL谱特征输入一个神经网络，可以预测出一个VAE向量。其中这一段MEL谱特征的长度可以是变化的，分别是一整句对应的MEL谱特征，一个音素对应的MEL谱特征，一帧对应的MEL谱特征。也即，可以通过该神经网络分别提取得到句子级、音素级、帧级的VAE向量。

将提取的句子级、音素级、帧级的VAE向量同时输入解码器，基于提取的声学特征训练语音合成模型。

进一步地，语音合成模型中还可以包括VAE提取器和VAE预测解码器，VAE提取器用于从MEL谱特征中提取层级VAE向量，VAE预测解码器用于根据文本数据和说话人标识预测层级VAE向量。在语音合成模型的训练过程中，可以计算VAE提取器提取的层级VAE向量与VAE预测解码器预测的层级VAE向量之间的误差，根据该误差可以迭代优化VAE预测解码器。

本发明实施例提取层级VAE向量(包括句子级、音素级、帧级的VAE向量)作为韵律特征训练语音合成模型，可以避免采用单一尺度的VAE向量带来的局限性，提高模型训练的精准度。

在本发明的一种可选实施例中，所述通过所述语音合成模型输出语音合成数据，包括：

步骤S31、通过所述语音合成模型确定所述说话人标识对应的音色模型参数，以及所述情感标识对应的韵律模型参数；

步骤S32、根据所述文本数据和所述韵律模型参数，预测目标音频的层级变分自动编码器向量；

步骤S33、根据所述文本数据预测文本时长特征，并根据预测的时长特征对所述文本数据的音素级文本特征进行扩帧处理，得到扩帧后的帧级文本特征；

步骤S34、将所述帧级文本特征、预测的层级变分自动编码器向量、以及说话人标识输入解码器，通过解码器根据所述帧级文本特征、预测的层级变分自动编码器向量、以及所述说话人标识对应的音色模型参数，预测目标声学特征；

步骤S36、将预测的目标声学特征转换成语音波形，得到目标音频。

在具体实施中，每个说话人具有不同的音色特征，不同的音色特征对应不同的音色模型参数，根据给定的说话人标识，可以确定该说话人标识对应的音色模型参数。不同的情感标识对应不同的情感特征，不同的情感特征对应不同的韵律模型参数，根据给定的情感标识，可以确定该情感标识对应的韵律模型参数。

参照图2，示出了本发明的一种语音合成模型的结构示意图。图2所示的语音合成模型可以包括编码器201、解码器(音色模型)202、以及韵律模型203，所述韵律模型进一步包括时长预测模型和VAE预测解码器。

将给定的文本数据、说话人标识、以及情感标识输入语音合成模型之后，语音合成模型可以根据接收到的说话人标识确定对应的音色模型参数，以及根据接收到的情感标识确定对应的韵律模型参数。具体地，语音合成模型通过编码器201对接收到的文本数据进行编码，得到文本数据的音素级文本特征；通过时长预测模型对接收到的文本数据预测文本时长特征，并根据预测的时长特征对所述文本数据的音素级文本特征进行扩帧处理，得到扩帧后的帧级文本特征；通过VAE预测解码器根据所述文本数据和所述情感标识对应的韵律模型参数，预测目标音频的层级VAE向量；最后将所述帧级文本特征、预测的层级VAE向量、以及说话人标识输入解码器，解码器根据所述帧级文本特征、预测的层级VAE向量、以及所述说话人标识对应的音色模型参数，预测目标声学特征。预测的目标声学特征具有所述说话人标识对应的音色特征以及所述情感标识对应的情感特征。最后将预测的目标声学特征转换成语音波形，可以得到目标音频。

在本发明实施例中，除了可以提取层级VAE向量作为训练语音合成模型的韵律特征，还可以提取基频特征和能量特征作为训练语音合成模型的韵律特征。

具体地，在获取音频训练数据之后，可以从所述音频训练数据中提取声学特征、基频特征、以及能量特征，其中，基频特征和能量特征可以使用数字信号处理的算法直接从音频数据中提取得到。将提取的基频特征和能量特征作为韵律特征输入解码器，基于提取的声学特征训练语音合成模型。

在语音合成模型训练完成之后，在语音合成模型中导入想要使用的音色模型参数和韵律模型参数，即可合成指定音色特征、指定情感特征的目标音频。

综上，本发明实施例预先根据音频训练数据训练语音合成模型，所述音频训练数据包括不同音色特征以及不同情感特征的音频数据，所述语音合成模型包括不同音色特征的音频训练数据训练得到的音色模型参数，以及不同情感特征的音频训练数据训练得到的韵律模型参数。由此，将待合成的文本数据、至少一个说话人标识、以及情感标识输入训练完成的语音合成模型，通过该语音合成模型可以输出语音数据，该语音数据包含所述说话人标识对应的音色特征以及所述情感标识对应的情感特征。通过本发明实施例，任意用户均可以使用其他用户的情感特征合成自己音色特征的目标音频，即实现了跨说话人的情感特征迁移，使得语音合成的方式更加多样、灵活、便利，扩展了语音合成模型的适用范围。此外，本发明实施例不需要每个说话人录制的不同情感特征的语音作为训练数据，可以降低对训练数据的要求以及降低训练数据的采集成本。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

装置实施例

参照图3，示出了本发明的一种语音合成装置实施例的结构框图，所述装置可以包括：

数据获取模块301，用于获取音频训练数据，所述音频训练数据包括不同音色特征以及不同情感特征的音频数据；

模型训练模块302，用于根据所述音频训练数据训练语音合成模型，所述语音合成模型包括不同音色特征的音频训练数据训练得到的音色模型参数，以及不同情感特征的音频训练数据训练得到的韵律模型参数；

语音合成模块303，用于将待合成的文本数据、至少一个说话人标识、以及情感标识输入所述语音合成模型，通过所述语音合成模型输出语音合成数据，所述语音合成数据包含所述说话人标识对应的音色特征以及所述情感标识对应的情感特征。

可选地，所述模型训练模块，包括：

可选地，所述韵律特征提取子模块，包括：

可选地，所述语音合成模型包括：

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

本发明实施例提供了一种用于语音合成的装置，所述装置包括有存储器，以及一个以上的程序，其中一个以上程序存储于存储器中，且经配置以由一个以上处理器执行所述一个以上程序包含用于进行以下操作的指令：获取音频训练数据，所述音频训练数据包括不同音色特征以及不同情感特征的音频数据；根据所述音频训练数据训练语音合成模型，所述语音合成模型包括不同音色特征的音频训练数据训练得到的音色模型参数，以及不同情感特征的音频训练数据训练得到的韵律模型参数；将待合成的文本数据、至少一个说话人标识、以及情感标识输入所述语音合成模型，通过所述语音合成模型输出语音合成数据，所述语音合成数据包含所述说话人标识对应的音色特征以及所述情感标识对应的情感特征。

从所述音频训练数据中提取韵律特征；

可选地，所述从所述音频训练数据中提取韵律特征，包括：

从所述音频训练数据中提取声学特征；

从提取的声学特征中提取层级变分自动编码器向量；

将预测的目标声学特征转换成语音波形，得到目标音频。

可选地，所述从所述音频训练数据中提取韵律特征，包括：

图4是根据一示例性实施例示出的一种用于语音合成的装置800的框图。例如，装置800可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图4，装置800可以包括以下一个或多个组件：处理组件802，存储器804，电源组件806，多媒体组件808，音频组件810，输入/输出(I/O)的接口812，传感器组件814，以及通信组件816。

处理组件802通常控制装置800的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理元件802可以包括一个或多个处理器820来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件802可以包括一个或多个模块，便于处理组件802和其他组件之间的交互。例如，处理组件802可以包括多媒体模块，以方便多媒体组件808和处理组件802之间的交互。

存储器804被配置为存储各种类型的数据以支持在设备800的操作。这些数据的示例包括用于在装置800上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件806为装置800的各种组件提供电力。电源组件806可以包括电源管理系统，一个或多个电源，及其他与为装置800生成、管理和分配电力相关联的组件。

多媒体组件808包括在所述装置800和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件808包括一个前置摄像头和/或后置摄像头。当设备800处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件810被配置为输出和/或输入音频信号。例如，音频组件810包括一个麦克风(MIC)，当装置800处于操作模式，如呼叫模式、记录模式和语音信息处理模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中，音频组件810还包括一个扬声器，用于输出音频信号。

I/O接口812为处理组件802和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件814包括一个或多个传感器，用于为装置800提供各个方面的状态评估。例如，传感器组件814可以检测到设备800的打开/关闭状态，组件的相对定位，例如所述组件为装置800的显示器和小键盘，传感器组件814还可以语音合成装置800或装置800一个组件的位置改变，用户与装置800接触的存在或不存在，装置800方位或加速/减速和装置800的温度变化。传感器组件814可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件814还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件816被配置为便于装置800和其他设备之间有线或无线方式的通信。装置800可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信组件816经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件816还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频信息处理(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，装置800可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器804，上述指令可由装置800的处理器820执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

图5是本发明的一些实施例中服务器的结构示意图。该服务器1900可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(central processingunits，CPU)1922(例如，一个或一个以上处理器)和存储器1932，一个或一个以上存储应用程序1942或数据1944的存储介质1930(例如一个或一个以上海量存储设备)。其中，存储器1932和存储介质1930可以是短暂存储或持久存储。存储在存储介质1930的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器1922可以设置为与存储介质1930通信，在服务器1900上执行存储介质1930中的一系列指令操作。

服务器1900还可以包括一个或一个以上电源1926，一个或一个以上有线或无线网络接口1950，一个或一个以上输入输出接口1958，一个或一个以上键盘1956，和/或，一个或一个以上操作系统1941，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

一种非临时性计算机可读存储介质，当所述存储介质中的指令由装置(服务器或者终端)的处理器执行时，使得装置能够执行图1所示的语音合成方法。

一种非临时性计算机可读存储介质，当所述存储介质中的指令由装置(服务器或者终端)的处理器执行时，使得装置能够执行一种语音合成方法，所述方法包括：获取音频训练数据，所述音频训练数据包括不同音色特征以及不同情感特征的音频数据；根据所述音频训练数据训练语音合成模型，所述语音合成模型包括不同音色特征的音频训练数据训练得到的音色模型参数，以及不同情感特征的音频训练数据训练得到的韵律模型参数；将待合成的文本数据、至少一个说话人标识、以及情感标识输入所述语音合成模型，通过所述语音合成模型输出语音合成数据，所述语音合成数据包含所述说话人标识对应的音色特征以及所述情感标识对应的情感特征。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

以上对本发明所提供的一种语音合成方法、一种语音合成装置和一种用于语音合成的装置，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种语音合成方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述根据所述音频训练数据训练语音合成模型，包括：

从所述音频训练数据中提取韵律特征；

3.根据权利要求2所述的方法，其特征在于，所述从所述音频训练数据中提取韵律特征，包括：

从所述音频训练数据中提取声学特征；

从提取的声学特征中提取层级变分自动编码器向量；

4.根据权利要求1所述的方法，其特征在于，所述通过所述语音合成模型输出语音合成数据，包括：

将预测的目标声学特征转换成语音波形，得到目标音频。

5.根据权利要求3或4所述的方法，其特征在于，所述层级变分自动编码器向量包括句子级、音素级、帧级的变分自动编码器向量。

6.根据权利要求2所述的方法，其特征在于，所述从所述音频训练数据中提取韵律特征，包括：

7.根据权利要求1所述的方法，其特征在于，所述情感特征包括开心、高兴、生气、悲伤、愤怒中的任意一种。

8.一种语音处理的装置，其特征在于，所述装置包括：

9.根据权利要求8所述的装置，其特征在于，所述模型训练模块，包括：

10.根据权利要求9所述的装置，其特征在于，所述韵律特征提取子模块，包括：

11.根据权利要求8所述的装置，其特征在于，所述语音合成模型包括：

12.根据权利要求8或9所述的装置，其特征在于，所述层级变分自动编码器向量包括句子级、音素级、帧级的变分自动编码器向量。

13.根据权利要求9所述的装置，其特征在于，所述韵律特征提取子模块，具体用于从所述音频训练数据中提取声学特征、基频特征、以及能量特征；

14.一种用于语音合成的装置，其特征在于，所述装置包括有存储器，以及一个以上的程序，其中一个以上程序存储于存储器中，且经配置以由一个以上处理器执行所述一个以上程序，所述一个以上程序包含用于进行如权利要求1至7中任一所述的语音合成方法的指令。

15.一种机器可读介质，其上存储有指令，当所述指令由装置的一个或多个处理器执行时，使得装置执行如权利要求1至7中任一所述的语音合成方法。