CN115938338A

CN115938338A - 语音合成方法、装置、电子设备及可读存储介质

Info

Publication number: CN115938338A
Application number: CN202111107875.8A
Authority: CN
Inventors: 代东洋; 黄雷; 陈彦洁; 李鑫; 陈远哲; 王玉平
Original assignee: Beijing Zitiao Network Technology Co Ltd
Current assignee: Beijing Zitiao Network Technology Co Ltd
Priority date: 2021-09-22
Filing date: 2021-09-22
Publication date: 2023-04-07
Also published as: WO2023045954A1

Abstract

本公开涉及一种语音合成方法、装置、电子设备及可读存储介质，其中，本公开基于语音合成模型对待处理文本进行分析，输出待处理文本对应的频谱特征，语音合成模型包括韵律子模型和音色子模型，韵律子模型用于接收待处理文本作为输入，输出待处理文本对应的第一声学特征，第一声学特征包括用于表征目标说唱风格的瓶颈特征；音色子模型接收第一声学特征作为输入，输出相应的频谱特征，频谱特征包括用于表征目标音色的频谱特征；再对频谱特征进行转换，获得具有目标说唱风格及目标音色的音频，满足用户对于合成音频的个性化需求；语音合成模型支持对任意待处理文本的转换，降低对用户的音乐创作能力的要求，有利于提升用户创作多媒体内容的积极性。

Description

语音合成方法、装置、电子设备及可读存储介质

技术领域

本公开涉及人工智能技术领域，尤其涉及一种语音合成方法、装置、电子设备及可读存储介质。

背景技术

随着互联网技术的不断发展，应用程序能够支持用户合成创意视频，在合成创意视频时，通常需要为视频添加配乐。目前，为视频添加配乐通常是从音乐库中选择音乐，这样的方式添加的配乐无法满足用户个性化的需求。

发明内容

为了解决上述技术问题或者至少部分地解决上述技术问题，本公开提供了一种语音合成方法、装置、电子设备及可读存储介质。

第一方面，本公开提供了一种语音合成方法，包括：

获取待处理文本；

将所述待处理文本输入至语音合成模型，获取所述语音合成模型输出的所述待处理文本对应的频谱特征；其中，所述语音合成模型包括：韵律子模型和音色子模型，所述韵律子模型用于根据输入的待处理文本，输出所述待处理文本对应的第一声学特征，所述第一声学特征包括用于表征目标说唱风格的瓶颈特征；所述音色子模型用于根据输入的第一声学特征，输出所述待处理文本对应的频谱特征，所述待处理文本对应的频谱特征包括用于表征目标音色的频谱特征；

根据所述待处理文本对应的频谱特征，获取所述待处理文本对应的目标音频，所述目标音频具有所述目标音色以及所述目标说唱风格。

在一些可能的实施方式中，所述韵律子模型是根据第一样本音频对应的标注文本以及所述第一样本音频对应的第二声学特征，进行训练获得的；

所述第一样本音频包括至少一个所述目标说唱风格的音频；所述第二声学特征包括所述第一样本音频对应的第一标注瓶颈特征。

在一些可能的实施方式中，所述音色子模型是根据第二样本音频对应的第三声学特征、第二样本音频对应的第一标注频谱特征、第三样本音频对应的第四声学特征以及第三样本音频对应的第二标注频谱特征进行训练获得的；

其中，所述第三声学特征包括所述第二样本音频对应的第二标注瓶颈特征；所述第三样本音频包括至少一个具有所述目标音色的音频，所述第三样本音频对应的第四声学特征包括第三样本音频对应的第三标注瓶颈特征。

在一些可能的实施方式中，所述第一样本音频对应的第一标注瓶颈特征、所述第二样本音频对应的第二标注瓶颈特征以及所述第三样本音频对应的第三标注瓶颈特征是通过端到端语音识别模型的编码器分别对输入的所述第一样本音频、所述第二样本音频和所述第三样本音频进行瓶颈特征提取获得的。

在一些可能的实施方式中，所述第二声学特征还包括：所述第一样本音频对应的第一标注基频特征；

所述第三声学特征还包括：所述第二样本音频对应的第二标注基频特征；所述第四声学特征还包括：所述第三样本音频对应的第三标注基频特征；

所述第一声学特征还包括：所述待处理文本对应的基频特征。

在一些可能的实施方式中，所述方法还包括：

将所述待处理文本对应的目标音频添加至目标多媒体内容。

第二方面，本公开提供了一种语音合成装置，包括：

获取模块，用于获取待处理文本；

处理模块，用于将所述待处理文本输入至语音合成模型，获取所述语音合成模型输出的所述待处理文本对应的频谱特征；其中，所述语音合成模型包括：韵律子模型和音色子模型，所述韵律子模型用于根据输入的待处理文本，输出所述待处理文本对应的第一声学特征，所述第一声学特征包括用于表征目标说唱风格的瓶颈特征；所述音色子模型用于根据输入的第一声学特征，输入所述待处理文本对应的频谱特征，所述待处理文本对应的频谱特征包括用于表征目标音色的频谱特征；

所述处理模块，用于根据所述待处理文本对应的频谱特征，获取所述待处理文本对应的目标音频，所述目标音频具有所述目标音色以及所述目标说唱风格。

第三方面，本公开提供了一种电子设备，包括：存储器、处理器以及计算机程序；

所述存储器被配置为存储所述计算机程序；

所述处理器被配置为执行所述计算机程序，以实现如第一方面任一项所述的语音合成方法。

第四方面，本公开提供一种可读存储介质，包括：计算机程序；

所述计算机程序被电子设备的至少一个处理器执行时，以实现如第一方面任一项所述的语音合成方法。

第五方面，本公开提供一种程序产品，所述程序产品包括：计算机程序；所述计算机程序存储在可读存储介质中，电子设备从所述可读存储介质获取所述计算机程序，所述电子设备的至少一个处理器质性所述计算机程序时，以实现如第一方面任一项所述的语音合成方法。

本公开提供一种语音合成方法、装置、电子设备及可读存储介质，其中，本公开基于语音合成模型对待处理文本进行分析，输出待处理文本对应的频谱特征，其中，语音合成模型包括韵律子模型和音色子模型，韵律子模型用于接收待处理文本作为输入，输出待处理文本对应的第一声学特征，其中，第一声学特征包括用于表征目标说唱风格的瓶颈特征；音色子模型接收第一声学特征作为输入，输出待处理文本对应的频谱特征，频谱特征包括用于表征目标音色的频谱特征；通过对语音合成模型输出的频谱特征进行转换，能够获得具有目标说唱风格以及目标音色的说唱音频，满足了用户对于合成音频的个性化需求；且语音合成模型支持对任意待处理文本的转换，降低了对用户的音乐创作能力的要求，有利于提升用户创作多媒体内容的积极性。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

为了更清楚地说明本公开实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1a至图1c为本公开一实施例提供的语音合成模型的结构示意图；

图2为本公开一实施例提供的语音合成方法的流程图；

图3为本公开另一实施例提供的语音合成方法的流程图；

图4为本公开一实施例提供的语音合成装置的结构示意图；

图5为本公开一实施例提供的电子设备的结构示意图。

具体实施方式

为了能够更清楚地理解本公开的上述目的、特征和优点，下面将对本公开的方案进行进一步描述。需要说明的是，在不冲突的情况下，本公开的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本公开，但本公开还可以采用其他不同于在此描述的方式来实施；显然，说明书中的实施例只是本公开的一部分实施例，而不是全部的实施例。

本公开提供一种语音合成方法、装置、电子设备、可读存储介质及程序产品，其中，该方法通过预先训练的语音合成模型实现文本到具有目标说唱风格以及目标音色的音频的转换，该语音合成模型能够实现目标说唱风格和音色相对独立地对语音合成的控制，从而满足用户对于个性化语音合成的需求。

本公开提及的目标说唱风格可以包括任意类别的说唱风格，本公开对于目标说唱风格具体为何种说说唱风格不做限定。例如，目标说唱风格可以为流行说唱、另类说唱、喜剧说唱、爵士说唱、嘻哈说唱中的任一种说唱风格。

本公开提供的语音合成方法，可以由电子设备来执行。其中，电子设备可以是平板电脑、手机(如折叠屏手机、大屏手机等)、可穿戴设备、车载设备、增强现实(augmentedreality，AR)/虚拟现实(virtual reality，VR)设备、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer，UMPC)、上网本、个人数字助理(personaldigitalassistant，PDA)、智能电视、智慧屏、高清电视、4K电视、智能音箱、智能投影仪等物联网(the internet of things，IOT)设备，本公开对电子设备的具体类型不作任何限制。

需要说明的是，训练获取语音合成模型的电子设备和利用语音合成模型执行语音合成业务的电子设备，可以是不同的电子设备，也可以是相同的电子设备，本公开对此不作限定。例如，由服务端设备训练获取语音合成模型，服务端设备将训练好的语音合成模型下发至终端设备/服务端设备，由终端设备/服务端设备根据语音合成模型执行语音合成业务；又如，由服务端设备训练获取语音合成模型，之后，将训练好的语音合成模型部署在该服务端设备，之后，服务端设备调用语音合成模型处理语音合成业务。本公开对此不做限制，实际应用中，可灵活设置。

下面，首先对本方案中的语音合成模型进行介绍。

本方案中的语音合成模型通过引入包括瓶颈(bottleneck)特征的声学特征，将语音合成模型解耦成两个子模型，分别为：韵律子模型和音色子模型，其中，韵律子模型用于建立文本到包含瓶颈特征的声学特征之间的深度映射；音色子模型用于建立包含瓶颈特征的声学特征到频谱特征之间的深度映射。

在此基础上，至少具有以下有益效果：

1、解耦后的两个特征提取子模型可以使用不同的样本音频进行训练。

韵律子模型，用于建立文本序列到包含瓶颈特征的声学特征之间的深度映射，韵律子模型需要使用高质量的具有目标说唱风格的第一样本音频以及第一样本音频对应的标注文本，共同作为样本数据对韵律子模型进行训练。

音色子模型，用于建立包含瓶颈特征的声学特征到频谱特征之间的深度映射，音色子模型可以使用未标注相应文本的第二样本音频进行训练，由于无需标注第二样本音频对应的文本，这样可以大大降低获取第二样本音频的成本。

2、通过解耦语音合成模型，实现了说唱风格和音色相对独立地对语音合成的控制。

韵律子模型输出的声学特征包括用于表征目标说唱风格的瓶颈特征，实现说唱风格对语音合成的控制。此外，韵律子模型输出的声学特征还可以包括用于表征音调的基频特征，实现音调对语音合成的控制。

音色子模型输出的文本对应的频谱特征包括用于表征目标音色的频谱特征，从而实现音色对语音合成的控制。

此外，需要说明的是，音色子模型输出的频谱特征还包括用于表征目标说唱风格的频谱特征，且表征目标音色的频谱特征和表征目标说唱风格的频谱特征为相同的频谱特征。若韵律子模型输出的声学特征还包括基频特征，则音色子模型输出的频谱特征还包括用于表征相应基频的频谱特征，且表征目标音色的频谱特征、表征目标说唱风格的频谱特征以及表征基频的频谱特征为相同的频谱特征。

3、降低了对具有目标音色的第三样本音频的要求

该语音合成模型可以通过较少的目标音色的第三样本音频进行训练，即可使最终的语音合成模型合成具有目标音色的音频，且即使第三样本音频的质量不高，如发音不标准、说话不流利等，语音合成模型依然可以稳定地合成具有目标音色的音频。

由于通过第二样本音频已对音色子模型进行训练，使得音色子模型已经具备了较高的针对音色的语音合成控制能力，因此，即使音色子模型学习少量的第三样本音频，也能够较好的掌握目标音色。

下面通过几个具体实施例对语音合成模型的结构以及如何训练获取语音合成模型进行详细介绍。下述实施例中，以电子设备为例，结合附图，进行详细介绍。

其中，图1a示出了训练获取语音合成模型的整体框架图；图1b和图1c分别示例性地示出了语音合成模型包括的韵律子模型和音色子模型的结构示意图。

参照图1a所示，语音合成模型100包括：韵律子模型101和音色子模型102。对于语音合成模型100进行训练的过程包括针对韵律子模型101进行训练的过程和对音色子模型102进行训练的过程。

下面分别介绍对韵律子模型101进行训练的过程和对音色子模型102进行训练的过程。

一、对韵律子模型101进行训练

韵律子模型101用于根据第一样本音频对应的标注文本以及标注声学特征(以下将第一样本音频对应的标注声学特征称为第二声学特征)进行训练，通过学习第一样本音频对应的标注文本以及第二声学特征之间的关系，使得韵律子模型101获得建立文本到包含瓶颈特征的声学特征之间的深度映射的能力。

具体地，韵律子模型101具体用于对输入的第一样本音频对应的标注文本进行分析，建模中间特征序列，并对中间特征序列进行特征转换以及降维，输出标注文本对应的第五声学特征。

之后，再基于第一样本音频对应的第二声学特征、第一样本音频对应的第五声学特征以及预先构建的损失函数，计算本轮训练的损失函数信息，并根据本轮训练的损失函数信息对韵律子模型101包括的参数的系数值进行调整。

通过多个第一样本音频、第一样本音频对应的标注文本、第一样本音频对应的第二声学特征(包括第一标注瓶颈特征)的不断迭代训练，最终获得满足相应收敛条件的第一特征提取模型101。

在训练过程中，第一样本音频对应的第二声学特征，可以理解为韵律子模型101的学习目标。

其中，第一样本音频可以包括高质量的音频文件(高质量的音频文本也可以理解为干净的音频)，第一样本音频对应的标注文本可以包括第一样本音频对应的一个或多个字符或者一个或多个音素，本公开对此不做限定。第一样本音频可以根据实际需求进行录制、多次的清理获得的，或者，也可以从音频数据库中筛选并多次清理获得，本公开对于第一样本音频的获取方式不做限制。类似地，第一样本音频对应的标注文本，也可以是通过反复的标注、校正获得的，从而保证标注文本的准确性。

此外，本公开提及的第一样本音频为具有目标说唱风格的音频，本公开对于第一样本音频的时长、文件格式、数量等等参数不做限定，且第一样本音频可以是相同或者不同歌手演唱的音乐片段。

此外，标注文本对应的第五声学特征可以理解为韵律子模型101输出的标注文本对应的预测声学特征，标注文本对应的第五声学特征也可以理解为第一样本音频对应的第五声学特征。

一些实施例中，第二声学特征包括：第一样本音频对应的第一标注瓶颈特征。

其中，瓶颈(bottleneck)是一种非线性的特征转换技术以及有效的降维技术。在本方案所提及的针对特定音色的语音合成场景中，瓶颈特征可以包括韵律、内容等维度的信息。

一种可能的实现方式，第一样本音频对应的第一标注瓶颈特征可以通过端到端语音识别(ASR)模型的编码器(encoder)获得。

下文中，端到端ASR模型简称为：ASR模型。

示例性地，参照图1a所示，可将第一样本音频输入至ASR模型104，获取ASR模型104的编码器输出的第一样本音频对应的第一标注瓶颈特征，其中，ASR模型104的编码器相当于提前瓶颈特征的提取器，在本方案中ASR模型104的编码器可以用于准备样本数据。

需要说明的是，ASR模型104还可以包括其他模块，例如图1a所示，ASR模型104还包括解码器(decoder)以及注意力网络(attention network)。针对ASR模型104中除编码器以外的其他模块输出的处理结果，可以不做任何处理，且本公开对于ASR模型中除编码器以外的其他模块或者网络的功能、实现方式不作限定。

其中，通过ASR模型104的编码器获得第一样本音频对应的第一标注瓶颈特征仅是示例，并不是对获得第一样本音频对应的第一标注瓶颈特征的实现方式的限制。实际应用中，也可以通过其他方式获得，本公开对此不做限制。例如，数据库中存储第一样本音频以及第一样本音频对应的第一标注瓶颈特征，电子设备也可以从数据库中获取第一样本音频以及第一标注瓶颈特征。

另一些实施例中，第一样本音频对应的第二声学特征包括：第一样本音频对应的第一标注瓶颈特征和第一样本音频对应的第一标注基频特征。

其中，第一标注瓶颈特征可参照前述示例的详细描述，简明起见，此处不再赘述。

其中，音调表示人耳对于声音的音调高低的主观感受，音调的高低主要取决于声音的基频，基频频率越高则音调越高，基频频率越低则音调越低。在语音合成过程中，音调也是影响语音合成效果的重要因素之一。为了使得最终的语音合成模型具备对音调的语音合成控制能力，本方案在引入瓶颈特征的同时，还引入基频特征，使得最终的韵律子模型101具有根据输入的文本，输出相对应的瓶颈特征和基频特征的能力。

其中，标注文本对应第五声学特征可以理解为韵律子模型101输出的标注文本对应的预测声学特征。标注文本对应的第五声学特征也可以理解为第一样本音频对应的第五声学特征。

需要说明的是，第一样本音频对应的第二声学特征包括：第一标注瓶颈特征和第一标注基频特征，则在训练的过程中，韵律子模型101输出的第一样本音频对应的第五声学特征也包括：第一样本音频对应的预测瓶颈特征和预测基频特征。

之后，再基于第一样本音频对应的第二声学特征、第一样本音频对应的第五声学特征以及预先构建的损失函数，计算本轮训练的损失函数信息，并根据损失函数信息对韵律子模型101包括的参数的系数值进行调整。

通过海量的第一样本音频、第一样本音频对应的标注文本、第一样本音频对应的第二声学特征(包括第一标注瓶颈特征和第一标注基频特征)的不断迭代训练，最终获得满足相应收敛条件的第一特征提取模型101。

一种可能的实现方式，第一样本音频对应的第一标注基频特征可以通过数字信号处理(DSP)的方法对第一样本音频进行分析获得。示例性地，如图1a中所示，可以通过数字信号处理器105对第一样本音频进行数字信号处理，获取第一样本音频对应的第一标注基频特征。其中，数字信号处理器105的具体实现方式不作限定，其只要能够提取输入的第一样本音频对应的第一标注基频特征即可。

此外，第一样本音频对应的第一标注基频特征并不限于通过数字信号处理的方法获得，本公开对于获取第一标注基频特征的实现方式不作限定。例如，一些数据库中存储第一样本音频以及第一样本音频对应的第一标注基频特征，也可以从数据库中获取第一样本音频以及第一标注基频特征。

需要说明的是，韵律子模型对应的收敛条件可以但不限于包括迭代次数、损失阈值等评价指标。本公开对于训练韵律子模型对应的收敛条件不做限制。且电子设备根据第一样本音频对应的第一标注瓶颈特征进行训练，或者，根据第一样本音频对应的第一标注瓶颈特征和第一标注基频特征进行训练，收敛条件可以具备差异。

此外，电子设备根据第一样本音频对应的第一标注瓶颈特征进行训练，或者，根据第一样本音频对应的第一标注瓶颈特征和第一标注基频特征进行训练，预先构建的韵律子模型对应的损失函数可以相同，也可以具备差异。本公开对于预先构建的韵律子模型对应的损失函数的实现方式不做限定。

下面示例性地示出韵律子模型的网络结构。

图1b示例性地示出了韵律子模型101的一种实现方式。参照图1b所示，韵律子模型101可以包括：文本编码网络(text encoder)1011、注意力网络(attention)1012以及解码网络(decoder)1013。

其中，文本编码网络1011，用于接收文本作为输入，并对输入的文本的上下文以及时序关系进行分析，建模中间特征序列，该中间特征序列包含上下文信息以及时序关系。

解码网络1013，可以采用自回归网络结构，通过使用上一个时间步的输出作为下一个时间步的输入。

注意力网络1012主要用于输出的注意力系数。将注意力系数与文本编码网络1011输出的中间特征序列进行加权平均，获得加权平均结果，该加权平均结果作为解码网络1013每个时间步的另一个条件输入。解码网络1013通过对输入(即加权平均结果以及上一个时间步的输出)进行特征转换，输出文本对应的预测声学特征。

结合前述两种实施方式，解码网络1013输出的文本对应的预测声学特征可以包括：文本对应的预测瓶颈特征；或者，解码网络1013输出的文本对应的预测声学特征可以包括：文本对应的预测瓶颈特征和文本对应的预测基频特征。

此外，韵律子模型101包括的参数的系数的初始值可以是随机生成的，也可以是预设的，或者，还可以是通过其他方式确定的，本公开对此不作限定。

通过多个第一样本音频分别对应的标注文本、以及第一样本音频分别对应的第二声学特征，对韵律子模型101进行迭代训练，不断优化韵律子模型101包括的参数的系数值，直至满足韵律子模型101的收敛条件，则停止针对韵律子模型101的训练。

应理解，上述描述的第一样本音频与相应的标注文本之间一一对应，是成对的样本数据。

二、对音色子模型102进行训练

针对音色子模型102进行训练包括两个阶段，其中，第一阶段是基于第二样本音频对音色子模型进行训练，获得中间模型；第二阶段是基于第三样本音频对中间模型进行微调，获得最终的音色子模型。

其中，本公开对于第二样本音频的音色不作限定；此外，第三样本音频为具有目标音色的样本音频。

需要说明的是，上述音色子模型输出的频谱特征可以是梅尔频谱特征，或者，也可以是其他类型的频谱特征。在接下来的示例中，以输入至音色子模型的第二样本音频对应的第一标注频谱特征为第一标注梅尔频谱特征、第三样本音频对应的第二标注频谱特征为第二标注梅尔频谱特征、音色子模型输出的预测频谱特征为预测梅尔频谱特征为例进行举例说明。

下面对音色子模型102的训练过程进行详细介绍：

第一阶段：

在第一阶段的训练中，音色子模型102，用于根据第二样本音频进行迭代训练，获得中间模型。

音色子模型102通过学习第二样本音频对应的第三声学特征和第二样本音频的第一标注梅尔频谱特征之间的映射关系，获得针对音色具有一定的语音合成控制能力的中间模型，其中，第一标注梅尔频谱特征包括：用于表征相应第二样本音频的音色的频谱特征。

本公开对于第二样本音频的音色、时长、存储格式、第二样本音频的数量等等参数不作限定。第二样本音频可以包括具体目标音色的音频，也可以包括非目标音色的音频，或者，第二样本音频同时包括目标音色的音频和非目标音色的音频。

在第一阶段的训练过程中，音色子模型102，用于对输入的第二样本音频对应的第二声学特征进行分析，并输出第二样本音频对应的预测梅尔频谱特征；再基于第二样本音频对应的第一标注梅尔频谱特征以及第二样本音频对应的预测梅尔频谱特征，对音色子模型102包括的参数的系数值进行调整；通过海量的第二样本音频对音色子模型102的不断迭代训练，获得中间模型。

在第一阶段的训练过程中，第一标注梅尔频谱特征可以理解为音色子模型102在第一阶段的学习目标。

由于音色子模型102的输入是第二样本音频对应的第三声学特征，因此，第二样本音频无需标注对应的文本，从而可大大降低获取第二样本音频带来的时间及人力成本。且能够通过较低的成本获得大量的音频作为第二样本音频，用于音色子模型102的迭代训练，进而通过大量的第二样本音频对音色子模型102进行训练，使得中间模型具备较高的针对音色的语音合成控制能力。

第二阶段：

第二阶段中，是基于第三样本对中间模型进行训练，使中间模型学习目标音色，获得针对目标音色的语音合成控制能力。

需要说明的是，由于中间模型已经具备较高的针对音色的语音合成控制能力，因此，降低了对于第三样本音频的要求，例如，降低了对于第三样本音频的时长、第三样本音频的质量的要求，即使第三样本音频的时长较短、发音不清晰等等情况下，训练获得的最终的音色子模型102依然能够获得较高的针对目标音色的语音合成控制能力。

此外，第三样本音频具有目标音色，第三样本音频可以是用户录制的音频，也可以是用户上传的想要的音色的音频，本公开对于第三样本音频的来源以及获取方式不作限定。

具体地，将第三样本音频对应的第四声学特征输入至中间模型，获取中间模型输出的第三样本音频对应的预测梅尔频谱特征；再基于第三样本音频对应的第二标注梅尔频谱特征以及第三样本音频对应的预测梅尔频谱特征，计算本轮训练对应的损失函数信息；根据损失函数信息，对中间模型包括的参数的系数值进行调整，从而获得最终的音色子模型102。

在第二阶段的训练过程中，第三样本音频对应的第二标注梅尔频谱特征可以理解为中间模型的学习目标。

结合前述关于韵律子模型101的介绍，在训练过程中，若韵律子模型101根据输入的第一样本音频的标注文本，输出的第五声学特征包括预测瓶颈特征，即韵律子模型101能够实现文本到瓶颈特征的映射，则输入音色子模型102的第二样本音频对应的第三声学特征包括第二样本音频对应的第二标注瓶颈特征，且输入中间模型的第三样本音频对应的第四声学特征包括第三样本音频对应的第三标注瓶颈特征。

其中，第二标注瓶颈特征和第三标注瓶颈特征可以通过ASR模型的编码器分别对第二样本音频和第三样本音频进行瓶颈特征提取获得，与获取第一标注瓶颈特征的实现方式类似，简明起见，此处不再赘述。

在训练过程中，若韵律子模型101根据输入的第一样本音频的标注文本，输出的第五声学特征包括预测瓶颈特征和预测基频特征，即韵律子模型101能够实现文本到瓶颈特征和基频特征的映射，则输入音色子模型102的第二样本音频对应的第三声学特征包括第二样本音频对应的第二标注瓶颈特征和第二标注基频特征，且输入中间模型的第三样本音频对应的第四声学特征包括第三样本音频对应的第三标注瓶颈特征和第三标注基频特征。

其中，第二标注瓶颈特征和第三标注瓶颈特征可以通过ASR模型的编码器分别对第二样本音频和第三样本音频进行瓶颈特征提取获得，与获取第一标注瓶颈特征的实现方式类似；第二标注基频特征和第三标注基频特征可以通过数字信号处理技术，分别对第二样本音频和第三样本音频进行分析获得，与获取第一标注基频特征的实现方式类似，简明起见，此处不再赘述。

综上，在训练过程中，音色子模型102的输入和韵律子模型101的输出保持一致。

此外，在对音色子模型102进行训练时，音色子模型102包括的各参数对应的系数的初始值可以是预先设定的，也可以是随机初始化的，本公开对此不作限定。

且在第一阶段的训练过程中和第二阶段的训练过程中，分别采用的音色子模型对应的损失函数可以相同，也可以不同，本公开对此不作限定。

其中，图1c示例性地示出了音色子模型102的一种实现方式。参照图1c所示，音色子模型102可以采用自注意力(self-attention)的网络结构实现。

图1c中，音色子模型102包括：卷积网络1021、一个或者多个残差网络1022。其中，每个残差网络1022包括：自注意力网络1022a以及线性网络1022b。

卷积网络1021，主要用于对输入的样本音频对应的声学特征进行卷积处理，建模局部特征信息。其中，卷积网络1021可以包括一个或者多个卷积层，本公开对于卷积网络层1021包括的卷积层的数量不做限制。且卷积网络1021将局部特征信息输入至相连接的残差网络1022。

上述一个或多个残差网络1022，对在经过上述一个或者多个残差网络1022之后，转换为频谱特征(如梅尔频谱特征)。

应理解，中间模型与图1c所示的音色子模型102的结构相同，区别在于包括的参数的权重系数不完全相同。

通过前述对韵律子模型101和音色子模型102分别进行训练，最终获得满足语音合成要求的第一特征提取模型和第二特征提取模型；再将最终获得的第一特征提取模型和第二特征提取模型进行拼接，即获得能够合成目标音色的语音合成模型。

一些可能的实施方式中，语音合成模型100还可以包括：声码器(vocoder)103。声码器103用于将音色子模型102输出的频谱特征(如梅尔频谱特征)转换为音频。当然，声码器也可以作为独立的模块，不与语音合成模型绑定在一起。且本方案对于声码器的具体类型不做限制。

在上述图1a至图1c所示实施例的基础上，通过训练最终获得的目标语音合成模型具有稳定合成目标音色的音频的能力，基于此，可使用目标语音合成模型处理相应的语音合成业务。

图2为本公开一实施例提供的语音合成方法的流程图。参照图2所示，本实施例提供的语音合成方法包括：

S201、获取待处理文本。

其中，待处理文本可以包括一个或多个字符，或者，待处理文本也可以包括一个或多个音素。待处理文本用于合成具有目标说唱风格以及目标音色的音频。

本公开对于电子设备获取待处理文本的方式不做限定。

例如，电子设备可以通过向用户展示文本输入窗口以及软键盘，用户通过操作电子设备上显示的软键盘，向文本输入窗口输入待处理文本；或者，用户也可以通过复制粘贴的方式向文本输入窗口输入待处理文本；或者，用户还可以通过语音的方式向电子设备输入一段音频，电子设备通过对用户输入的音频进行语音识别，获取待处理文本；或者，也可以通过向电子设备导入待处理文本对应的文件，使得电子设备获取待处理文本。

用户可以但不限于通过上述示例的方式，向电子设备输入待处理文本，对于用户来说，操作简单便捷，能够提升用户创作多媒体内容的积极性。

S202、将所述待处理文本输入至语音合成模型，获取所述语音合成模型输出的所述待处理文本对应的频谱特征。

一些实施例中，将待处理文本输入至语音合成模型中，韵律子模型通过对待处理文本进行特征提取，输出待处理文本对应的第一声学特征，第一声学特征包括待处理文本对应的瓶颈特征，其中，第一声学特征包括的瓶颈特征用于表征目标说唱风格；音色子模型接收待处理文本对应的第一声学特征作为输入，输出待处理文本对应的频谱特征。

另一些实施例中，将待处理文本输入至语音合成模型中，韵律子模型通过对待处理文本进行特征提取，输出待处理文本对应的第一声学特征，第一声学特征包括待处理文本对应的瓶颈特征和待处理文本对应的基频特征，其中，第一声学特征包括的瓶颈特征用于表征目标说唱风格，第一声学特征包括的基频特征用于表征音调；音色子模型接收待处理文本对应的第一声学特征作为输入，输出待处理文本对应的频谱特征(如梅尔频谱特征)。

其中，语音合成模型可以是通过图1a至图1c所示实施例的实现方式获得，其中，语音合成模型的网络结构以及训练语音合成模型的实现方式，可参照前述图1a至图1c所示实施例的详细描述，简明起见，此处不再赘述。

结合前述图1a以及1b所示实施例，韵律子模型包括的文本编码网络可以接收待处理文本作为输入，通过对待处理文本的上下文以及时序关系进行分析，建模中间特征序列；再根据韵律子模型包括的注意力网络输出的注意力系数，将注意力系数与中间特征序列进行加权平均，获得加权平均结果；韵律子模型包括的解码网络通过对输入加权平均结果以及上一个时间步的输出进行特征转换，输出待处理文本对应的第一声学特征，第一声学特征可以包括待处理文本对应的瓶颈特征，或者，第一声学特征可以包括待处理文本对应的瓶颈特征和待处理文本对应的基频特征。

结合前述图1a以及1c所示实施例，音色子模型包括的卷积网络接收待处理文本对应的第一声学特征作为输入，对待处理文本对应的第一声学特征进行卷积处理，建模局部特征信息；卷积网络将局部特征信息输入至相连接的残差网络，在经过一个或者多个残差网络之后，输出待处理文本对应的频谱特征(如梅尔频谱特征)。

S203、根据待处理文本对应的频谱特征，获取待处理文本对应的目标音频，目标音频具有目标音色以及目标说唱风格。

一种可能的实施方式，电子设备可基于声码器，对待处理文本对应的频谱特征进行数字信号处理，从而将待处理文本对应的频谱特征(如待处理文本对应的梅尔频谱特征)转换为具有目标音色以及目标说唱风格的音频，即目标音频。

需要说明的是，声码器可以作为语音合成模型的一部分，则语音合成模型可以直接输出具有目标音色以及目标说唱风格的音频；另一些情况下，声码器可以作为语音合成模型之外的独立模块，声码器可以接收待处理文本对应的频谱特征作为输入，将待处理文本对应的频谱特征转换为具有目标音色以及目标说唱风格的音频。

本实施例提供的语音合成方法，基于语音合成模型对待处理文本进行分析，输出待处理文本对应的频谱特征，其中，语音合成模型包括韵律子模型和音色子模型，韵律子模型用于接收待处理文本作为输入，输出待处理文本对应的第一声学特征，其中，第一声学特征包括用于表征目标说唱风格的瓶颈特征；音色子模型接收第一声学特征作为输入，输出待处理文本对应的频谱特征，频谱特征包括目标音色的信息；通过对语音合成模型输出的频谱特征进行转换，能够获得具有目标说唱风格以及目标音色的说唱音频，满足了用户对于音频的个性化需求；且语音合成模型支持对任意待处理文本的转换，降低了对用户的音乐创作能力的要求，有利于提升用户创作多媒体内容的积极性。

图3为本公开另一实施例提供的语音合成方法的流程示意图。参照图3所示，本实施例提供的语音合成方法在图2所示实施例的基础上，步骤S203、根据待处理文本对应的频谱特征，获取待处理文本对应的目标音频之后，还可以包括：

S204、将所述待处理文本对应的目标音频添加至目标多媒体内容。

本公开对于将目标音频添加至目标多媒体内容的实现方式不做限定。例如，电子设备将目标音频添加至目标多媒体内容时，可以结合目标多媒体内容的时长以及目标音频的时长，将目标音频的播放速度加快或者减慢；还可以在目标多媒体内容的播放界面添加目标音频对应的字幕，当然，也可以不添加目标音频对应的字幕；若在目标多媒体内容的播放界面添加目标音频对应的字幕，还可以设置字幕的颜色、字号大小、字体等等显示参数。

本实施例提供的方法，基于语音合成模型对待处理文本进行分析，输出待处理文本对应的频谱特征，其中，语音合成模型包括韵律子模型和音色子模型，韵律子模型用于接收待处理文本作为输入，输出待处理文本对应的第一声学特征，其中，第一声学特征包括用于表征目标说唱风格的瓶颈特征；音色子模型接收第一声学特征作为输入，输出待处理文本对应的频谱特征，频谱特征包括用于表征目标音色的频谱特征；通过对语音合成模型输出的频谱特征进行转换，能够获得具有目标说唱风格以及目标音色的音频，满足了用户对于音频的个性化需求；且语音合成模型支持对任意待处理文本的转换，降低了对用户的音乐创作能力的要求，有利于提升用户创作多媒体内容的积极性。

此外，将目标音频添加至目标多媒体内容，使得目标多媒体内容的趣味性更强，从而满足用户创作创意视频的需求。

示例性地，本公开还提供一种语音合成装置。

图4为本公开一实施例提供的语音合成装置的结构示意图。参照图4所示，本实施例提供的语音合成装置400包括：

获取模块401，用于获取待处理文本。

处理模块402，用于将待处理文本输入至语音合成模型，获取所述语音合成模型输出的所述待处理文本对应的频谱特征；其中，所述语音合成模型包括：韵律子模型和音色子模型，所述韵律子模型用于根据输入的待处理文本，输出所述待处理文本对应的第一声学特征，所述第一声学特征包括用于表征目标说唱风格的瓶颈特征；所述音色子模型用于根据输入的第一声学特征，输入所述待处理文本对应的频谱特征，所述待处理文本对应的频谱特征包括用于表征目标音色的频谱特征。

处理模块402，还用于根据所述待处理文本对应的频谱特征，获取所述待处理文本对应的目标音频，所述目标音频具有所述目标音色以及所述目标说唱风格。

在一些可能的实施方式中，韵律子模型是根据第一样本音频对应的标注文本以及所述第一样本音频对应的第二声学特征，进行训练获得的；

在一些可能的实施方式中，处理模块402，还用于将待处理文本对应的目标音频添加至目标多媒体内容。

本实施例提供的语音合成装置，可以用于执行上述任一方法实施例的技术方式，其实现原理以及技术效果类似，可参照前述方法实施例的详细描述，简明起见，此处不再赘述。

示例性地，本公开还提供一种电子设备。

图5为本公开一实施例提供的电子设备的结构示意图。参照图5所示，本实施例提供的电子设备包括：存储器501和处理器502。

其中，存储器501可以是独立的物理单元，与处理器502可以通过总线503连接。存储器501、处理器502也可以集成在一起，通过硬件实现等。

存储器501用于存储程序指令，处理器502调用该程序指令，执行以上任一方法实施例的操作。

可选地，当上述实施例的方法中的部分或全部通过软件实现时，上述电子设备500也可以只包括处理器502。用于存储程序的存储器501位于电子设备500之外，处理器502通过电路/电线与存储器连接，用于读取并执行存储器中存储的程序。

处理器502可以是中央处理器(central processing unit，CPU)，网络处理器(network processor，NP)或者CPU和NP的组合。

处理器502还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路(application-specific integrated circuit，ASIC)，可编程逻辑器件(programmablelogic device，PLD)或其组合。上述PLD可以是复杂可编程逻辑器件(complexprogrammable logic device，CPLD)，现场可编程逻辑门阵列(field-programmable gatearray，FPGA)，通用阵列逻辑(generic array logic，GAL)或其任意组合。

存储器501可以包括易失性存储器(volatile memory)，例如随机存取存储器(random-access memory，RAM)；存储器也可以包括非易失性存储器(non-volatilememory)，例如快闪存储器(flash memory)，硬盘(hard disk drive，HDD)或固态硬盘(solid-state drive，SSD)；存储器还可以包括上述种类的存储器的组合。

本公开还提供一种可读存储介质，包括：计算机程序指令；计算机程序指令被电子设备的至少一个处理器执行时，实现上述任一方法实施例所示的语音合成方法。

本公开还提供一种程序产品，所述程序产品包括计算机程序，所述计算机程序存储在可读存储介质中，所述电子设备的至少一个处理器可以从所述可读存储介质中读取所述计算机程序，所述至少一个处理器执行所述计算机程序使得所述电子设备实现如上述任一方法实施例所示的语音合成方法。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅是本公开的具体实施方式，使本领域技术人员能够理解或实现本公开。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下，在其它实施例中实现。因此，本公开将不会被限制于本文所述的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种语音合成方法，其特征在于，包括：

获取待处理文本；

2.根据权利要求1所述的方法，其特征在于，所述韵律子模型是根据第一样本音频对应的标注文本以及所述第一样本音频对应的第二声学特征，进行训练获得的；

3.根据权利要求2所述的方法，其特征在于，所述音色子模型是根据第二样本音频对应的第三声学特征、第二样本音频对应的第一标注频谱特征、第三样本音频对应的第四声学特征以及第三样本音频对应的第二标注频谱特征进行训练获得的；

4.根据权利要求3所述的方法，其特征在于，所述第一样本音频对应的第一标注瓶颈特征、所述第二样本音频对应的第二标注瓶颈特征以及所述第三样本音频对应的第三标注瓶颈特征是通过端到端语音识别模型的编码器分别对输入的所述第一样本音频、所述第二样本音频和所述第三样本音频进行瓶颈特征提取获得的。

5.根据权利要求3所述的方法，其特征在于，所述第二声学特征还包括：所述第一样本音频对应的第一标注基频特征；

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

将所述待处理文本对应的目标音频添加至目标多媒体内容。

7.一种语音合成装置，其特征在于，包括：

获取模块，用于获取待处理文本；

处理模块，用于将所述待处理文本输入至语音合成模型，获取所述语音合成模型输出的所述待处理文本对应的频谱特征；其中，所述语音合成模型包括：韵律子模型和音色子模型，所述韵律子模型用于根据输入的待处理文本，输出所述待处理文本对应的第一声学特征，所述第一声学特征包括用于表征目标说唱风格的瓶颈特征，所述第一声学特征包括所述待处理文本对应的瓶颈特征；所述音色子模型用于根据输入的第一声学特征，输出所述待处理文本对应的频谱特征，所述待处理文本对应的频谱特征包括用于表征目标音色的频谱特征；

8.一种电子设备，其特征在于，包括：存储器、处理器以及计算机程序；

所述存储器被配置为存储所述计算机程序；

所述处理器被配置为执行所述计算机程序，实现如权利要求1至6任一项所述语音合成方法。

9.一种可读存储介质，其特征在于，包括：计算机程序指令；

所述计算机程序指令被电子设备的至少一个处理器执行时，实现如权利要求1至6任一项所述的语音合成方法。

10.一种程序产品，其特征在于，包括：计算机程序指令；

所述计算机程序指存储于可读存储介质中，电子设备的至少一个处理器从所述可读存储介质中读取所述计算机程序指令，所述至少一个处理器执行所述计算机程序指令，以实现如权利要求1至6任一项所述的语音合成方法。