CN113053357A

CN113053357A - 语音合成方法、装置、设备和计算机可读存储介质

Info

Publication number: CN113053357A
Application number: CN202110130432.4A
Authority: CN
Inventors: 张海桐; 林悦
Original assignee: Netease Hangzhou Network Co Ltd
Current assignee: Netease Hangzhou Network Co Ltd
Priority date: 2021-01-29
Filing date: 2021-01-29
Publication date: 2021-06-29
Anticipated expiration: 2041-01-29
Also published as: CN113053357B

Abstract

本申请涉及语音处理领域，提供了语音合成方法、装置、设备和计算机可读存储介质，以较低的成本和较高的效率，将文本转换为可播音的语音。所述方法包括：将目标文本转换为对应的目标音素序列；采用已训练端到端语音合成模型提取目标音素序列的目标声学特征，其中，已训练端到端语音合成模型为采用无标注语音数据对端到端语音合成模型训练得到；将目标声学特征转换成语音波形后输出。本申请的技术方案极大地降低了对有标注语音数据的依赖，采用已训练端到端语音合成模型提取目标音素序列的目标声学特征，将目标声学特征转换成语音波形后输出，成本也一样低廉并且效率高。

Description

语音合成方法、装置、设备和计算机可读存储介质

技术领域

本发明涉及语音处理领域，特别涉及一种语音合成方法、装置、设备和计算机可读存储介质。

背景技术

近年来，随着深度学习领域的飞速发展，文本转语音(TTS，Text To Speech) 技术也取得了显著的进展。编码器和解码器的端到端TTS模型目前已经能够合成较为自然的语音。然而，这种端到端TTS模型的训练成本却非常高。一般而言，训练这种端到端的TTS模型需要十几或者二十个小时的有标注语音才能达到自然的效果，而录制这些标注的语音既昂贵又繁杂。

为了解决TTS模型的训练对数据的严重依赖，现有的一种语音合成方法是说话人自适应(SA)技术。所谓SA，是指通过用少量的新说话人的数据对多说话人的基础模型进行微调，以达到能够用新说话人声音合成的目的的一项技术。虽然SA技术能够通过少量的新说话人数据快速建模，最后用新说话人声音合成不错的语音，自然度和相似度都达到可用程度。然而，SA技术建立在多说话人的基础模型之上，换言之，若缺乏足够的多说话人的标注数据，则仍然无法使用SA技术。

综上所述，现有的语音合成方法都是基于大量标注数据，尤其是低资源语种的TTS，更加依赖大量标注数据。

发明内容

本申请提供一种语音合成方法、装置、设备和计算机可读存储介质，以较低的成本和较高的效率，将文本转换为可播音的语音。

一方面，本申请提供了一种语音合成方法，包括：

将目标文本转换为对应的目标音素序列；

采用已训练端到端语音合成模型提取所述目标音素序列的目标声学特征，所述已训练端到端语音合成模型为采用无标注语音数据对端到端语音合成模型训练得到；

将所述目标声学特征转换成语音波形后输出。

可选地，所述采用已训练端到端语音合成模型提取所述目标音素序列的目标声学特征，包括：编码所述目标音素序列，将所述目标音素序列映射为所述目标文本的高维文本特征序列；对所述目标文本的高维文本特征序列进行声学解码，预测所述目标音素序列的目标声学特征。

可选地，所述对所述目标文本的高维文本特征序列进行声学解码，预测所述目标音素序列的目标声学特征之前，所述方法还包括：获取语音特征序列；将所述目标文本的高维文本特征序列与所述语音特征序列对齐，得到所述目标文本的对齐高维文本特征序列。

可选地，在将所述目标文本的高维文本特征序列与所述语音特征序列对齐时，加入目标说话人向量来控制目标说话人的音色。

可选地，所述将目标文本转换为对应的目标音素序列，包括：根据所述目标文本的正则特征对所述目标文本进行语音初步处理，提取所述目标文本的辅助性特征；采用所述目标文本的辅助性特征对所述目标文本的正则特征进行前端解码，得到具备语音播放标准的目标音素序列。

可选地，所述根据所述目标文本的正则特征对所述目标文本进行语音初步处理，提取所述目标文本的辅助性特征，包括：将所述目标文本的正则特征输入预先构建的语音初步处理模块中，对所述目标文本进行文字分割和词性标注；所述采用所述目标文本的辅助性特征对所述目标文本的正则特征进行前端解码，得到具备语音播放标准的目标音素序列，包括：将所述目标文本的正则特征和所述目标文本的辅助性特征同时输入预先构建的文本解码模块中，得到具备语音播放标准的目标音素序列。

可选地，所述方法还包括：采用无标注语音数据和有标注语音数据对所述端到端语音合成模型进行训练，得到所述已训练端到端语音合成模型。

可选地，所述采用无标注语音数据和有标注语音数据对所述端到端语音合成模型进行训练，得到所述已训练端到端语音合成模型，包括：采用所述无标注语音数据对量子化向量-变分自编码器VQ-VAE模型进行训练，提取无监督语言单元；将所述无监督语言单元和所述有标注语音数据输入所述端到端语音合成模型进行训练，得到所述已训练端到端语音合成模型。

另一方面，本申请提供了一种语音合成装置，包括：

文转音模块，用于将目标文本转换为对应的目标音素序列；

声学特征提取模块，用于采用已训练端到端语音合成模型提取所述目标音素序列的目标声学特征，所述已训练端到端语音合成模型为采用无标注语音数据对端到端语音合成模型训练得到；

语音生成模块，用于将所述目标声学特征转换成语音波形后输出。

第三方面，本申请提供了一种计算机设备，所述计算机设备包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器通过调用所述存储器中存储的所述计算机程序，执行如上任一实施例所述的语音合成方法中的步骤。

第四方面，本申请提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序适于处理器进行加载，以执行如上任一实施例所述的语音合成方法中的步骤。

从上述本申请提供的技术方案可知，由于已训练端到端语音合成模型为采用无标注语音数据对端到端语音合成模型训练得到，而无标注语音数据供应巨大，获取成本非常低，极大地降低了对有标注语音数据的依赖，因此，采用无标注语音数据对端到端语音合成模型进行训练的成本低、效率高，从而采用已训练端到端语音合成模型提取目标音素序列的目标声学特征，将目标声学特征转换成语音波形后输出，成本也一样低廉并且效率高。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的语音合成方法的流程图；

图2是本申请实施例提供的语音合成装置的结构示意图；

图3是本申请另一实施例提供的语音合成装置的结构示意图；

图4是本申请实施例提供的设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在本说明书中，诸如第一和第二这样的形容词仅可以用于将一个元素或动作与另一元素或动作进行区分，而不必要求或暗示任何实际的这种关系或顺序。在环境允许的情况下，参照元素或部件或步骤(等)不应解释为局限于仅元素、部件、或步骤中的一个，而可以是元素、部件、或步骤中的一个或多个等。

在本说明书中，为了便于描述，附图中所示的各个部分的尺寸并不是按照实际的比例关系绘制的。

本申请提出了一种语音合成方法，如附图1所示，主要包括步骤S101至 S103，详述如下：

步骤S101：将目标文本转换为对应的目标音素序列。

在本申请实施例中，目标文本是指待转换或合成为语音后播放的一段文本信息。作为本申请一个实施例，将目标文本转换为对应的目标音素序列可通过步骤S1011和步骤S1012实现，说明如下：

步骤S1011：根据目标文本的正则特征对目标文本进行语音初步处理，提取目标文本的辅助性特征。

如前所述，目标文本是指待转换或合成为语音后播放的一段文本信息，其可能是人机交互时设备针对用户发起的输入语音进行回复时，自身产生的或者外部输入的需要转换为语音形式播放给该用户的文字内容；同时，由于目标文本中可能存在某类形式复杂且难以归纳的无法实现语音合成的字母、符号或者公式等特异字符串，因此，为了保证目标文本中文字信息的准确转换，本申请实施例在将目标文本转换为对应的目标音素序列时，可以预先对该目标文本中的文字信息进行正则化处理，以得到该目标文本的正则特征，后续使用该正则特征能够将目标文本中的各类特异字符串转换为相应含义的字符串。为了避免现有流式文本语音的前端转换时导致的误差累积，在本申请实施例中，可以根据所述目标文本的正则特征对目标文本进行语音初步处理，这种语音初步处理可以是指对待转换文本直接转换为因素序列，而实现端到端的前端文本处理时能够提供一定的帮助和参考的文本语音操作，例如能够预测目标文本中的真实文字分割结果和真实词性标注信息等的文本特征兼并和提取操作，进而通过语音初步处理操作提取出目标文本中的辅助性特征(辅助性特征，例如可以是目标文本的分词结果和各分词的词性信息等)，以便后续辅助目标文本的正则特征进行前端解码，实现文本到具备语音播放标准的目标音素序列之间端到端的转换。

至于根据目标文本的正则特征对目标文本进行语音初步处理，提取目标文本的辅助性特征可以是：将目标文本的正则特征输入预先构建的语音初步处理模块中，对目标文本进行文字分割和词性标注。在本申请实施例，可以预先采用大量历史文本的正则特征作为训练样本对语音初步处理模块进行语音辅助处理的训练，从而该语音初步处理模块能够根据该目标文本的正则特征对目标文本进行准确的文字分割和词性标注操作，输出对应的辅助性特征，例如，目标文本的分词结果和各分词的词性信息，等等。

步骤S1012：采用目标文本的辅助性特征对目标文本的正则特征进行前端解码，得到具备语音播放标准的目标音素序列。

具体地，采用目标文本的辅助性特征对目标文本的正则特征进行前端解码，得到具备语音播放标准的目标音素序列可以是：将目标文本的正则特征和目标文本的辅助性特征同时输入预先构建的文本解码模块中，得到具备语音播放标准的目标音素序列。与前述的语音初步处理模块类似，在本申请实施例中，也会预先将大量历史文本的正则特征和历史辅助性特征作为训练样本对文本解码模块进行前端解码的训练，从而该文本解码模块能够根据目标文本的辅助性特征对目标文本的正则特征进行准确的前端解码，准确预测得到解码后音素序列的声调和韵律信息，进而得到具备语音播放标准的目标音素序列，以便后续进行高质量的语音播放。上述本申请实施例中，具备语音播放标准的目标音素序列是指这些目标因素序列带有韵律信息，即在语音中的节奏、强度、语调等信息，目标因素序列带有韵律信息，可以使合成的语音自然度更佳。

步骤S102：采用已训练端到端语音合成模型提取目标音素序列的目标声学特征，其中，已训练端到端语音合成模型为采用无标注语音数据对端到端语音合成模型训练得到。

作为本申请一个实施例，采用已训练端到端语音合成模型提取目标音素序列的目标声学特征可以通过步骤S1021和步骤S1022实现，说明如下：

步骤S1021：编码经步骤S101转换所得的目标音素序列，将目标音素序列映射为目标文本的高维文本特征序列。

相对于经步骤S101转换所得的目标音素序列，目标文本的高维文本特征是目标文本更抽象、更本质的特征，因此，为了后续声学解码器能够更加精确地解码，本申请实施例中，可以将经步骤S101转换所得的目标音素序列，将目标音素序列映射为目标文本的高维文本特征。

步骤S1022：对目标文本的高维文本特征序列进行声学解码，预测目标音素序列的目标声学特征。

在本申请实施例中，对目标文本的高维文本特征序列进行声学解码，预测目标音素序列的目标声学特征，具体可以采用声学解码器对目标文本的高维文本特征序列进行声学解码，预测目标音素序列的目标声学特征。考虑到对于一个文本，其文本特征序列要比其语音特征序列短很多，例如，对于“我向往的大草原”这个文本，其提取到的文本特征序列可能是5个序列，而其提取到的语音特征序列则可能多达30个、甚至更多序列，那么在匹配时，需要将一个文本特征序列对应到6个语音特征序列。基于这个事实，可以在对目标文本的高维文本特征序列进行声学解码，预测目标音素序列的目标声学特征之前，获取语音特征序列，将目标文本的高维文本特征序列与语音特征序列对齐，得到目标文本的对齐高维文本特征序列。此处的对齐，是指计算出目标文本的高维文本特征序列中任意一个向量与语音特征序列中任意一个向量的相似度，若目标文本的高维文本特征序列中某个向量Vi与语音特征序列中某个向量Vj的相似度Sij，相对于目标文本的高维文本特征序列中其他任意一个向量与语音特征序列中其他任意向量的相似度Spq，Sij大于Spq，则认为目标文本的高维文本特征序列中该向量Vi与语音特征序列中该向量Vj“对齐”。在得到目标文本的对齐高维文本特征序列后，声学解码器可以以目标文本的对齐高维文本特征序列为对象进行声学解码，从而预测目标音素序列的目标声学特征。

需要说明的是，在上述实施例中，语音特征序列在端到端语音合成模型的训练阶段，指的是与目标文本的高维文本特征序列相应的语音特征序列，而在语音合成阶段(即使用已训练端到端语音合成模型合成语音阶段)，则是由声学解码器根据目标文本的高维文本特征序列生成语音特征序列。

为了让已训练端到端语音合成模型能够识别多人说话(例如，在人多或很多人一起聊天的场景下)，在本申请实施例中，在将目标文本的高维文本特征序列与语音特征序列对齐时，加入目标说话人向量来控制目标说话人的音色。所谓目标说话人向量，是指对于同样一句话，能够将其区别开来的特征，此处的同样一句话，既可以指同一个人说的同样的一句话，又可以指不同的人说的同样的一句话。

上述本申请实施例中，步骤S102的实现依赖于对端到端语音合成模型的良好训练，换言之，需要将端到端语音合成模型训练成可以使用的模型。以下说明采用无标注语音数据对端到端语音合成模型进行训练，得到已训练端到端语音合成模型的过程，包括步骤S1和步骤S2：

步骤S1：采用无标注语音数据对量子化向量-变分自编码器(Vector Quantized-Variational Auto Encoder，VQ-VAE)模型进行训练，提取无监督语言单元。

在本申请实施例中，无监督语言单元是指理想状态下只包含语音内容信息而不包含说话人信息的单元，即，无监督语言单元相当于无监督的音素序列。可以低成本地获取海量的无标注语音数据作为训练样本，对VQ-VAE模型进行训练。当VQ-VAE模型训练好之后，只要将音频数据(波形)输入，就能提取到该音频数据相应的无监督语言单元。

步骤S2：将无监督语言单元和有标注语音数据输入端到端语音合成模型进行训练，得到已训练端到端语音合成模型。

在本申请实施例中，将无监督语言单元和有标注语音数据输入端到端语音合成模型进行训练，主要包含预训练和微调训练，即，首先使用海量的无监督语言单元对端到端语音合成模型进行初步训练，然后，再使用有限或少量的有标注语音数据输入这些经初步训练的端到端语音合成模型，对端到端语音合成模型的参数进行微调，最后得到已训练端到端语音合成模型。此处，相对于海量或无限量的无标注语音数据，本申请实施例中的“有限或少量”的有标注语音数据，其数量几乎可以忽略不计，在获取成本上亦可以忽略不计。

需要说明的是，在对端到端语音合成模型训练的过程，很多环节与前述实施例中使用已训练端到端语音合成模型进行语音合成类似，例如，也有将目标音素序列映射为目标文本的高维文本特征序列、将目标文本的高维文本特征序列与语音特征序列对齐以及在将目标文本的高维文本特征序列与语音特征序列对齐时，加入目标说话人向量来控制目标说话人的音色等方案，所不同的是，在对端到端语音合成模型训练的阶段，使用的是无监督语言单元对应的无监督语言音素序列。

步骤S103：将目标声学特征转换成语音波形后输出。

在本申请实施例中，将目标声学特征转换成语音波形后输出具体可以是采用Griffin-Lin声码器，将经步骤S103得到的目标声学特征转换成语音波形后输出即播放目标文本对应的语音。

从上述附图1示例的语音合成方法可知，由于已训练端到端语音合成模型为采用无标注语音数据对端到端语音合成模型训练得到，而无标注语音数据供应巨大(可以认为是无限多)，获取成本非常低，极大地降低了对有标注语音数据的依赖，因此，采用无标注语音数据和有标注语音数据对端到端语音合成模型进行训练的成本低、效率高，从而采用已训练端到端语音合成模型提取目标音素序列的目标声学特征，将目标声学特征转换成语音波形后输出，成本也一样低廉并且效率高。

请参阅附图2，是本申请实施例提供的一种语音合成装置，该装置可以包括文转音模块201、声学特征提取模块202和语音生成模块203，详述如下：

文转音模块201，用于将目标文本转换为对应的目标音素序列；

声学特征提取模块202，用于采用已训练端到端语音合成模型提取目标音素序列的目标声学特征，其中，已训练端到端语音合成模型为采用无标注语音数据对端到端语音合成模型训练得到；

语音生成模块203，用于将目标声学特征转换成语音波形后输出。

可选地，上述附图2示例的装置中，声学特征提取模块202可以包括编码单元和声学解码单元，其中：

编码单元，用于编码文转音模块201转换所得目标音素序列，将目标音素序列映射为目标文本的高维文本特征序列；

声学解码单元，用于对目标文本的高维文本特征序列进行声学解码，预测目标音素序列的目标声学特征。

可选地，上述附图2示例的装置还可以包括语音特征序列获取模块和序列对齐模块，其中：

语音特征序列获取模块，用于声学解码单元对目标文本的高维文本特征序列进行声学解码，预测目标音素序列的目标声学特征之前，获取语音特征序列；

序列对齐模块，用于将目标文本的高维文本特征序列与语音特征序列对齐，得到目标文本的对齐高维文本特征序列。

可选地，上述附图2示例的装置还可以包括向量附加模块，用于序列对齐模块在将目标文本的高维文本特征序列与语音特征序列对齐时，加入目标说话人向量来控制目标说话人的音色。

可选地，上述附图2示例的装置文转音模块201可以包括初步处理单元和前端解码单元，其中：

初步处理单元，用于根据目标文本的正则特征对目标文本进行语音初步处理，提取目标文本的辅助性特征；

前端解码单元，用于采用目标文本的辅助性特征对目标文本的正则特征进行前端解码，得到具备语音播放标准的目标音素序列。

可选地，上述初步处理单元具体用于将目标文本的正则特征输入预先构建的语音初步处理模块中，对目标文本进行文字分割和词性标注，上述前端解码单元用于将目标文本的正则特征和目标文本的辅助性特征同时输入预先构建的文本解码模块中，得到具备语音播放标准的目标音素序列。

可选地，上述附图2示例的装置还可以包括训练模块301，如图3所示本申请另一实施例提供的语音合成装置，训练模块301用于采用无标注语音数据对端到端语音合成模型进行训练，得到已训练端到端语音合成模型。

可选地，上述附图3示例的训练模块301可以包括预训练单元和微调单元，其中：

预训练单元，用于采用无标注语音数据对量子化向量-变分自编码器 VQ-VAE模型进行训练，提取无监督语言单元；

微调单元，将无监督语言单元和有标注语音数据输入端到端语音合成模型进行训练，得到已训练端到端语音合成模型。

从以上技术方案的描述中可以看出，由于已训练端到端语音合成模型为采用无标注语音数据对端到端语音合成模型训练得到，而无标注语音数据供应巨大(可以认为是无限多)，获取成本非常低，极大地降低了对有标注语音数据的依赖，因此，采用无标注语音数据和有标注语音数据对端到端语音合成模型进行训练的成本低、效率高，从而采用已训练端到端语音合成模型提取目标音素序列的目标声学特征，将目标声学特征转换成语音波形后输出，成本也一样低廉并且效率高。

图4是本申请一实施例提供的计算机设备的结构示意图。如图4所示，该实施例的计算机设备4主要包括：处理器40、存储器41以及存储在存储器41 中并可在处理器40上运行的计算机程序42，例如语音合成方法的程序。处理器40执行计算机程序42时实现上述语音合成方法实施例中的步骤，例如图1 所示的步骤S101至S103。或者，处理器40执行计算机程序42时实现上述各装置实施例中各模块/单元的功能，例如图2所示文转音模块201、声学特征提取模块202和语音生成模块203的功能。

示例性地，语音合成方法的计算机程序42主要包括：将目标文本转换为对应的目标音素序列；采用已训练端到端语音合成模型提取目标音素序列的目标声学特征，其中，已训练端到端语音合成模型为采用无标注语音数据对端到端语音合成模型训练得到；将目标声学特征转换成语音波形后输出。计算机程序 42可以被分割成一个或多个模块/单元，一个或者多个模块/单元被存储在存储器41中，并由处理器40执行，以完成本申请。一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述计算机程序42 在计算机设备4中的执行过程。例如，计算机程序42可以被分割成文转音模块201、声学特征提取模块202和语音生成模块203(虚拟装置中的模块)的功能，各模块具体功能如下：文转音模块201，用于将目标文本转换为对应的目标音素序列；声学特征提取模块202，用于采用已训练端到端语音合成模型提取目标音素序列的目标声学特征，其中，已训练端到端语音合成模型为采用无标注语音数据对端到端语音合成模型训练得到；语音生成模块203，用于将目标声学特征转换成语音波形后输出。

计算机设备4可包括但不仅限于处理器40、存储器41。本领域技术人员可以理解，图4仅仅是计算机设备4的示例，并不构成对计算机设备4的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如计算计算机设备还可以包括输入输出计算机设备、网络接入计算机设备、总线等。

所称处理器40可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器41可以是计算机设备4的内部存储单元，例如计算机设备4的硬盘或内存。存储器41也可以是计算机设备4的外部存储计算机设备，例如计算机设备4上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。进一步地，存储器41 还可以既包括计算机设备4的内部存储单元也包括外部存储计算机设备。存储器41用于存储计算机程序以及计算机设备所需的其他程序和数据。存储器41 还可以用于暂时地存储已经输出或者将要输出的数据。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即，将装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述装置中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在本申请所提供的实施例中，应该理解到，所揭露的装置/计算机设备和方法，可以通过其它的方式实现。例如，以上所描述的装置/计算机设备实施例仅仅是示意性的，例如，模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个装置，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个非临时性计算机可读取存储介质中。基于这样的理解，本申请实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，语音合成方法的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤，即，将目标文本转换为对应的目标音素序列；采用已训练端到端语音合成模型提取目标音素序列的目标声学特征，其中，已训练端到端语音合成模型为采用无标注语音数据对端到端语音合成模型训练得到；将目标声学特征转换成语音波形后输出。其中，计算机程序包括计算机程序代码，计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。非临时性计算机可读介质可以包括：能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读内存(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，非临时性计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，非临时性计算机可读介质不包括电载波信号和电信信号。以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

以上所述的具体实施方式，对本申请的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本申请的具体实施方式而已，并不用于限定本申请的保护范围，凡在本申请的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种语音合成方法，其特征在于，所述方法包括：

将目标文本转换为对应的目标音素序列；

将所述目标声学特征转换成语音波形后输出。

2.如权利要求1所述语音合成方法，其特征在于，所述采用已训练端到端语音合成模型提取所述目标音素序列的目标声学特征，包括：

编码所述目标音素序列，将所述目标音素序列映射为所述目标文本的高维文本特征序列；

对所述目标文本的高维文本特征序列进行声学解码，预测所述目标音素序列的目标声学特征。

3.如权利要求2所述语音合成方法，其特征在于，所述对所述目标文本的高维文本特征序列进行声学解码，预测所述目标音素序列的目标声学特征之前，所述方法还包括：

获取语音特征序列；

将所述目标文本的高维文本特征序列与所述语音特征序列对齐，得到所述目标文本的对齐高维文本特征序列。

4.如权利要求3所述语音合成方法，其特征在于，所述方法还包括：

在将所述目标文本的高维文本特征序列与所述语音特征序列对齐时，加入目标说话人向量来控制目标说话人的音色。

5.如权利要求1所述语音合成方法，其特征在于，所述将目标文本转换为对应的目标音素序列，包括：

根据所述目标文本的正则特征对所述目标文本进行语音初步处理，提取所述目标文本的辅助性特征；

采用所述目标文本的辅助性特征对所述目标文本的正则特征进行前端解码，得到具备语音播放标准的目标音素序列。

6.如权利要求5所述语音合成方法，其特征在于，所述根据所述目标文本的正则特征对所述目标文本进行语音初步处理，提取所述目标文本的辅助性特征，包括：将所述目标文本的正则特征输入预先构建的语音初步处理模块中，对所述目标文本进行文字分割和词性标注；

所述采用所述目标文本的辅助性特征对所述目标文本的正则特征进行前端解码，得到具备语音播放标准的目标音素序列，包括：将所述目标文本的正则特征和所述目标文本的辅助性特征同时输入预先构建的文本解码模块中，得到具备语音播放标准的目标音素序列。

7.如权利要求1所述语音合成方法，其特征在于，所述方法还包括：

采用无标注语音数据对所述端到端语音合成模型进行训练，得到所述已训练端到端语音合成模型。

8.如权利要求7所述语音合成方法，其特征在于，所述采用无标注语音数据对所述端到端语音合成模型进行训练，得到所述已训练端到端语音合成模型，包括：

采用所述无标注语音数据对量子化向量-变分自编码器VQ-VAE模型进行训练，提取无监督语言单元；

将有标注语音数据和所述无监督语言单元输入所述端到端语音合成模型进行训练，得到所述已训练端到端语音合成模型。

9.一种语音合成装置，其特征在于，所述装置包括：

文转音模块，用于将目标文本转换为对应的目标音素序列；

10.一种计算机设备，所述计算机设备包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至8任意一项所述语音合成方法的步骤。

11.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至8任意一项所述语音合成方法的步骤。