CN113488020A

CN113488020A - 语音合成方法和相关设备、装置、介质

Info

Publication number: CN113488020A
Application number: CN202110751319.8A
Authority: CN
Inventors: 宋飞豹; 江源; 宋锐; 侯秋侠
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2021-07-02
Filing date: 2021-07-02
Publication date: 2021-10-08
Anticipated expiration: 2041-07-02
Also published as: CN113488020B

Abstract

本申请公开了一种语音合成方法和相关设备、装置、介质，其中，语音合成方法包括：获取以待合成语种表达的待合成文本的待合成音素；利用语音合成模型对待合成音素、待合成对象的对象特征表示和待合成语种的语种特征表示进行合成处理，得到合成语谱图；其中，语音合成模型是利用样本对象的样本数据训练预设语音网络而得到的，样本数据包括样本对象的第一音频、样本对象的对象特征表示和第一音频对应发言语种的语种特征表示，对象特征表示用于表征音色特征、发音特征中至少一者，样本对象包括目标对象及与目标对象的相关对象，且相关对象的对象特征表示与目标对象的对象特征表示相关。上述方案，能够提高语音合成质量。

Description

语音合成方法和相关设备、装置、介质

技术领域

本申请涉及音频处理技术领域，特别是涉及一种语音合成方法和相关设备、装置、介质。

背景技术

随着电子信息技术的发展，语音合成技术已经逐渐应用于国际会议、日常沟通等诸多场景。

目前，传统语音合成技术与音频数据强相关，一般而言，音频数据质量越高，语音合成质量越好。然而，在目标对象所采用的发言语种为小语种等诸如此类音频数据较难收集的情况下，通常面临着音频数据资源稀缺等问题，由此直接影响语音合成的质量。有鉴于此，如何提高语音合成质量成为亟待解决的问题。

发明内容

本申请主要解决的技术问题是提供一种语音合成方法和相关设备、装置、介质，能够提高语音合成质量。

为了解决上述技术问题，本申请第一方面提供了一种语音合成方法，包括：获取以待合成语种表达的待合成文本的待合成音素；利用语音合成模型对待合成音素、待合成对象的对象特征表示和待合成语种的语种特征表示进行合成处理，得到合成语谱图；其中，语音合成模型是利用样本对象的样本数据训练预设语音网络而得到的，样本数据包括样本对象的第一音频、样本对象的对象特征表示和第一音频对应发言语种的语种特征表示，对象特征表示用于表征音色特征、发音特征中至少一者，样本对象包括目标对象及与目标对象的相关对象，且相关对象的对象特征表示与目标对象的对象特征表示相关。。

为了解决上述技术问题，本申请第二方面提供了一种语音合成装置，包括：音素获取模块和合成处理模块，音素获取模块，用于获取以待合成语种表达的待合成文本的待合成音素；合成处理模块，用于利用语音合成模型对待合成音素、待合成对象的对象特征表示和待合成语种的语种特征表示进行合成处理，得到合成语谱图；其中，语音合成模型是利用样本对象的样本数据训练预设语音网络而得到的，样本数据包括样本对象的第一音频、样本对象的对象特征表示和第一音频对应发言语种的语种特征表示，对象特征表示用于表征音色特征、发音特征中至少一者，样本对象包括目标对象及与目标对象的相关对象，且相关对象的对象特征表示与目标对象的对象特征表示相关。

为了解决上述技术问题，本申请第三方面提供了一种电子设备，包括相互耦接的存储器和处理器，存储器中存储有程序指令，处理器用于执行程序指令以实现上述第一方面中的语音合成方法。

为了解决上述技术问题，本申请第四方面提供了一种计算机可读存储介质，存储有能够被处理器运行的程序指令，程序指令用于实现上述第一方面中的语音合成方法。

上述方案，获取以待合成语种表达的待合成文本的待合成音素，并利用语音合成模型对待合成音素、待合成对象的对象特征表示和待合成语种的语种特征表示进行合成处理，得到合成语谱图，且语音合成模型是利用样本对象的样本数据训练预设语音网络而得到的，样本数据包括样本对象的第一音频、样本对象的对象特征表示和第一音频对应发言语种的语种特征表示，对象特征表示用于表征音色特征、发音特征中至少一者，样本对象包括目标对象及与目标对象的相关对象，且相关对象的对象特征表示与目标对象的对象特征表示相关，故即使面临目标对象所采用的发言语种其音频数据较为稀缺，也能够通过对象特征表示，筛选到与目标对象音色特征、发言特征中至少一者相关的相关对象，并基于目标对象和相关对象两者的音频数据训练预设语音网络得到语音合成模型，以利用语音合成模型对待合成文本进行语音合成处理，从而能够大大缓解诸如小语种等音频数据稀缺对语音合成的影响，进而能够有利于语音合成质量。

附图说明

图1是本申请语音合成模型的训练方法一实施例的流程示意图；

图2是训练基线网络一实施例的流程示意图；

图3是训练基线网络一实施例的示意图；

图4是图1中步骤S15一实施例的流程示意图；

图5是训练预设语音网络一实施例的示意图；

图6是本申请语音合成方法一实施例的流程示意图；

图7是语音合成装置一实施例的框架示意图；

图8是本申请电子设备一实施例的框架示意图；

图9是本申请计算机可读存储介质一实施例的框架示意图。

具体实施方式

下面结合说明书附图，对本申请实施例的方案进行详细说明。

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、接口、技术之类的具体细节，以便透彻理解本申请。

本文中术语“系统”和“网络”在本文中常被可互换使用。本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。此外，本文中的“多”表示两个或者多于两个。

本申请公开实施例，获取以待合成语种表达的待合成文本的待合成音素，并利用语音合成模型对待合成音素、待合成对象的对象特征表示和待合成语种的语种特征表示进行合成处理，得到合成语谱图，且语音合成模型是利用样本对象的样本数据训练预设语音网络而得到的，样本数据包括样本对象的第一音频、样本对象的对象特征表示和第一音频对应发言语种的语种特征表示，对象特征表示用于表征音色特征、发音特征中至少一者，样本对象包括目标对象及与目标对象的相关对象，且相关对象的对象特征表示与目标对象的对象特征表示相关，故即使面临目标对象所采用的发言语种其音频数据较为稀缺，也能够通过对象特征表示，筛选到与目标对象音色特征、发言特征中至少一者相关的相关对象，并基于目标对象和相关对象两者的音频数据训练预设语音网络得到语音合成模型，以利用语音合成模型对待合成文本进行语音合成处理，从而能够大大缓解诸如小语种等音频数据稀缺对语音合成的影响，进而能够有利于语音合成质量。为便于理解本申请方案，本申请先陈述语音合成模型的“训练阶段”，再陈述基于语音合成模型的“预测阶段”，具体可以参阅下述公开实施例。

请参阅图1，图1是本申请语音合成模型的训练方法一实施例的流程示意图。具体而言，可以包括如下步骤：

步骤S11：获取使用发言语种发言的发言对象的第二音频。

本公开实施例中，发言对象包括目标对象和若干候选对象。具体地，为了区分目标对象和候选对象的发言语种，可以将目标对象的发言语种称为目标语种，并将候选对象的发言语种称为候选语种。

在一个实施场景中，目标语种可以包括音频数据较难收集的小语种。例如，目标语种可以包括但不限于：印地语、僧伽罗语、斯瓦西里语等，在此不做限定。

在一个实施场景中，候选语种可以包括音频数据较易收集的大语种。例如，候选语种可以包括但不限于：汉语、英语、法语、西班牙语、俄语、阿拉伯语等，在此不做限定。

需要说明的是，为了提升模型训练质量，发言语种的音频数据可以尽可能地覆盖该发言语种下各个音素，而在现实场景中，若目标语种为诸如上述印地语、僧伽罗语等小语种时，对应的第二音频往往较难收集。例如，可以由专人(即目标对象)录制目标语种对应的多段第二音频(如，简单生活语句、正式场合语句等)，或者，也可以尽可能地通过诸多渠道(如，网络、会场等)采集目标对象的音频数据得到第二音频，即说限于目标语种的小众特质，目标语种的音频数据通常为单人数据，也就是说现实场景中，目标对象可以仅有一位。此外，候选语种的第二音频数据较易收集，通常为多人数据，即在现实场景中，候选对象可以有多位，每一候选对象可以具备说至少一种候选语种的能力。例如，某一候选对象可以说英语，而另一候选对象可以说英语和法语，在此不做限定。上述举例仅仅为实际应用过程中，可能存在的一种情况，并不因此而具体限定目标对象和候选对象。

步骤S12：基于第二音频，获取发言对象的对象特征表示和发言语种的语种特征表示。

本公开实施例中，对象特征表示用于表征发言对象的音色特征、发音特征中至少一者。需要说明的是，音色特征可以反映不同发言对象发出声音的固有品质。例如：低沉、尖锐、沉闷、浑厚、圆润等，在此不再一一举例；而发音特征可以反映不同发言对象发声习惯。例如：语速较快、吐字清晰、语速较慢等，在此不再一一举例。此外，语种特征表示用于区分不同发言语种。

在一个实施场景中，为了提高特征表示的提取效率，可以预先训练一个对象特征表示提取模型和一个语种特征表示提取模型，从而可以利用对象特征表示提取模型分别对各个发言对象的第二音频进行特征提取，得到发言对象的各个第二音频对应的对象特征表示，进而对于每一发言对象，可以利用其第二音频提取到的对象特征表示进行融合(如，加权平均等)，得到该发言对象最终的对象特征表示；类似地，可以利用语种特征表示提取模型分别对各个发言语种的第二音频进行特征提取，得到发言语种的各个第二音频对应的语种特征表示，进而对于每一发言语种，可以利用其第二音频对应的语种特征表示进行融合(如，加权平均等)，得到该发言语种最终的对象特征表示。

在一个具体的实施场景中，对象特征表示提取模型可以包括但不限于：卷积神经网络、循环神经网络等；类似地，语种特征表示提取模型可以包括但不限于：卷积神经网络、循环神经网络等。对象特征表示提取模型和语种特征表示提取模型的网络结构，在此不做具体限定。

在一个具体的实施场景中，在训练对象特征表示提取模型的过程中，可以利用对象特征表示提取模型分别提取各个发言对象的第二音频，得到第二音频对应的样本对象表示。在此基础上，对于每一第二音频对应的样本对象表示而言，可以将属于同一发言对象的第二音频对应提取的样本对象表示作为其正例对象表示，并将属于不同发言对象的第二音频对应提取的样本对象表示作为其反例对象表示，基于此可以采用三元组损失函数处理上述样本对象表示及其正例对象表示和反例对象表示，得到每一第二音频对应提取的样本对象表示的第一子损失，再通过统计各个第二音频对应的第一子损失，得到对象特征表示提取模型的第一损失，并利用第一损失，调整对象特征表示提取模型的网络参数。

在一个具体的实施场景中，在训练语种特征表示提取模型的过程中，可以利用语种特征表示提取模型分别提取各个发言语种的第二音频，得到第二音频对应的样本语种表示。在此基础上，对于每一第二音频对应的样本语种表示而言，可以将属于同一发言语种的第二音频对应提取的样本语种表示作为其正例语种表示，并将属于不同发言语种的第二音频对应提取的样本语种表示作为其反例语种表示，基于此可以采样三元组损失函数处理上述样本语种表示及其正例语种表示和反例语种表示，得到每一第二音频对应提取的样本语种表示的第二子损失，再通过统计各个第二音频对应的第二子损失，得到语种特征表示提取模型的第二损失，并利用第二损失，调整语种特征表示提取模型的网络参数。

在另一个实施场景中，预设语音网络可以包括基线网络，对象特征表示和语种特征表示可以均是利用第二音频训练基线(即baseline)网络而得到的。需要说明的是，基线网络可以包括语适用于音合成场景的神经网络。例如，可以包括但不限于：tacotron、tacotron2等等，在此不做限定。此外，基线网络的具体训练过程，可以参阅下述公开实施例中相关描述，在此暂不赘述。上述方式，将预设语音网络设置为包括基线网络，且对象特征表示和语种特征表示均是利用第二音频训练基线网络而得到的，即能够在预设语音网络的训练前期获取对象特征表示和语种特征表示，而在后续训练后期得到语音合成模型，从而能够有利于提高训练效率。

步骤S13：基于对象特征表示的聚类结果选择候选对象，得到相关对象。

具体地，可以将发言对象的对象特征表示进行聚类，得到若干特征集合，并将目标对象的对象特征表示所在的特征集合，作为目标集合，从而选择目标集合内候选对象，作为相关对象。上述方式，通过将发言对象的对象特征表示进行聚类，并选择目标对象所在特征集合内候选对象，作为相关对象，能够有利于基于对象特征表示，快速且准确地搜索到与目标对象具有相近音色发音的候选对象，以便后续训练，能够大大缓解诸如小语种等语音数据稀缺的问题，有利于进一步提高语音合成质量。

在一个实施场景中，可以利用诸如k-means、层级聚类等聚类方式将发言对象的对象特征表示进行聚类。具体聚类过程，可以参阅k-means、层级聚类等聚类放肆的技术细节，在此不再赘述。

在一个实施场景中，以目标对象所说的目标语种是印地语为例，N位候选对象中每一位均可以说至少一种候选语种(如，前述大语种)，则在提取到各个发言对象的对象特征表示之后，可以将各个发言对象的对象特征表示进行聚类，得到M个特征集合。在此基础上，可以搜索目标对象的对象特征表示所在的特征集合，并将其作为目标集合。其他情况可以以此类推，在此不再一样举例。

步骤S14：基于目标对象和相关对象，获取样本数据。

具体地，可以将目标对象和相关对象视为样本对象，并将目标对象和相关对象的第二音频视为第一音频，以及对于每一第一音频而言，可以将该第一音频、该第一音频所属样本对象的对象特征表示和该第一音频对应发言语种的语种特征表示作为一组样本数据。

步骤S15：利用样本数据训练预设语音网络，得到语音合成模型。

具体地，可以先提取第一音频的音素序列和实际语谱图，并将音素序列、第一音频对应发言对象的对象特征表示和第一音频对应发言语种的语种特征表示输入预设语音网络，得到预测语谱图，从而可以利用实际语谱图和预测语谱图之间的差异，调整预设语音网络的网络参数。如此循环往复对预设语音网络重复训练若干轮，直至训练收敛，即可将训练收敛的预设语音网络，作为语音合成模型。

需要说明的是，音素是根据语言的自然属性划分出来的最小语音单位，其具体提取过程可以参阅音素相关技术细节，在此不再赘述。此外，语谱图(spectrogram)是一种频谱分析视图，其具体含义及提取过程，可以参阅语谱图相关技术细节，在此不再赘述。此外，上述实际语谱图和预测语谱图具体可以为梅尔语谱图，在此不做限定。

请参阅图2，图2是训练基线网络一实施例的流程示意图。具体而言，可以包括如下步骤：

步骤S21：提取第二音频的第一音素，并获取第二音频对应的发言对象的初始对象表示和第二音频对应的发言语种的初始语种表示。

在一个实施场景中，在训练过程中，可以通过对第二音频进行音素识别，以直接提取到第二音频的第一音素。例如，可以利用诸如TDNN(Time-Delay Neural Networks，时延神经网络)等模型直接对第二音频进行音素识别，在此不做限定。

在一个实施场景中，初始对象表示和初始语种表示可以通过随机初始化得到。例如，可以随机初始化发言对象甲的初始对象表示为一个五维向量[0.1 0.2 0.3 0.4 0.5]，或者，可以随机初始化发言语种英语的初始语种表示为一个五维向量[0.3 0.4 0.5 0.60.7]，其他情况可以以此类推，在此不再一一举例。需要说明的是，上述举例仅仅是实际应用中可能存在的一种情况，并不因此而具体限定初始对象表示和初始语种表示，其维度和数值可以随机设置，在此不做限定。

步骤S22：利用第一音素、初始对象表示和初始语种表示训练基线网络，以优化基线网络的网络参数、初始对象表示和初始语种表示。

在一个实施场景中，请结合参阅图3，图3是训练基线网络一实施例的示意图。如图3所示，基线网络可以包括：音素编码子网络和解码子网络。在此基础上，可以利用音素编码子网络对第一音素进行编码，得到第一音素表示，并利用解码子网络对第一音素表示、初始对象表示和初始语种表示进行解码，得到第一预测语谱图，从而可以基于第一预测语谱图和第二音频的第一实际语谱图之间的差异，优化基线网络的网络参数、初始对象表示和初始语种表示。上述方式，利用音素编码子网络对第一音素进行编码，得到第一音素表示，并利用解码子网络第一音素表示、初始对象表示和初始语种表示进行解码，得到第一预测语谱图，从而基于第一预测语谱图和第一实际语谱图之间的差异，优化基线网络的网络参数、初始对象表示和初始语种表示，能够有利于在训练基线网络过程中，逐渐优化初始对象表示和初始语种表示，使得两者在训练过程中趋于准确，有利于提高对象特征表示和语种特征表示的准确性。

在一个具体的实施场景中，音素编码子网络、解码子网络的网络结构，可以参阅诸如tacotron等语音网络，在此不再赘述。

在另一个具体的实施场景中，如前所述，实际语谱图的提取方式，可以参阅语谱图的相关技术细节，在此不再赘述。

在又一个具体的实施场景中，可以利用MSE(Mean Square Error，均方误差)损失函数处理第一预测语谱图和第一实际语谱图，得到基线网络的损失值，并利用该损失值优化基线网络的网络参数、初始对象表示和初始语种表示。具体优化过程，可以参阅梯度优化相关技术细节，在此不再赘述。

在一个实施场景中，通过第二音频所提取到的第一音素可能会包含发言对象的相关特征，例如，平翘舌不分(如，将吃饭读成“ci fan”)、前后鼻音不分(如，将橙子读成“chenzi”)、nl不分(如，将牛奶读成“liu lai”)、fh(如，将福建读成“hu jian”)不分等等。上述特征信息将直接影响后续语音合成质量，为了进一步提高语音合成质量，可以通过说话人对抗来约束音素编码子网络，使其编码得到的第一音素表示包含尽可能少的发言对象信息。具体来说，可以利用音素编码子网络对第一音素进行编码，得到第一音素表示，并利用解码子网络对音素表示、初始对象表示和初始语种表示进行解码，得到第一预测语谱图，与此同时，可以利用对象识别网络对第一音素表示进行对象识别，得到预测对象，从而可以利用第一预测语谱图和第一实际语谱图之间的差异，以及预测对象和第二音频的发言对象之间的差异，优化基线网络的网络参数、初始对象表示和初始语种表示。需要说明的是，在优化过程中，可以基于预测对象和发言对象之间的差异，通过梯度反转(Gradient Reversal)来进行优化。通过梯度反转，能够约束预测对象与发言对象之间的差异尽可能地大，即能够使得难以通过第一音素表示识别对应的发言对象，从而使得第一音素表示中尽可能少地包含发言对象的相关特征信息。

在一个具体的实施场景中，对象识别网络具体可以包括全连接层和归一化层。

在另一个具体的实施场景中，利用对象识别网络对第一音素表示进行对象识别，能够得到第一音素表示属于各个发言对象的预测概率值，其中最高预测概率值对应的发言对象即可以视为第一音素表示对应的预测对象。在此基础上，可以基于第二音频对应的发言对象以及上述预测得到的各个发言对象的预测概率值，计算得到第一子损失值，并对取其相反数，与此同时，可以利用MSE损失函数处理第一预测语谱图和第一实际语谱图，计算得到第二子损失值，在此基础上，可以基于上述相反数和第二子损失值，优化基线网络的网络参数、初始对象表示和初始语种表示。

步骤S23：响应于基线网络的训练结果满足第一条件，将最新优化得到的初始对象表示作为对象特征表示，并将最新优化得到的初始语种表示作为语种特征表示。

如前所述，每轮训练均可以计算得到基线网络的损失值，训练结果可以包括该损失值，在此基础上，可以将第一条件设置为包括损失值低于预设阈值，即在基线网络的损失值小于预设阈值的情况下，可以认为基线网络训练收敛，并将最新优化得到的初始对象表示作为对象特征表示，将最新优化得到的初始语种表示作为语种特征表示。

上述方案，提取第二音频的第一音素，并获取第二音频对应的发言对象的初始对象表示和第二音频对应的发言语种的初始语种表示，在此基础上，利用第二音频、初始对象表示和初始语种表示训练基线网络，以优化基线网络的网络参数、初始对象表示和初始语种表示，并相应于基线网络的训练结果满足第一条件，将最新优化得到的初始对象表示作为对象特征表示，并将最新优化得到的初始语种表示作为语种特征表示，故能够在基线网络的训练过程中，不断优化网络参数、初始对象表示和初始语种表示，能够有利于提高对象特征表示和语种特征表示的准确性。

请参阅图4，图4是图1中步骤S15一实施例的流程示意图。具体而言，本公开实施例中，预设语音网络可以包括基线网络以及与基线网络连接的语谱预测子网络，且基线网络具体可以包括音素编码子网络和解码子网络。本公开实施例具体可以包括如下步骤：

步骤S41：提取第一音频的第二音素和第二实际语谱图。

第二音素和第二实际语谱图的提取方式，可以参阅第一音素、第一实际语谱图，在此不再赘述。

步骤S42：利用音素编码子网络对第二音素进行编码，得到第二音素表示。

具体可以参阅前述公开实施例中，利用音素编码子网络对第一音素进行编码，得到第一音素表示的相关描述，在此不再赘述。

步骤S43：利用语谱预测子网络对第二音素表示进行预测，得到样本预测语谱表示，并基于第二实际语谱图得到样本实际语谱表示。

需要说明的是，由于在训练阶段，音频数据是已知的，可以直接通过音频数据提取出实际语谱图，并利用实际语谱图得到实际语谱表示，而不同于训练阶段，在预测阶段，音频数据是未知的，故有必要在基线网络的基础上，连接一个语谱预测子网络，以便在预测阶段，利用语谱预测子网络预测出语谱表示，并基于音素表示、预测得到的语谱表示以及对象特征表示、语种特征表示进行语音合成，具体过程可以参阅下述公开实施例，在此暂不赘述。

在一个实施场景中，与音素表示的获取过程类似地，可以利用语谱编码子网络对第二实际语谱图进行编码，得到样本实际语谱表示。语谱编码子网络的网络结构可以参阅音素编码子网络，具体可以参阅tacotron等相关语音网络，在此不再赘述。

在一个实施场景中，第二实际语谱图可以包括若干实际音频帧，为了使样本实际语谱表示和第二音素表示保持一致长度，以吸收噪声并减少模型学习难度，可以基于第二实际语谱图，识别得到各个音素的第一时长，对于每一音素，可以基于第一时长内的实际音频帧的统计值，得到音素的表示元素，再基于各个音素的表示元素，得到样本实际语谱表示。上述方式，基于第二实际语谱图，识别得到各个音素的第一时长，并对于每一音素，基于第一时长内实际音频帧的统计值，得到音素的表示元素，在此基础上，再基于各个元素的表示元素，得到样本实际语谱表示，从而能够将样本实际语谱表示约束至与第二音素表示一致长度，进而能够通过样本实际语谱表示为第二音素表示增加部分韵律、音色信息，同时也有利于吸收噪声并减少模型学习难度。

在一个具体的实施场景中，可以通过时长识别模型(如，隐马尔可夫三音素的识别模型)对样本实际语谱图进行时长识别，得到各个音素的第一时长。具体识别过程，可以参阅诸如隐马尔可夫三音素的识别模型的相关技术细节，在此不再赘述。

在另一个具体的实施场景中，对于每一音素，可以计算其第一时长内的实际音频帧的平均值，作为该音素的表示元素，再将各个音素的表示元素的组合输入语谱编码子网络，得到样本实际语谱表示，使其长度约束至于第二音素表示一致。

在又一个具体的实施场景中，以第一音频长度是N秒为例，该第一音频由N音素组成，且每个音素持续时长均为1秒，每10ms为1个音频帧，故可以将第i个连续100帧的音频帧的平均值作为第i个音素的表示元素，故将N个音素的表示元素的组合输入语谱编码子网络，得到与第二音素表示长度一致的样本实际语谱表示。

在一个实施场景中，语谱预测子网络可以包括但不限于：卷积审计网络、循环神经网络、长短期记忆网络等，在此不做限定。

步骤S44：利用解码子网络对第二音素表示、样本实际语谱表示、对象特征表示和语种特征表示进行解码，得到第二预测语谱图。

具体地，可以将第二音素表示、样本实际语谱表示、对象特征表示额语种特征表示输入解码子网络，得到第二预测语谱图。

步骤S45：基于第二预测语谱图和第二实际语谱图之间的差异，以及样本预测语谱表示和样本实际语谱表示之间的差异，优化预设语音网络的网络参数。

在一个实施场景中，可以利用诸如MSE等损失函数处理第二预测语谱图和第二实际语谱图，得到第一损失，并利用诸如MSE等损失函数处理样本预测语谱表示和样本实际语谱表示，得到第二损失，在此基础上，可以基于第一损失和第二损失，优化预设语音网络的网络参数。如此循环网络，可以对预设语音网络的网络参数进行多轮优化调整，以不断优化预设语音网络的模型性能。

在一个实施场景中，解码子网络在解码过程中，需要对各个音素的持续时长进行预测，为了提高持续时长的准确性，可以利用预设时长预测网络对第二音素进行时长预测，得到第二时长，并利用第二时长对解码过程中各个音素的持续时长进行约束。在此基础上，可以基于第二预测语谱图和第二实际语谱图之间的差异，得到第一损失，并基于样本预测语谱表示和样本实际语谱表示之间的差异，得到第二损失，以及基于各个音素的预测时长和第二时长之间的差异，得到第三损失，且预测时长是解码子网络在解码过程中预测得到的，第二时长是预设时长预测网络对第二音素进行预测得到的。在此基础上，可以分别利用第一权重、第二权重和第三权重对第一损失、第二损失和第三损失进行加权处理，得到总损失，且第三权重与训练轮次负相关。最终可以基于总损失，优化预设语音网络的网络参数。上述方式，损失计算过程中，基于第二预测语谱图和第二实际语谱图之间的差异，得到第一损失，并基于样本预测语谱表示和样本实际语谱表示之间的差异，得到第二损失，以及基于各个音素的预测时长和第二时长之间的差异，得到第三损失，最终利用第一权重、第二权重和第三权重分别对第一损失、第二损失和第三损失进行加权处理，得到总损失，且第三权重与训练轮次负相关，即在训练初期，能够较大程度地参考预设时长预测网络，并在训练后期，能够逐渐减小对预设时长预测网络的参考程度，从而有利于在训练过程中逐渐优化解码子网络的时长预测性能，进而能够有利于提高解码子网络的解码性能。

在一个具体的实施场景中，需要说明的是，预设时长预测网络其时长预测性能优于解码子网络。例如，在基线网络是基于tacotron得到的情况下，预设时长预测网络可以包括但不限于：FastSpeech等等。相较于tacotron而言，FastSpeech具有较好的时长预测性能，故能够通过时长预测网络对解码子网络在解码过程中的时长预测进行有效指导。

在另一个具体的实施场景中，解码子网络包括注意力层和帧预测层，则在解码过程中，可以利用注意力层处理第二音素表示和样本实际语谱表示，得到各个音素的预测时长，并利用帧预测层处理各个音素的帧预测时长、对象特征表示和语种特征表示等，得到若干预测音频帧，并基于若干预测音频帧，得到第二预测语谱图。

在又一个具体的实施场景中，为了便于描述，可以将预设时长预测网络预测得到的第二时长记为A_f，并将解码子网络在解码过程中预测得到的预测时长记为A_t，在此基础上，可以处理第二时长A_f和预测时长A_t，得到第三损失L_f：

L_f＝MSE(A_f,A_t)……(1)

上述公式(1)中，MSE表示均方误差损失函数。此外，第三权重w_f可以表示为：

上述公式(2)中，k表示调节因子，其具体数值可以根据需要进行设置。例如，在权重调节幅度较大的情况下，可以将k设置地大一些，反之，在权重调节幅度较小的情况下，可以将k设置地小一些，k的具体数值，在此不做限定。此外，s表示预设语音网络的训练轮次。

在一个实施场景中，请结合参阅图5，图5是训练预设语音网络一实施例的示意图。如前述公开实施例所述，通过第一音频所提取到的第二音素可能会包含发言对象的相关特征，例如，平翘舌不分(如，将吃饭读成“ci fan”)、前后鼻音不分(如，将橙子读成“chenzi”)、nl不分(如，将牛奶读成“liu lai”)、fh(如，将福建读成“hu jian”)不分等等。上述特征信息将直接影响后续语音合成质量，为了进一步提高语音合成质量，可以通过说话人对抗来约束音素编码子网络，使其编码得到的第二音素表示包含尽可能少的发言对象信息。具体来说，在解码过程中，还可以利用对象识别网络对第二音素表示进行对象识别，得到预测对象，从而可以利用预测对象和第一音频的发言对象之间的差异，得到第四损失，并利用第一权重、第二权重、第三权重和第四权重分别对第一损失、第二损失、第三损失和第四损失进行加权处理，得到总损失，并基于总损失，优化预设语音网络的网络参数。需要说明的是，在优化过程中，可以基于预测对象和发言对象之间的差异，通过梯度反转(GradientReversal)来进行优化。通过梯度反转，能够约束预测对象与发言对象之间的差异尽可能地大，即能够使得难以通过第二音素表示识别对应的发言对象，从而使得第二音素表示中尽可能少地包含发言对象的相关特征信息。具体可以参阅前述公开实施例中相关描述，在此不再赘述。

步骤S46：响应于预设语音网络的训练结果满足第二条件，得到语音合成模型。

具体地，预设语音网络的训练结果可以包括上述总损失，第二条件设置为总损失小于预设阈值，即在总损失小于预设阈值的情况下，可以认为预设语音网络训练至收敛，在此情况下，可以将训练收敛的预设语音网络作为语音合成模型。需要说明的是，通过上述训练过程，语音合成模型能够具备合成得到与目标对象音色发音相近的合成语音，且该合成语音对应的语种可以根据预测阶段所设置的语种特征表示而变化，即既可以为目标语种，也可以为候选语种。在此基础上，能够通过语音合成模型使得目标对象等同于具备说其他语种的能力，且其音色发音与其本身的音色发音相近。

上述方案，预设语音网络设置为包括基线网络以及与基线网络连接的语谱预测子网络，且基线网络包括音素编码子网络和解码子网络，从而提取第一音频的第二音素和第二实际语谱图，并利用音素编码子网络对第二音素进行编码，得到第二音素表示，以及利用语谱预测子网络对第二音素表示进行预测，得到样本预测语谱表示，基于第二实际语谱图得到样本实际语谱表示，在此基础上，可以利用解码子网络对第二音素表示、样本实际语谱表示、对象特征表示和语种特征表示进行解码，得到第二语谱预测图，并基于第二预测语谱图和第二实际语谱图之间的差异，以及样本预测语谱表示和样本实际语谱表示之间的差异，优化预设语音网络的网络参数，从而响应于预设语音网络的训练结果满足第二条件，得到语音合成模型，即在训练过程中优化基线网络以及图谱预测子网络，且图谱预测子网络以音素表示为输入，并以语谱表示为输出，有利于在预测阶段仍然能够提取到语谱表示，从而能够有利于提高语音合成质量。

请参阅图6，图6是本申请语音合成方法一实施例的流程示意图。

具体而言，可以包括如下步骤：

步骤S61：获取以待合成语种表达的待合成文本的待合成音素。

具体地，通过待合成文本可以直接提取其对应的待合成音素。以待合成语种为汉语且待合成文本“今天天气真好”为例，可以提取其待合成音素“jin tian tian qi zhenhao”。其他情况可以以此类推，在此不再一一举例。

步骤S62：利用语音合成模型对待合成音素、待合成对象的对象特征表示和待合成语种的语种特征表示进行合成处理，得到合成语谱图。

本公开实施例中，语音合成模型是利用样本对象的样本数据训练预设语音网络而得到的，样本数据包括样本对象的第一音频、样本对象的对象特征表示和第一音频对应发言语种的语种特征表示，对象特征表示用于表征音色特征、发音特征中至少一者，样本对象包括目标对象及与目标对象的相关对象，且相关对象的对象特征表示与目标对象的对象特征表示相关。具体过程可以参阅前述公开实施例，在此不再赘述。

具体地，语音合成模型可以包括基线网络和语谱预测子网络，且基线网络可以包括音素编码子网络和解码子网络。在此基础上，可以利用音素编码子网络对待合成音素进行编码，得到待合成音素表示，利用语谱预测子网络对待合成音素表示进行预测，得到待合成语谱表示，并利用解码子网络对待合成音素表示、待合成语谱表示、对象特征表示和语种特征表示进行解码，得到合成语谱图。

需要说明的是，待合成对象的对象特征表示可以根据需要选择，具体地，可以选择目标对象的对象特征表示，从而通过语音合成模型能够合成得到具有目标对象音色发音且以待合成语种发言的合成语音；或者，也可以选择相关对象的对象特征表示，从而通过语音合成模型能够合成得到与相关对象音色发音相近且以待合成语种发言的合成语音，由于相关对象与目标对象音色、发音相近，故在采样相关对象的对象特征表示时，合成语音也可以视为具有目标对象的发音、音色。以目标对象为说印地语的发言对象为例，在待合成文本是“今天天气真好”(为了便于描述，此处仍以中文描述，待合成文本实际可以通过印地语表达)的情况下，若将对象特征表示设置为目标对象的对象特征表示，则通过语音合成模型能够合成得到以印地语发言且具有目标对象音色发音的合成语音“今天天气真好”(为了便于描述，此处仍以中文描述，合成语音实际为印地语)；或者，若将对象特征表示设置为相关对象的对象特征表示，待合成语种为英语，则通过语音合成模型能够合成得到以英语发言且具有与目标对象相近音色发音的合成语音“今天天气真好”(为了便于描述，此处仍以中文描述，合成语音实际为英语)。其他情况可以以此类推，在此不再一一举例。

上述方案，获取待合成文本的待合成音素，并利用语音合成模型对待合成音素、对象特征表示和语种特征表示进行合成处理，得到合成语谱图，且语音合成模型、对象特征表示和语种特征表示均是利用本申请任一语音合成模型的训练方法实施例中的步骤得到的，故能够有利于提高语音合成质量。

请参阅图7，图7是本申请语音合成装置70一实施例的框架示意图。语音合成装置70包括：音素获取模块71和合成处理模块72，音素获取模块71用于获取以待合成语种表达的待合成文本的待合成音素；合成处理模块72用于利用语音合成模型对待合成音素、待合成对象的对象特征表示和待合成语种的语种特征表示进行合成处理，得到合成语谱图；其中，语音合成模型是利用样本对象的样本数据训练预设语音网络而得到的，样本数据包括样本对象的第一音频、样本对象的对象特征表示和第一音频对应发言语种的语种特征表示，对象特征表示用于表征音色特征、发音特征中至少一者，样本对象包括目标对象及与目标对象的相关对象，且相关对象的对象特征表示与目标对象的对象特征表示相关。

在一些公开实施例中，语音合成装置70还包括：样本获取模块、特征获取模块、对象选择模块样本获取模块用于获取使用发言语种发言的发言对象的第二音频；其中，发言对象包括目标对象和若干候选对象；特征获取模块用于基于第二音频，获取发言对象的对象特征表示和发言语种的语种特征表示；对象选择模块用于基于对象特征表示的聚类结果选择候选对象，得到相关对象。

上述方案，由于通过对象特征表示进行聚类，有利于聚类到与目标对象音色发音相近的候选对象，从而即使目标对象的音频数据较为稀缺，也能够收集到与其音色、发音相近的音频数据，并据此进行后续训练，从而能够大大缓解诸如小语种等音频数据稀缺对语音合成的影响，进而能够有利于语音合成质量。

在一些公开实施例中，对象选择模块包括特征聚类子模块，用于将发言对象的对象特征表示进行聚类，得到若干特征集合；对象选择模块包括集合选择子模块，用于将目标对象的对象特征表示所在的特征集合，作为目标集合；对象选择模块包括对象选择子模块，用于选择目标集合内候选对象，作为相关对象。

因此，通过将发言对象的对象特征表示进行聚类，并选择目标对象所在特征集合内候选对象，作为相关，能够有利于基于对象特征表示，快速且准确地搜索到与目标对象具有相近音色发音的候选对象，以便后续训练，能够大大缓解诸如小语种等语音数据稀缺的问题，有利于进一步提高语音合成质量。

在一些公开实施例中，预设语音网络包括基线网络，发言对象的对象特征表示和发言语种的语种特征表示是利用第二音频训练基线网络而得到的。

因此，将预设语音网络设置为包括基线网络，且发言对象的对象特征表示和发言语种的语种特征表示均是利用第二音频训练基线网络而得到的，即能够在预设语音网络的训练前期获取对象特征表示和语种特征表示，而在后续训练后期得到语音合成模型，从而能够有利于提高训练效率。

在一些公开实施例中，特征获取模块包括初始化子模块，用于提取第二音频的第一音素，并获取第二音频对应的发言对象的初始对象表示和第二音频对应的发言语种的初始语种表示；特征获取模块包括基线优化子模块，用于利用第一音素、初始对象表示和初始语种表示训练基线网络，以优化基线网络的网络参数、初始对象表示和初始语种表示；特征获取模块包括特征确定子模块，用于响应于基线网络的训练结果满足第一条件，将最新优化得到的初始对象表示作为对象特征表示，并将最新优化得到的初始语种表示作为语种特征表示。

因此，提取第二音频的第一音素，并获取第二音频对应的发言对象的初始对象表示和第二音频对应的发言语种的初始语种表示，在此基础上，利用第二音频、初始对象表示和初始语种表示训练基线网络，以优化基线网络的网络参数、初始对象表示和初始语种表示，并相应于基线网络的训练结果满足第一条件，将最新优化得到的初始对象表示作为对象特征表示，并将最新优化得到的初始语种表示作为语种特征表示，故能够在基线网络的训练过程中，不断优化网络参数、初始对象表示和初始语种表示，能够有利于提高对象特征表示和语种特征表示的准确性。

在一些公开实施例中，基线网络包括：音素编码子网络和解码子网络；基线优化子模块包括音素编码单元，用于利用音素编码子网络对第一音素进行编码，得到第一音素表示；基线优化子模块包括语谱解码单元，用于利用解码子网络对第一音素表示、初始对象表示和初始语种表示进行解码，得到第一预测语谱图；基线优化子模块包括基线优化单元，用于基于第一预测语谱图和第二音频的第一实际语谱图之间的差异，优化基线网络的网络参数、初始对象表示和初始语种表示。

因此，利用音素编码子网络对第一音素进行编码，得到第一音素表示，并利用解码子网络第一音素表示、初始对象表示和初始语种表示进行解码，得到第一预测语谱图，从而基于第一预测语谱图和第一实际语谱图之间的差异，优化基线网络的网络参数、初始对象表示和初始语种表示，能够有利于在训练基线网络过程中，逐渐优化初始对象表示和初始语种表示，使得两者在训练过程中趋于准确，有利于提高对象特征表示和语种特征表示的准确性。

在一些公开实施例中，预设语音网络包括基线网络以及与基线网络连接的语谱预测子网络，且基线网络包括音素编码子网络和解码子网络；语音合成装置70还包括网络训练模块，用于利用样本数据训练预设语音网络，得到语音合成模型，网络训练模块包括提取子模块，用于提取第一音频的第二音素和第二实际语谱图；网络训练模块包括音素编码子模块，用于利用音素编码子网络对第二音素进行编码，得到第二音素表示；网络训练模块包括语谱表示预测子模块，用于利用语谱预测子网络对第二音素表示进行预测，得到样本预测语谱表示；网络训练模块包括语谱表示提取子模块，用于基于第二实际语谱图得到样本实际语谱表示；网络训练模块包括语谱解码子模块，用于利用解码子网络对第二音素表示、样本实际语谱表示、对象特征表示和语种特征表示进行解码，得到第二预测语谱图；网络训练模块包括网络优化子模块，用于基于第二预测语谱图和第二实际语谱图之间的差异，以及样本预测语谱表示和样本实际语谱表示之间的差异，优化预设语音网络的网络参数；网络训练模块包括模型获取子模块，用于响应于预设语音网络的训练结果满足第二条件，得到语音合成模型。

因此，预设语音网络设置为包括基线网络以及与基线网络连接的语谱预测子网络，且基线网络包括音素编码子网络和解码子网络，从而提取第一音频的第二音素和第二实际语谱图，并利用音素编码子网络对第二音素进行编码，得到第二音素表示，以及利用语谱预测子网络对第二音素表示进行预测，得到样本预测语谱表示，基于第二实际语谱图得到样本实际语谱表示，在此基础上，可以利用解码子网络对第二音素表示、样本实际语谱表示、对象特征表示和语种特征表示进行解码，得到第二语谱预测图，并基于第二预测语谱图和第二实际语谱图之间的差异，以及样本预测语谱表示和样本实际语谱表示之间的差异，优化预设语音网络的网络参数，从而响应于预设语音网络的训练结果满足第二条件，得到语音合成模型，即在训练过程中优化基线网络以及图谱预测子网络，且图谱预测子网络以音素表示为输入，并以语谱表示为输出，有利于在预测阶段仍然能够提取到语谱表示，从而能够有利于提高语音合成质量。

在一些公开实施例中，第二实际语谱图包含若干实际音频帧；语谱表示提取子模块包括音素时长预测单元，用于基于第二实际语谱图，识别得到各个音素的第一时长；语谱表示提取子模块包括表示元素统计单元，用于对于每一音素，基于第一时长内的实际音频帧的统计值，得到音素的表示元素；语谱表示提取子模块包括语谱表示获取单元，用于基于各个音素的表示元素，得到样本实际语谱表示。

因此，基于第二实际语谱图，识别得到各个音素的第一时长，并对于每一音素，基于第一时长内实际音频帧的统计值，得到音素的表示元素，在此基础上，再基于各个元素的表示元素，得到样本实际语谱表示，从而能够将样本实际语谱表示约束至与第二音素表示一致长度，进而能够通过样本实际语谱表示为第二音素表示增加部分韵律、音色信息，同时也有利于吸收噪声并减少模型学习难度。

在一些公开实施例中，语音合成模型是预设语音网络经过若干轮训练得到的；网络优化子模块包括第一损失计算单元，用于基于第二预测语谱图和第二实际语谱图之间的差异，得到第一损失；网络优化子模块包括第二损失计算单元，用于基于样本预测语谱表示和样本实际语谱表示之间的差异，得到第二损失；网络优化子模块包括第三损失计算单元，用于基于各个音素的预测时长和第二时长之间的差异，得到第三损失；其中，预测时长是解码子网络在解码过程中预测得到的，第二时长是预设时长预测网络对第二音素进行预测得到的；网络优化子模块包括损失加权单元，用于分别利用第一权重、第二权重和第三权重对第一损失、第二损失和第三损失加权处理，得到总损失；其中，第三权重与训练轮次负相关；网络优化子模块包括参数优化单元，用于基于总损失，优化预设语音网络的网络参数。

因此，损失计算过程中，基于第二预测语谱图和第二实际语谱图之间的差异，得到第一损失，并基于样本预测语谱表示和样本实际语谱表示之间的差异，得到第二损失，以及基于各个音素的预测时长和第二时长之间的差异，得到第三损失，最终利用第一权重、第二权重和第三权重分别对第一损失、第二损失和第三损失进行加权处理，得到总损失，且第三权重与训练轮次负相关，即在训练初期，能够较大程度地参考预设时长预测网络，并在训练后期，能够逐渐减小对预设时长预测网络的参考程度，从而有利于在训练过程中逐渐优化解码子网络的时长预测性能，进而能够有利于提高解码子网络的解码性能。

在一些公开实施例中，语音合成模型包括基线网络以及与基线网络连接的语谱预测子网络，且基线网络包括音素编码子网络和解码子网络；合成处理模块72包括编码子模块，用于利用音素编码子网络对待合成音素进行编码，得到待合成音素表示；合成处理模块72包括预测子模块，用于利用语谱预测子网络对待合成音素表示进行预测，得到待合成语谱表示；合成处理模块72包括解码子模块，用于利用解码子网络对待合成音素表示、待合成语谱表示、对象特征表示和语种特征表示进行解码，得到合成语谱图。

因此，利用音素编码子网络对待合成音素进行编码，得到待合成音素表示，并利用语谱预测子网络对待合成音素表示进行预测，得到待合成语谱表示，在此基础上，再利用解码子网络对待合成音素表示、待合成语谱表示、对象特征表示和语种特征表示进行解码，得到合成语谱图，能够在解码过程中除待合成音素、对象特征表示和语种特征表示之外，还可以参考待合成语谱表示，有利于提高语音合成质量。

请参阅图8，图8是本申请电子设备80一实施例的框架示意图。电子设备80包括相互耦接的存储器81和处理器82，存储器81中存储有程序指令，处理器82用于执行程序指令以实现上述任一语音合成方法实施例中的步骤。具体地，电子设备80可以包括但不限于：台式计算机、笔记本电脑、服务器、手机、平板电脑等等，在此不做限定。

具体而言，处理器82用于控制其自身以及存储器81以实现上述任一语音合成方法实施例中的步骤。处理器82还可以称为CPU(Central Processing Unit，中央处理单元)。处理器82可能是一种集成电路芯片，具有信号的处理能力。处理器82还可以是通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application SpecificIntegrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。另外，处理器82可以由集成电路芯片共同实现。

上述方案，即使面临目标对象所采用的发言语种其音频数据较为稀缺，也能够通过对象特征表示，筛选到与目标对象音色特征、发言特征中至少一者相关的相关对象，并基于目标对象和相关对象两者的音频数据训练预设语音网络得到语音合成模型，以利用语音合成模型对待合成文本进行语音合成处理，从而能够大大缓解诸如小语种等音频数据稀缺对语音合成的影响，进而能够有利于语音合成质量。

请参阅图9，图9是本申请计算机可读存储介质90一实施例的框架示意图。计算机可读存储介质90存储有能够被处理器运行的程序指令91，程序指令91用于实现上述任一语音合成方法实施例中的步骤。

在一些实施例中，本公开实施例提供的装置具有的功能或包含的模块可以用于执行上文方法实施例描述的方法，其具体实现可以参照上文方法实施例的描述，为了简洁，这里不再赘述。

上文对各个实施例的描述倾向于强调各个实施例之间的不同之处，其相同或相似之处可以互相参考，为了简洁，本文不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的方法和装置，可以通过其它的方式实现。例如，以上所描述的装置实施方式仅仅是示意性的，例如，模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性、机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

Claims

1.一种语音合成方法，其特征在于，包括：

获取以待合成语种表达的待合成文本的待合成音素；

利用语音合成模型对所述待合成音素、待合成对象的对象特征表示和所述待合成语种的语种特征表示进行合成处理，得到合成语谱图；

其中，所述语音合成模型是利用样本对象的样本数据训练预设语音网络而得到的，所述样本数据包括所述样本对象的第一音频、所述样本对象的对象特征表示和所述第一音频对应发言语种的语种特征表示，所述对象特征表示用于表征音色特征、发音特征中至少一者，所述样本对象包括目标对象及与所述目标对象的相关对象，且所述相关对象的对象特征表示与所述目标对象的对象特征表示相关。

2.根据权利要求1所述的方法，其特征在于，所述相关对象的筛选步骤包括：

获取使用发言语种发言的发言对象的第二音频；其中，所述发言对象包括所述目标对象和若干候选对象；

基于所述第二音频，获取所述发言对象的对象特征表示和所述发言语种的语种特征表示；

基于所述对象特征表示的聚类结果选择所述候选对象，得到所述相关对象。

3.根据权利要求2所述的方法，其特征在于，所述基于所述对象特征表示的聚类结果选择所述候选对象，得到所述相关对象，包括：

将所述发言对象的对象特征表示进行聚类，得到若干特征集合；

将所述目标对象的对象特征表示所在的特征集合，作为目标集合；

选择所述目标集合内所述候选对象，作为所述相关对象。

4.根据权利要求2所述的方法，其特征在于，所述预设语音网络包括基线网络，所述发言对象的对象特征表示和所述发言语种的语种特征表示是利用所述第二音频训练所述基线网络而得到的。

5.根据权利要求4所述的方法，其特征在于，所述基于所述第二音频，获取所述发言对象的对象特征表示和所述发言语种的语种特征表示，包括：

提取所述第二音频的第一音素，并获取所述第二音频对应的发言对象的初始对象表示和所述第二音频对应的发言语种的初始语种表示；

利用所述第一音素、所述初始对象表示和所述初始语种表示训练所述基线网络，以优化所述基线网络的网络参数、所述初始对象表示和所述初始语种表示；

响应于所述基线网络的训练结果满足第一条件，将最新优化得到的初始对象表示作为所述对象特征表示，并将最新优化得到的初始语种表示作为所述语种特征表示。

6.根据权利要求5所述的方法，其特征在于，所述基线网络包括：音素编码子网络和解码子网络；所述利用所述第一音素、所述初始对象表示和所述初始语种表示训练所述基线网络，以优化所述基线网络的网络参数、所述初始对象表示和所述初始语种表示，包括：

利用所述音素编码子网络对所述第一音素进行编码，得到第一音素表示；

利用解码子网络对所述第一音素表示、所述初始对象表示和所述初始语种表示进行解码，得到第一预测语谱图；

基于所述第一预测语谱图和所述第二音频的第一实际语谱图之间的差异，优化所述基线网络的网络参数、所述初始对象表示和所述初始语种表示。

7.根据权利要求1所述的方法，其特征在于，所述预设语音网络包括基线网络以及与所述基线网络连接的语谱预测子网络，且所述基线网络包括音素编码子网络和解码子网络；所述语音合成模型的训练步骤包括：

提取所述第一音频的第二音素和第二实际语谱图；

利用所述音素编码子网络对所述第二音素进行编码，得到第二音素表示；

利用所述语谱预测子网络对所述第二音素表示进行预测，得到样本预测语谱表示，并基于所述第二实际语谱图得到样本实际语谱表示；

利用解码子网络对所述第二音素表示、所述样本实际语谱表示、所述对象特征表示和所述语种特征表示进行解码，得到第二预测语谱图；

基于所述第二预测语谱图和所述第二实际语谱图之间的差异，以及所述样本预测语谱表示和所述样本实际语谱表示之间的差异，优化所述预设语音网络的网络参数；

响应于所述预设语音网络的训练结果满足第二条件，得到所述语音合成模型。

8.根据权利要求7所述的方法，其特征在于，所述第二实际语谱图包含若干实际音频帧；所述基于所述第二实际语谱图得到样本实际语谱表示，包括：

基于所述第二实际语谱图，识别得到各个音素的第一时长；

对于每一所述音素，基于所述第一时长内的实际音频帧的统计值，得到所述音素的表示元素；

基于所述各个音素的表示元素，得到所述样本实际语谱表示。

9.根据权利要求7所述的方法，其特征在于，所述语音合成模型是所述预设语音网络经过若干轮训练得到的；所述基于所述第二预测语谱图和所述第二实际语谱图之间的差异，以及所述样本预测语谱表示和所述样本实际语谱表示之间的差异，优化所述预设语音网络的网络参数，包括：

基于所述第二预测语谱图和所述第二实际语谱图之间的差异，得到第一损失；

基于所述样本预测语谱表示和所述样本实际语谱表示之间的差异，得到第二损失；以及，

基于各个音素的预测时长和第二时长之间的差异，得到第三损失；其中，所述预测时长是所述解码子网络在解码过程中预测得到的，所述第二时长是预设时长预测网络对所述第二音素进行预测得到的；

分别利用第一权重、第二权重和第三权重对所述第一损失、第二损失和所述第三损失加权处理，得到总损失；其中，所述第三权重与训练轮次负相关；

基于所述总损失，优化所述预设语音网络的网络参数。

10.根据权利要求1所述的方法，其特征在于，所述语音合成模型包括基线网络以及与所述基线网络连接的语谱预测子网络，且所述基线网络包括音素编码子网络和解码子网络；所述利用语音合成模型对所述待合成音素、待合成对象的对象特征表示和所述待合成语种的语种特征表示进行合成处理，得到合成语谱图，包括：

利用所述音素编码子网络对所述待合成音素进行编码，得到待合成音素表示；

利用所述语谱预测子网络对所述待合成音素表示进行预测，得到待合成语谱表示；

利用所述解码子网络对所述待合成音素表示、所述待合成语谱表示、所述对象特征表示和所述语种特征表示进行解码，得到合成语谱图。

11.一种语音合成装置，其特征在于，包括：

音素获取模块，用于获取以待合成语种表达的待合成文本的待合成音素；

合成处理模块，用于利用语音合成模型对所述待合成音素、待合成对象的对象特征表示和所述待合成语种的语种特征表示进行合成处理，得到合成语谱图；

12.一种电子设备，其特征在于，包括相互耦接的存储器和处理器，所述存储器中存储有程序指令，所述处理器用于执行所述程序指令以实现权利要求1至10任一项所述的语音合成方法。

13.一种计算机可读存储介质，其特征在于，存储有能够被处理器运行的程序指令，所述程序指令用于实现权利要求1至10任一项所述的语音合成方法。