CN117235435B

CN117235435B - 确定音频信号损失函数的方法及装置

Info

Publication number: CN117235435B
Application number: CN202311522697.4A
Authority: CN
Inventors: 蒋正浩; 王建成
Original assignee: 4u Beijing Technology Co ltd
Current assignee: 4u Beijing Technology Co ltd
Priority date: 2023-11-15
Filing date: 2023-11-15
Publication date: 2024-02-20
Anticipated expiration: 2043-11-15
Also published as: CN117235435A

Abstract

本申请提供了一种确定音频信号损失函数的方法及装置，其中，该方法包括：获取由联合分布构成的联合分布集合，其中，所述联合分布中包括由语音合成样本的分布和真实音频数据的分布构成的联合样本对；计算所述语音合成样本的分布和所述真实音频数据的分布之间的所有联合样本对的平均值；在所述联合分布集合中找到使得所述平均值最小的联合分布，作为所述语音合成样本的分布和所述真实音频数据的分布之间的差异；通过所述差异，来确定用于衡量所述语音合成样本和所述真实音频数据之间损失的损失函数。本申请解决了现有语音合成技术中合成的语音不够逼真的技术问题。

Description

确定音频信号损失函数的方法及装置

技术领域

本申请涉及语音合成技术领域，具体而言，涉及一种确定音频信号损失函数的方法及装置。

背景技术

损失函数（Loss Function）是用于衡量模型的预测输出与实际目标值之间的差异或误差的函数。专利号为US11545163B2的美国专利提供了一种确定音频信号的损失函数的方法。在该方法中：通过量化原始输入信号来确定参考量化索引；将所述原始输入信号输入到神经网络分类器，并将激活函数应用于所述神经网络分类器的输出层；以及使用激活函数的输出和参考量化索引来确定神经网络分类器的总损失函数。

但是，上述方案仅使用激活函数的输出和参考量化索引来确定损失函数，未考虑到语音合成样本的分布和真实音频数据的分布。这种方法可能导致损失函数的确定并不准确。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本申请实施例提供了一种确定音频信号损失函数的方法及装置，以至少解决现有语音合成技术中合成的语音不够逼真的技术问题。

根据本申请实施例的一个方面，提供了一种确定音频信号损失函数的方法，包括：获取由联合分布构成的联合分布集合，其中，所述联合分布中包括由语音合成样本的分布和真实音频数据的分布构成的联合样本对；计算所述语音合成样本的分布和所述真实音频数据的分布之间的所有联合样本对的平均值；在所述联合分布集合中找到使得所述平均值最小的联合分布，作为所述语音合成样本的分布和所述真实音频数据的分布之间的差异；通过所述差异，来确定用于衡量所述语音合成样本和所述真实音频数据之间损失的损失函数。

根据本申请实施例的另一方面，还提供了一种确定音频信号损失函数的装置，包括：获取模块，被配置为获取由联合分布构成的联合分布集合，其中，所述联合分布中包括由语音合成样本的分布和真实音频数据的分布构成的联合样本对；计算模块，被配置为计算所述语音合成样本的分布和所述真实音频数据的分布之间的所有联合样本对的平均值；差异模块，被配置为在所述联合分布集合中找到使得所述平均值最小的联合分布，作为所述语音合成样本的分布和所述真实音频数据的分布之间的差异；确定模块，被配置为通过所述差异，来确定用于衡量所述语音合成样本和所述真实音频数据之间损失的损失函数。

根据本申请实施例的又一个方面，提供了一种语音合成方法，包括：利用上述损失函数确定方法确定的损失函数来进行语音合成。

根据本申请实施例的又一个方面，提供了一种语音合成装置，包括：如上所述的确定音频信号损失函数的装置；合成模块，被配置为利用所述确定音频信号损失函数的装置确定的损失函数来进行语音合成。

在本申请实施例中，获取由联合分布构成的联合分布集合，其中，所述联合分布中包括由语音合成样本的分布和真实音频数据的分布构成的联合样本对；计算所述语音合成样本的分布和所述真实音频数据的分布之间的所有联合样本对的平均值；在所述联合分布集合中找到使得所述平均值最小的联合分布，作为所述语音合成样本的分布和所述真实音频数据的分布之间的差异；通过所述差异，来确定用于衡量所述语音合成样本和所述真实音频数据之间损失的损失函数。通过上述方案，解决了现有语音合成技术中合成的语音不够逼真的技术问题。

附图说明

构成本申请的一部分的说明书附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请实施例的一种确定音频信号损失函数的方法的流程图；

图2是根据本申请实施例的一种语音合成方法的流程图；

图3是根据本申请实施例的一种提取空间向量的方法的流程图；

图4是根据本申请实施例的一种对抗训练的方法的流程图；

图5是根据本申请实施例的一种对数据进行筛选的方法的流程图；

图6是根据本申请实施例的一种语音合成模型的训练方法的流程图；

图7是根据本申请实施例的一种语音合成装置的结构示意图；

图8是根据本申请实施例的一种数据筛选方法的流程图；

图9是根据本申请实施例的另一种语音合成方法的流程图；

图10示出了适于用来实现本公开实施例的电子设备的结构示意图。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本申请的范围。同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论。在这里示出和讨论的所有示例中，任何具体值应被解释为仅仅是示例性的，而不是作为限制。因此，示例性实施例的其它示例可以具有不同的值。应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

实施例1

本申请实施例提供了一种确定音频信号损失函数的方法，如图1所示，该方法包括以下步骤：

步骤S102，获取由联合分布构成的联合分布集合，其中，所述联合分布中包括由语音合成样本的分布和真实音频数据的分布构成的联合样本对；

步骤S104，计算所述语音合成样本的分布和所述真实音频数据的分布之间的所有联合样本对的平均值；

在一些实施例中，对所述联合分布集合中的联合分布中的所有联合样本对进行期望操作。例如，遍历所述所有联合样本对，计算每个联合样本对之间的距离；基于所述距离，对所述联合分布集合中的联合分布中的所有联合样本对进行期望操作，得到所述期望值。然后，将所述期望操作得到的期望值，作为所述平均值。

在另外一些实施例中，遍历所述所有联合样本对，利用相似性度量方法计算每个联合样本对的相似性度量值；基于所述相似性度量值和所述所有联合样本对的数量，计算所述平均值。

步骤S106，在所述联合分布集合中找到使得所述平均值最小的联合分布，作为所述语音合成样本的分布和所述真实音频数据的分布之间的差异；

步骤S108，通过所述差异，来确定用于衡量所述语音合成样本和所述真实音频数据之间损失的损失函数。

对所述真实音频数据的分布中的样本进行期望操作得到所述真实音频数据的期望特性；基于所述真实音频数据的期望特性和所述差异，利用利普希茨约束来得到所述损失函数。

具体地，首先，将生成的语音合成样本与真实音频数据进行混合，形成混合后的样本。混合的目的在于引入真实音频数据的特征，使得生成的语音样本更接近真实情况。这里的真实音频数据可以是真人特有的说话习惯、口头禅等，以此来训练出更接近真人的语音。可以通过实施例3中的筛选方法筛选出真人特有的说话习惯、口头禅的训练数据，作为真实音频数据，即训练数据。

接着，利用多周期判别器，计算生成的语音合成样本和真实音频数据之间的对抗损失。对抗损失采用GAN（生成对抗网络）中的判别器损失，用于衡量生成样本与真实样本之间的相似度。

具体地，可以采用以下方法来计算语音合成样本和真实音频数据之间的对抗损失，例如，首先计算语音合成样本和真实音频数据之间的距离，之后，对所述距离进行期望操作，得到在真实音频数据分布和语音合成样本分布之间的所有联合样本对的平均值。然后，在所有联合分布集合中找到使得该平均值最小的联合分布，作为二者之间的差异。最后，基于差异计算对抗损失。

例如，可以使用以下公式计算该差异：

其中，p_data和 p_gen分别表示语音合成样本的分布和真实音频数据的分布，Π(p_data,p_gen)表示所有将 p_data转化为p_gen 的联合分布的集合，d(x,y) 表示两个样本 x 和y 之间的距离函数（例如欧氏距离）。其中，x 是来自语音合成样本的分布p_data中的样本，而y是来自真实音频数据的分布p_gen中的样本。γ表示所有将 p_data转化为p_gen 的联合分布的集合中的元素。E(x,y)~γ 表示对联合分布 γ 中的所有可能的样本对 (x,y) 进行期望（Expectation）操作。这个期望值表示了在真实音频数据分布和语音合成样本分布之间的所有联合样本对的平均值。换句话说，它表示了在整个数据空间中真实音频数据和语音合成样本之间的差异的期望值。inf_{γ∈Π(pdata, pgen)}表示在所有满足条件γ∈Π(pdata,pgen)的联合分布γ 中，找到使得E(x,y) 最小的那个联合分布γ。

本申请通过计算语音合成样本和真实音频数据之间的距离，并通过期望操作在两者分布之间寻找最小的平均差异，能够更加精确地衡量生成样本与真实样本之间的相似度。相较于简单地比较概率分布，本实施例考虑了两个分布之间的实际“移动”成本，更全面地评估了生成语音的质量。通过在整个数据空间中探测真实音频数据和语音合成样本之间的差异期望值，使得能够更准确地指导生成器网络的训练，提高语音合成的真实性和准确度。

例如，对抗损失函数可以表示为：

其中，D(x) 表示判别器的输出，||D||_L≤1表示判别器的Lipschitz约束（利普希茨约束）。可以引入一个参数范数（Weight Clipping）来满足Lipschitz连续性的要求，也可以使用梯度惩罚来实现。判别器的输出并不是0到1的概率值，而是一个实数，表示判别器认为输入样本是真实音频数据的程度。E(x,y)~p_data表示对真实音频数据分布中的样本对(x,y)进行期望操作，表示对真实数据的期望特性。

通过引入Lipschitz约束，确保判别器的输出具有连续性，并且对于输入样本（真实音频数据和语音合成样本对），判别器的输出是一个实数，代表判别器对输入样本为真实音频数据的信心程度。通过期望操作，能够更加全面地考虑真实音频数据的期望特性，从而提高了生成器网络的训练准确度，使得生成的语音合成样本更加贴近真实音频数据，增强了生成模型的性能和稳定性。

之后，动态调整学习率和损失权重。分析对抗损失的变化趋势。如果在一段时间内，对抗损失保持稳定或下降，说明生成器已经取得了一定的进展。在这种情况下，逐渐增加生成器的学习率和权重，以鼓励模型更快地学习和调整。如果对抗损失开始上升或波动，降低生成器的学习率和权重，避免让模型跳入局部最优解，持续寻找更好的生成策略。

生成器和多周期判别器的参数都会得到更新，以逐渐提高生成语音的质量和自然度。通过这样的对抗训练过程，生成器不断学习如何生成更逼真的语音波形，而多周期判别器则不断提供关于生成质量的反馈。随着训练的进行，语音合成模型将逐渐接近真实音频的特征，实现高质量语音合成的目标。

最后，可以利用损失函数生成合成语音。生成器和多周期判别器在学习之后，将输入的文本合成为语音。

现有语音合成技术虽然在音色、风格和原说话人的接近度方面有所进展，但在逼真度方面仍然存在问题，使得合成语音仍然能被辨别出是机器合成而非真人说话。因此，本申请旨在提升语音合成技术，实现无法区分真人与机器的自然语音合成。

本申请采用先进的语音信号处理技术，提取说话人的基频、能量、音速时长、梅尔频谱等特征。通过训练说话人编码器，结合Transformer（变换器）的文本特征提取和Wave2Vec（波形向量）技术的声音空间向量提取，再利用多周期判别器进行对抗训练。这一创新性的技术组合使得生成的语音更加真实、自然，难以与真人语音区分开来。同时，在训练数据中加入真人特有的说话习惯、口头禅等，进一步训练出更加接近真人的语音。

实施例2

本申请实施例提供了一种语音合成方法，如图2所示，该方法包括以下步骤：

步骤S202，音频特征提取。

使用音频信号处理技术，从训练数据中提取基频、能量、音速时长、梅尔频谱等音频特征。这些特征在语音合成中起到了关键作用，它们代表了语音信号的重要属性。

步骤S204，语音特征编码器训练。

建立一个语音特征编码器即说话人编码器，利用提取的音频特征进行训练。该编码器负责将提取的音频特征转化为一个特定的编码，用以表示说话人的语音特征。

步骤S206，文本特征提取。

使用Transformer等自然语言处理模型，对输入的文本进行编码，得到文本特征。这些特征表示了输入文本的语法、语义和上下文信息，是语音合成中的重要输入。该编码器的任务是将从音频中提取的丰富特征转化为一个高维、具体的编码向量，以捕捉说话人独特的语音特征。

首先，在建立编码器之前，需要选择适当的深度学习架构，本实施例选择变换器（Transformer）。接下来，选择合适的损失函数。本实施例使用三元组损失（Triplet Loss）或对比损失（Contrastive Loss）来训练编码器。三元组损失通过确保同一说话人的样本在编码空间中更近，不同说话人的样本在编码空间中更远，从而促使编码器学习到区分不同说话人的能力。对比损失则通过最大化同一说话人样本对的相似度，最小化不同说话人样本对的相似度，来实现相似度的优化。

在训练过程中，可以引入说话人标签信息，将编码器设计为具有说话人分类能力的多任务学习模型。这样，编码器不仅能够捕捉通用的语音特征，还能够区分不同说话人的特定特征。

此外，在编码器训练的过程中，可以使用批量归一化（Batch Normalization）和残差连接（Residual Connections）等技术，以加速训练收敛，提高模型的稳定性和泛化能力。

步骤S208，声音空间向量提取。

利用Wave2Vec或类似的技术，从音频中提取声音的空间向量。如图3所示，提取空间向量的方法包括以下步骤：

步骤S2082，音频特征提取。

使用Wave2Vec或类似技术，将预处理后的音频数据转化为声音的空间向量。Wave2Vec是一种自监督学习的方法，它能够将语音波形映射为高维度的向量空间，保留语音的重要特征。这个向量包含了声音的频谱、韵律、音调等信息，是实现语音合成的基础。

步骤S2084，向量特性分析。

提取的声音空间向量经过特性分析，包括频谱分析、时频分析等。这些分析有助于了解向量中包含的语音特征，指导后续模型训练和优化。

为了保证不同音频片段之间的一致性，在提取的声音空间向量上进行归一化和标准化操作。这确保了不同说话人、不同语速的语音数据在后续处理中具有可比性。

步骤S2086，特征选择和降维。

对提取的高维度向量进行特征选择和降维操作，选择最具代表性的特征，并减少数据的复杂度。常用的技术包括主成分分析（PCA）和t分布邻域嵌入（t-SNE）等。

步骤S2088，声音模式建模。

建立声音的模型，将不同语音特征映射到相应的声音模式。这个步骤涉及到机器学习和深度学习技术，例如自编码器（Autoencoder）或变分自编码器（VariationalAutoencoder），以便将高维向量映射为语音模式的低维表示。

通过对模型的输出进行验证，评估生成的声音空间向量是否具有良好的语音特征表达能力。根据验证结果，进行模型的调优，调整网络结构、学习率或训练数据的组织。这些步骤确保了从原始音频数据中提取出具有高度代表性的声音空间向量，为接下来的语音合成过程提供了精准、自然的输入特征。

步骤S210，多周期判别器的对抗训练。

将提取到的音频特征、文本特征和声音空间向量输入到深度学习模型中，进行训练和优化。在语音合成模型的解码端引入多周期判别器，用来进行对抗训练。这样，在生成语音的过程中，模型会受到多个层面的判别，使得生成的语音更接近真实语音，具有更高的逼真度。

具体地，如图4所示，对抗训练包括以下步骤：

步骤S2102，特征融合与输入准备。

将从音频、文本和声音空间向量提取的特征融合成一个综合特征向量。例如，利用特征的拼接、堆叠或加权平均等方法，使得输入到深度学习模型的特征是完整、一致的。

步骤S2104，多周期判别器网络设计。

构建多周期判别器的深度学习网络结构。这个判别器可以由多个独立的判别器组成，每个判别器负责判别不同时间尺度（周期）下的语音特征。例如，可以设置判别器用于短时特征，另一个用于中时特征，以及一个用于长时特征。这样能够使模型更好地捕捉语音信号在不同时间尺度上的特性。

选择对抗训练策略。可以采用生成对抗网络（GAN）的结构，其中生成器负责生成语音，多周期判别器则负责判别生成语音的真实性。也可以考虑引入循环对抗生成网络（CycleGAN）等变种结构，以便更好地保持语音的一致性和真实性。

最后，定义适当的损失函数，用于衡量生成语音与真实语音之间的差异。损失函数包括多周期判别器的判别损失，以及可能的重构损失、对抗损失等，确保生成的语音在多个层面上都具有高度的真实性。

步骤S2106，进行训练。

在训练中，将生成器、多周期判别器整合到一个统一的框架中。通过对抗训练，生成器不断优化以欺骗多周期判别器，而多周期判别器则不断提高对真实语音的识别能力。训练过程可能需要迭代多轮，以确保模型收敛到稳定状态。在训练时，采用实施例3中的方法来对数据进行筛选，并利用筛选出的数据来进行对抗训练。

在训练过程中引入实时反馈机制，监测生成语音的质量。根据实时反馈结果，可以调整训练策略、模型结构或超参数，以使得生成的语音更加逼真和自然。

通过以上步骤，多周期判别器的对抗训练能够使生成的语音在不同时间尺度上具有高度的真实性，更好地模拟真实语音的特征，使得最终的语音合成效果更加接近真实语音。

实施例3

本申请实施例提供了一种数据筛选方法，如图5所示，该方法包括以下步骤：

步骤S502，音频特征提取。

首先从训练数据中采用先进的音频信号处理技术，包括基频、能量、音速时长和梅尔频谱等音频特征的提取。其中，基频表示声音的基本频率，能量代表声音的强度，音速时长反映了语音中的音节和音素的时长，而梅尔频谱则是声音在不同频率下的能量分布。

步骤S504，初始化聚类中心。

如果不存在聚类中心，系统会随机选择训练数据中的一个音频特征作为初始聚类中心。然后，系统会计算未被归类的每个音频特征到初始聚类中心的距离。这样，确保对特征之间相似度的准确评估。通过这种方法，能够在没有预设中心的情况下，快速而准确地为聚类过程设定初始参数。

步骤S506，进行聚类。

进行聚类的方法包括以下步骤：

1）计算距离。

为确保准确性和效率，本实施例将采用高度优化的距离计算方法。针对每个未被归类的音频特征，系统将分别计算其特征向量到各个聚类中心的距离。在这个过程中，可以选择使用欧氏距离作为一种标准距离度量方法。欧氏距离是一种直观且常用的度量方式，能够有效衡量特征向量之间的相似度。当然，也可以考虑使用其他距离度量方法，以便更好地适应不同的数据特点和聚类需求。通过这种精确的距离计算，系统能够在保证准确性的同时，提高计算效率，为后续的聚类过程提供可靠支持。

2）判断距离门限。

判断距离门限是为了确定是否将当前音频特征分配到已有簇或者新建一个簇。这一步骤至关重要，因为它直接影响到聚类的准确性和有效性。为了确保高质量的聚类结果，将采用动态调节的距离门限策略。

具体而言，系统将会根据当前数据的分布情况和聚类过程中的动态变化，自适应地调整距离门限。如果数据点之间的距离波动较小，系统将适当降低距离门限，以便更多的音频特征被归类到已有的簇中。反之，如果距离波动较大，系统将提高距离门限，以确保新建的簇不会包含过多的噪声数据。

通过这种动态调节的策略，系统能够在不同数据情境下灵活应对，保证了聚类的稳定性和可靠性。这样一来，判断距离门限的过程不再是一个静态的判定，而是根据数据动态特性的智能调节，使得整个聚类过程更加智能、高效。

3）新建簇或归类。

如果距离大于门限，系统将建立一个新的簇。在这种情况下，当前的音频特征被认为与已有的簇不相似，因此需要独立形成一个新的簇。在建立新簇的同时，该音频特征会被分类至新簇，并且它的特征向量将被作为新簇的聚类中心。这种处理方式确保了系统对于新的、不同于已有簇的音频特征能够有明确的辨识和分类。

另一方面，如果距离小于或等于门限，并且与距离中最小的距离相应的簇已经存在，系统将把该音频特征归类到这个最接近的簇中。这样做的目的是确保相似的音频特征被归纳到相同的簇中，从而实现簇内的高度相似性。

通过这种新建簇或归类的策略，系统可以在不断变化的数据分布中灵活适应，确保聚类结果的精准性和稳定性，使得最终的音频特征聚类更加符合实际情况，为后续的音频处理和分析提供可靠的基础。

4）更新聚类中心。

对于每个现有的簇，系统会计算该簇内所有音频特征的特征向量的平均值。系统将对簇内所有音频特征的数值进行累加，并除以簇内特征的数量，得到一个新的特征向量，代表了该簇内所有音频特征的平均特性。这个新的特征向量将被作为该簇的新聚类中心。

这样能够确保每个簇的聚类中心更加准确地反映了该簇内部音频特征的平均特性。通过使用平均值作为聚类中心，系统降低了异常值的影响，提高了聚类中心的稳定性。这种方式可以在聚类过程中动态地调整聚类中心，使得它们更好地代表各自的簇，为后续的数据分析和应用提供更为可靠的基础。

步骤S508，特征分析和筛选。

首先，系统将从每个簇中提取特征，包括基频、能量、音速时长和梅尔频谱等多个音频特征。提取这些特征的目的是为了描述每个簇内部音频数据的特性。这些特征将会被用于后续的分析。

接下来，系统将分析每个簇的特征分布，包括计算特征的均值、方差、偏度和峰度等统计量，以及绘制直方图或密度图等可视化手段。通过这些分析，系统可以了解每个簇内部特征的分布情况，确定是否存在特定的音频模式。

在特征分析的基础上，系统将根据预设的筛选条件对音频模式进行筛选。这些筛选条件可以是特征数值的范围、分布形状等特定规则。符合这些条件的音频模式将被保留，而不符合条件的模式将被剔除。

本申请使得系统能够深入挖掘每个簇的特性，根据实际需求对音频数据进行更为精细和个性化的分类和分析。

实施例4

本申请实施例提供了又一种语音合成方法，如图6所示，该训练方法包括：

步骤S602，利用语音信号处理技术从待克隆对象的音频数据中提取音频特征，其中，所述音频特征包括基频、能量、音速时长、和梅尔频谱。

利用语音信号处理技术从待克隆对象的音频数据中提取多维音频特征，例如，基频、能量、音速时长、和梅尔频谱。这些特征的提取使得能够捕捉音频数据的不同方面，从而为生成自然语音提供基础。

基频是声音中的基本频率，即声音的音调。在音频信号中，基频通常表现为周期性的振动。提取基频涉及到自相关函数、霍夫曼-黄变换等算法，这些算法能够确定声音信号中的周期性振动，从而得到基频信息。

声音的能量反映了声音的强度，代表了声音的响度。在音频信号中，能量通常与信号的振幅相关。通过对音频信号进行幅度计算，可以得到声音的能量信息。

音速时长表示一个音节、一个音素或一个声段的持续时间。在语音合成中，确定每个音节的持续时间对于生成自然语音非常重要。音速时长通过语音信号的时域分析来确定，包括语音信号的分帧、端点检测等处理步骤。

梅尔频谱的系数是描述声音频谱特性的系数，梅尔频率倒谱系数是通过对音频信号进行傅立叶变换（FFT）得到频谱，然后将频谱转换到梅尔刻度（Mel scale）上，再进行倒谱变换（cepstral analysis）得到的。

步骤S604，在编码端使用编码器从所述音频数据中提取文本特征，并使用自监督学习方法从所述音频数据中提取声音的空间向量。

首先，提取文本特征。将输入的文本句子分割成单词或子词单元，使得每个单元都能被独立处理。将分词后的单词或子词转换为密集向量表示。使用预训练的词嵌入模型（例如Word2Vec、GloVe、BERT等）来获取单词或子词的语义信息。然后，将文本中的嵌入向量序列输入到循环神经网络（RNN）或者变换器（Transformer）等模型中，以便捕捉文本的上下文信息。

接着，提取空间向量。使用自监督学习方法通过滑动卷积核在时间维度上从所述音频数据中提取局部特征和时间依赖关系；按照所述时间依赖关系，将所述局部特征映射到维度小于预设维度的空间，形成所述声音的空间向量。

具体地，在音频数据上使用滑动卷积核进行卷积操作，从而提取局部特征。卷积核的大小是根据声音的时间维度和频率维度进行选择，以捕捉不同尺度的特征。捕捉音频信号中的时间依赖关系非常重要。可以通过循环神经网络（RNN）、长短时记忆网络（LSTM）、或者具有时间注意力机制的模型来实现。这些方法能够学习到音频信号中特征之间的时序关系。之后，将得到的高维特征映射到维度小于预设维度的空间，形成声音的空间向量。本实施例利用文本和音频特征，使得生成的语音合成样本更具自然度和连贯性。

步骤S606，基于所述音频特征、所述文本特征、和所述空间向量，生成维度大于预设维度的特征向量矩阵。

1）音频特征整合。音频特征包括基频、能量、音速时长和梅尔频谱等。这些特征具有不同的维度。在整合过程中，可以进行归一化或标准化操作，以确保它们具有相似的数值范围。音频特征是时序数据，所以需要将它们分割成固定长度的时间窗口，并将每个时间窗口的特征堆叠成一个向量。

2）文本特征整合。文本特征是嵌入向量，每个单词或子词被映射为一个固定维度的向量。如果输入文本是一个句子或段落，可以使用循环神经网络（RNN）或者变换器（Transformer）等模型将这些词级别的嵌入向量整合成一个句子级别的特征向量。

3）空间向量整合。空间向量是通过自监督学习方法得到的，通常是局部特征和时间依赖关系的抽象表示。这些向量可能具有较高的维度，因此需要通过降维技术（如主成分分析PCA）将其映射到与音频特征和文本特征相近的维度。

4）形成特征向量矩阵。将整合后的音频特征、文本特征和空间向量按照特定顺序堆叠起来，形成一个维度大于预设维度的特征向量矩阵。每一列代表一个样本的特征向量，而每行对应于特定的特征维度。

5）特征选择和降维。使用特征选择方法（例如互信息、方差阈值等）来排除对模型无用的特征，以减少计算负担和提高模型性能。如果特征向量的维度仍然很高，可以使用降维技术（例如主成分分析PCA、t-SNE等）将其映射到一个更低维度的空间，以保留最重要的特征信息。

本实施例确保了从不同来源提取的特征能够被有机地整合在一起，形成一个高维度的特征向量矩阵，为后续的对抗训练提供了更丰富的输入信息。

步骤S608，基于所述特征向量矩阵，在解码端利用多周期判别器的对抗训练，来进行语音合成。

在解码端，利用生成器将所述特征向量矩阵中的特征向量映射为语音波形，生成语音合成样本；将所述语音合成样本与真实音频数据混合，利用所述多周期判别器对混合后的所述语音合成样本与真实音频数据进行对抗训练。例如，利用所述多周期判别器计算所述语音合成样本和所述真实音频数据之间的对抗损失；基于所述对抗损失，所述多周期判别器动态调整所述生成器的学习率和损失权重，以进行所述对抗训练。例如，分析所述对抗损失的变化趋势；在所述对抗损失在一段时间内保持稳定或下降，逐渐增加所述生成器的学习率和权重；在所述对抗损失在一段时间内开始上升或波动，降低所述生成器的学习率和权重。

实施例5

本申请实施例提供了一种语音合成装置，如图7所示，包括：获取模块72、聚类模块74、合成模块76。

获取模块72被配置为获取训练数据，从所述训练数据中提取音频特征，其中，所述音频特征包括基频、能量、音速时长、和梅尔频谱；聚类模块74被配置为利用聚类算法对所述音频特征进行聚类，以将所述训练数据分成不同的簇，其中，每个簇代表相似的音频模式；合成模块76被配置为通过分析所述不同的簇的特征，来对所述不同的簇进行筛选，并利用所述筛选出的簇中的训练数据来进行语音合成。

需要说明的是：上述实施例提供的语音合成装置，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的语音合成装置与语音合成方法实施例属于同一构思，其具体实现过程详见方法实施例，此处不再赘述。

本申请实施例还提供了一种数据筛选装置，包括：聚类模块，被配置为从样本数据中提取音频特征，利用聚类算法对所述音频特征进行聚类，以将所述样本数据分成不同的簇；计算模块，被配置为利用聚类评估指标依次计算所述不同的簇中每两个簇的差异值；筛选模块，被配置为基于所述差异值，将特征均值与所述不同的簇中的其他簇的特征均值不同的簇筛选出来，作为具有显著性水平的样本数据。

实施例6

本申请实施例提供了一种数据筛选方法，如图8所示，该方法包括以下步骤：

步骤S802，从样本数据中提取音频特征，利用聚类算法对所述音频特征进行聚类，以将所述样本数据分成不同的簇。

分别计算所述音频特征中每一个未被归类的音频特征的特征向量到各个簇的聚类中心的距离；在所述距离皆大于预设距离门限的情况下，建立新的簇，将该未被归类的音频特征分类至所述新的簇，并将该未被归类的音频特征的特征向量作为所述新的簇的聚类中心；否则，将该未被归类的音频特征分类至与各个所述距离中最小的距离相应的簇。

步骤S804，利用聚类评估指标计算所述不同的簇中每两个簇的差异值。

在一些实施例中，基于所述每两个簇的样本均值、样本方差、样本数量，来计算所述每两个簇的差异值。

在另外一些实施例中，基于所述每两个簇之间的簇间均方和所述不同的簇中每个簇的簇内均方，来计算所述每两个簇的差异值。例如，基于所述每两个簇的簇均值与总体均值之差的平方和，来计算所述簇间均方；基于所述不同的簇中每个簇的内部样本数据的平方和以及内部样本数据的个数，来计算所述簇内均方；计算所述簇间均方和所述簇内均方的比值，作为所述差异值。本实施例通过计算每两个簇之间的簇间均方和不同簇中每个簇的簇内均方，量化了簇之间的差异值。从而能够更准确地评估不同簇之间的差异，为数据分析和决策提供有益的参考。

步骤S806，基于所述差异值，将特征均值与所述不同的簇中的其他簇的特征均值不同的簇筛选出来，作为具有显著性水平的样本数据。

在所述差异值大于预设临界阈值的情况下，确定所述每两个簇的特征均值相同，否则确定所述每两个簇的特征均值不同；计算特征均值不同的簇和特征均值相同的簇的比例，并在所述比例小于预设的显著性水平的情况下，将所述特征均值不同的簇筛选出来。本实施例能够有效地识别数据中特征均值差异显著的簇，为数据分析和挖掘提供了有益的效果，帮助用户更精确地理解数据集中的特征差异。

本实施例中筛选出的数据可以用于对抗训练，以生成合成语音。

实施例7

本申请实施例提供了一种语音合成方法，如图9所示，该方法包括以下步骤：

步骤S902，获取训练数据，从所述训练数据中提取音频特征，其中，所述音频特征包括基频、能量、音速时长、和梅尔频谱。

首先，提取音频特征。收集说话人的语音样本作为训练数据，并从这些语音样本中提取出重要的音频特征。这些特征可以包括基频、能量、音速时长、和梅尔频谱。基频代表了语音中声音的音调高低。不同说话人和不同情感状态下的基频有所差异。能量特征表示语音信号的强度或音量。在语音合成中，正确捕捉说话人的音量变化可以使合成语音更加生动自然。音速时长指的是语音信号中各个音素（语音中的最小音段单位）的持续时间。不同的音素在不同语境下会有变化。梅尔频谱是语音信号在频域上的表示，它模拟了人类听觉系统对声音的感知。

接着，对音频特征进行处理。例如，计算所述音频特征的均值和标准差；基于所述均值和标准差，将所述音频特征的特征值转化为标准化的值，以对所述音频特征进行标准化处理。本实施例通过计算音频特征的均值和标准差，能够了解到这些特征在训练数据集中的分布情况，从而更好地理解说话人的语音特性。将这些特征值转化为标准化的形式，使得它们符合标准正态分布，进而简化了模型的训练和优化过程。这种标准化处理使得语音合成系统更容易捕捉到训练数据中微妙的音频特征，从而生成更加自然、流畅的合成语音。通过这种方法，合成的语音更能够贴近真实语音，提供给用户更加真实、高质量的语音体验。

步骤S904，利用聚类算法对所述音频特征进行聚类，以将所述训练数据分成不同的簇，其中，每个簇代表相似的音频模式。

首先，分别计算所述音频特征中每一个未被归类的音频特征的特征向量到各个簇的聚类中心的距离。例如，在不存在聚类中心的情况下，取所述音频特征中的任意一个音频特征的特征向量作为初始聚类中心，并计算所述音频特征中每一个未被归类的音频特征的特征向量到所述初始聚类中心的距离；在已有聚类中心的情况下，分别计算所述音频特征中每一个未被归类的音频特征的特征向量到各个所述已有聚类中心的距离。

本实施例通过分别计算每个未归类音频特征与现有簇的聚类中心的距离，可以动态地为每个音频特征寻找最匹配的聚类簇。在无现有聚类中心的情况下，会以任意音频特征为基准，逐一计算其他未归类音频特征与此基准的距离，确保了聚类的起始准确性。而在已有聚类中心的情况下，则精准测量每个未归类音频特征与每个现有簇的距离，从而更加智能地将其分配到最相似的簇中。

然后，在所述距离皆大于预设距离门限的情况下，建立新的簇，将该未被归类的音频特征分类至所述新的簇，并将该未被归类的音频特征的特征向量作为所述新的簇的聚类中心；否则，将该未被归类的音频特征归属为与各个所述距离中最小的距离相应的簇。在将该未被归类的音频特征归属为与各个所述距离中最小的距离相应的簇之后，计算与所述最小的距离相应的簇内所有音频特征的特征向量的平均值，将所述平均值作为与所述最小的距离相应的簇的新的聚类中心。

本实施例通过智能的距离计算和聚类策略，为音频特征的归类提供了高度精准的指导。在处理未被归类的音频特征时，首先在距离超过预设门限的情况下，建立新的簇并将该特征归类到新簇，以确保类别划分的准确性。而在距离未超过门限的情况下，将该特征归入与其距离最小的现有簇中，确保每个音频特征都被赋予最合适的分类。更进一步，在将特征归属到相应簇后，系统智能地计算该簇内所有音频特征的平均值，并将其作为新的聚类中心。这种方法确保了簇内音频特征的紧密聚合，使得每个簇的代表性更强。这种高度智能化的聚类过程保证了合成语音的质量和准确性，使得生成的语音更加符合真实语音的特征，提供给用户更加自然、高度逼真的听觉体验。

步骤S906，通过分析所述不同的簇的特征，来对所述不同的簇进行筛选，并利用所述筛选出的簇中的训练数据来进行语音合成。

首先，通过分析所述不同的簇的特征，来对所述不同的簇进行筛选。例如，从每个簇中的训练数据中提取特征，得到所述每个簇的特征，并分析所述每个簇的特征的分布，确定所述每个簇的音频模式；基于预设筛选条件，来对所述音频模式进行筛选，以筛选出符合所述预设筛选条件的音频模式对应的簇。

本实施例通过详细分析这些特征的分布和差异，能够确定每个簇的特定音频模式，也就是每个簇所代表的独特语音特性。随后，基于预设的筛选条件，能够智能地对这些音频模式进行筛选。这种智能筛选确保了仅有符合预设条件的音频模式被选中，从而使得合成的语音更贴近用户的需求和期待。通过这种方式，能够提供给用户更加个性化、高度定制的语音合成体验。

接着，利用所述筛选出的簇中的训练数据来进行语音合成。例如，利用语音信号处理技术从所述筛选出的簇中的训练数据中提取声音特征和文本特征，并使用自监督学习方法从所述筛选出的簇中的训练数据中提取声音的空间向量；基于所述声音特征、所述文本特征、和所述空间向量，利用多周期判别器在解码端来进行对抗训练，以得到语音合成模型；利用所述语音合成模型来进行语音合成。

本实施例从经过精细筛选的簇中提取的声音特征、文本特征和空间向量为合成过程提供了高质量的数据基础。这些特征的提取采用了先进的语音信号处理技术，确保了训练数据的准确性和多样性。此外，本实施例利用自监督学习方法，结合声音特征、文本特征和空间向量，通过多周期判别器的对抗训练，在解码端实现了精细的语音模型调整。这种调整使得合成模型能够更好地捕捉音频特征和语音内容之间的对应关系，生成更加自然、流畅的语音输出。通过这种方式，合成的语音不再仅仅是简单的音频合并，而是能够根据训练数据的特性，灵活地调整合成语音，达到高度逼真、个性化的语音效果。这种智能调整和优化为语音合成技术带来了更高的真实度和用户满意度。

实施例8

图10示出了适于用来实现本公开实施例的电子设备的结构示意图。需要说明的是，图10示出的电子设备仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图10所示，该电子设备包括中央处理单元(CPU)1001，其可以根据存储在只读存储器(ROM)1002中的程序或者从存储部分1008加载到随机访问存储器(RAM)1003中的程序而执行各种适当的动作和处理。在RAM 1003中，还存储有系统操作所需的各种程序和数据。CPU1001、ROM 1002以及RAM 1003通过总线1004彼此相连。输入/输出(I/O)接口1005也连接至总线1004。

以下部件连接至I/O接口1005：包括键盘、鼠标等的输入部分1006；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分1007；包括硬盘等的存储部分1008；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分1009。通信部分1009经由诸如因特网的网络执行通信处理。驱动器1010也根据需要连接至I/O接口1005。可拆卸介质1011，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器1010上，以便于从其上读出的计算机程序根据需要被安装入存储部分1008。

特别地，根据本公开的实施例，下文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分1009从网络上被下载和安装，和/或从可拆卸介质1011被安装。在该计算机程序被中央处理单元(CPU)1001执行时，执行本申请的方法和装置中限定的各种功能。在一些实施例中，电子设备还可以包括AI( ArtificialIntelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

需要说明的是，本公开所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现，所描述的单元也可以设置在处理器中。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定。

作为另一方面，本申请还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。

上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该电子设备执行时，使得该电子设备实现如下述实施例中所述的方法。例如，所述的电子设备可以实现上述方法实施例的各个步骤等。

上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在上述计算机可读取的存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在存储介质中，包括若干指令用以使得一台或多台计算机设备（可为个人计算机、服务器或者网络设备等）执行本申请各个实施例所述方法的全部或部分步骤。

在本申请的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的终端设备，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上所述仅是本申请的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种语音合成方法，其特征在于，包括：

获取由联合分布构成的联合分布集合，其中，所述联合分布中包括由语音合成样本的分布和真实音频数据的分布构成的联合样本对，其中，所述真实音频数据经过数据筛选；

计算所述语音合成样本的分布和所述真实音频数据的分布之间的所有联合样本对的平均值；

在所述联合分布集合中找到使得所述平均值最小的联合分布，作为所述语音合成样本的分布和所述真实音频数据的分布之间的差异；

通过所述差异，来确定用于衡量所述语音合成样本和所述真实音频数据之间损失的损失函数；

基于所述损失函数进行语音合成；

其中，所述损失函数通过以下得到：

；其中，D(x)表示判别器的输出，||D||_L≤1表示判别器的利普希茨约束；E(x,y)∼p_data表示对真实音频数据分布中的样本对 (x,y)进行期望操作，W(Pdata,Pgen) 表示所述差异；

其中，基于所述损失函数进行语音合成包括：利用语音信号处理技术从待克隆对象的音频数据中提取音频特征，其中，所述音频特征包括基频、能量、音速时长、和梅尔频谱；在编码端使用编码器从所述音频数据中提取文本特征，并使用自监督学习方法从所述音频数据中提取声音的空间向量；基于所述音频特征、所述文本特征、和所述空间向量，生成维度大于预设维度的特征向量矩阵；基于所述特征向量矩阵，在解码端利用多周期判别器的对抗训练，来进行语音合成；

其中，数据筛选包括：音频特征提取；初始化聚类中心；计算距离并判断距离门限；基于所述距离和所述距离门限新建簇或归类，并更新每个簇的聚类中心；然后，对所述每个簇进行特征分析和筛选，以获取每个簇内部特征的分布情况，确定所述每个簇是否存在预设的音频模式；根据预设的筛选条件对音频模式进行筛选，符合所述筛选条件的音频模式将被保留，而不符合所述筛选条件的模式将被剔除，其中，所述筛选条件包括特征数值的范围和分布形状。

2.根据权利要求1所述的方法，其特征在于，计算所述语音合成样本的分布和所述真实音频数据的分布之间的所有联合样本对的平均值，包括：

对所述语音合成样本的分布和所述真实音频数据的分布之间的所有联合样本对进行期望操作；

将所述期望操作得到的期望值，作为所述平均值。

3.根据权利要求2所述的方法，其特征在于，对所述语音合成样本的分布和所述真实音频数据的分布之间的所有联合样本对进行期望操作，包括：

遍历所述所有联合样本对，计算所述所有联合样本对中每个联合样本对之间的距离；

基于所述距离，对所述语音合成样本的分布和所述真实音频数据的分布之间的所有联合样本对进行期望操作，得到所述期望值。

4.根据权利要求1所述的方法，其特征在于，计算所述语音合成样本的分布和所述真实音频数据的分布之间的所有联合样本对的平均值，包括：

遍历所述所有联合样本对，利用相似性度量方法计算所述所有联合样本对中每个联合样本对的相似性度量值；

基于所述相似性度量值和所述所有联合样本对的数量，计算所述平均值。

5.根据权利要求1所述的方法，其特征在于，通过所述差异，来确定用于衡量所述语音合成样本和所述真实音频数据之间损失的损失函数，包括：

对所述真实音频数据的分布中的样本进行期望操作得到所述真实音频数据的期望特性；

基于所述真实音频数据的期望特性和所述差异，利用利普希茨约束来得到所述损失函数。

6.一种语音合成装置，其特征在于，包括：

获取模块，被配置为获取由联合分布构成的联合分布集合，其中，所述联合分布中包括由语音合成样本的分布和真实音频数据的分布构成的联合样本对，其中，所述真实音频数据经过数据筛选；

计算模块，被配置为计算所述语音合成样本的分布和所述真实音频数据的分布之间的所有联合样本对的平均值；

差异模块，被配置为在所述联合分布集合中找到使得所述平均值最小的联合分布，作为所述语音合成样本的分布和所述真实音频数据的分布之间的差异；

确定模块，被配置为通过所述差异，来确定用于衡量所述语音合成样本和所述真实音频数据之间损失的损失函数；

合成模块，被配置为基于所述损失函数进行语音合成；

其中，所述损失函数通过以下得到：

其中，所述合成模块被配置为：利用语音信号处理技术从待克隆对象的音频数据中提取音频特征，其中，所述音频特征包括基频、能量、音速时长、和梅尔频谱；在编码端使用编码器从所述音频数据中提取文本特征，并使用自监督学习方法从所述音频数据中提取声音的空间向量；基于所述音频特征、所述文本特征、和所述空间向量，生成维度大于预设维度的特征向量矩阵；基于所述特征向量矩阵，在解码端利用多周期判别器的对抗训练，来进行语音合成；

其中，所述数据筛选包括：音频特征提取；初始化聚类中心；计算距离并判断距离门限；基于所述距离和所述距离门限新建簇或归类，并更新每个簇的聚类中心；然后，对所述每个簇进行特征分析和筛选，以获取每个簇内部特征的分布情况，确定所述每个簇是否存在预设的音频模式；根据预设的筛选条件对音频模式进行筛选，符合所述筛选条件的音频模式将被保留，而不符合所述筛选条件的模式将被剔除，其中，所述筛选条件包括特征数值的范围和分布形状。

7.一种电子设备，其特征在于，包括：

存储器，被配置为存储计算机程序；

处理器，被配置为在所述程序运行时，使得计算机执行如权利要求1至5中任一项所述的方法。

8.一种计算机可读存储介质，其上存储有程序，其特征在于，在所述程序运行时，使得计算机执行如权利要求1至5中任一项所述的方法。