CN117095670A

CN117095670A - 语音生成方法和装置、存储介质及电子设备

Info

Publication number: CN117095670A
Application number: CN202311066774.XA
Authority: CN
Inventors: 顾宇; 翁超; 朱秋实
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2023-08-22
Filing date: 2023-08-22
Publication date: 2023-11-21

Abstract

本发明公开了一种语音生成方法和装置、存储介质及电子设备。其中，该方法包括：使用第一语音样本集合和预设的第一自监督预训练模型对待训练的声码器进行训练，得到目标声码器；使用第一文本集合、预设的第二自监督预训练模型和第二语音样本集合对待训练的声学模型进行训练，得到目标声学模型；使用目标声学模型和目标声码器将第一文本集合中的每个文本转换成对应的一段语音的波形信息。本发明解决了语音生成的质量较差的技术问题。

Description

语音生成方法和装置、存储介质及电子设备

技术领域

本发明涉及人工智能技术领域，具体而言，涉及一种语音生成方法和装置、存储介质及电子设备。

背景技术

TTS(Text To Speech，文本转语音)技术是一种用于从文本中合成自然、智能的语音的技术，得益于深度学习的发展，当前可以使用干净语音数据对基于神经网络的TTS模型进行训练，这种情况下，训练出的TTS模型可以合成高质量的语音。然而，干净语音数据的采集需要安静的环境和高质量的录音设备，例如专业的语音工作室，这可能会导致高昂的数据收集成本。与此同时，噪声语音数据很容易收集，而且数量庞大。因此，当前训练TTS模型主流的方案是：使用语音增强模型先对噪声语音数据进行去噪，然后使用增强后的语音数据训练TTS模型。

上述语音增强模型对于简单的噪声语音数据增强效果良好，但是在面对复杂的噪声语音数据时，增强后的语音数据容易受到语音失真和噪声的影响，从而影响TTS模型的训练，最终导致训练出的TTS模型生成语音的效果不佳。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种语音生成方法和装置、存储介质及电子设备，以至少解决语音生成的质量较差的技术问题。

根据本发明实施例的一个方面，提供了一种语音生成方法，包括：

使用第一语音样本集合和预设的第一自监督预训练模型对待训练的声码器进行训练，得到目标声码器，其中，所述第一语音样本集合中的每个语音样本包括不带噪声的一段语音的第一原始波形信息，所述第一自监督预训练模型用于根据输入的所述第一原始波形信息生成对应的第一声学特征，所述待训练的声码器用于根据输入的所述第一声学特征生成对应的第一目标波形信息；

使用第一文本集合、预设的第二自监督预训练模型和第二语音样本集合对待训练的声学模型进行训练，得到目标声学模型，其中，所述第二语音样本集合中的每个语音样本包括带噪声的一段语音的第二原始波形信息，所述第一文本集合中的每个文本是所述第二语音样本集合中对应的一个语音样本包括的一段语音所表示的文本，所述待训练的声学模型用于根据输入的所述文本生成对应的第三声学特征，所述第二自监督预训练模型用于根据输入的降噪波形信息生成对应的第二声学特征，所述降噪波形信息是对输入的所述第二原始波形信息进行降噪处理所得到的波形信息，所述第一自监督预训练模型和所述第二自监督预训练模型是同一个模型；

使用所述目标声学模型和所述目标声码器将所述第一文本集合中的每个文本转换成对应的一段语音的波形信息。

根据本发明实施例的另一方面，还提供了一种语音生成装置，包括：

第一训练单元，用于使用第一语音样本集合和预设的第一自监督预训练模型对待训练的声码器进行训练，得到目标声码器，其中，所述第一语音样本集合中的每个语音样本包括不带噪声的一段语音的第一原始波形信息，所述第一自监督预训练模型用于根据输入的所述第一原始波形信息生成对应的第一声学特征，所述待训练的声码器用于根据输入的所述第一声学特征生成对应的第一目标波形信息；

第二训练单元，用于使用第一文本集合、预设的第二自监督预训练模型和第二语音样本集合对待训练的声学模型进行训练，得到目标声学模型，其中，所述第二语音样本集合中的每个语音样本包括带噪声的一段语音的第二原始波形信息，所述第一文本集合中的每个文本是所述第二语音样本集合中对应的一个语音样本包括的一段语音所表示的文本，所述待训练的声学模型用于根据输入的所述文本生成对应的第三声学特征，所述第二自监督预训练模型用于根据输入的降噪波形信息生成对应的第二声学特征，所述降噪波形信息是对输入的所述第二原始波形信息进行降噪处理所得到的波形信息，所述第一自监督预训练模型和所述第二自监督预训练模型是同一个模型；

第一转换单元，用于使用所述目标声学模型和所述目标声码器将所述第一文本集合中的每个文本转换成对应的一段语音的波形信息。

可选的，所述第一训练单元，包括：

第一训练模块，用于通过以下步骤对所述待训练的声码器进行第i轮训练，其中，i为大于或等于1的正整数：

将所述第一语音样本集合中的第i个语音样本输入到所述第一自监督预训练模型，得到用于表征第i段语音的第i个第一声学特征，其中，所述第i个语音样本包括不带噪声的所述第i段语音的第i个第一原始波形信息；

将所述第i个第一声学特征输入第i轮训练的声码器，得到第i个第一目标波形信息；

根据所述第i个第一原始波形信息和所述第i个第一目标波形信息，确定所述第i轮训练的第一目标损失值；

在所述第i轮训练的第一目标损失值不满足预设的第一训练结束条件的情况下，对所述第i轮训练的声码器中的参数进行训练，得到第i+1轮训练的声码器；在所述第i轮训练的所述第一目标损失值满足所述第一训练结束条件的情况下，结束训练，将所述第i轮训练的声码器确定为所述目标声码器。

可选的，所述第一训练模块，还用于：

将第i个采样值序列输入到所述第一自监督预训练模型，得到用于表征所述第i段语音的第i个第一声学特征，其中，所述第i个第一原始波形信息包括所述第i个采样值序列，所述第i个采样值序列包括按照预设的第一语音采样率对所述第i段语音进行采样所得到的一组语音幅度值。

可选的，所述第一训练模块，还用于：

将所述第i个采样值序列输入到所述第一自监督预训练模型，得到第i个表征向量，其中，所述第i个第一声学特征包括所述第i个表征向量，在所述第i个采样值序列包括Ni个采样点的语音幅度值的情况下，所述第i个表征向量的维度为Wi×H1，Ni＝Ti×f1，f1是所述第一语音采样率，f1表示单位时间内的采样点的数量，所述第i段语音的时长是Ti个所述单位时间，H1为预设的值，H1为大于或等于2的正整数，Wi是Ni除以R1所得到的值，R1为预设的值，R1表示一帧中包括的采样点的数量。

可选的，所述第一训练模块，还用于：

根据第一损失值，确定所述第i轮训练的第一目标损失值，其中，所述第一损失值是所述第i个第一原始波形信息和所述第i个第一目标波形信息之间的损失值，所述第i个第一目标波形信息是所述第i轮训练的声码器中包括的第i轮训练的生成器根据所述第i个第一声学特征生成的第一目标波形信息；或者

根据所述第一损失值和第二损失值，确定所述第i轮训练的第一目标损失值，其中，所述第一损失值是所述第i个第一原始波形信息和所述第i个第一目标波形信息之间的损失值，所述第二损失值是将所述第i个第一原始波形信息和所述第i个第一目标波形信息输入所述第i轮训练的声码器中包括的第i轮训练的判别器所得到的损失值。

可选的，所述第二训练单元，包括：

第二训练模块，用于通过以下步骤对所述待训练的声学模型进行第j轮训练，其中，j为大于或等于1的正整数：

将所述第一文本集合中的第j个文本输入第j轮训练的声学模型，得到用于表征第j段语音的第j个第三声学特征；

对第j个第二原始波形信息进行降噪处理，得到第j个降噪波形信息，其中，所述第二语音样本集合中的第j个语音样本包括带噪声的所述第j段语音的所述第j个第二原始波形信息，所述第j个文本是所述第j段语音所表示的文本；

将所述第j个降噪波形信息输入所述第二自监督预训练模型，得到用于表征第j段语音的第j个第二声学特征；

根据所述第j个第二声学特征和所述第j个第三声学特征，确定所述第j轮训练的第二目标损失值；

在所述第j轮训练的第二目标损失值不满足预设的第二训练结束条件的情况下，对所述第j轮训练的声学模型中的参数进行训练，得到第j+1轮训练的声学模型；在所述第j轮训练的所述第二目标损失值满足所述第二训练结束条件的情况下，结束训练，将所述第j轮训练的声学模型确定为所述目标声学模型。

可选的，所述第二训练模块，还用于：

在所述第j个文本包括P个字符的情况下，通过所述第j轮训练的声学模型将所述P个字符中的每个字符转换成对应的一段语音的声学特征，得到P个声学特征，其中，所述第j个第三声学特征包括所述P个声学特征，所述第j段语音包括所述P个字符中的每个字符对应的一段语音，P为大于或者等于1的正整数。

可选的，所述第二训练模块，还用于：

将第j个降噪采样值序列输入到所述第二自监督预训练模型，得到用于表征所述第j段语音的第j个第二声学特征，其中，所述第j个降噪波形信息包括所述第j个降噪采样值序列，所述第j个降噪采样值序列是对第j个采样值序列进行降噪处理所得到的序列，所述第j个第二原始波形信息包括所述第j个采样值序列，所述第j个采样值序列包括按照预设的第二语音采样率对所述第j段语音进行采样所得到的一组语音幅度值。

可选的，所述第二训练模块，还用于：

将所述第j个降噪采样值序列输入到所述第二自监督预训练模型，得到第j个表征向量，其中，所述第j个第二声学特征包括所述第j个表征向量，在所述第j个采样值序列包括Nj个采样点的语音幅度值的情况下，所述第j个表征向量的维度为Wj×H2，Nj＝Tj×f2，f2是所述第二语音采样率，f2表示单位时间内的采样点的数量，所述第j段语音的时长是Tj个所述单位时间，H2为预设的值，H2为大于或等于2的正整数，Wj是Nj除以R2所得到的值，R2为预设的值，R2表示一帧中包括的采样点的数量。

可选的，所述第二训练模块，还用于：

将所述第j轮训练的第二目标损失值确定为所述第j个第二声学特征和所述第j个第三声学特征之间的损失值。

可选的，所述第一转换单元，包括：

第一转换模块，用于通过以下步骤将所述第一文本集合中的第j个文本转换成第j段语音的波形信息，其中，j为大于或等于1的正整数：

将所述第j个文本输入所述目标声学模型，得到用于表征所述第j段语音的第j个声学特征；

将所述第j个声学特征输入所述目标声码器，得到所述第j段语音的波形信息。

可选的，所述装置还包括：

第二转换单元，用于使用所述目标声学模型和所述目标声码器将第二文本集合中的每个文本转换成对应的一段语音的波形信息，其中，所述第二文本集合与所述第一文本集合不同。

可选的，所述第二转换单元，包括：

第二转换模块，用于通过以下步骤将所述第二文本集合中的第p个文本转换成第p段语音的波形信息，其中，p为大于或等于1的正整数：

将所述第p个文本输入所述目标声学模型，得到用于表征所述第p段语音的第p个声学特征；

将所述第p个声学特征输入所述目标声码器，得到所述第p段语音的波形信息。

根据本发明实施例的又一方面，还提供了一种计算机可读的存储介质，该计算机可读的存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述语音生成方法。

根据本申请实施例的又一个方面，提供一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行如以上语音生成方法。

根据本发明实施例的又一方面，还提供了一种电子设备，包括存储器和处理器，上述存储器中存储有计算机程序，上述处理器被设置为通过所述计算机程序执行上述的语音生成方法。

在本发明实施例中，通过目标声学模型和目标声码器将文本转换成语音，其中，目标声码器是使用第一语音样本集合和预设的第一自监督预训练模型训练得到的，目标声学模型是使用第一文本集合、预设的第二自监督预训练模型和第二语音样本集合训练得到的。自监督预训练模型(第一自监督预训练模型或者第二自监督预训练模型)参与目标声码器和目标声学模型的训练过程，使得训练阶段的声码器和声学模型表现出卓越的噪声鲁棒性，极大降低了噪声语音数据增强后的语音失真和噪声对声码器和声学模型训练的影响，使得目标声学模型和目标声码器可以将文本转换成高质量的语音，从而实现了提高语音生成的质量的技术效果，进而解决了语音生成的质量较差的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的一种可选的语音生成方法的应用环境的示意图；

图2是根据本发明实施例的一种可选的语音生成方法的流程图；

图3是根据本发明实施例的一种可选的目标声学模型的结构示意图；

图4是根据本发明实施例的一种可选的自监督预训练模型的结构示意图；

图5是根据本发明实施例的一种可选的目标声码器的训练过程示意图；

图6是根据本发明实施例的一种可选的第一目标损失值的确定方法的示意图；

图7是根据本发明实施例的一种可选的生成器和判别器的示意图；

图8是根据本发明实施例的一种可选的目标声学模型的训练过程示意图；

图9是根据本发明实施例的一种可选的第三声学特征的转换的示意图；

图10是根据本发明实施例的一种可选的不同模型的梅尔频谱图比对的示意图；

图11是根据本申请实施例的一种语音生成装置的结构框图；

图12是根据本发明实施例的一种可选的电子设备的结构示意图；

图13是根据本发明实施例的一种可选的电子设备的的计算机系统的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

可以理解的是，本发明涉及人工智能技术领域，其中，人工智能(ArtificialIntelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、预训练模型技术、操作/交互系统、机电一体化等。其中，预训练模型又称大模型、基础模型，经过微调后可以广泛应用于人工智能各大方向下游任务。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

首先，在对本申请实施例进行描述的过程中出现的部分名词或者术语适用于如下解释：

TTS：Text To Speech，文本转语音，是语音合成应用的一种，它将储存于电脑中的文件，如帮助文件或者网页，转换成自然语音输出。TTS可以帮助有视觉障碍的人阅读计算机上的信息，或者只是简单的用来增加文本文档的可读性。TTS经常与声音识别程序一起使用。

需要说明的是，传统的TTS模型通常使用如下两种方式进行训练：

方式一、采用干净语音数据对TTS模型进行训练，这种方式训练出的TTS模型可以将文本转换为高质量的语音，但是这种训练的方式所需要的干净语音数据需要在安静的环境下，使用高质量的录音设备进行采集，比如，在专业的语音工作室中采集语音数据，同时，训练TTS模型需要使用大量的语音数据，导致训练的成本较高。

方式二、采用噪声语音数据对TTS模型进行训练，具体的方式是预先使用语音增强模型对采集到的噪声语音数据进行增强以降噪，再使用增强之后的噪声语音数据训练TTS模型，这种方式可以解决“方式一”中存在的成本问题，并且面对简单的噪声语音数据表现良好，但是面对复杂的噪声语音数据，增强后的噪声语音数据容易受到语音失真和背景噪声的影响，使得训练处的TTS模型质量较差，将文本转换为语音的质量也较低。

本申请针对上述“方式一”和“方式二”在TTS模型训练阶段存在的痛点问题进行了改进，不仅可以解决干净语音数据训练TTS模型的“成本”问题，还可以解决噪声语音数据训练TTS模型的“语音失真和背景噪声影响训练效果”的问题。

需要说明的是，本发明所涉及的相关信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于展示的数据、分析的数据等)，均为经用户授权或者经过各方充分授权的信息和数据。例如，本系统和相关用户或机构间设置有接口，在获取相关信息之前，需要通过接口向前述的用户或机构发送获取请求，并在接收到前述的用户或机构反馈的同意信息后，获取相关信息。

根据本发明实施例的一个方面，提供了一种语音生成方法，可选地，作为一种可选的实施方式，上述语音生成方法可以但不限于应用于终端设备或者服务器等等设备中，可以但不限于以应用于在终端设备的语音生成方法为例，进行解释和说明。如图1所示，图(a)示出了目标声码器的训练过程，通过第一语音样本集合和第一自监督预训练模型训练声码器，得到目标声码器(训练方法见下文)，其中，第一自监督预训练模型根据第一语音样本集合中每个语音样本对应的第一原始波形信息生成对应的第一目标波形信息。图(b)示出了目标声学模型的训练过程，通过第一文本集合、第二自监督预训练模型和第二语音样本集合训练声学模型，得到目标声学模型(训练方法见下文)，其中，与第一语音样本集合中每个语音样本包括不带噪声的一段语音不同的是，第二语音样本集合中每个语音样本包括带噪声的一段语音，首先对第二语音样本集合中每个语音样本的第二原始波形信息进行降噪处理得到降噪波形信息，并利用第二自监督预训练模型生成降噪波形信息对应的第二声学特征，同时，待训练的声学模型生成第一文本集合中的每个文本对应的第三声学特征。第一文本集合中的每个文本是第二语音样本集合中对应的一个语音样本包括的一段语音所表示的文本，即，对应的一个语音样本和文本所表达的含义相同。图(c)示出了语音生成的训练过程，在经过图(a)和图(b)示出的过程，得到目标声学模型和目标声码器之后，使用目标声学模型和目标声码器和文本转换成对应的一段语音的波形信息，即得到文本对应的语音。

可选地，在本实施例中，上述终端设备可以是配置有目标客户端的终端设备，可以包括但不限于以下至少之一：手机(如Android手机、iOS手机等)、笔记本电脑、平板电脑、掌上电脑、MID(Mobile Internet Devices，移动互联网设备)、PAD、台式电脑、智能电视等。目标客户端可以是视频客户端、即时通信客户端、浏览器客户端、教育客户端等。上述网络可以包括但不限于：有线网络，无线网络，其中，该有线网络包括：局域网、城域网和广域网，该无线网络包括：蓝牙、WIFI及其他实现无线通信的网络。上述服务器可以是单一服务器，也可以是由多个服务器组成的服务器集群，或者是云服务器。上述仅是一种示例，本实施例中对此不作任何限定。

可选地，作为一种可选的实施方式，如图2所示，上述语音生成方法包括：

步骤S12，使用第一语音样本集合和预设的第一自监督预训练模型对待训练的声码器进行训练，得到目标声码器，其中，所述第一语音样本集合中的每个语音样本包括不带噪声的一段语音的第一原始波形信息，所述第一自监督预训练模型用于根据输入的所述第一原始波形信息生成对应的第一声学特征，所述待训练的声码器用于根据输入的所述第一声学特征生成对应的第一目标波形信息；

可选的，在本实施例中，第一自监督预训练模型可以基于语音样本的第一原始波形信息输出对应的第一声学特征，进而声码器依据第一声学特征生成对应的第一目标波形信息，其中，目标声码器可以但不限于为基于HIFI-GAN模型(High-Fidelity GenerativeAdversarial Networks，一种生成对抗网络(GAN)模型)的声码器，声码器的功能可以但不限于为将第一自监督预训练模型输出的声学特征(比如，第一声学特征)映射到波形，得到第一目标波形信息。

步骤S14，使用第一文本集合、预设的第二自监督预训练模型和第二语音样本集合对待训练的声学模型进行训练，得到目标声学模型，其中，所述第二语音样本集合中的每个语音样本包括带噪声的一段语音的第二原始波形信息，所述第一文本集合中的每个文本是所述第二语音样本集合中对应的一个语音样本包括的一段语音所表示的文本，所述待训练的声学模型用于根据输入的所述文本生成对应的第三声学特征，所述第二自监督预训练模型用于根据输入的降噪波形信息生成对应的第二声学特征，所述降噪波形信息是对输入的所述第二原始波形信息进行降噪处理所得到的波形信息，所述第一自监督预训练模型和所述第二自监督预训练模型是同一个模型；

可选的，在本实施例中，目标声学模型可以但不限于为基于FastSpeech2模型的声学模型，如图3所示，FastSpeech2包括：phone embedding(音素嵌入器)、encoder(编码器)，variance adaptor(方差适配器)和decoder(解码器)，编码器由一个多层前馈变压器组成，将音素序列转换为隐藏状态序列。方差适应器由一个多层卷积网络组成，用于预测持续时间、音调、能量和其他信息。解码器由一个线性投影层组成，用于将网络输出映射到第三声学特征。

可选的，在本实施例中，所述第一自监督预训练模型和所述第二自监督预训练模型是同一个模型，比如，第一自监督预训练模型和第二自监督预训练模型都是WavLM(Waveform Language Model，一种用于语音合成和语音识别的语言模型)模型。WavLM的模型架构使用Transformer模型作为骨干，如图4所示，它包含一个卷积特征编码器和一个Transformer编码器。WavLM可以将输入的第一原始波形信息转换为第一声学特征，或者，将输入的降噪波形信息生成对应的第二声学特征。

需要说明的是，WavLM模型在许多语音任务中表现出卓越的性能和很强的噪声鲁棒性。第一自监督预训练模型和第二自监督预训练模型除了都是WavLM模型之外，还可以为Wav2vec2.0、HuBERT(基于BERT(Bidirectional Encoder Representations fromTransformers)进行改进和扩展的人工智能模型)、Data2vec，其中，自监督预训练模型(第一自监督预训练模型或者第二自监督预训练模型)参与目标声码器和目标声学模型的训练过程，可以进一步提高TTS模型(目标声码器和目标声学模型)在噪声场景中的性能。第二原始波形信息增强后的语音被输入到第二自监督预训练模型中，第二自监督预训练模型输出的第二声学特征具有很强的抗语音扰动能力，以减少语音失真对TTS模型的影响，使得训练出的TTS模型(目标声码器和目标声学模型)可以根据文本合成出更高质量的语音。

可选的，在本实施例中，所述降噪波形信息是对输入的所述第二原始波形信息进行降噪处理所得到的波形信息，可以将第二原始波形信息输入至语音增强模型来进行降噪处理。

步骤S16，使用所述目标声学模型和所述目标声码器将所述第一文本集合中的每个文本转换成对应的一段语音的波形信息。

可选的，在本实施例中，本申请中提出的生成语音的TTS模型可以但不限于包括目标声学模型和目标声码器。

可选的，在本实施例中，转换成的一段语音的波形信息为不带噪声的一段语音的波形信息，依据波形信息可以生成对应的一段语音。

通过目标声学模型和目标声码器将文本转换成语音，其中，目标声码器是使用第一语音样本集合和预设的第一自监督预训练模型训练得到的，目标声学模型是使用第一文本集合、预设的第二自监督预训练模型和第二语音样本集合训练得到的。自监督预训练模型(第一自监督预训练模型或者第二自监督预训练模型)参与目标声码器和目标声学模型的训练过程，使得训练阶段的声码器和声学模型表现出卓越的噪声鲁棒性，极大降低了噪声语音数据增强后的语音失真和噪声对声码器和声学模型训练的影响，使得目标声学模型和目标声码器可以将文本转换成高质量的语音，从而实现了提高语音生成的质量的技术效果，进而解决了语音生成的质量较差的技术问题。

作为一种可选的方案，所述使用第一语音样本集合和预设的第一自监督预训练模型对待训练的声码器进行训练，得到目标声码器，还包括：

通过以下步骤对所述待训练的声码器进行第i轮训练，其中，i为大于或等于1的正整数：

S21，将所述第一语音样本集合中的第i个语音样本输入到所述第一自监督预训练模型，得到用于表征第i段语音的第i个第一声学特征，其中，所述第i个语音样本包括不带噪声的所述第i段语音的第i个第一原始波形信息；

S22，将所述第i个第一声学特征输入第i轮训练的声码器，得到第i个第一目标波形信息；

S23，根据所述第i个第一原始波形信息和所述第i个第一目标波形信息，确定所述第i轮训练的第一目标损失值；

S24，在所述第i轮训练的第一目标损失值不满足预设的第一训练结束条件的情况下，对所述第i轮训练的声码器中的参数进行训练，得到第i+1轮训练的声码器；在所述第i轮训练的所述第一目标损失值满足所述第一训练结束条件的情况下，结束训练，将所述第i轮训练的声码器确定为所述目标声码器。

可选的，在本实施例中，如图5所示，以第一语音样本集合包括第一语音样本C1，第一语音样本C2和第一语音样本C3，且i取值3为例，对待训练的声码器的第3轮训练过程进行说明：第3个语音样本(第一语音样本C3)包括不带噪声的第3段语音(Speech C3)的第3个第一原始波形信息(Info C3-1)。将第一语音样本集合中的第3个语音样本(第一语音样本C3)输入到第一自监督预训练模型，得到用于表征第3段语音(Speech C3)的第3个第一声学特征(F1)，将第3个第一声学特征(F1)输入第3轮训练的声码器，得到第3个第一目标波形信息(Info C3-2)；根据Info C3-1和Info C3-2，确定第3轮训练的第一目标损失值。在第3轮训练的第一目标损失值不满足预设的第一训练结束条件的情况下，对第3轮训练的声码器中的参数进行训练，得到第4轮训练的声码器；在第3轮训练的第一目标损失值满足第一训练结束条件的情况下，结束训练，将第3轮训练的声码器确定为目标声码器。

通过上述方式对声码器进行多轮训练，得到目标声码器。训练出的目标声码器可以基于输入的第一声学特征重建的第一目标波形信息，其中，第一目标波形信息与第一初始波形信息之间相似度大于目标相似度，后续使用目标声码器参与语音的生成，可以极大提高文本换成对应波形信息的质量。

作为一种可选的方案，所述将所述第一语音样本集合中的第i个语音样本输入到所述第一自监督预训练模型，得到用于表征第i段语音的第i个第一声学特征，还包括：

S31，将第i个采样值序列输入到所述第一自监督预训练模型，得到用于表征所述第i段语音的第i个第一声学特征，其中，所述第i个第一原始波形信息包括所述第i个采样值序列，所述第i个采样值序列包括按照预设的第一语音采样率对所述第i段语音进行采样所得到的一组语音幅度值。

可选的，在本实施例中，第i个语音样本是以采样值序列输入至所述第一自监督预训练模型的，语音样本可以近似视为一串连续的采样值连贯而成，其中，将语音样本采用“切片”的方式进行采样，每个切片采集到的一个采样值用于指示一个语音幅度值，采样值序列可以理解为幅度值序列，比如，一段2s的语音样本，对应的采样值序列可以包括4000个语音幅度值，其中，4000个语音幅度值是按照预设的第一语音采样率对语音样本进行采样得到的，当第一语音采样率发生变动时，采样值序列包括的语音幅度值的数量也会随之变化，最后，将采样出的采样值序列输入到第一自监督预训练模型，即可得到用于表征语音样本中语音的第一声学特征。

通过上述方式，将包括采样值序列的第一原始波形信息输入至第一自监督预训练模型，得到用于表征对应语音的第一声学特征，其中，采样值序列是以预设的第一语音采样率对语音进行语音幅度值采样得到的，因此第一声学特征可以精准地表征对应的语音样本中语音，提高了目标声码器的训练效果，进而使用目标声码器参与后续语音生成，得到高质量的语音。

作为一种可选的方案，将第i个采样值序列输入到所述第一自监督预训练模型，得到用于表征所述第i段语音的第i个第一声学特征，还包括：

S41，将所述第i个采样值序列输入到所述第一自监督预训练模型，得到第i个表征向量，其中，所述第i个第一声学特征包括所述第i个表征向量，在所述第i个采样值序列包括Ni个采样点的语音幅度值的情况下，所述第i个表征向量的维度为Wi×H1，Ni＝Ti×f1，f1是所述第一语音采样率，f1表示单位时间内的采样点的数量，所述第i段语音的时长是Ti个所述单位时间，H1为预设的值，H1为大于或等于2的正整数，Wi是Ni除以R1所得到的值，R1为预设的值，R1表示一帧中包括的采样点的数量。

可选的，在本实施例中，区别于传统意义上的音调、音色等等声学特征，本申请中涉及到的声学特征(诸如，第一声学特征，第二声学特征，第三声学特征)是语音样本的特征(Representation)的向量表达，可以理解为是一种表征向量。

可选的，在本实施例中，以采样率f1＝2kHZ，即，每秒采样2000次，第i段语音的时长Ti＝2s为例，第i个采样值序列包括Ni个采样点，Ni＝＝Ti×f1＝4000，第i个表征向量的维度为Wi×H1，R1为预设的值，R1表示一帧中包括的采样点的数量，假设一帧包括500个点，则R1＝500，那么Wi＝Ni/R1＝8，同时，H1为预设的值768，则第i个表征向量的维度为8×768，上述采样率，R1和768都是预设的值。

作为一种可选的方案，根据所述第i个第一原始波形信息和所述第i个第一目标波形信息，确定所述第i轮训练的第一目标损失值，还包括：

S51，根据第一损失值，确定所述第i轮训练的第一目标损失值，其中，所述第一损失值是所述第i个第一原始波形信息和所述第i个第一目标波形信息之间的损失值，所述第i个第一目标波形信息是所述第i轮训练的声码器中包括的第i轮训练的生成器根据所述第i个第一声学特征生成的第一目标波形信息；或者

S52，根据所述第一损失值和第二损失值，确定所述第i轮训练的第一目标损失值，其中，所述第一损失值是所述第i个第一原始波形信息和所述第i个第一目标波形信息之间的损失值，所述第二损失值是将所述第i个第一原始波形信息和所述第i个第一目标波形信息输入所述第i轮训练的声码器中包括的第i轮训练的判别器所得到的损失值。

可选的，在本实施例中，以第一语音样本集合包括第一语音样本C1，第一语音样本C2和第一语音样本C3，且i取值3为例，根据第3个第一原始波形信息(Info C3-1)和第3个第一目标波形信息(Info C3-2)，确定所述第3轮训练的第一目标损失值，如图6所示，一种方式是将Info C3-1和Info C3-2之间的损失值确定为第一损失值，进而依据第一损失值确定第3轮训练的第一目标损失值；另一种方式是将Info C3-1和Info C3-2输入所述第3轮训练的声码器中包括的第3轮训练的判别器，得到第二损失值，进而依据第一损失值和第二损失值确定第3轮训练的第一目标损失值。

可选的，在本实施例中，如下对HIFI-GAN模型的结构进行介绍。目标声码器基于HIFI-GAN模型，可以包括一个生成器和两个判别器，即多尺度判别器和多周期判别器，生成器和判别器都使用多层卷积网络。对于生成器，它将第一自监督预训练模型不同层(layer)输出的第一声学特征(Representation)作为输入，然后通过多层转置卷积对其进行上采样，得到第一目标波形信息。判别器用于判别第一原始波形信息和第一目标波形信息的接近程度。为确保用于训练声码器的语音样本具有通用性，选择的第一语音样本集合中的语音样本都是不带噪声的一段语音，将第一语音样本集合中的语音样本(x，例如，1*4000的表征向量)输入至第一自监督预训练模型，然后从第一自监督预训练模型不同层(layer)提取第一声学特征(c)，并将第一声学特征(c，例如，8×768，的表征向量)输入至声码器，使用声码器重建干净的语音波形(即，第一目标波形信息)。对于给定的生成器G和判别器D，用于训练声码器的生成器损失函数LG(可以理解为上述第一损失值)和判别器损失函数LD(可以理解为上述第二损失值)可表示为：

LG＝L_adv(G；D)+αL_fm(G；D)+βL_mel(G) (1)

LD＝L_adv(D；G) (2)

其中，生成损失L_adv(G；D)和判别损失L_adv(D；G)可表示为：

L_adv(D；G)＝E_(x,c)[(D(x)-1)²+(D(G(c)))²] (3)

L_adv(G；D)＝E_c[(D(G(c))-1)²] (4)

其中，α和β是预设的超参数(在可选的示例中，α和β分别设置为2和45)，x表示语音样本，c为第一声学特征，E_(x,c)[(D(x)-1)²+(D(G(c)))²]为[(D(x)-1)²+(D(G(c)))²]的平均值，E_c[(D(G(c))-1)²]为[(D(G(c))-1)²]的平均值，D(x)为判别器将语音样本x判别为真实波形的概率，D(G(c))为判别器将生成的第一目标波形信息G(c)判别为真实波形的概率，L_fm(G；D)为生成器G和判别器D的特征匹配损失(feature matching loss)，L_mel(G)为梅尔谱图损失(mel-spectrogram loss)，可表示为：

L_mel(G)＝E_(x,c)[‖φ(x)-φ(G(c))‖] (5)

其中，φ是将波形转换为相应的梅尔频谱图的函数，φ(x)和φ(G(c))为特征向量。E_(x,c)[‖φ(x)-φ(G(c))‖]为[‖φ(x)-φ(G(c))‖]的平均值，梅尔频谱图损失有助于生成器合成与输入条件相对应的真实波形，并在早期阶段稳定对抗训练过程。

其中，其中，T表示判别器中的层数；Dⁱ(x)表示在接收到语音样本的第一原始波形信息(x)时判别器第i层输出的特征向量，Dⁱ(G(c))表示在接收到第一目标波形信息G(c)时判别器第i层输出的特征向量，Dⁱ(x)和Dⁱ(G(c))为w*N_i维度的特征向量，w为预设值，为/>的平均值。

公式1表示α和β均不为0时的情况，对于公式(1)中的超参数α和β可以根据实际的需求进行取值，比如：

α和β均取值为0时，公式(1)为：LG＝L_adv(G；D)；

α不为0，β为0时，公式(1)为：LG＝L_adv(G；D)+αL_fm(G；D)；

α为0，β不为0时，公式(1)为：LG＝L_adv(G；D)+βL_mel(G)。

如图7所示，第一自监督预训练模型从输入的语音样本(x)中提取第一声学特征(c)，并将第一声学特征(c)输入至声码器，声码器中的生成器(G)生成第一目标波形信息G(c)，D(x)为判别器在接收到语音样本的第一原始波形信息(x)时的输出，D(G(c))为判别器D在接收到第一目标波形信息G(c)的输出，进而使用公式(3)和公式(4)依据D(x)和D(G(c))生成L_adv(D；G)和L_adv(G；D)，声码器虽然包括生成器和判别器，但是判别器可以仅在声码器的训练阶段使用，声码器(比如，目标声码器)在训练完成之后的具体的使用过程中，可以仅使用生成器即可。

在公式(5)中，φ是将波形转换为相应的梅尔频谱图的函数，其中，梅尔频谱图是一种用于音频信号分析的图形表示方法，它是通过对音频信号的频谱进行变换和压缩得到的。梅尔频谱图使用梅尔滤波器组对音频信号进行滤波，将频谱中的频率范围划分为一系列的频带，并计算每个频带的能量。然后，将每个频带的能量转换为对应的梅尔刻度(Melscale)上的位置，最后将梅尔刻度上的能量表示为图形。梅尔频谱图可以提供更符合人耳感知的频谱特征，常用于语音识别、音乐信息检索等领域。

E_(x,c)[(D(x)-1)²+(D(G(c)))²]为[(D(x)-1)²+(D(G(c)))²]的平均值，如下对计算方式进行说明：

在存在1组x和c时。

则E_(x,c)[(D(x)-1)²+(D(G(c)))²]＝(D(x)-1)²+(D(G(c)))²；

在存在2组x和c时，比如，(x₁，c₁)和(x₂，c₂)。

则

作为一种可选的方案，所述使用第一文本集合、预设的第二自监督预训练模型和第二语音样本集合对待训练的声学模型进行训练，得到目标声学模型，还包括：

通过以下步骤对所述待训练的声学模型进行第j轮训练，其中，j为大于或等于1的正整数：

S61，将所述第一文本集合中的第j个文本输入第j轮训练的声学模型，得到用于表征第j段语音的第j个第三声学特征；

S62，对第j个第二原始波形信息进行降噪处理，得到第j个降噪波形信息，其中，所述第二语音样本集合中的第j个语音样本包括带噪声的所述第j段语音的所述第j个第二原始波形信息，所述第j个文本是所述第j段语音所表示的文本；

S63，将所述第j个降噪波形信息输入所述第二自监督预训练模型，得到用于表征第j段语音的第j个第二声学特征；

S64，根据所述第j个第二声学特征和所述第j个第三声学特征，确定所述第j轮训练的第二目标损失值；

S65，在所述第j轮训练的第二目标损失值不满足预设的第二训练结束条件的情况下，对所述第j轮训练的声学模型中的参数进行训练，得到第j+1轮训练的声学模型；在所述第j轮训练的所述第二目标损失值满足所述第二训练结束条件的情况下，结束训练，将所述第j轮训练的声学模型确定为所述目标声学模型。

可选的，在本实施例中，如图8所示，以第一文本集合包括文本T1，文本T2和文本T3，第二语音样本集合包括第二语音样本N1，第二语音样本N2和第二语音样本N3，且j取值3为例，将第一文本集合中的第3个文本(T3)输入第3轮训练的声学模型，得到用于表征第3段语音的第3个第三声学特征(F3)；对第3个第二原始波形信息(Info N3-1)进行降噪处理，得到第3个降噪波形信息(Info N3-2)，其中，第二语音样本N3包括带噪声的第3段语音(Speech N3)的Info N3-1，T3是Speech N3所表示的文本；将Info N3-2输入第二自监督预训练模型，得到用于表征Speech N3的第二声学特征(F2)；根据F2和第3个第三声学特征(F3)，确定第3轮训练的第二目标损失值；在第3轮训练的第二目标损失值不满足预设的第二训练结束条件的情况下，对第3轮训练的声学模型中的参数进行训练，得到第4轮训练的声学模型；在第3轮训练的第二目标损失值满足第二训练结束条件的情况下，结束训练，将第3轮训练的声学模型确定为目标声学模型。

通过上述方式对声学模型进行多轮训练，得到目标声学模型。训练出的目标声学模型可以准确地将文本映射到声学特征，后续使用目标声学模型参与语音的生成，可以极大提高文本换成对应波形信息的质量。

作为一种可选的方案，所述将所述第一文本集合中的第j个文本输入第j轮训练的声学模型，得到用于表征第j段语音的第j个第三声学特征，还包括：

S71，在所述第j个文本包括P个字符的情况下，通过所述第j轮训练的声学模型将所述P个字符中的每个字符转换成对应的一段语音的声学特征，得到P个声学特征，其中，所述第j个第三声学特征包括所述P个声学特征，所述第j段语音包括所述P个字符中的每个字符对应的一段语音，P为大于或者等于1的正整数。

可选的，在本实施例中，如图9所示，以j取值3为例，在所述第3个文本(T3)为“您好”，包括2个字符的情况下，通过所述第3轮训练的声学模型将所述2个字符中的每个字符转换成对应的一段语音的声学特征，即“您”为第1段语音，“好”为第2段语音。声学模型可以将第1段语音转换成对应的声学特征1，同样的，声学模型也可以将第2段语音转换成对应的声学特征2，得到的2个声学特征作为第三声学特征F3。

通过上述方式，以每一个字符识别声学特征，区别于句子粒度的识别，这种字符粒度的识别更加细化了声学特征的细腻程度，得到的第三声学特征F3可以更加精准地表征对应的文本。如此训练出的目标声学模型可以更精确地提取出对应文本的声学特征(第三声学特征)，后续使用目标声学模型参与语音的生成，可以极大提高文本换成对应波形信息的质量。

作为一种可选的方案，将所述第j个降噪波形信息输入所述第二自监督预训练模型，得到用于表征第j段语音的第j个第二声学特征，还包括：

S81，将第j个降噪采样值序列输入到所述第二自监督预训练模型，得到用于表征所述第j段语音的第j个第二声学特征，其中，所述第j个降噪波形信息包括所述第j个降噪采样值序列，所述第j个降噪采样值序列是对第j个采样值序列进行降噪处理所得到的序列，所述第j个第二原始波形信息包括所述第j个采样值序列，所述第j个采样值序列包括按照预设的第二语音采样率对所述第j段语音进行采样所得到的一组语音幅度值。

可选的，在本实施例中，语音可以近似视为一串连续的采样值连贯而成，其中，将第j段语音采用“切片”的方式进行采样，每个切片采集到的一个采样值用于指示一个语音幅度值，采样值序列可以理解为幅度值序列，比如，一段3s的语音样本，对应的采样值序列可以包括5000个语音幅度值，其中，5000个语音幅度值是按照预设的第二语音采样率对语音样本进行采样得到的，当第二语音采样率发生变动时，采样值序列包括的语音幅度值的数量也会随之变化，按照预设的第二语音采样率对所述第j段语音进行采样所得到第j个采样值序列，之后对第j个采样值序列进行降噪，得到第j个降噪采样值序列，并将第j个降噪采样值序列输入到所述第二自监督预训练模型，得到第j段语音的第j个第二声学特征。

通过上述方式，输入至第二自监督预训练模型的是降噪采样值序列，而降噪采样值序列是通过对包含噪声的语音的采样值序列进行降噪处理所得到的，采用这种噪声语音训练目标声学模型的方式样本更加容易获取，并且成本更低，同时第二自监督预训练模型参与目标声码器和目标声学模型的训练过程，使得训练阶段的声码器和声学模型表现出卓越的噪声鲁棒性，极大降低了噪声语音数据增强后的语音失真和噪声对声码器和声学模型训练的影响，使得目标声学模型和目标声码器可以将文本转换成高质量的语音。

作为一种可选的方案，将第j个降噪采样值序列输入到所述第二自监督预训练模型，得到用于表征所述第j段语音的第j个第二声学特征，还包括：

S91，将所述第j个降噪采样值序列输入到所述第二自监督预训练模型，得到第j个表征向量，其中，所述第j个第二声学特征包括所述第j个表征向量，在所述第j个采样值序列包括Nj个采样点的语音幅度值的情况下，所述第j个表征向量的维度为Wj×H2，Nj＝Tj×f2，f2是所述第二语音采样率，f2表示单位时间内的采样点的数量，所述第j段语音的时长是Tj个所述单位时间，H2为预设的值，H2为大于或等于2的正整数，Wj是Nj除以R2所得到的值，R2为预设的值，R2表示一帧中包括的采样点的数量。

可选的，在本实施例中，以采样率f2＝3kHZ，即，每秒采样3000次，第j段语音的时长Tj＝3s为例，第j个采样值序列包括Nj个采样点，Nj＝＝Tj×f2＝9000，第j个表征向量的维度为Wj×H2，R2为预设的值，R2表示一帧中包括的采样点的数量，假设一帧包括1000个点，则R2＝1000，那么Wj＝Nj/R2＝9，同时，H2为预设的值768，则第j个表征向量的维度为9×768，上述采样率，R2和768都是预设的值。

作为一种可选的方案，根据所述第j个第二声学特征和所述第j个第三声学特征，确定所述第j轮训练的第二目标损失值，还包括：

S101，将所述第j轮训练的第二目标损失值确定为所述第j个第二声学特征和所述第j个第三声学特征之间的损失值。

可选的，在本实施例中，第二目标损失值可以用于指示第j个第二声学特征和所述第j个第三声学特征之间的近似程度。

作为一种可选的方案，使用所述目标声学模型和所述目标声码器将所述第一文本集合中的每个文本转换成对应的一段语音的波形信息，还包括：

通过以下步骤将所述第一文本集合中的第j个文本转换成第j段语音的波形信息，其中，j为大于或等于1的正整数：

S111，将所述第j个文本输入所述目标声学模型，得到用于表征所述第j段语音的第j个声学特征；

S112，将所述第j个声学特征输入所述目标声码器，得到所述第j段语音的波形信息。

可选的，在本实施例中，对于一个文本，将其转换为语音的方式是将文本输入至目标声学模型，该目标声学模型可以将文本转换为对应的声学特征(可以理解为上述第三声学特征)，之后将该声学特征输入至目标声码器，由目标声码器将该声学特征重建为波形信息(可以理解为上述第一目标波形信息)，即完成语音的生成。

通过上述方式，目标声学模型和目标声码器参与了语音的生成过程，使得依据文本生成的语音的质量更高。

作为一种可选的方案，还包括：

S121，使用所述目标声学模型和所述目标声码器将第二文本集合中的每个文本转换成对应的一段语音的波形信息，其中，所述第二文本集合与所述第一文本集合不同。

可选的，在本实施例中，目标声学模型和目标声码器除了可以将第一文本集合中的每个文本转换成对应的一段语音的波形信息之外，还可以将其他集合(比如，第二文本集合)中的文本转换成对应的一段语音的波形信息。基于上述方式训练得到的目标声学模型和目标声码器是一种通用的语音生成TTS模型，对于任意的文本均可以生成高质量的语音。

作为一种可选的方案，使用所述目标声学模型和所述目标声码器将第二文本集合中的每个文本转换成对应的一段语音的波形信息，还包括：

通过以下步骤将所述第二文本集合中的第p个文本转换成第p段语音的波形信息，其中，p为大于或等于1的正整数：

S131，将所述第p个文本输入所述目标声学模型，得到用于表征所述第p段语音的第p个声学特征；

S132，将所述第p个声学特征输入所述目标声码器，得到所述第p段语音的波形信息。

可选的，在本实施例中，同样的，目标声学模型和目标声码器将第二文本集合中的文本转换为语音的过程与第一文本集合中的文本一致。都是将文本输入至目标声学模型，将文本转换为对应的声学特征，之后将该声学特征输入至目标声码器，由目标声码器将该声学特征重建为波形信息，即完成语音的生成。

如下对目标声码器和目标声学模型的训练过程中使用到的模型和样本数据进行介绍：

对于声码器训练过程中使用的第一语音样本集合，可以选择公开可用的多说话人清晰语音数据集LibriTTS1的train-clean-100子集，以确保用于训练声码器的数据是普遍的，并且不与用于训练目标声学模型(可以但不限于为FastSpeech2)的数据集重叠。

自监督预训练模型(比如，第一自监督预训练模型，或者，第二自监督预训练模型)理论上可以是任何公开可用的模型，本申请中上述实施例使用了WavLM作为自监督预训练模型，在自监督预训练模型的准备阶段，可以预先训练6个模型，分别提取WavLM的0层(即WavLM特征编码器的输出)、1层、3层、5层和12层的表征向量，并对所有层(layer)的表征向量进行平均作为输入。所有语音采样率(比如，第一语音采样率和第二语音采样率)都转换为24kHz。在目标声码器的训练阶段，使用第一自监督预训练模型根据输入的第一原始波形信息(干净语音)生成对应的第一声学特征(可以为梅尔频谱特征)，并使用梅尔频谱特征来训练声码器作为基准模型，对于基准模型，提取的梅尔频谱特征的快速傅里叶变换(FFT，Fast Fourier Transform)大小设置为1024，跳帧大小设置为240，窗口大小设置为960。梅尔频谱(the mel-spectrogram)的频率区间设置为80。由于WavLM提取的表征向量(representation)的帧移为20毫秒，梅尔频谱的帧移为10毫秒，将FFT大小设置为1024，跳帧大小设置为480，窗口大小设置为960。表示的维度为768(即上述H1、H2的值)。批量大小设置为16，总共训练了800k步。

对于声学模型训练过程中使用的第二语音样本集合，可以使用LJSpeech数据集2，其中，声学模型可以为FastSpeech2，为了模拟嘈杂的环境，将LJSpeech语音数据与噪声混合，构建了一个噪声5dB的数据集(可以理解为上述第二语音样本集合)，其中噪声数据来自Freesound数据集。为了确保语音增强模型没有使用过LJSpeech数据集，语音增强模型可以为使用其他数据集上训练得到的公开可用的语音增强模型。增强后的语音被输入到WavLM中，提取不同层(layer)的表征向量(representation，可以理解为上述第二声学特征)。比如，提取WavLM的0层、1层、3层、5层和12层的表征向量，以及在所有层上平均的表征向量。所有音频采样率(第一语音采样率和第二语音采样率)都转换为24kHz。使用干净语音的梅尔频谱特征和梅尔频谱的差异特征分别训练两个模型。增强语音(可以理解为上述降噪波形信息)作为基准，分别进行评估。对于基准模型，提取的梅尔频谱图的FFT大小设置为1024，跳跃大小设置为240，窗口大小设置为960。梅尔频谱的频率区间设置为80。将FFT大小设置为1024，跳跃大小设置为480，窗口大小设置为960。表征向量的维度为768。批次大小设置为16，总共训练了900k步。

如下对训练出的目标声学模型和目标声码器的评估指标进行说明：

评估方式：对于不同的模型，可以从测试集中分别生成256个语音片段。为了衡量使用梅尔频谱图和表征向量特征生成的语音的纯度水平，使用信噪比(SNR，Signal-to-Noise Ratio)指标。测试了由声码器生成的波形的SNR，以及由整个TTS模型(包括训练出的目标声码器和目标声学模型)生成的波形的SNR。此外，对于客观评估指标，使用VISQOL3(Visual Quality of Life 3)工具测试了听觉质量客观平均意见分数(MOS-LQO，MeanOpinion Score-Listening Quality Objective)，其中MOS-LQO值在音频模式下范围从1到4.75，数值越高表示语音质量越好。对于主观评估指标，使用平均意见分数(MOS)来评估语音的自然度和稳健性，其中MOS值范围从1到5，数值越高表示语音质量越好。

如下对基于上述评估指标和评估方法进行评估的结果进行说明：

1、关于声码器的噪声鲁棒性比较：

1)使用经过训练的梅尔频谱图声码器(即，传统训练方式训练出的声码器)和Fastspeech2作为基准模型。为了测试声码器模型的降噪性能，将5dB噪声语音的梅尔频谱图特征输入到经过训练的声码器中，使用LibriTTS的train-clean-100子集，并计算生成语音的信噪比(SNR)，结果如表1所示，SNR为11.08。

2)类似地，将5dB噪声语音的表征向量(Representation)输入到声码器模型中，并计算声码器生成的语音的信噪比(对应本申请中使用第一自监督预训练模型参与声码器的新型训练方式)，结果也在表1中显示。

经过比对发现，使用表征向量训练的声码器的SNR比使用梅尔频谱图训练的声码器更高，这意味着表征向量具有更好的噪声鲁棒性。此外，发现，使用第12层的表征训练的声码器具有最佳的噪声鲁棒性，生成语音的SNR为13.52。然而，从听觉感知上看，发现虽然第12层的表征具有很强的抑制能力，能够抑制噪声，但同时也导致了一些语音质量上的损失。因为噪声也具有强大的抑制说话者信息的能力，即说话者信息的部分丢失会导致合成语音中说话者的轻微变化。为此，使用所有层的平均表征向量(Average of all layers，对应上述第二声学特征)训练了声码器，发现生成的语音具有13.13的信噪比，可以很好地平衡噪声鲁棒性和说话者信息。此外，连接了使用增强语音训练的文本到表征向量和表征向量到波形信息的模型，然后测试了合成语音的信噪比，实验结果如下表2所示。实验结果同样证明了第12层表征的噪声鲁棒性最好，需要说明的是，本申请涉及到的表格(表1至表4)中英文的含义如下：Feature(特征)，Mel-spectrogram(梅尔频谱图)，Representation(表征向量)，Type(类型)，Clean(无噪声语音)，Layer(层)，Enhanced(增强语音)，SNR(信噪比)和Ground Truth(真实值)。

表1

表2

2、关于对主观评价指标和客观评价指标的比较：

为了测试语音的听觉质量，使用VISQOL工具计算了MOS-LQO，并且实验结果如表3所示。使用清晰语音(Mel-spectrogram，Clean)训练的基准模型能够达到3.78的MOS-LQO，而使用增强语音(Mel-spectrogram，Enhanced)训练的基准模型能够达到2.58的MOS-LQO。使用增强语音训练的TTS模型通常含有噪声，导致MOS-LQO指标较低。使用表征训练的模型通常优于基准模型，而使用所有层的平均表征(Enhanced(Average of all layers))训练的模型表现最好，其MOS-LQO为3.32。与基准模型相比，在使用表征时合成语音中的噪声成分显著减少。使用中间层的表征，如第3层和第5层，合成音频的质量相似。此外，使用所有层的平均表征训练的模型可以很好地平衡噪声鲁棒性和说话者信息。

表3

对不同模型生成的语音进行了MOS评估，实验结果如下表4所示。从表中可以看出，合成语音的MOS得分与模型有关。使用表征训练的TTS模型(对应采用本申请中的训练方法训练出的目标声码器和目标声学模型)合成的语音的MOS评分高于使用梅尔频谱图训练的TTS模型(对应传统方法训练出的TTS模型)合成的语音。使用第3和第5层的表征进行合成的语音质量相似，并且与使用所有层的平均值的结果(Average of all layers)相当。

表4

3、关于对比不同模型生成的语音的梅尔频谱图的可视化：

展示了使用梅尔频谱图训练的模型和使用表征训练的模型合成的语音的梅尔频谱图，如图10所示。顶部的图显示了清晰语音的梅尔频谱图，中间的图显示了使用增强语音的梅尔频谱图训练的TTS模型生成的语音的梅尔频谱图，底部的图显示了使用增强语音的表征进行训练的TTS模型生成的语音的梅尔频谱图(对应本申请中的方法)。可以看出，使用表征训练的模型生成的语音具有更少的噪声成分，并且更接近清晰语音。

结论：采用本申请提出的训练方式训练出的目标声码器和目标声学模型。通过构建表征到波形的声码器和文本到表征的FastSpeech2模型，发现基于表征的TTS模型比基于梅尔频谱图的TTS模型具有更好的抗噪声性能。此外，高级表征可以更好地抑制噪声成分，但同时会略微损失说话者信息。对所有层的表征进行平均可以在抗噪声性能和说话者信息之间取得良好的平衡。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

根据本发明实施例的另一个方面，还提供了一种用于实施上述语音生成方法的语音生成装置。图11是根据本申请实施例的一种语音生成装置的结构框图，如图11所示，该装置包括：

第一训练单元802，用于使用第一语音样本集合和预设的第一自监督预训练模型对待训练的声码器进行训练，得到目标声码器，其中，所述第一语音样本集合中的每个语音样本包括不带噪声的一段语音的第一原始波形信息，所述第一自监督预训练模型用于根据输入的所述第一原始波形信息生成对应的第一声学特征，所述待训练的声码器用于根据输入的所述第一声学特征生成对应的第一目标波形信息；

第二训练单元804，用于使用第一文本集合、预设的第二自监督预训练模型和第二语音样本集合对待训练的声学模型进行训练，得到目标声学模型，其中，所述第二语音样本集合中的每个语音样本包括带噪声的一段语音的第二原始波形信息，所述第一文本集合中的每个文本是所述第二语音样本集合中对应的一个语音样本包括的一段语音所表示的文本，所述待训练的声学模型用于根据输入的所述文本生成对应的第三声学特征，所述第二自监督预训练模型用于根据输入的降噪波形信息生成对应的第二声学特征，所述降噪波形信息是对输入的所述第二原始波形信息进行降噪处理所得到的波形信息，所述第一自监督预训练模型和所述第二自监督预训练模型是同一个模型；

第一转换单元806，用于使用所述目标声学模型和所述目标声码器将所述第一文本集合中的每个文本转换成对应的一段语音的波形信息。

作为一种可选的方案，所述第一训练单元，包括：

作为一种可选的方案，所述第一训练模块，还用于：

作为一种可选的方案，所述第二训练单元，包括：

作为一种可选的方案，所述第二训练模块，还用于：

作为一种可选的方案，所述第一转换单元，包括：

作为一种可选的方案，所述装置还包括：

作为一种可选的方案，所述第二转换单元，包括：

根据本发明实施例的又一个方面，还提供了一种用于实施上述语音生成方法的电子设备，该电子设备可以是图1所示的终端设备或服务器。本实施例以该电子设备为服务器为例来说明。如图12所示，该电子设备包括存储器902和处理器904，该存储器902中存储有计算机程序，该处理器904被设置为通过计算机程序执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述电子设备可以位于计算机网络的多个网络设备中的至少一个网络设备。

可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

S1，使用第一语音样本集合和预设的第一自监督预训练模型对待训练的声码器进行训练，得到目标声码器，其中，所述第一语音样本集合中的每个语音样本包括不带噪声的一段语音的第一原始波形信息，所述第一自监督预训练模型用于根据输入的所述第一原始波形信息生成对应的第一声学特征，所述待训练的声码器用于根据输入的所述第一声学特征生成对应的第一目标波形信息；

S2，使用第一文本集合、预设的第二自监督预训练模型和第二语音样本集合对待训练的声学模型进行训练，得到目标声学模型，其中，所述第二语音样本集合中的每个语音样本包括带噪声的一段语音的第二原始波形信息，所述第一文本集合中的每个文本是所述第二语音样本集合中对应的一个语音样本包括的一段语音所表示的文本，所述待训练的声学模型用于根据输入的所述文本生成对应的第三声学特征，所述第二自监督预训练模型用于根据输入的降噪波形信息生成对应的第二声学特征，所述降噪波形信息是对输入的所述第二原始波形信息进行降噪处理所得到的波形信息，所述第一自监督预训练模型和所述第二自监督预训练模型是同一个模型；

S3，使用所述目标声学模型和所述目标声码器将所述第一文本集合中的每个文本转换成对应的一段语音的波形信息。

可选地，本领域普通技术人员可以理解，图12所示的结构仅为示意，电子装置电子设备也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile Internet Devices，MID)、PAD等终端设备。图12其并不对上述电子装置电子设备的结构造成限定。例如，电子装置电子设备还可包括比图12中所示更多或者更少的组件(如网络接口等)，或者具有与图12所示不同的配置。

其中，存储器902可用于存储软件程序以及模块，如本发明实施例中的语音生成方法和装置对应的程序指令/模块，处理器904通过运行存储在存储器902内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的语音生成方法。存储器902可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器902可进一步包括相对于处理器904远程设置的存储器，这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。其中，存储器902具体可以但不限于用于存储物品的样本特征与目标虚拟资源账号等信息。作为一种示例，如图12所示，上述存储器902中可以但不限于包括上述语音生成装置中的第一训练单元802，第二训练单元804和第一转换单元806。此外，还可以包括但不限于上述语音生成装置中的其他模块单元，本示例中不再赘述。

可选地，上述的传输装置906用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中，传输装置906包括一个网络适配器(Network Interface Controller，NIC)，其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中，传输装置906为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

此外，上述电子设备还包括：显示器908和连接总线910，连接总线910用于连接上述电子设备中的各个模块部件。

在其他实施例中，上述终端设备或者服务器可以是一个分布式系统中的一个节点，其中，该分布式系统可以为区块链系统，该区块链系统可以是由该多个节点通过网络通信的形式连接形成的分布式系统。其中，节点之间可以组成点对点网络，任意形式的计算设备，比如服务器、终端等电子设备都可以通过加入该点对点网络而成为该区块链系统中的一个节点。

根据本申请的一个方面，提供了一种计算机程序产品，该计算机程序产品包括计算机程序/指令，该计算机程序/指令包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分1009从网络上被下载和安装，和/或从可拆卸介质1011被安装。在该计算机程序被中央处理器1001执行时，执行本申请实施例提供的各种功能。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

图13示意性地示出了用于实现本申请实施例的电子设备的计算机系统结构框图。

需要说明的是，图13示出的电子设备的计算机系统1000仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图13所示，计算机系统1000包括中央处理器1001(Central Processing Unit，CPU)，其可以根据存储在只读存储器1002(Read-Only Memory，ROM)中的程序或者从存储部分1008加载到随机访问存储器1003(Random Access Memory，RAM)中的程序而执行各种适当的动作和处理。在随机访问存储器1003中，还存储有系统操作所需的各种程序和数据。中央处理器1001、在只读存储器1002以及随机访问存储器1003通过总线1004彼此相连。输入/输出接口1005(Input/Output接口，即I/O接口)也连接至总线1004。

以下部件连接至输入/输出接口1005：包括键盘、鼠标等的输入部分1006；包括诸如阴极射线管(Cathode Ray Tube，CRT)、液晶显示器(Liquid Crystal Display，LCD)等以及扬声器等的输出部分1007；包括硬盘等的存储部分1008；以及包括诸如局域网卡、调制解调器等的网络接口卡的通信部分1009。通信部分1009经由诸如因特网的网络执行通信处理。驱动器1010也根据需要连接至输入/输出接口1005。可拆卸介质1011，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器1010上，以便于从其上读出的计算机程序根据需要被安装入存储部分1008。

特别地，根据本申请的实施例，各个方法流程图中所描述的过程可以被实现为计算机软件程序。例如，本申请的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分1009从网络上被下载和安装，和/或从可拆卸介质1011被安装。在该计算机程序被中央处理器1001执行时，执行本申请的系统中限定的各种功能。

根据本申请的一个方面，提供了一种计算机可读存储介质，计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各个方面的各种可选实现方式中提供的方法

可选地，在本实施例中，上述计算机可读存储介质可以被设置为存储用于执行以下步骤的计算机程序：

可选地，在本实施例中，本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(Random Access Memory，RAM)、磁盘或光盘等。

上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在上述计算机可读取的存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在存储介质中，包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的客户端，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种语音生成方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述使用第一语音样本集合和预设的第一自监督预训练模型对待训练的声码器进行训练，得到目标声码器，包括：

3.根据权利要求2所述的方法，其特征在于，所述将所述第一语音样本集合中的第i个语音样本输入到所述第一自监督预训练模型，得到用于表征第i段语音的第i个第一声学特征，包括：

4.根据权利要求3所述的方法，其特征在于，所述将第i个采样值序列输入到所述第一自监督预训练模型，得到用于表征所述第i段语音的第i个第一声学特征，包括：

将所述第i个采样值序列输入到所述第一自监督预训练模型，得到第i个表征向量，其中，所述第i个第一声学特征包括所述第i个表征向量，在所述第i个采样值序列包括N_i个采样点的语音幅度值的情况下，所述第i个表征向量的维度为W_i×H₁，N_i＝T_i×f₁，f₁是所述第一语音采样率，f₁表示单位时间内的采样点的数量，所述第i段语音的时长是T_i个所述单位时间，H₁为预设的值，H₁为大于或等于2的正整数，W_i是N_i除以R₁所得到的值，R₁为预设的值，R₁表示一帧中包括的采样点的数量。

5.根据权利要求2所述的方法，其特征在于，所述根据所述第i个第一原始波形信息和所述第i个第一目标波形信息，确定所述第i轮训练的第一目标损失值，包括：

6.根据权利要求1所述的方法，其特征在于，所述使用第一文本集合、预设的第二自监督预训练模型和第二语音样本集合对待训练的声学模型进行训练，得到目标声学模型，包括：

7.根据权利要求6所述的方法，其特征在于，所述将所述第一文本集合中的第j个文本输入第j轮训练的声学模型，得到用于表征第j段语音的第j个第三声学特征，包括：

8.根据权利要求6所述的方法，其特征在于，所述将所述第j个降噪波形信息输入所述第二自监督预训练模型，得到用于表征第j段语音的第j个第二声学特征，包括：

9.根据权利要求8所述的方法，其特征在于，所述将第j个降噪采样值序列输入到所述第二自监督预训练模型，得到用于表征所述第j段语音的第j个第二声学特征，包括：

将所述第j个降噪采样值序列输入到所述第二自监督预训练模型，得到第j个表征向量，其中，所述第j个第二声学特征包括所述第j个表征向量，在所述第j个采样值序列包括N_j个采样点的语音幅度值的情况下，所述第j个表征向量的维度为W_j×H₂，N_j＝T_j×f₂，f₂是所述第二语音采样率，f₂表示单位时间内的采样点的数量，所述第j段语音的时长是T_j个所述单位时间，H₂为预设的值，H₂为大于或等于2的正整数，W_j是N_j除以R₂所得到的值，R₂为预设的值，R₂表示一帧中包括的采样点的数量。

10.根据权利要求6所述的方法，其特征在于，所述根据所述第j个第二声学特征和所述第j个第三声学特征，确定所述第j轮训练的第二目标损失值，包括：

11.根据权利要求1至10中任一项所述的方法，其特征在于，所述使用所述目标声学模型和所述目标声码器将所述第一文本集合中的每个文本转换成对应的一段语音的波形信息，包括：

12.根据权利要求1至10中任一项所述的方法，其特征在于，所述方法还包括：

使用所述目标声学模型和所述目标声码器将第二文本集合中的每个文本转换成对应的一段语音的波形信息，其中，所述第二文本集合与所述第一文本集合不同。

13.根据权利要求12所述的方法，其特征在于，所述使用所述目标声学模型和所述目标声码器将第二文本集合中的每个文本转换成对应的一段语音的波形信息，包括：

14.一种语音生成装置，其特征在于，包括：

15.一种计算机可读的存储介质，其特征在于，所述计算机可读的存储介质包括存储的程序，其中，所述程序运行时执行所述权利要求1至13任一项中所述的方法。

16.一种计算机程序产品，包括计算机程序/指令，其特征在于，该计算机程序/指令被处理器执行时实现权利要求1至13所述方法的步骤。

17.一种电子设备，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为通过所述计算机程序执行所述权利要求1至13任一项中所述的方法。