CN117809621B

CN117809621B - 一种语音合成方法、装置、电子设备及存储介质

Info

Publication number: CN117809621B
Application number: CN202410223913.3A
Authority: CN
Inventors: 张硕; 苏江
Original assignee: Dark Matter Beijing Intelligent Technology Co ltd; DMAI Guangzhou Co Ltd
Current assignee: Dark Matter Beijing Intelligent Technology Co ltd; DMAI Guangzhou Co Ltd
Priority date: 2024-02-29
Filing date: 2024-02-29
Publication date: 2024-06-11
Anticipated expiration: 2044-02-29
Also published as: CN117809621A

Abstract

本申请提供了一种语音合成方法、装置、电子设备及存储介质，包括：将目标文本信息输入至预测器之中，确定出文本向量、发音时长特征以及基频特征；将目标提示音频输入至音频神经网络编解码器模型之中，基于多个残差量化器对目标提示音频进行音频压缩，输出每个残差量化器学习到的音频特征；将文本向量、发音时长特征、基频特征以及残差量化器学习到的音频特征输入至神经网络语言模型之中，基于神经网络语言模型的一个自回归解码器以及多个非自回归解码器进行注意力处理，输出目标特征序列；将目标特征序列输入至音频神经网络编解码器模型之中，生成目标合成语音。实现了可以通过零样本学习就可以复刻某个指定人的声音，提高语音合成的效果。

Description

一种语音合成方法、装置、电子设备及存储介质

技术领域

本申请涉及语音合成技术领域，尤其是涉及一种语音合成方法、装置、电子设备及存储介质。

背景技术

随着人机语音交互技术的发展，语音合成的应用范围越来越广。如生活中常见的语音助手，智能音箱，地图导航等，以及近年来逐渐发展的有声读物，AI主播，歌唱合成等应用逐渐深入人们的生活。语音合成旨在对给定文本合成高质量语音，其中，小样本语音合成的研究目标是仅用很少语音数据学习该说话人声音的特点并进行语音合成。传统的语音合成模型在单个人的语音生成方面表现出色，但面临多样性、自然性和真实感等方面的限制。传统语音合成模型通常使用在录音室中高清音频录制的数据进行训练，但这限制了模型对真实世界多样性的理解。所以如何使语音合成系统更加灵活性适应更多的语音场景成为了不容小觑的技术问题。

发明内容

有鉴于此，本申请的目的在于提供一种语音合成方法、装置、电子设备及存储介质，通过提示音频学习目标音色的特征，而无需在训练阶段接触到特定说话人的语音样本，这种灵活性使得语音合成系统能够适应广泛的音色需求，从而更好地满足用户对合成语音的个性化要求，实现了可以通过零样本学习就可以复刻某个指定人的声音，并且可以达到很好的语音合成效果。

本申请实施例提供了一种语音合成方法，所述语音合成方法包括：

将目标文本信息输入至语音合成系统的预测器之中，对所述目标文本信息进行处理，确定出文本向量、发音时长特征以及基频特征；

将目标提示音频输入至语音合成系统的音频神经网络编解码器模型之中，基于多个残差量化器对所述目标提示音频进行音频压缩，输出每个所述残差量化器学习到的音频特征；

将所述文本向量、所述发音时长特征、所述基频特征、第一个所述残差量化器学习到的音频特征以及所述目标提示音频输入至语音合成系统的神经网络语言模型之中，基于所述神经网络语言模型的一个自回归解码器以及多个非自回归解码器对所述发音时长特征、所述基频特征、第一个所述残差量化器学习到的音频特征以及所述目标提示音频进行注意力处理，输出目标特征序列；其中，解码器的数量与所述残差量化器的数量相一致；

将所述目标特征序列输入至所述音频神经网络编解码器模型之中，对所述目标特征序列进行处理，生成目标合成语音；其中，所述目标合成语音的内容为所述目标文本信息，音色为所述目标提示音频。

在一种可能的实施方式之中，所述将目标文本信息输入至语音合成系统的预测器之中，对所述目标文本信息进行处理，确定出文本向量、发音时长特征以及基频特征，包括：

对所述目标文本信息进行编码处理，确定出所述目标文本信息的文本向量；

将所述文本向量输入至所述预测器的时长预测层之中，对所述文本向量的每个音素的发音时长进行预测，确定出所述文本向量的发音时长特征；

将所述文本向量输入至所述预测器的基频预测层之中，对所述文本向量的每个音素的基频进行预测，确定出所述文本向量的基频特征。

在一种可能的实施方式之中，所述将目标提示音频输入至语音合成系统的音频神经网络编解码器模型之中，基于多个残差量化器对所述目标提示音频进行音频压缩，输出每个所述残差量化器学习到的音频特征，包括：

基于八个所述残差量化器对所述目标提示音频进行音频压缩，确定所述目标提示音频的声学编码矩阵；其中，所述声学编码矩阵的行向量代表不同音频帧对应的编码信息，所述声学编码矩阵的列向量代表不同残差量化器的编码序列；

基于所述声学编码矩阵，确定出每个所述残差量化器学习到的音频特征。

在一种可能的实施方式之中，所述将所述文本向量、所述发音时长特征、所述基频特征、第一个所述残差量化器学习到的音频特征以及所述目标提示音频输入至语音合成系统的神经网络语言模型之中，基于所述神经网络语言模型的一个自回归解码器以及多个非自回归解码器对所述发音时长特征、所述基频特征、第一个所述残差量化器学习到的音频特征以及所述目标提示音频进行注意力处理，输出目标特征序列，包括：

将所述文本向量、所述发音时长特征、所述基频特征以及第一个所述残差量化器学习到的音频特征输入至所述自回归解码器进行注意力处理，生成第一特征序列；

将所述第一特征序列、所述文本向量、所述发音时长特征、所述基频特征以及所述目标提示音频输入至相对应的所述非自回归解码器之中进行注意力处理，生成多个特征序列；

将所述第一特征序列以及多个所述特征序列进行融合，生成所述目标特征序列。

在一种可能的实施方式之中，所述将所述文本向量、所述发音时长特征、所述基频特征以及第一个所述残差量化器学习到的音频特征输入至所述自回归解码器进行注意力处理，生成第一特征序列，包括：

将所述文本向量、所述发音时长特征、所述基频特征以及第一个所述残差量化器学习到的音频特征进行特征拼接，确定出拼接特征序列；

将所述拼接特征序列输入至所述自回归解码器之中，对时间步相对应的所述拼接特征序列中的维度特征进行注意力处理，输出的注意力处理后的维度特征会作为下一个时间步的输入，与下一时间步的维度特征共同进行自注意处理，直至t-1个时间步之前的所述拼接特征序列中的多个维度特征进行注意力处理结束后，生成所述第一特征序列。

在一种可能的实施方式之中，所述将所述第一特征序列、所述文本向量、所述发音时长特征、所述基频特征以及所述目标提示音频输入至相对应的所述非自回归解码器之中进行注意力处理，生成多个特征序列，包括：

将所述第一特征序列、所述文本向量、所述发音时长特征、所述基频特征以及所述目标提示音频的声学特征进行特征拼接，将拼接后的特征输入至第一个所述非自回归解码器之中进行注意力处理，生成第二特征序列；

将所述第一特征序列、所述文本向量、所述发音时长特征、所述基频特征、所述第二特征序列以及所述声学特征进行特征拼接，将拼接后的特征输入至第二个所述非自回归解码器之中进行注意力处理，以此类推，生成多个所述特征序列。

在一种可能的实施方式之中，通过以下步骤确定出所述神经网络语言模型：

将存在说话人信息的第一样本音色音频输入至所述音频神经网络编解码器模型之中，输出每个所述残差量化器学习到的样本音频特征；

将样本文本向量、样本发音时长特征、样本基频特征以及第一个残差量化器学习到的样本音频特征输入至初始神经网络语言模型的初始自回归解码器进行注意力处理，生成第一样本特征序列；

将所述样本文本向量、所述样本发音时长特征、所述样本基频特征以及不存在说话人信息的第二样本音色音频输入至所述初始神经网络语言模型之中相对应的初始非自回归解码器进行注意力计算，生成多个样本特征序列；

基于多个所述样本特征序列、所述样本第一特征序列以及多个所述样本音频特征确定出所述初始神经网络语言模型的损失值；

基于所述损失值对所述初始神经网络语言模型进行迭代训练，生成所述神经网络语言模型。

本申请实施例还提供了一种语音合成装置，所述语音合成装置包括：

文本处理模块，用于将目标文本信息输入至语音合成系统的预测器之中，对所述目标文本信息进行处理，确定出文本向量、发音时长特征以及基频特征；

音频压缩模块，用于将目标提示音频输入至语音合成系统的音频神经网络编解码器模型之中，基于多个残差量化器对所述目标提示音频进行音频压缩，输出每个所述残差量化器学习到的音频特征；

特征处理模块，用于将所述文本向量、所述发音时长特征、所述基频特征、第一个所述残差量化器学习到的音频特征以及所述目标提示音频输入至语音合成系统的神经网络语言模型之中，基于所述神经网络语言模型的一个自回归解码器以及多个非自回归解码器对所述发音时长特征、所述基频特征、第一个所述残差量化器学习到的音频特征以及所述目标提示音频进行注意力处理，输出目标特征序列；其中，解码器的数量与所述残差量化器的数量相一致；

音频生成模块，用于将所述目标特征序列输入至所述音频神经网络编解码器模型之中，对所述目标特征序列进行处理，生成目标合成语音；其中，所述目标合成语音的内容为所述目标文本信息，音色为所述目标提示音频。

本申请实施例还提供一种电子设备，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行如上述的语音合成方法的步骤。

本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如上述的语音合成方法的步骤。

本申请实施例提供的一种语音合成方法、装置、电子设备及存储介质，所述语音合成方法包括：将目标文本信息输入至语音合成系统的预测器之中，对所述目标文本信息进行处理，确定出文本向量、发音时长特征以及基频特征；将目标提示音频输入至语音合成系统的音频神经网络编解码器模型之中，基于多个残差量化器对所述目标提示音频进行音频压缩，输出每个所述残差量化器学习到的音频特征；将所述文本向量、所述发音时长特征、所述基频特征、第一个所述残差量化器学习到的音频特征以及所述目标提示音频输入至语音合成系统的神经网络语言模型之中，基于所述神经网络语言模型的一个自回归解码器以及多个非自回归解码器对所述发音时长特征、所述基频特征、第一个所述残差量化器学习到的音频特征以及所述目标提示音频进行注意力处理，输出目标特征序列；其中，解码器的数量与所述残差量化器的数量相一致；将所述目标特征序列输入至所述音频神经网络编解码器模型之中，对所述目标特征序列进行处理，生成目标合成语音；其中，所述目标合成语音的内容为所述目标文本信息，音色为所述目标提示音频。本方案的有益效果为通过提示音频学习目标音色的特征，而无需在训练阶段接触到特定说话人的语音样本，这种灵活性使得语音合成系统能够适应广泛的音色需求，从而更好地满足用户对合成语音的个性化要求，实现了可以通过零样本学习就可以复刻某个指定人的声音，并且可以达到很好的语音合成效果。

为使本申请的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例所提供的一种语音合成方法的流程图；

图2为本申请实施例所提供的一种语音合成方法的示意图；

图3为本申请实施例所提供的一种语音合成装置的结构示意图之一；

图4为本申请实施例所提供的一种语音合成装置的结构示意图之二；

图5为本申请实施例所提供的一种电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的每个其他实施例，都属于本申请保护的范围。

首先，对本申请可适用的应用场景进行介绍。本申请可应用于语音合成技术领域。

经研究发现，随着人机语音交互技术的发展，语音合成的应用范围越来越广。如生活中常见的语音助手，智能音箱，地图导航等，以及近年来逐渐发展的有声读物，AI主播，歌唱合成等应用逐渐深入人们的生活。语音合成旨在对给定文本合成高质量语音，其中，小样本语音合成的研究目标是仅用很少语音数据学习该说话人声音的特点并进行语音合成。传统的语音合成模型在单个人的语音生成方面表现出色，但面临多样性、自然性和真实感等方面的限制。传统语音合成模型通常使用在录音室中高清音频录制的数据进行训练，但这限制了模型对真实世界多样性的理解。所以如何使语音合成系统更加灵活性适应更多的语音场景成为了不容小觑的技术问题。

基于此，本申请实施例提供了一种语音合成方法，通过提示音频学习目标音色的特征，而无需在训练阶段接触到特定说话人的语音样本，这种灵活性使得语音合成系统能够适应广泛的音色需求，从而更好地满足用户对合成语音的个性化要求，实现了可以通过零样本学习就可以复刻某个指定人的声音，并且可以达到很好的语音合成效果。

请参阅图1，图1为本申请实施例所提供的一种语音合成方法的流程图。如图1中所示，本申请实施例提供的语音合成方法，包括：

S101：将目标文本信息输入至语音合成系统的预测器之中，对所述目标文本信息进行处理，确定出文本向量、发音时长特征以及基频特征。

该步骤中，将目标文本信息输入到语音合成系统的预测器之中，对目标文本信息进行处理，确定出文本向量、发音时长特征以及基频特征。

其中，目标文本信息为用户提供的要合成的语音的内容。

其中，语音合成系统是由预测器、音频神经网络编解码器模型以及神经网络语言模型进行组建构成的。

A：对所述目标文本信息进行编码处理，确定出所述目标文本信息的文本向量。

这里，对目标文本信息进行编码处理，确定出目标文本信息的文本向量。

B：将所述文本向量输入至所述预测器的时长预测层之中，对所述文本向量的每个音素的发音时长进行预测，确定出所述文本向量的发音时长特征。

这里，将文本向量输入到预测器的时长预测层之中，对文本向量的每个音素的发音时长进行预测，确定出文本向量的发音时长特征。

C：将所述文本向量输入至所述预测器的基频预测层之中，对所述文本向量的每个音素的基频进行预测，确定出所述文本向量的基频特征。

这里，将文本向量输入至预测器的基频预测层之中，对文本向量的每个音素的基频进行预测，确定出文本向量的基频特征。

具体的，将目标文本信息输入到文本编码器得到文本向量，然后将文本向量分别输入到时长预测层以及基频预测层之中分别得到发音时长特征以及基频特征。

这里，预测器中的时长预测层和基频预测层拥有一样的模型结构，主要由卷积神经网络构成。用对齐工具（如Montreal Forced Aligner等）和基频提取工具（如pyworld等）得到每个音素对应的真实的时长信息和基频信息作为时长预测层和基频预测层分别的学习目标。在训练过程中，用真实的时长信息扩充音素序列得到帧级别的隐藏层特征，然后把真实的基频信息与扩充后的音素序列进行相加得到最后的附加信息。在推理的时候，用预测的时长信息和基频信息进行推理。

S102：将目标提示音频输入至语音合成系统的音频神经网络编解码器模型之中，基于多个残差量化器对所述目标提示音频进行音频压缩，输出每个所述残差量化器学习到的音频特征。

该步骤中，将目标提示音频输入至语音合成系统的音频神经网络编解码器模型之中，根据多个残差量化器对目标提示音频进行音频压缩，输出每个残差量化器学习到的音频特征。

其中，目标提示音频是用户选择的合成语音的目标音色。

其中，残差量化器的数量可为八个。

在现有技术中一些基于向量量化的方法，例如vq-wav2vec等自监督模型也可以将音频还原，但是一般只能还原音频内容，往往会丢失掉音频的说话人信息，且还原音频的音质也不是很理想。所以，在本方案中，利用8个残差连接的量化器将音频压缩成一系列离散标记作为编码器，然后通过解码器进行还原。首先需要把音频进行量化压缩，音频采样位数为16 bit，那如果对一个采样点进行预测就会有216=65536种可能性，这样对于模型预测来说很不友好。通常采用u-law转换的方式对音频进行压缩，将预测的可能性降低为256个值。在本方案中采用预训练好的音频神经网络编解码器模型对音频进行压缩，因为该音频编解码器可以将音频压缩到更低的比特率，并且保留音频的重要信息。

基于八个所述残差量化器对所述目标提示音频进行音频压缩，确定所述目标提示音频的声学编码矩阵；其中，所述声学编码矩阵的行向量代表不同音频帧对应的编码信息，所述声学编码矩阵的列向量代表不同残差量化器的编码序列；基于所述声学编码矩阵，确定出每个所述残差量化器学习到的音频特征。

这里，根据八个残差量化器对目标提示音频进行音频压缩，确定目标提示音频的声学编码矩阵，根据声学编码矩阵，确定出每个残差量化器学习到的音频特征。

其中，采用8个残差量化器，对目标提示音频进行320倍的压缩。所以10秒的24kHz经过量化后就变为了750（2400x10 / 320）x8 的矩阵。这里采用的残差量化器的学习方式使得第1个残差量化器主要学习说话人身份相关的信息，其他7个量化器学习到目标提示音频的其他音频细节信息。如，预训练好的音频神经网络编解码器把目标提示音频编码成离散的声学编码矩阵。编码器, C代表二维的声学编码矩阵，T是下采样之后的序列长度。每一个声学编码矩阵的行向量都代表不同帧t对应的8个编码，每一个声学编码矩阵的列向量代表第j个残差量化器的编码序列（音频特征）。

在本方案中，目标提示文本被用作语音生成的文本依据，语音合成系统将其转换为语音。同时，用户提供的目标提示音频则用于设定合成音频的目标音色。这一设计的独特之处在于，用户可以选择任何他们喜欢的音频提示，即使这些音频提示来自在训练过程中未曾涉及的说话人。

S103将所述文本向量、所述发音时长特征、所述基频特征、第一个所述残差量化器学习到的音频特征以及所述目标提示音频输入至语音合成系统的神经网络语言模型之中，基于所述神经网络语言模型的一个自回归解码器以及多个非自回归解码器对所述发音时长特征、所述基频特征、第一个所述残差量化器学习到的音频特征以及所述目标提示音频进行注意力处理，输出目标特征序列；其中，解码器的数量与所述残差量化器的数量相一致。

该步骤中，将文本向量、发音时长特征、基频特征、第一个残差量化器学习到的音频特征以及目标提示音频输入至语音合成系统的神经网络语言模型之中，根据一个自回归解码器以及多个非自回归解码器对发音时长特征、基频特征、第一个所述残差量化器学习到的音频特征以及目标提示音频进行注意力处理，输出目标特征序列。

其中，解码器的数量与所述残差量化器的数量相一致，若残差量化器的数量为八个，则一个自回归解码器以及多个非自回归解码器的总数量也为八个。

（1）：将所述文本向量、所述发音时长特征、所述基频特征以及第一个所述残差量化器学习到的音频特征输入至所述自回归解码器进行注意力处理，生成第一特征序列。

这里，将文本向量、发音时长特征、基频特征以及第一个残差量化器学习到的音频特征输入至自回归解码器进行注意力处理，生成第一特征序列。

a：将所述文本向量、所述发音时长特征、所述基频特征以及第一个所述残差量化器学习到的音频特征进行特征拼接，确定出拼接特征序列。

这里，将文本向量、发音时长特征、基频特征以及第一个残差量化器学习到的音频特征进行特征拼接，确定出拼接特征序列。

b：将所述拼接特征序列输入至所述自回归解码器之中，对时间步相对应的所述拼接特征序列中的维度特征进行注意力处理，输出的注意力处理后的维度特征会作为下一个时间步的输入，与下一时间步的维度特征共同进行自注意处理，直至t-1个时间步之前的所述拼接特征序列中的多个维度特征进行注意力处理结束后，生成所述第一特征序列。

这里，将拼接特征序列输入至自回归解码器之中，对时间步下的拼接特征序列中的维度特征进行注意力处理，输出的注意力处理后的维度特征会作为下一个时间步的输入，注意力处理后的维度特征与下一时间步的维度特征共同进行自注意处理，直至t-1个时间步之前的拼接特征序列中的多个维度特征进行注意力处理结束后，生成第一特征序列。

其中，拼接特征序列的序列长度对应多个时间步。

这里，在文本向量和音频特征输入到自回归解码器之前需要进行位置编码的计算，此系统采用正弦位置编码。

在本方案中，区别于普通的transformer本方案采用基于因果关系的transformer，在自回归解码器中每一个时间步的输出都会作为下一个时间步的输入进行计算。另外在做自注意力层计算时，输出第t个时间步的注意力矩阵，只能对t-1个时间步之前的特征进行注意力计算，而不是计算所有特征的注意力。

（2）：将所述第一特征序列、所述文本向量、所述发音时长特征以及所述基频特征输入至相对应的所述非自回归解码器之中进行注意力处理，生成多个特征序列。

这里，将第一特征序列、文本向量、发音时长特征以及基频特征输入至相对应的非自回归解码器之中进行注意力处理，生成多个特征序列。

I：将所述第一特征序列、所述文本向量、所述发音时长特征、所述基频特征以及所述目标提示音频的声学特征进行特征拼接，将拼接后的特征输入至第一个所述非自回归解码器之中进行注意力处理，生成第二特征序列。

这里，将第一特征序列、文本向量、发音时长特征、基频特征以及声学特征进行特征拼接，将拼接后的特征输入至第一个非自回归解码器之中进行注意力处理，生成第二特征序列。

其中，声学特征是目标提示音频输入至神经网络语言模型后经过神经网络语言模型的8个声学特征嵌入层确定出来的。

II：将所述第一特征序列、所述文本向量、所述发音时长特征、所述基频特征、所述第二特征序列以及所述声学特征进行特征拼接，将拼接后的特征输入至第二个所述非自回归解码器之中进行注意力处理，以此类推，生成多个所述征序列。

这里，将第一特征序列、文本向量、发音时长特征、基频特征、第二特征序列以及声学特征进行特征拼接，将拼接后的特征输入至第二个非自回归解码器之中进行注意力处理，以此类推，生成多个特征序列。

其中，在拼接过程中第一特征序列与第二特征序列先拼接，将拼接后的特征与其他特征再进行拼接。也就是说，在本方案中每个非自回归解码器的输入，都是前面的解码器输出的特征拼接之后，再拼接其他特征，然后输入至非自回归解码器。

在本方案中，不同于自回归解码器注意力的计算方式，在非自回归解码器中，所有的输入特征都是可以参与注意力计算的。

（3）：将所述第一特征序列以及多个所述特征序列进行融合，生成所述目标特征序列。

这里，将第一特征序列以及多个特征序列进行融合，生成目标特征序列。

i：将存在说话人信息的第一样本音色音频输入至所述音频神经网络编解码器模型之中，输出每个所述残差量化器学习到的样本音频特征。

这里，将存在说话人信息的第一样本音色音频输入至音频神经网络编解码器模型之中，输出每个残差量化器学习到的样本音频特征。

这里，样本音频特征的处理过程与上述音频特征处理的过程相一致，此部分不再进行赘述。

ii：将样本文本向量、样本发音时长特征、样本基频特征以及第一个残差量化器学习到的样本音频特征输入至初始神经网络语言模型的初始自回归解码器进行注意力处理，生成第一样本特征序列。

这里，将样本文本向量、样本发音时长特征、样本基频特征以及第一个残差量化器学习到的样本音频特征输入至初始神经网络语言模型的初始自回归解码器进行注意力处理，生成第一样本特征序列。

这里，将样本文本向量、样本发音时长特征、样本基频特征为对样本文本进行处理得到的，处理过程与上述目标提示文本的处理过程相一致，此部分不再进行赘述。

iii：将所述样本文本向量、所述样本发音时长特征、所述样本基频特征以及不存在说话人信息的第二样本音色音频输入至所述初始神经网络语言模型之中相对应的初始非自回归解码器进行注意力计算，生成多个样本特征序列。

这里，将样本文本向量、样本发音时长特征、样本基频特征以及第二样本音色音频输入至初始神经网络语言模型之中相对应的初始非自回归解码器进行注意力计算，生成多个样本特征序列。

其中，第二样本音色音频与第一样本音色音频为同一音频，不同的是第一样本音色音频存在说话人信息，而第二样本音色音频不存在说话人信息。

其中，在训练阶段非自回归解码器有8个声学特征嵌入层。在非自回归解码器中，除了用文本特征作为输入，还会将第二样本音色音频作为输入，目的是克隆样本说话人的音色。样本音色音频经过神经网络编码器之后，会输入到8个声学特征嵌入层，然后将8个嵌入层的输出相加作为声学参考特征，声学参考特征与样本文本向量、样本发音时长特征、样本基频特征、以及第一样本特征序列进行特征拼接，然后进行注意力计算，生成样本第二特征序列。其中，生成样本第二特征序列的处理过程与上述第二特征序列的处理过程相一致，此部分不再进行赘述。

iv：基于多个所述样本特征序列、所述样本第一特征序列以及多个所述样本音频特征确定出所述初始神经网络语言模型的损失值；基于所述损失值对所述初始神经网络语言模型进行迭代训练，生成所述神经网络语言模型。

这里，根据多个样本特征序列、样本第一特征序列以及多个样本音频特征确定出初始神经网络语言模型的损失值，若损失值小于等于预设阈值，则停止对初始神经网络语言模型的迭代训练，生成神经网络语言模型。若损失值大于预设阈值，则对初始神经网络语言模型的网络参数进行更改，对更改后的初始神经网络语言模型进行迭代训练，直至损失值小于等于预设阈值时停止训练，生成神经网络语言模型。

在本方案中，可以通过零样本学习就可以复刻某个指定人的声音，并且可以达到很好的合成效果。传统的语音合成模型复刻某个人的音色，需要高标准录制音频数小时，通过利用此系统的技术范式可以很好地节省时间成本和数据录制成本。另外此系统借鉴了大语言模型的训练方式和训练特点，将语音合成模型变成了从字符到字符的预测任务，不需要借助中间特征进行转化，减少了信息损失以及简化了传统语音合成模型需要分为声学模型和声码器两段式的训练范式。真正实现了从文本输入到合成音频的端到端模型。

S104：将所述目标特征序列输入至所述音频神经网络编解码器模型之中，对所述目标特征序列进行处理，生成目标合成语音；其中，所述目标合成语音的内容为所述目标文本信息，音色为所述目标提示音频。

该步骤中，目标特征序列输入至音频神经网络编解码器模型之中，对目标特征序列进行处理，生成目标合成语音。这里，目标合成语音为用目标提示音频对目标提示文本进行说话的合成语音。

进一步的，请参阅图2，图2为本申请实施例所提供的一种语音合成方法的示意图。如图2所示，将目标提示音频输入至音频神经网络编解码器模型之中，生成每个残差量化器学习到的音频特征，将目标文本信息输入至预测器之中，生成文本向量、发音时长特征以及基频特征。将文本向量、发音时长特征、基频特征、第一个残差量化器学习到的音频特征以及目标提示音频输入至语音合成系统的神经网络语言模型之中，根据神经网络语言模型的一个自回归解码器以及多个非自回归解码器对发音时长特征、基频特征、第一个残差量化器学习到的音频特征以及目标提示音频进行注意力处理，输出目标特征序列，将目标特征序列输入至音频神经网络编解码器模型之中，最终合成的内容为目标提示文本与目标提示音频进行合成的语音。

本申请实施例提供的一种语音合成方法，所述语音合成方法包括：将目标文本信息输入至语音合成系统的预测器之中，对所述目标文本信息进行处理，确定出文本向量、发音时长特征以及基频特征；将目标提示音频输入至语音合成系统的音频神经网络编解码器模型之中，基于多个残差量化器对所述目标提示音频进行音频压缩，输出每个所述残差量化器学习到的音频特征；将所述文本向量、所述发音时长特征、所述基频特征、第一个所述残差量化器学习到的音频特征以及所述目标提示音频输入至语音合成系统的神经网络语言模型之中，基于所述神经网络语言模型的一个自回归解码器以及多个非自回归解码器对所述发音时长特征、所述基频特征、第一个所述残差量化器学习到的音频特征以及所述目标提示音频进行注意力处理，输出目标特征序列；其中，解码器的数量与所述残差量化器的数量相一致；将所述目标特征序列输入至所述音频神经网络编解码器模型之中，对所述目标特征序列进行处理，生成目标合成语音；其中，所述目标合成语音的内容为所述目标文本信息，音色为所述目标提示音频。通过提示音频学习目标音色的特征，而无需在训练阶段接触到特定说话人的语音样本，这种灵活性使得语音合成系统能够适应广泛的音色需求，从而更好地满足用户对合成语音的个性化要求，实现了可以通过零样本学习就可以复刻某个指定人的声音，并且可以达到很好的语音合成效果。

请参阅图3、图4，图3为本申请实施例所提供的一种语音合成装置的结构示意图之一；图4为本申请实施例所提供的一种语音合成装置的结构示意图之二。如图3中所示，所述语音合成装置300包括：

文本处理模块310，用于将目标文本信息输入至语音合成系统的预测器之中，对所述目标文本信息进行处理，确定出文本向量、发音时长特征以及基频特征；

音频压缩模块320，用于将目标提示音频输入至语音合成系统的音频神经网络编解码器模型之中，基于多个残差量化器对所述目标提示音频进行音频压缩，输出每个所述残差量化器学习到的音频特征；

特征处理模块330，用于将所述文本向量、所述发音时长特征、所述基频特征、第一个所述残差量化器学习到的音频特征以及所述目标提示音频输入至语音合成系统的神经网络语言模型之中，基于所述神经网络语言模型的一个自回归解码器以及多个非自回归解码器对所述发音时长特征、所述基频特征、第一个所述残差量化器学习到的音频特征以及所述目标提示音频进行注意力处理，输出目标特征序列；其中，解码器的数量与所述残差量化器的数量相一致；

音频生成模块340，用于将所述目标特征序列输入至所述音频神经网络编解码器模型之中，对所述目标特征序列进行处理，生成目标合成语音；其中，所述目标合成语音的内容为所述目标文本信息，音色为所述目标提示音频。

进一步的，文本处理模块310在用于所述将目标文本信息输入至语音合成系统的预测器之中，对所述目标文本信息进行处理，确定出文本向量、发音时长特征以及基频特征时，文本处理模块310具体用于：

进一步的，音频压缩模块320在用于所述将目标提示音频输入至语音合成系统的音频神经网络编解码器模型之中，基于多个残差量化器对所述目标提示音频进行音频压缩，输出每个所述残差量化器学习到的音频特征时，音频压缩模块320具体用于：

进一步的，特征处理模块330在用于所述将所述文本向量、所述发音时长特征、所述基频特征、第一个所述残差量化器学习到的音频特征以及所述目标提示音频输入至语音合成系统的神经网络语言模型之中，基于所述神经网络语言模型的一个自回归解码器以及多个非自回归解码器对所述发音时长特征、所述基频特征、第一个所述残差量化器学习到的音频特征以及所述目标提示音频进行注意力处理，输出目标特征序列时，特征处理模块330具体用于：

进一步的，特征处理模块330在用于所述将所述文本向量、所述发音时长特征、所述基频特征以及第一个所述残差量化器学习到的音频特征输入至所述自回归解码器进行注意力处理，生成第一特征序列时，特征处理模块330具体用于：

进一步的，特征处理模块330在用于所述将所述第一特征序列、所述文本向量、所述发音时长特征、所述基频特征以及所述目标提示音频输入至相对应的所述非自回归解码器之中进行注意力处理，生成多个特征序列时，特征处理模块330具体用于：

进一步的，如图4所示，语音合成装置300还包括模型训练模块350，模型训练模块350通过以下步骤确定出所述神经网络语言模型：

将存在说话人信息的样本音色音频输入至所述音频神经网络编解码器模型之中，输出每个所述残差量化器学习到的样本音频特征；

本申请实施例提供的一种语音合成装置，其特征在于，所述语音合成装置包括：文本处理模块，用于将目标文本信息输入至语音合成系统的预测器之中，对所述目标文本信息进行处理，确定出文本向量、发音时长特征以及基频特征；音频压缩模块，用于将目标提示音频输入至语音合成系统的音频神经网络编解码器模型之中，基于多个残差量化器对所述目标提示音频进行音频压缩，输出每个所述残差量化器学习到的音频特征；特征处理模块，用于将所述文本向量、所述发音时长特征、所述基频特征、第一个所述残差量化器学习到的音频特征以及所述目标提示音频输入至语音合成系统的神经网络语言模型之中，基于所述神经网络语言模型的一个自回归解码器以及多个非自回归解码器对所述发音时长特征、所述基频特征、第一个所述残差量化器学习到的音频特征以及所述目标提示音频进行注意力处理，输出目标特征序列；其中，解码器的数量与所述残差量化器的数量相一致；音频生成模块，用于将所述目标特征序列输入至所述音频神经网络编解码器模型之中，对所述目标特征序列进行处理，生成目标合成语音；其中，所述目标合成语音的内容为所述目标文本信息，音色为所述目标提示音频。通过提示音频学习目标音色的特征，而无需在训练阶段接触到特定说话人的语音样本，这种灵活性使得语音合成系统能够适应广泛的音色需求，从而更好地满足用户对合成语音的个性化要求，实现了可以通过零样本学习就可以复刻某个指定人的声音，并且可以达到很好的语音合成效果。

请参阅图5，图5为本申请实施例所提供的一种电子设备的结构示意图。如图5中所示，所述电子设备500包括处理器510、存储器520和总线530。

所述存储器520存储有所述处理器510可执行的机器可读指令，当电子设备500运行时，所述处理器510与所述存储器520之间通过总线530通信，所述机器可读指令被所述处理器510执行时，可以执行如上述图1以及图2所示方法实施例中的语音合成方法的步骤，具体实现方式可参见方法实施例，在此不再赘述。

本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时可以执行如上述图1以及图2所示方法实施例中的语音合成方法的步骤，具体实现方式可参见方法实施例，在此不再赘述。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（Read-OnlyMemory，ROM）、随机存取存储器（Random Access Memory，RAM）、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上所述实施例，仅为本申请的具体实施方式，用以说明本申请的技术方案，而非对其限制，本申请的保护范围并不局限于此，尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种语音合成方法，其特征在于，所述语音合成方法包括：

将所述目标特征序列输入至所述音频神经网络编解码器模型之中，对所述目标特征序列进行处理，生成目标合成语音；其中，所述目标合成语音的内容为所述目标文本信息，音色为所述目标提示音频；

所述将所述文本向量、所述发音时长特征、所述基频特征、第一个所述残差量化器学习到的音频特征以及所述目标提示音频输入至语音合成系统的神经网络语言模型之中，基于所述神经网络语言模型的一个自回归解码器以及多个非自回归解码器对所述发音时长特征、所述基频特征、第一个所述残差量化器学习到的音频特征以及所述目标提示音频进行注意力处理，输出目标特征序列，包括：

将所述第一特征序列、所述文本向量、所述发音时长特征、所述基频特征以及所述目标提示音频输入至所述非自回归解码器之中进行注意力处理，生成第二特征序列，将所述第一特征序列、所述第二特征序列、所述文本向量、所述发音时长特征、所述基频特征以及所述目标提示音频输入至下一所述非自回归解码器之中，依次类推，生成多个特征序列；

将所述第一特征序列以及所述多个特征序列进行融合，生成所述目标特征序列。

2.根据权利要求1所述的语音合成方法，其特征在于，所述将目标文本信息输入至语音合成系统的预测器之中，对所述目标文本信息进行处理，确定出文本向量、发音时长特征以及基频特征，包括：

3.根据权利要求1所述的语音合成方法，其特征在于，所述将目标提示音频输入至语音合成系统的音频神经网络编解码器模型之中，基于多个残差量化器对所述目标提示音频进行音频压缩，输出每个所述残差量化器学习到的音频特征，包括：

4.根据权利要求1所述的语音合成方法，其特征在于，所述将所述文本向量、所述发音时长特征、所述基频特征以及第一个所述残差量化器学习到的音频特征输入至所述自回归解码器进行注意力处理，生成第一特征序列，包括：

将所述拼接特征序列输入至所述自回归解码器之中，对时间步相对应的所述拼接特征序列中的维度特征进行注意力处理，输出的注意力处理后的维度特征会作为下一个时间步的输入，与下一时间步的维度特征共同进行注意力处理，直至t-1个时间步之前的所述拼接特征序列中的多个维度特征进行注意力处理结束后，生成所述第一特征序列。

5.根据权利要求1所述的语音合成方法，其特征在于，所述将所述第一特征序列、所述文本向量、所述发音时长特征、所述基频特征以及所述目标提示音频输入至所述非自回归解码器之中进行注意力处理，生成第二特征序列，将所述第一特征序列、所述第二特征序列、所述文本向量、所述发音时长特征、所述基频特征以及所述目标提示音频输入至下一所述非自回归解码器之中，依次类推，生成多个特征序列，包括：

将所述第一特征序列、所述文本向量、所述发音时长特征、所述基频特征、所述第二特征序列以及所述声学特征进行特征拼接，将拼接后的特征输入至第二个所述非自回归解码器之中进行注意力处理，以此类推，生成所述多个特征序列。

6.根据权利要求1所述的语音合成方法，其特征在于，通过以下步骤确定出所述神经网络语言模型：

基于所述多个样本特征序列、所述第一样本特征序列以及所述多个样本音频特征确定出所述初始神经网络语言模型的损失值；

7.一种语音合成装置，其特征在于，所述语音合成装置包括：

音频生成模块，用于将所述目标特征序列输入至所述音频神经网络编解码器模型之中，对所述目标特征序列进行处理，生成目标合成语音；其中，所述目标合成语音的内容为所述目标文本信息，音色为所述目标提示音频；

特征处理模块在用于将所述文本向量、所述发音时长特征、所述基频特征、第一个所述残差量化器学习到的音频特征以及所述目标提示音频输入至语音合成系统的神经网络语言模型之中，基于所述神经网络语言模型的一个自回归解码器以及多个非自回归解码器对所述发音时长特征、所述基频特征、第一个所述残差量化器学习到的音频特征以及所述目标提示音频进行注意力处理，输出目标特征序列时，特征处理模块具体用于：

将所述第一特征序列、所述文本向量、所述发音时长特征、所述基频特征以及所述目标提示音频输入至所述非自回归解码器之中进行注意力处理，生成第二特征序列，将所述第一特征序列、所述第二特征序列、所述文本向量、所述发音时长特征、所述基频特征以及所述目标提示音频输入至下一所述非自回归解码器之中，依次类推，生成多个特征序列将所述第一特征序列以及所述多个特征序列进行融合，生成所述目标特征序列。

8.一种电子设备，其特征在于，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过所述总线进行通信，所述机器可读指令被所述处理器运行时执行如权利要求1至6任一所述的语音合成方法的步骤。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行如权利要求1至6任一所述的语音合成方法的步骤。