CN117496946A

CN117496946A - 语音合成方法、装置、设备及计算机可读介质

Info

Publication number: CN117496946A
Application number: CN202311466045.3A
Authority: CN
Inventors: 高强
Original assignee: Netease Youdao Information Technology Beijing Co Ltd
Current assignee: Netease Youdao Information Technology Beijing Co Ltd
Priority date: 2023-11-06
Filing date: 2023-11-06
Publication date: 2024-02-02

Abstract

本发明的实施方式提供了一种语音合成方法、装置、设备及计算机可读介质。该方法包括：将待转换为语音的目标文本输入大语言模型，以利用所述大语言模型对所述目标文本进行文本分析；提取所述大语言模型的最后一个隐藏层的输出，得到所述目标文本在所述大语言模型中的隐层特征；使用所述隐层特征合成所述目标文本的语音数据。本申请利用大语言模型在文本分析方面的强大解析能力，只需使用大语言模型便可完成多项文本分析任务，无需通过多个文本分析模块进行逐个处理，极大简化了语音合成的流程，并且基于大语言模型强大的理解能力，大大提高了语音合成的准确率，因此解决了语音合成流程繁琐，预测准确率较低的技术问题。

Description

语音合成方法、装置、设备及计算机可读介质

技术领域

本发明的实施方式涉及语音合成技术领域，更具体地，本发明的实施方式涉及一种语音合成方法、装置、设备及计算机可读介质。

背景技术

本部分旨在为权利要求书中陈述的本发明的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。

语音合成是指将用户输入的文本合成为指定音色的语音的技术。这个过程通常涉及到文本分析、声学模型以及声码器三个模块。语音合成技术现广泛应用于车载语音助手播报、短视频播报、词典笔播报等领域，大大节省了人工播报的投入。

在现有技术中，多音字识别、文本正则识别以及韵律停顿预测等是语音合成中不同的研究方向，在技术实现上需要通过不同的模型来实现对应的功能，因此要完整实现语音合成，所需文本分析前端非常繁琐。并且，即便通过不同的模型来实现对应的功能，现有方案在多音字识别、文本正则识别以及韵律停顿预测也存在准确率较低的问题，不满足用户需求。

发明内容

在本上下文中，本发明的实施方式期望提供一种语音合成方法、装置、设备及计算机可读介质，以解决语音合成流程繁琐，预测准确率较低的技术问题。

在本发明实施方式的第一方面中，提供了一种语音合成方法，包括：将待转换为语音的目标文本输入大语言模型，以利用所述大语言模型对所述目标文本进行文本分析；提取所述大语言模型的最后一个隐藏层的输出，得到所述目标文本在所述大语言模型中的隐层特征；使用所述隐层特征合成所述目标文本的语音数据。

在本发明的一个实施例中，所述使用所述隐层特征合成所述目标文本的语音数据包括：将所述隐层特征输入第一声学模型，以利用所述第一声学模型对所述隐层特征进行特征编码，其中，所述第一声学模型是基于训练文本的隐层特征和所述训练文本对应的语音样本训练得到的，所述训练文本的隐层特征是通过所述大语言模型得到的；获取所述第一声学模型对所述隐层特征进行特征编码后输出的梅尔频谱，并将所述梅尔频谱输入第一声码器，其中，所述第一声码器是基于所述训练文本对应的语音样本和所述语音样本的梅尔频谱训练得到的，所述语音样本的梅尔频谱是通过所述第一声学模型得到的；获取所述第一声码器的输出，得到所述目标文本的语音数据。

在本发明的另一实施例中，所述将所述隐层特征输入第一声学模型之前，所述方法还包括按照如下方式训练得到所述第一声学模型：获取所述训练文本和对应的语音样本；提取所述语音样本的梅尔频谱，并将所述训练文本输入所述大语言模型；提取所述大语言模型的最后一个隐藏层的输出，得到所述训练文本的隐层特征；将所述训练文本的隐层特征输入第二声学模型，以利用所述训练文本的隐层特征对所述第二声学模型进行特征编码训练；利用所述语音样本的梅尔频谱对所述第二声学模型的训练结果进行验证；在所述第二声学模型的验证损失降低到第一目标阈值的情况下，将所述第二声学模型确定为所述第一声学模型。

在本发明的又一个实施例中，在所述第二声学模型的验证损失未降低到所述第一目标阈值的情况下，所述方法还包括：继续使用所述训练文本的隐层特征对所述第二声学模型进行迭代训练，并在每一轮迭代训练中调整所述第二声学模型内各网络层中的参数的数值，直至所述第二声学模型的验证损失降低到所述第一目标阈值。

在本发明的再一个实施例中，所述在每一轮迭代训练中调整所述第二声学模型内各网络层中的参数的数值包括：利用目标损失函数确定损失值，其中，所述损失值用于表示所述第二声学模型对所述训练文本的隐层特征的编码结果与所述语音样本的梅尔频谱之间的准确度的差异；利用所述损失值调整所述第二声学模型中至少两个transformer编码器和时长模型的参数，直至所述第二声学模型的验证损失降低到所述第一目标阈值，其中，所述第二声学模型包括所述至少两个transformer编码器和所述时长模型。

在本发明的再一个实施例中，所述将所述梅尔频谱输入第一声码器之前，所述方法还包括按照如下方式训练得到所述第一声码器：获取所述训练文本的隐层特征和所述训练文本对应的语音样本；将所述训练文本的隐层特征输入所述第一声学模型，以利用所述第一声学模型获取所述语音样本的梅尔频谱；将所述语音样本的梅尔频谱输入第二声码器，以利用所述语音样本的梅尔频谱对所述第二声码器进行音频预测训练；利用所述语音样本对所述第二声码器的训练结果进行验证；在所述第二声码器的验证损失降低到第二目标阈值的情况下，将所述第二声码器确定为所述第一声码器。

在本发明的再一个实施例中，在所述第二声码器的验证损失未降低到所述第二目标阈值的情况下，所述方法还包括：继续使用所述语音样本的梅尔频谱对所述第二声码器进行迭代训练，并在每一轮迭代训练中调整所述第二声码器内各网络层中的参数的数值，直至所述第二声码器的验证损失降低到所述第二目标阈值。

在本发明实施方式的第二方面中，提供了一种语音合成装置，包括：文本分析模块，用于将待转换为语音的目标文本输入大语言模型，以利用所述大语言模型对所述目标文本进行文本分析；隐层特征模块，用于提取所述大语言模型的最后一个隐藏层的输出，得到所述目标文本在所述大语言模型中的隐层特征；语音合成模块，用于使用所述隐层特征合成所述目标文本的语音数据。

在本发明实施方式的第三方面中，提供了一种电子设备，包括存储器、处理器、通信接口及通信总线，存储器中存储有可在处理器上运行的计算机程序，存储器、处理器通过通信总线和通信接口进行通信，处理器执行计算机程序时实现上述方法的步骤，

在本发明实施方式的第四方面中，提供了一种具有处理器可执行的非易失的程序代码的计算机可读介质，程序代码使处理器执行上述的方法。

本发明提供了一种语音合成方法，包括：将待转换为语音的目标文本输入大语言模型，以利用所述大语言模型对所述目标文本进行文本分析；提取所述大语言模型的最后一个隐藏层的输出，得到所述目标文本在所述大语言模型中的隐层特征；使用所述隐层特征合成所述目标文本的语音数据。本申请利用大语言模型在文本分析方面的强大解析能力，只需使用大语言模型便可完成多项文本分析任务，无需通过多个文本分析模块进行逐个处理，极大简化了语音合成的流程，并且基于大语言模型强大的理解能力，大大提高了语音合成的准确率，因此解决了语音合成文本分析前端繁琐，预测准确率较低的技术问题。

附图说明

通过参考附图阅读下文的详细描述，本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本发明的若干实施方式，其中：

图1示意性地示出了现有技术中语音合成文本分析前端的技术框架；

图2示意性地示出了根据本发明一实施例的语音合成方法的流程；

图3示意性地示出了根据本发明另一实施例的声学模型的结构；

图4示意性地示出了根据本发明又一实施例的语音合成装置；

图5示意性地示出了根据本发明再一实施例的电子设备结构；

在附图中，相同或对应的标号表示相同或对应的部分。

具体实施方式

下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解，给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明，而并非以任何方式限制本发明的范围。相反，提供这些实施方式是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

发明概述

本发明人发现，多音字识别、文本正则识别以及韵律停顿预测等文本分析任务，在技术实现上需要通过不同的模型来实现对应的功能，因此要完整实现语音合成，所需流程非常繁琐。并且，即便通过不同的模型来实现对应的功能，现有方案在多音字识别、文本正则识别以及韵律停顿预测也存在准确率较低的问题，不满足用户需求。

在介绍了本发明的基本原理之后，下面具体介绍本发明的各种非限制性实施方式。

应用场景总览

本发明提供的语音合成技术，可以在许多场景中都有广泛的应用，例如：

无障碍辅助工具：语音合成可以帮助视障人士和阅读困难人士获取文字内容。它可以将电子书、文档、网页等文字内容转化为语音，使其能够通过听觉方式获取信息。

电子学习和培训：语音合成可以用于开发电子学习和培训课程，将文字内容转化为语音，以便学生通过听觉方式学习。它还可以用于教育游戏、虚拟导游等交互式学习应用中。

语音广播和广告：语音合成可以用于生成广播、电视或广告中的播音员声音。它可以用于生成新闻、天气预报、广播剧等内容。

电话自动化系统：语音合成可以用于电话自动化系统中，用于生成自动语音应答(IVR)系统的语音提示和导航。它可以提供自助服务、电话订购、预约和查询等功能。

影视制作：语音合成可以用于电影、电视和动画制作中，用于为虚拟角色或计算机生成的角色生成语音。

个性化语音助手：语音合成可以用于创建个性化语音助手，使用户可以根据自己的喜好选择不同的声音、语调和风格。

语音合成艺术：语音合成还可以用于音乐、诗歌和表演艺术中，以创造独特的音乐效果和声音艺术作品。

示例性方法

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

在后续的描述中，使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本申请的说明，其本身并没有特定的意义。因此，“模块”与“部件”可以混合地使用。

如图1所示，相关技术中，多音字消岐、韵律预测都是文本分析必不可少的任务，不同的文本分析任务需要分别使用独立的模型，这样一来，多模型训练和优化极大增加了文本分析任务的复杂度，同时使得语音合成的流程也变得极为繁琐。并且每个独立模型均是基于小数据量的样本进行独立优化建模，这也决定了文本分析结果的质量上限，最终语音合成存在准确率较低的问题，不满足用户需求。

为了解决背景技术中提及的问题，根据本申请实施例的一方面，提供了一种语音合成方法的实施例，如图2所示，该方法可以包括以下步骤：

步骤S202，将待转换为语音的目标文本输入大语言模型，以利用所述大语言模型对所述目标文本进行文本分析；

步骤S204，提取所述大语言模型的最后一个隐藏层的输出，得到所述目标文本在所述大语言模型中的隐层特征；

步骤S206，使用所述隐层特征合成所述目标文本的语音数据。

通过上述步骤S202至S206，本申请利用大语言模型在文本分析方面的强大解析能力，只需使用大语言模型便可完成多项文本分析任务，无需通过多个文本分析模块进行逐个处理，极大简化了语音合成的流程，并且基于大语言模型强大的理解能力，大大提高了语音合成的准确率，因此解决了语音合成文本分析前端繁琐，预测准确率较低的技术问题。

在步骤S202中，大语言模型可以是任意开源或者未开源的大语言模型，不受类型的局限。大语言模型并不需要针对语音合成文本分析模块的使用场景进行微调，因为大语言模型具有极大的参数量以及使用了更多更丰富的数据进行的训练，具有强大的语义理解的泛化能力，能够完成识别文字发音、多音字消歧、韵律预测、文本正则等文本分析任务。

在步骤S204中，大语言模型的最后一个隐藏层指的是softmax层之前的最后一个layer，其输出并不是指大模型解码出来的文本，而是softmax层之前的最后一个layer输出的隐层特征(hidden states)，是富含语义的概率分布。该隐层特征是大语言模型对目标文本进行语义理解的结果，其中包含了识别文字发音、多音字消歧、韵律预测、文本正则等文本分析任务，即一个大语言模型就实现了现有技术中多个独立模型的文本分析功能。正常情况下，该隐层特征输入到softmax层，进而在softmax层编码输出语义理解后的文本。那么在不需要获得语义理解的文本信息，而是需要基于语义理解的结果合成语音的需求下，可以直接使用该隐层特征来合成语音。

在步骤S206中，直接使用所述隐层特征合成所述目标文本的语音数据实际上还需要通过基于大语言模型改进训练的声学模型和声码器来实现。

作为一种可选的实施例，所述使用所述隐层特征合成所述目标文本的语音数据包括：

步骤1，将所述隐层特征输入第一声学模型，以利用所述第一声学模型对所述隐层特征进行特征编码，其中，所述第一声学模型是基于训练文本的隐层特征和所述训练文本对应的语音样本训练得到的，所述训练文本的隐层特征是通过所述大语言模型得到的；

步骤2，获取所述第一声学模型对所述隐层特征进行特征编码后输出的梅尔频谱，并将所述梅尔频谱输入第一声码器，其中，所述第一声码器是基于所述训练文本对应的语音样本和所述语音样本的梅尔频谱训练得到的，所述语音样本的梅尔频谱是通过所述第一声学模型得到的；

步骤3，获取所述第一声码器的输出，得到所述目标文本的语音数据。

本申请实施例中，梅尔频谱是一种用于音频信号分析的声学特征表示方法，它是通过将音频信号在不同频率上的能量分布进行离散化和压缩得到的。梅尔频谱能够对音频信号的重要信息进行有效的表示和提取。不同的语音具有不同的梅尔频谱，可以对语音数据进行分析得到对应的梅尔频谱，也可以基于梅尔频谱还原得到相应的语音。上述第一声码器所实现的功能即为使用第一声学模型输出的梅尔频谱进行音频还原，上述第一声学模型所实现的功能则是将富含语义信息的隐层特征编码为对应语音的梅尔频谱。

第一声码器使用梅尔频谱进行音频还原的过程和第一声学模型将隐层特征编码为梅尔频谱的过程均是预测的过程，因此，为了使第一声码器能够准确还原梅尔频谱对应的语音，使第一声学模型能够准确将隐层特征编码为对应语音的梅尔频谱，需要经过一定的训练来提升二者预测的准确率。

作为一种可选的实施例，所述方法还包括按照如下方式训练得到所述第一声学模型：

步骤1，获取所述训练文本和对应的语音样本；

步骤2，提取所述语音样本的梅尔频谱，并将所述训练文本输入所述大语言模型；

步骤3，提取所述大语言模型的最后一个隐藏层的输出，得到所述训练文本的隐层特征；

步骤4，将所述训练文本的隐层特征输入第二声学模型，以利用所述训练文本的隐层特征对所述第二声学模型进行特征编码训练；

步骤5，利用所述语音样本的梅尔频谱对所述第二声学模型的训练结果进行验证；

步骤6，在所述第二声学模型的验证损失降低到第一目标阈值的情况下，将所述第二声学模型确定为所述第一声学模型。

本申请实施例中，提取所述语音样本的梅尔频谱可以包括以下步骤：预处理：将原始音频信号进行预处理，如去除静音段、标准化音频强度等。分帧：将音频信号切分成一段一段的帧，通常每帧的长度为25ms到50ms，相邻帧之间有一定的重叠。加窗：对每一帧的音频信号应用窗函数(如汉明窗)以减少频谱泄露。傅里叶变换：对每一帧的加窗信号应用快速傅里叶变换(FFT)得到频域表示。梅尔滤波器组：梅尔滤波器组是一组三角形滤波器，用于模拟人耳对不同频率的敏感度。每个滤波器对应不同的频率范围，滤波器组通常包含20到40个滤波器。取对数：将每个滤波器的输出取对数后，得到梅尔频谱。

本申请实施例中，由于大语言模型本身就具有识别文字发音、多音字消歧、韵律预测、文本正则等文本分析的能力，其最后一个隐藏层输出的隐层特征即为文本分析的结果，因此，可以在大语言模型输出的隐层特征的基础上对第二声学模型进行训练，在第二声学模型收敛时，便可将此时训练完成的第二声学模型作为第一声学模型投入使用。训练过程中，以训练文本的隐层特征作为输入，以对应的语音样本的梅尔频谱作为标准输出来监督第二声学模型的训练，使第二声学模型通过不断学习能够使编码结果越来越接近标准输出，越接近标准输出，损失越小。可以根据实际需求设定损失的最低标准，即第一目标阈值。

第二声学模型是原始的声学模型，如图3所示，声学模型由两个transformerencoder以及一个时长模型组成，第一个Transformer encoder负责将输入的隐层特征编码为上下文相关的特征向量序列。这些特征向量包含了文本的语义和上下文信息。第二个Transformer encoder接收第一个编码器的输出，并进一步提取梅尔频谱特征。时长模型用于根据第一个Transformer encoder输出的特征向量序列预测每个音节或音素的持续时间，其作用是帮助后续模块生成自然流畅的语音，并确保语音的节奏和韵律与输入文本的语气和语调相匹配。这些组件一起工作，将隐层特征转换为对应的梅尔频谱特征。

作为一种可选的实施例，在所述第二声学模型的验证损失未降低到所述第一目标阈值的情况下，所述方法还包括：继续使用所述训练文本的隐层特征对所述第二声学模型进行迭代训练，并在每一轮迭代训练中调整所述第二声学模型内各网络层中的参数的数值，直至所述第二声学模型的验证损失降低到所述第一目标阈值。

具体地，所述在每一轮迭代训练中调整所述第二声学模型内各网络层中的参数的数值包括：利用目标损失函数确定损失值，其中，所述损失值用于表示所述第二声学模型对所述训练文本的隐层特征的编码结果与所述语音样本的梅尔频谱之间的准确度的差异；利用所述损失值调整所述第二声学模型中至少两个transformer编码器和时长模型的参数，直至所述第二声学模型的验证损失降低到所述第一目标阈值，其中，所述第二声学模型包括所述至少两个transformer编码器和所述时长模型。

本申请实施例中，每一轮迭代训练中，可以使用随机梯度下降(SGD)等优化算法来最小化模型的目标损失函数，使模型的预测结果与实际结果之间的差距减小。该目标损失函数可以是L2损失函数，即通过最小化平方差来训练模型。可以通过反向传播算法计算两个transformer encoder以及时长模型中各网络层的参数的梯度，并使用梯度下降法来更新参数的数值。可以根据需要调整学习率、正则化等超参数来优化训练过程。另外，可以使用正则化技术、早停策略、交叉验证等方法来应对可能出现的过拟合或欠拟合等问题。

作为一种可选的实施例，所述方法还包括按照如下方式训练得到所述第一声码器：

步骤1，获取所述训练文本的隐层特征和所述训练文本对应的语音样本；

步骤2，将所述训练文本的隐层特征输入所述第一声学模型，以利用所述第一声学模型获取所述语音样本的梅尔频谱；

步骤3，将所述语音样本的梅尔频谱输入第二声码器，以利用所述语音样本的梅尔频谱对所述第二声码器进行音频预测训练；

步骤4，利用所述语音样本对所述第二声码器的训练结果进行验证；

步骤5，在所述第二声码器的验证损失降低到第二目标阈值的情况下，将所述第二声码器确定为所述第一声码器。

本申请实施例中，获取所述训练文本的隐层特征可以将所述训练文本输入所述大语言模型，提取所述大语言模型的最后一个隐藏层的输出，得到所述训练文本的隐层特征。

本申请实施例中，由于第一声学模型的预测精度已经达到第一目标阈值，因此可以直接使用第一声学模型来生成用于训练声码器的梅尔频谱，由此提升声学模型与声码器的关联，使二者适配度更高。还可以直接使用原始的语音样本提取出对应的梅尔频谱。之后便可利用梅尔频谱对第二声码器进行训练，在第二声码器收敛时，便可将此时训练完成的第二声码器作为第一声码器投入使用。训练过程中，以梅尔频谱作为输入，以对应的语音样本作为标准输出来监督第二声码器的训练，使第二声码器通过不断学习能够使音频预测结果越来越接近标准输出，越接近标准输出，损失越小。可以根据实际需求设定损失的最低标准，即第二目标阈值。

第二声码器是原始的声码器，声码器可以基于生成式对抗网络(GenerativeAdversarial Network，GAN)的结构来实现。在声码器中，生成器负责将输入(如梅尔频谱)转换为合成的音频波形。判别器则负责判断输入的音频是真实的还是合成的。生成器和判别器相互对抗，通过对抗训练的方式不断优化模型，使得生成的音频在听觉上与真实音频更加接近。在训练过程中，生成器通过最小化判别器对合成音频的判断误差来学习生成真实音频的能力。同时，判别器通过最大化判断真实音频和合成音频的能力来提高对合成音频的鉴别能力。通过不断迭代训练，生成器和判别器逐渐提升其性能，最终生成的音频质量会得到改善。

作为一种可选的实施例，在所述第二声码器的验证损失未降低到所述第二目标阈值的情况下，所述方法还包括：继续使用所述语音样本的梅尔频谱对所述第二声码器进行迭代训练，并在每一轮迭代训练中调整所述第二声码器内各网络层中的参数的数值，直至所述第二声码器的验证损失降低到所述第二目标阈值。

本申请实施例中，参考对声学模型的优化过程，同样可以按照相同或相似的方式来对声码器进行优化。

本申请提供了一种语音合成方法，包括：将待转换为语音的目标文本输入大语言模型，以利用所述大语言模型对所述目标文本进行文本分析；提取所述大语言模型的最后一个隐藏层的输出，得到所述目标文本在所述大语言模型中的隐层特征；使用所述隐层特征合成所述目标文本的语音数据。本申请利用大语言模型在文本分析方面的强大解析能力，只需使用大语言模型便可完成多项文本分析任务，无需通过多个文本分析模块进行逐个处理，极大简化了语音合成的流程，并且基于大语言模型强大的理解能力，大大提高了语音合成的准确率，因此解决了语音合成文本分析前端繁琐，预测准确率较低的技术问题。

示例性设备

根据本申请实施例的又一方面，如图4所示，提供了一种语音合成装置，包括：

文本分析模块401，用于将待转换为语音的目标文本输入大语言模型，以利用所述大语言模型对所述目标文本进行文本分析；

隐层特征模块403，用于提取所述大语言模型的最后一个隐藏层的输出，得到所述目标文本在所述大语言模型中的隐层特征；

语音合成模块405，用于使用所述隐层特征合成所述目标文本的语音数据。

需要说明的是，该实施例中的文本分析模块401可以用于执行本申请实施例中的步骤S202，该实施例中的隐层特征模块403可以用于执行本申请实施例中的步骤S204，该实施例中的语音合成模块405可以用于执行本申请实施例中的步骤S206。

此处需要说明的是，上述模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例所公开的内容。需要说明的是，上述模块作为装置的一部分可以通过软件实现，也可以通过硬件实现。

可选地，该语音合成模块，具体用于：将所述隐层特征输入第一声学模型，以利用所述第一声学模型对所述隐层特征进行特征编码，其中，所述第一声学模型是基于训练文本的隐层特征和所述训练文本对应的语音样本训练得到的，所述训练文本的隐层特征是通过所述大语言模型得到的；获取所述第一声学模型对所述隐层特征进行特征编码后输出的梅尔频谱，并将所述梅尔频谱输入第一声码器，其中，所述第一声码器是基于所述训练文本对应的语音样本和所述语音样本的梅尔频谱训练得到的，所述语音样本的梅尔频谱是通过所述第一声学模型得到的；获取所述第一声码器的输出，得到所述目标文本的语音数据。

可选地，该语音合成装置，还包括第一训练模块，用于：获取所述训练文本和对应的语音样本；提取所述语音样本的梅尔频谱，并将所述训练文本输入所述大语言模型；提取所述大语言模型的最后一个隐藏层的输出，得到所述训练文本的隐层特征；将所述训练文本的隐层特征输入第二声学模型，以利用所述训练文本的隐层特征对所述第二声学模型进行特征编码训练；利用所述语音样本的梅尔频谱对所述第二声学模型的训练结果进行验证；在所述第二声学模型的验证损失降低到第一目标阈值的情况下，将所述第二声学模型确定为所述第一声学模型。

可选地，该第一训练模块，还用于：继续使用所述训练文本的隐层特征对所述第二声学模型进行迭代训练，并在每一轮迭代训练中调整所述第二声学模型内各网络层中的参数的数值，直至所述第二声学模型的验证损失降低到所述第一目标阈值。

可选地，该第一训练模块，还用于：利用目标损失函数确定损失值，其中，所述损失值用于表示所述第二声学模型对所述训练文本的隐层特征的编码结果与所述语音样本的梅尔频谱之间的准确度的差异；利用所述损失值调整所述第二声学模型中至少两个transformer编码器和时长模型的参数，直至所述第二声学模型的验证损失降低到所述第一目标阈值，其中，所述第二声学模型包括所述至少两个transformer编码器和所述时长模型。

可选地，该语音合成装置，还包括第二训练模块，用于：获取所述训练文本的隐层特征和所述训练文本对应的语音样本；将所述训练文本的隐层特征输入所述第一声学模型，以利用所述第一声学模型获取所述语音样本的梅尔频谱；将所述语音样本的梅尔频谱输入第二声码器，以利用所述语音样本的梅尔频谱对所述第二声码器进行音频预测训练；利用所述语音样本对所述第二声码器的训练结果进行验证；在所述第二声码器的验证损失降低到第二目标阈值的情况下，将所述第二声码器确定为所述第一声码器。

可选地，该第二训练模块，还用于：继续使用所述语音样本的梅尔频谱对所述第二声码器进行迭代训练，并在每一轮迭代训练中调整所述第二声码器内各网络层中的参数的数值，直至所述第二声码器的验证损失降低到所述第二目标阈值。

根据本申请实施例的另一方面，本申请提供了一种电子设备，如图5所示，包括存储器501、处理器503、通信接口505及通信总线507，存储器501中存储有可在处理器503上运行的计算机程序，存储器501、处理器503通过通信接口505和通信总线507进行通信，处理器503执行计算机程序时实现上述方法的步骤。

上述电子设备中的存储器、处理器通过通信总线和通信接口进行通信。所述通信总线可以是外设部件互连标准(Peripheral Component Interconnect，简称PCI)总线或扩展工业标准结构(Extended Industry Standard Architecture，简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。

存储器可以包括随机存取存储器(Random Access Memory，简称RAM)，也可以包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital Signal Processing，简称DSP)、专用集成电路(Application SpecificIntegrated Circuit，简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

根据本申请实施例的又一方面还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述任一实施例的步骤。

可选地，在本申请实施例中，计算机可读介质被设置为存储用于所述处理器执行以下步骤的程序代码：

将待转换为语音的目标文本输入大语言模型，以利用所述大语言模型对所述目标文本进行文本分析；

提取所述大语言模型的最后一个隐藏层的输出，得到所述目标文本在所述大语言模型中的隐层特征；

使用所述隐层特征合成所述目标文本的语音数据。

可选地，本实施例中的具体示例可以参考上述实施例中所描述的示例，本实施例在此不再赘述。

本申请实施例在具体实现时，可以参阅上述各个实施例，具有相应的技术效果。

可以理解的是，本文描述的这些实施例可以用硬件、软件、固件、中间件、微码或其组合来实现。对于硬件实现，处理单元可以实现在一个或多个专用集成电路(ApplicationSpecific Integrated Circuits，ASIC)、数字信号处理器(Digital Signal Processing，DSP)、数字信号处理设备(DSP Device，DSPD)、可编程逻辑设备(Programmable LogicDevice，PLD)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)、通用处理器、控制器、微控制器、微处理器、用于执行本申请所述功能的其它电子单元或其组合中。

对于软件实现，可通过执行本文所述功能的单元来实现本文所述的技术。软件代码可存储在存储器中并通过处理器执行。存储器可以在处理器中或在处理器外部实现。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅是本申请的具体实施方式，使本领域技术人员能够理解或实现本申请。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

Claims

1.一种语音合成方法，其特征在于，包括：

使用所述隐层特征合成所述目标文本的语音数据。

2.根据权利要求1所述的方法，其特征在于，所述使用所述隐层特征合成所述目标文本的语音数据包括：

将所述隐层特征输入第一声学模型，以利用所述第一声学模型对所述隐层特征进行特征编码，其中，所述第一声学模型是基于训练文本的隐层特征和所述训练文本对应的语音样本训练得到的，所述训练文本的隐层特征是通过所述大语言模型得到的；

获取所述第一声学模型对所述隐层特征进行特征编码后输出的梅尔频谱，并将所述梅尔频谱输入第一声码器，其中，所述第一声码器是基于所述训练文本对应的语音样本和所述语音样本的梅尔频谱训练得到的，所述语音样本的梅尔频谱是通过所述第一声学模型得到的；

获取所述第一声码器的输出，得到所述目标文本的语音数据。

3.根据权利要求2所述的方法，其特征在于，所述将所述隐层特征输入第一声学模型之前，所述方法还包括按照如下方式训练得到所述第一声学模型：

获取所述训练文本和对应的语音样本；

提取所述语音样本的梅尔频谱，并将所述训练文本输入所述大语言模型；

提取所述大语言模型的最后一个隐藏层的输出，得到所述训练文本的隐层特征；

将所述训练文本的隐层特征输入第二声学模型，以利用所述训练文本的隐层特征对所述第二声学模型进行特征编码训练；

利用所述语音样本的梅尔频谱对所述第二声学模型的训练结果进行验证；

在所述第二声学模型的验证损失降低到第一目标阈值的情况下，将所述第二声学模型确定为所述第一声学模型。

4.根据权利要求3所述的方法，其特征在于，在所述第二声学模型的验证损失未降低到所述第一目标阈值的情况下，所述方法还包括：

继续使用所述训练文本的隐层特征对所述第二声学模型进行迭代训练，并在每一轮迭代训练中调整所述第二声学模型内各网络层中的参数的数值，直至所述第二声学模型的验证损失降低到所述第一目标阈值。

5.根据权利要求4所述的方法，其特征在于，所述在每一轮迭代训练中调整所述第二声学模型内各网络层中的参数的数值包括：

利用目标损失函数确定损失值，其中，所述损失值用于表示所述第二声学模型对所述训练文本的隐层特征的编码结果与所述语音样本的梅尔频谱之间的准确度的差异；

利用所述损失值调整所述第二声学模型中至少两个transformer编码器和时长模型的参数，直至所述第二声学模型的验证损失降低到所述第一目标阈值，其中，所述第二声学模型包括所述至少两个transformer编码器和所述时长模型。

6.根据权利要求2所述的方法，其特征在于，所述将所述梅尔频谱输入第一声码器之前，所述方法还包括按照如下方式训练得到所述第一声码器：

获取所述训练文本的隐层特征和所述训练文本对应的语音样本；

将所述训练文本的隐层特征输入所述第一声学模型，以利用所述第一声学模型获取所述语音样本的梅尔频谱；

将所述语音样本的梅尔频谱输入第二声码器，以利用所述语音样本的梅尔频谱对所述第二声码器进行音频预测训练；

利用所述语音样本对所述第二声码器的训练结果进行验证；

在所述第二声码器的验证损失降低到第二目标阈值的情况下，将所述第二声码器确定为所述第一声码器。

7.根据权利要求6所述的方法，其特征在于，在所述第二声码器的验证损失未降低到所述第二目标阈值的情况下，所述方法还包括：

继续使用所述语音样本的梅尔频谱对所述第二声码器进行迭代训练，并在每一轮迭代训练中调整所述第二声码器内各网络层中的参数的数值，直至所述第二声码器的验证损失降低到所述第二目标阈值。

8.一种语音合成装置，其特征在于，包括：

文本分析模块，用于将待转换为语音的目标文本输入大语言模型，以利用所述大语言模型对所述目标文本进行文本分析；

隐层特征模块，用于提取所述大语言模型的最后一个隐藏层的输出，得到所述目标文本在所述大语言模型中的隐层特征；

语音合成模块，用于使用所述隐层特征合成所述目标文本的语音数据。

9.一种电子设备，包括存储器、处理器、通信接口及通信总线，所述存储器中存储有可在所述处理器上运行的计算机程序，所述存储器、所述处理器通过所述通信总线和所述通信接口进行通信，其特征在于，所述处理器执行所述计算机程序时实现上述权利要求1至7任一项所述的方法的步骤。

10.一种具有处理器可执行的非易失的程序代码的计算机可读介质，其特征在于，所述程序代码使所述处理器执行所述权利要求1至7任一所述方法。