CN116364055A

CN116364055A - 基于预训练语言模型的语音生成方法、装置、设备及介质

Info

Publication number: CN116364055A
Application number: CN202310634393.0A
Authority: CN
Inventors: 陶建华; 任勇; 易江燕; 汪涛
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2023-05-31
Filing date: 2023-05-31
Publication date: 2023-06-30
Anticipated expiration: 2043-05-31
Also published as: CN116364055B

Abstract

本发明实施例涉及一种基于预训练语言模型的语音生成方法、装置、设备及介质，属于语音合成领域，通过基于第一预训练语言模型对待生成语音的目标文本进行编码，获得语义令牌序列；基于第二预训练语言模型对基于自然语言描述的语音风格控制信息进行编码，获得风格令牌序列；基于第三预训练语言模型对所述语义令牌序列和所述风格令牌序列进行自回归，获得声学令牌序列；基于训练好的神经编解码器对所述声学令牌序列进行解码，生成所述目标文本对应的目标语音；通过各预训练语言模型生成语音，并通过自然语言便捷、精确的控制文本所要生成的语音风格，增加了语音风格控制的多样化，提高语音生成质量。

Description

基于预训练语言模型的语音生成方法、装置、设备及介质

技术领域

本发明涉及语音处理领域，尤其涉及一种基于预训练语言模型的语音生成方法、装置、设备及介质。

背景技术

语音生成技术（Text-To-Speech，简称TTS）是指将文本生成语音的过程。在虚拟数字人、电子阅读器、自动配音等场景中，不仅要求生成内容可懂、自然流畅的语音，还需要能够生成具有不同音调、语速、情绪等多种风格可控的语音。

相关技术中，可控TTS大多需要用户具备一定的声学知识，向TTS系统中输入显示的风格音素数值，或者需要从已有说话人语音中学习其语音风格，将风格标记或者说话人编码作为风格嵌入输入到声学模型中进行训练。

但是，上述方法对生成语音的风格控制不够便捷与精确，且风格多样性不足，生成指定风格的语音音质不高。

发明内容

本发明的实施例提供了一种基于预训练语言模型的语音生成方法、装置、设备及介质，以解决目前生成语音的风格控制不够便捷精确的技术问题。

第一方面，本发明的实施例提供了一种语音生成方法，包括：基于第一预训练语言模型对待生成语音的目标文本进行编码，获得语义令牌序列；基于第二预训练语言模型对基于自然语言描述的语音风格控制信息进行编码，获得风格令牌序列；基于第三预训练语言模型对所述语义令牌序列和所述风格令牌序列进行自回归，获得声学令牌序列；基于训练好的神经编解码器对所述声学令牌序列进行解码，生成所述目标文本对应的目标语音。

作为本发明的一实施例，所述第一预训练语言模型为训练好的Transformer模型；所述基于第一预训练语言模型对待生成语音的目标文本进行编码之前，还包括：将第一语音样本集中的各第一语音样本输入到训练好的w2v-Bert模型中，获得所述w2v-Bert模型预设层输出的各第一语音样本对应的各第一语音表示；将所述各第一语音表示进行聚类，并确定位于聚类中心的第一语音表示为第一语义令牌样本；对所述第一语义令牌样本进行损坏，并将损坏后的第一语义令牌样本和未损坏前的第一语义令牌样本构成样本对，对待训练的Transformer模型进行预训练；基于文本-语音样本对，对预训练的Transformer模型进行微调，获得训练好的Transformer模型。

作为本发明的一实施例，所述将第一语音样本集中的各第一语音样本输入到训练好的w2v-Bert模型中之前，还包括：基于第二语音样本集中的各第二语音样本对待训练的w2v-Bert模型进行自监督训练，获得训练好的w2v-Bert模型。

作为本发明的一实施例，所述第二预训练语言模型为训练好的Bert模型，所述基于第二预训练语言模型对基于自然语言描述的语音风格控制信息进行编码，获得风格令牌序列，包括：获取所述基于自然语言描述的语音风格控制信息对应的词嵌入；将所述词嵌入输入到训练好的Bert模型中进行编码，获得风格令牌序列。

作为本发明的一实施例，所述基于第二预训练语言模型对基于自然语言描述的语音风格控制信息进行编码之前，还包括：获取标注有多维语音风格标签的数据集，所述语音风格标签包括以下至少一种维度：性别、音调、语速、音量及情绪；获取数据集中各数据对应的词嵌入样本；基于所述词嵌入样本对预训练的Bert模型进行微调，获得训练好的Bert模型。

作为本发明的一实施例，所述第三预训练语言模型为基于Transformer解码器的语言模型；所述基于所述第三预训练语言模型对所述语义令牌序列和所述风格令牌序列进行自回归，获得声学令牌序列，包括：将所述语义令牌序列和所述风格令牌序列进行拼接；将拼接后的语义令牌序列和风格令牌序列输入到所述基于Transformer解码器的语言模型中进行自回归处理，获得声学令牌序列。

作为本发明的一实施例，所述神经编解码器包括神经编码器、残差矢量量化器和神经解码器；所述基于训练好的神经编解码器对所述声学令牌序列进行解码之前，还包括：将第三语音样本集中的第三语音样本输入到所述神经编码器中，获得第三语音样本对应的第三语音表示；将所述第三语音表示输入到所述残差矢量量化器中，输出第三声学令牌样本；将所述第三声学令牌样本输入到神经解码器进行训练，获得训练好的神经编解码器。

第二方面，本发明实施例提供一种语音生成装置，包括：语义令牌生成模块，用于基于第一预训练语言模型对待生成语音的目标文本进行编码，获得语义令牌序列；风格令牌生成模块，用于基于第二预训练语言模型对基于自然语言描述的语音风格控制信息进行编码，获得风格令牌序列；声学令牌生成模块，用于基于所述第三预训练语言模型对所述语义令牌序列和所述风格令牌序列进行自回归，获得声学令牌序列；声学令牌解码模块，用于基于训练好的神经编解码器对所述声学令牌序列进行解码，生成所述目标文本对应的目标语音。

第三方面，本发明的实施例提供一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；存储器，用于存放计算机程序；处理器，用于执行存储器上所存放的程序时，实现第一方面任一项所述的语音生成方法的步骤。

第四方面，本发明的实施例提供一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现第一方面任一项所述的语音生成方法的步骤。

本发明的实施例提供的基于预训练语言模型的语音生成方法、装置、设备及介质，通过基于第一预训练语言模型对待生成语音的目标文本进行编码，获得语义令牌序列；基于第二预训练语言模型对基于自然语言描述的语音风格控制信息进行编码，获得风格令牌序列；基于第三预训练语言模型对所述语义令牌序列和所述风格令牌序列进行自回归，获得声学令牌序列；基于训练好的神经编解码器对所述声学令牌序列进行解码，生成所述目标文本对应的目标语音；实现了通过自然语言便捷、精确的控制文本所要生成的语音风格，增加了语音风格控制的多样化，提高语音生成质量。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种语音生成方法的流程示意图；

图2为本发明实施例提供的另一种语音生成方法的流程示意图；

图3为本发明实施例提供的再一种语音生成方法的流程示意图；

图4为本发明实施例提供的又一种语音生成方法的流程示意图；

图5为本发明实施例提供的一种TTS系统的结构示意图；

图6为本发明实施例提供的一种语音生成装置的结构示意图；

图7为本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

首先对本发明所涉及的名词进行解释：

语音生成技术（TTS）：是指从文本到语音的语音生成过程，即输入文本，输出生成的语音。

令牌（Token）：是指语言模型将文本等序列数据划分为最小的、有意义的离散单元，语言模型利用Tokens来分析和理解序列，并且根据它们的上下文来预测下一个可能的Token。

随着计算机科学和人工智能技术的不断发展，TTS技术在人们的生活中扮演着越来越重要的角色，通过TTS技术可以将文本转化为语音，实现自然语言交互和信息传递，使得人机交互更加智能化和便捷化。TTS技术不仅在智能音箱、智能客服等场景中得到了广泛应用，而且在虚拟数字人、电子阅读器、自动配音等领域也有着重要的应用价值和前景，尤其是在后者应用场景中，不仅要求生成内容可懂、自然流畅的语音，还需要能够生成具有特定风格的语音，此处风格指的是说话人性别、音调、语速、音量和情绪等等，可以被人为控制。

目前的可控TTS大多需要用户具有一定的声学知识，向TTS系统中输入显示的风格音素数值，或者需要从已有说话人语音中学习其语音风格，将风格标记或者说话人编码作为风格嵌入输入到声学模型中进行训练。但是，上述方法存在着对生成语音的风格控制不够便捷与精确，且风格多样性不足，生成指定风格的语音音质不高的技术问题。

针对上述技术问题，本发明的技术构思在于：通过各预训练的语言模型实现文本生成语音，并通过自然语言引导的风格，实现便捷精确可控的高质量语音生成。

图1为本发明实施例提供的一种语音生成方法的流程示意图，其执行主体为语音生成装置，该装置可由任意的软件/硬件构成，如TTS系统。如图1所示，该语音生成方法包括：

步骤S101、基于第一预训练语言模型对待生成语音的目标文本进行编码，获得语义令牌序列。

具体地，第一预训练语言模型用于将文本转化为一系列离散的语义令牌，可以为训练好的Transformer模型，如24层编码器-解码器seq2seq模型，该训练好的Transformer模型为经过微调后的预训练Transformer模型；目标文本可理解为待生成语音的输入文本，用户可通过TTS系统的人机交互界面输入自己想要生成语音的目标文本；语义令牌序列（下文简称语义tokens）是一种主要用来编码语音内容的语音表示，相比于传统的字素音素转换模块生成的音素，更接近于要生成的文本内容表示。本步骤中，使用微调后的预训练Transformer模型对用户输入的目标文本进行编码，获得离散化的语义tokens。

步骤S102、基于第二预训练语言模型对基于自然语言描述的语音风格控制信息进行编码，获得风格令牌序列。

具体地，第二预训练语言模型用于将自然语言的风格提示转化为一系列离散的风格令牌，可以为训练好的Bert模型，是经过风格分类任务微调过的预训练Bert模型；语音风格控制信息可理解为使用自然语言描述的用于控制所生成语音风格的提示指令（文本或语音形式），用户可通过TTS系统的人机交互界面输入该语音风格控制文本，例如：一个女人用尖锐的声音大声说；风格令牌序列（下文简称风格tokens）可理解为编码所要生成语音的风格表示，可用于指导声学tokens生成的风格。本步骤中，使用通过风格分类任务微调过的预训练Bert模型将自然语言描述的风格控制指令进行编码，获得离散化的风格tokens。

在一些实施例中，所述步骤S102包括：获取所述基于自然语言描述的语音风格控制信息对应的词嵌入；将所述词嵌入输入到训练好的Bert模型中进行编码，获得风格令牌序列。具体地，将自然语言的风格指令转换为对应的词嵌入，将词嵌入输入到训练好的Bert模型中，获得离散化的风格tokens。

步骤S103、基于第三预训练语言模型对所述语义令牌序列和所述风格令牌序列进行自回归，获得声学令牌序列。

具体地，第三预训练语言模型用于将语义tokens和风格tokens映射为声学令牌，可以为训练好的基于Transformer解码器的语言模型。本步骤中，利用基于Transformer解码器的语言模型将语义tokens和风格tokens自回归为更接近于音频的声学tokens，所生成的声学tokens除了包含文本内容以外，还包含了韵律风格等信息。

在一些实施例中，所述步骤S103包括：将所述语义令牌序列和所述风格令牌序列进行拼接；将拼接后的语义令牌序列和风格令牌序列输入到所述基于Transformer解码器的语言模型中进行自回归处理，获得声学令牌序列。具体地，将语义tokens和风格tokens之间添加分隔符进行拼接，作为基于Transformer的语言模型的输入，生成声学tokens。

在使用基于Transformer解码器的语言模型之前，先对其进行训练。在训练过程中，将语义tokens和风格tokens进行拼接，中间添加一个特殊的分隔符tokens；将拼接后的tokens作为前缀，模型学习生成目标声学tokens。

步骤S104、基于训练好的神经编解码器对所述声学令牌序列进行解码，生成所述目标文本对应的目标语音。

具体地，神经编解码器（Soundstream）用于将声学token解码为语音，其中，Soundstream包括神经编码器（或称为卷积编码器、音频解码器）、残差矢量量化器和神经解码器（或称为音频解码器）。本步骤中，将声学tokens输入到Soundstream的神经解码器中，Soundstream的神经解码器会根据声学tokens进行解码，生成对应的语音信号，并将生成的语音输出给用户。

本发明实施例提供的语音生成方法，通过基于第一预训练语言模型对待生成语音的目标文本进行编码，获得语义令牌序列；基于第二预训练语言模型对基于自然语言描述的语音风格控制信息进行编码，获得风格令牌序列；基于第三预训练语言模型对所述语义令牌序列和所述风格令牌序列进行自回归，获得声学令牌序列；基于训练好的神经编解码器对所述声学令牌序列进行解码，生成所述目标文本对应的目标语音，实现了通过预训练语言模型、自然语言便捷、精确的控制文本所要生成的语音风格，增加了语音风格控制的多样化，提高语音生成质量。

在前述实施例的基础上，图2为本发明实施例提供的另一种语音生成方法的流程示意图。如图2所示，所述第一预训练语言模型为训练好的Transformer模型，在步骤S101之前，还包括以下步骤：

步骤S201、将第一语音样本集中的各第一语音样本输入到训练好的w2v-Bert模型中，获得所述w2v-Bert模型预设层输出的各第一语音样本对应的各第一语音表示。

步骤S202、将所述各第一语音表示进行聚类，并确定位于聚类中心的第一语音表示为第一语义令牌样本。

步骤S203、对所述第一语义令牌样本进行损坏，并将损坏后的第一语义令牌样本和未损坏前的第一语义令牌样本构成样本对，对待训练的Transformer模型进行预训练。

步骤S204、基于文本-语音样本对，对预训练的Transformer模型进行微调，获得训练好的Transformer模型。

具体地，在使用第一预训练语言模型之前，需要先对第一预训练语言模型进行训练，因在使用过程中输入的是目标文本而不是音频，所以说第一预训练语言模型的训练目标是将文本映射到语义tokens。为了实现这一训练目标，需要大量的文本-语音对数据，但由于带有文本标注的语音数据较少，因此本实施例采用了预训练加微调的方式。

首先通过步骤S201-S203实现预训练，即在一个去噪借口任务上预训练一个序列到序列的Transformer编码器-解码器模型。步骤S201中的第一语音样本集中的各第一语音样本可理解为大量未标注文本的语音数据，将大量未标注文本的语言数据输入到已经训练好的w2v-Bert模型中，获得特定层的均值归一化输出；在步骤S202中，对w2v-Bert模型特定层的均值归一化输出运行k-means聚类，并使用聚类中心作为离散语义tokens；在步骤S203中，将语义tokens进行损坏，损坏方法为以恒定概率删除单个tokens，将损坏后的tokens与完好的tokens对作为编码器和解码器的输入，训练Transformer编码器-解码器模型P。然后通过步骤S204实现微调，即利用少量文本-语音对数据对预训练模型P进行微调，在微调过程中，冻结编码器的上层和解码器的所有参数，将文本-语义tokens对作为输入去更新编码器的下层参数，要调优的下层数量进行网格搜索，选择具有最高验证集精度的层数，得到微调后的模型F。这样，在模型使用阶段即可利用模型F将输入的目标文本转化为语义tokens。

进一步的，去噪借口任务的预训练中，采用T5-Large架构作为文本语音统一编码器-解码器框架，是一个24层编码器-解码器seq2seq模型；在语义tokens进行损坏时，设置删除单个tokens的概率为0.6，droupout为0.5，batchsize为256；Transformer的嵌入维度为1024，前馈神经网络的维度为2816，具有16个头的多头注意力机制的维度为64。

在一些实施例中，所述步骤S201之前，还包括：基于第二语音样本集中的各第二语音样本对待训练的w2v-Bert模型进行自监督训练，获得训练好的w2v-Bert模型。

具体地，第二语音样本集中的各第二语音样本也可以理解为仅有音频的数据；w2v-Bert模型是一个端到端的自监督语音表示学习模型，由一个特征编码器、一个对比模块和一个掩码语言建模(MLM)模块组成，该模型结合了掩码语言建模和对比学习来获得语音表示，实现语音量化。语义tokens可以从仅有音频的数据中提取出来，而仅有音频的数据很容易得到，因此可以用大量的仅有音频的数据来训练获得用于提取语义tokens的w2v-Bert模型。将w2v-Bert的第7层返回的嵌入用大小为512的码本进行量化，这样，1秒的语音由25个语义tokens表示，词汇量大小为512，从而得到等效的比特率为25 × log2 512 =225比特/秒。

在前述实施例的基础上，通过将第一语音样本集中的各第一语音样本输入到训练好的w2v-Bert模型中，获得所述w2v-Bert模型预设层输出的各第一语音样本对应的各第一语音表示；将所述各第一语音表示进行聚类，并确定位于聚类中心的第一语音表示为第一语义令牌样本；对所述第一语义令牌样本进行损坏，并将损坏后的第一语义令牌样本和未损坏前的第一语义令牌样本构成样本对，对待训练的Transformer模型进行预训练；基于文本-语音样本对，对预训练后的Transformer模型进行微调，获得训练好的Transformer模型；即通过语音量化的w2v-Bert模型实现第二预训练语言模型的训练，实现了由文本到语义tokens的映射，为后续语音生成奠定基础。

在前述实施例的基础上，图3为本发明实施例提供的另一种语音生成方法的流程示意图。如图3所示，所述第二预训练语言模型为训练好的Bert模型，在步骤S102之前，还包括以下步骤：

步骤S301、获取标注有多维语音风格标签的数据集，所述语音风格标签包括以下至少一种维度：性别、音调、语速、音量及情绪。

步骤S302、获取数据集中各数据对应的词嵌入样本。

步骤S303、基于所述词嵌入样本对预训练的Bert模型进行微调，获得训练好的Bert模型。

具体地，在使用第二预训练语言模型前，需要对第二预训练语言模型进行预训练，即进行步骤S301-S303，第二预训练语言模型的训练目标是将指导生成语音风格的自然语言文本转化为离散的风格tokens。首先通过步骤S301实现对数据集中的每个数据标注多个语音风格维度，包括性别、音调、语速、音量和情绪等；然后通过步骤S302将指导生成语音风格的自然语言文本转化为词嵌入样本；最后通过步骤S303基于词嵌入样本对预训练的Bert模型进行微调，即将Bert模型在5种标注维度的风格分类任务上进行微调，以得到更加关注风格信息的嵌入，将其作为风格tokens，用于指导后续声学tokens的生成。

进一步的，本实施例中的Bert模型是一个基于Transformer结构的预训练语言模型，包含了多层Transformer编码器，可以对输入的文本进行特征提取和表示学习，该模型由12个隐藏层组成，参数数量为110M。

在前述实施例的基础上，通过获取标注有多维语音风格标签的数据集，所述语音风格标签包括以下至少一种维度：性别、音调、语速、音量及情绪；获取数据集中各数据对应的词嵌入样本；基于所述词嵌入样本对预训练的Bert模型进行微调，获得训练好的Bert模型；即通过风格分类任务对预训练的Bert模型进行辅助微调，实现后续对生成语音风格便捷精确的控制。

在前述实施例的基础上，图4为本发明实施例提供的另一种语音生成方法的流程示意图。如图4所示，所述神经编解码器包括神经编码器、残差矢量量化器和神经解码器，在步骤S104之前，包括以下步骤：

步骤S401、将第三语音样本集中的第三语音样本输入到所述神经编码器中，获得第三语音样本对应的第三语音表示。

步骤S402、将所述第三语音表示输入到所述残差矢量量化器中，输出第三声学令牌样本。

步骤S403、将所述第三声学令牌样本输入到神经解码器进行训练，获得训练好的神经编解码器。

具体地，在使用神经编解码器前，需要对神经编解码器进行训练，即进行步骤S401-S403。

神经编解码器soundstream是一个卷积编解码模型，其中，卷积编码器产生输入音频样本的潜在表示，使用可变数量的残差矢量量化器(RVQ)对其进行量化，再利用音频解码器生成语音。在训练过程中，结合重构和对抗损失对模型参数进行优化，使用(2,4,5,8)作为四个卷积层的跨步，每M = 2×4×5×8 = 320个输入样本计算一个嵌入，这样采样率fs= 24000 Hz的音频每秒在编码器的输出为S = 24000/320=75帧，每一帧分配80bits，以生成比特率R=75×80=6000bps。采用8层矢量量化器，量化器使用大小N=2^{80/8}=1024的码本。

在前述实施例的基础上，训练一个SoundStream神经编解码器，在卷积自编码器的瓶颈处添加残差矢量量化器，同时将语音潜在表示压缩成几个离散单元，进而得到语音量化的结果即声学tokens，进而根据神经解码器实现语音重建，获得训练好的神经编解码器，方便在模型推理阶段直接利用训练好的神经编解码器中的神经解码器将生成的声学tokens进行目标语音生成。

图5为本发明实施例提供的一种TTS系统的结构示意图，现结合图5对本发明实施例进行详细说明：

如图5所示，TTS系统包括四个模块，分别是语义令牌（Semantic tokens）生成模块，风格令牌（Style tokens）生成模块、声学令牌（Acoustic tokens）生成模块（对应图5中的基于Transformer解码器的语言模型）以及声学令牌解码器模块（对应图5中的SoundStream解码器）。

本实施例的语音生成方法主要包括模型训练阶段和模型使用/推理阶段。在模型训练阶段，主要包括语音量化模型（w2v-BERT模型和神经编解码器SoundStream）、第一预训练语言模型、第二预训练语言模型和第三预训练语言模型的训练；在模型使用/推理阶段，基于第一预训练语言模型将文本转化为一系列离散的语义tokens，第二预训练语言模型将自然语言的提示转化为一系列离散的风格tokens，第三预训练语言模型将语义tokens和风格tokens映射为声学tokens，最后将声学tokens由SoundStream解码器解码为语音。

具体地，所谓语音量化是指从语音中提取离散语义tokens或离散声学tokens。对于语义tokens，训练一个基于w2v-Bert的自监督语音表示模型，该模型结合了掩码语言建模和对比学习来获得语音表示，在获得训练好的w2v-Bert模型之后，对其特定层的均值归一化输出运行k-means聚类，最后使用聚类中心作为离散语义tokens。对于声学tokens，训练一个SoundStream神经编解码器来重建语音，在卷积自编码器的瓶颈处添加残差矢量量化器，同时将其压缩成几个离散单元，进而得到语音量化的结果即声学tokens，并利用SoundStream解码器来重建语音。

针对第一预训练语言模型，其训练目标是将文本映射为语义tokens，首先是在一个去噪借口任务上预训练一个序列到序列的Transformer编码器（Enc）-解码器(Dec)模型P，可将大量仅有音频的数据输入到上述训练好的w2v-Bert与k-means模型中，提取语义tokens，然后将其进行损坏，损坏方法为以恒定概率删除单个tokens，将损坏后的tokens与完好的tokens对作为Transformer编码器-解码器模型P的输入，训练Transformer编码器-解码器模型P；然后，利用少量文本-语音对数据对预训练的模型P进行微调，冻结模型P中编码器的上层和解码器的所有参数，将文本-语义tokens对作为输入去更新P中编码器的下层参数，得到微调后的模型F，即第一预训练语言模型。

针对第二预训练语言模型，其训练目标是将指导生成语音风格的自然语言文本转化为离散的风格tokens。在训练时需要标注有多个风格维度的数据集，数据集标注的维度有5种风格因素，包括性别、音调、语速、音量和情绪；将指导生成语音风格的自然语言文本转化为词嵌入，输入到Bert模型中；然后将Bert模型在5种标注维度的风格分类任务上进行微调，以得到更加关注风格信息的嵌入，将其作为风格tokens，用于指导后续声学tokens的生成。

针对第三预训练语言模型，其训练目标是将语义tokens和风格tokens映射为声学tokens。为实现这一目标，训练了一个Transformer模型在令牌序列之间执行seq2seq转换。在训练过程中，将语义tokens和风格tokens进行拼接，中间添加一个特殊的分隔符tokens；将拼接后的tokens作为前缀，模型学习生成目标声学tokens。

最后，将基于Transformer解码器的语言模型所生成的声学tokens输入到上述训练好的Soundstream编解码器中的Soundstream解码器，利用Soundstream解码器将声学tokens解码还原成音频信号。

在模型使用/推理阶段，可使用上述训练好的语音量化模型和各语言模型，实现自然语言控制的指定文本内容的语音生成，包括如下步骤：

首先，输入语音文本，即用户在人机交互界面上输入自己想要生成语音的文本；语义tokens生成，即使用预训练+微调后的预训练模型对用户输入的文本进行编码，得到离散的语义tokens表示；输入风格控制提示，即用户在人机交互界面输入控制风格的指令，比如：一位女士用尖锐的声音大声说；语音风格tokens生成，即利用在风格分类任务上微调过的预训练Bert模型对风格控制的自然语言输入进行编码，得到离散的风格tokens表示；声学tokens生成，即将编码后的语义tokens和风格tokens进行拼接作为输入，通过基于Transformer的语言模型生成声学tokens序列，作为神经解码器的输入；解码器解码，即将生成的声学tokens传入神经网络编解码器的解码器中，解码器会根据tokens序列进行解码，输出相应的音频信号；最后将最终生成的语音结果输出给用户。

综上，本发明实施例通过对语音量化模型和各语言模型进行训练，并利用训练好的语言量化模型和语言模型实现高质量的文本到语音的生成；并且通过自然语言描述作为引导，实现便捷而精确地控制所生成语音的风格。

图6为本发明实施例提供的一种基于预训练语言模型的语音生成装置的结构示意图，如图6所示，该语音生成装置包括：

语义令牌生成模块601，用于基于第一预训练语言模型对待生成语音的目标文本进行编码，获得语义令牌序列；风格令牌生成模块602，用于基于第二预训练语言模型对基于自然语言描述的语音风格控制信息进行编码，获得风格令牌序列；声学令牌生成模块603，用于基于所述第三预训练语言模型对所述语义令牌序列和所述风格令牌序列进行自回归，获得声学令牌序列；声学令牌解码模块604，用于基于训练好的神经编解码器对所述声学令牌序列进行解码，生成所述目标文本对应的目标语音。

作为本发明的一实施例，所述第一预训练语言模型为训练好的Transformer模型；所述语义令牌生成模块601，还用于：将第一语音样本集中的各第一语音样本输入到训练好的w2v-Bert模型中，获得所述w2v-Bert模型预设层输出的各第一语音样本对应的各第一语音表示；将所述各第一语音表示进行聚类，并确定位于聚类中心的第一语音表示为第一语义令牌样本；对所述第一语义令牌样本进行损坏，并将损坏后的第一语义令牌样本和未损坏前的第一语义令牌样本构成样本对，对待训练的Transformer模型进行预训练；基于文本-语音样本对，对预训练的Transformer模型进行微调，获得训练好的Transformer模型。

作为本发明的一实施例，所述语义令牌生成模块601，还用于：基于第二语音样本集中的各第二语音样本对待训练的w2v-Bert模型进行自监督训练，获得训练好的w2v-Bert模型。

作为本发明的一实施例，所述第二预训练语言模型为训练好的Bert模型，所述风格令牌生成模块602，具体用于：获取所述基于自然语言描述的语音风格控制信息对应的词嵌入；将所述词嵌入输入到训练好的Bert模型中进行编码，获得风格令牌序列。

作为本发明的一实施例，所述风格令牌生成模块602，还用于：获取标注有多维语音风格标签的数据集，所述语音风格标签包括以下至少一种维度：性别、音调、语速、音量及情绪；获取数据集中各数据对应的词嵌入样本；基于所述词嵌入样本对预训练的Bert模型进行微调，获得训练好的Bert模型。

作为本发明的一实施例，所述第三预训练语言模型为基于Transformer解码器的语言模型；所述声学令牌生成模块603，具体用于：将所述语义令牌序列和所述风格令牌序列进行拼接；将拼接后的语义令牌序列和风格令牌序列输入到所述基于Transformer解码器的语言模型中进行自回归处理，获得声学令牌序列。

作为本发明的一实施例，所述神经编解码器包括神经编码器、残差矢量量化器和神经解码器；所述声学令牌解码模块604，还用于：将第三语音样本集中的第三语音样本输入到所述神经编码器中，获得第三语音样本对应的第三语音表示；将所述第三语音表示输入到所述残差矢量量化器中，输出第三声学令牌样本；将所述第三声学令牌样本输入到神经解码器进行训练，获得训练好的神经编解码器。

本发明实施例提供的语音生成装置，其实现原理和技术效果与上述实施例类似，此处不再赘述。

图7为本发明实施例提供的一种电子设备的结构示意图，如图7所示，该电子设备，包括处理器701、通信接口702、存储器703和通信总线704，其中，处理器701，通信接口702，存储器703通过通信总线704完成相互间的通信，

存储器703，用于存放计算机程序；

在本发明一个实施例中，处理器701，用于执行存储器703上所存放的程序时，实现前述任意一个方法实施例提供的基于预训练语言模型的语音生成方法的步骤。

本发明实施例提供的电子设备，其实现原理和技术效果与上述实施例类似，此处不再赘述。

上述存储器703可以是诸如闪存、EEPROM（电可擦除可编程只读存储器）、EPROM、硬盘或者ROM之类的电子存储器。存储器703具有用于执行上述方法中的任何方法步骤的程序代码的存储空间。例如，用于程序代码的存储空间可以包括分别用于实现上面的方法中的各个步骤的各个程序代码。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。这些计算机程序产品包括诸如硬盘，光盘（CD）、存储卡或者软盘之类的程序代码载体。这样的计算机程序产品通常为便携式或者固定存储单元。该存储单元可以具有与上述电子设备中的存储器703类似布置的存储段或者存储空间等。程序代码可以例如以适当形式进行压缩。通常，存储单元包括用于执行根据本发明的实施例的方法步骤的程序，即可以由例如诸如701之类的处理器读取的代码，这些代码当由电子设备运行时，导致该电子设备执行上面所描述的方法中的各个步骤。

本发明的实施例还提供了一种计算机可读存储介质。上述计算机可读存储介质上存储有计算机程序，上述计算机程序被处理器执行时实现如上所述的基于预训练语言模型的语音生成方法的步骤。

该计算机可读存储介质可以是上述实施例中描述的设备/装置中所包含的；也可以是单独存在，而未装配入该设备/装置中。上述计算机可读存储介质承载有一个或者多个程序，当上述一个或者多个程序被执行时，实现根据本发明实施例的方法。

根据本发明的实施例，计算机可读存储介质可以是非易失性的计算机可读存储介质，例如可以包括但不限于：便携式计算机磁盘、硬盘、随机访问存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（EPROM或闪存）、便携式紧凑磁盘只读存储器（CD-ROM）、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅是本发明的具体实施方式，使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于预训练语言模型的语音生成方法，其特征在于，包括：

基于第一预训练语言模型对待生成语音的目标文本进行编码，获得语义令牌序列；

基于第二预训练语言模型对基于自然语言描述的语音风格控制信息进行编码，获得风格令牌序列；

基于第三预训练语言模型对所述语义令牌序列和所述风格令牌序列进行自回归，获得声学令牌序列；

基于训练好的神经编解码器对所述声学令牌序列进行解码，生成所述目标文本对应的目标语音。

2.根据权利要求1所述的方法，其特征在于，所述第一预训练语言模型为训练好的Transformer模型；所述基于第一预训练语言模型对待生成语音的目标文本进行编码之前，还包括：

将第一语音样本集中的各第一语音样本输入到训练好的w2v-Bert模型中，获得所述w2v-Bert模型预设层输出的各第一语音样本对应的各第一语音表示；

将所述各第一语音表示进行聚类，并确定位于聚类中心的第一语音表示为第一语义令牌样本；

对所述第一语义令牌样本进行损坏，并将损坏后的第一语义令牌样本和未损坏前的第一语义令牌样本构成样本对，对待训练的Transformer模型进行预训练；

基于文本-语音样本对，对预训练的Transformer模型进行微调，获得训练好的Transformer模型。

3.根据权利要求2所述的方法，其特征在于，所述将第一语音样本集中的各第一语音样本输入到训练好的w2v-Bert模型中之前，还包括：

基于第二语音样本集中的各第二语音样本对待训练的w2v-Bert模型进行自监督训练，获得训练好的w2v-Bert模型。

4.根据权利要求1所述的方法，其特征在于，所述第二预训练语言模型为训练好的Bert模型，所述基于第二预训练语言模型对基于自然语言描述的语音风格控制信息进行编码，获得风格令牌序列，包括：

获取所述基于自然语言描述的语音风格控制信息对应的词嵌入；

将所述词嵌入输入到训练好的Bert模型中进行编码，获得风格令牌序列。

5.根据权利要求4所述的方法，其特征在于，所述基于第二预训练语言模型对基于自然语言描述的语音风格控制信息进行编码之前，还包括：

获取标注有多维语音风格标签的数据集，所述语音风格标签包括以下至少一种维度：性别、音调、语速、音量及情绪；

获取数据集中各数据对应的词嵌入样本；

基于所述词嵌入样本对预训练的Bert模型进行微调，获得训练好的Bert模型。

6.根据权利要求1所述的方法，其特征在于，所述第三预训练语言模型为基于Transformer解码器的语言模型；所述基于所述第三预训练语言模型对所述语义令牌序列和所述风格令牌序列进行自回归，获得声学令牌序列，包括：

将所述语义令牌序列和所述风格令牌序列进行拼接；

将拼接后的语义令牌序列和风格令牌序列输入到所述基于Transformer解码器的语言模型中进行自回归处理，获得声学令牌序列。

7.根据权利要求1所述的方法，其特征在于，所述神经编解码器包括神经编码器、残差矢量量化器和神经解码器；所述基于训练好的神经编解码器对所述声学令牌序列进行解码之前，还包括：

将第三语音样本集中的第三语音样本输入到所述神经编码器中，获得第三语音样本对应的第三语音表示；

将所述第三语音表示输入到所述残差矢量量化器中，输出第三声学令牌样本；

将所述第三声学令牌样本输入到神经解码器进行训练，获得训练好的神经编解码器。

8.一种基于预训练语言模型的语音生成装置，其特征在于，包括：

语义令牌生成模块，用于基于第一预训练语言模型对待生成语音的目标文本进行编码，获得语义令牌序列；

风格令牌生成模块，用于基于第二预训练语言模型对基于自然语言描述的语音风格控制信息进行编码，获得风格令牌序列；

声学令牌生成模块，用于基于第三预训练语言模型对所述语义令牌序列和所述风格令牌序列进行自回归，获得声学令牌序列；

声学令牌解码模块，用于基于训练好的神经编解码器对所述声学令牌序列进行解码，生成所述目标文本对应的目标语音。

9.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-7任一项所述的基于预训练语言模型的语音生成方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-7任一项所述的基于预训练语言模型的语音生成方法的步骤。