CN111048064B

CN111048064B - 基于单说话人语音合成数据集的声音克隆方法及装置

Info

Publication number: CN111048064B
Application number: CN202010172979.6A
Authority: CN
Inventors: 房树明; 朱鹏程; 燕鹏举; 王洪涛; 顾王一; 毕成
Original assignee: Tongdun Holdings Co Ltd
Current assignee: Hangzhou Bodun Xiyan Technology Co.,Ltd.
Priority date: 2020-03-13
Filing date: 2020-03-13
Publication date: 2020-07-07
Anticipated expiration: 2040-03-13
Also published as: CN111048064A

Abstract

本发明公开了一种基于单说话人语音合成数据集的声音克隆方法、装置、电子设备和计算机存储介质，涉及声音克隆技术领域，该方法包括以下步骤：基于单说话人语音合成数据集，训练单说话人语音合成模型；基于多说话人语音数据集训练声纹模型；多说话人语音数据集通过训练完成的声纹模型计算，得到声纹特征数据集，并基于声纹特征数据集训练声音转换模型；目标文本和目标说话人语音通过训练完成的单说话人语音合成模型、声纹模型、声音转换模型计算，得到目标说话人文本语音。该方法只需一套单说话人的语音合成数据集，实现对目标说话人声音的克隆，对语音合成数据的处理简单方便，无需收集处理大量说话人的语音合成数据，极大地减少各种成本。

Description

基于单说话人语音合成数据集的声音克隆方法及装置

技术领域

本发明涉及声音克隆技术领域，尤其涉及一种基于单说话人语音合成数据集的声音克隆方法、装置、电子设备及存储介质。

背景技术

随着语音技术的发展，人们对输出音频提出了更高的要求，希望文本输入生成的音频，听起来像是特定说话人发出的声音。通过声音克隆技术，能够满足这种个性化语音输出的要求。声音克隆技术的最终目标就是可以完全地模拟某个人的声音。

现有声音克隆技术已被证明能够基于大量说话人的语音合成数据生成高质量语音，但是一套语音合成数据集往往需要数量众多的说话人。而语音合成数据集要求声音干净，无明显背景噪声，一般从录音棚录制产生，目前无论是免费的还是商业化的语音合成数据集，都无法达到这样的要求。即使耗费资源去制作这样一套数据集，语音合成数据集的标注成本会非常大，成本极其高昂。

发明内容

为了克服现有技术的不足，本发明的目的之一在于提供一种基于单说话人语音合成数据集的声音克隆方法，其只需单说话人的语音合成数据集，训练获得单说话人语音合成模型，目标文本和目标说话人语音通过单说话人语音合成模型、声纹模型和声音转换模型计算，就能得到以目标说话人声音说出目标文本的语音，从而实现对目标说话人声音的克隆。

本发明的目的之一采用以下技术方案实现：

获取单说话人语音合成数据集，基于所述单说话人语音合成数据集，训练单说话人语音合成模型；

获取多说话人语音数据集，基于所述多说话人语音数据集训练声纹模型；

所述多说话人语音数据集通过训练完成的所述声纹模型计算，得到声纹特征数据集，并基于所述声纹特征数据集，训练声音转换模型；

获取目标文本和目标说话人语音，所述目标文本和所述目标说话人语音通过训练完成的所述单说话人语音合成模型、训练完成的所述声纹模型、训练完成的所述声音转换模型计算，得到目标说话人文本语音。

进一步地，所述单说话人语音合成数据集包括单说话人的文本数据和语音数据。

进一步地，所述单说话人语音合成模型为Tacotron和声码器的集成模型，其中，所述声码器为WaveRNN声码器、Griffin-Lim声码器中的一种，基于所述单说话人语音合成数据集，训练单说话人语音合成模型，包括：

将所述文本数据转换为文本向量；

所述文本向量输入所述单说话人语音合成模型计算，得到音频预测值；

基于所述音频预测值和所述语音数据之间的损失误差，训练所述单说话人语音合成模型，得到训练完成的单说话人语音合成模型。

进一步地，所述声纹模型为三层LSTM模型，基于所述多说话人语音数据集训练声纹模型，包括：

所述多说话人语音数据集输入所述声纹模型计算，得到声纹预测值；

所述声纹预测值和预存声纹标签输入损失函数计算，得到声纹损失；

基于所述声纹损失训练所述声纹模型，得到训练完成的声纹模型。

进一步地，所述多说话人语音数据集通过训练完成的所述声纹模型计算，得到声纹特征数据集，包括：

所述多说话人语音数据集通过训练完成的所述声纹模型计算，得到声纹特征向量；

根据所述多说话人语音数据集和所述声纹特征向量，生成所述声纹特征数据集。

进一步地，所述声音转换模型为Blow模型，基于所述声纹特征数据集，训练声音转换模型，包括：

所述声纹特征数据集输入所述声音转换模型计算，得到声音预测值；

根据所述声音预测值计算似然估计函数，得到声音损失；

基于所述声音损失训练所述声音转换模型，得到训练完成的声音转换模型。

进一步地，所述目标文本和所述目标说话人语音通过训练完成的所述单说话人语音合成模型、训练完成的所述声纹模型、训练完成的所述声音转换模型计算，包括：

所述目标文本输入训练完成的所述单说话人语音合成模型进行计算，得到单说话人语音；

所述目标说话人语音输入训练完成的所述声纹模型计算，得到目标说话人声纹特征；

所述单说话人语音和所述目标说话人声纹特征通过训练完成的所述声音转换模型进行计算，得到目标说话人文本语音。

本发明的目的之二在于提供一种基于单说话人语音合成数据集的声音克隆装置，其只需单说话人的语音合成数据集，训练获得单说话人语音合成模型，目标文本和目标说话人语音通过单说话人语音合成模型、声纹模型和声音转换模型计算，就能得到以目标说话人声音说出目标文本的语音，从而实现对目标说话人声音的克隆。

本发明的目的之二采用以下技术方案实现：

一种基于单说话人语音合成数据集的声音克隆装置，其包括：

语音合成模块，用于获取单说话人语音合成数据集，基于所述单说话人语音合成数据集，训练单说话人语音合成模型；

声纹模块，用于获取多说话人语音数据集，基于所述多说话人语音数据集训练声纹模型；

声音转换模块，用于所述多说话人语音数据集通过训练完成的所述声纹模型计算，得到声纹特征数据集，并基于所述声纹特征数据集，训练声音转换模型；

声音克隆模块，用于获取目标文本和目标说话人语音，所述目标文本和所述目标说话人语音通过训练完成的所述单说话人语音合成模型、训练完成的所述声纹模型、训练完成的所述声音转换模型计算，得到目标说话人文本语音。

本发明的目的之三在于提供执行发明目的之一的电子设备，其包括处理器、存储介质以及计算机程序，所述计算机程序存储于存储介质中，所述计算机程序被处理器执行时本发明目的之一的基于单说话人语音合成数据集的声音克隆方法。

本发明的目的之四在于提供存储发明目的之一的计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现本发明目的之一的基于单说话人语音合成数据集的声音克隆方法。

相比现有技术，本发明的有益效果在于：

本发明只需一套单说话人的语音合成数据集，就可以实现对目标说话人声音的克隆，对单说话人语音合成数据的处理简单方便，无需收集、处理大量说话人的语音合成数据，极大地减少了人力、时间、资金成本。

附图说明

图1为本发明实施例一的基于单说话人语音合成数据集的声音克隆方法流程图；

图2为本发明实施例二的基于单说话人语音合成数据集的声音克隆装置的结构框图；

图3为本发明实施例三的电子设备的结构框图。

具体实施方式

以下将结合附图，对本发明进行更为详细的描述，需要说明的是，以下参照附图对本发明进行的描述仅是示意性的，而非限制性的。各个不同实施例之间可以进行相互组合，以构成未在以下描述中示出的其他实施例。

实施例一

实施例一提供了一种基于单说话人语音合成数据集的声音克隆方法，旨在通过说话人的语音合成数据集，训练获得单说话人语音合成模型，目标文本和目标说话人语音通过单说话人语音合成模型、声纹模型和声音转换模型计算，就能得到以目标说话人声音说出目标文本的语音。该方法只需一套单说话人的语音合成数据集，就可以实现对目标说话人声音的克隆，对单说话人语音合成数据的处理简单方便，无需收集、处理大量说话人的语音合成数据，极大地减少了人力、时间、资金成本。

请参照图1所示，一种基于单说话人语音合成数据集的声音克隆方法，包括以下步骤：

S110、获取单说话人语音合成数据集，基于单说话人语音合成数据集，训练单说话人语音合成模型。

语音合成数据集中的数据样本通过录音棚录制的声音处理得到，要求录制的声音干净，并且没有明显背景噪声。单说话人语音合成数据集包括单个说话人的文本数据和语音数据。

因为只需获取一套单个说话人的语音合成数据集，大量减少了获取多说话人的语音合成数据所需的各种成本，并且对单说话人语音合成数据集的标注处理更为方便，大大减少了前期数据收集标注的工作量和时间成本，进而降低整体开发成本。

单说话人语音合成模型采用Tacotron和声码器的集成模型。Tacotron作为一种端到端的生成式文本转语音模型，可以直接从字符合成语音，其合成语音自然度方面优于传统的参数系统，它是在帧层面上生成语音，所以它比样本级的字回归方式要快的多，便于进行生成环境部署。

声码器包括但不限于WaveRNN声码器、Griffin-Lim声码器、WaveNet声码器。自回归WaveNet声码器是目前业界合成音质最好的声码器，但合成速度非常慢。采用Griffin-Lim声码器可以快速合成音频信号，进而加快声音克隆速度，但合成音质不是很好。WaveRNN合成音质接近自回归WaveNet声码器，并且合成速度比自回归WaveNet声码器有显著提升。在本实施例中，采用WaveRNN声码器与Tacotron模型的集成模型作为单说话人语音合成模型。

将单说话人语音合成数据集中的文本数据转换为文本向量。该文本向量输入单说话人语音合成模型计算，得到音频预测值。将单说话人语音合成数据集中的语音数据作为音频标签值，音频预测值和语音数据输入音频损失函数，得到音频损失误差。音频损失函数包括但不限于L1损失函数、L2损失函数、交叉熵损失函数。本实施例中，采用L2损失函数作为音频损失函数。基于音频损失误差，训练单说话人语音合成模型，进而获得训练完成的单说话人语音合成模型。

基于单说话人的语音合成数据集，训练得到离线的稳定单说话人语音合成模型，在预测时将目标文本转换成单说话人语音，单说话人语音作为声音转换模型的输入，进而输出以目标说话人的声音说出目标文本，实现对目标说话人的声音进行克隆。

S120、获取多说话人语音数据集，基于多说话人语音数据集训练声纹模型。

语音数据集要求同一段语音文件中只有一个说话人，可以带有背景噪声，也可以没有背景噪声，还可以使用不同语种的语音数据。因此与语音合成数据集相比，多说话人语音数据集的获取更加方便。

多说话人语音数据集包括多个说话人的语音数据和对应的预存声纹标签。语音数据可以是在任意场景下录制的多个说话人（说话人B1，B2，B3...，BN）的语音数据（音频1，音频2，音频N），也可以是通过专业知识库、网络数据库等渠道收集的开源语音数据。本实施例中，采用任意场景下录制的多个说话人的语音数据。对录制或收集的语音数据格式进行统一，包括对采样率、语音文件格式等进行相关预处理，有利于训练过程的批量处理。

声纹模型可以采用基于LSTM、VGG或ResNet的神经网络，声纹模型不限于上述提到的神经网络模型。本实施例中，采用三层LSTM模型作为声纹模型。LSTM（Long Short MemoryNetwork，长短时记忆网络）是RNN的一种变种，能够克服RNN无法很好地处理远距离依赖的问题。

将多说话人语音数据集中长度时长相等的的语音数据输入声纹模型计算，得到声纹预测值。声纹预测值和预存声纹标签输入损失函数计算，得到声纹损失。该损失函数包括但不限于TE2E损失函数、GE2E损失函数、Triplet损失函数。本实施例中，采用GE2E损失函数计算声纹损失。GE2E损失函数是谷歌提出的一种损失函数，能够在更短的训练时间内，得到更高的验证精度，有利于训练获得更好的模型。

根据声纹损失训练声纹模型，得到训练完成的声纹模型，在预测时用于抽取目标说话人语音的声纹特征，该声纹特征作为声音转换模型的输入，进而输出以目标说话人的声音说出目标文本，实现对目标说话人的声音进行克隆。

S130、多说话人语音数据集通过训练完成的声纹模型计算，得到声纹特征数据集，并基于声纹特征数据集，训练声音转换模型。

多说话人语音数据集包括多个说话人（说话人B1，B2，B3...，BN）的语音数据（音频1，音频2，音频N）。语音数据（音频1，音频2，音频N）通过训练完成的声纹模型计算，分别抽取每个说话人语音数据的声纹特征向量，得到相应的声纹特征向量（音频1的声纹特征向量，音频2的声纹特征向量，音频N的声纹特征向量）。根据多说话人语音数据集和对应的声纹特征向量，生成声纹特征数据集。声纹特征数据集的结构为（音频1，音频1的声纹特征向量；音频2，音频2的声纹特征向量；……；音频N，音频N的声纹特征向量）。声纹特征数据集用以训练声音转换模型。

声音转换模型采用Blow模型。Blow模型采用一种基于流的音色转换结构，它继承了Glow的部分结构，同时进行了单尺度结构、正反向转换机制、超调节模块等改进，可以在最少的监督学习端到端的语音转换，实现非并行原始音频之间多对多的语音转换。与现有的基于流的其它结构相比，Blow模型具有更好的语音转换性能。

将声纹特征数据集中的音频和各音频对应的声纹特征向量，成对同时输入Blow模型进行计算，得到声音预测值。根据声音预测值计算Blow模型的似然估计函数，得到声音损失。根据声音损失训练声音转换模型，得到训练完成的声音转换模型，用以最终实现对声音的克隆。

S140、获取目标文本和目标说话人语音，目标文本和目标说话人语音通过训练完成的单说话人语音合成模型、训练完成的声纹模型、训练完成的声音转换模型计算，得到目标说话人文本语音。

目标文本为需要以目标说话人声音发出的文本内容，为任意一段文本。目标说话人语音为声音克隆的任意对象的一段语音片段。

目标文本输入训练完成的单说话人语音合成模型进行计算，就可以得到单说话人语音，即以单说话人声音说出目标文本的语音。将目标说话人语音输入训练完成的声纹模型计算，就得到了目标说话人的声纹特征。单说话人语音和目标说话人声纹特征输入训练完成的声音转换模型计算，得到目标说话人文本语音，即以目标说话人声音说出目标文本的语音。

比如，对于给定目标说话人C的一段语音片段C_T0（说话人C，文本内容为T0），任意输入一段目标文本T1，输入单说话人语音合成模型计算，单说话人语音合成模型是根据单说话人A产生的单说话人语音合成数据集训练获得的，就得到该文本T1下单说话人A的语音A_T1（说话人A，文本内容T1）。使用声纹模型抽取C_T0的声纹特征V_C，即目标说话人C的声纹特征。单说话人A的语音A_T1和目标说话人C的声纹特征V_C输入声音转换模型，进行声音转换，能够得到以目标说话人C的声音说出文本内容为T1的语音C_T1，从而实现对目标说话人声音的克隆。

该方法只需一套单说话人的语音合成数据集，就可以实现对目标说话人声音的克隆，对单说话人语音合成数据的处理简单方便，无需收集、处理大量说话人的语音合成数据，极大地减少了人力、时间、资金成本。

实施例二

实施例二公开了一种对应上述实施例的一种基于单说话人语音合成数据集的声音克隆装置，为上述实施例的虚拟装置结构，请参照图2所示，包括：

语音合成模块210，用于获取单说话人语音合成数据集，基于所述单说话人语音合成数据集，训练单说话人语音合成模型；

声纹模块220，用于获取多说话人语音数据集，基于所述多说话人语音数据集训练声纹模型；

声音转换模块230，用于所述多说话人语音数据集通过训练完成的所述声纹模型计算，得到声纹特征数据集，并基于所述声纹特征数据集，训练声音转换模型；

声音克隆模块240，用于获取目标文本和目标说话人语音，所述目标文本和所述目标说话人语音通过训练完成的所述单说话人语音合成模型、训练完成的所述声纹模型、训练完成的所述声音转换模型计算，得到目标说话人文本语音。

该装置只需一套单说话人的语音合成数据集，就可以实现对目标说话人声音的克隆，对单说话人语音合成数据的处理简单方便，无需收集、处理大量说话人的语音合成数据，极大地减少了人力、时间、资金成本。

实施例三

图3为本发明实施例三提供的一种电子设备的结构示意图，如图3所示，该电子设备包括处理器310、存储器320、输入装置330和输出装置340；计算机设备中处理器310的数量可以是一个或多个，图3中以一个处理器310为例；电子设备中的处理器310、存储器320、输入装置330和输出装置340可以通过总线或其他方式连接，图3中以通过总线连接为例。

存储器320作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本发明实施例中的基于单说话人语音合成数据集的声音克隆方法对应的程序指令/模块（例如，基于单说话人语音合成数据集的声音克隆装置中的语音合成模块210、声纹模块220、声音转换模块230和声音克隆模块240）。处理器310通过运行存储在存储器320中的软件程序、指令以及模块，从而执行电子设备的各种功能应用以及数据处理，即实现上述实施例一的基于单说话人语音合成数据集的声音克隆方法。

存储器320可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据终端的使用所创建的数据等。此外，存储器320可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储器320可进一步包括相对于处理器310远程设置的存储器，这些远程存储器可以通过网络连接至电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置330可用于接收单说话人语音合成数据集、多说话人语音数据集等。输出装置340可包括显示屏等显示设备。

实施例四

本发明实施例四还提供一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行基于单说话人语音合成数据集的声音克隆方法，该方法包括：

当然，本发明实施例所提供的一种包含计算机可执行指令的存储介质，其计算机可执行指令不限于如上所述的方法操作，还可以执行本发明任意实施例所提供的基于单说话人语音合成数据集的声音克隆方法中的相关操作。

通过以上关于实施方式的描述，所属领域的技术人员可以清楚地了解到，本发明可借助软件及必需的通用硬件来实现，当然也可以通过硬件实现，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如计算机的软盘、只读存储器（Read-Only Memory， ROM）、随机存取存储器（RandomAccess Memory， RAM）、闪存（FLASH）、硬盘或光盘等，包括若干指令用以使得一台电子设备（可以是手机，个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述的方法。

值得注意的是，上述基于单说话人语音合成数据集的声音克隆装置实施例中，所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。

对本领域的技术人员来说，可根据以上描述的技术方案以及构思，做出其它各种相应的改变以及形变，而所有的这些改变以及形变都应该属于本发明权利要求的保护范围之内。

Claims

1.一种基于单说话人语音合成数据集的声音克隆方法，其特征在于：包括以下步骤：

将所述多说话人语音数据集通过训练完成的声纹模型进行计算，得到声纹特征数据集，并基于所述声纹特征数据集，训练声音转换模型；

获取目标文本和目标说话人语音，将所述目标文本和所述目标说话人语音通过训练完成的单说话人语音合成模型、声纹模型、声音转换模型进行计算，实现以目标说话人声音说出目标文本的语音，包括：

将所述目标文本输入训练完成的单说话人语音合成模型进行计算，得到单说话人语音；

将所述目标说话人语音输入训练完成的声纹模型进行计算，得到目标说话人声纹特征；

将所述单说话人语音和所述目标说话人声纹特征，通过训练完成的声音转换模型进行计算，实现以目标说话人声音说出目标文本的语音。

2.如权利要求1所述的一种基于单说话人语音合成数据集的声音克隆方法，其特征在于：所述单说话人语音合成数据集包括单说话人的文本数据和语音数据。

3.如权利要求2所述的一种基于单说话人语音合成数据集的声音克隆方法，其特征在于：所述单说话人语音合成模型为Tacotron和声码器的集成模型，其中，所述声码器为WaveRNN声码器、Griffin-Lim声码器中的一种；基于所述单说话人语音合成数据集，训练单说话人语音合成模型，包括：

将所述文本数据转换为文本向量；

将所述文本向量输入所述单说话人语音合成模型进行计算，得到音频预测值；

4.如权利要求1所述的一种基于单说话人语音合成数据集的声音克隆方法，其特征在于：所述声纹模型为三层LSTM模型；基于所述多说话人语音数据集训练声纹模型，包括：

将所述多说话人语音数据集输入所述声纹模型进行计算，得到声纹预测值；

将所述声纹预测值和预存声纹标签输入损失函数进行计算，得到声纹损失；

5.如权利要求1所述的一种基于单说话人语音合成数据集的声音克隆方法，其特征在于：将所述多说话人语音数据集通过训练完成的声纹模型进行计算，得到声纹特征数据集，包括：

将所述多说话人语音数据集通过训练完成的声纹模型进行计算，得到声纹特征向量；

6.如权利要求1所述的一种基于单说话人语音合成数据集的声音克隆方法，其特征在于：所述声音转换模型为Blow模型；基于所述声纹特征数据集，训练声音转换模型，包括：

将所述声纹特征数据集输入所述声音转换模型进行计算，得到声音预测值；

根据所述声音预测值计算似然估计函数，得到声音损失；

7.一种基于单说话人语音合成数据集的声音克隆装置，其特征在于，其包括：

声音转换模块，用于将所述多说话人语音数据集通过训练完成的声纹模型进行计算，得到声纹特征数据集，并基于所述声纹特征数据集，训练声音转换模型；

声音克隆模块，用于获取目标文本和目标说话人语音，将所述目标文本和所述目标说话人语音通过训练完成的单说话人语音合成模型、声纹模型、声音转换模型进行计算，实现以目标说话人声音说出目标文本的语音，包括：将所述目标文本输入训练完成的单说话人语音合成模型进行计算，得到单说话人语音；将所述目标说话人语音输入训练完成的声纹模型进行计算，得到目标说话人声纹特征；将所述单说话人语音和所述目标说话人声纹特征，通过训练完成的声音转换模型进行计算，实现以目标说话人声音说出目标文本的语音。

8.一种电子设备，其包括处理器、存储介质以及计算机程序，所述计算机程序存储于存储介质中，其特征在于，所述计算机程序被处理器执行时执行权利要求1至6任一项所述的基于单说话人语音合成数据集的声音克隆方法。

9.一种计算机存储介质，其上存储有计算机程序，其特征在于：所述计算机程序被处理器执行时实现权利要求1至6任一项所述的基于单说话人语音合成数据集的声音克隆方法。