CN114724541A

CN114724541A - 一种声音克隆的方法

Info

Publication number: CN114724541A
Application number: CN202210414216.7A
Authority: CN
Inventors: 李骁; 秦济韬; 陈山
Original assignee: Hangzhou Yingying Sound Technology Co ltd
Current assignee: Hangzhou Yingying Sound Technology Co ltd
Priority date: 2022-04-20
Filing date: 2022-04-20
Publication date: 2022-07-08

Abstract

本发明公开了一种声音克隆的方法，涉及声音录制应用技术领域。本发明至少包括以下步骤：选择新型说话人编码器，通过语音转换系统进行提取，以达到在空间中连续分布、包含更准确的说话人特点的目的。本发明通过加入说话人编码器，可以大大降低对训练数据的需求量；其次，通过声音转换系统提取的说话人编码，具有空间连续分布的优点，在说话人之间没有明确的界限，包含了更多对于语音合成所需的说话人信息，让模型能良好的理解数据匮乏的说话人的特点；并且，通过将时长信息、基频信息、能量信息等说话人特点相关的模块进行独立表达，并与说话人编码相结合，可以更好的让模型学习到全面而准确的说话人发音特点。

Description

一种声音克隆的方法

技术领域

本发明涉及声音录制应用技术领域，具体为一种声音克隆的方法。

背景技术

近年来，语音合成技术已经逐渐应用在各个场景中，比如智能机器人、车载导航、有声电子书、AI新闻播报、短视频配音等。但目前的语音合成服务中，通常都是由服务商提供少量的AI主播可供用户选择，这些AI主播都是基于大量录音数据进行制作的，只能满足用户对音色选择上最基本的使用需求，而用户的使用需求，越来越多的需要个性化的AI主播定制能力，一些商业客户需要克隆制作签约艺人的AI主播声音，一些大众用户需要将自己的声音进行克隆，用于自媒体的运营等主要存在的问题如下：

1、普通TTS系统中，都需要较大量的说话人音频数据，进行训练，数据收集难度大，耗时长

2、通过加入说话人查表向量的方式，编码形态相对单一，并且针对同一说话人的不同句子，其查表向量完全一样，导致其在空间分布中非常稀疏离散，难以让模型对数据量匮乏的，以及未在训练集中见过的说话人有良好的学习能力。

3、在类似tacotron+说话人查表向量的系统中，仅通过说话人查表向量来表征发音特点，是不充分的。模型是无法仅通过一组向量学习到充分的说话人发音特点。

4、在类似加入GST全局风格标记的语音合成系统中，GST没有将说话人的发音特点进行拆分，其编码后的向量信息混杂，难以准确表征目标特点。同时由于GST模块不具备独立损失函数，其在训练中只能通过整体损失函数优化，学习能力有一定局限性。

总结来说，不便于通过极少量的样本，良好的模仿目标说话人的音色、口音、声调、语气等多方面的特点。

发明内容

本发明的目的在于提供一种声音克隆的方法，以解决现有的问题：不便于通过极少量的样本，良好的模仿目标说话人的音色、口音、声调、语气等多方面的特点。

为实现上述目的，本发明提供如下技术方案：一种声音克隆的方法，至少包括以下步骤：

选择新型说话人编码器，通过语音转换系统进行提取，以达到在空间中连续分布、包含更准确的说话人特点的目的；

采用TTS语音合成系统框架，TTS系统采用编码器-解码器组合的神经网络架构，主体模块可分为文本编码器、说话人特征预测器、解码器、声码器四大部分；

在TTS合成框架中，增加特征预测器，从而获得高质量的合成和目标说话人音色、风格一致的高质量音频。

优选的，所述说话人编码器的操作过程至少包括以下步骤：

将说话人音频送入说话人编码网络，该编码网络为带有ReLU激活的卷积神经网络，得到说话人编码向量；

同时，将说话人音频送入音频内容编码网络，得到音频内容编码向量，该编码网络为带有实例归一化层的卷积神经网络，通过实例归一化层，可以很好的从音频内容编码网络中将说话人信息进行解耦，确保两个编码网络可以针对性提取出对应的特征信息；

将得到的说话人编码向量和音频内容编码向量送入解码网络，解码网络通过卷积神经网络和自适应实例归一化方法，从编码向量中还原出说话人音频；

利用训练好的音色转换系统，将说话人编码向量进行独立输出，用于后续的语音合成系统。

优选的，构成所述TTS语音合成系统框架过程中至少包括以下步骤：

a.TTS系统的输入为待合成的文本信息，本系统以音素，采用中文拼音及英文音标作为文本输入信息。

b.将音素信息送入文本编码器，文本编码器是由多头注意力机制和卷积神经网络组成，文本编码器将输出固定长度的文本编码向量，该向量表达了文本相关特征。

c.将从音色转换系统中得到的说话人编码向量，和文本编码向量相加，得到组合编码向量。

d.将组合编码向量送入说话人特征预测器，预测器将对说话人特征做更详细的预测分析，并输出更丰富的说话人特征和文本编码相加后的组合向量。

e.将组合向量送入解码器，和编码器类似，解码器由多头注意力机制和卷积神经网络组成，解码器将组合编码向量解码为音频梅尔特征，将音频梅尔特征送入声码器，声码器可以使用各类常见的声码器结构，包括但不限于melgan、hifigan、lpcnet等，声码器将最终输出合成音频，该音频具有和目标说话人一致的音色和说话风格。

优选的，所述特征预测器的使用流程至少包括以下步骤：

a.由文本编码向量和从声音转换系统中提取到的说话人编码向量相加，得到优化前的组合编码向量；

b.将组合编码向量输入到韵律预测网络，该网络由卷积神经网络和循环神经网络组成，输出为代表说话人说话韵律特征的编码向量；

C.将韵律特征向量和文本编码向量同时送入时长预测网络，该网络由卷积神经网络和层归一化模块组成，输出为符合当前合成文本的每个音素的时长信息；

d.将时长信息和文本编码向量同时送入基频预测网络，该网络由卷积神经网络和层归一化模块组成，输出为符合当前合成文本的基频特征向量；

e.将基频特征向量和文本编码向量同时送入能量预测网络，该网络由卷积神经网络和层归一化模块组成，输出为符合当前合成文本的能量特征向量；

f.每一个预测网络的输出都将相加在一起，共同输出为优化之后的组合编码向量。

与现有技术相比，本发明的有益效果是：

1、本发明根据一句常规的录音，通过一种新型的说话人编码器，配合迁移学习、语音合成、语音对齐等一系列技术手段，制作出高相似度、高可懂度、高流畅度的AI主播模型，让大众用户可以方便快捷的创建自己的AI声音，用于音频内容生产、AI智能主力等场景；

2、本发明让TTS模型具备更好的发音特点学习能力，可以仅通过极少量的样本，良好的模仿目标说话人的音色、口音、声调、语气等多方面的特点；

3、本发明通过加入说话人编码器，可以大大降低对训练数据的需求量；其次，通过声音转换系统提取的说话人编码，具有空间连续分布的优点，在说话人之间没有明确的界限，包含了更多对于语音合成所需的说话人信息，让模型能良好的理解数据匮乏的说话人的特点；并且，通过将时长信息、基频信息、能量信息等说话人特点相关的模块进行独立表达，并与说话人编码相结合，可以更好的让模型学习到全面而准确的说话人发音特点。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的基于音色转换系统的说话人编码器的示意图；

图2为本发明的TTS系统整体框架图；

图3为本发明的说话人特征预测器的示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。

请参阅图1-3，一种声音克隆的方法，至少包括以下步骤：

如图1所示：所述说话人编码器的操作过程至少包括以下步骤：

a.将说话人音频送入说话人编码网络，该编码网络为带有ReLU激活的卷积神经网络，得到说话人编码向量；

b.同时，将说话人音频送入音频内容编码网络，得到音频内容编码向量，该编码网络为带有实例归一化层的卷积神经网络，通过实例归一化层，可以很好的从音频内容编码网络中将说话人信息进行解耦，确保两个编码网络可以针对性提取出对应的特征信息；

c.将得到的说话人编码向量和音频内容编码向量送入解码网络，解码网络通过卷积神经网络和自适应实例归一化方法，从编码向量中还原出说话人音频；

d.利用训练好的音色转换系统，将说话人编码向量进行独立输出，用于后续的语音合成系统。

如图2所示：构成所述TTS语音合成系统框架过程中至少包括以下步骤：

a.TTS系统的输入为待合成的文本信息，本系统以音素，采用中文拼音及英文音标作为文本输入信息；

b.将音素信息送入文本编码器，文本编码器是由多头注意力机制和卷积神经网络组成，文本编码器将输出固定长度的文本编码向量，该向量表达了文本相关特征；

c.将从音色转换系统中得到的说话人编码向量，和文本编码向量相加，得到组合编码向量；。

d.将组合编码向量送入说话人特征预测器，预测器将对说话人特征做更详细的预测分析，并输出更丰富的说话人特征和文本编码相加后的组合向量；

如图3所示：所述特征预测器的使用流程至少包括以下步骤：

整体训练流程:

1.通过大规模多人数据，使用上述框架结构，训练基础模型。在这个过程中，因为训练集中包含大量不同的说话人，经过说话人编码器后，可以得到非常稠密的说话人特征空间分布，从而让基础模型对说话人编码有足够的普适性认知。

2.收集少量，最少可以只收集一句目标说话人的音频数据，可以再以下两种策略中选择一种：

a)使用上述框架结构，将基础模型在目标说话人数据上进行小量迭代加训，得到针对目标发音人的特定模型。

b)不进行迭代加训，直接将目标说话人通过说话人编码器，得到说话人编码向量后，进行语音合成。

以上两种方式中，a的稳定性和最终相似度会更好一些，但方案b可以省掉所有的训练环节，更加灵活便捷。

优化了常见的说话人编码器，通过引入声音转换系统，让说话人编码向量能够包含更准确、更丰富的说话人信息，提升了小样本学习中的效果。

通过说话人特征预测器，详细拆解了说话人发音特征的多个维度，从而强化了说话人信息在语音合成中的作用，让说话人特征能够更好的被学习和表达，提高了合成语音中的表达力。

可以只通过一句话克隆目标说话人的音色信息和发音特点，比现有产品技术更为高效。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

Claims

1.一种声音克隆的方法，其特征在于：至少包括以下步骤：

2.根据权利要求1所述的一种声音克隆的方法，其特征在于：所述说话人编码器的操作过程至少包括以下步骤：

3.根据权利要求1所述的一种声音克隆的方法，其特征在于：构成所述TTS语音合成系统框架过程中至少包括以下步骤：

TTS系统的输入为待合成的文本信息，本系统以音素，采用中文拼音及英文音标作为文本输入信息；

将音素信息送入文本编码器，文本编码器是由多头注意力机制和卷积神经网络组成，文本编码器将输出固定长度的文本编码向量，该向量表达了文本相关特征；

将从音色转换系统中得到的说话人编码向量，和文本编码向量相加，得到组合编码向量；

将组合编码向量送入说话人特征预测器，预测器将对说话人特征做更详细的预测分析，并输出更丰富的说话人特征和文本编码相加后的组合向量；

将组合向量送入解码器，和编码器类似，解码器由多头注意力机制和卷积神经网络组成，解码器将组合编码向量解码为音频梅尔特征，将音频梅尔特征送入声码器，声码器可以使用各类常见的声码器结构，声码器将最终输出合成音频。

4.根据权利要求1所述的一种声音克隆的方法，其特征在于：所述特征预测器的使用流程至少包括以下步骤：

b.将组合编码向量输入到韵律预测网络，该网络由卷积神经网络和循环神经网络组成，输出为代表说话人说话韵律特征的编码向量