CN111210803A

CN111210803A - 一种基于Bottleneck特征训练克隆音色及韵律的系统及方法

Info

Publication number: CN111210803A
Application number: CN202010314822.2A
Authority: CN
Inventors: 司马华鹏; 龚雪飞
Original assignee: Nanjing Guiji Intelligent Technology Co ltd
Current assignee: Nanjing Guiji Intelligent Technology Co ltd
Priority date: 2020-04-21
Filing date: 2020-04-21
Publication date: 2020-05-29
Anticipated expiration: 2040-04-21
Also published as: CN111210803B

Abstract

本发明涉及语音合成、语音识别、声音克隆技术领域,本发明结合语音合成技术、语音识别技术、迁移学习技术，提供一种基于Bottleneck特征(音频的语言特征)的声音克隆实现方案，包含训练系统和训练方法；利用少量样本提供自然度、相似度高的TTS服务，以提供目标用户特性的TTS服务，解决了语音合成技术服务样本量大、制作周期长、人力成本高的问题。训练系统包括：数据采集模块、声学特征提取模块、语音识别模块、韵律模块、多人语音声学模块、语音合成模块；本发明还提供一种基于上述系统训练方法，包括准备训练语料、声学特征提取、各模块训练和微调，以及语音合成。

Description

一种基于Bottleneck特征训练克隆音色及韵律的系统及方法

技术领域

本发明涉及语音合成技术（TTS）、语音识别技术(ASR)、声音克隆技术领域，属于人工智能-智能语音领域。

背景技术

随着电话机器人业务市场的快速发展，智能语音的业务量迅速增加给定制的语音合成技术服务（TTS）带来了极大的困难，一套定制的语音合成技术服务（TTS）需要近万条真实录音样本，从采集样本、数据标注、数据预处理、模型训练到提供服务制作周期将近1个月，并且需要大量的人力成本，这种延时无法满足市场的响应。目前，语音合成技术服务（TTS）主要包含两种技术方案：分阶段语音合成和端到端语音合成。音色及韵律克隆旨在通过有限的训练样本合成具有目标用户语音特性的自然发声的语音，缩短制作周期及时提供服务。

发明内容

为适应电话机器人和智能语音系统的市场发展需求，给用户提供定制化的TTS服务，并且快速响应用户需求，满足市场的时效性，本发明结合语音合成技术、语音识别技术、迁移学习技术提供一种基于Bottleneck特征(音频的语言特征)的声音克隆实现方案，利用少量样本数据提供自然的、高相似度的TTS服务，以满足用户的特性需求。解决的技术问题在于最大可能减少语料数量（100-200条），缩短制作周期（4小时），及时提供高质量的定制化的TTS服务。

本发明提供一种基于Bottleneck特征训练克隆音色及韵律的系统，包括：

（1）数据采集模块，用于采集语音识别模块（ASR Model）语料、韵律模块（TTB Model）基础TTB模型语料、多人语音声学模块（Multi-speaker Acoustic Model）基础语料，并建立克隆语料；

（2）声学特征提取模块，提取线性预测编码特征（LPC Feature）和梅尔频率倒谱系数（Mfcc）作为声学特征；

（3）语音识别模块（ASR Model），通过语音识别模块语料训练ASR Model，ASR Model通过添加Bottleneck层，以提取Bottleneck特征；

（4）韵律模块(TTB Model，Text To Bottleneck)，分为基础TTB模型部分和克隆TTB模型部分，其中，基础TTB模型部分使用韵律模块（TTB Model）基础TTB模型语料训练，克隆TTB模型部分，克隆并使用克隆语料微调基础TTB模型；学习文本（Text）到Bottleneck的映射和该用户的韵律特征，建立文本（Text）到Bottleneck的一种深度映射关系；

（5）多人语音声学模块（Multi-speaker Acoustic Model），分为基础声学模型（Acoustic Model）部分和克隆声学模型部分，其中，基础声学模型（Acoustic Model）部分，使用多人的数据集训练；克隆声学模型部分克隆并使用克隆语料微调基础声学模型（Acoustic Model）；

（6）语音合成模块(Vocoder Model)，将多人语音声学模块（Multi-speaker AcousticModel）训练调整后提取的线性预测编码特征（LPC Feature）还原成音频，提供服务。

本发明还提供一种基于上述系统的Bottleneck特征训练克隆音色及韵律的训练方法，包括以下步骤：

步骤一：数据采集，准备各模块所需要的训练语料：语音识别模块语料（A语料）、韵律模块（TTB Model）基础TTB模型语料（B语料）、多人语音声学模块（Multi-speaker AcousticModel）基础语料（C语料）、克隆语料（D语料）；

步骤二：声学特征提取，提取各语料梅尔频率倒谱系数（Mfcc），以及多人语音声学模块（Multi-speaker Acoustic Model）基础语料（C语料）、克隆语料（D语料）的线性预测编码特征（LPC Feature）作为声学特征；

步骤三：使用语音识别的语料（A语料）训练语音合成模型；

步骤四：使用语音识别模型提取B语料、C语料和、D语料的Bottleneck特征，并通过B语料的Bottleneck特征训练韵律模型；

步骤五：使用线性预测编码特征（LPC Feature）和步骤四提取的C语料Bottleneck特征训练多人语音声学模型（Multi-speaker Acoustic Model）；

步骤六：使用D语料的Bottleneck特征和线性预测编码特征（LPC Feature）分别微调韵律模型和多人语音声学模型（Multi-speaker Acoustic Model）；

步骤七：语音合成。

本发明提出一种基于Bottleneck特征为基础融合了语音合成技术、语音识别技术、迁移学习的克隆方案。最大可能减少克隆样本，缩短制作周期，及时提供高质量的定制化的TTS服务。该方案有如下技术效果：

1、使用Bottleneck特征表征音频，使其丢失说话者的身份信息，保留了说话者的韵律信息；

2、微调单人的TTB Model，使微调后的TTB 模型保留目标用户的韵律感；

3、微调多人的Acoustic Model（AM 模型），使微调的AM模型保留目标用户的音色信息；

4、最大可能减少语料数量（100-200条），缩短制作周期（4 小时），及时提供高质量的定制化的TTS服务。

附图说明

图1为本发明系统模块组成图；

图2为本发明数据采集模块工作流程图；

图3为本发明语音识别模块训练流程图；

图4为Mel滤波图；

图5为本发明韵律模块基础TTB训练流程图；

图6为本发明韵律模块训练示意图；

图7为本发明多人语音声学模块训练流程图；

图8为本发明韵律模块、多人语音声学模块微调过程流程图；

图9为本发明语音合成流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

如图1所示，本发明提供一种基于Bottleneck特征训练克隆音色及韵律的系统，包括：

（1）数据采集模块，用于采集语音识别模块（ASR Model）语料、韵律模块（TTB Model）基础TTB模型语料、多人语音声学模块（Multi-speaker Acoustic Model）语料，克隆语料（目标用户的音频及对应文本）；

（3）语音识别模块（ASR Model），通过ASR Model的语料训练ASR Model，ASR Model通过添加Bottleneck网络层，以提取Bottleneck特征；

（4）韵律模块(TTB Model，Text To Bottleneck)，分为基础TTB模型部分和克隆TTB模型部分，其中，基础TTB模型部分使用单人的数据集训练，克隆TTB模型部分，克隆并使用克隆语料微调基础TTB模型；学习Text到Bottleneck的映射和该用户的韵律特征，建立文本（Text）到Bottleneck的一种深度映射关系；

（5）多人语音声学模块（Multi-speaker Acoustic Model），将Bottleneck经训练转化成线性预测编码特征（LPC Feature），分为基础声学模型（Acoustic Model）部分和克隆声学模型部分，其中，基础语音声学模型（Acoustic Model）部分，使用多人的数据集训练；克隆语音声学模型部分克隆并使用克隆语料微调基础语音声学模型（Acoustic Model）；

本发明提供一种基于Bottleneck特征训练克隆音色及韵律的系统训练方法，包括以下步骤：

步骤一：数据采集模块，各模块所需要的训练语料：语音识别模块语料（A语料）、韵律模块（TTB Model）基础TTB模型语料（B语料）、多人语音声学语料（C语料）、克隆语料（D语料）；

如图2所示，获取基础模型的训练语料，以中文普通话为例，需要建立以下几个样本集：一、语音识别模块语料，可以下载转录比高的开源中文数据集，二、韵律模块（TTB Model）基础TTB模型语料，该训练语料要求比较高，需要由用户根据自己实际需要定制（录制或购买），反复标注，清理，得到干净的Text和对应的音频，三、多人语音声学模块语料（录制或购买）；四、克隆语料：由用户录制符合要求的音频100-200条，再降噪（可通过Adobe Audition工具或RNNnoise 模型）、标注，制作标准的语料；

步骤二：声学特征提取模块，提取各语料梅尔频率倒谱系数（Mfcc），以及多人语音声学模块训练语料（C语料）、克隆语料（D语料）的线性预测编码特征（LPC Feature）作为声学特征；

提取Mfcc详细子步骤：

1、预加重：语音信号通过一个高通滤波器：

,μ值一般取0.9-1.0之间，用以提升高频信息；

2、分帧：通过对连续信号的切割，一般采用10-15ms为一帧，25%，50%，75%的重叠率；

3、加窗：将每一帧乘以汉明窗，以增加帧左端和右端的连续性。假设分帧后的信号为S(n), n=0,1,…,N-1, N为帧的大小，那么乘上汉明窗后：

,其中，W(n)形式如下：

；

4、FFT:通过傅里叶变换得到频域上的能量谱分布；

5、Mel滤波：将能量谱通过一组Mel尺度的三角形滤波器组；

6、对数运算：计算每个滤波器组的对数能量；

7、DCT：经过离散余弦变换得到Mfcc特征：

；

LPC特征，可通过LPCnet模型获取；

步骤三：使用语音识别模块训练语料（A语料）训练语音识别模块；

通过Kaldi工具实现语音识别模块的训练，子步骤如下：

（1）标准的GMM-HMM声学模型的训练

a、单因子模型：训练单因子模型（monophone model）是通过 GMM-HMM System 做utterance-level transcriptions（语言级转录），即训练 label-audio（标签-音频）的映射；

b、三音子模型：训练三因子模型（triphone model）是通过 GMM-HMM System 做phoneme-to-audio aglignments（因素音频累积）；

（2）DNN模型训练

以三因子模型为基础，DNN 的输入nodes一般为 39 维的 MFCC 特征，输出的节点（nodes）为相关的标签（labels），训练带有Bottleneck网络层的DNN模型。

步骤四：使用语音识别模块提取B语料、C语料和、D语料的Bottleneck特征，并通过B语料的Bottleneck特征训练韵律模块；

输入音频，提取Mfcc特征，将Mfcc特征输入语音识别模型，模型输出即为Bottleneck；

韵律模块由Encoder（编码）、Decoder（解码）、Attention（注意力）三部分构成一个seq2seq端到端的模型；

音频的文本信息X：

，

音频的Bottleneck特征Y：

，

Encoder：是将输入序列 X 通过非线性变换编码成一个指定长度的向量C（中间语义表示），得到C有多种方式如CNN（卷积神经网络）,RNN（循环神经网络），自注意机制（self-attention）。C = F

；

Decoder：是根据向量C（Encoder的输出结果）和之前生成的历史信息

来生成当前时刻的特征

，

Attention:是在输出的时候，会产生一个注意力范围来表示接下来输出的时候要重点关注输入序列的哪些部分，然后根据关注的区域来产生下一个输出，如此反复。

步骤五：使用线性预测编码特征（LPC Feature）和步骤四提取的C语料Bottleneck特征、韵律模块提取的Bottleneck特征训练多人语音声学模块（Multi-speaker AcousticModel），y=f（x），其中f（）为深度神经网络 y为LPC特征，x为Bottleneck特征；

步骤六：使用D语料的Bottleneck特征和线性预测编码特征（LPC Feature）分别微调TTB模型和多人语音声学模块（Multi-speaker Acoustic Model），微调就是使用克隆语料作为模型输入，将学习率设置更小，重新迭代模型；（微调模型如附图8所示）

步骤七：语音合成输入文本到微调后的韵律模块，模型输出Bottleneck特征，将该特征输入到微调后的多人语音声学模块（Multi-speaker Acoustic Model），模型输出线性预测编码特征（LPC Feature），通过LPCnet网络还原成音频，提供服务（语音合成流程见附图9）。

以上所述实施例不能理解为对发明专利范围的限制，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明的保护范围应以所附权利要求为准。

Claims

1.一种基于Bottleneck特征训练克隆音色及韵律的系统，包括：

（1）数据采集模块，用于采集语音识别模块语料、韵律模块基础TTB模型语料、多人语音声学模块基础语料，及克隆语料；

（3）语音识别模块，通过语言识别模块语料训练语音识别模块，语音识别模块通过添加Bottleneck层，以提取Bottleneck特征；

（4）韵律模块，分为基础TTB模型部分和克隆TTB模型部分，其中，基础TTB模型部分使用韵律模块（TTB Model）基础TTB模型语料训练，克隆TTB模型部分，克隆并使用克隆语料微调基础TTB模型；学习文本（Text）到Bottleneck的映射和用户的韵律特征，建立文本（Text）到Bottleneck的一种深度映射关系；

（5）多人语音声学模块，分为基础声学模型部分和克隆声学模型部分，其中，基础声学模型部分，使用多人语音声学模块基础语料训练；克隆声学模型部分克隆并使用克隆语料微调基础声学模型；

（6）语音合成模块，将多人语音声学模块训练调整后提取的线性预测编码特征（LPCFeature）还原成音频，提供服务。

2.一种基于权利要求1所述系统的基于Bottleneck特征训练克隆音色及韵律的训练方法，其特征在于，包括以下步骤：

步骤一：数据采集模块，准备各模块所需要的训练语料：语音识别模块语料、韵律模块基础TTB模型语料、多人语音声学模块基础语料、克隆语料；

步骤二：声学特征提取模块，提取各语料梅尔频率倒谱系数（Mfcc），以及多人语音声学模块基础语料、克隆语料的线性预测编码特征（LPC Feature）作为声学特征；

步骤三：使用语音识别模块语料训练语音合成模块；

步骤四：语音识别模块提取韵律模块基础TTB模型语料、多人语音声学模块基础语料和、克隆语料的Bottleneck特征，并通过韵律模块基础TTB模型语料的Bottleneck特征训练韵律模块，提取新的Bottleneck特征；

步骤五：使用线性预测编码特征（LPC Feature）和步骤四提取的多人语音声学模块基础语料Bottleneck特征、韵律模块提取的Bottleneck特征训练多人语音声学模块；

步骤六：使用克隆语料的Bottleneck特征和线性预测编码特征（LPC Feature）分别微调韵律模块和多人语音声学模块；

步骤七：语音合成。

3.根据权利要求2所述的一种基于Bottleneck特征训练克隆音色及韵律的训练方法，其特征在于，

步骤二中提取各语料梅尔频率倒谱系数（Mfcc）包括以下子步骤：

1）预加重：语音信号通过一个高通滤波器：

,μ值一般取0.9-1.0之间，用以提升高频信息；

2）分帧：通过对连续信号的切割，一般采用10-15ms为一帧，25%，50%，75%的重叠率；

3）加窗：将每一帧乘以汉明窗，以增加帧左端和右端的连续性。

4）FFT:通过傅里叶变换得到频域上的能量谱分布；

5）Mel滤波：将能量谱通过一组Mel尺度的三角形滤波器组；

6）对数运算：计算每个滤波器组的对数能量；

7）DCT：经过离散余弦变换得到梅尔频率倒谱系数特征。

4.根据权利要求2所述的一种基于Bottleneck特征训练克隆音色及韵律的训练方法，其特征在于，步骤二中线性预测编码特征通过LPCnet模型获取。

5.根据权利要求2所述的一种基于Bottleneck特征训练克隆音色及韵律的训练方法，其特征在于，步骤三语音识别模块训练通过Kaldi工具实现语音识别模块的训练，包括以下子步骤：

1）标准的GMM-HMM声学模型的训练

使用训练语料分别训练：单因子模型、三音子模型；

2）DNN模型训练

以步骤1）三音子模型为基础，训练具有Bottleneck网络的DNN网络，并以Bottleneck层为特征输出。

6.根据权利要求2所述的一种基于Bottleneck特征训练克隆音色及韵律的训练方法，其特征在于，韵律模块由编码、解码、注意力三部分构成一个端到端的模型；

其中，编码是将输入序列 X 通过非线性变换编码成一个指定长度的向量C，得到C的方式包括卷积神经网络,循环神经网络, 自注意机制；

解码是根据向量C和之前生成的历史信息，来生当前时刻的特征；

注意力:是在输出的时候，产生一个注意力范围来表示输入序列在输出的时候要重点关注的部分，并根据关注的区域来产生下一个输出，如此反复。

7.根据权利要求2所述的一种基于Bottleneck特征训练克隆音色及韵律的训练方法，其特征在于，所述的克隆语料为符合用户要求的音频100-200条。