CN110136687B

CN110136687B - 一种基于语音训练克隆口音及声韵方法

Info

Publication number: CN110136687B
Application number: CN201910420416.1A
Authority: CN
Inventors: 邝翠珊
Original assignee: Shenzhen Digital Galaxy Technology Co ltd
Current assignee: Shenzhen Digital Galaxy Technology Co ltd
Priority date: 2019-05-20
Filing date: 2019-05-20
Publication date: 2021-06-15
Anticipated expiration: 2039-05-20
Also published as: CN110136687A

Abstract

一种基于语音训练克隆口音及声韵方法，公开了以训练文本使用代表不同语调的典型分类文本，经训练后获得用户同一音标几个不同语调下的含口音、声韵的单元，从中提取音素、语音片段单元最为音库内容，比较全面的保留了用户个性化的语音中口音、声韵等特征，克隆模拟语音时，根据文本特征代表的语调和训练经验获得对应的音素组，经过声韵矫正、缓差对齐矫正合成的语音，实现口音及声调的保真克隆。

Description

一种基于语音训练克隆口音及声韵方法

技术领域

本发明涉及语音克隆技术领域，尤其涉及一种基于语音训练克隆口音及音调方法。

背景技术

现在语音技术是科技研究最热点最前沿的技术领域之一，语音技术也是许多Google、讯飞等国际型科技公司大力研究的课题，国外有家LYREBIRD（天琴鸟）网站平台提供语音克隆的服务，用户只要通过网站平台的30句左右的文本进行朗读训练后，用户就能获得输入文本内容的的朗读语音，并且所获语音的音质和用户语音相近，现在成为热点，许多用户都在各大视频网站平台发布这种语音克隆的视频，但LYREBIRD（天琴鸟）网站平台和现有的其他语音模式克隆技术一样，声音的音质虽然和用户语音很接近，是很大的突破，但所发的语音仍然是机械的电子音，全世界的声学工程师也一直致力于研究让机器“说人话”，但搞出来的成果大多数还是跟人类真实的声音有很大差距，生硬、不自然一直是通病；究其根本，就是现有语音模拟克隆技术基本都是基于音质音调的强制一致，没有克隆模拟出用户的语调、韵律、口音等能代表用户个性化特征的语音内容。

发明内容

鉴于以上的技术问题，克隆语音的语音表达的意思往往和用户本身的本意难以统一。

为解这些问题，一种基于语音训练语音克隆口音及音调方法，以语音分割为基础，以训练文本代表不同语调为分类，经训练后获得用户同一音标几个不同语调下的单元（含口音偏向的特征），文本转语音时候，根据文本代表的语调获得对应的所述语调类别的音素单元，经过合成克隆语音,这种技术方案的创造性在于个性化，和主流语音克隆技术的区别在于：使用原始因素修正后为合成的基础单元，不只为音质牺牲个性化的语音特征。

一种基于语音训练克隆口音及声韵方法，其特征在于，包括：以训练文本代表不同语调为分类，经训练后获得用户同一音标几个不同语调下的单元，文本转语音时候，根据文本的语调和训练经验获得对应的音素单元：

a、训练所用文本词句单词，涵盖所有的音素、特殊组合发音的音节；

b、设置不同长度的语句，以获得用户朗读时候的换气必要动作所造成的声韵特征；

c、涵盖典型语气的文本语句，以获得用户在不同文本内涵意思，对语气声调影响的特征；

d、设置语调类，分别映射对应文本内容、音标、语音片段单元。

合成克隆语音,包括如下要素：

目标克隆语音，其构成是一组语音片段单元，其内容为：y=(

,

,…..

)，则每个相邻的语音片段单元就需要进行矫正，取任意两个相邻语音片段单元

、

进行矫正运算。

分别将

、

语音片段单元进行分帧。

将帧长设定为12ms，获得语音帧的声音强度：创建用户声韵特征库，对所述用户对训练文本朗读的音频数据通低通滤波的解析运算，提取所述音频数据中的时长、长短句声中帧组中各自帧的声强均值或平方值信息保存到系统中用户信息的相关数据库的声韵特征库表格，将既定时长的语音分解成既定时长帧集合，记载各帧段语音的平均声强或波幅，作为用户的声韵特征标准。

分子

是测量值的声压，分母

设定为20微帕，公式3声压震幅绝对平均值运算，求得各个语音帧时间段声压平均值之后，代入上述的公式3中，算出语音帧相对的分贝值，和用户信息，映射的音标一并记载到系统中的声韵特征库。

克隆语音中取任意两个相邻语音片段单元

、

，将

、

语音片段单元进行分帧，分别获得两组序列语音帧的声音强度组对应

为c=(

,

,…..

)、对应

为d=(

,

,…..

)，分别将

、

根据时间轴上的分布找到对应的时间段。

α=INT(

音素时长/帧时长*η)；

β=INT(

音素时长/帧时长*η)；

η为修正比例参数，即表示在音素中取η比例的帧参与缓差对齐的矫正；η赋值为0.085；INT为取整函数，即取小于等于括号中的运算结果的最大整数。α、β分别为

、

中将参与缓差对齐的矫正的语音帧个数。

将

、

音素的临界合成点声音强度L设定为:

L为临界合成点声音强度；

以变量i对

音素中的帧从1开始编号，将

音素中从第h-α+1个帧开始到最后一帧修正声音强度的公式：

以变量i对

音素中的帧从1开始编号，将

音素中从第一帧开始到第β个帧结束修正声音强度的公式：

通过以上所述及公式6、7、8，完成相邻语音片段单元的语音合成后对应音素声音强度的新赋值，通过循环依次将所有相邻的语音片段单元进行同样的矫正合成，强制对应音素强度为矫正计算后的强度。

所述一种基于语音训练克隆口音及声韵方法，还包括：

创建用户音库，用户对训练文本朗读的音频数据通过低通滤波解析运算，提取所述音频数据的特征信息包括用户音素、特殊语音片段单元、时长信息保存到系统中用户信息的相关数据库的用户音库表格及特定服务器特定路径的文件夹中。

创建用户声韵特征库，用户对训练文本朗读的音频数据通过低通滤波解析运算，提取所述音频数据中的时长、长短句声中帧组中各自帧的声强均值或平方值信息保存到系统中用户信息的相关数据库的声韵特征库表格，作为用户的声韵特征标准，等待系统在克隆语音时候调用，用于修正克隆语音的声韵；

根据用户音库实现语音克隆,在用户输入文本需要模拟克隆语音时候，首先以标点符号文本特征识别文本语调类别，识别无结果是默认陈述语调，进一步，将文本分拆成音素、音节、单词，并根据分拆的特征文本在用户音库中检索其对应的语音片段单元，所述检索到多个记录时，根据语调类别进一步筛选，无语调识别结果时，将语调类设为陈述的类别检索。

所述创建用户音库，将经过滤波分析整理过的用户基于文本朗读的语音，进行分拆，获得与文本片段单元组对应的语音片段单元组y = (

,

,…..

)，并将所述文本片段单元组的标准语音的时长分别调出，获得s = (

,

,…..

)，即

的标准时长是

、

的标准时长是

，以此类推

的标准时长是

，用户语音训练英语朗读基于文本内容，采循环递推打分分拆识别法：

首先将文本分拆成单词组、音素、音节组，以单词、音素、音节的标准语音及其声学特征等作为标准参考模型，先设音素、音节、单词被用户朗读的时长为标准时长，即为音素、音节、单词在被标准发音朗读对应的时长，在被测用户朗读的语音上依次分拆该时长的语音段，进行比对获得最高分值的语音段，然后进行向前向后的加减时长的修正，获得音素、音节、单词较为匹配的语音段，将所述语音段、语音段时长、语音段声学特征、语音段映射的音节音素、用户信息及根据文本特征认定的语调类别一并保存。

所述一种基于语音训练克隆口音及声韵方法，还包括：一种声韵矫正的方法，目标克隆语音，其构成是一组语音片段单元，其内容为：y=(

,

,…..

)，调出语音片段单元对应的时长，获得s = (

,

,…..

)，对语音帧时长进行叠加求和运算：

j为目标克隆语音的预计时长，将j值为检索条件，在声韵特征库中检索时长和j值最为接近的记录，所述记录对应的语音通过分帧获得各帧的声强数据组，读取为b=(

,

,…..

)，计算目标克隆语音y的在其内部帧单元的声强a=(

,

,…..

)，从目标克隆语音的第一帧开始，修正声韵的声强强度，计算公式如下：

第i帧声强，

声韵特征库中检索到合乎条件的第i帧声强,f为系统设置的声韵修正阀值，K为系统预设的声韵修正系数，在i小于等于m、n的前提下，通过循环计算矫正克隆模拟目标语音的声强，即i取值从1开始，递增1进行循环运算，直到不符合i值同时满足小于等于m、n的条件。

系统设置的声韵修正阀值f赋值为28dB，系统预设声韵修正系数k赋值为0.13。

附图说明

图1 为一种基于语音训练克隆口音及声韵方法整体逻辑框架图。

图2 为缓差对齐的语音合成矫正的方法中，两音素合成对齐矫正前后的语音强度对比波形示意图。

具体实施方式

具体的技术方案首先部署数据库、系统软硬件环境，配置用户注册模块、用户模块等常规系统的必要模块，还包括如下模块、步骤及要素。

步骤一、语音信息处理模块，收集来自于麦克风或智能设备中语音传感器的功能等等语音硬件的信号，将用户的说话的声音，形成信号输入系统，并将采集后的语音转换成语音数字信号推送或等待系统进行运算处理。

步骤二、构建低通滤波算法;为了最大限度的降低语音中的噪声，屏蔽语音信息里和用户语音内容不相关的内容，就需要进行过滤，容许低于截止频率的信号通过，截止高于截止频率的信号；一种实施例：采用巴特沃斯滤波算法构建低通滤波，巴特沃斯滤波的特点是通频带内的频率响应曲线最大限度平坦，没有起伏，而在阻频带则逐渐下降为零，采用的是巴特沃斯传递函数，允许从直流到某个截止频率(fCUTOFF) 的信号通过，将通用滤波器二阶传递函数的高通和带通系数均设为零，即得到一个低通滤波器传递公式，巴特沃斯低通滤波器可用如下振幅的平方对频率的公式表示：

其中, n为滤波器的阶数，

等于截止频率也就是等于振幅下降为3dB时的频率，

为通频带边缘频率，通过本公式1的传递函数，获取过滤的用户的音频数据；对所述音频数据进行解析。

优选地，根据所述的低通滤波传递公式，以MATLAB作为滤波的分析运算、编写程序的工具，最新版本的MATLAB可以利用MATLAB编译器和C/C++数学库和图形库，将自己的MATLAB程序自动转换为独立于MATLAB运行的C和C++代码，允许用户编写可以和MATLAB进行交互的C或C++语言程序；因此滤波运算后的语音数据方便系统程序无缝对接。

步骤三、语音训练所用文本的选择方法：为充分获得用户语音的发音特征，训练文本必须涵盖有多样性的典型，本发明采用训练文本选择的方法有：

a、所用文本词句单词，需要至少一次涵盖所有的音素、特殊组合发音的音节。

b、设置不同长度的语句，以获得用户朗读时候的换气等必要动作所造成的声韵特征。

c、尽可能涵盖多种典型语气的文本语句，例如疑问句，惊讶句、兴奋句、严肃语句等等，以获得用户在不同文本内涵对语气声调影响的特征。

d、在系统中设置语调类，分别映射对应文本内容、音标、语音片段单元等，实施例：疑问声调、陈述声调、感叹声调等。

步骤四、创建用户音库，对所述用户对训练文本朗读的音频数据通过如上步骤1低通滤波等的解析运算，提取所述音频数据的特征信息包括用户音素、特殊语音片段单元、时长、等信息保存到系统中用户信息的相关数据库的用户音库表格及特定服务器特定路径的文件夹中。

,

,…..

,

,…..

)，即

的标准时长是

、

的标准时长是

，以此类推

的标准时长是

，所述标准时长即为语音片段单元在被标准发音朗读对应的时长，本文统称标准时长，用户语音训练英语朗读基于文本内容，采循环递推打分分拆识别法：

在被测用户朗读的语音上依次分拆y对应s时长的语音段，和y对应的标准语音之间的语音特征数据进行比对，获得最高分值的语音段，然后进行加减时长向前修正、向后修正,所述向前修正即为 s时长对应的在被测用户朗读的语音起点时间戳，依次减去设定时间段的数值设新的起点时间，取新起点时间戳和s时长对应的在被测用户朗读的语音终点时间戳之间的语音段，和对应的标准语音之间的语音特征比对获得分值，将分值最高的所述语音段所对应的在被测用户朗读的语音起点设为修正后的起点，依次类推所述向后修正，依次加上设定时间段的数值设新的终点时间，取新终点时间戳和对应的在被测用户朗读的向前修正后语音起点时间戳之间的语音段，和对应的标准语音之间的语音特征比对获得分值，将分值最高的所述语音段所对应的在被测用户朗读的语音终点时间戳设为修正后的终端时间戳，获得最高分值的语音段，将所述语音段、语音段时长、语音段声学特征、语音段映射的文本、用户信息及根据文本特征认定的语调类别一并保存。

步骤五、创建用户声韵特征库，对所述用户对训练文本朗读的音频数据通过如上步骤1低通滤波等的解析运算，提取所述音频数据中的时长、长短句声中帧组中各自帧的声强均值或平方值等信息保存到系统中用户信息的相关数据库的声韵特征库表格。

优选地，所述记录用户声韵特征信息，常规语音克隆技术所模拟的用户语音，只在音质上相近，缺少真人语音此起彼伏的声韵内容，因此本发明分析用户语音声调声韵特征，将既定时长的语音分解成既定时长帧集合，记载各帧段语音的平均声强或波幅，作为用户的声韵特征标准，等待系统在克隆语音时候调用，用于修正克隆语音的声韵。

一种声韵特征记载的实施例：声音强度只能使用无纲量的相对单位，现在最常用的是分贝（decibel，缩写为dB）。通用计算公式如下

分子

是测量值的声压，分母

是人类所能听到的最小声压（本发明设定为20微帕，），公式2适合于声压震幅平方值运算，公式3适合针对声压震幅绝对平均值运算。

安卓系统中获得音源数据的类有两个：android.media.MediaRecorder和android.media.AudioRecord，通过申请语音接口权限：<uses-permission android:name="android.permission.RECORD_AUDIO" />获得音源数据的类：android.media.MediaRecorder和android.media.AudioRecord，经过本发明技术人员的多次试验，这两个类相比使用android.media.AudioRecord的结果更为平稳，将语音数据用read(byte[] audioData, int offsetInBytes, int sizeInBytes)方法从缓冲区读取到系统预先设定的数组audioData后，再等待调用提高运算效率，为了避免极端异常的帧幅值的影响造成巨大误差。

优选地，将语音分成帧长为12ms的时间段获取其绝对值的平均值，使计算的结果更加稳定。

通过如上所述的方法求得各个语音帧时间段平均值之后，代入上述的公式3中，算出语音帧相对的分贝值，和用户信息，映射的音标等一并记载到系统中的声韵特征库。

步骤六、用户声韵特征库根据用户音库实现语音克隆,在用户输入文本需要模拟克隆语音时候，首先以标点符号等文本特征识别文本语调类别，识别无结果是默认陈述语调。

进一步，将文本按照步骤三所述的方法分拆成音素、音节、单词，并根据所述分拆的特征文本在用户音库中检索其对应的语音片段单元，所述检索到多个记录时，根据语调类别进一步筛选，无语调识别结果时，将语调类设为陈述的类别检索优选的结果。

这样将文本对应一组语音片段单元组y = (

,

,…..

)，并将所述语音片段单元的标准时长分别调出，获得s = (

,

,…..

)，待系统进一步的运算整理。

步骤七、声韵矫正，每个人的语音会因换气习惯、肺活量等因素的影响，朗读不同长度的文本会有不同的声韵特征，根据目标克隆语音的预判时长对合成语音进行声韵矫正运算，使得克隆所得语音更加个性化。

一种声韵矫正的方法，语音帧时长进行叠加求和运算：

j为目标克隆语音的预计时长，将j值为检索条件，在声韵特征库中检索时长和j值最为接近的记录。

读取记录中帧组声强数据组，读取为b=(

,

,…..

)，，按照步骤五的技术方法，计算步骤六目标克隆语音y的在其内部帧单元的声强a=(

,

,…..

)，从目标克隆语音的第一帧开始，修正声韵的声强强度，本发明独创的计算公式如下：

第i帧声强，

本发明通过实验优选地，系统设置的声韵修正阀值f赋值为28dB，系统预设声韵修正系数k赋值为0.13。

步骤八、缓差对齐矫正合成语音（阶差、断点过渡修正），使用原声音库根据文本英标进行语音合成最大的技术困难在于被合成的语音单元之间音量及语调衔接往往是断崖式的落差，合成出的声音会变得非常刺耳机械，因此音素、语音片段合成时候需要做缓冲对齐的修正，才会让克隆出的语音平缓自然，本发明创建了一种缓差对齐的语音合成矫正的方法来克服这些技术缺陷。

通过步骤七，我们获得经过声韵语调修正过的目标克隆语音，其构成是一组被矫正运算过的语音片段单元，其内容为新值的：y=(

,

,…..

)；则每个相邻的语音片段单元就需要进行缓冲对齐的矫正，取任意两个相邻语音片段单元

、

进行矫正运算。

按照步骤5所述的技术方法分别将

、

语音片段单元进行分帧。

优选地，将帧长设定为12ms。

通过分帧，并通过步骤五所述的技术方法分别获得两组序列语音帧的声音强度组对应

为c=(

,

,…..

)、对应

为d=(

,

,

,…..

)，分别将

、

根据时间轴上的分布找到对应的时间段，根据时长分别获得

、

中语音帧的时间戳。

α=INT(

音素时长/帧时长*η)；

β=INT(

音素时长/帧时长*η)；

、

中将参与缓差对齐的矫正的语音帧个数。

将

、

音素的临界合成点声音强度L设定为:

L为临界合成点声音强度。

以变量i对

音素中的帧从1开始编号，将

音素中从第h-α+1个帧开始到最后一帧修正声音强度的公式：

以变量i对

音素中的帧从1开始编号，将

音素中从第一帧开始到第β个帧结束修正声音强度的公式：

通过以上所述及公式6、7、8，完成相邻语音片段单元的语音合成后赋值声音强度，通过循环依次将所有相邻的语音片段单元进行同样的矫正合成，强制对应音素强度为矫正计算后的强度，就能完成目标克隆语音整体的合成矫正，具体技术方法和效果参见附图图2示意图，得到声调和谐自然的克隆语音的效果。

通过上述的技术方案的语音克隆，从最为本源的用户训练语音中提取语音片段单元作为音库内容，比较全面的保留了用户个性化的语音中口音、音调等特征，这种技术方案的创造性在于个性化，和主流语音克隆技术的区别在于：使用原始因素修正后为合成的基础单元，不只为音质牺牲个性化的语音特征，独创了语音合成中涉及声韵、语调矫正的技术手法，相比于现有技术具有显著的进步。

特别申明：在本说明书中所述的 “实施例”等，指的是结合该实施例描述的具体特征、要素或者特点包括在本申请概括性描述的实施例中。在说明书中多个地方出现同种表述并非限定特指的是同一个实施例。也就是说，结合任一实施例描述一个具体特征、要素或者特点时，所要主张的是结合其他实施例来实现这种特征、要素或者特点被包含于本发明申请保护的权利要求范围中；实施例是参照本发明逻辑架构及思路的多个解释性实施例对本发明进行了描述，但本发明的保护范围并不局限于此，本领域技术人员在本发明技术方案框架下可以设计出很多其他的修改和实施方式，可以对技术方案的要点变换组合/或布局进行多种非本质性变型和改进，对于本领域技术人员来说，其他的用途也将是明显的，可轻易想到实施的非实质性变化或替换，这些修改和实施方式将落在本申请公开的原则范围和精神之内。

Claims

1.一种基于语音训练克隆口音及声韵方法，其特征在于，包括：以训练文本代表不同语调为分类，经训练后获得用户同一音标几个不同语调下的单元，文本转语音时候，根据文本的语调和训练经验获得对应的音素单元：

d、设置语调类，分别映射对应文本内容、音标、语音片段单元；

合成克隆语音，包括如下要素：

目标克隆语音，其构成是一组语音片段单元，其内容为：y=(

,

,…..

、

进行矫正运算；

分别将

、

语音片段单元进行分帧；

将帧长设定为12ms，获得语音帧的声音强度：创建用户声韵特征库，对所述用户对训练文本朗读的音频数据通低通滤波的解析运算，提取所述音频数据中的时长、长短句声中帧组中各自帧的声强均值或平方值信息保存到系统中用户信息的相关数据库的声韵特征库表格，将既定时长的语音分解成既定时长帧集合，记载各帧段语音的平均声强或波幅，作为用户的声韵特征标准；

分子

是测量值的声压，分母

设定为20微帕，公式3对声压振幅绝对平均值运算，求得各个语音帧时间段声压平均值之后，代入上述的公式3中，算出语音帧相对的分贝值，和用户信息，映射的音标一并记载到系统中的声韵特征库；

克隆语音中取任意两个相邻语音片段单元

、

，将

、

语音片段单元进行分帧，分别获得两组序列语音帧的声音强度组，对应

为c=(

,

,…..

)、对应

为d=(

,

,…..

)，分别将

、

根据时间轴上的分布找到对应的时间段；

α=INT(

音素时长/帧时长*η)；

β=INT(

音素时长/帧时长*η)；

η为修正比例参数，即表示在音素中取η比例的帧参与缓差对齐的矫正；η赋值为0.085；INT为取整函数，即取小于等于括号中的运算结果的最大整数， α、β分别为

、

中将参与矫正的语音帧个数；

将

、

音素的临界合成点声音强度L设定为：

L为临界合成点声音强度；

以变量i对

音素中的帧从1开始编号，将

音素中从第h-α+1个帧开始到最后一帧修正声音强度的公式：

以变量i对

音素中的帧从1开始编号，将

音素中从第一帧开始到第β个帧结束修正声音强度的公式：

通过以上及公式6、7、8，完成相邻语音片段单元的语音合成后对应音素声音强度的新赋值，通过循环依次将所有相邻的语音片段单元进行同样的矫正合成，强制对应音素强度为矫正计算后的强度。

2.根据权利要求1所述一种基于语音训练克隆口音及声韵方法，其特征在于，包括：创建用户音库，用户对训练文本朗读的音频数据通过低通滤波解析运算，提取所述音频数据的特征信息包括用户音素、特殊语音片段单元、时长信息保存到系统中用户信息的相关数据库的用户音库表格及特定服务器特定路径的文件夹中；

根据用户音库实现语音克隆，在用户输入文本需要模拟克隆语音时，首先以标点符号文本特征识别文本语调类别，识别无结果是默认陈述语调，进一步，将文本分拆成音素、音节、单词，并根据分拆的特征文本在用户音库中检索其对应的语音片段单元，所述检索到多个记录时，根据语调类别进一步筛选，无语调识别结果时，将语调类设为陈述的类别检索；

,

,…..

,

,…..

)，即

的标准时长是

、

的标准时长是

，以此类推

的标准时长是

，用户语音训练英语朗读基于文本内容，采循环递推打分分拆识别法：首先将文本分拆成单词组、音素、音节组，以单词、音素、音节的标准语音及其声学特征等作为标准参考模型，先设音素、音节、单词被用户朗读的时长为标准时长，即为音素、音节、单词在被标准发音朗读对应的时长，在被测用户朗读的语音上依次分拆该时长的语音段，进行比对获得最高分值的语音段，然后进行向前向后的加减时长的修正，获得音素、音节、单词较为匹配的语音段，将所述语音段、语音段时长、语音段声学特征、语音段映射的音节音素、用户信息及根据文本特征认定的语调类别一并保存。