CN106504741B

CN106504741B - 一种基于深度神经网络音素信息的语音转换方法

Info

Publication number: CN106504741B
Application number: CN201610830140.0A
Authority: CN
Inventors: 李明; 郑桦迪; 蔡炜城
Original assignee: Sun Yat Sen University; SYSU CMU Shunde International Joint Research Institute
Current assignee: Sun Yat Sen University; SYSU CMU Shunde International Joint Research Institute
Priority date: 2016-09-18
Filing date: 2016-09-18
Publication date: 2019-10-25
Anticipated expiration: 2036-09-18
Also published as: CN106504741A

Abstract

本发明公开一种基于深度神经网络音素信息的语音转换方法，包括：训练阶段：步骤101：获得一个目标说话人预料，分别提取PPP特征和频谱低维特征；步骤102：去除频谱低维特征0阶系数，直接拼接PPP特征和频谱低维特征；步骤103：将联合特征训练成一个JD‑GMM模型；步骤104：计算源说话人F0和目标说话人F0的均值和方差；转换阶段：步骤105：对源说话人新的语音提取同样配置的PPP特征；步骤106：输入到JD‑GMM模型，得到估算出来的目标低维特征；步骤107：计算目标说话人的F0，做一个向目标说话人靠近的线性变换；步骤108：利用估算的频谱，线性变换后的F0，该语音的原0阶系数，一起还原成语音。

Description

一种基于深度神经网络音素信息的语音转换方法

技术领域

本发明涉及统计学实现的语音转换方法，更具体地，涉及一种基于深度神经网络音素信息的语音转换方法，主要在传统高斯混合模型GMM(Gaussian Mixture Model，GMM)语音转换的基础上进行改进，利用深度神经网络(Deep Neural Network，DNN)提取的音素信息和频谱低维特征实现非平行语料的转换。

背景技术

语音转换是目前用来捕捉这些非语言特征并且利用它们合成特定人语音的一种有效方法。我们可以通过把语音分解成多个不同成分单独处理，能把一个人的声音变成另外一个人的声音。通常我们把前者称为源说话人，后者称为目标说话人。通过输入新的语音就可以达到合成特定人语音的目的，因此受到了各个领域的关注，并且被尝试运用到不同的方面去，例如医学辅助仪器，Text-To-Speech设备(TTS)，敏感通信，保护关键证人和工作人员不被报复等等。

学术界中早期的语音转换技术研究大概源于上世纪90年代初，线性参数统计的映射方法是相对主流的语音转换方法，最后不少研究为了提高音频质量等原因，逐渐也往非线性和非统计参数方法发展了分支，但是大部分方法依然是依赖于相同语义内容的平行语音数据，得到的模型也是一对一的。Kain等人提出了联合分布混合高斯模型(Joint-density Gaussian Mixture Model，JD-GMM)是统计学方法中比较经典和有效的方法。但是这个方法也是基于一个平行的语料数据库来实现语音转换(即要提供源说话人和目标说话人都说了语义内容完全一致的录音数据集)，一方面这样的平行语料是非常难获得，实际应用中操作很不便利，数据量往往不足够，同时如果是跨语言的情况，则完全不可能获得平行数据。另一方面即使是一个平行的语料，也还是先通过对齐计算来保持时间上的一致，增加计算量。

发明内容

为了解决平行语料依赖和模型只能一对一的问题，本发明提出了一种基于深度神经网络音素信息的语音转换方法。

为了解决上述技术问题，本发明的技术方案为：

一种基于深度神经网络音素信息的语音转换方法，包括：

训练阶段：

步骤101：获得一个目标说话人语料，分别提取因素后验概率PPP特征和频谱低维特征；

步骤102：去除频谱低维特征0阶系数，直接拼接因素后验概率PPP特征和频谱低维特征；

步骤103：将联合特征训练成一个联合分布混合高斯JD-GMM模型；

步骤104：计算源说话人基频F0和目标说话人基频F0的均值和方差；

转换阶段：

步骤105：对源说话人新的语音提取同样配置的因素后验概率PPP特征；

步骤106：输入到联合分布混合高斯JD-GMM模型，得到估算出来的目标低维特征；

步骤107：计算目标说话人的基频F0，做一个向目标说话人靠近的线性变换；

步骤108：利用估算的频谱，线性变换后的基频F0，该语音的原0阶系数，一起还原成语音。

优选地，因素后验概率PPP特征是基于深度神经网络DNN获取的，其获取过程为：

深度神经网络DNN语音模型的训练：

步骤201：获得一个语音数据集以及其对应的标注数据；

步骤202：提取特征，根据标注信息训练给定配置的DNN模型；

因素后验概率PPP特征的获取：

步骤203：对输入的语音提取特征，提取配置跟训练DNN语音模型时使用的特征一致；

步骤204：得到该特征后输入到DNN模型中解码，获得高维特征；

步骤205：将该特征换算到log尺度上，对其使用主成分分析的方法降维到与频谱低维特征维度相近的级别，降维后的特征即为因素后验概率PPP特征；

或直接在DNN语音模型中设置一层维度低的瓶颈层，将瓶颈层的结果输出作为因素后验概率PPP特征。

优选地，步骤107中计算目标说话人的基频F0，做一个向目标说话人靠近的线性变换，具体过程为：

对数尺度下，x_t和分别是源说话人和变声结果的基频F0，σ^(x)和μ^(x)是源说话人基频F0的方差和均值，σ^(y)和μ^(y)分别是目标说话人基频F0的方差和均值；

将转换后的基频基频F0，频谱向量和源说话人的非周期信息给到STRAIGHT工具合成最后的语音，就能得到变声的结果。

与现有技术相比，本发明的有益效果为：结合语音识别中的技术，利用目标说话人的音素后验概率(Phoneme Posterior Probability，PPP)作为特征，结合联合分布混合高斯模型JD-GMM的映射模型，在音素信息和频谱低维特征之间训练一个可靠的映射模型PPP-JD-GMM。在转换时，先把源说话人的语音通过基于DNN实现的音素解码器提取出因素后验概率PPP特征，通过训练好的PPP-JD-GMM估计出了频谱低维特征，这样就能进一步频谱低维特征还原成频谱，并且复原成目标说话人的声音。最后通过客观和主观评估方法来检验转换结果的性能。

附图说明

图1是传统JD-GMM框架图。

图2是基于音素的PPP-JD-GMM框架图。

图3是因素后验概率PPP特征的提取流程图。

图4是主观评测实验结果示意图。

图5是XAB实验结果统计示意图。

图6是MOS打分的结果示意图。

具体实施方式

下面结合附图对本发明做进一步的描述，但本发明的实施方式并不限于此。

语音的分解和合成使用了STRAIGHT的方法。将一个语音分解以后，主要转换频谱SP和基频基频F0两部分，JD-GMM方法中频谱SP往往会进一步降维成低维特征后再处理，例如梅尔倒谱系数(Mel-cepstral coefficient，MCC)，而又由于0阶系数被认为只与能量相关，训练JD-GMM前往往去掉0阶系数，防止不良影响。

在讲论述本申请的改进前，先简单补充一下传统JD-GMM的语音转换框架的实现。如图1所示。

训练阶段：

步骤1：获得一个含源说话人和目标说话人讲了内容一模一样的平行语料，对语音进行提取基频(基频F0)，频谱低维特征例如MCC等。

步骤2：去除频谱低维特征0阶系数，使用动态规整的方法进行对齐各帧；

步骤3：拼接成联合特征训练一个联合分布混合高斯JD-GMM模型；

步骤4：计算源说话人基频F0和目标说话人基频F0的均值和方差。

转换阶段：

步骤1：对源说话人新的语音提取同样的频谱低维特征，去除0阶系数；

步骤2：输入到联合分布混合高斯JD-GMM模型，得到估算出来的目标低维特征；

步骤3：计算目标说话人的基频F0，一般做一个向目标说话人靠近的线性变换；

步骤4：利用估算的频谱，线性变换后的基频F0，该语音的原0阶系数，一起还原成语音。

本发明实施语音转换时同样有两个阶段，训练阶段和转换阶段，训练阶段只需要目标说话人的语料的频谱低维特征和因素后验概率PPP特征。转换时会将语音分解成基频基频F0，频谱特征等成分后根据训练好的模型来获取转换频谱，最后将处理好的频谱和原来的其他成分合成还原语音。

受到说话人识别技术中对音素特征PPP使用的启发，本发明考虑使用因素后验概率PPP特征来实现非平行语音转换的方法。音素被认为是发音的基本部分，假设两个不同说话人在发出同一个音素时，用语音模型解码出来的音素特征是具有相似性。因此，可以认为，可以通过建立音素和频谱特征的映射关系来达到语音转换的目的。

因此可以提出的PPP-JD-GMM语音转换框架，如图2所示。

训练阶段：

步骤1：获得一个目标说话人语料，分别提取因素后验概率PPP特征和频谱低维特征；

步骤2：去除频谱低维特征0阶系数，直接拼接因素后验概率PPP特征和频谱低维特征；

步骤3：将联合特征训练成训练一个联合分布混合高斯JD-GMM模型；

转换阶段：

步骤1：对源说话人新的语音提取同样的配置的因素后验概率PPP特征；

步骤3：计算目标说话人的基频F0，做一个向目标说话人靠近的线性变换；

相比传统的语音转换方法，本发明可以取得一个相近的性能，尤其是说话人身份的保留程度。该方法在训练中不仅节省了对齐语料的时间，还能做到模型独立化，一次训练结果可以重复对多人使用，无需针对特定两个人来实现转换，任意一个源说话人的语料只要能提取出因素后验概率PPP特征，即可实现转换。

基于DNN的因素后验概率PPP特征可以按照图示3流程获得：

DNN语音模型的训练：

步骤1：获得一个较大规模的语音数据集以及其对应的标注数据；

步骤2：提取特征，例如40维MFCC，根据标注信息训练给定配置的DNN模型；

因素后验概率PPP特征的获取：

步骤1：对输入的语音提取特征，提取的配置跟训练DNN语音模型时使用的特征一致；

步骤2：得到该特征后输入到DNN模型中解码，获得规格较庞大的高维特征，由于维度过高，该特征不能被直接；

步骤3：将该特征换算到log尺度上，对其使用主成分分析的方法降维到与频谱低维特征维度相近的级别，这就是需要的因素后验概率PPP特征。(除了通过主成分分析以外，也可以采取在DNN语音模型中设置一层维度比较低的瓶颈层，将瓶颈层的结果直接输出作为因素后验概率PPP特征)。

基频F0的变换：

一般对基频F0也进行一个简单的线性变换，以适应目标说话人的基频特征。其中，x_t和分别是源说话人和变声结果的基频F0(对数尺度下)。σ^(x)和μ^(x)是源说话人基频F0(对数尺度下)的方差和均值，σ^(y)和μ^(y)分别是目标说话人基频F0(对数尺度下)的方差和均值。将转换后的基频，频谱向量和源说话人的非周期信息给到STRAIGHT工具合成最后的语音，就可以得到变声的结果了。

实验设置：

实验材料分为男男，女女，男女，女男四种不同性别转换组合，涵盖跨性别间和同性别的情况，并且每种性别组合有两对说话人对照，因此共有8组转换实验。采用了VoiceConversion Challenge 2016训练数据作为实验数据，分别是说话人SF1,SF2,SM1,SM2,TF1,TF2,TM,TM2(S源说话人，T目标说话人，F女性，M男性)，该语音都是在朗读相同的英文材料的录音。编号21-162的语料作为了训练材料(共142句)，编号1-20的语料作为了测试材料(共20句话)，所有语料都是16kHz采样率。

DNN音素解码器使用的是Fisher电话录音训练出来的模型，语音经过解码后经过主成分分析得到一个有24维系数的因素后验概率PPP特征，具有音素鉴别性。

同时对所有的语料提取了24阶的MCC，α值取0.42，帧的长度为25ms，每次平移10ms处理。但是训练时候不把第0阶MCC考虑进去，因为该参数代表的是频谱的直流分量大小，主要和语音的能量有关，幅值比其他维度的大，会影响映射函数对说话人身份转换的精确度，所以不训练和转换第0阶MCC。以下是本论文的基于音素后验概率特征的语音转换系统和传统JD-GMM系统的评测和比较。

客观评测：

在本发明的实验中，客观评价可以采用梅尔倒谱失真率MCD(Me1-cepstralDistortion)来评估两个语音的相似程度，该参数通过以下的公式在语音转换结果的MCC特征和目标说话人语音MCC特征之间计算出来。

其中和分别是第d维目标说话人倒谱系数和第d维语音转换结果倒谱系数，MCD值越大，表示音频之间失真越严重，越不像，反之，表示音频相似度越大。

实验结果如图4。

	原始总MCD	MCC-JD-GMM	PPP-JD-GMM	相差值
					平均结果	7.93	5.40	5.61	-0.21

从图4中可以看到，MCC-JD-GMM和PPP-JD-GMM都明显把失真降低到原来的四分之三左右，JD-GMM取得最低的MCD值，但是无论是在性别间还是同性别中，本发明在没有源说话人训练数据的情况也取得了非常接近JD-GMM方法的性能，因此说明使用音素信息进行语音转换是可行的。从下面的数字统计可以看到，本发明在仅仅使用目标说话人约6分钟左右的语料情况下，语音转换结果的平均失真率比JD-GMM只提高了0.2左右，需要进一步通过主观测试来检验该差距在人耳中是否有很大差距。

主观评测：

主观实验中，本发明采取的是XAB测试和MOS测试。

为了对比相似度，在XAB测试中，给予志愿者三个语音，X是目标说话人的语音，A和B是随机选取的JD-GMM系统和本发明方法所合成的语音，5位志愿者必须要认真聆听后在A和B中选择与语音X说话人身份最相似的语音。为了对比音频质量的好坏，进行了MOS(meanopinion score)测评，5位志愿者要根据5很好，4好，3一般，2差，1很差的标准对语音进行打分，在原始语音设定为5分的情况下。

XAB实验结果统计如图5，MOS测试如图6所示。

可以看到，虽然在客观评测中我们的失真率出现了增高的情况，但是在主观测试中本发明得到了更多的认可率。实际在志愿者结束测评后，他们普遍认为两个音频与原音频的相似程度都在相似的水平上，经常难以区分两者的差异，因此主观测评的数据有一定的随机性选择的差距。侧面反映了本发明语音转换的结果与传统MCC-JD-GMM方法在主观评测上达到了类似的性能，身份信息在听觉上与传统系统没有太大的差异。接着得到了MOS打分的结果，如图6，可以看到在音频质量的评判上，本发明也获得与MCC-JD-GMM非常接近的评估结果，说明通过PPP估计的MCC在质量上也是达到了平行语料的水平。

以上所述的本发明的实施方式，并不构成对本发明保护范围的限定。任何在本发明的精神原则之内所作出的修改、等同替换和改进等，均应包含在本发明的权利要求保护范围之内。

Claims

1.一种基于深度神经网络音素信息的语音转换方法，其特征在于，包括：

训练阶段：

转换阶段：

2.根据权利要求1所述的语音转换方法，其特征在于，因素后验概率PPP特征是基于深度神经网络DNN获取的，其获取过程为：

深度神经网络DNN语音模型的训练：

步骤201：获得一个语音数据集以及其对应的标注数据；

步骤202：提取特征，根据标注信息训练给定配置的DNN模型；

因素后验概率PPP特征的获取：

3.根据权利要求1所述的语音转换方法，其特征在于，步骤107中计算目标说话人的基频F0，做一个向目标说话人靠近的线性变换，具体过程为：

将转换后的基频F0，频谱向量和源说话人的非周期信息给到STRAIGHT工具合成最后的语音，就能得到变声的结果。