CN102063899A

CN102063899A - 一种非平行文本条件下的语音转换方法

Info

Publication number: CN102063899A
Application number: CN2010105201070A
Authority: CN
Inventors: 李燕萍; 张玲华
Original assignee: Nanjing Post and Telecommunication University
Current assignee: Baoge (Shanghai) Financial Information Service Co., Ltd.
Priority date: 2010-10-27
Filing date: 2010-10-27
Publication date: 2011-05-18
Anticipated expiration: 2030-10-27
Also published as: CN102063899B

Abstract

本发明提供一种非平行文本条件下的语音转换方法，属于语音信号处理技术领域。该方法首先对语音音素分类，其次对分类后的语音帧基于谐波加噪声模型进行分解，提取特征矢量；接着在每类音素集合中建立特征参数的转换函数，通过对每一类音素的频谱特征矢量，基于主成分语音分析建立非平行文本条件下的频谱转换模型；最后在转换阶段，形成目标说话人的估计特征，得到转换后的语音。本发明不仅能够有效分离语音信号中的语义信息和话者身份信息，增强转换语音中的话者信息，而且克服了训练阶段要求平行语料的限制，实现了非平行文本条件下的语音转换，同时降低了对语料数据量的依赖。

Description

一种非平行文本条件下的语音转换方法

技术领域：

本发明涉及一种语音转换技术，尤其是一种非平行文本条件下的语音转换方法，属于语音信号处理技术领域。

背景技术：

语音转换是语音信号处理领域近年来新兴的研究分支，是在说话人识别和语音合成的研究基础上进行的，同时也是这两个分支内涵的丰富和延拓。

语音转换的目标是改变源说话人语音中的个性特征信息，使之具有目标说话人的个性特征，从而使转换后的语音听起来就像是目标说话人的声音，而其中的语义信息保持不变。

语音转换的关键问题在于说话人个性特征的提取以及转换模型的建立，经过近二十年的发展，涌现出大量的研究成果，但这些方法大多要求训练语音是平行文本，即源说话人和目标说话人的语音在语音内容，语音时长方面都必须相同，因此在训练之前一般需要先采用动态时间规整算法对源说话人和目标说话人的语音进行强制对齐，这样必然会引入失真；并且从实际应用的角度考虑，要求大量的平行训练文本很不方便，甚至不可满足，例如在跨语种的语音转换中，源和目标说话人的语音存在语种的不同，根本不可能获得平行文本。无论从方便高效的角度分析，还是从经济实用方面考虑，非平行文本条件下语音转换方法的研究都具有极大的实际意义和应用价值。

目前非平行文本条件下的语音转换算法主要有两种，基于语音聚类的方法和基于参数自适应的方法。基于语音聚类的方法，是通过对语音帧之间距离的度量或者在音素信息的指导下选择相对应的语音单元进行转换，其本质是一定条件下将非平行文本转化为平行文本进行处理。这类方法原理简单，但需要对语音文本内容进行预提取，预提取的结果会直接影响语音的转换质量；（1.Meng Zhang, Jiaohua Tao, Jani Nurminen. Phoneme cluster based state mapping for text-independent voice conversion. ICASSP, 2009: 4281-4284. 2. Helenca Duxans, Daniel Erro, Javier Perez. Voice conversion of non-aligned data using unit selection. TC-Star Workshop on Speech to Speech Translation, 2006: 237-242.）基于参数自适应的方法，是采用语音识别中的说话人归一化或自适应方法对转换模型的参数进行处理，其本质是使得预先建立的模型向基于目标说话人的模型进行转化。这类方法能够合理利用预存储的说话人信息，但自适应过程会引起频谱的平滑，导致转换语音中的说话人个性信息不强。（1. Yamato Ohtani. Techniques for improving voice conversion based on eigenvoices. Doctoral Thesis, Nara Institute of Science and Technology, March 31, 2010. 2. D. Sundermann, H.Ney, H. Hoge. VTLN-based cross-language voice conversion. ASRU 2003: 676-681.）。

发明内容

本发明所要解决的技术问题是提供一种结合汉语语言结构特点和说话人自适应思想的非平行文本条件下的语音转换方法，达到增强转换语音中的说话人个性特征的同时提高转换语音的听觉质量。

本发明为实现上述发明目的采用如下技术方案：

一种非平行文本条件下的语音转换方法，包括训练阶段和转换阶段，其中所述训练阶段包括如下步骤：

步骤A，语音信号预处理步骤：分别对输入语音信号依次进行预加重、分帧和加窗处理，所述输入语音信号分别包括目标说话人、源说话人、参考目标说话人的语音信号；

步骤B，元音帧提取步骤：根据频域能量分布特征，分别判定经步骤A预处理后的目标说话人、源说话人、参考目标说话人的语音信号中元音的位置，分别提取目标说话人、源说话人、参考目标说话人的语音信号中的元音帧；

步骤C，元音帧的音素分类，对步骤B提取到的目标说话人、源说话人、参考目标说话人的元音帧，根据汉语元音映射表分别进行音素分类；

步骤D，元音帧的语音特征提取：基于谐波加噪声模型对分类后的元音帧分别进行分解，分别求取目标说话人、源说话人、参考目标说话人的元音帧中的谐波成分和噪声成分，然后对谐波加噪声模型的参数进一步降维，提取元音帧中线性谱频率参数，最终分别得到目标说话人、源说话人、参考目标说话人的元音帧的特征矢量，所述特征矢量包括频谱特征和韵律特征；

步骤E，对于步骤D提取到的源说话人的元音帧的特征矢量，训练HMM音素分类模型；

步骤F，对于频谱特征矢量，建立频谱特征转换模型：

F1，对步骤D所述源说话人的频谱特征和参考目标说话人的频谱特征分别建立高斯混合模型，分别以各自高斯混合模型的均值矢量构成超矢量，然后对所有超矢量进行主成分分析，提取基矢量和偏移量，从而建立主成分语音模型；

F2，模型自适应：采用步骤D所述目标说话人的频谱特征对步骤F1得到的主成分语音模型进行模型自适应，得到源说话人与目标说话人的频谱特征转换模型；

步骤G，对步骤D得到的源说话人和目标说话人的韵律特征采用单高斯建模，得到各自的均值和方差；

所述转换阶段包括如下步骤：

步骤H，输入源说话人新的语音信号，对源说话人输入的新的语音信号依次进行上述步骤A-步骤D所述的操作，得到源说话人新的语音信号中元音帧的特征矢量，采用上述步骤E得到的HMM音素分类模型进行音素分类；

步骤I，采用步骤F2得到的源说话人与目标说话人的频谱特征转换模型进行语音频谱转换，得到转换后的目标说话人的频谱特征；

步骤J，对于步骤H中得到的源说话人的韵律特征，采用步骤G得到的单高斯模型进行韵律转换，得到转换后的目标说话人的韵律特征；

步骤K，对步骤F将转换后的频谱特征和韵律特征经过谐波加噪声模型进行合成，最终得到转换后的语音。

进一步的，本发明非平行文本条件下的语音转换方法，所述步骤A的预处理步骤中，所述预加重处理的预加重系数为0.96，分帧处理按20ms分帧，帧交叠为35%，所述加窗处理采用汉明窗进行加窗处理；

进一步的，本发明非平行文本条件下的语音转换方法，所述步骤B的元音帧提取步骤如下：

B-1，计算各频率点处能量的贡献度

；

根据公式

计算

Figure 2010105201070100002DEST_PATH_IMAGE003

，其中

表示人耳对音高的主观感知，

为当前频率；

接着根据公式，计算第点频率处能量的贡献度

，其中

Figure 2010105201070100002DEST_PATH_IMAGE007

表示采样频率，

为帧长，频率分辨率为

Figure 2010105201070100002DEST_PATH_IMAGE009

，

表示人耳对第

点频率处的主观感知，

表示频率点数，且

为自然数；

B-2，依次取帧，计算短时能量

Figure 2010105201070100002DEST_PATH_IMAGE011

和短时平均过零率

；

B-3，令当前帧的接受系数为，其中

是短时能量的约束阈值，

Figure 2010105201070100002DEST_PATH_IMAGE015

是短时平均过零率的约束阈值；当所述两个约束阈值分别存在，则计算当前帧的短时能量和短时平均过零率进行帧提取，直接进入B-5步；当所述两个约束阈值不存在，进入B-4步；

B-4，对当前帧进行傅里叶变换，根据公式，，分别计算低频段能量和高频段能量，其中

代表低频段能量、

Figure 2010105201070100002DEST_PATH_IMAGE019

代表高频段能量，

代表第

点频率的能量，

是第点频率处能量的贡献度，

表示低频高频分界点；当帧内无声时令

，预先求出

的值；当

Figure 2010105201070100002DEST_PATH_IMAGE023

，判定当前帧为元音帧；然后计算当前帧的短时能量和短时平均过零率进行帧提取，给出短时能量和短时平均过零率的约束阈值，指导后续帧的时域检测中的阈值选择；返回步骤B-2；

B-5，

ⅰ，如果步骤B-3所述两个约束阈值分别满足条件

且

Figure 2010105201070100002DEST_PATH_IMAGE025

，则当前帧被接受为元音帧，继续依照B-4步骤按

概率进行抽样检测：

若抽样检测结果判定当前帧是元音帧，返回步骤B-2继续进行下一帧的判定；

若当前帧在上述抽样检测中不被接受，丢弃当前帧并按比例修改阈值；将当前短时能量和短时平均过零率的阈值分别与步骤B-3步的所述的两个约束阈值进行比较，将比较结果中两者较大的短时能量阈值、较小的短时平均过零率的阈值分别作为新的约束阈值；

ⅱ，如果步骤B-3所述两个约束阈值不满足条件

且

，则当前帧被丢弃，继续依照B-4步骤进行抽样检测：

当

Figure 2010105201070100002DEST_PATH_IMAGE027

时，全部进行检测；否则按

抽样检测；

若检测结果表示当前帧不是元音帧，则丢弃该当前帧，结束检测；

若检测结果表示当前帧是元音帧，则接受当前帧，并将当前短时能量和短时平均过零率的阈值分别与步骤B-3步的所述的两个约束阈值进行比较，将比较结果中两者较小的短时能量阈值、较大的短时平均过零率的阈值分别作为新的约束阈值；转至B-2步骤；

重复上述B-2至B-5步，直至所有元音帧提取完毕。

进一步的，本发明非平行文本条件下的语音转换方法，所述步骤F建立频谱特征转换模型的具体实现过程如下：

第一步，首先建立高斯混合模型，采用源说话人和

个参考目标说话人的语音以平行文本的方式训练高斯混合模型，得到与参考目标说话人无关的高斯混合模型。接着基于最大似然准则，使用第

个参考目标说话人的语音对得到的高斯混合模型进行对应的均值自适应，得到与参考目标说话人有关的高斯混合模型；其中

，

表示参考目标说话人总数，

的取值范围是20~100；

然后将得到的高斯混合模型的所有混合成分均值矢量

分别拼接构成超矢量，维数为，表示成

，

是特征矢量的维数，

是高斯混合度，

表示第

个参考目标说话人在联合高斯混合模型的第

个混合成分的均值矢量，上标

表示转置；

最后对个超矢量进行主成分分析，提取基矢量

和偏移量

，建立主成分语音模型，在模型中目标说话人的均值表示为

，

为

维权值矢量；

第二步，用目标说话人的训练语音对主成分语音模型进行均值自适应，先构造辅助函数，将辅助函数对权值矢量的每一分量求解差分，接着采用期望最大化算法迭代求解非线性方程组，最终得到优化后的目标说话人对应的权值矢量

；

第三步，采用自适应后的权值矢量来确定源说话人和目标说话人的频谱特征转换函数，，其中下标

表示第

个混合成分，，高斯混合模型混合数共为，

是待转换的当前帧，

是训练阶段得到的主成分语音模型，

是基矢量，为偏移量，是目标说话人对应的权值矢量，

是

的协方差矩阵，是

与

的互协方差矩阵。

本发明与现有技术相比，其显著优点：

1、在汉语元音映射理论的指导下将输入语音分类为不同的音素分别进行转换，不仅克服了转换系统要求语料内容相同的限制，而且符合汉语语言的结构特点，使得转换生成的语音具有良好的自然度；

2、对于每一个转换模型而言，处理的语音帧的语义信息是相同的，主要差异表现在话者信息方面，转换函数的建立可以避免语义信息的干扰，保证了重构语音中的说话人个性特征。

附图说明：

图1是本发明基于汉语元音映射和主成分语音的非平行文本语音转换的示意图；

图2是元音帧提取示意图；

图3是音素分类后第

类音素的转换流程图；

图4是基于主成分语音的频谱转换算法示意图。

具体实施方案:

下面结合附图对技术方案的实施作进一步的详细描述：

如图1，本发明非平行文本语音转换方法，步骤如下：

第一步，对输入语音信号进行预加重、分帧和加窗等预处理后，如图2所示，根据频域能量分布特征判定元音的位置，接着计算已判定为元音帧的短时能量和平均过零率，指导后续帧在时域检测中的阈值选择。为适应连续语音帧的短时能量的不断变化，系统按概率对时域判断中的接受帧和丢弃帧进行抽样检测，并根据检测结果修正阈值。完成元音帧的检测与提取，具体过程如下：

（1）对语音信号进行预处理，预加重系数为0.96，按20ms分帧，帧交叠35%，之后使用汉明窗进行加窗处理；

（2）计算各频率点处能量的贡献度

，根据公式

，计算

表示人耳对音高的主观感知，其中

为当前频率。接着计算第

点频率处能量的贡献度

，

表示采样频率，

为帧长，频率分辨率为

，

表示人耳对第

点频率处的主观感知，公式为；

（3）依次取帧，计算短时能量和短时平均过零率，计算当前帧的短时能量

，公式为

。一般为消除小的随机噪声的影响，设一个门限

，将平均过零率的含义修改为跨过正负门限的次数，根据公式

计算短时平均过零率

，其中

为窗长，

为窗函数，

为标记函数，定义为

，式中

为第个语音帧，

代表语音信号的总帧数。判定是否接受为元音帧，若

是短时能量的约束阈值，

是短时平均过零率的约束阈值，传统判定中满足条件

且

则接受该帧为元音帧。由于发声过程会受到环境、身体状态、情绪、发声方式及发声内容的影响，声音能量相差较大，针对能量和过零率的变化不断自适应调整阈值，令当前帧的接受系数为

。当短时能量和短时平均过零率的阈值

和

存在，则计算当前帧的短时能量和短时平均过零率进行帧提取，直接进入（5）步；当短时能量和短时过零率的阈值不存在，进入（4）步；

（4）对当前帧进行傅里叶变换，根据公式

，

，分别计算低频段能量和高频段能量，其中

代表低频段能量、

代表高频段能量，

代表第频率点的能量，

是第

点频率处能量的贡献度，

表示低频高频分界点，

表示频率点总数。一般认为语音信号开始的几帧为无声的，当帧内无声时令

，可以预先求出

的值。当

，判定当前帧为元音帧；然后计算当前帧的短时能量和短时平均过零率，修改原有阈值，指导后续帧的时域检测中的阈值选择。返回步骤（3）；

（5）如果当前帧被接受为元音帧，则依照（4）步骤按

概率抽样检测，当检测结果判定当前帧是元音帧，返回步骤（3）。如果当前帧在抽样检测中不被接受，丢弃当前帧并用当前阈值与原有阈值的较大能量值和较小过零率值作为新的阈值；若当前帧被丢弃，当

时，全部进行检测；否则按

抽样检测，若检测结果相符结束，否则接受当前帧，并用当前阈值与原有阈值的较小能量值和较大过零率值作为新的阈值；转至（4）步骤；

重复（3）至（5）步，直至所有元音帧提取完毕。

第二步，进行音素分类和语音帧特征提取，包括频谱特征和韵律特征。在本发明中，首先从汉语语音的特点出发，对汉语拼音结构、发音特点进行分析，通过元音频谱对比、音素滑动分析、韵母分解实验和共振峰分析等，结合大量语音学知识构建了汉语元音映射表，从短时帧的角度将韵母中的元音部分分解为单元音音素的组合，然后主要从音素的能量分布相似性，对说话人个性信息的贡献以及在音节中出现的频度与时长三个角度进行考虑，实现音素的分类。对于映射后的每一类元音分别构成一类音素，所有的辅音构成一类音素，辅音不参与转换。然后基于谐波加噪声模型对语音帧进行分解，求取其中的谐波成分和噪声成分，紧接着对谐波幅度参数进一步降维，提取线性谱频率参数，最终得到语音信号的频谱特征矢量和基音轨迹，具体过程如下：

（1）对提取到的元音帧，根据建立的汉语元音映射表进行音素分类，在训练阶段，由于是离线操作，对音素的分类是通过人工标注结合元音映射表进行；同时对源说话人经过分类后的元音音素建立隐马尔科夫模型(Hidden Markov Model, HMM)，每一个状态代表一类音素，在转换阶段，待转换的源说话人语音通过在训练阶段建立的HMM模型实现音素分类；

（2）得到每类元音音素帧后，将每类音素的语音帧通过谐波加噪声模型(Harmonic Plus Noise Model, HNM)进行分解，得到基音频率轨迹和谐波声道谱参数的幅度值和相位值；

（3）将声道幅度谱参数进行降维处理，转化为线性谱频率参数(Linear Spectrum Frequency, LSF)。

第三步，频谱特征转换模型的建立，如图3所示，对第二步得到的每类音素的特征矢量分别进行建模，对训练阶段的源说话人语音和参考目标说话人的语音建立高斯混合模型，以每个高斯混合模型的均值矢量分别构成超矢量，然后对所有超矢量进行主成分分析，提取基矢量和偏移量，从而建立主成分语音模型，具体过程如下：

（1）如图4所示，采用动态时间规整算法(Dynamic Time Warping, DTW)对源说话人和预存储的

个参考目标说话人的每类音素的频谱特征和

分别进行对齐，构成联合特征矢量，

个参考目标说话人与源说话人的语音是平行的，即语音内容相同；

（2）对源说话人和预存储的

个参考目标说话人建立联合高斯混合模型(Gaussian Mixture Model, GMM)，，其中

是总的帧数，

是与参考目标说话人无关的高斯混合模型(Target-speaker Independent GMM, TI-GMM )，概率密度函数为：

，

为高斯混合度，

为混合权值，

和

分别为第

个混合成分对应的均值和协方差矩阵；

（3）基于极大似然(Maximum Likelihood, ML)准则，使用第个参考目标说话人的语音对中相应的均值

进行更新，得到与参考目标说话人

相关的联合高斯混合模型(Target-speaker Dependent GMM, TD-GMM)为：

，其中

为（2）中得到的高斯混合模型；

（4）得到

个TD-GMM后，将每个TD-GMM的均值矢量分别连接在一起构成均值超矢量，

，超矢量的维数为

；

（5）采用主成分分析法(Principal Component Analysis, PCA)对

个超矢量进行主成分分析，得到主特征分量(也称基矢量)和偏移矢量

，此时每个超矢量可以近似表示为：

，

，

是第

个说话人的

维基矢量对应的权值矢量；

（6）至此，非平行文本条件下源说话人和目标说话人的联合概率分布可以由

来表示

，其中，其本质在于说话人的特征可以通过多个参考说话人的特征的不同权值组合来逼近，即目标说话人的均值矢量可以由基矢量和偏移矢量的线性组合来表示。

第四步，模型自适应，如图4所示，从第三步中得到主成分语音模型后，采用目标说话人的语音对进行自适应，可以得到源说话人与目标说话人的频谱特征转换模型。本发明中的频谱转换模型与现有的转换模型相比有两大优势：一方面由于可以采用任意目标说话人的语音对模型进行无监督自适应，因此可以灵活地实现源说话人与任意目标说话人之间的语音转换；另一方面自适应的过程不仅对语音内容没有限制，即目标说话人与源说话人的语音内容可以不同，可以在非平行文本条件下进行，而且由于自适应过程需要估计的参数较少，对目标说话人的自适应语音时长的要求较低，降低了对语音数据量的依赖。基于极大似然准则(Maximum Likelihood, ML)对权值矢量

进行优化估计，估计过程如下：

（1）优化的目标是使得目标说话人的特征矢量产生的边缘分布的似然性最大，

；

（2）构造辅助函数

，

；

（3）权值矢量的极大似然估计为，

，其中

，

；

第五步，频谱特征转换，即对于测试阶段输入的源说话人语音

，其中

表示第

帧语音，表示总的语音帧数。利用上述四个步骤得到的转换模型进行语音转换，得到转换后的目标说话人的频谱特征，具体过程如下：

（1）设转换阶段源说话人

时刻频谱特征为

，基于最小均方误差算法(Minimum Mean Square Error Estimation, MMSE)，根据高斯混合模型转换规则，转换后的目标说话人频谱特征为：

，其中

是条件概率密度函数，

，其中

，

，

和

分别表示第

个条件概率密度函数的均值和方差，表示为：

，；

（2）至此，在MMSE准则下，转换后的目标说话人特征表示为：

。

第六步，韵律特征转换和语音合成，对第二步得到的基频进行单高斯建模，分析其均值和方差，实现韵律特征的转换；将转换后的频谱特征和韵律特征经过谐波加噪声模型进行合成，得到转换后的语音，具体过程如下：

（1）对韵律特征的转换是通过对基频的建模，首先在训练阶段对源和目标说话人的对数基频进行分析，得到各自的均值

和方差

，在转换阶段，采用公式进行转换：

，

即为转换后的基频；

（2）至此得到转换后的目标说话人的频谱特征和韵律特征，基于谐波加噪声模型进行语音的合成，得到转换后的语音

，实现语音转换。