CN104217721B

CN104217721B - 基于说话人模型对齐的非对称语音库条件下的语音转换方法

Info

Publication number: CN104217721B
Application number: CN201410399475.2A
Authority: CN
Inventors: 宋鹏; 赵力; 金赟
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2014-08-14
Filing date: 2014-08-14
Publication date: 2017-03-08
Anticipated expiration: 2034-08-14
Also published as: CN104217721A

Abstract

本发明提出了一种基于说话人模型对齐的非对称语音库条件下的语音转换方法，首先由源说话人和目标说话人的频谱特征分别训练得到各自的说话人模型，然后利用说话人模型中的参数找到源说话人特征向量和辅助向量之间的转换函数、辅助向量和目标说话人特征向量之间的转换函数，最后利用这两个转换函数求得源说话人和目标说话人之间的转换函数；在语音转换的过程中，使用了说话人模型对齐的方法，并且为了进一步提升语音转换的效果，还采用了将说话人模型对齐与高斯混合模型相融合的方法。实验结果表明：本发明在频谱失真度和相关度、转换语音的质量和相似度上，都取得了比传统基于INCA的语音转换方法更好的效果。

Description

基于说话人模型对齐的非对称语音库条件下的语音转换方法

技术领域

本发明涉及一种语音转换技术，尤其是涉及一种非对称语音库条件下的语音转换方法，属于语音信号处理技术领域。

背景技术

语音转换指的是改变一个说话人(源说话人)的语音个性特征使之变为另一个说话人(目标说话人)的语音个性特征的一种技术。语音转换技术有着广泛的应用前景，如用于个性化的语音合成、在保密通信领域用于说话人身份的伪装、在医疗领域用作受损语音的恢复、在低比特率语音通信中的接收端用于说话人个性特征的恢复等。

为了实现高质量的说话人个性特征转换，国内外学者提出了很多的语音转换方法，如码本映射法、高斯混合模型(Gaussian mixture model,GMM)法、人工神经网络法、频率弯折法、隐马尔科夫模型法等。然而，这些方法都是针对对称(相同文本内容)语音库的情况提出来的，但是在实际情况中，对称的语音库很难直接获取。因此许多学者又提出了基于非对称语音库的语音转换方法，如最大似然约束自适应法、最近邻循环迭代(Iterativecombination of a Nearest Neighbor search step and a Conversion stepAlignment,INCA)方法、基于说话人自适应的语音转换方法等。但是这些方法仍然存在着较大的局限性：如最大似然约束自适应法需要预先训练得到参考说话人的转换函数；INCA方法是建立在特征空间中邻近的频谱特征对应着相同音素的假设基础上，而该假设在实际中往往并不十分准确，同时这种训练方法需要较多的训练语句；基于说话人自适应的语音转换方法依赖于第三方说话人训练模型。因此，这些问题都在很大程度上限制了非对称语音库条件下的语音转换技术的实际应用。

发明内容

本发明的目的是针对非对称语音库情况下的语音转换，提出一种基于说话人模型对齐的非对称语音库条件下的语音转换方法。

本发明的技术方案为：基于说话人模型对齐的非对称语音库条件下的语音转换方法，该方法针对非对称语音库的情况，通过引入辅助向量来寻找源说话人和目标说话人之间的转换函数，即先由源说话人和目标说话人的频谱特征分别训练得到各自的说话人模型，然后利用说话人模型中的均值与协方差找到源说话人特征向量和辅助向量之间的转换函数，以及辅助向量和目标说话人特征向量之间的转换函数，最后通过所求得的两个转换函数之间的函数关系找到源说话人和目标说话人之间的转换函数；在语音转换的过程中，使用说话人模型对齐的方法，以及将说话人模型对齐与高斯混合模型相融合的方法，最终通过STRAIGHT语音分析/合成模型对转换后的频谱特征进行合成得到转换语音。

基于说话人模型对齐的语音转换方法的具体步骤如下：

步骤Ⅰ，模型训练：运用STRAIGHT模型提取源说话人和目标说话人的频谱特征，获得源说话人和目标说话人的特征向量，分别记为x和y；通过期望最大化(Expectationmaximization,EM)方法分别训练得到源说话人模型和目标说话人模型，记为GMM_x和GMM_y，这里采用高斯混合模型(Gaussian mixture model,GMM)对GMM_x和GMM_y进行建模，具体为：

其中，N(·)表示高斯分布，和分别表示GMM_x和GMM_y模型的第i个高斯分量，M表示高斯分量的个数，和表示第i个高斯分量的均值向量，和表示第i个高斯分量的方差矩阵，ω_i和v_i表示第i个高斯分量所占的权重，且满足

步骤Ⅱ，引入辅助向量并初始化：引入辅助向量序列X′＝{x′_j}，其中j表示第j帧，且j＝1,2,...,J，J表示帧数，且J≥1；X′用于每一次迭代搜索后的中间序列，并运用EM算法训练得到辅助向量序列的模型，记作GMM_x′，具体表达式为：

其中，x′表示辅助向量，ω_i表示第i个高斯分量所占的权重，且满足GMM_x′的参数为并且初始化设定为

步骤Ⅲ，说话人模型的相似度计算：GMM_x和GMM_y不同高斯分量之间的相似度用矩阵D表示如下：

其中，d_ij表示GMM_x的第i个高斯分量与GMM_y的第j个高斯分量之间的相似度，并采用对称的KL Divergence(KLD)来描述两个高斯分量f_i(x)和f_j(x)之间的相似度，具体为

其中，

步骤Ⅳ，最近邻搜索：对GMM_x′的每一高斯分量s，通过相似度矩阵D来寻找到GMM_y中与其相似度最高的高斯分量σ(s)；类似地，对GMM_y中的每一高斯分量t，通过D找到其在GMM_x′中对应的相似度最高的分量ψ(t)；

步骤Ⅴ，转换：通过最近邻搜索，分别得到两个均值向量对序列，分别记为和其中，s＝1,2,…,M，t＝1,2,…,M；和分别表示GMM_x′第s个高斯分量的辅助均值向量及其在GMM_y中对应的高斯分量σ(s)所对应的均值向量，和分别表示GMM_y第t个高斯分量的辅助均值向量及其在GMM_x′中对应的高斯分量ψ(t)所对应的均值向量；去除和中重复的序列对，并连接在一起得到一个完整的均值向量对序列{μ_x′,μ_y}；利用最小二乘估计法计算得到μ_x′和μ_y之间的映射函数：

f_mu(μ_x′)＝Aμ_x′+b (5)

其中，b＝μ_y-Aμ_x′；

将表达式(5)所示的映射函数直接用于辅助向量与目标说话人特征向量之间的转换，则转换函数如下：

f_mu(x′)＝Ax′+b (6)

辅助向量x′可以通过下式得到：

x′＝f_mu(x′) (7)

进而，得到源说话人特征向量x和辅助向量x′之间的转换函数：

x′＝f_sa(x)＝Cx+d (8)

其中，C和d均为常数，且d＝μ_x′-Aμ_x，可见x和x′之间是个简单的线性映射关系；

步骤Ⅵ，通过期望最大化方法对辅助向量序列X′重新进行模型训练得到GMM_x′，重复步骤Ⅲ～Ⅴ，直到GMM_x′和GMM_y之间的相似度满足收敛条件其中δ为一取值非常小的经验常数，主要根据经验结合实际情况而定。

基于说话人模型对齐的转换方法在一定程度上可以实现源说话人向目标说话人的语音转换，但是一方面，单一的映射转换并不能保证转换函数的准确度；另一方面，转换函数通过模型均值训练得到而并没有充分利用频谱特征的信息，因而很难获得令人满意的转换效果。因此，作为对本发明的进一步改进，提出了将说话人模型对齐和GMM相融合的方法，具体操作如下：

经过说话人模型的矢量对齐训练，获得了辅助向量序列X′；采用联合概率密度对辅助向量x′和目标说话人特征向量y组成的特征序列对进行GMM建模，如下：

其中，α_i表示第i个高斯分量所占的权重，且满足 μ_i和Σ_i分别表示第i个高斯分量的均值矩阵和协方差矩阵；

采用最小均方误差法计算得到辅助向量和目标说话人特征向量之间的转换函数：

其中，p(i|x′)表示x′属于第i个高斯分量的后验概率，满足

其中，α_j表示第j个高斯分量所占的权重，且满足b_i(x′)和b_j(x′)分别表示第i个高斯分量和第j个高斯分量；

进而，根据表达式(8)和表达式(10)得到源说话人特征向量与目标说话人特征向量之间的转换函数：y＝F(x)＝f_at(f_sa(x))。

有益效果：与现有技术相比，本发明提供的基于说话人模型对齐的非对称语音库条件下的语音转换方法，优点和效果在于：

1)与其他基于非对称语音库的语音转换方法不同，本发明不需要任何第三方说话人的信息，仅通过源说话人和目标说话人的语音数据训练得到二者之间的映射关系，方法实际操作简单，在提升转换效果的同时在一定程度上减少了语音转换系统的运算复杂度。

2)本发明所提出的方法特别适合在非对称语音库情况下的语音转换，既可以用于同一语种说话人之间的语音转换，也可以推广到不同语种说话人之间的语音转换。

附图说明

图1为本发明所提出的基于说话人模型对齐的语音转换方法的示意图；

图2为本发明实施例与经典INCA方法的MCD比较试验结果；

图3为本发明实施例与经典INCA方法的客观评价结果对比图；

图4为本发明实施例与经典INCA方法的MOS评价和ABX测试的结果对比图。

具体实施方式

下面结合附图和实施例，对本发明所述的技术方案做进一步阐述。

语音转换是语音信号处理领域的一个比较新的研究方向，在过去几十年中获得了长足的发展。国内外的研究主要集中在基于对称语音库的语音转换的研究，但是在实际情况下，对称的语音库通常很难直接获取。针对这种情况，本发明从说话人模型对齐的角度出发，提出了一种新的非对称语音库条件下的基于说话人模型对齐的语音转换方法。首先，分别训练得到源说话人和目标说话人的模型；然后，利用说话人模型的均值和协方差参数，对说话人模型进行迭代对齐，从而得到频谱特征的转换函数；最后，通过与GMM方法相融合进一步提升了语音转换的效果。

基于说话人模型对齐的非对称语音库条件下的语音转换方法，包括如下步骤：

1)选择STRIAHGT语音分析/合成模型对说话人的语句进行频谱特征的提取，提取美尔倒谱系数(Mel-cepstrum coefficients,MCC)和基音频率F0。

2)对MCC参数运用EM算法分别训练得到源说话人和目标说话人的模型GMM_x和GMM_y，模型参数表示为{x,μ_x,σ_x}和{y,μ_y,σ_y}。

3)引入辅助向量序列X′＝{x′_j},j＝1,2,...,J用于每一次迭代后的中间序列，同样运用EM算法训练得到辅助向量序列的模型，记作GMM_x′，其模型参数表示为{x′,μ_x′,σ_x′}，初始化设定为{x,μ_x,σ_x}。

4)采用对称的KLD计算得到两个说话人模型不同高斯分量之间的相似度，用矩阵D＝[d_ij]_M×M来表示。

5)对GMM_x′的每一高斯分量s，通过相似度矩阵D来寻找到GMM_y中与其相似度最高的高斯分量σ(s)；类似地，对GMM_y中的每一高斯分量t，通过D找到其在GMM_x′中对应的相似度最高的分量ψ(t)。

6)通过最近邻搜索，分别得到两个均值向量对序列，分别记为和去除重复的序列对，将两个序列对连接得到一个完整的均值向量对序列{μ_x′,μ_y}。引入最小二乘估计法，计算得到μ_x′和μ_y之间的映射函数，从而得到x和x′之间的映射函数：x′＝f_sa(x)。

7)通过EM算法对X′重新进行模型训练得到GMM_x′。重复步骤4)～6)直到GMM_x′和GMM_y之间的相似度满足收敛条件其中δ取值为0.1。

图1给出了本发明提出的基于说话人模型对齐的语音转换方法的示意图，从图中可以发现，随着迭代次数的增加，辅助向量序列的模型GMM_x′越来越接近于目标说话人的模型GMM_y。

8)经过说话人模型对齐训练，获得了辅助向量序列X′。与传统基于对称语音库的GMM方法的做法类似，采用联合概率密度对辅助向量和目标说话人的特征向量进行建模，并通过最小均方误差法得到它们之间的转换函数f_at(·)。根据源说话人特征向量与辅助向量之间的映射关系结合转换函数f_at(·)可得到源说话人和目标说话人频谱特征之间的转换函数y＝F(x)＝f_at(f_sa(x))。

9)对基音频率F0运用传统高斯归一化方法进行转换，转换函数为：

其中，f_x为源说话人的基音频率F0，和分别表示源说话人和目标说话人基音频率F0的均值，和源说话人和目标说话人基音频率F0的协方差。

10)通过STRAIGHT语音分析/合成模型对转换后的频谱特征及F0进行合成得到转换语音。

性能评价：

本发明选择CMU ATCTIC语音数据库对转换效果进行了评价。分别选择两个男性说话人(BDL和RMS)和两个女性说话人(SLT和CLB)的各80条语句用作实验，其中50条语句用于训练，另外30条语句用于评价测试。高斯混合模型的高斯分量M的大小被优化设定为256。本实施例中优先选择了男性到女性、女性到男性、男性到男性、女性到女性的四种语音转换方式，并对基于传统INCA对齐的语音转换方法(INCA)、本发明提出的基于说话人模型对齐的语音转换方法(SMA)、本发明提出的基于GMM和说话人模型对齐融合的语音转换方法(GMM-SMA)进行了评价。

在本实施例中选择美尔倒谱距离(Mel cepstral distance,MCD)来对语音转换效果进行客观评价。

其中和分别为转换语音和目标说话人语音的第j维(1≤j≤24)的MCC，MCC阶数取为24。MCD值越小，说明转换效果越好。

同时，在本实施例中选取皮尔逊积矩相关系数用于语音转换的客观评价，其主要用于描述转换语音和目标说话人语音的MCC特征之间的相关度。第d维(1≤d≤24)的相关度计算公式如下式(3)所示

其中和分别为转换语音和目标说话人语音的第n(n≥1)帧MCC的第d维的特征，和分别为对应的特征均值。相关度越大，则表示转换效果越好。

图2给出了本发明所提出的方法与经典INCA方法的MCD比较试验结果。从图中我们可以发现，随着训练语句的增加，不同方法的MCD取值都呈现出相同的变小的趋势；同时，本发明提出的基于说话人模型对齐的语音转换方法总是能取得比传统INCA更低的结果；并且通过与GMM方法融合，可以进一步降低MCD值。这说明所提出的方法在客观条件下较INCA方法可以取得更好的效果。

图3给出了相关度评价结果。可以发现，随着训练语句的增加，相关度呈现出上升的趋势，并且本发明所提出的说话人模型对齐的语音转换方法取得了比INCA方法更高的相关度；同时，通过进一步与GMM融合的方法总是能取得最高的相关度，因此从客观角度来说本发明提出的方法是有效的。

在主观评价上，8名说话人参与了主观打分评价。在本实施例中分别选择平均意见得分(Mean opinion score,MOS)和ABX相似度测试两种方法对转换语音的质量及与目标说话人语音相似度进行测试。并且选择5分制分别对语音的质量和相似度进行打分，其中1分表示“质量很差”或“完全不同”，5分表示“质量非常好”或“完全相同”。

图4给出了MOS评价和ABX测试的结果，其中置信度为0.95，Quality表示的是MOS评价的结果，Similarity表示的是ABX测试的结果，图中的“Ⅰ”字形表示的是标准差。从图中可以发现，SMA方法总是能取得比INCA方法更高的打分；同时，GMM-SMA方法总是能取得最高的得分，这在一定程度上验证了主观评价的结果。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于说话人模型对齐的非对称语音库条件下的语音转换方法，其特征在于：针对非对称语音库的情况，通过引入辅助向量来寻找源说话人和目标说话人之间的转换函数，即先由源说话人和目标说话人的频谱特征分别训练得到各自的说话人模型，然后利用说话人模型中的均值与协方差找到源说话人特征向量和辅助向量之间的转换函数，以及辅助向量和目标说话人特征向量之间的转换函数，最后利用这两个转换函数求得源说话人和目标说话人之间的转换函数；在语音转换的过程中，使用说话人模型对齐的方法，以及将说话人模型对齐与高斯混合模型相融合的方法，最终通过STRAIGHT语音分析/合成模型对转换后的频谱特征进行合成得到转换语音；所述的说话人模型对齐方法的步骤具体如下：

步骤Ⅰ，训练得到说话人模型：运用STRAIGHT模型提取源说话人和目标说话人的频谱特征，获得源说话人和目标说话人的特征向量，分别记为x和y；通过期望最大化方法分别训练得到源说话人模型和目标说话人模型，记为GMM_x和GMM_y，具体为：

p (x) = Σ_{i = 1}^{M} ω_{i} N (x, μ_{i}^{x}, Σ_{i}^{x}), p (y) = Σ_{i = 1}^{M} v_{i} N (y, μ_{i}^{y}, Σ_{i}^{y}) - - - (1)

其中，p(x)对应着GMM_x，p(y)对应着GMM_y，N(·)表示高斯分布，和分别表示GMM_x和GMM_y模型的第i个高斯分量，M表示高斯分量的个数，和表示第i个高斯分量的均值向量，和表示第i个高斯分量的协方差矩阵，ω_i和v_i表示第i个高斯分量所占的权重，且满足

步骤Ⅱ，引入辅助向量并初始化：引入辅助向量序列X'＝{x'_j}，其中j表示第j帧，且j＝1,2,...,J，J表示帧数，且J≥1；X'用于每一次迭代搜索后的中间序列，并运用期望最大化方法训练得到辅助向量序列的模型，记作GMM_x'，具体表达式为：

p (x^{'}) = Σ_{i = 1}^{M} ω_{i} N (x^{'}, μ_{x^{'}}, σ_{x^{'}}) - - - (2)

其中，x'表示辅助向量，ω_i表示第i个高斯分量所占的权重，且满足GMM_x'的参数为并且初始化设定为

D = \{\begin{matrix} d_{11} & d_{12} & ... & d_{1 M} \\ d_{21} & d_{22} & ... & d_{2 M} \\ . & . & . & . \\ . & . & . & . \\ . & . & . & . \\ d_{M 1} & d_{M 2} & ... & d_{M M} \end{matrix}\} - - - (3)

其中，d_ij表示GMM_x的第i个高斯分量与GMM_y的第j个高斯分量之间的相似度，并采用对称的KL Divergence来描述两个高斯分量f_i(x)和f_j(x)之间的相似度，具体为

d_{i j} = \frac{1}{2} (d (f_{i} (x) | | f_{j} (x)) + d (f_{j} (x) | | f_{i} (x))) - - - (4)

其中，

步骤Ⅳ，最近邻搜索：对GMM_x'的每一高斯分量s，通过相似度矩阵D来寻找到GMM_y中与其相似度最高的高斯分量σ(s)；类似地，对GMM_y中的每一高斯分量t，通过D找到其在GMM_x'中对应的相似度最高的分量ψ(t)；

步骤Ⅴ，转换：通过最近邻搜索，分别得到两个均值向量对序列，分别记为和其中，s＝1,2,…,M，t＝1,2,…,M；和分别表示GMM_x'第s个高斯分量的辅助均值向量及其在GMM_y中对应的高斯分量σ(s)所对应的均值向量，和分别表示GMM_y第t个高斯分量的辅助均值向量及其在GMM_x'中对应的高斯分量ψ(t)所对应的均值向量；去除和中重复的序列对，并连接在一起得到一个完整的均值向量对序列{μ_x',μ_y}；利用最小二乘估计法计算得到μ_x'和μ_y之间的映射函数：

f_mu(μ_x')＝Aμ_x'+b (5)

其中，T表示矩阵转置，b＝μ_y-Aμ_x'；

f_mu(x')＝Ax'+b (6)

辅助向量x'通过下式得到，具体为：

x'＝f_mu(x') (7)

源说话人特征向量x和辅助向量x'之间的转换函数f_sa(x)为：

x'＝f_sa(x)＝Cx+d (8)

其中，d＝μ_x'-Aμ_x；

步骤Ⅵ，通过期望最大化方法对辅助向量序列X'重新进行模型训练得到GMM_x'，重复上述步骤Ⅲ～Ⅴ，直到GMM_x'和GMM_y之间的相似度满足收敛条件其中δ为一经验常数。

2.根据权利要求1所述的基于说话人模型对齐的非对称语音库条件下的语音转换方法，其特征在于，所述的说话人模型对齐与高斯混合模型相融合方法的具体步骤如下：

步骤Ⅰ，经过说话人模型的对齐训练，获得辅助向量序列X'；采用联合概率密度对辅助向量x'和目标说话人特征向量y组成的特征序列对进行GMM建模，如下：

p (z) = Σ_{i = 1}^{M} α_{i} N (z, μ_{i}, Σ_{i}) - - - (9)

步骤Ⅱ，采用最小均方误差法计算得到辅助向量和目标说话人特征向量之间的转换函数：

f_{a t} (x^{'}) = Σ_{i = 1}^{M} p (i | x^{'}) (μ_{i}^{y} + \frac{Σ_{i}^{x^{'} y}}{Σ_{i}^{x^{'} x^{'}}} (x^{'} - μ_{i}^{x^{'}})) - - - (10)

其中，p(i|x')表示x'属于第i个高斯分量的后验概率，满足

p (i | x^{'}) = \frac{α_{i} b_{i} (x^{'})}{Σ_{j = 1}^{M} α_{j} b_{j} (x^{'})} - - - (11)

其中，α_j表示第j个高斯分量所占的权重，且满足b_i(x')和b_j(x')分别表示第i个高斯分量和第j个高斯分量；

步骤Ⅲ，根据表达式(8)和表达式(10)得到源说话人特征向量与目标说话人特征向量之间的转换函数：y＝F(x)＝f_at(f_sa(x))。