CN105023570A

CN105023570A - 一种实现声音转换的方法及系统

Info

Publication number: CN105023570A
Application number: CN201410182517.7A
Authority: CN
Inventors: 陈凌辉; 江源; 凌震华; 胡国平; 胡郁; 刘庆峰
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2014-04-30
Filing date: 2014-04-30
Publication date: 2015-11-04
Anticipated expiration: 2034-04-30
Also published as: CN105023570B

Abstract

本发明涉及语音合成技术领域，公开了一种实现声音转换的方法及系统，该方法包括：获取源发音人的语音信号；提取所述语音信号的频谱包络特征和基频特征；根据预先构建的频谱包络变换模型对所述频谱包络特征进行转换，得到转换后的频谱包络特征；根据转换后的频谱包络特征和基频特征生成目标发音人的语音信号。利用本发明，可以有效提高转换语音的音质。

Description

一种实现声音转换的方法及系统

技术领域

本发明涉及语音信号处理技术领域，具体涉及一种实现声音转换的方法及系统。

背景技术

声音转换即将一个发音人(源发音人)的语音转换为另一个发音人(目标发音人)的语音，使其具有目标发音人的发音特点。声音转换技术在实际生活中有广泛应用，可以帮助因发音器官受损而植入电子喉的病人发出高质量的语音，还可以丰富娱乐生活，通过模拟明星发音人的发音特点提高娱乐性等，具有广泛的应用前景。

现有声音转换系统主要采用频谱变换和基频变换的方法，对源发音人的语音特征进行转换，使其具有目标发音人的发音特点，实现声音转换。相比于基频变换，由于频谱对于发音人身份信息的确认作用更加关键，因而基于基频和频谱变换的声音转换更为实用。

现有的频谱变换技术主要采用数学统计模型训练源发音人和目标发音人的频谱特征的联合概率分布，确定源发音人和目标发音人的频谱变换关系。在接收到源发音人语音时，根据所述联合概率分布计算目标发音人特征的条件分布，并生成目标发音人特征样本。在数据统计方法中，训练数据越多，模型越准确，则模拟效果越好。然而由于应用场景的限制，能够获取的训练数据量往往较少，其应用模型往往较为简单，相应的转换得到的语音质量往往不高。

发明内容

本发明实施例提供一种实现声音转换的方法及系统，以提高转换语音的音质。

为此，本发明实施例提供如下技术方案：

一种实现声音转换的方法，包括：

获取源发音人的语音信号；

提取所述语音信号的频谱包络特征和基频特征；

根据预先构建的频谱包络变换模型对所述频谱包络特征进行转换，得到转换后的频谱包络特征；

根据转换后的频谱包络特征和转换后的基频特征生成目标发音人的语音信号。

优选地，所述提取所述语音信号的频谱包络特征包括：

对于每一帧语音帧，提取其上下多帧的频谱包络特征作为所述语音帧的频谱包络特征。

优选地，按以下方式构建频谱包络变换模型：

获取训练语音数据，所述训练语音数据包括源发音人语音数据及目标发音人语音数据；

提取所述训练语音数据的频谱包络特征；

确定源发音人的频谱包络特征与目标发音人的频谱包络特征的对应关系；

确定源发音人和目标发音人的频谱包络变换模型拓扑结构；

根据所述对应关系训练所述源发音人和目标发音人的频谱包络变换模型参数。

优选地，所述确定源发音人的频谱包络特征与目标发音人的频谱包络特征的对应关系包括：

以语音帧为单位，提取所述训练语音信号的美尔倒谱特征序列；

将源发音人的美尔倒谱特征序列与目标发音人的美尔倒谱特征序列对齐；

根据所述源发音人的美尔倒谱特征序列与目标发音人的美尔倒谱特征序列的对应关系，确定源发音人的频谱包络特征与目标发音人的频谱包络特征的对应关系。

优选地，所述确定源发音人和目标发音人的频谱包络变换模型拓扑结构包括：

利用第一RBM模型模拟源发音人频谱包络分布特点，并将其作为源发音人模型；

利用第二RBM模型模拟目标发音人频谱包络分布特点，并将其作为目标发音人模型；

利用BBAM模型模拟源发音人和目标发音人之间的参数传递关系，并将其作为转换模型；

拼接所述源发音人模型、转换模型、以及目标发音人模型，得到源发音人和目标发音人的频谱包络变换模型拓扑结构。

优选地，所述根据所述对应关系训练所述源发音人和目标发音人的频谱包络变换模型参数包括：

获取训练数据，所述训练数据包括源发音人频谱包络数据和目标发音人频谱包络数据；

根据所述源发音人频谱包络数据训练源发音人模型参数，并根据所述目标发音人频谱包络数据训练目标发音人模型参数；

根据所述对应关系训练转换模型参数；

将所述源发音人模型参数、转换模型参数、以及目标发音人模型参数进行合并，得到所述源发音人和目标发音人的频谱包络变换模型参数。

优选地，所述根据所述对应关系训练转换模型参数包括：

从所述训练数据中采样得到转换模型参数训练数据；

基于所述转换模型参数训练数据训练转换模型参数。

优选地，所述根据预先构建的频谱包络变换模型对所述频谱包络特征进行转换，得到转换后的频谱包络特征包括：

根据所述频谱包络变换模型计算所述频谱包络特征的条件概率分布；

根据所述条件概率分布确定转换后的频谱包络特征。

一种实现声音转换的系统，包括：

语音信号获取模块，用于获取源发音人的语音信号；

特征提取模块，用于提取所述语音信号的频谱包络特征和基频特征；

频谱包络特征转换模块，用于根据预先构建的频谱包络变换模型对所述频谱包络特征进行转换，得到转换后的频谱包络特征；

语音生成模块，用于根据转换后的频谱包络特征和转换后的基频特征生成目标发音人的语音信号。

优选地，所述系统还包括：频谱包络变换模型构建模块，所述频谱包络变换模型构建模块包括：

训练语音数据获取单元，用于获取训练语音数据，所述训练语音数据包括源发音人语音数据及目标发音人语音数据；

特征提取单元，用于提取所述训练语音数据的频谱包络特征；

对应关系确定单元，用于确定源发音人的频谱包络特征与目标发音人的频谱包络特征的对应关系；

拓扑结构确定单元，用于确定源发音人和目标发音人的频谱包络变换模型拓扑结构；

参数训练单元，用于根据所述对应关系训练所述源发音人和目标发音人的频谱包络变换模型参数。

优选地，所述对应关系确定单元包括：

第一提取单元，用于以语音帧为单位，提取所述训练语音信号的美尔倒谱特征序列；

对齐单元，用于将源发音人的美尔倒谱特征序列与目标发音人的美尔倒谱特征序列对齐；

第一确定单元，用于根据所述源发音人的美尔倒谱特征序列与目标发音人的美尔倒谱特征序列的对应关系，确定源发音人的频谱包络特征与目标发音人的频谱包络特征的对应关系。

优选地，所述拓扑结构确定单元包括：

源发音人模型单元，用于利用第一RBM模型模拟源发音人频谱包络分布特点，并将其作为源发音人模型；

目标发音人模型单元，用于利用第二RBM模型模拟目标发音人频谱包络分布特点，并将其作为目标发音人模型；

转换模型单元，用于利用BBAM模型模拟源发音人和目标发音人之间的参数传递关系，并将其作为转换模型；

拼接单元，用于拼接所述源发音人模型、转换模型、以及目标发音人模型，得到源发音人和目标发音人的频谱包络变换模型拓扑结构。

优选地，所述参数训练单元包括：

获取频谱包络训练数据单元，用于获取训练数据，所述训练数据包括源发音人频谱包络数据和目标发音人频谱包络数据；

第一训练单元，用于根据所述源发音人频谱包络数据训练源发音人模型参数；

第二训练单元，用于根据所述目标发音人频谱包络数据训练目标发音人模型参数；

第三训练单元，用于根据所述对应关系训练转换模型参数；

合并单元，用于将所述源发音人模型参数、转换模型参数、以及目标发音人模型参数进行合并，得到所述源发音人和目标发音人的频谱包络变换模型参数。

优选地，所述频谱包络特征转换模块包括：

条件概率分布计算单元，用于根据所述频谱包络变换模型计算所述频谱包络特征的条件概率分布；

转换特征确定单元，用于根据所述条件概率分布确定转换后的频谱包络特征。

本发明实施例提供的实现声音转换的方法及系统，基于频谱包络变换模型将源发音人语音信号的频谱包络特征变换为目标发音人的频谱包络特征，然后，基于变换后的频谱包络特征及基频特征生成目标发音人的语音信号。由于频谱包络特征是从高维频谱中提取出来的，是语音信号最直接、准确的表示，因此可以大大提高频谱变换的有效性和准确性，进而提高声音转换的效果。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1是本发明实施例实现声音转换的方法的流程图；

图2是本发明实施例中构建频谱包络变换模型的流程图；

图3是本发明实施例中RBM模型结构示意图；

图4是本发明实施例中源发音人和目标发音人的频谱包络变换模型拓扑结构及参数训练过程示意图；

图5是本发明实施例中用于模拟源发音人和目标发音人之间的参数传递关系的转换模型参数训练流程图；

图6是本发明实施例中基于频谱包络变换模型获得转换后的频谱包络特征的流程图；

图7是本发明实施例实现声音转换的系统的结构示意图；

图8是本发明实施例中频谱包络变换模型构建模块的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明实施例的方案，下面结合附图和实施方式对本发明实施例作进一步的详细说明。

由于传统的基于频谱变换的声音转换系统主要采用GMM模型模拟源发音人和目标发音人的联合频谱特征空间的概率分布，采取的是低维频谱特征，在从频谱中提取低维的特征过程中丢失了很多的频谱细节信息，直接影响了转换语音的音质。而且，GMM模型存在过平滑效应，导致了合成语音中的过平滑效应。为此，本发明实施例提供一种实现声音转换的方法及系统，基于频谱包络变换模型将源发音人语音信号的频谱包络特征变换为目标发音人的频谱包络特征，然后，基于变换后的频谱包络特征及基频特征生成目标发音人的语音信号。由于频谱包络特征是从高维频谱包络中提取出来的，是语音信号最直接、准确的表示，因此可以大大提高频谱包络变换的有效性和准确性，进而提高声音转换的效果。

如图1所示，是本发明实施例实现声音转换的方法的流程图，包括以下步骤：

步骤101，获取源发音人的语音信号。

步骤102，提取所述语音信号的频谱包络特征和基频特征。

在具体应用中，可以采用现有的频谱包络提取方法，比如，对语音信号加平滑窗做FFT变换等。特别地，在本发明实施例中，对于每帧语音帧，可以提取其上下多帧频谱包络特征作为当前语音帧的频谱包络特征，比如，以连续的三帧频谱包络为例，当前语音帧的频谱包络特征为：

x_{t} = [x_{t - 1}^{{(s)}^{T}}, x_{t}^{{(s)}^{T}}, x_{t + 1}^{{(s)}^{T}}] .

步骤103，根据预先构建的频谱包络变换模型对所述频谱包络特征进行转换，得到转换后的频谱包络特征。

步骤104，根据转换后的频谱包络特征和转换后的基频特征生成目标发音人的语音信号。

需要说明的是，在进行语音合成时，所述基频特征也需要进行一定的转换，具体转换方式可以采用现有的一些转换方式，比如，均值方差规整法等，对此本发明实施例不做限定。

不同于传统的声音转换系统中的基于GMM模型的联合概率分布，在本发明实施例中，基于频谱包络变换模型实现对源发音人语音信号频谱包络的变换，以提高变换后的频谱包络的准确性。

下面对本发明实施例中构建频谱包络变换模型的具体过程进行详细说明。

如图2所示，是本发明实施例中构建频谱包络变换模型的流程图，包括以下步骤：

步骤201，获取训练语音数据，所述训练语音数据包括源发音人语音数据及目标发音人语音数据。

步骤202，提取所述训练语音数据的频谱包络特征。

具体地，需要分别提取对应相同文本的源发音人语音和目标发音人语音的频谱包络特征。

步骤203，确定源发音人的频谱包络特征与目标发音人的频谱包络特征的对应关系。

由于相同语料不同发音人的语音时长可能并不一致，因此在得到源发音人语音和目标发音人语音的频谱包络特征后，需要对不同时长的特征对进行对齐，得到一一对应的频谱包络特征对。

考虑到频谱包络特征的维数太高，计算复杂度过高，此外频谱包络太过精细，其距离并不能反映真实频谱的差异性。为此，在本发明实施例中，可以选取频谱包络特征中的任意一种特征进行动态规划对齐，下面以MCEP(MelCepstrum，美尔倒谱)特征为例说明获取频谱包络对应关系的详细过程。

首先，提取语音信号的美尔倒谱特征，具体可由美尔域对数功率谱经过逆FFT变换得到；然后，对于每帧语音帧，按照其MCEP特征对齐源发音人和目标发音人的MCEP特征序列，由于频谱包络与MCEP是一一对应的，根据MCEP特征序列的对应关系，即可得到频谱包络序列的对应关系。

步骤204，确定源发音人和目标发音人的频谱包络变换模型拓扑结构。

在本发明实施例中，可以分别采用RBM(Restricted Boltzmann Machine，受限波尔兹曼机)模型模拟源发明人和目标发音人频谱包络分布特点，为了描述方便，将其分别称为第一RBM模型(也可称为源发明人模型)和第二RBM模型(也可称为目标发音人模型)。RBM也可以被视为一个无向图模型，如图3所示，其中，v为可视层，用于表示观测数据，h为隐含层，W为两层之间的连接权重。

建立BBAM(Bernoulli Bidirectional Associative Memory，伯努利双向联想记忆器)模型，所述BBAM模型用于模拟源发音人和目标发音人之间的参数传递关系。

然后，将上述三个模型，即第一RBM模型、BBAM模型、第二RBM模型进行拼接，得到源发音人和目标发音人的频谱包络变换模型拓扑结构，如图4所示。

其中，第一RBM模型为源发音人的模型拓扑，包含频谱包络变量x和隐变量h_x，第二RBM模型为目标发音人的模型拓扑，包含频谱包络变量y和隐变量h_y，W_x为x和h_x之间的连接权重，W_y为y和h_y之间的连接权重，W_h为h_x和h_y之间的连接权重。

在该拼接模型中，通过源发音人的RBM模型可以得到源发音人频谱包络的隐变量表示，通过目标发音人的RBM模型可以得到目标发音人频谱包络的隐变量表示，然后使用BBAM建立起两个发音人隐变量的联合分布，从而建立起两个发音人频谱包络之间的转换关系。

需要说明的是，在实际应用中，也可以用更深层次的网络替代上述RBM模型及BBAM模型，如图3中两个RBM可以换成两个更深层的随机神经网络，如DBN(Deep Belief Network，深度置信网络)或DBM(Deep BoltzmannMachie，深层波尔兹曼机)，DBN和DBM可以由多个RBM级联得到，以形成更深层次的网络)。

步骤205，根据所述对应关系训练所述源发音人和目标发音人的频谱包络变换模型参数。

在参数训练过程中，首先需要分别独立训练源发音人及目标发音人的模型参数。下面以源发音人模型参数训练为例进行详细说明。

如图4所示，对于源发音人模型拓扑，包含频谱包络变量x和一个隐变量h_x。在本发明实施例中，可以采用一个全局模型模拟源发音人声学空间中的频谱包络参数概率分布，其描述的概率分布为：

P (x) = \frac{1}{z} \underset{h_{x}}{Σ} e^{- E (x, h_{x})}

其中：

Z = Σ_{h_{x}} {&Integral;}_{x} e^{- E (x, h_{x})} dx

为配分函数，

E (x, h_{x}) = {(x - b_{x})}^{T} Σ_{x}^{- 1} (x - b_{x}) - {h_{x}}^{T} b_{h_{x}} - {(Σ_{x}^{- \frac{1}{2}})}^{T} W_{x} h_{x}

为该模型的一个能量函数，

Σ_x为训练数据的对角协方差矩阵。

源发音人的模型参数为其中W_x为x与h_x之间的连接权重，b_x、分别为x层和h_x层的偏置。

模型的训练准则是使模型达到一个稳态，也就是能量达到最低，对应到概率模型上就是似然值最大化。RBM的模型参数可以通过CD(ContrastiveDivergence，最小对比散度)算法来高效地训练得到。此外，DBN和DBM的模型参数则可以使用多个RBM级联得到，训练过程以无监督的形式进行。

目标发音人的模型参数训练过程与上述类似，训练一个描述目标发音人的频谱包络参数概率分布。训练得到的目标发音人的模型参数为

在得到源发音人的模型参数及目标发音人的模型参数后，需要训练源发音人和目标发音人之间的参数传递关系模型参数。在本发明实施例中，可以采用有监督训练方法来获取源发音人和目标发音人频谱包络之间的映射关系。如图4中所示，利用BBAM来对两个发音人相关模型的隐变量的联合分布进行建模，从而得到两个发音人频谱包络之间的映射关系。

图4中BBAM描述的概率分布为：

P (h_{x}, h_{y}) = \frac{1}{Z} e^{- E (h_{x}, h_{y})}

其中：

Z = Σ_{h_{x}, h_{y}} e^{- E (h_{x}, h_{y})}

为配分函数；

E (h_{x}, h_{y}) = - {h_{x}}^{T} b_{h_{x}} - {h_{y}}^{T} b_{n_{y}} - {h_{y}}^{T} W_{h} h_{x}

为该模型的能量函数。

模型的参数为θ_h＝{W_h}。

如图5所示，是本发明实施例中用于模拟源发音人和目标发音人之间的参数传递关系的转换模型参数训练流程图，包括以下步骤：

步骤501，获取转换模型参数训练数据。

不同于源发音人和目标发音人的模型参数训练时训练数据的获取情况，在训练源发音人和目标发音人之间的参数传递关系模型参数时，训练数据可以从频谱包络中使用相应的RBM模型提取得到。

由图4所示可知，在本发明实施例中，将源发音人和目标发音人频谱包络之间的转换关系转化为其对应模型的隐变量之间的转换关系来间接地建模，该模型用于模拟隐性的映射关系，其隐变量是假想的，并没有原始的训练数据。所述隐变量可以根据原始的频谱包络(即源发音人和目标发音人的频谱包络)及训练得到的源发音人和目标发音人相关模型中采样得到。

比如，给定源发音人的一帧频谱包络x，可以从下式描述的概率分布中以随机采样的方式得到对应的隐变量h_x：

h_{x} ~ p (h_{x} = 1 | x, θ_{x}) = g (W_{x}^{T} Σ_{x}^{- \frac{1}{2}} x + b_{h_{x}})

其中，g(x)＝1/(1+e^-x)，所述采样可以以均值采样的形式进行，即

h_{x} = g (W_{x}^{T} Σ_{x}^{- \frac{1}{2}} x + b_{h_{x}}) .

采用同样的方式，可以得到目标发音人对应的隐变量h_y。

这样，得到源发音人对应的隐变量h_x和目标发音人对应的隐变量h_y，并将其作为所述转换模型的训练数据。

步骤502，基于所述转换模型参数训练数据训练转换模型参数。

针对图4所示的BBAM模型，模型参数为θ_h＝{W_h}。在本发明实施例中，可以采用梯度下降算法来训练更新该模型参数，具体训练过程如下：

(1)采用高斯随机数初始化模型参数

(2)计算参数W_h的梯度

&PartialD; W_{h} = E_{d} [h_{x} h_{y}^{T}] - E_{m} [h_{x} h_{y}^{T}]

其中，E_d[·]表示在数据分布上计算的期望，可以通过训练样本即转换模型参数训练数据计算得到，即

E_m[·]表示在真实分布上计算的期望，可以通过Gibbs采样算法从训练样本即转换模型参数训练数据中采样得到，具体采样过程如下：

首先，根据转换模型参数训练数据，得到初始样本然后，给定从条件概率中进行采样，得到样本给定从条件概率中进行采样，得到样本使用和近似计算

E_{m} [h_{x} h_{y}^{T}] = h_{x}^{1} h_{y}^{1^{T}} .

(3)利用计算得到的梯度更新模型参数，即：

其中，α为更新的步长。

(4)判断是否结束训练；如果是，则执行步骤(5)；否则转入步骤(2)。

其中训练结束的条件可以根据应用需要预先设置，比如可以是迭代次数超过设定的次数阈值，或者是模型参数更新似然值增长幅度超过设定的幅度阈值等。

(5)结束。

基于上述构建的频谱包络变换模型对从源发音人的语音信号中提取的频谱包络特征进行转换，得到转换后的频谱包络特征，具体流程如图6所示，包括以下步骤：

步骤601，对从源发音人的语音信号中提取的频谱包络特征，计算其输出的条件概率分布。

为了简化计算，提高运算效率，在实际应用中，可以将所述条件概率分布近似为一个单高斯分布，即：

该分布完全由目标发音人模型确定，其中：

x_t为输入的频谱包络，y_t为输出的频谱包络；

μ_{t} = Σ_{y}^{- \frac{1}{2}} (W_{y}^{T} h_{y}^{*} + b_{y});

h_{y}^{*} \underset{h_{y}}{\arg \max} P (h_{y} | h_{x}^{*}, θ_{h});

h_{y}^{*} \underset{h_{x}}{\arg \max} P (h_{x} | h_{t}^{*}, θ_{x});

在本发明实施例中，对任意的输入，输出的条件单高斯分布共享相同的方差，即所有目标频谱包络训练数据的对角方差。

步骤602，根据所述条件概率分布确定转换后的频谱包络特征。

具体地，可以使用最大似然准则从步骤601中得到的条件概率分布中得到转换的单帧序列，即：

y^{(s) *} = \underset{y^{(s)}}{\arg \max} \underset{t}{Π} P (y_{t} | x_{t})

然后可以求解得到转换的频谱包络。

然后再根据上下相关的频谱包络特征获取静态频谱包络作为转换后的频谱包络特征。

本发明实施例实现声音转换的方法，基于频谱包络变换模型将源发音人语音信号的频谱包络特征变换为目标发音人的频谱包络特征，然后，基于变换后的频谱包络特征及基频特征生成目标发音人的语音信号。由于频谱包络特征是从高维频谱包络中提取出来的，是语音信号最直接、准确的表示，因此可以大大提高频谱包络变换的有效性和准确性，进而提高声音转换的效果。

相应地，本发明实施例还提供一种实现声音转换的系统，如图7所示，是该系统的一种结构示意图。

在该实施例中，所述系统包括：

语音信号获取模块701，用于获取源发音人的语音信号；

特征提取模块702，用于提取所述语音信号的频谱包络特征和基频特征；

频谱包络特征转换模块703，用于根据预先构建的频谱包络变换模型对所述频谱包络特征进行转换，得到转换后的频谱包络特征；

语音生成模块704，用于根据转换后的频谱包络特征和转换后的基频特征生成目标发音人的语音信号。

上述特征提取模块702可以采用现有的频谱包络提取方法，比如，对语音信号加平滑窗做FFT变换等。特别地，在本发明实施例中，对于每帧语音帧，可以提取其上下多帧频谱包络特征作为当前语音帧的频谱包络特征。

上述频谱包络特征转换模块703需要利用预先构建的频谱包络变换模型对所述频谱包络特征进行转换，为此，在本发明实施例的系统中，还可进一步包括：频谱包络变换模型构建模块(未图示)，图8示出了该频谱包络变换模型构建模块的结构示意图。

所述频谱包络变换模型构建模块包括：

训练语音数据获取单元801，用于获取训练语音数据，所述训练语音数据包括源发音人语音数据及目标发音人语音数据；

特征提取单元802，用于提取所述训练语音数据的频谱包络特征；

对应关系确定单元803，用于确定源发音人的频谱包络特征与目标发音人的频谱包络特征的对应关系；

拓扑结构确定单元804，用于确定源发音人和目标发音人的频谱包络变换模型拓扑结构；

参数训练单元805，用于根据所述对应关系训练所述源发音人和目标发音人的频谱包络变换模型参数。

需要说明的是，在本发明实施例中，上述特征提取单元802需要分别提取对应相同文本的源发音人语音和目标发音人语音的频谱包络特征。

由于相同语料不同发音人的语音时长可能并不一致，因此在上述特征提取单元802得到源发音人语音和目标发音人语音的频谱包络特征后，相应地，上述对应关系确定单元803需要对不同时长的特征对进行对齐，得到一一对应的频谱包络特征对。具体地，上述对应关系确定单元803可以选取频谱包络特征中的任意一种特征进行动态规划对齐，比如MCEP特征等。相应地，上述对应关系确定单元803的一种具体结构可以包括：第一提取单元、对齐单元和第一确定单元，其中：

所述第一提取单元用于以语音帧为单位，提取所述训练语音信号的美尔倒谱特征序列；

所述对齐单元用于将源发音人的美尔倒谱特征序列与目标发音人的美尔倒谱特征序列对齐；

所述第一确定单元用于根据所述源发音人的美尔倒谱特征序列与目标发音人的美尔倒谱特征序列的对应关系，确定源发音人的频谱包络特征与目标发音人的频谱包络特征的对应关系。

前面提到，在本发明实施例中，可以分别采用RBM模型模拟源发明人和目标发音人频谱包络分布特点，利用BBAM模型模拟源发音人和目标发音人之间的参数传递关系。然后，将上述三个模型，即第一RBM模型、BBAM模型、第二RBM模型进行拼接，得到源发音人和目标发音人的频谱包络变换模型拓扑结构。

相应地，上述拓扑结构确定单元804可以包括以下各单元：

相应地，上述参数训练单元805可以包括以下各单元：

第三训练单元，用于根据所述对应关系训练转换模型参数；

基于上述构建的频谱包络变换模型，上述频谱包络特征转换模块703对从源发音人的语音信号中提取的频谱包络特征进行转换，得到转换后的频谱包络特征。上述频谱包络特征转换模块703的一种具体结构包括：条件概率分布计算单元和转换特征确定单元。其中：所述条件概率分布计算单元于根据所述频谱包络变换模型计算所述频谱包络特征的条件概率分布；所述转换特征确定单元用于根据所述条件概率分布确定转换后的频谱包络特征。具体的计算过程可参照前面本发明方法实施例中的描述，在此不再赘述。

本发明实施例实现声音转换的系统，基于频谱包络变换模型将源发音人语音信号的频谱包络特征变换为目标发音人的频谱包络特征，然后，基于变换后的频谱包络特征及基频特征生成目标发音人的语音信号。由于频谱包络特征是从高维频谱包络中提取出来的，是语音信号最直接、准确的表示，因此可以大大提高频谱包络变换的有效性和准确性，进而提高声音转换的效果。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上对本发明实施例进行了详细介绍，本文中应用了具体实施方式对本发明进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及设备；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种实现声音转换的方法，其特征在于，包括：

获取源发音人的语音信号；

提取所述语音信号的频谱包络特征和基频特征；

2.根据权利要求1所述的方法，其特征在于，所述提取所述语音信号的频谱包络特征包括：

3.根据权利要求1所述的方法，其特征在于，按以下方式构建频谱包络变换模型：

提取所述训练语音数据的频谱包络特征；

确定源发音人和目标发音人的频谱包络变换模型拓扑结构；

4.根据权利要求3所述的方法，其特征在于，所述确定源发音人的频谱包络特征与目标发音人的频谱包络特征的对应关系包括：

5.根据权利要求3所述的方法，其特征在于，所述确定源发音人和目标发音人的频谱包络变换模型拓扑结构包括：

6.根据权利要求5所述的方法，其特征在于，所述根据所述对应关系训练所述源发音人和目标发音人的频谱包络变换模型参数包括：

根据所述对应关系训练转换模型参数；

7.根据权利要求6所述的方法，其特征在于，所述根据所述对应关系训练转换模型参数包括：

从所述训练数据中采样得到转换模型参数训练数据；

基于所述转换模型参数训练数据训练转换模型参数。

8.根据权利要求1至7任一项所述的方法，其特征在于，所述根据预先构建的频谱包络变换模型对所述频谱包络特征进行转换，得到转换后的频谱包络特征包括：

根据所述条件概率分布确定转换后的频谱包络特征。

9.一种实现声音转换的系统，其特征在于，包括：

语音信号获取模块，用于获取源发音人的语音信号；

10.根据权利要求9所述的系统，其特征在于，所述系统还包括：频谱包络变换模型构建模块，所述频谱包络变换模型构建模块包括：

11.根据权利要求10所述的系统，其特征在于，所述对应关系确定单元包括：

12.根据权利要求10所述的系统，其特征在于，所述拓扑结构确定单元包括：

13.根据权利要求12所述的系统，其特征在于，所述参数训练单元包括：

第三训练单元，用于根据所述对应关系训练转换模型参数；

14.根据权利要求9至13任一项所述的系统，其特征在于，所述频谱包络特征转换模块包括：