CN1795491A

CN1795491A - 分析基频信息的方法以及实现所述分析方法的话音转换方法和系统

Info

Publication number: CN1795491A
Application number: CN200480014488.8A
Authority: CN
Inventors: 陶菲克·恩-纳贾尔里; 奥利维尔·罗斯克
Original assignee: France Telecom SA
Current assignee: Orange SA
Priority date: 2003-03-27
Filing date: 2004-03-02
Publication date: 2006-06-28
Anticipated expiration: 2024-03-02
Also published as: CN100583235C; US7643988B2; ATE395684T1; DE602004013747D1; WO2004088633A1; JP2006521576A; EP1606792A1; JP4382808B2; FR2853125A1; EP1606792B1; US20060178874A1

Abstract

一种用于对包含在话音采样中的基频信息进行分析的方法，其特征在于它包括：至少一个分析步骤(2)，用于对分组成帧的话音采样进行分析，从而获得每一采样帧的频谱相关信息和基频相关信息；模型确定步骤(20)，用于确定代表所有采样的频谱和基频的公共特性的模型；以及基频预测函数确定步骤(30)，用于仅根据频谱相关信息、基于所述模型和话音采样确定基频预测函数。

Description

分析基频信息的方法以及实现所述分析方法的话音转换方法和系统

技术领域

本发明涉及一种用于对包含在话音采样中的基频信息进行分析的方法以及一种实现所述分析方法的话音转换方法和系统。

背景技术

根据要产生的声音的性质，语音、尤其是话音的产生，需要声带的振动，这意味着：声带的振动产生具有一个基本周期的周期性结构的语音信号，该基本周期的倒数被称为基频。

在诸如话音转换之类的某些应用中，话音呈现(aural rendering)至关重要，并且，为了获得可接受的音质，需要有效地控制与韵律有关的参数，包括基频。

当前，存在许多种方法可用于对包含在话音采样中的基频信息进行分析。

这些分析能够确定基频特性和对其进行建模。例如，现有的某些方法能够针对话音采样的整个数据库确定基频的斜率或幅度范围。

知道这些参数之后，例如，通过对源和目标说话者之间的基频调整，就能够修改语音信号，从而全面地考虑目标说话者的基频的均值和变化。

但是，这些分析只能够获得一般的表示形式，而不是能够定义参数的基频表示形式，因此并不重要，尤其是对于那些发声风格不同的说话者。

发明内容

本发明的目的是通过定义一种用于对话音采样的基频信息进行分析的方法来克服该问题，从而能够定义参数可被定义的基频表示形式。

为此，本发明的主题是一种用于对包含在话音采样中的基频信息进行分析的方法，特征在于它至少包括：

-分析步骤，用于对分组成帧的话音采样进行分析，从而得到每一采样帧的频谱相关信息和基频相关信息；

-模型确定步骤，用于确定代表所有采样的频谱和基频的公共特性的模型；以及

-基频预测函数确定步骤，用于仅根据频谱相关信息、基于所述模型和话音采样来确定基频预测函数。

根据这种分析方法的其它特性：

-所述分析步骤用于以倒谱系数形式提供所述频谱相关信息；

-所述分析步骤包括：

-建模子步骤，用于根据谐波信号与噪声信号之和，对话音采样进行建模；

-频率参数估计子步骤，用于估计话音采样的频率参数，至少是基频；

-同步分析子步骤，用于同步分析每一采样帧的基频；以及

-频谱参数估计子步骤，用于估计每一采样帧的频谱参数；

-它还包括归一化步骤，用于将每一采样帧的基频相对于已分析的采样的基频的均值进行归一化；

-所述模型确定步骤对应于通过混合高斯密度来确定模型；

-所述模型确定步骤包括：

-用于确定与混合高斯密度相对应的模型的子步骤；以及

-参数估计子步骤，用于基于所述采样和所述模型的频谱信

息和基频信息之间的最大相似度估计，来估计混合高斯密度的参数；

-在已知所述采样的频谱信息的前提下，基于所述基频实现的估计量来实现所述预测函数确定步骤；

-所述基频预测函数确定步骤包括条件期望确定子步骤，用于在已知所述频谱信息的前提下，基于根据所述模型得到所述频谱信息的后验概率，来确定实现所述基频实现的条件期望，所述条件期望形成所述估计量。

本发明还涉及一种话音信号转换方法，用于将源说话者所发出的话音信号转换为转换话音信号，所述转换话音信号的特性与目标说话者的话音信号的特性相似，该方法至少包括：

-变换函数确定步骤，用于确定将源说话者的频谱特性变换成目标说话者的频谱特性的函数，该步骤是基于源说话者和目标说话者的话音采样而实现的；以及

-变换步骤，用于借助所述变换函数对要转换的源说话者话音信号的频谱信息进行变换；

特征在于，它还包括：

-基频预测函数确定步骤，仅根据目标说话者的频谱相关信息确定基频预测函数，所述预测函数是借助于上面定义的分析方法而获得的；以及

-预测步骤，通过将所述基频预测函数应用于源说话者的话音信号的所述已变换的频谱信息，从而预测待转换的话音信号的基频。

根据这种转换方法的其它特性：

-所述变换函数确定步骤是在已知源频谱特性的前提下，基于目标频谱特性实现的估计量而实现的；

-所述变换函数确定步骤包括：

-建模子步骤，用于根据谐波信号与噪声信号的和模型，对源和目标话音采样进行建模；

-校准子步骤，用于校准源和目标采样；以及

-变换函数确定子步骤，用于在已知源频谱特性的前提下，基于对目标频谱特性实现的条件期望进行计算，来确定所述变换函数，该条件期望构成了所述估计量；

-所述变换函数是谱包络变换函数；

-它还包括分析步骤，用于分析待转换的话音信号，以提供所述频谱相关信息和基频相关信息；

-它还包括合成步骤，用于基于至少已变换的频谱信息和预测的基频信息来形成转换话音信号。

本发明还涉及一种话音信号转换系统，用于把源说话者所发出的话音信号转换成转换话音信号，所述转换话音信号的特性相似于目标说话者的话音信号的特性，所述系统至少包括：

-变换函数确定模块，用于确定将源说话者的频谱特性变换成目标说话者的频谱特性的函数，该模块在其输入端接收源说话者和目标说话者的话音采样；以及

-变换模块，用于通过应用由所述变换函数确定模块所提供的变换函数，将待转换的源说话者的话音信号的频谱信息进行变换，

其特征在于，它还包括：

-基频预测函数确定模块，仅根据频谱相关信息为目标说话者确定基频预测函数，以基于目标说话者的话音采样实现分析方法；以及

-基频预测模块，通过将由所述基频预测函数确定模块所确定的所述预测函数应用于由所述变换模块所提供的所述已变换的频谱信息，来预测待转换的所述话音信号的基频。

根据本系统的其它特性：

-它还包括：

-分析模块，用于分析待转换的话音信号，以在其输出端提供待转换的话音信号的频谱相关信息和基频相关信息；以及

-合成模块，用于基于至少由该模块所提供的已变换频谱信息和由该模块所提供的预测的基频信息，来形成转换话音信号。

-所述变换函数确定模块用于提供谱包络变换函数；

-它用于实现上面定义的话音转换方法。

附图说明

通过阅读下面仅作为示例的描述和附图，本发明将更加易于理解，其中：

图1是根据本发明的分析方法的流程图；

图2是用于实现根据本发明的分析方法的话音转换方法的流程图；以及

图3是用于实现图2所示的本发明方法的话音转换系统的功能框图。

具体实施方式

图1中所示的根据本发明的方法是基于包含自然语音序列的话音采样的数据库而实现的。

该方法从分析步骤2开始，步骤2用于对通过分组成帧的采样点进行分析，从而得到每个采样帧的频谱相关信息，尤其是谱包络相关信息和基频相关信息。

在所述实施例中，该分析步骤2基于使用声音信号模型，该模型的形式是根据通常被称为“HNM”(谐波加噪声模型)的模型的谐波信号和噪声信号之和。

另外，所述实施例基于用离散倒谱表示的谱包络。

事实上，倒谱表示形式能够从语音信号中分离出与来自所得源分量的声道(vocal tract)相关的分量，后者对应于声带振动并且特征在于基频。

这样，分析步骤2包括建模子步骤4，用于将每个话音信号帧建模为代表该信号的周期性分量的谐波部分以及代表摩擦噪声和声门激发(glottal excitation)变化的噪声部分，该谐波部分由L个具有幅度A_l、相位φ_l的谐波正弦信号之和组成。

因此，这可以表示为以下公式：

s(n)＝h(n)+b(n)

其中

h (n) = Σ_{l = 1}^{L} A_{l} (n) \cos (φ_{l} (n))

因此h(n)表示信号s(n)的谐波近似。

步骤2还包括子步骤5，用于估计每一帧的频率参数，尤其是基频，例如采用自相关方法。

在常规方式中，该HNM分析提供了最大话音频率。作为一个变量，该频率可以被任意定义，或通过其它已知手段来估计。

子步骤5之后是子步骤6，用于同步分析每一帧的基频，从而估计谐波部分的参数和信号噪声的参数。

在所述实施例中，该同步分析对应于确定谐波参数，通过将全部信号及其谐波分解(在所述实施例中，对应于估计的噪声信号)之间的加权最小二乘方准则最小化。以E表示的该准则等于：

E = Σ_{n = - T_{i}}^{T_{i}} w^{2} (n) {(s (n) - h (n))}^{2}

在该式中，w(n)是分析窗，T_i是当前帧的基本周期。

因此，分析窗以基本周期标记为中心，并且其持续时间为该周期的两倍。

分析步骤2最后包括子步骤7，用于估计信号的谱包络分量的参数，使用例如正则化的离散倒谱方法和临界波段尺度(Bark-scale)变换，尽可能如实地再现人耳的属性。

因此，分析步骤2为n阶语音信号采样的每帧提供包含基频信息的表示为x_n的标量和包含倒谱系数序列形式的频谱信息的表示为y_n的矢量。

更好地，分析步骤2之后是步骤10，用于将每帧的基频值相对于基频均值进行归一化，从而在每个话音采样帧中用归一化的基频值代替该基频值，根据下面的公式：

F_{\log} = \log (\frac{F_{o}}{F_{o}^{moy}})

在该公式中，F_o ^moy对应于全部已分析的数据库的基频值的均值。

这种归一化使得能够修改基频标量的变化范围，以使其与倒谱系数的变化范围一致。

归一化步骤10之后是模型确定步骤20，用于确定代表所有已分析的采样的公共倒谱和基频特性的模型。

所述实施例包括根据混合高斯密度模型(通常被称为“GMM”)的基频和离散倒谱的概率模型，该模型的参数是基于归一化的基频和离散倒谱的联合密度进行估计的。

在常规方式中，随机变量的概率密度通常被表示成p(z)，根据混合高斯密度模型GMM，以下面的数学方式表示：

p (z) = Σ_{i = 1}^{Q} α_{i} = N (z, μ_{i}, Σ_{i})

其中

Σ_{i = 1}^{Q} α_{i} = 1,

0≤α_i≤1

在该公式中，N(z；μ_i；∑_i)是均值为μ_i协方差矩阵为∑_i的正态分布概率密度，系数α_i为混合系数。

因此，系数α_i对应于通过第i个混合高斯分量产生随机变量z的先验概率。

在更具体的方式中，模型确定步骤20包括子步骤22，用于对表示为y的倒谱和表示为x的归一化基频的联合密度进行建模，表示为：

p(z)＝p(y，x)，其中

z = (\begin{matrix} y \\ x \end{matrix})

在这些公式中，x＝[x₁，x₂，…x_N]为包含N个话音采样帧的归一化基频信息的标量序列，y＝[y₁，y₂，…y_N]为相应的倒谱系数矢量的序列。

然后，步骤20包含参数估计子步骤24，用于估计概率密度p(z)的GMM参数(α，μ，∑)。该估计可以通过例如借助已知的常规算法“EM”(期望值最大化算法)来实现，对应于迭代法，通过迭代法可以得到语音采样数据和高斯混合模型之间的最大似然估计量。

GMM模型初始参数的确定借助于常规的矢量量化技术来获得。

因此模型确定步骤20提供了用倒谱系数表示的代表公共频谱特性的混合高斯概率密度参数，以及已分析的话音采样的基频。

该方法还包括步骤基频预测函数确定30，用于基于模型和话音采样，仅根据通过信号倒谱提供的频谱信息来确定基频预测函数。

在给定话音采样的倒谱的条件下，基于基频实现的估计量确定该预测函数，所述估计量在所描述的实施例中是由条件期望形成的。

为此，基频预测函数确定步骤30包括条件期望确定子步骤32，用于在已知倒谱提供的频谱相关信息的前提下，确定基频的条件期望。该条件期望表示为F(y)并且由下面的公式来确定：

F (y) = E [x | y] = Σ_{i = 1}^{Q} p_{i} (y) [μ_{i}^{x} + Σ_{i}^{xy} {(Σ_{i}^{yy})}^{- 1} (y - μ_{i}^{y})]

其中

P_{i} (y) = \frac{α_{i} N (y, μ_{i}^{y}, Σ_{i}^{yy})}{Σ_{j = 1}^{Q} α_{j} N (y, μ_{j}^{y}, Σ_{j}^{yy})}

其中

Σ_{i} = [\begin{matrix} Σ_{i}^{yy} & Σ_{i}^{yx} \\ Σ_{i}^{xy} & Σ_{i}^{xx} \end{matrix}]

μ_{i} = [\begin{matrix} μ_{i}^{x} \\ μ_{i}^{y} \end{matrix}]

在这些方程中，P_i(y)对应于由高斯混合模型的第i个分量产生倒谱矢量y的后验概率，所述高斯混合模型由步骤20中的协方差矩阵∑_i和正态分布μ_i定义。

这样，通过确定条件期望，可以根据倒谱信息获得基频预测函数。

作为变量，在步骤30中实现的估计量可以是最大后验准则，其被称为“MAP”，并且对应于仅用于最代表源矢量的模型实现的期望计算。

因此，很清楚的是，根据本发明的分析方法能够基于模型和话音采样，仅根据所述实施例中由倒谱提供的频谱信息来获得基频预测函数。

这种类型的预测函数能够仅根据语音信号的频谱信息来确定该信号的基频值，从而能够进行基频的相关预测，尤其是对于不在已分析的话音采样中的声音。

下面参考图2在话音转换的上下文中描述根据本发明的分析方法的使用。

话音转换包括修改被称为“源说话者”的参考说话者的话音信号，从而使所产生的信号听起来是由被称为“目标说话者”的不同说话者所发出的。

该方法是使用由源说话者和目标说话者所发出的的话音采样数据库来实现的。

在常规方式中，这种类型的方法包括变换函数确定步骤50，用于为源说话者的话音采样的频谱特性确定变换函数，以使它们相似于目标说话者的话音采样的频谱特性。

在所述实施例中，变换函数确定步骤50基于HNM分析，HNM分析能够确定源和目标说话者的话音信号谱包络特性之间的关系。

为此，需要与相同的话音序列的声学实现相对应的源和目标话音记录。

变换函数确定步骤50包括建模子步骤52，用于根据谐波和噪声信号的HNM和模型对话音采样进行建模。

子步骤52之后是子步骤54，该步骤能够借助例如常规校准算法“DTW”(Dynamic Time Warping，动态时间校准)来校准源和目标信号。

变换函数确定步骤50还包括子步骤56，用于确定代表源和目标说话者话音采样频谱的公共特性的模型，如GMM模型。

在所述实施例中，使用了包括64个分量以及含有源和目标倒谱参数的信号矢量的GMM模型，从而可以定义频谱变换函数，其对应于被表示为t的目标频谱参数实现的估计量，在已知被表示为s的源频谱参数的前提下。

在所述实施例中，被表示为F(s)的该变换函数由下面公式以条件期望的形式表示：

F (s) = E [t | s] = Σ_{i = 1}^{Q} P_{i} (s) [μ_{i}^{t} + Σ_{i}^{ts} {(Σ_{i}^{ss})}^{- 1} (s - μ_{i}^{s})]

其中

P_{i} (s) = \frac{α_{i} N (s, μ_{i}^{s}, Σ_{i}^{ss})}{Σ_{j = 1}^{Q} α_{j} N (t, μ_{j}^{s}, Σ_{j}^{ss})}

其中

Σ_{i} = [\begin{matrix} Σ_{i}^{ss} & Σ_{i}^{st} \\ Σ_{i}^{ts} & Σ_{i}^{tt} \end{matrix}]

μ_{i} = [\begin{matrix} μ_{i}^{s} \\ μ_{i}^{t} \end{matrix}]

通过源和目标参数之间的最大相似度来精确地确定该函数，可以通过EM算法来获得。

作为变量，可以根据最大后验准则形成该估计量。

因此，所定义的函数能够修改源说话者产生的语音信号的谱包络，以使其与目标说话者的谱包络相似。

在最大化之前，可以借助例如矢量量化算法来将代表源和目标的公共频谱特性的GMM模型的参数进行初始化。

并行地，在基频预测函数确定步骤60中实现根据本发明的分析方法，其中只分析目标说话者的话音采样。

如图1所述，采用根据本发明的基频预测函数确定步骤60，能够只基于频谱信息获得目标说话者的基频预测函数。

转换方法还包括分析步骤65，在该步骤中对源说话者发出的、待转换的话音信号进行分析，所述待转换的信号与步骤50和60中所使用的话音信号不同。

该分析步骤65借助例如根据HNM模型的分解来实现，从而提供以倒谱系数形式表示的频谱信息、基频信息以及最大频率和相位话音信息。

步骤65之后是步骤70，在该步骤中，通过向步骤65中定义的倒谱系数应用步骤50中确定的变换函数，将待转换的话音信号的频谱特性进行变换。

具体而言，步骤70修改待转换的话音信号的谱包络。

在步骤70结束之后，将待转换的源说话者信号的采样的每个采样帧与已变换的、特性相似于目标说话者的采样的频谱特性的频谱信息关联起来。

该转换方法还包括用于预测源说话者的话音采样的基频的步骤80，通过将在步骤60中使用根据本发明的方法而确定的预测函数仅应用到与待转换的源说话者话音信号相关联的已变换的频谱信息上。

事实上，由于源说话者的话音采样和特性类似于目标说话者采样频谱特性的已转换的频谱信息相关联，所以，步骤60中所定义的预测函数使得能够获得基频的相关预测。

在常规方式中，该转换方法包括输出信号合成步骤90，在所述例子中用HNM合成来实现，该HNM合成基于步骤70中所提供的变换的谱包络信息、步骤80中所产生的预测的基频信息以及步骤65中所提供的最大频率和相位话音信息直接提供转换话音信号。

这样，用于实现根据本发明的分析方法的转换方法使得能够得到话音转换，其实现频谱修改和基频预测，从而获得高质量的话音呈现。

具体而言，可以基于源说话者和目标说话者所发出的同样的话音采样来评估这种类型的方法的有效性。

借助所述方法对源说话者所发出的话音信号进行转换，并且，对已转换的信号和由目标说话者所发出的信号之间的相似度进行评估。

例如，以用于将已转换的信号从目标信号分开的声距与用于将目标信号从源信号分开的声距之间的比值的形式来计算这种相似度。

在基于倒谱系数或借助于这些倒谱系数而获得的信号幅度谱来计算声距时，借助于根据本发明的方法所转换的信号所获得的比值在0.3至0.5之间。

图3示出了用于实现图2所述的方法的话音转换系统的功能框图。

该系统在其输入端使用由源说话者所发出的话音采样的数据库100和由目标说话者所发出的至少包含相同话音采样的数据库102。

变换函数确定模块104使用这两个数据库，该模块104确定用于将源说话者频谱特性变换为目标说话者频谱特性的函数。

变换函数确定模块104用于实现图2所述方法的步骤50，从而确定谱包络变换函数。

另外，该系统还包括基频预测函数确定模块106，用于仅根据频谱相关信息确定基频预测函数。为此，基频预测函数确定模块106在其输入端只接收包含在数据库102中的目标说话者的话音采样。

模块106用于实现图2所述方法的步骤60，对应于图1所述的根据本发明的分析方法。

模块104所提供的变换函数和模块106所提供的预测函数优选存储在一起，以便后续使用。

话音转换系统在其输入端接收话音信号110，话音信号110对应于源说话者所发出的并且要被转换的语音信号。

信号110被引入信号分析模块112，用于实现例如HNM分解并使信号110的频谱信息解离为倒谱系数和基频信息的形式。模块112还提供了通过应用HNM模型而获得的最大频率和相位话音信息。

因此模块112实现前面所述方法的步骤65。

这种分析可能提前执行，并且将信息存储用于后续使用。

然后，模块112所提供的倒谱系数被引入变换模块114中，该模块114用于应用模块104所确定的变换函数。

这样，变换模块114实现图2所述的方法的步骤70，并提供特性相似于目标说话者的频谱特性的已变换的倒谱系数。

这样，模块114实现了话音信号110的谱包络的修改。

然后，模块114所提供的已变换的倒谱系数被引入基频预测模块116中，该模块116用于实现模块106所确定的预测函数。

这样，模块116实现图2所述的方法的步骤80，并且在输出端提供仅基于已变换的频谱信息而预测的基频信息。

该系统还包括合成模块118，合成模块118在其输入端接收从模块114产生的并且对应于谱包络的已变换的倒谱系数、从模块116产生的预测的基频信息以及由模块112提供的最大频率和相位话音信息。

这样，模块118实现图2所述的方法的步骤90，并且提供信号120，除信号120的频谱和基频特性已被修改从而与目标说话者的频谱和基频特性相似之外，信号120对应于源说话者的话音信号110。

所述系统可以通过各种方式实现，尤其是借助与声音获取硬件模块相连的适当计算机程序。

当然，还可设想除所述实施例以外的其他实施例。

具体而言，可以用本领域技术人员所知的其它技术和模型来代替HNM和GMM模型，例如LSF(线性谱频率)和LPC(线性预测编码)技术，或者共振峰相关的参数。

Claims

1、一种用于对包含在话音采样中的基频信息进行分析的方法，其特征在于它至少包括：

—分析步骤(2)，用于对分组成帧的所述话音采样进行分析，从而获得每一采样帧的频谱相关信息和基频相关信息；

—模型确定步骤(20)，用于确定代表所有采样的频谱和基频的公共特性的模型；以及

—基频预测函数确定步骤(30)，用于仅根据频谱相关信息、基于所述模型和话音采样来确定基频预测函数。

2、根据权利要求1所述的方法，其特征在于：所述分析步骤(2)用于提供倒谱系数形式的所述频谱相关信息。

3、根据权利要求1或2的任一项所述的方法，其特征在于：所述分析步骤(2)包括：

—建模子步骤(4)，用于根据谐波信号与噪声信号之和来对话音采样进行建模；

—频率参数估计子步骤(5)，用于估计所述话音采样的频率参数，至少是基频；

—同步分析子步骤(6)，用于对每一采样帧的基频进行同步分析；以及

—频谱参数估计子步骤(7)，用于估计每一采样帧的频谱参数。

4、根据权利要求1至3的任一项所述的方法，其特征在于：还包括归一化步骤(10)，用于将每一采样帧的基频相对于所述已分析的采样的基频的均值进行归一化。

5、根据权利要求1至4的任一项所述的方法，其特征在于：所述模型确定步骤(20)对应于通过混合高斯密度来确定模型。

6、根据权利要求5所述的方法，其特征在于：所述模型确定步骤(20)包括：

—用于确定与混合高斯密度相对应的模型的子步骤(22)；以及

—参数估计子步骤(24)，用于基于所述采样和所述模型的频谱信息和基频信息之间的最大相似度估计，来估计混合高斯密度的参数。

7、根据权利要求1至6的任一项所述的方法，其特征在于：在已知所述采样的频谱信息的前提下，基于所述基频实现的估计量来实现所述预测函数确定步骤(30)。

8、根据权利要求7所述的方法，其特征在于：所述基频预测函数确定步骤(30)包括条件期望确定子步骤(32)，用于在已知所述频谱信息的前提下，基于从所述模型获得该频谱信息的后验概率来确定所述基频实现的条件期望，该条件期望形成所述估计量。

9、一种用于将源说话者所发出的话音信号转换为转换话音信号的方法，所述转换话音信号的特性相似于目标说话者的话音信号的特性，该方法至少包括：

—变换函数确定步骤(50)，用于确定将所述源说话者的频谱特性变换为所述目标说话者的频谱特性的函数，该步骤是基于所述源说话者和所述目标说话者的话音采样而实现的；以及

—变换步骤(70)，用于借助所述变换函数将所述源说话者的待转换话音信号的频谱信息进行变换，

其特征在于它还包括：

—基频预测函数确定步骤(60)，用于仅根据所述目标说话者的频谱相关信息确定基频预测函数，借助权利要求1至8中的任一项所述的分析方法来获得所述预测函数；以及

—预测步骤(80)，用于通过向所述源说话者的话音信号的已变换频谱信息应用所述基频预测函数，从而预测待转换的所述话音信号的基频。

10、根据权利要求9所述的方法，其特征在于：在已知所述源频谱特性的前提下，基于所述目标频谱特性实现的估计量来实现所述变换函数确定步骤(50)。

11、根据权利要求10所述的方法，其特征在于：所述变换函数确定步骤(50)包括：

—建模子步骤(52)，用于根据谐波信号与噪声信号的和模型对所述源和目标话音采样进行建模；

—校准子步骤(54)，用于校准源和目标采样；以及

—确定子步骤(56)，用于在已知所述源频谱特性的前提下，基于计算所述目标频谱特性实现的条件期望来确定所述变换函数，该条件期望形成所述估计量。

12、根据权利要求9至11的任一项所述的方法，其特征在于：所述变换函数是谱包络变换函数。

13、根据权利要求9至12的任一项所述的方法，其特征在于：它还包括分析步骤(65)，用于分析待转换的所述话音信号，以提供所述频谱相关信息和所述基频相关信息。

14、根据权利要求9至13的任一项所述的方法，其特征在于：它还包括合成步骤(90)，用于至少基于所述已变换的频谱信息和所述预测的基频信息来形成转换话音信号。

15、一种用于将源说话者所发出的话音信号(110)转换成转换话音信号的方法，所述转换话音信号的特性与目标说话者的话音信号的特性相似，所述系统至少包括：

—变换函数确定模块(104)，用于确定将所述源说话者的频谱特性变换为所述目标说话者的频谱特性的函数，该模块在其输入端接收源说话者(100)和目标说话者(102)的话音信号；以及

—变换模块(114)，用于通过由模块(104)所提供的所述变换函数对所述待转换的源说话者的话音信号的频谱信息进行变换，

其特征在于它还包括：

—基频预测函数确定模块(106)，用于仅根据所述目标说话者的频谱相关信息确定基频预测函数，以基于所述目标说话者的话音采样(102)来实现权利要求1至8的任一项所述的分析方法；以及

—基频预测模块(116)，用于通过向由所述变换模块(114)所提供的所述已变换频谱信息应用由所述预测函数确定模块(106)所确定的所述预测函数，来预测所述待转换的话音信号(110)的基频。

16、根据权利要求15所述的系统，其特征在于它还包括：

—分析模块(112)，用于分析所述待转换的话音信号(110)，以在其输出端提供所述待转换的话音信号的频谱相关信息和基频相关信息；以及

—合成模块(118)，用于至少基于由变换模块(114)所提供的所述已变换的频谱信息和由基频预测模块(116)所提供的所述预测的基频信息来形成转换话音信号。

17、根据权利要求15或16所述的系统，其特征在于：所述变换函数确定模块(104)用于提供谱包络变换函数。

18、根据权利要求15至17的任一项所述的系统，其特征在于：该系统用于实现根据权利要求9至12中的任一项所述的话音转换方法。