CN107851433B

CN107851433B - 基于谐波模型和声源-声道特征分解的语音分析合成方法

Info

Publication number: CN107851433B
Application number: CN201580080885.3A
Authority: CN
Inventors: 华侃如
Original assignee: Individual
Current assignee: Individual
Priority date: 2015-12-10
Filing date: 2015-12-10
Publication date: 2021-06-29
Anticipated expiration: 2035-12-10
Also published as: JP6637082B2; US10586526B2; JP2018532131A; US20190013005A1; WO2017098307A1; CN107851433A

Abstract

本发明提出了一种语音分析合成方法以及该方法的一种简化形式。本发明所述方法基于谐波模型，在分析阶段将谐波模型的参数分解为声源特征和声道特征，并于合成阶段重新组合声源和声道特征，生成谐波模型参数。

Description

基于谐波模型和声源-声道特征分解的语音分析合成方法

技术领域

本发明涉及语音合成领域，具体涉及语音分析合成和语音编码子领域。

背景技术

语音分析合成技术是将语音信号进行分析，获得一种中间的表达形式，再根据分析结果重新合成的技术。通过修改由分析获得的中间数据，可以改变语音的特性，例如基频、时长、音色等。

在语音合成和音频处理应用中，语音分析合成系统是重要的组成部分。为了能够灵活地修改语音参数，此类应用往往需要一种参数性(parametric)的高质量语音分析合成方法。

常用的语音分析合成方法基于源-滤波器模型(source-filter model)。该模型将人的发音系统建模为周期脉冲(pulse train)信号和一系列级联滤波器，包括声门波(glottal flow)滤波器、声道(vocal tract)滤波器和唇辐射(lip radiation)滤波器。周期脉冲信号是一系列以基频周期间隔的单位脉冲信号。

源-滤波器模型的一种简化形式在语音分析合成技术中被广泛采用。该简化形式将声门波滤波器和唇辐射滤波器合并纳入声道滤波器。基于该简化模型设计的语音分析合成方法包括PSOLA(基音同步叠加)、STRAIGHT、MLSA(梅尔对数频谱逼近滤波器)等。

当语音基频被修改时，该源-滤波器模型的简化形式暴露出一定缺陷。声门波是通过声门的气体的流动速度，反映了声门的张合程度。因为基频决定了声门的张合频率，所以声门波滤波器的单位脉冲响应的时长应等于基频周期，在不同基频下声门波的形状大致不变，但其周期长度随基频改变。然而源-滤波器模型的简化形式中，声门波滤波器被合并到声道滤波器中，故声门波滤波器的频率响应被假设为独立于基频。该假设与发声原理不符，因此在对基频参数进行修改后，基于该简化模型的语音分析合成方法往往不能产生自然的语音。

为了克服上述缺点，近年有若干新语音分析合成技术被提出，例如SVLN(Degottex,Gilles,et al."Mixed source model and its adapted vocal tract filterestimate for voice transformation and synthesis."Speech Communication 55.2(2013):278-294.)和GSS(Cabral,Joao P.,et al."Glottal spectral separation forspeech synthesis."Selected Topics in Signal Processing,IEEE Journal of 8.2(2014):195-208.)方法。这些方法对声门波和声道分别进行建模。由于唇辐射滤波器的特性接近微分器(differentiator)，该滤波器被并入声门波，形成声门波导数。声门波导数则由Liljencrants-Fant声源模型表示。在分析过程中，首先计算声源模型的参数，然后将语音的幅度频谱除以声源模型的幅度响应，并进行频谱包络预测(spectral envelopeestimation)，获得声道的幅度响应。最后基于最小相位假设，根据声道的幅度响应计算声道的频率响应。合成过程相当于逆向进行分析过程，这里不作赘述。

SVLN和GSS方法在一定程度上使基频经过修改的语音听感更加自然，但是该方法同时具有一些缺陷。首先，合成语音的质量容易受声源参数的准确度影响，当声源参数计算不准确时，合成语音的听感会和输入语音有差异。尤其是当输入语音的录制环境和设备不够理想时，声源参数的计算往往会出现较大误差，使得该方法产生的输出变得不够平稳。其次，Liljencrants-Fant声源模型产生的声门波信号和实际的声门波信号有一定差异，因此该方法无法准确还原输入语音，且使用该方法合成的语音听感上稍为尖锐。

近期提出的HMPD(Degottex,Gilles,and Daniel Erro."A uniform phaserepresentation for the harmonic model in speech synthesis applications."EURASIP Journal on Audio,Speech,and Music Processing 2014.1(2014):1-16.)语音分析合成方法不需要声源模型的参数预测步骤，因此在一定程度上具有更好的鲁棒性。该方法基于谐波模型，在分析阶段先基于最小相位假设预测声道的相位响应，然后从谐波相位向量中减去声道的成分，获得声源的各谐波的相位响应。最后计算声源的相位误差(phase distortion)，其计算方法和特性类似于群延迟。在对基频进行修改时，先对相位误差进行解缠绕(unwrapping)，再以新的基频重新插值谐波的相位误差。该方法的缺陷在于，相位解缠绕容易出错，特别对于高基频的语音，该操作有较大几率产生帧间不连贯的语音参数序列。此外，该方法假设声源的幅度响应为常数，故该方法无法建模基频对声门波幅度响应的影响。

本发明基于谐波模型，对谐波模型的参数进行分解，获得声源和声道参数。利用声门波的形状不变特性，通过保留各谐波对应的声源相位与声源模型所产生的相位之差，有效降低了声源参数预测的准确度对合成质量的影响。本发明所述方法的一种简化形式隐含地建模声源特征，而不依赖于特定的参数性声源模型，从而简化了语音的分析合成步骤。本发明所述方法及其变化形式不需要相位解缠绕操作，因此避免了语音参数不连贯的问题。在语音参数未经修改的前提下，本发明所述方法及其简化形式不会引入谐波幅度或相位误差，能够准确还原谐波模型参数。

发明内容

本发明提出的语音分析合成方法的基本形式中，分析阶段步骤如下：

第一步，对输入语音信号进行基频提取和谐波分析，获得各分析时刻的基频、各谐波的幅度和相位向量。根据谐波的相位向量，计算各谐波的相对相位偏移；

第二步，预测输入语音信号在各分析时刻的声源特征，获得声源模型的参数。根据声源模型的参数计算声源模型的频率响应，包括声源模型的幅度响应和声源模型的相位响应；

第三步，将谐波幅度向量除以声源的幅度响应和唇辐射幅度响应，获得声道的幅度响应；

第四步，根据声道的幅度响应，计算声道的相位响应；

第五步，获得声源的频率响应，包括对应到各谐波的声源幅度向量和声源相位向量；

第六步，计算第五步中获得的对应到各谐波的声源的相位向量和第二步中获得的声源模型的相位响应之差，获得对应到各谐波的相位差向量。

本发明提出的语音分析合成方法的基本形式中，合成阶段步骤如下：

第一步，根据声道的幅度响应，计算声道的相位响应；

第二步，根据声源模型的参数和基频计算声源模型的频率响应，包括声源模型的幅度响应和声源模型的相位响应；

第三步，将声源模型的相位响应和对应到各谐波的声源相位差向量相加，获得对应到各谐波的声源相位向量；

第四步，将声道的幅度响应和对应到各谐波的声源幅度向量相乘，获得各谐波的幅度。将声道的相位响应和对应到各谐波的声源相位向量相加，获得各谐波的相位；

第五步，根据基频和各谐波的幅度及相位，合成语音信号。

本发明提出的语音分析合成方法的简化形式中，分析阶段步骤如下：

第二步，可选地，预测输入语音信号在各分析时刻的声源特征，计算声源的幅度响应；

第三歩，根据谐波幅度向量和可选的声源幅度响应，计算声道的幅度响应；

第四步，根据声道的幅度响应，计算声道的相位响应；

第五步，获得声源的频率响应，包括对应到各谐波的声源幅度向量和声源相位向量。

本发明提出的语音分析合成方法的简化形式中，合成阶段步骤如下：

第一步，根据声道的幅度响应，计算声道的相位响应；

第二步，将声道的幅度响应和对应到各谐波的声源幅度向量相乘，获得各谐波的幅度。将声道的相位响应和对应到各谐波的声源相位向量相加，获得各谐波的相位；

第三步，根据基频和各谐波的幅度及相位，合成语音信号。

附图说明

图1示出了本发明所述的语音分析合成方法的分析部分的数据流程图。

基于图1所示的语音分析方法，图2示出了该方法的合成部分的数据流程图。

图3示出了本发明所述的语音分析合成方法的一种简化形式，其中的分析部分的数据流程图。

基于图3所示的语音分析简化方法，图4示出了该方法的合成部分的数据流程图。

具体实施方式

本发明提出了一种语音分析合成方法以及该方法的一种简化形式。本发明所述方法基于谐波模型，在分析阶段将谐波模型的参数分解为声源特征和声道特征，并于合成阶段重新组合声源和声道特征，生成谐波模型参数。下面从分析阶段开始具体介绍本发明提出的语音分析合成方法的基本形式，其流程如图1所示。

第一步，对输入语音信号进行基频提取和谐波分析，获得各分析时刻的基频f₀、各谐波的幅度a_k和相位θ_k向量。根据谐波的相位向量，计算各谐波的相对相位偏移(relativephase shift，参见Degottex,Gilles,and Daniel Erro."A uniform phaserepresentation for the harmonic model in speech synthesis applications."EURASIP Journal on Audio,Speech,and Music Processing 2014.1(2014):1-16.)；

φ_k＝θ_k-(k+1)θ₀

本发明的发明点在于对谐波模型参数的处理方法，因此对具体采用的基频提取和谐波分析方法不作限定。常用的基频提取方法包括YIN(De Cheveigné,Alain,and HidekiKawahara."YIN,a fundamental frequency estimator for speech and music."TheJournal of the Acoustical Society of America 111.4(2002):1917-1930.)和SRH(Drugman,Thomas,and Abeer Alwan."Joint Robust Voicing Detection and PitchEstimation Based on Residual Harmonics."Interspeech.2011.)等。常用的谐波分析方法包括谱峰值法(peak-picking method，参考McAulay,Robert J.,and ThomasF.Quatieri."Speech analysis/synthesis based on a sinusoidal representation."Acoustics,Speech and Signal Processing,IEEE Transactions on 34.4(1986):744-754.)、最小二乘法(Stylianou,Ioannis.Harmonic plus noise models for speech,combined with statistical methods,for speech and speakermodification.Diss.Ecole Nationale Supérieure des Télécommunications,1996.)等。

第二步，预测输入语音信号在各分析时刻的声源特征，获得声源模型的参数。根据声源模型的参数计算声源模型的频率响应，包括声源模型的幅度响应和声源模型的相位响应。本发明适用于多种声源模型，因此对采用的声源模型及其参数预测方法不作具体限定。这里以较为常用的Liljencrants-Fant声源模型(以下简称LF模型)和MSP(Degottex,Gilles,Axel Roebel,and Xavier Rodet."Phase minimization for glottal modelestimation."Audio,Speech,and Language Processing,IEEE Transactions on 19.5(2011):1080-1090.)参数预测方法为例。具体参数预测步骤如下：

a.生成一系列候选的LF模型参数。这里以Rd参数为例，生成从0.3到2.5以0.1为间隔递进的候选Rd参数序列。对每个候选的Rd参数进行以下操作：

b.根据该Rd参数生成LF模型的te、tp和ta参数，并根据基频和te、tp、ta参数计算LF模型在各谐波频率上的频率响应G^Rd(ω_k)(具体方法参考Fant,Gunnar,JohanLiljencrants,and Qi-guang Lin."A four-parameter model of glottal flow."STL-QPSR 4.1985(1985):1-13和Doval,Boris,Christophe d'Alessandro,and NathalieHenrich."The spectrum of glottal flow models."Acta acustica united withacustica 92.6(2006):1026-1046.)；

c.将LF模型在各谐波频率上的频率响应

乘以线性相位函数，根据te参数使其时间对齐到最大激励瞬间(instant of maximum excitation)；

d.从谐波幅度和相位中移除声源特性，计算各谐波频率上的声道频率响应；

e.根据各谐波频率上的声道频率响应的幅度成分|V(ω_k)|，使用同态滤波方法计算声道的最小相位频率响应V_min(ω_k)，具体方法可参考Lim,Jae S.,and AlanV.Oppenheim.Advanced topics in signal processing.Prentice-Hall,Inc.,1987；

f.生成一系列候选的偏移相位。这里以从-π到π以0.1为间隔递进的候选偏移相位序列为例。

g.针对每个候选的偏移相位，计算经相位偏移的V(ω_k)和V_min(ω_k)的相位成分的欧氏距离；

其中wrap(θ)是相位缠绕(wrapping)函数，K是谐波数量，Δθ是偏移相位。

h.挑选使得min_ΔθE最小的Rd参数，作为该分析时刻的LF模型参数；

i.可选地，为了获得平滑的Rd参数曲线，对上述步骤获得的随时间变化的Rd参数序列进行中值滤波。

获得声源模型的参数后，计算各谐波频率上的声源频率响应G_LF(ω_k)。

第三步，获得声道的幅度响应。将谐波幅度向量除以声源的幅度响应和唇辐射幅度响应，获得声道的幅度响应；

其中唇辐射频率响应被假设为jω_k，相当于一个微分器。

由于唇辐射频率响应独立于声源和声道特性，该频率响应可并入声源频率响应。故第二步中计算声源频率响应时，G_LF(ω_k)可以由声门波导数的频率响应代替，此时本步骤的操作被简化为：

可选地，先根据谐波幅度向量进行频谱包络预测，获得输入语音的频谱包络|S(ω)|，并对各谐波频率上的声源幅度响应|G_LF(ω_k)|进行插值，再将前者的频谱包络除以后者的频谱包络。此时获得的声道幅度响应是定义于任意频率的函数，而不仅包括各谐波频率上的幅度响应：

第四步，根据声道的幅度响应，计算声道的相位响应。因为声道的频率响应可大致建模为一个全极点滤波器，可以假设声道的频率响应具有最小相位性质。在该假设下，可以使用同态滤波方法计算出声道的相位响应arg(V(ω_k))。具体方法可参考Lim,Jae S.,andAlan V.Oppenheim.Advanced topics in signal processing.Prentice-Hall,Inc.,1987；

第五步，获得声源的频率响应G(ω_k)，包括对应到各谐波的声源幅度向量和声源相位向量。其中声源幅度向量沿用第二歩中获得的|G_LF(ω_k)|；声源相位向量使用频谱相除方法，根据去除偏移的谐波相位向量和声道的相位响应计算得到；

arg(G(ω_k))＝φ_k-arg(V(ω_k))

Δφ_k＝arg(G(ω_k))-arg(G_LF(ω_k))

本发明所提出的语音分析合成方法的基本形式中，如图3所示，合成阶段步骤如下：

第一步，根据声道的幅度响应|V(ω_k)|或|V(ω)|，计算声道的相位响应arg(V(ω_k))或arg(V(ω))。具体计算方法和分析阶段第四步相同。若根据定义于任意频率的幅度响应频谱|V(ω)|计算出相位响应arg(V(ω))，须对相位响应在各谐波频率上进行采样，获得arg(V(ω_k))；

第二步，根据声源模型的参数和基频计算声源模型的频率响应G_LF(ω_k)，包括声源模型的幅度响应和声源模型的相位响应。具体方法和分析阶段第二步中b相同；

第三步，将声源模型的相位响应arg(G_LF(ω_k))和对应到各谐波的声源相位差向量Δφ_k相加，获得对应到各谐波的声源相位向量arg(G(ω_k))；

arg(G(ω_k))＝arg(G_LF(ω_k))+Δφ_k

a_k＝|V(ω_k)|·|G_LF(ω_k)|

φ_k＝arg(V(ω_k))+arg(G(ω_k))

第五步，根据基频和各谐波的幅度及相位，合成语音信号。本发明对使用的谐波模型合成方法不作具体限定。常用的合成方法可参考McAulay,Robert J.,and ThomasF.Quatieri."Speech analysis/synthesis based on a sinusoidal representation."Acoustics,Speech and Signal Processing,IEEE Transactions on 34.4(1986):744-754。

使用上述分析合成方法对语音进行基频修改时，只须对分析得到的声道幅度响应以新的基频间隔进行重采样，或使用频谱包络预测算法构建频谱包络再以新的基频间隔进行重采样，然后基于最小相位假设重新计算各谐波频率上的声道相位响应即可；不须要改变声源相位差向量。

由于基频改变时，声门波的大致形状仍保持不变，当不需要修改声源参数时，本发明所述的分析合成方法有一种简化形式。该简化形式不依赖于特定的声源模型，故声源模型参数预测步骤可被省略。如图2所示，该简化形式的分析阶段的具体步骤如下：

第一步，对输入语音信号进行基频提取和谐波分析，获得各分析时刻的基频f₀、各谐波的幅度a_k和相位θ_k向量。根据谐波的相位向量，计算各谐波的相对相位偏移(relativephase shift)；

φ_k＝θ_k-(k+1)θ₀

第二步，可选地，预测输入语音信号在各分析时刻的声源特征，计算声源的幅度响应|G(ω)|；

本步骤中声源特征的预测方法并不一定基于特定的声源模型，该预测方法可以是任意的能够预测声源幅度响应的技术。本发明对使用的声源幅度响应预测方法不作具体限定。

以基于全极点模型的线性预测方法为例，对各分析时刻的语音加窗，使用线性预测方法计算一个二阶全极点滤波器的系数。根据该全极点滤波器的系数，计算幅度响应。

上述方法获得的幅度响应大致是声源的幅度响应和唇辐射的幅度响应之积。由于唇辐射频率响应独立于声源和声道特性，该幅度响应可并入声源幅度响应。

第三歩，获得声道的幅度响应|V(ω_k)|或|V(ω)|；

若声源的幅度响应为未知，则假设声源的幅度响应为常数(即|G(ω)|＝1)，将声道的幅度响应定义为谐波幅度向量；若声源的幅度响应为已知，则将谐波幅度向量除以声源的幅度响应，获得声道的幅度响应；

可选地，先根据谐波幅度向量进行频谱包络预测，获得输入语音的频谱包络|S(ω)|，再将该频谱包络除以声源的幅度响应。此时获得的声道幅度响应是定义于任意频率的函数，而不仅包括各谐波频率上的幅度响应：

第四步，根据声道的幅度响应，计算声道的相位响应arg(V(ω))。具体方法和本发明所述方法的基本形式的分析阶段第四步中相同；

第五步，获得声源的频率响应，包括对应到各谐波的声源幅度向量和声源相位向量。具体方法为：声源幅度向量已在第二步中获得；将谐波相位向量与声道的相位响应相减获得声源相位向量。

arg(G(ω_k))＝φ_k-arg(V(ω_k))

本发明所述的语音分析合成技术的简化形式中，如图4所示，合成阶段的具体步骤如下：

第一步，根据声道的幅度响应|V(ω_k)|或|V(ω)|，计算声道的相位响应arg(V(ω_k))或arg(V(ω))。具体计算方法和和本发明所述方法的基本形式的分析阶段第四步中相同。若根据连续的幅度响应频谱|V(ω)|计算出相位响应arg(V(ω))，须对相位响应进行插值，获得arg(V(ω_k))；

a_k＝|V(ω_k)|·|G(ω_k)|

φ_k＝arg(V(ω_k))+arg(G(ω_k))

第三步，根据基频和各谐波的幅度及相位，合成语音信号。本发明对使用的谐波模型合成方法不作具体限定。

本发明所述的语音分析合成技术的基本形式适用于包括声源参数修改的应用；该技术的简化形式适用于不包括声源参数修改的应用。

本发明所述的语音分析合成技术的基本形式通过记录声源模型的相位和使用频域反向滤波得到的声源相位之差，并将该相位差对应到各个谐波，使得输入语音的相位特性被更好地保留，且减轻了声源模型参数预测误差对合成语音质量的影响。该技术的简化形式基于声门波的形状不变假设，将声源特性对应到各个谐波，而不需要显式的声源模型参数及其参数预测步骤。该简化形式彻底避免了声源模型参数预测误差问题，大幅简化了分析合成步骤，且提高了运行效率。

本发明所述的语音分析合成技术亦可适用于正弦模型(Sinusoidal Model)、谐波加噪声模型(Harmonic+Noise Model)、谐波加随机模型(Harmonic+Stochastic Model)等。修改本发明所述的方法使其适用于上述模型之过程，属于本领域技术人员公知的常识，故不具体介绍。

Claims

1.一种基于谐波模型(Harmonic Model)的语音分析方法，其特征在于对谐波模型的参数进行声源和声道特征分解，其中声源特征包括声源模型参数和各对应到各谐波的相位差，该分析方法具体包括以下步骤：

a)对输入语音信号进行谐波分析，获得各分析时刻的基频、谐波幅度向量和谐波相位向量；

b)预测输入语音信号在各分析时刻的声源特征，获得声源模型的参数,根据声源模型的参数计算声源模型的频率响应，包括声源模型的幅度响应和声源模型的相位响应；

c)获得声道的幅度响应；将谐波幅度向量除以声源的幅度响应，获得声道的幅度响应；

d)根据声道的幅度响应，计算声道的相位响应，具体方法包括基于最小相位假设，使用同态滤波方法获得相位响应；

e)获得声源的频率响应，包括声源相位向量，具体方法为：将谐波相位向量与声道的相位响应相减获得声源相位向量；

f)计算步骤e中获得的对应到各谐波的声源的相位向量和步骤b中获得的声源模型的相位响应之差，获得对应到各谐波的相位差向量。

2.一种基于谐波模型的语音分析方法，其特征在于，对谐波模型的参数进行声源和声道特征分解，其中声源特征包括各对应到各谐波的幅度向量和相位向量，该分析方法具体包括以下步骤：

b)可选地，预测输入语音信号在各分析时刻的声源特征，计算声源的幅度响应；

c)获得声道的幅度响应，具体包含如下步骤：若声源的幅度响应为未知，则将声道的幅度响应定义为谐波幅度向量；若声源的幅度响应为已知，则将谐波幅度向量除以声源的幅度响应，获得声道的幅度响应；

e)获得声源的频率响应，包括声源相位向量，具体方法为：将谐波相位向量与声道的相位响应相减获得声源相位向量。

3.一种基于谐波模型的语音合成方法，其特征在于对分解后和的声源和声道特征进行重新组合，并将其转化成适用于谐波模型的参数，其中声源特征包括声源模型参数和对应到各谐波的声源相位差向量，声道特征包括声道的幅度响应，该合成方法具体包括以下步骤：

a)根据声道的幅度响应，计算声道的相位响应，具体方法包括基于最小相位假设，使用同态滤波方法获得相位响应；

b)根据声源模型的参数计算声源模型的频率响应，包括声源模型的幅度响应和声源模型的相位响应；

c)将声源模型的相位响应和对应到各谐波的声源相位差向量相加，获得对应到各谐波的声源相位向量；

d)将各谐波频率上的声道的幅度响应和声源幅度响应相乘，获得各谐波的幅度；将各谐波频率上的声道的相位响应和对应到各谐波的声源相位向量相加，获得各谐波的相位；

e)根据基频以及各谐波的幅度和相位，合成语音信号。

4.一种基于谐波模型的语音合成方法，其特征在于对分解后和的声源和声道特征进行重新组合，并将其转化成适用于谐波模型的参数，其中声源特征包括对应到各谐波的声源幅度向量和声源相位向量，声道特征包括声道的幅度响应，该合成方法具体包括以下步骤：

b)将各谐波频率上的声道的幅度响应和对应到各谐波的声源幅度向量相乘，获得各谐波的幅度；将各谐波频率上的声道的相位响应和对应到各谐波的声源相位向量相加，获得各谐波的相位；

c)根据基频以及各谐波的幅度和相位，合成语音信号。