CN107851433B - 基于谐波模型和声源-声道特征分解的语音分析合成方法 - Google Patents
基于谐波模型和声源-声道特征分解的语音分析合成方法 Download PDFInfo
- Publication number
- CN107851433B CN107851433B CN201580080885.3A CN201580080885A CN107851433B CN 107851433 B CN107851433 B CN 107851433B CN 201580080885 A CN201580080885 A CN 201580080885A CN 107851433 B CN107851433 B CN 107851433B
- Authority
- CN
- China
- Prior art keywords
- sound source
- harmonic
- phase
- response
- amplitude
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 79
- 238000000354 decomposition reaction Methods 0.000 title claims description 3
- 238000001308 synthesis method Methods 0.000 title abstract description 22
- 238000000034 method Methods 0.000 claims abstract description 69
- 230000004044 response Effects 0.000 claims description 158
- 239000013598 vector Substances 0.000 claims description 72
- 230000001755 vocal effect Effects 0.000 claims description 24
- 230000002194 synthesizing effect Effects 0.000 claims description 8
- 238000001914 filtration Methods 0.000 claims description 7
- 230000015572 biosynthetic process Effects 0.000 abstract description 29
- 238000003786 synthesis reaction Methods 0.000 abstract description 29
- 238000012545 processing Methods 0.000 description 10
- 230000005855 radiation Effects 0.000 description 10
- 230000003595 spectral effect Effects 0.000 description 10
- 238000001228 spectrum Methods 0.000 description 8
- QTBSBXVTEAMEQO-UHFFFAOYSA-N Acetic acid Chemical compound CC(O)=O QTBSBXVTEAMEQO-UHFFFAOYSA-N 0.000 description 6
- 238000000605 extraction Methods 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 238000012986 modification Methods 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 210000002816 gill Anatomy 0.000 description 3
- 230000010363 phase shift Effects 0.000 description 3
- 230000005284 excitation Effects 0.000 description 2
- 230000000737 periodic effect Effects 0.000 description 2
- SQHUBVCIVAIUAB-UHFFFAOYSA-N 2-hydroxy-2-methylpropanedial Chemical compound O=CC(O)(C)C=O SQHUBVCIVAIUAB-UHFFFAOYSA-N 0.000 description 1
- 241000928106 Alain Species 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000001427 coherent effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000035807 sensation Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000009885 systemic effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/04—Details of speech synthesis systems, e.g. synthesiser structure or memory management
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/45—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/75—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 for modelling vocal tract parameters
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Circuit For Audible Band Transducer (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
Abstract
本发明提出了一种语音分析合成方法以及该方法的一种简化形式。本发明所述方法基于谐波模型,在分析阶段将谐波模型的参数分解为声源特征和声道特征,并于合成阶段重新组合声源和声道特征,生成谐波模型参数。
Description
技术领域
本发明涉及语音合成领域,具体涉及语音分析合成和语音编码子领域。
背景技术
语音分析合成技术是将语音信号进行分析,获得一种中间的表达形式,再根据分析结果重新合成的技术。通过修改由分析获得的中间数据,可以改变语音的特性,例如基频、时长、音色等。
在语音合成和音频处理应用中,语音分析合成系统是重要的组成部分。为了能够灵活地修改语音参数,此类应用往往需要一种参数性(parametric)的高质量语音分析合成方法。
常用的语音分析合成方法基于源-滤波器模型(source-filter model)。该模型将人的发音系统建模为周期脉冲(pulse train)信号和一系列级联滤波器,包括声门波(glottal flow)滤波器、声道(vocal tract)滤波器和唇辐射(lip radiation)滤波器。周期脉冲信号是一系列以基频周期间隔的单位脉冲信号。
源-滤波器模型的一种简化形式在语音分析合成技术中被广泛采用。该简化形式将声门波滤波器和唇辐射滤波器合并纳入声道滤波器。基于该简化模型设计的语音分析合成方法包括PSOLA(基音同步叠加)、STRAIGHT、MLSA(梅尔对数频谱逼近滤波器)等。
当语音基频被修改时,该源-滤波器模型的简化形式暴露出一定缺陷。声门波是通过声门的气体的流动速度,反映了声门的张合程度。因为基频决定了声门的张合频率,所以声门波滤波器的单位脉冲响应的时长应等于基频周期,在不同基频下声门波的形状大致不变,但其周期长度随基频改变。然而源-滤波器模型的简化形式中,声门波滤波器被合并到声道滤波器中,故声门波滤波器的频率响应被假设为独立于基频。该假设与发声原理不符,因此在对基频参数进行修改后,基于该简化模型的语音分析合成方法往往不能产生自然的语音。
为了克服上述缺点,近年有若干新语音分析合成技术被提出,例如SVLN(Degottex,Gilles,et al."Mixed source model and its adapted vocal tract filterestimate for voice transformation and synthesis."Speech Communication 55.2(2013):278-294.)和GSS(Cabral,Joao P.,et al."Glottal spectral separation forspeech synthesis."Selected Topics in Signal Processing,IEEE Journal of 8.2(2014):195-208.)方法。这些方法对声门波和声道分别进行建模。由于唇辐射滤波器的特性接近微分器(differentiator),该滤波器被并入声门波,形成声门波导数。声门波导数则由Liljencrants-Fant声源模型表示。在分析过程中,首先计算声源模型的参数,然后将语音的幅度频谱除以声源模型的幅度响应,并进行频谱包络预测(spectral envelopeestimation),获得声道的幅度响应。最后基于最小相位假设,根据声道的幅度响应计算声道的频率响应。合成过程相当于逆向进行分析过程,这里不作赘述。
SVLN和GSS方法在一定程度上使基频经过修改的语音听感更加自然,但是该方法同时具有一些缺陷。首先,合成语音的质量容易受声源参数的准确度影响,当声源参数计算不准确时,合成语音的听感会和输入语音有差异。尤其是当输入语音的录制环境和设备不够理想时,声源参数的计算往往会出现较大误差,使得该方法产生的输出变得不够平稳。其次,Liljencrants-Fant声源模型产生的声门波信号和实际的声门波信号有一定差异,因此该方法无法准确还原输入语音,且使用该方法合成的语音听感上稍为尖锐。
近期提出的HMPD(Degottex,Gilles,and Daniel Erro."A uniform phaserepresentation for the harmonic model in speech synthesis applications."EURASIP Journal on Audio,Speech,and Music Processing 2014.1(2014):1-16.)语音分析合成方法不需要声源模型的参数预测步骤,因此在一定程度上具有更好的鲁棒性。该方法基于谐波模型,在分析阶段先基于最小相位假设预测声道的相位响应,然后从谐波相位向量中减去声道的成分,获得声源的各谐波的相位响应。最后计算声源的相位误差(phase distortion),其计算方法和特性类似于群延迟。在对基频进行修改时,先对相位误差进行解缠绕(unwrapping),再以新的基频重新插值谐波的相位误差。该方法的缺陷在于,相位解缠绕容易出错,特别对于高基频的语音,该操作有较大几率产生帧间不连贯的语音参数序列。此外,该方法假设声源的幅度响应为常数,故该方法无法建模基频对声门波幅度响应的影响。
本发明基于谐波模型,对谐波模型的参数进行分解,获得声源和声道参数。利用声门波的形状不变特性,通过保留各谐波对应的声源相位与声源模型所产生的相位之差,有效降低了声源参数预测的准确度对合成质量的影响。本发明所述方法的一种简化形式隐含地建模声源特征,而不依赖于特定的参数性声源模型,从而简化了语音的分析合成步骤。本发明所述方法及其变化形式不需要相位解缠绕操作,因此避免了语音参数不连贯的问题。在语音参数未经修改的前提下,本发明所述方法及其简化形式不会引入谐波幅度或相位误差,能够准确还原谐波模型参数。
发明内容
本发明提出了一种语音分析合成方法以及该方法的一种简化形式。本发明所述方法基于谐波模型,在分析阶段将谐波模型的参数分解为声源特征和声道特征,并于合成阶段重新组合声源和声道特征,生成谐波模型参数。
本发明提出的语音分析合成方法的基本形式中,分析阶段步骤如下:
第一步,对输入语音信号进行基频提取和谐波分析,获得各分析时刻的基频、各谐波的幅度和相位向量。根据谐波的相位向量,计算各谐波的相对相位偏移;
第二步,预测输入语音信号在各分析时刻的声源特征,获得声源模型的参数。根据声源模型的参数计算声源模型的频率响应,包括声源模型的幅度响应和声源模型的相位响应;
第三步,将谐波幅度向量除以声源的幅度响应和唇辐射幅度响应,获得声道的幅度响应;
第四步,根据声道的幅度响应,计算声道的相位响应;
第五步,获得声源的频率响应,包括对应到各谐波的声源幅度向量和声源相位向量;
第六步,计算第五步中获得的对应到各谐波的声源的相位向量和第二步中获得的声源模型的相位响应之差,获得对应到各谐波的相位差向量。
本发明提出的语音分析合成方法的基本形式中,合成阶段步骤如下:
第一步,根据声道的幅度响应,计算声道的相位响应;
第二步,根据声源模型的参数和基频计算声源模型的频率响应,包括声源模型的幅度响应和声源模型的相位响应;
第三步,将声源模型的相位响应和对应到各谐波的声源相位差向量相加,获得对应到各谐波的声源相位向量;
第四步,将声道的幅度响应和对应到各谐波的声源幅度向量相乘,获得各谐波的幅度。将声道的相位响应和对应到各谐波的声源相位向量相加,获得各谐波的相位;
第五步,根据基频和各谐波的幅度及相位,合成语音信号。
本发明提出的语音分析合成方法的简化形式中,分析阶段步骤如下:
第一步,对输入语音信号进行基频提取和谐波分析,获得各分析时刻的基频、各谐波的幅度和相位向量。根据谐波的相位向量,计算各谐波的相对相位偏移;
第二步,可选地,预测输入语音信号在各分析时刻的声源特征,计算声源的幅度响应;
第三歩,根据谐波幅度向量和可选的声源幅度响应,计算声道的幅度响应;
第四步,根据声道的幅度响应,计算声道的相位响应;
第五步,获得声源的频率响应,包括对应到各谐波的声源幅度向量和声源相位向量。
本发明提出的语音分析合成方法的简化形式中,合成阶段步骤如下:
第一步,根据声道的幅度响应,计算声道的相位响应;
第二步,将声道的幅度响应和对应到各谐波的声源幅度向量相乘,获得各谐波的幅度。将声道的相位响应和对应到各谐波的声源相位向量相加,获得各谐波的相位;
第三步,根据基频和各谐波的幅度及相位,合成语音信号。
附图说明
图1示出了本发明所述的语音分析合成方法的分析部分的数据流程图。
基于图1所示的语音分析方法,图2示出了该方法的合成部分的数据流程图。
图3示出了本发明所述的语音分析合成方法的一种简化形式,其中的分析部分的数据流程图。
基于图3所示的语音分析简化方法,图4示出了该方法的合成部分的数据流程图。
具体实施方式
本发明提出了一种语音分析合成方法以及该方法的一种简化形式。本发明所述方法基于谐波模型,在分析阶段将谐波模型的参数分解为声源特征和声道特征,并于合成阶段重新组合声源和声道特征,生成谐波模型参数。下面从分析阶段开始具体介绍本发明提出的语音分析合成方法的基本形式,其流程如图1所示。
第一步,对输入语音信号进行基频提取和谐波分析,获得各分析时刻的基频f0、各谐波的幅度ak和相位θk向量。根据谐波的相位向量,计算各谐波的相对相位偏移(relativephase shift,参见Degottex,Gilles,and Daniel Erro."A uniform phaserepresentation for the harmonic model in speech synthesis applications."EURASIP Journal on Audio,Speech,and Music Processing 2014.1(2014):1-16.);
φk=θk-(k+1)θ0
本发明的发明点在于对谐波模型参数的处理方法,因此对具体采用的基频提取和谐波分析方法不作限定。常用的基频提取方法包括YIN(De Cheveigné,Alain,and HidekiKawahara."YIN,a fundamental frequency estimator for speech and music."TheJournal of the Acoustical Society of America 111.4(2002):1917-1930.)和SRH(Drugman,Thomas,and Abeer Alwan."Joint Robust Voicing Detection and PitchEstimation Based on Residual Harmonics."Interspeech.2011.)等。常用的谐波分析方法包括谱峰值法(peak-picking method,参考McAulay,Robert J.,and ThomasF.Quatieri."Speech analysis/synthesis based on a sinusoidal representation."Acoustics,Speech and Signal Processing,IEEE Transactions on 34.4(1986):744-754.)、最小二乘法(Stylianou,Ioannis.Harmonic plus noise models for speech,combined with statistical methods,for speech and speakermodification.Diss.Ecole Nationale Supérieure des Télécommunications,1996.)等。
第二步,预测输入语音信号在各分析时刻的声源特征,获得声源模型的参数。根据声源模型的参数计算声源模型的频率响应,包括声源模型的幅度响应和声源模型的相位响应。本发明适用于多种声源模型,因此对采用的声源模型及其参数预测方法不作具体限定。这里以较为常用的Liljencrants-Fant声源模型(以下简称LF模型)和MSP(Degottex,Gilles,Axel Roebel,and Xavier Rodet."Phase minimization for glottal modelestimation."Audio,Speech,and Language Processing,IEEE Transactions on 19.5(2011):1080-1090.)参数预测方法为例。具体参数预测步骤如下:
a.生成一系列候选的LF模型参数。这里以Rd参数为例,生成从0.3到2.5以0.1为间隔递进的候选Rd参数序列。对每个候选的Rd参数进行以下操作:
b.根据该Rd参数生成LF模型的te、tp和ta参数,并根据基频和te、tp、ta参数计算LF模型在各谐波频率上的频率响应GRd(ωk)(具体方法参考Fant,Gunnar,JohanLiljencrants,and Qi-guang Lin."A four-parameter model of glottal flow."STL-QPSR 4.1985(1985):1-13和Doval,Boris,Christophe d'Alessandro,and NathalieHenrich."The spectrum of glottal flow models."Acta acustica united withacustica 92.6(2006):1026-1046.);
d.从谐波幅度和相位中移除声源特性,计算各谐波频率上的声道频率响应;
e.根据各谐波频率上的声道频率响应的幅度成分|V(ωk)|,使用同态滤波方法计算声道的最小相位频率响应Vmin(ωk),具体方法可参考Lim,Jae S.,and AlanV.Oppenheim.Advanced topics in signal processing.Prentice-Hall,Inc.,1987;
f.生成一系列候选的偏移相位。这里以从-π到π以0.1为间隔递进的候选偏移相位序列为例。
g.针对每个候选的偏移相位,计算经相位偏移的V(ωk)和Vmin(ωk)的相位成分的欧氏距离;
其中wrap(θ)是相位缠绕(wrapping)函数,K是谐波数量,Δθ是偏移相位。
h.挑选使得minΔθE最小的Rd参数,作为该分析时刻的LF模型参数;
i.可选地,为了获得平滑的Rd参数曲线,对上述步骤获得的随时间变化的Rd参数序列进行中值滤波。
获得声源模型的参数后,计算各谐波频率上的声源频率响应GLF(ωk)。
第三步,获得声道的幅度响应。将谐波幅度向量除以声源的幅度响应和唇辐射幅度响应,获得声道的幅度响应;
其中唇辐射频率响应被假设为jωk,相当于一个微分器。
由于唇辐射频率响应独立于声源和声道特性,该频率响应可并入声源频率响应。故第二步中计算声源频率响应时,GLF(ωk)可以由声门波导数的频率响应代替,此时本步骤的操作被简化为:
可选地,先根据谐波幅度向量进行频谱包络预测,获得输入语音的频谱包络|S(ω)|,并对各谐波频率上的声源幅度响应|GLF(ωk)|进行插值,再将前者的频谱包络除以后者的频谱包络。此时获得的声道幅度响应是定义于任意频率的函数,而不仅包括各谐波频率上的幅度响应:
第四步,根据声道的幅度响应,计算声道的相位响应。因为声道的频率响应可大致建模为一个全极点滤波器,可以假设声道的频率响应具有最小相位性质。在该假设下,可以使用同态滤波方法计算出声道的相位响应arg(V(ωk))。具体方法可参考Lim,Jae S.,andAlan V.Oppenheim.Advanced topics in signal processing.Prentice-Hall,Inc.,1987;
第五步,获得声源的频率响应G(ωk),包括对应到各谐波的声源幅度向量和声源相位向量。其中声源幅度向量沿用第二歩中获得的|GLF(ωk)|;声源相位向量使用频谱相除方法,根据去除偏移的谐波相位向量和声道的相位响应计算得到;
arg(G(ωk))=φk-arg(V(ωk))
第六步,计算第五步中获得的对应到各谐波的声源的相位向量和第二步中获得的声源模型的相位响应之差,获得对应到各谐波的相位差向量。
Δφk=arg(G(ωk))-arg(GLF(ωk))
本发明所提出的语音分析合成方法的基本形式中,如图3所示,合成阶段步骤如下:
第一步,根据声道的幅度响应|V(ωk)|或|V(ω)|,计算声道的相位响应arg(V(ωk))或arg(V(ω))。具体计算方法和分析阶段第四步相同。若根据定义于任意频率的幅度响应频谱|V(ω)|计算出相位响应arg(V(ω)),须对相位响应在各谐波频率上进行采样,获得arg(V(ωk));
第二步,根据声源模型的参数和基频计算声源模型的频率响应GLF(ωk),包括声源模型的幅度响应和声源模型的相位响应。具体方法和分析阶段第二步中b相同;
第三步,将声源模型的相位响应arg(GLF(ωk))和对应到各谐波的声源相位差向量Δφk相加,获得对应到各谐波的声源相位向量arg(G(ωk));
arg(G(ωk))=arg(GLF(ωk))+Δφk
第四步,将声道的幅度响应和对应到各谐波的声源幅度向量相乘,获得各谐波的幅度。将声道的相位响应和对应到各谐波的声源相位向量相加,获得各谐波的相位;
ak=|V(ωk)|·|GLF(ωk)|
φk=arg(V(ωk))+arg(G(ωk))
第五步,根据基频和各谐波的幅度及相位,合成语音信号。本发明对使用的谐波模型合成方法不作具体限定。常用的合成方法可参考McAulay,Robert J.,and ThomasF.Quatieri."Speech analysis/synthesis based on a sinusoidal representation."Acoustics,Speech and Signal Processing,IEEE Transactions on 34.4(1986):744-754。
使用上述分析合成方法对语音进行基频修改时,只须对分析得到的声道幅度响应以新的基频间隔进行重采样,或使用频谱包络预测算法构建频谱包络再以新的基频间隔进行重采样,然后基于最小相位假设重新计算各谐波频率上的声道相位响应即可;不须要改变声源相位差向量。
由于基频改变时,声门波的大致形状仍保持不变,当不需要修改声源参数时,本发明所述的分析合成方法有一种简化形式。该简化形式不依赖于特定的声源模型,故声源模型参数预测步骤可被省略。如图2所示,该简化形式的分析阶段的具体步骤如下:
第一步,对输入语音信号进行基频提取和谐波分析,获得各分析时刻的基频f0、各谐波的幅度ak和相位θk向量。根据谐波的相位向量,计算各谐波的相对相位偏移(relativephase shift);
φk=θk-(k+1)θ0
第二步,可选地,预测输入语音信号在各分析时刻的声源特征,计算声源的幅度响应|G(ω)|;
本步骤中声源特征的预测方法并不一定基于特定的声源模型,该预测方法可以是任意的能够预测声源幅度响应的技术。本发明对使用的声源幅度响应预测方法不作具体限定。
以基于全极点模型的线性预测方法为例,对各分析时刻的语音加窗,使用线性预测方法计算一个二阶全极点滤波器的系数。根据该全极点滤波器的系数,计算幅度响应。
上述方法获得的幅度响应大致是声源的幅度响应和唇辐射的幅度响应之积。由于唇辐射频率响应独立于声源和声道特性,该幅度响应可并入声源幅度响应。
第三歩,获得声道的幅度响应|V(ωk)|或|V(ω)|;
若声源的幅度响应为未知,则假设声源的幅度响应为常数(即|G(ω)|=1),将声道的幅度响应定义为谐波幅度向量;若声源的幅度响应为已知,则将谐波幅度向量除以声源的幅度响应,获得声道的幅度响应;
可选地,先根据谐波幅度向量进行频谱包络预测,获得输入语音的频谱包络|S(ω)|,再将该频谱包络除以声源的幅度响应。此时获得的声道幅度响应是定义于任意频率的函数,而不仅包括各谐波频率上的幅度响应:
第四步,根据声道的幅度响应,计算声道的相位响应arg(V(ω))。具体方法和本发明所述方法的基本形式的分析阶段第四步中相同;
第五步,获得声源的频率响应,包括对应到各谐波的声源幅度向量和声源相位向量。具体方法为:声源幅度向量已在第二步中获得;将谐波相位向量与声道的相位响应相减获得声源相位向量。
arg(G(ωk))=φk-arg(V(ωk))
本发明所述的语音分析合成技术的简化形式中,如图4所示,合成阶段的具体步骤如下:
第一步,根据声道的幅度响应|V(ωk)|或|V(ω)|,计算声道的相位响应arg(V(ωk))或arg(V(ω))。具体计算方法和和本发明所述方法的基本形式的分析阶段第四步中相同。若根据连续的幅度响应频谱|V(ω)|计算出相位响应arg(V(ω)),须对相位响应进行插值,获得arg(V(ωk));
第二步,将声道的幅度响应和对应到各谐波的声源幅度向量相乘,获得各谐波的幅度。将声道的相位响应和对应到各谐波的声源相位向量相加,获得各谐波的相位;
ak=|V(ωk)|·|G(ωk)|
φk=arg(V(ωk))+arg(G(ωk))
第三步,根据基频和各谐波的幅度及相位,合成语音信号。本发明对使用的谐波模型合成方法不作具体限定。
本发明所述的语音分析合成技术的基本形式适用于包括声源参数修改的应用;该技术的简化形式适用于不包括声源参数修改的应用。
本发明所述的语音分析合成技术的基本形式通过记录声源模型的相位和使用频域反向滤波得到的声源相位之差,并将该相位差对应到各个谐波,使得输入语音的相位特性被更好地保留,且减轻了声源模型参数预测误差对合成语音质量的影响。该技术的简化形式基于声门波的形状不变假设,将声源特性对应到各个谐波,而不需要显式的声源模型参数及其参数预测步骤。该简化形式彻底避免了声源模型参数预测误差问题,大幅简化了分析合成步骤,且提高了运行效率。
本发明所述的语音分析合成技术亦可适用于正弦模型(Sinusoidal Model)、谐波加噪声模型(Harmonic+Noise Model)、谐波加随机模型(Harmonic+Stochastic Model)等。修改本发明所述的方法使其适用于上述模型之过程,属于本领域技术人员公知的常识,故不具体介绍。
Claims (4)
1.一种基于谐波模型(Harmonic Model)的语音分析方法,其特征在于对谐波模型的参数进行声源和声道特征分解,其中声源特征包括声源模型参数和各对应到各谐波的相位差,该分析方法具体包括以下步骤:
a)对输入语音信号进行谐波分析,获得各分析时刻的基频、谐波幅度向量和谐波相位向量;
b)预测输入语音信号在各分析时刻的声源特征,获得声源模型的参数,根据声源模型的参数计算声源模型的频率响应,包括声源模型的幅度响应和声源模型的相位响应;
c)获得声道的幅度响应;将谐波幅度向量除以声源的幅度响应,获得声道的幅度响应;
d)根据声道的幅度响应,计算声道的相位响应,具体方法包括基于最小相位假设,使用同态滤波方法获得相位响应;
e)获得声源的频率响应,包括声源相位向量,具体方法为:将谐波相位向量与声道的相位响应相减获得声源相位向量;
f)计算步骤e中获得的对应到各谐波的声源的相位向量和步骤b中获得的声源模型的相位响应之差,获得对应到各谐波的相位差向量。
2.一种基于谐波模型的语音分析方法,其特征在于,对谐波模型的参数进行声源和声道特征分解,其中声源特征包括各对应到各谐波的幅度向量和相位向量,该分析方法具体包括以下步骤:
a)对输入语音信号进行谐波分析,获得各分析时刻的基频、谐波幅度向量和谐波相位向量;
b)可选地,预测输入语音信号在各分析时刻的声源特征,计算声源的幅度响应;
c)获得声道的幅度响应,具体包含如下步骤:若声源的幅度响应为未知,则将声道的幅度响应定义为谐波幅度向量;若声源的幅度响应为已知,则将谐波幅度向量除以声源的幅度响应,获得声道的幅度响应;
d)根据声道的幅度响应,计算声道的相位响应,具体方法包括基于最小相位假设,使用同态滤波方法获得相位响应;
e)获得声源的频率响应,包括声源相位向量,具体方法为:将谐波相位向量与声道的相位响应相减获得声源相位向量。
3.一种基于谐波模型的语音合成方法,其特征在于对分解后和的声源和声道特征进行重新组合,并将其转化成适用于谐波模型的参数,其中声源特征包括声源模型参数和对应到各谐波的声源相位差向量,声道特征包括声道的幅度响应,该合成方法具体包括以下步骤:
a)根据声道的幅度响应,计算声道的相位响应,具体方法包括基于最小相位假设,使用同态滤波方法获得相位响应;
b)根据声源模型的参数计算声源模型的频率响应,包括声源模型的幅度响应和声源模型的相位响应;
c)将声源模型的相位响应和对应到各谐波的声源相位差向量相加,获得对应到各谐波的声源相位向量;
d)将各谐波频率上的声道的幅度响应和声源幅度响应相乘,获得各谐波的幅度;将各谐波频率上的声道的相位响应和对应到各谐波的声源相位向量相加,获得各谐波的相位;
e)根据基频以及各谐波的幅度和相位,合成语音信号。
4.一种基于谐波模型的语音合成方法,其特征在于对分解后和的声源和声道特征进行重新组合,并将其转化成适用于谐波模型的参数,其中声源特征包括对应到各谐波的声源幅度向量和声源相位向量,声道特征包括声道的幅度响应,该合成方法具体包括以下步骤:
a)根据声道的幅度响应,计算声道的相位响应,具体方法包括基于最小相位假设,使用同态滤波方法获得相位响应;
b)将各谐波频率上的声道的幅度响应和对应到各谐波的声源幅度向量相乘,获得各谐波的幅度;将各谐波频率上的声道的相位响应和对应到各谐波的声源相位向量相加,获得各谐波的相位;
c)根据基频以及各谐波的幅度和相位,合成语音信号。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/IB2015/059495 WO2017098307A1 (zh) | 2015-12-10 | 2015-12-10 | 基于谐波模型和声源-声道特征分解的语音分析合成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107851433A CN107851433A (zh) | 2018-03-27 |
CN107851433B true CN107851433B (zh) | 2021-06-29 |
Family
ID=59013771
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201580080885.3A Active CN107851433B (zh) | 2015-12-10 | 2015-12-10 | 基于谐波模型和声源-声道特征分解的语音分析合成方法 |
Country Status (4)
Country | Link |
---|---|
US (1) | US10586526B2 (zh) |
JP (1) | JP6637082B2 (zh) |
CN (1) | CN107851433B (zh) |
WO (1) | WO2017098307A1 (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11869482B2 (en) * | 2018-09-30 | 2024-01-09 | Microsoft Technology Licensing, Llc | Speech waveform generation |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1619666A1 (en) * | 2003-05-01 | 2006-01-25 | Fujitsu Limited | Speech decoder, speech decoding method, program, recording medium |
CN100369111C (zh) * | 2002-10-31 | 2008-02-13 | 富士通株式会社 | 话音增强装置 |
CN101552006A (zh) * | 2009-05-12 | 2009-10-07 | 武汉大学 | 加窗信号mdct域的能量及相位调整方法及其装置 |
CN101981612A (zh) * | 2008-09-26 | 2011-02-23 | 松下电器产业株式会社 | 声音分析装置以及声音分析方法 |
CN103544949A (zh) * | 2012-07-12 | 2014-01-29 | 哈曼贝克自动系统股份有限公司 | 发动机声音合成 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5023910A (en) * | 1988-04-08 | 1991-06-11 | At&T Bell Laboratories | Vector quantization in a harmonic speech coding arrangement |
DE69702261T2 (de) * | 1996-07-30 | 2001-01-25 | British Telecomm | Sprachkodierung |
JPH11219200A (ja) * | 1998-01-30 | 1999-08-10 | Sony Corp | 遅延検出装置及び方法、並びに音声符号化装置及び方法 |
US9254383B2 (en) * | 2009-03-20 | 2016-02-09 | ElectroCore, LLC | Devices and methods for monitoring non-invasive vagus nerve stimulation |
JP5085700B2 (ja) * | 2010-08-30 | 2012-11-28 | 株式会社東芝 | 音声合成装置、音声合成方法およびプログラム |
US9865247B2 (en) * | 2014-07-03 | 2018-01-09 | Google Inc. | Devices and methods for use of phase information in speech synthesis systems |
-
2015
- 2015-12-10 JP JP2017567786A patent/JP6637082B2/ja active Active
- 2015-12-10 WO PCT/IB2015/059495 patent/WO2017098307A1/zh active Application Filing
- 2015-12-10 CN CN201580080885.3A patent/CN107851433B/zh active Active
- 2015-12-10 US US15/745,307 patent/US10586526B2/en not_active Expired - Fee Related
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN100369111C (zh) * | 2002-10-31 | 2008-02-13 | 富士通株式会社 | 话音增强装置 |
EP1619666A1 (en) * | 2003-05-01 | 2006-01-25 | Fujitsu Limited | Speech decoder, speech decoding method, program, recording medium |
CN101981612A (zh) * | 2008-09-26 | 2011-02-23 | 松下电器产业株式会社 | 声音分析装置以及声音分析方法 |
CN101552006A (zh) * | 2009-05-12 | 2009-10-07 | 武汉大学 | 加窗信号mdct域的能量及相位调整方法及其装置 |
CN103544949A (zh) * | 2012-07-12 | 2014-01-29 | 哈曼贝克自动系统股份有限公司 | 发动机声音合成 |
Also Published As
Publication number | Publication date |
---|---|
JP6637082B2 (ja) | 2020-01-29 |
US10586526B2 (en) | 2020-03-10 |
JP2018532131A (ja) | 2018-11-01 |
US20190013005A1 (en) | 2019-01-10 |
WO2017098307A1 (zh) | 2017-06-15 |
CN107851433A (zh) | 2018-03-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9002711B2 (en) | Speech synthesis apparatus and method | |
JP5958866B2 (ja) | 音声分析合成のためのスペクトル包絡及び群遅延の推定システム及び音声信号の合成システム | |
JP2009042716A (ja) | 周期信号処理方法、周期信号変換方法および周期信号処理装置ならびに周期信号の分析方法 | |
US9466285B2 (en) | Speech processing system | |
Morise | Error evaluation of an F0-adaptive spectral envelope estimator in robustness against the additive noise and F0 error | |
WO2019163848A1 (ja) | 音声変換学習装置、音声変換装置、方法、及びプログラム | |
Kawahara et al. | Aliasing-free implementation of discrete-time glottal source models and their applications to speech synthesis and F0 extractor evaluation | |
CN108369803B (zh) | 用于形成基于声门脉冲模型的参数语音合成系统的激励信号的方法 | |
Mittal et al. | Significance of aperiodicity in the pitch perception of expressive voices | |
WO1998005029A1 (en) | Speech coding | |
JP6347536B2 (ja) | 音合成方法及び音合成装置 | |
CN107851433B (zh) | 基于谐波模型和声源-声道特征分解的语音分析合成方法 | |
Kafentzis et al. | Time-scale modifications based on a full-band adaptive harmonic model | |
JP4119112B2 (ja) | 混合音の分離装置 | |
JP2009501353A (ja) | オーディオ信号合成 | |
Bonada et al. | Spectral processing | |
JP2007249009A (ja) | 音響信号分析方法および音響信号合成方法 | |
JPH07261798A (ja) | 音声分析合成装置 | |
Govind et al. | Improved epoch extraction using variational mode decomposition based spectral smoothing of zero frequency filtered emotive speech signals | |
JPH10254500A (ja) | 補間音色合成方法 | |
JP2011247921A (ja) | 信号合成方法、信号合成装置及びプログラム | |
Vargas et al. | Speech analysis and synthesis based on dynamic modes | |
JP2007519043A (ja) | 音響信号の部分音を修復する方法 | |
Mitsui et al. | MSR-NV: Neural Vocoder Using Multiple Sampling Rates | |
de Paiva et al. | On the application of RLS adaptive filtering for voice pitch modification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |