CN101441868B

CN101441868B - 基于特征转换规则的汉语耳语音向自然语音实时转换方法

Info

Publication number: CN101441868B
Application number: CN2008101814834A
Authority: CN
Inventors: 陈雪勤; 赵鹤鸣
Original assignee: Suzhou University
Current assignee: Suzhou University
Priority date: 2008-11-11
Filing date: 2008-11-11
Publication date: 2011-02-16
Anticipated expiration: 2028-11-11
Also published as: CN101441868A

Abstract

本发明提供一种汉语耳语音向自然语音实时转换方法，该转换方法通过对激励信息的特征分析和提取，对各声调采用多项式曲线混合模型确定语音韵母段的声调调型，进一步产生基频轨迹。根据耳语音与自然语音的线谱频率之间的关系，采用经验映射修正法将耳语音线谱频率向自然语音线谱频率转换。在得到激励和声道参数的基础上，采用修正的MELP模型重建自然语音，对重建语音的主客观评价显示，本发明所提供的方法可使重建语音得到较高的满意度。

Description

基于特征转换规则的汉语耳语音向自然语音实时转换方法

技术领域

本发明涉及语音转换技术领域和通信技术领域，特别地，涉及一种基于特征转换规则的汉语耳语音向自然语音实时转换方法。

背景技术

耳语音是人们在某种特定场合下为了避免影响他人或为了保密而采取的一种通讯方式。在日常生活中耳语是常见的，例如在办公室用手机通话，国家安全部门工作的需要等。关于耳语音的特征分析、识别、重建长期以来受到部分学者的关注，而此类各项研究的主要目标则是根据耳语音恢复相应的自然语音。

从相关的研究报道来看，依据耳语音的信息用人工智能方法产生相应自然语音的方案主要有两种，一种是识别，另一种是重建。

识别法需要建立耳语音和自然语音两个语料库，通过选取能够反映各个耳语音差异的特征，选用合适的识别模型进行训练和识别，根据识别结果从相应的自然语音的数据库中提出该耳语音所对应的自然音。识别法在针对特定人的语料库中，可得到与说话人完全吻合的自然语音，可懂度和听觉舒适度勿庸质疑，但是在非特定人的场合下，往往在能保证语义的条件下说话人的信息得不到保证。该方法需要较大数据量的训练，对未参加识别的语音样本其识别率会明显降低。

南京大学的栗学丽采用MELP模型将汉语耳语音转换为自然音，侧重于讨论耳语音与自然语音的特征之间的差别。其存在的问题主要在于其一方面忽略了声调模型对于合成语音的重要性，另一方面采用线性方法将耳语音的声道参数向正常语音参数的转换，而影响了合成语音的质量。美国的Morris讨论了英语耳语音的重建和识别。由于英语为非声调语言Morris对于激励信息则相对忽略，而着重强调声道信息对于合成语音的重要性，建立共振峰频率和带宽与线谱频率之间的函数关系，根据耳语音与自然语音的共振峰频率和带宽的变化量来调整线谱频率参数。该方案计算量大，不易实现实时转换。

发明内容

本发明的目的在于提供一种汉语耳语音向自然语音实时转换方法，通过对汉语耳语音和相应自然音的分析比较，总结出两种语音的各个特征参数之间的区别和联系，通过对特征参数之间的转换机理的研究，采取经验模态方案取得相应的自然音的特征值，采用基于共振峰的语音合成器，并对重建后的语音进行主客观评价，从而弥补现有技术的不足。

本发明提供一种汉语耳语音向自然语音实时转换的方法，该方法包括以下阶段，耳语音信号的预处理阶段，该阶段对耳语音信号先后进行端点检测处理和声韵分割处理；耳语音信号的特征分析及提取阶段，其中所述特征分析及提取包括激励特征的分析及提取和声道特征的分析及提取，该阶段对耳语音信号的预处理阶段得到的结果分别进行激励特征提取操作和声道特征提取操作，并采取声调模型与基频估计方法将激励特征提取操作提取的激励信息转换产生基频信息，以及采取声道参数转换规则将声道特征提取操作提取的声道信息转换产生自然语音声道信息；语音合成阶段，耳语音信号的特征分析及提取阶段最终获取的基频信息和自然语音声道信息在该阶段进行语音合成而产生相应的自然语音信号，从而实现耳语音向自然语音的实时转换，所述采取声道参数转换规则将声道特征提取操作提取的声道信息转换产生自然语音声道信息具体过程为，设声道模型的系统函数为

其中P为线性预测阶数，a_i，i＝1～P是P阶LPC系数；系统的线谱频率参数用ω_i表示为0＜ω₁＜ω₂＜…＜ω_P＜π，耳语音与正常音的线谱频率参数的映射关系用如下反正切关系表示：μ＝λ·tan^-1([1:P])μ_m＝max(μ)

ζ = \frac{μ}{μ_m}

从而将线谱频率参数调整为ω′＝ω·ζ其中，ω′为调整后的正常音的线谱频率参数，参数ω为ω₁，ω₂，…ω_P，ω′为ω₁′，ω₂′...ω_P′，参数λ为非线性放大加权系数，近似反映耳语音与自然语音的声道特征变化率，用于确定系统的线谱频率参数ω_i的非线性调整幅度，λ取值范围为0.85≤λ≤0.95，调整后的线谱频率参数遵循由小到大的规则，并且0＜ω′₁＜ω′₂＜…＜ω′_P＜π以使系统稳定。

附图说明

图1为本发明的基于规则的语音重建的模型示意图；

图2为本发明的归一化的四种声调曲线；

图3为本发明的不同参数下第三声调归一化曲线；

图4a为本发明的汉语元音/a/正常音和耳语音的声道频率特性曲线图；

图4b为本发明的汉语元音/a/正常音和耳语音的LSP参数曲线图；

图4c为本发明的汉语元音/a/正常音与调整后的耳语音的LSP参数曲线图；

图4d为本发明汉语元音/a/正常音与调整后的耳语音的声道频率特性曲线图；

图5a为本发明的耳语音/ao yun hui/的时域波形图；

图5b为本发明的重建语音/ao yun hui/的时域波形图；

图5c为本发明的耳语音/ao yun hui/的语谱图；

图5d为本发明的重建语音/ao yun hui/的语谱图；

图5e为本发明的耳语音/hui/一帧细节波形；

图5f为本发明的重建语音/hui/一帧细节波形；

具体实施方式

以下将参照附图并结合具体实施方式对本发明进行详细说明。

1重建模型

耳语音的发音机理与正常音不同，它在声学特征上与正常音有较大差异，如声带无振动、音量小、无基频等。汉语由声母与韵母组成，而声母主要为辅音充当，从发音机理上讲，辅音是由气体在舌面和唇上摩擦产生的湍流形成的。耳语音的声母部分与正常音的发音方式没有大的区别，而韵母部分发音时声门保持半开状态，声门前部完全靠拢，后部分声门有一个三角裂隙，声带不振动，从肺部出来的气流通过开放区产生摩擦噪声，此时呼出的气体通过声门开口的收缩产生湍气流。

根据耳语音的发音特点，将耳语音向自然语音转换时，韵母部分为主要的分析转换对象，因此端点检测和声韵母分割作为语音重建模型的预处理部分非常必要。在此基础上，以耳语音和对应的自然语音为分析对象，从耳语音的特征载体中挖掘声调及基频的信息，通过比较耳语音与自然语音的声道特征载体，建立将声道特征从耳语音向自然语音转换的规则函数。语音重建的模型如图1所示。

12特征分析及提取

提供正确的激励和声道信息是将耳语音转换为正常语音的关键点。由于耳语音的特殊发音机理，它与正常音的激励信息差异明显，尤为突出的是耳语音为噪声激励信号，它的浊音部分没有周期性，因而耳语音信号中不存在明显的基频和声调信息，而这恰恰是合成自然语音必不可少的激励源信息。人们在发耳语音时，声门处于半开状态，声道由声门到嘴唇部分以及气管和肺部共同组成，这与人们发自然语音时的声道有所区别，因此两者的声道特征信息也是不同的。

2.1激励特征分析

2.1.1声调及性别特征

在缺失声调最直接的载体——基频的条件下，耳语音的其他特征在声调感知方面由配角转为主角。根据其对耳语音声调识别的贡献大小可排序如下：听神经发放率、幅值包络、声道长度、音长、声门面积、共振峰。横向比较，其中听神经发放率作为声调特征时，耳语音的声调识别率最高。其原因在于听神经纤维将耳蜗内毛细胞与听觉中枢神经系统联接起来，它是听觉中枢的唯一信息来源。每条听觉神经纤维与基底膜的一个特定部位相对应，并在一个特定频率上发放。神经的激发频率与有多少神经元参与有关，声强愈高，神经元愈多，而神经元的激发频率亦愈快。正常状态下，放电率与声刺激强度关系呈∫形。同时已有的研究表明，听神经纤维具有与刺激同步发放的能力，听觉神经纤维能够对共振峰的刺激谐波锁相或同步。因此，听神经发放与声刺激的强度、频谱、共振峰等信息密切相关。尽管如此，由于识别率的原因，听神经发放率依然不是最为理想的特征量，目前尚未发现一个如自然语音中的基频那样占绝对主导地位的特征参数。

耳语音的声调载体可表示为由上述多个特征量组合成的一个矢量，并且耳语在发音时往往倾向于拉长音长以强调声调，因此在进行声调识别时运算量是一个棘手的问题。为解决这一问题，可采取先对各音节所有帧的特征矢量进行聚类，然后送入局部有监督特征映射神经网络进行识别。这一识别模型很大程度上降低了神经网络的不收敛率，且有效地提高了识别速度。

在缺少基频信息的条件下，说话人的音高依然可以被粗线条感知，尤其是性别特征可较为准确地被辨听。其主要线索在于共振峰频率中携带了与说话人有关的信息，研究表明男性的共振峰频率普遍较女性低。以此作为说话人性别的判决依据。

2.1.2基频轨迹

在判断出说话人性别及语音的声调以后，建立一个合适的基频轨迹对于语音合成至关重要。本发明提出了多项式曲线混合模型(PMM-Polynomial-Curve Mixture Model)实现声调建模，不仅给出一组逼近实际声调曲线的多项式模型，并且可以通过参数的选择灵活控制声调曲线的形状，为语音合成提供更为丰富的韵律特征。四声声调的多项式表达式f_T(t)，T＝1，2，3，4分别为：

f₁(t)＝-(a₁t+b₁)⁴+0.01×(a₂t+b₂)²+b₃ (1)

f₂(t)＝-8×(a₁t+b₁)⁶+(a₂t+b₂)²+b₃ (2)

f₃(t)＝3×(-10×(a₁t+b₁)⁶+(a₂t+b₂)²)+b₃(3)

f₄(t)＝-5×(a₁t+b₁)⁴-0.5×(a₂t+b₂)+b₃ (4)

式中t表示归一化的时间，该模型以多阶多项式的组合来拟合声调曲线，以一个高阶多项式(4阶或6阶)为主，辅以低阶(1阶或二阶)多项式来确定调型，并用一常数项调整曲线的中心点位置。该模型的表达式与声调形状的关系很直观，借助于模型中各个多项式本身的曲线特性，该声调模型的结构更加易于理解和调整。通过对多项式中参数的设定可以选择声调曲线的形状，表1给出了一组建议的多项式曲线混合模型参数值，这组参数可以产生较为标准的声调调型曲线，如图2所示。

表1.多项式曲线混合模型参数选择示例

同一声调的曲线由于说话人和语音内容的不同而存在差异。由于基准音高的不同，声调曲线尺度大小可能相差很大，本模型采用归一化频率，如图2所示。实际的基频轨迹应根据所知的基准音高对该归一化曲线进行相应的尺度放大和频率提升以满足不同性别说话人和不同语气语调情况下的声调特点。上述声调模型还需要通过插值的方式达成约定的帧数以满足实际语音的时长变化。

实际的语音由于语气语调以及声母的不同使得相同声调可能出现不同调形，以往的声调模型很难适应这种变化。本发明所提出的模型由于具有清晰的几何性质，因此便于参数的设定，可以根据实际语音的声调特点可以拟合出最接近的声调曲线，有助于语音合成时韵律特征的表现。图3以第三声调为例，给出了在三种参数值条件下该声调曲线的调型变化，这很好的呈现了实际语音中第三声调的前谷、中谷及后谷的特点，参数的设置意义明确且简单，只需要改变b2参数即可。其他声调亦具备可调性。

声道特征分析及转换

由于耳语发音时，假声带区域变窄、声门保持半开的状态使得声道增加了气管和肺的部分，因此使得声道传输函数发生改变，耳语音共振峰的位置和带宽随之发生变化。对汉语耳语音共振峰以及与其他语言的共振峰情况进行对比，发现汉语耳语音共振峰的偏移规律和其他语言的规律相似，都是频率向高处偏移，带宽变大。

面对耳语音的共振峰参数与正常音的参数间存在的差异，需要对耳语音的共振峰参数进行修正并与正常音的参数相匹配。修正方案应根据语音生成模型的参数需求来设定，本发明根据所选择的语音合成模型将这一特征在生成自然语音时体现在声道模型参数的调整中。线谱频率(LSF-linear spectrum frequency)参数是目前表达声道模型最为有效参数，由于是频域参数，所以它与语音信号的谱包络的峰有更为紧密的关系。图4a为汉语元音/a/的正常音和耳语音某点处的声道频率响应曲线，可以看出汉语耳语音的共振峰向高频偏移。图4b为汉语元音/a/正常音和耳语音的LSP参数曲线，前8帧为自然语音的LSP参数曲线，后12帧为耳语音的LSP参数曲线。图形显示耳语音的LSP参数值大于自然语音的LSP参数值，尤其是低阶的LSP参数值这一表现尤为明显，而LSP参数的高阶处，两者之间的差距逐步减小。

为了对耳语音与正常音的LSF参数相匹配。一个行之有效的方法是采用非线性的反正切经验映射修正法(AEMMA-Anti-tangent EmpiricalMapping Modifying Approach)。反正切曲线可以有效的调整耳语音与正常音的LSF参数之间的变化量，在建立耳语音与自然语音LSF之间的映射关系后，根据经验修正，产生一组新的LSF参数。设声道模型的系统函数为，其中P为线性预测阶数。系统的LSF参数用ω_i表示为0＜ω₁＜ω₂＜…＜ωp＜π，则耳语音与正常音的LSF参数的映射关系可以如下反正切关系表示：

μ＝λ·tan^-1([1:P]) (5)

μ_m＝max(μ) (6)

ζ = \frac{μ}{μ_m} - - - (7)

则LSF参数调整为

ω′＝ω·ζ (8)

其中，参数λ为非线性放大加权系数，近似反映耳语音与自然语音的声道特征变化率，用于确定系统的线谱频率参数ω_i的非线性调整幅度，建议取值范围由0.85至0.95，调整后的LSF参数依然遵循由小到大的规则，0＜ω′₁＜ω′₂＜…＜ω′_P＜π是系统稳定的必要条件之一。图4c为汉语元音/a/正常音和调整后的耳语音的LSP参数曲线，前8帧与后12帧LSP参数曲线差异得到了很好的修正。同时调整后的LSF参数对于共振峰的控制也非常明显，由图4d可以看出耳语音共振峰的高频偏移现象得到了有效的抑制。

3语音合成及性能分析

由于MELP模型的编码方式，具有音质好、传输码率低、抗干扰强、易于参数修改等优势，在通信领域被广泛使用。但由于其处理对象是自然语音，因此直接使用于耳语音时，在参数序列的提取时存在矛盾。本发明根据MELP语音合成模型的参数要求，结合耳语音的特点，采用修正的MELP模型重建自然语音。对输入耳语音，经过端点检测及其声韵分割以后，检测韵母段语音的声调，然后带入PMM声调模型得出基频轨迹。重建语音的共振峰及其带宽的调整输入量分别为ΔF＝[180，150，120]Hz，ΔB＝[B₁，B₂，B₃]×0.3Hz，根据AEMMA修正方法得到一组新的LSF参数。

由于耳语音与自然语音之间的明显差异，重建语音的效果可首先客观地根据语音的波形或语谱图反映。图5a-图5f显示了汉语普通话耳语音“奥运会”与对应的重建语音的时域和窄带谱图。从时域波形尤其是细节波形图上看，耳语音没有周期特性，而重建后的语音具有了周期结构，并且从幅度上也有了明显的提高。重建语音的谱图中可以很直观地看出重建语音具有的基频和各次谐波分量。语音的主观听觉效果是评价重建语音的主要指标，本发明采用平均意见分(MOS：Mean Opinion Score)作为评价标准。通过5位测试者对20句重建语音进行评价，参加测试者在听完受测语音后进行打分，所有语音的平均MOS分为3.45，达到了一般语音的合成质量。

本发明所采用的重建法由于是以音素为分析单位，建立在寻找规律的基础上，不需要进行样本的训练，因此对语音具有普适性。本发明提出方法的立足点在于：其一是耳语音的声调和音高可以感知，并且能够从某些特征载体中提取出声调与音高信息，其二是耳语音的声道信息与自然语音的声道信息存在相对稳定的关系，并且可以用数学方法描述该关系。该方法的相比于非参数的方法复杂度低，速度快，并且不受语料库和说话人限制。

Claims

1.一种汉语耳语音向自然语音实时转换的方法，其特征在于：该方法包括以下阶段，

耳语音信号的预处理阶段，该阶段对耳语音信号先后进行端点检测处理和声韵分割处理；

耳语音信号的特征分析及提取阶段，其中所述特征分析及提取包括激励特征的分析及提取和声道特征的分析及提取，该阶段对耳语音信号的预处理阶段得到的结果分别进行激励特征提取操作和声道特征提取操作，并采取声调与基频估计方法将激励特征提取操作提取的激励信息转换产生基频信息，以及采取声道参数转换规则将声道特征提取操作提取的声道信息转换产生自然语音声道信息；

语音合成阶段，耳语音信号的特征分析及提取阶段最终获取的基频信息和自然语音声道信息在该阶段进行语音合成而产生相应的自然语音信号，从而实现耳语音向自然语音的实时转换，

所述采取声道参数转换规则将声道特征提取操作提取的声道信息转换产生自然语音声道信息的具体过程为，

设声道模型的系统函数为其中P为线性预测阶数，a_i，i＝1～P是P阶LPC系数；

系统的线谱频率参数用ω_i表示为0＜ω₁＜ω₂＜…＜ω_P＜π，耳语音与正常音的线谱频率参数的映射关系用如下反正切关系表示：

μ＝λ·tan^-1([1:P])

μ_m＝max(μ)

从而将线谱频率参数调整为

ω′＝ω·ζ

其中，ω′为调整后的正常音的线谱频率参数，参数ω为ω₁，ω₂，…ω_P，ω′为ω₁′，ω₂′...ω_P′，参数λ为非线性放大加权系数，近似反映耳语音与自然语音的声道特征变化率，用于确定系统的线谱频率参数ω_i的非线性调整幅度，λ取值范围为0.85≤λ≤0.95，

调整后的线谱频率参数遵循由小到大的规则，并且0＜ω′₁＜ω′₂＜…＜ω′_P＜π以使系统稳定。

2.根据权利要求1所述的汉语耳语音向自然语音实时转换的方法，其特征在于：在上述耳语音信号的特征分析及提取阶段所采取的声调与基频估计方法包括以下步骤，

步骤(1)，分析激励信息的声调及性别特征；

步骤(2)，在判断出说话人声调之后，采用用于拟合汉语四声声调曲线的多项式曲线混合模型建立一个合适的声调模型，所述多项式曲线混合模型表示为

f₁(t)＝-(a₁₁t+b₁₁)⁴+0.01×(a₁₂t+b₁₂)²+b₁₃

f₂(t)＝-8×(a₂₁t+b₂₁)⁶+(a₂₂t+b₂₂)²+b₂₃

f₃(t)＝3×(-10×(a₃₁t+b₃₁)⁶+(a₃₂t+b₃₂)²)+b₃₃

f₄(t)＝-5×(a₄₁t+b₄₁)⁴-0.5×(a₄₂t+b₄₂)+b₄₃

其中，t表示归一化的时间，可通过对参数a11、a12、a21、a22、a31、a32、a41、a42、 b11、b12、b21、b22、b31、b32、b41、b42、b13、b23、b33、b43进行适当设定以选择声调曲线形状，

进一步根据所知的基准音高对归一化的该声调曲线进行相应的尺度放大和频率提升以满足不同性别说话人和不同语气语调情况下的声调特点，从而将激励特征提取操作提取的激励信息转换产生声调基频信息。

3.根据权利要求2所述的汉语耳语音向自然语音实时转换的方法，其特征在于：

a₁₁＝a₁₂＝1，b₁₁＝-0.5，b₁₂＝-0.5，b₁₃＝0.5，

a₂₁＝a₂₂＝1，b₂₁＝-0.5，b₂₂＝-0.25，b₂₃＝0.3，

a₃₁＝a₃₂＝1，b₃₁＝-0.5，b₃₂＝-0.5，b₃₃＝0.2，

a₄₁＝a₄₂＝1，b₄₁＝-0.5，b₄₂＝0.5，b₄₃＝1.2。

4.根据权利要求3所述的汉语耳语音向自然语音实时转换的方法，其特征在于：

上述声调模型还需要通过插值的方式达成约定的帧数以满足实际语音的时长变化。