CN101256776B

CN101256776B - 语音信号处理方法

Info

Publication number: CN101256776B
Application number: CN2007100849776A
Authority: CN
Inventors: 黄泰惠; 黄柏凯
Original assignee: Industrial Technology Research Institute ITRI
Current assignee: Industrial Technology Research Institute ITRI
Priority date: 2007-02-26
Filing date: 2007-02-26
Publication date: 2011-03-23
Anticipated expiration: 2027-02-26
Also published as: CN101256776A

Abstract

一种语音信号处理方法适用于提升听障者的语音辨识能力，此语音信号处理方法包括以下步骤，首先接收语音信号，而其中语音信号分为多个音帧。将个别音帧信号做频谱分析，估测每一个音帧信号的实际频宽，以及对每一个音帧的实际频宽做频率转移处理以符合听障者的听觉频宽。此外，频率转移后的每一个音帧做能量补偿的处理，以补偿经频率转移处理过后所降低的能量。

Description

语音信号处理方法

技术领域

本发明涉及一种语音信号处理方法，特别是涉及一种为听觉频宽调整的听障者提升语音辨识能力的语音信号处理方法。

背景技术

随着社会人口的高龄化现象，愈来愈多年长者面临听力降低或者受损的问题，致使其对自然语音的辨识能力的下降。一般而言，听障者会使用助听器来提升听力。传统助听器利用控制频带能量增益的方式，以补偿听障者听力受损频带的能量，同时也采用频谱能量动态范围压缩技术以避免过度放大信号而造成的不适或伤害听神经，。

此外，根据临床研究，大部分随年纪老化而听力受损的现象多从丧失高频信号的感知开始，如图1A所示，区块101为一般日常声音的频率与抵达耳朵时的音量大小分布范围，区块102为子音字母(例如：b、c、f..)频率与音量大小分布范围，区块103为元音字母(例如：音标中的/i/、/a/...)频率与音量大小分布范围。如图1B所示，曲线105为随年纪老化而听力受损者的听力临界值曲线，因此可以发现听力受损者主要为丧失频率范围104的高频信号。此时，听障者对高频频带可接受的动态变化范围极小，在这些频带即便采取增益补偿策略也难以提升语音辨识能力。因此，如何因应听力受损者耳朵可听的频宽变窄的现象而提升语音辨识能力成为现今重要课题之一。

随着语音信号数字化处理技术的精进，在语音信号经过取样量化后，利用频率转移处理将语音信号的频谱调整转移至使用者残余听力的频宽范围内，以解决使用者耳朵可听频宽变窄的问题。图2示出了现有的频率转移处理方法的流程图。请参照图2，首先将取样量化后的语音信号A[n]经离散傅里叶转换处理(步骤S201)，在频域上分析此语音信号后，利用一频率转移函数将语音信号频率压缩转移至低频(步骤S202)，最后再经离散反傅里叶转换将其转换为时域上的语音信号。相关频率转移处理技术披露在“Discrimination of speech processed by low-pass filtering and pitch-invariant frequency lowering，”J.Acoust.Soc.Am.74(2)p.409～419，1983的论文与“Frequency lowering using a discrete exponential transform，EUROSPEECH”99，2769-2772.1999的论文中。

此外，在“Frequency lowering processing for listeners with significanthearing loss，Proceeding of ICECS”99.vol.2，p741～744，1999的论文中更提出语音信号经频率转移处理之后再增加频谱的能量峰值，以增加语音辨识效果。然而上述所提及相关频率转移处理技术的论文中，皆假设原信号的频宽为取样频率的一半，而将此固定的频宽转移至听障者的听觉频宽。由于语音信号的频宽会依不同的语音类型或说话者的发音特性而不同，我们发现倘若皆施以固定的频率转移函数，则频宽较窄的语音信号经频率转移处理后会产生较大的频谱形状误差，因此降低处理后语音可辨识的效果。

美国第20040175010号专利案中提出“Method for frequency transpositionin a hearing device and a hearing device”技术。此专利的内容提出模拟人耳听神经对频率敏感度分布的频率压缩转移函数。该转移函数的主要定义参数为语音信号的取样频率与听障者的听觉频宽，但是依然无法因不同语音频宽而进行动态调适。

发明内容

本发明提供一种语音信号处理方法。首先在频域上估测每一音帧(voiceframe)语音信号的实际频宽，而此实际频宽为每一个音帧能量集中的频带，藉以在压缩转移原信号至低频带时，能充分的利用频带能量集中的特性以有效保留频谱形状的特征。而将此信号频宽压缩转移至低频带的目的为使信号频宽能符合听障者可感知的听觉频宽，以提升听障者的语音辨识能力。此外，更进一步补偿此实际频宽压缩转移后以高频带信号置换低频带信号所降低的能量，以维持原信号整体的能量外型。

本发明提供一种语音信号处理方法。首先分析出语音信号的频宽，藉充分利用能量集中的频带以保留这些音帧频谱形状的特征。再依据此频宽动态调整频宽压缩转移至低频带的转换函数，以避免频宽较窄的信号经压缩转移后造成较大的频谱形状误差而影响听障者语音辨识能力。此外，更进一步的补偿此频宽压缩转移后以高频带信号置换低频带信号所降低的能量以维持原信号整体的能量。

本发明提出一种语音信号处理方法，适用于提升语音辨识能力，此语音信号处理方法包括接收语音信号，其中此语音信号依据一窗函数可分为多个音帧。接着，将每一个音帧转换至频域，并估测每一个音帧的实际频宽。再依据实际频宽大小动态调整一频率转移函数，并使用此频率转移函数对每一个音帧的实际频宽做频率转移处理。

本发明还提出一种语音信号处理方法，适用于提升听障者的语音辨识能力，此语音信号处理方法包括接收语音信号，其中语音信号依据一窗函数可分为多个音帧。接着，判断每一个音帧是否为高频部分能量较高的子音，所述较高频率的子音包括j、q、x、zh、ch、sh、z、c、s、h的中文音节。当音帧为高频类的子音时，则估测此音帧的实际频宽，并且使用一频率转移函数将此音帧的实际频宽做频率转移处理，其中频率转移函数随实际频宽大小而动态调整。

依照本发明较佳实施例所述的语音信号处理方法，其中判断每一个音帧是否为高频类的子音的步骤中还包括计算每一个音帧的高频带平均能量与低频带平均能量，以及计算此低频带平均能量与此高频带平均能量的能量比值。当此能量比值小于预设参数值时，则此音帧为高频类的子音。

本发明因采用估测语音信号中每一个音帧的实际信号频宽的方式，使在针对每一个音帧进行频率压缩转移至低频带时，能充分利用能量集中的频带以保留原有的频谱特征，藉以提升听障者语音辨识能力。此外还依据每一个音帧信号的实际频宽大小，动态调整频宽压缩转移至低频带的转换函数，使听障者能有效感知原属高频带语音频谱的变化。更进一步的补偿因压缩转移后以高频带信号置换低频带信号而降低的能量以维持原信号的能量。

为使本发明的上述和其它目的、特征和优点能更明显易懂，下文特举本发明的较佳实施例，并结合附图详细说明如下。

图1A示出了日常声音大小与频率大小的分布图。

图1B示出了随年龄老化的听力受损者的听力分布图

图2示出了现有的频率转移处理方法的流程图。

图3示出了本发明的一较佳实施例的语音信号处理方法的流程图。

图4示出了语音信号分为多个音帧的示意图。

图5示出了计算实际频宽的示意图。

图6示出了动态调整参数影响频率转移函数输出频谱值的示意图。

图7A示出了本发明的一较佳实施例的估测实际频宽的示意图。

图7B示出了本发明的一较佳实施例的频率转移处理的示意图。

图7C示出了本发明的一较佳实施例的能量补偿处理的示意图。

图8示出了本发明另一较佳实施例的语音信号处理方法的流程图。

图9示出了计算高频类子音高低频带能量的示意图。

图10A示出了语音信号未经频率转移处理的频谱。

图10B示出了语音信号经现有的频率转移处理后的频谱。

图10C示出了语音信号经本发明实施例频率转移处理后的频谱。

附图符号说明

101：日常声音发声频率与声音大小分布范围

102：子音发声频率与声音大小分布范围

103：元音发声频率与声音大小分布范围

104：频宽范围

105：听力临界值曲线

S201～S203：现有的语音信号处理方法的流程图

S301～S306：本发明的一较佳实施例的语音信号处理方法的步骤

401～403：音帧

E₁、E₂、E_low、E_high：能量

f_start、f_bw、f_low：频率

f_s：取样频率

701：实际频宽

702：频率转移后的频宽

703：能量补偿后的频谱值

S801～S809：本发明的一较佳实施例的语音信号处理方法的步骤

1001～1003：频谱范围

具体实施方式

在说明本发明实施例之前，首先假设本实施例应用在听障者所使用的助听器，藉以提升听障者的语音辨识能力，然而本实施例并不局限于此范围，仍可应用在其它范围，例如：语音转换器。

图3示出了本发明的一较佳实施例的语音信号处理方法的流程图。请参照图3，首先接收一语音信号，且使用一窗函数，例如一矩形窗函数，将语音信号可分为多个音帧(S301)，如图4所示，范围401、402与403各为不同的音帧(在此仅图示3个音帧)。接着，再针对每一个音帧进行快速傅里叶转换(fast Fourier transform，FFT)的处理(如步骤S302)，在频域上分析每一个音帧的频谱特性，其中语音信号在做快速傅里叶转换处理前须先经过取样以及量化。

估测此音帧的信号实际频宽(如步骤S303)，如图5所示的方法，计算此音帧频率f_start赫兹至f_s/2赫兹的总能量E₁，以及此音帧一预设频宽f_start赫兹至f_bw赫兹的能量E₂，其中f_s为语音信号的取样频率。由于人类说话声音的频率大多集中在8000赫兹以下，在此假设800赫兹至8000赫兹的能量为总能量E₁。而当此音帧预设频宽的能量E₂与总能量E₁的比值为一预定值时，即可估测出此音帧信号的实际频带为0～f_bw赫兹，例如：此预定值若设为0.9，则取此音帧约占总能量九成的频宽为实际频宽。

将每一音帧取得的实际频宽调整至听障者可感知的频宽范围内，亦即将此信号经过频率压缩处理，藉以转移至低频带(即步骤S304)，而帮助耳朵听觉频宽较小的听障者感知语音。而在此举例说明，频率转移处理为利用一频率转移函数，将此实际频宽压缩转移至低频带，例如转移函数

f' = 1000 \sqrt{2} \tan (\arctan (f / 1000 \sqrt{2}) / CR),

其中f为压缩转移前的频率，而f′为压缩转移后的频率；而CR为依据估测的实际频宽大小所产生的动态调整参数，

CR = \arctan (f_{use} / 1000 \sqrt{2}) / \arctan (f_{h} / 1000 \sqrt{2}),

其中f_use为估测的实际频宽，且f_h为听障者可感知的频宽，亦即随着每一个音帧信号的实际频宽大小而动态调整频率转移函数，藉以针对每一个音帧的频谱特性做适当的频率转移处理。

此动态调整参数的调整主要目的为避免如频宽较窄的语音信号，假设施以固定的频率转移函数，会致使压缩转移后产生较大的频谱形状误差，因而降低压缩转移后语音信号可辨识的效果。如图6所示，假设听障者所感知的频宽f_h与压缩转移前的输入信号频宽f固定(例如f＝8000赫兹)，当估测的实际频宽f_use越小，动态调整参数CR越小，则压缩转移后从有效的信号频宽中取得的频率点数较多，因此即可避免频宽较窄的语音信号压缩转移太过，造成频谱形状误差。

在经过频率转移处理之后，由于将每一音帧的信号实际频宽压缩转移至低频带，可能造成能量降低，因此以能量维持不变为准则，补偿每一个音帧所降低的能量(即步骤S305)。在此举例说明能量补偿处理的方式为分别计算每一个音帧做频率转移处理前后的能量值，定义处理前后的能量比值为增益值，再将每一个音帧做频率转移处理后各频率的频谱值乘上此增益值，即可完成能量补偿的动作。例如：增益值

G = \sqrt{Σ_{k = 1}^{N} X^{2} (k, l)} / \sqrt{Σ_{k = 1}^{N} {X'}^{2} (k, l)},

其中X(k，l)与而X′(k，l)分别为第l个音帧做频率转移处理前与频率转移处理后第k个频率的频谱值，而能量补偿后的频谱值X(k，l)＝G×X′(k，l)，1≤k≤N，其中N为每一个音帧经快速傅里叶转换处理后的频率取样点数。

最后，再将每一个音帧经过快速反傅里叶转换(inverse fast Fouriertransform，IFFT)的处理，即可转换为时域上的语音信号(即步骤S306)。因此藉由本实施例的实施可以调整语音信号至听障者可感知的频宽范围内，达到提升语音辨识能力的目的。如上述的说明，图7A、图7B以及图7C示出了本发明的一较佳实施例的语音信号处理方法的示意图。请参照图7A、图7B以及图7C，首先估测语音信号的每一个音帧的实际频宽，如图7A所示，选择能量集中的频带701为实际频宽。接着将此实际频宽701经频率转移处理，如图7B所示，将此实际频宽压缩转移至听障者所感知的频宽702。之后再对此频率转移处理后的实际频宽做能量补偿的处理，如图7C的曲线703为能量补偿后的频谱值。

在本发明另一较佳实施例中将此语音信号处理方法应用在提升高频类子音的语音辨识能力，图8示出了本发明另一较佳实施例的语音信号处理方法的流程图。请参照图8，首先，接收一语音信号，其中语音信号依据一窗函数，例如矩形窗函数，可分为多个音帧(即步骤S801)。由于大部份随年纪老化的听力受损现象为丧失高频信号的感知，为了提升对高频类子音的辨识能力，因此判断每一个音帧是否为高频率的子音(即步骤S802)，再针对高频类子音的频宽做频率转移的处理，让听障者可以以较低频带的较佳听力来辨识这些高频类的子音。

在此举例说明如何判断每一个音帧是否为高频率的子音方式，如图9所示，计算此音帧频率0赫兹至f_low赫兹低频带的平均能量E_low与此音帧频率f_low赫兹至f_high赫兹高频带的平均能量E_high的一能量比值。当此能量比值小于一预设参数值时，即可判断此音帧为高频率的子音。接着便针对此高频率的子音进行频率转移的处理以及频率补偿的处理，以下步骤如上述图3实施例的说明，故不加以赘述。

接着，藉由模拟实验比较本发明的较佳实施例与现有的技术。如图10A、图10B与图10C所示，图10A为语音信号做频率转移处理前的频谱，图10B为现有的技术中对语音信号施以固定的频率转移函数的处理，而图10C为本发明实施例对语音信号做频率转移处理后的频谱图。图10A范围1001的频谱经本发明实施例频率转移处理后，仍然保有原频谱值的大小(如图10C中范围1003所示)，而经现有的技术施以固定频率转移函数的处理后，却造成失真(如图10B中范围1002所示)。

此外，藉由实验证明本发明实施例应用在提升高频类子音的语音辨识能力的效果，首先录制语音数据包含华语中高频类子音，如j、q、x、zh、ch、sh、z、c、s、h等中文音节，而录制的语音数据包含四位男性及四位女性，亦即不同的说话者所录制的语音数据。而将此语音数据经三种处理方法，分别为方法一：无频率转移处理，方法二：现有的固定频率转移函数的处理，方法三：本发明实施例动态调整频率转移函数的处理，其中语音信号的取样频率为16000赫兹。

假设听障者的听觉频宽为2000赫兹，将上述分别经三种处理方法的语音数据进行频宽为2000赫兹的低通滤波器处理，以模拟听障者听觉的方法，再针对15位听力正常者进行测验。表1为三种处理方法的平均正确率。

表1语音辨识平均正确率

	平均正确率(％)
		方法一	55.3％
方法二	83.0％
		方法三	87.7％

综上所述，本发明所提出的语音信号处理方法，估测语音信号中每一个音帧能量集中的实际频宽，并且依据此估测的实际频宽大小动态调整频率转移函数，使得语音信号在频率转移处理时能充分的利用能量集中的频宽且又保留频谱形状的特征，以降低频率转移处理后产生失真的问题。除此之外，本发明所提出的语音信号处理方法，可补偿经频率转移处理后所降低的能量。另外，更进一步地提升高频类子音的语音辨识能力。

虽然本发明已以较佳实施例披露如上，然其并非用以限定本发明，本领域的技术人员在不脱离本发明的精神和范围的前提下可作若干的更动与润饰，因此本发明的保护范围以本发明的权利要求为准。

Claims

1.一种语音信号处理方法，适用于提升语音辨识能力，包括：

接收一语音信号，其中该语音信号依据一窗函数分为多个音帧；

将每一所述音帧转换至一频域，并估测每一所述音帧的一实际频宽；以及

依据该实际频宽的大小动态调整一频率转移函数，并使用该频率转移函数对该实际频宽做频率转移处理。

2.如权利要求1所述的语音信号处理方法，还包括：

计算每一所述音帧的总能量与经频率转移处理后每一所述音帧的能量的一增益值；以及

依据该增益值对每一所述音帧做能量补偿处理。

3.如权利要求1所述的语音信号处理方法，其中估测每一所述音帧的该实际频宽的步骤包括：

计算每一所述音帧的总能量与每一所述音帧一预设频宽的能量的一比值；以及

当该比值为一预定值，则该预设频宽为该实际频宽。

4.如权利要求1所述的语音信号处理方法，其中对该实际频宽做频率转移处理的步骤包括：

依据人类感知的听力频宽与该实际频宽产生一动态调整参数；以及

依据该动态调整参数调整该频率转移函数。

5.如权利要求1所述的语音信号处理方法，其中所述将每一所述音帧转换至一频域为对每一所述音帧做快速傅里叶转换处理。

6.如权利要求1所述的语音信号处理方法，其中该窗函数为矩形窗函数。

7.一种语音信号处理方法，适用于提升语音辨识能力，包括：

判断每一所述音帧是否为较高频率的子音，其中所述较高频率的子音包括j、q、x、zh、ch、sh、z、c、s、h的中文音节；

当每一所述音帧为较高频率的子音时，则将每一所述音帧转换至一频域，并估测每一所述音帧的一实际频宽；以及

8.如权利要求7所述的语音信号处理方法，其中判断每一所述音帧是否为较高频率的子音还包括：

计算每一所述音帧的一高频带平均能量与一低频带平均能量；

计算该低频带平均能量与该高频带平均能量的一能量比值；以及

当该能量比值小于一预设参数值，则每一所述音帧为高频率的子音。

9.如权利要求7所述的语音信号处理方法，在对该实际频宽做频率转移处理之后还包括：

根据该增益值对每一所述音帧做能量补偿处理。

10.如权利要求7所述的语音信号处理方法，其中估测每一所述音帧的该实际频宽的步骤包括：

计算每一所述音帧总能量与每一所述音帧一预设频宽内能量的一比值；以及

当该比值为一预定值，则该预设频宽为该实际频宽。

11.如权利要求7所述的语音信号处理方法，其中对该实际频宽做频率转移处理包括：

依据人类感知的听力频宽与该实际频宽产生一动态调整参数以及

依据该动态调整参数调整该频率转移函数。

12.如权利要求7所述的语音信号处理方法，其中所述将每一所述音帧转换至一频域为对每一所述音帧做快速傅里叶转换处理。

13.如权利要求7所述的语音信号处理方法，其中该窗函数为矩形窗函数。