CN111107478A

CN111107478A - 一种声音增强方法及声音增强系统

Info

Publication number: CN111107478A
Application number: CN201911265653.1A
Authority: CN
Inventors: 黄锷; 叶家荣
Original assignee: Jiangsu Aidi Science And Technology Research Institute Co Ltd
Current assignee: Nanjing Biomedical Valley Construction Development Co.,Ltd.
Priority date: 2019-12-11
Filing date: 2019-12-11
Publication date: 2020-05-05
Anticipated expiration: 2039-12-11
Also published as: US20210250704A1; US11570553B2; WO2021114545A1; CN111107478B

Abstract

本发明公开一种声音增强方法及声音增强系统。该方法包括：取得声音信号，将声音信号转化成数字信号；将数字信号进行分解，取得多个本征模态函数或者多个类本征模态函数；将取得的多个本征模态函数或多个类本征模态函数的振幅进行选择性放大；将选择性放大后的本征模态函数或类本征模态函数进行整合，得到整合后的重构信号；将整合后的重构信号转换成模拟信号。本发明基于希尔伯特‑黄变换，能有效地将声音进行选择性增强，并且只放大声音中频率较高的辅音而不是放大元音，该方法能有效地提高放大后声音的清晰度，克服了目前声音增强方法中只增加声音响度而不增加清晰度的问题。

Description

一种声音增强方法及声音增强系统

技术领域

本发明涉及声音增强领域，尤其涉及一种语音增强方法及语音增强系统。

背景技术

1.听觉的形成机制

当与声学信号相关的压力波传播通过外耳道撞击鼓膜时，声学信号被感知为声音。这种振动通过听小骨(包括锤骨，砧骨和镫骨)放大了22倍左右，到达耳蜗底部的卵圆窗。卵圆窗膜的振动将会在前庭中产生压力波，这样使得柔软的基底膜与螺旋器以及毛细胞一起振动变形，然后触及弯曲毛细胞的覆盖膜。更重要的是，基底膜中的这种波将具有与该振动产生的特征频率相称的最大振幅。在波峰处弯曲的毛细胞将触发神经元发射产生电脉冲，这些电脉冲将穿过丘脑皮层系统，并传输到初级听觉皮层(Primary AuditoryCortex，PAC)进行处理，以产生之前听到的声音。该电信号将确定声音信号的频率，该频率可以作为听觉脑干反应(Auditory Brainstem Response，ABR)通过功能性磁共振成像(Functional Magnetic Resonance Imaging,FMRI)和脑电图 (Electroencephalogram，EEG)技术进行无创测量。由此可以清楚地知道，声音感知的关键在于螺旋器以及相关毛细胞的运动。

2.听力损伤

在上述听觉形成机制上的任一环节出现问题均可能导致听力损失。如果外耳道发生阻塞，将会阻止声音传到耳蜗，这样就会出现传导性听力损失。如果内耳中出现任何功能性障碍，如毛细胞退化，将会阻止神经脉冲的产生和传递，使其不能到达初级听觉皮层，此时将出现感觉神经性听力损失的情况。当然，还可能是因为上述原因的组合导致听力损失。听力障碍的产生原因包括衰老(老年性耳聋)，过度接触噪音即噪音引发的听力损失(NoiseInduce of Hearing Loss, NIHL)，遗传(先天性听力损失)，药物中的毒素导致的耳聋等等。无论导致听力损失的原因是什么，除了中枢性耳聋，其他情况助听器通常都是有帮助的。

在所有听力损失的原因中，最常见的是对某些频带的听力敏感性丧失，可以通过在听力测试中的听力敏感图进行检测。对于老年性耳聋病例，高频频段的听力敏感性容易丧失。对于噪音引发的听力损失，将会在某些缺口频段的听力敏感性丧失。由此产生的听力损失的主要症状是难以理解声音，特别是来自基波较高的女性和儿童的声音，以及难以理解具有背景噪声的声音，这也被称之为鸡尾酒会问题。即使使用助听器，仍然存在的问题是声音会变得很大声，但是听不清声音的内容。从上述内容可知，补救听力损伤的可行办法是放大特定弱化频带的声音。这正是目前市面上助听器的放大原理。然而，这样的助听器却不能很好地发挥助听功能，因为即使在使用了这样的助听器之后，仍然存在声音变得很大但是却没有清晰度的问题。数据统计显示，目前在25％的能获得助听器的听力受损人群中，60％的人即使配备了助听器也不会持续地使用。

3.目前助听器设计的缺陷

目前助听器设计的问题根源在于，对声音感知的认识是建立在上述误解之上的。亥姆霍兹曾发表著名的言论：“所有的声音，无论多么复杂，都可以在数学上分解为正弦波”，自此之后，声音便以傅里叶频率表示。但是在人类的听觉感知中，却不是这样工作的，因为存在基音缺失的现象以及被正弦波调制的白噪声所产生的音调。“基音缺失现象”是指人耳能够明确地感受到一个复合音的基音音高，然而在实际上该复合音的傅里叶频谱中并没有显示出人耳所感知的基音部分。为了弥补这些存在的缺点，引入了“音调”，认为声音感知是基于周期的，取决于调制产生的包络，而非频率。由于缺乏严格的方法来确定调制模式，因此“音调”只是一个主观上的定义。然而，目前在使用的听力图仍然是基于傅里叶频率的纯正弦声音，听力图用来测量听力损失并且根据其测量结果安装助听器。因此，当前基于傅里叶的助听器将放大弱化的高频带，该频带主要是谐波，与所感知的声音几乎没有关系。由于存在基音缺失的现象，谐波的放大无异于放大了基波。听力障碍者在听基音上是没有问题的，他们存在听力障碍的高频区的声音主要是来自清音和辅音。谐波的放大，放大的是听力障碍者所能感知的基音部分，会使得声音更大声，但是，无法听到辅音会导致清晰度下降。显然，当前的助听器方法存在问题。

这种混乱深深根植于我们对可听声音理论的误解中。傅里叶分析是基于线性和稳态的假设，但是声音既不是线性的也不是稳态的。因此，语言中能用傅里叶进行分析的部分是一些元音和一些浊辅音，与声带振动有关的声音，其打开速度比闭合速度慢，并产生轮廓不对称且失真的非线性波。在用傅里叶进行声音分析时，每当涉及声带声音产生，这些声音就含有丰富的谐波。谐波的放大等效于基波的放大，这些基波的频率较低且没有周期性。这些不是听力产生的问题。

实际上，听力损失是由于大部分由辅音产生的对高频声音的敏感度丧失而引起的，辅音定义了清晰度并且带有语音的含义。辅音是瞬态的，无法用傅里叶进行分析，因此在傅里叶分析中通常被忽略。结果，在傅里叶分析中放大较高的频率相当于放大谐波，从而产生较大的基波，就像著名的基音缺失的现象。而辅音被忽略了。实际上，由于与辅音有关的时间精细结构(Temporal Fine Structure,TFS)的表示不足，清晰度将会降低。

重要的是，不应使用傅里叶方法分析声学信号，傅里叶方法是基于不符合语言特征的线性和稳态假设。我们不能基于傅里叶分析来感知声音，这也可以基于以下技术原因来讨论：

(1).傅里叶分析是基于积分变换的，积分变换需要一个有限的窗口，并受测不准原理的限制。

(2).傅里叶频谱无法检测出调制：它们无法说明周期性，而周期性是解释包络声音这一声音感知的重要属性。因此，出现了令人困惑的基音缺失现象以及正弦波调制的白噪声的声音感知。

(3).傅里叶无法表示打击乐器发出的“chi”的声音，因为这种声音是非平稳的。

(4).耳蜗的运行机制是由流体动力学驱动的，所以其不可能在所有谐波的位置处都产生波峰来满足音质的表现需求。

(5).谐波是通过线性方法来分析非线性信号而人工产生的，因此谐波是数学上的假象而非物理现象。

(6).替代数据(具有任意相位的傅里叶光谱)的存在使得傅里叶光谱的表示不唯一。

由于存在上述限制，过去的语音分析都把重点放在元音上。而实际上，我们讲话的含义大部分是由辅音表示，这些辅音的频率大都高于大多数谐波的频率范围。采用目前的语音分析方法对声音进行增强时，往往只是放大了元音的谐波部分，而不放大辅音，造成声音很大但是却不清晰。无法在傅里叶分析中正确地表示且在音高的形成感知中忽略这些辅音是我们语音感知理论和助听器及原理中的致命缺陷。

发明内容

本发明所要解决的技术问题在于提供一种选择性放大的语音增强方法及语音增强系统，通过本发明可以将声音进行选择性放大，只放大声音中频率较高的辅音而不放大元音，有效提高放大后声音的清晰度。

本发明基于希尔伯特-黄变换(Hilbert-Huang Transform，HHT)，其是基于时间分析。HHT是将信号进行经验模态分解(Empirical Mode Decomposition,简称为EMD)，信号经过EMD分解后得到多个本征模态函数(Intrinsic Mode Function,简称IMF)分量，将每个IMF分量进行Hilbert变换，得到信号的时频属性。其中，频率是由相位函数的微分定义而非傅里叶变换中的积分变换定义。

EMD分解的步骤如下：

(1)找出信号x(t)中所有局部极大值，并用三次样条插值函数连接成上包络；同理，利用三次样条插值函数连接所有的局部极小值，构成下包络；

(2)求出上、下包络的平均值记为m₁，并求原始信号与包络均值的差值： x(t)-m₁＝h₁；

(3)如果h₁满足IMF的条件，那么h₁就是求得的第一个IMF分量；否则将 h₁作为原始信号进行(1)-(2)的步骤，直到第k次迭代后的差值h_1,k(t)成为一个IMF，记为c₁(t)＝h_1,k(t)，上述k步迭代的终止准则是使得

位于设定的区间之内；

(4)从原始信号中减去c₁(t)得到第一阶剩余信号r₁(t)，x(t)-c₁(t)＝r₁(t)；

(5)将剩余信号r₁(t)作为原信号进行步骤(1)-(4)过程，

终止准则是当第N阶剩余信号r_N(t)足够，以致不能再提取IMF。

综上所述，原始信号x(t)的分解为：

其中IMF分量需要满足以下两个条件：(1)IMF函数在整个时间范围内，局部极值点和过零点的数目必须相等，或者最多相差一个；(2)在任意时刻，局部极大值的包络(上包络线)和局部极小值的包络(下包络线)的平均值趋近于0。

将信号进行希尔伯特变换，假设，现有信号x(t)，定义信号x(t)的希尔伯特变换为H[x(t)]，

HHT变换设计用于分析非线性和非稳态数据，而语音信号也具有这样的特性，因此HHT变换极其适用于语音信号的处理。但是瞬时频率不能代表调制模式产生的“周期”。将HHT进一步扩展到了更高维的全息希尔伯特频谱，可以涵盖调制(或包络)频率。在这种新方法中，严格定义了载波和包络(又称音高)的频率。使用专门为非线性数据设计的全息频谱表示方法，该方法不会受到谐波的数学假象的影响。同时，全息希尔伯特频谱表示方法，也是为非稳态数据而设计，该方法可以高保真地表示瞬态辅音。更重要的是，该方法可以揭示调制或周期性模式。

根据对声音信号分析的详细知识，在本发明中，我们避免进行频域空间的操作，完全基于时间。因此，本发明将能节省信号处理时间并且提高声音的清晰度。

为了实现上述发明目的，本发明一方面提供一种声音增强方法，包括以下步骤：

(1)取得声音信号，并将声音信号转化成数字信号；

(2)将步骤(1)中的数字信号采用模态分解方法进行分解，取得多个本征模态函数(IMFs)，该多个本征模态函数表示由声音信号转化的数字信号在不同频率的振幅随时间的变化；

(3)将步骤(2)中取得的多个本征模态函数的振幅进行选择性放大；

(4)将选择性放大后的本征模态函数进行整合，得到整合后的重构信号；

(5)将整合后的重构信号转换为模拟信号。

可选的，模态分解方法包括经验模态分解法，集合经验模态分解法，或者自适应性二进位遮罩经验模态分解法。

可选的，步骤(3)中对本征模态函数的振幅进行放大时，放大的频率区间和放大倍数根据听力障碍患者的听力测试图谱进行确定。

可选的，步骤(3)中对本征模态函数的振幅进行放大时，选择对辅音频率范围的本征模态函数进行放大。

为了降低信号处理时间以及降低成本，本发明还提供另一种声音增强方法，包括以下步骤：

(1)取得声音信号，并将声音信号转化为数字信号；

(2)将步骤(1)中的数字信号采用自适应滤波器进行分解，取得多个类本征模态函数，该多个类本征模态函数表示由声音信号转化的数字信号在不同频率的振幅随时间的变化；

(3)将步骤(2)中取得的多个类本征模态函数的振幅进行选择性放大；

(4)将选择性放大后的类本征模态函数进行整合，得到整合后的重构信号；

(5)将整合后的重构信号转换为模拟信号。

可选的，自适应滤波器为均值滤波器。

可选的，步骤(3)中对类本征模态函数的振幅进行放大时，放大的频率区间和放大倍数根据听力障碍患者的听力测试图谱进行确定。

可选的，步骤(3)中对类本征模态函数的振幅进行放大时，选择对辅音频率范围的本征模态函数进行放大。

可选的，本发明中提供的两种声音增强方法，可以应用于助听器，电话，以及电话会议中的广播设备。

本发明的另一方面，提供一种声音增强系统，包括声音接收模块、声音增强模块和声音播放模块，其中：

声音接收模块用于接收声音信号，并将声音信号转换为数字信号；

声音增强模块用于对数字信号进行处理，得到多个本征模态函数或者多个类本征模态函数，将得到的本征模态函数或类本征模态函数的振幅进行选择性放大，并将选择性放大的本征模态函数或类本征模态函数进行整合，得到整合后的重构信号，并将重构信号转化为模拟信号，得到增强后的声音信号；

声音播放模块，用于将增强后的声音信号进行播放。

可选的，声音增强模块包括自适应滤波器库，放大单元和整合单元，其中：

自适应滤波器库用于对数字信号进行分解，得到数字信号的多个本征模态函数或者多个类本征模态函数；

放大单元用于对多个本征模态函数或者多个类本征模态函数的振幅进行选择性放大；

整合单元用于对增强的本征模态函数或者类本征模态函数进行整合，得到增强的声音信号。

可选的，声音增强模块还包括增益值调整单元，其根据听力障碍患者的听力测试图谱，获取听力障碍患者在不同频率范围内声音信号振幅所需要放大的倍数或者根据辅音所在的频率范围确定放大倍数，放大单元根据增益值调整单元对多个本征模态函数或多个类本征模态函数的振幅进行放大。

可选的，自适应滤波器库包括模态分解滤波器组或者均值滤波器组其中之一。

可选的，声音增强系统应用于助听器，电话，以及电话会议中的广播设备。

一贯以来，人们对声音存在误解，认为所有的声音信号都可以分解成正弦波，即声音用傅里叶频率表示。本发明克服了声音分析中的错误认知，基于希尔伯特-黄变换，对声音信号在时域上进行分析。利用本发明中的声音增强方法及声音增强系统，可以对声音进行选择性放大，只放大声音中频率较高的辅音而不放大元音，有效提高放大后声音的清晰度。

附图说明

图1为本发明中声音从产生到增强之后进行播放的流程图。

图2为钢琴发出的低A、中A和高A的波形图和傅里叶频谱图。

图3为钢琴发出的低A声音的傅里叶频谱，其中图3a为包含基波(220Hz) 的频谱，图3b为不包含基波的频谱。

图4为钢琴发出的低A声音的小波频谱图，其中图4a为包含基波(220Hz) 的频谱，图4b为不包含基波的频谱。

图5为钢琴发出的低A声音的希尔伯特时间频谱图，其中图5a为包含基波 (220Hz)的频谱，图5b为不包含基波的频谱。

图6为钢琴发出的低A声音具有基波(220Hz)的全息希尔伯特频谱。

图7为钢琴发出的低A声音不具有基波(220Hz)的全息希尔伯特频谱。

图8为图6和图7的边缘频谱。

图9为来自“zi”的声音数据，在汉语中，“z”是辅音，其后是元音“i”。

图10为图9中给出的声音数据的IMF分量。

图11为语音“zi”和声音信号叠加后的傅里叶频谱图。

图12为语音“zi”和声音信号叠加后的希尔伯特频谱图。

图13为语音“zi”对高频部分放大或缩小后的重构信号比较。

图14为来自“hello”的声音数据，其中“h”和“lo”是能听到的声音。

图15是图14中给出的声音数据的IMF分量。

图16是语音“hello”的希尔伯特频谱图。

图17为语音“hello”的傅里叶频谱图。

图18a为第一个IMF与不同滤波器滤波后的组成的对比。图18b为信号主要部分的差异的详细比较。

图19为基于语音增强的自适应算法应用场景的框图，该自适应算法基于通信设备(例如电话和电话会议)的信号分解和选择性放大。

具体实施方式

以下配合附图及本发明的较佳实施例，进一步阐述本发明为达成预定发明目的所采取的技术手段。

如图1所示，本发明实施例所揭露的一种声音增强方法，在步骤100，接收声源发出的声音信号。接着进行步骤110，将声音信号进行数字化，在进行声音信号数字化过程中，采样频率可以根据需要进行选择，若想要降低成本，可以将采样频率降低至6000Hz至10000Hz，若为了获得更高的保真度，也可以采用高频率的采样频率，22KHz或者44KHz(其中22KHz和44KHz属于目前主流的采集卡使用的采样频率)。因为声音中，可能会出现一些噪声，需要将噪声进行清除，在步骤120中，可以通过EMD或者中值滤波器来进行清除。将去噪后的信号进行处理，可以通过模态分解方法(步骤130)或者均值滤波器(140) 处理信号，得到声音信号的本征模态函数分量或者类本征模态函数分量。模态分解方法指本发明中利用任意一种可以取得本征模态函数分量的模态分解方法，例如经验模态分解法(EmpiricalMode Decomposition,EMD)，集合经模态分解法(Ensemble Empirical ModeDecomposition,EEMD),或者自适应性二进位遮罩经验模态分解法(Conjugate AdaptiveDyadic Masking Empirical Mode Decomposition,CADM-EMD)，除了使用以上各种经验模态分解方法以及基于其改进的信号分解方法，如均值滤波器组，获得类本征模态函数分量。所得到的本征模态函数分量或者类本征模态函数分量表示声音数据在不同频率尺度的振幅随时间的变化。在步骤150中，根据听力障碍患者的听力测试结果，选择性地放大本征模态函数分量或者类本征模态函数分量。在步骤160中，将选择性放大的本征模态函数分量或者类本征模态函数分量进行整合，得到整合后的重构信号。在步骤161中，选择限幅器对整合后的重构信号进行处理，因为当步骤160中放大倍数过大时，可能会导致信号削波，使得重构后的声音变得粗糙，此处增加限幅器，增强声音的还原度。在步骤170中，将数字信号转化为模拟信号(即声音信号)，并通过扬声器(步骤180)将声音回放给听力障碍患者。

为了更好地说明本发明的声音增强方法，我们首先以模态分解方法为例进行说明。首先，接收声源发出的声音信号(步骤100)，并对声音信号进行数字化(步骤110)。为了节省时间，将进入的声音以22KHz采样频率进行数字化。采样频率基于以下考虑因素确定。在语音中，元音和浊辅音受声带振动频率支配，声带的振动频率形成基波，记为F₀。F₀的频率范围从80Hz到400Hz，该频率范围表示从一个深沉的男性声音到一个孩子的声音。尽管语音可以包含高达10KHz的频谱信息，但是区分不同的辅音和元音所需的傅里叶频谱信息在很大程度上位于3000Hz至5000Hz以下，因为其中的很多频谱是由谐波组成，其频率可能比实际声音信号的频率高得多。就没有人造谐波的希尔伯特频谱表示而言，声音信号的瞬时频率很少会超过1000Hz。因此，22KHz的采样频率足够了。为了进一步节省处理成本，采样频率可以降低到10000Hz甚至6000Hz，当然，为了获得更高的保真度，也可以使用全44KHz的采样频率。

这些声音信号中的尖峰噪声可以通过EMD或者中值滤波器进行去除(步骤 120)。通过EMD对声音信号进行分解(步骤130)，得到声音信号的本征模态函数分量

其中，x(t)是初始声音信号，c_j(t)是本征模态函数(Intrinsic Mode Function,IMF)分量，r_N(t)是剩余信号。这些IMF分量是正交的，并且在时间范围内对这些分量进行动态排序。第一个IMF分量通常是由三点振荡组成。由于EMD几乎是二分频频率增加的滤波器，所以当到达第五个IMF 分量时，振荡应由48个点的平均波长组成。当采样频率为22KHz时，第五个 IMF分量已经等于450Hz的频率。根据患者的病情，我们应当在该点之前停止。例如，对于以22KHz进行数字化的信号，前5个分量的平均频率为：

c₁(t):3-points～7,000Hz

c₂(t):6-points～3,500Hz

c₃(t):12-points～1,800Hz

c₄(t):24-points～900Hz

c₅(t):48-points～450Hz (2)

无论基础频率值如何，我们都可以根据患者的病情选择性地放大高频分量，并将信号重构为y(t)(即步骤160和170)：

因为r_N(t)代表声音的趋势，一般频率很低，人耳不能识别，可以被忽略，因此，重构信号y(t)可以表示为：

其中是a_j放大因子，该值是根据患者的听力图测试数据确定的，以适应不同的患者；也可以根据辅音所在的频段预先设定放大因子的数值。大多数放大应该选择性地放在高频分量上，因为那些分量实际上代表了会增加声音清晰度的辅音。由于大多数听力障碍患者仍然能够听到高达500Hz的声音，因此，处于实际使用的目的，扩增前4个成分应该是足够的。重构的信号y(t)可以被转换回模拟信号即声音信号(步骤170)并被回放给收听者。值得注意的是，这里可能需要一个限幅器(步骤161)，因为放大倍数过大将可能会导致信号削波，并且使得重构的声音变得粗糙，添加限幅器，可以增强声音的还原度。

为了获得更高的保真度，可以将采样频率设置为44KHz。在这种情况下，第一个IMF的值将为15KHz，该值可能被忽略以抑制环境噪声。无论采样率如何，我们只需要放大前5个IMF分量即可达到450Hz。

为了说明本发明中声音分析方法的优势，在图2-图8中，我们比较了傅里叶频谱图、小波频谱图以及希尔伯特时间频谱图，通过不同方法频谱图的比较，用缺少基波的例子来讲述听力机制的细节，这将有助于说明目前谐波放大方法的不足之处。

首先我们以钢琴(一种打击乐器)发出的低A音为例。在图2中给出了钢琴发出的低A、中A和高A的波形数据以及相应的傅里叶频谱，从左侧的波形数据中可以看出正弦曲线形状的失真波形。失真的波形将会产生如右侧图形中傅里叶频谱中所示的谐波。图3a和图4a给出了包含基波的傅里叶频谱图和小波频谱图，基波可以通过陷波滤波器去除，但是在去除基波之后，滤除的信号仍被视为基音。图3b和图4b中的傅里叶频谱图和小波分析频谱图中也显示了缺少基波的频谱。图3b与图3a相比，虽然缺少了基波，但是两者转换成声音信号之后，声音信号听起来是一致的；图4b与图4a相比，缺少了基波，但是两者转换成声音信号之后，声音信号听起来也是一致的。因此，从上述图谱中，我们发现了令人费解的基音缺失现象。如果我们切换到自适应的HHT分析，图 5a和图5b分别给出了包含基波和不包含基波的希尔伯特频谱，如图5b所示的希尔伯特频谱中去除基波之后，仍存在微弱的基波，但是这种微弱的能量密度无法解释为什么听者能听到声音。长期以来，人们已经认识到，感知到的声音实际上来自于包络的周期性。然而，目前并没有可用的工具来严格且客观地确定包络的频率组成。我们感知到的声音目前仅仅是通过主观的“音高”来定义。

最近，黄锷等人引入了全息希尔伯特频谱分析，更准确地说，是引入了一整套工具来分析与听力有关的声信号。如果使用全息希尔伯特频谱分析，图6 和图7中分别给出了声音中具有和不具有基波的频谱。图6为具有基波的低A 声音的全息频谱，由图6可知，在几乎所有的FM频率范围内，都有一个约220Hz 频率的强调制AM能量密度。在220Hz附近也有很强的FM能量密度。图7为没有基波的低A声音的全息频谱，由图7可知，在220Hz左右的强AM调制频率仍然覆盖了几乎所有的FM频率范围，即在覆盖了几乎所有FM频率范围的 220Hz左右频率上的强调制AM能量密度仍然存在。这里缺少220Hz左右的强 FM能量密度，这表明经过滤波后的数据中缺少基波。如果我们进一步从图6和图7中计算边缘全息频谱，其结果如图8所示。在两种情况下，即使没有基波， AM的能量密度也是主要的。无论是否存在基波，此处均清晰地显示了调制频率 AM的主导地位，即使是在FM投影中滤波器数据中已经没有基波的情况下。FM 或AM的主要频率是感知到的声音。因此，我们证明了HHT在声学信号分析中的优势，以及缺少基波的影响，通过放大谐波进而放大基波。

但是，对于语言分析，完整的四维时间相关的全息希尔伯特频谱显得过于复杂且粗笨。要解决本发明中的问题，简化的基于时间的瞬时频率希尔伯特频谱分析就足够了。本发明仅基于时间操作。

为了详细说明本发明中实际的工作方法，我们以中文发音中的清音“zi”进行进一步说明。请参见图9，图9是声音“zi”的数据信息，在汉语中，“z”是辅音，其后是元音“i”。实际上，值得注意的是，汉语中包含了一些最高频率的清音(如z，c，s和j，q，x)，这些声音的存在给助听器设计带来了很大的挑战，本例中的“zi”就是其中一例。

根据EMD分解方法，对图9中展示的数据进行分解。该分解结果在图10 中展示，即图10中展示的是图9中数据的IMF分量。图10中，前4个IMF中的高频分量主要代表“z”的声音，尤其是IMF1和IMF2，框图区域内表示图9 中给出的数据所覆盖的时间段。

图11是语音“zi”信号叠加后的傅里叶频谱图。在开始的0.15s内，声音为“z”，其频率非常高，从8000Hz附近开始，几乎达到20000Hz。元音部分稍后开始，并且充满了谐波。在2000Hz范围内有密集的谐波，还有其他高能量密度区域，分别位于4000Hz至5000Hz和8000Hz至10000Hz左右。由于傅里叶分析在应用于非线性和非稳态数据时的所有缺点，我们将在图12中给出基于HHT 的希尔伯特频谱分析的结果进行比较。

图12中，“z”声的高频能量密度保持不变，最高频率可达12000Hz，但是不存在8000Hz的元音谐波。4000Hz的能量不是任何声音的谐波，而是声音在声道中的反射。该图谱中，在高频范围内不存在任何谐波，仅留下辅音，这样就为我们提供了一个很好的机会，可以在不改变元音部分声音的情况下放大辅音。这是本发明的关键技术。根据公式(3)，我们可以放大前几个IMF而不影响元音(步骤150)，对于IMF1和IMF2尤其如此。

图13是放大(步骤160)或缩小之后的重构信号的比较。放大的信号(H1z 和H2z)代表了高频IMF的不同放大因子，不同的放大因子说明了本发明中的语音增强方法可以对不同患者的个性化选择性放大作用。与原始信号相比，我们可以看到放大仅选择性地放大了辅音部分，而使元音部分保持不变。

缩小信号(L1z和L2z)在不同程度上模拟了听力损失。对于老年患者而言，存在听力障碍的是辅音部分而非元音部分。目前市面上的自补偿机制的助听器会使得声音变大，但是声音缺乏清晰度。重要的是，如果选择性放大在1000Hz 到4000Hz范围内的谐波上，则有效的是放大元音的基波而不会涉及辅音部分，最终的效果将是相当于放大了L1z或者L2z，使得声音将变得很大，但是清晰度不会提高。最后，我们可以将重构的信号转换回模拟信号，即声音信号(步骤 170)，以通过助听器的放大器或者麦克风进行回放(步骤180)。对于先天性听力损失的病例，取决于个别患者的病情，放大对他们而言可能更加重要。

需要指出的是，助听器设计的原理是声音的“选择性放大”。放大大约2000Hz 至4000Hz范围内的傅里叶，该方法有效地放大了谐波，这在没有基波的情况下，相当于放大了基波。但是这些基波根本不需要放大。然而，某些辅音没有谐波，也没有任何在2000Hz至4000Hz范围内的有形信号。傅里叶方法中的组合效果实际上是放大了可以听到的元音，等效于放大图13中的信号L1z或L2z。患者将不会获得任何清晰度，而只会获得响度，这正是当前基于傅里叶原理的助听器使用者的抱怨。

实施例二

更进一步地，为了节省时间，EMD方法可以用其他方法进行替代或者进行等效。这些等效方法包括连续运行方式的重复应用，中值方法，单独的一组带通滤波器，任何可以将信号分为高低部分的滤波器，具有根据输入信号所需的各种窗口大小的高通滤波器或其他时域滤波。所述步骤如下：首先通过连续运行均值分解数据，

其中，<x(t)>_nj表示窗口大小为nj的均值滤波器，其中nj必须为奇数。h_j(t)是过滤器产生的类IMF。此外，矩形滤波器的反复使用实际上改变了所用的矩形滤波器的响应函数。例如，两次重复将会给出一个三角响应，重复四次以上，几乎可以得到高斯形状的响应。使用此过滤器的关键参数是窗口大小。根据公式(2)中的讨论，在22KHz的采样频率下，我们可以得出以下结论：矩形滤波器和EMD之间应具有如下的等价关系：

nj＝3～7,000Hz

nj＝7～3,500Hz

nj＝15～1,500Hz

nj＝31～700Hz

nj＝61～350Hz

(6)

滤波器的缺点是没有一个滤波器能像EMD一样清晰，这点我们稍后将会讲到。但是，滤波器仍能作为EMD的廉价替代品。

像公式(3)中那样实现选择性放大，并得到重构信号y(t)为：

其中a_j的值可以由患者根据公式(3)中相同，可以根据听力图测试结果确定。

为了详细说明EMD数据分解的替代方法在语音增强领域的应用，以及这些替代方法与EMD分解方法的性能对比，请参照图14至图18b，我们以“hello”的语言数据为例。图14为“hello”语言的数字化数据，其中“h”和“lo”是能听到的声音。图15为EMD分解的数据，其中能量最高的组分是IMF3，还有两个高频IMF分别为IMF1和IMF2。“hello”的希尔伯特频谱如图16所示，沿 200Hz信号的能量密度表示声带的振动，在400Hz至1000Hz之间的能量密度主要表示发声器官的共振。2000Hz至3000Hz之间的高频能量表示声道的反射，该频率根据说话者的身高体重而定，因人而异。例如，图12中的反射信号要高得多，大约为4000Hz，这表明该说话者的体型较小。这些高频成分将会增加声音的音色。值得注意的是，只有极少的能量高于1000Hz。

图17是声音“hello”的傅里叶频谱图。从图中可以看到其涵盖所有频率范围的全部谐波。基于上面讨论的“基音缺失”现象，谐波的放大等于基波的放大。因此，在傅里叶分析中，任何试图在此范围内放大频率的尝试都将精确地证明缺少基波的现象，结果将是使得声音更加响亮，但是不会增加清晰度。

图18a是第一个IMF和滤波器滤波后的成分对比，此处对比使用的滤波器为均值滤波器。总体而言，它们看起来是相似的。放大后的细节如图18b所示，用于详细比较信号主要部分的差异，其中滤波器结果中缺乏动态范围是显而易见的。使用滤波器的方法并不能保证IMF属性，因为瞬时频率和产生的包络将与EMD方法不同。滤波器方法最关键的缺点是，均值滤波器将会去除低频分量尖锐特征的一些谐波。因此，用滤波器方法将会有泄露，但是该方法也是完整的，这样产生的类IMF的总和将加起来以完整地恢复原始数据。基于上述考虑，滤波器方法可以提供可接受的但是更加便宜的EMD产生的IMF替代品。滤波器方法可能仍具有完全相同的效果，以增加清晰度而不增加响度，因为清晰度的降低是由于TFS(时间精细结构，又称为辅音)的表示不足所致。这就是我们在此实施例中所实现的功能。滤波器方法和EMD方法看起来相似，但是滤波器方法仍然会损失一些清晰度和其他定性细节。

由于EMD更加耗时，即使计算复杂度可与傅里叶变换相比。如果使用滤波器方法，我们可以得到与EMD方法相当的高频分量，声音可能不那么清晰，因为均值滤波器的确将滤波后的结果分布在更宽的时域上(图18a和18b详细显示了EMD与均值滤波器之间的比较)。最终结果将不如完整的EMD方法那么精确，但是，滤波器方法可以更简单，更便宜地实现。

实施例三

上述的两个实施例主要是介绍本发明中的助听方法，在介绍时主要应用是针对听力障碍人士的助听设备，即助听器。本发明中的基于语言增强的信号分解自适应算法除了在助听器方面的应用，还可以用于通信设备，例如电话或者电话会议中的广播。

电话语音是听力障碍患者的经典问题。随着高质量手机的发展，语音质量得到了极大的提高。但是，对于听力障碍患者而言，这仍然是一个挑战。声音的增强，降噪以及优化都是非常必要的。

对于电话会议中的广播，高频分量的快速衰减将使得到达听众的声音失去清晰度。因此，高频的选择性放大将会改善声音质量。

针对本发明中的算法在电话或电话会议中的广播，实现步骤如图19所示，其中的关键部分是语音增强模块。请参照图19所示，图19为本发明实施例的一种语音增强系统的框图。该语音增强系统包括声音接收模块10、声音增强模块20和声音播放模块30。其中，声音接收模块10用于接收声音信号，并判断接收到的声音信号为模拟信号或数字信号，当接收到的声音信号为模拟信号时，将模拟信号转换为数字信号。声音增强模块20用于对接收到的声音数字信号进行选择性放大，声音增强模块的关键部分所涉及的原理和详细步骤与助听器实施例中列出的原理和详细步骤相同。声音增强模块10在接收到数字声音信号之后，由自适应滤波器库对声音信号进行处理，得到多个本征模态函数分量或者多个类本征模态函数分量。其中，自适应滤波器库包括模态分解滤波器组，均值滤波器组，模态分解滤波器组采用本发明中利用任意一种可以取得本征模态分量的方法，例如经验模态分解法(Empirical Mode Decomposition,EMD)，集合经模态分解法(Ensemble Empirical ModeDecomposition,EEMD),或者自适应性二进位遮罩经验模态分解法(Conjugate AdaptiveDyadic Masking Empirical Mode Decomposition,CADM-EMD)，除了使用以上各种经验模态分解方法以及基于其改进的信号分解方法，还可以使用自适应滤波器组，如均值滤波器组，获得类本征模态分量。数字声音信号经过自适应滤波器库后得到多个本征模态函数分量或多个类本征模态函数分量，该多个本征模态函数分量或多个类本征模态函数分量表示声音数据在不同频率尺度的振幅随时间的变化。增益值调整单元，其数值可以根据听力障碍者的测量结果，确定不同频率范围内的声音信号振幅所需要放大的倍数；也可以根据辅音所在的频段范围进行预置。根据增益值调整单元，对自适应滤波器库处理后的本征模态函数分量或类本征模态函数分量进行选择性放大，不同的频率范围可以选择放大不同的倍数，以达到选择性放大的目的。将选择性增强后的本征模态函数分量或者类本征模态函数分量进行整合，得到增强的声音信号。声音播放模块30用于对增强后的声音进行播放，其将增强后的声音信号转换成模拟信号，并进行播放。

以上所述仅是本发明的优选实施例而已，并非对本发明做任何形式上的限制，虽然本发明已以优选实施例揭露如上，然而并非用以限定本发明，任何熟悉本专业的技术人员，在不脱离本发明技术方案的范围内，当可利用上述揭示的技术内容作出些许更动或修饰为等同变化的等效实施例，但凡是未脱离本发明技术方案的内容，依据本实用发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰，均仍属于本发明技术方案的范围内。

Claims

1.一种声音增强方法，其特征在于，包括以下步骤：

(1)取得声音信号，并将声音信号转化成数字信号；

(5)将整合后的重构信号转换为模拟信号。

2.根据权利要求1中的声音增强方法，其特征在于，还包括：所述模态分解方法包括经验模态分解法，集合经验模态分解法，或者自适应性二进位遮罩经验模态分解法。

3.根据权利要求1中的声音增强方法，其特征在于，还包括：步骤(3)中对本征模态函数的振幅进行放大时，放大的频率区间和放大倍数根据听力障碍患者的听力测试图谱进行确定。

4.根据权利要求1中的声音增强方法，其特征在于，还包括：步骤(3)中对本征模态函数的振幅进行放大时，选择对辅音频率范围的本征模态函数进行放大。

5.一种声音增强方法，其特征在于，包括以下步骤:

(1)取得声音信号，并将声音信号转化为数字信号；

(5)将整合后的重构信号转换为模拟信号。

6.根据权利要求5中的声音增强方法，其特征在于，还包括：所述自适应滤波器为均值滤波器。

7.根据权利要求5中的声音增强方法，其特征在于，还包括：步骤(3)中对类本征模态函数的振幅进行放大时，放大的频率区间和放大倍数根据听力障碍患者的听力测试图谱进行确定。

8.根据权利要求5中的声音增强方法，其特征在于，还包括：步骤(3)中对类本征模态函数的振幅进行放大时，选择对辅音频率范围的本征模态函数进行放大。

9.根据权利要求1或5中的声音增强方法，其特征在于，所述声音增强方法应用于助听器，电话，以及电话会议中的广播设备。

10.一种声音增强系统，其特征在于，所述声音增强系统包括声音接收模块、声音增强模块和声音播放模块，其中：

声音播放模块，用于将增强后的声音信号进行播放。

11.根据权利要求10中的声音增强系统，其特征在于，所述声音增强模块包括自适应滤波器库，放大单元和整合单元，其中：

12.根据权利要求11中的声音增强系统，其特征在于，所述声音增强模块还包括增益值调整单元，其根据听力障碍患者的听力测试图谱，获取听力障碍患者在不同频率范围内声音信号振幅所需要放大的倍数或者根据辅音所在的频率范围确定放大倍数，放大单元根据增益值调整单元对多个本征模态函数或多个类本征模态函数的振幅进行放大。

13.根据权利要求11中的声音增强系统，其特征在于，所述自适应滤波器库包括模态分解滤波器组或者均值滤波器组其中之一。

14.根据权利要求10中的声音增强系统，其特征在于，所述声音增强系统应用于助听器，电话，以及电话会议中的广播设备。