CN102737643A - 一种基于Gabor时频分析的耳语增强方法 - Google Patents
一种基于Gabor时频分析的耳语增强方法 Download PDFInfo
- Publication number
- CN102737643A CN102737643A CN2011100927803A CN201110092780A CN102737643A CN 102737643 A CN102737643 A CN 102737643A CN 2011100927803 A CN2011100927803 A CN 2011100927803A CN 201110092780 A CN201110092780 A CN 201110092780A CN 102737643 A CN102737643 A CN 102737643A
- Authority
- CN
- China
- Prior art keywords
- lambda
- voice
- spectrum
- whispering
- noise
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明提供一种基于Gabor时频分析的耳语增强方法,包括如下步骤:第1步:利用Gabor时频分析理论和方法提取耳语音对数谱幅度,第2步,基于无语音概率的耳语音噪声谱估计,第3步,获取纯净耳语音的功率谱,并求增强后的耳语音信号;本发明基于Gabor变换下的耳语音功率谱根据抽样率的不同有着多样的时频分析细腻度,从而可以根据不同的语音类型采用不同的抽样率,使算法普适性更强。
Description
技术领域:
本发明涉及一种耳语增强方法,属于多媒体信号处理技术领域。
背景技术:
耳语音增强的目的在于从被噪声污染的耳语音中尽可能提取纯净的耳语音。耳语音增强技术在语音识别,音频编码及人机交互接口等应用领域都起着重要作用。当前的耳语音增强研究主要集中在如何更准确的估计噪声谱,研究者们提出了很多改进方法且取得了一定的效果。然而,这些变换域语音增强方法在计算频谱时均采用短时傅里叶变换,而有关基于其他联合时频分析方法的语音增强算法的报道并不多见。
耳语音信号本质上是非平稳信号,Gabor联合时频分析是处理非平稳信号的重要方法之一。为此,我们提出一种基于实值离散Gabor变换(RDGT)的联合时频域耳语音增强算法,RDGT中采用的高斯窗函数具有时宽带宽积最小的特性,相比其他窗函数能更好的描述信号的局部时频特征,对耳语音信号分析更加细腻,从而更好的分离耳语音和噪声谱。算法中RDGT正变换和反变换分别采用的两个窗函数满足双正交关系,使得重建信号与原信号误差更小。另外,在RDGT中,可以根据过抽样率参数控制频谱的粗细程度。为了评价算法的有效性及其增强性能,我们将此算法与其他经典算法进行了算法复杂性比较,并且在不同的噪声环境和不同原始信噪比条件下分别进行语音增强实验,实验同时采用客观评价与主观评价相结合的方式来衡量算法的性能。实验结果表明联合时频域增强算法相比传统频域方法在多种噪声背景下都获得了较好的语音增强性能。
发明内容
本发明的所要解决的技术问题是提供一种耳语音增强技术。
本发明为实现上述发明目的采用如下技术方案:
所述的基于Gabor时频分析的耳语音增强步骤如下:
第1步:利用Gabor时频分析理论和方法提取耳语音对数谱幅度,
设带噪耳语音信号为y(n)=x(n)+d(n),其中x(n)和d(n)分别代表纯净的耳语音和噪声信号,且纯净语音和噪声不相关。设Yr(m,n),Xr(m,n)和Dr(m,n)分别代表y(k),x(n)和d(n)的实值离散Gabor变换系数,则具体的实值离散Gabor变换式(以y(k)为例)可表示为:
其相应的逆变换为:
其中a为时移长度,L代表耳语音信号的长度,M为频域抽样点数,N为时域抽样点数,cas(t)=cos(t)+sin(t),γ(k)是综合窗g(k)的双正交分析窗函数,且两者满足如下双正交关系:
实值离散Gabor变换算法的可采用附图2中的并行格结构实现:
获取变换系数后,则可以根据系数采用如下公式计算功率谱:
且根据噪声与语音的独立性假设,有以下等式成立:
Y(m,n)=X(m,n)+D(m,n) (4)
第2步:基于无语音概率的耳语音噪声谱估计
假设耳语音和噪声均服从高斯分布,并且设H0(k,λ),H1(k,λ))分别代表有第λ个时刻的第k个频率点没有语音和有语音信号,则有
f(γ(k,λ)|H0(k,λ))=e-γ(k,λ)μ(γ(k,λ)) (8)
令p(k,λ)≡P(H1(k,λ)|γ(k,λ)),则有
第3步获取纯净耳语音的功率谱,并求增强后的耳语音信号:根据上述语音出现概率,可以求得如下纯净语音功率谱增益
在计算出纯净语音谱增益后,可利用下式计算纯净语音谱:
再利用实值离散Gabor逆变换可获得增强后的纯净语音:
本发明采用上述技术方案具有如下有益效果:
由于耳语音的独特发音方式使得耳语音与正常音有着很大的不同,传统的语音增强方法不再适用,本项目对耳语音这种独特的语音进行耳语音增强,有着一定的理论和实际意义。
目前的基于统计的语音增强方法均假设语音在很短的时间内(通常20ms左右)是平稳的,然而基于Gabor变换的耳语音功率谱表示并不需要此假定,因此更符合语音特质。
Gabor变换中的高斯窗函数有着优良的时频能量聚集特性,并且符合人的听觉感知特性。
传统的基于DFT的语音增强的短时窗有着一定的约定,使得耳语音的功率谱表示单一,而Gabor变换下的耳语音功率谱根据抽样率的不同有着多样的时频分析细腻度,从而可以根据不同的语音类型采用不同的抽样率,使算法普适性更强。
附图说明:
图1是基于Gabor时频变换流程图;
图2是实现实值离散Gabor变换算法快速的并行格结构框图;
图3是不同过抽样率下的本文算法信噪比改进;
图4是高斯噪声环境下不同语音增强算法分段信噪比改进;
图5是语谱图;(a)纯净耳语音语谱图;(b)含噪耳语音语谱图,信噪比为5dB;(c)应用本文算法增强后的语谱图;(d)、(e)、(f)分别应用OMLSA、MMSELSA、MMSE算法进行增强后的语谱图;
图6是耳语音的时域波形,其中(a)是干净的耳语音,(b)是信噪比为-3db时的含噪耳语音,(c)是采用基于Gabor时频分析算法增强后的耳语音。
具体实施方案:
下面结合附图对技术方案的实施作进一步的详细描述:
图1中,首先通过A/D变换装置将采集的模拟耳语音信号转换为数字信号,在转换为数字信号时,采样速率可以设置为8Khz,16Khz等不同的采样速率。采样结束后,将采集到的语音进行分段,每段32毫秒,段与段之间可以有1/2的重叠,同时,用汉宁窗与每段相乘以平滑段与段之间的谱。对加窗后的每一段分别采用Gabor时频分析方法计算Gabor变换系数,同时采样前述的方法计算其对应的谱幅度,然后,对每段的每个幅度频点分别估计其噪声谱。在噪声谱后利用公式(11)计算纯净谱增益函数,再利用(12)式求得估计的干净谱,最后利用(14)式将估计谱转变为时域波形。
图2是图1中进行Gabor时频分析时采用的并行格型结构,此结构接受输入的信号时频谱,通过并行格型结构输出Gabor变换系数。
图3给出了采用本文提出的算法进行耳语音增强时,在过抽样率分别为2,4,8,16,32时,不同的输入信噪比含噪声耳语音通过增强后的输出信噪比改进值,从图3可以看出,在过抽样率为8时,输入信噪比改进值最高,这说明实际操作时,可以将Gabor时频变换的过抽样率设定为8,这一方面提高了系统的增强效果,另一方面,也避免了大量的计算。
图4给出了基于Gabor时频分析方法的耳语音增强算法与三种比较典型的语音增强算法在耳语音增强性能方面的比较,这三种算法分别是基于最优相乘的对数谱幅度估计法(OMLSA),最小均方误差对数谱幅度估计方法(MMSELSA)和最小均方误差幅度谱估计方法(MMSE),从图可以看出,基于Gabor时频分析方法的耳语音增强的效果在各种信噪比条件下,其增强性能都有优于其他三种增强方法。
图5给出了基于Gabor时频分析的耳语音增强方法与其他三种增强方法对耳语音增强的实例,其中a是一段纯净耳语音的时频谱(即语谱图),(b)是对(a)所表示的耳语音加了噪声之后信躁比为-3dB时的含躁语音的时频谱,(c),(d),(e),(f)分别是应用基于Gabor时频分析的耳语音增强方法,OMLSA,MMSELSA,MMSE这四种增强算法对(b)所示的含躁耳语音进行增强后的耳语音的时频谱。从图上可以看出,(c)图保留了更多的语音信息,这说明基于Gabor时频分析的耳语音增强方法获得了更好的增强效果。
图6是应用基于Gabor时频分析的耳语音增强方法对一段耳语音进行增强的时域示例,(a)代表一段纯净耳语音的时域波形,(b)是对(a)进行加躁后的耳语音时域波形,信噪比为-3dB,(c)是应用基于Gabor时频分析的耳语音增强方法增强后的耳语音的时域波形。
Claims (1)
1.一种基于Gabor时频分析的耳语增强方法,其特征在于,步骤如下:
第1步,利用Gabor时频分析理论和方法提取耳语音对数谱幅度:
设带噪耳语音信号为y(n)=x(n)+d(n),其中x(n)和d(n)分别代表纯净的耳语音和噪声信号,且纯净耳语音和噪声不相关;设Yr(m,n),Xr(m,n)和Dr(m,n)分别代表y(k)、x(n)和d(n)的实值离散Gabor变换系数,则y(k)具体的实值离散Gabor变换式可表示为:
其相应的逆变换为:
其中a为时移长度,L代表耳语音信号的长度,M为频域抽样点数,N为时域抽样点数,cas(t)=cos(t)+sin(t),γ(k)是综合窗g(k)的双正交分析窗函数,且两者满足如下双正交关系:
实值离散Gabor变换算法采用并行格结构实现:
获取变换系数后,根据变换系数采用如下公式计算功率谱:
根据噪声与语音的独立性假设,有以下等式成立:
Y(m,n)=X(m,n)+D(m,n) (4)
第2步,基于无语音概率的耳语音噪声谱估计:
假设耳语音和噪声均服从高斯分布,并且设H0(k,λ),H1(k,λ))分别代表有第λ个时刻的第k个频率点没有语音和有语音信号,则有
f(γ(k,λ)|H0(k,λ))=e-γ(k,λ)μ(γ(k,λ)) (8)
令p(k,λ)≡P(H1(k,λ)|γ(k,λ)),则有
第3步,获取纯净耳语音的功率谱,并求增强后的耳语音信号:
根据上述语音出现概率,求得如下纯净语音功率谱增益:
在计算出纯净语音谱增益后,利用下式计算纯净语音谱:
再利用实值离散Gabor逆变换获得增强后的纯净语音:
即为增强后的耳语音。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2011100927803A CN102737643A (zh) | 2011-04-14 | 2011-04-14 | 一种基于Gabor时频分析的耳语增强方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2011100927803A CN102737643A (zh) | 2011-04-14 | 2011-04-14 | 一种基于Gabor时频分析的耳语增强方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN102737643A true CN102737643A (zh) | 2012-10-17 |
Family
ID=46993013
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2011100927803A Pending CN102737643A (zh) | 2011-04-14 | 2011-04-14 | 一种基于Gabor时频分析的耳语增强方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102737643A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106571135A (zh) * | 2016-10-27 | 2017-04-19 | 苏州大学 | 一种耳语音特征提取方法及系统 |
CN110931037A (zh) * | 2019-04-25 | 2020-03-27 | 南京师范大学 | 改进的Mel频率尺度与耳语音共振峰结合的耳语音增强算法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101079266A (zh) * | 2006-05-23 | 2007-11-28 | 中兴通讯股份有限公司 | 基于多统计模型和最小均方误差实现背景噪声抑制的方法 |
US20080192956A1 (en) * | 2005-05-17 | 2008-08-14 | Yamaha Corporation | Noise Suppressing Method and Noise Suppressing Apparatus |
-
2011
- 2011-04-14 CN CN2011100927803A patent/CN102737643A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080192956A1 (en) * | 2005-05-17 | 2008-08-14 | Yamaha Corporation | Noise Suppressing Method and Noise Suppressing Apparatus |
CN101079266A (zh) * | 2006-05-23 | 2007-11-28 | 中兴通讯股份有限公司 | 基于多统计模型和最小均方误差实现背景噪声抑制的方法 |
Non-Patent Citations (1)
Title |
---|
周健等: "基于实值离散Gabor变换的联合时频域语音增强", 《信号处理》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106571135A (zh) * | 2016-10-27 | 2017-04-19 | 苏州大学 | 一种耳语音特征提取方法及系统 |
CN106571135B (zh) * | 2016-10-27 | 2020-06-09 | 苏州大学 | 一种耳语音特征提取方法及系统 |
CN110931037A (zh) * | 2019-04-25 | 2020-03-27 | 南京师范大学 | 改进的Mel频率尺度与耳语音共振峰结合的耳语音增强算法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110085249B (zh) | 基于注意力门控的循环神经网络的单通道语音增强方法 | |
CN102982801B (zh) | 一种用于鲁棒语音识别的语音特征提取方法 | |
CN103236260B (zh) | 语音识别系统 | |
US20240079021A1 (en) | Voice enhancement method, apparatus and system, and computer-readable storage medium | |
CN105788607B (zh) | 应用于双麦克风阵列的语音增强方法 | |
CN103325381B (zh) | 一种基于模糊隶属函数的语音分离方法 | |
CN107274908A (zh) | 基于新阈值函数的小波语音去噪方法 | |
CN105679330B (zh) | 基于改进子带信噪比估计的数字助听器降噪方法 | |
CN109767782A (zh) | 一种提高dnn模型泛化性能的语音增强方法 | |
CN103761974B (zh) | 一种人工耳蜗 | |
CN109961799A (zh) | 一种基于迭代维纳滤波的助听器多通道语音增强算法 | |
CN107785028A (zh) | 基于信号自相关的语音降噪方法及装置 | |
CN110867192A (zh) | 基于门控循环编解码网络的语音增强方法 | |
CN102314883B (zh) | 一种判断音乐噪声的方法以及语音消噪方法 | |
CN103198836A (zh) | 基于Hilbert变换的欠定声音信号分离方法及装置 | |
CN103280225A (zh) | 一种低复杂度的静音检测方法 | |
CN102737643A (zh) | 一种基于Gabor时频分析的耳语增强方法 | |
CN103475986A (zh) | 基于多分辨率小波的数字助听器语音增强方法 | |
CN112863517A (zh) | 基于感知谱收敛率的语音识别方法 | |
CN105741853B (zh) | 一种基于共振峰频率的数字语音感知哈希方法 | |
CN109901114A (zh) | 一种适用于声源定位的时延估计方法 | |
Rao et al. | Speech enhancement using sub-band cross-correlation compensated Wiener filter combined with harmonic regeneration | |
Shimamura et al. | Complex linear prediction method based on positive frequency domain | |
Surendran et al. | Perceptual subspace speech enhancement with variance normalization | |
Gandhimathi et al. | Efficient method of pitch estimation for speech signal using MATLAB |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C12 | Rejection of a patent application after its publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20121017 |