CN102737643A

CN102737643A - 一种基于Gabor时频分析的耳语增强方法

Info

Publication number: CN102737643A
Application number: CN2011100927803A
Authority: CN
Inventors: 赵力; 周健; 邹采荣; 王开; 金赟; 张毅锋; 余华
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2011-04-14
Filing date: 2011-04-14
Publication date: 2012-10-17

Abstract

本发明提供一种基于Gabor时频分析的耳语增强方法，包括如下步骤：第1步：利用Gabor时频分析理论和方法提取耳语音对数谱幅度，第2步，基于无语音概率的耳语音噪声谱估计，第3步，获取纯净耳语音的功率谱，并求增强后的耳语音信号；本发明基于Gabor变换下的耳语音功率谱根据抽样率的不同有着多样的时频分析细腻度，从而可以根据不同的语音类型采用不同的抽样率，使算法普适性更强。

Description

一种基于Gabor时频分析的耳语增强方法

技术领域：

本发明涉及一种耳语增强方法，属于多媒体信号处理技术领域。

背景技术：

耳语音增强的目的在于从被噪声污染的耳语音中尽可能提取纯净的耳语音。耳语音增强技术在语音识别，音频编码及人机交互接口等应用领域都起着重要作用。当前的耳语音增强研究主要集中在如何更准确的估计噪声谱，研究者们提出了很多改进方法且取得了一定的效果。然而，这些变换域语音增强方法在计算频谱时均采用短时傅里叶变换，而有关基于其他联合时频分析方法的语音增强算法的报道并不多见。

耳语音信号本质上是非平稳信号，Gabor联合时频分析是处理非平稳信号的重要方法之一。为此，我们提出一种基于实值离散Gabor变换(RDGT)的联合时频域耳语音增强算法，RDGT中采用的高斯窗函数具有时宽带宽积最小的特性，相比其他窗函数能更好的描述信号的局部时频特征，对耳语音信号分析更加细腻，从而更好的分离耳语音和噪声谱。算法中RDGT正变换和反变换分别采用的两个窗函数满足双正交关系，使得重建信号与原信号误差更小。另外，在RDGT中，可以根据过抽样率参数控制频谱的粗细程度。为了评价算法的有效性及其增强性能，我们将此算法与其他经典算法进行了算法复杂性比较，并且在不同的噪声环境和不同原始信噪比条件下分别进行语音增强实验，实验同时采用客观评价与主观评价相结合的方式来衡量算法的性能。实验结果表明联合时频域增强算法相比传统频域方法在多种噪声背景下都获得了较好的语音增强性能。

发明内容

本发明的所要解决的技术问题是提供一种耳语音增强技术。

本发明为实现上述发明目的采用如下技术方案：

所述的基于Gabor时频分析的耳语音增强步骤如下：

第1步：利用Gabor时频分析理论和方法提取耳语音对数谱幅度，

设带噪耳语音信号为y(n)＝x(n)+d(n)，其中x(n)和d(n)分别代表纯净的耳语音和噪声信号，且纯净语音和噪声不相关。设Y_r(m，n)，X_r(m，n)和D_r(m，n)分别代表y(k)，x(n)和d(n)的实值离散Gabor变换系数，则具体的实值离散Gabor变换式(以y(k)为例)可表示为：

Y_{r} (m, n) = Σ_{k = 0}^{L - 1} y (k) γ (k - ma) cas (2 πnk / N) - - - (1)

其相应的逆变换为：

\overset{&OverBar;}{y} (k) = Σ_{m = 0}^{M - 1} Σ_{n = 0}^{N - 1} Y_{r} (m, n) g (k - ma) cas (2 πnk / N) - - - (2)

其中a为时移长度，L代表耳语音信号的长度，M为频域抽样点数，N为时域抽样点数，cas(t)＝cos(t)+sin(t)，γ(k)是综合窗g(k)的双正交分析窗函数，且两者满足如下双正交关系：

Σ_{k = 0}^{L - 1} g (k + mN) cas (2 πnk / a) γ (k) = \frac{L}{MN} δ_{m} δ_{n} - - - (3)

实值离散Gabor变换算法的可采用附图2中的并行格结构实现：

附图2中，H(N)代表DHT(快速Hartly变换)，其中

Γ中的子块Γ_m为一N×N对角矩阵，即Γ_m＝diag[γ(mN)，γ(mN+1)，Λ，γ(mN+N-1)]。

获取变换系数后，则可以根据系数采用如下公式计算功率谱：

Y (m, n) = \frac{1}{2} (Y_{r} {(m, n)}^{2} + Y_{r} {(m, N - n)}^{2})

且根据噪声与语音的独立性假设，有以下等式成立：

Y(m，n)＝X(m，n)+D(m，n) (4)

第2步：基于无语音概率的耳语音噪声谱估计

基于MMSE的语音估计就是求使得式

值最小的

由此式可得纯净语音谱估计为：

\overset{&OverBar;}{X} (m, n) = \exp (E [\log X (m, n) | Y (m, n)]) - - - (5)

假设耳语音和噪声均服从高斯分布，并且设H₀(k，λ)，H₁(k，λ))分别代表有第λ个时刻的第k个频率点没有语音和有语音信号，则有

P (Y (k, λ) | H_{0} (k, λ)) = \frac{1}{π λ_{d} (k, l)} \exp {- \frac{{| Y (k, λ) |}^{2}}{λ_{d} (k, l)}} - - - (6)

P (Y (k, λ) | H_{1} (k, λ)) = \frac{1}{π (λ_{d} (k, l) + λ_{x} (k, l))} \exp {- \frac{{| Y (k, λ) |}^{2}}{λ_{d} (k, l) + λ_{x} (k, l)}} - - - (7)

其中λ_x(k，λ)≡E{X(k，λ)²|H₁(k，λ)}，λ_d(k，λ)≡E{D(k，λ)²}分别代表纯净耳语音和噪声的方差。采用

和

分别代表语音出现的后验和先验概率，则

f(γ(k，λ)|H₀(k，λ))＝e^-γ(k，λ)μ(γ(k，λ)) (8)

f (γ (k, λ) | H_{1} (k, λ)) = \frac{1}{1 + ξ (k, λ)} \exp {- \frac{γ (k, λ)}{1 + ξ (k, λ)}} μ (γ (k, λ)) - - - (9)

令p(k，λ)≡P(H₁(k，λ)|γ(k，λ))，则有

p (k, λ) = {1 + \frac{q (k, λ)}{1 - q (k, λ)} (1 + ξ (k, λ)) \times \exp (- v (k, λ))}^{- 1} - - - (10)

其中q(k，λ)≡P(H₀(k，λ))代表无语音出现概率，

第3步获取纯净耳语音的功率谱，并求增强后的耳语音信号：根据上述语音出现概率，可以求得如下纯净语音功率谱增益

G (k, λ) = {G_{H 1} (k, λ)}^{p (k, λ)} G_{\min}^{1 - p (k, λ)} - - - (11)

其中

G_min为无语音出现时噪声谱的最小阈值。

在计算出纯净语音谱增益后，可利用下式计算纯净语音谱：

\overset{&OverBar;}{X} (k, l) = G (k, l) Y (k, l) - - - (12)

再利用实值离散Gabor逆变换可获得增强后的纯净语音：

{\overset{&OverBar;}{X}}_{r} (k, l) = Re (\overset{&OverBar;}{X} (k, l)) - IMG (\overset{&OverBar;}{X} (k, l)) - - - (13)

\overset{&OverBar;}{x} (k) = Σ_{m = 0}^{M - 1} Σ_{n = 0}^{N - 1} X_{r} (m, n) g (k - ma) cas (2 πnk / N) - - - (14)

此式的计算结果

即为增强后的耳语音。

本发明采用上述技术方案具有如下有益效果：

由于耳语音的独特发音方式使得耳语音与正常音有着很大的不同，传统的语音增强方法不再适用，本项目对耳语音这种独特的语音进行耳语音增强，有着一定的理论和实际意义。

目前的基于统计的语音增强方法均假设语音在很短的时间内(通常20ms左右)是平稳的，然而基于Gabor变换的耳语音功率谱表示并不需要此假定，因此更符合语音特质。

Gabor变换中的高斯窗函数有着优良的时频能量聚集特性，并且符合人的听觉感知特性。

传统的基于DFT的语音增强的短时窗有着一定的约定，使得耳语音的功率谱表示单一，而Gabor变换下的耳语音功率谱根据抽样率的不同有着多样的时频分析细腻度，从而可以根据不同的语音类型采用不同的抽样率，使算法普适性更强。

附图说明：

图1是基于Gabor时频变换流程图；

图2是实现实值离散Gabor变换算法快速的并行格结构框图；

图3是不同过抽样率下的本文算法信噪比改进；

图4是高斯噪声环境下不同语音增强算法分段信噪比改进；

图5是语谱图；(a)纯净耳语音语谱图；(b)含噪耳语音语谱图，信噪比为5dB；(c)应用本文算法增强后的语谱图；(d)、(e)、(f)分别应用OMLSA、MMSELSA、MMSE算法进行增强后的语谱图；

图6是耳语音的时域波形，其中(a)是干净的耳语音，(b)是信噪比为-3db时的含噪耳语音，(c)是采用基于Gabor时频分析算法增强后的耳语音。

具体实施方案：

下面结合附图对技术方案的实施作进一步的详细描述：

图1中，首先通过A/D变换装置将采集的模拟耳语音信号转换为数字信号，在转换为数字信号时，采样速率可以设置为8Khz，16Khz等不同的采样速率。采样结束后，将采集到的语音进行分段，每段32毫秒，段与段之间可以有1/2的重叠，同时，用汉宁窗与每段相乘以平滑段与段之间的谱。对加窗后的每一段分别采用Gabor时频分析方法计算Gabor变换系数，同时采样前述的方法计算其对应的谱幅度，然后，对每段的每个幅度频点分别估计其噪声谱。在噪声谱后利用公式(11)计算纯净谱增益函数，再利用(12)式求得估计的干净谱，最后利用(14)式将估计谱转变为时域波形。

图2是图1中进行Gabor时频分析时采用的并行格型结构，此结构接受输入的信号时频谱，通过并行格型结构输出Gabor变换系数。

图3给出了采用本文提出的算法进行耳语音增强时，在过抽样率分别为2，4，8，16，32时，不同的输入信噪比含噪声耳语音通过增强后的输出信噪比改进值，从图3可以看出，在过抽样率为8时，输入信噪比改进值最高，这说明实际操作时，可以将Gabor时频变换的过抽样率设定为8，这一方面提高了系统的增强效果，另一方面，也避免了大量的计算。

图4给出了基于Gabor时频分析方法的耳语音增强算法与三种比较典型的语音增强算法在耳语音增强性能方面的比较，这三种算法分别是基于最优相乘的对数谱幅度估计法(OMLSA)，最小均方误差对数谱幅度估计方法(MMSELSA)和最小均方误差幅度谱估计方法(MMSE)，从图可以看出，基于Gabor时频分析方法的耳语音增强的效果在各种信噪比条件下，其增强性能都有优于其他三种增强方法。

图5给出了基于Gabor时频分析的耳语音增强方法与其他三种增强方法对耳语音增强的实例，其中a是一段纯净耳语音的时频谱(即语谱图)，(b)是对(a)所表示的耳语音加了噪声之后信躁比为-3dB时的含躁语音的时频谱，(c)，(d)，(e)，(f)分别是应用基于Gabor时频分析的耳语音增强方法，OMLSA，MMSELSA，MMSE这四种增强算法对(b)所示的含躁耳语音进行增强后的耳语音的时频谱。从图上可以看出，(c)图保留了更多的语音信息，这说明基于Gabor时频分析的耳语音增强方法获得了更好的增强效果。

图6是应用基于Gabor时频分析的耳语音增强方法对一段耳语音进行增强的时域示例，(a)代表一段纯净耳语音的时域波形，(b)是对(a)进行加躁后的耳语音时域波形，信噪比为-3dB，(c)是应用基于Gabor时频分析的耳语音增强方法增强后的耳语音的时域波形。

Claims

1.一种基于Gabor时频分析的耳语增强方法，其特征在于，步骤如下：

第1步，利用Gabor时频分析理论和方法提取耳语音对数谱幅度：

设带噪耳语音信号为y(n)＝x(n)+d(n)，其中x(n)和d(n)分别代表纯净的耳语音和噪声信号，且纯净耳语音和噪声不相关；设Y_r(m，n)，X_r(m，n)和D_r(m，n)分别代表y(k)、x(n)和d(n)的实值离散Gabor变换系数，则y(k)具体的实值离散Gabor变换式可表示为：

Y_{r} (m, n) = Σ_{k = 0}^{L - 1} y (k) γ (k - ma) cas (2 πnk / N) - - - (1)

其相应的逆变换为：

\overset{&OverBar;}{y} (k) = Σ_{m = 0}^{M - 1} Σ_{n = 0}^{N - 1} Y_{r} (m, n) g (k - ma) cas (2 πnk / N) - - - (2)

Σ_{k = 0}^{L - 1} g (k + mN) cas (2 πnk / a) γ (k) = \frac{L}{MN} δ_{m} δ_{n} - - - (3)

实值离散Gabor变换算法采用并行格结构实现：

获取变换系数后，根据变换系数采用如下公式计算功率谱：

Y (m, n) = \frac{1}{2} (Y_{r} {(m, n)}^{2} + Y_{r} {(m, N - n)}^{2}),

根据噪声与语音的独立性假设，有以下等式成立：

Y(m，n)＝X(m，n)+D(m，n) (4)

第2步，基于无语音概率的耳语音噪声谱估计：

求使得式值最小的

由此式可得纯净语音谱估计为：

\overset{&OverBar;}{X} (m, n) = \exp (E [\log X (m, n) | Y (m, n)]) - - - (5)

P (Y (k, λ) | H_{0} (k, λ)) = \frac{1}{π λ_{d} (k, l)} \exp {- \frac{{| Y (k, λ) |}^{2}}{λ_{d} (k, l)}} - - - (6)

P (Y (k, λ) | H_{1} (k, λ)) = \frac{1}{π (λ_{d} (k, l) + λ_{x} (k, l)) λ} \exp {- \frac{{| Y (k, λ) |}^{2}}{λ_{d} (k, l) + λ_{x} (k, l)}} - - - (7)

其中λ_x(k，λ)≡E{X(k，λ)²|H₁(k，λ)}，λ_d(k，λ)≡E{D(k，λ)²}分别代表纯净耳语音和噪声的方差；采用

和

分别代表语音出现的后验和先验概率，则

f(γ(k，λ)|H₀(k，λ))＝e^-γ(k，λ)μ(γ(k，λ)) (8)

f (γ (k, λ) | H_{1} (k, λ)) = \frac{1}{1 + ξ (k, λ)} \exp {- \frac{γ (k, λ)}{1 + ξ (k, λ)}} μ (γ (k, λ)) - - - (9)

令p(k，λ)≡P(H₁(k，λ)|γ(k，λ))，则有

p (k, λ) = {1 + \frac{q (k, λ)}{1 - q (k, λ)} (1 + ξ (k, λ)) \times \exp (- v (k, λ))}^{- 1} - - - (10)

其中q(k，λ)≡P(H₀(k，λ))代表无语音出现概率，

第3步，获取纯净耳语音的功率谱，并求增强后的耳语音信号：

根据上述语音出现概率，求得如下纯净语音功率谱增益：

G (k, λ) = {G_{H 1} (k, λ)}^{p (k, λ)} G_{\min}^{1 - p (k, λ)} - - - (11)

其中

G_min为无语音出现时噪声谱的最小阈值；

在计算出纯净语音谱增益后，利用下式计算纯净语音谱：

\overset{&OverBar;}{X} (k, l) = G (k, l) Y (k, l) - - - (12)

再利用实值离散Gabor逆变换获得增强后的纯净语音：

{\overset{&OverBar;}{X}}_{r} (k, l) = Re (\overset{&OverBar;}{X} (k, l)) - IMG (\overset{&OverBar;}{X} (k, l)) - - - (13)

\overset{&OverBar;}{x} (k) = Σ_{m = 0}^{M - 1} Σ_{n = 0}^{N - 1} X_{r} (m, n) g (k - ma) cas (2 πnk / N) - - - (14)

即为增强后的耳语音。