CN104658543A

CN104658543A - 一种室内混响消除的方法

Info

Publication number: CN104658543A
Application number: CN201310590810.2A
Authority: CN
Inventors: 盖丽
Original assignee: Dalian You Jia Software Science And Technology Ltd
Current assignee: Dalian You Jia Software Science And Technology Ltd
Priority date: 2013-11-20
Filing date: 2013-11-20
Publication date: 2015-05-27

Abstract

本发明涉及一种室内混响消除的方法，属于信号处理技术领域。本发明包括后期混响功率率谱估计模块，谱减模块，有音/无音检测模块，能量衰减模块以及自适应谱线增强模块；所述的后期混响功率谱估计模块输入为混响语音，输出与谱减模块连接；谱减模块的输入为混响语音和后期混响功率谱估计模块的输出，输出与有音/无音检测模块相连；有音/无音检测模块输出控制谱减模块的输出选择可连接能量衰减模块或连接自适应谱线增强模块；能量衰减模块和自适应谱线增强模块输出最终的增强后的语音。

Description

一种室内混响消除的方法

技术领域

本发明涉及一种室内混响消除的方法，属于信号处理技术领域。

背景技术

混响是由室内声波反射而产生的声学现象。若室内存在适量的混响，可以使声音圆润动听，听起来有空间感；若混响不足，声音就会有些“发干”，听起来不自然；若混响过大，则会导致声音含混不清。在声音采集的许多场合，特别是当声源与麦克风距离较远时，麦克风采集到的音频信号常含有较大的混响声，这会严重影响语音的清晰度和可懂度，也会影响后续音频处理系统（如语音识别系统等）的性能。此时，为了提高音频质量，就必须采用混响抑制与消除技术。

文献《Lebart,K.,Boucher,J.M.,Denbigh,P.N.A new method based on spectralsubtraction for speech dereverberation.Acta Acoustica,2001,87(1):359-366》提出了基于Polack混响统计模型的单麦克风混响消除系统。该系统根据混响时间来构造Polack混响统计模型，利用Polack混响统计模型估计出后期混响功率谱，最后采用谱减法去除后期混响，以获得增强后的语音。该文献方法需已知混响时间，而实际应用环境中混响时间通常是未知的。由于实际中很难精确估计后期混响，因此该技术常会引入一些人工噪声，即：过估计时，会产生音乐噪声；欠估计时，会出现残留噪声。

文献《Gomez Randy,Even Jani,Saruwatari Hiroshi.Distant talking robustspeech recognition using late reflection components of room impulse response.IEEEInternational Conference on Acoustics,Speech and Signal Processing(ICASSP2008),Las Vegas,USA,2008:1520-6149》提出了一种混响消除的快速方法。该方法利用已测量得到的冲激响应来估计房间冲激响应的后期反射部分，然后与多子带谱减技术结合消除混响语音中后期混响的影响。这种方法效率较高，可以实现实时。该技术虽然能够实现实时的混响消除，但是需要已知房间冲激响应函数。而实际中，很难预知房间冲激响应函数，且房间冲激响应函数的测量或估计也较困难。

文献《Buck M;Schmidt G U;Haulick T.Dereverberation system for useing asignal processing apparatus.US2008292108,2007》提出了一种室内麦克风-扬声器环境下的混响消除系统，使用麦克风信号分区工具将麦克风信号分解成一个或多个部分；使用混响能量估计器来估计某些信号块的混响部分能量；最后，使用估计出的混响能量进行语音处理，以得到去混响后的语音。该技术虽然能够实现实时的混响消除，但是需要将麦克风语音分成几个部分，估计混响部分能量，这样会增加算法复杂度，增加计算量。

发明内容

为了克服上述的不足，本发明的目的在于提供一种室内混响消除的方法。

本发明包括后期混响功率率谱估计模块，谱减模块，有音/无音检测模块，能量衰减模块以及自适应谱线增强模块；所述的后期混响功率谱估计模块输入为混响语音，输出与谱减模块连接；谱减模块的输入为混响语音和后期混响功率谱估计模块的输出，输出与有音/无音检测模块相连；有音/无音检测模块输出控制谱减模块的输出选择可连接能量衰减模块或连接自适应谱线增强模块；能量衰减模块和自适应谱线增强模块输出最终的增强后的语音。

本发明的原理及有益效果：本发明基于改进的谱线增强算法和谱减算法，进行单麦克风声音采集系统的混响消除。该发明首先应用广义混响统计模型来估计后期混响，然后用谱减法来有效去除后期混响的影响；最后用自适应谱线增强技术去除残余混响。谱线增强技术可衰减由混响引起的频谱峰值点，增强信号本身的频谱峰值点，从而减弱、抑制混响的影响。同时，谱线增强可以增强语音的谐波结构，提高语音的自然度。本发明不需要预知房间冲激响应函数，能以简单高效的方法，实现语音信号的混响消除，提高语音的听觉感知质量。本发明是一种可用于单麦克风系统中的语音混响消除技术，可用于提高室内语音的听觉质量，降低房间混响造成的干扰；也可作为语音识别、语音合成等语音处理系统的预处理过程，改善这些系统的处理性能。

附图说明

图1为基于谱线增强和谱减法的混响消除方法的功能框图。

图2自适应谱线增强方法的功能框图。

图3无混响语音样例。

图4在图3语音中加入混响，混响时间为0.5秒。

图5本发明处理图4语音后的结果

图6在图3语音中加入混响，混响时间为1.0秒。

图7本发明处理图6语音后的结果

图8在图3语音中加入混响，混响时间为2.0秒。

图9本发明处理图8语音后的结果

图10某会议室中实际的混响语音。

图11本发明处理图10语音后的结果。

图12ΔSRR测试结果。

图13谱失真测试结果。

图14纯净语音语谱图样例。

图15在图14语音中加入中度混响后的语谱图。

图16本发明处理图15语音后的结果的语谱图。

图17某会议室中实际的混响语音的语谱图。

图18本发明处理图17语音后的结果的语谱图。

图19ΔPESQ测试结果。

图20主观测试标准。

图21轻度混响主观测试结果分布图。

图22中度混响主观测试结果分布图。

图23重度混响主观测试结果分布图。

具体实施方式

下述非限制性实施例可以使本领域的普通技术人员更全面地理解本发明，但不以任何方式限制本发明。

本发明只能用灰度图来说明本发明的技术效果，特提供灰度图即图3至图11，图14至图18来为了更好的让审查员理解本发明的技术效果。

实施例1

本发明的功能框图如图1所示，本发明包括后期混响功率率谱估计模块，谱减模块，有音/无音检测模块，能量衰减模块以及自适应谱线增强模块；所述的后期混响功率谱估计模块输入为混响语音，输出与谱减模块连接；谱减模块的输入为混响语音和后期混响功率谱估计模块的输出，输出与有音/无音检测模块相连；有音/无音检测模块输出控制谱减模块的输出选择可连接能量衰减模块或连接自适应谱线增强模块；能量衰减模块和自适应谱线增强模块输出最终的增强后的语音。

后期混响功率率谱估计模块的输入为混响语音，对混响语音进行分析，得到后期混响功率谱。谱减模块包括构造增益函数和谱减实施模块，首先通过混响语音功率谱和后期混响功率谱构造谱减增益函数，将谱减增益函数和混响语音输入谱减模块获得前期语音。谱减模块的输出端与VAD检测模块的输入端相连，前期语音输入VAD检测模块，判断是静音帧还是语音帧；若是静音帧，则开通能量衰减模块，将谱减模块的输出端与能量衰减模块的输入相连，能量衰减模块的输出即为最终输出信号；若是语音帧，则开通自适应谱线增强模块，将谱减模块的输出端与自适应谱线增强模块的输入相连，自适应谱线增强模块的输出即为最终输出的语音信号。

下面对本发明的各个功能模块进行详细说明。

后期混响功率谱估计模块

对输入采样频率为f_s=16kHz的混响语音x(n)，采用重叠分帧方式(本发明建议重叠约75％)进行分帧；分帧用窗函数为汉明窗w(n)=0.54-0.46cos[(2n+1)π/N]，n=0,1,…,N-1；对第l帧混响语音x(l,n)进行加窗处理，加窗后的语音为x_w(l,n)=x(l,n)·w(n)，n=0,1,…,N-1；用离散傅里叶变换(discrete Fourier transform，DFT)将加窗后的混响语音变换到频域，X(l,k)表示第l帧混响语音频谱，

X (l, k) = Σ_{n = 0}^{N - 1} x_{w} (l, n) e^{- j \frac{2 π}{N} nk}, k = 0,1, . . ., N - 1,

混响语音功率谱的估算公式为

{\hat{λ}}_{x} (l, k) = η_{x} {\hat{λ}}_{x} (l - 1, k) + (1 - η_{x}) {| X (l, k) |}^{2}, k = 0,1, . . ., N - 1,

其中，N为语音帧长度（包含采样点的数目，也窗口长度），本发明建议取值512，平滑系数η_x与平均衰减系数有关，具体关系如下

η_{x} = \frac{\frac{1}{2 \overset{&OverBar;}{δ}}}{\frac{1}{2 \overset{&OverBar;}{δ}} + \frac{R}{f_{s}}},

其中，e为自然对数的底数，R为帧率，即每秒语音数据中语音帧的数量，本发明建议设置R=128，RT₆₀是混响时间，是描述室内声音衰减快慢程度的客观物理参数，它是指声源在扩散声场中停止发声后，残余的声能经过往返反射，声能量衰减60dB所需的时间，即相当于平均声能密度降为原来的10^-6所需的时间，RT₆₀可使用Sabine公式近似估算出来。

定义混响分量的功率谱、后期混响分量的功率谱分别为

λ_{x_{r}} (l, k) = [1 - κ (l)] e^{- 2 \overset{&OverBar;}{δ} \frac{R}{f_{s}}} λ_{x_{r}} (l - 1, k) + κ (l) e^{- 2 \overset{&OverBar;}{δ} \frac{R}{f_{s}}} λ_{x} (l - 1, k), k = 0,1, . . ., N - 1,

λ_{x_{l}} (l, k) = e^{- 2 \overset{&OverBar;}{δ} (T_{1} - \frac{R}{f_{s}})} λ_{x_{r}} (l - N_{l} + 1, k), k = 0,1, . . ., N - 1,

其中，T_l为前期混响到达的时间，本发明建议设置T_l=32ms；T_r=R/f_s，表示直达信号到达的时间，T_r≤T_l<<RT₆₀；参数κ与混响能量比有关，用来防止后期混响的过估计；采用自适应方法估计参数κ；当|X(l,k)|²<λ_x(l,k)时，减小参数κ的值；当|X(l,k)|²>λ_x(l,k)时，增大参数κ的值；当|X(l,k)|²=λ_x(l,k)时，参数κ不变；参数κ在第l帧计算方法为

κ (l) = κ (l - 1) + μ \cdot [1 - \frac{Σ_{k = 0}^{\frac{K}{2} - 1} λ_{x} (l, k)}{Σ_{k = 0}^{\frac{K}{2} - 1} {| X (l, k) |}^{2}}],

其中，0<μ<1，表示更新步长，本发明建议设置μ=0.01，参数κ的初始值κ(0)设置为κ(0)=0.01。

谱减模块

谱减模块包括构造增益函数和谱减实施模块，首先通过混响语音功率谱和后期混响功率谱构造谱减增益函数，将谱减增益函数和混响语音输入谱减模块获得纯净语音，纯净语音频谱估计为

| \hat{S} (l, k) | = G (l, k) | X (l, k) |, k = 0,1, . . ., N - 1,

其中，G(l,k)为谱减增益函数，实质上，它是一个后置滤波器，用于对混响语音信号滤除后期混响部分的影响，增益函数G(l,k)表示为

G (l, k) = 1 - \frac{1}{\sqrt{γ (l, k)}}, k = 0,1, . . ., N - 1,

其中，γ(l,k)为后验信干比(Signal to Interference Ratio，SIR)，即但是，这种增益函数估计方法易出现过估计的问题，为解决此问题，这里采用如下两个修正技术，

修正技术1，是将后验SIR替换为先验SIR加1，即γ(l,k)=ζ(l,k)+1，这能降低增益函数G(l,k)的随机波动，减少出现过估计的情况，先验SIR定义为

ξ (l, k) = \frac{E [{| X_{e} (l, k) |}^{2}]}{λ_{x_{l}} (l, k)}, k = 0,1, . . ., N - 1,

其中，E[|X_e(l,k)|²]表示带有前期混响的语音的谱方差，但其在实际中是未知的，本发明用下式来估计先验SIR，

ξ(l,k)＝ηξ(l-1,k)+(1-η)max{γ(l,k)-1,0}，k=0,1,…,N-1，

其中，参数η表示加权因子，其取值范围为0<η<1，用于在残留噪声降低和信号中引入的瞬态失真之间进行折衷，若参数η取值较大，可大幅度降低残留噪声，但是它以引入瞬态失真为代价，本发明建议设置η＝0.98，先验SIR的估计值ζ(l,k)的初值ζ(0,k)=0，k=0,1,…,N-1；

修正技术2，使用一个增益门限G_min(l,k)，来控制增益函数的最小值和干扰消除的最大限度，增益门限G_min(l,k)的定义为

G_{\min} (l, k) = α \frac{\sqrt{λ_{x_{l}} (l, k)}}{| X (l, k) |}, k = 0,1, . . ., N - 1,

其中，α为控制常数，其取值范围为0<α<1，本发明建议设置α=0.1；

综上所述，纯净语音频谱估计为

VAD检测模块

有音/无音检测模块的输入端与谱减模块相连，输入为谱减模块的输出语音，有音/无音检测模块通过判断此输出语音语音为静音帧或语音帧，选择谱减模块输出端连接能量衰减模块或谱线增强模块，即根据判断结果选择能量衰减模块或谱线增强模块处理此输出语音（具体为，用能量衰减模块处理静音帧，用谱线增强模块处理语音帧），本发明给出一种简便且适用于混响环境下的检测方法，这种方法能够粗略地检测出当前帧是否为静音帧，第一个判断是计算第l帧的增益函数是否小于某一阈值；第二个判断是估计使用谱减方法混响消除后的语音能量是否小于某一阈值；具体实现方法如下：

计算第l帧增益函数G(l，k)的均值，即

\overset{&OverBar;}{G} (l) = \frac{1}{K} Σ_{k = 0}^{K - 1} G (l, k),

其中，K为总的频点数，计算谱减模块输出语音第l帧的帧能量

E_{\hat{s}} (l) = Σ_{n = 0}^{N - 1} {| \hat{s} (l, n) |}^{2},

其中，N为帧长，为谱减模块输出的第l帧语音；

若上两式同时满足和则判定第l帧为静音帧，这里α1取值范围为0.1～0.2，本发明建议设置α1=0.15；α2取为最近前l帧信号的平均能量的β₀倍，即，若当前为第t帧，则β₀取值范围为0.05～0.2，本发明建议设置β₀=0.1。

能量衰减模块

能量衰减模块输入为谱减模块输出的静音帧，输出为增强后的静音帧，由于人耳掩蔽效应，残留混响在语音帧中不易被感觉到；但是在静音帧中，残留混响很容易被感觉到，因此，为了提高语音听觉质量，应对静音帧中的残留混响再次进行衰减，即

s_{f} (l, n) = β_{1} \cdot \hat{s} (l, n),

其中，为第l帧谱减模块的输出语音，β₁为衰减系数，混响时间越大，能量衰减越慢，对静音段听觉质量影响就越大，此时，β₁应选择一个较小的值，若β₁过小，会影响语音的平稳性，有突变感；若β₁过大，则会残留部分混响，所以从听觉感受的角度分析，β₁的取值范围是0.001≤β₁≤0.01，本发明建议设置β₁=0.005。

自适应谱线增强模块

自适应谱线增强模块输入为谱减模块的输出语音，输出增强后的语音；如图2所示：在自适应谱线增强部分，首先进行线性预测(linear prediction，LP)分析，构造出LP滤波器，将谱减模块输出语音通过LP滤波器，得到残差信号然后估计基音周期，构造基于该基音周期的梳状滤波器，以此作为长时滤波器；再将残差信号经过长时滤波的输出信号再经过由短时滤波(short-term filter)和斜补偿构成的合成滤波器，输出合成语音；最后合成语音经过自动增益控制模块输出与处理前能量相当的合成语音s_f(n)。

下面对自适应谱线增强模块进行详细说明。

(1)线性预测误差滤波器

计算谱减模块输出的第l帧语音的自相关系数R(l,k)

R (l, k) = Σ_{n = k}^{N} \hat{s} (l, n) \hat{s} (l, n - k), k = 0, 1, . . ., ORD;

其中，N为帧长，ORD为LP阶数；

根据R(l,k)，用Levinson算法计算出LP系数a(l,i),i=1,2,...,ORD，用这些LP系数构造线性预测误差滤波器

A (l, z) = 1 + Σ_{i = 1}^{ORD} a (l, i) z^{- i},

将谱减模块输出的第l帧语音通过滤波器A(l,z/γ_n)，得到残差信号滤波器A(l,z/γ_n)的系数是经过带宽扩展的LP系数，A(l,z/γ_n)表达式为

A (l, z / γ_{n}) = 1 + Σ_{i = 1}^{ORD} a (l, i) γ_{n}^{i} z^{- i},

残差信号为

\hat{r} (l, n) = \hat{s} (l, n) + Σ_{i = 1}^{ORD} a (l, i) \hat{S} (l, n - i) .

(2)长时滤波器

长时滤波器的表达式为

H_{p} (l, z) = \frac{1}{1 + γ_{p} g_{l}} + \frac{γ_{p} g_{l}}{1 + γ_{p} g_{l}} z^{- T},

其中，T为基因周期，g_l为增益系数，0≤g_l≤1，γ_p控制滤波长度，0≤γ_p≤1，本发明建议设置γ_p=0.5，为了确定长时滤波器，还需要估计出语音信号的基因周期T和增益系数g；先计算出残差信号的自相关函数

R_{\hat{r}} (l, k) = Σ_{n = k}^{N} \hat{r} (n, l) \hat{r} (n - k, l), k = 20, 21, . . ., 143;

搜索在20≤k≤143范围内的最大值，使得取最大值得k即为基因周期T；长时滤波处理是对语音的谐波结构进行增强，只对浊音部分有效，因此需要进行清浊音判断，这里，通过判断最高归一相关的平方值来判断是否需要使用长时滤波，归一相关函数定义为

R^{'} (l, k) = \frac{Σ_{n = 0}^{N - 1} \hat{r} (l, n) \hat{r} (l, n - k)}{\sqrt{Σ_{n = 0}^{N - 1} \hat{r} (l, n - k) \hat{r} (l, n - k)}},

若式(1)成立，则不进行长时滤波，设置参数g_l=0

\frac{{[R^{'} (l, T)]}^{2}}{Σ_{n = 0}^{N - 1} \hat{r} (l, n) \hat{r} (l, n)} < 0.5, - - - (1)

若式(1)不成立，则增益系数g_l由式(2)计算

g_{l} = \frac{Σ_{n = 0}^{N - 1} \hat{r} (l, n) \hat{r} (l, n - T)}{Σ_{n = 0}^{N - 1} \hat{r} (l, n - T) \hat{r} (l, n - T)}, - - - (2)

其中，为延迟T个点的残差信号；

将残差信号通过长时滤波器H_p(l,z)，得到输出残差信号为

{\hat{r}}_{p} (l, n) = \frac{1}{1 + γ_{p} g_{l}} \hat{r} (l, n) + \frac{γ_{p} g_{l}}{1 + γ_{p} g_{l}} \hat{r} (l, n - T) .

(3)短时滤波器

短时滤波可以对共振峰处的信号进行增强，同时对共振峰之间的信号进行衰减，从而改善语音频谱包络，短时滤波器定义为

H_{f} (l, z) = \frac{1}{g_{f}} \cdot \frac{A (l, z / γ_{n})}{A (l, z / γ_{d})} = \frac{1}{g_{f}} \cdot \frac{1 + Σ_{i = 1}^{ORD} γ_{n}^{i} a (l, i) z^{- i}}{1 + Σ_{i = 1}^{ORD} γ_{d}^{i} a (l, i) z^{- i}},

其中，A(l,z)是LP滤波器，参数因子γ_n和γ_d控制短时滤波长度，它们取值范围是0≤γ_n<1、0≤γ_d<1，本发明建议设置γ_n=0.55、γ_d=0.7，滤波器A(l,z/γ_n)和滤波器A(l,z/γ_d)系数为经过不同带宽扩展后的LP系数，增益g_f是滤波器A(l,z/γ_n)/A(l,z/γ_d)的截短脉冲响应h_f(n)绝对值之和，即

g_{f} = Σ_{n = 0}^{HL} | h_{f} (n) |,

其中，HL为截短脉冲响应h_f(n)的长度，一般为LP滤波器长度的两倍。

(4)斜补偿

由于短时滤波器中的每个系数均为带宽扩展后的LP系数，这样会带来频谱倾斜问题，于是，需要一个斜补偿滤波器来补偿由短时滤波器引起的频谱倾斜，斜补偿滤波器通常是一阶FIR滤波器，其传递函数为

H_{t} (z) = \frac{1}{g_{t}} \cdot (1 + γ_{t} k_{t} z^{- 1}),

这里，γ_tk_t是倾斜因子，k_i是h_f(n)的一阶相关系数，即

k_{t} = - \frac{r_{h_{f}} (0)}{r_{h_{f}} (1)},

r_{h_{f}} (i) = Σ_{j = 0}^{HL - i} h_{f} (j) h_{f} (j + i),

通常，γ_t取值范围是0≤γ_t≤1，若k_t<0，本发明建议设置γ_t=0.9；若k_t>0，本发明建议设置γ_t=0.2，增益因子g_t起到补偿短时滤波器H_f(z)中g_f的作用，其定义为

g_t=1-|γ_tk_t|，

g_t的这样选取将使H_f(z)及H_t(z)在高频段无附加增益，即增益为1；

(4)自动增益控制

语音信号经过各种滤波器后，信号幅值有所变化，因此需要用自动增益控制来补偿输入混响语音x(n)和斜补偿模块输出语音之间的增益差，当前帧增益比例因子G定义为

G = \sqrt{\frac{Σ_{n = 0}^{N - 1} {| x (n) |}^{2}}{Σ_{n = 0}^{N - 1} {| s_{f_{1}} (n) |}^{2}}},

其中，N为帧长，增益比例滤波信号s_f(n)为

s_{f} (n) = g^{(n)} s_{f_{1}} (n),

其中，g⁽ⁿ⁾用下式进行逐点修正

g⁽ⁿ⁾＝fac·g^(n-1)+(1-fac)·G，

其中，fac为自动增益控制系数，取值范围是0<fac<1，设置fac＝0.85，g⁽ⁿ⁾的初始值g⁽⁰⁾设置为g⁽⁰⁾=1.0。

本发明技术方案带来的有益效果

本发明是一种可用于单麦克风系统中的语音混响消除技术，可用于提高室内语音的听觉质量，降低房间混响造成的干扰；也可作为语音识别、语音合成等语音处理系统的预处理过程。

为了验证本发明的有效性，对本发明的技术方法进行了主、客观测试。

客观测试结果

客观语音质量评价可以在时域、频域和感知域中进行。时域语音客观评价常用的方法是计算信噪比和时域波形图对比。对于混响语音来说，一般将信噪比替换为信混比。与时域客观评价方法相比，频域语音客观评价方法不受原始语音信号与被测试语音信号时间是否对齐的影响。频域语音客观评价常用方法有谱失真测度和语谱图对比方法。感知域语音客观评价方法是基于人耳听觉系统模型的一种评测方法，它的测试结果与主观评价结果最为相近，目前这类技术中较为常用的方法是国际电信联盟(ITU)的感知语音质量评价(PerceptualEvaluation of Speech Quality，PESQ)方法。

本发明进行的客观对比测试包括：时域波形图、信混比、谱失真测度、语谱图以及PESQ测试。

(I)时域客观评价

(1)时域波形图对比

本发明在图3中给出了一段长度为7秒、采样率为16KHz的成年女子无混响语音的时域波形。在图4、图6、图8中分别给出图3中语音加入轻度(0.5秒)、中度(1.0秒)和重度(2.0秒)三种不同程度的混响后的时域波形图。经过本发明方法处理得到的混响消除后的输出语音时域波形图分别如图5、图7、图9所示。

由图4、图6、图8可见，纯净语音经过混响污染后，波形细节被淹没，特别是重度混响情况下，语音原本的波形已被完全淹没掉。经过本发明方法处理之后，可明显改善语音的波形，较好地恢复原有的波形细节。

为了说明本发明对实际环境的适应性，对实际某会议室环境中录制的混响语音进行了仿真测试，图10为实际录制的含背景噪声的混响语音，图11为经过本发明混响消除方法处理后的语音波形图。由图11可见，本发明提出的混响消除技术能很好地改善实际环境中带有噪声的混响语音。

(2)信混比

信混比(SRR)可以用来测量原始语音与混响语音波形之间的失真。本发明采用信混比增益来衡量混响消除系统的性能。SRR定义与信噪比类似，输入SRR_in、输出SRR_out和SRR增益ΔSRR分别定义为

{SRR}_{in} = \frac{1}{FRAME} Σ_{l = 0}^{FRAME} 10 lo g_{10} (\frac{Σ_{n = lR}^{lR + N - 1} s^{2} (n)}{Σ_{n = lR}^{lR + N - 1} {(s (n) - x (n))}^{2}}) dB,

{SRR}_{out} = \frac{1}{FRAME} Σ_{l = 0}^{FRAME} 10 lo g_{10} (\frac{Σ_{n = lR}^{lR + N - 1} s^{2} (n)}{Σ_{n = lR}^{lR + N - 1} {(s (n) - \hat{s} (n))}^{2}}) dB,

ΔSRR＝SRR_out-SRR_in，

其中，N为帧长，R为帧率，FRAME为总的帧数，s(n)为纯净语音信号，x(n)是混淆语音信号，是混响消除系统输出语音信号。不同混响程度的混响语音、经过基本的谱减(spectrum subtraction,SS)混响消除方法和进一步谱线增强(spectrum line enhancement,SLE)后的输出语音ΔSRR结果如图12所示。由图12可见，经处理后的语音SRR都明显提高。

(II)频域客观评价

(1)谱失真测度

谱失真测度的定义为

D_{HC}^{2} = \frac{1}{K} Σ_{k = 1}^{k} {&Integral;}_{0}^{0.5 ω} {[20 \lg (\frac{A_{k} (ω)}{A_{k}^{'} (ω)}) + G_{C}]}^{2} dω,

G_{C} = \frac{1}{0.5 ω_{s}} {&Integral;}_{0}^{{0.5 ω}_{s}} 20 \lg (\frac{A_{k}^{'} (ω)}{A_{k} (ω)}) dω,

其中A_k(ω)和分别为第k帧原始语音和混响语音（去混响后语音）的谱包络，ω_s为语音信号采样频率。G_c为增益补偿因子，它可有效去除两个原始包络之间的均方误差。分别对混响语音和使用本发明方法处理后的去混响语音按照上面的公式计算谱失真测度，测试结果见如图13所示。由图13可见，本发明提出的混响消除方法并不引入谱失真。

(2)语谱图对比

语音信号随时间变化的频谱特性可以使用语谱图直观地来表示。语谱图的横轴表示时间，纵轴表示频率，图像的黑白程度表示信号的能量。图像越亮的部分说明该部分能量越大，越暗的部分说明此部分频谱的能量越小。混响语音的语谱图由于混响的影响并不清晰，而且在静音段中还受了污染，而无混响纯净语音的语谱图比较清晰，且静音段中能量很低。为了形象地描述出混响语音以及经过混响消除后的语音频谱变化，给出了无混响纯净语音(图14)、加入中度混响语音(图15)以及经过本发明方法消除混响后的输出(图16)语音语谱图。

由图15可见，由于混响的影响，混响语音语谱图变得模糊不清。经本发明处理之后的语音语谱图更接近原始语音语谱图。图17给出了某会议室实际录音的语谱图，由于混响的影响，语谱图变模糊；图18为本发明方法处理之后的语音语谱图，语谱图变得明晰。

(III)感知域客观评价

PESQ是ITU提出的一种基于语音听觉模型的客观语音质量评价方法，它与主观评价方法相关度最高。PESQ通过比较原始语音与质量受损语音，或者原始语音和通过算法增强后的语音，给出语音的感知质量的预测值。图19给出了本发明方法的PESQ增益，其中PESQ增益是通过计算输出的去混响语音源PESQ与输入的混响语音PESQ值相减计算出，即ΔPESQ=PESQ_out-PESQ_in。由图19可见，本发明提出的混响消除装置，可提高混响语音的PESQ值，输出语音的感知听觉质量更好。

2.3.2 主观测试结果

主观测试采用国际上常用的主观评分CMOS(Comparison Mean OpinionScore)方法，即比较平均意见评分，具体评分标准见图20。

主观测试选取的语音如下：轻度混响语音(Rever-low)；对Rever-low语音采用基于SLE-SS混响消除方法消除混响后的语音(DeRever-SLE-low)；中度混响语音(Rever-mid)；对Rever-mid采用基于SLE-SS混响消除方法消除混响后的语音(DeRever-SLE-mid)；重度混响语音(Rever-high)；对Rever-high采用基于SLE-SS混响消除方法消除混响后的语音(DeRever-SLE-high)。

每个人的听觉感受会受到环境、心理因素和知识背景等因素的影响，因而听觉感受会不一样，但总体差距不会太大。为了更能好的反映主观测试结果，邀请了20位听众(10男、10女)在同一环境中测试，测试主体的年龄均为20岁到40岁之间，并在半年内没有参加过任何语音方面的相关主观测试。在测试开始前，将混响消除的效果向听众展示，并告知听众需要对语音的两个主要方面进行评价，评价语音质量和感受混响消除的效果。当测试主体理解了指导，他们首先将收听初步的情行，并给出他们的意见。测试时，每组测试语音按照任意顺序展示给测试主体，并允许他们无限制地重复收听。最后，每位测试主体将按照主观测试评分标准(CMOS)给出他们的意见。

图21～图23给出了主观测试结果分布图，分布图中横坐标表示CMOS得分，纵坐标表示给出某一分数的听众所占比例。根据CMOS得分标准，正数表示本发明方法输出语音较混响语音听觉效果较好。本过程采用差异性分析方法，采用95%的置信区间，对带宽扩展模式测试结果进行分析，图中黑色原点为计算出的平均分。图21给出了轻度混响测试语音的对比结果的分布图，图22给出了中度混响测试语音的对比结果的分布图，图23给出了重度混响测试语音的对比结果的分布图。从分布图中可以看出，三种程度的混响经过本发明处理后，听觉质量均得到了一定程度的提升，且混响程度较大时，听觉效果提高更为明显。其中，基于SLE-SS方法得出的混响消除后的语音听觉效果更好。

Claims

1.一种室内混响消除的方法，其特征在于：包括后期混响功率谱估计模块，谱减模块，有音/无音检测模块，能量衰减模块以及自适应谱线增强模块；所述的后期混响功率谱估计模块输入为混响语音，输出与谱减模块连接；谱减模块的输入为混响语音和后期混响功率谱估计模块的输出，输出与有音/无音检测模块相连；有音/无音检测模块输出控制谱减模块的输出选择可连接能量衰减模块或连接自适应谱线增强模块；能量衰减模块和自适应谱线增强模块输出最终的增强后的语音。

2.根据权利要求1所述的一种室内混响消除的方法，其特征在于：所述后期混响功率谱估计模块的方法如下：

后期混响功率谱估计模块的输入为混响语音即语音含有混响成分，通过此混响语音估计出混响能量比以及混响语音功率谱，根据混响能量比和混响语音功率谱之间的映射关系，得到后期混响功率谱；

对输入采样频率为f_s=16kHz的混响语音x(n)，采用重叠分帧方式进行分帧，重叠约75％；分帧用窗函数为汉明窗w(n)=0.54-0.46cos[(2n+1)π/N]，n=0,1,…,N-1；对第l帧混响语音x(l,n)进行加窗处理，加窗后的语音为x_w(l,n)=x(l,n)·w(n)，n=0,1,…,N-1；用离散傅里叶变换将加窗后的混响语音变换到频域，X(l,k)表示第l帧混响语音频谱，

X (l, k) = Σ_{n = 0}^{N - 1} x_{w} (l, n) e^{- j \frac{2 π}{N} nk}, k = 0,1, . . ., N - 1,

混响语音功率谱的估算公式为

{\hat{λ}}_{x} (l, k) = η_{x} {\hat{λ}}_{x} (l - 1, k) + (1 - η_{x}) {| X (l, k) |}^{2}, k = 0,1, . . ., N - 1,

其中，N为语音帧长度包含采样点的数目和窗口长度，N取值512，平滑系数η_x与平均衰减系数有关，具体关系如下

η_{x} = \frac{\frac{1}{2 \overset{&OverBar;}{δ}}}{\frac{1}{2 \overset{&OverBar;}{δ}} + \frac{R}{f_{s}}},

其中，e为自然对数的底数，R为帧率，即每秒语音数据中语音帧的数量，设置R=128，RT₆₀是混响时间，是描述室内声音衰减快慢程度的客观物理参数，它是指声源在扩散声场中停止发声后，残余的声能经过往返反射，声能量衰减60dB所需的时间，即相当于平均声能密度降为原来的10^-6所需的时间，RT₆₀可使用Sabine公式近似估算出来；

定义混响分量的功率谱、后期混响分量的功率谱分别为

λ_{x_{r}} (l, k) = [1 - k (l)] e^{- 2 \overset{&OverBar;}{δ} \frac{R}{f_{s}}} λ_{x_{r}} (l - 1, k) + k (l) e^{- 2 \overset{&OverBar;}{δ} \frac{R}{f_{s}}} λ_{x} (l - 1, k), k = 0,1, . . ., N - 1,

λ_{x_{l}} (l, k) = e^{- 2 \overset{&OverBar;}{δ} (T_{1} - \frac{R}{f_{s}})} λ_{x_{r}} (l - N_{l} + 1, k), k = 0,1, . . ., N - 1,

其中，T_l为前期混响到达的时间，设置T_l=32ms；T_r=R/f_s，表示直达信号到达的时间，T_r≤T_l<<RT₆₀；参数κ与混响能量比有关，用来防止后期混响的过估计；采用自适应方法估计参数κ；当|X(l,k)|²<λ_x(l,k)时，减小参数κ的值；当|X(l,k)|²>λ_x(l,k)时，增大参数κ的值；当|X(l,k)|²=λ_x(l,k)时，参数κ不变；参数κ在第l帧计算方法为

κ (l) = κ (l - 1) + μ \cdot [1 - \frac{Σ_{k = 0}^{\frac{K}{2} - 1} λ_{x} (l, k)}{Σ_{k = 0}^{\frac{K}{2} - 1} {| X (l, k) |}^{2}}],

其中，0<μ<1，表示更新步长，设置μ=0.01，参数κ的初始值κ(0)设置为κ(0)=0.01。

3.根据权利要求1所述的一种室内混响消除的方法，其特征在于：谱减模块的方法如下：

| \hat{S} (l, k) | = G (l, k) | X (l, k) |, k = 0,1, . . ., N - 1,

G (l, k) = 1 - \frac{1}{\sqrt{γ (l, k)}}, k = 0,1, . . ., N - 1,

其中，γ(l,k)为后验信干比，即但是，这种增益函数估计方法易出现过估计的问题，为解决此问题，这里采用如下两个修正技术，

修正技术1：将后验SIR替换为先验SIR加1，即γ(l,k)=ζ(l,k)+1，这能降低增益函数G(l,k)的随机波动，减少出现过估计的情况，先验SIR定义为

ξ (l, k) = \frac{E [{| X_{e} (l, k) |}^{2}]}{λ_{x_{l}} (l, k)}, k = 0,1, . . ., N - 1,

其中，E[|X_e(l,k)|²]表示带有前期混响的语音的谱方差，但其在实际中是未知的，用下式来估计先验SIR，

ξ(l,k)＝ηξ(l-1,k)+(1-η)max{γ(l,k)-1,0}，k=0,1,…,N-1，

其中，参数η表示加权因子，其取值范围为0<η<1，用于在残留噪声降低和信号中引入的瞬态失真之间进行折衷，若参数η取值较大，可大幅度降低残留噪声，但是它以引入瞬态失真为代价，设置η＝0.98，先验SIR的估计值ζ(l,k)的初值ζ(0,k)=0，k=0,1,…,N-1；

修正技术2：使用一个增益门限G_min(l,k)，来控制增益函数的最小值和干扰消除的最大限度，增益门限G_min(l,k)的定义为

G_{\min} (l, k) = α \frac{\sqrt{λ_{x_{l}} (l, k)}}{| X (l, k) |}, k = 0,1, . . ., N - 1,

其中，α为控制常数，其取值范围为0<α<1，设置α=0.1；

综上所述，纯净语音频谱估计为

4.根据权利要求1所述的一种室内混响消除的方法，其特征在于：有音/无音检测模块的方法如下：

有音/无音检测模块的输入端与谱减模块相连，输入为谱减模块的输出语音，有音/无音检测模块通过判断此输出语音语音为静音帧或语音帧，选择谱减模块输出端连接能量衰减模块或谱线增强模块，即根据判断结果选择能量衰减模块或谱线增强模块处理此输出语音，给出一种简便且适用于混响环境下的检测方法，这种方法能够粗略地检测出当前帧是否为静音帧，第一个判断是计算第l帧的增益函数是否小于某一阈值；第二个判断是估计使用谱减方法混响消除后的语音能量是否小于某一阈值；具体实现方法如下：

计算第l帧增益函数G(l,k)的均值，即

\overset{&OverBar;}{G} (l) = \frac{1}{K} Σ_{k = 0}^{K - 1} G (l, k),

E_{\hat{s}} (l) = Σ_{n = 0}^{N - 1} {| \hat{s} (l, n) |}^{2},

其中，N为帧长，为谱减模块输出的第l帧语音；

若上两式同时满足和则判定第l帧为静音帧，这里α1取值范围为0.1～0.2，设置α1=0.15；α2取为最近前l帧信号的平均能量的β₀倍，即，若当前为第t帧，则β₀取值范围为0.05～0.2，设置β₀=0.1。

5.根据权利要求1所述的一种室内混响消除的方法：其特征在于：能量衰减模块的方法如下：

s_{f} (l, n) = β_{1} \cdot \hat{s} (l, n),

其中，为第l帧谱减模块的输出语音，β₁为衰减系数，混响时间越大，能量衰减越慢，对静音段听觉质量影响就越大，此时，β₁应选择一个较小的值，若β₁过小，会影响语音的平稳性，有突变感；若β₁过大，则会残留部分混响，所以从听觉感受的角度分析，β₁的取值范围是0.001≤β₁≤0.01，设置β₁=0.005。

6.根据权利要求1所述的一种室内混响消除的方法：其特征在于：自适应谱线增强模块的方法如下：

自适应谱线增强模块输入为谱减模块的输出语音，输出增强后的语音；在自适应谱线增强部分，首先进行线性预测分析，构造出LP滤波器，将谱减模块输出语音通过LP滤波器，得到残差信号然后估计基音周期，构造基于该基音周期的梳状滤波器，以此作为长时滤波器；再将残差信号经过长时滤波的输出信号再经过由短时滤波和斜补偿构成的合成滤波器，输出合成语音；最后合成语音经过自动增益控制模块输出与处理前能量相当的合成语音s_f(n)。

7.根据权利要求6所述的一种室内混响消除的方法：其特征在于：线性预测误差滤波方法为：

计算谱减模块输出的第l帧语音的自相关系数R(l,k)

R (l, k) = Σ_{n = k}^{N} \hat{s} (l, n) \hat{s} (l, n - k), k = 0, 1, . . ., ORD;

其中，N为帧长，ORD为LP阶数；

A (l, z) = 1 + Σ_{i = 1}^{ORD} a (l, i) z^{- i},

将谱减模块输出的第l帧语音通过滤波器A(l，z/γ_n)，得到残差信号滤波器A(l,z/γ_n)的系数是经过带宽扩展的LP系数，A(l,z/γ_n)表达式为

A (l, z / γ_{n}) = 1 + Σ_{i = 1}^{ORD} a (l, i) γ_{n}^{i} z^{- i},

残差信号为

\hat{r} (l, n) = \hat{s} (l, n) + Σ_{i = 1}^{ORD} a (l, i) \hat{s} (l, n - i) .

8.根据权利要求6所述的一种室内混响消除的方法：其特征在于：长时滤波的方法为：

长时滤波器的表达式为

H_{p} (l, z) = \frac{1}{1 + γ_{p} g_{l}} + \frac{γ_{p} g_{l}}{1 + γ_{p} g_{l}} z^{- T},

其中，T为基因周期，g_l为增益系数，0≤g_l≤1，γ_p控制滤波长度，0≤γ_p≤1，设置γ_p=0.5，为了确定长时滤波器，还需要估计出语音信号的基因周期T和增益系数g；先计算出残差信号的自相关函数

R_{\hat{r}} (l, k) = Σ_{n = k}^{N} \hat{r} (n, l) \hat{r} (n - k, l), k = 20, 21, . . ., 143;

R^{'} (l, k) = \frac{Σ_{n = 0}^{N - 1} \hat{r} (l, n) \hat{r} (l, n - k)}{\sqrt{Σ_{n = 0}^{N - 1} \hat{r} (l, n - k) \hat{r} (l, n - k)}},

若式(1)成立，则不进行长时滤波，设置参数g_l=0

\frac{{[R^{'} (l, T)]}^{2}}{Σ_{n = 0}^{N - 1} \hat{r} (l, n) \hat{r} (l, n)} < 0.5, - - - (1)

若式(1)不成立，则增益系数g_l由式(2)计算

g_{l} = \frac{Σ_{n = 0}^{N - 1} \hat{r} (l, n) \hat{r} (l, n - T)}{Σ_{n = 0}^{N - 1} \hat{r} (l, n - T) \hat{r} (l, n - T)}, - - - (2)

其中，为延迟T个点的残差信号；

将残差信号通过长时滤波器H_p(l,z)，得到输出残差信号为

{\hat{r}}_{p} (l, n) = \frac{1}{1 + γ_{p} g_{l}} \hat{r} (l, n) + \frac{γ_{p} g_{l}}{1 + γ_{p} g_{l}} \hat{r} (l, n - T) .

9.根据权利要求6所述的一种室内混响消除的方法：其特征在于：短时滤波的方法为：

H_{f} (l, z) = \frac{1}{g_{f}} \cdot \frac{A (l, z / γ_{n})}{A (l, z / γ_{d})} = \frac{1}{g_{f}} \cdot \frac{1 + Σ_{i = 1}^{ORD} γ_{n}^{i} a (l, i) z^{- i}}{1 + Σ_{i = 1}^{ORD} γ_{d}^{i} a (l, i) z^{- i}},

其中，A(l,z)是LP滤波器，参数因子γ_n和γ_d控制短时滤波长度，它们取值范围是0≤γ_n<1、0≤γ_d<1，设置γ_n=0.55、γ_d=0.7，滤波器A(l,z/γ_n)和滤波器A(l,z/γ_d)系数为经过不同带宽扩展后的LP系数，增益g_f是滤波器A(l,z/γ_n)/A(l,z/γ_d)的截短脉冲响应h_f(n)绝对值之和，即

g_{f} = Σ_{n = 0}^{HL} | h_{f} (n) |,

其中，HL为截短脉冲响应h_f(n)的长度，其为LP滤波器长度的两倍。

10.根据权利要求6所述的一种室内混响消除的方法：其特征在于：斜补偿的方法为：

H_{t} (z) = \frac{1}{g_{t}} \cdot (1 + γ_{t} k_{t} z^{- 1}),

这里，γ_tk_t是倾斜因子，k_i是h_f(n)的一阶相关系数，即

k_{t} = - \frac{r_{h_{f}} (0)}{r_{h_{f}} (1)},

r_{h_{f}} (i) = Σ_{j = 0}^{HL - i} h_{f} (j) h_{f} (j + i),

通常，γ_t取值范围是0≤γ_t≤1，若k_t<0，设置γ_t=0.9；若k_t>0，设置γ_t=0.2，增益因子g_t起到补偿短时滤波器H_f(z)中g_f的作用，其定义为

g_t=1-|γ_tk_t|，

自动增益控制的方法为：

G = \sqrt{\frac{Σ_{n = 0}^{N - 1} {| x (n) |}^{2}}{Σ_{n = 0}^{N - 1} {| s_{f_{1}} (n) |}^{2}}},

其中，N为帧长，增益比例滤波信号s_f(n)为

s_{f} (n) = g^{(n)} s_{f_{1}} (n),

其中，g⁽ⁿ⁾用下式进行逐点修正

g⁽ⁿ⁾＝fac·g^(n-1)+(1-fac)·G，