CN103440869A

CN103440869A - 一种音频混响的抑制装置及其抑制方法

Info

Publication number: CN103440869A
Application number: CN2013103981743A
Authority: CN
Inventors: 陈喆; 殷福亮; 彭雯雯
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2013-09-03
Filing date: 2013-09-03
Publication date: 2013-12-11
Anticipated expiration: 2033-09-03
Also published as: CN103440869B

Abstract

本发明公开了一种音频混响的抑制装置及其抑制方法，所述的装置包括混响时间盲估计模块、后期混响功率谱估计模块、谱减模块和复倒谱域滤波模块。混响语音通过混响时间盲估计模块，估计出混响时间；后期混响功率谱估计模块利用所估计出的混响时间来建立混响统计模型，并对混响语音进行分析处理，得到后期混响功率谱；谱减模块包括增益函数构造和谱减实施模块，先用混响语音功率谱和后期混响功率谱构造出谱减增益函数；再将谱减增益函数和混响语音输入谱减实施模块，得到前期语音；最后将前期语音输入到复倒谱域滤波模块，得到去混响的语音。本发明计算复杂度较低，便于实时处理，能明显抑制音频混响，有效提高语音质量。

Description

一种音频混响的抑制装置及其抑制方法

技术领域

本发明涉及一种音频处理技术，特别是一种音频混响的抑制装置及其抑制方法。

背景技术

混响是由室内声波反射而产生的声学现象。适量的混响能使声音圆润动听，听起来有空间感；若混响不足，声音就会“发干”，听起来不自然；但若混响过大，则声音听起来含混不清，音质很差。

在许多采集声音的场合，特别是当声源与麦克风距离较远时，或室内混响较强时，麦克风采集的音频信号中常含有较大的混响声，这会严重影响语音的清晰度和可懂度，也会影响后续音频处理系统(如语音识别系统等)的性能。此时，为了提高音频质量，就必须采用混响抑制技术。

Lebart，K.，Boucher,J.M.，Denbigh，P.N.发表的文章《A new method based onspectral subtraction for speech dereverberation》[Acta Acoustica，2001，87(1)：359-366]提出了基于Polack混响统计模型的单麦克风混响抑制系统。该系统先根据混响时间构造Polack混响统计模型；然后用Polack混响统计模型估计出后期混响功率谱；最后用谱减法去除后期混响，以获得增强后的语音。该方法的主要缺点是：(1)要求已知混响时间，而实际应用环境中混响时间通常是未知的；(2)实际中很难精确估计后期混响，因此该方法常会引入一些人工噪声，即：过估计时，会产生“音乐”噪声；欠估计时，会残留较多噪声。

Gomez Randy,Even Jani，Saruwatari Hiroshi.发表的文章《Distant talkingrobust speech recognition using late reflection components of room impulseresponse》(IEEE International Conference on Acoustics Speech and SignalProcessing，Las Vegas，USA，2008：1520-6149)提出了一种混响抑制的快速方法。该方法用已测量得到的冲激响应函数来估计房间冲激响应的后期反射部分，然后与多子带谱减技术相结合，抑制中后期混响对语音的影响。该方法计算量较小，能实现实时的混响抑制，但需要已知房间的冲激响应函数，这在实际中很难预先知道，即使在具备混响测试仪等设备时，测出房间冲激响应函数也很烦琐。

Buck M，Schmidt G U，Haulick T.发表的专利《Dereverberation system forusing a signal processing apparatus》(US2008292108,2007)提出了一种室内麦克风——扬声器环境下的混响抑制系统。该系统将麦克风音频信号分解成一个或多个块；然后用混响能量估计器来估计这些信号块中混响部分的能量；最后，用估计出的混响能量进行处理，以得到去混响后的音频。该系统将麦克风语音分成多个信号块，对每个信号块估计混响部分能量，这样会显著增加计算复杂度，难以实时处理。

本发明用到的简称解释如下：

PESQ：Perceptual Evaluation of Speech Quality，语音质量感知评价

SS：Spectral Subtraction，谱减法

CF-SS：Cepstral Filter-Spectral Subtraction，复倒谱域滤波和谱减法

Polack混响统计模型：Polack Statistical Reverberation Model

广义混响统计模型：Generalized Statistical Reverberation Model

SIR：Signal to Interference Ratio，信干比

SRR：Signal to Reverberation Ratio，信混比

发明内容

为解决现有技术存在的上述问题，本发明要设计一种可以实现以下目的的音频混响的抑制装置及其抑制方法：

1、避免混响时间测量、直接精确估计后期混响和测量房间冲激响应函数等难题，实现语音信号的混响抑制，提高语音的听觉感知质量；

2、降低计算复杂度，易于实时处理。

为了实现上述目的，本发明的技术方案如下：一种音频混响的抑制装置，包括混响时间盲估计模块、后期混响功率谱估计模块、谱减模块和复倒谱域滤波模块。所述的混响时间盲估计模块的输入信号为含有混响的语音信号，其输出端与后期混响功率谱估计模块的输入端连接；后期混响功率谱估计模块的另一路输入信号为含有混响的语音信号；谱减模块的输入端与后期混响功率谱估计模块输出端连接，其输出连接到复倒谱域滤波模块，复倒谱域滤波模块输出最终去混响后的语音。

一种音频混响的抑制装置的抑制方法，包括以下步骤：

A、混响时间盲估计

混响时间盲估计模块接收混响语音并输出估计出的混响时间；具体步骤如下：

A11、对混响语音进行线性预测分析，构造低阶线性预测滤波器；

计算每一帧混响语音x(n)的自相关函数R(k)

R (k) = Σ_{n = 0}^{N - k - 1} x (n) x (n + k), k = 0,1, . . ., M

其中，N为帧长，其取值范围为160～320；用Levinson-Durbin算法求解以下方程组，获得M阶线性预测滤波器系数a_i，i=l，2，...，M

Σ_{i = 1}^{M} a_{i} R (| i - k |) = - R (k), k = 1,2, . . ., M - - - (1)

A12、将混响语音x(n)通过M阶线性预测系数构成的残差滤波器，去除气管、口腔、鼻腔等构成的声道滤波器的作用，得到残差信号

\tilde{x} (n) = x (n) - Σ_{i = 1}^{M} a_{i} x (n - i)

计算每一帧的自相关函数

r_{\tilde{x}} (n) = Σ_{n = 0}^{N - k - 1} \tilde{x} (n) \tilde{x} (n + k)

在混响时间估计时，不需要对每帧语音都估计出混响时间，而是每隔L帧估计一次混响时间，这样，既不影响混响时间的估计质量，也能大幅度降低计算量，易于实时处理；于是，每隔L帧，计算一次平均自相关函数(n)，帧间隔L取值范围为40～400，即

{\overset{&OverBar;}{r}}_{\tilde{x}} (n) = \frac{1}{L} Σ_{l = 1}^{L} r_{\tilde{x}, l} (n)

A13、根据残差信号的自相关函数

应用最大似然方法，估计最佳混响时间参数a，其具体步骤如下：

定义房间冲激响应函数为h(n)，信号采样频率为f_s，衰减因子为δ，则Polack统计混响模型离散表达式为

其中，

a = \exp (- \frac{δ}{f_{s}}) .

自相关函数(n)与参数a和κ的似然函数为

L {{\overset{&OverBar;}{r}}_{\tilde{x}}; a, κ} = \frac{1}{\sqrt{{(2 πκ)}^{N} a^{N (N - 1)}}} \exp (- \frac{1}{2} Σ_{i = 0}^{N - 1} \frac{{\overset{&OverBar;}{r}}_{\overset{&OverBar;}{x}}^{2} (i)}{κ a^{2 i}}) - - - (3)

分别对参数a和κ求偏导，并将偏导设置为0，求出最佳参数。

\frac{&PartialD;}{&PartialD; a} (\ln (L {{\overset{&OverBar;}{r}}_{\tilde{x}}; a, κ})) = - \frac{N (N - 1)}{2 a} + \frac{1}{κ} Σ_{i = 0}^{N - 1} {\overset{&OverBar;}{r}}_{\overset{&OverBar;}{x}}^{2} a^{- 2 i - 1} i = 0 - - - (4)

\frac{&PartialD;}{&PartialD; κ} (\ln (L {{\overset{&OverBar;}{r}}_{\tilde{x}}; a, κ})) = - \frac{N}{2 κ} + \frac{1}{2 κ^{2}} Σ_{i = 0}^{N - 1} {\overset{&OverBar;}{r}}_{\overset{&OverBar;}{x}}^{2} a^{- 2 i} = 0 - - - (5)

用Newton-Raphson方法求解式(4)、(5)，得到最佳参数a，进而得到混响时间的估计值。

B、后期混响功率谱估计

后期混响功率谱估计模块接收混响语音，通过混响语音估计出混响能量比及混响语音功率谱；在此基础上，根据混响能量比和混响语音功率谱之间的映射关系，得到后期混响功率谱；具体步骤如下：

设混响语音功率谱为

混响部分的功率谱为

后期混响功率谱为

则混响语音功率谱

为

{\hat{λ}}_{x} (l, k) = η_{x} {\hat{λ}}_{x} (l - 1, k) + (1 - η_{x})) {| X (l, k) |}^{2}

其中，参数

此处，R为帧率，f_s为采样频率，η_x与平均衰减系数

有关，这里，T₆₀为混响时间；

后期混响功率谱为

λ_{x_{r}} (l, k) = e^{- 2 \overset{&OverBar;}{δ} \frac{R}{f_{s}}} (1 - κ) λ_{x_{r}} (l - 1, k) + κ e^{- 2 \overset{&OverBar;}{δ} \frac{R}{f_{s}}} λ_{x} (l - 1, k)

λ_{x_{l}} (l, k) = e^{- 2 \overset{&OverBar;}{δ} (T_{l} - \frac{R}{f_{s}})} λ_{x_{r}} (l - N_{l} + 1, k)

其中，T_l为前期混响到达的时间，T_r=R/f_s表示直达信号到达的时间；T_s≤T_l＜＜T₆₀，这里，T_s取值范围为20ms≤T_s≤40ms；

参数κ与混响能量比有关，用来防止后期混响的过估计。采用自适应方法估计参数κ，即第l帧的参数κ具体计算方法为

κ (l) = κ (l - 1) + μ (1 - \frac{Σ_{k = 0}^{\frac{K}{2} - 1} λ_{x} (l, k)}{Σ_{K = 0}^{\frac{K}{2} - 1} {| X (l . k) |}^{2}})

其中，μ表示更新步长，其取值范围是0＜μ＜1；参数κ的初始值κ(0)＝0.01。

C、基于功率谱相减的噪声抑制

首先用混响语音功率谱和后期混响功率谱构造谱减增益函数，然后将谱减增益函数和混响语音输入到谱减实施模块，获得前期语音。

纯净语音频谱估计

为

| \hat{S} (l, k) | = G (l, k) | X (l, k) |

其中，G(l，k)为谱减增益函数，实质上它是一个后置滤波器，用于对混响语音信号滤除后期混响部分的影响。增益函数G(l，k)表示为

G (l, k) = 1 - \frac{1}{\sqrt{γ (l, k)}}

其中，γ(l，k)为后验信干比，

但这种增益函数估计方法容易出现过估计的情况；为解决此问题，这里用两个修正技术来解决残留噪声的问题；一个修正技术是将后验信干比替换为先验信干比加1，即γ(l，k)＝ζ(l，k)+1，以降低增益函数G(l，k)的随机波动，减少出现过估计的情况；此处，先验信干比定义为

ξ (l, k) = \frac{E [{| X_{e} (l, k) |}^{2}]}{λ_{x_{l}} (l, k)}

其中，E[X_e(l，k)|²]表示前期语音的谱方差，实际中它是未知的；先验信干比用下式来代替

ξ (l, k) = η \frac{{| {\hat{X}}_{e} (l - 1, k) |}^{2}}{{\hat{λ}}_{x_{l}} (l - 1, k)} + (1 - η) \max {γ (l, k) - 1,0}

其中，参数η是加权因子，用于控制在干扰降低与信号中引入的瞬态失真之间的折衷。若参数η取值较大，则能大幅度降低残留噪声，但会引入较大的信号失真；η取值范围为0～1；

增益函数的第二个修正技术是使用一个增益门限，来控制增益函数的最小值，同时该增益门限也控制干扰抑制的最大限度。增益门限定义为

G_{\min} = α \frac{\sqrt{λ_{x_{l}} (l, k)}}{| X (l, k) |}

系数α的取值范围为0.001～0.4。

综上，纯净语音频谱估计为

D、复倒谱域滤波

采用复倒谱域滤波技术进一步去除残余混响，以达到更好的听觉效果。复倒谱域滤波模块的输入为前期语音，它将前期语音转换到复倒谱域进行滤波处理，得到去混响后的语音。复倒谱域滤波过程如下。

首先，对谱减法处理后的语音帧计算其复倒谱，即

{\tilde{x}}_{el} (n) = IFFT {\log_{e} [FFT (x_{el} (n))]}

其中，FFT(·)为快速傅里叶变换，IFFT(·)为FFT的逆变换。

混响语音表示为纯净语音与房间冲激响应的卷积。这里将前期语音作为低混响语音处理。设和

分别为前期语音、纯净语音和房间冲激响应的复倒谱，则有

{\tilde{x}}_{el} (n) = \tilde{s} (n) + \tilde{h} (n)

与房间冲激响应相比，语音信号是慢变信号，这样混响语音信号变换到复倒谱域后，纯净语音的复倒谱集中在原点附近，而房间冲激响应的复倒谱则分布在远离原点的位置。根据纯净语音和房间冲激响应在复倒谱域上的这种分布特性，在复倒谱域设计一个广义上的低通滤波器，将房间冲激响应的复倒谱去除，得到纯净语音复倒谱的估计；然后将纯净语音复倒谱的估计值再变换到时域，得到纯净语音的估计。

复倒谱域低通滤波器W(n)实际上是一个低时窗函数，它包含通带、阻带和过渡带三部分。设N为数据帧长，即滤波器的长度；M为通带截止点，h为滤波器的过渡带长度，则W(n)表达式为

W (n) = \{\begin{matrix} 1, & n = 0,1, \cdot \cdot \cdot, M \\ (h - n) / (h - M), & n = M + 1, M + 2, \cdot \cdot \cdot, h \\ 0, & n = h + 1, \cdot \cdot \cdot, N - M - h \\ (n - N + M + h - 1) / h, & n = N - M - h + 1, \cdot \cdot \cdot, N - M \\ 1, & n = N - M + 1, \cdot \cdot \cdot, N \end{matrix}

滤波器通带截止点M、过渡带长度h的取值范围分别为N／32＜M＜N／8，N／16＜h＜N／4，且M＜h；

将混响语音信号通过复倒谱域低通滤波器，便得到纯净语音的复倒谱

即

\tilde{S} (n) = {\tilde{x}}_{el} (n) \cdot w_{0} (n)

对得到的纯净语音复倒谱估计值

做逆变换，得到纯净语音s(n)的频谱估值

\hat{S} (k) = \exp (FFT (\tilde{s} (n)))

对上式做FFT逆变换，得到时域的纯净语音信号估值

\hat{s} (n) = IFFT (\hat{S} (k))

最后，经过重叠相加后，输出最终去混响后的语音信号。

本发明所述的帧长N最佳值为240；所述的帧间隔L最佳值为100；对于f_s=16kHz，所述的R最佳值为128，T_l最佳值为32ms；所述的η最佳值为η＝0.98；所述的系数α最佳值为0.1；所述的μ最佳值为0.01；所述的M最佳值为N/16，h最佳值为N／8。

与现有技术相比，本发明具有以下有益效果：

1、本发明用改进的最大似然估计方法对混响时间进行盲估计，不需要先验已知混响时间或房间冲激响应，降低了计算复杂度，便于实时处理。

2、本发明应用广义混响统计模型来估计后期混响，用谱减法来有效去除后期混响的影响，从而大幅度抑制了混响，提高了语音质量。

3、本发明对混响语音先进行谱减处理，然后用复倒谱域滤波技术来进一步抑制谱减后的残留混响，有效提高了混响抑制的效果。

附图说明

本发明共有附图21张，其中：

图1是基于复倒谱域滤波和谱减法的混响抑制方法功能框图。

图2是混响时间盲估计流程图。

图3是复倒谱域滤波功能框图。

图4是复倒谱域滤波器频响示意图。

图5是无混响语音样例。

图6是在图5语音中加入混响，混响时间为0.5秒。

图7是本发明处理图6语音后的结果。

图8是在图5语音中加入混响，混响时间为1.0秒。

图9是本发明处理图8语音后的结果

图10是在图5语音中加入混响，混响时间为2.0秒。

图11是本发明处理图10语音后的结果。

图12是实际某会议室混响语音。

图13是本发明处理图12语音后的结果。

图14是纯净语音语谱图样例。

图15是在图14语音中加入混响后的语谱图。

图16是本发明处理图15语音后的结果的语谱图。

图17是实际某会议室混响语音语谱图。

图18是本发明处理图17语音后的结果的语谱图。

图19是轻度混响主观测试结果分布图。

图20是中度混响主观测试结果分布图。

图21是重度混响主观测试结果分布图。

具体实施方式

本发明是一种用于单麦克风系统中的语音混响抑制技术，能有效提高室内语音的听觉质量，降低房间混响造成的干扰。下面结合附图对本发明进行进一步地描述。图1所示为本发明的基于复倒谱域滤波和谱减法的混响抑制方法功能框图，包括混响时间盲估计模块、后期混响功率谱估计模块、谱减模块和复倒谱域滤波模块。具体步骤为：首先用本发明步骤A的混响时间盲估计模块处理混响语音，得到混响时间；然后用本发明步骤B进行后期混响功率谱估计；其次用本发明步骤C进行谱减噪声抑制；最后用本发明步骤D进行复倒谱域滤波，得到最终去混响后的语音。

图2所示为本发明步骤A的混响时间盲估计流程图，图3所示为本发明步骤D的复倒谱域滤波流程图，图4所示为本发明步骤D的复倒谱域滤波器频响示意图。

为验证本发明技术的有效性，按照图1所示的流程图，进行了如下客观测试和主观测试。

1、客观测试结果

客观语音质量评价常在时域、频域和感知域中进行。时域语音客观评价方法主要有信噪比和时域波形图比较。对于混响语音而言，通常将信噪比替换为信混比。与时域客观评价方法相比，频域语音客观评价方法不受原始语音信号与被测试语音信号时间未对齐问题的影响。频域语音客观评价常用方法有谱失真测度方法和语谱图比较方法。感知域语音客观评价方法是一种基于人耳听觉系统模型的评测方法，它的测试结果与主观评价结果最为相近，目前这类技术中常用的方法是感知语音质量评价(Perceptual Evaluation of Speech Quality，PESQ)方法。

本发明进行的客观测试包括：时域波形图比较、信混比、谱失真测度、语谱图比较以及PESQ测试。

(I)时域客观评价

(1)时域波形图比较

图5是一段长度为7秒、采样频率为16KHz的成年女子语音时域波形样例。图6、图8、图10分别是轻度(混响时间为0.5秒)、中度(混响时间为1.0秒)、重度(混响时间为2.0秒)等三种不同程度混响的语音时域波形图。由图6、图8、图10可见，纯净语音经过混响污染后，波形细节被淹没，特别在重度混响情况下，语音原本的波形已被完全淹没掉。经过本发明的基于复倒谱域滤波和谱减法(CF-SS)的混响抑制方法处理后，得到混响抑制后的语音时域波形如图7、图9、图11所示。由图7、图9、图11可见，经过本发明方法处理之后，语音波形明显改善，恢复了原有的波形细节。

为了说明本发明对实际环境的适应性，对实际环境中录制的混响语音进行了测试，图12为在某会议室实际录制的含背景噪声的混响语音，图13为经过本发明所提出的CF-SS混响抑制方法处理后的语音波形图。由图13可见，本发明提出的混响抑制技术能有效地改善实际环境中带有噪声的混响语音。

(2)信混比

信混比(SRR)能用来测量原始语音与混响语音波形之间的失真。本发明采用信混比增益来衡量混响抑制系统的性能。SRR的定义与信噪比类似，输入SRRin、输出SRRout和信混比增益ΔSRR分别定义为

{SRR}_{in} = \frac{1}{FRAME} Σ_{l = 0}^{FRAME} 10 \log_{10} (\frac{Σ_{n = R}^{R + N - 1} s^{2} (n)}{Σ_{n = R}^{R + N - 1} {(s (n) - x (n))}^{2}}) dB

{SRR}_{out} = \frac{1}{FRAME} Σ_{l = 0}^{FRAME} 10 \log_{10} (\frac{Σ_{n = R}^{R + N - 1} s^{2} (n)}{Σ_{n = R}^{R + N - 1} {(s (n) - \hat{s} (n))}^{2}}) dB

ΔSRR＝SRR_out-SRR_in

其中，N为帧长，R为帧率，FRAME为总的帧数，s(n)为纯净语音信号，x(n)是混响语音信号，

是混响抑制系统的输出语音信号。

不同混响程度的混响语音、经过基本的SS混响抑制方法和本发明提出的混响抑制方法的输出语音ΔSRR结果如表1所示。由表1数据可见，经过处理后的语音SRR都得到提高，但本发明方法的性能明显优于SS混响抑制方法。

表1ΔSRR测试结果

(II)频域客观评价

(1)谱失真测度

谱失真测度的定义为

D_{HC}^{2} = \frac{1}{K} Σ_{k = 1}^{k} {&Integral;}_{0}^{0.5 ω} [20 \lg {(\frac{A_{k} (ω)}{A_{k}^{'} (ω)} + G_{C}) + G_{C}]}^{2} dω

其中

G_{C} = \frac{1}{0.5 ω_{s}} {&Integral;}_{0}^{{0.5}_{ω_{s}}} 20 \lg (\frac{A_{k}^{'} (ω)}{A_{k} (ω)}) dω

其中，A_k(ω)为第k帧原始语音的谱包络，A′_k(ω)为第k帧混响语音经过去混响处理后的语音谱包络，ω_s为语音信号采样频率，G_c为增益补偿因子，它能有效去除两个原始包络之间的均方误差。

分别对混响语音和本发明方法输出的去混响语音计算其谱失真测度，测试结果如表2所示。由表2可见，本发明提出的混响抑制方法的谱失真小，其性能明显优于SS方法。

表2谱失真测试结果

(2)语谱图比较

语音信号频谱特性随时间变化的情况可用语谱图直观地来表示。语谱图的横轴表示时间，纵轴表示频率，图像的黑白程度表示语音信号的能量，图像某区域越亮，说明该区域频谱的能量越大，某区域越暗，说明此区域频谱的能量越小。

图14为纯净语音语谱图样例，纯净语音的语谱图比较清晰，且静音段中能量很低。图15为中度混响(混响时间为1.0秒)语音语谱图，由于混响的影响，混响语音的语谱图变得模糊不清，混响严重时，语谱图的条状纹理均被淹没，在静音段中也受了污染。图16为用CF-SS方法混响抑制后的语音语谱图。由图16可见，经本发明处理之后，语音语谱图变得更加明晰，更接近原始语音语谱图。

图17为实际某会议室混响语音语谱图，由于混响的影响，该语谱图比较模糊。图18为用CF-SS方法混响抑制后的语音语谱图。由图18可见，经本发明处理之后，语音语谱图变得更加明晰。

(III)感知域客观评价

PESQ语音质量评价方法与主观评价方法相关度最高。PESQ通过比较原始语音与质量受损语音，或者原始语音与经过处理方法增强后的语音，给出语音的感知质量的预测值。通过计算输出的去混响语音PESQ与输入的混响语音PESQ值之差，得出PESQ增益，即ΔPESQ＝PESQ_out-PESQ_in。表3给出了SS方法和本发明方法的PESQ增益。与SS方法相比，本发明的混响抑制方法能明显提高语音的听觉感知质量。

表3ΔPESQ测试结果

2、主观测试结果

主观测试采用国际上常用的主观评分CMOS(Comparison Mean OpinionScore)方法，即比较平均意见评分，具体评分标准见表4。

表4主观测试标准

比较

CMOS得分

A远好于B	+3
		A好于B	+2
A稍好于B	+1
		A与B相当	0
A稍差于B	-1
		A差于B	-2
A远差于B	-3

主观测试选取的语音如下：轻度混响语音(Rever-low)；对Rever-low语音采用基于CF-SS混响消除方法消除混响后的语音(DeRever-CF-low)；中度混响语音(Rever-mid)；对Rever-mid采用基于CF-SS混响消除方法消除混响后的语音(DeRever-CF-mid)；重度混响语音(Rever-high)；对Rever-high采用基于CF-SS混响消除方法消除混响后的语音(DeRever-CF-high)。

每个人的听觉感受会受到环境、心理因素和知识背景等因素的影响，尽管听觉感受会不一样，但总体差距不会太大。为了更好地反映主观测试结果，邀请了20位听众(10男10女)在同一环境中测试，测试主体的年龄均为20岁到40岁之间，并在半年内没有参加过任何语音方面的相关主观测试。在测试开始前，将混响抑制的效果向听众展示，并告知听众需要对语音的清晰度和混响程度两个方面进行评价，评价语音质量和感受混响抑制的效果。当测试主体理解了指导，他们首先将收听初步的情形，并给出他们的意见。测试时，每组测试语音按照任意顺序展示给测试主体，并允许他们无限制地重复收听。最后，每位测试主体将按照主观测试评分标准(CMOS)给出他们的意见。

图19-21为主观测试结果分布图，分布图中横坐标表示CMOS得分，纵坐标表示给出某一分数的听众所占比例。根据CMOS得分标准，正数表示本发明方法的输出语音比混响语音听觉效果好。本过程采用差异性分析方法，采用95％的置信区间，对测试结果进行分析，图中黑色圆点为计算出的平均分。图19给出了轻度混响测试语音的比较结果的分布图，图20给出了中度混响测试语音的比较结果的分布图，图21给出了重度混响测试语音的比较结果的分布图。由图19～图21可见，三种程度的混响经过本发明处理后，听觉质量均得到了一定程度的提升，且混响程度较大时，听觉效果提升更为明显。

Claims

1.一种音频混响的抑制装置，其特征在于：包括混响时间盲估计模块、后期混响功率谱估计模块、谱减模块和复倒谱域滤波模块；所述的混响时间盲估计模块的输入信号为含有混响的语音信号，其输出端与后期混响功率谱估计模块的输入端连接；后期混响功率谱估计模块的另一路输入信号为含有混响的语音信号；谱减模块的输入端与后期混响功率谱估计模块输出端连接，其输出连接到复倒谱域滤波模块，复倒谱域滤波模块输出最终去混响后的语音。

2.一种音频混响的抑制装置的抑制方法，其特征在于：包括以下步骤：

A、混响时间盲估计

计算每一帧混响语音x(n)的自相关函数R(k)

R (k) = Σ_{n = 0}^{N - k - 1} x (n) x (n + k), k = 0,1, . . ., M

其中，N为帧长，其取值范围为160～320；用Levinson-Durbin算法求解以下方程组，获得M阶线性预测滤波器系数a_i，i=1，2，...，M

Σ_{i = 1}^{M} a_{i} R (| i - k |) = - R (k), k = 1,2, . . ., M - - - (1)

\tilde{x} (n) = x (n) - Σ_{i = 1}^{M} a_{i} x (n - i)

计算每一帧

的自相关函数

r_{\tilde{x}} (n) = Σ_{n = 0}^{N - k - 1} \tilde{x} (n) \tilde{x} (n + k)

在混响时间估计时，不需要对每帧语音都估计出混响时间，而是每隔L帧估计一次混响时间，这样，既不影响混响时间的估计质量，也能大幅度降低计算量，易于实时处理；于是，每隔L帧，计算一次平均自相关函数

帧间隔L取值范围为40～400，即

{\overset{&OverBar;}{r}}_{\tilde{x}} (n) = \frac{1}{L} Σ_{l = 1}^{L} r_{\tilde{x}, l} (n)

A13、根据残差信号的自相关函数应用最大似然方法，估计最佳混响时间参数a，其具体步骤如下：

其中，

a = \exp (- \frac{δ}{f_{s}});

自相关函数

与参数a和κ的似然函数为

L {{\overset{&OverBar;}{r}}_{\tilde{x}}; a, κ} = \frac{1}{\sqrt{{(2 πκ)}^{N} a^{N (N - 1)}}} \exp (- \frac{1}{2} Σ_{i = 0}^{N - 1} \frac{{\overset{&OverBar;}{r}}_{\overset{&OverBar;}{x}}^{2} (i)}{{κa}^{2 i}}) - - - (3)

分别对

参数a和κ求偏导，并将偏导设置为0，求出最佳参数；

\frac{&PartialD;}{&PartialD; a} (\ln (L {{\overset{&OverBar;}{r}}_{\tilde{x}}; a, κ})) = - \frac{N (N - 1)}{2 a} + \frac{1}{κ} Σ_{i = 0}^{N - 1} {\overset{&OverBar;}{r}}_{\overset{&OverBar;}{x}}^{2} a^{- 2 i - 1} i = 0 - - - (4)

\frac{&PartialD;}{&PartialD; κ} (\ln (L {{\overset{&OverBar;}{r}}_{\tilde{x}}; a, κ})) = - \frac{N}{2 κ} + \frac{1}{{2 κ}^{2}} Σ_{i = 0}^{N - 1} {\overset{&OverBar;}{r}}_{\overset{&OverBar;}{x}}^{2} a^{- 2 i} = 0 - - - (5)

用Newton-Raphson方法求解式(4)、(5)，得到最佳参数a，进而得到混响时间的估计值；

B、后期混响功率谱估计

设混响语音功率谱为

混响部分的功率谱为后期混响功率谱为

则混响语音功率谱

为

{\hat{λ}}_{x} (l, k) = η_{x} {\hat{λ}}_{x} (l - 1, k) + (1 - η_{x}) {) | X (l, k) |}^{2}

其中，参数

此处，R为帧率，f_s为采样频率，η_x与平均衰减系数

有关，这里，T₆₀为混响时间；

后期混响功率谱为

{λ_{x}}_{r} (l, k) = e^{- 2 \overset{&OverBar;}{δ} \frac{R}{f_{s}}} {(1 - κ) λ_{x}}_{r} (l - 1, k) + κ e^{- 2 \overset{&OverBar;}{δ} \frac{R}{f_{s}}} λ_{x} (l - 1, k)

{λ_{x}}_{l} (l, k) = e^{- 2 \overset{&OverBar;}{δ} (T_{l} - \frac{R}{f_{s}})} {λ_{x}}_{r} (l - N_{l} + 1, k)

其中，T_l为前期混响到达的时间，T_r＝R/f_s表示直达信号到达的时间；T_s≤T_l＜＜T₆₀，这里，T_s取值范围为20ms≤T_s≤40ms；

参数κ与混响能量比有关，用来防止后期混响的过估计；采用自适应方法估计参数κ，即第l帧的参数κ具体计算方法为

κ (l) = κ (l - 1) + μ (1 - \frac{Σ_{k = 0}^{\frac{K}{2} - 1} λ_{x} (l, k)}{Σ_{k = 0}^{\frac{K}{2} - 1} {| X (l . k) |}^{2}})

其中，μ表示更新步长，其取值范围是0＜μ＜1；参数κ的初始值κ(0)=0.01；

C、基于功率谱相减的噪声抑制

首先用混响语音功率谱和后期混响功率谱构造谱减增益函数，然后将谱减增益函数和混响语音输入到谱减实施模块，获得前期语音；

纯净语音频谱估计

为

| \hat{S} (l, k) | = G (l, k) | X (l, k) |

其中，G(l，k)为谱减增益函数，实质上它是一个后置滤波器，用于对混响语音信号滤除后期混响部分的影响；增益函数G(l，k)表示为

G (l, k) = 1 - \frac{1}{\sqrt{γ (l, k)}}

其中，γ(l，k)为后验信干比，

但这种增益函数估计方法容易出现过估计的情况；为解决此问题，这里用两个修正技术来解决残留噪声的问题；一个修正技术是将后验信干比替换为先验信干比加1，即γ(l，k)=ζ(l，k)+1，以降低增益函数G(l，k)的随机波动，减少出现过估计的情况；此处，先验信干比定义为

ξ (l, k) = \frac{E [{| X_{e} (l, k) |}^{2}]}{λ_{x_{l}} (l, k)}

其中，E[|X_e(l，k)|²]表示前期语音的谱方差，实际中它是未知的；先验信干比用下式来代替

ξ (l, k) = η \frac{{{| \hat{X}}_{e} (l - 1, k) |}^{2}}{{\hat{λ}}_{x_{l}} (l - 1, k)} + (1 - η) \max {γ (l, k) - 1,0}

其中，参数η是加权因子，用于控制在干扰降低与信号中引入的瞬态失真之间的折衷；若参数η取值较大，则能大幅度降低残留噪声，但会引入较大的信号失真；η取值范围为0～1；

增益函数的第二个修正技术是使用一个增益门限，来控制增益函数的最小值，同时该增益门限也控制干扰抑制的最大限度；增益门限定义为

G_{\min} = α \frac{\sqrt{λ_{x_{l}} (l, k)}}{| X (l, k) |}

系数α的取值范围为0.001～0.4；

综上，纯净语音频谱估计为

D、复倒谱域滤波

采用复倒谱域滤波技术进一步去除残余混响，以达到更好的听觉效果；复倒谱域滤波模块的输入为前期语音，它将前期语音转换到复倒谱域进行滤波处理，得到去混响后的语音；复倒谱域滤波过程如下：

首先，对谱减法处理后的语音帧计算其复倒谱，即

{\tilde{x}}_{e 1} (n) = IFFT {\log_{e} [FFT (x_{e 1} (n))]}

其中，FFT(·)为快速傅里叶变换，IFFT(·)为FFT的逆变换；

混响语音表示为纯净语音与房间冲激响应的卷积；这里将前期语音作为低混响语音处理；设

和

分别为前期语音、纯净语音和RIR的复倒谱，则有

{\tilde{x}}_{e 1} (n) = \tilde{s} (n) + \tilde{h} (n)

与房间冲激响应相比，语音信号是慢变信号，这样混响语音信号变换到复倒谱域后，纯净语音的复倒谱集中在原点附近，而房间冲激响应的复倒谱则分布在远离原点的位置；根据纯净语音和房间冲激响应在复倒谱域上的这种分布特性，在复倒谱域设计一个广义上的低通滤波器，将房间冲激响应的复倒谱去除，得到纯净语音复倒谱的估计；然后将纯净语音复倒谱的估计值再变换到时域，得到纯净语音的估计；

复倒谱域低通滤波器W(n)实际上是一个低时窗函数，它包含通带、阻带和过渡带三部分；设N为数据帧长，即滤波器的长度；M为通带截止点，h为滤波器的过渡带长度，则W(n)表达式为

W (n) = \{\begin{matrix} 1, & n = 0,1, \cdot \cdot \cdot, M \\ (h - n) / (h - M), & n = M + 1, M + 2, \cdot \cdot \cdot, h \\ 0, & n = h + 1, \cdot \cdot \cdot, N - M - h \\ (n - N + M + h - 1) / h, & n = N - M - h + 1, \cdot \cdot \cdot, N - M \\ 1, & n = N - M + 1, \cdot \cdot \cdot, N \end{matrix}

滤波器通带截止点M、过渡带长度h的取值范围分别为N/32<M<N/8，N/16<h<N/4，且M<h；

即

\tilde{s} (n) = {\tilde{x}}_{e 1} (n) \cdot w_{0} (n)

对得到的纯净语音复倒谱估计值

做逆变换，得到纯净语音s(n)的频谱估值

\hat{S} (k) = \exp (FFT (\tilde{s} (n)))

对上式做FFT逆变换，得到时域的纯净语音信号估值

\hat{s} (n) = IFFT (\hat{S} (k))

最后，经过重叠相加后，输出最终去混响后的语音信号。

3.根据权利要求2所述的一种音频混响的抑制装置的抑制方法，其特征在于：所述的帧长N最佳值为240；所述的帧间隔L最佳值为100；对于f_s=16kHz，所述的R最佳值为128，T_l最佳值为32ms；所述的η最佳值为η=0.98；所述的系数α最佳值为0.1；所述的μ最佳值为0.01；所述的M最佳值为N/16，h最佳值为N/8。