CN103067821A

CN103067821A - 一种基于双麦克的语音混响消减方法和装置

Info

Publication number: CN103067821A
Application number: CN201210536578XA
Authority: CN
Inventors: 楼厦厦; 李波; 黄秋晨
Original assignee: Goertek Inc
Current assignee: Goertek Microelectronics Inc
Priority date: 2012-12-12
Filing date: 2012-12-12
Publication date: 2013-04-24
Anticipated expiration: 2032-12-12
Also published as: KR20150008925A; EP2858379B1; JP2015523609A; WO2014089914A1; CN103067821B; JP5785674B2; US20150189431A1; EP2858379A1; KR101502297B1; EP2858379A4; US9414157B2; DK2858379T3

Abstract

本发明公开了一种基于双麦克的语音混响消减方法和装置。该方法中，根据主麦克的输入信号x₂(t)和辅麦克的输入信号x₁(t)计算辅麦克到主麦克的传递函数h(t)，取h(t)的拖尾部分h_r(t)，根据h(t)判断混响的强弱，计算出增益函数的调节因子β；x₁(t)与h_r(t)作卷积，得到x₂(t)的后期混响估计信号

并根据x₂(t)的频谱、β以及

的频谱计算增益函数，用x₂(t)的频谱乘以增益函数得到x₂(t)去混响后的频谱，频时转换得到x₂(t)去后期混响后的时域信号。这样能从主麦克输入信号中消除后期混响，而保留早期混响，不会使处理后的声音变得单薄，提高了语音的质量。同时根据混响强弱调节谱减力度，保证了在混响弱、语音清晰度原本比较高的情形下不会损伤语音。并且不需要准确估计直达声波达方向，因而不要求麦克风具有很高一致性。

Description

一种基于双麦克的语音混响消减方法和装置

技术领域

本发明涉及语音增强技术领域，特别涉及一种基于双麦克的语音混响消减方法和装置。

背景技术

声音信号在室内的传播过程中，由于墙壁、地面等硬质界面对声音的反射，到达传声器的声音除了直接从声源传来的直达声外，还有经过一次或多次反射传来的声音信号，这些非直达声构成了混响信号。经过一次或少量的几次反射的声音信号称为早期反射信号，早期反射信号构成了早期混响信号，早期混响信号能够对语音起到增强作用。经过多次反射的声音信号称为后期反射信号，后期反射信号构成了后期混响信号，后期混响较强则会降低语音的清晰度。

在一些免提语音通讯中，通话者距离麦克风较远，语音清晰度会因房间混响而下降，导致通话质量下降。因此需要一些技术消减混响，提升语音清晰度。麦克风接收信号包括直达声信号和混响信号，而由前述可知混响又可以分为早期混响和后期混响。其中降低语音清晰度的主要是后期混响，而早期混响一般对语音有增强作用。因此提升清晰度的关键是降低后期混响信号。

在各种混响消减技术中，基于双麦克的谱减去混响方法受到较多关注。现有的一种基于双麦克风谱减的去混响方法中，采用自适应波束形成（GSC）的结构得到两路信号，第一路信号是延时-求和波束形成器的输出；第二路信号是阻塞矩阵的输出。两路信号的能量包络通过一个自适应滤波器估计出第一路信号的混响，再利用谱减法去除混响。这种方法有几个缺点：

1）会去除早期混响，使处理后的声音变得单薄。

2）对混响强弱没有判断，在不同混响情况下都沿用一样的谱减处理，这样在混响弱、语音清晰度原本比较高时可能损伤语音质量。

3）需要准确估计直达声波达方向，分离直达声，因而要求麦克风具有很高一致性，对声学设计也有严格的限制。

发明内容

鉴于上述问题，提出了本发明以便提供一种克服上述问题的基于双麦克的语音混响消减方法和装置。

依据本发明的一个方面，提供了一种基于双麦克的语音混响消减方法，该方法包括：

接收主麦克输入信号和辅麦克输入信号，逐帧做如下处理：

根据主麦克输入信号和辅麦克输入信号计算辅麦克到主麦克的传递函数h(t)；

获取传递函数h(t)的拖尾部分h_r(t)，并根据传递函数h(t)判断混响的强弱，计算出增益函数的调节因子β；

用辅麦克输入信号与h_r(t)作卷积，得到主麦克输入信号的后期混响估计信号；

对主麦克输入信号的后期混响估计信号进行时域到频域的转换得到主麦克输入信号的后期混响谱；对主麦克输入信号进行时域到频域的转换得到主麦克输入信号的频谱；

根据主麦克输入信号的频谱、增益函数的调节因子β以及主麦克输入信号的后期混响谱计算增益函数；

用主麦克输入信号的频谱乘以增益函数得到主麦克输入信号去混响后的频谱；

对主麦克输入信号去混响后的频谱进行频域到时域的转换，得到主麦克输入信号去混响后的时域信号；

将主麦克输入信号去混响后的时域信号逐帧叠接相加后，输出主麦克输入信号去混响后的连续信号。

依据本发明的另一方面，提供了一种基于双麦克的语音混响消减装置，对主麦克和辅麦克接收到的信号逐帧进行处理；该装置包括：混响谱估计单元和谱减单元，其中：

混响谱估计单元，用于接收主麦克输入信号和辅麦克输入信号，根据主麦克输入信号和辅麦克输入信号计算辅麦克到主麦克的传递函数h(t)，获取传递函数h(t)的拖尾部分h_r(t)，并根据传递函数h(t)判断混响的强弱，计算出增益函数的调节因子β输出给谱减单元，用辅麦克输入信号与h_r(t)作卷积，得到主麦克输入信号的后期混响估计信号，对主麦克输入信号的后期混响估计信号进行时域到频域的转换，得到主麦克输入信号的后期混响谱后输出给谱减单元；

谱减单元，用于接收主麦克输入信号和混响谱估计单元输出的增益函数的调节因子以及主麦克输入信号的后期混响谱，对主麦克输入信号进行时域到频域的转换得到主麦克输入信号的频谱，根据主麦克输入信号的频谱、增益函数的调节因子β以及主麦克输入信号的后期混响谱计算增益函数，用主麦克输入信号的频谱乘以增益函数得到主麦克输入信号去混响后的频谱，对主麦克输入信号去混响后的频谱进行频域到时域的转换，得到主麦克输入信号去混响后的时域信号，将主麦克输入信号去混响后的时域信号逐帧叠接相加后，输出主麦克输入信号去混响后的连续信号。

由上述可见，本发明通过根据主麦克输入信号和辅麦克输入信号计算辅麦克到主麦克的传递函数h(t)，取传递函数h(t)的拖尾部分h_r(t)，并且根据传递函数h(t)判断混响的强弱，计算出增益函数的调节因子β；然后根据辅麦克输入信号与h_r(t)作卷积，得到主麦克输入信号的后期混响估计信号，并根据主麦克输入信号的频谱、增益函数的调节因子β以及主麦克输入信号的后期混响谱计算增益函数，用主麦克输入信号的频谱乘以增益函数得到主麦克输入信号去混响后的频谱，即通过谱减法从主麦克输入信号的频谱中减去主麦克输入信号的后期混响估计谱，因此能从主麦克的输入信号中有效地消除其后期混响，而保留其早期混响，不会使处理后的声音变得单薄，提高了语音的质量。同时在估计后期混响中根据混响强弱调节谱减力度，在混响弱的时候少做甚至不做谱减，保证了在混响弱、语音清晰度原本比较高的情形下不会损伤语音，保护语音质量。并且这种方案中不需要准确估计直达声波达方向，因而不要求麦克风具有很高一致性，对声学设计也没有严格的限制。

附图说明

图1是本发明实施例中给出的激励信号到麦克输入信号的传递函数示意图；

图2是本发明实施例中给出的辅麦克到主麦克的传递函数h(t)的示意图；

图3是本发明一个实施例中的一种基于双麦克的语音混响消减方法的流程示意图；

图4是本发明又一个实施例中的基于双麦克的语音混响消减方法的整体流程示意图。

图5a是本发明实施例中的声源到主麦克距离为0.5m时辅麦克到主麦克的传递函数的示意图；

图5b是本发明实施例中的声源到主麦克距离为1m时辅麦克到主麦克的传递函数的示意图；

图5c是本发明实施例中的声源到主麦克距离为2m时辅麦克到主麦克的传递函数的示意图；

图5d是本发明实施例中的声源到主麦克距离为4m时辅麦克到主麦克的传递函数的示意图；

图6a是本发明实施例中的主辅麦克之间的间距为6cm时的频率补偿滤波器的幅频特性示意图；

图6b是本发明实施例中的主辅麦克之间的间距为18cm时的频率补偿滤波器的幅频特性示意图；

图7a是本发明实施例中的主麦克输入信号的时域图；

图7b是本发明实施例中的主麦克去混响后的时域图；

图7c是本发明实施例中的主麦克输入信号的语谱图；

图7d是本发明实施例中的主麦克去混响后的语谱图；

图8是本发明实施例中的一种基于双麦克的语音混响消减装置的组成结构图；

图9是本发明的一个较佳实施例中的基于双麦克的语音混响消减装置的详细组成结构及其输入输出示意图。

具体实施方式

首先需要声明的是：为使申请文件简要，在本申请文件中将“麦克风”简称为“麦克”。

根据对现有技术的分析，为了更好的混响消减需要在去除后期混响的同时保护直达声和早期混响，因而需要准确稳定的后期混响估计和混响强弱判断。

本发明提出了基于双麦克的去混响方案，充分的利用了混响和双麦克空间传递函数之间的近似关系，利用双麦克空间传递函数估计后期混响并判断混响强弱，与谱减模块配合在各种混响环境下都可以在满足清晰度的同时得到接近最优的语音质量。另外发明中的方案不需要分离直达声也不用做波达方向估计，因而不要求麦克风一致性，放宽了对声学设计的要求。

本发明的基本原理是：通过双麦克之间传递函数的尾部估计后期混响，因此谱减中可以很好的保留直达声和早期混响。并且在估计后期混响中进一步利用双麦克传递函数的头部和尾部能量差异估计房间混响的程度，调节谱减力度，在混响弱的时候少做甚至不做谱减，保护语音质量。

为使本发明的技术方案清楚，下面对本发明的技术原理进行分析说明。

早期混响信号能够对语音起到增强作用，后期混响则会降低语音的清晰度。图1是本发明实施例中给出激励信号到麦克输入信号的传递函数示意图。参见图1，在激励信号到麦克输入信号的传递函数上，峰值最大的地方对应直达声，通常将距离最大峰的某个点作为早期反射和后期反射的分界点，最大峰到分界点的部分对应早期混响，分界点后的部分对应后期混响。在图1中，该分界点为50ms。

将激励信号记为s(t)，麦克输入信号记为x(t)，激励信号到麦克输入信号的传递函数记为tf(t)，对应直达声和早期混响部分的传递函数记为tf_d(t)，对应后期混响部分的传递函数记为tf_r(t)。那么，麦克输入信号可以表示为激励信号与传递函数的卷积x(t)＝s(t)*tf(t)，麦克输入信号的直达声和早期混响成分可以表示为x_d(t)＝s(t)*tf_d(t)，麦克输入信号的后期混响成分可以表示为x_r(t)＝s(t)*tf_r(t)。则麦克输入信号也可以表示为x(t)＝s(t)*tf(t)＝s(t)*(tf_d(t)+tf_r(t))＝x_d(t)+x_r(t)。

语音的清晰度可以用C₅₀来表示，其计算公式为：

C_{50} = 10 \log \frac{{&Integral;}_{0}^{50 ms} w^{2} (t) dt}{{&Integral;}_{50 ms}^{\infty} w^{2} (t) dt} dB - - - (1)

w(t)是激励信号到麦克输入信号的传递函数。0~50ms对应直达声和早期混响部分，50ms以后对应后期混响部分。混响越强，C₅₀的值越小。去混响前后C₅₀的提升可以反映去混响的效果，因此，C₅₀可以作为一个去混响的客观评测指标。

本发明中基于双麦克（主麦克和辅麦克）的混响估计原理如下：主麦克的输入信号记为x₂(t)，辅麦克的输入信号记为x₁(t)，辅麦克到主麦克的传递函数记为h(t)，如图2所示。图2是本发明实施例中给出的辅麦克到主麦克的传递函数h(t)的示意图。

主麦克的输入信号x₂(t)等于辅麦克的输入信号x₁(t)与传递函数h(t)的卷积：

x₂(t)＝x₁(t)*h(t) （2）

h(t)可以分为头尾两部分：

h(t)＝h_d(t)+h_r(t) （3）

其中，h_d(t)表示h(t)的头部，h_r(t)表示h(t)的尾部。

h(t)的拖尾部分h_r(t)反映了信号在空间的多次反射，因此h(t)的拖尾部分h_r(t)和辅麦克输入信号x₁(t)的卷积信号

与主麦克的后期混响成分相近，可以作为主麦克后期混响成分的估计信号。在h(t)上选取一点作为h_d(t)和h_r(t)的分界点，将h(t)在分界点以前的值置0，可以得到h_r(t)。分界点到h(t)最大峰的距离范围可以设置为30ms~80ms（经验值）。根据经验，若分界点到h(t)的最大峰大于等于50ms，则主麦克的后期混响估计信号

中完全没有直达声和早期反射成分的残留，可以减少对语音的损伤，因此在本发明的实施例中以分界点取50ms为例进行说明。

为使本发明的目的、技术方案和优点更加清楚，下面结合附图对本发明实施方式作进一步地详细描述。

图3是本发明一个实施例中的一种基于双麦克的语音混响消减方法的流程示意图。如图3所示，该方法主要包括混响估计部分和谱减部分，具体是逐帧做如下处理：

1.1，接收主麦克输入信号x₂(t)和辅麦克输入信号x₁(t)，根据主麦克输入信号和辅麦克输入信号计算辅麦克到主麦克的传递函数h(t)；

1.2，获取传递函数h(t)的拖尾部分h_r(t)；

1.3，并且根据传递函数h(t)判断混响的强弱，计算出增益函数的调节因子β；

1.4，用辅麦克输入信号与h_r(t)作卷积，得到主麦克输入信号的后期混响估计信号

1.5，对主麦克输入信号的后期混响估计信号

进行时域到频域的转换得到主麦克输入信号的后期混响谱

2.1，对主麦克输入信号x₂(t)进行时域到频域的转换得到主麦克输入信号的频谱X₂；

2.2，根据主麦克输入信号的频谱X₂、增益函数的调节因子β以及主麦克输入信号的后期混响谱

计算增益函数G；

2.3，用主麦克输入信号的频谱X₂乘以增益函数G得到主麦克输入信号去混响后的频谱D；

2.4，对主麦克输入信号去混响后的频谱D进行频域到时域的转换，得到主麦克输入信号去混响后的时域信号d(t)；

2.5，将主麦克输入信号去混响后的时域信号逐帧叠接相加后，输出主麦克输入信号去混响后的连续信号x_d(t)。

在图3所示的方法中，由于通过辅麦克输入信号与h_r(t)作卷积，得到主麦克输入信号的后期混响估计信号，然后通过谱减法从主麦克输入信号的频谱中减去主麦克输入信号的后期混响估计谱，因此能从主麦克的输入信号中有效地消除其后期混响，而保留其早期混响，提高了语音的质量。同时，图3所示方案，在估计后期混响中根据混响强弱调节谱减力度，在混响弱的时候少做甚至不做谱减，保证了在混响弱、语音清晰度原本比较高的情形下不会损伤语音质量，保护语音质量。并且这种方案中不需要准确估计直达声波达方向，因而不要求麦克风具有很高一致性，对声学设计也没有严格的限制。

在本发明的一个实施例中，在图3所示方案的基础上，还进一步考虑主麦克输入信号的后期混响估计信号与主麦克输入信号的真实后期混响成分相比，后期混响估计信号在低频部分估计不足的问题，根据不同的麦克间距设计低通滤波器对后期混响估计信号进行相应的频率补偿。具体参见图4所示的实施例。

图4是本发明又一个实施例中的基于双麦克的语音混响消减方法的整体流程示意图。如图4所示，整个系统的输入是辅麦克输入信号x₁(t)和主麦克输入信号x₂(t)，输出是去混响后的信号x_d(t)。包括两大部分：混响谱估计过程和谱减过程。图4与图3所示的方法流程相比增加了对后期混响估计信号进行频率补偿的步骤（在图4中对后期混响估计信号进行频率补偿的步骤为步骤1.45，时频域转换的步骤仍标记为步骤1.5）。以下参照图4，对该方法进行详细说明：

1.混响谱估计

输入：辅麦克的输入信号x₁(t)、主麦克的输入信号x₂(t)；

输出：增益函数的调节因子β（作为谱减过程的一个输入）、主麦克输入信号的后期混响谱

（作为谱减过程的一个输入）；

混响谱估计包括1.1、1.2、1.3、1.4、1.45、1.5六个步骤。

2.谱减

输入：主麦克输入信号x₂(t)、增益函数的调节因子β（混响谱估计过程的输出）、主麦克的后期混响谱

（混响谱估计过程的输出）；

输出：主麦克输入信号去混响后的信号x_d(t)（也是整个系统的输出）；

谱减过程包括2.1、2.2、2.3、2.4、2.5五个步骤。

下面详细介绍混响谱估计过程和谱减过程中的各个步骤以及各步骤之间的关系。

1.混响谱估计过程：

1.1计算辅麦克到主麦克的传递函数h(t)。

1.1的输入：辅麦克的输入信号耳x₁(t)和主麦克的输入信号x₂(t)。

1.1的输出：辅麦克到主麦克的传递函数h(t)(作为1.2的输入)。

在本发明的一个实施例中，用辅麦克输入信号x₁(t)和主麦克输入信号x₂(t)的互功率谱

以及辅麦克输入信号x₁(t)的功率谱来计算传递函数H：

H = \frac{P_{x_{2} x_{1}}}{P_{x_{1} x_{1}}} - - - (4)

将频域的传递函数H作逆傅里叶变换，得到时域的传递函数h(t)。

在本发明的其他实施例中，h(t)的计算可以采用不同的方法，如自适应滤波的方法等，这里不再详述。

1.2求取传递函数h(t)的拖尾部分h_r(t)。

1.2的输入：辅麦克到主麦克的传递函数h(t)(1.1的输出)。

1.2的输出：辅麦克到主麦克的传递函数的拖尾部分h_r(t)(作为1.4的输入)。

在本发明的实施例中，在传递函数h(t)的时间轴上取早期混响和后期混响的分界点，将传递函数h(t)的该分界点之前的值置0，即得到传递函数h(t)的拖尾部分h_r(t)。在本发明的一个较佳实施例中，在h(t)上选取一点，令该点到h(t)的最大峰的距离为50ms，将h(t)在该点以前的值置为0，记为h_r(t)。

1.3根据辅麦克到主麦克的传递函数h(t)判断混响强弱，求出增益函数的调节因子β。

1.3的输入：辅麦克到主麦克的传递函数h(t)(1.1的输出)。

1.3的输出：增益函数的调节因子β(作为谱减过程的一个输入)。

为了减少弱混响时去混响对语音的损伤，本步骤1.3中通过判断混响强弱来计算增益函数的调节因子β。在本发明的实施例中，辅麦克到主麦克的传递函数的头部能量与拖尾部分的能量的比值取对数记为ρ：

ρ = 10 \log \frac{{&Integral;}_{0}^{T} h^{2} (t) dt}{{&Integral;}_{T}^{\infty} h^{2} (t) dt} dB - - - (5)

其中，h(t)为辅麦克到主麦克的传递函数，T为h(t)的时间轴上的指定分界点。该分界点T不一定是早期混响和后期混响的分界点，但该分界点T之前一定包括直达声，还可已包括部分或全部早期混响。

图5a是本发明实施例中的声源到主麦克距离为0.5m时辅麦克到主麦克的传递函数的示意图。当声源到主麦克距离L=0.5m，T的取值范围是20ms~50ms，这里T取50ms（即分界点T为距离h(t)的最大峰50ms的时间点）时，语音的清晰度指标C₅₀=12.3dB，ρ=9.4dB。

图5b是本发明实施例中的声源到主麦克距离为1m时辅麦克到主麦克的传递函数的示意图。当声源到主麦克距离L=1m，T的取值范围是20ms~50ms，这里T取50ms（即分界点T为距离h(t)的最大峰50ms的时间点）时，语音的清晰度指标C₅₀=8.1dB，ρ=6.0dB。

图5c是本发明实施例中的声源到主麦克距离为2m时辅麦克到主麦克的传递函数的示意图。当声源到主麦克距离L=2m，T的取值范围是20ms~50ms，这里T取50ms（即分界点T为距离h(t)的最大峰50ms的时间点）时，语音的清晰度指标C₅₀=5.4dB，ρ=3.7dB。

图5d是本发明实施例中的声源到主麦克距离为4m时辅麦克到主麦克的传递函数的示意图。当声源到主麦克距离L=4m，T的取值范围是20ms~50ms，这里T取50ms（即分界点T为距离h(t)的最大峰50ms的时间点）时，语音的清晰度指标C₅₀=4.5dB，ρ=2.2dB。

声源距麦克越远，混响就越强。从图5a至图5d可知，随着混响增强，辅麦克到主麦克的传递函数的头部能量变低，拖尾部分的能量变高，二者比值取的对数ρ可以反映混响强弱。随着混响变强，ρ的值逐渐变小。因此可以根据ρ的值来判断混响强弱，并由此求出增益函数调节因子β。

β可以有多种计算方式，公式（6）是本发明实施例中的一种计算β的经验公式：

β = \{\begin{matrix} 0 & ρ > ρ_{1} \\ 2 (ρ_{1} - ρ) / (ρ_{1} - ρ_{2}) & ρ_{2} < ρ < ρ_{1} \\ 2 & ρ < ρ_{2} \end{matrix} - - - (6)

ρ₁和ρ₂取设定值，是一种经验值，在本发明的实施例中，ρ₁取9dB，ρ₂取2dB（麦克间距为6cm）。

1.4用辅麦克的输入信号x₁(t)与辅麦克到主麦克的传递函数的拖尾部分h_r(t)作卷积，得到主麦克输入信号的后期混响估计信号

1.4的输入：辅麦克的输入信号x₁(t)、辅麦克到主麦克的传递函数的拖尾部分h_r(t)（1.2的输出）。

1.4的输出：主麦克输入信号的后期混响估计信号（作为1.45的输入）。

具体如下公式：

\hat{r} (t) = x_{1} (t) * h_{r} (t) - - - (7)

1.45对主麦克输入信号的后期混响估计信号

进行频率补偿，得到补偿后的信号

1.45的输入：主麦克输入信号的后期混响估计信号（1.4的输出）。

1.45的输出：经过频率补偿的主麦克输入信号的后期混响估计信号

（作为1.5的输入）。

主麦克输入信号的后期混响估计信号

与主麦克输入信号的真实后期混响成分相比，后期混响估计信号

在低频部分估计不足。因此，在本发明中对主麦克输入信号的后期混响估计信号

进行频率补偿。主辅麦克之间的间距会对后期混响估计信号

产生影响，因此本发明的实施例中根据不同的麦克间距设计低通滤波器对后期混响估计信号进行相应的频率补偿，得到补偿后的后期混响估计信号

图6a是本发明实施例中的主辅助麦克之间的间距为6cm时的频率补偿滤波器的幅频特性示意图。图6b是本发明实施例中的主辅助麦克之间的间距为18cm时的频率补偿滤波器的幅频特性示意图。可以看出，在本发明的实施例中，主麦克与辅麦克之间的距离越大，对主麦克输入信号的后期混响估计信号的低频部分进行频率补偿的程度越小。

1.5将经过频率补偿的主麦克输入信号的后期混响估计信号

由时域转换到频域，得到主麦克输入信号的后期混响谱

1.5的输入：经过频率补偿的主麦克输入信号的后期混响估计信号

（1.45的输出）。

1.5的输出：主麦克输入信号的后期混响谱

（作为谱减过程的一个输入）。

将经过频率补偿的主麦克的后期混响估计信号

变换到频域，就可以得到主麦克输入信号的后期混响谱

\hat{R} = fft ({\hat{r}}_{_} EQ (t)) - - - (8)

2.谱减过程

2.1将主麦克的输入信号x₂(t)由时域变换到频域，记为X₂。

2.1的输入：主麦克的输入信号x₂(t)。

2.1的输出：主麦克输入信号的频谱X₂（作为2.2的输入）。

具体公式如下：

X₂＝fft(x₂(t)) （9）

2.2由主麦克输入信号的频谱X₂以及估计出的主麦克的后期混响谱

计算增益函数G，并根据调节因子β来调节增益函数。

2.2的输入：主麦克输入信号的频谱X₂（2.1的输出）、主麦克的后期混响谱

（混响谱估计过程中的1.5的输出）、增益函数调节因子β（混响谱估计过程中的1.3的输出）。

2.2输出：增益函数G（作为2.3的一个输入）。

本发明的一个实施例中，采用功率谱减法，根据如下公式计算增益函数G(l,k)：

G (l, k) = \sqrt{\frac{{| X_{2} (l, k) |}^{2} - β {| \hat{R} (l, k) |}^{2}}{{| X_{2} (l, k) |}^{2}}} - - - (10)

其中，l为帧号，k为频点号，β为增益函数的调节因子，

为主麦克输入信号的后期混响频谱，X₂为主麦克输入信号的频谱。

根据公式（10）可以看出，通过增益函数的调节因子β可以调节增益函数G(l,k)的大小。这样在混响弱的时候可以少做甚至不做谱减，保证了在混响弱、语音清晰度原本比较高的情形下不会损伤语音，保护语音质量。

2.3用主麦克输入信号的幅度谱|X₂|乘以增益函数G，并结合主麦克输入信号的相位，得到主麦克输入信号去混响后的频谱D。

2.3的输入：主麦克输入信号的频谱X₂（2.1的输出）、增益函数G（2.2的输出）。

2.3的输出：主麦克输入信号去混响后的频谱D（作为2.4的输入）。

具体为根据如下公式计算主麦克输入信号去混响后的频谱D(l,k)：

D(l,k)＝G(l,k)·|X₂(l,k)|·exp(j·phase(l,k)) （11）

其中，l为帧号，k为频点号，|X₂(l,k)|为主麦克输入信号的幅度谱，G(l,k)为增益函数，phase(l,k)为主麦克输入信号的相位。

2.4将主麦克输入信号去混响后的频谱D转换到时域，记为d(t)。

2.4的输入：主麦克输入信号去混响后的频谱D（2.3的输出）。

2.4的输出：主麦克输入信号去混响后的时域信号d(t)（作为2.5的输入）。

d(t)＝ifft(D) (12)

2.5将主麦克输入信号去混响后的时域信号逐帧叠接相加，得到主麦克输入信号去混响后的连续信号x_d(t)。

2.5的输入：主麦克输入信号去混响后的时域信号d(t)（2.4的输出）。

2.5的输出：主麦克输入信号去混响后的连续信号x_d(t)（整个系统的输出）。

图7a是本发明实施例中的主麦克输入信号的时域图；图7b是本发明实施例中的主麦克去混响后的时域图；图7c是本发明实施例中的主麦克输入信号的语谱图；图7d是本发明实施例中的主麦克去混响后的语谱图。

参见图7a-7d，在本实施例中，主辅麦克正对声源，声源到双麦克的垂直距离是2m，主辅麦克间距为18cm时，主麦克输入信号去混响前的C₅₀为6.8dB，采用图4所示方案去混响后的C₅₀为10.5dB，可见采用本发明的方案后C₅₀提高了3.7dB。

图8是本发明实施例中的一种基于双麦克的语音混响消减装置的组成结构图。该装置对主麦克和辅麦克接收到的信号逐帧进行处理，参见图8，该装置包括：混响谱估计单元700和谱减单元800，其中：

混响谱估计单元700，用于接收主麦克输入信号和辅麦克输入信号，根据主麦克输入信号和辅麦克输入信号计算辅麦克到主麦克的传递函数h(t)，获取传递函数h(t)的拖尾部分h_r(t)，并根据传递函数h(t)判断混响的强弱，计算出增益函数的调节因子β输出给谱减单元800，用辅麦克输入信号与h_r(t)作卷积，得到主麦克输入信号的后期混响估计信号，对主麦克输入信号的后期混响估计信号进行时域到频域的转换，得到主麦克输入信号的后期混响谱后输出给谱减单元800。

谱减单元800，用于接收主麦克输入信号和混响谱估计单元700输出的增益函数的调节因子以及主麦克输入信号的后期混响谱，对主麦克输入信号进行时域到频域的转换得到主麦克输入信号的频谱，根据主麦克输入信号的频谱、增益函数的调节因子β以及主麦克输入信号的后期混响谱计算增益函数，用主麦克输入信号的频谱乘以增益函数得到主麦克输入信号去混响后的频谱，对主麦克输入信号去混响后的频谱进行频域到时域的转换，得到主麦克输入信号去混响后的时域信号，将主麦克输入信号去混响后的时域信号逐帧叠接相加后，输出主麦克输入信号去混响后的连续信号。

在本发明的一个实施例中，混响谱估计单元700用辅麦克输入信号与h_r(t)作卷积，得到主麦克输入信号的后期混响估计信号后，先对主麦克输入信号的后期混响估计信号进行频率补偿，然后对频率补偿后的信号进行时域到频域的转换得到主麦克输入信号的后期混响谱后输出给谱减单元800。

图9是本发明的一个较佳实施例中的基于双麦克的语音混响消减装置的详细组成结构及其输入输出示意图。参见图9，该基于双麦克的语音混响消减装置包括：混响谱估计单元91和谱减单元92。其中：混响估计单元91包括：传递函数计算单元911、传递函数拖尾计算单元912、混响强弱判断单元913、后期混响估计单元914、频率补偿单元915和第一时频转换单元916。谱减单元92包括：第二时频转换单元921、增益函数计算单元922、去混响单元923和频时转换单元924和叠接相加单元925。

传递函数计算单元911，用于接收主麦克输入信号和辅麦克输入信号，根据主麦克输入信号和辅麦克输入信号计算辅麦克到主麦克的传递函数h(t)，并将传递函数h(t)输出给传递函数拖尾计算单元912和混响强弱判断单元913。

传递函数拖尾计算单元912，用于求取传递函数h(t)的拖尾部分h_r(t)，并输出给后期混响估计单元914。传递函数拖尾计算单元912具体在传递函数h(t)的时间轴上取早期混响和后期混响的分界点，将传递函数h(t)的该分界点之前的值置0，得到传递函数h(t)的拖尾部分h_r(t)。

混响强弱判断单元913，用于根据传递函数h(t)判断混响的强弱，并计算出增益函数的调节因子β输出给增益函数计算单元。具体地，混响强弱判断单元913根据前述的公式（5）计算表示混响强弱的参数ρ。

即其中，h(t)为辅麦克到主麦克的传递函数，T为h(t)的时间轴上的指定分界点。

然后，混响强弱判断单元913根据前述的公式（6）计算增益函数的调节因子β。

即

β = \{\begin{matrix} 0 & ρ > ρ_{1} \\ 2 (ρ_{1} - ρ) / (ρ_{1} - ρ_{2}) & ρ_{2} < ρ < ρ_{1} \\ 2 & ρ < ρ_{2} \end{matrix},

其中，ρ₁和ρ₂取设定值。如，ρ₁取9dB，ρ₂取2dB（麦克间距为6cm）。

后期混响估计单元914，用于接收辅麦克输入信号，用辅麦克输入信号与h_r(t)作卷积，得到主麦克输入信号的后期混响估计信号并输出给频率补偿单元915。

频率补偿单元915，用于对主麦克输入信号的后期混响估计信号进行频率补偿，将进行频率补偿后的信号输出给第一时频转换单元916。在主麦克与辅麦克之间的距离越大时，频率补偿单元915对主麦克输入信号的后期混响估计信号进行频率补偿的程度越小。

第一时频转换单元916，用于对经过频率补偿后的主麦克输入信号的后期混响估计信号进行时域到频域的转换，得到主麦克输入信号的后期混响谱后输出给增益函数计算单元922。

第二时频转换单元921，用于接收主麦克输入信号，进行时域到频域的转换得到主麦克输入信号的频谱并输出给增益函数计算单元922和去混响单元923。

增益函数计算单元922，用于根据第二时频转换单元921输出的主麦克输入信号的频谱、混响强弱判断单元913输出的增益函数的调节因子β以及第一时频转换单元916输出的主麦克输入信号的后期混响谱计算出增益函数，并将增益函数输出给去混响单元923。增益函数计算单元922可以根据前述的公式（10）计算增益函数G(l,k)。

即

G (l, k) = \sqrt{\frac{{| X_{2} (l, k) |}^{2} - β {| \hat{R} (l, k) |}^{2}}{{| X_{2} (l, k) |}^{2}}},

其中，l为帧号，k为频点号，β为增益函数的调节因子，

去混响单元923，用主麦克输入信号的频谱乘以增益函数得到主麦克输入信号去混响后的频谱，并输出给频时转换单元924。在本实施例中，去混响单元923根据前述公式（11）计算主麦克输入信号去混响后的频谱D(l,k)。

即D(l,k)＝G(l,k)·|X₂(l,k)|·exp(j·phase(l,k))，其中，l为帧号，k为频点号，|X₂(l,k)|为主麦克输入信号的幅度，G(l,k)为增益函数，phase(l,k)为主麦克输入信号的相位。

频时转换单元924，用于对主麦克输入信号去混响后的频谱进行频域到时域的转换，得到主麦克输入信号去混响后的时域信号并输出给叠接相加单元925。

叠接相加单元925，用于将频时转换单元924输出的时域信号逐帧叠接相加得到主麦克输入信号去混响后的连续信号。

综上所述，本发明实施例这种基于双麦克的语音混响消减装置对主麦克和辅麦克接收到的信号逐帧进行处理。该装置中的混响谱估计单元，用于接收主麦克的输入信号x₂(t)和辅麦克输入信号x₁(t)，根据x₂(t)和x₁(t)计算辅麦克到主麦克的传递函数h(t)，获取h(t)的拖尾部分h_r(t)，并根据h(t)判断混响的强弱，计算出增益函数的调节因子β输出给该装置中的谱减单元，用x₁(t)与h_r(t)作卷积，得到x₂(t)的后期混响估计信号

对

进行时域到频域的转换，得到x₂(t)的后期混响谱后输出给该装置中谱减单元。该装置中的谱减单元，用于对x₂(t)进行时域到频域的转换得到x₂(t)的频谱，根据x₂(t)的频谱、β以及

计算增益函数，用x₂(t)的频谱乘以增益函数得到x₂(t)去混响后的频谱，进行频域到时域的转换，得到x₂(t)去混响后的时域信号。本发明的这种方案中，由于通过辅麦克输入x₁(t)信号与h_r(t)作卷积，得到主麦克输入信号x₂(t)的后期混响估计信号

然后通过谱减法从主麦克输入信号x₂(t)的频谱中减去主麦克输入信号的后期混响估计谱

因此能从主麦克的输入信号x₂(t)中有效地消除其后期混响，而保留其早期混响，提高了语音的质量。同时，本发明在估计后期混响中根据混响强弱调节谱减力度，在混响弱的时候少做甚至不做谱减，保证了在混响弱、语音清晰度原本比较高的情形下不会损伤语音，保护语音质量。并且这种方案中不需要准确估计直达声波达方向，因而不要求麦克风具有很高一致性，对声学设计也没有严格的限制。

可见本发明的技术方案，在去除混响的同时有效保护语音，自动估计房间混响的强弱程度，在各种环境下都选择合适的处理，达到接近最优的语音质量。且对麦克风的一致性和声学设计没有严格限制，应用更灵活便捷。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种基于双麦克的语音混响消减方法，其特征在于，该方法包括：

接收主麦克输入信号和辅麦克输入信号，逐帧做如下处理：

2.根据权利要求1所述的方法，其特征在于，在所述得到主麦克输入信号的后期混响估计信号之后，并在进行时域到频域的转换之前，该方法进一步包括：

对主麦克输入信号的后期混响估计信号进行频率补偿，并且，主麦克与辅麦克之间的距离越大，对主麦克输入信号的后期混响估计信号进行频率补偿的程度越小；

对进行频率补偿后的信号进行时域到频域的转换得到主麦克输入信号的后期混响谱。

3.根据权利要求1所述的方法，其特征在于，所述根据传递函数h(t)判断混响的强弱具体为根据如下公式计算表示混响强弱的参数ρ：

ρ = 10 \log \frac{{&Integral;}_{0}^{T} h^{2} (t) dt}{{&Integral;}_{T}^{\infty} h^{2} (t) dt} dB

其中，h(t)为辅麦克到主麦克的传递函数，T为h(t)的时间轴上的指定分界点；

所述计算出增益函数的调节因子β具体为根据如下公式计算：

β = \{\begin{matrix} 0 & ρ > ρ_{1} \\ 2 (ρ_{1} - ρ) / (ρ_{1} - ρ_{2}) & ρ_{2} < ρ < ρ_{1} \\ 2 & ρ < ρ_{2} \end{matrix}

其中，ρ₁和ρ₂取设定值。

4.根据权利要求1所述的方法，其特征在于，所述根据主麦克输入信号的频谱、增益函数的调节因子β以及主麦克输入信号的后期混响谱计算增益函数，具体为根据如下公式计算增益函数G(l,k)：

G (l, k) = \sqrt{\frac{{| X_{2} (l, k) |}^{2} - β {| \hat{R} (l, k) |}^{2}}{{| X_{2} (l, k) |}^{2}}}

其中，l为帧号，k为频点号，β为增益函数的调节因子，

5.根据权利要求1所述的方法，其特征在于，所述获取传递函数h(t)的拖尾部分h_r(t)包括：

在传递函数h(t)的时间轴上取早期混响和后期混响的分界点，将传递函数h(t)的该分界点之前的值置0，得到传递函数h(t)的拖尾部分h_r(t)。

6.一种基于双麦克的语音混响消减装置，其特征在于，该装置对主麦克和辅麦克接收到的信号逐帧进行处理，该装置包括：混响谱估计单元和谱减单元，其中：

7.根据权利要求6所述的装置，其特征在于，所述混响估计单元包括：传递函数计算单元、传递函数拖尾计算单元、混响强弱判断单元、后期混响估计单元和第一时频转换单元；此外所述混响估计单元还包括频率补偿单元；所述谱减单元包括：第二时频转换单元、增益函数计算单元、去混响单元、频时转换单元和叠接相加单元；其中：

传递函数计算单元，用于接收主麦克输入信号和辅麦克输入信号，根据主麦克输入信号和辅麦克输入信号计算辅麦克到主麦克的传递函数h(t)，并将传递函数h(t)输出给传递函数拖尾计算单元和混响强弱判断单元；

传递函数拖尾计算单元，用于求取传递函数h(t)的拖尾部分h_r(t)，并输出给后期混响估计单元；

混响强弱判断单元，用于根据传递函数h(t)判断混响的强弱，计算出增益函数的调节因子β输出给增益函数计算单元；

后期混响估计单元，用于接收辅麦克输入信号，用辅麦克输入信号与h_r(t)作卷积，得到主麦克输入信号的后期混响估计信号并输出给频率补偿单元；

频率补偿单元，用于对主麦克输入信号的后期混响估计信号进行频率补偿并输出给第一时频转换单元，其中，在主麦克与辅麦克之间的距离越大时，对主麦克输入信号的后期混响估计信号进行频率补偿的程度越小；

第一时频转换单元，用于对频率补偿后的主麦克输入信号的后期混响估计信号进行时域到频域的转换，得到主麦克输入信号的后期混响谱后输出给增益函数计算单元；

第二时频转换单元，用于接收主麦克输入信号，进行时域到频域的转换得到主麦克输入信号的频谱并输出给增益函数计算单元；

增益函数计算单元，用于根据第二时频转换单元输出的主麦克输入信号的频谱、混响强弱判断单元输出的增益函数的调节因子β以及第一时频转换单元输出的主麦克输入信号的后期混响谱计算增益函数并输出给去混响单元；

去混响单元，用主麦克输入信号的频谱乘以增益函数得到主麦克输入信号去混响后的频谱，并输出给频时转换单元；

频时转换单元，用于对主麦克输入信号去混响后的频谱进行频域到时域的转换，得到主麦克输入信号去混响后的时域信号并输出给叠接相加单元；

叠接相加单元，用于将主麦克输入信号去混响后的时域信号逐帧叠接相加后，输出主麦克输入信号去混响后的连续信号。

8.根据权利要求7所述的装置，其特征在于，

所述混响强弱判断单元，用于根据如下公式计算表示混响强弱的参数ρ：

ρ = 10 \log \frac{{&Integral;}_{0}^{T} h^{2} (t) dt}{{&Integral;}_{T}^{\infty} h^{2} (t) dt} dB

然后根据如下公式计算增益函数的调节因子β：

β = \{\begin{matrix} 0 & ρ > ρ_{1} \\ 2 (ρ_{1} - ρ) / (ρ_{1} - ρ_{2}) & ρ_{2} < ρ < ρ_{1} \\ 2 & ρ < ρ_{2} \end{matrix}

其中，ρ₁和ρ₂取设定值。

9.根据权利要求7所述的装置，其特征在于，

所述增益函数计算单元，用于根据如下公式计算增益函数G(l,k)：

G (l, k) = \sqrt{\frac{{| X_{2} (l, k) |}^{2} - β {| \hat{R} (l, k) |}^{2}}{{| X_{2} (l, k) |}^{2}}}

其中，l为帧号，k为频点号，β为增益函数的调节因子，

10.根据权利要求7所述的装置，其特征在于，

所述传递函数拖尾计算单元，具体用于在传递函数h(t)的时间轴上取早期混响和后期混响的分界点，将传递函数h(t)的该分界点之前的值置0，得到传递函数h(t)的拖尾部分h_r(t)。