CN202887704U

CN202887704U - 一种单通道语音去混响装置

Info

Publication number: CN202887704U
Application number: CN 201220287686
Authority: CN
Inventors: 楼厦厦; 吴晓婕; 李波
Original assignee: Goertek Inc
Current assignee: Goertek Inc
Priority date: 2012-06-18
Filing date: 2012-06-18
Publication date: 2013-04-17
Anticipated expiration: 2022-06-18

Abstract

本实用新型公开一种单通道语音去混响装置，包括：用于对输入的单通道语音信号进行分帧，按时间顺序输出帧信号的分帧器；用于对接收的当前帧进行短时傅里叶变换，获得当前帧的功率谱和相位谱的傅里叶变换器；用于将当前帧之前的、到当前帧的距离在设置的时长范围内的若干帧的功率谱进行线性叠加，估计出当前帧的晚期反射声的功率谱的谱估计器；用于通过谱减法从功率谱中去除晚期反射声的功率谱，得到直达声和早期反射声的功率谱的谱减器；用于将去除后的功率谱与获得的当前帧的相位谱一起进行短时傅里叶逆变换，输出当前帧去混响后的信号的傅里叶逆变换器。本实用新型能够解决单通道语音去混响中估计混响环境的传递函数或估计混响时间困难的问题。

Description

一种单通道语音去混响装置

技术领域

本实用新型涉及语音增强领域，特别涉及单通道语音去混响装置。

背景技术

在远距离语音通讯中，麦克风端接收的信号容易受到环境混响的影响。比如，在房间内，语音经过墙面、地板和家具等多次放射，麦克风端接收到的信号是直达声和反射声的混合信号。这部分反射声就是混响信号。当说话人距离麦克风比较远，且通话环境是一个相对封闭的空间时，就很容易产生混响。混响严重时，会导致语音不清楚，影响通话质量。另外，混响带来的干扰，还会导致声学接收系统性能变差，语音识别系统性能显著下降等。

早期的去混响装置主要是利用反卷积来进行去混响的。这类装置需要提前知道准确的混响环境（房间或办公室等）的冲激响应或传递函数。混响环境的冲激响应可以通过某种特别的装置提前测量得到，也可以通过其它装置单独估计得到。然后利用这个已知的混响环境冲激响应，估计逆滤波器，实现对混响信号的反卷积，从而实现去混响。这类装置的问题是，混响环境的冲激响应往往很难提前获得，且求取逆滤波器的过程本身可能引入新的不稳定因素。

另一类去混响装置，不需要估计混响环境的冲激响应，因此不需要计算逆滤波器和进行逆滤波运算，也被称为盲去混响装置。这类装置通常基于语音模型假设，比如：混响导致接收的浊音激励脉冲发生变化，使得周期性变得不那么明显，从而影响语音清晰度。这类装置一般基于LPC（Linear Prediction Coding，线性预测编码）模型，假定产生语音的模型是一个全极点模型，而混响或其它加性噪声在整个系统中引入了新的零点，从而干扰了浊音激励脉冲，但并不影响全极点滤波器。去混响装置是：估计信号的LPC残差，然后按照基因同步猝发准则（pitch-synchronous clustering criterion）或峰度（Kurtosis）最大化准则等，来估计干净的脉冲激励序列，从而实现去混响。这类装置的问题是计算复杂度往往非常高，且对于混响只影响全零点滤波器的假设，与实验分析存在不相符的情况。

利用谱减法去混响是一个较佳的方案，语音信号包括直达声、早期反射声和晚期反射声，采用谱减法将晚期反射声的功率谱从整个语音的功率谱中除去能够提高语音质量。但其中的关键问题在于晚期反射声的谱的估计，即如何获得比较准确的晚期反射声的功率谱，从而在将晚期反射声的成份有效去除的同时又不损伤语音。在单通道语音去混响中，因为只有一路麦克风信息可用，因此估计混响环境的传递函数或估计混响时间（RT60）非常困难。

实用新型内容

本实用新型提供的一种单通道语音去混响的装置，以解决单通道语音去混响中估计混响环境的传递函数或估计混响时间困难的问题。

本实用新型还公开了一种单通道语音去混响的装置，所述装置包括：

用于对输入的单通道语音信号进行分帧，按时间顺序向傅里叶变换器输出帧信号的分帧器；

用于对接收的当前帧进行短时傅里叶变换，获得当前帧的功率谱和相位谱，向谱减器和谱估计器输出当前帧的功率谱，向傅里叶逆变换器输出当前帧的相位谱的傅里叶变换器；

用于将当前帧之前的、到当前帧的距离在设置的时长范围内的若干帧的功率谱进行线性叠加，估计出当前帧的晚期反射声的功率谱，向谱减器输出估计的当前帧的晚期反射声的功率谱的谱估计器；

用于通过谱减法从傅里叶变换器获得的当前帧的功率谱中去除从谱估计器获得的当前帧的晚期反射声的功率谱，得到当前帧的直达声和早期反射声的功率谱，向傅里叶逆变换器输出当前帧的直达声和早期反射声的功率谱的谱减器；

用于将从谱减器获得的当前帧的直达声和早期反射声的功率谱与从傅里叶变换器获得的当前帧的相位谱一起进行短时傅里叶逆变换，输出当前帧去混响后的信号的傅里叶逆变换器；

所述分帧器与所述傅里叶变换器连接；

所述傅里叶变换器与所述谱减器、所述谱估计器和所述傅里叶逆变换器连接；

所述谱估计器与谱减器连接；

所述谱减器与所述傅里叶逆变换器连接。

较佳地，所述谱估计器具体用于，依据晚期反射声的衰减特性设置所述时长范围的上限值。

较佳地，所述谱估计器具体用于，依据语音相关特性及直达声和早期反射声在混响环境下的冲击响应分布区域设置所述时长范围的下限值。

较佳地，所述谱估计器具体用于，选择所述时长范围的上限值为0.3秒~0.5秒之间的值。

较佳地，所述谱估计器具体用于，选择所述时长范围的下限值为50毫秒~80毫秒之间的值。

较佳地，所述谱估计器具体用于：

对于当前帧之前的、到当前帧的距离在所述设置的时长范围内的若干帧，应用自回归AR模型将这些帧的功率谱中全部成分进行线性叠加估计出当前帧的晚期反射声的功率谱。

较佳地，所述谱估计器具体用于：

对于当前帧之前的、到当前帧的距离在所述设置的时长范围内的若干帧，应用滑动平均MA模型将这些帧的功率谱中直达声和早期反射声成分进行线性叠加估计出当前帧的晚期反射声的功率谱。

较佳地，所述谱估计器具体用于：

对于当前帧之前的、到当前帧的距离在所述设置的时长范围内的若干帧，应用自回归AR模型将这些帧的功率谱中全部成分进行线性叠加，并且应用滑动平均MA模型将这些帧的功率谱中直达声和早期反射声成分进行线性叠加，估计出当前帧的晚期反射声的功率谱。

本实用新型实施例的有益效果是：通过选取当前帧之前的、到当前帧的距离在设置的时长范围内的若干帧，将这些帧的功率谱进行线性叠加估计出当前帧的晚期反射声的功率谱，能够不需估计混响环境的传递函数或混响时间，便可以估计出当前帧的晚期反射声的功率谱，进而利用谱减法进行去混响，简化了去混响的操作复杂度，使得实现更为简单；

依据语音相关特性及直达声和早期反射声在混响环境下的冲击响应分布区域设置时长范围的下限值，能够在去除混响的同时更好保留有用的直达声和早期反射声，提高话音质量；

依据晚期反射声的衰减特性设置时长范围的上限值，能够在保证估计的晚期反射声的功率谱的准确性的同时，减少叠加运算量；

本实用新型实施例将上限值选择为0.3秒~0.5秒之间的值，该上限值为通过实验获得的门限值，在混响环境发生变化时，无需调整该上限值，都能够获得较好的去混响效果；

本实用新型实施例将下限值设置在50毫秒~80毫秒之间，在混响环境变化时，无需改变下限值，便能够有效避开直达声和早期反射声进行叠加，使得叠加结果中基本不包含直达声和早期反射声，从而在去混响的同时保留有用的直达声和早期反射声，取得较好的话音质量。

上述混响环境的变化包括：从无混响的消声室到混响非常严重的大礼堂。

附图说明

图1为本实用新型单通道语音去混响装置的结构图；

图2为真实房间的冲激响应的示意图；

图3为本实用新型单通道语音去混响装置具体实施方式的结构图；

图4为本实用新型实施效果示意图，图4（a）为混响信号时域示意图，图4（b）为去混响后的信号的时域示意图。

具体实施方式

为使本实用新型的目的、技术方案和优点更加清楚，下面将结合附图对本实用新型实施方式作进一步地详细描述。

本实用新型的装置如图1所示，单通道语音去混响的装置包括如下器。

用于对输入的单通道语音信号进行分帧，按时间顺序向傅里叶变换器200输出帧信号的分帧器100。

用于对接收的当前帧进行短时傅里叶变换，获得当前帧的功率谱和相位谱，向谱减器400和谱估计器300输出当前帧的功率谱，向傅里叶逆变换器500输出相位谱的傅里叶变换器200。

用于将当前帧之前的、到当前帧的距离在设置的时长范围内的若干帧的功率谱进行线性叠加，估计出当前帧的晚期反射声的功率谱，向谱减器400输出估计的当前帧的晚期反射声的功率谱的谱估计器300。

用于通过谱减法从傅里叶变换器200获得的当前帧的功率谱中去除从谱估计器300获得的当前帧的晚期反射声的功率谱，得到当前帧的直达声和早期反射声的功率谱，向傅里叶逆变换器500输出当前帧的直达声和早期反射声的功率谱的谱减器400。

用于将从谱减器400获得的当前帧的直达声和早期反射声的功率谱与从傅里叶变换器200获得的当前帧的相位谱一起进行短时傅里叶逆变换，输出当前帧去混响后的信号的傅里叶逆变换器500。

分帧器100与傅里叶变换器200连接；

傅里叶变换器200与谱减器400、谱估计器300和傅里叶逆变换器500连接；

谱估计器300与谱减器400连接；

谱减器400与傅里叶逆变换器500连接。

在混响环境中，麦克风采集到的信号x(t)，即单通道语音信号，是直达声和反射声的混合，可用如下混响模型表示：

x(t)＝h*s(t)+n(t)

其中，s(t)是从声源发出的信号，h是从声源位置到麦克风位置两点之间的房间冲激响应，*表示卷积运算，n(t)表示混响环境内的其它加性噪声。

一个真实房间的冲激响应，如图2所示。可以将它划分为3个部分，直达峰hd、早期反射he和晚期反射hl。hd和s(t)的卷积可以简单地认为是声源发出的信号经过一定的延迟后在麦克风端的再现，对应于x(t)中的直达声部分。早期反射部分的冲击响应对应于hd之后一段时长的部分，该时长的结束时间点为50ms至80ms中的某个时间点。一般认为这一部分和s(t)卷积所产生的早期反射声对直达声有加强和改善音质的作用。晚期反射声部分的冲击响应是去除hd和he后房间冲激响应余下的长长的拖尾部分，这一部分与信号s(t)卷积所产生的反射声，就是会对听感造成影响的混响成份。去混响算法主要是去除这一部分的影响。

因此，混响模型也可表示为：

x(t)＝(hd+he)*s(t)+hl*s(t)+n(t)

hl部分符合指数衰减模型，可用如下方程近似：

hl (t) = b (t) e^{- \frac{31 n 10}{T_{r}} t}

其中，T_r是混响环境的混响时间（RT60），b(t)是零均值高斯分布随机变量。

晚期反射声的功率谱估计

从功率谱分析角度来看，信号功率谱X(t,f)可以表示为：

X(t,f)＝Y(t,f)+R(t,f)

其中R(t,f)为晚期反射声的功率谱。其中Y(t,f)是直达声和早期反射声的功率谱，应予以保留。估计出晚期反射声的功率谱R(t,f)后，可以利用谱减法把Y(t,f)从X(t,f)中估计出来，从而实现去混响。

根据混响产生模型分析，晚期反射声的功率谱与在它之前的信号功率谱或信号功率谱中的某些成份成线性关系，而直达声和早期反射声的功率谱由于人的语音特性，恰恰和过去的信号功率谱或信号功率谱中的某些成份不构成线性关系。因此，通过对当前帧之前的特定时长的帧的功率谱中成分进行线性叠加，能够估计出当前帧的晚期反射声的功率谱。再通过谱减法将晚期反射声的功率谱从功率谱中去除掉，能够实现单通道语音去混响。

较佳地，所述谱估计器300具体用于，依据晚期反射声的衰减特性设置所述时长范围的上限值。

进行估计所用的帧越多，估计越准确，但是过多的帧造成运算量的增加。通过图2和hl部分的指数衰减模型可知距离当前帧越远的反射声能量越小，在某一时刻之后的反射声能量可以被忽略。因此，依据晚期反射声的衰减特性获得该反射声能量可以被忽略的时刻，设置上限值为该时刻距离当前帧时刻的时长。由此，能够在保证估计的晚期反射声的功率谱的准确性的同时，减少叠加运算量

较佳地，谱估计器300具体用于，依据语音相关特性及直达声和早期反射声在混响环境下的冲击响应分布区域设置所述时长范围的下限值。

通过图2可知直达声和早期反射声能量集中在距离当前帧较近的时间内。依据直达声和早期反射声在混响环境下的冲击响应分布区域设置下限值，使得在线性叠加时避开直达声和早期反射声能量集中的时间段，能够在去除混响的同时更好保留有用的直达声和早期反射声，提高话音质量。

较佳地，谱估计器300具体用于，选择时长范围的上限值为0.3秒~0.5秒之间的值。

理论上，上限值的设置与应用装置的具体环境相关。在本专利所涉及的晚期反射声的功率谱估计中，上限值理论上对应于房间冲激响应的长度，但结合混响产生模型以及真实环境的冲激响应hl部分按指数模型衰减，距离当前时刻越远的反射声能量越小，超过0.5s后反射声的能量几乎可以忽略不计。因此，实际中只需要使用一个非常粗略的上限值就可以适用于绝大多数混响环境。经验证，上限值取0.3秒~0.5秒之间的值时，对消声室环境（混响时间非常短）、一般办公室环境（混响时间0.3～0.5s）、甚或大礼堂（混响时间>1s）的多种混响环境都具有很好的适应性。在消声室环境下，几乎没有晚期反射声。本实用新型的装置只估计线性成份，且绕过了直达声和早期反射声的能量集中时间段，因此即便上限值的取值比消声室的混响时间长很多，但有效的语音成份并不会被去除。而在大礼堂环境中，虽然上限值的取值可能远小于真实的混响时间，但由于冲激响应按指数衰减得非常快，前0.3s内的晚期反射声成份占据了总体晚期反射声成份的绝大部分能量，因为也可以把混响很好的去除。

较佳地，谱估计器300具体用于，选择时长范围的下限值为50毫秒~80毫秒之间的值。

通过实验发现，在各种环境下，只要保证下限值取值为50ms～80ms之间的数值，就可以有效地绕过直达声和早期反射声部分，更好地估计出有效的晚期反射声的功率谱。当应用该装置的环境发生变化后，无需调整下限值设置，便可获得较好话音质量。

具体实施方式的装置如图3所示，所述谱估计器300具体用于：对于当前帧之前的、到当前帧的距离在设置的时长范围内的若干帧，应用自回归AR模型将这些帧的功率谱中全部成分进行线性叠加估计出当前帧的晚期反射声的功率谱。

例如，按如下公式使用AR模型估计当前帧的晚期反射声的功率谱：

R (t, f) = Σ_{j = J_{0}}^{J_{AR}} α_{j, f} \cdot X (t - j \cdot Δt, f)

其中，R(t,f)为估计的晚期反射声的功率谱，J₀为由设置的下限值得出的起始级数，J_AR为由设置的上限值得出的AR模型的阶数，α_j，f为AR模型估计参数;X(t-j·Δt,f)为当前帧之前j帧的功率谱，Δt为帧间距。

在另一具体实施方式中，所述谱估计器300具体用于：对于当前帧之前的、到当前帧的距离在设置的时长范围内的若干帧，应用滑动平均MA模型将这些帧的功率谱中直达声和早期反射声成分进行线性叠加估计出当前帧的晚期反射声的功率谱。

例如，按如下公式使用MA模型估计当前帧的晚期反射声的功率谱：

R (t, f) = Σ_{j = J_{0}}^{J_{MA}} β_{j, f} \cdot Y (t - j \cdot Δt, f)

其中，R(t,f)为估计的晚期反射声的功率谱，J₀为由设置的下限值得出的起始级数，J_MA为由设置的上限值得出的MA模型的阶数，β_j,f为MA模型估计参数;Y(t-j,f)为当前帧之前j帧的直达声和早期反射声的功率谱，Δt为帧间距。

在另一具体实施方式中，所述谱估计器300具体用于：对于当前帧之前的、到当前帧的距离在设置的时长范围的若干帧，应用自回归AR模型将这些帧的功率谱中全部成分进行线性叠加，并且应用滑动平均MA模型将这些帧的功率谱中直达声和早期反射声成分进行线性叠加，估计出当前帧的晚期反射声的功率谱。

例如，按如下公式使用ARMA模型估计当前帧的晚期反射声的功率谱：

R (t, f) = Σ_{j = J_{0}}^{J_{AR}} α_{j, f} \cdot X (t - j \cdot Δt, f) + Σ_{j = J_{0}}^{J_{MA}} β_{j, f} \cdot Y (t - j \cdot Δt, f)

其中，R(t,f)为估计的晚期反射声的功率谱，J₀为由设置的下限值得出的起始级数，J_AR为由设置的上限值得出的AR模型的阶数，α_j，f为AR模型估计参数，J_MA为由设置的上限值得出的MA模型的阶数，β_j，f为MA模型估计参数，Y(t-j,f)为当前帧之前j帧的直达声和早期反射声的功率谱，X(t-j·Δt,f)为当前帧之前j帧的功率谱，Δt为帧间距。

AR模型、MA模型、ARMA模型的具体求解，现有技术中存在公知算法，比如，利用Yule-Walker（尤利-沃克）方程求解或Burg（伯格）算法。

利用谱减法来去混响，估计晚期反射声的功率谱最为关键。现有技术中提到的晚期反射声的功率谱估计往往是上述提出的AR或MA或ARMA模型的某种特例，此外，其它晚期反射声的功率谱估计往往需要在语音间歇阶段估计混响环境的混响时间（RT60），作为晚期反射声的功率谱估计中的一个重要参数。在本专利中，不需要估计混响时间或对各种环境估计冲激响应，便可以适应多种不同的混响环境，以及说话人在混响环境中由于运动等造成的混响冲激响应或混响时间发生改变的情况。

所述谱减器400具体用于：依据晚期反射声的功率谱通过谱减法求得增益函数，将增益函数与当前帧的功率谱相乘得当前帧的直达声和早期反射声的功率谱。

晚期反射声的功率谱R(t,f)估计完成后，去除混响的语音信号Y(t,f)可以通过谱减法得到：

Y(t,f)＝G(t,f)·X(t,f)

其中，

为谱减法求得的Gain（增益）函数。

本专利的实施效果如图4所示。混响信号（单通道语音信号）采集自会议室，声源和麦克风距离2m，混响时间（RT60）约0.45s。按本专利中提出的AR模型估计晚期反射声的功率谱，下限值设置为80ms，上限值设置为0.5s。依图示可知，应用本实用新型装置去混响后，语音质量得到显著提升。

以上所述仅为本实用新型的较佳实施例而已，并非用于限定本实用新型的保护范围。凡在本实用新型的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本实用新型的保护范围内。

Claims

1.一种单通道语音去混响装置，其特征在于，所述装置包括：

所述分帧器与所述傅里叶变换器连接；

所述谱估计器与谱减器连接；

所述谱减器与所述傅里叶逆变换器连接。