CN101315772A

CN101315772A - 基于维纳滤波的语音混响消减方法

Info

Publication number: CN101315772A
Application number: CNA200810040707XA
Authority: CN
Inventors: 张德会; 陈光冶
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2008-07-17
Filing date: 2008-07-17
Publication date: 2008-12-03

Abstract

基于维纳滤波的语音混响消减方法，属于语音信号处理技术领域。本发明方法包括输入处理、混响分析、混响处理和输出处理四个步骤，输入处理是对语音信号进行采样、端点检测和分帧。混响分析是对起始音及其混响信号进行第一次反卷积运算，得到混响环境的房间冲击响应信息。混响处理是基于房间冲击响应信息对混响信号进行滤波，即第二次反卷积运算，得到去混响信号。输出处理是对去混响信号进行语音重构并进行数模转换、信号传输，以及记录去混响评测指标。本发明去混响效果良好，计算强度较低，且具有较好的实时性。

Description

基于维纳滤波的语音混响消减方法

技术领域

本发明涉及一种语音混响消减方法，特别是一种基于维纳滤波的语音混响消减方法，属于语音信号处理技术领域。

背景技术

声音易受到混响的影响。例如，在房间中，语音信号由墙、天花板或地板反射，因此房间中存在的麦克风将接收到直接信号和通过反射面接收到的间接信号组合的声信号。该间接信号被称为所接收信号的混响部分。在手机的使用中，当通话环境比较狭小时，比如在浴室，电梯里，容易产生混响，混响严重时，会导致说话不清，导致通讯障碍。在许多其它场合，混响往往也带来干扰，导致声学接收系统性能变差。例如，混响会导致语音识别系统性能显著下降，在远程会议、振动声学、声纳通信和海洋声学中，混响也主要带来负面影响。当混响严重时，这些系统甚至无法正常发挥功能。因此，如何减少混响对声音接收系统的影响是一个非常重要的课题。

现有的信号处理系统试图通过盲反卷积来降低混响。盲反卷积(blinddeconvolution)试图估计房间、办公室或其它混响信号环境的传递函数。感知的信号被用于一个反向滤波器(inverse filter)以估计原始信号。盲反卷积试图通过确定的信号环境传递函数，正确地恢复原始信号。该处理是极其复杂的，是高强度的计算技术。同样地，它不能适用于如提供了实时响应的移动电话的一些设备，或不能适用于不能为盲反卷积提供足够的处理资源的一些设备。

已有技术中，申请号为200510125838.4、名称为“混响估计和抑制系统”的发明专利，提出一种信号处理系统检测混响，并对混响信号进行抑制。它对输入信号的频带进行分析以确定混响特征是否存在。当检测到混响时，便衰减混响频带，以降低或消除混响。申请号为200580024631.6、名称为“音频信号去混响”的发明专利，提出一种估计声信号中混响的方法。它首先确定信号的频谱，通过提供指示所述信号的混响部分随时间衰减的第一参数，提供指示所述信号的直接部分对于混响部分的幅值的第二参数，使用先前帧的频谱、第一参数和第二参数产生混响信号的估计频谱。上述两种发明专利均是对混响信号的频谱进行分析，确定混响特征，以达到对混响的消减，在处理、计算的的简易程度上要好于盲反卷积去混响，但是从混响消减的效果上来讲，仅依靠对混响信号频谱的分析，去混响效果仍需进一步改善。

发明内容

为了克服现有技术的不足和缺陷，本发明提供一种语音信号去混响的新方法，该方法能有效消减房间环境中产生的混响信号。适用信号包括在封闭浴室、电梯、大型空旷礼堂等混响环境下的语音信号，特别适用于移动通讯中的去混响。

该混响消减方法包括两次反卷积运算，分别求出混响环境的房间冲击响应和去混响后的语音信号。不同于盲反卷积，该去混响系统计算强度较低，且有较好的时效性，故本发明可被实现为实时信号处理系统或脱机的系统。

该混响消减方法是一种基于维纳滤波来进行语音去混响的新方法。由于每次在进行移动通信时，一般都会以“喂”或者“hi”、“hello”开始，因此，便可以在移动通讯器材中预存纯净语音信号“喂”、“hi”等，在混响环境下进行通信，如打手机时，也以“喂”、“hi”等字开始，这样便知道“喂”字等的纯净语音信号和混响语音信号，通过维纳滤波反卷积运算可得混响环境的房间冲击响应；然后当说话者对着手机发出其他声音时，就已知混响环境的冲击响应和混响语音信号，利用已知混响的房间冲击响应信息，经过第二次反卷积运算就可以获得去混响后的语音信号。

本发明是通过下述技术方案实现的，本发明方法包括输入处理、混响分析、混响处理和输出处理四个步骤，具体说明如下：

1、输入处理：首先预存纯净起始语音信号，然后接收混响信号，混响信号可以是一个麦克风输入信号或表现出声混响效果的其它输入信号。在具体实施中，可采用麦克风等语音采集工具采集语音信号。在此步骤中，输入处理主要执行预处理任务，即对该信号采样、端点检测和分帧，为后续分析和处理做准备。

2、混响分析：混响分析主要是根据经过预处理的纯净起始音及其混响信号，基于维纳滤波反卷积算法得出混响环境的房间冲击响应信息，以维纳反滤波因子的形式输出到下一步混响处理单元中进行滤波去混响，其中每输入一次纯净起始音的混响信号就能得到一组维纳反滤波因子，当对语音质量要求较高，或者一组维纳反滤波因子不能达到去混响要求，即不能获得足够多房间冲击响应信息时，可将房间冲击响应信息进行整合，信息整合可采用平均或加权方法。

3、混响处理：用于消减混响信号中的混响。利用步骤2混响分析中得到的反滤波因子，对混响信号进行滤波得到去混响信号。

4、输出处理：输出处理主要对去混响后的信号进行语音重构和后处理，如混响消减信号进行数模转换、信号传输，以及记录去混响评测指标。

本发明的有益效果：本发明方法的计算强度较低，且混响消减效果较为理想，这是因为已知纯净起始音和起始音的房间混响，可求得较为完整的房间冲击响应信息，即维纳反滤波因子。另外，由于本方法基于维纳滤波，有较快的递推解法，故有较好的实时性。整个语音混响消减方法目前可在个人电脑中由计算机程序实现。该方法可被实现为执行存储器上存储指令的一个数字信号处理器。可处理信号的数字样本，或可自己将模拟输入信号数字化，用于混响消减，使硬件执行混响消减的指令可被存储在机器可读介质上，如磁盘，闪存或其它存储器。

附图说明

图1是本发明混响消减方法的流程框图；

图2是本发明输入处理流程框图；

图3是本发明混响分析流程框图；

图4是本发明混响处理和输出处理流程框图；

图5是″one″语音大型空旷礼堂混响环境下去混响效果图：

具体实施方式

下面结合附图，以大型空旷礼堂为混响环境，纯净语音信号“hi”为起始音，对混响信号“one”进行去混响，对本发明的具体实施作进一步描述。

如图1、图2、图3、图4所示，本发明去混响方法包括下述四个步骤：

1、输入处理1：预存纯净语音信号“hi”，然后通过麦克风采集语音信号“hi”的混响信号和语音信号“one”的混响信号。信息采集后即执行预处理，对“hi”、“one”信号采样、端点检测和分帧。

采样单元100以选择的采样频率把语音信号“hi”及其混响信号、以及混响信号“one”的模拟信号通过模数转换模块转化为数字信号。采样频率的选择以能捕捉足够多的语音信息为标准，对于语音，采样频率是8KHz到11KHz或更高。

端点检测单元102对数字形式的语音信号“hi”及其混响信号，以及混响信号“one”进行端点检测，识别每个字节的起始点位置，排除无语音段，仅保留包含有语音段信息的单个字节信号，传送到字存储单元104中，分别存放。这是因为，经过研究，排除语音信号的无语音段，而仅对有语音段进行分析处理，去混响效果可以明显改进。该步骤使用计算机由软件实现。

分帧单元112接收来自字存储单元104中的语音信息，将端点检测后的语音信号“hi”及其混响信号，以及混响信号“one”进行分帧。帧长大约为20到30ms，相邻两帧起始点之间间隔为10ms，即两帧之间有10到20ms的交叠。对于10KHz采样频率，30ms的帧长对应300点，10ms的帧移为100点。分帧时加汉明窗。

2、混响分析2：混响分析单元根据经过预处理的纯净语音信号“hi”和其混响信号，基于维纳滤波算法，即第一次反卷积运算214得出混响环境的房间冲击响应信息，以维纳反滤波因子216的形式储存，维纳反滤波因子216由下式求得：

[\begin{matrix} r_{xx} (0) & r_{xx} (1) & \cdot \cdot \cdot & r_{xx} (m) \\ r_{xx} (1) & r_{xx} (0) & \cdot \cdot \cdot & r_{xx} (m - 1) \\ \cdot & \cdot & \cdot \\ \cdot & \cdot & \cdot \\ \cdot & \cdot & \cdot \\ r_{xx} (m) & r_{xx} (m - 1) & \cdot \cdot \cdot & r_{xx} (x) \end{matrix}] [\begin{matrix} h_{- m_{0}} \\ h_{- m_{0} + 1} \\ \cdot \\ \cdot \\ \cdot \\ h_{- m_{0} + m} \end{matrix}] = [\begin{matrix} r_{sx} (- m_{0}) \\ r_{sx} (- m_{0} + 1) \\ r_{sx} (- m_{0} + m) \end{matrix}]

其中h_t即为维纳反滤波因子216，(m+1)为滤波因子h_t的长度，上式的左端为“hi”混响信号的自相关函数r_xx(l)组成的矩阵，称为托布里兹矩阵。右端r_sx(l)为“hi”语音混响信号和纯净信号的互相关函数。上式即称为托布里兹方程212，有较快递推解法。

然后，将维纳反滤波因子h_t216输送到混响处理3进行去混响处理。当对语音质量要求较高，即单组维纳反滤波因子h_t216不能满足去混响要求时，可多次输入“hi”语音的混响信号或其它起始音，诸如“hello”、“喂”的混响信号，求得多组维纳反滤波因子h_t216，然后将维纳反滤波因子h_t216传送至信息整合5，对混响环境的房间冲击响应信息进行整合，再将房间冲击响应信息，即维纳反滤波因子h_t216传送到混响处理3进行去混响处理。信息整合可采用平均或加权方法。

3、混响处理3：混响处理3利用混响分析2中得到的维纳反滤波因子h_t216对混响信号“one”进行滤波，即第二次反卷积运算322，滤波时以维纳反滤波因子h_t216作为滤波器系数，使用滤波程序myfilter函数滤波，得到去混响信号“one”输入输出处理单元4然后执行后处理。其中滤波程序myfilter函数是基于差分方程的递推解法，参考MATLAB内部程序filter函数编出。

4、输出处理4：输出处理4用于对去混响后的信号“one”进行语音重构和后处理。由于经过混响处理后的信号是一组组的帧信号，因此需要对语音进行重构，恢复原始信号。后处理主要是对混响消减信号的数模转换或信号传输，以及记录去混响评测指标。

经混响处理3滤波后的语音信号“one”进入输出处理4，经语音重构402重构语音，主要是帧与帧之间的串接，如果是多字节语音的去混响，语音重构402还包括字节与字节之间的连接。该步骤是分帧和端点检测的逆运算，由计算机软件实现。输出处理4经由信息输出404进入数模转换模块传输去混响后的语音信号，并由扬声器或耳机等发出去混响后的语音，该步骤可由计算机实现。评测单元406中储存去混响度评测指标的一些信息，包括时域信混噪比改善指标ΔSRNR，线性预测倒谱系数距离改善指标ΔLPCC、MEL频率倒谱系数距离改善指标ΔMFCC，其中ΔLPCC、ΔMFCC为两种频域客观评测系数，是谱失真测度。由这些指标可以更好的了解语音的去混响效果，指标由显示屏显示。

图5是以“hi”为起始音，“one”为混响信号，在大型空旷礼堂混响情况下的去混响效果波形图。

由图5可以看出，本方法的混响消减效果较为理想，这是因为已知纯净起始音和起始音的房间混响，可求得较为完整的房间冲击响应信息，即维纳反滤波因子h_t216。另外，由于本方法基于维纳滤波，有较快的递推解法，故本方法有较好的实时性。

Claims

1.一种基于维纳滤波的语音混响消减方法，其特征在于，该方法包括下述步骤：

步骤1、输入处理(1)：首先预存纯净起始语音信号，采集混响信号，通过采样单元(100)、端点检测单元(102)、字存储单元(104)和分帧单元(112)对该信号采样、端点检测、存储和分帧；

步骤2、混响分析(2)：对经过预处理的纯净起始音及其混响信号，基于维纳滤波反卷积，即第一次反卷积运算(214)得出混响环境的房间冲击响应信息，以维纳反滤波因子(216)的形式输出，每输入一次纯净起始音的混响信号就能得到一组维纳反滤波因子(216)，房间冲击响应信息通过平均或加权方法进行整合；

步骤3、混响处理(3)：利用步骤2混响分析中得到的维纳反滤波因子(216)，进行第二次反卷积运算(322)，通过滤波单元(320)对混响信号进行滤波得到去混响信号；

步骤4、输出处理(4)：对去混响信号进行语音重构(402)，并进行数模转换、信号传输，以及记录去混响评测指标。

2.根据权利要求1所述的基于维纳滤波的语音混响消减方法，其特征是所述的步骤1中，采样单元(100)中采样频率的选择以能捕捉足够多的语音信息为标准，对于语音，采样频率在8KHz到11KHz范围内或更高；端点检测单元(102)识别每个字节的起始点位置，排除无语音段，保留包含有语音段信息的单个字节信息，并将单个字节信息送入字存储单元(104)；分帧单元(112)将端点检测后的语音信号进行分帧，并将子帧信息送入帧存储单元(204)，帧长大约为20到30ms，相邻两帧起始点之间间隔为10ms，即两帧之间有10到20ms的交叠，对于10KHz采样频率，30ms的帧长对应300点，10ms的帧移为100点，分帧时加汉明窗。

3.根据权利要求1所述的基于维纳滤波的语音混响消减方法，其特征是所述的步骤2中，维纳反滤波因子(216)由托布里兹方程(212)求得。

4.根据权利要求1所述的基于维纳滤波的语音混响消减方法，其特征是所述的步骤3中，滤波时以维纳反滤波因子(216)作为滤波器系数，使用myfilter函数滤波，其中myfilter函数是基于差分方程的递推解法，参考MATLAB内部程序filter函数编出。

5.根据权利要求1所述的基于维纳滤波的语音混响消减方法，其特征是所述的步骤4中，语音重构(402)，主要是帧与帧之间的串接，如果是多字节语音的去混响，语音重构还包括字节与字节之间的连接，该步骤是分帧和端点检测的逆运算；经过数模转换模块处理后的语音信号，由扬声器或耳机传至人耳；评测单元(406)对去混响度进行评测，评测指标包括时域信混噪比改善指标ΔSRNR，线性预测倒谱系数距离改善指标ΔLPCC、MEL频率倒谱系数距离改善指标ΔMFCC，其中ΔLPCC、ΔMFCC为两种频域客观评测系数，是谱失真测度。