CN108447496A

CN108447496A - 一种基于麦克风阵列的语音增强方法及装置

Info

Publication number: CN108447496A
Application number: CN201810652041.7A
Authority: CN
Inventors: 刘睿
Original assignee: Chengdu's Mdt Infotech Ltd
Current assignee: Chongqing ruikeli Technology Co., Ltd
Priority date: 2018-06-22
Filing date: 2018-06-22
Publication date: 2018-08-24
Anticipated expiration: 2038-06-22
Also published as: CN108447496B; CN111667844A

Abstract

本发明公开了一种基于麦克风阵列的语音增强方法及装置，该方法和装置更精准地估计出了混响和回声的声学路径，更好地抑制了回声和混响信号，使得输出的音频信号达到更高的信噪比，语音增强体验效果好，针对当前主流的硬件平台均能达到实时处理，且具备很强的鲁棒性。此外，本发明所提供的方法和装置在提升信号的信噪比的同时，能够大幅降低了信号处理的运算量。而在实现相同信噪比的要求下，传统的信号处理流程需要1‑3倍的运算量。

Description

一种基于麦克风阵列的语音增强方法及装置

技术领域

本发明涉及一种语音增强方法及装置，尤其是涉及一种基于麦克风阵列的语音增强装置。

背景技术

在现代通信应用场景中，人们开始更多的使用免提设备进行通话和交流，比如扬声器系统、视频会议系统、笔记本电脑和平板电脑。在这些系统中，扬声器通常位于一个封闭的房间内，离麦克风相对较近。这种应用场景导致了在一般非免提设备中不存在的声学信号处理的挑战，而且随着扬声器和麦克风之间的距离增加也会大大降低了通话的信噪比(SNR)。

此外，实际生活中，语音通信应用中，语音信号中存在有混响信号和回声，其中混响信号在一些情况下非常有必要的，但即便如此混响信号也会对许多应用程序产生重要的影响，例如，当混响存在时，自动语音识别系统的性能会受到很严重的影响，而且在自动音乐转录时也存在同样的问题；此外，混响也会影响语音的清晰度，尤其是对于听障听众。

而回声是指语音通信时产生的回声，即打电话时自己讲的话又从对方传回来被自己听到。回声在固话和手机上都存在，回声小时能够忍受，大时将会严重影响沟通交流，故回声是影响语音质量的重要因素之一，回声分为线路回声和声学回声，线路回声主要存在于固话中，是由于2-4线转换引入的回声，声学回声是由于空间声学反射产生的回声；故回声消除是语音前处理的重要环节。

随着硬件芯片和软件技术的快速发展，人们也对音频体验提出更高的要求。基于MEMS(微型机电系统)的麦克风能够提供更好的信噪比拾音。并且近些年来Beamforming(波束形成)技术在语音增强中被重点应用。结合当前新的软硬件技术的实际情况，人们需要开发出更好的技术，能够实现更好的人机交互体验。

信号处理面临最大的问题就是噪声的干扰，包括了环境噪声的干扰，以及扬声器放出声音后产生的混响的干扰，此外还存在回声干扰。传统的语音信号处理方式包括以下两种：

1、对麦克风阵列接收到的语音信号进行波束形成，然后进依次进行去混响和回声消除，最终获得增强语音信号；此种语音信号处理方式的原理如图1所示。该处理方式适合对于回声和混响处理能力要求不高的场景和设备，语音增强效果不佳。

2、对麦克风阵列接收到的语音信号进行去混响处理，然后再进行回声消除处理，最后进行波束形成获得最终的增强语音信号；此种语音信号处理方式的原理如图2所示。该处理方式多用于专业的实验和测试分析，当前的硬件平台上很难达到实时性，且运算总量大，导致数据处理慢。

发明内容

本发明为了解决现有的基于麦克风阵列语音处理方式中所存在的问题，在此的第一个目的在于提供一种语音增强体验效果好；能够针对当前主流的硬件平台均可以达到实时处理，并且具备很强的鲁棒性的基于麦克风阵列的语音增强方法。

本发明在此还有第二个目的，在于提供一种具备较低的运算量和适中的功耗的基于麦克风阵列的语音增强装置。

本发明第一个目的所提供的基于麦克风阵列的语音增强方法包括以下步骤：

步骤1：对以下两种信号进行分别处理：

1)基于麦克风阵列采集到的N路语音信号进行频域分析，生成对应的频域信号X_n；

2)参考信号进行频域分析，生成对应的频域信号Y；

步骤2：将频域信号X_i同时分别进行以下处理：

1)波束形成，形成波束B_out；

2)去混响估计预处理，形成混响估计频域信号R_out；

3)与频域信号Y一并进行回声消除及估计预处理，形成回声估计频域信号E_out；

步骤3：对波束B_out、混响估计频域信号R_out和回声估计频域信号E_out进行去混响处理和回声消除处理，形成单路麦克风增强信号S；

步骤4：对信号S进行IFFT变换形成最终输出的时域信号S_out。

本发明所提供的语音增强方法中预先对麦克风阵列多通道信号中的每一路信号进行混响和回声消除估计运算，更精准地估计出了混响和回声的声学路径，更好地抑制了回声和混响信号，使得输出的音频信号达到更高的信噪比，语音增强体验效果好，针对当前主流的硬件平台均能达到实时处理，且具备很强的鲁棒性。

具体的，步骤2中所述的波束形成过程中还产生了滤波权重系数wt。

具体的，所述混响估计频域信号R_out与所述滤波权重系数wt之间的关系如下：

R_out＝wt×(R₁+R₂+R₃...+R_n-1+R_n)/n (1)

式(1)中R_n表示第N路麦克风频域信号X_n对应的混响估计频域信号；n表示麦克风接收到的语音信号路数。

具体的，所述回声估计频域信号E_out与所述滤波权重系数wt之间的关系如下：

R_out＝wt×(E₁+E₂+E₃...+E_n-1+E_n)/n (2)

式(2)中E_n表示第N路麦克风频域信号X_n对应的混响估计频域信号；n表示麦克风接收到的语音信号路数。

具体的，所述步骤2中的波束形成由MVDR Beamformer波束形成算法实现。

本发明第二个目的所提供的基于麦克风阵列的语音增强装置包括：

FFT变换模块，对采集到的语音信号和参考信号进行频域分析并存储；

时域分析模块，对采集到的语音信号进行时域分析后输入去混响估计预处理模块；

回声消除及估计预处理模块，用于对经信号转换后的语音信号和参考信号进行回声消除及估计预处理，形成回声估计频域信号E_out；

去混响估计预处理模块，用于对经信号转换后的语音信号进行去混响估计预处理，形成混响估计频域信号R_out；

波束形成模块，用于对经信号转换后的语音信号进行回声成分和混响部分进行提取分析，并形成波束B_out；

后置滤波模块，用于对回声估计频域信号E_out、混响估计频域信号R_out和波束B_out进行统一的回声、混响以及噪声的消除和抑制处理，形成单路麦克风增强信号S；

IFFT变换模块，用于对单路麦克风增强信号S进行离散快速傅里叶反变换，形成最终输出的时域信号S_out。

具体的，所述波束形成模块包括MVDR滤波器，用于计算麦克风阵列空间域的滤波权重系数wt，并提供给所述回声消除及估计预处理模块和所述去混响估计预处理模块。

本发明所提供的语音增强装置通过去混响预处理及估计模块和回声消除预处理及估计模块对语音信号进行去混响预处理和回声消除预处理，更精准地估计出混响和回声的声学路径，更好地抑制了回声和混响信号，使得输出的语音信号达到更高的信噪比，且具备较低的运算量和适中的功耗。

本发明的有益效果：本发明所提供的方法和装置更精准地估计出了混响和回声的声学路径，更好地抑制了回声和混响信号，使得输出的音频信号达到更高的信噪比，语音增强体验效果好，针对当前主流的硬件平台均能达到实时处理，且具备很强的鲁棒性。

本发明所提供的方法和装置在提升信号的信噪比的同时，能够大幅降低了信号处理的运算量。而在实现相同信噪比的要求下，传统的信号处理流程需要1-3倍的运算量。

附图说明

图1为N个阵元的阵列增强传统处理方法一的原理图；

图2为N个阵元的阵列增强传统处理方法二的原理图；

图3为现有的用于回声消除的回声消除模块的基本原理图；

图4为现有的用于去混响的混响消除模块的基本原理图；

图5为本发明所提供的基于麦克风阵列的语音增强方法原理图；

图6为本发明所提供的基于麦克风阵列的语音增强装置的结构图。

具体实施方式

本发明在此结合附图和具体实施方式对本申请所要求保护的技术方案作进一步详细的说明。

本发明在此所要求保护的技术方案包括了一种基于麦克风阵列的语音增强方法和一种基于麦克风阵列的语音增强装置，该方法和装置用于对语音信号/音频信号灯信号进行增强，提高其输出的信噪比，达到更好地的语音/音频信号的增强效果，使语音/音频信号更加清晰，利于接受者听取。

结合图3、图4和图5，本发明要求保护的基于麦克风阵列的语音增强方法的具体步骤如下：

步骤1：对以下两种信号进行分别处理：

1)将数字信号按一帧20ms，设置采样率参数为16khz，则对应的数字信号帧长为320个采样点。如下时间域数据和频域信号的单位长度都对应为20ms的采样点，目的是得到需要参与计算的信号的频域信号。基于麦克风阵列采集到的x₁、x₂、x₃...x_n-1、x_n路语音信号都进行一次离散快速傅里叶变换(FFT)，生成对应的频域信号X₁、X₂、X₃...X_n-1、X_n；

2)扬声器产生参考信号y，也做一次FFT变换生成对应的频域信号Y；

步骤2：将经FFT变换生成的频域信号X₁、X₂、X₃...X_n-1、X_n同时分别进行以下处理：

1)波束形成，将N路频域信号X₁、X₂、X₃...X_n-1、X_n形成单路波束B_out，同时波束形成过程中还产生麦克风阵列空间域的滤波权重系数wt；

2)将每路频域信号X₁、X₂、X₃...X_n-1、X_n分别进行去混响估计预处理形成对应的混响估计频域信号R₁、R₂、R₃...R_n-1、R_n，用wt矩阵与所有混响估计频域信号相加的均值相乘得到混响估计频域信号R_out，表达式如下：

R_out＝wt×(R₁+R₂+R₃...+R_n-1+R_n)/n (1)

3)每路频域信号分别与频域信号Y一并进行回声消除及估计预处理形成对应的回声估计频域信号E₁、E₂、E₃...E_n-1、E_n，用wt矩阵与所有信号相加的均值相乘得到输出回声估计频域信号E_out，表达式如下：

R_out＝wt×(E₁+E₂+E₃...+E_n-1+E_n)/n (2)

步骤4：对信号S进行IFFT变换形成最终输出的时域信号S_out。

以上步骤2中波束形成可以采用现有的任何一种方法实现，本申请在此利用MVDR滤波器实现，利用了MVDR Beamformer波束形成算法，其产生的滤波权重系数wt的实现函数为：

wt＝mvdrweights(Pos,Ang,Cov) (3)

式(3)中Pos是传感器阵列的元素的位置3×N矩阵，对应为(x,y,z)三维坐标组成的矩阵。例如下矩阵:[0,0,0；0.1,0.4,0.3；1,1,1]。Ang是波束形成方向，是2×N矩阵，每个列指定波束形成方向的方位角和仰角为[az，el]。Cov是传感器空间协方差矩阵指定为N×N的复值矩阵。在该矩阵中，N表示传感器元件的数量。我们通过如下函数来计算协方差矩阵：Cov＝sensorcov(Pos,Ang)。

如图6所述，本申请在此还提供了一种实现上面语音增强方法的装置，该装置具体包括了：

FFT变换模块，对采集到的语音信号x₁、x₂、x₃...x_n-1、x_n和参考信号y进行频域分析并存储；

时域分析模块，对采集到的语音信号x₁、x₂、x₃...x_n-1、x_n进行时域分析后输入去混响估计预处理模块；

回声消除及估计预处理模块，用于对经信号转换后的语音信号X₁、X₂、X₃...X_n-1、X_n和参考信号Y依次经自适应滤波器实现回声路径计算、双工残余回声估计以及后级滤波实现回声消除抑制，实现回声消除及估计预处理，形成回声估计频域信号E_out；

去混响估计预处理模块，用于对经信号转换后的语音信号X₁、X₂、X₃...X_n-1、X_n依次经频域分析实现后期混响功率谱估计和后级滤波实现混响消除抑制，同时对由时域分析模块输入的语音信号x₁、x₂、x₃...x_n-1、x_n经后级滤波实现混响消除抑制处理，实现去混响估计预处理，形成混响估计频域信号R_out；

波束形成模块，包括MVDR滤波器，用于计算麦克风阵列空间域的滤波权重系数wt，并将滤波权重系数wt提供给所述回声消除及估计预处理模块和所述去混响估计预处理模块，用于对经信号转换后的语音信号X₁、X₂、X₃...X_n-1、X_n进行回声成分和混响部分进行提取分析，并形成波束B_out；

以上装置采用了统一先进行频域分析，并对频域数据保存在缓冲区中，同时送给回声估计模块和波束形成模块以及混响估计模块，对频域中的回声成分和混响部分提取分析，并形成波束B_out后，送到后置滤波模块在进行统一的回声、混响以及噪声的消除和抑制处理。最后通过频域分析的IFFT转换为可用一路增强后的麦克风时域信号S_out作为最终的输出信号。

本申请在此所提供的方法和装置运算量为传统方法减低了1-4倍，为了更好地说明本申请所提供的方法和装置具有运算量少的优点，在此以结合本申请附图2中所提供的方法和本申请所提供的方法进行详细说明。

如图2所示，传统的语音增强方法需对每路语音信号进行回声消除处理、去混响处理以及波束形成，如图4所示，现有的去混响处理利用的去混响的基本原理是对麦克风输入信号分别进行FFT转换和时域分析实现混响功率谱估计，经FFT转换后的信号依次经频域分析实现后期混响功率谱估计和后级滤波实现混响消除抑制处理，时域分析后的信号经频域分析实现后期混响功率谱估计和后级滤波实现混响消除抑制处理，混响消除抑制处理后的信号经IFFT变换后输出时域信号进行回声消除处理。

如图3所示，现有的回声消除处理利用的回声消除的基本原理是对麦克风输入信号和由扬声器产生的参考信号依次进行FFT变换、自适应滤波器(FDAF)回声路径计算、双工检测残余回声估计、后级滤波回声消除抑制以及IFFT处理后输出时域信号进行波束形成处理。

结合图3和图4所示，传统的语音增强方法进行去混响处理和回声消除处理过程中均需进行FFT、IFFT的频域分析计算，实际测试中发现频域分析运算量占了总模块运算量60％-80％。那么假设一路信号一次频域分析的运算量为O(f(n))。频域分析之外所有模块占比在20％-40％，即0.4O×O(f(n))×N，N是阵元数量。图2的方法由于反复做了至少2次频域分析，故图2所示的方法的总运算量为：O2＝3×O(f(n))×N+0.4×O(f(n))×N；

本发明所提供装置只进行了一次频域分析的总运算量为：O3＝O(f(n))×N+0.4×O(f(n))×N≈1.4×O(f(n))×N。

O3÷O2≈3.4/1.4≈2.43，如上所述可得知新方法运算量大约降低了2.43倍。

以上实施例仅用以说明本发明的技术方案而非限制，本领域普通技术人员对本发明的技术方案所做的修改或等同替换，只要不脱离本发明的技术方案的精神和范围，均涵盖在本发明的权利要求范围内。

Claims

1.基于麦克风阵列的语音增强方法，其特征在于：该方法包括：

步骤1：对以下两种信号进行分别处理：

2)参考信号进行频域分析，生成对应的频域信号Y；

步骤2：将频域信号X_i同时分别进行以下处理：

1)波束形成，形成波束B_out；

2)去混响估计预处理，形成混响估计频域信号R_out；

步骤4：对信号S进行IFFT变换形成最终输出的时域信号S_out。

2.根据权利要求1所述的基于麦克风阵列的语音增强方法，其特征在于：步骤2中所述的波束形成过程中还产生了滤波权重系数wt。

3.根据权利要求2所述的基于麦克风阵列的语音增强方法，其特征在于：所述混响估计频域信号R_out与所述滤波权重系数wt之间的关系如下：

R_out＝wt×(R₁+R₂+R₃...+R_n-1+R_n)/n (1)

4.根据权利要求2或3所述的基于麦克风阵列的语音增强方法，其特征在于：所述回声估计频域信号E_out与所述滤波权重系数wt之间的关系如下：

R_out＝wt×(E₁+E₂+E₃...+E_n-1+E_n)/n (2)

5.根据权利要求1或2或3所述的基于麦克风阵列的语音增强方法，其特征在于：所述步骤2中的波束形成由MVDR Beamformer波束形成算法实现。

6.根据权利要求4所述的基于麦克风阵列的语音增强方法，其特征在于：所述步骤2中的波束形成由MVDR Beamformer波束形成算法实现。

7.一种基于麦克风阵列的语音增强装置，其特征在于：该装置包括：

8.根据权利要求7所述的一种基于麦克风阵列的语音增强装置，其特征在于：所述波束形成模块包括MVDR滤波器，用于计算麦克风阵列空间域的滤波权重系数wt，并提供给所述回声消除及估计预处理模块和所述去混响估计预处理模块。