CN113030862B

CN113030862B - 一种多通道语音增强方法及装置

Info

Publication number: CN113030862B
Application number: CN202110268660.8A
Authority: CN
Inventors: 张鹏远; 石倩; 颜永红
Original assignee: Institute of Acoustics CAS
Current assignee: Institute of Acoustics CAS
Priority date: 2021-03-12
Filing date: 2021-03-12
Publication date: 2023-06-02
Anticipated expiration: 2041-03-12
Also published as: CN113030862A

Abstract

本申请提供了一种多通道语音增强方法及装置。该方法包括：对多通道语音频域信号做去混响处理；然后根据多通道语音频域信号中声源的方位信息构建复角中心高斯混合概率模型，并通过复角中心高斯混合概率模型获得目标语音时频掩蔽矩阵和噪声时频掩蔽矩阵；进行通过获得的时频掩蔽矩阵获得最小方差无失真滤波器并对多通道语音频域信号进行滤波，以及通过目标语音时频掩蔽矩阵对信号进行后滤波，获得最终的目标语音。该方法通过方位信息构建复角中心高斯混合概率模型，解决了模型无序输出时频掩蔽导致目标语音和噪声发生置换的问题，此外，去混响处理以及利用目标语音时频掩蔽进行后滤波处理，提升了目标语音的可懂度。

Description

一种多通道语音增强方法及装置

技术领域

本申请涉及语音处理技术领域，尤其涉及一种多通道语音增强方法及装置。

背景技术

越来越多的麦克风阵列应用在各种可以采集语音的设备中，麦克风阵列可以以不同形态的阵列呈现，包括线阵和环阵等。多通道语音增强是麦克风阵列采集的语音进行滤波处理，从输入的包含有目标语音、噪声和混响的信号中提取出声源的目标语音。

现有技术对多通道语音增强进行滤波处理，通常采用随机数初始化的高斯混合概率模型获得时频掩蔽，进而通过时频掩蔽提取出目标语音。但这种方法在频域进行时，各个频带相互独立，且均存在一定的置换问题，即无法确定目标语音和噪声的输出顺序，需要进一步进行甄别。

发明内容

本申请实施例提供了一种一种多通道语音增强方法及装置，根据声源的方位信息初始化复角中心高斯混合概率模型，能够获得目标语音和噪声的时频掩蔽，进而进行滤波处理，解决了现有技术中目标语音和噪声排序模糊的问题。

第一方面，本申请实施例提供了一种多通道语音增强方法，该方法包括：

将多通道语音时域信号转换到频域中，获得向量形式的多通道语音频域信号，多通道语音时域信号由麦克风阵列采集；

利用声源定位算法获取多通道语音频域信号中声源的方位信息，方位信息包括声源相对麦克风阵列的入射角度；

根据入射角度构建复角中心高斯混合概率模型；

利用复角中心高斯混合概率模型获得多通道语音频域信号对应的目标语音时频掩蔽矩阵和噪声时频掩蔽矩阵；

根据目标语音时频掩蔽矩阵和噪声时频掩蔽矩阵确定最小方差无失真滤波器，并利用最小方差无失真滤波器获得多通道语音频域信号对应的多通道目标语音初始频域信号；

利用目标语音时频掩蔽矩阵对多通道目标语音初始频域信号进行后滤波处理，获得多通道目标语音频域信号；

根据多通道目标语音频域信号确定目标语音时域信号。

本申请中，通过获取的频域信号中声源的方位信息构建复角中心高斯混合概率模型，可以直接获得目标语音时频掩蔽矩阵和噪声时频掩蔽矩阵，解决了因模型输出的时频掩蔽排序混乱导致的目标语音和噪声发生置换的问题；此外，在最小方差无失真滤波器滤波之后，再次利用目标语音时频掩蔽进行后滤波，进一步提高了目标语音的可辨识度。

在一种实施方式中，在利用声源定位算法获取多通道语音频域信号中声源的方位信息之前，方法还包括：

利用加权预测误差方法对多通道语音频域信号进行去混响处理。

本申请实施例中，去混响处理可以减少混响语音对目标语音的干扰，使获得的目标语音更加纯净。

在一种实施方式中，根据入射角度构建复角中心高斯混合概率模型包括：

根据入射角度确定初始的目标语音协方差矩阵；

根据初始的目标语音协方差矩阵和预设的初始的噪声协方差矩阵，构建复角中心高斯混合概率模型，其中，预设的初始的噪声协方差矩阵利用各向同性柱形噪声场获得。

本申请中，根据入射角度确定的初始的目标语音协方差矩阵，可以准确获得目标语音的时频掩蔽，进而解决模型无序输出时频掩蔽，导致的目标语音和噪声发生置换的问题。

在一种实施方式中，根据入射角度确定初始的目标语音协方差矩阵包括：

根据入射角度和麦克风阵列中参考麦克风的声学传递函数，确定麦克风阵列的导向向量；

根据导向向量确定初始的目标语音协方差矩阵；

在一种实施方式中，利用复角中心高斯混合概率模型获得多通道语音频域信号对应的目标语音时频掩蔽矩阵和噪声时频掩蔽矩阵包括：

将多通道语音频域信号代入复角中心高斯混合概率模型；

采用期望最大化算法迭代更新复角中心高斯混合概率模型的模型参数；

根据复角中心高斯混合概率模型迭代更新结束时的模型参数，确定多通道语音频域信号对应的目标语音时频掩蔽矩阵和噪声时频掩蔽矩阵；

其中，模型参数包括：目标语音协方差矩阵、噪声协方差矩阵、目标语音权重系数和噪声权重系数。

在一种实施方式中，采用期望最大化算法迭代更新复角中心高斯混合概率模型的模型参数包括：

根据当前迭代的目标语音协方差矩阵和目标语音权重系数确定当前迭代的目标语音时频掩蔽矩阵、以及根据当前迭代的噪声协方差矩阵和噪声权重系数确定当前迭代的噪声时频掩蔽矩阵。

在一种实施方式中，采用期望最大化算法迭代更新复角中心高斯混合概率模型的模型参数还包括：

分别根据当前迭代的目标语音时频掩蔽矩阵和噪声时频掩蔽矩阵确定下一次迭代的目标语音权重系数和噪声权重系数、根据当前迭代的目标语音协方差矩阵和目标语音时频掩蔽矩阵确定下一次迭代的目标语音协方差矩阵、以及根据当前迭代的噪声协方差矩阵和噪声时频掩蔽矩阵确定下一次迭代的噪声协方差矩阵。

本申请实施例中，通过迭代更新模型的参数，使得模型对多通道语音频域信号中信号成分的概率分布更加接近真实的分布情况，进而提高了最终获得的时频掩蔽的准确性。

在一种实施方式中，根据目标语音时频掩蔽矩阵和噪声时频掩蔽矩阵确定最小方差无失真滤波器包括：

分别根据目标语音时频掩蔽矩阵和噪声时频掩蔽矩阵，确定目标语音功率谱密度和噪声功率谱密度；

根据目标语音功率谱密度和噪声功率谱密度，确定最小方差无失真滤波器。

在一种实施方式中，根据多通道目标语音频域信号确定目标语音时域信号包括：

将多通道目标语音频域信号转换到时域中，获得多通道目标语音时域信号；

对多通道目标语音时域信号进行重叠相加处理，获得目标语音时域信号。

第二方面，本申请实施例提供了一种多通道语音增强装置，该装置包括：

频域转换模块，用于将多通道语音时域信号转换到频域中，获得向量形式的多通道语音频域信号，多通道语音时域信号由麦克风阵列采集；

方位获取模块，用于利用声源定位算法获取多通道语音频域信号中声源的方位信息，方位信息包括声源相对麦克风阵列的入射角度；

模型构建模块，用于根据入射角度构建复角中心高斯混合概率模型；

模型处理模块，用于利用复角中心高斯混合概率模型获得多通道语音频域信号对应的目标语音时频掩蔽矩阵和噪声时频掩蔽矩阵；

第一滤波模块，用于根据目标语音时频掩蔽矩阵和噪声时频掩蔽矩阵确定最小方差无失真滤波器，并利用最小方差无失真滤波器获得多通道语音频域信号对应的多通道目标语音初始频域信号；

第二滤波模块，用于利用目标语音时频掩蔽矩阵对多通道目标语音初始频域信号进行后滤波处理，获得多通道目标语音频域信号；

时域转换模块，用于根据多通道目标语音频域信号确定目标语音时域信号。

在一种实施方式中，该装置还包括：

混响处理模块，用于利用加权预测误差方法对所述多通道语音频域信号进行去混响处理。

在一种实施方式中，模型构建模块具体用于：

根据所述入射角度确定初始的目标语音协方差矩阵；

根据所述初始的目标语音协方差矩阵和预设的初始的噪声协方差矩阵，构建所述复角中心高斯混合概率模型，其中，所述预设的初始的噪声协方差矩阵利用各向同性柱形噪声场获得。

在一种实施方式中，模型构建模块还具体用于：

根据所述入射角度和所述麦克风阵列中参考麦克风的声学传递函数，确定所述麦克风阵列的导向向量；

根据所述导向向量确定所述初始的目标语音协方差矩阵；

在一种实施方式中，模型处理模块具体用于：

将所述多通道语音频域信号代入所述复角中心高斯混合概率模型；

采用期望最大化算法迭代更新所述复角中心高斯混合概率模型的模型参数；

根据所述复角中心高斯混合概率模型迭代更新结束时的模型参数，确定所述多通道语音频域信号对应的目标语音时频掩蔽矩阵和噪声时频掩蔽矩阵；

其中，所述模型参数包括：目标语音协方差矩阵、噪声协方差矩阵、目标语音权重系数和噪声权重系数。

在一种实施方式中，模型处理模块还具体用于：

根据当前迭代的目标语音协方差矩阵和目标语音权重系数确定所述当前迭代的目标语音时频掩蔽矩阵、以及根据当前迭代的噪声协方差矩阵和噪声权重系数确定当前迭代的噪声时频掩蔽矩阵。

在一种实施方式中，模型处理模块还具体用于：

分别根据所述当前迭代的目标语音时频掩蔽矩阵和噪声时频掩蔽矩阵确定下一次迭代的目标语音权重系数和噪声权重系数、根据所述当前迭代的目标语音协方差矩阵和目标语音时频掩蔽矩阵确定下一次迭代的目标语音协方差矩阵、以及根据所述当前迭代的噪声协方差矩阵和噪声时频掩蔽矩阵确定下一次迭代的噪声协方差矩阵。

在一种实施方式中，第一滤波模块具体用于：

分别根据所述目标语音时频掩蔽矩阵和噪声时频掩蔽矩阵，确定目标语音功率谱密度和噪声功率谱密度；

根据所述目标语音功率谱密度和噪声功率谱密度，确定所述最小方差无失真滤波器。

在一种实施方式中，时域转换模块具体用于：

将所述多通道目标语音频域信号转换到时域中，获得多通道目标语音时域信号；

对所述多通道目标语音时域信号进行重叠相加处理，获得所述目标语音时域信号。

附图说明

图1是本申请实施例提供的多通道语音增强方法的流程图；

图2是本申请实施例提供的声源相对于线性麦克风阵列的方位信息的示意图；

图3是本申请实施例提供的一种多通道语音增强装置的结构示意图；

图4是本申请实施例提供的一种计算设备的结构示意图。

具体实施方式

为了使本申请实施例的目的、技术方案和优点更加清楚，下面将结合附图，对本申请实施例中的技术方案进行描述。

在本申请实施例的描述中，“示例性的”、“例如”或者“举例来说”等词用于表示作例子、例证或说明。本申请实施例中被描述为“示例性的”、“例如”或者“举例来说”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言，使用“示例性的”、“例如”或者“举例来说”等词旨在以具体方式呈现相关概念。

在本申请实施例的描述中，术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，单独存在B，同时存在A和B这三种情况。另外，除非另有说明，术语“多个”的含义是指两个或两个以上。例如，多个系统是指两个或两个以上的系统，多个屏幕终端是指两个或两个以上的屏幕终端。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”，除非是以其他方式另外特别强调。

本申请实施例提供一种多通道语音增强方法，对多通道语音时域信号进行滤波，从中获得目标语音时域信号。多通道语音时域信号由麦克风阵列采集，其中，由于麦克风阵列由多个麦克风组成，因此采集到的是多通道语音时域信号，一个通道对应一个麦克风。本申请实施例中，以麦克风阵列为线阵进行说明，即麦克风阵列中各麦克风呈线形排布。

图1是本申请提供的一种多通道语音增强方法的流程图。如图1所示，该方法包括如下的步骤S1步骤S6。

步骤S1.获取多通道多通道语音时域信号对应的多通道语音频域信号。

本实施例中，处于空间环境中的声源发出语音；然后通过麦克风阵列采集声源发出的语音，获得多通道语音时域信号x(n)；接着对x(n)进行短时傅里叶变换，获得多通道语音频域信号。其中，做傅里叶变换时，对每个通道的语音信号分别进行分帧加窗处理，然后对每一帧计算傅里叶变换得到相应的频谱y_tf。

其中，x(n)为向量形式，x(n)＝[x₁(n) … x_m(n) … x_M(n)]，M表示麦克风阵列的麦克风总数。

步骤S2.对多通道语音频域信号进行去混响处理。

由于在远场的场景中，麦克风接收信号会受到卷积混响的影响。假设声源所处环境的脉冲响应RIR的早期信号对识别和感知有利，需要被抑制的则是尾部混响信号。考虑RIR主峰后50毫秒内的信号有利于直达信号，剩下的尾部信号会引起失真，即频域信号可用数学表达式表示为

其中，/>

为早期RIR卷积声源得到的早期信号，/>

为反射后晚期RIR卷积声源形成的尾部混响信号。

因此，本实施例中，采用加权预测误差方法(weighted predict error，WPE)方法对y_tf进行去混响处理。WPE算法去混响时，先估计出待处理信号的尾部混响信号，再从频域信号中减去尾部混响信号，从而获得最优的早期信号，早期信号里包括了直达声的信号和早期反射信号。具体地的，可通过滤波器来对早期信号进行估计，具体为

式中，Δ表示时延，即在估计混响信号时涉及的过去的帧数，Δ＞0，/>

和/>

分别代表该滤波器的权重矩阵和时间为t-Δ所对应的观测信号，y_tf表示当前时间t所对应的观测信号。

步骤S3.获取声源的方位信息，根据方位信息构建复角中心高斯混合概率模型。

本实施例中，方位信息包括声源相对麦克风阵列的入射角度。具体地，利用声源定位算法处理步骤S2获得的多通道语音频域信号即可获得该入射角度。构建复角中心高斯混合概率模型时包括如下的步骤S301-步骤S303。

步骤S301.基于入射角度构建导向向量。具体地，预先在麦克风阵列中选定参考麦克风，然后将入射角度代入参考麦克风的声学传递函数中，获得导向向量。本申请实施例中，如图2所示，将麦克风阵列中与声源距离最近的麦克风1作为参考麦克风。

示例性的，可按公式(1)获得导向向量。

公式(1)中，h_f为对应的导向向量，f为频点，θ为入射角度，c为声速，d为麦克风阵列中麦克风阵元的间隔，j为虚部，T表示矩阵或向量的转置。

步骤S302.根据获得的导向向量计算初始的目标语音协方差矩阵。具体地，可按公式(2)进行计算，获得多通道语音频域信号对应的初始的目标语音协方差矩阵。

公式(2)中，

为初始的目标语音协方差矩阵，ε为接近于零的常数，I为单位矩阵，H表示向量或矩阵的共轭转置。

步骤S303.根据初始的目标语音协方差矩阵和预设的初始的噪声协方差矩阵，构建复角中心高斯混合概率模型。其中，预设的初始的噪声协方差矩阵利用各向同性柱形噪声场获得。

具体地，将初始的目标语音协方差矩阵和预设的初始的噪声协方差矩阵代入复角中心高斯混合概率模型的表达式，以初始化复角中心高斯混合概率模型。模型的表达式如公式(3)所示。

公式(3)中，z_tf为标准化后的多通道语音频域信号，

为

的范数，其中，z_tf为M×T×F维度的，M为通道总数(即麦克风阵列的阵元总数)，T为总帧数，F为频点总数，t表示帧，f表示频点，T由窗长和窗移决定，F为傅里叶变换长度的一半加1；/>

为权重系数，k取值为0或1，k＝0时，/>

表示目标语音权重系数，k＝1时，/>

表示噪声权重系数；/>

为协方差矩阵，k＝0时，/>

为目标语音协方差矩阵，k＝1时，/>

为噪声语音协方差矩阵；/>

表示z_tf和/>

的复角中心分布。

其中，

为M×M的矩阵，M表示麦克风阵列的阵元总数，i∈[1,M]，j∈[1,M]，矩阵/>

中第i行第j列的元素表示为/>

其中，d_ij为第i个麦克风和第j个麦克风之间的距离，J₀(·)为零阶贝塞尔函数，/>

为积分变量。

步骤S4.利用复角中心高斯混合概率模型获得目标语音时频掩蔽矩阵和噪声时频掩蔽矩阵。

本实施例中，在模型初始化之后，将多通道语音频域信号代入模型中，并用期望最大化算法迭代更新模型的参数，包括

和/>

具体地，迭代更新模型的表达式为

迭代更新参数时，先根据公式(4)计算当前迭代后的目标语音时频掩蔽矩阵和噪声时频掩蔽矩阵，然后分别根据公式(5)和公式(6)更新模型下一迭代中的权重系数和协方差矩阵。

公式(4)中，k＝0时，

为目标语音时频掩蔽矩阵，k＝1时，/>

为噪声时频掩蔽矩阵。

在模型收敛时，迭代更新结束，并根据公式(4)获取模型最后一次迭代对应的目标语音时频掩蔽矩阵和噪声时频掩蔽矩阵。

步骤S5.根据目标语音时频掩蔽矩阵和噪声时频掩蔽矩阵对多通道语音频域信号进行滤波，获得多通道目标语音频域信号。

本实施例中，基于目标语音时频掩蔽矩阵和噪声时频掩蔽矩阵获得最小方差无失真滤波器ω_f，然后利用最小方差无失真滤波器ω_f获得多通道目标语音频域信号，即

其中，按公式(7)确定最小方差无失真滤波器ω_f。/>

公式(7)中，R_xx,f为目标语音功率谱密度矩阵，

为R_nn,f的逆矩阵，R_nn,f为噪声功率谱密度矩阵，/>

u为独热向量，维度等同于通道数目M，参考麦克风对应的维度上的数值为1，其余为0。

步骤S6.根据多通道目标语音频域信号确定目标语音时域信号。

本实施例中，先对多通道目标语音频域信号做傅里叶逆变换，将其转换到时域中，获得多通道目标语音时域信号，然后对多通道目标语音时域信号进行重叠相加处理，获得目标语音时域信号。

在其他实施例中，在对多通道目标语音频域信号做傅里叶逆变换之前，还可以利用目标语音时频掩蔽矩阵对多通道目标语音频域信号进行后滤波，以提升滤波效果。

基于上述方法实施例，本申请实施例还提供一种多通道语音增强装置，该装置可应用于配置有麦克风阵列的设备中，如图3所示，该装置300包括：频域转换模块、方位获取模块、模型构建模块、模型处理模块、第一滤波模块、第二滤波模块和时域转换模块。应理解，图3所示的结构划分只是一种示例，本申请不对装置的具体划分做任何限定。图3所示模块的具体功能参见前述发明内容部分的介绍，此处不再赘述。

基于上述方法实施例，本申请实施例还提供一种计算设备，用于执行上述方法实施例中的方法步骤，该计算设备400包括处理器401、通信总线402、存储器403和至少一个通信接口404。

可以理解的是，本申请的实施例中的处理器401可以是中央处理单元(centralprocessing unit，CPU)，还可以是其他通用处理器、数字信号处理器(digital signalprocessor，DSP)、专用集成电路(application specific integrated circuit，ASIC)、现场可编程门阵列(field programmable gate array，FPGA)或者其他可编程逻辑器件、晶体管逻辑器件，硬件部件或者其任意组合。通用处理器可以是微处理器，也可以是任何常规的处理器。

存储器403可以是只读存储器(read-only memory，ROM)或可存储静态信息和指令的其它类型的静态存储设备，随机存取存储器(random access memory，RAM))或者可存储信息和指令的其它类型的动态存储设备，也可以是电可擦可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，EEPROM)、只读光盘(CompactDisc Read-Only Memory，CD-ROM)或其它光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其它磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其它介质，但不限于此。存储器可以是独立存在，通过通信总线与处理器相连接。存储器也可以和处理器集成在一起。存储器可以存储计算机指令，当存储器中存储的计算机指令被处理器执行时，可以实现本申请的模型优化方法。另外，存储器中还可以存储有处理器在执行上述方法的过程中所需的数据以及所产生的中间数据和/或结果数据。

通信接口404，使用任何收发器一类的装置，用于与其它设备或通信网络通信，如以太网，无线接入网(RAN)，无线局域网(Wireless Local Area Networks，WLAN)等。

本申请的实施例中的方法步骤可以通过硬件的方式来实现，也可以由处理器执行软件指令的方式来实现。软件指令可以由相应的软件模块组成，软件模块可以被存放于随机存取存储器(random access memory，RAM)、闪存、只读存储器(read-only memory，ROM)、可编程只读存储器(programmable rom，PROM)、可擦除可编程只读存储器(erasable PROM，EPROM)、电可擦除可编程只读存储器(electrically EPROM，EEPROM)、寄存器、硬盘、移动硬盘、CD-ROM或者本领域熟知的任何其它形式的存储介质中。一种示例性的存储介质耦合至处理器，从而使处理器能够从该存储介质读取信息，且可向该存储介质写入信息。当然，存储介质也可以是处理器的组成部分。处理器和存储介质可以位于ASIC中。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者通过所述计算机可读存储介质进行传输。所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘(solid state disk，SSD))等。

Claims

1.一种多通道语音增强方法，其特征在于，所述方法包括：

将多通道语音时域信号转换到频域中，获得向量形式的多通道语音频域信号，所述多通道语音时域信号由麦克风阵列采集；

利用声源定位算法获取所述多通道语音频域信号中声源的方位信息，所述方位信息包括所述声源相对所述麦克风阵列的入射角度；

根据所述入射角度确定初始的目标语音协方差矩阵；根据所述初始的目标语音协方差矩阵和预设的初始的噪声协方差矩阵，构建复角中心高斯混合概率模型，其中，所述预设的初始的噪声协方差矩阵利用各向同性柱形噪声场获得；利用所述复角中心高斯混合概率模型获得所述多通道语音频域信号对应的目标语音时频掩蔽矩阵和噪声时频掩蔽矩阵；

根据所述目标语音时频掩蔽矩阵和噪声时频掩蔽矩阵确定最小方差无失真滤波器，并利用所述最小方差无失真滤波器获得所述多通道语音频域信号对应的多通道目标语音初始频域信号；

利用所述目标语音时频掩蔽矩阵对所述多通道目标语音初始频域信号进行后滤波处理，获得多通道目标语音频域信号；

根据所述多通道目标语音频域信号确定目标语音时域信号。

2.根据权利要求1所述的方法，其特征在于，在所述利用声源定位算法获取所述多通道语音频域信号中声源的方位信息之前，所述方法还包括：

利用加权预测误差方法对所述多通道语音频域信号进行去混响处理。

3.根据权利要求1所述的方法，其特征在于，所述根据所述入射角度确定初始的目标语音协方差矩阵包括：

根据所述导向向量确定所述初始的目标语音协方差矩阵。

4.根据权利要求1所述的方法，其特征在于，所述利用所述复角中心高斯混合概率模型获得所述多通道语音频域信号对应的目标语音时频掩蔽矩阵和噪声时频掩蔽矩阵包括：

5.根据权利要求4所述的方法，其特征在于，所述采用期望最大化算法迭代更新所述复角中心高斯混合概率模型的模型参数包括：

6.根据权利要求4所述的方法，其特征在于，所述采用期望最大化算法迭代更新所述复角中心高斯混合概率模型的模型参数还包括：

分别根据当前迭代的目标语音时频掩蔽矩阵和噪声时频掩蔽矩阵确定下一次迭代的目标语音权重系数和噪声权重系数、根据所述当前迭代的目标语音协方差矩阵和目标语音时频掩蔽矩阵确定下一次迭代的目标语音协方差矩阵、以及根据所述当前迭代的噪声协方差矩阵和噪声时频掩蔽矩阵确定下一次迭代的噪声协方差矩阵。

7.根据权利要求1所述的方法，其特征在于，所述根据所述目标语音时频掩蔽矩阵和噪声时频掩蔽矩阵确定最小方差无失真滤波器包括：

8.根据权利要求1所述的方法，其特征在于，所述根据所述多通道目标语音频域信号确定目标语音时域信号包括：

9.一种多通道语音增强装置，其特征在于，所述装置包括：

频域转换模块，用于将多通道语音时域信号转换到频域中，获得向量形式的多通道语音频域信号，所述多通道语音时域信号由麦克风阵列采集；

方位获取模块，用于利用声源定位算法获取所述多通道语音频域信号中声源的方位信息，所述方位信息包括所述声源相对所述麦克风阵列的入射角度；

模型构建模块，用于根据所述入射角度确定初始的目标语音协方差矩阵；根据所述初始的目标语音协方差矩阵和预设的初始的噪声协方差矩阵，构建复角中心高斯混合概率模型，其中，所述预设的初始的噪声协方差矩阵利用各向同性柱形噪声场获得；

模型处理模块，用于利用所述复角中心高斯混合概率模型获得所述多通道语音频域信号对应的目标语音时频掩蔽矩阵和噪声时频掩蔽矩阵；

第一滤波模块，用于根据所述目标语音时频掩蔽矩阵和噪声时频掩蔽矩阵确定最小方差无失真滤波器，并利用所述最小方差无失真滤波器获得所述多通道语音频域信号对应的多通道目标语音初始频域信号；

第二滤波模块，用于利用所述目标语音时频掩蔽矩阵对所述多通道目标语音初始频域信号进行后滤波处理，获得多通道目标语音频域信号；

时域转换模块，用于根据所述多通道目标语音频域信号确定目标语音时域信号。