CN112802490A

CN112802490A - 一种基于传声器阵列的波束形成方法和装置

Info

Publication number: CN112802490A
Application number: CN202110267335.XA
Authority: CN
Inventors: 邱锋海; 王之禹; 项京朋
Original assignee: Beijing Sound+ Technology Co ltd
Current assignee: Beijing Sound+ Technology Co ltd
Priority date: 2021-03-11
Filing date: 2021-03-11
Publication date: 2021-05-14
Anticipated expiration: 2041-03-11
Also published as: CN112802490B

Abstract

本申请提供了一种基于传声器阵列的波束形成方法及装置。该方案包括：将多通道语音时域信号以向量形式转换到频域中，获得向量形式的多通道语音频域信号；对多通道语音频域信号进行初始滤波，获得多通道初始目标语音频域信号；利用由加权带噪协方差矩阵构成的最小功率无失真响应滤波器对多通道语音频域信号进行迭代滤波，获得多通道目标语音频域信号；并在迭代过程中，根据上一次滤波的结果更新加权带噪协方差矩阵。本申请通过对最小功率无失真响应滤波器进行迭代更新，实现信号的迭代滤波，提升了滤波器的鲁棒性，还减小了目标语音的失真。

Description

一种基于传声器阵列的波束形成方法和装置

技术领域

本申请涉及语音处理技术领域，尤其涉及一种基于传声器阵列的波束形成方法和装置。

背景技术

随着硅微传声器的普及应用，传声器尺寸逐渐减少，幅频一致性不断提高。由多个传声器组成的传声器阵列相比于单传声器具有更强的方向性干扰抑制性能，因此，传声器阵列已经越来越广泛的应用在各种具有音频播放和采集的设备中。

传声器阵列波束形成属于宽带波束形成范畴，通常都需用通过快速傅里叶变换(fast fourier transform，FFT)将待处理的语音时域信号变换到频域中，然后在频域中对每个频带进行加权滤波，最后通过快速傅里叶逆变换(inverse fast fourier transform，IFFT)和重叠相加法(over lap-add，OLD)得到波束形成后的目标语音时域信号。对每个频带的信号进行滤波器(即滤波器)的设计是整个波束形成的关键，经典的方法有延迟相加(delay-and-sum，DAS)、滤波相加(filter-and-sum，FAS)、超指波束形成(super-directive，SD)等与传声器阵列拾取的信号无关的滤波器设计和优化方法，也有与传声器阵列拾取的信号相关的滤波器设计和优化方法如最小功率无失真响应(minimum powerdistortionless response，MPDR)以及多通道维纳滤波(multichannel wiener filter，MWF)等。

现有技术中采用上述滤波器对传声器阵列采集的信号进行波束形成时，由于设计滤波器时存在较大的估计误差，滤波器的鲁棒性较低，导致形成的目标语音信号存在失真问题。在对传声器阵列采集的语音信号进行波束形成时，如何使滤波器具有鲁棒性，提升波束形成性能，减少目标语音失真是目前应用中面临的主要问题。

发明内容

本申请实施例提供一种基于传声器阵列的波束形成方法和装置，在进行初始滤波之后，利用加权带噪协方差矩阵构成的最小功率无失真响应滤波器对传声器阵列采集的信号进行迭代滤波，提升了滤波器的鲁棒性，解决了现有技术中目标语音失真的问题。

第一方面，本申请实施例提供了一种基于传声器阵列的波束形成方法，该方法包括：

将多通道语音时域信号以向量形式转换到频域中，获得向量形式的多通道语音频域信号，多通道语音时域信号由传声器阵列采集；

对多通道语音频域信号进行初始滤波，获得多通道初始目标语音频域信号；

利用由加权带噪协方差矩阵构成的最小功率无失真响应滤波器对多通道语音频域信号进行迭代滤波，获得多通道目标语音频域信号；其中，当前迭代滤波的加权带噪协方差矩阵由上一次迭代滤波获得的语音频域信号估算的功率谱作为加权值对多通道语音频域信号逐个时频点进行加权确定，并且第一次迭代滤波的加权带噪协方差矩阵由多通道初始目标语音频域信号估算的功率谱作为加权值对带噪信号逐个时频点进行加权确定；

根据多通道目标语音频域信号确定目标语音时域信号。

本申请实施例中，采用功率谱对滤波后的信号加权获得加权带噪协方差矩阵，可使协方差矩阵逐渐收敛至噪声协方差矩阵，提升最小功率无失真响应滤波器的滤波性能；采用加权带噪协方差矩阵构成的最小功率无失真响应滤波器对未处理的信号进行迭代滤波，并且在迭代中根据上次迭代获得的信号重新确定加权带噪协方差矩阵，逐步的减小了加权带噪协方差矩阵的估计误差，可提升滤波器的鲁棒性，以减小目标语音的失真。

在一种可能的实施方式中，在利用加权值对多通道语音频域信号逐个时频点进行加权之前，该方法还包括：

对功率谱进行指数运算获得加权值。

本申请实施例中，对功率谱进行指数运算，可加快波束形成的收敛速度，减小滤波时间。

在一种可能的实施方式中，在当前迭代滤波之前，方法还包括：

根据上一次迭代滤波输出的语音频域信号和多通道语音频域信号确定声学传递函数；

根据声学传递函数和当前迭代滤波的加权带噪协方差矩阵，确定当前迭代滤波的最小功率无失真响应滤波器；

在一种可能的实施方式中，根据上一次迭代滤波输出的语音频域信号和多通道语音频域信号确定声学传递函数包括：

根据语音频域信号和多通道语音频域信号，获取掩蔽值向量；

根据掩蔽值向量，获得多通道语音频域信号的目标语音协方差矩阵；

对目标语音协方差矩阵进行奇异值分解，根据奇异值分解结果确定声学传递函数。

本申请实施例中，迭代滤波中通过获得掩蔽值和奇异值分解的方法对声学传递函数进行重新估计，可减少声学传递函数的估计误差，进一步提升了滤波器的鲁棒性。

在一种可能的实施方式中，在第一次迭代滤波之前，方法还包括：

根据多通道历史语音频域信号和多通道历史目标语音频域信号确定声学传递函数；

根据声学传递函数和第一次迭代滤波的加权带噪协方差矩阵，确定第一次迭代滤波的最小功率无失真响应滤波器。

在一种可能的实施方式中，对多通道语音频域信号进行初始滤波，获得多通道初始目标语音频域信号包括：

利用预设的初始滤波器对多通道语音频域信号进行处理，获得多通道初始目标语音频域信号；

其中，初始滤波器包括最小功率无失真响应滤波器、延迟求和滤波器、超指向性滤波器和多通道维纳滤波器中的任意一种。

在一种可能的实施方式中，当初始滤波器为最小功率无失真响应滤波器时，方法还包括：

获取多通道历史语音频域信号对应的带噪协方差矩阵和声学传递函数；

根据多通道历史语音频域信号对应的声学传递函数和协方差矩阵确定初始滤波器。

在一种可能的实施方式中，在获取多通道历史语音频域信号对应的带噪协方差矩阵之前，方法还包括：

对多通道历史语音频域信号进行一比特量化处理。

在一种可能的实施方式中，初始滤波器为延迟求和滤波器，方法还包括：

采用白噪声增益最大化方法确定初始化的滤波器。

在一种可能的实施方式中，初始滤波器为超指向性滤波器，方法还包括：

采用噪声扩散场假设方法确定初始滤波器。

在一种可能的实施方式中，初始滤波器为多通道维纳滤波器，方法还包括：

获取多通道历史语音频域信号对应的带噪协方差矩阵和噪声协方差矩阵；

根据多通道历史语音频域信号对应的带噪协方差矩阵和噪声协方差矩阵确定初始滤波器。

在一种可能的实施方式中，对多通道语音频域信号进行初始滤波，获得多通道初始目标语音频域信号还包括：

采用谱减法、盲分离算法或深度学习语音模型对多通道语音频域信号进行处理，获得多通道初始目标语音频域信号，其中，深度学习语音模型根据多通道历史语音频域信号和多通道历史目标频域信号获得。

第二方面，本申请实施例提供了一种基于传声器阵列的波束形成装置，该装置包括：

频域转换模块，用于将多通道语音时域信号以向量形式转换到频域中，获得向量形式的多通道语音频域信号，多通道语音时域信号由传声器阵列采集；

初始滤波模块，用于对多通道语音频域信号进行初始滤波，获得多通道初始目标语音频域信号；

迭代滤波模块，用于利用由加权带噪协方差矩阵构成的最小功率无失真响应滤波器对多通道语音频域信号进行迭代滤波，获得多通道目标语音频域信号；其中，当前迭代滤波的加权带噪协方差矩阵由上一次迭代滤波获得的语音频域信号估算的功率谱作为加权值对多通道语音频域信号逐个时频点进行加权确定，并且第一次迭代滤波的加权带噪协方差矩阵由多通道初始目标语音频域信号估算的功率谱作为加权值对带噪信号逐个时频点进行加权确定；

时域转换模块，用于根据多通道目标语音频域信号确定目标语音时域信号。

在一种可能的实施方式中，迭代滤波模块还用于：

对功率谱进行指数运算获得加权值。

在一种可能的实施方式中，迭代滤波模块还用于：

在一种可能的实施方式中，迭代滤波模块还具体用于：

根据上一次迭代滤波输出的语音频域信号和多通道语音频域信号确定声学传递函数包括：

在一种可能的实施方式中，初始滤波模块具体用于：

在一种可能的实施方式中，当初始滤波器为最小功率无失真响应滤波器时，初始滤波模块还用于：

在一种可能的实施方式中，初始滤波模块还具体用于：

对多通道历史语音频域信号进行一比特量化处理。

在一种可能的实施方式中，初始滤波器为延迟求和滤波器，初始滤波模块还用于：

采用白噪声增益最大化方法确定初始化的滤波器。

在一种可能的实施方式中，初始滤波器为超指向性滤波器，初始滤波模块还用于：

采用噪声扩散场假设方法确定初始滤波器。

在一种可能的实施方式中，初始滤波器为多通道维纳滤波器，初始滤波模块还用于：

在一种可能的实施方式中初始滤波模块还用于：

附图说明

图1是本申请提供的传声器阵列的结构示意图；

图2是本申请实施例提供的一种波束形成装置执行的方法流程图；

图3是本申请实施例提供的一种波束形成装置的结构示意图；

图4是本申请实施例提供的一种波束形成方法流程图；

图5a是本申请实施例提供的初始滤波器为MPDR时的初始化流程图；

图5b是本申请实施例提供的初始滤波器为MPDR时的另一种初始化流程图；

图5c是本申请实施例提供的初始滤波器为多通道维纳滤波器时的初始化流程图；

图6a是本申请实施例提供的未处理的多通道语音时域信号的语谱图；

图6b是本申请实施例提供的采用传统MPDR滤波器提取的目标语音信号的语谱图；

图6c是本申请实施例提供的采用本申请波束形成方法提取的目标语音信号的语谱图；

图7a是本申请实施例提供的未处理的多通道语音时域信号的波形图；

图7b是本申请实施例提供的采用传统MPDR滤波器提取的目标语音信号的波形图；

图7c是本申请实施例提供的采用本申请波束形成方法提取的目标语音信号的波形图。

具体实施方式

为了使本申请实施例的目的、技术方案和优点更加清楚，下面将结合附图，对本申请实施例中的技术方案进行描述。

在本申请实施例的描述中，“示例性的”、“例如”或者“举例来说”等词用于表示作例子、例证或说明。本申请实施例中被描述为“示例性的”、“例如”或者“举例来说”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言，使用“示例性的”、“例如”或者“举例来说”等词旨在以具体方式呈现相关概念。

在本申请实施例的描述中，术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，单独存在B，同时存在A和B这三种情况。另外，除非另有说明，术语“多个”的含义是指两个或两个以上。例如，多个系统是指两个或两个以上的系统，多个屏幕终端是指两个或两个以上的屏幕终端。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”，除非是以其他方式另外特别强调。

本申请实施例提供一种基于传声器阵列的波束形成方法，该方法应用于设置有传声器阵列的音频设备中。为便于理解本申请实施例中方案，下面先对传声器阵列做简要说明。

该音频设备可以是智能音箱、智能手机、耳机、电脑、智能电视等具有音频播放和音频采集的设备中。传声器阵列可以是任意一种形态的传声器阵列，包括环形传声器阵列、线形传声器阵列、TWS耳机或者头戴式耳机中的传声器阵列。传声器阵列中的传声器是将声音信号转换为电信号的能量转换器件。如图1所示，环形传声器阵列和线形传声器阵列可以是由传声器Mic1～传声器Mic4组成的传声器阵列，环形传声器阵列通常用于智能音箱和智能音视频会议系统等设备中，线型传声器阵列在笔记本电脑、家用电器(如智能电视)或者台式计算机应用较多；TWS耳机或者头戴式耳机中的传声器阵列如图1所示的传声器阵列正视图和右视图所示，该传声器阵列同样可以是传声器Mic1～传声器Mic4组成的，其中，传声器Mic1和Mic3位于左侧耳机中，传声器Mic2和Mic4位于右侧耳机中。

对传声器阵列采集的多通道语音时域信号进行如公式(1)的成分分析，可知多通道语音时域信号包括声源发出的目标语音时域信号和环境造成的噪声时域信号。

y_m(n)＝a_m(n)*s(n)+v_m(n)+d_m(n)＝a_m(n)*s(n)+q_m(n) (1)

公式(1)中，y_m(n)表示第m个传声器阵元采集的语音时域信号，n表示信号的采集时刻，m∈[1,M]，M表示传声器阵列中的传声器阵元总数；s(n)是表示多通道语音时域信号中的目标语音时域信号，为本实施例中的待求量；a_m(n)是目标语音时域信号到第m个传声器阵元的声学传递函数；v_m(n)是第m个传声器阵元拾取的外部噪声信号，d_m(n)是第m个传声器阵元的内部噪声信号。公式(1)中进一步将外部噪声和内部噪声统一为噪声信号q_m(n)，即q_m(n)＝v_m(n)+d_m(n)。其中，公式(1)的a_m(n)*s(n)表示a_m(n)和s(n)的卷积，一般地，a_m(n)*s(n)还可以改写为

τ为采集时刻。

如公式(1)所示的信号转换到频域时，可以是如公式(2)所示的表达形式。

Y_m(k,l)＝A_m(k,l)S(k,l)+Q_m(k,l) (2)

公式(2)中，Y_m(k,l)表示y_m(n)第l帧第k个频带的复频谱，S(k,l)是s(n)第l帧第k个频带的复频谱，A(k,l)是a_m(n)第l帧第k个频带的复频谱，Q_m(k,l)是q_m(n)第l帧第k个频带的复频谱，Y_m(k,l)是y_m(n)第l帧第k个频带的复频谱。在实际应用中，通常a_m(n)假设为线性时不变，即其复频谱通常与帧数l无关，或者a_m(n)至少应该是缓变的。为便于表示，公式(2)还可改写成下述的公式(3)的向量形式。

y(k,l)＝a(k,l)S(k,l)+q(k,l) (3)

公式(3)中，y(k,l)＝[Y₁(k,l) … Y_M(k,l)]^T，a(k,l)＝[A₁(k,l) … A_M(k,l)]^T，q(k,l)＝[Q₁(k,l) … Q_M(k,l)]^T，T表示向量或者矩阵的转置。

基于上述分析，波束形成的目的是滤除y(k,l)中的q(k,l)，还原其中的S(k,l)。

现有技术中，采用公式(4)所示的最小方差无失真响应(minimum variancedistortionless response，MVDR)滤波器w_opt,1(k,l)进行波束形成时，需要准确的判断待处理的频域信号中每个时频点是否存在目标语音，以准确的估计出噪声协方差矩阵Q(k,l)；当外部噪声较强或者存在强非稳态噪声时，特别是竞争语音时，容易出现误判，导致噪声协方差矩阵Q(k,l)中包含了目标语音信号，导致MVDR滤波器存在较大的误差，导致目标语音出现失真。

公式(4)中，Q(k,l)为传声器阵列采集的带噪的语音时域信号对应的噪声协方差矩阵，a(k,l)为带噪的语音时域信号对应的声学传递函数，H表示向量或矩阵的共轭转置。

采用如公式(5)所示MPDR滤波器进行波束形成时，MPDR滤波器虽不需要对待处理信号进行噪声估计或目标语音估计，但MPDR滤波器对目标语音的声学传递函数的估计误差更为敏感，当估计误差存在时，会存在严重的目标语音失真问题。

公式(5)中，R(k,l)是多通道语音时域信号的带噪协方差矩阵，可对其包含的成分分析为R(k,l)＝R_s(k,l)+Q(k,l)＝a^H(k,l)a(k,l)E{|S(k,l)|²}+Q(k,l)，其中，R_s(k,l)为目标语音协方差矩阵，Q(k,l)为噪声协方差矩阵，E{|S(k,l)|²}为S(k,l)对应的功率谱的期望值。

本申请实施例提供的一种基于传声器阵列的波束形成方法，由波束形成装置执行，该波束形成装置应用于设置有传声器阵列的音频设备中。本申请实施例中，波束形成装置执行的方法流程图如图2所示，先将采集的多通道语音时域信号通过快速傅里叶变换转换到频域中，然后利用初始滤波器滤波获得多通道初始目标语音频域信号，然后根据多通道初始目标语音频域信号获得最小功率无失真滤波器并进行迭代滤波，以获得目标语音时域信号。

本申请实施例的波束形成方法旨在对最小功率无失真滤波器进行迭代更新，提升滤波器的鲁棒性，减少目标语音的失真情况。波束形成装置的功能可以由软件系统实现，也可以由硬件设备实现，还可以由软件系统和硬件设备结合来实现。

波束形成装置可以在逻辑上分成多个模块，每个模块可以具有不同的功能，每个模块的功能由计算设备中的处理器读取并执行存储器中的指令来实现。如图3所示，波束形成装置100可以包括：频域转换模块101、初始滤波模块102、迭代滤波模块103和时域转换模块104。需要说明的是，本申请实施例仅对模型优化装置100的结构和功能模块进行示例性划分，但是并不对其具体划分做任何限定。

频域转换模块101用于将传声器阵列采集的多通道语音时域信号转换到频域中，获得多通道语音频域信号。

初始滤波模块102，用于将语音频域信号代入初始滤波器中，获得的多通道初始目标语音频域信号。其中，初始滤波器可以采用最小功率无失真响应滤波器、延迟求和滤波器、超指向性滤波器和多通道维纳滤波器中的任意一种。

迭代滤波模块103，用于根据多通道初始目标语音频域信号获得多通道语音频域信号对应的加权带噪协方差矩阵和声学传递函数，并确定最小功率无失真响应滤波器，然后利用最小功率无失真响应滤波器对进行多通道语音频域信号迭代滤波，并在迭代滤波中更新最小功率无失真响应滤波器。其中，滤波器的迭代滤波次数可以根据经验或实际场景进行设置。

时域转换模块104，用于将更新后的目标语音频域信号转换到时域中，获得目标语音时域信号。

下面结合图4详细说明本申请实施例中的基于传声器阵列的波束形成方法的流程图，该方法由波束形成装置执行。如图4所示的，该方法包括如下的步骤S1～步骤S4。

步骤S1.将多通道语音时域信号转换到频域中，获得多通道语音频域信号。

本实施例中，多通道语音时域信号由传声器阵列采集，一个通道的语音时域信号由传声器阵列中的一个传声器采集。对采集的语音信号进行FFT变换，即可获得多通道语音频域信号。传声器阵列可以是图1所示传声器阵列中的任意一种。并且，本实施例中所用到的多通道的信号均以向量形式参与计算。

步骤S2.对多通道语音频域信号进行初始滤波，获得多通道初始目标语音频域信号。

本实施例中，步骤S2可以将多通道语音频域信号y(k_,l)代入初始滤波器w₀(k,l)中进行滤波，获得初始滤波器输出的多通道初始目标语音频域信号

即

初始滤波器w₀(k,l)可以是最小功率无失真响应滤波器MPDR、延迟求和滤波器、超指向性滤波器和多通道维纳滤波器中的任意一种。

示例性的，当初始滤波器w₀(k,l)为MPDR滤波器时，根据传声器阵列采集的多通道历史语音时域信号确定初始滤波器。

具体地，如图5a所示，将多通道历史语音时域信号转换到频域中，获得多通道历史语音频域信号；然后根据公式

获取多通道历史语音频域信号对应的带噪协方差矩阵，根据预先获得的声学传递函数a(k,l)和带噪协方差矩阵，按公式(5)确定初始滤波器w₀(k,l)。其中，声学传递函数a(k,l)可以根据多通道历史语音频域信号及其对应的多通道历史目标频域信号进行估计。由于MPDR滤波器无需判断语音时域信号中每个时频点是否存在目标语音，为实际应用提供了便利。

可选地，为进一步提升初始滤波器的鲁棒性，如图5b所示，可根据公式(6)对语音频域信号进行一比特量化处理，然后再根据公式(7)获取量化处理后的多通道历史语音频域信号对应的带噪协方差矩阵

并替换式(5)的带噪协方差矩阵R(k,l)。

公式(6)中，Y_m,1-bit(k,l)为Y_m(k,l)经量化处理后的语音频域信号，

表示提取Y_m(k,l)的实部，

表示提取Y_m(k,l)的虚部，sign{·}为取符号运算。

公式(7)中，y_1-bit(k,l)＝[Y_1,1-bit(k,l)...Y_M,1-bit(k,l)]^T，将将式(7)的

替代式(5)的R(k,l)，即可获得MPDR滤波器。

此外，当初始滤波器w₀(k,l)为延迟求和滤波器时，即采用白噪声增益最大化方法确定初始滤波器w₀(k,l)＝w_DAS(k)，w_DAS(k)为延迟求和滤波器的表达形式。当初始滤波器w₀(k,l)为超指向性滤波器时，即采用噪声扩散场假设方法确定初始滤波器w₀(k,l)＝w_SD(k)，w_SD(k)为超指向性滤波器的表达形式。

当初始滤波器w₀(k,l)为多通道维纳滤波器时，根据多通道历史语音时域信号y′_m(n)确定初始滤波器w₀(k,l)；具体地，如图5c所示，先根据多通道历史语音时域信号y′_m(n)获得多通道历史语音频域信号y′_m(k,l)和历史噪声频域信号，然后分别获得带噪协方差矩阵R(k_,l)和噪声协方差矩阵Q(k,l)，最后按公式w₀(k,l)＝(R(k,l)+μQ(k,l))^-1R(k,l)e_m确定初始滤波器；其中，y′(k,l)＝[y′₁(k,l) … y′_m(k,l) … y′_M(k,l)]^T，e_m是M×1的向量，仅在第m个元素为1，其余值均为0；μ取值应该远远大于1值，本实施例中，典型取值为20。

本申请采用的多通道维纳滤波器的表达形式相比于通常采用的多通道维纳滤波器的表达形式w₀(k,l)＝R^-1(k,l)(R(k,l)-Q(k,l))e_m，可避免出现两个协方差矩阵相减运算可能导致的不满足协方差矩阵非负的假设。

在其他实施例中，步骤S2还可以采用谱减法、盲分离算法或深度学习语音模型对多通道语音频域信号进行处理，获得多通道初始目标语音频域信号，其中，深度学习语音模型可根据多通道历史语音频域信号和多通道历史目标语音频域信号构建训练集训练获得。

步骤S3.根据多通道初始目标语音频域信号构建MPDR滤波器，并利用MPDR滤波器对多通道语音频域信号进行滤波。

本实施例中，该步骤包括如下的步骤S301和步骤S302。

在步骤S301中，按公式

获取多通道初始目标语音频域信号

的功率谱

并根据

和y(k,l)确定多通道语音频域信号对应的加权带噪协方差矩阵

具体地，对λ_s(k,l)进行指数运算，获得多通道语音频域信号对应的权值向量，然后根据权值向量和多通道语音频域信号，确定多通道语音频域信号的加权带噪协方差矩阵

其中，权值向量中包括语音频域信号中各时频点对应的加权值。示例性的，本步骤可按公式(8)进行。

公式(7)中，p为常数，0≤p≤2，本实施例中，典型取值为p＝0.5，δ为大于零的小量，避免除零运算，j为帧数。本步骤计算加权带噪协方差矩阵时，基于p对功率谱进行指数运算，可加快波束形成的收敛速度。

在步骤S302中，根据

估计声学传递函数

首先，按公式

计算多通道初始目标语音频域信号对应的掩蔽值β(k,l)，基于掩蔽值β(k,l)，按公式

获得多通道语音频域信号对应的带噪协方差矩阵

其中，sign(·)为取符号运算。

然后，对

进行奇异值分解，并获取最大奇异值对应的特征向量q_max(k,l)进行幅值规整，从而获得多通道语音频域信号对应的声学传递函数

具体地，本步骤可按公式

进行。

在一个实施例中，当初始滤波器为MPDR滤波器时，即可直接将初始滤波器中的带噪协方差矩阵和声学传递函数替换为步骤S301获得的带噪协方差矩阵和步骤S302获得的声学传递函数。

步骤S4.当满足迭代滤波终止条件时，根据MPDR输出的多通道目标语音频域信号获得目标语音时域信号，当不满足迭代滤波终止条件数时，将多通道目标语音频域信号作为多通道初始目标语音频域信号，并返回步骤S3。

本实施例中，当满足滤波器的迭代滤波终止条件时，对滤波器输出的多通道目标语音频域信号

做快速傅里叶逆变换获得多通道目标语音时域信号，然后进行重叠相加获得目标语音时域信号并输出。当不满足滤波器的迭代滤波终止条件时，将多通道目标语音频域信号作为多通道初始目标语音频域信号返回步骤S3，以更新MPDR滤波器，提升滤波器鲁棒性。其中，终止条件可设置为迭代次数，具体地，可根据实际场景或经验设置。

本申请实施例采用迭代更新MPDR滤波器的方法对多通道语音频域信号进行迭代滤波器，可提升MPDR滤波器的鲁棒性，从而减小目标语音的失真，提高其可懂度。

从语音的语谱图来看，图6a示出的未处理的多通道语音时域信号的语谱图中，由于噪声的存在，低频部分中目标语音(浅色标记)较模糊，不够明显，中高频语音则完全被噪声所覆盖同样较为模糊；图6b示出的传统MPDR滤波器提取的目标语音信号的语谱图中，低频部分的标记不够清晰，还存在些许噪声未滤除，高频部分的标记也较模糊，目标语音存在失真；图6c示出的采用本申请迭代滤波提取的目标语音信号的语谱图中，低频和高频部分的标记足够清晰，明显降低了低频和高频中目标语音的失真。图6a-图6c中，横轴表示时间，纵轴表示频率，右侧条形图表示信号幅度的对数值。

从语音的波形图来看，图7示出的未处理的多通道语音信号的波形图中由于噪声的存在，目标语音的时变特性较为模糊，即短时能量差异下降；比较图7b示出的传统MPDR滤波器提取的目标语音信号的波形图和图7c示出的采用本申请迭代滤波提取的目标语音信号的波形图，图7c中的语音短时能量差异比图7b中的语音短时能量差异要大，因此，可表明本申请的方案提高MPDR滤波器的鲁棒性，从而降低了目标语音的失真，提高了噪声抑制性能。图7a-图7c中，横轴表示时间，纵轴表示信号幅度。

本申请实施例还提供了如图3中所示的波束形成装置100，该波束形成装置100包括的模块和功能如前文的描述，在此不再赘述。当波束形成装置为硬件设备时，该模型优化装置可以为一个计算设备，该计算设备可以前述智能手机、耳机或其他带有音频播放和采集的设备。该计算设备包括处理器，通信总线，存储器以及至少一个通信接口。

处理器可以是一个通用中央处理器(Central Processing Unit，CPU)，特定应用集成电路(application-specific integrated circuit，ASIC)，图形处理器(graphicsprocessing unit，GPU)或其任意组合。处理器可以包括一个或多个芯片，处理器可以包括AI加速器，例如：神经网络处理器(neural processing unit，NPU)。

通信总线可包括在计算设备各个部件(例如，处理器、存储器、通信接口)之间传送信息的通路。

存储器可以是只读存储器(read-only memory，ROM)或可存储静态信息和指令的其它类型的静态存储设备，随机存取存储器(random access memory，RAM))或者可存储信息和指令的其它类型的动态存储设备，也可以是电可擦可编程只读存储器(ElectricallyErasable Programmable Read-Only Memory，EEPROM)、只读光盘(Compact Disc Read-Only Memory，CD-ROM)或其它光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其它磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其它介质，但不限于此。存储器可以是独立存在，通过通信总线与处理器相连接。存储器也可以和处理器集成在一起。存储器可以存储计算机指令，当存储器中存储的计算机指令被处理器执行时，可以实现本申请的模型优化方法。另外，存储器中还可以存储有处理器在执行上述方法的过程中所需的数据以及所产生的中间数据和/或结果数据。

通信接口，使用任何收发器一类的装置，用于与其它设备或通信网络通信，如以太网，无线接入网(RAN)，无线局域网(Wireless Local Area Networks，WLAN)等。

在具体实现中，作为一种实施例，处理器可以包括一个或多个CPU。

在具体实现中，作为一种实施例，计算机设备可以包括多个处理器。这些处理器中的每一个可以是一个单核(single-CPU)处理器，也可以是一个多核(multi-CPU)处理器。这里的处理器可以指一个或多个设备、电路、和/或用于处理数据(例如计算机程序指令)的处理核。

可以理解的是，本申请的实施例中的处理器可以是中央处理模块(centralprocessing unit，CPU)，还可以是其他通用处理器、数字信号处理器(digital signalprocessor，DSP)、专用集成电路(application specific integrated circuit，ASIC)、现场可编程门阵列(field programmable gate array，FPGA)或者其他可编程逻辑器件、晶体管逻辑器件，硬件部件或者其任意组合。通用处理器可以是微处理器，也可以是任何常规的处理器。

本申请的实施例中的方法步骤可以通过硬件的方式来实现，也可以由处理器执行软件指令的方式来实现。软件指令可以由相应的软件模块组成，软件模块可以被存放于随机存取存储器(random access memory，RAM)、闪存、只读存储器(read-only memory，ROM)、可编程只读存储器(programmable rom，PROM)、可擦除可编程只读存储器(erasable PROM，EPROM)、电可擦除可编程只读存储器(electrically EPROM，EEPROM)、寄存器、硬盘、移动硬盘、CD-ROM或者本领域熟知的任何其它形式的存储介质中。一种示例性的存储介质耦合至处理器，从而使处理器能够从该存储介质读取信息，且可向该存储介质写入信息。当然，存储介质也可以是处理器的组成部分。处理器和存储介质可以位于ASIC中。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者通过所述计算机可读存储介质进行传输。所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘(solid state disk，SSD))等。

可以理解的是，在本申请的实施例中涉及的各种数字编号仅为描述方便进行的区分，并不用来限制本申请的实施例的范围。

Claims

1.一种基于传声器阵列的波束形成方法，其特征在于，包括：

将多通道语音时域信号以向量形式转换到频域中，获得向量形式的多通道语音频域信号，所述多通道语音时域信号由所述传声器阵列采集；

对所述多通道语音频域信号进行初始滤波，获得多通道初始目标语音频域信号；

利用由加权带噪协方差矩阵构成的最小功率无失真响应滤波器对所述多通道语音频域信号进行迭代滤波，获得多通道目标语音频域信号；其中，当前迭代滤波的所述加权带噪协方差矩阵由上一次迭代滤波获得的语音频域信号估算的功率谱作为加权值对所述多通道语音频域信号逐个时频点进行加权确定，并且第一次迭代滤波的所述加权带噪协方差矩阵由所述多通道初始目标语音频域信号估算的功率谱作为加权值对带噪信号逐个时频点进行加权确定；

根据所述多通道目标语音频域信号确定目标语音时域信号。

2.根据权利要求1所述的方法，其特征在于，在利用所述加权值对所述多通道语音频域信号逐个时频点进行加权之前，所述方法还包括：

对所述功率谱进行指数运算获得所述加权值。

3.根据权利要求1所述的方法，其特征在于，在当前迭代滤波之前，所述方法还包括：

根据上一次迭代滤波输出的语音频域信号和所述多通道语音频域信号确定声学传递函数；

根据所述声学传递函数和当前迭代滤波的所述加权带噪协方差矩阵，确定当前迭代滤波的最小功率无失真响应滤波器。

4.根据权利要求1所述的方法，其特征在于，在第一次迭代滤波之前，所述方法还包括：

根据所述声学传递函数和第一次迭代滤波的所述加权带噪协方差矩阵，确定第一次迭代滤波的最小功率无失真响应滤波器。

5.根据权利要求1所述的方法，其特征在于，所述根据上一次迭代滤波输出的语音频域信号和所述多通道语音频域信号确定声学传递函数包括：

根据所述语音频域信号和所述多通道语音频域信号，获取掩蔽值向量；

根据所述掩蔽值向量，获得所述多通道语音频域信号的目标语音协方差矩阵；

对所述目标语音协方差矩阵进行奇异值分解，根据奇异值分解结果确定所述声学传递函数。

6.根据权利要求1所述的方法，其特征在于，所述对所述多通道语音频域信号进行初始滤波，获得多通道初始目标语音频域信号包括：

利用预设的初始滤波器对所述多通道语音频域信号进行处理，获得所述多通道初始目标语音频域信号；

其中，所述初始滤波器包括最小功率无失真响应滤波器、延迟求和滤波器、超指向性滤波器和多通道维纳滤波器中的任意一种。

7.根据权利要求6所述的方法，其特征在于，当所述初始滤波器为所述最小功率无失真响应滤波器时，所述方法还包括：

根据多通道历史语音频域信号对应的声学传递函数和协方差矩阵确定所述初始滤波器。

8.根据权利要求7所述的方法，其特征在于，在获取所述多通道历史语音频域信号对应的带噪协方差矩阵之前，所述方法还包括：

对所述多通道历史语音频域信号进行一比特量化处理。

9.根据权利要求6所述的方法，其特征在于，所述初始滤波器为所述延迟求和滤波器，所述方法还包括：

采用白噪声增益最大化方法确定所述初始化的滤波器。

10.根据权利要求6所述的方法，其特征在于，所述初始滤波器为超指向性滤波器，所述方法还包括：

采用噪声扩散场假设方法确定所述初始滤波器。

11.根据权利要求6所述的方法，其特征在于，所述初始滤波器为多通道维纳滤波器，所述方法还包括：

根据所述多通道历史语音频域信号对应的带噪协方差矩阵和噪声协方差矩阵确定所述初始滤波器。

12.根据权利要求1所述的方法，其特征在于，所述对所述多通道语音频域信号进行初始滤波，获得多通道初始目标语音频域信号还包括：

采用谱减法、盲分离算法或深度学习语音模型对所述多通道语音频域信号进行处理，获得所述多通道初始目标语音频域信号，其中，所述深度学习语音模型根据多通道历史语音频域信号和多通道历史目标语音频域信号构建训练集训练获得。

13.一种基于传声器阵列的波束形成装置，其特征在于，所述装置包括：

频域转换模块，用于将多通道语音时域信号以向量形式转换到频域中，获得向量形式的多通道语音频域信号，所述多通道语音时域信号由所述传声器阵列采集；

初始滤波模块，用于对所述多通道语音频域信号进行初始滤波，获得多通道初始目标语音频域信号；

迭代滤波模块，用于利用由加权带噪协方差矩阵构成的最小功率无失真响应滤波器对所述多通道语音频域信号进行迭代滤波，获得多通道目标语音频域信号；其中，当前迭代滤波的所述加权带噪协方差矩阵由上一次迭代滤波获得的语音频域信号估算的功率谱作为加权值对所述多通道语音频域信号逐个时频点进行加权确定，并且第一次迭代滤波的所述加权带噪协方差矩阵由所述多通道初始目标语音频域信号估算的功率谱作为加权值对带噪信号逐个时频点进行加权确定；

时域转换模块，用于根据所述多通道目标语音频域信号确定目标语音时域信号。