CN114073106B

CN114073106B - 双耳波束形成麦克风阵列

Info

Publication number: CN114073106B
Application number: CN202080005496.5A
Authority: CN
Inventors: 陈景东; 王玉竹; 靳姬鲁; 黄公平; 雅各布·本尼斯迪
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2020-06-04
Filing date: 2020-06-04
Publication date: 2023-08-04
Anticipated expiration: 2040-06-04
Also published as: WO2021243634A1; US11546691B2; US20220248135A1; CN114073106A

Abstract

包括两个波束形成滤波器的双耳波束形成器可以通信地耦合到麦克风阵列以生成两个波束形成输出，一个用于左耳并且另一个用于右耳。波束形成滤波器可以这样配置，使得它们彼此正交以使双耳输出中的白噪声分量基本上不相关并且双耳输出中的期望的信号分量高度相关。从而使得，人类听觉系统可以更好地从白噪声中分离期望的信号并可以提高期望的信号的可懂度。

Description

双耳波束形成麦克风阵列

技术领域

本公开涉及麦克风阵列，具体地，涉及双耳波束形成麦克风阵列。

背景技术

麦克风阵列已被用于大范围的应用中，包括例如助听器、智能耳机、智能扬声器、语音通信、自动语音识别(ASR)、人机界面等。麦克风阵列的性能在很大程度上取决于它在有噪声和/或混响环境中提取感兴趣的信号的能力。由此，已经开发了很多技术来最大化感兴趣的信号的增益并抑制噪声、干扰和/或反射的影响。一种这样的技术称为波束形成，其根据信号源和麦克风的空间配置对接收到的信号进行滤波，以专注于源自特定位置的声音。然而，在实际情况下，传统的具有高增益的波束形成器缺乏处理噪声放大(例如，在特定频率范围内的白噪声放大)的能力。

附图说明

在附图的图中以示例而非限制的方式示出了本公开。

图1为示出根据本公开的实施方式的可以在其中配置示例麦克风阵列系统以进行操作的环境的简化图。

图2为示出根据本公开的实施方式的示例麦克风阵列系统的简化框图

图3为示出感兴趣的信号和噪声信号之间不同相位关系以及这样的相位关系对感兴趣的信号的模糊性的影响的图。

图4为示出根据本公开的实施方式的可以在其中配置示例双耳波束形成器以进行操作的环境的简化图。

图5为示出可以由包括两个正交波束形成滤波器的示例双耳波束形成器执行的方法的流程图。

图6为示出结合期望的信号和白噪声信号的本文所描述的示例双耳波束形成器与传统波束形成器的仿真输出耳间相干性的线图。

图7为示出根据本公开的实施方式的示例计算机系统的框图。

具体实施方式

图1为示出了可以在其中配置麦克风阵列102以进行操作的环境100的简化框图。麦克风阵列102可以与一个或多个应用相关联，所述应用包括例如助听器、智能耳机、智能扬声器、语音通信、自动语音识别(ASR)、人机接口等。环境100可以包括多个音频信号源。这些音频信号可以包括感兴趣的信号104(例如，语音信号)、噪声信号106(例如，漫射噪声)、干扰信号108、白噪声信号110(例如，从麦克风阵列102本身生成的噪声)和/或类似信号。所述麦克风阵列102可以包括被配置为串联操作的多个(例如，M个)麦克风(例如，声学传感器)。该麦克风可放置在平台上(例如，直线或曲线平台(cursive platform))，以便从它们各自的源/位置接收所述信号104、106、108和/或110。例如，可以根据彼此特定的几何关系来布置麦克风(例如，沿着线、在同一平面表面上、在三维空间中彼此之间以特定距离隔开等)。麦克风阵列102中的每个麦克风可以在特定时间相对于参考点(例如，麦克风阵列102中的参考麦克风位置)以特定入射角捕获源自源的音频信号的版本。可以记录声音捕获的时间，以便确定每个麦克风相对于参考点的时间延迟。所捕获的音频信号可以被转换成一个或多个电子信号以用于进一步处理。

麦克风阵列102可以包括或是以通信的方式耦合一个处理装置，例如数字信号处理器(DSP)或中央处理单元(CPU)。所述处理装置可以被配置为处理(例如，滤波)从麦克风阵列102接收的信号，并生成具有某些特性(例如，降噪、语音增强、声源分离、去混响，等)的音频输出112。例如，处理装置可以被配置为对经由麦克风阵列102接收的信号进行滤波，使得感兴趣的信号104可以被提取和/或增强，而其他信号(例如，信号106、108和/或110)可以被抑制以最小化它们可能对感兴趣的信号的不利影响。

图2为示出了如本文所述的示例麦克风阵列系统200的简化框图。如图2所示，该系统200可以包括麦克风阵列202，模数转换器(ADC)204和处理装置206。麦克风阵列202可以包括多个被布置为接收来自不同的源和/或位于不同的角度的音频信号的麦克风。在示例中，可以相对于坐标系(x，y)来指定麦克风的位置。坐标系可以包括可以参照其指定麦克风位置的原点(O)，其中该原点可以与麦克风之一的位置重合。麦克风的角度位置也可以参照坐标系来定义。源信号可以作为来自远场的平面波并以音速(例如，c＝340m/s)传播并撞击麦克风阵列202。

麦克风阵列202中的每个麦克风可以接收带有一定时间延迟和/或相移的源信号的版本。麦克风的电子组件可以将所接收的声音信号转换为可以被送到ADC 204内的电子信号。在示例实施方式中，ADC 204可以进一步将电子信号转换成一个或多个数字信号。

处理装置206可以包括输入接口(未示出)，以接收由ADC 204生成的数字信号。处理装置206可以进一步包括被配置成准备数字信号以进一步处理的预处理器208。例如，预处理器208可以包括硬件电路和/或软件程序，以使用例如短时傅立叶变换或其他合适类型的频域变换技术将数字信号转换为频域表示。

预处理器208的输出可以例如经由波束形成器210由处理装置206进一步处理。波束形成器210可以操作以将一个或多个滤波器(例如，空间滤波器)应用于接收到的信号以实现信号的空间选择性。在一个实施方式中，波束形成器210可被配置为处理所捕获的信号的相位和/或幅度，使得特定角度的信号可以经历相长干涉，而其他信号可能经历相消干涉。波束形成器210的处理可以导致形成期望的波束图(例如，指向性图)，该波束图可以增强来自一个或多个特定方向的音频信号。这样的波束图的用于最大化其在观测方向上的灵敏度(例如，与最大灵敏度相关联的音频信号的入射角度)与其在所有方向上的平均灵敏度的比值的能力，可以通过一个或多个参数来量化，所述参数例如包括指向性因子(DF)。

处理装置206还可以包括后处理器212，该后处理器212被配置为将由波束形成器210产生的信号变换成合适的形式以用于输出。例如，后处理器212可以操作以将由波束形成器210针对每个频率子带提供的估计转换回时域，使得麦克风阵列系统200的输出可以是听觉接收机能够理解的。

本文所描述的信号的和/或滤波可以从下面的描述中理解。对于作为来自方位角θ的平面波，以音速(例如，c＝340m/s)在消声声学环境中传播，并撞击在包括2M个全向麦克风的麦克风阵列上(例如，麦克风阵列202)的感兴趣的源信号，相应的长度为2M的导向矢量可被表示为如下：

其中，J可以表示虚数单位，即J²＝-1，ω＝2πf可以表示角度频率，f＞0为时间频率，τ₀＝δ/c可以表示在角度θ＝0上两个相邻传感器之间的延迟，δ是阵元间距，并且上标^T可以表示转置运算符。声波波长可以由λ＝c/f表示。

基于如上定义的导向矢量，长度为2M的频域观察信号向量可被表示为

y(ω)＝[Y₁(ω) Y₂(ω) … Y_2M(ω)]^T

＝x(ω)+v(ω)

＝d(ω，θ_s)X(ω)+v(ω)，

其中Y_m(ω)可以表示第m个麦克风信号，x(ω)＝d(ω，θ_s)X(ω)，X(ω)可以表示感兴趣的零均值源信号(例如，期望的信号)，d(ω，θ_s)可以表示信号传播向量(例如，其可以采用与转向向量相同的形式)，并且v(ω)可以表示定义类似于y(ω)的零均值加性噪声信号向量。

根据上述内容，关于y(ω)的2M×2M的协方差矩阵可以被推导为

其中E[·]可以表示数学期望，上标^H可以表示共轭-转置运算符，可以表示X(ω)的方差，/>可以表示v(ω)的方差矩阵，可以表示位于第一传感器或麦克风处的噪声V₁(ω)的方差，以及Γ_v(ω)＝Φ_v(ω)/φ_V1(ω)(例如，通过利用φ_V1(ω)归一化Φ_v(ω))可表示噪声的伪相干矩阵。可以假设在多个传感器或麦克风之间(例如，在所有传感器或麦克风之间)的噪声的方差是相同的。

本文所描述的传感器间距δ可以被假设为小于声波波长λ(例如，δ＜＜λ)，其中λ＝c/f。这可能意味着ωτ₀小于2π(例如，ωτ₀＜＜2π)并且真实声学压力差可以由麦克风输出的有限差来近似。此外，可以假设期望的源信号将从角度θ＝0(例如，以端射方向)传播。因此，y(ω)可以表示为

y(ω)＝d(ω，0)X(ω)+v(ω)

并且在端射处，波束形成器的波束图的值可以等于1或具有最大值。

在波束形成器滤波器的示例实施方式中，可以在麦克风阵列102的一个或多个麦克风(例如，在每个麦克风)的输出处应用复权重。然后可以

将加权后的输出一起求和以获得源信号的估计，如下所示：

Z(ω)＝h^H(ω)y(ω)

＝X(ω)h^H(ω)d(ω,0)+h^H(ω)v(ω)

其中Z(ω)可以表示期望信号X(ω)的估计并且h(ω)可以表示长度2M的空间线性滤波器，其包括应用到麦克风的输出的复权重。信号源的方向上的无失真约束可以被计算为：

h^H(ω)d(ω,0)＝1,

并且波束形成器的指向性因子(DF)可以被定义为：

其中对于i,j＝1,2,...,2M,[Γ_d(ω)]_i,j可以表示球面各向同性(例如，漫射的)噪声的伪相干矩阵，并且可以被

推导为：

基于以上所示定义和/或计算，通过最大化DF并考虑以上所示的无失真约束，波束形成器(被称为超指向波束形成器)可以表示如下：

(例如，考虑到本文所述的阵列几何结构)，对应于这种波束形成器的DF可以具有最大值，该最大值可以表示为：

本文描述的示例波束形成器能够生成频率不变(例如，由于DF的增加或最大化)的波束图。但是，DF的增加可能会导致更大的噪声放大，例如由麦克风阵列102中的麦克风的硬件元件产生的白噪声的放大(例如，在低频范围内)。为了降低噪声放大对感兴趣的信号的不良影响，可以考虑在麦克风阵列102中部署较少数量的麦克风，规范化矩阵Γ_d(ω)和/或设计具有极低的自噪声水平的麦克风阵列102。但是，这些方法可能成本高昂且难以实施，或者可能会对波束形成器性能的其他方面产生负面影响(例如，导致DF减小、波束图的形状发生变化和/或波束图更加依赖于频率)。

本公开的实施方式探索音频信号被感知的位置和/或方向在人类听觉系统中的信号(例如，以低于诸如1kHz的频率)的可懂度上的影响，以解决本文所述的噪声放大问题。在人类双耳听觉系统中对语音信号的感知可以被分类为同相位和异相位，而对噪声信号(例如，白噪声信号)的感知可以被分类为同相位、随机相位或异相位。如本文中所引用的，“同相位”可以意味着到达双耳接收机(例如，具有诸如一对耳机的两个接收通道的接收机、具有两个耳朵的人等)的两个信号流具有基本上相同的相位(例如，大致相同的相位)。“异相位”可以意味着到达双耳接收机的两个信号流的相位相差大约180°。“随机相位”可以意味着到达双耳接收机的两个信号流之间的相位关系是随机的(例如，信号流的各自相位相差一个随机量)。

图3为示出与感兴趣的信号(例如，语音信号)和噪声信号(例如，白噪声)相关联的不同相位场景，以及耳间相位关系对这些信号的定位的影响的图。左列示出双耳噪声信号流之间的相位关系可以分类为同相位，随机相位和异相位。顶行示出双耳语音信号流之间的相位关系可以分类为同相位和异相位。图3的其余部分示出当信号并存于环境中时，由双耳接收机感知的语音信号和噪声信号两者的相位关系的组合。例如，单元格302描绘了一个场景，其中语音流和白噪声流在双耳接收机处都为同相位(例如，作为单声道波束形成的结果)，并且单元格304描绘了一个场景，其中到达的双耳接收机的语音流为同相位，而到达接收机的噪声流具有随机相位关系。

语音信号的可懂度可以基于语音信号和白噪声的相位关系的组合而变化。以下表1示出了基于语音和噪声之间的相位关系的可懂度排序，其中反相的和异相的情况对应于较高级别的可懂度，而同相的情况对应于较低级别的可懂度。

表1-基于语音/噪声相位关系的可懂度排序

可懂度	语音	噪声	分类
				1	异相位	同相位	反相的
2	同相位	异相位	反相的
				3	同相位	随机相位	异相的
4	异相位	随机相位	异相的
				5	同相位	同相位	同相的
6	异相位	异相位	同相的

当语音信号和噪声被感知为来自同一方向(例如，如在同相的情况下)，人类听觉系统将难于从噪声中分离语音，并且语音信号的可懂度将受到影响。因此，诸如双耳线性滤波的双耳滤波可以结合波束形成(例如，固定波束形成)来执行，以生成具有与以上所示的反相的或异相的情况相对应的相位关系的双耳输出(例如，两个输出流)。双耳输出中的每一个可以包括对应于感兴趣的信号(例如，语音信号)的信号分量和对应于噪声信号(例如，白噪声)的噪声分量。可以以这样的方式来应用滤波：使得输出流的噪声分量变得不相关(例如，具有随机相位关系)，而输出流的信号分量保持相关(例如，为彼此同相)和/或被增强。因此，期望的信号和白噪声可被感知为来自不同的方向，并被更好地分离以提高可懂度。

图4为示出了环境400中的被配置为应用双耳滤波以提高期望信号的可懂度的麦克风阵列402的简化框图。环境400可以类似于图1中描绘的环境100，其中感兴趣的信号404和白噪声信号410的各自的源并存。类似于图1的麦克风阵列102，麦克风阵列402可以包括被配置为串联操作的多个(例如，M个)麦克风(例如，声学传感器)。这些麦克风可以被放置为例如以不同的角度和/或在不同的时间从其位置捕获感兴趣的信号404(例如，源音频信号)的不同版本。该麦克风还可以捕获一个或多个其他音频信号(例如，噪声406和/或干扰408)，所述音频信号包括由麦克风阵列402本身的电子元件生成的白噪声410。

麦克风阵列402可以包括或可以通信地耦合到诸如数字信号处理器(DSP)或中央处理单元(CPU)的处理装置。所述处理装置可以被配置为对感兴趣的信号404和/或白噪声信号410应用双耳滤波，并为双耳接收机生成多个输出。例如，处理装置可以将第一波束形成器滤波器h₁应用到感兴趣的信号404和白噪声信号410以生成第一音频输出流。处理装置还可以将第二波束形成器滤波器h₂应用到感兴趣的信号404和白噪声信号410以生成第二音频输出流。第一和第二音频输出流中的每一个可以包括白噪声分量412a和期望信号分量412b。白噪声分量412a可以对应于白噪声信号410(例如，白噪声信号的已滤波版本)，并且期望信号分量412b可以对应于感兴趣的信号404(例如，感兴趣的信号的已滤波版本)。滤波器h₁和h₂可被设计为彼此正交，使得白噪声分量412a在第一和第二音频输出流中变得不相关(例如，具有随机相位关系或约为零的耳间相干性(IC))。滤波器h₁和h₂还可以以这样的方式来配置：使得期望信号分量412b在第一和第二音频输出流中是彼此同相位的(例如，具有约为一的IC)。因此，第一和第二音频输出的双耳接收机可以将感兴趣的信号404和白噪声信号410感知为来自不同位置和/或方向，并且因此可以提高感兴趣的信号的可理解性。

在一个实施方式中，可以结合固定波束形成来执行双耳线性滤波。两个复数值线性滤波器(例如，h₁(ω)和h₂(ω))可以被应用到所观察的信号向量，诸如本文所述的y(ω))。滤波器的各自长度可以取决于包括在相关麦克风阵列中的麦克风的数量。例如，如果相关麦克风阵列包括2M个麦克风，则滤波器的长度可以为2M。

源信号(例如，X(ω))的两个估计(例如，Z₁(ω)和Z₂(ω))可以响应于信号的双声道滤波而获得。估计可以表示为

并且Z_i(ω)的方差可以表示为

其中Γ_v(ω),Φ_y(ω),Φ_v(ω),φ_X(ω),φ_V1(ω)和d(ω,0)的各自含义如本文所述。

基于以上，两个无失真约束可以被确定为

并且输入信噪比(SNR)和输出SNR可被分别计算为

和

在至少某些场景下(例如，当h₁(ω)＝i_i且h₂(ω)＝i_j时,其中i_i与i_j分别为2M×2M单位矩阵I_2M的第i与第j列)，双耳输出SNR可以等于输入SNR(例如，oSNR[i_i(ω),i_j(ω)]＝iSNR(ω))。基于输入SNR和输出SNR，双耳SNR增益可以例如被确定为

还可以确定与双耳波束形成相关联的其他度量，所述度量可以包括：例如，表示为W[h₁(ω),h₂(ω)]的双声道白噪声增益(WNG)、表示为D[h₁(ω),h₂(ω)]的双耳指向性因子(DF)和表示为|B[h₁(ω),h₂(ω),θ]|²的双耳波束图。这些度量可以根据以下方式计算：

其中已在上文解释了Γ_d(ω)的含义。

人类听觉系统中的双耳信号的定位可以取决于另一项度量，其在本文中称为信号的耳间相干性(IC)。IC的值(或IC的模数)可以根据双声道信号的相关性而增加或减小。例如，当源信号的两个音频流高度相关时(例如，当两个音频流彼此同相位时，或者当人类听觉系统将两个音频流感知为来自单个信号源时)，IC的值可以达到最大值(例如，1)。当源信号的两个音频流基本不相关时(例如，当两个音频流具有随机相位关系时，或者当人类听觉系统将两个流感知为来自两个独立的源时)，IC的值可以达到最小值(例如，0)。IC的值可以指示大脑用于定位声音的其他双耳线索(例如，耳间时间差(ITD)、耳间声级差(ILD)、声场的宽度等)，或者可以与大脑用于定位声音的其他双耳线索有关。随着声音的IC减小，大脑对声音进行定位的能力可能会相应降低。

可以如下确定和/或理解耳间相干性的影响。令A(ω)和B(ω)为两个零均值复数值随机变量。A(ω)和B(ω)之间的相干函数(CF)可以被定义为

其中上标*表示复共轭运算符。γ_AB(ω)的值可满足以下关系：0≤|γ_AB(ω)|²≤1。对于一对或多对(例如，对于任意一对)的麦克风或传感器(i,j)，噪声的输入IC可对应于V_i(ω)and V_j(ω)之间的CF，如下所示。

白噪声的输入IC,即γ_w(ω),和漫射噪声的输入IC,即γ_d(ω),可以为如下

γ_w(ω)＝0

噪声的输出IC可以被定义为在Z₁(ω)和Z₂(ω)中经滤波的噪声之间的CF，如下所示。

在至少某些场景下(例如，当h₁(ω)＝i_i且h₂(ω)＝i_j时)，输入和输出IC可以是相等的，即，γ[i_i(ω),i_j(ω)]＝γ[h₁(ω),h₂(ω)]。白噪声的输出IC，即γ_w[h₁(ω),h₂(ω)]，和漫射噪声的输出IC，即γ_d[h₁(ω),h₂(ω)]，可以分别被确定为

和

当滤波器h₁(ω)和h₂(ω)共线时，以下情况可能成立：

当滤波器h₁(ω)和h₂(ω)彼此正交时(例如，h₁ ^H(ω)h₂(ω)＝0)，期望的源信号和噪声(例如，白噪声)之间的分离可以得到改进。下面解释可以如何推导这样的正交滤波器，和它们对期望的信号和噪声之间的分离的影响，以及对期望的信号的增强的可懂度的影响。

本文所述的矩阵Γ_d(ω)可以是对称的，并且可以被对角化为

U^T(ω)Γ_d(ω)U(ω)＝Λ(ω)

其中

U(ω)＝[u₁(ω) u₂(ω) … u_2M(ω)]

可以是满足以下条件的正交矩阵

U^T(ω)U(ω)＝U(ω)U^T(ω)＝I_2M

并且

Λ(ω)＝diag[λ₁(ω)，λ₂(ω)，...，λ_2M(ω)]

可以是对角矩阵。

正交向量u₁(ω)，u₂(ω)，...，u_2M(ω)可以是分别对应于矩阵Γ_d(ω)的特征值λ₁(ω)，λ₂(ω)，...，λ_2M(ω)的特征向量，其中λ₁(ω)≥λ₂(ω)≥···≥λ_2M(ω)＞0。由此，可以最大化本文描述的漫射噪声的输出IC的正交滤波器可被确定为

CF的第一最大模式可以如下：

具有对应的向量q_+，1(ω)和q_-，1(ω)，其中

CF的所有M个最大模式(从m＝1，2，...，M)都可以满足以下条件

具有相应的向量q_+，m(ω))和q_-，m(ω)，其中

并且

基于上文，以下情况可能成立：

从两个向量集合q_+，m(ω)和q_-，m(ω)中，m＝1，2，....，M，两个大小为2M×M的半正交矩阵可以形成为：

Q₊(ω)＝[q_+，1(ω) q_+，2(ω) … q_+，M(ω)]，

Q_-(ω)＝[q_-，1(ω) q_-，2(ω) … q_-，M(ω)]，

其中

I_M是M×M的单位矩阵。

以下情况也可能成立：

其中

Λ_-(ω)＝diag[λ_-，1(ω)，λ_-，2(ω)，...，λ_-，M(ω)]，

Λ₊(ω)＝diag[λ_+，1(ω)，λ_+，2(ω)，...，λ_+，M(ω)]，

是两个大小为M×M的对角矩阵，对角线元素λ_-，m(ω)＝λ_m(ω)-λ_2M-m+1(ω)并且λ_+，m(ω)＝λ_m(ω)+λ_2M-m+1(ω)。

令N为2≤N≤M的正整数，两个大小为2M×M的半正交矩阵可以定义如下：

Q_+，：N(ω)

＝[q_+，1(ω) q_+，2(ω) … q_+，N(ω)]，Q_-，：N(ω)

＝[q_-，1(ω) q_-，2(ω) … q_-，N(ω)]

在示例实施方式中，本文描述的正交滤波器可以采取以下形式：

/>

其中

可以表示长度N的公共复数值滤波器。对于此类正交滤波器，漫射噪声的输出IC可以计算为

其中

Λ_-，N(ω)＝diag[λ_-，1(ω)，λ_-，2(ω)，...，λ_-，N(ω)]

Λ_+，N(ω)＝diag[λ_+，1(ω)，λ_+，2(ω)，...，λ_+，N(ω)]

并且

基于上文，双耳WNG、DF、和功率波束图可以分别确定为如下：

和

其中

可以是大小为N×2的矩阵，并且无失真约束可以是

其中N≥2。

由以上可以得出Z_i(ω)的方差为：

其中对于φ_Z1(ω)，Q_±,:N(ω)＝Q_+,:N(ω)，并且对于φ_Z2(ω),Q_±,:N(ω)＝Q_-,:N(ω)。在漫射加白噪声的情况下(例如，Γ_d(ω)＝Γ_d(ω)+I_2M)，Z_i(ω)的方差可以简化为

这表明φ_Z1(ω)可以等于φ_Z2(ω)(例如，φ_Z1(ω)＝φ_Z2(ω))。

此外，两个估计Z₁(ω)和Z₂(ω)的互相关可以如下确定：

在漫射加白噪声(例如，Γ_d(ω)＝Γ_d(ω)+I_2M)的情况下，该互相关可能会变为

这可以不依赖于白噪声。对于Γ_v(ω)＝Γ_d(ω)+I_2M，所估计的信号的输出IC可以被确定为

从上文可以看出，在某些场景下(例如，对于大的输入SNR)，所估计的信号的定位线索可以(例如，主要地)取决于期望的信号的定位线索，而在其他场景下(例如，对于低SNR)，所估计的信号的定位线索可以(例如，主要地)取决于漫射加白噪声的定位线索。因此，可以通过最小化受本文描述的无失真约束限制的经滤波的漫射噪声信号的总和来获得第一双耳波束形成器(例如，双耳超指向波束形成器)。求和可以例如按以下方式执行：

从中可以得出以下：

并且相应的DF可以确定为：

因此，第一双耳波束形成器可以由以下表示：

可以通过最大化本文描述的DF来获得第二双耳波束形成器(例如，第二双耳超指向波束形成器)。例如，当

上面所示的DF可以改写为：

其中

C′(ω，0)C′^H(ω，0)可表示NxN厄米特(Hermitian)矩阵并且矩阵的秩可以等于2。由于有两个约束(例如，无失真约束)要满足，因此可以考虑两个特征向量，表示为t′₁(ω)和t′₂(ω)。这些特征向量可以对应于矩阵C′(ω，0)C′^H(ω，0)的两个非空的特征值，表示为λt′₁(ω)andλt′₂(ω)。由此，最大化如以上改写的具有两个自由度的DF的滤波器(由于要满足两个约束)可以如下所示：

其中

α′(ω)＝[α′₁(ω) α′₂(ω)]^T≠0

可以是长度为2的任意复数值向量，并且T′_1∶2(ω)可以被确定为：

T′_1∶2(ω)＝[t′₁(ω) t′₂(ω)]

因此，最大化上述DF的滤波器可以表示为：

并且相应的DF可以确定为：

基于以上内容，可以得出以下：

并且第二双耳波束形成器可以被确定为：

通过在双耳波束形成器中包括两个子波束形成滤波器(例如，每一个子波束形成滤波器用于双耳通道之一)，并使滤波器彼此正交，波束形成器的双耳输出中的白噪声分量的IC可以被降低(例如，被最小化)。在一些实施方式中，波束形成器的双耳输出中的漫射噪声分量的IC也可以被增加(例如，被最大化)。波束形成器的双耳输出中的信号分量(例如，感兴趣的信号)可以为同相位而输出中的白噪声分量可以具有随机相位关系。这样，在从波束形成器接收双耳输出时，人类听觉系统可以更好地从白噪声中分离感兴趣的信号，并减弱白噪声放大的影响。

图5为示出了可以由包括两个正交滤波器的示例波束形成器(例如，图2的波束形成器210)执行的方法500的流程图。方法500可以由包括硬件(例如，电路、专用逻辑、可编程逻辑、微代码等)、软件(例如，在处理装置上运行以执行硬件仿真的指令)，或其组合的处理逻辑执行。

为了简化说明，将方法描绘和描述为一系列动作。然而，根据本公开的动作可以以各种顺序和/或同时发生，并且伴随本文未呈现和描述的其他动作。此外，可能不需要所有示出的动作来实现根据所公开的主题的方法。另外，这些方法可以替代地经由状态图或事件表示为一系列相互关联的状态。另外，应当理解，在本说明书中公开的方法能够被存储在制品上，以便于将这样的方法传输和转移到计算装置。本文所使用的术语制品旨在涵盖可从任何计算机可读装置或存储介质访问的计算机程序。

参照图5，在502处，方法500可以由与麦克风阵列(例如，图1中的麦克风阵列102、图2中的202或图4中的402)相关联的处理装置(例如，处理装置206)来执行。在504处，处理装置可以接收包括源音频信号(例如，感兴趣的信号)和噪声信号(例如，白噪声)的音频输入信号。在506处，处理装置可以将第一波束形成器滤波器应用于包括感兴趣的信号和噪声信号的音频输入信号，以生成指定用于第一声道接收机的第一音频输出。第一音频输出可以包括以各自的第一相位为特性的第一源信号分量(例如，表示感兴趣的信号)和第一噪声分量(例如，表示白噪声)。在508处，处理装置可以将第二波束形成器滤波器应用于包括感兴趣的信号和噪声信号的音频输入信号，以生成指定用于第二声道接收机的第二音频输出。第二音频输出可以包括以各自的第二相位为特性的第二源信号分量(例如，表示感兴趣的信号)和第二噪声分量(例如，表示白噪声)。第一和第二波束形成器滤波器可以以使得两个输出的噪声分量不相关(例如，具有随机相位关系)并且两个输出的源信号分量相关(例如，彼此同相位)的方式构造。在510处，第一和第二音频输出可被提供给各自声道接收机或各自音频通道。例如，第一音频输出可以被提供给第一声道接收机(例如，用于左耳)，而第二音频输出可被指定用于第二声道接收机(例如，用于右耳)。输出中的白噪声分量的耳间相干性(IC)可以被最小化(例如，具有约为零的值)，而输出中的信号分量的耳间相干性(IC)可以被最大化(例如，具有约为一的值)。

图6为结合期望的信号和白噪声，将本文所描述的示例双耳波束形成器的仿真输出IC与传统波束形成器的仿真输出IC进行比较的线图。图的上半部分示出了双耳与传统波束形成器两者的期望的信号的输出IC等于一，而该图的下半部分示出了双耳波束形成器的白噪声的输出IC等于零并且传统波束形成器的白噪声的输出IC等于一。这表明，在双耳波束形成器的两个输出信号中，信号分量(例如，期望的信号)是基本上相关的，而白色噪声分量基本上不相关。由此，输出信号对应于本文讨论的异相的情况，其中期望的信号和白噪声被感知为来自空间中的两个单独的方向/位置。

本文所述的双耳波束形成器还可具有一个或多个其他期望特性。例如，虽然由双耳波束形成器生成的波束图可以根据包括在与波束形成器相关联的麦克风阵列中的麦克风的数量而改变，但所述波束图可以基本上相对于频率不变(例如，基本上是频率不变的)。此外，当与相同阶(例如，一阶、二阶、三阶和四阶)的传统波束形成器相比时，双耳波束形成器不仅可以提供更好的期望的信号和白噪声信号之间的分离，而且还产生更高的白噪声增益(WNG)。

图7为示出根据示例实施例的采用计算机系统700的示例形式的机器的框图，在该计算机系统700中可以执行指令集或指令序列以使该机器执行本文所讨论的方法中的任何一种。在替代实施例中，该机器作为独立装置操作，或者可以连接(例如，联网)到其他机器。在联网部署中，机器可以在服务器-客户机网络环境中以服务器或客户机机器的身份操作，或者可以在对等(或分布式)网络环境中充当对等机器。该机器可以是车载系统、可穿戴装置、个人计算机(PC)、平板PC、混合平板、个人数字助理(PDA)、移动电话或任何能够(顺序或以其他方式)执行指定该机器要采取的动作的指令的机器。此外，虽然仅示出了单个机器，但是术语“机器”也应被理解为包括机器的任何集合，这些机器单独地或共同地执行一组(或多组)指令以执行本文讨论的任何一个或多个方法。类似地，术语“基于处理器的系统”应被认为包括由处理器(例如，计算机)控制或操作的任何一组一个或多个机器，以单独或共同执行指令以执行本文讨论的任何一个或多个方法。

示例计算机系统700包括至少一个处理器702(例如，中央处理单元(CPU)、图形处理单元(GPU)或两者、处理器核、计算节点等)，主存储器704和静态存储器706，它们经由链接708(例如，总线)彼此通信。计算机系统700可以进一步包括视频显示单元710、字母数字输入装置712(例如，键盘)和用户界面(UI)导航装置714(例如，鼠标)。在一个实施例中，视频显示单元710、输入装置712和UI导航装置714被并入触摸屏显示器中。计算机系统700可以另外包括存储装置716(例如，驱动单元)、信号生成装置718(例如，扬声器)、网络接口装置720以及一个或多个传感器(未示出)，诸如全球定位系统(GPS)传感器、指南针、加速度计、陀螺仪、磁力计或其他传感器。

存储装置716包括机器可读介质722，该机器可读介质722上存储了一组或多组数据结构和指令724(例如，软件)，这些数据结构和指令724体现了本文所描述的一种或多种方法或功能或由其利用。指令724也可以在由计算机系统700执行的期间，全部或至少部分地驻留在主存储器704、静态存储器706和/或处理器702内，主存储器704、静态存储器706和处理器702也构成机器可读介质。

虽然在示例实施例中将机器可读介质722示为单个介质，但是术语“机器可读介质”可以包括存储一个或多个指令的724的单个介质或多个媒介(例如，集中式或分布式数据库，和/或相关联的高速缓存和服务器)。术语“机器可读介质”还应当被认为包括能够存储、编码或携带由机器执行的指令并使机器执行本公开的任何一种或多种方法，或者能够存储、编码或携带由此类指令利用或与此类指令相关联的数据结构的任何有形介质。因此，术语“机器可读介质”应被认为包括但不限于固态存储器以及光和磁介质。机器可读介质的特定示例包括易失性或非易失性存储器，包括但不限于，举例来说，半导体存储装置(例如，电可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM))和闪存装置；诸如内部硬盘和可移动磁盘之类的磁盘；磁光盘；以及CD-ROM和DVD-ROM磁盘。

指令724还可以利用多种众所周知的传输协议中的任何一种(例如HTTP)，经由网络接口装置720使用传输介质通过通信网络726发送或接收。通信网络的示例包括局域网(LAN)、广域网(WAN)、互联网、移动电话网络、普通旧电话(POTS)网络和无线数据网络(例如Wi-Fi，3G和4G LTE/LTE-A或WiMAX网络)。术语“传输介质”应被认为包括能够存储、编码或携带由机器执行的指令的任何无形介质，并且包括数字或模拟通信信号或其他无形介质以促进这种软件的通信。

在前面的描述中，阐述了许多细节。然而，对于受益于本公开的本领域普通技术人员显而易见的是，可以在没有这些具体细节的情况下实践本公开。在一些实例中，以框图的形式而不是详细地示出了众所周知的结构和装置，以避免使本公开不清楚。

已经根据计算机存储器内的数据位的操作的算法和符号表示来呈现详细描述的某些部分。这些算法描述和表示是数据处理领域的技术人员用来最有效地将其工作的实质传达给本领域其他技术人员的手段。这里，算法通常被认为是产生期望结果的自洽的步骤序列。这些步骤是需要对物理量进行物理操纵的步骤。通常，尽管不是必须的，这些量采取能够被存储、传输、组合、比较和以其他方式操纵的电或磁信号的形式。主要出于通用的原因，已经证明有时将这些信号称为位、值、元素、符号、字符、项、数字等是方便的。

然而，应当牢记，所有这些和类似术语均应与适当的物理量相关联，并且仅仅是应用于这些量的方便标签。除非从下面的讨论中另外明确指出，否则应理解，在整个描述中，利用诸如“分段”、“分析”、“确定”、“启用”、“识别”、“修改”等术语的讨论表示计算机系统或类似电子计算装置的动作和过程，其将表示为计算机系统寄存器和存储器中的物理(例如电子)量的数据，操纵和转换为其他表示为计算机系统存储器或其他此类信息存储、传输或显示装置中的物理量的数据。

词语“示例”或“示例性”在本文中用来表示充当示例、实例或说明。本文中被描述为“示例”或“示例性”的任何方面或设计不一定被解释为比其他方面或设计优选或有利。相反，词语“示例”或“示例性”的使用旨在以具体方式呈现概念。如在本申请中使用的，术语“或”旨在表示包含性的“或”而不是排他性的“或”。也就是说，除非另有说明或从上下文可以清楚地看出，否则“X包括A或B”旨在表示任何自然的包含性排列。也就是说，如果X包括A；X包括B；或X包括A和B，则在任何上述情况下均满足“X包括A或B”。另外，在本申请和所附权利要求中使用的冠词“一”和“一个”通常应被解释为意指“一个或多个”，除非另有说明或从上下文清楚地指向单数形式。此外，除非如此描述，否则贯穿全文使用术语“实施例”或“一个实施例”或“实施方式”或“一个实施方式”并不旨在表示相同的实施例或实施方式。

在整个说明书中对“一个实施方式”或“实施方式”的引用是指结合该实施方式描述的特定特征、结构或特性包括在至少一个实施方式中。因此，在整个说明书中各处出现的短语“在一个实施方式中”或“在实施方式中”不一定都指的是同一实施方式。另外，术语“或”旨在表示包含性的“或”而不是排他性的“或”。

应当理解，以上描述意图是说明性的而不是限制性的。在阅读和理解以上描述之后，许多其他实施方式对于本领域技术人员将是显而易见的。因此，本公开的范围应参考所附的权利要求以及这些权利要求所赋予的等效物的全部范围来确定。

Claims

1.一种由通信地耦合到包括M个麦克风的麦克风阵列的处理装置实现的方法，其中M大于1，所述方法包括：

从所述麦克风阵列接收包括源音频信号和噪声信号的音频输入信号；

由执行与所述麦克风阵列相关联的第一波束形成器滤波器的处理装置对所述音频输入信号进行滤波，以生成指定用于第一声道接收机的第一音频输出信号，所述第一音频输出信号包括对应于所述源音频信号的第一音频信号分量和对应于所述噪声信号的第一噪声分量；

由执行与所述麦克风阵列相关联的第二波束形成器滤波器的处理装置对所述音频输入信号进行滤波，以生成指定用于第二声道接收机的第二音频输出信号，所述第二音频输出信号包括对应于所述源音频的第二音频信号分量和对应于所述噪声信号的第二噪声分量，其中通过所述第二波束形成器滤波器执行的滤波基本上正交于通过所述第一波束形成器滤波器执行的滤波，从而使得所述第一噪声分量基本上与所述第二噪声分量不相关；以及

将所述第一音频输出信号提供给所述第一声道接收机，并且将所述第二音频输出信号提供给所述第二声道接收机。

2.根据权利要求1所述的方法，其中，所述第一音频信号分量和所述第二音频信号分量基本上彼此同相位，并且其中所述第一噪声分量和所述第二噪声分量彼此具有随机相位关系。

3.根据权利要求1所述的方法，其中，所述第一噪声分量和所述第二噪声分量之间的耳间相干性值具有基本上等于零的值。

4.根据权利要求1所述的方法，其中，所述第一音频信号分量和所述第二音频信号分量之间的耳间相干性值基本上等于一。

5.根据权利要求1所述的方法，其中，所述第一音频信号分量基本上与所述第二音频信号分量相关。

6.根据权利要求1所述的方法，其中，对应于所述第一波束形成器滤波器的第一向量与对应于所述第二波束形成器滤波器的第二向量的内积基本上等于零。

7.根据权利要求1所述的方法，其中，将所述第一音频输出信号提供给所述第一声道接收机，并且将所述第二音频输出信号提供给所述第二声道接收机包括：同时将所述第一音频输出信号提供给所述第一声道接收机并将所述第二音频输出信号提供给所述第二声道接收机。

8.根据权利要求1所述的方法，其中，所述第一声道接收机被配置为提供所述第一音频输出到使用者的左耳，以及所述第二声道接收机被配置为提供所述第二音频输出到所述使用者的右耳。

9.根据权利要求1所述的方法，进一步包括将波束形成应用于所述源音频信号以创建基本上频率不变的波束图。

10.根据权利要求1所述的方法，其中，通过所述第一波束形成器滤波器或所述第二波束形成器滤波器中的至少一个执行的滤波在无失真约束下最大化与所述麦克风阵列相关联的指向性因子。

11.一种麦克风阵列系统，包括：

数据存储；和

处理装置，其通信地耦合到所述数据存储和麦克风阵列的M个麦克风，其中M大于1，以：

通过执行与所述麦克风阵列相关联的第一波束形成器滤波器对所述音频输入信号进行滤波，以生成指定用于第一声道接收机的第一音频输出信号，所述第一音频输出包括对应于所述源音频信号的第一音频信号分量和对应于所述噪声信号的第一噪声分量；

通过执行与所述麦克风阵列相关联的第二波束形成器滤波器对所述音频输入信号进行滤波，以生成指定用于第二声道接收机的第二音频输出，所述第二音频输出信号包括对应于所述源音频的第二音频信号分量和对应于所述噪声信号的第二噪声分量，其中通过所述第二波束形成器滤波器执行的滤波基本上正交于通过所述第一波束形成器滤波器执行的滤波，从而使得所述第一噪声分量基本上与所述第二噪声分量不相关；以及

12.根据权利要求11所述的麦克风阵列系统，其中，所述第一音频信号分量和所述第二音频信号分量基本上彼此同相位，并且其中所述第一噪声分量和所述第二噪声分量彼此具有随机相位关系。

13.根据权利要求11所述的麦克风阵列系统，其中，所述第一噪声分量和所述第二噪声分量之间的耳间相干性值具有基本上等于零的值。

14.根据权利要求11所述的麦克风阵列系统，其中，所述第一音频信号分量和所述第二音频信号分量之间的耳间相干性值基本上等于一。

15.根据权利要求11所述的麦克风阵列系统，其中，所述第一音频信号分量基本上与所述第二音频信号分量相关。

16.根据权利要求11所述的麦克风阵列系统，其中，对应于所述第一波束形成器滤波器的第一向量与对应于所述第二波束形成器滤波器的第二向量的内积基本上等于零。

17.根据权利要求11所述的麦克风阵列系统，其中，为了将所述第一音频输出信号提供给所述第一声道接收机，并且将所述第二音频输出信号提供给所述第二声道接收机，所述处理装置同时将所述第一音频输出信号提供给所述第一声道接收机并将所述第二音频输出信号提供给所述第二声道接收机。

18.根据权利要求11所述的麦克风阵列系统，其中，所述第一声道接收机被配置为提供所述第一音频输出到使用者的左耳，以及所述第二声道接收机被配置为提供所述第二音频输出到所述使用者的右耳。

19.根据权利要求11所述的麦克风阵列系统，其中，所处理装置被进一步配置为将波束形成应用于所述源音频信号以创建基本上频率不变的波束图。

20.根据权利要求11所述的麦克风阵列系统，其中，由所述处理装置执行的所述第一波束形成器滤波器或所述第二波束形成器滤波器中的至少一个在无失真约束下最大化与所述麦克风阵列相关联的指向性因子。

21.一种存储指令的非暂时性机器可读存储介质，所述指令在被执行时使处理装置执行以下操作：

从M个麦克风的麦克风阵列接收包括源音频信号和噪声信号的音频输入信号，其中M大于1；

通过执行与所述麦克风阵列相关联的第二波束形成器滤波器对所述音频输入信号进行滤波，以生成指定用于第二声道接收机的第二音频输出信号，所述第二音频输出信号包括对应于所述源音频的第二音频信号分量和对应于所述噪声信号的第二噪声分量，其中通过所述第二波束形成器滤波器执行的滤波基本上正交于通过所述第一波束形成器滤波器执行的滤波，从而使得所述第一噪声分量基本上与所述第二噪声分量不相关；以及

将所述第一音频输出提供给所述第一声道接收机，并且将所述第二音频输出提供给所述第二声道接收机。

22.根据权利要求21所述的非暂时性机器可读存储介质，其中，所述第一音频信号分量和所述第二音频信号分量基本上彼此同相位，并且其中所述第一噪声分量和所述第二噪声分量彼此具有随机相位关系。