CN105376673B

CN105376673B - 一种电子设备

Info

Publication number: CN105376673B
Application number: CN201510815720.8A
Authority: CN
Inventors: 迈克尔·M·古德温
Original assignee: Creative Technology Ltd
Current assignee: Creative Technology Ltd
Priority date: 2007-10-19
Filing date: 2008-10-17
Publication date: 2020-08-11
Anticipated expiration: 2028-10-17
Also published as: SG187503A1; CN105376673A; US20090103749A1; GB2466172A; GB2466172B; CN101828407B; CN101828407A; WO2009052444A3; US8934640B2; GB201006663D0; WO2009052444A2

Abstract

本公开涉及基于空间分析的麦克风阵列处理器。一种阵列处理系统通过形成多个被操纵波束并执行对声音场景的空间分析来提高空间选择性。该分析得到一时间‑频率掩蔽，该时间‑频率掩蔽在被应用到基准观看方向波束(或其他基准信号)时增强了目标源并极大地提高了对指定区域外部的干扰源的抵制。

Description

一种电子设备

分案申请说明

本申请是申请日为2008年10月17日的题为“基于空间分析的麦克风阵列处理器”的发明专利申请No.200880112211.7的分案申请。

相关申请的交叉引用

本申请涉及并通过引用并入2007年5月17日递交的题为“Spatial Audio CodingBased on Universal Spatial Cues”的美国专利申请No.11/750, 300，该在先美国申请No.11/750,300通过引用并入2006年5月17日递交的美国临时申请No.60/747,532的公开内容，该在先美国临时申请 No.60/747,532的公开内容也通过引用被整体上结合于此。此外，本申请以 2007年10月19日递交的题为“Enhanced Microphone Array Beamformer Basedon Spatial Analysis”的美国临时专利申请No.60/981,458 (CLIP231PRV)为优先权并要求其公开内容的权益，该在先美国临时申请的全部内容通过引用被整体上结合于此。

技术领域

本发明涉及麦克风阵列。更具体而言，本发明涉及应用到这些阵列的处理方法。

背景技术

对于电话会议、IP电话、汽车应用等，需要远程谈话自动通信。不幸的是，在这些应用中的通信通常受来自不想要的声源的回响和干扰所阻碍。麦克风阵列先前已被用来改善不利环境中的语音接收，但是基于线性处理(例如，延迟和波束成形(delay-sumbeamforming))的小型阵列由于低方向性和高电平旁瓣而只允许进行有限改善。

所需要的是一种改进的波束成形系统。

发明内容

本发明提供了一种波束成形和处理系统，该系统通过形成多个被操纵波束并对声音场景执行空间分析来提高麦克风阵列的空间选择性。该分析得到一时间-频率掩蔽，该时间-频率掩蔽在被应用到基准观看方向波束 (或其他基准信号)时增强了目标源并极大地提高了对指定目标区域外部的干扰源的抵制。

在一个实施例中，提供了一种增强音频信号的方法。输入信号在具有多个换能器的麦克风阵列处被接收到。随后从该麦克风阵列生成多个音频信号。这多个音频信号在多波束成形器处被处理以形成用于采样音频场景的多个被操纵波束以及一基准信号，例如在目标源的方向上的基准波束 (其中，该基准波束可以是前述多个被操纵波束之一)。对于多个被操纵波束中的每一个分配一空间方向向量。这些空间方向向量与由多波束成形器所生成的相应波束信号相关联。基于空间方向向量和波束信号的空间分析被执行。空间分析的结果被用来提高基准观看方向波束(或其他基准信号)的空间选择性。

在一个实施例中，多个被操纵波束是通过将输入麦克风信号与被应用到阵列中的换能器的元素滤波和进展延迟中的至少一者相关联来生成的。

在其他实施例中，基准信号被确定为多个波束信号之和、来自麦克风阵列的单个麦克风信号、观看方向波束、或者跟踪所选说话者的跟踪波束。

在又一实施例中，增强操作包括确定时间-频率掩蔽并将其应用到基准信号。在又一实施例中，时间-频率掩蔽被进一步适配以丢弃来自预定目标区域外部的干扰信号。

在另一实施例中，一种增强被配置用于接收来自环境的信号的阵列的空间选择性的方法包括：在多个元件处接收信号；以及生成用于采样声音环境的多个被操纵波束。基准信号被识别并且针对每个时间和频率估计到达方向。在某些实施例中，估计的到达方向包括指示在该时间和频率上声音环境的方向性程度的幅度参数。所作估计被用作基础来接受、衰减或丢弃基准信号的分量以创建输出信号。

下面将参考附图来描述本发明的这些和其他特征和优势。

附图说明

图1(a) -1(d) 是示出用于标准5声道格式的方向向量的图。

图2是示出根据本发明一个实施例的增强波束成形器的框图。

具体实施方式

现在将详细参考本发明的优选实施例。优选实施例的示例在附图中示出。虽然将结合这些优选实施例来描述本发明，但是将会理解，不希望将本发明局限于这些优选实施例。相反，希望覆盖可以包括在由所附权利要求所限定的本发明的精神和范围内的替代方式、修改和等同物。在以下描述中，提出多个具体细节来提供对本发明的全面理解。本发明可以在无需这些具体细节中的某些或全部的情况下实施。在其他实例中，没有详细描述公知的机构，以免不必要地模糊本发明。

这里应该注意，遍及各个附图的类似标号指示类似部件。这里示出和描述的各个附图被用于图示说明本发明的各个特征。就在一张附图中示出而在其他附图中没有示出的一个特定特征而言，除非特别指示或者该结构本质上禁止并入该特征，否则将理解为这些特征可以被适应性修改以包括到在其他附图中表示的实施例中，就好像这些特征在这些附图中被完全示出一样。除非特别指示，否则附图不一定是按比例绘制的。在附图中提供的任何量纲都不认为是对本发明的范围的限制而仅仅是示例性的。

本发明的实施例通过形成多个被操纵波束(steered beam)并对声音场景进行空间分析来提供改善的波束成形。该分析得到一时间-频率掩蔽 (mask)，该时间-频率掩蔽在被应用到基准信号(例如观看方向波束) 时增强目标源并充分提高对在所识别的目标区域外部的干扰源的抵制。观看方向波束是通过组合各个麦克风阵列信号以使得麦克风阵列在某一方向上(称之为“观看”方向)被最大接收来形成的。虽然观看方向波束由于来自除了观看方向之外的其他方向的源一般相对于观看方向源被衰减而具有空间选择性，但是这种相对衰减在不利环境中是不足够的。对于这些环境，诸如在本发明中所公开的额外处理是有益的。

在各个实施例中所描述的波束成形算法使得能够在可能受回响和不想要的源的存在所损害的环境中有效地利用小型阵列来接收语音(或其他目标源)。在优选实施例中，该算法可扩展到阵列中任意数目的麦克风，并且可应用到任意阵列几何学。

根据一个实施例，阵列被配置为在跨越声音环境的多个方向上形成接收波束。针对所需源确定一个已知的、被标识的或被跟踪的方向。

在各个实施例中，本发明基本涉及麦克风阵列方法，麦克风阵列方法相对单麦克风方法是有利的，因为它们提供了空间过滤机制，该机制可以基于一组先验条件来灵活地涉及并且容易随声音条件改变而被适配，例如，通过自动跟踪移动说话者或操纵零讯号(null)来抵御时间变化干扰源。虽然这些适配性对于响应变化的和/或挑战的声音环境是有用的，但是简单线性波束成形器的性能方面存在固有局限，因为不想要的源由于受限的方向性和旁瓣抑制而仍然得到承认；对于小型阵列(例如将适合于消费者应用的小型阵列)，低方向性和高电平旁瓣确实是严重的问题。在各个实施例中，本发明提供了采用基于多个被操纵波束的空间分析的波束成形和后处理方案；该分析得到一时间-频率掩蔽，该时间-频率掩蔽提高了对在空间上与所需源有所不同的干扰声音的抵抗力。

作为背景目的，所描述的方法应用了先前应用到不同声道信号的空间分析方法。例如，空间分析方法先前已被应用到多声道系统，其中输入包括不同声道信号以及它们的空间位置(由格式角度确定)。在本发明的实施例中，使用多波束成形器将来自阵列中的换能器(transducer)的输入信号分解成多个单独的波束信号并对每个接收的波束信号分配一空间上下文(例如，方向向量)。

下面描述的空间分析-合成方案是针对空间音频编码(SAC)和增强而开发的。该分析得到所感觉到的声音事件的空间位置参数表示。在合成中，这些空间提示(spatial cue)被用于呈现输入场景的可信再现；或者可替换地，提示可以被修改来产生经过空间变化的呈现。以下论述集中在用于将空间分析-合成应用到本发明的波束成形系统的重要概念。

空间提示

在听觉定位的基本理论中，当同一信号从M个不同方向(带有不同的权重α_m)到达听众时所感觉到的聚集方向由下式给出：

其中，

是指示M个信号方向的单位向量，下文称之为格式向量；对于各个方向的归一化权重β_m由信号权重α_m根据下式给出：

该所谓的Gerzon向量可以被容易地应用到多声道音频信号(例如，标准的五声道音频格式)的定位，例如，当格式向量

对应于角度{- 30°，30°，0°，-110°，110°}时。

图1(a)-1(d) 示出在收听环境中各个方向向量的应用。图1(a)示出用于标准的5声道音频格式的向量。在图1(b)中，针对5声道信号(实线) 示出如等式(1)和(2)所指定的Gerzon向量(虚线)；在图1(c) 中，针对2个活动声道的Gerzon向量被示出；在图1(d)中，相应的增强后的方向向量被示出。图1(c)和1(d)的曲线还示出Gerzon向量的多边形编码轨迹(locus)。Gerzon方向向量、增强的方向向量以及用于空间分析的相关方法在题为“SpatialAudio Coding Based on Universal Spatial Cues”的美国申请No.11/750,300中有更详细描述，该美国申请通过引用被结合于此。

在具有中心听众并且声音事件的位置通过极坐标(r，θ)被参数化的听圆周(listening-circle)情形中，(其中，角度θ是声音方向，半径r是其在圆周上的位置)，r＝1对应于一离散点源，r＝0对应于一无方向源，并且中间r值对应于圆周内的位置，例如在越过(fly-over)或穿过 (fly-through)声音事件中。给定一组信号(多声道音频信号)和各自的格式向量(声道角度)，等式(1)的Gerzon向量提供了对在该听圆周情形中感觉到的声音事件的聚集角度θ的可靠估计。但是，Gerzon向量由于其低估了r而具有缺点，之所以低估r是因为其大小受由格式向量

所限定的已记下的多边形所限制。以对具有两个活动相邻声道的信号的大小低估为例，该编码轨迹在图1(c)中示出。对于这种成对摆动的点源，所需结果(r＝1)在图1(d)中示出。固有的Gerzon向量大小低估在2007 年5月17日递交的题为“Spatial Audio Coding Based on Universal Spatial Cues”的美国申请No.11/750,300中所描述的空间分析方法中本质上通过补偿性规模调整而得到解决，该美国申请通过引用被结合于此。在该方法中，向量

被分解成成对的并且无方向的(或零)分量，并且增强的方向向量被表示如下：

其中，半径r基于成对零分解。

具体讲，

其中，矩阵P_ij的列是两个包围

的格式向量

和

即，角度最靠近(在任一侧)由

给出的角度提示θ的格式向量。半径r则是

在由这对相邻的格式向量

和

所限定的基础上的扩展的系数之和。

与本发明的各个波束成形系统实施例相关的关键思想在于：(1)方向向量

(或

)给出一大概的聚集信号方向θ；以及(2)半径r本质上捕获到接收的信号从多个方向发起的程度。本领域技术人员将理解，在二维情况下，方向向量

(或

)可以等同地使用坐标(r，θ)来表示。

本发明的实施例通过形成多个被操纵的波束来针对波束成形情形调整该方案，所述被操纵的波束本质上在由操纵角度φ_m所给出的各个方向上对该声音场景采样。在一个实施例中，多波束成形和操纵是通过线性组合输入的麦克风信号x_n[t]与进展延迟nmτ_s和元素滤波a_n[t]来执行的：

在其他实施例中，使用替代方法来形成不同方向上的多个波束。在优选实施例中，a_n[t]被设计为实现波束图样中的频率不变性。在另一实施例中，可以使用简单的统一加权a_n[t]＝δ[t]来使得处理开销最小化。由处理采样率F_s确立的单位延迟τ_s导致波束成形器操纵角度的离散化。对于线性阵列几何学，操纵角度由下式给出：

其中，τ₀是针对阵列中的空间上最靠近的元素的元素间行进时间。在优选实施例中，使用线性阵列几何学，但是该方法也可以被应用到其他配置。

根据本发明的一个实施例的增强波束成形系统的框图如图2所示。最初，传入麦克风信号x_n(202)被接收，该信号x_n包含来自麦克风阵列的单独的换能器信号；这些传入麦克风信号是时域信号，但是图中没有标注时间索引。如前所述，传入信号202可以包括所需信号以及附加信号，例如来自不想要的源的干扰和回响，所有这些信号都被单独的换能器(麦克风)所拾取和传输。在块204中，接收的信号被处理，以生成与多个被操纵的波束相对应的波束信号。如图所示，M个波束信号b_m[t](206)经由 STFT(短时间傅立叶变换)208被转换成时间-频率表示B_m[k，l](209)；这些波束信号209随后被与它们的空间上下文(操纵角度φ_m(210))一道提供到空间分析模块212。在替换实施例中，如本领域技术人员将理解的，多波束成形和空间后处理通过在频域上实现多波束成形器而被集成。

在空间分析模块212中，(r，θ)提示(214)被从波束信号209和波束操纵方向210导出。基准信号S[k，l](216)优选地对应于在观看方向上操纵的波束，例如，其操纵角度最靠近所需观看方向θ₀的B_m[k，l](209)。但是，在不同实施例中，基准信号可以由在多波束成形器中生成的所有波束信号的和、单麦克风信号或由全通波束(具有统一的空间接收性的波束)生成的信号来表示。为了从基准信号216生成输出信号219，在块 218中应用基于空间标准(提示)214的乘法性时间-频率掩蔽。一般而言，空间分析212被用来聚集多个接收的信号以产生主导方向。基准信号 (例如，基准观看方向波束)的空间选择性随后通过在块218中应用时间 -频率掩蔽所实现的过滤操作而得到增强，所述过滤是基于方向提示214 的。合成信号219随后在反向短时间傅立叶变换模块220中被处理，以生成增强的时域输出信号222。

在本发明的实施例中，使用空间提示从基准信号生成合成信号可以被理解为时间-频率掩蔽的应用，该时间-频率掩蔽基于空间标准来提取分量。在一个实施例中，空间音频编码(SAC)应用，掩蔽的特定构造 (即，摆动权重(panning weight))帮助实现在解码器处重建输入音频场景的目标。但是，在波束成形实施例中，掩蔽构造可以容易地概括如下：

(7)Y[k，l]＝H(r[k，l]，θ[k，l])S[k，l]

其中，H()是时间-频率掩蔽，该时间-频率掩蔽是(r[k，l]，θ[k，l])的函数，即，通过空间分析确定的时间取决于时间和频率的空间信息。在一个实施例中，H()是通过建立“合成格式”来构造的，该“合成格式”由在所需观看方向上的输出声道角θ₀、在观看方向任一侧的相邻声道附近(例如，θ₀±5°)以及宽间隔的声道(例如，θ₀±90°)构成。然后，在该本实施例的另一方面，H()将被建立作为声道0的摆动掩蔽，并且只有θ[k，l]处于相邻声道之间(即，在θ₀±5°处的声道)的分量将被摆动到声道0输出信号中；在全合成实施例中，其他方向上的分量将在其他声道之间摆动。此外，掩蔽可以被调整以仅包括成对的分量，即

由于r[k，l]对于当在除了θ[k，l]之外的方向上不存在明显干扰源时的值k和l将很大(接近于1)并且当存在这样的干扰源时将较小，因此与r[k，l]成比例的掩蔽将抑制基准信号的由于干扰源(其在空间上不同于观看方向)而被毁损的时间 -频率区域。

虽然上述掩蔽已在试验中被证明是有效的，但是其用来将基准信号摆动到输出声道中所使用的成对摆动构造中包含某种不必要的复杂性。在另一实施例中，掩蔽是作为空间提示的函数来直接构造的，例如：

其中，θ₀是所需观看方向，角度宽度Δ定义了围绕θ₀的与三角空间窗口相对应的过渡区域。

因此，本发明实施例提供了若干对传统技术的改进。相对于传统波束成形器，对不想要的源的抵制得到极大改善。与其他增强方法相比，该算法比“源分离”波束成形器更高效，并且比基于源和干扰源特性的统计估计的增强“后滤波器”更有效。本发明可以被理解为改进的后滤波方法，其中后滤波器是基于空间分析来得出的。此外，该算法可以被容易地应用到宽带情况，这不同于其他增强的波束成形方法。

本发明实施例的范围可以被扩展到包括任意类型的麦克风阵列，例如范围从双麦克风系统到扩展的多麦克风系统。在替换实施例中，该技术还可以被应用在多麦克风助听器中。

虽然已经出于清楚理解的目的而较详细地描述了本发明，但是将会意识到，在所附权利要求的范围内可以进行某些改变和修改。因此，所述实施例将被认为是示例性的而非限制性的，并且本发明并不局限于这里给出的细节，而是可以在所附权利要求的范围和等同物之内进行修改。

Claims

1.一种用于增强音频信号的电子设备，包括：

麦克风阵列，用于接收声音信号；以及

增强波束成形系统，该增强波束成形系统被配置为：

接收由所述麦克风阵列生成的多个音频信号；

处理所述多个音频信号以形成基准信号；

处理所述多个音频信号以形成多个被操纵波束；

根据所述多个被操纵波束和多个波束操纵方向导出多个方向提示；以及

将空间分析应用到所述多个被操纵波束以表征音频场景，其中所述空间分析包括针对每个时间和频率的主导方向估计，所述主导方向估计被用来确定所述基准信号的分量在时间和频率上被包括在输出信号中的程度，其中所述多个方向提示用于生成乘法性时间-频率掩蔽来增强所述输出信号。

2.如权利要求1所述的电子设备，其中，所述空间分析包括为所述多个被操纵波束中的每个被操纵波束分配一空间方向向量，并将该向量与对应于所述多个被操纵波束的波束信号相关联。

3.如权利要求1所述的电子设备，其中，所述增强波束成形系统还被配置为：使用所述表征来构造一增强操作，所述增强操作在被应用到所述基准信号时提高了空间选择性并减小了所述基准信号中不想要的噪声。

4.如权利要求1所述的电子设备，其中，所述多个被操纵波束是通过将所述多个音频信号与应用到麦克风阵列的元素滤波和进展延迟中的至少一者相结合来生成的。

5.如权利要求3所述的电子设备，其中，所述增强操作包括导出乘法性时间-频率掩蔽并将其应用到所述基准信号。

6.如权利要求5所述的电子设备，其中，所述基准信号是对应于所述多个被操纵波束的多个波束信号之和。

7.如权利要求5所述的电子设备，其中，所述基准信号是对应于被操纵波束的单个波束信号。

8.如权利要求5所述的电子设备，其中，所述基准信号对应于在一预定观看方向上的被操纵波束。

9.如权利要求5所述的电子设备，其中，所述基准信号是跟踪一所选说话者的跟踪波束。

10.一种用于增强音频信号的电子设备，包括：

麦克风阵列，用于接收音频场景中的声音信号；以及

增强波束成形系统，该增强波束成形系统被配置为：

形成多个被操纵波束；

基于所述多个被操纵波束来执行音频场景的空间分析；

使用所述空间分析的结果和所述多个方向提示来得到一乘法性时间-频率掩蔽，该乘法性时间-频率掩蔽被应用到基准信号以增强目标源，所述基准信号是通过处理由所述麦克风阵列生成的多个音频信号来形成的，所述空间分析包括针对每个时间和频率的主导方向估计，所述主导方向估计被用来确定所述基准信号的分量在时间和频率上被包括在输出信号中的程度。

11.如权利要求10所述的电子设备，其中，所述基准信号是一观看方向上的被操纵波束。

12.如权利要求10所述的电子设备，其中，所述乘法性时间-频率掩蔽被进一步适配以丢弃来源于预定目标区域外部的干扰信号。

13.一种电子设备，该电子设备包括：

麦克风阵列，该麦克风阵列被配置为在多个麦克风处接收声音信号；以及

增强波束成形系统，该增强波束成形系统被配置为：

生成多个被操纵波束；

通过处理由所述麦克风阵列生成的多个音频信号来识别基准信号；

根据所述多个被操纵波束和多个波束操纵方向导出多个方向提示；

针对每个时间和频率估计到达方向；以及

使用所述估计作为基础来接受、衰减或丢弃所述基准信号的分量以创建输出信号，其中所述多个方向提示用来生成一乘法性时间-频率掩蔽，以增强所述输出信号。