CN110199528B

CN110199528B - 远场声音捕获

Info

Publication number: CN110199528B
Application number: CN201780082340.5A
Authority: CN
Inventors: M.克里斯托夫
Original assignee: Harman Becker Automotive Systems GmbH
Current assignee: Harman Becker Automotive Systems GmbH
Priority date: 2017-01-04
Filing date: 2017-12-11
Publication date: 2021-03-23
Anticipated expiration: 2037-12-11
Also published as: US20190348056A1; EP3545691B1; JP2020504966A; WO2018127359A1; EP3545691A1; KR102517939B1; KR20190099445A; CN110199528A

Abstract

一种用于远场声音捕获的系统方法，所述方法包括：拾取声音以提供M≥2个传声器信号；对所述M个传声器信号(和一个或多个参考信号)进行回声消除处理以提供M个回声消除的信号；以及对所述M个回声消除的信号进行波束成形处理以提供B≥1个波束成形的信号。

Description

远场声音捕获

技术领域

本公开涉及一种用于远场声音捕获的系统和方法(统称为“系统”)。

背景技术

用于远场声音捕获的系统(也被称为远场传声器或远场传声器系统)适于记录来自定位在距远场传声器更大的距离(例如，若干米)处的期望声源的声音。然而，声源与远场传声器之间的距离越大，期望声噪比越低。在本案中，术语“噪声”包括不携带信息、想法或情绪的声音(例如，没有言语或音乐)。如果噪声是非期望的，那么它也被称为干扰噪声。当言语或音乐被引入诸如住宅或办公室内部的充满噪声的环境中时，内部中存在的噪声可能对期望言语通信或音乐呈现有非期望的干扰效果。降噪通常是非期望信号的衰减，但是也可能包括期望信号的放大。期望信号可以是言语信号，而非期望信号可以是在环境中的干扰期望信号的任何声音。已经结合降噪使用的三种主要方法如下：定向波束成形、频谱减法和基于音调的言语增强。设计用于接收空间上传播的信号的系统通常遇到干扰信号的存在。如果期望信号和干扰源占用相同的时间频带，那么不能使用时间滤波来将期望信号与干扰分离。存在对改善降噪的期望。

发明内容

一种用于远场声音捕获的系统包括：M≥2个传声器，所述M≥2个传声器被配置为拾取声音和提供M个电传声器信号；多通道声学回声消除器，所述多通道声学回声消除器被配置为接收所述M个传声器信号(和一个或多个参考信号)和提供M个回声消除的信号；以及(固定)波束成形器块，所述(固定)波束成形器块被配置为接收所述M个回声消除的信号和处理所述M个回声消除的信号以提供B≥1个波束成形的信号。

一种言语停顿检测器包括：时间-频率变换块，所述时间-频率变换块被配置为将在时域中的输入信号变换为在频域中的输入信号；分裂器，所述分裂器被配置为将在所述频域中的所述输入信号拆分成在所述频域中的多个中间信号；以及多个噪声估计器，所述多个噪声估计器被配置为估计在所述频域中的每个中间信号中包含的噪声。所述言语停顿检测器还包括：多个信噪比评估器，所述多个信噪比评估器被配置为从在所述频域中的所述多个中间信号和在所述频域中的每个中间信号中包含的所述估计的噪声来评估在所述频域中的每个输入信号的所述信噪比；多个比较器，所述多个比较器被配置为将每个信噪比与预定阈值进行比较，以提供信噪比较信号；加法器，所述加法器被配置为将所述信噪比较信号相加和提供和信号；以及语音活动检测器，所述语音活动检测器被配置为检测在所述和信号中言语信号的出现和未出现以及提供指示言语信号的所述出现和所述未出现的语音活动信号。

一种用于远场声音捕获的方法，所述方法包括：拾取声音以提供M≥2个传声器信号；对所述M个传声器信号(和一个或多个参考信号)进行回声消除处理以提供M个回声消除的信号；以及对所述M个回声消除的信号进行波束成形处理以提供B≥1个波束成形的信号。

一种言语停顿检测方法包括：将在时域中的输入信号变换为在频域中的输入信号；将在所述频域中的所述输入信号拆分成在所述频域中的多个中间信号；估计在所述频域中的每个中间信号中包含的噪声；以及从在所述频域中的所述多个中间信号和在所述频域中的每个中间信号中包含的所述估计的噪声来评估在所述频域中的每个输入信号的所述信噪比。所述方法还包括：将每个信噪比与预定阈值进行比较，以提供信噪比较信号；将所述信噪比较信号相加并提供和信号；以及检测在所述和信号中言语信号的出现和未出现以及提供指示言语信号的所述出现和所述未出现的语音活动信号。

在研究下面的详细描述和附图后，其它系统、方法、特征和优点对于本领域的技术人员将是显而易见的或将变得显而易见。所有这些附加的系统、方法、特征和优点都应包括在本说明书中、在本发明的范围内，并且受所附权利要求书的保护。

附图说明

参考下面的附图和描述可以更好地理解系统。附图中的部件未必按比例绘制，而是将重点放在说明本发明的原理上。此外，在附图中，相同的附图标记在各个不同的视图中表示对应的部件。

图1是示出示例性远场传声器系统的示意图。

图2是示出可适用于图1中所示的远场传声器系统的示例性声学回声消除器的示意图。

图3是示出示例性滤波器和求和波束成形器的示意图。

图4是示出示例性波束转向块的示意图。

图5是示出具有自适应后置滤波器而没有自适应阻塞滤波器的自适应波束成形器的简化结构的示意图。

图6是具有示例性言语停顿检测块的示例性远场传声器的示意图。

图7是示出在频域中操作的示例性言语停顿检测块的示意图。

附图在一个或多个结构部件的上下文中描述了概念。附图中所示的各种部件可以以任何方式实现，包括例如在适当的硬件上执行的软件或固件程序代码、硬件及其任何组合。在一些示例中，各种部件可以反映在实际实现方式中对应的部件的使用。某些部件可以被分解为多个子部件，并且某些部件可以以与本文所示的次序不同的次序实现，包括并行方式。

具体实施方式

已经发现，期望信号和干扰信号通常源自不同的空间位置。因此，在音频应用中可以使用波束成形技术改善信噪比。常见波束成形技术包括延迟和求和技术、使用算法(诸如Griffiths-Jim算法)的自适应有限脉冲响应(FIR)滤波技术以及基于人类双耳听觉系统的建模的技术。

波束成形器可以被分类为数据独立或统计最佳的，这取决于权重的选择方式。在数据独立波束成形器中的权重不取决于阵列数据，并且被选择为针对所有信号/干扰场景呈现指定响应。统计上最佳的波束成形器基于数据的统计而选择权重以优化波束成形器响应。数据统计通常是未知的，并且可能随时间而变化，因此使用自适应算法获得收敛到统计上最佳的解的权重。计算方面的考虑要求使用具有由大量传感器组成的阵列的部分地自适应波束成形器。已经提出许多不同的方法来实现最佳波束成形器。一般，统计上最佳的波束成形器在干扰源的方向上放置零点，以试图最大化在波束成形器输出处的信噪比。

在许多应用中，期望信号可能具有未知强度，并且可能不总是存在。在此类应用中，不可能正确地估计在最大信噪比(SNR)中的信号和噪声协方差矩阵。缺乏关于期望信号的知识可能阻止对参考信号方法的利用。通过将线性约束应用于权重矢量，可以克服这些限制。使用线性约束是允许对波束成形器的自适应响应的扩展的控制的方法。然而，不存在通用线性约束设计方法，并且在许多应用中，不同类型的约束技术的组合可能是有效的。然而，试图找到用于设计线性约束的单一最佳方式或不同方式的组合限制了依赖于用于波束成形应用的线性约束设计的技术的使用。

广义旁瓣抵消(GSC)技术是解决与用于波束成形应用的线性约束设计技术相关联的缺点的替代方法。本质上，GSC是用于将受约束的最小化问题转变为无约束的形式的机制。GSC使来自某个方向的期望信号不失真，同时抑制从其它方向辐射的非期望信号。然而，GSC使用两个路径结构：用于实现指向期望信号的方向的(固定)波束成形器的期望信号路径，以及理想地自适应地生成纯噪声估计的非期望信号路径，从固定波束成形器的输出信号减去纯噪声估计，从而通过抑制噪声来增加其信噪比(SNR)。

非期望信号路径，即用于噪声估计的路径，可以以两部分方法实现。非期望信号路径的第一级从该级的输入信号移除或阻塞期望信号的剩余分量，例如，在单一输入的情况下为自适应阻塞滤波器，或如果使用多于一个输入信号，那么为自适应阻塞矩阵。非期望信号路径的第二级还可以包括自适应(多通道)干扰消除器(AIC)，以便生成单通道估计的噪声信号，然后从期望信号路径的输出信号(例如，固定波束成形器的任选地时间延迟的输出信号)减去该单通道估计的噪声信号。因此，可以抑制固定波束成形器的任选地时间延迟的输出信号中包含的噪声，以产生更好的SNR，因为期望信号分量理想地不会受该处理的影响。当且仅当在噪声估计内的所有期望信号分量能够被成功地阻挡时，这种情况才会成真，在实践中很少是这种情况，并且因此表示与当前自适应波束成形算法相关的主要缺点之一。

可以例如通过从总体声音信号减去估计的回声信号来实现声学回声消除。为了提供实际回波信号的估计，已经开发了在时域中操作并可采用处理时间离散信号的自适应数字滤波器的算法。这种自适应数字滤波器以这样的方式操作，即参考预设质量函数来优化限定滤波器的传输特性的网络参数。例如，通过参考参考信号最小化自适应网络的输出信号的平均平方误差来实现这样的质量函数。

现在参考图1，在示例性远场声音捕获系统中，来自期望声源101的对应于源信号x(n)(其中n是(离散)时间指数)的声音经由一个或多个扬声器(未示出)辐射，行进穿过房间，在那里用具有传递函数h₁(z)……h_M(z)的对应的房间脉冲响应(RIR)100进行滤波，其中z是频率指数，并且在由提供M个传声器信号的M(M是整数，例如2、3或更多)个传声器107拾取所得的声音信号之前，可能最终被噪声破坏。图1中所示的示例性远场声音捕获系统包括提供M个回声消除的信号x₁(n)……x_M(n)的声学回声消除(AEC)块200、提供B(B是整数，例如1、2或更多)个波束成形的信号b₁(n)……b_B(n)的后续的固定波束成形器(FB)块300，以及提供期望源波束信号b(n)(在本文中也被称为正波束输出信号b(n))和任选地非期望源波束信号b_n(n)(在本文中也被称为负波束输出信号b_n(n))的后续的波束转向(BS)块400。接在BS块400之后并被供应非期望源波束信号b_n(n)的任选的非期望信号(负波束)路径包括提供误差信号e(n)的任选的自适应阻塞滤波器(ABF)块500和后续的自适应干扰消除器块600。或者，AEC块200的原始M个传声器信号或M个输出信号或FB块300的B个输出信号可以用作ABM块500的输入信号，任选地与非期望源波束信号b_n(n)叠加，以建立任选的多通道ABM块以及任选的多通道AIC块。

靠近波束转向块400并被供应期望源波束信号b(n)的期望源波束信号(正波束)路径包括任选的延迟块102、后续的减法器块103和后续的(自适应)后置滤波器块104。任选的言语停顿检测器700可以连接在自适应后置滤波器块104以及任选的降噪(NR)块105和任选的自动增益控制(AGC)块106的下游，如果存在，那么NR块和AGC块中的每一者可以连接在言语停顿检测器700的上游。应当注意，AEC块200可以连接在FB块300的下游，而不是连接在其上游，如果B<M，即FB块300中的波束成形器的数量小于传声器的数量，那么这可能是有益的。另外，AEC块可以被拆分成多个子块(未示出)，例如，用于每个传声器信号的短长度子块和在BS块的下游的用于期望源波束信号的长长度子块(未示出)，以及用于非期望源波束信号的任选的另一个长长度子块(未示出)。另外，该系统不仅适用于仅具有如所示的一个源的情况，而且可以适于结合多个源使用。例如，如果采用提供两个不相关信号的立体声源，那么AEC块可以由立体声回声消除器(SAEC)块(未示出)代替。

如从图1中可以看出，由N×M个RIR滤波并可能受噪声的干扰的N(＝1)个源信号x(n)用作AEC块200的输入。图2描绘了单传声器(206)单扬声器(205)AEC块200的示例性实现。如本领域的技术人员将理解和了解，这种配置可以被扩展为包括多于一个传声器206和/或多于一个扬声器205。作为源信号x(n)的远端信号经由扬声器205行进通过具有传递函数(矢量)h(n)＝(h₁，…，h_M)的回声路径201，以提供回声信号x_e(n)。在求和节点209处将该信号加到可包含背景噪声和近端言语的近端信号v(n)，以生成电传声器(输出)信号d(n)。在减法节点203从传声器信号d(n)减去由自适应滤波器块202提供的估计的回声信号

以提供误差信号e_AEC(n)。自适应滤波器202的目标是最小化误差信号e_AEC(n)。

具有阶数L-1的传递函数

的FIR滤波器202(其中L是FIR滤波器的长度)用于对回声路径进行建模。传递函数

被给出为

在块203处用于自适应滤波器的期望传声器信号d(n)被给出为

其中x(n)＝[x(n)x(n-1)...x(n-L+1)]^T是包含输入信号的L(L是整数)个最近时间样本的实值矢量x(n)，并且v(n)即可包括噪声的近端信号。再次应用先前的符号，反馈/回波误差信号被给出为

其中矢量h(n)和

包括表示声学回声路径的滤波器系数及其在时间n的用自适应滤波器系数的估计。矢量

使用例如最小均方(LMS)算法或任何现有技术递归算法进行估计。使用LMS型算法的步长μ(n)的LMS更新被表达为

一种简单而有效的波束成形技术是延迟和求和(DS)技术。再次参考图1，AEC块200的输出用作固定波束成形器块300的输入x_i(n)(其中i＝1、……、M)。图3中示出了固定滤波器和求和(FS)波束成形器块的一般结构300，其包括具有传递函数w_i(L)的滤波器302，其中i＝1、……、M，并且w_i(L)＝[w_i(0)、……、w_i(L-1)]，L是在FB内的滤波器的长度。在滤波器块302实现期望(实际)延迟的情况下，输出波束成形器信号b_j(n)(其中j＝1、……、B)被给出为

其中M是传声器的数量。对于每个(固定)波束成形器输出信号b_j(n)(其中j＝1、……、B)，每个传声器相对于彼此具有延迟τ_i,j。FS波束成形器可以包括加法器301，加法器301经由具有传递函数w_i(L)的滤波器302接收输入信号x_i(n)。

再次参考图1，由固定FS波束成形器块300输出的波束成形器信号b_j(n)用作BS块400的输入。来自固定波束成形器块300的每个信号取自不同的房间方向，并且可以具有不同的SNR水平。在言语信号的情况下，BS块400的输入信号b_j(n)可以包含低频分量，诸如低频隆隆声、直流(DC)偏移和不想要的爆破音发声。因此，期望去除可能撞击BS块400的输入信号b_j(n)的这些伪像。

或者，指向非期望信号(例如，噪声)源的波束(即非期望信号波束)可以基于指向期望声源的波束(即期望源波束)通过使其指向指向期望源的波束的相反方向(或相对于和不同于其任何其它固定方向)而近似，这将导致系统使用较少的资源并且还导致波束具有完全相同的时间变化。此外，这允许两个波束决不指向相同的方向。

或者，替代仅将波束指向期望源方向(正波束)作为基础，将其与其相邻波束相加可以形成生成正波束输出信号的基础，因为所有这些波束包括高电平的期望信号，这些高电平的期望信号彼此相关并因此将通过求和来放大。另一方面，包含在三个相邻波束中的噪声部分仅彼此不相关，并且因此将通过求和来抑制。因此，三个相邻波束的最终输出信号将表现出改善的SNR。

可以可选地通过使用FB块300的除了表示正波束的输出信号之外的所有输出信号来生成指向非期望源方向(负波束)的波束。这产生了有效的定向响应，该有效的定向响应在期望信号源的方向上具有空间零。否则，全向字符是可适用的，这可能是有益的，因为噪声通常也以全向方式进入传声器阵列，并且很少以定向形式进入。

另外，来自BS块400的任选地延迟的期望信号形成输出信号的基础，并且因此被输入任选的自适应后置滤波器104中。由AIC块600控制并递送滤波的输出信号的自适应后置滤波器104可以任选地输入到可实现已知频谱减法方法的后续的单通道降噪块(例如，图1中的NR块105)中，并且可以输入到任选的(例如，最终的)自动增益控制块(例如，图1中的AGC块106)中。

参考图4，在BS块400中，使用(高通和任选的低通)滤波器块401对正波束信号b_j(n)进行滤波，以便阻挡受噪声的影响或不包含有用信号的信号分量，例如言语信号分量。滤波器块401的输出可能因噪声而具有幅度变化，这种变化可能在波束信号b_j(n)内引入点到点的快速随机幅度变化。在这种情况下，例如通过在后续的平滑块402中执行的过程来降低噪声可能是有益的，如图4所示。

来自滤波器块401的滤波的信号通过在平滑块402中应用例如低通无限脉冲响应(IIR)滤波器或移动平均(MA)有限脉冲响应(FIR)滤波器(都未示出)来平滑，从而减少高频分量并使低频分量通过而几乎没有变化。平滑块402输出平滑的信号，该信号仍可能包含某种程度的噪声，并且因此可能导致如上所述的明显的急剧的不连续性。语音信号的电平典型地明显地不同于背景噪声电平的变化，特别是因为语音信号的电平变化的动态范围更宽并且发生在比背景噪声的电平变化短得多的间隔中这一事实。噪声估计块403中的线性平滑滤波器因此将涂抹掉期望信号(例如，音乐或语音信号)的急剧变化，以及滤除噪声。在许多应用中，对音乐或语音信号的这种涂抹是不可接受的，因此可以将非线性平滑滤波器(未示出)应用于噪声估计块403中的平滑的信号以抑制上述伪像。平滑块402的输出波束信号b_j(n)中的数据点以这样的方式修改，即具有比紧邻点(可能是因为噪声)更高的幅度的各个点减小，并且具有比相邻点更低的幅度的点增大。这导致更平滑的信号(和对信号变化的更慢的阶跃响应)。

接着，基于来自平滑块402的平滑的信号和来自噪声估计块403的估计的背景噪声信号，可以确定(例如，计算)SNR值的变化。通过SNR的变化，可以将噪声源与期望言语或音乐信号区分开。例如，低SNR值可以表示各种噪声源，诸如空调、风扇、打开的窗或诸如计算机的电子装置等。可以在时域中或在频域中或在子带频域中评估SNR。

在比较器块405中，将来自块404的输出SNR值与预定阈值进行比较。如果当前SNR值大于预定阈值，那么指示例如期望言语信号的标志将设定为例如‘1’。或者，如果当前SNR值小于预定阈值，那么指示诸如来自空调、风扇、打开的窗或诸如计算机的电力装置的噪声的非期望信号的表示将设定为例如‘0’。

来自块404和405的SNR值经由路径#1到路径#B传送到控制器块406。控制器块406将随时间收集的多个SNR(低和高)值的指数与比较器块405中的状态标志进行比较。收集最大值和最小值的直方图达预定持续时间。直方图中的最小值和最大值表示至少两个不同的输出信号。至少一个信号指向由S(n)表示的期望源，并且至少一个信号指向由I(n)表示的干扰源。

如果控制器块406中的低和高SNR值的指数随时间而改变，那么可以发起衰减过程，其允许从一个输出信号到另一个输出信号的平滑过渡，而不生成声学伪像。BS块400的输出表示随时间选择的期望信号和任选地非期望信号波束。这里，期望信号波束表示具有最高SNR的FB输出(正波束信号b(n))。任选地，非期望波束可以表示具有最低SNR的FB输出(负波束信号b_n(n))。

BS块400的输出包含可被任选的自适应阻塞滤波器(ABF)块500用作参考的具有高SNR的信号(正波束)以及任选地具有低SNR的附加的信号(负波束)，以形成任选的ABF块500的第二输入信号。ABF滤波器块500可以使用最小均方(LMS)算法控制的滤波器来自适应地从信号b_n(n)(表示非期望源波束)减去由参考信号b(n)表示的感兴趣的信号(表示期望源波束)并提供误差信号e_i(n)。从ABF块500获得的误差信号e_i(n)被传送到自适应干扰消除器(AIC)块600，该AIC块600自适应地去除在期望信号路径中与来自固定波束成形器的波束成形器300输出的误差信号相关的信号分量。如已经提到的，其它信号可以可选地或另外地用作ABM块的输入。此外，可以部分地或完全地省略可任选地包括ABM、AIC和APF块的自适应波束成形器块。

首先，AIC块600使用自适应滤波器(未示出)计算干扰信号。然后，通过减法器103从可作为正波束信号b(n)的任选地延迟的(具有延迟102)参考信号减去该自适应滤波器的输出，以消除参考信号b(n)中的剩余干扰和噪声分量。最后，自适应后置滤波器104可以连接在减法器103的下游，以用于减少统计噪声分量(即，不具有不同自相关的信号)。如在ABF块500中那样，可以使用自适应LMS算法来更新AIC块600中的滤波器系数。可以约束AIC块600、ABF块500和AEC块中的至少一者中的滤波器系数的范数，以防止它们变得过大。

图5示出了用于从期望源波束(正波束)信号b(n)消除噪声的示例性系统。因此，包括在信号b(n)中的噪声分量(由图5中的信号z_i(n)表示)由自适应系统700提供，并且由加法器103从任选地延迟(通过延迟102)的期望信号b(n-γ)减去，以在一定程度上减少其中包含的非期望噪声。使用自适应滤波器700的参考信号，即负波束信号b_n(n)，该信号表示非期望源波束，其理想地仅包含噪声而没有诸如言语的有用信号。已知NLMS算法可以用于从来自BS块400的期望源波束信号b(n)滤除噪声。使用自适应系统块700估计期望源波束信号b(n)中的噪声分量。通过加法器103从任选地延迟的期望信号b(n-γ)减去期望信号b(n)中的估计的噪声，以减少期望源波束信号b(n)中的另外的噪声。非期望源波束信号b_n(n)将用作自适应系统块700的噪声参考信号，以消除期望源波束信号b(n)中的任何残余噪声。这又将增大期望源波束信号b(n)的信噪比(SNR)。图5中所示的系统不采用任选的ABF或ABM块，因为如果与期望信号b(n-γ)相比，它几乎不增加纯噪声信号的质量，那么可以省略由ABF或ABM块执行的对非期望信号的信号分量的附加的阻塞。因此，取决于非期望源波束信号b_n(n)的质量，可以省略ABF和/或ABM块而不使自适应波束成形器的性能劣化。

如图6所示，块104的期望输出言语信号y(n)可以用作言语停顿检测器(SPD)块700的输入。诸如SPD块700的SPD块可以用在如所示的远场传声器系统或任何其它适当的应用中。

参考图7，言语停顿检测器(SPD)块700可以通过时频变换块701将输入信号y(n)从时域变换到频域。输入信号的频谱分量可以通过以下各种方式获得，包括带通滤波和傅里叶变换。在一种方法中，可以利用离散或快速傅立叶变换来变换输入信号的N个点的顺序块。可以应用诸如汉宁窗的窗函数，在这种情况下，可以使用N/2个点的叠加。可以在输入信号中的每个频率仓处利用离散傅立叶变换(DFT)。或者，可以在被输入信号占用的整个频带上利用快速傅里叶变换(FFT)。针对在输入信号频带内的每个频率仓存储频谱。

在本示例中，时频变换块701将具有任选的窗(未示出)的快速傅立叶变换(FFT)应用于在时域中的输入信号y(n)，以生成在频域中的信号Y(ω)。任选地由频谱平滑块702使用适当长度的移动平均滤波器并通过应用窗函数来平滑信号Y(ω)。对于窗函数，可以使用汉宁窗或任何其它窗函数。

(任选的)频谱平滑的缺点是它占据了多个频率仓，这降低了频谱分辨率。为了克服与频谱平滑相关联的缺点，通过使用时间平滑块703来进一步平滑频谱平滑块702的输出。时间平滑块703随时间而组合频率仓值，以减少块702的输出信号中的时间动态。

时间平滑块703输出仍可能包含脉冲失真以及背景噪声的时间平滑的信号。噪声估计块704连接在时间平滑块703的下游，以在时间平滑块703的输出中涂抹掉诸如言语的脉冲失真来最终估计当前背景噪声。为了减少或避免对诸如音乐或语音信号的期望信号的涂抹，可以在噪声估计块704中采用非线性平滑(未示出)。

基于来自时间平滑块703的平滑的信号和来自噪声估计块704的估计的准静态背景噪声信号，可以确定SNR的变化(例如，作为SNR值的频率分布)。通过SNR的变化，可以将噪声源与期望言语或音乐信号区分开。例如，低SNR值可以表示各种噪声源，诸如空调、风扇、打开的窗或诸如计算机的电子装置等。可以在时域中或在频域中或在子带域中评估SNR。

在比较器块706中，将来自块405的输出SNR值与预定阈值进行比较。如果当前SNR值大于预定阈值，那么指示例如期望言语信号的标志将设定为例如‘1’。如果当前SNR值小于预定阈值，那么指示诸如来自空调、风扇、打开的窗或诸如计算机的电子装置的噪声的非期望信号的标志将设定为例如‘0’。

来自块706的SNR值被传送到求和块707。求和块707对来自块706的频谱标志求和并输出至少一个时变信号S(n)。来自块707的输出信号S(n)被传送到比较器块708。在比较器块708中，将来自块707的输出信号S(n)与另一个预定阈值进行比较。如果输出信号S(n)的当前值大于预定阈值，那么指示语音活动的标志将设定为例如‘1’。或者，如果输出信号S(n)的当前值小于预定阈值，那么指示语音活动的标志将设定为例如‘0’。

比较器块708的输出信号可以表示语音不活动。比较器块708的输出被传送到言语停顿检测(SPD)计时器块709。SPD计时器块709可以使用计数器710对来自比较器块708的指示在言语期间语音不活动或停顿的标志‘0’的数量(计数)T(n)进行计数。如果SPD计时器块709遇到语音不活动或停顿，那么计数T(n)将减1，否则计数T(n)将重置为例如其初始化值。

SPD计时器块710的输出被传送到言语停顿检测(SPD)块710。在SPD计时器块710中，将输出计数T(n)与预定阈值进行比较。如果当前计数T(n)小于预定阈值，那么指示例如言语停顿的标志将设定为‘1’。如果当前计数T(n)大于预定阈值，那么指示言语停顿的标志将设定为指示言语活动的‘0’。如已经提到的，上面概述的方法也可以在时域中实现。

已经出于说明和描述目的呈现了对实施方案的描述。可以按照以上描述来执行或可以通过实践各个方法来获取对实施方案的适当的修改和变化。例如，除非另有说明，否则所描述的方法中的一者或多者可以由合适的装置和/或装置的组合来执行。除了本申请中描述的次序、并行地和/或同时地之外，还可以以各种次序执行所描述的方法和相关联的动作。所描述的系统本质上是示例性的，并且可以包括附加的元件和/或省略元件。

例如，在如上所述的远场声音捕获系统中，波束转向块可以可选地是基于由声学回声消除器提供的M个传声器或误差信号中的一些或全部，即，在声学回声消除器之前或之后或在声学回声消除器中的任选的残余回声抑制器之前或之后的信号。作为检测指向期望源的声音波束的替代或补充，指向非期望源的声音波束可以用作主波束。该系统还可以包括任选的自适应阻塞滤波器或自适应阻塞矩阵，其被配置为静态地或自适应地阻塞在其连接在自适应干扰消除器的上游的输入信号内的有用信号部分。自适应干扰消除器可以可选地或另外地被配置为不(仅)基于M个回声消除的信号而(也)基于其它信号(诸如像非期望源波束信号)来提供估计的噪声信号。

替代上述块(即声学回声消除器块、后续的(固定)波束成形器块、后续的波束转向块以及最后的自适应干扰消除器)的次序，可以交换或省略一些信号处理块，特别是固定波束成形器块和声学回声消除器块或其部分，这还将允许这样的可能的次序，即先是(固定)波束成形器块，接着是声学回声消除器块，然后是波束转向块和任选的自适应干扰消除器。另一个任选的结构包括被配置为处理M个传声器信号中的每一者的较短声学回声消除器块和被配置为处理正波束输出信号的单通道、可能较长的声学回声消除器块、以及被配置为处理非期望源波束信号的任选地另一个单通道、可能更长的声学回声消除器块作为输入级。

为了节省资源，声学回声消除器块可以布置在最有效的位置，例如，如果M<B，那么作为输入级，并且如果M>B，那么在波束成形块的下游或在拆分的结构中，如上所述。作为另一个可选方案，(固定)波束成形器块可以是(固定)模态波束成形器，其可以更容易地实现为不同的“视角”，并且可以仅用附加的旋转矩阵来实现，例如通过每个本征波束的简单乘法实现，之后可以动态地微调最合适的一者，因为本征波束是可旋转的。

此外，在波束转向块的最简单的实现方式中，波束转向块可以仅提供期望源波束信号，该信号然后可以用作远场声音捕获系统的第一且最简单的输出信号。所有其它信号处理单元，诸如像可由自适应干扰消除器结合任选的自适应阻塞滤波器或矩阵块、自适应后置滤波器块、降噪块、自动增益控制块和言语停顿检测器块形成的自适应波束成形器，是任选的。这些任选的块可以以任何组合放在一起。因此，正波束输出信号可以例如首先通过自动增益控制块，或者首先通过降噪块并然后通过自动增益控制块。此外，自适应波束成形器可以在有或没有自适应阻塞滤波器或矩阵块的情况下使用。许多其它组合是适用的。如果使用(固定)模态波束成形器，那么可以省略波束转向块，因为(固定)模态波束成形器可以然后被配置为自动地(动态地)或自适应地将其自身定向到相应的源的方向，并且因此能够提供相应的波束输出信号。

在诸如上述言语停顿检测器的言语停顿检测器中，可选地，可以组合多个相邻的仓以提供类似于人耳的频率分辨率的频率分辨率(例如，根据巴克标度、梅尔标度、ERB标度等)。这将通过对应地减少处理步骤的数量来降低复杂性。此外，言语停顿检测器仅被描述为至多到语音活动识别点，最后部分(计时器和决策器)被省略。言语停顿检测器不仅可以在频域中实现，而也可以在时域中实现。此外，该系统不仅可以检测言语停顿，而也可以检测语音活动。因此，上述言语停顿检测器的不同变型也适用于独立应用。

如在本申请中所使用的，以单数形式叙述并以字词“一种”或“一个”开头的元件或步骤应当被理解为不排除多个所述元件或步骤，除非说明这种排除。此外，对本公开的“一个实施方案”或“一个示例”的引用不旨在被解释为排除也结合叙述的特征的附加的实施方案的存在。术语“第一”、“第二”和“第三”等仅用作标签，而不旨在对其对象施加数字要求或特定的位置顺序。

本公开的实施方案一般提供多个电路、电力装置和/或至少一个控制器。对电路、至少一个控制器和其它电力装置的所有引用以及各自提供的功能性不旨在限于仅涵盖本文所示和所述的那些。尽管可以将特定标签分配给所公开的各种电路控制器和其它电力装置，但是这些标签不旨在限制各种电路、控制器和其它电力装置的操作范围。这些电路、控制器和其它电力装置可以基于所期望的特定类型的电力实现方式而以任何方式彼此组合和/或分离。

应认识到，本文所公开的任何控制器可以包括任何数量的微处理器、集成电路、存储器装置(例如，快闪存储器、随机存取存储器(RAM)、只读存储器(ROM)、电可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)或其它合适的变型)和软件，它们彼此协作以执行本文所公开的操作。另外，所公开的任何控制器利用任一个或多个微处理器来执行计算机程序，该计算机程序体现在非暂时性计算机可读介质中，该计算机可读介质被编程为执行所公开的任何数量的功能性。另外，本文提供的任何控制器包括外壳和外壳内定位的各种数量的微处理器、集成电路和存储器装置((例如，快闪存储器、随机存取存储器(RAM)、只读存储器(ROM)、电可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM))。所公开的控制器还包括基于硬件的输入和输出，以用于分别从如本文所述的其它基于硬件的装置接收数据和向这些装置传输数据。

虽然已经描述了本发明的各种实施方案，但是对于本领域的普通技术人员显而易见的是，在本发明的范围内可以有更多的实施方案和实现方式。特别地，技术人员将认识到来自不同的实施方案的各种特征的可互换性。尽管已经在某些实施方案和示例的上下文中公开了这些技术和系统，但是应当理解，这些技术和系统可以超出具体公开的实施方案被扩展到其它实施方案和/或其用途和明显修改。

Claims

1.一种用于远场声音捕获的系统，所述系统包括：

M≥2个传声器，所述M≥2个传声器被配置为拾取声音和提供M个电传声器信号；

多通道声学回声消除器，所述多通道声学回声消除器被配置为接收所述M个电传声器信号和提供M个回声消除的信号；

波束成形器，所述波束成形器被配置为接收所述M个回声消除的信号和处理所述M个回声消除的信号以提供B≥1个波束成形的信号；以及

波束转向器，所述波束转向器被配置为接收和处理所述B个波束成形的信号，其中处理所述B个波束成形的信号包括检测期望源波束信号，所述期望源波束信号表示指向期望源的声波波束，

其中处理所述B个波束成形的信号还包括检测非期望源波束信号，所述非期望源波束信号表示指向非期望源的声波波束。

2.如权利要求1所述的系统，所述系统还包括

自适应干扰消除器，所述自适应干扰消除器被配置为基于所述期望源波束信号和所述非期望源波束信号中的至少一个而提供估计的噪声信号；以及

减法器，所述减法器被配置为从所述期望源波束信号减去所述估计的噪声信号以提供输出信号。

3.如权利要求1所述的系统，其中处理所述B个波束成形的信号还包括评估所述B个波束成形的信号的信噪比以识别最高信噪比，并且基于所述最高信噪比而检测所述期望源波束信号。

4.如权利要求1所述的系统，其中处理所述B个波束成形的信号还包括评估所述B个波束成形的信号的信噪比以识别最低信噪比，并且基于所述最低信噪比而检测所述非期望源波束信号。

5.如权利要求1所述的系统，其中处理所述B个波束成形的信号还包括基于所述期望源波束信号而检测所述非期望源波束信号，因为所述非期望源波束信号表示指向所述期望源的相反方向的声波波束。

6.如权利要求2所述的系统，所述系统还包括自适应阻塞滤波器，所述自适应阻塞滤波器与所述波束转向器和所述自适应干扰消除器可操作地耦合，所述自适应阻塞滤波器被配置为处理来自所述波束转向器的所述期望源波束信号和所述非期望源波束信号中的至少一个以及向所述自适应干扰消除器提供误差信号，并且所述自适应干扰消除器被配置为基于所述误差信号而提供估计的噪声信号。

7.如权利要求2所述的系统，所述系统还包括自适应后置滤波器、言语停顿检测器、降噪滤波器和自动化增益受控放大器中的至少一个，每个都连接在所述减法器的下游，其中所述自适应后置滤波器被配置为提供具有降低的统计宽带噪声的经滤波的输出信号，所述自动化增益受控放大器被配置为控制所述输出信号的信号电平，并且所述言语停顿检测器被配置为检测在所述输出信号或所述经滤波的输出信号中言语信号的出现和未出现。

8.如权利要求2所述的系统，所述系统还包括延迟元件，所述延迟元件与所述波束转向器和所述减法器可操作地耦合，并且被配置为及时地延迟由所述波束转向器供应到所述减法器的所述期望源波束信号。

9.一种用于远场声音捕获的方法，所述方法包括：

拾取声音以提供M≥2个电传声器信号；

对所述M个电传声器信号进行回声消除处理以提供M个回声消除的信号；

对所述M个回声消除的信号进行波束成形处理以提供B≥1个波束成形的信号，以及

对所述B个波束成形的信号进行波束转向处理，所述波束转向处理包括检测期望源波束信号，所述期望源波束信号表示指向期望源的声波波束，

其中对所述B个波束成形的信号进行波束转向处理还包括检测非期望源波束信号，所述非期望源波束信号表示指向非期望源的声波波束。

10.如权利要求9所述的方法，所述方法还包括：

自适应干扰消除，所述自适应干扰消除被配置为基于所述期望源波束信号和所述非期望源波束信号中的至少一者而提供估计的噪声信号；以及

从所述期望源信号减去所述估计的噪声信号以提供输出信号。

11.如权利要求9所述的方法，其中对所述B个波束成形的信号进行波束转向处理还包括评估所述B个波束成形的信号的信噪比以识别最高信噪比，并且基于所述最高信噪比而检测所述期望源波束信号。

12.如权利要求9所述的方法，其中对所述B个波束成形的信号进行波束转向处理还包括评估所述B个波束成形的信号的信噪比以识别最低信噪比，并且基于所述最低信噪比而检测所述期望源波束信号。

13.如权利要求9所述的方法，其中对所述B个波束成形的信号进行波束转向处理还包括基于所述期望源波束信号而检测所述非期望源波束信号，因为所述非期望源波束信号表示指向所述期望源的相反方向的声波波束。

14.如权利要求10所述的方法，所述方法还包括自适应阻塞滤波，所述自适应阻塞滤波被配置为处理所述期望源波束信号和所述非期望源波束信号中的至少一个以及提供用于自适应干扰消除的误差信号，所述自适应干扰消除被配置为基于所述误差信号而提供估计的噪声信号。

15.如权利要求9所述的方法，所述方法还包括自适应后置滤波、言语停顿检测、降噪滤波和自动化增益控制中的至少一个，其中自适应后置滤波被配置为提供具有降低的统计宽带噪声的经滤波的输出信号，自动化增益控制被配置为控制所述输出信号的信号电平，并且言语停顿检测被配置为检测在所述输出信号或所述经滤波的输出信号中言语信号的出现和未出现。

16.如权利要求10所述的方法，所述方法还包括及时地延迟所供应的所述期望源波束信号，然后从所述延迟的期望信号减去所述估计的噪声信号。