CN1535555B

CN1535555B - 基于对有用声音静音的心形波束的声学装置、系统和方法

Info

Publication number: CN1535555B
Application number: CN028091779A
Authority: CN
Inventors: 樊大申
Original assignee: Individual
Current assignee: Orizon; Solos Technology Ltd; Kopin Corp
Priority date: 2001-08-01
Filing date: 2002-07-26
Publication date: 2011-05-25
Anticipated expiration: 2022-07-26
Also published as: EP1413169A1; US20140244250A1; KR20040028933A; US9456275B2; US20090268920A1; JP4378170B2; US20050074129A1; JP2005503698A; US8885850B2; US20140233758A1; CN1535555A; WO2003013185A1; US7386135B2; US9491544B2

Abstract

提供一种声学装置，所述声学装置含有第一种和第二种一个或多个声学元件，用于分别产生主要包括无用声音的第一信号，很大程度上没有有用声音，和既包括有用声音也包括无用声音的第二信号。第一种一个或多个声学元件设计和安排得产生对有用声音的起源方向上静音的心形波束咪头。第二种一个或多个声学元件设计和安排得产生包括有用声音的互补波束。提供带有合适的信号处理逻辑的系统，使用第一和第二信号恢复有用声音。所述信号处理逻辑可以实行类似于回波消除的技术或者盲信号分离技术。

Description

基于对有用声音静音的心形波束的声学装置、系统和方法

相关申请

本发明涉及和要求对2001年8月1日提交的题为“自适应噪音消除系统(Adaptive Noise Cancellation System)”的60/309,462号美国临时申请的优先权，其说明全部引入在本文中作为参考。

技术领域

本发明涉及声学和信号处理的技术领域。更具体地说，本发明涉及在噪音环境中检测和/或分辨有用声音的声学装置、系统和方法，此环境噪音在统计学上与有用声音不相关，并且位于与有用声音的方向不同的各个方向上。

背景技术

背景噪音的干扰是先进的声学应用或者系统的主要障碍，不论所述声学应用或者系统是通信或自动语音识别(ASR)用的声音获取的拾音器系统、水听器系统、声纳系统或者类似的其它声学系统。已经发现，当在混响环境中有多重背景噪音源，信号是非稳态的、宽带的、突发的和间歇发生的时候，解决这个问题尤其困难。

例如，在自动语音识别系统的情况下，把自动语音识别技术引入到大量的移动通信装置中的需求日益增加，譬如用于因近来在移动通信和相关技术的迅速进步的结果而应用的蜂窝移动电话、汽车电话，和手持电脑等等中。然而，这些装置多数常常工作在相对高噪音的声学环境里，譬如在街道上、在汽车、客车、地铁、火车或者飞机中，或者在高噪音的商场、工厂或者办公室内。这些混响环境中的背景噪音常常显示出上面所述的非稳态的、宽带的、突发和间歇发生的特性。结果，利用语音识别界面的新应用，不论是用于听写还是指令和控制面，都还是凤毛麟爪。

为了克服这类的噪音问题，其他人借助于使用抵近嘴的手持送话器、头戴式送受话器或者耳麦装置。可是，这些方法给使用者带来诸多不便。这些附加的头戴式送受话器/耳麦装置的导线常常与其它的物体纠缠。无绳方式虽然较方便于使用者，但是它们本身又存在其它的局限和不便，例如，较高的成本。多麦克风阵列可以避免一些限制，然而现有技术的多麦克风阵列往往体积较大，对于多数应用来说并不适合。

因此，需要有更加有效的技术解决方案，尤其是较紧凑的、不用手持、无头戴式送受话器的，最重要的是无噪音的，可以实现较自然的人-机对话界面的技术解决方案，用于某些声学应用，譬如自动语音识别。此外，优选地是，降噪和/或消噪不仅能提高有用声音的清晰度和可懂度，而且降噪和/或消噪甚至还可能降低数字通信网络的负载，从而得到较有效地使用其容量。

其它的应用包括抗强噪音头戴式送受话器、电话会议系统、数字语音录音机和助听器，等等。

发明内容

简言之，本发明包括声学装置、系统和方法。

根据一个方面，声学装置由第一组和第二组的一个或多个声学元件形成。把所述第一组的一个或多个声学元件设计和安排得其有一个静音面对预期的有用声音的起源方向，促进产生主要包括无用声音的第一信号，基本上没有有用声音。把所述第二组的一个或多个声学元件设计和安排得其所有的静音都偏离预期的有用声音的起源方向，促进产生既包括有用声音也包括无用声音的第二信号。

在一个实施例中，第一组一个或多个元件，响应于声音的出现，不论是有用声音还是无用声音，产生在有用声音的发源方向上具有静音位的心形声波束。所述第二组一个或多个元件以数个相辅方式之一产生声波束，以包含或者最大化有用声音。

根据另一个方面，设有信号处理子系统，用于使用两个信号提取有用声音。

在各种实施例中，信号处理子系统可以通过对第二信号引入一定的延迟，实践各种类似于回波消除的信号提取技术，或者实践盲信号分离技术。

在各种类似于回波消除的信号提取实施例中，可以设预白化和去白化部件，以对信号进行整形和复形。

在一个实施例中，有用声音是语音，尤其是要在高噪音混响环境中有待识别的语音，此噪音是随机的并且与有用的语音不相关，譬如在汽车中或者在办公室中。

附图说明

下面将通过附图中所示的示例性，但并非限制性的实施例说明本发明，在附图中相同的标号说明类似的元件，附图中：

图1示出本发明一个实施例的概况；

图2a-2g根据不同的实施例，较详细地示出图1所示声学装置形成的波束；

图3示出根据一个实施例的补充逻辑，它适用于与图2g所示声学装置结合，以产生图2b所示的波束方向图；

图4a以极坐标灵敏度图的形式示出由图2a-2c，和图2g(在用图3的电路补充时)的各种声学装置产生的声波束；

图4b以极坐标灵敏度图的形式示出图2d-2f所示的声波束；

图4c-4d以极坐标灵敏度图的形式示出其它可能的主信号波束；

图5根据一个实施例，较详细地示出图1所示信号处理子系统；

图6a-6b根据一个实施例，较详细地示出图5所示采样部件；

图7a-7b根据一个实施例，示出适于用作供选择的图5所示信号调节和重新调节部件的预白化和去白化部件，用于某些声学应用；

图8根据一个实施例，较详细地示出图5所示信号提取部件；

图9根据一个实施例，较详细地示出图8所示平均幅值计算部件；

图10a-10b根据二个实施例，较详细地示出图8所示检测器部件；

图11a-11e根据不同的实施例，示出图8中类似于回波消除算法的逻辑；

图12根据一个实施例，示出图8所示抑制器部件的工作逻辑；

图13根据另一个实施例，较详细地示出图5所示的另一种信号提取逻辑。

具体实施方式

在下面的说明中，将阐述本发明的各种实施例，尤其是用于自动语音识别的实施例。然而，从以下的阐述中，本领域内普通技术人员会理解本发明不是仅限制于自动语音识别。本发明可以在其它声学应用中实施，包括但是不限于通信装置、录音装置、助听器以及水听器和声纳。

为了阐述的目的，提供了特定的数字、材料和构造，以便提供对本发明的全面理解。然而，本领域内普通技术人员会理解本发明可以只用某些细节，和/或用其它的元件实施。在某些时候又忽略或者简述公知的特征。

术语

部分说明将按声学和信号处理的术语表达，譬如声波束、脉冲响应、采样、信号整形、信号提取等等，与本领域内普通技术人员向领域内其它普通技术人员交流其工作对象时常用的方式一致。如像本领域内普通技术人员所充分地理解的那样，即使在本发明的某些方面的软件实现中，这些量也取能够被存储、传送、结合以及以其它方式经电和/或光处理器部件及其子系统操作的电、磁或者光信号的形式。

部分说明将采用各种缩略语，包括但是不限于：

ASR	自动语音识别
		BSS	盲信号分离或盲源分离
FFT	快速傅立叶变换
		FIR	有限脉冲响应
IFFT	傅立叶逆变换
		LMS	最小均方
NLMS	归一化最小均方

段落标题、说明的顺序和实施例

段落标题，只用于提高可读性，它们不被解释为限制或者窄化本发明。

以最有助于理解本发明的形式，将以多个分开的步骤依次说明各种操作，然而说明的次序不应当理解为必须依照此次序应用这些操作。具体地说，这些操作不需要按本表述的次序进行。

短语“在一个实施例中”反复地使用。然而这些短语尽管有可能，但是一般并不指同一个实施例。术语“含有”、“具有”、“包括”和其它类型结构，是同义语，除非上下文另有所指。

概述

我们现在参阅图1，其中方框图根据一个实施例示出本发明的声学系统的概况。如图所示，对于该实施例，声学系统100包括声学装置102和信号处理子系统104，两者均纳入本发明的学说中。两个元件如图所示互相连接。

根据本发明，声学装置102设计得用于响应声音的出现，不论是有用的还是无用的(即噪音)，输出两个声音波束103a和103b，其中声音波束103a主要有无用声音，很大程度没有有用声音，而声音波束103b既有有用声音也有无用声音。

两个声音波束(下文中，简称波束)由信号处理子系统104采样，以产生两个相应的声音信号(下文中，简称信号)，这两个声音信号又被信号处理子系统104用于提取有用声音，通过从与第二波束相应的第二信号中去除与第一波束相应的第一信号。

如本领域内普通技术人员将会基于以下说明理解，声学装置102可以使用少到两个声学元件的紧凑地形成，且每个声学元件各用于相应的两个波束之一的响应性产生。结果，本发明能够提供更紧凑并便于使用者的、不得不诉诸于从复杂的噪音环境中恢复有用声音的声学应用的人-机界面，譬如是许多ASR应用。

而且在本发明的情况下，声音波束103a可以通过具有心形波束方向图的元件产生，所述的元件在空间中除了有用声音方向以外的所有方向上有显著的灵敏度。结果，与带有某些不完全噪声消除的“盲点”方向的现有技术不同，本发明实际上可以消除从数个方向上任何一个方向来的噪音。

声学装置

如前文所述，可以用少至两个声学元件形成紧凑的声学装置102。图2a-2g从形成的声音波束的角度上，示出几个这样的实施例。但是本发明不受这些实施例的限制。在变通的实施例中，可以代之以用两个或者两个以上的声学元件响应性地产生波束103a和103b。为了易于理解，在本文中主要采用各种两个声学元件的实施例进行说明。而且，简单地把声学装置102称为“麦克风”。

图2a-2c示出三个两个元件的实施例，在此一个元件202响应声音的出现而产生心形波束咪头，而另一个元件204响应声音的出现而产生一个全指向形波束咪头。在这些实施例中的每一个，产生心形波束咪头的声学元件(下文中，简称为“麦克”)202安排得把心形咪头麦克的静音面对预期的有用声音的起源方向。

对于图2a的实施例，产生全指向形波束咪头的麦克204安排得面对预期的有用声音的起源方向，平行于产生心形波束咪头的麦克202。对于图2b-2c所示的每个实施例，全指向形波束咪头产生麦克204安排得面对预期的有用声音的起源方向，与产生心形波束咪头的麦克202成串列。对于图2b所示的实施例，全指向形波束咪头产生麦克204安排得置于产生心形波束咪头的麦克202的“后面”。对于图2c所示的实施例，全指向形波束咪头产生麦克204安排得置于产生心形波束咪头的麦克202的“前面”(两者都从预期的有用声音的起源方向的角度观察)。

图4a(以“极坐标灵敏度”图的形式)示出由图2a-2c的安排的元件202和204响应性地产生的声波束103a和103b。如前文所述，声波束103a含有面对有用声音的起源方向的静音。对于这些实施例，声波束103b沿所有方向“辐射”，并且不含有任何静音。

心形波束咪头产生元件202的静音力图消除有用声音漏进声波束103a。实际上，静音往往可以得到相对于相反方向的灵敏度高达-20dB的衰减。然而，经验表明本发明还较现有技术表现出一致全面的改善结果。

典型的情况是，这两个声学元件放置得大致彼此邻接，以能够(对于某些应用)形成有用的紧凑的人-机界面。对于这些应用，两个分立的麦克元件之间分开的距离可以在小到0.2cm至1cm的范围。对于半导体声学器件，分开的距离可以在微米甚至于亚微米的范围。尽管应当小心地减少元件之间的交叉干扰，如图2a-2c所示，其相对布置，即是并列地还是串列地面对预期的有用声音的起源方向，并不像其各自的波束方向图那么重要。

图2d-2f示出三个变通的两个元件的实施例，这里两个元件都是产生心形波束咪头的麦克202a-202b。在这些实施例中的每一个，两个产生心形波束咪头的麦克之一202a安排得以其静音面对预期的有用声音的起源方向，而另一个产生心形波束咪头的麦克202b安排得以其静音面对背离预期的有用声音的起源方向。

对于图2d的实施例，所述另一个心形波束咪头产生麦克202b安排得以其静音面对背离预期的有用声音的起源方向，与第一心形波束咪头产生麦克202a并列。同样，对于图2e-2f的实施例中的每一个，所述另一个心形波束咪头产生麦克202b也是安排得以其静音面对背离预期的有用声音的起源方向，只是与第一心形波束咪头产生麦克202a串列。

对于图2e所示的实施例，所述另一个心形波束咪头产生麦克202b安排得置于第一心形波束咪头产生麦克202a的“后面”，而对于图2f所示的实施例，所述另一个心形波束咪头产生麦克202b安排得置于第一心形波束咪头产生麦克202a的“前面”(两者都从预期的有用声音的起源方向的角度观察)。

图4b(也以“极坐标灵敏度”图的形式)示出由图2d-2f的安排的元件202a和202b响应性地产生的声波束103a和103b。如前文所述，波束103a含有面对有用声音的起源方向的静音。对于这些实施例，波束103b含有面对背离有用声音的起源方向的静音。

图2g示出了又一个变通的两个元件的声学装置102的实施例。对于这个实施例，用两个全指向形的波束咪头产生麦克204a和204b取代。这两个元件204a和204b安排得成串列地面对预期的有用声音的起源方向。这种安排需利用图3所示的电路辅助，所述的电路含有延迟线312、放大器314和加法器316，实施一种“延迟相加”的波束成形方法。

如前所述，第二全指向形波束咪头产生麦克204b的响应性输出提供波束103b。然而，波束103a则是通过对第一全指向形波束咪头产生麦克204a的响应性输出加延迟，使用延迟线312、使用放大器314放大，然后从波束103b中减去而形成的。

所述延迟应当选择得使带宽中的所有频率形式的心形的静音足够深。所述的两个声学元件可以通过调节放大器314的增益平衡，以避免失配和降低静音。

图3的电路可以集成在作为声学装置102的一部分，或者它也可以集成在作为信号处理子系统104的一部分。在又一个实施例中，两个全指向形波束咪头产生麦克204a和204b的扮演角色可以反过来。

另外，除了图4a和4b的“无静音”和“单个背离静音”形状之外，波束103b可以含有两个或者两个以上的静音，只要没有一个静音面对有用声音的起源方向即可。

例如，图4c示出一种变通的“丁香叶”波束形状(以“极坐标灵敏度”图的形式)，因为波束103b有两个“叶子”，形成两个静音，以两个静音面对基本上与有用声音的起源方向正交的两个方向406a和406b。图4d示出又一种变通的“丁香叶”波束形状(以“极坐标灵敏度”图的形式)，因为波束103b有两个“叶子”，形成两个静音，以两个静音面对各与有用声音的起源方向成一钝角的两个方向406c和406d。

总之，声学装置102含有两个或者两个以上的以便于产生两个信号的方式设计和安排的声学元件，以一个信号主要含有无用声音，基本上没有有用声音，而另一个信号既含有有用的也含有无用声音。这两个或者两个以上的声学元件可以，例如响应声音的出现，不论有用声音还是无用声音，输出具有面对有用声音的起源方向的静音的心形波束咪头，而另一个波束具有数个互补的波束形状之一(只要它不含有面对有用声音的起源方向的静音)。

信号处理子系统

图5根据一个实施例，较详细地示出图1所示信号处理子系统。如图中所示，对于该实施例，信号处理子系统104含有两个输入声频道(标示为“参照”和“主”)、采样部件502、可供选择的提取前信号整形部件504、信号提取部件506，和可供选择的提取后信号整形部件 508。这些部件如图所示地相互连接

参照声频道用于接收波束103a，而主声频道用于接收波束103b。

采样部件502用于数字化波束103a和103b。典型的情况，它们两个都以相同的采样频率被同步地数字化，所述的采样频率取决于应用，并且按照系统带宽要求选择。在ASR应用的情况下，采样频率，例如可以是8kHz、11kHz、12kHz或者16kHz。

典型的情况，可供选择的提取前和提取后信号整形部件504和508都取决于应用和/或提取技术。例如，在ASR应用，和某种信号提取技术，譬如类似于NLMS处理的回波消除的情况下，提取前和提取后信号整形部件504和508可以是预白化和去白化滤波器。预白化和去白化滤波器用于平整，和恢复两个信号的频谱密度。对于不平坦的信号频率分布，平整两个声频道的频谱密度提高了NLMS的收敛速度。其它的单声频道噪音消除技术，譬如频谱相减，可以加入作为另外一级可供选择的提取后信号整形部件。

采样部件

图6a-6b根据二个实施例，较详细地示出图5所示的采样部件。对于图6a的实施例，采样部件502含有两个A/D转换器606，各用于两个波束103a和103b之一。另外，采样部件502还含有前置放大器602和反混叠滤波器604。这些部件如图所示地相互连接在一起。

从各个声学元件发出的信号由相应的前置放大器602放大，然后在以采样频率Fs用相应的A/D转换器数字化以前，通过相应的反混叠滤波器604来限制带宽。

图6b示出另一个实施例，在此只使用一个A/D转换器606。然而采样部件502还包括采样和保持部件608以及切换器610。这些部件如图所示地相互连接在一起。

各个信号经过如图6b所示的相同的处理，直到(使用反混叠滤波器604)进行了反混叠滤波之后，再用采样-保持(S/H)单元608采样，以产生分立的信号。然后把输出(用切换器610)与另一声频道发出的分立的信号切换。最后，把切换的信号用A/D转换器606以两倍采样频率(2×Fs)数字化成数字信号。

预白化和去白化

如前文所述，对于某些声学应用，譬如倾向有较强的低频成分而不是高频成分的ASR应用中，进行信号的提取前整形可能是值得追求的，譬如通过预白化滤波的频谱密度平整，以及提取后反向整形，譬如通过去白化滤波恢复频谱密度。

对于这些应用，在主输入和参照输入被输送到信号提取部件506之前，预白化滤波器(也称为消色滤波器)施加在主输入和参照输入上，尤其是，如果部件506进行NMLS噪音消除处理时，为了减轻可能由(高度自相关的)窄带的输入信号引起的慢收敛速率问题。

在图7a和7b中，各示出一个预白化滤波器，和一个去白化滤波器实施例。

对于图7a的实施例，预白化滤波器504是具有以下公式特性的预加重滤波器：

Y_n＝X_n-α*X_n-1

对于所述的实施，预白化滤波器504包括存储元件702和704，用于存储前一个输入值X_n-1和常数α，还包括切换器706和加法器708。这些元件如图所示地相互连接，并且协同工作以执行处理以按上述的公式计算输出Y_n。

在另一个实施例中，预白化滤波器504还可以用软件实施。

图7b示出互补性的去白化滤波器采取去加重滤波的形式，由以下公式指出其特性：

Y_n＝X_n+α*Y_n-1

对于所述的实施例，去白化滤波器508包括存储元件724和722，用于存储以前输出的值Y_n-1和常数α，还包括切换器726和加法器728。这些元件如图所示地相互连接，并且协同工作以执行处理以按上述的公式计算输出Y_n。

同样，在另一个实施例中，去白化滤波器508也可以用软件实施。

信号提取部件

图8根据一个实施例，较详细地示出图5所示的信号提取部件。该实施例执行类似于回波取除的技术，以便通过从主声频道中去掉参照信号而恢复有用声音。该技术称为“回波消除”类是因为类似于常规的“回波消除”，一个信号从另一个信号中减去。但是，在经典的“回波消除”中，产生“回波”的原信号是可知的；并且该原信号不混有有用声音。而在本发明中，得不到原噪音信号。尽管在本发明中，参照信号是“基本上没有有用声音的”，可它还是含有某些有用声音。故应当采取额外的步骤，譬如抑制，以避免消除有用的信号。在经典的“回波消除”中，是“回波”信号被从有用信号和回波信号的复合信号中减去，而且更重要的是，“回波”信号对产生回波的原声音有着天然明确的时延关系。与此相反，在本发明中，是经过滤的参照信号，基本上没有有用声音，从既有有用信号也有无用信号的主信号中被减去，实际上，响应于有用信号和无用信号的存在的参照信号和主信号是同时获取的。

因此，除了类似于回波消除逻辑810以外，信号提取部件506尤其还包括延迟元件802，以便于人工地对在波束103b的基础上形成的信号(即在主声频道上的信号)引出明确的延迟。该人工引入的延迟使得此结构能够模拟声学装置102的声学元件之间的混响。而且，它还使得用在类似于回波消除信号处理技术中的自适应式FIR滤波器得以近似一个非因果性滤波器。

人工引入以模拟混响的延迟量取决于应用。一般来说，这个量大约是此环境的脉冲响应的持续时间的数量级。在各种应用中，对于汽车的环境，该量大约30ms-60ms，对于办公室的环境，是100ms-200ms。

对于该实施例，回波消除类提取有用声音实际上是有条件地工作的，只有当两路信号都激活有效时才行。因此，对于该实施例，除了信号提取逻辑810和延迟元件802之外，信号提取部件506还包括平均幅值估算部件804、声频道信号检测器806和抑制逻辑808。声频道信号检测器806还笼统地称为“比较器”部件，并且在一个实施例中，尤其包括两个声频道启动检测器，参照声频道和主声频道各有一个，信号提取部件还包括一个有用声音检测器。这些元件相互连接，并且连接到前文所列的元件。

平均幅值估算部件804用来判断/估算两声频道信号的能量或幅值，用于声频道信号检测器806，也就是声频道启动检测器和有用声音检测器，以及用于类似于回波消除的信号提取处理。

在一个实施例中，采用的类似于回波消除的信号提取处理是用一个NLMS FIR滤波器(图11a)的自适应噪音消除处理。在另一个实施例中，采用的类似于回波消除的信号提取处理是用数个频域LMS滤波器(图11b-11c)的自适应噪音消除处理。在又一个实施例中，采用的类似于回波消除的信号提取处理是用数个子频带LMS滤波器(图11d-11e)的自适应噪音消除处理。

这些元件在下文依次进一步说明。

平均幅值估算器

图9根据一个实施例，较详细地示出图8所示的平均幅值计算部件。对于该实施例，平均幅值估算器804计算进行如下公式指出特征的输入绝对值的加权运行均值：

Y_n＝(1-α)*Y_n-1+α*|X_n|

加权系数决定运行窗口的长度。

该实施例包括各种分别用于存储|X_n|、Y_n-1、α和(1-α)数值的存储元件902-908，还包括进行该运算的切换器910和加法器912。

如同前文所述的预白化和去白化元件一样，平均幅值估算部件804也可以用软件实施。

检测器

图10a-10b根据一个实施例，较详细地示出图8所示的比较器部件，即检测器。更具体地说，图10a示出有用声音检测器806a的逻辑，而图10b示出声频道启动检测器806b的逻辑。

对于所示的实施例，有用声音检测器806a包括存储元件1002，用于存储声音阈值偏置。另外，有用声音检测器806a还包括比例计算器1004、长期运行平均幅值比值计算器1006、加法器1008和比较器1010。这些元件如图所示地相互连接。该实施例是基于能量的检测器。

比例计算器1004用于计算主信号和参照信号平均幅值之比。运行平均幅值比值计算器1006用于计算所述比例的长期运行平均值，这为有用声音提供基础或者说是基底。加法器1008和比较器1010用于比较当前的比例，以判断它是否比长期运行比例大至少阈值的偏置。如果它至少在阈值偏置以上，就认为是检测到了有用声音，不然就认为没有有用声音。

该实施例设计用于倾向于表现突发特性的声音，譬如语音。对于其它的应用，可以代之以采用适当地修改了的实施例。

在变通的实施例中，可以代之以采用其它有用声音检测器，例如基于相关性的有用信号的检测器。图10b根据一个实施例，较详细地示出声频道启动检测器。该实施例是基于能量的比较器。如图所示，声频道启动检测器806b含有用于存储阈值的存储元件1024、用于把声频道的平均幅值与存储的阈值进行比较的比较器1026。如果它在存储的阈值以上，就认为该声频道是启动的，否则就认为是没有启动的。

此外，如同前文所述的预白化和去白化元件，以及平均幅值估算元件一样，检测器804a和804b也可以用软件实施。

抑制

图12根据一个实施例，较详细地示出图8所示抑制部件的工作逻辑。如图所示，对于该实施例，设计用于时域实施的抑制部件808，使用由检测器806提供的输入，首先判断是否主声频道和参照声频道两者都被激活了，见图12中的方框1202-1204。如果或主声频道或参照声频道有一个被判断为是没有启动的，就把抑制信号设定为“正”，导致信号提取组件基本上不工作(例如为保留计算能力)，也就是说，不进行信号提取(滤波)或对提取的调节(适应)。对于该实施例，在此条件下，输出原有主声频道上的信号，见图12中的方框1210。

然而，如果两个声频道都是启动的，抑制逻辑808进一步判断是否有有用声音出现，或者是否还没有达到停止阈值(也称为残留时间)，见图12中的方框1206-1208。停止阈值(残留时间)取决于应用。例如在ASR的情况下，停止阈值可以是几分之一秒。

如果检测出有用声音，或者没有超过停止阈值，就把抑制信号设定为“正的且滤波器自适应停止”，即滤波系数固定不变，见图12中的方框1212。参照信号通过固定滤波器从主声频道中减去，以产生有用声音。

如果没有检测出有用声音，并且超过停止时间(但是声频道是启动的)，就把抑制信号设定为“负的且滤波器自适应启动”，见图12中的方框1214。在这种条件下，所用滤波器的滤波系数将通过自适应调节。

注意，上述实施例有利地在主信号(具有有用声音)延迟前采用检测器和抑制，从而降低了有用声音干扰影响滤波器自适应工作的可能性。

如前文所提及，在下文中还要详细地说明，滤波也可以在频域和子频带域内进行。对于这些实施例，上述的抑制实施也可以在各频率上分别进行，或者在各子频带上分别进行。

类似于回波消除的信号提取部件

图11a-11e根据不同的实施例，较详细地示出图8所示的类似于回波消除的提取部件。更具体地说，图11a示出采用适应NLMS的方法，而图11b-11c示出两个采用适应频域LMS的方法。图11d-11e示出两个采用适应子频带LMS的方法。

如图11a所示，NLMS自适应实施例的类似于回波消除的信号提取部件810含有自适应FIR滤波器1102和加法器1104。这些部件如图所示地相互连接。

参照声频道(整形过的)信号由自适应FIR滤波器1102滤波，并且使用加法器1104从延迟了的主声频道信号中减去。将所得结果输出为有用声音。

提取逻辑工作为在逐个采样点基础上运行的循环。参照信号由自适应FIR滤波器1102滤波。主要是，把频响函数用于参照声频道，以模拟从心形元件到其它元件的声学通路，从而滤波过的参照信号紧密地匹配主声频道中的信号的噪音分量。再把滤波过的参照信号从延迟后的主信号中减掉。所留下的就是有用声音。

NLMS的输出也称为NLMS误差；它用于调节自适应FIR滤波器系数，从而在没有有用声音时将会把NLMS误差最小化。

如图11b所示，第一种频域LMS实施例的类似于回波消除的信号提取部件810含有FFT部件1112、数个自适应滤波器(示出两个)1114、数个加法器(示出两个)1116和IFFT部件1118。这些部件如图所示地相互连接。

参照声频道(整形过的)信号和延迟后的主声频道信号首先由相应的FFT部件1112“分解”成数个频率分量(示出两个)。参照信号的每个频率分量由相应的自适应滤波器1114滤波，并且用相应的加法器1116从延迟后的主声频道信号的相应的频率分量中减去。再用IFFT部件1118“重新复合”结果得出的频率分量，并且把重新复合的信号输出为有用声音。

如图11c所示，第二种频域LMS实施例的类似于回波消除的信号提取部件810含有FFT部件1122a-1122b、数个自适应滤波器(示出两个)1124、加法器1128和IFFT部件1126。这些部件如图所示地相互连接。

参照声频道(整形过的)信号首先由FFT部件1122a“分解”成数个频率分量(示出两个)。参照信号的每个频率分量由相应的自适应滤波器1124滤波。用IFFT部件1126把过滤过的频率分量“重新复合”成滤波过的参照信号，然后用加法器1128从延迟后的主声频道的信号中减去，以产生有用声音。

误差信号(含有有用声音)，也是利用FFT部件1122b“分解”成数个频率分量，并且“分解”出来的频率分量用于调节自适应滤波器1124。

如图11d所示，第一种子频带LMS实施例的类似于回波消除信号的提取部件810含有分解滤波器组1132a-1132b、数个下向采样单元(示出两套)1134a-1134b、数个自适应滤波器(示出两个)1136、数个加法器(示出两个)1138、数个上向采样单元(示出两个)1140和一个合成滤波器组1142。这些部件如图所示地相互连接。

参照声频道(整形过的)信号和延迟后的主声频道信号首先由相应的分解滤波器组1132a/1132b“分解”成数个子频带分量(示出两个)。参照信号的每个子频带分量使用相应下向采样单元1134，按预定的因数下向采样，然后由相应的自适应滤波器1136滤波。接着用相应的加法器1138从延迟后的主声频道的信号的相应子频带分量中减去各个滤波过的子频带分量。得出的子频带分量使用相应上向采样单元 1140按相同的因数上向采样，然后，用合成滤波器组1142“重新复合”。把重新复合了的信号输出成有用声音。

如图11e所示，第二种子频带LMS实施例的类似于回波消除信号的提取部件810含有分解滤波器组1152a-1152b、数个下向采样单元(示出两个)1154a-1154b、数个自适应滤波器(示出两个)1156、数个上向采样单元(示出两个)1158、合成滤波器组1160和加法器1162。这些部件如图所示地相互连接。

参照声频道(整形过的)信号首先用分解滤波器组1152a“分解”成数个子频带分量(示出两个)。参照信号的每个子频带分量使用相应下向采样单元1154a按预定的因数下向采样，然后由相应的自适应滤波器1156滤波。滤波后的子频带分量使用相应上向采样单元1158上向采样，然后，用合成滤波器组1160重新复合成滤波过的参照信号，再把所述滤波过的参照信号用加法器1162从延迟后的主声频道的信号中减去，以产生有用声音。

误差信号(含有有用声音)，也用分解滤波器组1152b和下向采样单元1154b“分解”成数个子频带分量。并且把“分解”出的子频带分量用于调节自适应滤波器1156。

这些信号提取部件的实施例的每一个也都可以用软件实施。

盲信号分离

图13根据一个实施例，较详细地示出图5所示的信号提取部件506。与上述的类似于回波消除的信号提取实施例不同，图13所示出的信号提取部件506实施盲信号分离技术，以便从主声频道的信号中去除参照声频道的信号，提取有用声音。

如图所示，信号提取部件810含有数个自适应FIR滤波器1302、加法器1306和成本函数运算器1304。这些部件如图所示地相互连接。

不论是参照声频道还是主声频道都用自适应FIR滤波器1302滤波。得到的结果用相应加法器1306分别与彼此原信号求差。以参照信号被从主信号中减掉，就是有用声音，输出所得到的信号。

再把输出信号反馈到成本函数运算器，它以两个输出信号为输入，对自适应FIR滤波器1302作各自分别的自适应调节。具体的成本函数则依据各BSS方法有所不同。

小结和后记

这样，从以上的说明可以看到，已经阐述了各种新颖的声学装置、系统和方法。

尽管就上述实施例说明了本发明，本领域内普通技术人员将认识到，本发明不限制于所述的实施例。本发明可以在所附权利要求书的精神和范围内通过修改和变通来实现。因而本说明书应当视为解说本发明，而不是限制本发明。

Claims

1.声学装置，含有

第一种一个或多个声学元件，被设计和安排得其有一个静音面对预期的有用声音的起源方向，以促进产生包括无用声音的第一信号；以及

第二种一个或多个声学元件，被设计和安排得其所有的静音都偏离预期的有用声音的起源方向，以促进产生既包括有用声音也包括无用声音的第二信号；

有用声音通过从第二信号中去除第一信号获得。

2.如权利要求1所述的声学装置，其中，所述的声学装置是拾音器、水听器和声纳中选择的一种。

3.如权利要求1所述的声学装置，其中，第一种一个或多个声学元件响应于有用声音和无用声音，输出具有心形波束咪头的静音面对有用声音的发源方向上的心脏形状的声波束。

4.如权利要求1所述的声学装置，其中，所述第二种一个或多个声学元件响应于有用声音和无用声音，输出全指向形的声波束。

5.如权利要求1所述的声学装置，其中，第二种一个或多个声学元件响应于有用声音和无用声音，输出具有心形波束咪头的静音面对有用声音的发源方向的反向上的心脏形状的声波束。

6.如权利要求1所述的声学装置，其中，第二种一个或多个声学元件响应于有用声音和无用声音，输出具有双叶丁香叶形状的波束的第一和第二静音面对基本上正交于有用声音的发源方向的第一和第二方向的丁香叶形状的波束。

7.如权利要求1所述的声学装置，其中，第二种一个或多个声学元件响应于有用声音和无用声音，输出具有双叶丁香叶形状的波束的第一和第二静音面对与有用声音的发源方向成钝角的第一和第二方向的丁香叶形状的波束。

8.如权利要求1所述的声学装置，其中，

第一种一个或多个元件包括第一声学元件；而

第二种一个或多个元件包括放置得邻接于所述的第一声学元件的第二声学元件。

9.如权利要求8所述的声学装置，其中，第一和第二声学元件之间以0.2cm至1cm的分离间距最接近地放置得互相邻接。

10.如权利要求8所述的声学装置，其中，第一和第二声学元件两者都安排得并列地面对有用声音的发源方向。

11.如权利要求8所述的声学装置，其中，第一和第二声学元件两者都安排得面对有用声音的发源方向，且第一和第二声学元件中选取之一放置在另一个的后面。

12.如权利要求1所述的声学装置，其中，有用声音是语音，并且无用声音随机地起源于一个或多个方向。

13.声学系统，含有：

声学装置，所述声学装置具有多个声学元件，部分声学元件被设计和安排得其有一个静音面对预期的有用声音的起源方向，另一部分声学元件被设计和安排得其静音都偏离预期的有用声音的起源方向，以促进产生第一信号和第二信号，第一信号包括无用声音，第二信号既包括有用声音也包括无用声音；以及

信号处理子系统，连接在所述声学装置上，所述信号处理子系统用于提取有用声音，通过从第二信号中去除第一信号实现。

14.如权利要求13所述的系统，其中，所述的声学装置是拾音器、水听器和声纳中选择一种。

15.如权利要求13所述的系统，其中，所述多个声学元件含有：

第一种一个或多个声学元件，被设计和安排得其有一个静音面对预期的有用声音的起源方向，以促进产生第一信号；和

第二种一个或多个声学元件，被设计和安排得其所有的静音都偏离预期的有用声音的起源方向，以促进产生第二信号。

16.如权利要求15所述的系统，其中，第一种一个或多个声学元件响应于有用声音和无用声音，输出具有心形波束咪头的静音面对有用声音的发源方向上的心脏形状的声波束。

17.如权利要求15所述的系统，其中，第二种一个或多个声学元件响应于有用声音和无用声音，输出全指向形的声波束。

18.如权利要求15所述的系统，其中，第二种一个或多个声学元件响应于有用声音和无用声音，输出具有心形波束咪头的静音面对有用声音的发源方向的反向上的心脏形状的声波束。

19.如权利要求15所述的系统，其中，第二种一个或多个声学元件响应于有用声音和无用声音，输出具有双叶丁香叶形状的波束的第一和第二静音，面对基本上正交于有用声音的发源方向上的第一和第二方向的丁香叶形状的波束。

20.如权利要求15所述的系统，其中，第二种一个或多个声学元件响应于有用声音和无用声音，输出具有双叶丁香叶形状的波束的第一和第二静音，面对与有用声音的发源方向成钝角的第一和第二方向的丁香叶形状的波束。

21.如权利要求15所述的系统，其中，

第一种一个或多个声学元件包括第一声学元件；而

第二种一个或多个声学元件包括放置得邻接于所述的第一声学元件的第二声学元件。

22.如权利要求21所述的系统，其中，第一和第二声学元件之间以0.2cm至1cm的分离间距最接近地放置得互相邻接。

23.如权利要求21所述的系统，其中，第一和第二声学元件两者都安排得并列地面对有用声音的发源方向。

24.如权利要求21所述的系统，其中，第一和第二声学元件两者都安排得面对有用声音的发源方向，且第一和第二声学元件中选取之一放置在另一个的后面。

25.如权利要求13所述的系统，其中，有用声音是语音，并且无用声音随机地起源于一个或多个方向。

26.如权利要求13所述的系统，其中，所述信号处理子系统含有装备用于从第二信号减去第一信号的信号分离部件。

27.如权利要求26所述的系统，其中，

所述信号处理子系统还含有延迟部件，用于对第二信号引入明确的延迟；并且

所述信号分离部件含有逻辑，用于使用回波消除技术中的一个信号从另一个信号中减去的方法实行从第二信号减去第一信号。

28.如权利要求27所述的系统，其中，所述信号处理子系统还含有抑制部件，以抑制所述的信号分离部件，进行至少一个信号滤波和自适应滤波。

29.如权利要求28所述的系统，其中，所述信号处理子系统还含有相互连接和连接到所述抑制部件的多个平均幅值估算器和比较器，用于向所述的抑制部件提供输入，用于判定是否抑制所述信号分离部件，进行至少一个信号滤波和自适应滤波。

30.如权利要求27所述的系统，其中，所述实行从第二信号减去第一信号含有对第一和第二信号进行归一化的时域、频域和子频带最小均方自适应滤波处理操作中选择的一种。

31.如权利要求27所述的系统，其中，所述的有用声音是有用的语音，所述的明确的延迟在30ms-200ms的范围内。

32.如权利要求27所述的系统，其中，所述的有用声音是有用的语音，并且所述信号处理子系统还含有分别连接到延迟部件和信号分离部件的第一和第二设预白化部件，和连接到所述信号分离部件的去白化部件，以便在从信号中提取有用声音前对所述第一和第二信号进行整形，并且复形提取的有用声音。

33.如权利要求26所述的系统，其中，所述信号处理子系统含有逻辑，使用盲信号分离技术，从第二信号减去第一信号。

34.信号提取方法，含有

产生包括无用声音的第一信号，和既包括有用声音也包括无用声音的第二信号；声学元件被设计和安排得其有一个静音面对预期的有用声音的起源方向获得第一信号；声学元件被设计和安排得其所有的静音都偏离预期的有用声音的起源方向获得第二信号；并且

通过从第二信号中去除第一信号提取有用声音；

其中，所述的提取包含从第二信号减去第一信号。

35.如权利要求34所述的信号提取方法，其中，

所述的提取还包含向所述第二信号引入明确的延迟；并且

所述的相减含有使用回波消除技术中的一个信号从另一个信号中减去的方法，从第二信号减去第一信号。

36.如权利要求35所述的信号提取方法，其中，所述从第二信号减去第一信号包含对第一和第二信号进行归一化的时域、频域和子频带最小均方自适应滤波处理操作中选择的一种。

37.如权利要求36所述的信号提取方法，其中，所述的方法还包含有条件的抑制至少一个所述的滤波，和自适应所述滤波。

38.如权利要求37所述的信号提取方法，其中，所述方法还包含计算信号的平均幅值估计，比较估算的平均幅值，并且把比较的结果提供用于所述有条件的抑制。

39.如权利要求34所述的信号提取方法，其中，所述相减采用盲信号分离技术进行。