CN103325379A

CN103325379A - 用于声学回声控制的方法与装置

Info

Publication number: CN103325379A
Application number: CN2012100808103A
Authority: CN
Inventors: 施栋; 霍家泉; 孙学京; 格伦·N·迪金森
Original assignee: Dolby Laboratories Licensing Corp
Current assignee: Dolby Laboratories Licensing Corp
Priority date: 2012-03-23
Filing date: 2012-03-23
Publication date: 2013-09-25
Also published as: EP2828851B1; US9548063B2; US20150023514A1; WO2013142647A1; EP2828851A1

Abstract

描述了用于声学回声控制的方法与装置的实施方式。根据所述方法，进行基于回声能量的双端发声检测，以参考扬声器信号来确定在麦克风信号中是否存在双端发声。计算麦克风信号的频谱与扬声器信号的频谱之间的谱相似度。如果谱相似度高于门限水平，则确定在麦克风信号中不存在双端发声。如果通过基于回声能量的双端发声检测或通过基于谱相似度的双端发声检测确定在麦克风信号中不存在双端发声，则使能自适应滤波器的自适应，自适应滤波器用于对麦克风信号应用声学回声消除或声学回声抑制。

Description

用于声学回声控制的方法与装置

技术领域

本发明一般地涉及音频信号处理。更具体地，本发明的实施方式涉及声学回声控制。

背景技术

声学回声控制涉及消除或抑制从扬声器与麦克风之间的声学耦合产生的非期望回声信号。声学回声消除(acoustic echo cancellation，AEC)或声学回声抑制(acoustic echo suppression，AES)可以用于本目的。

AEC是一种通过自适应地识别回声路径脉冲响应和从麦克风信号中扣除回声信号的估计来完成回声消除的方法。AES是一种估计包含在麦克风信号中的回声信号的频谱，并且通过频谱修正来完成回声抑制的方法。

为了估计回声信号，自适应滤波器的系数是自适应地更新以识别回声路径响应。但是，在双端发声检测器(doubletalk detector，DTD)检测到双端发声(如果处于麦克风的近端处的讲话人在有回声时讲话)的情况下，通常，就估计声学回声路径而言，禁用自适应滤波器的自适应以防止近端信号对自适应滤波器具有负面影响。

发明内容

根据本发明的一种实施方式，提供了一种进行声学回声控制的方法。根据该方法，进行基于回声能量的双端发声检测以参考扬声器信号来确定在麦克风信号中是否存在双端发声。计算麦克风信号的频谱与扬声器信号的频谱之间的谱相似度。如果谱相似度高于门限水平，则确定在麦克风信号中不存在双端发声。如果通过基于回声能量的双端发声检测或通过基于谱相似度的双端发声检测确定在麦克风信号中不存在双端发声，则使能自适应滤波器的自适应，自适应滤波器用于对麦克风信号应用声学回声消除或声学回声抑制。

根据本发明的一种实施方式，提供了一种进行声学回声控制的装置。该装置包括第一双端发声检测器、第二双端发声检测器、回声处理单元以及控制器。第一双端发声检测器进行基于回声能量的双端发声检测，以参考扬声器信号确定在麦克风信号中是否存在双端发声。第二双端发声检测器计算麦克风信号的频谱与扬声器信号的频谱之间的谱相似度，如果谱相似度高于门限水平，则确定在麦克风信号中不存在双端发声。回声处理单元进行自适应滤波器的自适应，自适应滤波器用于对麦克风信号应用声学回声消除或声学回声抑制。如果通过基于回声能量的双端发声检测或通过基于谱相似度的双端发声检测确定在麦克风信号中不存在双端发声，则控制器使能自适应滤波器的自适应。

以下，参考附图来描述本发明的进一步的特征和优点，以及本发明的各种实施方式的结构与操作。需要注意的是本发明不限于本文中所描述的具体实施方式。本文中所提出的这些实施方式仅用于示例性目的。基于这里所包含的教示，另外的实施方式对相关领域的普通技术人员也是明显的。

附图说明

在附图的各图中，以示例性和非限制性的方式对本发明进行阐释，在附图中，类似的附图标记指代类似的元件，其中：

图1是示出了根据本发明实施方式的进行声学回声控制的示例性装置的框图；

图2是示出了根据本发明实施方式的进行声学回声控制的示例性方法的流程图；

图3是示出了根据本发明实施方式的进行声学回声控制的示例性装置的框图；

图4是示出了根据本发明实施方式的进行声学回声控制的示例性方法的流程图；

图5是示出了通过以传统方式使用传统DTD经AES后的输出的示意图；

图6是示出了根据公式(6)定义的相似度在BandNum＝48、PeakNum＝10以及α＝0.5时在双端发声期间的相似度测量的示意图；

图7是示出了根据公式(6)定义的相似度在BandNum＝48、PeakNum＝10以及α＝0.5时在回声路径变化期间的相似度测量示意图；

以及

图8是示出了用于实现本发明实施方式的示例性系统的框图。

具体实施方式

下面参考附图描述本发明实施方式。应注意，为清楚起见，在附图和描述中省略了关于本领域技术人员已知但是与本发明无关的组件和过程的陈述和描述。

本领域的技术人员可以理解，本发明的各方面可以被实施为系统、装置(例如蜂窝电话、便携媒体播放器、个人计算机、电视机顶盒、或数字录像机、或任意其它媒体播放器)、方法或计算机程序产品。因此，本发明的各方面可以采取以下形式：完全硬件实施方式、完全软件实施方式(包括固件、驻留软件、微代码等)或组合软件部分与硬件部分的实施方式，本文可以一般地称之为“电路”、“模块”或“系统”。此外，本发明的各方面可以采取体现为一个或更多个计算机可读介质的计算机程序产品的形式，该计算机可读介质上体现有计算机可读程序代码。

可以使用一个或多个计算机可读介质的任何组合。计算机可读介质可以是计算机可读信号介质或计算机可读存储介质。计算机可读存储介质例如可以是(但不限于)电的、磁的、光的、电磁的、红外线的、或半导体的系统、设备或装置、或前述各项的任何适当的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括以下：有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储装置、磁存储装置、或前述各项的任何适当的组合。在本文语境中，计算机可读存储介质可以是任何含有或存储供指令执行系统、设备或装置使用的或与指令执行系统、设备或装置相联系的程序的有形介质。

计算机可读信号介质可以包括例如在基带中或作为载波的一部分传播的、其中带有计算机可读程序代码的数据信号。这样的传播信号可以采取任何适当的形式，包括但不限于电磁的、光的或其任何适当的组合。

计算机可读信号介质可以是不同于计算机可读存储介质的、能够传达、传播或传输供指令执行系统、设备或装置使用的或与指令执行系统、设备或装置相联系的程序的任何一种计算机可读介质。

体现在计算机可读介质中的程序代码可以采用任何适当的介质传输，包括但不限于无线、有线、光缆、射频等等、或上述各项的任何适当的组合。

用于执行本发明各方面的操作的计算机程序代码可以以一种或多种程序设计语言的任何组合来编写，所述程序设计语言包括面向对象的程序设计语言，诸如Java、Smalltalk、C++之类，还包括常规的过程式程序设计语言，诸如“C”程序设计语言或类似的程序设计语言。程序代码可以完全地在用户的计算机上执行、部分地在用户的计算机上执行、作为一个独立的软件包执行、部分在用户的计算机上并且部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在后一种情形中，远程计算机可以通过任何种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户的计算机，或者，可以(例如利用因特网服务提供商来通过因特网)连接到外部计算机。

以下参照按照本发明实施方式的方法、设备(系统)和计算机程序产品的流程图和/或框图来描述本发明的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合都可以由计算机程序指令实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理设备的处理器以生产出一种机器，使得通过计算机或其它可编程数据处理装置执行的这些指令产生用于实现流程图和/或框图中的方框中规定的功能/操作的装置。

也可以把这些计算机程序指令存储在能够指引计算机或其它可编程数据处理设备以特定方式工作的计算机可读介质中，使得存储在计算机可读介质中的指令产生一个包括实现流程图和/或框图中的方框中规定的功能/操作的指令的制造品。

也可以把计算机程序指令加载到计算机、其它可编程数据处理设备或其它装置上，导致在计算机、其它可编程处理设备或其它装置上执行一系列操作步骤以产生计算机实现的过程，使得在计算机或其它可编程设备上执行的指令提供实现流程图和/或框图的方框中规定的功能/动作的过程。

图1是示出了根据本发明实施方式的进行声学回声控制的示例性装置100的框图。

如图1所示，装置100包含第一双端发声检测器101、第二双端发声检测器102、控制器103以及回声处理单元104。

在可以部署装置100的示例性情形中，扬声器根据通过通信链路接收或从本地源中再现的扬声器信号来输出声音，并且声音可以由麦克风捕获以产生麦克风信号。在这种情形下，麦克风信号可以包含扬声器信号的回声。装置100适于进行声学回声控制以消除或抑制麦克风信号中的回声。因此，扬声器信号也可以称作参考信号。

回声处理单元104被配置成进行自适应滤波器的自适应(图1中未示出)，自适应滤波器用于对麦克风信号应用声学回声消除或声学回声抑制。自适应滤波器的自适应指的是估计回声路径响应并更新自适应滤波器的系数，以基于该估计跟踪回声路径的变化。

一般地，在声学回声控制中进行双端发声检测来禁用自适应滤波器的自适应，以使自适应滤波器在出现双端发声的情况下避免发散。在装置100中，第一双端发声检测器101被配置成进行基于回声能量的双端发声检测，以参考扬声器信号来确定在麦克风信号中是否存在双端发声。

各种方法可以用于基于麦克风信号中的回声能量的双端发声检测。一般的做法是从激励、期望和/或误差信号中得到检测统计量η。然后将该检测统计量与门限比较，以确定是否可以宣称双端发声存在。用x(n)，y(n)以及d(n)分别表示远端(扬声器)、近端(麦克风)以及估计的回声信号。

方法之一是比较帧n的估计残余回声功率和实际残差功率(分别表示为Re(n)和Ra(n))，如果满足下式，则可以宣称双端发声存在：

η＝Ra(n)/Re(n)＞C (1)

其中C是预定义的常量。也就是说，如果实际残差功率大于C乘以估计残余回声功率，则可以宣称双端发声存在。

Geigel检测器是另一种典型的方法。检测统计量η是远端信号水平与近端信号水平的比率。

η＝max{|x(n)|，...，|x(n-N)|}/|y(n)| (2)

如果长度为N(典型地为回声路径的长度)的间隔上的最大的远端信号小于近端信号一个门限水平，则宣称双端发声存在。对于本检测的门限通常设置为接近于回声路径的回波损耗(echo return loss，ERL)的值。因此，如果近端讲话人是主动的，则近端信号水平将增加到足够将η降低到门限以下。

除了上述两种方法以外，通常也使用基于互相关的双端发声检测。闭环分析和开环分析是两个主要的基于相关的方法。在闭环分析中，互相关在麦克风信号与估计的回声信号之间。

η = \frac{| Σx (n - k - N) y (n - k) |}{Σ | x (n - k - N) y (n - k) |} - - - (3)

在开环分析中，互相关在麦克风信号与最大地相关的激励信号之间。

η = \max_{N} \frac{| Σx (n - k - N) y (n - k) |}{Σ | x (n - k - N) y (n - k) |} - - - (4)

第二双端发声检测器102被配置成：计算麦克风信号频谱与扬声器信号频谱之间的谱相似度，并且如果谱相似度高于门限水平TH_d，则确定在麦克风信号中不存在双端发声。否则，确定在麦克风信号中存在双端发声。

使用谱相似度的双端发声检测是基于以下观察。如果在回声参考信号的频谱与输入的麦克风信号的频谱之间存在一定水平的共同特征，则理应假定在信号中也存在一定量的共同性，因此，回声很可能出现在麦克风信号中，并且回声超过了本地声音或干扰噪声的能量。设计谱相似度以测量这种共同性。如果谱相似度高至一定程度，则确定在麦克风信号中没有双端发声存在。

麦克风信号与扬声器信号的频谱可以是能够通过频率分析得出的振幅谱、相位谱、功率谱或其它频谱，只要频谱能够反映不同信号之间的差异。一般地，频谱可以包括多个频带上或频率区间上的信号大小，并且可以表示为数据序列。用于测量数据序列之间的相似度的任何测量方法可以用于测量麦克风信号频谱与扬声器信号频谱之间的谱相似度。

门限水平TH_d可以基于对敏感性的要求与对双端发声检测的鲁棒性的要求之间的权衡而预先确定，或可以针对具体应用进行调整。

控制器103被配置成：如果第一双端发声检测器101确定在麦克风信号中不存在双端发声，或第二双端发声检测器102确定在麦克风信号中不存在双端发声，则使能自适应滤波器的自适应。如果第一双端发声检测器101和第二双端发声检测器102都确定在麦克风信号中存在双端发声，则禁用自适应滤波器的自适应。

在由第一双端发声检测器101进行的双端发声检测中，如果当前回声路径估计是不正确的，由于自适应滤波器的对于当前回声路径的缓慢收敛，则可能检测到虚假的双端发声。特别地，如果回声路径经历振幅突然增加并且当前回声路径估计未能跟踪此增加，麦克风信号中的回声能量的重要部分不被识别为回声能量，而因此被解释为干扰信号或本地信号的活动。例如，如果回声路径的振幅突然增加，则产生远大于C乘以估计残余回声功率Re(n)的实际残差功率Ra(n)，即，Ra(n)/Re(n)＞C。根据式(1)，宣称虚假的双端发声存在。如果根据此虚假的双端发声而禁用自适应滤波器的自适应，则非期望地减慢自适应或中止自适应，并且AEC或AES系统可能保留回声路径的不正确估计，导致系统性能下降和/或出现高水平的非期望残余回声。

在上述回声路径的振幅突然增加的情况下，如果没有本地讲话，麦克风信号和扬声器信号可以具有相似的频谱，因为麦克风信号主要地包含扬声器信号的回声。因此，通过进行基于谱相似度的经由第二双端发声检测器的另一双端发声检测，并且仅在第一双端发声检测器101和第二双端发声检测器102都检测到双端发声时，才决定有双端发声存在，从而可以避免这样的虚假双端发声或显著地减少这样的虚假双端发声。由此，可以减小收敛时间或从回声路径的突然变化中恢复，或减小在初始化时或重启时的回声估计的误收敛。例如，本发明的实施方式可以用于减少对分离的初始化阶段的需要，或可以用于减少对在回声信号的开始或发声起始控制自适应滤波器的不同方法的需要。使用谱相似度的另一个优点在于以下事实：谱相似度不依赖于两个信号的能量的比率，因此避免了门限如表达式(1)中的常量C的确定。替代地，两个频谱之间的相似程度被用作宣称双端发声存在的参考。这使得其对于如陡峭的回声路径的振幅跳变的情况有用，在该情况下，基于回声能量的DTD无能为力。因此，将这两种方法结合的总体思想源于以下事实：基于回声能量的DTD在大多数情况下(对于非陡峭回声路径变化)是有效的，而基于谱相似度的DTD对于陡峭的回声路径变化是有效的。通过将两种策略结合而获得的最终结果因此是更加鲁棒的DTD检测器。

图2是示出了根据本发明实施方式进行声学回声控制的示例性方法200的流程图。

如图2所示，方法200从步骤201开始。在步骤203处，进行基于回声能量的双端发声检测以参考扬声器信号确定在麦克风信号中是否存在双端发声。

在步骤205处，计算麦克风信号的频谱与扬声器信号的频谱之间的谱相似度。在步骤207处，如果谱相似度高于门限水平TH_d，则确定在麦克风信号中不存在双端发声。否则，确定在麦克风信号中存在双端发声。

在步骤209处，确定在步骤203和207处是否检测到双端发声。如果在步骤203处确定在麦克风信号中不存在双端发声，或在步骤207处确定在麦克风信号中不存在双端发声，则在步骤211处使能自适应滤波器的自适应，自适应滤波器用于对麦克风信号应用声学回声消除或声学回声抑制。如果在步骤203和207处都检测到双端发声，则在步骤213处禁用自适应滤波器的自适应。方法200在步骤215处终止。

图3是示出了根据本发明实施方式的进行声学回声控制的示例性装置300的框图。

如图3所示，装置300包括第一双端发声检测器301、第二双端发声检测器302、控制器303以及回声处理单元304。

第一双端发声检测器301、控制器303以及回声处理单元304分别具有与第一双端发声检测器101、控制器103以及回声处理单元104的功能相同的功能，并且在下文中将不对其进行详描述。

第二双端发声检测器302被配置成：如果第一双端发声检测器301检测到双端发声，则计算麦克风信号的频谱与扬声器信号的频谱之间的谱相似度。在这种情况下，并且相应地，第二双端发声检测器302被配置成：如果谱相似度高于门限水平TH_d，则确定在麦克风信号中不存在双端发声。否则，确定在麦克风信号中存在双端发声。

图4是示出了根据本发明实施方式的进行声学回声控制的示例性方法400的流程图。

如图4所示，方法400从步骤401开始。在步骤403处，进行基于回声能量的双端发声检测以参考扬声器信号确定在麦克风信号中是否存在双端发声。

在步骤404处，确定在麦克风信号中是否检测到双端发声，如果是，则方法400进行至步骤405。如果否，则方法400进行至步骤411。

步骤405和407具有与步骤205和207的功能相同的功能，并且在下文中将不对其进行详描述。

在步骤409处，确定在步骤407处是否检测到双端发声。如果是，则方法400进行至步骤413，如果否，则方法400进行至步骤411。

步骤413和411具有与步骤213和211的功能相同的功能，并且在下文中将不对其进行详细的描述。方法400在步骤415处终止。

在装置100和300以及方法200和400的进一步实施方式中，可以平滑麦克风信号的频谱和扬声器信号的频谱来抑制随机扰动，以提高谱相似度的准确度。在一个示例中，设对于帧n的X(n)和D(n)分别为包含有扬声器信号的频谱和包含有麦克风信号的频谱的数据序列。频谱的平滑形式X_s(n)和D_s(n)可以通过以下公式计算：

X_s(n)＝X_s(n-1)+α(X(n)-X_s(n-1))，D_s(n)＝D_s(n-1)+α(D(n)-D_s(n-1)) (5)

其中，α表示在[0，1]的范围内的平滑因子。应当理解，也可以采用其它去除随机扰动的平滑算法。

可以看出，对于给出的两个不相关的话音如远端话音(参考话音)和近端话音(本地讲话人)，可以假定在其各自频谱上的峰值位置通常展示出一定的非相似性。此假设是合理的，因为话音在频域通常是稀疏的。从而，可能使用峰值位置或分类区间的大小来反映频谱特征，并且使用该特征用于比较。

在装置100和300以及方法200和400的进一步实施方式中，将麦克风信号的频谱和扬声器信号的频谱计算为频谱向量，频谱向量包含表示相应信号在一组感知分离的频带上或一组频率区间上信号大小的元素。相应地，将谱相似度计算为频谱向量之间的相似度。以这种方式，峰值的大小和位置可以表征在向量中。因此，可以采用用于测量向量之间的相似度的各种方法来计算谱相似度。

在装置100和300以及方法200和400的进一步实施方式中，在将频谱表示成频谱向量的情况下，计算频谱时可以将频谱向量二值化。具体地，对于频谱向量中的每一个元素，如果由元素表示的信号大小在对应频谱中相对地高，则把第一值(如1)赋予元素，如果由元素表示的信号大小在对应频谱中相对地低，则把第二值(如0)赋予元素。

可以采用各种标准用于确定信号大小是相对地低或相对地高。在一个示例性方法中，可以设置门限。如果信号大小大于门限，则确定信号大小是相对地高，否则确定信号大小是相对地低。在另一示例性方法中，可以在频谱中找到信号大小的局部极值，然后确定所找到的信号大小为相对地高，而频谱中的其它信号大小为相对地低。在另一示例性方法中，可以在频谱中找到预定数量PeakNum的最大的信号大小，然后确定所找到的信号大小为相对地高，而频谱中的其他信号为相对地低。例如，假定PeakNum＝3，频带数量(或频率区间)BandNum＝6，Xs(n)＝[20 10 5 1768 30]^T以及Ds(n)＝[10 0 30 86 51 64]^T，对应的二值化向量I_X和I_D导出如下：

I_X＝[100011]^T以及I_D＝[000111]^T

在一个示例中，二值化向量I_X和I_D的谱相似度SIM可以计算为具有向量长度(BandNum)的归一化的点乘积，即，

SIM = I_{D}^{T} I_{X} / BandNum - - - (6)

图5是示出了通过以传统的方式使用传统的DTD经AES后的输出的示意图。从图5中可以看出，通过将经AES后的实际输出与理想输出相比较，可以看出自适应滤波器未能收敛。实际输出信号包含大量的回声话音。

图6是示出了根据公式(6)定义的相似度在BandNum＝48、PeakNum＝10以及α＝0.5时在双端发声期间的相似度测量的示意图。从图6中可以看出，值SIM大部分时间低于50％。

图7是示出了根据公式(6)定义的相似度在BandNum＝48、PeakNum＝10以及α＝0.5时在回声路径变化期间的相似度测量的示意图。从图7中可以看出，值SIM远高于图6中情况下的值SIM，并且大部分时间高于50％。

在装置100和300以及方法200和400的进一步的实施方式中，在频谱被表示为频谱向量X(n)和D(n)的情况下，谱相似度可以计算如下。对于频谱之一中的在该频谱如X(n)上的每一个相对地高的信号大小x_i，计算索引i与频谱的另一个中的在该频谱如D(n)上的所有相对地高的信号大小的索引之间的最小差值min_diffi。计算所有所计算的最小索引差值的和以表示频谱向量X(n)与D(n)之间的距离。进一步的方法是在每个频谱中获取一组峰值或极值的索引，并且在每一组中找到恰当的索引配对以使得所有组中最接近的索引相互配对。这样的算法对于本领域的普通技术人员已知为“匹配算法”，并且使用更加连续的匹配函数来计算谱相似度的测量值，如此可以导致更加鲁棒的计算相似度。

举例说明，再次考虑以上示例，选择三个峰值，两组三个索引分别是[156]以及[456]，恰当地匹配的索引之间的距离是3+0+0＝3。在这种情况下，较低的数字表明较高的谱相似度。随着频带或频率区间的数量的增加，相比累积两组中出现的索引数字的首先建议的实施方式，此匹配高频谱值或极值的方法提供了更加连续的谱相似度估计。

在装置100和300以及方法200和400的进一步的实施方式中，谱相似度可以计算如下。计算麦克风信号和扬声器信号的频谱。然后，从频谱中分别提取出线性预测编码(linear predictive coding，LPC)系数的两个系数向量。将系数向量中的系数转换为线谱频率。从而，基于系数向量之间的距离计算谱相似度。以这种方式，能够通过比较信号的频谱包络来测量相似度。

在装置100和300的进一步的实施方式中，麦克风信号和扬声器信号可以使用基于线性预测编码(LPC)的方法如码激励线性预测编码(codeexcited linear prediction，CELP)来编码。在这种情况下，谱相似度可以计算如下。搜索码书以找到与扬声器信号的LPC系数对应的LPC条目、以及与麦克风信号的LPC系数对应的LPC条目。从码书中取得LPC条目之间的预计算的距离。基于所取得的距离计算谱相似度。

在有不止一个讲话人讲话的场景下，在麦克风信号中可以出现多种讲话人组合。例如，一个组合包含一个男性讲话人和一个女性讲话人，另一个组合包含两个男性讲话人或两个女性讲话人。不同的组合可以表现出不同的频谱特征，例如，不同频率区域中的不同大小。可以采取适合于不同组合的计算谱相似度的相应算法。

在装置100和300的进一步的实施方式中，可以包含识别单元。识别单元可以被配置成：识别扬声器信号和麦克风信号之一中的讲话人组合的类型。第二双端发声检测器被进一步配置成：选择为该类型配置的算法，以计算谱相似度。方法200和400的进一步的实施方式，可以包含识别扬声器信号和麦克风信号之一中的讲话人组合的类型的步骤。谱相似度的计算包含选择为该类型配置的算法以计算谱相似度。

在图8中，中央处理单元(CPU)801根据只读存储器(ROM)802中存储的程序或从存储部分808加载到随机访问存储器(RAM)803的程序执行各种处理。在RAM 803中，也根据需要存储当CPU 801执行各种处理等等时所需的数据。

CPU 801、ROM 802和RAM 803经由总线804彼此连接。输入/输出接口805也连接到总线804。

下列部件连接到输入/输出接口805：包括键盘、鼠标等等的输入部分806；包括例如阴极射线管(CRT)、液晶显示器(LCD)等等的显示器和扬声器等等的输出部分807；包括硬盘等等的存储部分808；和包括例如LAN卡、调制解调器等等的网络接口卡的通信部分809。通信部分809经由例如因特网的网络执行通信处理。

根据需要，驱动器810也连接到输入/输出接口805。例如磁盘、光盘、磁光盘、半导体存储器等等的可移除介质811根据需要被安装在驱动器810上，使得从中读出的计算机程序根据需要被安装到存储部分808。

在通过软件实现上述步骤和处理的情况下，从例如因特网的网络或例如可移除介质811的存储介质安装构成软件的程序。

本文中所用的术语仅仅是为了描述特定实施方式的目的，而非意图限定本发明。本文中所用的单数形式的“一”和“该”旨在也包括复数形式，除非上下文中明确地另行指出。还应理解，“包括”一词当在本说明书中使用时，说明存在所指出的特征、整体、步骤、操作、单元和/或组件，但是并不排除存在或增加一个或多个其它特征、整体、步骤、操作、单元和/或组件，以及/或者它们的组合。

以下权利要求中的对应结构、材料、操作以及所有功能性限定的装置或步骤的等同替换，旨在包括任何用于与在权利要求中具体指出的其它单元相组合地执行该功能的结构、材料或操作。对本发明进行的描述只是出于图解和描述的目的，而非用来对具有公开形式的本发明进行详细定义和限制。对于所属技术领域的普通技术人员而言，在不偏离本发明范围和精神的情况下，显然可以作出许多修改和变型。对实施方式的选择和说明，是为了最好地解释本发明的原理和实际应用，使所属技术领域的普通技术人员能够明了，本发明可以有适合所要的特定用途的具有各种改变的各种实施方式。

这里描述了下面的示例性实施方式(均用″EE″表示)。

EE 1.一种进行声学回声控制的方法，包括：

进行基于回声能量的双端发声检测，以参考扬声器信号来确定在麦克风信号中是否存在双端发声；

计算所述麦克风信号的频谱与所述扬声器信号的频谱之间的谱相似度；

如果所述谱相似度高于门限水平，则确定在所述麦克风信号中不存在双端发声；以及

如果通过所述基于回声能量的双端发声检测或通过所述基于谱相似度的双端发声检测确定在所述麦克风信号中不存在双端发声，则使能自适应滤波器的自适应，所述自适应滤波器用于对所述麦克风信号应用声学回声消除或声学回声抑制。

EE 2.根据EE 1所述的方法，其中，所述频谱是功率谱。

EE 3.根据EE 1或2所述的方法，其中，所述频谱的所述计算包含平滑所述频谱以抑制随机扰动。

EE 4.根据EE 1或2所述的方法，其中，所述谱相似度的所述计算包括：

将每一个所述频谱计算为频谱向量，所述频谱向量包含表示相应信号在一组感知分离的频带上或一组频率区间上信号大小的元素；以及

将所述谱相似度计算为所述频谱向量之间的相似度。

EE 5.根据EE 4所述的方法，其中，所述频谱向量的所述计算包括：

对于所述频谱向量的每一个元素，如果由所述元素表示的所述信号大小在对应频谱中相对地高，则把第一值赋予所述元素，如果由所述元素表示的所述信号大小在对应频谱中相对地低，则把第二值赋予所述元素。

EE 6.根据EE 5所述的方法，其中，所述频谱向量的所述计算包括：

在所述频谱中找到预定数量的最大信号大小或信号大小的局部极值；以及

把所找到的信号大小确定为相对地高，而把所述频谱中的其它信号确定为相对地低。

EE 7.根据EE 4所述的方法，其中，所述元素是对应的所述信号大小，并且所述谱相似度的所述计算包括：

对于所述频谱之一中的在所述频谱中相对地大的每一个信号大小，计算所述信号大小与在所述频谱的另一个中相对地大的所有信号大小之间的最小差值；以及

基于所有所计算出的最小差值的和来计算所述谱相似度。

EE 8.根据EE 1或2所述的方法，其中，所述谱相似度的所述计算包括：

计算所述麦克风信号和所述扬声器信号的所述频谱；

从所述频谱中分别提取出线性预测编码系数的两个系数向量；

将所述系数向量中的所述线性预测编码系数转换为线谱频率；以及

基于所述系数向量之间的距离计算所述谱相似度。

EE 9.根据EE 1或2所述的方法，其中，使用基于线性预测编码的方法来编码所述麦克风信号与所述扬声器信号，并且所述谱相似度的所述计算包括：

搜索码书以找到与所述扬声器信号的所述线性预测编码系数对应的线性预测编码条目、以及与所述麦克风信号的线性预测编码系数对应的线性预测编码条目；

从所述码书中取得所述线性预测编码条目之间的预计算距离；以及

基于所述取得的距离计算所述谱相似度。

EE 10.根据EE 1或2所述的方法，还包括：

识别所述扬声器信号和所述麦克风信号之一中的讲话人组合的类型；以及

选择为所述类型配置的算法来计算所述谱相似度。

EE 11.根据EE 1或2所述的方法，其中，所述计算步骤和所述确定步骤仅在通过基于所述回声能量的双端发声检测确定存在双端发声的情况下进行。

EE 12.一种进行声学回声控制的装置，包括：

第一双端发声检测器，所述第一双端发声检测器被配置成：进行基于回声能量的双端发声检测，以参考扬声器信号来确定在麦克风信号中是否存在双端发声；

第二双端发声检测器，所述第二双端发声检测器被配置成：计算所述麦克风信号的频谱与所述扬声器信号的频谱之间的谱相似度，并且如果所述谱相似度高于门限水平，则确定在所述麦克风信号中不存在双端发声；

回声处理单元，所述回声处理单元被配置成：进行自适应滤波器的自适应，所述自适应滤波器用于对所述麦克风信号应用声学回声消除或声学回声抑制；以及

控制器，所述控制器被配置成：如果通过所述基于回声能量的双端发声检测，或通过所述基于谱相似度的双端发声检测确定在所述麦克风信号中不存在双端发声，则使能所述自适应滤波器的所述自适应。

EE 13.根据EE 12所述的装置，其中，所述频谱是功率谱。

EE 14.根据EE 12或13所述的装置，其中，所述第二双端发声检测器被进一步配置成：平滑所述频谱以抑制随机扰动。

EE 15.根据EE 12或13所述的装置，其中，所述第二双端发声检测器被进一步配置成：

将所述谱相似度计算为所述频谱向量之间的相似度。

EE 16.根据EE 15所述的装置，其中，所述第二双端发声检测器被进一步配置成：

EE 17.根据EE 16所述的装置，其中，所述第二双端发声检测器被进一步配置成：

把所找到的信号大小确定相对地高，而把所述频谱中的其它信号确定为相对地低。

EE 18.根据EE 15所述的装置，其中，所述元素是对应的所述信号大小，并且所述第二双端发声检测器被进一步配置成：

基于所有所计算出的最小差值的和来计算所述谱相似度。

EE 19.根据EE 12或13所述的装置，其中，所述第二双端发声检测器被进一步配置成：

计算所述麦克风信号和所述扬声器信号的所述频谱；

基于所述系数向量之间的距离计算所述谱相似度。

EE 20.根据EE 12或13所述的装置，其中，所述麦克风信号和所述扬声器信号使用基于线性预测编码的方法来编码，并且所述第二双端发声检测器被进一步配置成：

基于所述取得的距离计算所述谱相似度。

EE 21.根据EE 12或13所述的装置，还包括：

识别单元，所述识别单元被配置成：识别所述扬声器信号和所述麦克风信号之一中的讲话人组合的类型；以及

所述第二双端发声检测器被进一步配置成：选择为所述类型配置的算法来计算所述谱相似度。

EE 22.根据EE 12或13所述的装置，其中，所述第二双端发声检测器被进一步配置成：仅在所述第一双端发声检测器确定存在有双端发声时才进行所述计算和所述确定。

EE 23.一种在其上记录有计算机程序指令的计算机可读介质，当由处理器执行所述计算机程序指令时，所述指令使处理器执行一种进行声学回声控制的方法，所述方法包括：

Claims

1.一种进行声学回声控制的方法，包括：

2.根据权利要求1所述的方法，其中，所述频谱是功率谱。

3.根据权利要求1或2所述的方法，其中，所述频谱的所述计算包括：平滑所述频谱以抑制随机扰动。

4.根据权利要求1或2所述的方法，其中，所述谱相似度的所述计算包括：

将所述谱相似度计算为所述频谱向量之间的相似度。

5.根据权利要求4所述的方法，其中，所述频谱向量的所述计算包括：

6.根据权利要求5所述的方法，其中，所述频谱向量的所述计算包括：

7.根据权利要求4所述的方法，其中，所述元素是对应的所述信号大小，并且所述谱相似度的所述计算包括：

基于所有所计算出的最小差值的和来计算所述谱相似度。

8.根据权利要求1或2所述的方法，其中，所述谱相似度的所述计算包括：

计算所述麦克风信号和所述扬声器信号的所述频谱；

基于所述系数向量之间的距离计算所述谱相似度。

9.根据权利要求1或2所述的方法，其中，使用基于线性预测编码的方法来编码所述麦克风信号与所述扬声器信号，并且所述谱相似度的所述计算包括：

基于所述取得的距离计算所述谱相似度。

10.根据权利要求1或2所述的方法，还包括：

选择为所述类型配置的算法来计算所述谱相似度。

11.根据权利要求1或2所述的方法，其中，所述计算步骤和所述确定步骤仅在通过基于所述回声能量的双端发声检测确定存在双端发声的情况下进行。

12.一种进行声学回声控制的装置，包括：

控制器，所述控制器被配置成：如果通过所述基于回声能量的双端发声检测或通过所述基于谱相似度的双端发声检测确定在所述麦克风信号中不存在双端发声，则使能所述自适应滤波器的所述自适应。

13.根据权利要求12所述的装置，其中，所述频谱是功率谱。

14.根据权利要求12或13所述的装置，其中，所述第二双端发声检测器被进一步配置成：平滑所述频谱以抑制随机扰动。

15.根据权利要求12或13所述的装置，其中，所述第二双端发声检测器被进一步配置成：

将所述谱相似度计算为所述频谱向量之间的相似度。

16.根据权利要求15所述的装置，其中，所述第二双端发声检测器被进一步配置成：

17.根据权利要求16所述的装置，其中，所述第二双端发声检测器被进一步配置成：

18.根据权利要求15所述的装置，其中，所述元素是对应的所述信号大小，并且所述第二双端发声检测器被进一步配置成：

基于所有所计算出的最小差值的和来计算所述谱相似度。

19.根据权利要求12或13所述的装置，其中，所述第二双端发声检测器被进一步配置成：

计算所述麦克风信号和所述扬声器信号的所述频谱；

基于所述系数向量之间的距离计算所述谱相似度。

20.根据权利要求12或13所述的装置，其中，所述麦克风信号和所述扬声器信号使用基于线性预测编码的方法来编码，并且所述第二双端发声检测器被进一步配置成：

基于所述取得的距离计算所述谱相似度。

21.根据权利要求12或13的所述装置，还包括：

22.根据权利要求12或13所述的装置，其中，所述第二双端发声检测器被进一步配置成：仅在所述第一双端发声检测器确定存在有双端发声时才进行所述计算和所述确定。