背景技术
在传统的会议系统中,一个或多个麦克风捕捉在远端位置的声波并将该声波变换为第一声频信号。该第一声频信号被传输到近端侧,这里的电视机或放大器和扩音器通过把第一位置处产生的第一声频信号变换为声波来再生原始声波。在近端侧产生的声波,被近端侧的声频捕捉系统部分地捕捉、变换为第二声频信号以及被传输回到远端侧的系统。使得声波在一个位置处被捕捉、传输到另一位置以及然后被传输回到最初位置的问题被称为声频回波。在最严重的情况下,当环路增益超出单位增益(unity)时,声频回波可能导致回声。这种声频回波还导致两个位置处的参与方听到他们自己的声音,使得在会议系统上的会话较难,尤其是如果在系统结构中具有延迟,就像在视频会议系统中常见的那样。通常使用以下所述的声频回波消除器来解决声频回波问题。
图1示出声频回波消除器子系统的例子。至少一个参与方位置具有声频回波消除器子系统,以减少在通信系统中的回波。声频回波消除器子系统是数字声频回波消除器的全频带模型。全频带模型直接地处理声频信号的整个声频带(例如达到20kHz;对于视频会议,该带通常为7kHz或更高;在声频会议中,该带通常达到3.4kHz)。
如已经提到的,通常通过声频回波消除器来实现声频回波的补偿。声频回波消除器是独立的装置或在通信系统的情况下是集成部分。声频回波消除器使用线性/非线性数学模型,变换从远端位置到近端位置的声频信号,并且然后从近端位置传输到远端位置的声频信号中减去数学调制声频信号。更详细地说,例如参考图1中的近端位置处的声频回波消除器子系统,声频回波消除器使得来自远端位置的第一声频信号通过该声频系统的数学建模器,计算回波信号的估计,从近端位置处捕捉的第二声频信号中减去估计的回波信号,以及将减去估计回波的第二声频信号传输回到远端位置。图1的回波消除器子系统还包括估计误差,也就是估计回波和实际回波之间的差异,从而可在声音被声频捕捉装置捕捉的位置处,更新该数学模型或使得该数学模型适应背景噪声和环境变化。
大多数回波消除器中使用的声频系统的模型是FIR(有限脉冲响应)滤波器,近似室内的直达声和大多数反射的变换函数(transferfunction)。声频系统的全频带模型相对复杂并且处理需要能量,而通常优选全频带模型的替换。
减少回波消除器的处理能量需求的一种方式是引入子带处理,也就是将信号划分为具有较小带宽的带,这些带可以使用较低采样频率来表示。该系统的一个例子在图2中示出。利用分析滤波器将扩音器和麦克风信号划分为子带,每个分别地表示原始扩音器和麦克风的频率的较小范围。在利用合成滤波器将修改后的麦克风的所有频带合并到一起以形成全频带信号之前,在每个子带上执行类似的回波消除和其他处理。
回波消除器中的核心部件是已经提到的回波模型(最常见通过FIR滤波器来实现)。声频模型尝试模仿从扩音器到麦克风的远端信号的变换函数。利用梯度搜索算法来更新自适应模型。该算法尝试使得误差函数最小,该误差函数是信号减去回波估计之后的幂。对于单声道回波(mono echo)消除器,该解决方案有效,具有一致和唯一的解。
然而,在高质量通信中,经常需要传输和呈现高质量多声道声频,例如立体声声频。立体声声频包括来自两个独立声道的声频信号,该信号表示根据某个声音组成的不同空间声频。将声道加载到每个相应扩音器上创建了更可靠的声频再生,因为听众将察觉声频源之间的空间距离,从这些声频源创建声音组成。
在一个扩音器上播放的信号不同于在另外扩音器上呈现的信号。因此,对于立体声(或多声道)回波消除器来说,从每个相应扬声器到麦克风的变换函数需要补偿。这是和单声道声频回波消除相比稍微不同的情况,因为在这里具有补偿两个不同、但是相关的信号。
注意,通过使用多个麦克风,如果仅仅存在一个扩音器(或单声道呈现信号),立体声信号的传输不需要立体声回波消除。如果要记录多声道声频,算法(在现有技术中和在本发明中)可以重复,以及有时可以被简化(因为很多部分是所有麦克风共有的)。并且,在立体声或信号的多声道接收的情况下,复杂性是明显的,本文不详细地讨论更多麦克风的使用。
在立体声声频中,不同声道中的相关性倾向于加大。这导致了法向梯度搜索算法受到损害。通过数学表达,相关性将多个错误最小解引入到误差函数中。这在Steven L.Gat和Jacob Benesty“Acoustic signalprocessing for telecommunication”,Boston:Kluwer Academic Publishers,2000中进行了描述。基本问题是当多个声道运载线性相关的信号时,利用适应性算法求解的对应于误差函数的法向函数的解是奇异的。这意味着该方程不具有唯一解,而是有无穷多的解,以及可以表明,所有除了真实的解依赖于播放室(transmission room)的脉冲响应(在该上下文中,播放室还可以包括合成播放室,作为例如在远端处回放的记录或编程的材料)。然后,梯度搜索算法可能陷入某个最小值中,该最小值不一定是真实的最小解。
表达该立体声回波消除器适应性问题的另一常用方法是其难以在立体图像中的房间响应变化和声频“移动”之间进行区分。例如,如果一个谈话者在远端侧的不同位置处说话时,声频模型需要再收敛。没有能够充分快地跟踪变化的适应性算法,以及多声道情况下的单声道回波消除器不能得到满意的性能。
用于克服已经提及的上述错误最小解问题的典型方法在图3中示出。与单声道情况比,分析滤波器被重复,将右和左扩音器信号划分为子带。声频模型被划分为两个模型(每个子带一个),一个用于右声道传输函数,以及一个用于左声道传输函数。
为了克服左和右声道信号之间的相关性所引入的错误最小解,引入去相关(de-correlation)算法。这种去相关算法使得可以正确地更新声频模型。然而,去相关技术还修改了出现在扩音器上的信号。虽然质量保持修改技术是可以接受的,多数根据现有技术的去相关技术使声频严重失真。此外,计算复杂性低的适应性算法像LMS(最小均方)或NLMS(标准化最小均方)倾向于使采用现有技术去相关的立体声信号的收敛减缓。因此,现有技术解决方案经常使用计算复杂性高的算法,例如RLS(递归最小二乘法)。
Bell实验室,Lucent Technology的Jacob Benesty等人的文章“Stereophonic acoustic echo cancellation using nonlinear transformationand comb filtering”,描述了一种立体声接收声频系统,其部分地在立体声输入信号上使用梳状滤波(comb filtering),用于对声道去相关,允许在回波消除器模块中的快速收敛适应性算法。然而,由于所需要的复杂性,依然是计算上代价高的。
现有技术可以解决立体声回波问题,但是没有保持声频的必要质量,此外,由于回波路径估计和其他子功能的复杂性,以及由于所需的更复杂的适应性算法,这些现有技术是计算密集的。
具体实施方式
在下文中,将描述优选实施例以及通过参考附图来讨论本发明。然而,即使结合视频会议和立体声来描述描述特定实施例,本领域技术人员将知道如所附的独立权利要求所限定的本发明的范围中的其他应用和修改。
具体地,本发明公开了用于修改扩音器信号的系统和方法,用于实现麦克风所捕捉声频信号的改进回波消除,而不损害感知的立体声(或多声道)声音。基本的想法是把来自不同声道的信号合并成为单声道特征信号,但依然保持充分的空间信息,以提供在扩音器上的感知多声道声音。
用于多声道情况的通用版本和用于立体声实施例的优选实施例引入较之现有技术的去相关算法更少的感知失真,从而保持了感知立体声图像。并且,使用本发明可以使用单声道回波消除器来消除回波,以及使用计算有效的LMS算法(也可以使用更昂贵以及更快的算法像APA和RLS,增加收敛速度)获得充分高的收敛速度。与现有技术相比,立体声回波消除器中的两个路径估计可以用一个路径估计来代替,所以本发明还减少了回波消除系统的综合成本,因通常单个路径估计器更廉价。
图4示出通常情况下的本发明的系统。使得所有(对于立体声情况为左和右)扩音器信号通过合并变换,将这些信号组合为一个单个的单声道信号。该单个的组合信号被用作用于单声道回波消除器的基准信号。
可以按多种方式来设计合并变换,以及如果需要可以使用非线性和时变技术。重要的是为回波消除器制造一个单个的会议信号,以及保持空间声频信息。
此外,在扩音器上呈现信号之前,通过划分变换,将组合信号划分为用于每个扩音器的一个信号。对于立体声情况,信号被划分为左和右声道。
划分变换构成了需要被建模的回波响应部分的一部分。因此,需要注意不要让变换使得模拟复杂化。标准回波消除器通常使用线性模型来估计回波响应路径,因此,线性划分变换是优选的。回波消除器还需要跟踪回波响应路径中的任何变化。这种跟踪相对较慢,可考虑使用时变划分变换。
必须配置合并变换和划分变换以创建使得空间信息被保持的一组声频信号,确保它们一起限制变换的可听人工物(audible artifacts)。
从回波消除器的角度来说,当获得仅仅一个完全表示扩音器信号的基准信号时,即使信号被划分且被在多个扩音器上播放时,信号是单声道的。因此,通过合并和划分变换的适当选择,可以利用单声道回波消除器来处理具有感知空间信息的信号。
图5中示出了立体声(两个声道)情况的优选实施例的一般情况。利用分别用于每个声道的两个线性滤波器HCL和HCR、以及加法器来形成合并变换。利用另外两个线性滤波器HDL和HDR来形成划分变换。
仅仅引入声频质量的有限感知退化的保持空间信息的一组滤波器是两个互补梳状滤波器HCL和HCR:
f∈[f2n,f2n+1>时,HCL(f)=KC,其他情况下,HCL(f)=0,
f∈[f2n+1,f2n+2>时,HCR(f)=KC,其他情况下,HCR(f)=0,
其中n=0,1,2,...,以及fn是自由选择的频率组。Kc是补偿由梳状滤波引入的损耗的增益。在图6中示出了频率响应的两个滤波器。注意,这些是实际上难以获得的理想的滤波器。然而,可以将滤波器配置为互补的,即使它们单个不是理想的。
划分变换具有类似的滤波器:
当f∈[f2n,f2n+1>时,HDL(f)=KD,其他情况,HDL(f)=0,
当f∈[f2n+1,f2n+2>时,HDR(f)=KD,其他情况,HDR(f)=0,
对于作为用于合并变换的相同频率组fn,KD是补偿由梳状滤波引入的损耗的增益。通常,为了维持整个系统的能量,KC*KD通常被选择为等于2。
合并滤波器去除每个声道中的一半频率成分,以使得利用加法器可以将信号合并为单声道信号,该单声道信号被提供作为用于回波消除器的基准信号。然后利用具有对应于合并滤波器的各个频率响应的划分滤波器,将合并信号再划分,并且将得到的左和右信号加载到左和右扩音器上。
以上公式的物理解释是:在左扩音器上播放相同的频带,而在右扩音器上播放剩余的频带。通过使频带充分窄,使用自然产生的声频信号,使得对于声频质量和空间信息的全部感知是良好的,该声频信号不包含很多纯单音。这是由于耳朵的特性引起的。此外,当在扩音器系统上播放时,左和右声道将在到达耳朵之前近乎完全地被求和。因此,单声道部分(右和左声道的和)将在听觉上被混合回来,并且因此在感知上具有很少的退化。侧部分(左和右声道之间的差)将被影响更多,但是依然,实践表明,空间感知被降低很少。
如已经提到的,难以提供图6所示的理想滤波器,但是如果它们保持为相当接近理想,则可以省略划分滤波器,以及可以将系统复杂性降低到图7中所示的那样。这与所介绍的原始结构不同,但是其依然有效,因为互补滤波器确保在所有频率处在交叉路径为零增益,也就是HCL(f)*HDR(f)=0以及HCR(f)*HLL(f)=0,当省略划分滤波器时,增益KD必须被包括在合并滤波器中,或作为在系统中的其他一些地方的增益。
如上述一个的实际实现将使用同样宽的频带来避免如很多滤波器阵(bank)那样的对于许多不同滤波器的需要(统一滤波器),包括在多数子带回波消除器中使用的那些频带,确实具有带宽相同的带。然而,梳状滤波器每个“齿”所需要的频率宽度实际上是频率依赖的。低频率需要比高频率更窄的“齿”,以及为了在均匀梳状滤波器中遵照该标准,将需要不实用的很多数量的“齿”。然而,常常是,在较低频率中出现非常有限的空间信息。因此,在低频率处在所有(所有两个)声道中播放单声道(也就是总信号)可以是有利的,也就是:
f∈[0,f1>时,HCL(f)=KMC,f∈[f2n+2,f2n+3]时,HCL(f)=KC,其他情况,HCL(f)=0
f∈[0,f1>时,HCR(f)=KMC,f∈[f2n+1,f2n+2]时,HCR(f)=KC,其他情况,HCR(f)=0
f∈[0,f1>时,HDL(f)=KMD,f∈[f2n+2,f2n+3]时,HDL(f)=KD,其他情况,HDL(f)=0
f∈[0,f1>时,HDR(f)=KMD,f∈[f2n+1,f2n+2]时,HDR(f)=KD,其他情况,HDR(f)=0
其中n=0,1,2,3,...,以及fn是自由选择的频率组。KC和KD是用来补偿梳状滤波器所引入的损耗的增益。KC*KD通常等于2,以维持整个系统的增益。KMC和KMD是选择来维持单个信号水平的增益,以及KMC*KMD通常被作为整体来选择。其物理解释是在扩音器上播放的低频部分是全带单声道信号,而在高频率处,利用互补梳状滤波器来对左和右信号进行滤波。
以上所述的梳状滤波器当与子带回波消除器一起使用时是特别适用的。由于已经构造分析滤波器来将全带信号划分为频带,以及设计了合成滤波器来将子带合并回到全带信号,子带消除器已经包括实现梳状滤波器结构所需要的大多数处理块。
这被用在图8所示的本发明的优选实施例中。使用分析滤波器的两个实例,将左和右声道分别地划分为频带表示Li和Ri。然后将该两个信号组合为子带域中的单个基准信号Ci:
Ci=KCl,i*Li+KCR,i*Ri
其中KCL,i和KCR,i分别是用于左和右声道的权重系数,以及字母i表示子带数。使用信号C作为回波消除器的输入,作为扩音器基准信号。
在播放输出信号之前,将基准信号进一步分别地划分为新的左和右声道信号L′i和R′i:
L′i=KDL,i*Ci
R′i=KDR,i*Ci
最终,通过合成滤波器来对这些修改后的信号进行处理,以制作这些信号的全带版本。该处理添加一些延迟,以及因为该延迟是回波路径的部分,有利的是相应地延迟基准信号,从而避免估计响应中的不明的滤波器接头。
对于标准梳状滤波结构,i是奇数时,KCL,i*KDL,i被选择为等于2,而当i是偶数时,其被选择为等于零;其中,当i是奇数时,KCR,i*KDR,i被选择为等于零,而当i是偶数时,其被选择为等于2。如之前建议的,将较低频带组合到单声道信号也是容易实现的,任何其他能想到的组合也是容易实现的。可以自由地选择合并和划分常数,而无需担心回波消除器性能,因为分析和合成滤波器带已经包括充分急剧的频带变换。如果需要,合并常数可以是时变的和/或非线性的,但是,构成待建模路径的部分的划分常数,最好被保持为线性的和时间不变的。
对于更通常的方法,如果对于所有i,KCL,i*KDR,i=0并且KCR,i*KDL,i=0,可以利用简单的复制/信号路由来代替合并和划分过程。在图8中还示出了为了执行这样的合并和划分滤波器结构而修改的子带消除器。当清除每个其他子带时补偿损失能量的比例因数应该被包括在左/右分析/合成滤波器中,或被包括在系统中的其他地方。该图示出了所有偶数带被提取并用于左声道,以及所有奇数带被用于右声道。当然,反过来也同样是可以的。
合并和划分过程是简单的矢量乘法和加法。除此之外,在使用该结构时,没有将新构件块添加到标准单声道子带回波消除器,使得该技术容易实现。
与使用去相关技术的立体声消除器的实现相比,必须添加两个新的合成滤波器。然而,由于一个单个的基准矢量,需要实现一组回波路径模型。两个合成滤波器所需要的处理能量相较于额外回波路径模型组所需要的处理能量来说通常较小,因此,该方法所需要的处理能量明显小于标准立体声回波消除器。可听到的假象比已知的去相关技术更不显著。在扩音器信号路径中引入的额外延迟在一些应用中是不利的,但是在其他应用(例如视频会议,其中声频信号被延迟以获得声频和视频之间的同步)中要求并不严格。
本发明的一个主要优点是允许利用单声道回波消除器、利用仅仅对于消除器的较小变化来操纵立体声声频信号。还使用了在标准子带消除器中的构件块。
此外,本发明较之标准立体声回波消除器只需要明显更低的处理能量,以及较之使用已知去相关技术的立体声回波消除器将更小的可听退化添加到声频信号中。