CN103718538A - 用于实现声学回声消除的非线性后期处理 - Google Patents
用于实现声学回声消除的非线性后期处理 Download PDFInfo
- Publication number
- CN103718538A CN103718538A CN201180072348.6A CN201180072348A CN103718538A CN 103718538 A CN103718538 A CN 103718538A CN 201180072348 A CN201180072348 A CN 201180072348A CN 103718538 A CN103718538 A CN 103718538A
- Authority
- CN
- China
- Prior art keywords
- signal
- inhibiting factor
- coherence
- end signal
- near end
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M9/00—Arrangements for interconnection not involving centralised switching
- H04M9/08—Two-way loud-speaking telephone systems with means for conditioning the signal, e.g. for suppressing echoes for one or both directions of traffic
- H04M9/082—Two-way loud-speaking telephone systems with means for conditioning the signal, e.g. for suppressing echoes for one or both directions of traffic using echo cancellers
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
- Filters That Use Time-Delay Elements (AREA)
Abstract
本发明披露了一种可实现声学回声消除的音频信号非线性后期处理方法和系统。该系统包括一个非线性处理器(NLP)(104),用于接收下述信号,并将至少两个信号作为输入:即将发出的远端信号和多个捕获端信号;NLP(104)首先针对每个频带,计算接收到的信号之间的一个或多个相干性测量,并基于一个或多个相干性测量,得出每个频带相应的抑制因子。NLP(104)还将上述抑制因子应用于捕获端信号中的一个信号,以便大幅消除捕获端信号的回声。
Description
技术领域
本发明大体上与电信系统内的回声消除方法和系统相关,尤其涉及一种通过对误差信号进行非线性后期处理来消除误差信号残余回声的方法和系统。
背景技术
语音质量是电话系统供应商关注的一个重要因素。客户对语音质量的要求不断提升,电话系统供应商也必须持续做出改进,这一点至关重要。回声是最初传输内容的延迟表现,如果延迟时间很长,则会对讲话者造成严重干扰。如果短程往返延迟小于20毫秒,讲话者分辨不出回声和电话听筒内的侧音。然而,对于远程通信而言(比如卫星通信),远程产生的回声信号通常表现为显著的延迟。此外,数字无线电通信系统和互联网协议电话系统(简称“IP电话”)内必要的语音和信道编码也会导致严重的延迟,使生成的回声与讲话者清晰可听到的声音保持在相对较短的距离内。因此,为了维护语音质量,消除回声是非常重要的。
回声消除器通常包括一个线性滤波零件,该零件从本质上来说是一个试图适应回声路径的自适应滤波器。通过这种方式,远端信号产生的回声复制品便能在近端信号中去除,从而消除回声。
产出回声复制品的滤波器可能属于有限或无限脉冲响应滤波器。最常见的情况是拥有大量延迟线和相应系数的自适应线性有限脉冲响应(FIR)滤波器,或者是抽头延迟线滤波器。这些系数拥有不同的值,当这些系数值乘以滤波器输入信号的延迟信号时,便会得出回声的估值。该滤波器经过改良,即经过更新,使这些系数能够收敛于最佳值。消除回声的一种传统方法是,使用归一化最小均方误差(NLMS)算法来更新有限脉冲响应(FIR)滤波器。
按照惯例做法,为实现声学回声消除(AEC),第一阶段采用线性滤波器,以模拟系统脉冲响应。通过过滤远端信号,得到估计的回声信号。然后,从近端信号中除去估计的回声信号,从而达到消除回声的目的。然而,问题是,经过此第一阶段之后,残余的误差信号中通常仍保留着一些可闻回声。在第二阶段,需要应用后期处理器,以消除残余的回声。
发明内容
本发明概述以简要形式介绍了一些概念,让读者对本发明的相关方面有个基本了解。本发明概述不是对本发明的广泛性概括,也并非介绍本发明的关键或重要组成部分,亦非描述本发明的范围。本发明概述仅阐述本发明的一些概念,作为下文“详细说明”部分的铺垫。
根据本发明的一方面,本文披露了一种可实现声学回声消除的音频信号非线性后期处理方法。这种方法包括,通过非线性处理器接收下述信号,并将其中至少两个信号作为输入:即将发出的远端信号和多个捕获端信号,然后将接收到的信号转换为频域,并针对每个频率带,计算接收到的信号之间的一个或多个相干性测量。这种方法也包括,基于一个或多个相干性测量,得出每个频率带相应的抑制因子,并将抑制因子应用于捕获端信号中的一个信号,以便大幅消除捕获端信号的回声。
根据本发明的另一方面,多个捕获端信号包括近端捕获信号和误差信号,误差信号包含来自线性自适应滤波器的残余回声输出。
根据本发明的另一方面,方法包括:在预定的时间内追踪相干性测量,以确定近端信号处于“无回声状态”还是“回声状态”。
根据本发明的另一方面,计算步骤进一步包括:针对每个频率带,计算远端信号和近端信号之间的第一个相干性测量;近端信号和误差信号之间的第二个相干性测量;以及使用第一个和第二个相干性测量来计算抑制因子。
根据本发明的另一方面,抑制因子直接与相干性测量的组合成正比。
根据本发明的另一方面,当近端信号处于“无回声状态”时,抑制因子直接与第一个相干性测量和第二个相干性测量二者之一成正比。
根据本发明的另一方面,当近端信号处于“回声状态”时,抑制因子直接与第一个相干性测量和第二个相干性测量中的最小值成正比。
根据本发明的一方面,第一个相干性测量是对远端信号和近端信号之间时域相干性的频域模拟。
根据本发明的另一方面,第二个相干性测量是对近端信号和误差信号之间时域相干性的频域模拟。
此外,根据本发明的一方面,方法进一步包括,将抑制因子应用于误差信号,以便大幅消除误差信号的残余回声。
根据本发明的一方面,方法进一步包括:通过比较误差信号和近端信号的能量来检测滤波发散,并基于检测到的滤波发散,将抑制因子应用于近端信号。
根据本发明的另一方面,方法也包括,通过自乘算法,突出强调抑制因子的谷值。
根据本发明的另一方面,方法包括,配置一条曲线来影响不太准确的频率带,并对抑制因子进行加权。
此外,根据本发明的一方面,方法包括,追踪最小抑制因子,并按比例调整抑制因子,以便使最小值能够接近目标值。
根据本发明的另一方面,方法包括,将远端信号、近端信号和误差信号转换为频域。
根据本发明的另一方面,其特征在于,频率带与各个离散傅立叶变换(DFT)系数相对应。
根据本发明的另一方面,本文披露了一种可实现声学回声消除的音频信号非线性后期处理系统。这种系统包括一个非线性处理器和一个转化单元。非线性处理器接收下述信号,并将至少两个信号作为输入:即将发出的远端信号和多个捕获端信号。转化单元将接收到的信号转换为频域。非线性处理器被配置为:针对每个频率带,计算接收到的信号之间的一个或多个相干性测量;基于一个或多个相干性测量,得出每个频率带相应的抑制因子;并将抑制因子应用于捕获端信号中的一个信号,以便大幅消除捕获端信号的回声。
根据本发明的另一方面,非线性处理器被配置为,在预定的时间内追踪相干性测量,以确定近端信号处于无回声状态还是回声状态。
根据本发明的另一方面,非线性处理器被配置为,针对每个频率带,计算远端信号和近端信号之间的第一个相干性测量;近端信号和误差信号之间的第二个相干性测量;以及使用第一个和第二个相干性测量来计算抑制因子。
此外,根据本发明的一方面,非线性处理器被配置为,将抑制因子应用于误差信号,以便大幅消除误差信号的残余回声。
根据本发明的另一方面,非线性处理器被配置为,通过比较误差信号和近端信号的能量来检测滤波发散,并基于检测到的滤波发散,将抑制因子应用于近端信号。
根据本发明的另一方面,非线性处理器被配置为,通过自乘算法,突出强调抑制因子的谷值。
根据本发明的另一方面,非线性处理器被配置为,配置一条曲线来影响不太准确的频率带,并对抑制因子进行加权。
根据本发明的一方面,非线性处理器被配置为,追踪最小抑制因子,并按比例调整抑制因子,以便使最小值能够接近目标值。
根据本发明的另一方面,转化单元被配置为,将远端信号、近端信号和误差信号转换为频域。
此外,根据本发明的一方面,频率带与各个离散傅立叶变换(DFT)系数相对应。
根据本发明的一方面,本文披露了一种计算机可读存储介质,其中存储了可实现声学回声消除的音频信号非线性后期处理计算机可执行程序。执行该计算机程序时,会使处理器执行以下步骤:通过非线性处理器接收下述信号,并将至少两个信号作为输入:即将发出的远端信号和多个捕获端信号;将接收到的信号转换为频域;针对每个频率带,计算接收到的信号之间的一个或多个相干性测量;基于一个或多个相干性测量,得出每个频率带相应的抑制因子;并将抑制因子应用于捕获端信号中的一个信号,以便大幅消除捕获端信号的回声。
根据本发明的另一方面,执行该计算机程序时,会使处理器执行以下步骤:在预定的时间内追踪相干性测量,以确定近端信号处于无回声状态还是回声状态。
根据本发明的一方面,执行该计算机程序时,会使处理器进一步执行以下步骤:针对每个频率带,计算远端信号和近端信号之间的第一个相干性测量;近端信号和误差信号之间的第二个相干性测量;以及使用第一个和第二个相干性测量来计算抑制因子。
根据本发明的另一方面,执行该计算机程序时,会使处理器进一步执行以下步骤:将抑制因子应用于误差信号,以便大幅消除误差信号的残余回声。
根据本发明的另一方面,执行该计算机程序时,会使处理器进一步执行以下步骤:通过比较误差信号和近端信号的能量来检测滤波发散,并基于检测到的滤波发散,将抑制因子应用于近端信号。
根据本发明的另一方面,执行该计算机程序时,会使处理器进一步执行以下步骤:通过自乘算法,突出强调抑制因子的谷值。
根据本发明的另一方面,执行该计算机程序时,会使处理器进一步执行以下步骤:配置一条曲线来影响不太准确的频率带,并对抑制因子进行加权。
根据本发明的另一方面,执行该计算机程序时,会使处理器进一步执行以下步骤:追踪最小抑制因子,并按比例调整抑制因子,以便使最小值能够接近目标值。
根据本发明的另一方面,执行该计算机程序时,会使处理器进一步执行以下步骤:将远端信号、近端信号和误差信号转换为频域。
附图说明
这些附图被纳入本说明且构成本说明的一部分,它们阐释了本发明的几个实施例,并附带一些文字说明,以便充分解释本发明的原理。
图1是声学回声消除器的方块图,是根据本发明的一个实施例绘制出来的。
图2是更加详细的方块图,阐释了图1中的自适应滤波器可能实现的功能,是根据本发明的一个实施例绘制出来的。
图3阐释了图2中的自适应滤波器的计算阶段,是根据本发明的一个实施例绘制出来的。
图4是更加详细的方块图,描述了图3中的Gm块,是根据本发明的一个实施例绘制出来的。
图5是一个流程图,描述了图1中的非线性处理器的计算阶段,是根据本发明的一个实施例绘制出来的。
图6是一个流程图,阐释了声学回声消除器执行的操作,是根据图5中本发明的一个实施例绘制出来的。
图7是一个流程图,阐释了声学回声消除器执行的操作,是根据图6中本发明的一个实施例绘制出来的。
图8是一个方块图,阐释了用于实现声学回声消除的典型计算设备,是根据本发明的一个实施例绘制出来的。
具体实施方式
下述有关本发明实施例的详细说明将引用这些附图。下述详细说明并不意在限制本发明的范围,本发明的范围是由随附的权利要求和等效内容而确定的。
图1依据本发明的一个典型实施例阐释了声学回声消除器(AEC)100的工作原理。
AEC 100是一种高质量回声消除器,专为通过分组交换网络进行的语音和音频通信而设计。具体而言,AEC 100旨在消除声学回声130,这种回声是发出设备10发出的声波从界面和其他物体处反射回近端捕获设备20而产生的。回声130产生的另一个原因是,从发出设备10到捕获设备20的通路是直接通路。
发出设备10可以是任意音频输出设备,包括为了从一个或多个通道输出声音而配置的一个或一组扬声器。捕获设备20可以是任意音频输入设备,比如为了捕获声音和生成输入信号而配置的一个或多个麦克风。举例来说,发出设备10和捕获设备20可以是计算机系统的内部硬件设备,也可以是以有线和/或无线连接方式接入计算机系统的外围设备。在某些布置中,发出设备10和捕获设备20可以是麦克风、电话听筒等单个设备的组件。此外,发出设备10和捕获设备20中任意一个或两个可能具备模拟数字转换和/或数字模拟转换功能。
根据图1中所示,回声消除器100包括一个线性滤波器102、一个非线性处理器(NLP)104、一个远端缓冲区106和一个成块缓冲区108。在远端生成并传输到近端的远端信号110,通过远端缓冲区(FEBuf)106和成块缓冲区108输入到滤波器102中。远端信号110亦会输入到位于发出设备10附近的播放缓冲区112中。远端缓冲区106的输出信号116被输入到成块缓冲区108中,而成块缓冲区的输出信号118被输入到线性滤波器102中。
远端缓冲区106经过配置,用于补偿声音设备(未显示)内的缓冲并与其保持同步。成块缓冲区108经过配置,用于对信号样本进行分块,以便线性滤波器102和NLP 104执行频域变换。
线性滤波器102是一种自适应滤波器。例如,借助于离散傅立叶变换(DFT),线性滤波器102能够在频域中运行。DFT可以实现为快速傅立叶变换(FFT)。
滤波器102的另一个输入是,捕获设备20中通过记录缓冲区114输入的近端信号(Sin)122。近端信号122包括近端语音120和回声130。NLP 104接收三种信号作为输入。分别是:(1)通过远端缓冲区106和成块缓冲区108接收的远端信号;(2)通过记录缓冲区114接收的近端信号;以及(3)滤波器102的输出信号124。输出信号124也可以作为一种误差信号。当NLP 104削弱输出信号124时,便会生成一种舒适噪声信号,稍后将对此进行解释。
根据一个典型的实施例,每个帧被分成64个样本块。由于根据选定的样本块尺寸划分出的每个帧的样本块数量不是整数,因此,在处理信号之前,需要对信号进行缓冲。这种缓冲是由上述成块缓冲区108来处理的。滤波器102和NLP 104均在频域中运行,且均利用128个样本的DFT。
AEC 100的性能受声音设备内播放缓冲区112和记录缓冲区114运行情况的影响。除非播放缓冲区112和记录缓冲区114的总大小合理稳定在预定的限制范围内,否则,AEC 100可能不会启动。例如,如果四个连续帧的总大小稳定在首次启动的+/-8ms范围内,则AEC 100会通过填充内部远端缓冲区106而启动。
图2是更加详细的方块图,阐释了图1中的滤波器102实现的功能。图3阐释了滤波器102的计算阶段,是根据本发明的一个实施例绘制出来的。
根据图2中所示,自适应滤波器102包括第一个转换区段200、反向转换区段202、第二个转换区段204和脉冲响应区段(H)206。发出设备10中即将发出的远端信号x(n)210将输入第一个转换区段200。第一个转换区段200的输出信号X(n,k)将输入脉冲响应区段206。输出信号Y(n,k)将输入第二个转换区段202,该区段输出信号y(n)。然后,从捕获设备20所捕获的近端信号d(n)220中除去信号y(n),以便输出误差信号e(n)230,此误差信号将作为滤波器102线性阶段的输出。误差信号230也将输入第二个转换区段204,该区段的输出信号E(n,k)也将输入脉冲响应区段206。
上述自适应滤波方法与标准分块时域最小均方(LMS)算法的实现相关。根据本发明的一个实施例,之所以能够降低复杂性,是因为过滤和相干性是在频域中执行的,这样时域卷积将被乘法运算所替代。误差在时域中形成,然后转换到频域,以更新图2中所示的滤波器102。
由于转换分块,导致系统内出现信号延迟。为减少延迟,滤波器102分割为更小的段,而且通过重叠保留处理方法,整体延迟保持在分段长度内。这种方法被称为分段块频域法或者多延迟分段块频率自适应滤波器。为简单起见,简称为“FLMS”。
图3显示了FLMS的运算方法。3.图4是更加详细的方块图,描述了图3中FLMS方法的Gm块,是根据本发明的一个实施例绘制出来的。
如果总滤波器长度L=M·N被分割为多个含N个样本的块,且F=2Nx2N离散傅立叶变换(DFT)矩阵,则滤波器102的时域脉冲响应w(n),n=0,1,...,L-1在频域中可表示为分段滤波器的集合
其中,wm(k)=[wmN...w(m+1)N-1]T,
IN是NxN的单位矩阵,0N是NxN的零矩阵。这指的是,在进行傅立叶变换之前,时域向量附带N个零。
在这种算法中,并未使用时域滤波器系数w(n),且等式(1)用于建立时域系数和频域系数之间的关系。
如图3中所示,对远端样本x(n)310进行分块,形成2N个样本的向量,即在步骤S312形成两个块,
x(k-m)=[x((k-m-2)N)...x((k-m)N-1)]T
并在步骤S314转换为DFT向量的序列,
X(k-m)=diag(Fx(k-m))。
这实现为延迟的DFT向量表,因为对角矩阵也能够表示为X(k-m)=DmX(k),其中D是延迟算子。每个延迟块的转变,表示为对角矩阵X(k-m)乘以滤波器分区
Ym(k)=X(k-m)Wm(k) m=0,1,...,M-1
然后得出估计的回声信号,作为在步骤S320执行的滤波器产物的反向转换总和的最后N个系数,从这个步骤开始,第一个块在步骤S322时被丢弃。估计的回声信号表示为
然后,时域中形成误差,表示为
e(k)=d(k)-y(k)
这也是图1所示AEC 100的滤波器102的输出。为调整过滤系数,在步骤S316中将N个零插入到误差向量中,增加的向量在步骤S318中进行转换,表示为
图4是更加详细的方块图,描述了图3中的Gm块,是根据本发明的一个实施例绘制出来的,其中,滤波器系数更新可表示为
步长μ0=0.5,且如图4所示,B(k)是修正的误差向量。这种修正包括幂归一化及之后的限幅器410。如图4中所示,归一化的误差向量是
A(k)=Ω(k)E(k),
其中
Ω(k)=diag([1/p0 1/p1...1/p2N-1])
是步长对角矩阵,该矩阵通过使用幂数估计,控制每个频率分量的调整
pj(k)=λppj(k-1)+(1-λp)M|Xj,j|2,j=0,1,...,2N-1,
幂数估计是通过遗忘因子λp=0.9和单个DFT系数Xj,j={X(k)}j.j递归计算而得,是限幅器410的输入。然后,分量级被限制为常数最大值A0=1.5x10-6,得出向量B(k)及其分量
如图4中所示,对角矩阵X(k-m)与共轭单元420共轭,该共轭单元乘以向量B(k),然后通过离散傅立叶逆变换(IDFT)单元430执行DFT逆变换。然后,丢弃最后块单元440丢弃最后的块。在丢弃最后的块之后,附加零块单元450会附加一个零块,随后,DFT单元460执行DFT。之后,延迟单元480引入一个块延迟,该单元输出Wm(k)。
图5是一个流程图,描述了图1中NLP 104的计算过程,是根据本发明的一个实施例绘制出来的。
AEC 100的NLP 104接收下述三种信号作为输入:i)发出设备10即将发出的远端信号x(n)110;ii)捕获设备20所捕获的近端信号d(n)122;以及iii)滤波器102中执行的线性阶段的输出误差信号e(n)124。误差信号e(n)124通常包含残余回声,为了达到良好的性能,应该消除此残余回声。NLP 104的目标即是消除此残余回声。
第一步是,将所有这三种输入信号转换至频域。在步骤S501,远端信号110被转换至频域。在步骤S501’,近端信号122被转换至频域,且在步骤S501”,误差信号124被转换至频域。NLP104是基于块的,且同样采用线性阶段的块长度N,但却使用重叠相加法,而非重叠保留法,即将连续的块串联、加窗并转换。定义o为元素乘积算子,kth转换的块可表示为
其中,F仍然是2N DFT矩阵,xk是长度为N的时域采样列向量,w2N是长度为2N的平方根汉宁窗列向量,条目为
选择此汉宁窗,是为了确保重叠的分段能够符合
w2(n)+w2(n-N)=1,n=N,N+1,...,2N
以提供完美的重构。根据本发明的一个实施例,长度为2N的DFT向量仍然被保留。而冗余的N-1复系数最好被丢弃。
Xk、Dk和Ek分别为kth远端、近端和误差块的频域表示。
根据本发明的另一个实施例,通过用误差信号e(n)124的每个频率带乘以介于0和1之间的抑制因子,从而实现回声抑制。根据一个首选的实施例,每个频率带与一个DFT系数相对应。但是,一般来说,每个频率带可能对应任意的频率范围。加入舒适噪声,在经过逆向FFT后,抑制的信号被加窗,且与之前的块重叠并加入其中,以获得输出。
为进行分析,计算得出每个信号的功率谱密度(PSD)。在步骤S503,计算出远端信号x(n)110的PSD。在步骤S503’,计算出近端信号d(n)122的PSD,在步骤S503”,计算出误差信号e(n)124的PSD。远端信号110、近端信号122和误差信号124的PSD分别表示为Sx、Sd和Se。
此外,还要计算出下述信号之间的复值互功率谱密度:i)远端信号x(n)110和近端信号d(n)122;以及ii)近端信号d(n)122和误差信号e(n)124。在步骤S504,计算出远端信号(110)和近端信号122之间的复值互功率谱密度,在步骤S504’,计算出近端信号(122)和误差信号124之间的复值互功率谱密度。远端信号110和近端信号122之间的复值互功率谱密度被表示为Sxd。近端信号122和误差信号124之间的复值互功率谱密度被表示为Sde。PSD按照指数方式平滑变化,从而避免回声抑制中出现突发的错误转变。PSD的计算公式是
其中,“*”在此表示复数共轭,指数平滑系数是
请注意,针对“自”功率谱密度而言,Xk=Yk,因此,当互功率谱密度是复值时,自功率谱密度是实值。
在步骤S505,不使用当前的远端输入块,而是选择之前的块,以便与近端中的相应回声保持最佳同步化。分区指数m拥有线性滤波器中的最大能量,按照以下公式进行选择:
此估计得出的延迟指数用于在步骤S507选择适用于远端PSD的最佳区块。此外,在步骤S509,设定远端自功率谱密度的阈值,以避免出现数值不稳定性,如下所示:
有时候,线性滤波器102会偏离适当的回声路径估计。这种情况往往会导致高度失真的误差信号,尽管这些信号对于分析仍然有用,但是,不能用于输出。根据本发明的一个实施例,散度通常向近端信号d(n)122中增加能量而非消除能量,因此可很容易地检测出来。步骤S511中确定的散度状态用于选择(S512)Ek或Dk,具体如下所示:如果
则进入“发散”状态,在这种状态下,通过设置Ek=Dk,使线性阶段的影响发生逆转。如果满足以下条件,则退出发散状态
此外,如果散度非常高,比如
则线性滤波器102恢复到其初始状态
Wm(k)=0N,m=0,1,...M-1。
PSD用于计算下述信号之间的频率带相干性:i)在步骤S513,远端信号110和近端信号122,如下所示:
以及ii)在步骤S515,近端信号122和误差信号124,如下所示:
在此“*”再次表示复数共轭。
将ac向量在位置n的入口表示为c(n)。相干性是对时域相干性的频域模拟,它是相似性在0≤c(n)≤1范围内的一个测度;相干性越高,相似性也越高。
NLP 104的主要效果是通过直接抑制误差信号124而实现的。输出表示为
假设线性阶段正常运行,c(n)de≈1,此时没有消除任何回声,且允许误差信号在未经变化的情况下传输。在相反的情况下,即线性阶段已经消除回声,1>>c(n)de≥0,那么结果是误差得到抑制,且理想地消除滤波器102在线性阶段完成线性过滤后仍然残留的任何回声。
根据本发明的一个实施例,cxd被视为能够增加稳定性(详见下文),但cde在实际中往往更加有用。与cde相反,当存在回声130时,cxd相对较高,反之则较低。为了在同一个“域”中使用这两种测度,修正的相干性定义如下:c′xd=1-cxd。
为实现较高的AEC性能,回声130最好得到抑制,同时允许同步发生的近端语音120通过。配置NLP 104以实现这一目的,因为每个频率带的相干性是独立计算的。因此,包含回声的频率带被完全或部分抑制,而没有回声的频率带不会受到影响。
根据本发明的一个实施例,在相干性作为抑制因子s之前,使用多种数据分析方法来微调相干性。首先,在步骤S517,针对cde计算一系列首选频率带的平均相干性,在步骤S517’,针对c’xd计算一系列首选频率带的平均相干性,公式为
其中fs是采样频率。首选频率带选自一系列情境中最有可能准确的频率区域。
在步骤S518,系统选择或根据一个典型的实施例,对追踪一段时间,以确定系统在步骤S521时的普遍状态。这样做的目的是,当回声路径接近于零时(例如用耳机通话期间),避免发生抑制。首先,在步骤S519计算的最小阈值,公式如下所示:
步长μc=0.0006m fs,因子m fs的计算公式是
这用于构成两个决策变量
当uc=1时,系统被视为处于“相干性状态”,当ue=1时,系统被视为处于“回声”状态。在回声状态时,系统可能包含回声,反之则不然。回声状态可以通过其他音频处理组件可能使用的接口来提供。
当处于回声状态时,在步骤S520选择每个频率带内cde和c’xd的最小值,计算出抑制因子s,公式为:
s=min(cde,cxd′)。
在步骤S533和步骤S527,根据首选频率带的次序统计计算出两个总抑制因子。
这种选择抑制因子的方法对离群值比对平均值具有更强的鲁棒性,并允许通过精确选择次序统计位置来进行调谐。
在出于“非回声状态”时(即,ue=0),在步骤S520、S524和S518选择抑制因子,也会使抑制受到限制,如下所示:
大部分情境中存在合理消除所有残余回声所需的典型抑制度。这被视为目标抑制st。标量的“过载值”被应用于s,将频率带加权为st。这种做法看似能够在较为困难的情况下,即在相干性测量本身不够准确的情况下,改善性能。在步骤S527,计算出最低的sl水平,并在步骤S529追踪一段时间
其中,步长μs=0.0008m fs。
γ平滑变化,阈值为
这样,该值的将倾向于快速上升,且上升速度超过下降速度。st和γ0是可以进行配置的,以便控制抑制攻击性;在默认情况下,这两个值分别被设定为-11.5和2。此外,当
平滑移动的过载值重置为最小值,
然后,在步骤S533计算出sh水平。接下来,根据下述算法,得出最终的抑制因子sγ。在步骤S525,根据权重向量vsN及分量0≤vsN(n)≤1,s是首先加权为sh:
选择这样的加权方法,是为了更大幅度地影响不太准确的频率带。在步骤S535应用过载值,得出以下公式:
其中,vγN是另一个权重向量,能够实现与vsN类似的目的。通过自乘算法得出的过载值能够突出强调sv的谷值。最后,在步骤S536,根据以下计算公式得出频域输出块
其中,Nsk是人工噪声,在步骤S537执行逆变换,以获得输出信号y(n)。这样的抑制能够消除近端噪声和回声,使噪声水平发生可闻的声音变化。通过添加生成的“舒适噪声”以替换损失的噪声,这种问题得以缓解。本文稍后将讨论N’k的形成。
若要生成舒适噪声,需要真正近端背景噪声的可靠估计。根据本发明的一个实施例,使用最小统计方法来生成舒适噪声。具体而言,在每个区块中,针对每个频率带计算出近端PSD的修正最小值:
图6是一个流程图,阐释了声学回声消除器100执行的操作,是根据本发明的一个实施例绘制出来的。具体而言,根据本发明的一个实施例,图6进一步描述了在上述图5中所示的AEC100的NLP 104中确定回声状态和抑制因子的算法。
如前所述,在一段时间内,追踪远端信号110和近端信号122之间的相干性cxd以及近端信号122和误差信号124之间的相干性cde,从而确定AEC 100的状态。基于确定的相干性的高低,NLP 104决定是进入还是退出相干态。
首先,NPL 104在步骤S601确定相干性是否较高;在步骤S605确定相干性是否较低,如上述图5中所示。如前所述,相干性是指对时域相干性的频域模拟。具体而言,如上述图5中所示,相干性是相似性在0≤c(n)≤1范围内的一个测度;相干性越高,相似性也越高。
因此,如果NLP 104测定在S601时相干性较高,则AEC100在步骤S603进入相干性状态。如果NLP 104测定在S605时相干性较低,则AEC 100在步骤S607离开相干性状态。如图5所述,当uc=1时,AEC 100视为处于“相干性状态”,当ue=1时,视为处于“回声状态”。
根据本发明的一个示例性实施例,NLP 104将在步骤S609测定是否为1。若NLP 104测定则AEC 100在步骤S611离开回声状态。之后,NLP 104在步骤S613进一步测定AEC100是否处于相干性状态。若NLP 104测定AEC 100仍处于相干性状态,则NLP 104在步骤S615输出以下抑制因子:
s=cde
在步骤S613,若NLP 104测定AEC 100未处于相干性状态,则NLP 104在步骤S621输出以下抑制因子:
s=c’xd
另外,若NLP 104在S609测定不等于1,则其将在S617进一步测定AEC 100是否处于相干性状态。如上所述,当uc=1时,AEC 100被视为处于“相干性状态”。若AEC 100处于相干性状态,则其在步骤S619离开回声状态并输出和在步骤S621输出的相同的抑制因子。
不过,若NLP 104在S617测定AEC 100未处于相干性状态,则AEC 100在步骤S623当ue=1时进入回声状态,并在步骤S625输出以下抑制因子:
s=min(c’xd,cde)
sh=s(nh)
sl=s(nl)
根据本发明的一个示例性实施例,NLP 104之后将把这些抑制因子应用于误差信号124,以大幅消除误差信号124的残余回声。
图7是一个流程图,阐述了图1中说明的本发明实施例中AEC 100所执行的操作。具体而言,根据本发明的一个实施例,图7进一步说明了消除误差信号124的残余回声的算法,即利用如图5和图6所述AEC 100的NLP 104所测定的回声状态信息和抑制因子来消除残余回声。
在步骤S701中,NLP 104接收即将发出的远端信号110、近端捕获信号122,以及包含来自线性自适应滤波器102的残余回声输出的误差信号124,并将这些信号作为输入。在步骤S703中,远端信号110、近端信号122以及误差信号124通过图2-5所述的相应转换区域转换为频率域。在步骤S705中,根据图5中描述的算法,针对每个频率带,计算远端信号110和近端信号122之间的第一个相干性测量。在步骤S707中,根据图5中描述的算法,针对每个频率带,计算近端信号122和误差信号124之间的第二个相干性测量。在步骤S709中,针对每个频率带生成相关抑制因子。最后,在步骤S711中,将抑制因子应用到误差信号124或近端信号122中,以大幅减少误差信号124或近端信号122中的回声。
图8是一个方块图,展示了用于实施AEC 100的一个示例计算设备800,包括但不限于:NLP 104、滤波器102、远端缓冲区106及成块缓冲区108,以及本发明中图3和5-7中描述的程序。在基本配置801中,计算设备800通常包括一个或多个处理器810和系统内存820。内存总线830可用于实现处理器810和系统内存820之间的通信。
根据所需的配置,处理器810可以是任意类型,包括但不限于:微处理器(μP)、微控制器(μC)、数字信号处理器(DSP)或它们的任意组合。处理器810可包括一个额外的缓存级别,如一级缓存811和二级缓存812、处理器内核813及寄存器814。处理器内核813包括一个算术逻辑单元(ALU)、一个浮点单元(FPU)、一个数字信号处理核心(DSP核心),或它们的任意组合。内存控制器815还可与处理器810一同使用,在某些实现中,内存控制器815是处理器810的内部组成部分。
根据所需的配置,系统内存820可以是任意类型,包括但不限于:易失性存储器(如RAM)、非易失性存储器(如ROM和闪存等)或它们的任意组合。系统内存820通常包括一个操作系统821、一个或多个应用程序822及程序数据824。应用程序822包括回声消除处理算法823,该算法可用于消除误差信号的残余回声。程序数据824包括回声消除路由数据825,可用于消除误差信号的残余回声,详细描述请见下文。在一些实施例中,可将应用程序822布置在操作系统821中与程序数据824配合运行,从而消除误差信号的残余回声。所述基本配置已在图8中附图说明,相关组件用下划线801标出。
计算设备800拥有附加特征和/或功能以及额外的接口,能够促进基本配置801与任何必要设备和接口之间的通信。例如,总线/接口控制器840能够用于促进基本配置801与一个或多个数据存储设备850之间的通信,此类通信是通过存储接口总线841实现的。数据存储设备850可以是可移动存储设备851、非移动存储设备852,或者二者的组合。可移动存储设备和非移动存储设备的示例包括:软盘驱动器和硬盘驱动器(HDD)等磁盘设备,光盘(CD)机或数字通用光盘(DVD)机等光盘驱动器、固态硬盘(SSD)和磁带机等。计算机存储介质示例包括:采用任何方法或技术实施的易失性和非易失性介质、可移动和非移动介质,用于存储计算机可读指令、数据结构、程序模块或其他数据等信息。
系统内存820、可移动存储设备851和非移动存储设备852均属于计算机存储介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储技术、CD-ROM、数字通用光盘(DVD)或其他光存储器、盒式磁带、磁带、磁盘存储器或其他磁存储器,或者能够用于存储所需信息并能通过计算设备800进行存取的任何其他介质。任何此类计算机存储介质都可能是计算设备800的一部分。
计算设备800也包括接口总线842,该接口总线用于促进从各种接口设备(例如输出接口、外围接口和通信接口)到基本配置801的通信,此类通信是通过总线/接口控制器840实现的。示例输出设备860包括一个图形处理单元861和一个音频处理单元862,可配置成与显示器或扬声器等各种外部设备进行通信,此类通信是通过一个或多个A/V端口863实现的。示例外围接口870包括一个串行接口控制器871或者一个并行接口控制器872,这两种接口控制器经过配置,均可与输入设备(例如,键盘、鼠标、笔、语音输入设备或接触式输入设备等)等外部设备进行通信,或其他外围设备(例如打印机或扫描仪等)的通信,此类通信是通过一个或多个I/O端口873实现的。示例通信设备880包括一个网络控制器881,对该控制器进行布置,可以促进与一个或多个其他计算设备890之间的网络通信,此类通信是通过一个或多个通信端口882实现的。这样的通信连接是通信介质的一个示例。常见的通信介质包括计算机可读指令、数据结构、程序模块或者调制数据信号形式的其他数据,比如载波或其他传输机制,还包括任何信息传递介质。“调制数据信号”可以是拥有一个或多个特征集的信号,或者可在信号中对信息进行编码,使其发生变化。举例来说,通信介质包括但不限于:有线网络或直接导线连接等有线介质,以及声频、无线电频率(RF)、红外线(IR)和其他无线介质等无线介质。本文中使用的“计算机可读介质”一词包括存储介质和通信介质。
计算设备800可以实现为小型便携式(或移动)电子设备的一部分,比如手机、个人数据助理(PDA)、个人媒体播放器设备、无线网络监视设备、个人耳机设备、特定应用设备或者具有上述任何功能的混合型设备。计算设备800也可作为个人电脑来实现,包括手提电脑和非手提电脑配置。
系统方面的硬件和软件实现几乎没有什么区别;使用硬件还是软件通常(但并非总是如此,在某些情况下,选择硬件还是软件可能非常重要)是一种设计选择,代表了成本与效率的权衡。本文描述的流程和/或系统和/或其他技术可以借助多种媒介物(例如硬件、软件和/或固件)发挥作用,而且流程和/或系统和/或其他技术部署的环境不同,首选的媒介物也将有所不同。例如,如果实现人员确定速度和准确性是最重要的,则他可能会倾向选择硬件和/或固件媒介物;如果确定灵活性是最重要的,则可能会倾向选择软件实现;或者实现人员可能也会选择硬件、软件和/或固件的结合使用。
以上详细说明通过使用方块图、流程图和/或示例,列出了设备和/或流程的多种实施例。由于这些方块图、流程图和/或示例中包含一个或多个功能和/或操作,相关领域的人员将获得这样的理解:这些方块图、流程图或示例中的每个功能和/或操作可借助广泛的硬件、软件、固件或者三者的任意组合来单独和/或同时实现。
在一个实施例中,本文描述的发明的几个部分可以通过专用集成电路(ASIC)、现场可编程门阵列(FPGA)、数字信号处理器(DSP)或者其他集成格式得以实现。然而,所属领域技术人员会发现,本文描述的实施例(全部或部分)的某些方面能够在集成电路中等效实现,作为在一个或多个计算机上运行的一个或多个计算机程序(例如在一个或多个计算机系统上运行的一个或多个程序)、作为在一个或多个处理器上运行的一个或多个程序(例如在一个或多个微处理器上运行的一个或多个程序)、作为固件或者作为上述形式的任意组合。所属领域技术人员还将进一步认识到,根据本发明,所属领域技术人员可以轻松地为软件和/或固件设计电路和/或编写代码。
此外,所属领域技术人员将会理解到,本文描述的发明的运行机制能够作为各种形式的程序产品进行分配,而且无论用于实际执行这种分配的信号传输介质为何种类型,本文描述的发明的说明性实施例均适用。信号传输介质的示例包括但不限于以下内容:可记录类型的介质,比如软盘、硬盘驱动器、光盘(CD)、数字视频光盘(DVD)、数字磁带和计算机存储器等;以及传输类型的介质,比如数字和/或模拟通信介质(例如光纤电缆、波导管、有线通信链路和无线通信链路等)。
所属领域技术人员将认识到,在这一领域内,以本文所述方式描述设备和/或流程,然后使用工程实践将如此描述的设备和/或流程集成到数据处理系统中,这种做法是很常见的。也就是说,本文描述的设备和/或流程中,至少有一部分可以通过合理数量的实验集成到数据处理系统中。
所属领域技术人员将认识到,典型的数据处理系统通常包括一个或多个系统单元外壳;一个视频显示设备;一个易失性或非易失性存储器;微处理器和数字信号处理器等处理器;操作系统、驱动器、图形用户界面和应用程序等计算实体;一个或多个交互设备,比如触摸板或触摸屏;和/或控制系统,包括反馈回路和控制电动机(例如,针对传感位置和/或速率的反馈;用于移动和/或调整组件和/或数量的控制电动机)。典型的数据处理系统可能利用市面上可买到的适用组件来实现,比如数据计算/通信和/或网络计算/通信系统中通常使用的那些组件。
关于本文中大量使用的复数和/或单数名词,所属领域技术人员可根据上下文和/或适用情况,采用单数或复数形式。为清楚起见,本文中明确列出了各种单数/复数的变换情况。
鉴于本文已经披露了多个不同的方面和实施例,所属领域技术人员应能够触类旁通,想到其他方面和实施例。本文披露的各个方面和实施例是为了解释说明之用,而并非为了提出限制,以下权利要求指明了专利的真正范围和内在意义。
权利要求书(按照条约第19条的修改)
1.一种可实现声学回声消除的音频信号非线性后期处理方法,具体包括以下步骤:
通过非线性处理器接收下述信号,并将至少两个信号作为输入:即将发出的远端信号和多个捕获端信号;
将接收到的信号转换为频域;
针对每个频率带,计算接收到的信号之间的一个或多个相干性测量;
基于所述一个或多个相干性测量,得出每个频率带相应的抑制因子;以及
将所述抑制因子应用于所述捕获端信号中的一个信号,以便大幅消除所述捕获端信号的回声,
在这种情况下,所述多个捕获端信号包括近端捕获信号和误差信号,误差信号包含来自线性自适应滤波器的残留回声输出,
在这种情况下,所述计算步骤进一步包括:针对每个频率带,计算远端信号和近端信号之间的第一个相干性测量;近端信号和误差信号之间的第二个相干性测量;以及使用所述第一个和第二个相干性测量来计算抑制因子。
2.根据权利要求1所述方法,操作步骤进一步包括:在预定的时间内追踪相干性测量,以确定近端信号处于“无回声状态”还是“回声状态”。
3.根据权利要求1所述方法,其特征在于,所述抑制因子直接与所述相干性测量的组合成正比。
4.根据权利要求1、2或3所述方法,其特征在于,当近端信号处于“无回声状态”时,所述抑制因子直接与第一个相干性测量和第二个相干性测量二者之一成正比。
5.根据权利要求1、2、3或4所述方法,其特征在于,当近端信号处于“回声状态”时,所述抑制因子直接与第一个相干性测量和第二个相干性测量中的最小值成正比。
6.根据权利要求1或3-5中任一项所述方法,其特征在于,第一个相干性测量是对远端信号和近端信号之间时域相干性的频域模拟。
7.根据权利要求1或3-6中任一项所述方法,其特征在于,第二个相干性测量是对近端信号和误差信号之间时域相干性的频域模拟。
8.根据权利要求1-7中任一项所述方法,其特征在于,所述应用步骤将抑制因子应用于误差信号,从而大幅消除误差信号的残余回声。
9.根据权利要求1-7中任一项所述方法,操作步骤进一步包括:
通过比较误差信号和近端信号的能量来检测滤波发散,并基于检测到的滤波发散,将抑制因子应用于近端信号。
10.根据权利要求1-9中任一项所述方法,操作步骤进一步包括:通过自乘算法,突出强调抑制因子的谷值。
11.根据权利要求1-10中任一项所述方法,操作步骤进一步包括:配置一条曲线来影响不太准确的频率带,并对抑制因子进行加权。
12.根据权利要求1-11中任一项所述方法,操作步骤进一步包括:追踪最小抑制因子,并按比例调整抑制因子,以便使最小值能够接近目标值。
13.根据权利要求1-12中任一项所述方法,操作步骤进一步包括:将远端信号、近端信号和误差信号转换为频域。
14.根据权利要求1-13中任一项所述方法,其特征在于,所述频率带与各个离散傅立叶变换(DFT)系数相对应。
15.一种可实现声学回声消除的音频信号非线性后期处理系统,具体包括以下内容:
一个非线性处理器,能够接收下述信号并将其中至少两个信号作为输入:即将发出的远端信号和多个捕获端信号;以及
一个与所述非线性处理器有效连接的转化单元,该转化单元能够将接收到的信号转换为频域;
所述非线性处理器被配置为:
针对每个频率带,计算接收到的信号之间的一个或多个相干性测量;
基于所述一个或多个相干性测量,得出每个频率带相应的抑制因子;以及
将所述抑制因子应用于所述捕获端信号中的一个信号,以便大幅消除所述捕获端信号的回声,
在这种情况下,所述多个捕获端信号包括近端捕获信号和误差信号,误差信号包含来自线性自适应滤波器的残留回声输出,
其中,所述非线性处理器被配置为:针对每个频率带,计算远端信号和近端信号之间的第一个相干性测量;近端信号和误差信号之间的第二个相干性测量;以及使用所述第一个和第二个相干性测量来计算抑制因子。
16.根据权利要求15所述系统,其特征在于,所述非线性处理器被配置为,追踪预定时间内的相干性测量,以确定近端信号处于“无回声状态”还是“回声状态”。
17.根据权利要求15所述系统,其特征在于,所述抑制因子直接与所述相干性测量的组合成正比。
18.根据权利要求15、16或17中任一项所述系统,其特征在于,当近端信号处于“无回声状态”时,所述抑制因子直接与第一个相干性测量和第二个相干性测量二者之一成正比。
19.根据权利要求15、16或18中任一项所述系统,其特征在于,当近端信号处于“回声状态”时,所述抑制因子直接与第一个相干性测量和第二个相干性测量中的最小值成正比。
20.根据权利要求15或17-19中任一项所述系统,其特征在于,第一个相干性测量是对远端信号和近端信号之间时域相干性的频域模拟。
21.根据权利要求15或17-20中任一项所述系统,其特征在于,第二个相干性测量是对近端信号和误差信号之间时域相干性的频域模拟。
22.根据权利要求15-21中任一项所述系统,其特征在于,所述非线性处理器被配置为,将抑制因子应用于误差信号,从而大幅消除误差信号的残余回声。
23.根据权利要求15-21中任一项所述系统,其特征在于,所述非线性处理器被配置为,通过比较误差信号和近端信号的能量来检测滤波发散,并基于检测到的滤波发散,将抑制因子应用于近端信号。
24.根据权利要求15-23中任一项所述系统,其特征在于,所述非线性处理器被配置为,通过自乘算法,突出强调抑制因子的谷值。
25.根据权利要求15-24中任一项所述系统,其特征在于,所述非线性处理器被配置为,配置一条曲线来影响不太准确的频率带,并对抑制因子进行加权。
26.根据权利要求15-25中任一项所述系统,其特征在于,所述非线性处理器被配置为,追踪最小抑制因子,并按比例调整抑制因子,以便使最小值能够接近目标值。
27.根据权利要求15-26中任一项所述系统,其特征在于,所述转化单元被配置为,将远端信号、近端信号和误差信号转换为频域。
28.根据权利要求15-27中任一项所述系统,其特征在于,所述频率带与各个离散傅立叶变换(DFT)系数相对应。
29.一种计算机可读存储介质,其中存储了可实现声学回声消除的音频信号非线性后期处理计算机可执行程序,执行该计算机程序时,会使处理器执行以下步骤:
通过非线性处理器接收下述信号,并将至少两个信号作为输入:即将发出的远端信号和多个捕获端信号;
将接收到的信号转换为频域;
针对每个频率带,计算接收到的信号之间的一个或多个相干性测量;
基于所述一个或多个相干性测量,得出每个频率带相应的抑制因子;以及
将所述抑制因子应用于所述捕获端信号中的一个信号,以便大幅消除所述捕获端信号的回声,
在这种情况下,所述多个捕获端信号包括近端捕获信号和误差信号,误差信号包含来自线性自适应滤波器的残留回声输出,
在这种情况下,执行该计算机程序时,会使处理器进一步执行以下步骤:针对每个频率带,计算远端信号和近端信号之间的第一个相干性测量;近端信号和误差信号之间的第二个相干性测量;以及使用所述第一个和第二个相干性测量来计算抑制因子。
30.根据权利要求29所述计算机可读存储介质,其特征在于,执行该计算机程序时,会使处理器进一步执行以下步骤:在预定的时间内追踪相干性测量,以确定近端信号处于“无回声状态”还是“回声状态”。
31.根据权利要求29所述计算机可读存储介质,其特征在于,所述抑制因子直接与所述相干性测量的组合成正比。
32.根据权利要求29、30或31中任一项所述计算机可读存储介质,其特征在于,当近端信号处于“无回声状态”时,所述抑制因子直接与第一个相干性测量和第二个相干性测量二者之一成正比。
33.根据权利要求29-32中任一项所述计算机可读存储介质,其特征在于,当近端信号处于“回声状态”时,所述抑制因子直接与第一个相干性测量和第二个相干性测量中的最小值成正比。
34.根据权利要求29或31-33中任一项所述计算机可读存储介质,其特征在于,第一个相干性测量是对远端信号和近端信号之间时域相干性的频域模拟。
35.根据权利要求29或31-34中任一项所述计算机可读存储介质,其特征在于,第二个相干性测量是对近端信号和误差信号之间时域相干性的频域模拟。
36.根据权利要求29-35中任一项所述计算机可读存储介质,其特征在于,执行该计算机程序时,会使处理器进一步执行以下步骤:将抑制因子应用于误差信号,从而大幅消除误差信号的残余回声。
37.根据权利要求29-35中任一项所述计算机可读存储介质,其特征在于,执行该计算机程序时,会使处理器进一步执行以下步骤:通过比较误差信号和近端信号的能量来检测滤波发散,并基于检测到的滤波发散,将抑制因子应用于近端信号。
38.根据权利要求29-37中任一项所述计算机可读存储介质,其特征在于,执行该计算机程序时,会使处理器进一步执行以下步骤:通过自乘算法,突出强调抑制因子的谷值。
39.根据权利要求29-38中任一项所述计算机可读存储介质,其特征在于,执行该计算机程序时,会使处理器进一步执行以下步骤:配置一条曲线来影响不太准确的频率带,并对抑制因子进行加权。
40.根据权利要求29-39中任一项所述计算机可读存储介质,其特征在于,执行该计算机程序时,会使处理器进一步执行以下步骤:追踪最小抑制因子,并按比例调整抑制因子,以便使最小值能够接近目标值。
41.根据权利要求29-40中任一项所述计算机可读存储介质,其特征在于,执行该计算机程序时,会使处理器进一步执行以下步骤:将远端信号、近端信号和误差信号转换为频域。
42.根据权利要求29-41中任一项所述计算机可读存储介质,其特征在于,所述频率带与各个离散傅立叶变换(DFT)系数相对应。
Claims (48)
1.一种可实现声学回声消除的音频信号非线性后期处理方法,具体包括以下步骤:
通过非线性处理器接收下述信号,并将至少两个信号作为输入:即将发出的远端信号和多个捕获端信号;
将接收到的信号转换为频域;
针对每个频率带,计算接收到的信号之间的一个或多个相干性测量;
基于所述一个或多个相干性测量,得出每个频率带相应的抑制因子;以及
将所述抑制因子应用于所述捕获端信号中的一个信号,以便大幅消除所述捕获端信号的回声。
2.根据权利要求1所述方法,其特征在于,所述多个捕获端信号包括近端捕获信号和误差信号,误差信号包含来自线性自适应滤波器的残余回声输出。
3.根据权利要求2所述方法,操作步骤进一步包括:在预定的时间内追踪相干性测量,以确定近端信号处于“无回声状态”还是“回声状态”。
4.根据权利要求2-3中任一项所述方法,其特征在于,所述计算步骤进一步包括:针对每个频率带,计算远端信号和近端信号之间的第一个相干性测量;近端信号和误差信号之间的第二个相干性测量;以及使用所述第一个和第二个相干性测量来计算抑制因子。
5.根据权利要求4所述方法,其特征在于,所述抑制因子直接与所述相干性测量的组合成正比。
6.根据权利要求3-5中任一项所述方法,其特征在于,当近端信号处于“无回声状态”时,所述抑制因子直接与第一个相干性测量和第二个相干性测量二者之一成正比。
7.根据权利要求3-6中任一项所述方法,其特征在于,当近端信号处于“回声状态”时,所述抑制因子直接与第一个相干性测量和第二个相干性测量中的最小值成正比。
8.根据权利要求4-7中任一项所述方法,其特征在于,第一个相干性测量是对远端信号和近端信号之间时域相干性的频域模拟。
9.根据权利要求4-8中任一项所述方法,其特征在于,第二个相干性测量是对近端信号和误差信号之间时域相干性的频域模拟。
10.根据权利要求2-9中任一项所述方法,其特征在于,所述应用步骤将抑制因子应用于误差信号,从而大幅消除误差信号的残余回声。
11.根据权利要求2-9中任一项所述方法,操作步骤进一步包括:
通过比较误差信号和近端信号的能量来检测滤波发散,并基于检测到的滤波发散,将抑制因子应用于近端信号。
12.根据权利要求1-11中任一项所述方法,操作步骤进一步包括:通过自乘算法,突出强调抑制因子的谷值。
13.根据权利要求1-12中任一项所述方法,操作步骤进一步包括:配置一条曲线来影响不太准确的频率带,并对抑制因子进行加权。
14.根据权利要求1-13中任一项所述方法,操作步骤进一步包括:追踪最小抑制因子,并按比例调整抑制因子,以便使最小值能够接近目标值。
15.根据权利要求2-14中任一项所述方法,操作步骤进一步包括:将远端信号、近端信号和误差信号转换为频域。
16.根据权利要求1-15中任一项所述方法,其特征在于,所述频率带与各个离散傅立叶变换(DFT)系数相对应。
17.一种可实现声学回声消除的音频信号非线性后期处理系统,具体包括以下内容:
一个非线性处理器,能够接收下述信号并将其中至少两个信号作为输入:即将发出的远端信号和多个捕获端信号;以及
一个与所述非线性处理器有效连接的转化单元,该转化单元能够将接收到的信号转换为频域;
所述非线性处理器被配置为:
针对每个频率带,计算接收到的信号之间的一个或多个相干性测量;
基于所述一个或多个相干性测量,得出每个频率带相应的抑制因子;以及
将所述抑制因子应用于所述捕获端信号中的一个信号,以便大幅消除所述捕获端信号的回声。
18.根据权利要求17所述系统,其特征在于,所述多个捕获端信号包括近端捕获信号和误差信号,误差信号包含来自线性自适应滤波器的残余回声输出。
19.根据权利要求18所述系统,其特征在于,所述非线性处理器被配置为,在预定的时间内追踪相干性测量,以确定近端信号处于“无回声状态”还是“回声状态”。
20.根据权利要求18-19中任一项所述系统,其特征在于,所述非线性处理器被配置为:针对每个频率带,计算远端信号和近端信号之间的第一个相干性测量;近端信号和误差信号之间的第二个相干性测量;以及使用所述第一个和第二个相干性测量来计算抑制因子。
21.根据权利要求20所述系统,其特征在于,所述抑制因子直接与所述相干性测量的组合成正比。
22.根据权利要求19-21中任一项所述系统,其特征在于,当近端信号处于“无回声状态”时,所述抑制因子直接与第一个相干性测量和第二个相干性测量二者之一成正比。
23.根据权利要求19-22中任一项所述系统,其特征在于,当近端信号处于“回声状态”时,所述抑制因子直接与第一个相干性测量和第二个相干性测量中的最小值成正比。
24.根据权利要求20-23中任一项所述系统,其特征在于,第一个相干性测量是对远端信号和近端信号之间时域相干性的频域模拟。
25.根据权利要求20-24中任一项所述系统,其特征在于,第二个相干性测量是对近端信号和误差信号之间时域相干性的频域模拟。
26.根据权利要求18-25中任一项所述系统,其特征在于,所述非线性处理器被配置为,将抑制因子应用于误差信号,从而大幅消除误差信号的残余回声。
27.根据权利要求18-25中任一项所述系统,其特征在于,所述非线性处理器被配置为,通过比较误差信号和近端信号的能量来检测滤波发散,并基于检测到的滤波发散,将抑制因子应用于近端信号。
28.根据权利要求17-27中任一项所述系统,其特征在于,所述非线性处理器被配置为,通过自乘算法,突出强调抑制因子的谷值。
29.根据权利要求17-28中任一项所述系统,其特征在于,所述非线性处理器被配置为,配置一条曲线来影响不太准确的频率带,并对抑制因子进行加权。
30.根据权利要求17-29中任一项所述系统,其特征在于,所述非线性处理器被配置为,追踪最小抑制因子,并按比例调整抑制因子,以便使最小值能够接近目标值。
31.根据权利要求18-30中任一项所述系统,其特征在于,所述转化单元被配置为,将远端信号、近端信号和误差信号转换为频域。
32.根据权利要求17-31中任一项所述系统,其特征在于,所述频率带与各个离散傅立叶变换(DFT)系数相对应。
33.一种计算机可读存储介质,其中存储了可实现声学回声消除的音频信号非线性后期处理计算机可执行程序,执行该计算机程序时,会使处理器执行以下步骤:
通过非线性处理器接收下述信号,并将至少两个信号作为输入:即将发出的远端信号和多个捕获端信号;
将接收到的信号转换为频域;
针对每个频率带,计算接收到的信号之间的一个或多个相干性测量;
基于所述一个或多个相干性测量,得出每个频率带相应的抑制因子;以及
将所述抑制因子应用于所述捕获端信号中的一个信号,以便大幅消除所述捕获端信号的回声。
34.根据权利要求33所述计算机可读存储介质,其特征在于,所述多个捕获端信号包括近端捕获信号和误差信号,误差信号包含来自线性自适应滤波器的残余回声输出。
35.根据权利要求34所述计算机可读存储介质,其特征在于,执行该计算机程序时,会使处理器进一步执行以下步骤:在预定的时间内追踪相干性测量,以确定近端信号处于“无回声状态”还是“回声状态”。
36.根据权利要求34-35中任一项所述计算机可读存储介质,其特征在于,执行该计算机程序时,会使处理器进一步执行以下步骤:针对每个频率带,计算远端信号和近端信号之间的第一个相干性测量;近端信号和误差信号之间的第二个相干性测量;以及使用所述第一个和第二个相干性测量来计算抑制因子。
37.根据权利要求36所述计算机可读存储介质,其特征在于,所述抑制因子直接与所述相干性测量的组合成正比。
38.根据权利要求35-37中任一项所述计算机可读存储介质,其特征在于,当近端信号处于“无回声状态”时,所述抑制因子直接与第一个相干性测量和第二个相干性测量二者之一成正比。
39.根据权利要求35-38中任一项所述计算机可读存储介质,其特征在于,当近端信号处于“回声状态”时,所述抑制因子直接与第一个相干性测量和第二个相干性测量中的最小值成正比。
40.根据权利要求36-39中任一项所述计算机可读存储介质,其特征在于,第一个相干性测量是对远端信号和近端信号之间时域相干性的频域模拟。
41.根据权利要求36-40中任一项所述计算机可读存储介质,其特征在于,第二个相干性测量是对近端信号和误差信号之间时域相干性的频域模拟。
42.根据权利要求34-41中任一项所述计算机可读存储介质,其特征在于,执行该计算机程序时,会使处理器进一步执行以下步骤:将抑制因子应用于误差信号,从而大幅消除误差信号的残余回声。
43.根据权利要求34-41中任一项所述计算机可读存储介质,其特征在于,执行该计算机程序时,会使处理器进一步执行以下步骤:通过比较误差信号和近端信号的能量来检测滤波发散,并基于检测到的滤波发散,将抑制因子应用于近端信号。
44.根据权利要求33-43中任一项所述计算机可读存储介质,其特征在于,执行该计算机程序时,会使处理器进一步执行以下步骤:通过自乘算法,突出强调抑制因子的谷值。
45.根据权利要求33-44中任一项所述计算机可读存储介质,其特征在于,执行该计算机程序时,会使处理器进一步执行以下步骤:配置一条曲线来影响不太准确的频率带,并对抑制因子进行加权。
46.根据权利要求33-45中任一项所述计算机可读存储介质,其特征在于,执行该计算机程序时,会使处理器进一步执行以下步骤:追踪最小抑制因子,并按比例调整抑制因子,以便使最小值能够接近目标值。
47.根据权利要求33-46中任一项所述计算机可读存储介质,其特征在于,执行该计算机程序时,会使处理器进一步执行以下步骤:将远端信号、近端信号和误差信号转换为频域。
48.根据权利要求33-47中任一项所述计算机可读存储介质,其特征在于,所述频率带与各个离散傅立叶变换(DFT)系数相对应。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/US2011/036856 WO2012158163A1 (en) | 2011-05-17 | 2011-05-17 | Non-linear post-processing for acoustic echo cancellation |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103718538A true CN103718538A (zh) | 2014-04-09 |
CN103718538B CN103718538B (zh) | 2015-12-16 |
Family
ID=44209915
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201180072348.6A Active CN103718538B (zh) | 2011-05-17 | 2011-05-17 | 可实现声学回声消除的音频信号非线性后期处理方法和系统 |
Country Status (3)
Country | Link |
---|---|
EP (1) | EP2710787A1 (zh) |
CN (1) | CN103718538B (zh) |
WO (1) | WO2012158163A1 (zh) |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104994249A (zh) * | 2015-05-19 | 2015-10-21 | 百度在线网络技术(北京)有限公司 | 声回波消除方法和装置 |
CN105304077A (zh) * | 2015-09-22 | 2016-02-03 | 广东欧珀移动通信有限公司 | 一种声波处理方法及装置 |
CN108172233A (zh) * | 2017-12-12 | 2018-06-15 | 天格科技(杭州)有限公司 | 基于远端估计信号和误差信号回归因子的回声消除方法 |
CN108390663A (zh) * | 2018-03-09 | 2018-08-10 | 电信科学技术研究院有限公司 | 一种有限冲激响应滤波器系数矢量的更新方法及装置 |
CN108831497A (zh) * | 2018-05-22 | 2018-11-16 | 出门问问信息科技有限公司 | 一种回声压缩方法及装置、存储介质、电子设备 |
CN110024025A (zh) * | 2016-11-23 | 2019-07-16 | 哈曼国际工业有限公司 | 基于相干性的动态稳定性控制系统 |
CN110335618A (zh) * | 2019-06-06 | 2019-10-15 | 福建星网智慧软件有限公司 | 一种改善非线性抑制的方法及计算机设备 |
CN110992975A (zh) * | 2019-12-24 | 2020-04-10 | 大众问问(北京)信息科技有限公司 | 一种语音信号处理方法、装置及终端 |
CN111048096A (zh) * | 2019-12-24 | 2020-04-21 | 大众问问(北京)信息科技有限公司 | 一种语音信号处理方法、装置及终端 |
CN111048118A (zh) * | 2019-12-24 | 2020-04-21 | 大众问问(北京)信息科技有限公司 | 一种语音信号处理方法、装置及终端 |
CN112292844A (zh) * | 2019-05-22 | 2021-01-29 | 深圳市汇顶科技股份有限公司 | 双端通话检测方法、双端通话检测装置以及回声消除系统 |
CN112929506A (zh) * | 2019-12-06 | 2021-06-08 | 阿里巴巴集团控股有限公司 | 音频信号的处理方法及装置,计算机存储介质及电子设备 |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105191266B (zh) * | 2013-03-19 | 2017-03-08 | 皇家飞利浦有限公司 | 用于音频处理的方法和装置 |
EP3080975B1 (en) | 2013-12-12 | 2017-07-12 | Koninklijke Philips N.V. | Echo cancellation |
GB2515593B (en) | 2013-12-23 | 2015-12-23 | Imagination Tech Ltd | Acoustic echo suppression |
CN111341336B (zh) * | 2020-03-16 | 2023-08-08 | 北京字节跳动网络技术有限公司 | 一种回声消除方法、装置、终端设备及介质 |
KR20210125846A (ko) | 2020-04-09 | 2021-10-19 | 삼성전자주식회사 | 복수의 마이크로폰들을 사용한 음성 처리 장치 및 방법 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1149945A (zh) * | 1995-03-03 | 1997-05-14 | 美国电报电话Ipm公司 | 减少话音通信网中残余远端回声的方法和设备 |
CN1223036A (zh) * | 1996-06-19 | 1999-07-14 | 诺基亚电信公司 | 回波消除器中的回波抑制器和非线性处理器 |
CN1332911A (zh) * | 1998-10-23 | 2002-01-23 | 艾利森电话股份有限公司 | 通过使用频域非线性处理抑制反射信号的方法和设备 |
US7006458B1 (en) * | 2000-08-16 | 2006-02-28 | 3Com Corporation | Echo canceller disabler for modulated data signals |
US20080281584A1 (en) * | 2007-05-07 | 2008-11-13 | Qnx Software Systems (Wavemakers), Inc. | Fast acoustic cancellation |
CN101719969A (zh) * | 2009-11-26 | 2010-06-02 | 美商威睿电通公司 | 判断双端对话的方法、系统以及消除回声的方法和系统 |
CN101964670A (zh) * | 2009-07-21 | 2011-02-02 | 雅马哈株式会社 | 回声抑制方法及回声抑制设备 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
SG71035A1 (en) * | 1997-08-01 | 2000-03-21 | Bitwave Pte Ltd | Acoustic echo canceller |
US7433463B2 (en) * | 2004-08-10 | 2008-10-07 | Clarity Technologies, Inc. | Echo cancellation and noise reduction method |
-
2011
- 2011-05-17 CN CN201180072348.6A patent/CN103718538B/zh active Active
- 2011-05-17 WO PCT/US2011/036856 patent/WO2012158163A1/en active Application Filing
- 2011-05-17 EP EP11721215.9A patent/EP2710787A1/en not_active Withdrawn
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1149945A (zh) * | 1995-03-03 | 1997-05-14 | 美国电报电话Ipm公司 | 减少话音通信网中残余远端回声的方法和设备 |
CN1223036A (zh) * | 1996-06-19 | 1999-07-14 | 诺基亚电信公司 | 回波消除器中的回波抑制器和非线性处理器 |
CN1332911A (zh) * | 1998-10-23 | 2002-01-23 | 艾利森电话股份有限公司 | 通过使用频域非线性处理抑制反射信号的方法和设备 |
US7006458B1 (en) * | 2000-08-16 | 2006-02-28 | 3Com Corporation | Echo canceller disabler for modulated data signals |
US20080281584A1 (en) * | 2007-05-07 | 2008-11-13 | Qnx Software Systems (Wavemakers), Inc. | Fast acoustic cancellation |
CN101964670A (zh) * | 2009-07-21 | 2011-02-02 | 雅马哈株式会社 | 回声抑制方法及回声抑制设备 |
CN101719969A (zh) * | 2009-11-26 | 2010-06-02 | 美商威睿电通公司 | 判断双端对话的方法、系统以及消除回声的方法和系统 |
Cited By (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104994249B (zh) * | 2015-05-19 | 2017-03-15 | 百度在线网络技术(北京)有限公司 | 声回波消除方法和装置 |
CN104994249A (zh) * | 2015-05-19 | 2015-10-21 | 百度在线网络技术(北京)有限公司 | 声回波消除方法和装置 |
CN105304077A (zh) * | 2015-09-22 | 2016-02-03 | 广东欧珀移动通信有限公司 | 一种声波处理方法及装置 |
CN110024025A (zh) * | 2016-11-23 | 2019-07-16 | 哈曼国际工业有限公司 | 基于相干性的动态稳定性控制系统 |
CN110024025B (zh) * | 2016-11-23 | 2023-05-23 | 哈曼国际工业有限公司 | 基于相干性的动态稳定性控制系统 |
CN108172233A (zh) * | 2017-12-12 | 2018-06-15 | 天格科技(杭州)有限公司 | 基于远端估计信号和误差信号回归因子的回声消除方法 |
CN108172233B (zh) * | 2017-12-12 | 2019-08-13 | 天格科技(杭州)有限公司 | 基于远端估计信号和误差信号回归因子的回声消除方法 |
CN108390663A (zh) * | 2018-03-09 | 2018-08-10 | 电信科学技术研究院有限公司 | 一种有限冲激响应滤波器系数矢量的更新方法及装置 |
US11450335B2 (en) | 2018-03-09 | 2022-09-20 | Datang Mobile Communications Equipment Co., Ltd. | Method and device for updating coefficient vector of finite impulse response filter |
CN108831497A (zh) * | 2018-05-22 | 2018-11-16 | 出门问问信息科技有限公司 | 一种回声压缩方法及装置、存储介质、电子设备 |
CN108831497B (zh) * | 2018-05-22 | 2020-06-09 | 出门问问信息科技有限公司 | 一种回声压缩方法及装置、存储介质、电子设备 |
US11349525B2 (en) | 2019-05-22 | 2022-05-31 | Shenzhen GOODIX Technology Co., Ltd. | Double talk detection method, double talk detection apparatus and echo cancellation system |
CN112292844B (zh) * | 2019-05-22 | 2022-04-15 | 深圳市汇顶科技股份有限公司 | 双端通话检测方法、双端通话检测装置以及回声消除系统 |
CN112292844A (zh) * | 2019-05-22 | 2021-01-29 | 深圳市汇顶科技股份有限公司 | 双端通话检测方法、双端通话检测装置以及回声消除系统 |
CN110335618B (zh) * | 2019-06-06 | 2021-07-30 | 福建星网智慧软件有限公司 | 一种改善非线性回声抑制的方法及计算机设备 |
CN110335618A (zh) * | 2019-06-06 | 2019-10-15 | 福建星网智慧软件有限公司 | 一种改善非线性抑制的方法及计算机设备 |
CN112929506A (zh) * | 2019-12-06 | 2021-06-08 | 阿里巴巴集团控股有限公司 | 音频信号的处理方法及装置,计算机存储介质及电子设备 |
CN112929506B (zh) * | 2019-12-06 | 2023-10-17 | 阿里巴巴集团控股有限公司 | 音频信号的处理方法及装置,计算机存储介质及电子设备 |
CN111048118A (zh) * | 2019-12-24 | 2020-04-21 | 大众问问(北京)信息科技有限公司 | 一种语音信号处理方法、装置及终端 |
CN111048096A (zh) * | 2019-12-24 | 2020-04-21 | 大众问问(北京)信息科技有限公司 | 一种语音信号处理方法、装置及终端 |
CN111048096B (zh) * | 2019-12-24 | 2022-07-26 | 大众问问(北京)信息科技有限公司 | 一种语音信号处理方法、装置及终端 |
CN111048118B (zh) * | 2019-12-24 | 2022-07-26 | 大众问问(北京)信息科技有限公司 | 一种语音信号处理方法、装置及终端 |
CN110992975A (zh) * | 2019-12-24 | 2020-04-10 | 大众问问(北京)信息科技有限公司 | 一种语音信号处理方法、装置及终端 |
Also Published As
Publication number | Publication date |
---|---|
WO2012158163A1 (en) | 2012-11-22 |
CN103718538B (zh) | 2015-12-16 |
EP2710787A1 (en) | 2014-03-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103718538B (zh) | 可实现声学回声消除的音频信号非线性后期处理方法和系统 | |
US9754605B1 (en) | Step-size control for multi-channel acoustic echo canceller | |
EP3375180B1 (en) | Double-talk detection for acoustic echo cancellation | |
KR100716377B1 (ko) | 디지털 적응형 필터 및 이를 사용하는 반향 제거기 | |
US9830900B2 (en) | Adaptive equalizer, acoustic echo canceller device, and active noise control device | |
US20080240413A1 (en) | Cross-correlation based echo canceller controllers | |
CN103688522B (zh) | 时钟漂移补偿方法和装置 | |
US9685172B2 (en) | Method and device for suppressing residual echoes based on inverse transmitter receiver distance and delay for speech signals directly incident on a transmitter array | |
de Souza et al. | A PNLMS algorithm with individual activation factors | |
EP3796629B1 (en) | Double talk detection method, double talk detection device and echo cancellation system | |
CN102165707A (zh) | 回波消除装置 | |
EP2710788A1 (en) | Using echo cancellation information to limit gain control adaptation | |
US8019075B2 (en) | Hybrid echo canceller controllers | |
CN104994249A (zh) | 声回波消除方法和装置 | |
US20080240414A1 (en) | Hybrid echo canceller controllers | |
CN105491256A (zh) | 一种声学回声消除器启动阶段稳健的步长调整方法 | |
KR20000070020A (ko) | 혼합된 고정 소수점 또는 부동 소수점 및 블럭 스케일 부동 소수점 연산자를 가진 적응 필터 시스템 | |
EP2716023A1 (en) | Control of adaptation step size and suppression gain in acoustic echo control | |
JP2012039441A (ja) | 多チャネルエコー消去方法、多チャネルエコー消去装置及びそのプログラム | |
US20150199953A1 (en) | Non-linear post-processing control in stereo aec | |
JP3611493B2 (ja) | エコーキャンセラ装置 | |
CN111989934B (zh) | 回声消除装置、回声消除方法、信号处理芯片及电子设备 | |
KR20220157475A (ko) | 반향 잔류 억제 | |
US10636410B2 (en) | Adaptive acoustic echo delay estimation | |
KR102218742B1 (ko) | 적응형 지연 다이버시티 필터와, 이를 이용하는 에코 제거 장치 및 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CP01 | Change in the name or title of a patent holder | ||
CP01 | Change in the name or title of a patent holder |
Address after: American California Patentee after: Google limited liability company Address before: American California Patentee before: Google Inc. |