CN102968999A - 处理音频信号 - Google Patents

处理音频信号 Download PDF

Info

Publication number
CN102968999A
CN102968999A CN2012104627107A CN201210462710A CN102968999A CN 102968999 A CN102968999 A CN 102968999A CN 2012104627107 A CN2012104627107 A CN 2012104627107A CN 201210462710 A CN201210462710 A CN 201210462710A CN 102968999 A CN102968999 A CN 102968999A
Authority
CN
China
Prior art keywords
echo
former
output
sound signal
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2012104627107A
Other languages
English (en)
Other versions
CN102968999B (zh
Inventor
K.V.索伦森
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Technology Licensing LLC
Original Assignee
Skype Ltd Ireland
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from GB1119932.0A external-priority patent/GB2496660B/en
Application filed by Skype Ltd Ireland filed Critical Skype Ltd Ireland
Publication of CN102968999A publication Critical patent/CN102968999A/zh
Application granted granted Critical
Publication of CN102968999B publication Critical patent/CN102968999B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/02Circuits for transducers, loudspeakers or microphones for preventing acoustic reaction, i.e. acoustic oscillatory feedback
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/20Processing of the output signals of the acoustic transducers of an array for obtaining a desired directivity characteristic

Landscapes

  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
  • Telephone Function (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

在一个实施例中,一种处理设备处的音频信号的方法包括:在设备的多个麦克风处接收音频信号;处理由所述多个麦克风接收的音频信号中的至少一个以便生成第一特性;波束形成器将波束形成器系数应用到接收的音频信号,从而生成波束形成器输出;处理波束形成器输出以便生成第二特性。将回声消除器应用于波束形成器输出,从而从波束形成器输出中抑制由从音频输出端输出的音频信号引起的回声。使用第一特性和第二特性之间的关系确定回声消除器的操作参数。

Description

处理音频信号
相关申请
本申请在35 U.S.C. §119或365下要求2011年11月18日提交的英国申请No. GB 1119932.0的优先权。上述申请的整个教导通过引用合并于此。
技术领域
本发明涉及处理设备处接收的音频信号。
背景技术
设备可能具有诸如麦克风之类的音频输入装置,该装置可以用来接收来自周围环境的音频信号。例如,用户设备的麦克风可以接收初级音频信号(例如来自用户的语音)以及其他音频信号。所述其他音频信号可能是设备的麦克风处接收的干扰音频信号,并且可能接收自干扰源或者可能是外界背景噪声或者麦克风自身噪声。干扰音频信号可以扰乱设备处接收的初级音频信号。设备可以出于许多不同的目的使用接收的音频信号。例如,在接收的音频信号为接收自用户的语音信号的情况下,语音信号可以由设备处理以便例如借助于通过网络将语音信号传输至另一个设备而在通信事件中使用,所述另一个设备可以与通信事件的另一个用户关联。可替换地或者此外,接收的音频信号可以用于本领域中已知的其他目的。
为了改善接收的音频信号(例如电话中使用的接收自用户的语音信号)的质量,希望的是抑制在用户设备的麦克风处接收的干扰音频信号(例如背景噪声以及接收自干扰音频源的干扰音频信号)。
其中多个麦克风作为单个音频输入装置而操作的立体声麦克风和其他麦克风阵列的使用正变得更加普通。设备处多个麦克风的使用允许除了可以从由单个麦克风接收的音频信号提取的信息之外还使用来自接收的音频信号的提取的空间信息。当使用这样的设备时,一种用于抑制干扰音频信号的方法是将波束形成器应用于由所述多个麦克风接收的音频信号。波束形成是一种通过应用信号处理以便与麦克风阵列处接收的音频信号的其余音频信号相比增强麦克风阵列处接收的来自一个或多个希望的位置(即方向和距离)的特定音频信号,而聚焦麦克风阵列接收的音频信号的过程。为了简单起见,将在这里描述具有仅仅单个希望的方向的情况,但是相同的方法将在存在更多感兴趣方向时适用。在麦克风阵列处接收希望的音频信号的角度(和/或距离)(所谓的到达方向(“DOA”)信息)可以在波束形成过程之前确定或者设置。可能有利的是将希望的到达方向设置为固定的,因为到达方向的估计可能是复杂的。然而,在可替换的情形下,可能有利的是使希望的到达方向适应变化的条件,并且因此可能有利的是在使用波束形成器时实时地执行希望的到达方向的估计。自适应波束形成器将一定数量的权重(或者“波束形成器系数”)应用到接收的音频信号。可以适应性调节这些权重以便考虑到DOA信息以处理由所述多个麦克风接收的音频信号以便形成“波束”,其中高的增益应用到由麦克风接收的来自希望的位置(即希望的方向和距离)的希望的音频信号,并且低的增益应用于到任何其他(例如干扰)信号源的方向。波束形成器也可以在可以适应性调节干扰源的抑制的意义上是“自适应的”,希望的源/观看方向的选择可以不必是能适应的。
除了具有多个用于接收音频信号的麦克风之外,设备也可以具有用于输出音频信号的音频输出装置(例如包括扩音器)。这样的设备例如在音频信号例如在通信事件期间要被输出到以及接收自设备的用户的情况下是有用的。例如,该设备可以是诸如电话、计算机或者电视之类的用户设备,并且可以包括允许用户参与电话会议所必需的装备。
在设备包括音频输出装置(例如包括扩音器)和音频输入装置(例如麦克风)二者的情况下,那么经常在接收的音频信号中存在回声时存在问题,其中回声由音频信号从扩音器输出并且在麦克风处被接收而引起。回声消除器可以用来消除麦克风处接收的音频信号中的回声。回声抑制和回声减损是实现回声消除器的两种方法。例如,回声消除器可以实现用来抑制麦克风处接收的音频信号中的回声的回声抑制器。音频信号从扩音器到麦克风的传播路径称为回声路径,回声抑制器可以将回声路径增益估计为时间和频率的函数,并且用其估计接收的音频信号中的回声功率。接收的音频信号中的回声功率的估计可以用来将接收的音频信号中的回声抑制到这样的水平,使得它们不可察觉。接收的音频信号中的回声功率的估计基于其中回声消除器正操作的扩音器-外壳-麦克风系统模型。该模型经常至少部分地为线性的,但是在一些情况下,该模型可以是非线性的。一种混合回声消除器由以级联的方式应用的回声减损器和回声抑制器组成。通过使用混合回声消除器,增加的双端通话透明度由回声减损器实现,并且如果需要的话,附加的回声抑制增益由回声抑制器实现。
回声消除的最优操作的常见要求是:
· 回声路径相对缓慢地变化,因为否则的话回声路径增益估计将很快就不精确;
· 系统是充分线性的,以便通过线性回声模型建模;以及
· 回声路径增益不应当被低估,因为低估将反过来也造成回声功率被低估。这将使得回声消除器施加太少的抑制并且从而通过不可忽略的残余回声。
要在接收的音频信号上实现波束形成器和回声消除器二者不是一个微不足道的任务。事实上,当结合自适应麦克风波束形成器(例如在电话会议应用中)时,需要小心仔细,使得回声消除器性能不被波束形成器的自适应行为降低。
在一起实现波束形成和回声消除的第一系统中,在执行波束形成之前将单独的回声消除器应用于每个麦克风信号。然而,由于多个回声消除器操作用于多个麦克风信号,该第一系统计算上非常复杂。此外,在麦克风信号上使用回声消除器可能扰乱波束形成器的波束形成过程。
在一起实现波束形成和回声消除的第二系统中,将回声消除器应用到波束形成器的输出。在该第二系统中,数据自适应波束形成器的行为优选地被约束为随着时间非常缓慢地变化,因为否则的话回声消除器中使用的回声路径的估计将受有害的影响,因为回声消除器试图响应于波束形成器行为的变化而调节回声路径估计。此外,在该第二系统中,波束形成器优选地被约束为线性的并且缓慢地变化以便防止可实现的回声消除性能的有害的降低。一些波束形成器是线性的,但是一些不是线性的,因此在第二系统中波束形成器的选择被限制(为线性波束形成器)。
因此,上面描述的第一系统和第二系统二者都存在问题。
此外,当结合声学回声消除器(AEC)应用波束形成器时,最后应用的一方需要考虑到另一方以便实现最佳的性能。当来自波束形成器的内部信息可用时,存在进行深度整合的若干方式,其中一个模块基本上完成AEC和波束形成二者。
另一方面,当没有内部信息可用时,在AEC中精确地补偿波束形成器带来的回声衰减变得更加困难。
发明内容
本发明的实施例允许将麦克风波束形成器与回声消除器一起使用,并且提供对于波束形成器的精确补偿而无需内部访问它。
依照本发明的第一方面,提供了一种处理设备处的音频信号的方法,该设备包括用于输出音频信号的音频输出端,该方法包括:
在设备的多个麦克风处接收音频信号;
处理由所述多个麦克风接收的音频信号中的至少一个以便生成第一特性;
波束形成器将波束形成器系数应用到接收的音频信号,从而生成波束形成器输出;
处理波束形成器输出以便生成第二特性;
将回声消除器应用于波束形成器输出,从而从波束形成器输出中抑制由从音频输出端输出的音频信号引起的回声;
使用第一特性和第二特性之间的关系确定回声消除器的操作参数。
可以在频带中确定第一特性和第二特性,使得它们的关系代表波束形成器增益谱。
在所描述的实施例中的一些实施例中,基于所述至少一个音频输入信号和从音频输出端输出的音频信号估计回声路径,并且使用估计的回声路径和波束形成器增益谱确定操作参数。
在其他实施例中,本发明也可以用来补偿回声路径适应。波束形成器按照其改变谱的上面提到的识别的增益(如通过比值所确定的)可以用来通过用波束形成器在该域中应用的增益除分析的谱系数而缩放波束形成器输出信号的拷贝。换言之,它将如其出现在输入信号中那样近似重新创建回声。因此,有可能在从波束形成器输出信号和波束形成器增益谱生成的人造信号上适应性调节回声消除器的回声路径。当估计回声时,波束形成器增益谱被用来产生波束形成器输出中的回声的估计以及因而所述操作参数。
所述方法可以包括确定接收的音频信号中的哪一个具有最强的回声的步骤。
具有最强回声的信号可能是“最强”音频信号,即接收的音频信号中具有随着时间的最高平均功率的音频信号,但是它可以是所述信号中的另一个信号。
使用具有最强回声的信号将确保识别的回声抑制增益谱将介于0与1之间。
使用具有最强回声的信号不是严格必要的,因为识别的波束形成器增益可能高于1。
操作参数可以包括由回声消除器(例如由回声消除器的回声抑制)应用到波束形成器输出的回声抑制水平。
优选实施例中用来整合波束形成器和AEC的方法是使用基于抑制的AEC在选择的输入信号和波束形成器输出二者上进行的相同谱分析。就此而论,“整合”意指使波束形成器和AEC自适应协作。在一些实施例中,这涉及将这两个频率谱转换成具有不同频带(槽)中的系数的功率谱。一旦谱分析和准备与基于抑制的AEC所做的相同,那么在每个带中将所述特性之间的关系确定为该带中的输入特性与输出特性之间的比值。对于每个带而言,当已经根据音频输出信号和选择的输入信号适应性调节了回声路径时,这些比值精确地描述了要在基于抑制的AEC中实现的对于波束形成的最佳的可能补偿。当不存在回声时,可以忽略增益,因为它们不描述回声的比值。当回声消除器降低回声降低增益以便抑制回声时,将该增益除以波束形成器的输出和输入之间的比值。即,如果在一个槽中回声期间的波束形成器输出为输入的功率的一半,那么回声降低增益除以一半。因此,增益的组合最终正好处于在不应用波束形成器的情况下回声消除器将应用的增益。
依照本发明的第二方面,提供了一种用于处理音频信号的设备,该设备包括:音频输出端,其用于输出音频信号;多个麦克风,其用于接收音频信号;波束形成器,其被配置成将波束形成器系数应用到接收的音频信号,从而生成波束形成器输出;回声消除器,其被配置成应用到波束形成器输出,从而从波束形成器输出中抑制由从音频输出端输出的音频信号引起的回声;以及处理器,其被配置成生成由所述多个麦克风接收的音频信号中的至少一个的第一特性,生成波束形成器输出的第二特性,并且使用第一特性和第二特性之间的关系确定回声消除器的操作参数。
回声消除器可以包括被设置成应用到波束形成器输出的回声抑制。
依照本发明的第三方面,提供了一种用于处理设备处的音频信号的计算机程序产品,该设备包括多个用于接收音频信号的麦克风以及用于输出音频信号的音频输出端,该计算机程序产品包含在非瞬态计算机可读介质上并且被这样配置,以便在设备的处理器上执行时执行上面限定的方法的步骤。
附图说明
现在,为了更好地理解本发明并且为了示出如何可以将本发明付诸实施,将通过实例的方式参照以下附图,在附图中:
图1示出了依照优选实施例的设备的示意图;
图2示出了依照优选实施例的系统;
图3示出了依照优选实施例的设备的元件的功能框图;
图4为依照优选实施例的处理音频信号的过程的流程图;
图5A为一个实施例的功能框图;以及
图5B为另一个实施例的功能框图。
具体实施方式
现在,将仅仅通过实例的方式描述本发明的优选实施例。可能希望的是在例如用于电话会议应用的设备处实现波束形成器和回声消除器二者。在本发明的下面的实施例中,描述了这样的技术,这些技术允许将波束形成器和回声消除器一起使用而不限制波束形成器类型或者波束形成器行为并且不影响回声消除器的性能,即使没有对于波束形成器的内部访问可用时,也是如此。
这意味着,甚至在没有对于波束形成器的内部访问的情况下,可以改变波束形成器的设计而不更新AEC整合。它也允许与第三方波束形成器协作。
可以如下对波束形成器建模。麦克风波束形成器的目的是组合若干麦克风信号以便产生波束形成器输出。波束形成器输出可以包括许多信号,但是为了简单起见,在以下描述的优选实施例中,将假设波束形成器产生一个单一输出。存在许多可以使用的不同波束形成算法,并且一种描述波束形成算法的常见模型是
其中y(t)为波束形成器输出,yn(t)为来自麦克风阵列中的第n个麦克风的第n个输入信号,N为波束形成器输入信号的总数,并且f()为波束形成器函数。波束形成器函数f()可以采取许多不同形式之一,并且可以是线性的或者非线性的。对于延迟-求和波束形成器而言,波束形成算法由下式给出:
Figure 874550DEST_PATH_IMAGE002
对于MVDR波束形成器而言,波束形成算法由下式给出:
Figure 654287DEST_PATH_IMAGE003
其中gn(t)为用于第n个输入信号的加权因子,并且M为每个延迟下MVDR滤波器的长度。
操作来消除单个麦克风输入信号y(t)中的回声的回声消除器可以如下建模。回声路径是扩音器信号x(t)到麦克风信号y(t)的传播路径。使用回声抑制的回声消除器可以通过对于时间t和频率f估计回声路径增益并且使用回声路径增益的估计
Figure 988502DEST_PATH_IMAGE005
来估计接收的音频信号中的回声功率而操作。回声功率的这种估计可以基于回声消除器在其上操作的扩音器-外壳-麦克风系统的线性模型依照以下方程执行:
Figure 140315DEST_PATH_IMAGE007
Figure 900067DEST_PATH_IMAGE008
其中Y(t, f)为麦克风信号的短时傅立叶变换(STFT)系数,X(t, f)为用于扩音器信号的STFT系数,S(t, f)为用于回声信号的STFT系数,H(t, f)为回声路径的传递函数,并且N(t, f)为所有近端声音、麦克风噪声和建模误差(即所有接收的不同于回声的音频信号)的STFT系数。用于扩音器信号X(t, f)的STFT系数是已知的,因为设备将知道什么信号正从其扩音器输出。因此,为了确定回声功率,应当估计回声路径的传递函数H(t, f)。
回声路径增益估计可以根据所述模型在X(t, f)与N(t, f)不相关的假设下估计为Y(t, f)和X(t, f)的函数。此外,可以基于限制估计的可能精度的期望回声-近端比值调节估计速度或者估计中的置信度,即,主要在预期回声功率在麦克风信号中为强时更新估计。一种可以使用的估计方法是最小二乘估计方法。
回声路径增益估计
Figure 441273DEST_PATH_IMAGE011
用来使用上面的模型估计回声功率
Figure 178284DEST_PATH_IMAGE012
,即:
回声消除的最优操作的常见要求是:
· 回声路径相对缓慢地变化,因为否则的话回声路径增益估计将很快就不精确。
· 系统是充分线性的,以便通过上面的线性回声模型建模。
· 回声路径增益不应当被低估,即,因为低估将反过来也造成回声功率
Figure 61555DEST_PATH_IMAGE015
被低估。这将使得回声消除器施加太少的抑制并且从而通过不可忽略的残余回声。
现在参照图1,图1图解说明了设备102的示意图。设备102可以是固定或者移动设备。设备102包括CPU 104,用于接收音频信号的麦克风阵列106、用于输出音频信号的音频输出装置110、用于向设备102的用户输出可视数据的诸如屏幕之类的显示器112以及用于存储数据的存储器114连接到该CPU。
现在,参照图2,图2图解说明了设备102在其中操作的实例环境200。
设备102的麦克风阵列106接收来自环境200的音频信号。例如,如图2中所示,麦克风阵列106接收来自用户202(图2中表示为d1)的音频信号、来自另一个用户204(图2中表示为d2)的音频信号、来自风扇206(图2中表示为d3)的音频信号以及来自扩音器210(图2中表示为d4)的音频信号。设备102的音频输出装置110包括音频输出处理装置208和扩音器210。音频输出处理装置208操作来将音频输出信号发送至扩音器210以便从扩音器210输出。音频输出处理装置208可以作为在CPU 104上执行的软件或者作为设备102中的硬件而操作。对于本领域技术人员将明显的是,麦克风阵列106可以接收不同于图2中所示的其他音频信号。在图2中所示的方案中,来自用户202的音频信号是所希望的音频信号,并且在麦克风阵列106处接收的所有其他音频信号都是干扰音频信号。在其他实施例中,可以将麦克风阵列106处接收的音频信号中的超过一个音频信号认为是“希望的”音频信号,但是为了简单起见,在这里描述的实施例中,仅仅存在一个希望的音频信号(其为来自用户202的音频信号),并且其他音频信号被认为是干扰。不想要的噪声信号的其他来源可以包括例如空调系统、播放音乐的设备以及例如离开环境200中的墙壁的音频信号的余响。
现在参照图3,图3图解说明了依照本发明优选实施例的设备102的元件的功能表示。麦克风阵列106包括多个麦克风3021、3022和3023。设备102进一步包括波束形成器504、声学回声消除器506和处理框508。波束形成器504可以例如为最小方差无失真响应(MVDR)波束形成器。波束形成器504、回声消除器506和处理框508可以以在CPU 104上执行的软件实现或者以设备102中的硬件实现。麦克风阵列106中的每个麦克风的输出耦合到波束形成器504的对应输入。麦克风阵列106中的每个麦克风的输出也耦合到处理框508的对应输入。波束形成器504的输出耦合到回声消除器506的输入并且耦合到处理框508。处理框508的输出耦合到回声消除器506的输入,从而将边信息507提供给回声消除器506。本领域技术人员将会领会,需要多个输入以便实现波束形成。麦克风阵列106在图3中被示为具有三个麦克风(3021、3022和3023),但是应当理解的是,麦克风的该数量仅仅是一个实例并且绝不是限制性的。
波束形成器504包括用于接收和处理来自麦克风阵列106的麦克风3021、3022和3023的音频信号y1(t)、y2(t)和y3(t)的装置。例如,波束形成器504可以包括话音活动检测器(VAD)和DOA估计框(图中未示出)。在操作中,波束形成器504探知麦克风阵列106接收的音频信号的性质,并且基于由VAD和DOA估计框检测的语音类质量的检测,确定主扬声器的一个或多个主要方向。在其他实施例中,主扬声器的主要方向可以预先设置,使得波束形成器304聚焦在固定方向上。在图2所示的实例中,接收自用户202的音频信号的方向(d1)被确定为主要方向。波束形成器504可以使用DOA信息(或者可以简单地使用预先设置以供波束形成器304使用的固定观看方向)以便通过形成这样的波束而处理音频信号,该波束在来自麦克风阵列106处接收希望的信号的主要方向(d1)的方向上具有高增益并且在到任何其他信号的方向(例如d2、d3和d4)上具有低增益。
波束形成器504也可以确定干扰到达方向(d2、d3和d4),并且有利地波束形成器504的行为可以被适应性调节,从而特别地将低增益施加到接收自那些干扰到达方向的音频信号以便抑制干扰音频信号。尽管上文中描述了波束形成器504可以确定任何数量的主要方向,但是确定的主要方向的数量影响波束形成器的属性,例如,对于大量主要方向而言,与仅仅确定了单个主要方向的情况相比,波束形成器504将对麦克风阵列处接收的来自其他(不希望的)方向的信号施加较少的衰减。波束形成器504的输出以要处理的单个信道的形式提供给回声消除器506。同样可能的是输出超过一个信道,例如以便保护或者实际上生成立体图像。如对于本领域技术人员显然的是,回声消除器506的输出可以在设备102中以许多不同的方式使用。例如,回声消除器506的输出可以用作其中用户202使用设备102参与的通信事件的一部分。
参照图4,现在描述一种依照优选实施例处理音频信号的方法。在步骤S402中,在麦克风阵列106的麦克风(3021、3022和3023)处接收音频信号。这些音频信号例如接收自用户202、用户204和风扇206,并且这些音频信号构成如图2和图3中所示的近端音频信号。麦克风阵列106中的麦克风也如图2和图3中所示接收来自扩音器210的回声信号。诸如背景噪声之类的其他干扰音频信号也可以在麦克风阵列106的麦克风(3021、3022和3023)处被接收,并且这些其他干扰音频信号将构成另外的近端音频信号。麦克风阵列106的每个麦克风(3021、3022和3023)接收的音频信号y1(t)、y2(t)和y3(t)被传送至波束形成器504并且传送至处理框508。回声信号是音频输出处理装置208将扩音器音频信号x(t)发送至扩音器210并且扩音器输出扩音器音频信号x(t)的结果。扩音器音频信号x(t)通过回声路径(通过H(t, f)描述)传播并且存在于接收的音频信号y1(t)、y2(t)和y3(t)中。
在步骤S404中,波束形成器504将其波束形成器滤波系数应用到接收的音频信号(y1(t)、y2(t)和y3(t)),从而生成波束形成器输出301。如上面所描述的,波束形成器504聚焦于麦克风阵列106处接收的来自主要方向(d1)的音频信号,从而增强接收自用户202的希望的音频信号,并且向麦克风阵列106处接收的来自其他方向的其他音频信号施加抑制。波束形成器504对于接收自主要位置(即方向和距离)的音频信号应当具有固定增益,其中波束形成器增益应当优选地随着时间是恒定的(但是可能地随着频率不是恒定的),从而防止希望的音频信号的失真。作为一个实例,可以针对主要位置(即主要方向和/或距离)将波束形成器增益设置为值1。波束形成器504的任务是相对于其他干扰源增强来自主要源的信号。波束形成器输出被传送至回声消除器506。
在步骤S406中,处理框508分析接收的音频信号y1(t)、y2(t)和y3(t)以确定提供哪个信号以便在AEC中处理。这可以是任何输入信号,并且可以是最强的输入信号。
在步骤S408中,估计接收的音频信号的回声路径增益
Figure 398995DEST_PATH_IMAGE016
。这涉及依照以下方程寻找回声路径增益的估计
Figure 104783DEST_PATH_IMAGE017
Figure 802DEST_PATH_IMAGE018
其中,如上面所描述的,在该估计中假设X(t, f)与N(t, f)不相关。
在一个实施例中,在步骤410中,基于步骤S408中确定的回声路径增益通过将回声路径增益乘以扩音器信号功率而计算回声功率谱的估计。
回声功率通过将步骤S608中测量的接收的音频信号的回声路径增益与从扩音器210输出的扩音器信号功率
Figure 870855DEST_PATH_IMAGE020
相乘而估计,即:
Figure 368832DEST_PATH_IMAGE021
在步骤S412中,如关于图5A更完整地描述的,确定波束形成器抑制增益。
在步骤S413中,波束形成器输出中的回声的估计通过将来自步骤S410的回声估计与来自步骤S412的确定的波束形成器抑制增益相乘而确定。
在步骤S414中,使用上面的估计,计算回声抑制增益并且将其施加到波束形成器输出。步骤S414中的回声抑制的水平基于波束形成器输出中的估计的回声的估计的回声功率而确定,并且这考虑了确定的波束形成器抑制增益。
要由回声消除器506施加的回声抑制的水平基于波束形成器输出中估计的回声中的回声功率的估计而确定。
步骤S410和S412可以由处理框508利用作为边信息传送至回声消除器506的结果而执行。可替换地,步骤S410和S412中的一个或者二者可以由回声消除器506本身基于在回声消除器506处接收自处理框508的接收的音频信号的边信息而执行。
在一个可替换的实施例(图5B)中,不执行估计波束形成器输出中的回声的步骤S413。作为替代,执行基于接收的音频信号中的回声功率的估计()而估计回声抑制的步骤S413’,并且然后将其修改。
通过基于接收的输入信号而更新回声路径并且基于波束形成器输出中的估计的回声而确定波束形成器回声抑制,解决了估计回声路径的问题,因为当更新回声路径模型时,波束形成器不影响由AEC看见的回声路径。使用回声的合成版本具有类似的效果。
本发明的实施例对于波束形成器带来的时频变化回声降低补偿了任何基于抑制的AEC。换言之,上面确定的抑制增益基于确定的波束形成器增益谱。尽管当与上面确定抑制增益的方式一起使用时特别有效,但是本发明可以与其他确定抑制增益的方法一起应用。
在步骤S414中,将回声消除器506应用到波束形成器输出301,其中回声消除器506应用的抑制的水平如上计算。信号从回声消除器506输出以供设备102中进一步处理。例如,从回声消除器506输出的信号可以用在通信事件中,例如以便作为音频或视频呼叫的一部分作为从用户202到另一个用户的语音信号通过网络传输至另一个设备。
图5A为示出如何确定增益的功能框图。图5A图解说明了处理框530,该处理框将谱分析应用到具有最强回声的输入y(t)以及波束形成器输出301以便生成对应的第一特性和第二特性,这些特性中的每一个都是频率的函数。用于帧n中的接收的信号的短时傅立叶变换(STFT)的模型是:
Y n (t, f) = H n (t, f) * X n (t, f) + N n (t, f),
其中H n (t, f)为包括扬声器和麦克风的房间的冲激响应的STFT。X n (t, f)为通过扬声器播放出的信号(远端信号)的STFT。N n (t, f)为由麦克风接收的除了回声之外的任何其他东西(即近端语音和背景噪声)的STFT。
在AEC中使用的谱分析是使用快速傅立叶变换(FFT)计算的STFT。变换之后,计算功率谱并且在该谱上操作。
在上面的实例中,处理框执行傅立叶变换以便生成可以转换成功率谱的傅立叶谱。比值确定框540确定每个频带的比值C2/C1,并且将其作为边信息提供给AEC以用于确定抑制增益,其中C1为描述输入信号yn(t)的谱并且C2为描述波束形成器输出信号301的谱。比值C2/C1代表每个频带中的波束形成器的有效增益。该比值在框543处与输入上的估计的回声相乘以获得波束形成器输出中的回声的估计。这用来生成AEC抑制增益的估计(框547)。
此外,比值可以用来提供模仿包括回声的波束形成器输入的合成信号。这借助于通过在除法函数542中将每个频带的分析的谱系数C2除以该频带中的比值C2/C1缩放波束形成器输出的拷贝以便如其在输入信号中出现的那样重新创建回声而完成。可以将回声作为边信息提供给AEC。可替换地,除法缩放函数542可以在AEC中实现。
这允许AEC在合成信号中适应性调节其抑制增益。合成信号具有与波束形成器输入信号中的谱形状相似的谱形状的回声。
所执行的处理与AEC中执行来确定抑制增益的处理相同。因此,应当领会的是,该功能可以在AEC本身中实现。
优选实施例的回声消除器506应用到波束形成器输出上。波束形成过程将影响回声消除器506处接收的音频信号中的回声信号,并且因此基于波束形成器谱增益的估计而确定回声消除器增益。此外,可以基于来自接收的信号的谱分析的附加输入而改进回声路径模型。
图5B中图解说明了一个可替换的实施例。依照该实施例,在估计回声路径增益的步骤S408之后,基于接收的音频信号中的回声功率的估计确定回声消除器506施加的回声抑制的水平。回声功率通过将最强音频信号的回声路径增益
Figure 153434DEST_PATH_IMAGE023
与从扩音器210输出的扩音器信号功率
Figure 98257DEST_PATH_IMAGE024
相乘而估计,即:
Figure 76839DEST_PATH_IMAGE025
通过这种方式,回声功率基于接收的音频信号中的选择的音频信号的回声路径增益而更新。接着,如图5B的框547中所示,将确定的波束形成器增益谱用于修改确定的回声抑制。然后,在回声消除器处施加修改的增益。
可以在其中将波束形成器输出应用到回声消除器的任何方案中应用本发明的实施例。当如上所述基于接收的音频信号中的最强音频信号的回声路径增益估计回声功率时,其具有以下优点:
1. 根据标准回声消除之后的基本假设和要求,Ymax(t, f)和X(t, f)优选地是线性相关的,而不管波束形成器的类型如何(因为Ymax(t, f)在波束形成过程之前与音频信号有关),并且因而这种关系可以使用线性估计方法由很好地近似。因此,即使波束形成器504不使用线性函数f(),回声功率的估计也可以使用上面描述的线性模型而有效地确定。这放松了对于波束形成器504的约束,使得波束形成函数f()可以是线性的或者非线性的。应当指出的是,回声消除器可以包括处理回声路径中的非线性的非线性模型。然而,在回声路径中引入另外的非线性——其中一些非线性可能不容易建模,将对于回声消除器的近端透明度具有影响。
2. 
Figure 563425DEST_PATH_IMAGE028
的时间变化应当与标准回声消除情况相同,而不管波束形成器行为如何。这是因为最强的接收的音频信号的回声路径增益的估计
Figure 98311DEST_PATH_IMAGE029
在波束形成过程之前就确定。这放松了对于波束形成器504的约束,使得波束形成器输出可以在时间上缓慢地或者快速地变化,而不会不利地影响供回声消除器506使用的回声功率的估计
Figure 211761DEST_PATH_IMAGE030
总之,在本发明的优选实施例中,在将波束形成器应用到接收的音频信号之前,回声消除器506的行为基于多个接收的音频信号之一(Ymax(t, f)),而回声消除器506被应用到波束形成器504的输出。而且,回声消除器506估计的回声可以通过确定波束形成器的有效增益并且补偿它而修改。
在上面描述的实例实施例中,麦克风阵列106为麦克风(3021、3022和3023)的1-D阵列,其允许波束形成器504区分在一维中(例如沿着水平轴)以不同角度接收的音频信号。在可替换的实施例中,麦克风阵列106可以是麦克风的2-D或者3-D阵列,其将分别允许波束形成器504区分在二维或三维中(例如沿着水平、竖直和深度轴)以不同角度接收的音频信号。此外,在优选的实施例中,麦克风阵列106为均匀麦克风阵列302。然而,在可替换的实施例中,麦克风阵列106可以是非均匀麦克风阵列302。
如上面所描述的,波束形成器504、回声消除器506和处理框508可以以CPU 104上执行的软件实现或者以设备102中的硬件实现。当波束形成器504、回声消除器506和处理框508以软件实现时,它们可以通过非瞬态计算机可读介质上包含的计算机程序产品而提供,所述计算机程序产品被这样配置,以便当在设备102的CPU 104上执行时如上所述执行波束形成器504、回声消除器506和处理框508的功能。方法步骤S404至S414可以由波束形成器504、回声消除器506和处理框508的功能框(作为软件或硬件框)执行。
尽管上面描述的实施例参照了接收来自单个用户202的一个希望的音频信号(d1)的麦克风阵列106,但是应当理解的是,麦克风阵列106可以接收来自例如会议呼叫中的多个用户的音频信号,这些音频信号可以全部作为希望的音频信号对待。在该方案中,多个希望的音频信号源到达麦克风阵列106。
设备102可以是用于实现本发明的计算机或者任何其他适当的设备。此外,可以允许波束形成器504、回声消除器506和处理框508用于使用立体声麦克风拾音的任何适当的装备。可以允许上面描述的方法作为设备内的话音质量增强(VQE)模块的一部分并且运行在任何适当的平台上。
在上面描述的实施例中,扩音器210为用于输出单声道音频信号的单声道扩音器,并且来自波束形成器504的波束形成器输出为单个信号。然而,这只是为了简化介绍并且本发明不限于仅仅用于这样的系统。换言之,本发明的一些实施例可以使用立体声扩音器以用于输出立体声音频信号,并且本发明的一些实施例可以使用输出多个信号的波束形成器。
本发明对于应用到基于回声抑制的回声消除器是特别有用的,因为它仅仅要求使用一个回声消除器(例如上面描述的回声消除器506),并且因为波束形成器整合到回声消除器中于是相当简单。对于使用基于减损的回声消除(其可以是线性的或者非线性的)和回声抑制二者的混合回声消除器而言,情形稍微不同。混合回声消除器的回声减损部分可能需要应用到波束形成器麦克风输入信号中的每一个信号。在这种情况下,当依照本发明实现混合回声消除时,回声消除器的回声抑制部分仍然在波束形成器之后执行。
尽管在上面描述的实施例中处理框508被示为与波束形成器504和回声消除器506分离,但是在一些实施例中,处理框508的一些或者全部功能可以在波束形成器504和/或回声消除器506内实现。
尽管已经参照优选实施例特别地示出和描述了本发明,但是对于本领域技术人员而言,应当理解可以在形式和细节方面的进行各种改变,而不脱离所附权利要求限定的本发明的范围。

Claims (10)

1. 一种处理设备处的音频信号的方法,该设备包括用于输出音频信号的音频输出装置,该方法包括:
在设备的多个麦克风处接收音频信号;
处理由所述多个麦克风接收的音频信号中的至少一个以便生成第一特性;
波束形成器将波束形成器系数应用到接收的音频信号,从而生成波束形成器输出;
处理波束形成器输出以便生成第二特性;
将回声消除装置应用于波束形成器输出,从而从波束形成器输出中抑制由从音频输出装置输出的音频信号引起的回声;
使用第一特性和第二特性之间的关系确定回声消除装置的操作参数。
2. 权利要求1的方法,其中以下之一:
(i)每个特性包括功率谱,并且所述关系限定波束形成器增益谱,
(ii)每个特性具有多个频带的每一个频带中的系数,针对每个频带确定所述关系,以及
(iii)所述关系为第一特性与第二特性的比值。
3. 权利要求1的方法,包括在应用回声消除装置之前适应性调节从音频输出装置到所述多个麦克风的回声路径的估计的步骤。
4. 权利要求3的方法,其中以下至少一个:
(i)在接收的音频信号上执行所述适应性调节估计的步骤,
(ii)将识别的波束形成器增益谱应用到波束形成器输出以便生成合成信号,其中在合成信号上执行所述适应性调节估计的步骤,以及
(iii)所述适应性调节估计的步骤包括使用提供给音频输出装置的音频信号生成回声路径估计。
5. 前面任一权利要求的方法,包括根据由所述多个麦克风接收的音频信号中的所述至少一个估计回声路径增益;
通过将估计的回声路径增益乘以第一特性与第二特性之间的所述关系而估计波束形成器输出中的回声;
使用波束形成器输出中的估计的回声确定所述操作参数。
6. 权利要求1-4中任何一项的方法,包括:根据由所述多个麦克风接收的音频信号中的所述至少一个测量回声路径增益;以及
使用所述测量的回声路径增益确定波束形成器输出中的回声功率的估计,其中所述操作参数基于波束形成器输出中的回声功率的估计而被确定,并且然后基于第一特性与第二特性之间的所述关系而被修改。
7. 前面任一权利要求的方法,其中所述操作参数包括由回声消除装置施加到波束形成器输出的回声抑制的水平。
8. 一种用于处理音频信号的设备,该设备包括:
音频输出装置,其用于输出音频信号;
多个麦克风,其用于接收音频信号;
波束形成器,其被配置成将波束形成器系数应用到接收的音频信号,从而生成波束形成器输出;
回声消除装置,其被配置成应用到波束形成器输出,从而从波束形成器输出中抑制由从音频输出装置输出的音频信号引起的回声;以及
处理装置,其用于生成由所述多个麦克风接收的音频信号中的至少一个的第一特性,生成波束形成器输出的第二特性,并且用于通过考虑第一特性和第二特性之间的关系而确定回声消除装置的操作参数。
9. 权利要求8的设备,其中所述回声消除装置包括被设置成应用到波束形成器输出的回声抑制装置,该回声抑制装置包括谱分析功能。
10. 一种用于处理设备处的音频信号的计算机程序产品,该设备包括多个用于接收音频信号的麦克风以及用于输出音频信号的音频输出装置,该计算机程序产品包含在非瞬态计算机可读介质上并且被这样配置,以便当在设备的处理器上执行时执行权利要求1-7中任何一项的步骤。
CN201210462710.7A 2011-11-18 2012-11-16 处理音频信号 Active CN102968999B (zh)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
GB1119932.0A GB2496660B (en) 2011-11-18 2011-11-18 Processing audio signals
GB1119932.0 2011-11-18
US13/341,607 US9210504B2 (en) 2011-11-18 2011-12-30 Processing audio signals
US13/341607 2011-12-30

Publications (2)

Publication Number Publication Date
CN102968999A true CN102968999A (zh) 2013-03-13
CN102968999B CN102968999B (zh) 2015-04-22

Family

ID=47471986

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210462710.7A Active CN102968999B (zh) 2011-11-18 2012-11-16 处理音频信号

Country Status (1)

Country Link
CN (1) CN102968999B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104810021A (zh) * 2015-05-11 2015-07-29 百度在线网络技术(北京)有限公司 应用于远场识别的前处理方法和装置
CN105679326A (zh) * 2015-12-31 2016-06-15 武汉鸿瑞达信息技术有限公司 弱环境下互联网3d立体声优化系统及方法
CN108989971A (zh) * 2017-06-02 2018-12-11 苹果公司 对房间的音频适配
CN109087663A (zh) * 2017-06-13 2018-12-25 恩智浦有限公司 信号处理器
CN109564762A (zh) * 2016-07-29 2019-04-02 高通股份有限公司 远场音频处理
CN113077809A (zh) * 2021-03-23 2021-07-06 北京儒博科技有限公司 一种回声消除方法、装置、设备及存储介质
WO2021143411A1 (zh) * 2020-01-17 2021-07-22 海信视像科技股份有限公司 环境声输出装置、系统、方法及非易失性存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008041878A2 (en) * 2006-10-04 2008-04-10 Micronas Nit System and procedure of hands free speech communication using a microphone array
CN101455093A (zh) * 2006-05-25 2009-06-10 雅马哈株式会社 语音会议装置
US20100215184A1 (en) * 2009-02-23 2010-08-26 Nuance Communications, Inc. Method for Determining a Set of Filter Coefficients for an Acoustic Echo Compensator
TW201123175A (en) * 2009-12-25 2011-07-01 Univ Nat Chiao Tung Dereverberation and noise redution method for microphone array and apparatus using the same

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101455093A (zh) * 2006-05-25 2009-06-10 雅马哈株式会社 语音会议装置
WO2008041878A2 (en) * 2006-10-04 2008-04-10 Micronas Nit System and procedure of hands free speech communication using a microphone array
US20100215184A1 (en) * 2009-02-23 2010-08-26 Nuance Communications, Inc. Method for Determining a Set of Filter Coefficients for an Acoustic Echo Compensator
TW201123175A (en) * 2009-12-25 2011-07-01 Univ Nat Chiao Tung Dereverberation and noise redution method for microphone array and apparatus using the same

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104810021A (zh) * 2015-05-11 2015-07-29 百度在线网络技术(北京)有限公司 应用于远场识别的前处理方法和装置
CN105679326A (zh) * 2015-12-31 2016-06-15 武汉鸿瑞达信息技术有限公司 弱环境下互联网3d立体声优化系统及方法
CN105679326B (zh) * 2015-12-31 2019-07-19 武汉鸿瑞达信息技术有限公司 弱环境下互联网3d立体声优化系统及方法
CN109564762A (zh) * 2016-07-29 2019-04-02 高通股份有限公司 远场音频处理
CN108989971A (zh) * 2017-06-02 2018-12-11 苹果公司 对房间的音频适配
CN108989971B (zh) * 2017-06-02 2021-03-12 苹果公司 对房间的音频适配
CN109087663A (zh) * 2017-06-13 2018-12-25 恩智浦有限公司 信号处理器
CN109087663B (zh) * 2017-06-13 2023-08-29 恩智浦有限公司 信号处理器
WO2021143411A1 (zh) * 2020-01-17 2021-07-22 海信视像科技股份有限公司 环境声输出装置、系统、方法及非易失性存储介质
CN113490979A (zh) * 2020-01-17 2021-10-08 海信视像科技股份有限公司 环境声输出装置、系统、方法及非易失性存储介质
CN113490979B (zh) * 2020-01-17 2024-02-27 海信视像科技股份有限公司 环境声输出装置、系统、方法及非易失性存储介质
CN113077809A (zh) * 2021-03-23 2021-07-06 北京儒博科技有限公司 一种回声消除方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN102968999B (zh) 2015-04-22

Similar Documents

Publication Publication Date Title
US9210504B2 (en) Processing audio signals
EP2749016B1 (en) Processing audio signals
CN102968999B (zh) 处理音频信号
EP3189521B1 (en) Method and apparatus for enhancing sound sources
KR101456866B1 (ko) 혼합 사운드로부터 목표 음원 신호를 추출하는 방법 및장치
US8219394B2 (en) Adaptive ambient sound suppression and speech tracking
US7366662B2 (en) Separation of target acoustic signals in a multi-transducer arrangement
US8958572B1 (en) Adaptive noise cancellation for multi-microphone systems
US9232309B2 (en) Microphone array processing system
KR20120114327A (ko) 레벨 큐를 사용한 적응형 잡음 감소
US9454956B2 (en) Sound processing device
KR102076760B1 (ko) 다채널 마이크를 이용한 칼만필터 기반의 다채널 입출력 비선형 음향학적 반향 제거 방법
CN102957819B (zh) 处理音频信号的方法及其设备
CN110956973A (zh) 一种回声消除方法、装置及智能终端
EP3671740B1 (en) Method of compensating a processed audio signal
US11380312B1 (en) Residual echo suppression for keyword detection
JP3756828B2 (ja) 反響消去方法、この方法を実施する装置、プログラムおよびその記録媒体
JP5937451B2 (ja) エコー消去装置、エコー消去方法及びプログラム
CN108735228B (zh) 语音波束形成方法及系统
KR102045953B1 (ko) 칼만필터 기반의 다채널 입출력 음향학적 반향 제거 방법
WO2020063798A1 (zh) 一种回声消除方法、装置及智能音箱
JP2015070292A (ja) 集音・放音装置及び集音・放音プログラム
JP2002261659A (ja) 多チャネルエコーキャンセル方法、その装置、そのプログラム及び記録媒体
JP6075783B2 (ja) エコー消去装置、エコー消去方法及びプログラム
CN115665606B (zh) 基于四麦克风的收音方法和收音装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20200511

Address after: Washington State

Patentee after: MICROSOFT TECHNOLOGY LICENSING, LLC

Address before: Ai Erlandubailin

Patentee before: Skype

TR01 Transfer of patent right