CN104158990B - 用于处理音频信号的方法和音频接收电路 - Google Patents

用于处理音频信号的方法和音频接收电路 Download PDF

Info

Publication number
CN104158990B
CN104158990B CN201410200217.7A CN201410200217A CN104158990B CN 104158990 B CN104158990 B CN 104158990B CN 201410200217 A CN201410200217 A CN 201410200217A CN 104158990 B CN104158990 B CN 104158990B
Authority
CN
China
Prior art keywords
audio signal
echo
microphone
signal
audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410200217.7A
Other languages
English (en)
Other versions
CN104158990A (zh
Inventor
C·叶姆基
L·勒保卢
C·博热昂
N·埃文斯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Intel Corp
Original Assignee
Intel IP Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Intel IP Corp filed Critical Intel IP Corp
Publication of CN104158990A publication Critical patent/CN104158990A/zh
Application granted granted Critical
Publication of CN104158990B publication Critical patent/CN104158990B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/002Applications of echo suppressors or cancellers in telephonic connections
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M9/00Arrangements for interconnection not involving centralised switching
    • H04M9/08Two-way loud-speaking telephone systems with means for conditioning the signal, e.g. for suppressing echoes for one or both directions of traffic
    • H04M9/082Two-way loud-speaking telephone systems with means for conditioning the signal, e.g. for suppressing echoes for one or both directions of traffic using echo cancellers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/02Circuits for transducers, loudspeakers or microphones for preventing acoustic reaction, i.e. acoustic oscillatory feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02165Two microphones, one receiving mainly the noise signal and the other one mainly the speech signal
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B3/00Line transmission systems
    • H04B3/02Details
    • H04B3/20Reducing echo effects or singing; Opening or closing transmitting path; Conditioning for transmission in one direction or the other
    • H04B3/23Reducing echo effects or singing; Opening or closing transmitting path; Conditioning for transmission in one direction or the other using a replica of transmitted signal in the time domain, e.g. echo cancellers
    • H04B3/234Reducing echo effects or singing; Opening or closing transmitting path; Conditioning for transmission in one direction or the other using a replica of transmitted signal in the time domain, e.g. echo cancellers using double talk detection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2410/00Microphones
    • H04R2410/05Noise reduction with a separate noise microphone
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2499/00Aspects covered by H04R or H04S not otherwise provided for in their subgroups
    • H04R2499/10General applications
    • H04R2499/11Transducers incorporated or for use in hand-held devices, e.g. mobile phones, PDA's, camera's

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • General Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Telephone Function (AREA)
  • Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本发明描述了用于处理音频信号的方法和音频接收电路,该音频信号接收方法包括:经由包括第一麦克风的第一接收路径接收第一音频信号;经由包括第二麦克风的第二接收路径接收第二音频信号;并且基于所述第一音频信号和所述第二音频信号来执行所述第一音频信号的回声抑制。

Description

用于处理音频信号的方法和音频接收电路
技术领域
本公开涉及用于处理音频信号的方法和音频接收电路。
背景技术
在物理学中,可以将回声定义为由其周围环境中的波的反射所产生的复制。这样的现象会在语音远程通信中发生。在电话终端中,声学回声是由于扬声器和终端的麦克风之间的耦合。结果,电话的麦克风不仅包含有用的语音信号,而且还包含回声。如果没有在麦克风路径上执行处理,则回声信号以及近端语音信号被传输到远端扬声器,并且远端扬声器听到他/她自己的话音的延迟版本。当回声信号的电平为高时且当原始信号和其回声之间的延迟为高时,由于听到他/她自己的话音而产生的烦恼增加。
为了保证良好的语音质量,可以在能够发生传输之前在麦克风路径上实现一些处理。近年大量地研究了声学回声消除算法。声学回声消除的方案可以包括自适应滤波器,后面是回声后滤波器。自适应滤波器产生声学路径的复制。这一回声路径估计然后用于估计由麦克风拾取的回声信号。实际上,自适应回声消除(AEC)的性能被环境噪声和/或近端语音信号的存在干扰。为了限制这样的干扰对AEC的影响,可以使用双端通话检测器(DTD)和/或仅噪声检测器。
双端通话检测器可能典型地相当复杂。情景分类算法可以例如利用语音存在概率和/或信号相干性。DTD的典型使用在于在双端通话(DT)时段(双端通话时段指代其间远端和近端扬声器都是活动的时段)期间冻结AEC的适应性。然而,即使在使用DTD的情况下,一些残余回声典型地存在于自适应滤波器的输出端处。后滤波器可以用于使回声变得不可闻。回声后滤波器可以由应用于来自自适应回声消除的误差信号的衰减增益构成。为了更好的双端通话性能,能够在子带或频域中计算这一衰减。然而,单通道回声消除的性能仍然受限,特别是在免提配置中,对于免提配置,近端与回声比为低。这一受限的性能会导致在双端通话时段期间在经处理的近端语音信号中的高失真并且因此导致差的通信质量。在仅回声时段期间的回声抑制和在DT时段期间的近端语音的低电平失真之间可以产生折衷。在低的近端与回声比的情况下提高语音质量的方案可以基于用于回声处理的多个麦克风的使用。
进而,可以使用基于波束成形方案的多通道回声消除,以便在低的近端与回声比的情况下提高语音质量。
回声后滤波或回声抑制的有效方法仍然是期望的。
发明内容
提供一种用于处理音频信号的方法,包括:经由包括第一麦克风的第一接收路径接收第一音频信号;经由包括第二麦克风的第二接收路径接收第二音频信号;并且基于所述第一音频信号和所述第二音频信号来执行所述第一音频信号的回声抑制。
进而,提供一种根据上述方法的用于处理音频信号的音频接收电路。
附图说明
在附图中,类似的附图标记通常在不同的视图中指代相同的部件。附图不一定按比例绘制,相反通常强调说明本发明的原理。在下面的描述中,参照下面的附图来描述各种方面,在附图中:
图1示出了配备有一个扬声器和两个麦克风的示例。
图2示出了具有用于换能器配置的示例的移动终端。
图3示出了与位于如图1所述的系统的声源和换能器之间的物理交互相匹配的信号模型的示意性表示。
图4示出了根据在HF(免提)模式中执行的示例性测量位于扬声器和麦克风之间的声学路径的频率响应。
图5示出了根据在HF模式中执行的示例性测量位于人造头部的嘴部和麦克风之间的频率响应。
图6示出了在HF模式中的示例性情景中记录的麦克风信号的光谱图。
图7示出了说明用于处理音频信号的方法的流程图。
图8示出了音频接收电路。
图9示出了包括自适应滤波器部分的回声消除(或抑制/处理)电路,该自适应滤波器部分包括跟随有回声后滤波器的一个自适应滤波器。
图10示出了包括自适应滤波器部分的回声消除电路,该自适应滤波器部分包括跟随有回声后滤波器的一个自适应滤波器。
图11示出了包括双端通话检测器的误差消除电路。
图12示出了说明标准化功率电平差(PLD)的值分布的图。
图13示出了过高估计因子设置函数的给定示例的图。
具体实施方式
下面的详细描述参照通过说明的方式示出其中可以实践本发明的本公开的具体细节和方面的附图。可以利用其它方面,并且在不偏离本发明的范围的情况下,可以做出结构、逻辑和电气改变。本公开的各种方面不必是相互排他的,因为可以将本公开的一些方面与本公开的一个或多个其它方面进行组合以便形成新的方面。
用于提高移动终端中的语音质量的方案可以包括多麦克终端的使用。多麦克风终端隐含地提供关于近端声学环境的空间信息。例如,对来自双麦克风移动终端的麦克风信号的观察表明,根据当前是否存在仅回声、双端通话或仅近端时段,存在明显的电平差。
如下面进一步描述的,为了提高的回声消除目的,可以利用这一电平差。
图1示出了配备有一个扬声器101和两个麦克风102、103的终端100的示例。
术语“扬声器”可以指代耳机和免提扬声器。
可以将麦克风观察中的一个考虑为主要观察并且将另一个麦克风观察考虑为辅助观察。如图1所示,远端扬声器话音由扬声器101播放到近端扬声器104。这一扬声器信号的一部分可以在近端环境105中反射并且可以稍后被两个麦克风102、103拾取作为回声106。扬声器101和每一个麦克风之间的耦合可以限定一个声学路径:针对两个麦克风102、103的两个声学路径。每一个麦克风102、103(具有可能的随后处理部件)形成接收路径。
麦克风102、103可以记录近端扬声器话音或语音信号107并且最终记录背景噪声108。近端扬声器话音107也可以在被麦克风102、103拾取之前在环境105中反射。因为两个麦克风102、103可能不一定被放置在相同的位置处,因此可能必须对近端扬声器和每一个麦克风之间的声学路径进行建模。应该认识到,图1并不提供麦克风的位置的限制性示例,而且麦克风102、103可以被不同地放置在终端100上。
图2中给出了用于换能器的定位的示例。术语“换能器”指代扬声器和麦克风二者。
图2示出了移动终端201、202。
第一移动终端201具有底部-底部配置,其中麦克风203、204都被放置在电话的底部处且距离扬声器205大致是等距的。
第二移动终端202具有底部-顶部配置,其中麦克风205、206被放置为使得一个麦克风相当接近扬声器207而另一麦克风相当远离扬声器207。
在底部-顶部配置中,将较接近扬声器207的麦克风206称为辅助麦克风,而将较远离扬声器的麦克风称为主要麦克风。应该注意,辅助麦克风和/或主要麦克风也可以布置在移动终端202的后侧处。进而,免提扬声器可以布置在移动终端201、202的后侧处。
移动终端201、202可以是配备有一个扬声器和两个或更多个麦克风的远程通信终端。
进而,下面的功能和方案也可以应用于也可能经历回声的其它通信设备,例如膝上型或平板计算机。
图3中说明了双通道(DC)回声问题的信号模型。
图3示出了与如在图1中描述的系统的声源和换能器之间的物理交互相匹配的信号模型的示意性表示,说明了如何对主要麦克风信号和辅助麦克风信号进行建模。
主要麦克风信号300和辅助麦克风信号301由麦克风102、103提供,并且分别由yp(n)和ys(n)表示。信号dp(n)302和ds(n)303表示分别由主要麦克风102和辅助麦克风103拾取的回声信号。这两个信号都由扬声器101的扬声器信号x(n)304生成,其中hp|s(n)由说明扬声器101和相应的麦克风102、103之间的声学路径的卷积块305、306表示。
信号sp(n)307和信号ss(n)308表示分别由主要麦克风102和辅助麦克风103拾取的近端语音信号。这两个信号都由近端语音信号s(n)309(或107)生成,其中gp|s(n)由说明近端扬声器101和主要麦克风102或辅助麦克风103之间的声学路径的卷积块310、311表示。
主要麦克风信号yp(n)300由通过加和块312提供的sp(n)307和dp(n)302的和给出。辅助麦克风信号ys(n)301由通过加和块313提供的ss(n)308和ds(n)303的和给出。
关于图3中的信号模型,可以导出下面的等式:
其中:
●x(n)是扬声器信号304,
●yp|s(n)分别表示主要麦克风信号300或辅助麦克风信号301。它们包括回声信号和近端语音信号。
●hp|s(n)305、306表示扬声器101和主要麦克风102或辅助麦克风103之间的声学路径。
●s(n)309是近端扬声器信号。
●gp|s(n)310、311表示近端扬声器104和主要麦克风102或辅助麦克风103之间的声学路径。
●*表示卷积操作。
应该注意,在下文中,也使用附标1、2来代替p、s(都作为上标和下标,这两个使用分别表示对主要麦克风和辅助麦克风或接收路径的指代)。
为了查验图3中说明的信号模型,可以执行针对耳机和免提模式二者使用双麦克风设备记录的信号的分析。将来自移动设备的记录与来自样机(mock-up)电话的记录进行比较,用于信号模型的验证和查验。
记录的分析允许研究麦克风信号之间的电平差。可以将信号的电平测量为其幅度、能量或功率。在下文中,使用功率谱密度。在下文中,主要麦克风指代放置得距离扬声器更远,即,在仅回声时段期间具有较少功率,的麦克风。将主要麦克风和辅助麦克风的功率谱密度分别表示为。附标k和i分别表示帧和频率二元附标。
免提情况
在下文中,示出了在不同的声学环境(工作间、办公室、会议室)中利用样机电话的脉冲响应的测量结果。样机电话配备有一个扬声器和两个麦克风。将麦克风放置在电话的相对角处。将扬声器放置为稍微靠近麦克风之一。具有嘴部模拟器的人造头部用于模拟近端扬声器。使用电话的两个不同位置:一个位置是将电话放置在人造头部的嘴部正前方30cm处,另一位置是将电话放置在桌上。在所有记录中,将电话放置为使得电话的两个麦克风大致在人造嘴部的相等距离处。
图4示出了根据针对主要麦克风的第一曲线401和针对第二麦克风的第二曲线402中的示例性测量在扬声器和麦克风之间的声学路径的频率响应。可以看到,对于每一个麦克风,由麦克风接收的扬声器信号没有被声学环境相等地衰减。这暗示在仅回声时段期间,辅助麦克风上的信号的功率将高于主要麦克风上的信号的功率。
图5示出了根据针对主要麦克风的第一曲线501和针对第二麦克风的第二曲线502中的示例性测量在人造头部的嘴部和麦克风之间的声学路径的频率响应。可以看到,这两个频率响应非常相似。这些相似性可以由与人造头部的嘴部相比较的麦克风的位置进行解释。图4和图5一起示出:
●在仅回声时段期间,主要麦克风上的信号的PSD低于辅助麦克风上的信号的PSD。
等式(2)
●在仅近端时段期间,这两个麦克风信号的PSD大致相等
等式(3)
●通过内插,可以说,在双端通话时段期间,主要麦克风功率将低于辅助麦克风功率。然而,在双端通话情况中观察到的功率电平差(PLD)将明显小于在仅回声中观察到的。
如上所述,k是时间或帧附标,而i是频率附标。
在下文中,讨论在耳机位置中麦克风信号的工作情况。为此,考虑具有一个扬声器和如在移动终端201的情况中放置在终端的相对角处的两个麦克风的移动电话。
图6示出了在这样的情景中记录的麦克风信号的光谱图601、602。
高强度点指示高能量:颜色越暗,在该点处的功率就越高。图6中说明的麦克风信号由跟随有仅回声时段(~9s到结束)的仅近端时段(从0到~9s)构成。基于光谱图601、602,可以看到下面的内容:
●在仅近端时段期间,与辅助麦克风上的信号的PSD相比较,主要麦克风上的信号的PSD非常高。
等式(4)
●在仅回声时段期间,主要麦克风上的信号的PSD低于辅助麦克风上的信号的PSD。
等式(5)
●通过内插,可以看到在双端通话时段期间,主要麦克风的PSD低于辅助麦克风的PSD。然而,在双端通话情况中观察到的差值明显小于在仅回声中观察到的。
从麦克风信号的分析中可以看到,对于免提和耳机这两种情景,在仅回声时段期间,
等式(6)
这一PSD差值主要是由于终端上麦克风的位置,并且不是非常依赖于声学环境。实际上,只要使用配备有具有按照底部-顶部配置放置的换能器的两个麦克风的终端,在仅回声时段中,主要麦克风的电平就将总是低于辅助麦克风的电平。将换能器按照底部-顶部配置进行放置可以被看作在移动设计中引入的约束,然而这一约束仍然给设计者留下一些自由度。
因此,对于麦克风的底部-顶部配置,可以观察到下面的不同情景:
-仅回声:这里,作为源的扬声器接近辅助麦克风。结果是辅助麦克风电平高于主要麦克风的电平。这对于耳机和免提二者都适用。
-仅近端:
○耳机:近端扬声器的嘴部在主要麦克风附近。结果,主要麦克风电平高于辅助麦克风的电平。
○免提:近端嘴部远离两个麦克风并且可以假设处于距离麦克风的相等距离处。典型地,这两个麦克风具有相等的电平。然而,由于HF扬声器和辅助麦克风的接近度,在仅回声时段期间,辅助麦克风电平高于主要麦克风的电平。
-双端通话:通过从仅回声和仅近端功率差进行外插,可以推断出,在DT期间,取决于信号与回声比并且取决于通信终端是免提还是耳机配置,在两个麦克风之间存在电平差。然而,由于近端语音的存在,在DT期间观察到的功率差将不如在仅回声中观察到的功率差一样极端。
在下文中,描述了用于处理音频信号的方法,可以例如基于上面描述的功率差来执行回声抑制。例如,可以使用基于不同麦克风的功率差的DT检测规则或回声抑制增益规则。可以将上述方案看作是基于硬件的,因为主要利用麦克风在通信终端上的位置。
图7示出了流程图700。
流程图700说明了用于处理音频信号的例如由音频处理电路执行的方法。
在701,音频接收电路经由包括第一麦克风的第一接收路径接收第一音频信号。
在702,音频接收电路经由包括第二麦克风的第二接收路径接收第二音频信号。
在703,音频接收电路基于所述第一音频信号和所述第二音频信号执行所述第一音频信号的回声抑制。
换句话说,基于如经由不同的接收路径接收到的音频信号的两个版本,例如借助于不同的麦克风,执行针对音频信号的回声抑制或消除。例如,双端通话检测和/或回声抑制规则可以基于经由两个接收路径接收到的音频信号,例如基于这些信号的功率电平差。
换句话说,可以利用不同麦克风之间的电平差。可以将信号的电平测量或计算为其能量幅度或功率。例如,麦克风信号功率谱密度(PSD)可以用作信号电平,但是也可以使用信号能量。主要麦克风和辅助麦克风的PSD在下面的示例中分别被表示为,其中k和i分别表示帧和频率二元附标。
第一音频信号和第二音频信号可以分别包括期望音频信号(例如,语音输入)、输出信号(例如,扬声器信号)和噪声的组合。由第一音频信号的回声抑制产生的信号可以具有被抑制的回声(例如,来自输出信号),并且可以类似于期望信号。
该方法可以进一步包括经由一个或多个其它的接收路径接收一个或多个其它的音频信号(例如,每其它的接收路径一个其它的音频信号)并且基于该第一音频信号、第二音频信号以及一个或多个其它的音频信号来执行第一音频信号的回声抑制。
例如,每一个其它的接收路径包括其它的麦克风。
麦克风例如是相同通信设备的一部分(例如,容纳诸如在图8中说明的音频处理电路800的音频处理电路)。
基于第一音频信号和第二音频信号来执行第一音频信号的回声抑制可以包括基于第一音频信号和第二音频信号来确定回声抑制增益并且基于所确定的回声抑制增益来执行第一音频信号的回声抑制。
该方法可以包括基于第一音频信号与第二音频信号的比较来执行第一音频信号的回声抑制。
例如,该方法包括确定表示第一音频信号和第二音频信号之间的电平差的值并且基于该值来执行第一音频信号的回声抑制。
电平差例如是功率电平差、电压电平差或能量电平差。
该方法可以包括将电平差与阈值进行比较并且基于比较的结果来执行第一音频信号的回声抑制。
该方法可以包括基于比较的结果来检测双端通话情景。
执行回声抑制例如包括自适应回声滤波。
基于第一音频信号和第二音频信号来执行第一音频信号的回声抑制例如包括基于第一音频信号和第二音频信号来设置回声滤波的适应性。
执行回声抑制例如包括回声后滤波。
基于第一音频信号和第二音频信号来执行第一音频信号的回声抑制可以例如包括基于第二音频信号来确定滤波器系数并且使用该滤波器系数来对第一音频信号进行滤波。
基于第一音频信号和第二音频信号来执行回声抑制可以例如包括基于第一接收到的音频信号和第二接收到的音频信号来确定回声抑制增益并且基于第一接收到的音频信号和回声抑制增益来对回声抑制进行滤波。
图7中说明的方法例如由如图8中说明的音频接收电路(例如是诸如移动终端的通信设备的一部分)执行。
图8示出了音频接收电路800。
音频接收电路800包括第一接收路径801和第二接收路径802,第一接收路径801包括配置为接收第一音频信号的第一麦克风802,并且第二接收路径802包括配置为接收第二音频信号的第二麦克风804。
音频接收电路800进一步包括配置为基于第一音频信号和第二音频信号来执行第一音频信号的回声抑制的回声抑制电路805。
应该注意,在图7中说明的用于处理音频信号的方法的背景中描述的实施例对于音频接收电路800类似地有效,并且反之亦然。
音频接收电路的部件(例如,接收路径和回声抑制电路)可以例如由一个或多个电路实现。“电路”可以被理解为任何种类的逻辑实现实体,其可以是专用电路或执行存储在存储器中的软件、固件、或其任何组合的处理器。因而,“电路”可以是硬连线逻辑电路或诸如可编程处理器的可编程逻辑电路,例如微处理器(例如复杂指令集计算机(CISC)处理器或精简指令集计算机(RISC)处理器)。“电路”也可以是处理器执行的软件,例如任何种类的计算机程序。可以将下面更详细描述的相应功能的任何其它种类的实现理解为“电路”。
在下文中,给出了根据在图7中说明的方法用于双通道终端中的回声消除的示例。在下面的示例中,回声消除由跟随有回声后滤波的自适应滤波构成,如在图9中说明的。在下文中解释每一个回声消除模块的选择和位置。
图9示出了回声消除(或回声抑制)电路900。
回声消除电路900包括自适应滤波器部分,该自适应滤波器部分包括两个自适应滤波器901、902(每麦克风路径一个自适应滤波器),后面是回声后滤波器903。
回声消除电路900处理从声源(即,近端语音905、噪声907、引起回声906的扬声器909的信号)和换能器(即,扬声器909和两个麦克风908、910)的系统904接收的音频信号。系统904可以与图1的系统100相对应,并且可以由如图3中说明的信号模型表示。
对于每一个麦克风908、910,可以认为回声的效果与在SC回声消除中的相同。因此,对于每一个麦克风信号yp|s(n)911、912,回声信号913、914的估计可以通过使用自适应滤波器901、903来获得,与在SC情况中的相同。
应该注意,可以应用任何自适应回声消除处理,例如,任何自适应回声消除算法。例如,LMS(最小均方)或NLMS(标准化LMS)算法可以用于估计回声信号。
出于相同的原因,在SC情况中,一些残余回声会存在于声学回声消除(AEC)的输出端处的误差信号ep|s(n)915、916中。误差信号ep|s(n)915、916可以通过由相应的加和块917、918提供的、麦克风信号yp|s(n)911、912和回声信号913、914的相应估计之间的差值来获得。后滤波器903可以用于实现进一步的回声抑制。后滤波器903可以包括滤波器更新块919和回声后滤波块920。滤波器更新块919基于ep|s(n)915、916和扬声器909的扬声器信号x(n)922来产生输出921。例如在图9中,将这一输出921和ep(n)915输入到回声后滤波块920中以便给出回声抑制信号(或)923。
电路900可以被看作是图8的音频接收电路800的示例。
在下文中描述的示例中,使用DC回声处理,以便使用仅应用于一个麦克风路径的回声后滤波器来输出近端语音信号的估计。AEC要求大量存储器和高计算能力。因此,通过使用一个AEC而不是两个AEC,可以降低电路800的计算复杂度。这在图10中进行说明,其中将辅助麦克风直接输出到回声后滤波器。按照这种方式,能够将计算复杂度保持为低。
图10示出了包括自适应滤波器部分的回声消除电路1000,该自适应滤波器部分包括跟随有回声后滤波器1002的一个自适应滤波器1001。
电路1000仅使用一个自适应回声滤波器来回声消除地处理音频信号。电路1000从声源(即,近端语音1004、扬声器1007的信号和噪声1006)和换能器(即,扬声器1007和两个麦克风1008、1009)的系统1003接收音频信号。系统1003可以与附图的系统100相对应,并且可以由如图3中说明的信号模型表示。
在图10中,可以通过由加和块1011提供的、主要麦克风信号y1(n)1013和回声信号1012的估计之间的差值来获得误差信号e1(n)1010。可以通过使扬声器信号x(n)1014经过自适应滤波器1001来获得回声信号1012的估计。后滤波器1002可以用于实现进一步的回声抑制。后滤波器1002可以包括滤波器更新块1015和回声后滤波块1016。滤波器更新块1015基于e1(n)1010、辅助麦克风信号y2(n)1018和扬声器1007的扬声器信号x(n)1014产生输出1017(例如,回声后滤波增益W(k,i))。例如在图10中,将这一输出1017和e1(n)1010输入到回声后滤波块1016中以便给出回声抑制信号,其也可以被理解为近端语音信号s(n)1004的估计。应该注意,滤波器更新块1015可以等效于如图9中示出的滤波器更新块919。
电路1000可以例如与图8的电路800相对应。
通常,电路1000可以按照与图9的电路900类似的方式起作用,除了在电路1000中仅使用一个自适应滤波器1001以外。仅使用一个自适应滤波器1001可以降低多通道回声后滤波器的计算复杂度。
可以将电路900、1000扩展到多通道m。在多通道中包括多个接收路径。
在下面的示例中,执行频域回声后滤波。在SC情况中,频域回声后滤波器目的在于估计近端语音信号。为此,SC回声后滤波器使用其输入信号(扬声器和麦克风信号)来计算衰减增益。然后将这一衰减增益应用于频域中的麦克风路径以便完全抑制残余回声。
在电路900、1000中,回声抑制仅应用于主要麦克风路径。这意味着可以仍然使用现有的SC回声抑制增益规则。增益规则的计算可能通常要求残余回声PSD和近端PSD的估计。例如,可以使用下面的增益规则:
等式(7)
等式(8)
其中,是近端语音的PSD,是主要麦克风(存在于ep中)处的残余回声的PSD,并且是主要麦克风处的信号与回声比(SER)。
上面的等式在数学上是等效的。然而,它们的实际实现并不一定导致相同的结果和语音质量。这是因为,估计PSD或SER的手段不一定是在数学上等效的。SER可以例如通过下面的Ephraim和Malah形式体系来计算:
等式(9)
这些等式给出仅要求残余回声PSD的估计而不要求如对W1(k,i)的情况的残余回声和近端PSD的估计的SER估计的示例。
如上所述,取决于有源声源(远端扬声器或近端扬声器),能够观察(主要麦克风和辅助麦克风的)接收路径之间的功率电平差。在下文中,使用利用双端通话检测器(DTD)的示例,该双端通话检测器(DTD)利用PLD。这在图11中进行说明。
图11示出了回声消除电路1100。
与回声消除电路1000类似,回声消除电路1100从系统1103接收音频信号,包括自适应滤波器1101以及具有滤波器更新块1115和回声后滤波块1116的后滤波器1102。
进而,回声消除电路1100包括双端通话检测器1120,其接收误差信号e1(n)和辅助麦克风信号y2(n)1018并且基于这些信号来执行双端通话检测。双端通话检测器1120也可以执行这些信号之间的PLD的确定,并且可以向滤波器更新块1115和/或自适应滤波器1101提供PLD以及双端通话检测的结果,并且因而控制这些模块中的一个或两个。
上面示出了可以在仅回声时段中观察麦克风信号之间的功率电平差:
等式(10)
因此,在这一示例中,双端通话检测器1120在得到每一个麦克风信号的PSD之后计算PLD的度量并且针对DTD使用它。可以经过不同的方式获得PLDΔΦPLD(k,i):
-给出关于麦克风信号之间的电平差的解释,可以按照下面来定义PLD:
等式(11)
-可以将可选PLD定义为:
等式(12)
这一PLD包括额外的参数BiasComp,其能够补偿可能存在于硬件中的每一个麦克风的增益之间的任何偏差或不匹配。因而,BiasComp是用于放大或衰减辅助麦克风通道的调整因子。
-可以将这一PLD的标准化版本定义为:
等式(13)
这一PLD定义具有在-1和+1之间的值。标准化允许避免依赖于扬声器话音水平或扬声器信号电平和音量。可以通过使用如在上面的可选PLD中的偏差补偿器来定义这一标准化PLD的另一变形。
-进而,可以在来自AEC的误差信号和辅助麦克风之间定义PLD。如果在自适应滤波之后进行测量,则主要麦克风路径和辅助麦克风路径之间的电平差值甚至更加突出,假设AEC不放大我们可以更好地聚焦于DT时段的回声:
等式(14)
给出这一观察,可以可选地在频域中按照下面来定义标准化PLD(NPLD):
等式(15)
AEC目的在于消除由主要麦克风拾取的回声信号。由此得到,误差信号的功率必定低于或等于麦克风信号的功率。如在上面的等式中定义的PLD被标准化(即,具有在-1和+1之间的值)并且利用AEC来甚至更多地突出辅助麦克风路径和主要麦克风路径之间的功率差。
在下文中,基于等式(15)的定义来解释PLD的使用。然而,也可以使用如上所述的其它PLD定义。
如上面提及的,标准化允许避免依赖于扬声器话音水平并且使用包括在-1和1之间的量。
在图12中说明了标准化PLD的值分布。
图12示出了图1201、1202。
第一个图1201说明了如上面针对耳机情况定义的标准化PLD的值。
第一个图1202说明了如上面针对免提情况定义的标准化PLD的值。
在表1中总结了PLD的典型值。
表1:标准化PLD的典型值
由此可以看到,通过对PLD值应用阈值,能够区分仅回声时段:
其中Φth(i)是阈值。
阈值Φth(i)例如被选择为在-0.9和-0.99之间。阈值针对所有频率带或频带不必具有相同的值。可以使用任何常规的语音活动检测器来检测远端语音活动。一个简单的语音活动检测器在于对扬声器能量设定阈值。
双端通话检测可以用于提高语音质量输出。例如,双端通话检测器1120作为可以用于AEC和/或回声后滤波的控制模块进行操作。
可以例如在自适应(AEC)滤波器1101内使用关于双端通话检测的结果的信息以便在检测到双端通话时冻结适应性,即,将步长(可以是可变的或固定的)μ(n)设置为0。在这一示例中,双端通话检测器1120在频域中进行操作。然而,基于PLD通过做出针对一组频率或频带的双端通话决策来执行可选的双端通话检测。下面的等式是基于PLD的可选决策做出的示例:
其中,N表示感兴趣的一组频率带或频带。
这一可选的DT决策也会对产生可能与AEC的时间-频率分辨率不同的PLD的时间-频率分辨率之间的相对应性感兴趣。最后,可以经过任何语音活动检测器来检测远端语音活动。一个简单的语音活动检测器在于对扬声器能量设定阈值。
在基准线或扬声器信号上使用语音活动检测的情况下可以区分开双端通话与近端时段。基于频带的决策也会对产生可能与AEC或后滤波的时间-频率分辨率不同的PLD的时间-频率分辨率之间的相对应性感兴趣。
如在图11中说明的,双端通话检测器1120可以用于控制回声后滤波。例如,可以通过在仅回声时段期间将回声抑制增益设置到其最小值而对该回声抑制增益进行后处理(在根据我们的选择的形式体系被更新之后)。
如果ΔΦPLD(k,i)<Φth则W(k,i)=Wmin 等式(18)
这允许在仅回声时段期间实现最大回声抑制。也可以通过更新诸如在计算中要求的回声PSD的变量来使用回声后滤波器的更加间接的修改/提高。例如,在仅回声时段期间,将回声设置为等于误差信号PSD。
可以使用目的在于补偿估计误差的过高估计因子来对回声PSD估计进行加权。过高估计因子的高值导致高的回声抑制和高的近端语音失真,而小值导致相反的效果。使用基于频域的双端通话检测,可以定义两步长过高估计因子γ。它可以然后在两个值之间进行切换,取决于当前是否存在仅回声或双端通话时段。
其中γecho1
诸如上述基于双端通话检测的硬决策的硬决策系统的主要限制典型地归因于假阳性(即,当不是这种情况时检测到DT)和假阴性(当实际上是这种情况时未检测到DT)的误差。这可以利用软决策方案来克服。
上面引入的PLD度量也可以直接用于回声消除控制,即,在不执行双端通话检测的情况下。PLD的这样的使用被称为软决策控制。
为了说明如何在软决策中使用PLD,首先假设PLDΔΦPLD(k,i)具有包括在之间的值。PLD的最大值和最小值取决于所使用的PLD定义,并且被适当地选择。例如,对于标准化PLD,可以将分别设置为-1和+1。PLD可以用于通过将步长定义为PLD的函数来控制AEC的适应性。
其中f1(.)是在设计者方便时定义的函数,例如ΔΦPLD(k,i)的任何单调和递减函数。回声PSD过高估计因子也可以按照与步长类似的方式被监测:
控制函数f2(.)例如是ΔΦPLD(k,i)的单调和递减函数。图13中示出了控制函数的示例。在产品内这样的控制的典型使用例如用于将f2(.)定义为分段函数。
图13示出了给出过高估计因子设置函数f2(.)的示例的图1301、1302。
第一个图1301说明了控制函数f2(.)的第一示例,过高估计因子根据该控制函数而在-1和1之间的两个步长中递减。
第二个图1302说明了控制函数f2(.)的第二示例,过高估计因子根据该控制函数而在之间的区域中线性递减。
说明了图13中的控制函数的示例用于残余回声过高估计控制。然而,类似的函数能够用于控制在回声消除中涉及的其它量,例如步长或回声抑制增益。为了AEC的步长的正确控制,可以将这一函数选择为ΔΦPLD(k,i)的单调和递减函数。对于回声抑制增益,可以将这一函数选择为ΔΦPLD(k,i)的单调递增函数。
上面描述了麦克风信号之间的电平差如何用于检测双端通话。上面描述了按照PLD形式的这一差异的可能度量。上面的示例示出了这一PLD如何用于控制和提高AEC和残余回声抑制。例如,可以使用两种控制方法。PLD可以用于检测DT,并且DTD输出接着用于控制不同的模块,以及PLD度量可以直接用于控制回声消除模块。
当按照底部-顶部配置来放置换能器时,基于PLD的控制利用在仅回声时段中观察到的电平差。这意味着上述方案与终端上的换能器的位置相关。给定终端,可以确保最大PLD在仅回声时段期间发生。这通过适当地选择换能器位置是可能的。例如,将辅助麦克风放置得尽可能接近扬声器,以使得这一麦克风在仅回声时段中拾取最大功率。例如将主要麦克风放置得尽可能远离扬声器,以便在仅回声时段期间具有最小电平转移。换能器的这样的定位典型地对于我们的基于PLD的DTD的使用是最佳的。
双端通话检测器1120可以在频域或子带域中以及在全带域中进行操作。子带域或频域方案可能对于检测双端通话在其处发生的特定频率或子带是有利的。双端通话检测器1120提供灵活性,因为它能够在回声后滤波器以及自适应滤波器中使用。双端通话检测器1120在频域或子带域中进行操作的事实允许避免可能由全带双端通话检测器1120创建的甚至更多的半双工通信效果。通过以特定的双端通话频率为目标,双端通话检测器1120能够在维持或甚至提高残余回声的抑制的同时帮助降低由后滤波器1116引入的近端语音失真。双端通话检测器也可以用于监测AEC,甚至在AEC使用可变步长的情况下。这帮助避免自适应滤波器的发散。
然而,在一些回声处理方案中,AEC和后滤波器可以不在相同的频域或子带域中进行操作。在这样的情况下,可以通过考虑频率带的范围或组来产生不同分辨率之间的联系。
上面描述的DTD方案与单个麦克风回声处理方案兼容。例如,对于配备有两个麦克风以及仅使用其中的一个的回声处理的通信设备,上面描述的DTD方案可以被容易地实现并且可以用于提高现有的回声处理模块(AEC和后滤波)。因而,DTD允许在不必改变整个回声处理方案的情况下获得双麦克风硬件架构的优点。
除了上述基于PLD的双端通话检测以外或者对于上述基于PLD的双端通话检测可选地,可以使用基于功率电平差的回声后滤波器(例如作为滤波器更新1115)。为此,可以使用基于PLD并且使用相对传递函数(RTE)的回声抑制增益规则,下面给出相对传递函数的估计规则。在下文中描述的增益规则不要求回声功率谱密度(PSD)的估计,导致降低的计算复杂度。对于后滤波,PLD可以用作回声抑制增益、残余回声PSD和/或过高估计因子的控制参数。
在下文中,给出针对回声后滤波的功率电平差增益规则的示例,其中使用两个麦克风信号而不是一个,用于回声后滤波增益规则的计算。在下文中,引入可以用于计算回声抑制增益的两个PLD。
在后滤波器处的信号等式:
a)时域中的输入信号等式:
等式(23)
其中,表示回声路径未调准矢量。
b)频域中的输入信号:
等式(24)
其中:
●E1(k,i)和Y2(k,i)分别是主要麦克风和辅助麦克风的误差信号的傅立叶变换
●k和i分别代表帧和频率带附标
在下文中,为了清楚的目的将省略帧和频率附标,并且将仅在必要时才使用该帧和频率附标。
c)残余回声信号自动和交叉PSD
假设扬声器信号和近端语音信号是不相关的(即,它们的交叉PSD为零,Φxs=0),则下式成立:
等式(25)
其中:
●Φss和Φxx分别代表近端语音信号和扬声器自动PSD。
将两个RTF Γ和Θ定义如下:
等式(26)
用上面的RTF重写等式(25)给出:
等式(27)
d)功率电平差:
为此,将两个PLD量(度量)定义如下:
等式(28)
可以将两个Wiener回声后滤波器增益写为:
等式(29)
其中,γ是过高估计因子。可以利用上面定义的PLD度量来将这一增益规则重写为:
等式(30)
在实时实现中,这样的增益规则的计算仅要求相对传递函数(RTF)Γ和Θ的估计。下面在下文中提供了估计RTF的一些方案。可以经过来自输入麦克风信号的自回归平滑化来计算所要求的PSD。
估计RTF的最普遍的方法包括交叉频谱法、均方或最小平方误差最小化。
a)近端语音声学路径RTF估计
将近端语音声学路径Θ定义为:
等式(31)
也可以将G解释为增益,以使得:
S2=Θ·S1 等式(32)
考虑仅近端语音活动时段(即,E1=S1=G1·S且Y2=S2=G2·S),Θ的估计可以经过均方差(MSE)或最小方差(LSE)最小化获得。
用于的MMSE估计的推导的最小MSE(MMSE)标准为:
其中 等式(33)
的MMSE估计然后由下式给出:
等式(34)
按照自适应滤波器形式的另一估计可以根据等式(33)来推导。在这种情况下,我们对于自适应滤波器具有许多选择:LMS、NLMS或FBLMS。我们应该注意,当最小化标准(等式(33))在频域中时,使用MLS或NLMS导致在频域中的估计。可以选择NLMS方案,因为它被证明给出相当稳定且鲁棒的算法:
等式(35)
其中:
是误差信号
●μ是我们为了简单起见而设置为固定值的步长。
LSE最小化也可以用于估计近端将Θ的LSE估计表达如下:
等式(36)
其中,给定β沿着时间的一组K个度量。
下面进一步提供关于的推导的细节。
在任一情况下,在仅近端活动时段期间执行更新。扬声器上的活动检测允许检测仅近端活动时段。例如,这一活动检测通过在扬声器和麦克风信号能量上应用阈值来实现。扬声器能量上的阈值允许避免在远端活动时段期间的适应性,而麦克风信号或低幅度麦克风信号上的阈值允许避免在近端静默时段期间的适应性。
b)回声路径RTF估计
将Γ定义为主要残余回声路径和辅助残余回声路径之间的比值。
等式(37)
类似于上面的等式中的Θ,Γ按照下面方式来定义在主要麦克风和辅助麦克风的残余回声之间的联系:
等式(38)
将此引入等式(24)中,得到下式:
等式(39)
使用二者都由扬声器信号x(n)生成的事实,可以经过交叉相关来估计Γ。假设扬声器和近端语音信号的独立性(即,Φxs =0),可以将Γ的交叉相关估计器表达如下:
等式(40)
其中,是分别在主要麦克风信号和辅助麦克风信号上的扬声器和误差信号之间的交叉相关性,并且按照下面给出:
等式(41)
最小平方也可以用于推导回声RTF Γ的估计。在这种情况下,最小化标准写为如下:
等式(42)
Γ的LS估计表达如下:
等式(43)
下面进一步提供推导。应该注意,如果仅考虑一个时间帧,则用于最小平方标准最小化。
上面示出了如何在双通道终端中使用PLD用于回声处理。假定换能器的位置对PLD具有影响的事实,我们可能对发现换能器的最佳位置感兴趣。如上面讨论的,这里的最佳位置将是提供麦克风信号之间的最大PLD的位置。
上面描述的回声处理方案目的在于消除由主要麦克风捕获的回声。在这一观点上,应该将主要麦克风放置得尽可能远离扬声器,同时保持它尽可能接近近端扬声器的嘴部。利用这些约束定位主要麦克风允许保持SER相当高。高的SER信号对于回声消除性能是有利的。上面讨论的回声消除方案利用两个麦克风信号之间的PLD。因此,为了最大化这一PLD,可以将辅助麦克风放置得尽可能接近扬声器,以使得它能够捕获高电平回声信号。唯一的缺点是在辅助麦克风上非常可能发生饱和,并且这是会被考虑的非线性度。
在下文中,考虑配备有一个扬声器和M个麦克风的通信终端。每一个麦克风记录由扬声器生成的回声信号和近端语音信号。可以将第m个麦克风信号上的信号写为如下:
ym(n)=gm(n)*s(n)+hm(n)*x(n) 等式(44)
其中:
●ym(n)是由第m个麦克风信号拾取的信号,其中m范围从1到M,M是通信终端的麦克风的数量。每一个麦克风信号包含回声信号dm(n)和近端语音信号sm(n)。
●hm(n)是在扬声器和第m个麦克风信号之间的声学路径,以使得dm(n)=hm(n)*x(n)。
(n)是hm(n)的估计。
是来自针对第m个麦克风信号的自适应滤波的误差信号。在图11中仅使用一个自适应滤波器的情况下,对于m≥2,em(n)=ym(n)。
●gm(n)是在近端扬声器和第m个麦克风之间的声学路径,以使得sm(n)=gm(n)*s(n),
是后滤波器的输出,作为近端语音的估计。
针对上面提供的双通道情况(参见图11),自适应滤波器可以用于估计由第m个麦克风拾取的回声信号。多通道后滤波器可以采用扬声器信号和麦克风(或使用自适应滤波器的麦克风路径的误差)信号作为输入。
在下文中,提供了在多麦克风终端的情况下PLD如何用于推导增益规则和DTD。
对于基于多麦克风PLD的增益规则,仅在回声抑制的计算中使用多通道信息,而回声抑制本身在第m个麦克风路径上发生,这意味着可以将后
滤波器增益表达如下:
等式(45)
在接下来的多通道PLD增益规则的推导中,假设在除了第m个麦克风以外的麦克风路径上没有使用自适应滤波器。这暗示着输入麦克风信号为ym(n)。假定麦克风观察yl(n)(其中l≠m),可以将它的傅立叶变换写出如下:
Yl=Gl·S+Hl·X. 等式(46)
假设扬声器和近端语音信号是不相关的(即,它们的交叉PSD为零,Φxs=0),可以将第l个麦克风自动PDS表达如下:
等式(47)
其中,l是范围从1到M的麦克风通道附标。通过引入如下定义的RTF:
等式(48)
得到下式
等式(49)
这一等式示出了可以将第l个麦克风自动PSD写为回声信号和第m个麦克风的近端信号PSD的函数,可以用于计算回声抑制增益W,如上面给出的。将两个PLD量(度量)定义如下:
等式(50)
等式(51)
在这些等式中定义的近端和回声PLD是回声抑制增益计算所要求的回声和近端PSD的函数。考虑所有M个麦克风信号,可以将近端PLD等效地按照矩阵形式写出如下:
等式(52)
等式(53)
利用下面的标记法:
●Z=[near_PLDm,1 near_PLDm,2 … near_PLDm,M]T
可以根据上面的矩阵公式将近端PSD的估计推导为:
等式(54)
这一等式的扩展导致下式:
等式(55)
类似地,可以将所要求的回声PSD的估计推导并表达如下:
等式(56)
通过将这两个等式引入用于后处理增益的上面的公式中,可以推导用于回声抑制的新表达式:
等式(57)
在下文中,讨论RTF估计。
对于近端RTF的最小平方估计,假设仅近端活动时段和近端声学环境中一些局部噪声的存在,可以将第1个麦克风信号写出如下:
yl(n)=gl(n)*s(n)+bl(n), 等式(58)
或者等效地在频域中:
Yl=Hl·X+Bl 等式(59)
其中,bl(n)代表由第l个麦克风接收到的环境噪声,并且Bl是其傅立叶变换。
通过将如在等式(48)中给出的近端RTF定义引入这一等式,得到
等式(60)
其重新开始估计问题。可以将近端RTF的最小平方估计推导为:
等式(61)
其中,给定沿着时间的β的一组R个度量。
对于回声RTF的最小平方估计,假设远端活动时段和近端声学环境中一些局部噪声的存在,可以将第l个麦克风信号写出如下:
yl(n)=hl(n)*x(n)+bl(n), 等式(62)
或等效地在频域中:
Yl=Hl·X+Bl 等式(63)
通过将如在等式(48)中定义的回声RTF定义引入到等式(63)中,得到下式:
等式(64)
现在考虑矢量[X Y1 … YM]T和可以在时域中被细分为R个帧的观察窗。考虑到回声RTF在观察窗内是静止的,可以利用从一个帧到另一个帧的语音信号的非静止。对于观察间隔的每一个帧r,可以写出下面的PSD:
等式(65)
由在近端声学环境中的环境噪声定义,因此可以假设其在统计上独立于扬声器(即,)。可以例如经过自回归平滑化来根据观察信号估计量。考虑R个帧的观察间隔,可以将这一等式按照矩阵形式写出如下:
等式(66)
Z=A·V 等式(67)
然后回声RTF的LS估计如下:
其中 等式(68)
并且可以表达为:
等式(69)
其中,给定沿着时间的β的一组R个度量。
对于多麦克风,用于基于PLD实现DTD的基于PLD的双检测方法可以用于双麦克风情况。在下文中,考虑由跟随有后滤波器的至少一个AEC组成的回声处理方案,其使用M个麦克风信号或者针对使用自适应滤波器的麦克风路径的误差信号。
与在图11中类似,可以使用DTD,其使用所有麦克风信号(或针对使用自适应滤波器的麦克风路径的误差信号)作为输入。假设将AEC和后滤波器应用于第m个麦克风路径,则可以将标准化PLD定义如下:
等式(70)
其中,l是范围从1到M的麦克风通道附标并且不同于m。这一方程定义M-1个PLD,其可以经过针对DTD的融合方法进行组合。例如,DTD可以基于提供最大电平差的仅N个麦克风信号,其中0<N<M。
尽管描述了具体方面,但是本领域中的普通技术人员应该理解,在不偏离如所附权利要求限定的本公开的方面的精神和范围的情况下,可以在形式和细节方面做出各种变化。该范围因此由所附权利要求指示,并且因此意在包含出现在权利要求的等效形式的意义和范围内的所有变化。

Claims (31)

1.一种用于处理音频信号的方法,包括:
经由包括第一麦克风的第一接收路径接收第一音频信号;
经由包括第二麦克风的第二接收路径接收第二音频信号;
基于所述第一音频信号和所述第二音频信号的比较来执行所述第一音频信号的回声抑制,其包括基于对所述第一音频信号和所述第二音频信号之间的电平差应用阈值来识别仅回声状态,在所述仅回声状态中,所述第一音频信号和所述第二音频信号基本上仅包括相应的回声信号。
2.如权利要求1所述的方法,进一步包括经由一个或多个其它的接收路径接收一个或多个其它的音频信号,并且基于所述第一音频信号、所述第二音频信号和所述一个或多个其它的音频信号来执行所述第一音频信号的回声抑制。
3.如权利要求2所述的方法,其中,每一个其它的接收路径包括其它的麦克风。
4.如权利要求1所述的方法,其中,所述麦克风是相同通信设备的一部分。
5.如权利要求1所述的方法,其中,基于所述第一音频信号和所述第二音频信号来执行所述第一音频信号的回声抑制包括:基于所述第一音频信号和所述第二音频信号来确定回声抑制增益并且基于所确定的回声抑制增益来执行所述第一音频信号的回声抑制。
6.如权利要求1所述的方法,包括确定表示所述第一音频信号和所述第二音频信号之间的所述电平差的值并且基于所述值来执行所述第一音频信号的回声抑制。
7.如权利要求6所述的方法,其中,所述电平差是功率电平差、电压电平差或能量电平差。
8.如权利要求6所述的方法,包括将所述电平差与所述阈值进行比较并且基于比较的结果来执行所述第一音频信号的所述回声抑制。
9.如权利要求1所述的方法,还包括基于所述比较的结果来检测双端通话情景。
10.如权利要求1所述的方法,其中,执行回声抑制包括自适应回声滤波。
11.如权利要求10所述的方法,其中,基于所述第一音频信号和所述第二音频信号来执行所述第一音频信号的回声抑制包括:基于所述第一音频信号和所述第二音频信号来设置回声滤波的适应性。
12.如权利要求1所述的方法,其中,执行回声抑制包括回声后滤波。
13.如权利要求1所述的方法,其中,基于所述第一音频信号和所述第二音频信号来执行所述第一音频信号的回声抑制包括:基于所述第二音频信号来确定滤波器系数并且使用所述滤波器系数来对所述第一音频信号进行滤波。
14.如权利要求1所述的方法,其中,基于所述第一音频信号和所述第二音频信号来执行回声抑制包括:基于第一接收到的音频信号和第二接收到的音频信号来确定回声抑制增益,并且基于第一接收到的音频信号和所述回声抑制增益来对回声抑制进行滤波。
15.一种音频接收装置,包括:
用于经由包括第一麦克风的第一接收路径接收第一音频信号的单元;
用于经由包括第二麦克风的第二接收路径接收第二音频信号的单元;
用于基于所述第一音频信号和所述第二音频信号的比较来执行所述第一音频信号的回声抑制的单元,其包括用于基于对所述第一音频信号和所述第二音频信号之间的电平差应用阈值来识别仅回声状态的单元,在所述仅回声状态中,所述第一音频信号和所述第二音频信号基本上仅包括相应的回声信号。
16.如权利要求15所述的装置,进一步包括用于经由一个或多个其它的接收路径接收一个或多个其它的音频信号,并且基于所述第一音频信号、所述第二音频信号和所述一个或多个其它的音频信号来执行所述第一音频信号的回声抑制的单元。
17.如权利要求16所述的装置,其中,每一个其它的接收路径包括其它的麦克风。
18.如权利要求15所述的装置,其中,所述麦克风是相同通信设备的一部分。
19.如权利要求15所述的装置,其中,用于基于所述第一音频信号和所述第二音频信号来执行所述第一音频信号的回声抑制的单元包括:用于基于所述第一音频信号和所述第二音频信号来确定回声抑制增益并且基于所确定的回声抑制增益来执行所述第一音频信号的回声抑制的单元。
20.如权利要求15所述的装置,包括用于确定表示所述第一音频信号和所述第二音频信号之间的所述电平差的值并且基于所述值来执行所述第一音频信号的回声抑制的单元。
21.如权利要求20所述的装置,其中,所述电平差是功率电平差、电压电平差或能量电平差。
22.如权利要求20所述的装置,包括用于将所述电平差与所述阈值进行比较并且基于比较的结果来执行所述第一音频信号的所述回声抑制的单元。
23.如权利要求15所述的装置,还包括用于基于所述比较的结果来检测双端通话情景的单元。
24.如权利要求15所述的装置,其中,执行回声抑制包括自适应回声滤波。
25.如权利要求24所述的装置,其中,用于基于所述第一音频信号和所述第二音频信号来执行所述第一音频信号的回声抑制的单元包括:用于基于所述第一音频信号和所述第二音频信号来设置回声滤波的适应性的单元。
26.如权利要求15所述的装置,其中,执行回声抑制包括回声后滤波。
27.如权利要求15所述的装置,其中,用于基于所述第一音频信号和所述第二音频信号来执行所述第一音频信号的回声抑制的单元包括:用于基于所述第二音频信号来确定滤波器系数并且使用所述滤波器系数来对所述第一音频信号进行滤波的单元。
28.如权利要求15所述的装置,其中,用于基于所述第一音频信号和所述第二音频信号来执行回声抑制的单元包括:用于基于第一接收到的音频信号和第二接收到的音频信号来确定回声抑制增益,并且基于第一接收到的音频信号和所述回声抑制增益来对回声抑制进行滤波的单元。
29.一种音频接收电路,包括:
第一接收路径,包括配置为接收第一音频信号的第一麦克风;
第二接收路径,包括配置为接收第二音频信号的第二麦克风;
回声抑制电路,配置为基于所述第一音频信号和所述第二音频信号的比较来执行所述第一音频信号的回声抑制,其包括基于对所述第一音频信号和所述第二音频信号之间的电平差应用阈值来识别仅回声状态,在所述仅回声状态中,所述第一音频信号和所述第二音频信号基本上仅包括相应的回声信号。
30.如权利要求29所述的音频接收电路,包括配置为接收一个或多个其它的音频信号的一个或多个其它的接收路径,其中,所述回声抑制电路配置为基于所述第一音频信号、所述第二音频信号和所述一个或多个其它的音频信号来执行所述第一音频信号的回声抑制。
31.如权利要求30所述的音频接收电路,其中,每一个其它的接收路径包括其它的麦克风。
CN201410200217.7A 2013-05-13 2014-05-13 用于处理音频信号的方法和音频接收电路 Active CN104158990B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US13/892,420 US9100466B2 (en) 2013-05-13 2013-05-13 Method for processing an audio signal and audio receiving circuit
US13/892,420 2013-05-13

Publications (2)

Publication Number Publication Date
CN104158990A CN104158990A (zh) 2014-11-19
CN104158990B true CN104158990B (zh) 2017-05-31

Family

ID=50685802

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410200217.7A Active CN104158990B (zh) 2013-05-13 2014-05-13 用于处理音频信号的方法和音频接收电路

Country Status (3)

Country Link
US (1) US9100466B2 (zh)
EP (1) EP2804177B1 (zh)
CN (1) CN104158990B (zh)

Families Citing this family (42)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9516418B2 (en) 2013-01-29 2016-12-06 2236008 Ontario Inc. Sound field spatial stabilizer
US9271100B2 (en) 2013-06-20 2016-02-23 2236008 Ontario Inc. Sound field spatial stabilizer with spectral coherence compensation
US9099973B2 (en) 2013-06-20 2015-08-04 2236008 Ontario Inc. Sound field spatial stabilizer with structured noise compensation
US9106196B2 (en) * 2013-06-20 2015-08-11 2236008 Ontario Inc. Sound field spatial stabilizer with echo spectral coherence compensation
CN104519212B (zh) * 2013-09-27 2017-06-20 华为技术有限公司 一种消除回声的方法及装置
US9449615B2 (en) * 2013-11-07 2016-09-20 Continental Automotive Systems, Inc. Externally estimated SNR based modifiers for internal MMSE calculators
KR102218687B1 (ko) * 2014-02-28 2021-02-22 삼성전자주식회사 통신 서비스를 제공하기 위한 전자 장치 및 방법
US9589556B2 (en) * 2014-06-19 2017-03-07 Yang Gao Energy adjustment of acoustic echo replica signal for speech enhancement
CN105635500B (zh) * 2014-10-29 2019-01-25 辰芯科技有限公司 双麦克风回声及噪声的抑制系统及其方法
CN105810202B (zh) * 2014-12-31 2019-07-02 展讯通信(上海)有限公司 一种降低回声的方法、装置及通讯设备
KR102306798B1 (ko) * 2015-03-20 2021-09-30 삼성전자주식회사 에코 제거 방법 및 그 전자 장치
US20160379661A1 (en) * 2015-06-26 2016-12-29 Intel IP Corporation Noise reduction for electronic devices
CN105187594B (zh) * 2015-07-28 2018-09-04 小米科技有限责任公司 一种消除回声的方法和装置
GB2536742B (en) * 2015-08-27 2017-08-09 Imagination Tech Ltd Nearend speech detector
US10242689B2 (en) * 2015-09-17 2019-03-26 Intel IP Corporation Position-robust multiple microphone noise estimation techniques
CN105530391A (zh) * 2015-12-07 2016-04-27 惠州Tcl移动通信有限公司 一种改善移动终端免提通话回声的方法及系统
US10043529B2 (en) * 2016-06-30 2018-08-07 Hisense Usa Corp. Audio quality improvement in multimedia systems
CN107635082A (zh) * 2016-07-18 2018-01-26 深圳市有信网络技术有限公司 一种双端发声端检测系统
US10122863B2 (en) * 2016-09-13 2018-11-06 Microsemi Semiconductor (U.S.) Inc. Full duplex voice communication system and method
CN110050243B (zh) * 2016-12-21 2022-09-20 英特尔公司 通过使用自主机器中的中间层特征的增强神经回归进行相机重新定位
CN110169041B (zh) * 2016-12-30 2022-03-22 哈曼贝克自动系统股份有限公司 一种声回波消除的方法和系统
EP3393140A1 (en) 2017-04-20 2018-10-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for multichannel interference cancellation
US10388298B1 (en) * 2017-05-03 2019-08-20 Amazon Technologies, Inc. Methods for detecting double talk
JP6833616B2 (ja) * 2017-05-29 2021-02-24 株式会社トランストロン エコー抑圧装置、エコー抑圧方法及びエコー抑圧プログラム
CN107360530B (zh) * 2017-07-03 2020-12-01 苏州科达科技股份有限公司 一种回声消除的测试方法和装置
US10863269B2 (en) 2017-10-03 2020-12-08 Bose Corporation Spatial double-talk detector
US10192567B1 (en) 2017-10-18 2019-01-29 Motorola Mobility Llc Echo cancellation and suppression in electronic device
CN110797048B (zh) * 2018-08-01 2022-09-13 珠海格力电器股份有限公司 语音信息的获取方法及装置
US10937441B1 (en) * 2019-01-04 2021-03-02 Amazon Technologies, Inc. Beam level based adaptive target selection
CN111294473B (zh) * 2019-01-28 2022-01-04 展讯通信(上海)有限公司 信号处理方法及装置
CN111292760B (zh) * 2019-05-10 2022-11-15 展讯通信(上海)有限公司 发声状态检测方法及用户设备
US10964305B2 (en) * 2019-05-20 2021-03-30 Bose Corporation Mitigating impact of double talk for residual echo suppressors
US10978086B2 (en) * 2019-07-19 2021-04-13 Apple Inc. Echo cancellation using a subset of multiple microphones as reference channels
CN110246516B (zh) * 2019-07-25 2022-06-17 福建师范大学福清分校 一种语音通信中小空间回声信号的处理方法
EP4005228A1 (en) * 2019-07-30 2022-06-01 Dolby Laboratories Licensing Corporation Acoustic echo cancellation control for distributed audio devices
US20220329940A1 (en) * 2019-08-06 2022-10-13 Nippon Telegraph And Telephone Corporation Echo cancellation device, echo cancellation method, and program
CN110995951B (zh) * 2019-12-13 2021-09-03 展讯通信(上海)有限公司 基于双端发声检测的回声消除方法、装置及系统
CN110933557B (zh) * 2019-12-16 2021-02-23 歌尔股份有限公司 麦克风回音消除方法、装置、设备和计算机存储介质
CN111968658B (zh) * 2020-06-30 2024-02-06 北京百度网讯科技有限公司 语音信号的增强方法、装置、电子设备和存储介质
CN111970410B (zh) * 2020-08-26 2021-11-19 展讯通信(上海)有限公司 回声消除方法及装置、存储介质、终端
CN112151051B (zh) * 2020-09-14 2023-12-19 海尔优家智能科技(北京)有限公司 音频数据的处理方法和装置及存储介质
CN112151060B (zh) * 2020-09-25 2022-11-25 展讯通信(天津)有限公司 单通道语音增强方法及装置、存储介质、终端

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101015001A (zh) * 2004-09-07 2007-08-08 皇家飞利浦电子股份有限公司 提高了噪声抑制能力的电话装置
CN102801861A (zh) * 2012-08-07 2012-11-28 歌尔声学股份有限公司 一种应用于手机的语音增强方法和装置

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19935808A1 (de) * 1999-07-29 2001-02-08 Ericsson Telefon Ab L M Echounterdrückungseinrichtung zum Unterdrücken von Echos in einer Sender/Empfänger-Einheit
US7359504B1 (en) * 2002-12-03 2008-04-15 Plantronics, Inc. Method and apparatus for reducing echo and noise
EP3118849B1 (en) * 2004-05-19 2020-01-01 Fraunhofer Gesellschaft zur Förderung der Angewand Encoding device, decoding device, and method thereof
EP1722545B1 (en) * 2005-05-09 2008-08-13 Mitel Networks Corporation A method and a system to reduce training time of an acoustic echo canceller in a full-duplex beamforming-based audio conferencing system
US8355511B2 (en) * 2008-03-18 2013-01-15 Audience, Inc. System and method for envelope-based acoustic echo cancellation
US20110125497A1 (en) 2009-11-20 2011-05-26 Takahiro Unno Method and System for Voice Activity Detection
US8538035B2 (en) * 2010-04-29 2013-09-17 Audience, Inc. Multi-microphone robust noise suppression
US8600037B2 (en) * 2011-06-03 2013-12-03 Apple Inc. Audio quality and double talk preservation in echo control for voice communications
US8964967B2 (en) * 2012-12-07 2015-02-24 Dialog Semiconductor B.V. Subband domain echo masking for improved duplexity of spectral domain echo suppressors

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101015001A (zh) * 2004-09-07 2007-08-08 皇家飞利浦电子股份有限公司 提高了噪声抑制能力的电话装置
CN102801861A (zh) * 2012-08-07 2012-11-28 歌尔声学股份有限公司 一种应用于手机的语音增强方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
DUAL CHANNEL ECHO POSTFILTERING FOR HANDS-FREE MOBILE TERMINALS;Christelle Yemdji et al;《International Workshop on Acoustic Signal Enhancement 2012》;20120930;第4-6卷(第09期);第2-4部分,附图1-3 *

Also Published As

Publication number Publication date
CN104158990A (zh) 2014-11-19
US20140334620A1 (en) 2014-11-13
EP2804177A3 (en) 2015-04-15
US9100466B2 (en) 2015-08-04
EP2804177A2 (en) 2014-11-19
EP2804177B1 (en) 2017-10-25

Similar Documents

Publication Publication Date Title
CN104158990B (zh) 用于处理音频信号的方法和音频接收电路
US10891931B2 (en) Single-channel, binaural and multi-channel dereverberation
US9768829B2 (en) Methods for processing audio signals and circuit arrangements therefor
US9343056B1 (en) Wind noise detection and suppression
EP3080975B1 (en) Echo cancellation
US8965757B2 (en) System and method for multi-channel noise suppression based on closed-form solutions and estimation of time-varying complex statistics
JP5675848B2 (ja) レベルキューによる適応ノイズ抑制
JP5762956B2 (ja) ヌル処理雑音除去を利用した雑音抑制を提供するシステム及び方法
US8958572B1 (en) Adaptive noise cancellation for multi-microphone systems
US8804979B2 (en) Method of determining parameters in an adaptive audio processing algorithm and an audio processing system
EP3833041A1 (en) Earphone signal processing method and system, and earphone
US10979100B2 (en) Audio signal processing with acoustic echo cancellation
CN107636758A (zh) 声学回声消除系统和方法
US9378754B1 (en) Adaptive spatial classifier for multi-microphone systems
US8761410B1 (en) Systems and methods for multi-channel dereverberation
US10880440B2 (en) Echo canceller and method therefor
CN111354368B (zh) 补偿处理后的音频信号的方法
CN111756906B (zh) 一种语音信号的回声抑制方法、装置和计算机可读介质
EP2816817B1 (en) Sound field spatial stabilizer with spectral coherence compensation
Arun Efficient and Robust Acoustic Feedback Cancellation Algorithm FOR In-car communication system
Fhager et al. Nonlinear Acoustic Echo Cancellation for Mobile Phones: A Practical Approach

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20210701

Address after: California, USA

Patentee after: INTEL Corp.

Address before: California, USA

Patentee before: INTEL IP Corp.

TR01 Transfer of patent right