CN203086710U - 双重全向传声器阵列校准系统 - Google Patents
双重全向传声器阵列校准系统 Download PDFInfo
- Publication number
- CN203086710U CN203086710U CN201090001122.8U CN201090001122U CN203086710U CN 203086710 U CN203086710 U CN 203086710U CN 201090001122 U CN201090001122 U CN 201090001122U CN 203086710 U CN203086710 U CN 203086710U
- Authority
- CN
- China
- Prior art keywords
- filter
- microphone
- response
- signal
- calibration system
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R29/00—Monitoring arrangements; Testing arrangements
- H04R29/004—Monitoring arrangements; Testing arrangements for microphones
- H04R29/005—Microphone arrays
- H04R29/006—Microphone matching
Landscapes
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Otolaryngology (AREA)
- Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本申请涉及一种双重全向传声器阵列校准系统,包括第一传声器和第二传声器的传声器阵列;耦接到所述第二传声器的输出的第一滤波器,其中,所述第一滤波器模拟所述第一传声器对噪声信号的响应;耦接到所述第一传声器的输出的第二滤波器,其中,所述第二滤波器模拟所述第二传声器对所述噪声信号的响应;以及耦接到所述第一滤波器和所述第二滤波器的处理器。通过该系统,包括机械滤波器的传声器可以相对于彼此在振幅和相位两者上被准确地校准。
Description
发明人:
格雷戈里·C·伯内特
相关申请
本申请要求2009年6月29日提交的美国(US)专利申请第61/221,419号的权益。
本申请是2008年6月13日提交的美国专利申请第12/139,333的一部分申请的延续部分。
技术领域
在此的公开通常涉及噪声抑制系统。尤其是,本公开涉及用于在声学应用中使用的噪声抑制系统、装置以及方法的校准。
背景技术
传统的自适应噪声抑制算法已经存在一段时间。这些传统的算法已经使用两个以上的传声器来对(干扰的)噪声区域以及(希望的)用户的语音两者进行采样。然后,使用自适应滤波器(诸如Haykin&Widrow,ISBN#0471215708,Wiley,2002中描述的最小均方(Least-Mean-Squares),还可以使用任何自适应或者固定的系统识别算法)以及用于过滤来自有用信号的噪声的关系来确定传声器之间的噪声关系。
当前用于语音通信系统的最传统的噪声抑制系统是基于首先在1970年代开发的单个传声器频谱相减技术,并且该技术例如由S.F.博耳(S.F.Boll)在1979年,第113-120页,IEEETrans.On ASSP,“使用频谱相减的语音中的噪声的抑制(Suppression of Acoustic Noise inSpeech using Spectral Subtraction”中所描述。这些技术已经在过去数年里被改良,但是操作的基本原理保持相同。例如,参见麦克劳林(McLaughlin)等人的美国专利第5,687,243号,以及Vilmur等人的美国专利第4,811,404号。还有对多传声器噪声抑制系统的许多努力,诸如西尔弗伯格(Silverberg)等人的美国专利第5,406,622号以及布拉德利(Bradley)等人的美国专利第5,463,694号中概述的那些。多传声器系统因种种原因没有非常成功, 最引人注目的是不良的噪声消除性能和/或显著的语音失真。起初,传统的多传声器系统试图通过将系统的零讯号“引导”到最强的噪声源来增加用户的语音的信噪比(SNR)。这个方法被限制在由可用零讯号的数目去除的噪声源的数目中。
由加利福尼亚州旧金山的AliphCom在2006年12月介绍的Jawbone耳机(称为“Jawbone”)是使用一对物理定向传声器(而不是全向传声器)来减少环境噪音的第一个已知的商品。支持Jawbone的技术当前在伯内特(Burnett)的美国专利第7,246,058号和/或美国专利申请第10/400,282、10/667,207和/或10/769,302号中的一个或多个中被描述。
通常,多传声器技术利用基于声学的语音活动检测器(VAD)来确定背景噪声特性,其中,“声音”通常被理解为包含人的浊音、清音、或者浊音和清音的组合。Jawbone通过使用基于传感器的传声器改进了这个,以构造使用直接检测的用户的面颊中的语音振动的VAD信号。这允许Jawbone在用户没有产生语音时积极地去除噪声。Jawbone应用例如还使用一对全向传声器来构造两种虚拟的传声器,这两种虚拟的传声器被用于去除语音中的噪声。这个结构需要校准全向传声器,也就是说,当暴露于相同的声学的区域时,它们两者都尽可能同样的响应。此外,为了在有风的环境中更好地起作用,全向传声器并入机械的高通滤波器,具有在大约100赫兹和大约400赫兹之间变化的3-dB频率。
引用结合
这个说明书中提及的每个专利、专利申请和/或公报通过引用其内容到相同的程度被结合在此,就好像每个单独的专利、专利申请和/或公报被具体地和个别地表明以通过引用被结合。
附图说明
图1a和图1b显示实施例中用于最差情况的350Hz的3-dB频率的连续时间RC滤波器响应以及离散时间模型。
图2显示实施例中用于测试这个技术的三个头戴式耳机的校准滤波器阿尔法(α)的幅度响应。
图3显示实施例中用于测试这个技术的三个头戴式耳机的校准滤波器阿尔法的相位响应。峰值位置以及幅度被显示在表1中。
图4显示实施例中来自图2的校准滤波器的幅度响应(实线)以及RC滤波器差异模型结果(虚线)。RC滤波器响应已经被偏移恒定增益(对6AB5、6C93和90B9分别是+1.75、+0.25和-3.25dB)并且非常好地与观察的响应匹配。
图5显示实施例中来自图3的校准滤波器的相位响应(实线)以及RC滤波器差异模型结果(虚线)。在1000Hz以下的一些范围内,RC滤波器的相位响应非常类似。注意,在1kHz以上具有极小幅度响应差异的头戴式耳机6C83具有非常大的相位差。正如所料,头戴式耳机6AB5和90B9具有趋向于零度的相位响应,但是由于未知的原因,90B9却不会趋向于零度。
图6显示实施例中使用用于每个支路的标准增益目标的校准流程。延迟“d”是阿尔法滤波器的采样中的线性相位延迟。阿尔法滤波器可以是线性相位或者最小相位。
图7显示实施例中用于头戴式耳机90B9的最初的O1、O2以及补偿模型响应。损失是在100Hz处的3.3dB,在200Hz处的1.1dB以及在300Hz处的0.4dB。
图8显示实施例中用于头戴式耳机6AB5的最初的O1、O2以及补偿模型响应。损失是在100Hz处的6.4dB,在200Hz处的2.7dB以及在300Hz处的1.3dB。
图9显示实施例中用于头戴式耳机6C83的最初的O1、O2以及补偿模型响应。损失是在100Hz处的9.4dB,在200Hz处的4.7dB以及在300Hz处的2.6dB。
图10显示实施例中用于三个不同的头戴式耳机的补偿O1以及O2响应。在100Hz处,在头戴式耳机90B9和6C83之间有7.0dB差异。
图11显示实施例中,在补偿之前采用工厂校准(实线)和补偿之后(虚线),对于三个头戴式耳机的校准滤波器的幅度响应。除了DC附近以外,有少许改变,其中,响应如预期地被降低。
图12显示实施例中,使用工厂校准(实线)和补偿的艾利佛(Aliph)校准(虚线),对于三个头戴式耳机的校准相位响应。仅仅低于500Hz的相位是这个测试所关心的;似乎与频率成正比的相位的添加用于所有补偿波形。作为最差的执行者的头戴式耳机90B9的最大值已经显著地从12+度减少到5度以下。在500Hz以下具有极小相位的头戴式耳机6AB5已经被增加,并且因而主张低于5度的相位响应应当没有被调节。头戴式耳机6C83中的最大值已经从-12.5度下跌到-8度。
图13显示实施例中,使用工厂校准(实线)、艾利佛(Aliph)校准(点线)以及补偿艾利佛校准(虚线),对于三个头戴式耳机的校准相位响应。在1kHz以下,头戴式耳机 6AB5和6C83在工厂校准以及艾利佛校准中有显著的不一致——这很可能是6AB5的相位增加以及6C83的相位较少地减少的原因。不清楚为什么在工厂和艾利佛的校准对于这两种传声器变化——可以是在工厂或者艾利佛或者两者的传声器位移或者校准误差。对于头戴式耳机90B9的校准很好地适合,并且导致相位差显著地下跌——强调对准确的和可重复的校准的需要。
图14是实施例中校准算法的流程图。顶部流程在第一个三秒激励(three-secondexcitation)上被执行并且产生用于每个传声器HP滤波器的模型。中间流程计算校正O1HAT和O2HAT的组合的振幅响应所需的低通滤波器。最终流程计算阿尔法滤波器。
图15是实施例中在正常操作期间的校准滤波器的流程图。
图16显示实施例中使用v4(实线)和v5(虚线)的六个测试头戴式耳机的幅度响应。在DC处的“闪光”已经被排除,通过响应,将1kHz的标准化差异从8dB以上减少到2dB以下。
图17显示实施例中使用v4(实线)和v5(虚线)的六个测试头戴式耳机的相位响应。500Hz以下的大的峰值已经被排除,将相位差从34度减少到7度以下。
图18显示实施例中使用v4校准的99个头戴式耳机的相位响应。最大相位中的扩展从-21到+17度,导致显著的性能差异。
图19显示实施例中使用v5校准的99个头戴式耳机的相位响应。离群值的黄色图很可能归因于操作者过失。低于500Hz,最大相位中的扩展已经从-21到+17度改变到+-5度。DC附近的幅度变化同样地被排除。这些头戴式耳机应当在性能上是难区分的。
图20a和图20b显示实施例中使用v4校准的99个头戴式耳机的幅度(顶部)和相位(底部)响应的平均+-1σ、+-2σ。在DC处的幅度中的2σ扩展是差不多13dB,并且对于相位是31度。如果采用+5和-10度作为用于良好性能的截止值,那么这些头戴式耳机中的大约40%的头戴式耳机将比其他头戴式耳机具有显著地不良的性能。
图21a和图21b显示实施例中使用v5校准的99个头戴式耳机的幅度(顶部)和相位(底部)的平均+-1σ和+-2σ。在DC处的幅度中的2σ扩展现在仅仅是6dB(规格以内),具有较少的波动,以及对于相位是少于7度,具有显著地较少的波动。这些头戴式耳机应当在性能上是难区分的。
图22显示实施例中O1hat、O2hat以及HAC的组合的幅度响应。这将通过O1的自然响应被调制以达到响应该系统的最终输入。注释线显示当不需要相位校正时,当前系统在做 什么;目前这已经被改变成统一滤波器以及将被更新为用于v6的150Hz的HP。所有补偿响应都在+-1dB以内以及它们的3dB点在+-25Hz以内。
图23是实施例中v6算法的流程图,在v6算法中,没有显著的相位差的头戴式耳机,还受到归一化成为标准响应。
图24a和图24b显示实施例中,使用f1=100Hz以及f2=300Hz,对于αc(z)的频率响应。
图25显示实施例中v4.1校准算法的流程。由于可以没有新信息,所以对于具有充足的α相位的单元,益处局限于O1HAT、O2HAT以及HAC(z)。
图26显示实施例中在DOMA以及AVAD算法之前的实施例的滤波器的使用。
图27是实施例中双重传声器自适应噪声抑制系统。
图28是实施例中阵列以及语音源(S)结构。传声器被分开近似等于2d0的距离,并且语音源被定位成以角度θ远离阵列的中点一距离ds。系统是轴向对称的,所以仅仅需要指定ds和θ。
图29是实施例中使用两个全向元件O1和O2的第一级压差传声器的方框图。
图30是实施例中用于DOMA的方框图,DOMA包括配置为形成两个虚拟传声器V1和V2的两个物理传声器。
图31是实施例中用于DOMA的方框图,DOMA包括配置为形成N个虚拟传声器V1到VN的两个物理传声器,其中N是大于1的任何数。
图32是实施例中在此描述的包括DOMA的头戴式耳机或者头戴式装置的实例。
图33是实施例中使用DOMA的对声信号降噪的流程图。
图34是实施例中用于形成DOMA的流程图。
图35是实施例中虚拟传声器V2相对于在0.1m的距离处的1kHz语音源的线性响应图。零讯号是在0度,其中语音被正常定位。
图36是实施例中虚拟传声器V2相对于在1.0m的距离处的1kHz噪声源的线性响应的图。没有零讯号并且检测所有噪声源。
图37是实施例中虚拟传声器V1相对于在0.1m的距离处的1kHz语音源的线性响应的图。没有零讯号,并且对语音的响应大于图9所示的响应。
图38是实施例中虚拟传声器V1相对于在1.0m的距离处的1kHz噪声源的线性响应的图。没有零讯号,并且响应非常类似于图10所示的V2。
图39是实施例中,对于100、500、1000、2000、3000以及4000Hz的频率,虚拟传声器V1相对于在0.1m的距离处的语音源的线性响应的图。
图40是显示对于实施例的阵列以及对于传统的心形传声器,对于语音的频率响应的比较的图。
图41是实施例中,显示V1(顶部,虚线)和V2(底部,实线)对比ds被假定为0.1m的B的语音响应的图。V2中的空间零讯号是相对宽的。
图42是显示实施例中,图10中显示的V1/V2语音响应对比B的比率的图。对于所有0.8<B<1.1,比率在10dB以上。这意味着系统的物理β不需要为了良好性能而被精确地模拟。
图43是实施例中假定ds=10cm以及θ=0,B对比实际的ds的图。
图44是实施例中随着ds=10cm并且假定ds=10cm,B对比θ的图。
图45a和图45b是实施例中,随着B=1并且D=-7.2微秒,N(s)的振幅(顶部)和相位(底部)响应的图。结果的相位差明显的比低频更多地影响高频。
图46a和图46b是实施例中,随着B=1.2并且D=-7.2微秒,N(s)的振幅(顶部)和相位(底部)响应的图。非整数的B影响整个频率范围。
图47a和图47b是实施例中,归因于以q1=0度以及q2=30度弄错语音源的位置,影响V2中的语音取消的振幅(顶部)和相位(底部)响应的图。对于频率低于6kHz,取消保持低于-10dB。
图48a和图48b是实施例中,归因于以q1=0度以及q2=45度弄错语音源的位置,影响V2中的语音取消的振幅(顶部)和相位(底部)响应的图。仅仅对于频率低于大约2.8kHz,取消是低于-10dB,并且性能减少是预期的。
图49a和图49b显示实施例中,在非常大声的(~85dBA)音乐/语音噪声环境中,在Bruel和Kjaer的头和躯干模拟器(Head and Torso Simulator,HATS)上使用0.83的线性β,对于2d0=19毫米阵列的实验结果。噪声已经被减少大约25dB,并且语音难以被影响,没有值得注意的失真。
具体实施方式
本申请描述了系统和方法,通过该系统和方法,包括机械滤波器的传声器可以相对于彼此在振幅和相位两者上被准确地校准。除非另有说明,除它们可以传达给本领域的技术人员的意思或者理解之外,以下术语具有相应的含义。
术语“渗透”意指在语音期间不希望存在噪声。
术语“降噪”意指从所关心的信号去除不需要的噪声,并且还涉及分贝(dB)信号中的噪声能量的减少量。
术语“清音化”意指从所关心的信号去除希望的语音和/或使希望的语音失真。
术语DOMA涉及用于本发明的实施例的艾利佛双重全向传声器阵列。在此描述的技术不局限于使用DOMA;可以使用受益于更准确的传声器校准的任何阵列技术。
术语“全向传声器”意指相等地响应来源于任何方向的声波的物理传声器。
术语“O1“或者“O1”涉及阵列的第一全向传声器,通常比第二全向传声器更靠近用户。同样,可以根据上下文,参考第一全向传声器的时间采样的输出或者第一全向传声器的频率响应。
术语“O2“或者“O2”涉及阵列的第二全向传声器,通常比第一全向传声器更远离用户。同样,可以根据上下文,参考第二全向传声器的时间采样的输出或者第二全向传声器的频率响应。
术语“O1hat”或者指的是O1的响应的RC滤波器模型。
术语“噪声”意指不需要的环境噪音。
术语“零讯号”意指物理或者虚拟定向传声器的空间响应中的零或者最小值。
术语“语音”意指希望的用户的语音。
术语“皮肤表面传声器(SSM)”是耳机(例如,从加利福尼亚州,旧金山的艾利佛可得到的Jawbone耳机)中使用的传声器,以检测用户的皮肤上的语音振动。
术语“V1”意指DOMA的虚拟定向“语音”传声器。
术语“V2”意指DOMA的虚拟定向“噪声”传声器,具有用于用户的语音的零讯号。
术语“语音活动检测(VAD)信号”意指表示当用户语音被检测时的信号。
术语“虚拟传声器(VM)”或者“虚拟定向传声器”意指使用两个以上的全向传声器构成的并且与信号处理相关的传声器。
在高通(HP)传声器的机械滤波器中对非均匀的3-dB频率的补偿
以下描述用于具有机械的高通滤波器的两个全向传声器的校准方法。通过选择一个全向传声器用作标准并将所有其它传声器校准成选择的标准传声器,使用该技术可以校准两个以上的传声器。需要准确地校准具有机械的高通滤波器的全向传声器的任何应用可以受益于该技术。以下实施例使用DOMA传声器阵列,但是该技术不被如此限制。与设法通过使外面的噪声源无效来减少噪声的传统的阵列以及算法相比较,实施例的阵列被用于形成两个截然不同的虚拟定向传声器,它们被配置为具有非常类似的噪声响应以及非常不同的语音响应。由DOMA形成的唯一的零讯号是用于从V2中去除用户的语音的一个零讯号。当被适当地校准时,全向传声器可以被组合以形成两个以上的虚拟传声器,然后,利用自适应滤波器算法和/或VAD算法可以使它们被配对以显著地减少噪声,而不使语音失真,超过传统的噪声抑制系统,显著地改进希望的语音的SNR。在此描述的实施例在操作中是稳定的,相对于虚拟传声器的模式选择是灵活的,并且已经证实相对于语音源到阵列距离和定位以及温度和校准技术是耐用的,如在此显示的。
在下面的描述中,很多具体细节被介绍以提供对校准方法的实施例的彻底了解,以及能够对于校准方法的实施例进行描述。然而,相关领域中的一个技术人员将承认,在没有一个以上的具体细节,或者利用其它部件、系统等等的情况下,可以实现这些实施例。在其它实例中,已知结构或操作未显示,或者没有详细地描述,以避免揭示的实施例的不清楚的方面。
实施例的噪声抑制系统(DOMA)使用两个全向传声器的输出的两个组合来形成两个虚拟传声器。为了构造这些虚拟传声器,全向传声器在振幅以及相位两者中必须被准确地校准,以使它们尽可能与声学输入同样响应振幅以及相位两者。许多全向传声器使用机械的高通(HP)滤波器(通常使用传声器的薄膜中的一个以上的孔来实施)以减少风噪声响应。这些机械滤波器通常具有类似于电子RC滤波器的响应,但是孔的大小与形状中的少量的差异能够导致从100Hz以下到400Hz以上范围的3-dB频率。这个差异能够导致在低频的传声器之间的相对的相位响应从-15度变化到+15度以上。在低频处,这尤其损伤,因为DOMA伽马滤波器的相位响应通常在500Hz以下少于20-30度。结果,在500Hz以下使用DOMA降噪能够变化20dB以上。一种新的、基于DSP的校准补偿方法在此呈现,其中,O1和O2的白噪声响应被用于构造系统的模型,然后每个传声器被另一个的模型过 滤。然后,结果的响应被归一化为“标准响应”——在这种情况下,具有200Hz的3-dB频率的高通RC滤波器。
RC滤波器模型
RC滤波器具有实时响应
对离散时间中的导数的最简单的近似值是
其中Δt是采样之间的时间。这仅仅在低频处是准确的,其中,采样点之间的斜率是线性的。使用这个近似值导致
或者在z空间中
其中
由于
并且
并且fN是用于第N个传声器的3-dB频率,以及fs是采样频率。这个现在被调节以使幅度在低频处更好地匹配:
对于100Hz的3-dB频率,这个匹配到+-0.2dB和-1度以内,以及在350Hz处,在+-1.0dB和-3度以内。图1a和图1b显示对于恒定(b)和离散(r)时间,对于f3=350,对于HP RC滤波器的幅度响应。振幅和相位响应于具有图1a和图1b中的350Hz的预期最差情况的3-dB频率的连续时间RC滤波器102;将这个与离散的时间响应104作比较。在所关心的频率(100-500Hz)处差异是可忽略的。
确定给定阿尔法的传声器的3-dB频率
给定以上RC滤波器的可行的模型,现在我们确定传声器的3-dB频率,以便构造每个传声器的响应的模型。这个通常利用正弦扫描完成,但是迅速的生产要求可能不允许有足够时间用于在校准过程期间使用正弦扫描。时常有需要使用短的(即,10秒以下)过程来确定每个传声器的3-dB频率。已经证实快速、准确和可靠的一个方法是使用短的白噪声脉冲。
可能难以准确地确定具有白噪声的传声器的3-dB频率,因为功率频谱平均起来仅仅是平坦的,并且通常需要长的(15+秒)脉冲以确保可接受的频谱平坦度。可选择地,如果白噪声频谱是已知的,那么可能通过从存储的一个减去记录的频谱来推导出3-dB频率。然而,假定扬声器和空气传送功能是统一的,这对于低频是不能确定的。可以使用基准传声器对于每个盒子测量扬声器和空气传送功能,但是如果校准盒子之间有变化,那么这不能被用作通用算法。
不同的选择是使用初始校准滤波器α0(z)的相对相位以接近传声器的3-dB频率。使用未过滤的O1和O2响应以及自适应滤波器,实施例的初始校准滤波器被确定,如图14中所示,但是没有被如此限制。该初始校准滤波器涉及一个传声器(在这种情况下,O2,但是可以是许多传声器)回到基准传声器(在这种情况下,O1)。实质上,如果使用初始校准滤波器来过滤O2的输出,那么如果校准处理以及滤波器是准确的,则响应应当是与O1相同的。进行设想,500Hz以下的校准滤波器的相位响应中的峰值归因于传声器中的不同的3-dB频率以及机械的HP滤波器的衰减。如果这是真的,并且如果机械滤波器可以利用RC滤波器模型(或,对于其它的机械滤波器,另一个数学模型)来做模型,然后峰值以及位置可以被数学上地发现并且用于预测单独的传声器3-dB频率的位置。这具有不需 要对校准处理变换的优点,但是没有其它方法那样准确。然而,相位失配减少到+-5度以下将对于大部分应用是足够准确的。
对于我们的实施例,其中,可以使用RC滤波器来做机械滤波器的模型,我们从RC滤波器的理论上的相位响应开始:
其中,N是所关心的传声器,fN是对于那个传声器的3-dB频率,并且f是以Hz为单位的频率。为了确定将O2变换成为O1所需的相位响应,O1和O2之间的相位响应中的差异被计算:
或,由于
然后使用反正切加法定理:
以获得
但是只有当f1<f并且f2<f。然而,没有很大限制,因为可以使用以下关系式
将等式3重写为
或
与等式4是相同的结果,如此覆盖所有频率。
为找到相位中的差异的峰值,采用φ(f)的导数,将它设置为零,并且求出f。使用
结果
由于
然后
这将仅仅相等零,如果f1=f2(微不足道的情况)或者如果
所以 [等式5]
把这个插到等式4中,看出
所以现在,给定的fmax和φmax,f1和f2可以从等式5和6导出:
并且
使用二次方程,利用
a=1
b=2fmaxtan(φmax)
结果
由于φmax接近于零,所以f2将总是正的,并且根号下的参量将总是大于整数仅仅使用+半:
等式7和8允许以给定的fmax和φmax计算f1和f2。实验测试已经显示这些估计通常是相当准确的,通常在+-5Hz以内。然后f1和f2可用于计算等式1中的A1和A2,从而以及等式2中的滤波器模型。
用于试验的头戴式耳机
在这个过程的初期试验中,各自包括双重传声器阵列的三个艾利佛Jawbone头戴式耳机伴随不同的相位响应被使用:90B9(+12度),6AB5(接近零相位差),以及6C83(-12.5度)。在图2和3中显示用于它们的校准滤波器的它们的幅度以及相位响应。在DC附近的幅度变化和相位变化之间的相互关系是第一线索,这个是相关的HP滤波器。
估计用于三个头戴式耳机的3-dB频率
为测试以上过程,查看图2中的用于头戴式耳机6AB5、90B9以及6C83的相位响应。峰值的精确位置和幅度以及结果估计的3-dB频率被列出在表1中,显示最大相位差的位置和大小。估计值被计算作为以上给定的校准滤波器的峰值幅度和位置。使用这个信息,模型幅度和相位响应随同图4和5中测量的一个一起被显示。幅度响应已经通过恒定增益被偏移以进行较简单的比较。
表1是实施例中显示最大相位差的位置和大小的表。如在此描述的,给定校准滤波器的峰值幅度和位置,计算估计值。
表1
图4显示来自图2的校准滤波器(实线)的幅度响应,与RC滤波器差异模型结果(虚线)。图4显示测量(实线)以及估计(虚线)的阿尔法幅度响应。RC滤波器响应已经被偏移恒定增益(对于头戴式耳机6AB5、6C93以及90B9分别为+1.75、+0.25和-3.25dB)并且非常好地与观察的响应匹配。在图4中,RC模型使得观察的幅度差异非常好地(+-0.2dB以内)与恒定偏移相适合。头戴式耳机6C83具有仅仅0.25dB的偏移,表示除3-dB点以外,传声器在幅度响应中非常好地匹配。令人遗憾的,它们的3-dB频率十分地不同,它们在DC处的幅度不同为4dB,并且在250Hz为-12.5度。对于这个头戴式耳机,实质上,所有失配归因于3-dB频率中的差异。
图5显示来自图3的校准滤波器(实线)的相位响应,与RC滤波器差异模型结果(虚线)。图5显示测量(实线)以及估计(虚线)的阿尔法相位响应。RC滤波器相位响应非常类似,在低于1000Hz的几度以内。注意,在1kHz以上具有极少的幅度响应差异的头戴式耳机6C83如何具有非常大的相位差。正如所料,头戴式耳机6AB5和90B9具有趋向于零度的相位响应,但是由于未知的原因,90B9却不会趋向于零度。仍然,由于1000Hz以下的相位差是极为重要的,所以这个补偿方法应当显著地减少传声器之间的相位差。图 5中,模拟相位输出在峰值(仅仅意指该模型是一致的)处很好地匹配,并且在500Hz以下在+-2度以内。这应当足以将相对相位带到+-5度以内。
实施例的校准方法
实施例的这个校准方法,在此相当于版本5或者v5的校准方法,包括:
1.使用O1(z)和O2(z)计算校准滤波器α0(z)。
2.确定500Hz以下的α0(z)的fmax和φmax。
3.使用fmax和φmax以使用等式6和7估计f1和f2。
4.使用f1和f2以使用等式1计算A1和A2。
如果希望,最小相位滤波器αMP(z)可以被转化为线性相位滤波器αLP(z)。因此,在这个阶段,预先校准好的最终应用输出是
由于O1和O2两者都被过滤,所以使得检测包含标准增益目标|S(z)|,其中,假设目标仅仅是幅度目标,而不是相位目标。
图6是实施例中对每个支路使用标准增益目标的校准的流程图。延迟“d”是阿尔法滤波器的采样中的线性相位延迟。阿尔法滤波器可以是线性相位或者最小相位。最终过滤流程(预DOMA)被显示在图6中,其中
由于这个基本上是增益计算,所以这个对于执行是相对简单的。注意,图6中的延迟“d”是阿尔法滤波器的线性相位部分,并且那个阿尔法根据应用可以是线性相位或者最小相位。
这个技术的准确度依赖于500Hz以下的峰值的位置和大小的准确检测以及HP机械滤波器的精确模型。这里呈现的RC模型准确地预测500Hz以下的以上三个头戴式耳机的性能并且可能是足够的。其它机械滤波器可能需要不同的模型,但是计算补偿滤波器所需的公式的推导类似于以上所示的。为了简单性和准确度,建议机械滤波器被如此构成,以便可以使用以上的RC模型来模拟它的响应。
两个传声器之间的相位差的减少并不是没有增加成本,符合机械的HP滤波器的第二软件(DSP)HP滤波器有效地使滤波器的强度加倍。任何一个传声器的3-dB频率越高,较低频率的抑制结果越强。对于头戴式耳机90B9、6AB5和6C83,分别在图7、8和9中显示在系统的幅度响应上的补偿的效应。在表2中显示了在100、200和300Hz,恢复O1的敏感性所需的增强,表2显示了对于图7-9中显示三个响应,恢复最初的O1敏感性所需的增强。所需增强量高度地取决于最初的3-dB频率。
表2是实施例中,显示对于图6-8中所示的三个响应的恢复最初的O1灵敏性所需的增强的表。所需的增强量高度地取决于最初的3-dB频率。
表2
90B9 | 6AB5 | 6C83 | |
100Hz | 3.3 | 6.4 | 9.4 |
200Hz | 1.1 | 2.7 | 4.7 |
300 | 0.4 | 1.3 | 2.6 |
图7显示实施例中用于头戴式耳机90B9的最初的O1、O2以及补偿模型响应。损失是在100Hz处的3.3dB,在200Hz处的1.1dB以及在300Hz处的0.4dB。图7显示以f3=187(O1,b)和123Hz(O2,r)以及组合的(g),对于HP RC过滤器的幅度响应。图8显示实施例中用于头戴式耳机6AB5的最初的O1、O2以及补偿模型响应。损失是在100Hz处的6.4dB,在200Hz处的2.7dB以及在300Hz处的1.3dB。图8显示以f3=188(O1,b)和213Hz(O2,r)以及组合的(g),对于HP RC过滤器的幅度响应。
图9显示实施例中用于头戴式耳机6C83的最初的O1、O2以及补偿模型响应。损失是在100Hz处的9.4dB,在200Hz处的4.7dB以及在300Hz处的2.6dB。图9显示以f3=213(O1,b)和333Hz(O2,r)以及组合的(g),对于HP RC过滤器的幅度响应。
图10显示对于三个不同的头戴式耳机的补偿的O1和O2响应。图10显示对于90B9(r), 6AB5(b)和6C83(k)的补偿的幅度响应。在100Hz处,在头戴式耳机90B9(204)和6C83(206)之间有显著的7.0dB差异。这个变化将取决于初始O1和O2响应以及3-dB频率。如果没有对O1响应执行校准,而是对标称值执行校准,那么这个变化可以被降低,但是一些变化将总是存在。然而在DOMA中,500Hz以下的一些振幅响应变化优于500Hz以下的大的相位变化,所以即使没有对于500Hz以下的降低的响应来归一化增益,相位补偿仍然是值得的。
相位补偿测试
对于初始试验,用于和的模型在以上三个头戴式耳机(6AB5、90B9和6C83)中难以编码。使用O1(z)和O2(z)首先在未改进的头戴式耳机上进行校准试验,然后使用O1(z)和O2(z)重新进行。幅度结果被显示在图11中,并且在图12中显示相位。除了靠近DC以外,校准滤波器的幅度响应显示少许改变,其中,响应如预期地被降低。
图11显示在补偿之前采用工厂校准(实线)和补偿之后(虚线),对于三个头戴式耳机的校准滤波器的幅度响应。除了靠近DC以外,有少许改变,其中,响应如预期地被降低。
图12显示使用工厂校准(实线)和补偿的艾利佛(Aliph)校准(虚线),对于三个头戴式耳机的校准相位响应。仅仅低于500Hz的相位是这个测试所关心的;似乎与频率成正比的相位的添加用于所有补偿波形。作为最差的执行者的头戴式耳机90B9的最大值已经显著地从12+度减少到5度以下。在500Hz以下具有极小相位的头戴式耳机6AB5已经被增加,并且因而主张低于5度的相位响应应当没有被调节。头戴式耳机6C83中的最大值已经从-12.5度下跌到-8度——没有与头戴式耳机90B9一样多,但是仍然是改进。为了确定校准或者传声器位移不应该受责,再次在艾利佛在头戴式耳机上进行校准。
在图13中显示结果,其中,显示使用工厂校准(实线)、艾利佛(Aliph)校准(点线)以及补偿艾利佛校准(虚线),对于三个头戴式耳机的校准相位响应。在500kHz以下,对于头戴式耳机6AB5和6C83,在工厂校准以及艾利佛校准中有显著的不一致——这些是头戴式耳机6AB5的相位增加以及头戴式耳机6C83的相位较少地减少的原因。不清楚为什么在工厂和艾利佛的校准对于这两种传声器变化——可以是在工厂或者艾利佛或者两 者的传声器位移或者校准误差。对于头戴式耳机90B9的校准很好地适合,并且导致相位差显著地下跌——强调这个技术的功率以及对准确的和可重复的校准的需要。
语音响应损失和补偿
由于第二HP滤波器被加到传声器处理,所以滤波器的影响从第一级增加到第二级。3-dB频率同样增加,所以与它们被预期的相比,最低的两个次能带(0-250Hz和250-500Hz)的响应可能被减少。表3显示对于O1、O2以及O1和O2的组合在125和375Hz使用以上RC模型计算的响应。明显地,如果3-dB频率的一个或者两者是高的,那么结果O1O2响应是低的。表4仅仅显示O1和O2的组合的响应以及恢复具有200Hz的3-dB频率的单极滤波器的响应所需的增强。增强可以根据滤波器的3-dB频率在O1和O2中的位置在-1.1和12.0dB之间变化,并且所需的增强独立于频率中的差异。
表3是显示实施例中几个简单的RC滤波器和它们的组合在125和375赫兹的幅度响应的表。
表3
表4是实施例中,显示具有用于每个频带的Δf和所需的增强的表3的表的简化版本的表。
表4
为了确定如何最佳地执行低频率的增强以弥补HP级和3-dB频率中的增加,考虑图14中的对于校准方法的流程图。激励是由短的(例如,少于1秒)静止期分开的两个同样的3秒的白噪声脉冲。顶部流程是随着第一白噪声脉冲被采用的第一步——然后使用和自适应基于LMS算法计算第一阿尔法滤波器α0(z),但是并不因此限制。然后发送给“峰值探测器”算法,该“峰值探测器”算法使用标准峰值查找方法查找500Hz以下的最大峰值的幅度和位置。如果最大相位变化是在+3和-5度之间,那么不采用进一步动作,并且简单的整数滤波器被用于O1hat,O2hat和HAC(z)。如果最大相位大于3度或小于负5度,那么相位和频率信息被发送给“补偿滤波器”子程序,其中,f1和f2被计算并且模型滤波器O1HAT(Z)和O2HAT(Z)被生成。
但是,如上所述,O1HAT(Z)和O2HAT(Z)的组合可以导致300Hz以下显著的响应损失,并且损失的量依赖3-dB频率的位置和它们的差两者。
所以,下一个阶段(图14的中间图)包括将O1HAT(z)与O2HAT(z)卷积,并且将它与“标准响应”滤波器(当前200Hz单极高通滤波器)比较。然后,校正O1HAT(Z)和O2HAT(Z)的组合的振幅响应所需的线性相位FIR滤波器被确定并且被输出作为HAC(z)。 最后,对于第二白噪声脉冲,O1HAT(Z)、O2HAT(Z)和HAC(z)如图14的底部流程中所示被使用,以计算第二校准滤波器αMP(z),其中,“MP”表示最小相位滤波器。也就是说,滤波器被允许是非线性的。使用标准技术,通过促使第二滤波器αMP(z)具有与振幅响应相同的线性相位,同样可以产生第三滤波器αLP(z)。如果希望,同样可以被截断或者零填补。这些中的任何一个或者两者可以根据应用被用于随后的计算。比如,图15包含实施例中,用于使用校准的传声器阵列的操作的流程图。最小相位滤波器和它的延迟被使用AVAD(声学的语音活动检测)算法并且线性相位滤波器和它的延迟被用于形成用于在DOMA降噪算法中使用的虚拟传声器。
图14顶部和底部部分中使用的40和40.1采样的延迟对于用于实施例的系统是特定的,并且算法没有被如此限制。在那里使用的延迟在算法中在使用它们之前时间对准信号,并且应当对于每个实施例被调节以补偿模拟到数字信道延迟等等。
最后,由于大部分校准是在受到内部反射的非理想的室中进行,所以如图14看到的(正常线性相位)“校准室校正”滤波器可被用于校正已知的校准室问题。可以通过检查数百或者数千个校准响应并且使用基准传声器寻找所有响应或者测量中的类似处,或者通过其它本领域的技术人员已知的方法,近似这个滤波器。为了最佳性能,这需要每个校准室以尽可能同样的方式被设立。一旦这个校正滤波器是已知的,如果初始相位差是在-5和+3度之间或者其他校准滤波器αMP(z),那么它与任何一个校准滤波器α0(z)卷积。如果希望,这个校正滤波器是可选择的并且可以被设置为整体。
现在,系统的校准输出是
其中再次,如果希望,最小相位滤波器可以被转化为等效的振幅响应的线性相位滤波器。
已经显示了减少归因于3-dB频率失配的O1和O2的相位变化的方法。使用500Hz以下的α0(z)峰值的峰值频率和振幅,该使用的方法是为了估计传声器的3-dB频率。对于三个不同的头戴式耳机的3-dB频率的估计在所有频率得到非常准确的幅度响应以及1000Hz以下的良好的相位估计。对于具有显著的(例如,大于+-6度)差异的头戴式耳机,在三个头戴式耳机上的测试显示良好的相位差的减少。虽然这个相对相位的减少常常伴随500Hz以下的响应的显著的减少,但是已经提出将响应恢复为希望的一个的算法,以便所有补偿传声器组合将结束于类似的频率响应。在家用电子产品中这是非常理想的。
在许多不同的头戴式耳机上使用v5校准的结果
如上所述的版本5(使用的v5、αMP(z))校准方法或算法是补偿子程序,使传声器中的失配的机械滤波器的振幅和相位影响最小化。这些失配滤波器可以导致在DC方面的阿尔法滤波器的相位的最多+-25度的变化以及幅度的最多+-10dB的变化。这些变化使得噪声抑制性能变化21dB以上并且清音化性能变化12dB以上,导致头戴式耳机的语音和噪声响应中的显著的变化。v5校准程序在振幅和相位响应失配上具有的影响被检查,并且相关的降噪和清音化性能与先前的传统的版本4(v4、仅仅使用α0(z))校准方法不相上下。这些是使用六个头戴式耳机首先在艾利佛测试的,然后使用100个头戴式耳机在制造商测试。
六个头戴式耳机
v5校准算法在六个单元上被实施和测试。单元中的四个具有大的相位偏移并且两个具有较少的偏移。使用旧的(实线)校准算法以及新的(虚线)校准算法的相对的幅度和相位结果被显示在图16和17中。
图16显示使用v4(实线)和v5(虚线)的六个测试头戴式耳机的幅度响应。在DC处的“闪光”已经被排除,通过响应,将1kHz的标准化差异从8dB以上减少到2dB以下。图16显示新的校准之前和之后的相对的幅度响应。
图17显示使用v4(实线)和v5(虚线)的六个测试头戴式耳机的相位响应。500Hz以下的大的峰值已经被排除,将相位差从34度减少到7度以下。图17显示新的校准之前和之后的相对的相位响应。
因此,v5算法成功排除图16中接近DC的大幅度的闪光,并且在图17中,500Hz以下,相位中的扩展从34度(+-17)到7度以下(+5,-2)。
为了使减少的振幅和相位差与头戴式耳机的性能相互关联,使用v4和v5校准方法两者在所有六个头戴式耳机上进行全降噪/清音化测试,并且结果与使用v5校准的具有最小初始相位差的头戴式耳机不相上下。图16和17中所示的相位和幅度差的减少导致显著改进的降噪/清音化性能,如表5所示。表5显示使用931B-v5作为标准的以dB为单位的近似降噪、清音化和SNR增加的表。仅仅导航器的降噪和清音化变化被用于编辑该表。高达11dB的SNR差被补偿到标准头戴式耳机的0到-3dB以内。校准版本之间的降噪差高达之前的21dB和之后的2dB。清音化差高达之前的12dB和之后的2dB。
表5是实施例中,显示使用头戴式耳机931B-v5作为标准的以dB为单位的近似降噪、清音化和SNR增加的表。仅仅导航器(Pathfinder)的降噪和清音化变化被用于编辑该表。 高达11dB的SNR差被补偿到标准头戴式耳机的0到-3dB以内。校准版本之间的降噪差高达之前的21dB和之后的2dB。清音化差高达之前的12dB和之后的2dB。
表5
通过使用v4,在头戴式耳机之间,在低频区(125到750Hz)的平均降噪变化高达21dB。在v5中,差异下降到2dB。使用v4,清音化变化高达12dB;这在v5中被减少到2dB。降噪和清音化中的大的差异表明它们自己不仅仅在SNR差异上,而是在用户的声音的频谱倾斜上。使用v4,频谱倾斜可以在低频区变化许多dB,意指用户能够以大的相位和幅度差异在头戴式耳机上发出不同的声音。利用v5用户将在任何头戴式耳机上发出相同的声音。
与v4相比,使用v5,语音质量和风阻同样显著地改进。在汽车中生活的测试中,男和女说话者在参与大声的谈话性广播节目的情况下说出几个标准句子,伴随窗口破裂六英寸。在v4头戴式耳机上,在低频区有大量的调制“嗖嗖声”,并且在所有频率都有音感。另一方面,v5头戴式耳机没有调制,没有嗖嗖声或者音感,显著地较高品质、清晰度以及天然的并且频谱类似的输出。
使用v5,头戴式耳机的性能显著地更好,——即使对于没有需要相位校正的单元,归因于使用标准响应并且消声的/校准室补偿滤波器的相位的删除。
99个工厂头戴式耳机
一百个头戴式耳机从生产线中被抽出,使用v4校准,然后使用v5重新校准。幅度和相位响应对于v4和v5阿尔法滤光器两者都被图示。计算平均值和标准偏差,应当精确到5%以内或者如此给定的相对大的采样大小。在v5校准之前失败的一个头戴式耳机可以被采用并且从v4样品去除,留给我们99个可比较的组。
对于v4校准的相位响应显示在图18中。图18显示使用PSKey11文件的频率。这个38度扩展(-21到+17度)对于使用这些传声器的头戴式耳机通常观察到的是典型的。这些头戴式耳机将在它们的性能中广泛地变化,甚至比以上六个头戴式耳机中观察的21dB更多。将这些相位响应与图19中使用v5校准的相同的头戴式耳机比较。图19显示使用PSKey11文件的频率。在500Hz以下扩展已经被减少到小于10度,表现这些头戴式耳机实际的难区分的性能。同样在对于v5的相位响应中有明显较少的波动。有一个返回假信号响应(很可能归因于操作员错误)的头戴式耳机,但是将通过v5错误检验程序被捕获。
图20a和图20b显示使用v4校准的99个头戴式耳机的幅度(顶部)和相位(底部)响应的平均值2502、+-1σ2504、和+-2σ2506。在DC处的幅度中的2σ扩散是差不多13dB,并且对于相位是31度。如果采用+5和-10度作为用于良好性能的截止值,那么这些头戴式耳机中的大约40%的头戴式耳机将比其他头戴式耳机具有显著地不良的性能。图20a和图20b显示对于幅度和相位的平均值(b)和1(g)&2(r)标准偏差。图20a显示使用PSKey11文件的频率。
图21a和图21b显示使用v5校准的99个头戴式耳机的幅度(顶部)和相位(底部)响应的平均值2602、+-1σ2604、和+-2σ2606。在DC处的幅度中的2σ扩展现在仅仅是6dB(规格以内),具有较少的波动,以及对于相位是少于7度,具有显著地较少的波动。这些头戴式耳机应当在性能上是难区分的。图21a和图21b显示对于幅度和相位的平均值(b)和1(g)&2(r)标准偏差。图21a显示使用PSKey11文件的频率。
图20a和图20b中的对于v4校准的平均值2502和标准偏差(对于+1σ的2504、对于+-2σ的2506)显示在DC处有13dB的幅度响应差异,并且对于+-2σ,在500Hz以下有31度扩展。对于图21a和图21b中所示的v5,在幅度上被减少到6dB(是传声器的规格,+-3dB) 以及在相位上被减少到7度。同样,在幅度以及相位响应两者中有明显较少的波动。这是校准精度中惊人的改进,并且将明显对于所有头戴式耳机改进性能。
同样检查的是O1hat/O2hat和HAC(z)之间的关系。这给出将传声器的输出(同样输入到DOMA)将是如何频谱类似的一些想法。然而,这不是最终响应,因为真实的响应将通过O1的自然响应被调制,可以变化+-3dB。对于v5的响应显示在图22中,显示对于O1hat,O2hat和HAC的组合的幅度响应。图22显示使用PSKey11文件的频率。这将通过O1的自然响应被调制以达到响应该系统的最终输入。注释线显示当不需要相位校正时,当前系统在做什么;目前这已经被改变成统一滤波器以及将被更新为用于v6的150Hz的HP,如在此描述的。所有补偿响应都在+-1dB以内以及它们的3dB点在+-25Hz以内——对于最终用户难区分。具有不良v5校准的单元(头戴式耳机2584EE)这里具有正常响应,表示它不是算法问题,允许它的非正常响应。
最后,补偿上的限制似乎是正确的。当前,如果相位在500Hz以下的最大值在-5和+3度之间,那么相位差未被补偿。表6显示对于接近上限的初始最大值的初始最大相位和最终最大相位。对于具有初始最大相位超过5度的头戴式耳机,总是有最大相位的减少。在3-5度之间,有一些相位减少以及一些小的增加。低于3度有少许改变或者小的增加。因而3度是确定是否对相位差补偿的好的上限。
如表6所示,任何具有大于5度的最大相位的头戴式耳机总是减少相位差。在3-5度之间,有一些相位减少,但是同样有一些小的增加(红色本文)。低于3度有少许改变或者小的增加。因而3度是确定是否对相位差补偿的好的上限。
表6是显示实施例中用于接近上限的初始最大值的初始最大相位和最终最大相位的表。对于具有初始最大相位超过5度的头戴式耳机,总是有最大相位的减少。在3-5度之间,有一些相位减少以及一些小的增加。低于3度有少许改变或者小的增加。因而3度是确定是否对相位差补偿的好的上限。
表6
BDA | 初始最大 | 最终最大 |
26184F | 6.3 | 1.6 |
25D75B | 5.3 | 2.0 |
25F100 | 4.8 | 1.4 |
25FD63 | 4.5 | 1.5 |
25A640 | 4.3 | 5.0 |
25A93B | 4.2 | 1.9 |
25ECE0 | 3.5 | 4.5 |
258341 | 3.1 | 4.1 |
2600FD | 3.8 | 4.1 |
25CD77 | 2.0 | 3.7 |
25FDA1 | 3.6 | 3.7 |
259474 | 2.3 | 3.5 |
25984B | 2.3 | 3.2 |
25F0DA | 2.6 | 3.2 |
258575 | 0.4 | 2.8 |
2610EB | 10.0 | 2.8 |
25CD6D | 1.4 | 2.5 |
26012A | 2.0 | 2.5 |
259CF2 | 9.2 | 2.5 |
2596FF | 1.4 | 2.4 |
25A865 | 1.4 | 2.4 |
25A659 | 16.8 | 2.4 |
2553EC | 13.1 | 2.3 |
2595FE | 0.7 | 2.3 |
同样对负值成立,没有相位差的例外增加。也就是说,观察的最大负值来自非常接近于截止值的头戴式耳机,但是最大值从未增加,所以-5度阀值留在原地。
有趣的是,最大的最大相位值(大于+-15度)通常被补偿到+-2.5度以内——惊人的良好的补偿,表示使用的模型是适当的和准确的。
幅度和相位扩展中的减少以及使用v5校准算法的头戴式耳机性能中的后续改进通常已经减少了执行头戴式耳机制造之下的百分比。降噪中的差异已经从21dB减少到2dB。清音化中的差异已经从12dB减少到2dB。使用v4的声音大量不同的头戴式耳机现在使用v5在功能上是同样的。
此外,已经明显减少或者消除了对诸如嗖嗖声、音感及其他刺激的大气噪声进行降噪。消耗的语音质量以及清晰度明显较高,甚至对于具有小的相位差的单元。传声器的频谱倾 斜已经被归一化,使用户发出更自然的声音并且使它更容易设置TX均衡。借助于v5校准实现的性能和耐用中的增加是明显大的。
最后,利用v5校准,使用不同单元的不同算法的试验将更加均一,从测试的算法更多出现性能差异,而不是单元到单元传声器差异。这应当导致所有区域中的改进的性能。
如下所述,在v6校准中,传声器输出被归一化为标准级别以使到DOMA的输入将对于所有头戴式耳机在功能上是同样的,进一步归一化用户的语音以便将在所有噪声环境中发出更自然和均匀的声音。
替换的v5校准方法
通过消除由不同的机械HP滤波器3-dB点引起的阿尔法滤波器中的相位和幅度差异的组合,v5校准程序如上所述明显增加所有头戴式耳机的性能。同样使用“标准响应”(即,200Hz的HP滤波器)来对那些相位校正的单元,归一化O1和O2的频谱响应。然而,没有规定标准增益(也就是说在1kHz的O1的增益可以变化直至规格,+-3dB),并且同样对不需要相位调整的单元(在500Hz以下具有非常小的阿尔法滤波器相位峰值的单元)没有归一化频谱响应。使用对于O1hat,O2hat和HAC的整体滤波器,这些单元具有类似的3-dB频率并且简单地通过。然而,正是由于3-dB频率类似,因此不意指它们在正确的位置中——它们可以从100Hz变化到400+Hz。因此,即使它们具有极小的阿尔法相位差,它们可以具有不同于相位校正单元的频谱响应。下面介绍处理的第二支路,采用不需要相位校正的单元,并将它们的振幅响应归一化成类似于需要相位校正的那些单元。以下使用的“标准响应”现在假定为在750Hz具有希望的振幅响应和固定增益两者。
版本4(v4)和版本5校准
v4校准是典型的领域状态(state-of-the-art)的传声器校准系统。要被校准的两个传声器暴露于设计的声源,以使到达传声器的声学输入在振幅和相位两者中尽可能类似。在这个实施例中使用的源包含1kHz同步音和由寂静的1秒分开的两个3秒白噪声脉冲(在近似125Hz和3875Hz之间频谱平坦)。白噪声用于均等地加权传声器的光谱以尽可能准确的进行自适应滤波器算法。到传声器的输入可以进一步使用基准传声器被变白,以记录和补偿任何来自使用的扩音器的非理想的响应,如本领域的技术人员已知的。
这个系统合理良好地工作,但是500以下的振幅和相位响应中的差异不久变得显而易见。这些差异被追溯到传声器中的机械的高通(HP)滤波器的使用,设计成能使传声器较少地响应风噪声。当这些滤波器的3-dB点远离超过大约50Hz左右时,振幅和相位响应中 的差异足够大以破坏500Hz以下的虚拟传声器的形成。需要对这些HP滤波器进行补偿的新方法,并且这是如上所述的版本5(v5)算法。以下描述v5算法的改良,并且在此相当于版本6(v6)算法或者方法,包括对于所有头戴式耳机响应O1和O2的标准化——甚至具有类似的3-dB点的那些。
版本6(v6)算法
版本6相对简单,因为仅仅需要来自v5的一个额外的步骤,并且仅仅需要不需要补偿的阵列——也就是说,最大相位在500Hz以下的相位匹配阵列小于3度并且大于负5度。代替使用第二白噪声脉冲以计算O1HAT,O2HAT和HAC,我们可以使用它来规定在相位匹配头戴式耳机上的图14中的“标准响应”。我们简单地采用v5的校准输出:
并且将任何一个校准的传声器(任何一个可以被使用,我们使用O1(z))的响应记录到第二白噪声脉冲。然后我们低通过滤并且骤减四个记录的输出,以将频宽从4kHz(8kHz采样率)减少到1kHz。这是不需要的,但是简化以下步骤,因为我们仅仅尝试确定通常总是低于1kHz的3-dB点。然后我们使用诸如功率谱密度(PSD)的常规方法计算校准传声器的近似响应。这个计算不需要以上使用的计算准确度来接近f1和f2,因为我们简单地尝试将总响应和准确度归一化到+-50Hz或者甚至更多是容许的。校准响应与图14中使用的“标准响应”进行比较。使用“标准响应”和计算的响应之间的差异来产生补偿滤波器HBC(z),并且利用HBC(z)滤波器过滤两者的校准输出以恢复标准响应。因此v6输出是
其中再次,仅仅使用不需要相位补偿的阵列。
此外,作为最后的步骤,v5和v6两者的校准输出可以被归一化为在固定频率的相同增益——我们已经使用750Hz获得良好的作用。然而,这个是不需要的,因为+-3dB的制造公差容易地获得并且用户之间音量中的变化通常比6dB更加大。如果希望,机械的增益补偿算法可代替以上用于补偿不同的用户容量。
图23显示实施例中v6算法的流程图,在v6算法中,没有显著的相位差的阵列,还受到归一化成为标准响应。使用任何标准算法(诸如PSD)分析来自白噪声的第二脉冲的 O1的记录响应以计算O1(z)的近似振幅响应。O1振幅响应和希望的“标准响应”之间的差异(在我们的情况中,具有200Hz的3-dB频率的第一级高通RC滤波器)被用于产生补偿滤波器HBC(z),补偿滤波器HBC(z)然后被用于过滤来自v5的两个校准输出。
使用软件更新的替换的v4校准方法(没有所需的再校准)
如上所述的v5和v6校准算法在归一化传声器的响应和减少在接近DC的阿尔法相位和振幅上的失配3-dB频率的影响是有效的。但是,它们需要单元被重新校准,这对于先前运送的头戴式耳机是难以实现的。在这些运送的头戴式耳机不能全部被重新校准的同时,它们仍然可以仅仅从相位和幅度差异的减少得到一些性能。
版本4.1(v4.1)算法
通过对于O1和O3确定3-dB频率f1和f2,在此描述的v5算法减少振幅和相位失配。然后,机械滤波器的RC模型被构造,如在此描述的,使用:
其中
并且fs是采样频率。然后,使用O2hat过滤O1,并且使用O1hat和α1(z)过滤O2,通过计算
因此补偿滤波器αc(z)是
因为A1和A2被限定成略微大于整数,所以这个过滤决不会不稳定。图24a和图24b显示实施例中,使用f1=100Hz以及f2=300Hz,αc(z)的响应。如果f1=300Hz并且f2=100Hz,幅度和相位与图24a和图24b中所示的相反。
使用O1hat和O2hat的HAC(z)的计算如v5中进行。图25显示实施例中对于v4.1校准算法的流程图。由于可以没有新信息,所以对于具有充足的α相位的单元,益处局限于O1HAT、O2HAT以及HAC(z)。图26显示实施例中在DOMA以及AVAD算法之前的新的滤波器的使用。O1hat、O2hat和HAC进入DOMA和AVAD算法的应用未从v5改变。
可以适用于v4校准的作为软件更新的v5校准算法的变化已经显示在v4.1校准算法中。这个更新将减少3-dB失配的影响并且归一化传声器的响应,但是将不会与重新校准单元一样有效。
双重全向传声器阵列(DOMA)
在此描述了提供改进的噪声抑制的双重全向传声器阵列(DOMA)。上面描述了用于校准DOMA的很多系统和方法。与设法通过使外面的噪声源无效来减少噪声的传统的阵列以及算法相比较,实施例的阵列被用于形成两个截然不同的虚拟定向传声器,它们被配置为具有非常类似的噪声响应以及非常不同的语音响应。由DOMA形成的唯一的零讯号是用于从V2中去除用户的语音的一个零讯号。实施例的两个虚拟传声器可以与自适应滤波器算法和/或VAD算法配对以明显减少噪声,而没有使语音失真,超过传统的噪声抑制系统,明显改进希望的语音的SNR。在此描述的实施例在操作中是稳定的,相对于虚拟传声器的模式选择是灵活的,并且已经证实相对于语音源到阵列距离和定位以及温度和校准技术是耐用的。上面描述了用于校准DOMA的很多系统和方法。
图27是实施例中双传声器自适应噪声抑制系统3300。双传声器系统3300在此相当于双重全向传声器阵列(DOMA)3310,但是实施例没有如此限制,双传声器系统3300包括连同与传声器结合的处理或者电路部件一起的物理传声器MIC1和MIC2(以下详细地描述,但不显示在这个图中)。参考图27,在分析单个噪声源3301和到传声器的直接路径中,进入MIC1(3302,可以是物理的或者虚拟的传声器)的总的声学信息由m1(n)表示。进入MIC2(103,同样可以是物理的或者虚拟的传声器)的总的声学信息类似地被标明m2(n)。在z(数字频率)领域中,这些被表示为M1(z)和M2(z)。然后,
M1(z)=S(z)+N2(z)
M2(z)=N(z)+S2(z)
利用
N2(z)=N(z)H1(z)
S2(z)=S(z)H2(z),
以使
Ml(z)=S(z)+N(z)H1(z)
M2(z)=N(z)+S(z)H2(z) 等式1
这对于所有两个传声器系统是普通情况。等式1具有四个未知数并且仅仅两个已知关系式,因此不能被明确地解决。
然而,有另一个方法求出等式1中的一些未知数。分析开始于情况的研究,其中语音没有被生成,也就是说,其中,来自VAD子系统3304(可选择的)的信号等于零。在这种情况下,s(n)=S(z)=0,并且等式1减少为
M1N(z)=N(z)H1(z)
MzN(z)=N(z),
其中,M变量上的下标N表明仅仅噪声被接收。这导致
MlN(z)=M2N(z)H1(z)
当系统是固定的,仅仅噪声被接收时,可以使用任何可用系统识别算法和传声器输出来计算函数H1(z)。计算可以被自适应完成,以使系统可以对噪声中的改变起反应。
方案现在对于作为等式1中的一个未知数的H1(z)是可用的。可以通过使用语音被产生并且VAD等于一个的情况,确定最后的未知数H2(z)。当这个产生时,但是近来的(或许小于1秒)传声器的历史记录表明噪声的低级别,可以假定n(s)=N(z)~0。然后,等式1减少为
M1S(z)=S(z)
M2S(z)=S(z)H2(z),
随后导致
M2S(z)=M1S(z)H2(z)
作为H1(z)计算的倒数。然而,注意,不同的输入被使用(现在仅仅出现语音,然而之前仅仅出现噪声)。计算H2(z)的同时对于H1(z)计算的值被保持恒定(反之亦然),并且假设噪音级别没有足够高到导致H2(z)计算中的错误。
计算H1(z)和H2(z)之后,它们被用于去除来自信号的噪声。如果等式1被重写为
S(z)=M1(z)-H(z)H1(z)
N(z)=M2(z)-S(z)H2(z)
S(z)=M1(z)-[M2(z)-S(z)H2(z)]H1(z)
S(z)[1-H2(z)H1(z)]=M1(z)-M2(z)H1(z),
那么N(z)可以被替代,如显示的,以求出S(z)为
如果转换函数H1(z)和H2(z)可以被描述具有充分的精确度,那么噪声可以被完全地去除并且原始信号恢复。不管噪声的振幅或者频谱特性,这个保持真实的。如果来自语音源有极少的或者没有泄漏进入到M2中,那么H2(z)≈0并且等式3减少为
S(z)≈M1(z)-M2(z)H1(z). 等式4
等式4更加简单的执行并且很稳定,假定H1(z)是稳定的。然而,如果显著的语音能量是在M2(z)中,那么可以出现清音化。以便构造很好执行的系统并且使用等式4,考虑给出以下条件:
R1.在嘈杂的条件中完美的(或者至少很好的)VAD的可用性
R2.十分准确的H1(z)
R3.非常小的(理想的是零)H2(z)。
R4.在语音产生期间,H1(z)基本上不能改变。
R5.在噪声期间,H2(z)基本上不能改变。
如果希望的语音相对于不需要的噪声的SNR足够高,那么条件R1容易满足。“足够”意指根据VAD生成的方法的不同的情况。如果使用VAD振动传感器,如在伯内特7,256,048中,那么非常低的SNR(-10dB或者更少)中的准确的VAD是可能的。声学的——仅仅 使用来自O1和O2的信息的方法还可以返回准确的VAD,但是局限于用于充分的性能的~3dB以上的SNR。
条件R5通常是简单满足的,因为对于大部分应用,传声器不会相对于用户的嘴巴经常或者迅速的改变位置。在可能发生的应用(诸如手自由的会议系统)中,可以通过配置Mic2来满足,以使H2(z)≈0。
满足条件R2、R3和R4更加困难,但是可以给出V1和V2的正确组合。以下检查方法,已经证实在满足以上所述中是有效的,在实施例中,导致极好的噪声抑制性能和最小的语音去除和失真。
在各个实施例中,DOMA可以被导航系统(Pathfinder System)使用作为自适应滤波器系统或者噪声去除。从加利福尼亚州旧金山、AliphCom可得到的导航系统在其它专利和在此引用的专利申请中被详细地描述。可选择地,可以随着一个以上的各个替换的实施例或者结构中的DOMA,使用任何自适应滤波器或者噪声去除算法。
当DOMA以导航系统的方式被使用时,导航系统通常通过在时域中过滤和求和,组合两个传声器信号(例如,Mic1,Mic2)来提供自适应噪声消除。自适应滤波器通常使用从DOMA的第一传声器接收到的信号,以从接收自DOMA的至少一个其它传声器的语音中去除噪声,这依赖于用于噪声源的两个传声器之间的缓慢变化的线性转换函数。接下去处理DOMA的两个通道,产生输出信号,其中,噪声含量相对于语音含量被减弱,如以下详细地描述。
图28是实施例中概括的双传声器阵列(DOMA),双传声器阵列包括阵列3401/3402和语音源S结构。图29是实施例中的系统3500,用于使用两个全向元件O1和O2生成或者产生第一级压差传声器V。实施例的阵列包括相隔距离2d0放置的两个物理传声器3401和3402(例如,全向传声器),和以角度θ远离距离ds被定位的语音源3400。这个阵列是轴向对称的(至少在自由空间中),因此不需要其它角度。来自每个传声器3401和3402的输出可以被延迟(z1和z2),乘以增益(A1和A2),然后如图29中表明的与另一个求和。阵列的输出是或者形成至少一个虚拟传声器,如以下详细地描述。这个操作可以超过任何希望的频率范围。通过改变延迟和增益的幅度和标记,可以实现广大种类的虚拟传声器(VM),这里也称为虚拟定向传声器。还有对于本领域的技术人员是已知的其他构造VM的方法,但是这是通用的一个,并且将在以下的实现中被使用。
作为一个例子,图30是实施例中用于DOMA3600的方框图,DOMA3600包括配置为形成两个虚拟传声器V1和V2的两个物理传声器。实施例中,DOMA包括使用两个传声器或元件O1和O2(3401和3402)的输出所形成的两个第一级压差传声器V1和V2。实施例的DOMA包括作为全向传声器的两个物理传声器3401和3402,如上参考图28和29所述的。来自每个传声器的输出被耦接到处理部件3602,或者电路,并且该处理部件输出表示或者对应于虚拟传声器V1和V2的信号。
在这个实例系统3600中,物理传声器3401的输出被耦接到处理部件3602,处理部件3602包括第一处理路径和第二处理路径,第一处理路径包含第一延迟z11和第一增益A11的应用,第二处理路径包含第二延迟z12和第二增益A12的应用。物理传声器3402的输出被耦接到处理部件3602的第三处理路径和第四处理路径,第三处理路径包含第三延迟z21和第三增益A21的应用,第四处理路径包含第四延迟z22和第四增益A22的应用。第一和第三处理路径的输出被求和以形成虚拟传声器V1,并且第二和第四处理路径的输出被求和以形成虚拟传声器V2。
如以下详细描述的,改变处理路径的延迟和增益的幅度和标记导致广大种类的虚拟传声器(VM),这里也称为虚拟定向传声器,可以被实现。虽然在这个实例中描述的处理部件3602包含生成两个虚拟传声器或者传声器信号的四个处理路径,但是该实施例没有被如此限制。例如,图31是实施例中用于DOMA3700的方框图,DOMA3700包括配置为形成N个虚拟传声器V1到VN的两个物理传声器,其中N是大于1的任何数。因此,DOMA可以包含处理部件3702,处理部件3702具有适当的任何数量的处理路径以形成数量N个的虚拟传声器。
实施例的DOMA可以被耦接或者连接到一个以上的远程装置。在系统配置中,DOMA将信号输出到远程装置。该远程装置包括但是不局限于,蜂窝式移动电话、卫星电话、携带式电话、有线线路电话、因特网电话、无线收发器、无线通信收音机、个人数字助理(PDA)、个人计算机(PC)、头戴式耳机装置、头戴式装置和听筒中的至少一个。
此外,实施例的DOMA可以是与主机装置结合的部件或者子系统。在这个系统配置中,DOMA将信号输出到主机装置的部件或者子系统。该主机装置包括但是不局限于,蜂窝式移动电话、卫星电话、携带式电话、有线线路电话、因特网电话、无线收发器、无线通信收音机、个人数字助理(PDA)、个人计算机(PC)、头戴式耳机装置、头戴式装置和听筒中的至少一个。
作为一个例子,图32是实施例中在此描述的包括DOMA的头戴式耳机或者头戴式装置3800的实例。实施例的头戴式耳机3800包含外壳,外壳具有容纳和保持两个传声器(例如O1和O2)的两个区域或者容器(未显示)。头戴式耳机3800通常是可以被说话者3802戴着的,例如,在说话者的嘴巴附近安置或者保持传声器的头戴式耳机或者耳机。实施例的头戴式耳机3800在说话者的嘴唇附近放置第一物理传声器(例如,物理传声器O1)。第二物理传声器(例如,物理传声器O2)被放置在第一物理传声器之后的一距离。实施例的距离是在第一物理传声器之后的几厘米的范围中,或者如在此描述的(例如,参考图27-31描述的)。DOMA是对称的,并且以和单个近话传声器相同的结构或者方式被使用,但是不被如此限制。
图33是实施例中使用DOMA的用于对声信号进行降噪3900的流程图。降噪3900通过在第一物理传声器和第二物理传声器接收3902声信号开始。响应该声信号,第一传声器信号从第一物理传声器被输出,并且第二传声器信号从第二物理传声器3904被输出。通过生成第一传声器信号和第二传声器信号的第一组合来形成3906第一虚拟传声器。通过生成第一传声器信号和第二传声器信号的第二组合来形成3908第二虚拟传声器,并且第二组合与第一组合不同。第一虚拟传声器和第二虚拟传声器是截然不同的虚拟定向传声器,具有对于噪声基本上类似的响应和对于语音基本上不同的响应。通过组合来自第一虚拟传声器和第二虚拟传声器的信号,降噪3900生成3910输出信号,并且该输出信号包含比声信号少的噪音。
图34是实施例中用于形成4000DOMA的流程图。DOMA的形成4000包含形成4002物理传声器阵列,物理传声器阵列包括第一物理传声器和第二物理传声器。第一物理传声器输出第一传声器信号并且第二物理传声器输出第二传声器信号。虚拟传声器阵列被形成4004为包括第一虚拟传声器和第二虚拟传声器。第一虚拟传声器包括第一传声器信号和第二传声器信号的第一组合。第二虚拟传声器包括第一传声器信号和第二传声器信号的第二组合,并且第二组合与第一组合不同。虚拟传声器阵列包括在朝向人类说话者的语音源的方向上定向的单个零讯号。
用于实施例的自适应噪声抑制系统的VM的结构包含V1和V2中的基本上类似的噪声响应。在此使用的基本上类似的噪声响应意指模拟H1(z)是简单的,并且将在语音期间不改变许多,满足如上所述的条件R2和R4并且允许强的降噪和最小化的渗透。
用于实施例的自适应噪声抑制系统的VM的结构包含对于V2的相对小的语音响应。对于V2的相对小的语音响应意指H2(z)≈0,将满足如上所述的条件R3和R5。
用于实施例的自适应噪声抑制系统的VM的结构进一步包含对于V1的充分的语音响应,以使纯净的语音将具有比由O1捕获的原始语音明显较高的SNR。
随后的描述假定全向传声器O1和O2对于同样的声源的响应已经被归一化,以使它们对于那个源具有精确的相同的响应(振幅和相位)。这可以使用对于本领域的技术人员来说是已知的标准传声器阵列方法(诸如,基于频率的校准)来被实现。
参考用于实施例的自适应噪声抑制系统的VM的结构包含对于V2的相对小的语音响应的条件,看出对于离散系统V2(z)可以被表示为:
V2(z)=O2(z)-z-γβO1(z)
其中
距离d1和d2是分别从O1和O2到语音源的距离(参见图28),以及γ是它们的差除以音速c并乘以采样频率fs。因此γ是采样,但是不需要是整数。对于非整数γ,可以使用分级延迟滤波器(对于本领域的技术人员是已知的)。
重要的是,注意,以上β不是用于表示自适应波束形成中的VM的混合的传统的β;它是系统的物理变量,依赖内部传声器距离d0(是固定的)以及可以改变的距离ds和角度θ。如下所示,对于适当的校准传声器,系统不需要以阵列的精确的β被编程。实际的β(即,由算法使用的β不是物理阵列的β)中的近似10-15%的误差已经以特性极少降低的方式被使用。当几乎没有噪声存在时,β的计算值可以被计算并且为特殊的用户设置,或者可以在语言产生期间被自适应计算。然而,对于名义上的性能,在使用期间的自适应是不需要的。
图35是实施例中,具有β=0.8的虚拟传声器V2相对于在0.1m的距离处的1kHz语音源的线性响应图。虚拟传声器V2相对于语音的线性响应中的零讯号位于0度,是语音典型地预期被定位的地方。图36是实施例中,具有β=0.8的虚拟传声器V2相对于在1.0m的距离处的1kHz噪声源的线性响应的图。V2相对于噪声的线性响应缺少或者没有包含零讯号,意思是检测所有噪声源。
用于V2(z)的上述公式在语音位置具有零讯号,并且将因此相对于语音呈现最小的响应。这在图35中显示,用于具有d0=10.7mm的阵列以及在10cm(β=0.8)的阵列的轴上(θ=0)的语音源。注意,在零度的语音零讯号对于相同的传声器的远声场中的噪声不存在,如图36所示,噪声源距离近似1米。这确保在用户面前的噪声将被检测以使它可以被去除。这与传统的系统不同,传统的系统可能难以去除用户的嘴巴的方向中的噪声。
使用用于V1(z)的通式可以用公式表示V1(z):
由于
V2(z)=O2(z)-z-γβO1(z)
并且,因为对于正向中的噪声
O2N(z)=O1N(z)·z-γ
然后
V2N(z)=O1N(z)·z-γ-z-γβO1N(z)
V2N(z)=(1-β)(O1N(z)·z-γ)
然后,如果这被设置为等于以上的V1(z),那么结果是
因此,以下可以被设置
dA=γ
dB=0
αA=1
αB=β
以获得
V1(z)=O1(z)·z-γ-βO2(z)
对于以上V1和V2的定义意指对于噪声H1(z)是:
如果振幅噪声响应几乎相同,那么具有全通滤波器的形式。这具有被容易地和准确地模拟的优点,特别是幅度响应,满足R2。
这个公式确保噪声响应将尽可能类似,而且语音响应将与(1-β2)成正比。因为β是从O1和O2到语音源的距离的比率,所以它受阵列的大小以及从阵列到语音源的距离的影响。
图37是实施例中,具有β=0.8的虚拟传声器V1相对于在0.1m的距离处的1kHz语音源的线性响应图。虚拟传声器V1相对于语音的线性响应缺少或者没有包含零讯号,并且对于语音的响应大于图4中所示的响应。
图38是实施例中,具有β=0.8的虚拟传声器V1相对于在1.0m的距离处的1kHz噪声源的线性响应的图。虚拟传声器V1相对于噪声的线性响应缺少或者没有包含零讯号,并且该响应非常类似于图5中所示的V2。
图39是实施例中,对于100、500、1000、2000、3000以及4000Hz的频率,具有β=0.8的虚拟的传声器V1相对于在0.1m的距离处的语音源的线性响应的图。图40是显示对于实施例的阵列以及对于传统的心形传声器,对于语音的频率响应的比较的图。图40显示在0度的频率响应。
V1相对于语音的响应被显示在图37中并且相对于噪声的响应被显示在图38中。注意。与V2进行比较的语音响应的差异被显示在图9中,并且噪声响应的类似性被显示在图36中。同样注意,显示在图37中的对于V1的语音响应的定位与传统的系统的定位完全相反,其中响应的主瓣通常朝向语音源定位。其中V1的语音响应的主瓣远离语音源被定位的实施例的定位,意指V1的语音敏感性比正常定向传声器低,但是在阵列的轴的近似+-30度以内对于所有频率是平坦的,如图39所示。对于语音的响应的这个平坦度意指不需要成形的后置滤波器来恢复全向频率响应。这得到代价——如图40所示,显示具有β=0.8的V1 的语音响应以及心形传声器的语音响应。V1的语音响应近似0到~13dB,小于近似500和7500Hz之间的正常定向传声器,并且近似0到10+dB,对于近似16000Hz的采样频率,大于近似500Hz以下以及7500Hz以上的定向传声器。然而,使用这个系统,可以做出优越的噪声抑制,超过对于初始不良的SNR的补偿。
应该注意,图35-38假定语音位于近似0度以及近似10cm,β=0.8,并且在所有角度的噪声位于远离阵列的中点的近似1.0米处。通常,噪声距离不需要是1m以上,但是降噪对于那些距离是最佳的。对于小于近似1m的距离,降噪将不是有效的,归因于V1和V2的噪声响应中的较大的不同。这没有证实是实际用途中的障碍——实际上,可以看作是特征。任何远离耳机~10cm的“噪声”源可能希望被捕获和传输。
V2的语音零讯号意指VAD信号不再是关键部件。VAD的目的是确保系统将不对准语音,并且然后随后去除它,导致语音失真。然而,如果V2没有包含语音,那么自适应系统不能对准语音并且不能去除它。结果,系统可以始终降噪,而不用担忧清音化,并且所得到的纯净的声音然后可以被用来产生VAD信号,用于在随后的诸如频谱相减的单个信道噪声抑制算法中使用。此外,H1(z)的绝对值上的约束(即,限制它为小于二的绝对值)可以防止系统充分地对准语音,即使它被检测。然而,实际上,归因于错误定位的V2零讯号和/或回声或者其它现象,语音可以存在,并且VAD传感器或者其它只有声学的VAD被推荐以使语音失真最小化。
根据该应用,在噪声抑制算法中β和γ可以被固定,或者当该算法表示在几乎没有噪声的情况下发生语言产生时,它们可以被估计。在任一情况中,可能有系统的实际β和γ的估计误差。以下描述检查这些误差以及它们对系统的性能的影响。如上,系统的“良好性能”表示有充分的降噪以及最小的清音化。
V1和V2的响应上的不正确的β和γ的影响可以通过检查以上定义被看出:
其中βT和γT表示用于噪声抑制算法的β和γ的理论上的估计值。实际上,O2的语音响应是
其中βR和γR表示物理系统的实际β和γ。β和γ的理论值和实际值之间的差异可能是由于语音源的错误位置(它不在被假定的位置)和/或空气温度中的变化(它改变音速)。将用于语音的O2的实际响应插入到用于V1和V2的上述等式中,得到
如果相位上的差被表示为
γR=γT+γD
并且振幅上的差为
βR=BβT
于是
V2中的语音取消(直接影响清音化的程度)以及V1的语音响应将依赖于B和D两者。接着是D=0的情况的研究。图41是实施例中,显示V1(顶部,虚线)和V2(底部,实线)对比ds被假定为0.1m的B的语音响应的图。该图显示了V2中相对宽的空间零讯号。图42是显示实施例中,图36中所示的V1/V2语音响应对比B的比率的图。V1/V2的比率对于所有0.8<B<1.1是10dB以上,并且其意指系统的物理β不需要为了良好性能而被精确地模拟。图43是实施例中假定ds=10cm以及θ=0,B对比实际的ds的图。图44是实施例中,随着ds=10cm并且假定ds=10cm,B对比θ的图。
在图41中,当ds被认为近似10cm并且θ=0时,与O1进行比较的对于V1(上方,虚线)和V2(下面,实线)的语音响应被显示对比B。当B=1时,V2中不存在语音。在图42中,显示图36中的语音响应的比率。当0.8<B<1.1时,V1/V2比率是近似10dB以上——对于良好性能是足够的。明显地,如果D=0,B可以显著的变化,而没有不利地影响系统的性能。再次,假定已经进行传声器的校准以使它们的振幅和相位响应两者对于同样的源是相同的。
因种种原因,B系数可以是非整数。到语音源的距离或者阵列轴和语音源的相对方位中的一个或者两者可以不同于预期的。如果对于B包括距离失配和角度失配两者,那么
其中,再次,T下标表示理论值并且R表示实际值。在图43中,假定ds=10cm并且θ=0,相对于实际的ds来图示系数B。因此,如果语音源在阵列的轴上,那么实际距离可以从近似5cm变化到18cm,而没有显著地影响性能——大量。类似地,图44显示如果语音源位于近似10cm的距离但不在阵列的轴上,会发生什么。在这种情况下,角度可以变化直至近似+-55度,并且仍然导致B小于1.1,确保良好性能。这是大量允许的角偏差。如果有角度误差和距离误差两者,那么如果偏移将引起足够的性能,以上等式可以被用来确定。当然,如果在语音期间允许βT的值更新,基本上跟踪语音源,那么对于几乎所有的结构,B可以被维持接近整数。
研究遵从B是整数但是D是非零的情况。如果语音源不在被认为的地方或者如果音速与被认为的不同,那么这个可能发生。从以上等式5,可以看出,减弱对于语音的V2中的语音零讯号的系数是
或者在连续的s域中
N(s)=Be-Ds-1。
因为γ是V1与V2进行比较语音到达之间的时差,所以相对于阵列的轴和/或通过温度变化,可以是语音源的角度的位置的估计中的误差。
检查温度灵敏度,音速随着温度变化为
c=331.3+(0.606T)m/s
其中T是摄氏温度。随着温度下降,音速同样减小。设置20C作为设计温度并且设置最大预期的温度范围为-40C到+60C(-40F到140F)。在20C的设计音速是343m/s,并且在-40C最慢的音速将是307m/s,在60C的最快的音速是362m/s。设置阵列长度(2d0)为21mm。对于阵列的轴上的语音源,对于音速中的最大变化的传播时间差是
或者近似7微秒。对于N(s),给定B=1和D=7.2微秒的响应显示在图45a和图45b中。图45a和图45b是实施例中,随着B=1并且D=-7.2微秒,N(s)的振幅(顶部)和 相位(底部)响应的图。结果的相位差明显的比低频更多地影响高频。对于所有小于7kHz的频率,振幅响应小于近似-10dB,并且在8kHz只有大约-9dB。
因此,假定B=1,这个系统将很可能在高达近似8kHz的频率处很好地执行。这意指在特殊宽的温度范围(例如,-40C到80C)中,即使高达8kHz,适当补偿的系统也将很好地工作。注意,归因于延迟估算误差的相位失配使得N(s)在高频比在低频大许多。
如果B不是整数,那么系统的耐用性减少,因为来自非整数B的影响与非零D的影响累加。图46a和图46b显示对于B=1.2并且D=7.2微秒的振幅和相位响应。
图46a和图46b是实施例中,随着B=1.2并且D=-7.2微秒,N(s)的振幅(顶部)和相位(底部)响应的图。非整数B影响整个频率范围。现在,N(s)只对于小于近似5kHz的频率是在近似-10dB以下,并且在低频区的响应大许多。这种系统在5kHz以下将仍然很好地执行并且对于5kHz以上的频率将仅仅遭受略微升高的清音化。对于最终性能,温度传感器可以被结合到系统中,以允许算法调节γT作为温度变化。
其中D可以是非零的另一个方法是当语音源不在被认为的地方时——具体地,从阵列的轴到语音源的角度是不正确的。到源的距离同样可能是不正确的但是引入误差B,不是D。
参考图28,可见,对于两个语音源(各自具有它们自己的ds和θ),语音在O1的到达和在O2的到达之间的时差是
其中
对于θ1=0度和θ2=30度并且假定B=1的得到的V2语音取消响应显示在图47a和图47b中。图47a和图47b是实施例中,归因于以q1=0度以及q2=30度弄错语音源的位置,影响V2中的语音取消的振幅(顶部)和相位(底部)响应的图。注意,对于频率低于6kHz,取消仍然在-10dB以下。图47a和图47b显示了d1=1,θ1=0,d2=1,并且θ2=30的取消。
对于近似6kHz以下的频率,在近似-10dB以下仍然取消,如此这个类型的误差将不会显著地影响系统的性能。然而,如果θ2被增加到近似45度,如图48a和图48b所示,仅仅对于近似2.8kHz以下的频率,取消是在近似-10dB以下。图48a和图48b是实施例中,归因于以q1=0度以及q2=45度弄错语音源的位置,影响V2中的语音取消的振幅(顶部)和相位(底部)响应的图。现在,仅仅对于频率低于大约2.8kHz,取消是低于-10dB,并且性能减少是预期的。近似4kHz以上的不良的V2语音取消可能对于那些频率引起显著的清音化。图48a和图48b显示了d1=1,θ1=0,d2=1,并且θ2=45的取消。
以上描述已经假定传声器O1和O2被校准,因此,对于振幅和相位,它们对远离相同距离定位的源的响应是同样的。这未必总是可行的,因此以下介绍更加实际的校准过程。它不会是同样准确的,但是更加简单地执行。以限定滤波器α(z)开始,以使:
O1C(z)=∝(z)O2C(z)
其中,“C”下标表示使用已知的校准源。对于使用最简单的一个是用户的语音。那么
O1S(z)=∝(z)O2C(z)
传声器定义现在是:
V1(z)=O1(z)·z-γ-β(z)α(z)O2(z)
V2(z)=α(z)O2(z)-z-γβ(z)O1(z)
系统的β应当被固定,并且尽可能接近于实际值。实际上,系统不会对β的变化敏感,并且近似+-5%的误差是容易忍受的。在当用户产生语音但是几乎没有噪声期间,系统可以对准α(z)以去除尽可能多的语音。这通过以下实现:
1.利用在“MIC1”位置中的βO1S(z)z-γ,在“MIC2”位置中的O2S(z)以及在H1(z)位置中的α(z),构造如图27所示的自适应系统。
2.在语音期间,适应α(z)以使剩余系统最小化。
3.如上构造V1(z)和V2(z)。
简单的自适应滤波器可以用于α(z),因此仅仅传声器之间的关系被很好地模拟。仅仅当语音通过用户被产生时,实施例的系统对准。当语音在无噪声的情况下被产生时,如同SSM的传感器在确定中是非常宝贵的。如果语音源被固定在适当位置并且将不会在使用期间显著的变化(诸如当阵列在听筒上时),那么自适应应当是不常见的,并且缓慢更新,以便最小化在对准期间通过存在的噪声引入的任何误差。
上述公式工作得非常好,因为V1和V2的噪声(远场)响应是非常类似的,而语音(近场)响应是非常不同的。然而,用于V1和V2的公式可以改变并且总体上仍然产生系统的良好性能。如果从以上获得对于V1和V2的定义并且新变量B1和B2被插入,那么结果是:
其中B1和B2两者都是正数或者零。如果B1和B2被设置等于整数,那么最佳系统结果如上所述。如果B1允许为不同于整数,那么V1的响应受影响。接着是B2留在1并且B1减小的情况的研究。随着B1下跌为近似零,V1变得更少和较少定向的,直到当B1=0时它变成简单的全向传声器。因为B2=1,语音零讯号保持在V2中,因此非常不同的语音响应对于V1和V2保持。然而,噪声响应更加类似,因此降噪将不会有效。然而,实际上,系统仍然很好地执行。B1同样可以从整数增加并且系统将再次仍然很好地降噪,仅仅不会与B1=1一样好。
如果B2允许改变,V2中的语音零讯号受影响。只要语音零讯号仍然十分地低沉,系统将仍然很好地执行。降至近似B2=0.6的实际值已经显示足够的性能,但是为了最佳性能,推荐设置B2接近于整数。
类似地,变量ε和Δ可以被引入,因此:
V1(z)=(ε-β)O2N(z)+(1+Δ)O1N(z)z-γ
V2(z)=(1+Δ)O2N(z)+(ε-β)OlN(z)z-γ
这个公式同样允许虚拟传声器响应改变,但是保持H1(z)的全部通过的特性。
总之,系统足够灵活以在各种B1值很好地操作,但是为了最佳的性能,B2值应当接近整数以限制清音化。
图49a和图49b显示,在非常大声的(~85dBA)音乐/语音噪声环境中,在Bruel和Kjaer的头和躯干模拟器(HATS)上使用0.83的线性β并且B1=B2=1,对于2d0=19毫米阵列的实验结果。图49a和图49b显示初始V1(顶部)和纯净的V1(底部),噪声中简化的VAD(虚线)。以上讨论的替代的传声器校准技术被用于校准该传声器。噪声已经被减少大约25dB,并且语音难以被影响,没有值得注意的失真。显然,该技术显著地增加初始语音的SNR,远胜过传统的噪声抑制技术。
在此描述的实施例包含在处理器上执行的方法,该方法包括将信号输入到第一传声器和第二传声器中。实施例的方法包括确定第一传声器对信号的第一响应。实施例的方法包 括确定第二传声器对信号的第二响应。实施例的方法包括从第一响应和第二响应生成第一传声器的第一滤波器模型和第二传声器的第二滤波器模型。实施例的方法包括通过将第二滤波器模型应用到第一传声器的第一响应以及将第一滤波器模型应用到第二传声器的第二响应来形成校准的传声器阵列。
在此描述的实施例包含一种在处理器上执行的方法,该方法包括:将信号输入到第一传声器和第二传声器中;确定第一传声器对信号的第一响应;确定第二传声器对信号的第二响应;从第一响应和第二响应生成第一传声器的第一滤波器模型和第二滤波器模型;以及通过将第二滤波器模型应用到第一传声器的第一响应以及将第一滤波器模型应用到第二传声器的第二响应来形成校准的传声器阵列。
实施例的方法包括生成使第一响应和第二响应归一化的第三滤波器模型。
实施例的第三滤波器模型的生成包括将第一滤波器模型与第二滤波器模型进行卷积。
实施例的方法包括将卷积的结果与标准响应滤波器进行比较。
实施例的标准响应滤波器包括高通滤波器,高通滤波器具有在近似200赫兹的频率处的极点。
实施例的第三滤波器模型校正卷积的结果的振幅响应。
实施例的第三滤波器模型是线性相位有限脉冲响应(FIR)滤波器。
实施例的方法包括将第三滤波器模型应用到由将第二滤波器模型应用到第一传声器的第一响应所产生的信号。
实施例的方法包括将第三滤波器模型应用到由将第一滤波器模型应用到第二传声器的第二响应所产生的信号。
实施例的方法包括将第二信号输入到系统中。实施例的方法包括通过将第二滤波器模型和第三滤波器模型应用到由第二信号所产生的第一传声器的输出来确定第一传声器的第三响应。实施例的方法包括通过将第一滤波器模型和第三滤波器模型应用到由第二信号所产生的第二传声器的输出来确定第二传声器的第四响应。
实施例的方法包括从第三响应和第四响应的组合生成第四滤波器模型。
实施例的第四滤波器模型的生成包括将自适应滤波器应用到第三响应和第四响应。
实施例的第四滤波器模型是最小相位滤波器模型。
实施例的方法包括从第四滤波器模型生成第五滤波器模型。
实施例的第五滤波器模型是线性相位滤波器模型。
实施例的形成校准的传声器阵列包括将第三滤波器模型应用到第一滤波器模型的输出和第二滤波器模型的输出中的至少一个。
实施例的形成校准的传声器阵列包括将第三滤波器模型应用到第一滤波器模型的输出和第二滤波器模型的输出。
实施例的方法包括将第二滤波器模型和第三滤波器模型应用到第一传声器的信号输出。
实施例的方法包括将第一滤波器模型、第三滤波器模型和第五滤波器模型应用到第二传声器的信号输出。
实施例的校准的传声器阵列包括振幅响应校准和相位响应校准。
实施例的方法包括通过将第二滤波器模型和第三滤波器模型应用到第一传声器的信号输出来生成第一传声器信号。实施例的方法包括通过将第一延迟滤波器应用到第一传声器信号来生成第一延迟的第一传声器信号。实施例的方法包括将第一延迟的第一传声器信号输入到处理部件,其中,处理部件生成包括第一虚拟传声器和第二虚拟传声器的虚拟传声器阵列。
实施例的方法包括通过将第一滤波器模型、第三滤波器模型和第五滤波器模型应用到第二传声器的信号输出来生成第二传声器信号。实施例的方法包括将第二传声器信号输入到处理部件。
实施例的方法包括通过将第二延迟滤波器应用到第一传声器信号来生成第二延迟的第一传声器信号。实施例的方法包括将第二延迟的第一传声器信号输入到声学的语音活动检测器。
实施例的方法包括通过将第一滤波器模型、第三滤波器模型和第四滤波器模型应用到第二传声器的信号输出来生成第三传声器信号。实施例的方法包括将第三传声器信号输入到声学的语音活动检测器。
实施例的方法包括通过将第二滤波器模型和第三滤波器模型应用到第一传声器的信号输出来生成第一传声器信号。实施例的方法包括通过将第一滤波器模型、第三滤波器模型和第五滤波器模型应用到第二传声器的信号输出来生成第二传声器信号。
实施例的方法包括通过生成第一传声器信号和第二传声器信号的第一组合来形成第一虚拟的传声器。实施例的方法包括通过生成第一传声器信号和第二传声器信号的第二组合来形成第二虚拟传声器,其中第二组合与第一组合不同,其中,第一虚拟传声器和第二虚 拟传声器是截然不同的虚拟定向传声器,具有对于噪声实质上相似的响应和对于语音实质上不同的响应。
实施例的形成第一虚拟传声器包含形成第一虚拟传声器,以对于缺少零讯号的语音具有第一线性响应,其中语音是人类的语音。
实施例的形成第二虚拟传声器包含形成第二虚拟传声器,以对于包含在朝向语音的源的方向上定位的单个零讯号的语音具有第二线性响应。
实施例的单个零讯号是具有比第二线性响应的任何其它区域的测量响应级别低的测量响应级别的第二线性响应的区域。
实施例的第二线性响应包含在远离语音的源的方向上定位的主要的波瓣。
实施例的主要的波瓣是具有比第二线性响应的任何其它区域的测量响应级别大的测量响应级别的第二线性响应的区域。
实施例的第二信号是白噪声信号。
实施例的第一滤波器模型和第二滤波器模型的生成包括:通过将自适应滤波器应用到第一响应和第二响应来计算校准滤波器;以及
确定校准滤波器的最大峰值的峰值幅度和峰值位置,其中,最大峰值是位于近似500赫兹的频率以下的最大峰值。
当实施例的校准滤波器的最大相位变化是近似在3度和负5度之间的范围中时,第一滤波器模型和第二滤波器模型的生成包括对于第一滤波器模型、第二滤波器模型和第三滤波器模型中的每一个使用整数滤波器。
实施例的方法包括,当校准滤波器的最大相位变化比3度大时,计算对应于第一传声器的第一频率和对应于第二传声器的第二频率。
实施例的第一频率和第二频率是3分贝频率。
实施例的第一滤波器模型和第二滤波器模型的生成包括使用第一频率和第二频率以生成第一滤波器模型和第二滤波器模型。
实施例的第一滤波器模型是无限脉冲响应(IIR)模型。
实施例的第二滤波器模型是无限脉冲响应(IIR)模型。
实施例的信号是白噪声信号。
在此描述的实施例包含一种系统,该系统包括具有第一传声器和第二传声器的传声器阵列。实施例的系统包括耦接到第二传声器的输出的第一滤波器。第一滤波器模拟第一传 声器对噪声信号的响应。实施例的系统包括耦接到第一传声器的输出的第二滤波器。第二滤波器模拟第二传声器对噪声信号的响应。实施例的系统包括耦接到第一滤波器和第二滤波器的处理器。
在此描述的实施例包含一种系统,该系统包括:具有第一传声器和第二传声器的传声器阵列;耦接到第二传声器的输出的第一滤波器,其中,第一滤波器模拟第一传声器对噪声信号的响应;耦接到第一传声器的输出的第二滤波器,其中,第二滤波器模拟第二传声器对噪声信号的响应;以及耦接到第一滤波器和第二滤波器的处理器。
实施例的系统包括耦接到第一滤波器和第二滤波器中的至少一个的输出的第三滤波器。
实施例的第三滤波器使第一响应和第二响应归一化。
通过将第一滤波器的响应与第二滤波器的响应进行卷积并且将卷积的结果与标准响应滤波器进行比较来生成实施例的第三滤波器。
实施例的第三滤波器校正卷积的结果的振幅响应。
实施例的第三滤波器是线性相位有限脉冲响应(FIR)滤波器。
实施例的系统包括将第三滤波器耦接到第二滤波器的输出。
实施例的系统包括将第三滤波器耦接到第一滤波器的输出。
实施例的系统包括耦接到第三滤波器的输出的第四滤波器,第三滤波器被耦接到第二传声器。
实施例的第四滤波器模型是最小相位滤波器。
通过以下生成实施例的第四滤波器:通过将第二滤波器的响应和第三滤波器的响应应用到由第二信号所产生的第一传声器的输出来确定第一传声器的第三响应;通过将第一滤波器的响应和第三滤波器的响应应用到由第二信号所产生的第二传声器的输出来确定第二传声器的第四响应;以及从第三响应和第四响应的组合生成第四滤波器。
实施例的第四滤波器的生成包括将自适应滤波器应用到第三响应和第四响应。
实施例的系统包括是线性相位滤波器的第五滤波器。
从第四滤波器生成实施例的第五滤波器。
实施例的系统包括第四滤波器和第五滤波器中的至少一个被耦接到第三滤波器的输出,第三滤波器的输出被耦接到第一滤波器和第二传声器。
实施例的系统包括从信号通道输出第一传声器信号,信号通道包括耦接到第二滤波器和第三滤波器的第一传声器。实施例的系统包括通过将第一延迟滤波器应用到第一传声器信号来生成第一延迟的第一传声器信号。实施例的系统包括将第一延迟的第一传声器信号输入到处理器,其中,处理器生成包括第一虚拟传声器和第二虚拟传声器的虚拟传声器阵列。
实施例的系统包括从信号通道输出第二传声器信号,信号通道包括耦接到第一滤波器、第三滤波器和第五滤波器的第二传声器。实施例的系统包括将第二传声器信号输入到处理器。
实施例的系统包括通过将第二延迟滤波器应用到第一传声器信号来生成第二延迟的第一传声器信号。实施例的系统包括将第二延迟的第一传声器信号输入到声学的语音活动检测器(AVAD)。
实施例的系统包括从信号通道输出第三传声器信号,信号通道包括耦接到第一滤波器、第三滤波器和第四滤波器的第二传声器。实施例的系统包括将第三传声器信号输入到声学的语音活动检测器。
实施例的系统包括从信号通道输出第一传声器信号,信号通道包括耦接到第二滤波器和第三滤波器的第一传声器。实施例的系统包括从信号通道输出第二传声器信号,信号通道包括耦接到第一滤波器、第三滤波器和第五滤波器的第二传声器。
实施例的系统包括第一虚拟传声器,其中,通过生成第一传声器信号和第二传声器信号的第一组合来形成第一虚拟传声器。实施例的系统包括第二虚拟传声器,其中,通过生成第一传声器信号和第二传声器信号的第二组合来形成第二虚拟传声器,其中第二组合与第一组合不同,其中,第一虚拟传声器和第二虚拟传声器是截然不同的虚拟的定向传声器,具有对于噪声实质上相似的响应和对于语音实质上不同的响应。
实施例的形成第一虚拟传声器包含形成第一虚拟传声器,以对于缺少零讯号的语音具有第一线性响应,其中语音是人类的语音。
实施例的形成第二虚拟传声器包含形成第二虚拟传声器,以对于包含在朝向语音的源的方向上定位的单个零讯号的语音具有第二线性响应。
实施例的单个零讯号是具有比第二线性响应的任何其它区域的测量响应级别低的测量响应级别的第二线性响应的区域。
实施例的第二线性响应包含在远离语音的源的方向上定位的主要的波瓣。
实施例的主要的波瓣是具有比第二线性响应的任何其它区域的测量响应级别平大的测量响应级别的第二线性响应的区域。
实施例的生成第一滤波器和第二滤波器包括:通过将自适应滤波器应用到第一响应和第二响应来计算校准滤波器;以及确定校准滤波器的最大峰值的峰值幅度和峰值位置,其中,最大峰值是位于近似500赫兹的频率以下的最大峰值。
当实施例的校准滤波器最大相位变化是在近似正三(3)度和负五(5)度之间的范围中时,第一滤波器和第二滤波器的生成包括对第一滤波器、第二滤波器和第三滤波器中的每一个使用整数滤波器。
实施例的系统包括,当校准滤波器的最大相位变化比正三(3)度大时,计算对应于第一传声器的第一频率和对应于第二传声器的第二频率。
实施例的第一频率和第二频率中的每一个是三分贝频率。
实施例的第一滤波器和第二滤波器的生成包括使用第一频率和第二频率来生成第一滤波器和第二滤波器。
实施例的第一滤波器是无限脉冲响应(IIR)滤波器。
实施例的第二滤波器是无限脉冲响应(IIR)滤波器。
实施例的信号是白噪声信号。
实施例的传声器阵列包括振幅响应校准和相位响应校准。
在此描述的实施例包含一种系统,该系统包括:具有第一传声器和第二传声器的传声器阵列。实施例的系统包括耦接到第二传声器的输出的第一滤波器。第一滤波器模拟第一传声器对噪声信号的响应并且输出第二传声器信号。实施例的系统包括连接到第一传声器的输出的第二滤波器。第二滤波器模拟第二传声器对噪声信号的响应并且输出第一传声器信号。第一传声器信号利用第二传声器信号被校准。实施例的系统包括处理器,该处理器连接到传声器阵列,并且从第一传声器信号和第二传声器信号生成包括第一虚拟的传声器和第二虚拟的传声器的虚拟的传声器阵列。
在此描述的实施例包含一种系统,该系统包括:具有第一传声器和第二传声器的传声器阵列;耦接到第二传声器的输出的第一滤波器,其中,第一滤波器模拟第一传声器对噪声信号的响应,并且输出第二传声器信号;耦接到第一传声器的输出的第二滤波器,其中,第二滤波器模拟第二传声器对噪声信号的响应,并且输出第一传声器信号,其中,利用第 二传声器信号校准第一传声器信号;以及处理器,耦接到传声器阵列,并且从第一传声器信号和第二传声器信号生成包括第一虚拟传声器和第二虚拟传声器的虚拟传声器阵列。
实施例的系统包括耦接到第一滤波器和第二滤波器中得至少一个的输出的第三滤波器。
实施例的第三滤波器使第一响应和第二响应归一化。
实施例的第三滤波器是线性相位有限脉冲响应(FIR)滤波器。
实施例的第三滤波器被耦接到第二滤波器的输出。
实施例的第三滤波器被耦接到第一滤波器的输出。
实施例的系统包括耦接到信号通道的输出的第四滤波器,信号通道包括第三滤波器和第二传声器。
实施例的第四滤波器模型是最小相位滤波器。
实施例的系统包括耦接到信号通道的输出的第五滤波器,信号通道包括第三滤波器和第二传声器。
实施例的第五滤波器模型是线性相位滤波器。
实施例的第五滤波器来源于第四滤波器。
实施例的系统包括耦接到信号通道的输出的第四滤波器和第五滤波器中的至少一个,信号通道包括第三滤波器、第一滤波器和第二传声器。
实施例的系统包括从信号通道输出第一传声器信号,信号通道包括耦接到第二滤波器和第三滤波器的第一传声器。实施例的系统包括
通过将第一延迟滤波器应用到第一传声器信号来生成第一延迟的第一传声器信号。实施例的系统包括将第一延迟的第一传声器信号输入到处理器,其中,处理器生成包括第一虚拟传声器和第二虚拟传声器的虚拟传声器阵列。
实施例的系统包括从信号通道输出第二传声器信号,信号通道包括耦接到第一滤波器、第三滤波器和第五滤波器的第二传声器。实施例的系统包括将第二传声器信号输入到处理器。
实施例的系统包括通过将第二延迟滤波器应用到第一传声器信号来生成第二延迟的第一传声器信号。实施例的系统包括将第二延迟的第一传声器信号输入到语音活动检测器(VAD)。
实施例的系统包括从信号通道输出第三传声器信号,信号通道包括耦接到第一滤波器、第三滤波器和第四滤波器的第二传声器。实施例的系统包括将第三传声器信号输入到语音活动检测器(VAD)。
实施例的系统包括从信号通道输出第一传声器信号,信号通道包括耦接到第二滤波器和第三滤波器的第一传声器。实施例的系统包括从信号通道输出第二传声器信号,信号通道包括耦接到第一滤波器、第三滤波器和第五滤波器的第二传声器。
通过以下生成实施例的第一滤波器以及第二滤波器:通过将自适应滤波器应用到第一响应和第二响应来计算校准滤波器;以及确定校准滤波器的最大峰值的峰值幅度和峰值位置,其中,最大峰值是位于近似500赫兹的频率以下的最大峰值。
当实施例的校准滤波器最大相位变化是近似在正三(3)度和负五(5)度之间的范围中时,第一滤波器和第二滤波器的生成包括对于第一滤波器、第二滤波器和第三滤波器中的每一个使用整数滤波器。
实施例的系统包括,当校准滤波器的最大相位变化比正三(3度)大时,计算对应于第一传声器的第一频率和对应于第二传声器的第二频率。
实施例的第一频率和第二频率是三分贝频率。
实施例的第一频率和第二频率被用于生成第一滤波器和第二滤波器。
实施例的第一滤波器是无限脉冲响应(IIR)滤波器。
实施例的第二滤波器是无限脉冲响应(IIR)滤波器。
实施例的信号是白噪声信号。
实施例的传声器阵列包括振幅响应校准和相位响应校准。
实施例的系统包括自适应噪声去除应用程序,自适应噪声去除应用程序在处理器上运行,并且通过形成从第一虚拟传声器和第二虚拟传声器输出的信号的多个组合生成降噪的输出信号,其中,降噪的输出信号包含比在传声器阵列接收的声信号少的噪音。
实施例的第一和第二传声器是全向的。
实施例的第一虚拟传声器对于缺少零讯号的语音具有第一线性响应,其中语音是人类的语音。
实施例的第二虚拟的传声器对于包含在朝向语音的源的方向上定位的单个零讯号的语音具有第二线性响应。
实施例的单个零讯号是具有比第二线性响应的任何其它区域的测量响应级别低的测量响应级别的第二线性响应的区域。
实施例的第二线性响应包含在远离语音的源的方向上定位的主要的波瓣。
实施例的主要的波瓣是具有比第二线性响应的任何其它区域的测量响应级别大的测量响应级别的第二线性响应的区域。
实施例的第一传声器和第二传声器沿着轴被安置,并且分开第一距离。
实施例的轴的中点距离自生成语音的语音源第二距离,其中语音源位于由相对于中点的角度所限定的方向上。
实施例的第一虚拟传声器包括从第一传声器信号减去第二传声器信号。
实施例的第一传声器信号被延迟。
实施例的延迟被乘方,乘方的方次与语音到达第一虚拟传声器和语音到达第二虚拟传声器之间的时差成正比。
实施例的延迟被乘方,乘方的方次与乘以参量的采样频率成正比,参量等于从第三距离减去第四距离,第三距离是第一传声器和语音源之间,并且第四距离是第二传声器和语音源之间。
实施例的第二传声器信号被乘以比率,其中比率是第三距离与第四距离的比率,第三距离是第一传声器和语音源之间,并且第四距离是第二传声器和语音源之间。
实施例的第二虚拟传声器包括从第二传声器信号减去的第一传声器信号。
实施例的第一传声器信号被延迟。
实施例的延迟被乘方,乘方的方次与语音到达第一虚拟传声器和语音到达第二虚拟传声器之间的时差成正比。
实施例的乘方的方次与乘以参量的采样频率成正比,参量等于从第四距离减去第三距离,第三距离是第一传声器和语音源之间,并且第四距离是第二传声器和语音源之间。
实施例的第一传声器信号被乘以比率,其中比率是第三距离与第四距离的比率。
实施例的第一虚拟传声器包括从第一传声器信号的延迟的版本减去的第二传声器信号。
实施例的第二虚拟传声器包括从第二传声器信号减去的第一传声器信号的延迟的版本。
实施例的系统包括耦接到处理器的语音活动(VAD),VAD生成语音活动信号。
实施例的系统包括耦接到处理器的通信信道,通信信道包括无线信道、有线通道和混合式无线/有线信道中的至少一个。
实施例的系统包括经由通信信道耦接到处理器的通信装置,通信装置包括一个以上的蜂窝式移动电话、卫星电话、携带式电话、有线线路电话、因特网电话、无线收发器、无线通信收音机、个人数字助理(PDA)和个人计算机(PC)中的一个或多个。
在此描述的实施例包含一种在处理器上执行的方法,该方法包括:在包括第一传声器和第二传声器的传声器阵列处接收信号。实施例的方法包括利用第一滤波器过滤第二传声器的输出。第一滤波器包括第一滤波器模型,第一滤波器模型模拟第一传声器对噪声信号的响应并且输出第二传声器信号。实施例的方法包括利用第二滤波器过滤第一传声器的输出。第二滤波器包括第二滤波器模型,第二滤波器模型模拟第二传声器对噪声信号的响应并且输出第一传声器信号。利用第二传声器信号校准第一传声器信号。实施例的方法包括从第一传声器信号和第二传声器信号生成包括第一虚拟传声器和第二虚拟传声器的虚拟传声器阵列。
在此描述的实施例包含一种在处理器上执行的方法,该方法包括:在包括第一传声器和第二传声器的传声器阵列处接收信号;利用第一滤波器过滤第二传声器的输出,其中,第一滤波器包括第一滤波器模型,第一滤波器模型模拟第一传声器对噪声信号的响应并且输出第二传声器信号;利用第二滤波器过滤第一传声器的输出,其中,第二滤波器包括第二滤波器模型,第二滤波器模型模拟第二传声器对噪声信号的响应并且输出第一传声器信号,其中,利用第二传声器信号校准第一传声器信号;以及从第一传声器信号和第二传声器信号生成包括第一虚拟传声器和第二虚拟传声器的虚拟传声器阵列。
实施例的方法包括生成使第一响应和第二响应归一化的第三滤波器模型。
实施例的第三滤波器模型的生成包括将第一滤波器模型与第二滤波器模型进行卷积,并且将卷积的结果与标准响应滤波器进行比较,其中,第三滤波器模型校正卷积的结果的振幅响应。
实施例的第三滤波器模型是线性相位有限脉冲响应(FIR)滤波器。
实施例的方法包括将第三滤波器模型应用到由将第二滤波器模型应用到第一传声器的第一响应所产生的信号。
实施例的方法包括将第三滤波器模型应用到由将第一滤波器模型应用到第二传声器的第二响应所产生的信号。
实施例的方法包括通过将第二滤波器模型和第三滤波器模型应用到由第二信号所产生的第一传声器的输出来确定第一传声器的第三响应。实施例的方法包括通过将第一滤波器模型和第三滤波器模型应用到由第二信号所产生的第二传声器的输出来确定第二传声器的第四响应。实施例的方法包括从第三响应和第四响应的组合生成第四滤波器模型,其中,第四滤波器模型的生成包括将自适应滤波器应用到第三响应和第四响应。
实施例的第四滤波器模型是最小相位滤波器模型。
实施例的方法包括从第四滤波器模型生成第五滤波器模型。
实施例的第五滤波器模型是线性相位滤波器模型。
实施例的形成传声器阵列包括将第三滤波器模型应用到第一滤波器模型的输出和第二滤波器模型的输出中的至少一个。
实施例的形成传声器阵列包括将第三滤波器模型应用到至少一个第一滤波器模型的输出和第二滤波器模型的输出。
实施例的方法包括将第二滤波器模型和第三滤波器模型应用到第一传声器的信号输出。
实施例的方法包括将第一滤波器模型、第三滤波器模型和第五滤波器模型应用到第二传声器的信号输出。
实施例的传声器阵列包括振幅响应校准和相位响应校准。
实施例的方法包括通过形成从第一虚拟传声器和第二虚拟传声器输出的信号的多个组合来生成降噪的输出信号,其中,降噪的输出信号包含比在传声器阵列接收的声信号少的噪音。
实施例的方法包括通过将第二滤波器模型和第三滤波器模型应用到第一传声器的信号输出来生成第一传声器信号。实施例的方法包括通过将第一延迟滤波器应用到第一传声器信号来生成第一延迟的第一传声器信号。实施例的方法包括将第一延迟的第一传声器信号输入到处理器。
实施例的方法包括通过将第一滤波器模型、第三滤波器模型和第五滤波器模型应用到第二传声器的信号输出来生成第二传声器信号。实施例的方法包括将第二传声器信号输入到处理器。
实施例的方法包括通过将第二延迟滤波器应用到第一传声器信号来生成第二延迟的第一传声器信号。实施例的方法包括将第二延迟的第一传声器信号输入到声学的语音活动检测器。
实施例的方法包括通过将第一滤波器模型、第三滤波器模型和第四滤波器模型应用到第二传声器的信号输出来生成第三传声器信号。实施例的方法包括将第三传声器信号输入到声学的语音活动检测器。
实施例的方法包括通过将第二滤波器模型和第三滤波器模型应用到第一传声器的信号输出来生成第一传声器信号,以及通过将第一滤波器模型、第三滤波器模型和第五滤波器模型应用到第二传声器的信号输出来生成第二传声器信号。
实施例的第一滤波器模型和第二滤波器模型中的至少一个是无限脉冲响应(IIR)模型。
实施例的方法包括通过生成第一传声器信号和第二传声器信号的第一组合来形成第一虚拟传声器。实施例的方法包括通过生成第一传声器信号和第二传声器信号的第二组合来形成第二虚拟传声器,其中第二组合与第一组合不同,其中,第一虚拟传声器和第二虚拟传声器是截然不同的虚拟定向传声器,具有对于噪声实质上相似的响应和对于语音实质上不同的响应。
实施例的形成第一虚拟传声器包含形成第一虚拟传声器,以对于缺少零讯号的语音具有第一线性响应,其中语音是人类的语音。
实施例的形成第二虚拟传声器包含形成第二虚拟传声器,以对于包含在朝向语音的源的方向上定位的单个零讯号的语音具有第二线性响应。
实施例的单个零讯号是具有比第二线性响应的任何其它区域的测量响应级别低的测量响应级别的第二线性响应的区域。
实施例的第二线性响应包含在远离语音的源的方向上定位的主要的波瓣。
实施例的主要的波瓣是具有比第二线性响应的任何其它区域的测量响应级别大的测量响应级别的第二线性响应的区域。
实施例的方法包括沿着轴定位第一物理传声器和第二物理传声器,并且使第一物理传声器和第二物理传声器分开第一距离。
实施例的轴的中点距离生成语音的语音源第二距离,其中语音源位于由相对于中点的角度所限定的方向上。
实施例的形成第一虚拟的传声器包括减去从第一传声器信号减去的第二传声器信号。
实施例的方法包括延迟第一传声器信号。
实施例的方法包括使延迟乘方,乘方的方次与语音到达第一虚拟传声器和语音到达第二虚拟传声器之间的时差成正比。
实施例的方法包括使延迟乘方,乘方的方次与乘以参量的采样频率成正比,参量等于从第四距离减去第三距离,第三距离是第一物理传声器和语音源之间,并且第四距离是第二物理传声器和语音源之间。
实施例的方法包括将第二传声器信号乘以比率,其中比率是第三距离与第四距离的比率,第三距离是第一物理传声器和语音源之间,并且第四距离是第二物理传声器和语音源之间。
实施例的形成第一虚拟传声器包括从第二传声器信号减去第一传声器信号。
实施例的方法包括延迟第一传声器信号。
实施例的方法包括使延迟乘方,乘方的方次与语音到达第一虚拟传声器和语音到达第二虚拟传声器之间的时差成正比。
实施例的方法包括使延迟乘方,乘方的方次与乘以参量的采样频率成正比,参量等于从第四距离减去第三距离,第三距离是第一物理传声器和语音源之间,并且第四距离是第二物理传声器和语音源之间。
实施例的方法包括将第一传声器信号乘以比率,其中比率是第三距离与第四距离的比率。
实施例的形成第一虚拟传声器包括从第一传声器信号的延迟的版本减去第二传声器信号。
实施例的形成第二虚拟传声器包括:通过延迟第一传声器信号来形成参量;以及从第二传声器信号减去参量。
DOMA和相应的校准方法(v4,v4.1,v5,v6)可以是单个系统、多个系统和/或地理上分离的系统的部件。DOMA和相应的校准方法(v4,v4.1,v5,v6)同样可以是单个系统、多个系统和/或地理上分离的系统的子部件或者子系统。DOMA和相应的校准方法(v4,v4.1,v5,v6)可以被耦接到主系统或者被耦接到该主系统的系统的一个以上的其它部件(未显示)。
DOMA的一个以上的部件和相应的校准方法(v4,v4.1,v5,v6)和/或DOMA和相应的校准方法(v4,v4.1,v5,v6)耦接或者连接的相应的系统或者应用程序包含处理系统和 /或运行处理系统和/或与处理系统有关联。处理系统包含基于处理器装置或者一起操作的计算装置,或者处理系统或装置的部件的任何集合,如本领域中已知的。例如,处理系统可以包含通信网络和/或网络服务器中的一个以上的便携式计算机、便携式通信装置操作。便携式计算机可以是从个人计算机、蜂窝式移动电话、个人数字助理、便携式计算装置和便携式通信装置中选择的装置的任何数量和/或组合,但是不会因此限制。该处理系统可以包含较大计算机系统以内的部件。
实施例的处理系统包含至少一个处理器和至少一个存储装置或者子系统。处理系统同样可以包含或者被耦接到至少一个数据库。一般在此使用的术语“处理器”指的是任何逻辑处理单元,诸如一个以上的中央处理器(CPU)、数字信号处理器(DSP),专用集成电路(ASIC)等等。处理器和存储器可以统一地集成在单芯片之上、在许多芯片或者部件当中分布,和/或通过一些算法的组合提供。在此描述的方法可以在一个以上的软件算法、程序、固件、硬件、部件、电路中的任何组合中被实施。
包含DOMA和相应的校准方法(v4,v4.1,v5,v6)的任何系统的部件可以在一起或者在分开的位置中。通信路径结合部件并且包含用于沟通或者输送部件当中的文件的任何介质。通信路径包含无线连接器、有线连接器以及混合式无线/有线连接器。通信路径同样包含耦接或者连接到包括局域网(LAN)、城域网(MAN)、广域网(WAN)、专有的系统、局间的或者后端系统以及因特网的网络。此外,通信路径包含可移动的固定介质,如同软盘、硬盘驱动器、CD-ROM磁盘以及闪速RAM、通用串行总线(USB)连接器、RS-232连接器、电话线路、总线以及电子邮件消息。
在此描述的DOMA以及相应的校准方法(v4,v4.1,v5,v6)以及相应的系统和方法的方面可以被实施作为编程为任何各种电路的功能模块,包括可编程逻辑设备(PLD),诸如现场可编程门阵列(FPGA)、可编程阵列逻辑(PAL)装置、电可编程序逻辑和存储装置和基于标准电池装置、以及专用集成电路(ASIC)。用于执行DOMA和相应的校准方法(v4,v4.1,v5,v6)和相应的系统和方法的其它可能性包括:具有存储器(诸如电可擦可编程只读存储器(EEPROM))、嵌入式微处理机、固件、软件等等的微控制器。此外,DOMA和相应的系统和方法的方面可以被包含在具有基于软件的电路仿真、离散逻辑(连续的和组合的)、定制装置、模糊的(神经系统的)逻辑、量子装置和任何上述装置类型的混合的微处理器中。当然,根本的装置技术可以被提供在各种部件类型中,例如,如同互补金属氧化物半导体(CMOS)的金属氧化物半导体场效应晶体管(MOSFET)技术、如同发 射极耦合逻辑(ECL)的双极工艺、聚合体技术(例如,硅酮共轭聚合物和金属共轭聚合物金属结构)、模拟与数字混合等等。
应该注意,可以使用计算机辅助设计工具和表示(或者代表)为包含在各种的计算机可读介质中的资料和/或说明书,依据它们的性能、寄存器传送、逻辑部件、晶体管、编排几何形状和/或其它特性,描述在此揭示的任何系统方法和/或其它部件。
其中可以包含这种格式化数据和/或指令的计算机可读介质包括,但是不局限于,各种形式的非易失性存储器介质(例如光学的、磁性或者半导体存储器介质),和可以用来通过无线、光学的或者有线的信号介质或者任何它们的组合转换这种格式化数据和/或指令的载波。通过载波传送这种格式化数据和/或指令的实例包括,但是不局限于,经由一个以上的数据传送协议(例如HTTP、FTP、SMTP等等)在因特网和/或其它计算机网络上传送(上载、下载、电子信函等等)。当经由一个以上的计算机可读介质在计算机系统以内接收时,基于这种数据和/或指令的以上描述的部件的表达可以通过计算机系统以内的处理机构(例如,一个以上的处理器)连同一个以上的其它计算机程序的执行被处理。
除非上下文清楚地需要,另外贯穿整个描述,词“包含”、“包括”等等被解释为包括在内的意义,与排他或者详尽的意义相对;换句话说,在某种意义上是“具有,但不局限于此”。使用单个的或者多个数量的词同样分别包含多个或者单个的数量。另外,当用于这个申请时,词“在此”、“在此之下”、以上”、“以下”、和类似的引入的词总体上涉及这个申请,并且不是涉及这个申请的任何特定的部分。当词“或者”被用于关系到两个以上的项目的列表时,那个词覆盖所有以下词的解释:列表中的任何内容、列表中的所有内容以及列表中的项目的任何组合。
DOMA以及相应的校准方法(v4,v4.1,v5,v6)以及相应的系统和方法的实施例的以上描述不意指详尽的或者限制系统和方法为精确公开的形式。在此描述的DOMA和相应的校准方法(v4,v4.1,v5,v6)和相应的系统和方法和特定实施例和实例是用于说明性的目的而在此描述的,各种的等效的变形是可以在系统和方法的范围以内,如相关领域中的那些技术人员将知道的。在此提供的DOMA和相应的校准方法(v4,v4.1,v5,v6)和相应的系统和方法的教导可以应用于其他系统和方法,不仅仅用于如上所述的系统和方法。
如上所述和各种实施例的元件和担当可以被组合为提供更多的实施例。考虑到以上的详细说明,可以对DOMA和相应的校准方法(v4,v4.1,v5,v6)和相应的系统和方法做出这些及其他变化。
通常,在以下权利要求书中,使用的术语应当不被解释为限制DOMA和相应的校准方法(v4,v4.1,v5,v6)和相应的系统和方法,以具体化说明书和权利要求书中揭示的实施例,但是应当被解释为包含在权利要求书下操作的所有系统。因此,DOMA和相应的校准方法(v4,v4.1,v5,v6)和相应的系统和方法不会被公开限制,而是范围通过权利要求书被全部的确定。
在某些权利要求形式中介绍DOMA和相应的校准方法(v4,v4.1,v5,v6)和相应的系统和方法的某些方面,同时,发明人预期许多权利要求形式中的DOMA和相应的校准方法(v4,v4.1,v5,v6)和相应的系统和方法的各个方面。因此,发明人保留权利在提交申请之后添加其他的权利要求,以探求用于DOMA和相应的校准方法(v4,v4.1,v5,v6)和相应的系统和方法的其它方面的其他的权利要求形式。
Claims (47)
1.一种双重全向传声器阵列校准系统,其特征在于,包括:
包括第一传声器和第二传声器的传声器阵列;
耦接到所述第二传声器的输出的第一滤波器,其中,所述第一滤波器模拟所述第一传声器对噪声信号的响应;
耦接到所述第一传声器的输出的第二滤波器,其中,所述第二滤波器模拟所述第二传声器对所述噪声信号的响应;以及
耦接到所述第一滤波器和所述第二滤波器的处理器。
2.如权利要求1所述的双重全向传声器阵列校准系统,其特征在于,包括耦接到所述第一滤波器和所述第二滤波器中的至少一个的输出的第三滤波器。
3.如权利要求2所述的双重全向传声器阵列校准系统,其特征在于,所述第三滤波器是线性相位有限脉冲响应滤波器。
4.如权利要求2所述的双重全向传声器阵列校准系统,其特征在于,包括将所述第三滤波器耦接到所述第二滤波器的输出。
5.如权利要求4所述的双重全向传声器阵列校准系统,其特征在于,包括将所述第三滤波器耦接到所述第一滤波器的输出。
6.如权利要求4所述的双重全向传声器阵列校准系统,其特征在于,包括耦接到所述第三滤波器的输出的第四滤波器,所述第三滤波器被耦接到所述第二传声器。
7.如权利要求6所述的双重全向传声器阵列校准系统,其特征在于,所述第四滤波器模型是最小相位滤波器。
8.如权利要求6所述的双重全向传声器阵列校准系统,其特征在于,通过以下生成所述第四滤波器:
通过将所述第二滤波器的响应和所述第三滤波器的响应应用到由第二信号所产生的所述第一传声器的输出来确定所述第一传声器的第三响应;
通过将所述第一滤波器的响应和所述第三滤波器的响应应用到由第二信号所产生的所述第二传声器的输出来确定所述第二传声器的第四响应;以及
从所述第三响应和所述第四响应的组合生成所述第四滤波器。
9.如权利要求6所述的双重全向传声器阵列校准系统,其特征在于,包括是线性相位滤波器的第五滤波器。
10.如权利要求9所述的双重全向传声器阵列校准系统,其特征在于,从所述第四滤波器生成所述第五滤波器。
11.如权利要求9所述的双重全向传声器阵列校准系统,其特征在于,包括所述第四滤波器和所述第五滤波器中的至少一个被耦接到所述第三滤波器的输出,所述第三滤波器被耦接到所述第一滤波器和所述第二传声器。
12.如权利要求9所述的双重全向传声器阵列校准系统,其特征在于,包括:
从信号通道输出第一传声器信号,所述信号通道包括耦接到所述第二滤波器和所述第三滤波器的所述第一传声器;
通过将第一延迟滤波器应用到所述第一传声器信号来生成第一延迟的第一传声器信号;以及
将所述第一延迟的第一传声器信号输入到所述处理器,其中,所述处理器生成包括第一虚拟传声器和第二虚拟传声器的虚拟传声器阵列。
13.如权利要求12所述的双重全向传声器阵列校准系统,其特征在于,包括:
从信号通道输出第二传声器信号,所述信号通道包括耦接到所述第一滤波器、所述第三滤波器和所述第五滤波器的所述第二传声器;以及
将所述第二传声器信号输入到所述处理器。
14.如权利要求13所述的双重全向传声器阵列校准系统,其特征在于,包括:
通过将第二延迟滤波器应用到所述第一传声器信号来生成第二延迟的第一传声器信号;以及
将所述第二延迟的第一传声器信号输入到声学的语音活动检测器。
15.如权利要求14所述的双重全向传声器阵列校准系统,其特征在于,包括:
从信号通道输出第三传声器信号,所述信号通道包括耦接到所述第一滤波器、所述第三滤波器和所述第四滤波器的所述第二传声器;以及
将所述第三传声器信号输入到所述声学的语音活动检测器。
16.如权利要求9所述的双重全向传声器阵列校准系统,其特征在于,包括:
从信号通道输出第一传声器信号,所述信号通道包括耦接到所述第二滤波器和所述第三滤波器的所述第一传声器;以及
从信号通道输出第二传声器信号,所述信号通道包括耦接到所述第一滤波器、所述第三滤波器和所述第五滤波器的所述第二传声器。
17.如权利要求16所述的双重全向传声器阵列校准系统,其特征在于,包括:
第一虚拟传声器,其中,通过生成所述第一传声器信号和所述第二传声器信号的第一组合来形成所述第一虚拟传声器;以及
第二虚拟传声器,其中,通过生成所述第一传声器信号和所述第二传声器信号的第二组合来形成所述第二虚拟传声器,其中所述第二组合与所述第一组合不同,其中,所述第一虚拟传声器和所述第二虚拟传声器是截然不同的虚拟定向传声器,具有对于噪声实质上相似的响应和对于语音实质上不同的响应。
18.如权利要求1所述的双重全向传声器阵列校准系统,其特征在于,所述第一滤波器是无限脉冲响应滤波器。
19.如权利要求1所述的双重全向传声器阵列校准系统,其特征在于,所述第二滤波器是无限脉冲响应滤波器。
20.如权利要求1所述的双重全向传声器阵列校准系统,其特征在于,所述信号是白噪声信号。
21.如权利要求1所述的双重全向传声器阵列校准系统,其特征在于,所述传声器阵列包括振幅响应校准和相位响应校准。
22.一种双重全向传声器阵列校准系统,其特征在于,包括:
包括第一传声器和第二传声器的传声器阵列;
耦接到所述第二传声器的输出的第一滤波器,其中,所述第一滤波器模拟所述第一传声器对噪声信号的响应,并且输出第二传声器信号;
耦接到所述第一传声器的输出的第二滤波器,其中,所述第二滤波器模拟所述第二传声器对所述噪声信号的响应,并且输出第一传声器信号,其中,利用所述第二传声器信号校准所述第一传声器信号;以及
处理器,耦接到所述传声器阵列,并且从所述第一传声器信号和所述第二传声器信号生成包括第一虚拟传声器和第二虚拟传声器的虚拟传声器阵列。
23.如权利要求22所述的双重全向传声器阵列校准系统,其特征在于,包括耦接到所述第一滤波器和所述第二滤波器中的至少一个的输出的第三滤波器。
24.如权利要求23所述的双重全向传声器阵列校准系统,其特征在于,所述第三滤波器是线性相位有限脉冲响应滤波器。
25.如权利要求23所述的双重全向传声器阵列校准系统,其特征在于,所述第三滤波器被耦接到所述第二滤波器的输出。
26.如权利要求25所述的双重全向传声器阵列校准系统,其特征在于,所述第三滤波器被耦接到所述第一滤波器的输出。
27.如权利要求26所述的双重全向传声器阵列校准系统,其特征在于,包括耦接到信号通道的输出的第四滤波器,所述信号通道包括所述第三滤波器和所述第二传声器。
28.如权利要求27所述的双重全向传声器阵列校准系统,其特征在于,所述第四滤波器是最小相位滤波器。
29.如权利要求27所述的双重全向传声器阵列校准系统,其特征在于,包括耦接到信号通道的输出的第五滤波器,所述信号通道包括所述第三滤波器和所述第二传声器。
30.如权利要求29所述的双重全向传声器阵列校准系统,其特征在于,所述第五滤波器是线性相位滤波器。
31.如权利要求30所述的双重全向传声器阵列校准系统,其特征在于,从所述第五滤波器来源于所述第四滤波器。
32.如权利要求29所述的双重全向传声器阵列校准系统,其特征在于,包括耦接到信号通道的输出的所述第四滤波器和所述第五滤波器中的至少一个,所述信号通道包括所述第三滤波器、所述第一滤波器和所述第二传声器。
33.如权利要求29所述的双重全向传声器阵列校准系统,其特征在于,包括:
从信号通道输出第一传声器信号,所述信号通道包括耦接到所述第二滤波器和所述第三滤波器的所述第一传声器;
通过将第一延迟滤波器应用到所述第一传声器信号来生成第一延迟的第一传声器信号;以及
将所述第一延迟的第一传声器信号输入到所述处理器,其中,所述处理器生成包括第一虚拟传声器和第二虚拟传声器的虚拟传声器阵列。
34.如权利要求33所述的双重全向传声器阵列校准系统,其特征在于,包括:
从信号通道输出第二传声器信号,所述信号通道包括耦接到所述第一滤波器、所述第三滤波器和所述第五滤波器的所述第二传声器;以及
将所述第二传声器信号输入到所述处理器。
35.如权利要求34所述的双重全向传声器阵列校准系统,其特征在于,包括:
通过将第二延迟滤波器应用到所述第一传声器信号来生成第二延迟的第一传声器信号;以及
将所述第二延迟的第一传声器信号输入到语音活动检测器。
36.如权利要求35所述的双重全向传声器阵列校准系统,其特征在于,包括:
从信号通道输出第三传声器信号,所述信号通道包括耦接到所述第一滤波器、所述第三滤波器和所述第四滤波器的所述第二传声器;以及
将所述第三传声器信号输入到所述语音活动检测器。
37.如权利要求29所述的双重全向传声器阵列校准系统,其特征在于,包括:
从信号通道输出所述第一传声器信号,所述信号通道包括耦接到所述第二滤波器和所述第三滤波器的所述第一传声器;以及
从信号通道输出所述第二传声器信号,所述信号通道包括耦接到所述第一滤波器、所述第三滤波器和所述第五滤波器的所述第二传声器。
38.如权利要求22所述的双重全向传声器阵列校准系统,其特征在于,所述第一滤波器是无限脉冲响应滤波器。
39.如权利要求22所述的双重全向传声器阵列校准系统,其特征在于,所述第二滤波器是无限脉冲响应滤波器。
40.如权利要求22所述的双重全向传声器阵列校准系统,其特征在于,所述信号是白噪声信号。
41.如权利要求22所述的双重全向传声器阵列校准系统,其特征在于,所述传声器阵列包括振幅响应校准和相位响应校准。
42.如权利要求22所述的双重全向传声器阵列校准系统,其特征在于,所述第一和第二传声器是全向的。
43.如权利要求22所述的双重全向传声器阵列校准系统,其特征在于,所述第一传声器和所述第二传声器沿着轴被安置,并且分开第一距离。
44.如权利要求43所述的双重全向传声器阵列校准系统,其特征在于,所述轴的中点距离生成所述语音的语音源第二距离,其中所述语音源位于由相对于所述中点的角度所限定的方向上。
45.如权利要求22所述的双重全向传声器阵列校准系统,其特征在于,包括耦接到所述处理器的语音活动检测器,所述语音活动检测器生成语音活动信号。
46.如权利要求22所述的双重全向传声器阵列校准系统,其特征在于,包括耦接到所述处理器的通信信道,所述通信信道包括无线信道、有线通道和混合式无线/有线信道中的至少一个。
47.如权利要求46所述的双重全向传声器阵列校准系统,其特征在于,包括经由所述通信信道耦接到所述处理器的通信装置,所述通信装置包括蜂窝式移动电话、卫星电话、 携带式电话、有线线路电话、因特网电话、无线收发器、无线通信收音机、个人数字助理和个人计算机中的一个或多个。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US22141909P | 2009-06-29 | 2009-06-29 | |
US61/221,419 | 2009-06-29 | ||
PCT/US2010/040501 WO2011002823A1 (en) | 2009-06-29 | 2010-06-29 | Calibrating a dual omnidirectional microphone array (doma) |
Publications (1)
Publication Number | Publication Date |
---|---|
CN203086710U true CN203086710U (zh) | 2013-07-24 |
Family
ID=43411415
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201090001122.8U Expired - Fee Related CN203086710U (zh) | 2009-06-29 | 2010-06-29 | 双重全向传声器阵列校准系统 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN203086710U (zh) |
WO (1) | WO2011002823A1 (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107484092A (zh) * | 2016-06-07 | 2017-12-15 | 罗伯特·博世有限公司 | 传感器和/或变换器设备和用于运行其的方法 |
CN109246570A (zh) * | 2018-08-29 | 2019-01-18 | 北京声智科技有限公司 | 麦克风质检的装置及方法 |
CN110333478A (zh) * | 2018-03-30 | 2019-10-15 | 华为技术有限公司 | 一种到达角度、出发角度确定方法及通信装置 |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8019091B2 (en) | 2000-07-19 | 2011-09-13 | Aliphcom, Inc. | Voice activity detector (VAD) -based multiple-microphone acoustic noise suppression |
US9066186B2 (en) | 2003-01-30 | 2015-06-23 | Aliphcom | Light-based detection for acoustic applications |
US9099094B2 (en) | 2003-03-27 | 2015-08-04 | Aliphcom | Microphone array with rear venting |
DE102014208445A1 (de) | 2014-05-06 | 2015-11-12 | Volkswagen Ag | Bipolarplatte, Brennstoffzelle und Verfahren zur Herstellung der Bipolarplatte |
US10070220B2 (en) | 2015-10-30 | 2018-09-04 | Dialog Semiconductor (Uk) Limited | Method for equalization of microphone sensitivities |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5402669A (en) * | 1994-05-16 | 1995-04-04 | General Electric Company | Sensor matching through source modeling and output compensation |
US8254617B2 (en) * | 2003-03-27 | 2012-08-28 | Aliphcom, Inc. | Microphone array with rear venting |
US7099821B2 (en) * | 2003-09-12 | 2006-08-29 | Softmax, Inc. | Separation of target acoustic signals in a multi-transducer arrangement |
AU2004324310B2 (en) * | 2004-10-19 | 2008-10-02 | Widex A/S | System and method for adaptive microphone matching in a hearing aid |
US7778408B2 (en) * | 2004-12-30 | 2010-08-17 | Texas Instruments Incorporated | Method and apparatus for acoustic echo cancellation utilizing dual filters |
CN101779476B (zh) * | 2007-06-13 | 2015-02-25 | 爱利富卡姆公司 | 全向性双麦克风阵列 |
-
2010
- 2010-06-29 CN CN201090001122.8U patent/CN203086710U/zh not_active Expired - Fee Related
- 2010-06-29 WO PCT/US2010/040501 patent/WO2011002823A1/en active Application Filing
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107484092A (zh) * | 2016-06-07 | 2017-12-15 | 罗伯特·博世有限公司 | 传感器和/或变换器设备和用于运行其的方法 |
CN110333478A (zh) * | 2018-03-30 | 2019-10-15 | 华为技术有限公司 | 一种到达角度、出发角度确定方法及通信装置 |
CN110333478B (zh) * | 2018-03-30 | 2022-05-17 | 华为技术有限公司 | 一种到达角度、出发角度确定方法及通信装置 |
CN109246570A (zh) * | 2018-08-29 | 2019-01-18 | 北京声智科技有限公司 | 麦克风质检的装置及方法 |
Also Published As
Publication number | Publication date |
---|---|
WO2011002823A1 (en) | 2011-01-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN203086710U (zh) | 双重全向传声器阵列校准系统 | |
CN101779476B (zh) | 全向性双麦克风阵列 | |
CN203351200U (zh) | 用于电子系统的振动传感器和声学语音活动检测系统(vads) | |
CN203242334U (zh) | 用于电子系统的风抑制/替换部件 | |
CN204029371U (zh) | 通信设备 | |
US7813923B2 (en) | Calibration based beamforming, non-linear adaptive filtering, and multi-sensor headset | |
CN102047688B (zh) | 用于多通道信号平衡的系统、方法和设备 | |
US4783817A (en) | Electronic noise attenuation system | |
US7826624B2 (en) | Speakerphone self calibration and beam forming | |
CN102461203B (zh) | 用于对多信道信号进行基于相位的处理的系统、方法及设备 | |
US20160155434A1 (en) | Voice activity detector (vad)-based multiple-microphone acoustic noise suppression | |
US20030179888A1 (en) | Voice activity detection (VAD) devices and methods for use with noise suppression systems | |
CN103180900A (zh) | 用于话音活动检测的系统、方法和设备 | |
JP2009510534A (ja) | 人間のユーザに対して可聴騒音の知覚の削減をもたらすためのシステム | |
Stern et al. | Signal processing for robust speech recognition | |
US11587576B2 (en) | Background noise estimation using gap confidence | |
CN102282865A (zh) | 用于电子系统的声学语音活动检测(avad) | |
US11044557B2 (en) | Method for determining a response function of a noise cancellation enabled audio device | |
KR100936093B1 (ko) | 전자 신호로부터의 잡음 제거 방법 및 장치 | |
JP2001147693A (ja) | 音再生装置における再生出力の補正方法 | |
Ferreira et al. | An improved adaptive room equalization in the frequency domain | |
Grimani | Sound advice: Staying equalised | |
CN115361617A (zh) | 无盲区的多麦克风环境噪声抑制方法 | |
KR20100025140A (ko) | 2개의 마이크를 사용한 음원 분리 방법 | |
JPH0229100A (ja) | 音声認識装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20130724 Termination date: 20140629 |
|
EXPY | Termination of patent right or utility model |