具体实施方式
这里以近场拾音系统为背景描述本发明的实施例。所属领域的技术人员将认识到,下面对本发明的详细描述只是说明性的,而不以任何方式作出限制。了解本发明的优点的本领域技术人员轻松地认识到本发明的其他实施例。现在将详细参考如附图所示的本发明的实现方式。在所有图形中以及下面的详细描述中将使用相同的标号来表示相同的或类似的部件。
为了清楚起见,这里并非显示和描述了所有实现方式的常规特点。当然,还应认识到,在任何这样的实际实现方式的开发过程中,必须作出很多实现方式特定的决定,以便实现开发人员的特定目标,比如适应与应用程序和商业关联的约束,这些特定目标在不同的实现方式之间会有所不同,在不同的开发人员之间也有所不同。此外,还应了解,这样的开发工作可能是复杂而耗时的,但是,是了解本发明优点的所属领域的技术人员的日常工作
这里所描述的系统基于两个检测信号的振幅的受控制的差的使用,以便以极好的保真度保留源于附近位置的信号,而显著地衰减那些源于较远位置的信号。虽然不限于音频和声音检测设备,目前,最佳的应用在头戴耳机中,特别是被称为Bluetooth 耳机的无线设备中。
认识到能量波基本上是球状的,因为它们从一个源散开,可以看出,起源于附近的(近场)源位置的这样的波显著弯曲,而起源于远的(远场)源位置的波几乎是平面的。能量波的强度是其功率/单位面积。随着能量散开,强度按照1/r2降低,其中,r是与源的距离。幅值是强度的平方根,如此,幅值按照1/r降低。两个检测器与源的距离的差越大,检测到的信号之间的幅值的差就越大。
系统使用一对位于人耳处的麦克风的独特组合,以及利用幅值差的信号处理,以便保持语音信号,同时快速地衰减从远的位置到达的噪声信号。对于此系统,作为距离的函数的信号灵敏度的降低是位于靠近嘴部处的噪声消除麦克风的灵敏度降低的两倍,因为在高的末端悬挂式麦克风系统中,频率响应仍然是零阶的—即,固有地平坦的。噪声衰减不是定向实现的,因此,与到达方向无关的所有噪声都被消除。此外,由于其零阶灵敏度响应,系统不会遭受近场效应,并且可抗风噪声,特别是使用下面将描述的第二处理方法时。
系统有效地提供适当地设计的麦克风阵列,与被设计为保留了处理所需的信号“提示”的适当的模拟和A/D电路一起使用,并与系统处理本身相结合。应该指出的是,输入信号常常被显著的噪声能量“污染”。噪声甚至可以大于所需的信号。在应用了系统处理之后,输出信号中的噪声被清除掉了,所产生的输出信号通常小得多。如此,输入信号路径的动态范围应该被设计为线性地保留高输入动态范围,这是包含所有可能的输入信号振幅所需的,而输出路径的动态范围要求比较而言相对宽松。
麦克风阵列
图1显示了由至少两个分离的麦克风构成的麦克风阵列,优选情况下,两个麦克风位于耳机位置和用户的嘴部(特别是上唇是优选的目标,以便检测到嘴部和鼻的发声,如图1所述)之间的线(轴)上的。只显示了两个麦克风,但是,也可以使用更多的麦克风。这两个麦克风被表示为10和12,安装在外壳16上,或安装在其内部。外壳可以具有延伸部分14。外壳的另一部分或适当的组件被置于佩带者的耳道的开口处,以便设备的扬声器可以被佩带者听到。虽然麦克风元件10和12优选情况下是全向性的单元,但是,也可以兼容地使用噪声消除和单向性设备,甚至有源阵列系统。当使用方向性麦克风或麦克风系统时,它们优选情况下瞄准用户的嘴部,从而对位于麦克风的不太敏感的方向上的噪声源提供额外的噪声衰减量。
下面的讨论将主要谈及两个全向麦克风元件10和12,应理解也可以使用其他类型的麦克风和麦克风系统。在其余说明中,与嘴部最靠近的麦克风——即,麦克风10——将被叫做“前”麦克风,距离嘴部最远的麦克风(12)叫做“后”麦克风。
简而言之,使用位于用户耳部的并且大致在嘴部方向的延长线上的两个在空间上分离的麦克风作为实例,检测两个麦克风信号,对其数字化,将它们划分为时间帧,并使用常规的数字傅里叶变换(DFT)技术转换到频域。在频域内,信号通过复数来表示。在对信号进行可选的时间对准之后,1)根据数学公式,计算那些复数的对之间的差值,或2)根据一个不同的数学公式或根据两个数学公式,衰减它们的加权和。由于在这里所描述的系统中,对于麦克风间隔没有内在限制(只要它不是零),所以其他系统考虑是在选择时间对准方法时的 驱动因素。
矢量幅值或范数的比率被用作输入数据的“噪声”的度量,以控制由两种方法中的每一种方法所产生的噪声衰减。处理的结果是噪声减小了的频域输出信号,该信号随后通过常规的逆傅里叶装置转换到时域,其中,输出帧被重叠和相加在一起以产生输出信号的数字版本。随后,在必要时,可以通过D/A转换产生输出信号的模拟输出版本。此方法涉及数字频域处理,本说明书的其余部分将对此进行详细描述。然而,应该认识到,备选的方法包括模拟域中的处理,或时域中的数字处理,等等。
将由两个麦克风10和12感测的声信号对前麦克风10的声信号规格化,那么,根据定义,前麦克风的频域信号等于“1”。即,
其中,ω是角频率,θ是相对于朝向嘴部的方向(即,阵列轴)而言的声信号的到达有效角,d是两个麦克风端口之间的间隔距离,r是从前麦克风10以增量d到声源的距离。如此,来自后麦克风12的频域信号是
其中 (3)
c是在阵列中声音的有效速度,而i是虚数算子 。项rd(y-1)/c代表在两个麦克风端口处声信号的到达时差(延迟)。从这些公式可以看出,当r比较大时,换句话说,当声源远离阵列时,后信号的幅值等于“1”,与前信号的幅值相同。
当源信号从沿着朝向用户的嘴部的直线的一个位置轴向地到达时(θ=0),后信号的幅值是
作为如何在阵列设计中使用此结果的实例,假设设计者希望语音信号的幅值在前麦克风10中比后麦克风12高出3dB。在此情况下, 如此,r=2.42。因此,前麦克风10应该位于离嘴部的2.42·d处,当然,后麦克风12应该位于前麦克风后面距离d处。如果在特定设计中从嘴部到前麦克风10的距离将是,例如,12-cm(43/4-in),那么,麦克风阵列中所需的端口到端口的间隔——即,麦克风10和12之间间隔——将是4.96-cm(大约5-cm或2-in)。当然,设计者可以任意选择任何特定设计所需的幅值比。
麦克风匹配
下面将参考图1A描述最初可以应用于来自麦克风10和12的信号的某些处理步骤。有利地提供麦克风匹配,并使用全向性麦克风,轻松地实现麦克风匹配。全向性麦克风是固有平坦响应设备,在麦克风对之间几乎没有相位失配。如此,任何简单的现有技术的级别匹配方法对于此应用都足够了。这样的方法包括购买麦克风10和12的预先匹配的麦克风元件,在工厂选择匹配的元件,装配之后的试验设备动态试验和调节,装配之后的不匹配测量,匹配“表”插入到设备中,以便进行可操作的运行时的校正,到动态地实时自动算法失配校正。
模拟信号处理
如图1A所示,可以对麦克风信号进行模拟处理,并通常包括使用放大器11进行预放大,以增大通常非常小的麦克风输出信号,并使用滤波器13进行可能的滤波,以减少带外噪声,并且如果用于数字实现方式中,在数字化信号之前,解决了去假频滤波的需求。然而,在此阶段,也可以应用其他处理,如,限制、压缩、模拟麦克风匹配(15)和/或噪声抑制。
这里所描述的系统最佳地利用线性的、无失真的输入信号进行操作,如此,使用模拟处理来通过具有好的线性和足够的动态范围,以干净地保留输入信号的所有部分,保持了输入信号的频谱纯度。
A/D-D/A转换
在时域中,使用模拟方法,可以实现这里进行的信号处理。通过使用一组频带-拆分滤波器,与希尔伯特变换器和已知的信号振幅检测装置相结合,分离和测量每一个频带内的幅值和相位分量,一个频带 一个频带地应用处理,然后,将多频带输出组合起来(相加),以产生最后的噪声减少的模拟输出信号。
或者,可以以数字方式,在时域或频域内,进行信号处理。数字时域方法,例如,可以以与上面对于模拟方法标识的相同的顺序执行相同的步骤,或者可以是任何其他适当的方法。
也可以使用数字傅里叶变换(DFT)、小波变换、余弦变换,哈特利变换或任何其他手段以在处理之前将信息分离到多个频带中,在频域内完成数字处理。
麦克风信号固有地是模拟信号,如此,在应用任何希望的模拟信号处理之后,所产生的处理过的模拟输入信号被转换到数字信号。这是图1A和2所示的A/D转换器(22,24)的用途——每个输入信号一个转换信道。常规的A/D转换已为大家所熟知,如此,不需要讨论对消除混叠滤波、采样速率、比特深度、线性等等的要求,因为标准的好的做法已经足够了。
在例如,通过图2中的电路30进行的噪音消减处理完成之后,产生单一的数字输出信号。此输出信号在数字系统中使用,无需进一步的转换,或者,也可以使用已知的常规D/A转换器系统,转换回模拟域。
时间对准
为取得最佳的输出信号质量,优选情况下,但不是必需的,对于所关心信号,两个输入信号在时间上是对齐的——即,在当前实例中,对于用户的语音。由于前麦克风10更靠近嘴部,因此,语音声音首先到达前麦克风,并且此后不久到达后麦克风12。正是此时间延迟要被施加补偿,即,例如,通过图2的电路26对前信号进行时间延迟,延迟的时间等于声音围绕耳机从前麦克风10端口的位置到后麦克风12端口的传播时间。有很多传统的方法可用于对输入信号进行此时间对准,包括但不仅限于,模拟延迟线、立方样条数字内插法,以及DFT相位修改方法。
实现该延迟的一个简单的手段是在耳机设计过程中,选择麦克风 间隔d,使得来自前信号的A/D转换器的数字数据流偏移整数个的样本。例如,当在现场的耳机位置处与有效声速相结合的端口间隔给信号提供,例如,62.5usec或125usec的时间延迟时,那么,在16ksps的采样速率时,在前一种情况下,延迟可以通过使数据偏移一个样本来实现,在后一种情况下,延迟可以通过使数据偏移两个样本来实现。由于许多电信应用以8ksps的采样速率操作,那么,后一种延迟可以利用一个样本的数据偏移量来实现。此方法简单、成本低、消耗不多的计算能量并且准确。
重叠与相加方法
处理可以使用已知的“重叠与相加”方法。使用此方法常常可以包括使用诸如汉明窗之类的窗口或其他窗口或已知的其他方法。
频域(傅里叶)变换
频域内的信号的多频带分离的一个简单的并且最常用的手段是短时傅里叶变换(STFT),并且快速傅里叶变换(FFT)通常是首选的数字实现方式。虽然如上文所讨论的,备选的多频带处理的手段是适用的,这里描述了用于进行变换的标准数字FFT/IFFT对和处理方法。
图2是利用数字傅里叶变换手段实现噪音消减的系统20的一般化框图。来自前(10)和后(12)麦克风的信号被施加于A/D转换器22,24。用于所关心的信号的可选的时间对准电路26作用于至少一个经过转换的数字信号,接下来是通过电路28和29成帧和加窗,这些电路还如上文所描述的,通过数字傅里叶变换(DFT)装置,生成信号的频域表示。然后,将两个所产生的信号应用于处理器30,该处理器30基于应用于频域内的每对窄带(优选情况下是时间对齐的)输入信号的差分公式来工作。宽箭头表示多对输入信号并行地接受处理的情况。在这里的描述中,应该理解,所描述的信号是各个以窄频带分离的“子”信号,其中,一对是从两个麦克风中的每一个麦克风发出的频率对应的子信号。
首先,该对的每个子信号都被分离成其范数,也称为幅值,以及 其单位矢量,其中,单位矢量是通过除以其范数被规格化为幅值为“1”的矢量。如此,
其中,|S
f(ω,θ,d,r)|是
的范数,而
是
的单位矢量。如此,有关输入信号
的幅值信息的全部都处于范数中,而所有角信息都处于单位矢量中。对于上文参考公式2-4所描述的轴向的信号,|S
f(ω,θ,d,r)|=1和
类似地,
并且对于上面的信号,|Sr(ω,θ,d,r)|=y-1并且
那么,来自电路30的输出信号是
这里,可以看出,输出信号的振幅与两个输入信号的幅值的差成正比,而输出信号的角度是单位矢量的和的角度,等于两个输入信号的电角度的平均值。
在图3的对应的方框图中比较详细地显示了电路30中执行的此信号处理。虽然它提供了噪声消减功能,但是,这种处理形式不能非常直观地了解噪声消减实际是如何发生的。
为清楚起见,丢掉共同的变量,并重新排列上面的公式8的各项,得出,
其中,箭头还是代表矢量。通过检查,可以看出,每个频带的频域输出信号都是两个项的乘积:第一项(乘号之前的部分)是与信号的衰减成正比的标量值。此衰减是两个输入信号的范数的比率的函数,因此,是从声源到阵列的距离的函数。公式(9)的第二项(乘号之后的部分)是两个输入信号的平均值,每个输入信号都首先被规格化以使得幅值等于两个分离的信号幅值的调和平均值的二分之一。 此计算会产生中间信号矢量,该矢量具有输入信号中的独立随机噪声分量的任何集合的最佳还原。然后,该计算式通过将中间信号矢量乘以第一项的标量值,根据到声源的距离的度量,衰减该中间信号。
注意,此处理是“瞬时的”,换句话说,它不依赖于来自以前的时间帧的任何先验信息——因此,它不会遭受自适应延迟。应该澄清,在这些讨论中,下面的变量X (ω,θ,d,r),是作为幅值的比率(当在线性域中),以及作为对数的差(通常用dB表示)(当在对数域中时)来计算的。如此,当讨论线性域时,X是作为比率来描述的,当讨论是关于在对数域中使用时,是作为差值来描述的。虽然可以洞察到噪声消减过程,当实际计算噪声消减过程时,尽可能地效率高,以较低的计算能量,实现高速度是十分重要的。如此,现在将讨论表达这些公式的计算效率更高的方法。
首先,获取已转换的短时成帧的输入信号幅值的比率X(ω,θ,d,r),其中
通过使用此幅值比和原始输入信号,按下列公式计算输出信号
注意,公式(11)中间的减号。在现有技术的方法中,将两个独立的NR公式直接相加有助于比当独自使用任何一个公式时实现更大的方向性远场噪声缩小。在本系统中,使用单一的差分方程(11),而不相加。得到的结果是唯一的几乎无方向性的近场感测系统。
图4是从两个输入信号矢量 和 产生噪声减少的输出信号矢量 的此直接的方程方法的信号处理部分的框图。
此方程方法的运算如下:
1)假设噪声源位于远场。在此情况下,由于1/r信号扩散,两个输入信号的幅值几乎彼此相同。当幅值相同时,如在此情况下,X 等于“1”,如此,1-X-1和1-X都等于零。从而,根据公式(11),输出信号几乎为零,因此,远场信号被大大地衰减。
2)假设语音信号轴向地产生,信号幅值差例如为3dB。在此情况下,X≈1.4使得1-X-1≈0.29以及1-X≈-0.41。这些值与输入信号的幅值差成反比。当这两个值应用在公式(11)中时,它们具有使两个输入信号相等或使两个输入信号关于一个平均值规格化的效果。如此,在规格化之后,输出信号变为两个输入信号的矢量平均值。需要注意的是,如在用于梯度场感测中使用的,结果不是矢量差。
3)在公式(11)中看到的双重差导致系统的衰减对距离中的二阶斜率特性。图5显示了相对于嘴部灵敏度的轴向灵敏度对于距耳机的距离。如此,在图5中,嘴部的信号灵敏度位于曲线的左侧以及0dB处。零以下的量与由系统产生的信号衰减成正比,并且在这里被绘制在频率300、500、1k、2k、3k和5kHz处。显而易见,在所有频率处,频率响应都是相同的,因为所有衰减曲线都是相同的(它们全部都落在彼此上)。相同的频率响应是有益的,因为它防止了作为距离的函数的信号的频率响应着色,即,噪声源声音是中性的,虽然被大大地衰减。此二阶斜率为系统提供了极好的噪声衰减效果。
衰减斜率只是稍微带有方向性。相对于耳机来说,位于其他角度的噪声源平均地或更加显著地被衰减。图6显示了对于1kHz的频率,系统在从0°到180°范围内的七种不同的到达角的衰减响应。值得注意的是,衰减响应在所有角度几乎都是相同的,只是在90°时有更大的噪声衰减。这是由于一阶“8字形”(噪声消除)方向图。在所有不是轴向的角度的衰减效果超出图5所示的轴向衰减的衰减效果。
4)公式11显示出的二重差也导致了任何一阶频率响应特性(虽然不是方向性的)的消除,以致于总频率响应是零阶的,尽管方向性响应是一阶的。这意味着,当与平坦响应的全向麦克风一起使用时,频率响应是“平坦的”。在现实中,在输出中保持了所选定的麦克风的频率特征曲线,而不会被修改。这种理想的特性不仅提供了所需信号的极好的保真度,而且还消除了常规的方向性麦克风降噪系统所存在 的近场效应。
如刚刚提及的,近场灵敏度显示了常规的噪声消除“8字形”的方向图。图7是使用两个全向麦克风的系统并在0.13m(5″)的源范围测量的方向图的图形,虽然此方向图对于任何源距离基本上都是恒定的。这是从耳机到嘴部的典型范围,因此,方向图说明了耳机未对准的角容限。阵列轴处于0°方向,并且示出为在此图的右侧。可以看出,在阵列轴的±40度的对准范围内,信号灵敏度在3dB内,从而为耳机未对准提供了极好的容限。为300、500、1k、2k、3k,以及5kHz的频率计算方向图,对于在阵列轴上或阵列轴附近的源,也表现出了极好的频率不敏感性。这种对于频率的灵敏度恒定性被称为“平坦”响应,是非常需要的。
由于每一个窄带输入信号的频域表达式是代表矢量的复数,所描述的处理结果是对于每一个窄带频率子信号,形成输出复数(即,矢量)。当使用傅里叶技术时,常常将这些单个频带信号称为“窗口”。如此,当组合起来时,输出窗口信号形成输出傅里叶变换,代表可以直接地使用的,傅里叶逆变换为时域,然后以数字方式使用的,或逆变换并随后进行D/A转换,以形成模拟时域信号的噪声减少的输出信号。
也可以应用另一种处理方法。基本上,应用公式(11)的效果是,保持来自近场源的信号分量,衰减不多,而显著衰减来自远场源的分量。图8显示了通过公式(11)作为上文所描述的3dB设计实例的前麦克风(10)信号和后麦克风(12)信号之间的幅值的差值的函数实现的衰减。注意,几乎没有衰减施加于语音信号,即,幅值比为3dB或3dB附近。然而,对于远场信号,即,输入信号幅值差非常靠近零的信号,衰减是非常大的。如此,远场噪声源信号衰减强烈,而希望的近场源信号被系统保留。
认识到应用上文所描述的处理的效果类似于刚刚显示的衰减过程,可以认识到一个产生噪声消减效果的更简单的方法。通过使用X(ω,θ,d,r)的值,可以直接地产生衰减值,然后,可以将该衰减值只 单独施加于输入信号,或者施加于两个输入信号的组合(例如,它们的平均值等等)。此方法简化了计算,从而降低了消耗的计算能量。计算能量的节省又会转化为电池寿命的延长,以及尺寸的缩小和成本的节省。
将要应用的衰减值可以从查询表得出,或利用简单函数实时地计算或通过用于在给定一个值时产生另一个值的任何其他常用的手段来进行计算。如此,只有公式(10)需要实时地计算,并且所产生的X(ω,θ,d,r)的值变为查询地址或指向预先计算出的衰减表的指针,或将其与一个固定极值或包含在查询表中的极值进行比较。作为替代地,X(ω,θ,d,r)的值变为衰减函数中的自变量的值。一般而言,这样的衰减函数比上面的公式(11)计算起来更简单。
应该指出的是,输入信号强度差X(ω,θ,d,r)2与输入信号幅值差X(ω,θ,d,r)包含相同的信息。因此,可以在此方法中使用强度差,进行适当的调节,代替幅值差。通过使用强度比,节省了由公式(10)中的平方根运算消耗的计算能量,实现了系统处理的效率更高的实现方式。类似地,也可以使用功率或能量差等代替幅值差X(ω,θ,d,r)。
在一种实现方式中,直接地使用前麦克风信号和后麦克风信号之间的幅值比X(ω,θ,d,r),无需进行偏移校正,要么作为查询表的地址,要么作为对应用过程中计算的衰减函数的输入变量的值。如果使用表,则它包含来自相同或类似的衰减函数的预先计算出的值。下面将描述适用的函数的两个实例。然而,这些不是唯一可能的有用衰减函数,本领域技术人员将会理解,任何这样的函数都在本发明的范围内。
如前所述,图8显示了通过使用公式(10)和(11)产生的衰减特性。可以断定,通过替代地使用此直接的衰减方法产生相同的特性将是理想的。此目标可以通过应用下面的函数直接计算要施加的衰减来实现
其中,rm是到希望的或目标源(在此情况下,用户的嘴部)的距离,其中,按照上面的实例,log(X(ω,θ,d,rm))=3dB/20。如预期的,随着声源移动得更靠近——从一个远的位置到用户的嘴部的位置,attn (ω,θ,d,r)的值在从0到1之间变化。无需改变衰减范围,由公式(12)所提供的衰减特性的形状可以通过将幂从平方变为另一个幂,如1.5或3来修改,在效果上,将衰减从不太主动修改为比较主动的噪声消减。
图9作为实线曲线显示了由公式(12)产生的衰减特性,为了进行比较,由公式(11)产生的衰减特性作为虚线曲线显示。在此图表中,输入信号幅值差比例被放大,以显示在6dB的信号差值范围内的效果。根据需要,两个衰减特征在0到3dB的输入信号幅值差值范围内是相同的。然而,对于高于3dB的输入信号差值,由公式(11)所产生的衰减特性继续上升,而对于这样的输入信号差值,由公式(12)所产生的特性更好地表现,对于6dB差值,回到0。如此,此方法可以产生更好的噪声减少的输出信号。
当然,理论上,对于上面的每个实例,将永不会高于3dB的差值,然而,从实用的观点来看,当进行短时的测量时会发生的诸如风噪声、颤噪效应和统计变异性之类的某些干扰,会产生这样的信号差值。这些决不是所需的信号,因此,对它们进一步的衰减是有益的。
图9还作为曲线a显示了另一个可选的衰减特性,说明了如何应用其他衰减曲线。曲线a是使用下列衰减函数的的结果:
其中,w是控制衰减特性的宽度的参数,fl是控制衰减特性的顶部的平整度的参数。这里,参数被设置为w=1.6,fl=4,但是,也可以使用其他值。此外,在此情况下,也可以应用如下面所描述的衰减阈值。
图10显示了如何实现这样的衰减技术以产生噪音消减过程而无需公式(11)的实时计算的框图。
此时,可以指出,对现实的信号使用STFT技术常常不会产生理想的信号,但是,某些统计上的波动存在于信号中是有许多原因的。如此,有时X(ω,θ,d,r)的值会超过如上文所描述的3dB差值,有时它会小于0dB差值。在这些情况下,可以假设,当前信号不再是所关心的信号,它可以完全被衰减。如此,可以通过完全衰减这些极端情况,来修改衰减。下面的公式实现了此额外的全衰减,但是,也可以使用其他方法,而不会超出本发明的范围。
当输入信号幅值差超出预期的范围之外时,公式(14)迫使输出为零。所属领域的技术人员可以根据需要选择其他全衰减阈值。图11显示了向在处理框32“计算输出”中产生的输出信号应用全衰减的此处理方法的框图。在此方框中产生的输出信号可以使用为上面的例如与公式(11)有关的方法描述的计算。
可以通过当X(ω,θ,d,r)在靠近X(ω,θ,d,rm)的范围内时传递选定信号,当X(ω,θ,d,r)超出该范围之外时设置输出信号,来实现进一步的并且更简单的衰减函数——当它在范围之外时应用于信号以便完全衰减信号的一个简单的“闷罐车”衰减。例如,在图9所示的图中,对于低于0dB或高于6dB的所有输入信号幅值差,输出可以被设置为零,而介于两者之间的可以遵循诸如上面给出的那些衰减特性,或只需被传递,无需衰减。如此,只有所希望的和预期的信号被传递到系统的输出端。
另一个备选方案是比较输入信号幅值差X(ω,θ,d,r)的值,与通过频率成分(bin)号码所索引的值的表中包含的上下极限值。当X(ω,θ,d,r)的值在两个极限值之间时,选定输入信号的值或使用复合信号的值作为输出值。当X(ω,θ,d,r)的值高于上限值或低于下限值时,衰减选定输入信号的值或复合信号的值,要么通过将输出设置为零,要么通过作为X(ω,θ,d,r)超出适当极限之外的量的函数使衰减 逐渐减弱。一个简单的衰减逐渐减弱方法是应用根据下面的衰减函数计算出的衰减量
其中,R确定逐渐减弱的速率。如果R=∞(或在现实中,任何非常大的数),那么,当信号差值超出如前一段落所描述的指定的范围之外时,衰减被有效地设置为0。对于参数R的较低的值,衰减可以随着输入信号幅值差超出任何一个极限,而更慢逐渐减弱。图12演示了用于将输出限制到预期的信号的此计算方法的框图。这里,对照预先计算出的并存储在查询表中的一对极限(每个频率成分一对),检查输入信号幅值差X(ω,θ,d,r)的值。当然,做为选择,也可以从适当的函数集或公式集实时地计算极限,但要以消耗额外的计算能量为代价,但是,节省了存储器的使用量。或者,极限值也可以是平均地应用于所有频率的固定的单对值。如果X在极限内,那么,将计算出的信号传递到输出端,而如果X的值超出极限之外,那么,衰减信号,要么完全地衰减(R=∞),要么通过逐渐减弱的衰减。
图13是使用下列函数计算出的极限表的实例
Lolim(n)=z×W(n) 和
其中,n是傅里叶变换频率成分号码,N是被表达为2次幂的DFT的大小(这里使用的值是7),q是确定频率逐渐减弱的参数(这里设置为3.16),z是最高Lolim值(这里设置为1.31),v是最小Hilim值(这里设置为1.5)。图14A和14B显示了对于8ksps的信号采样速率,此极限集对成分频率的图。
在两个图表中,线条a和b显示了极限值的曲线。上面的线a绘制了Hilim值的集,下面的线b绘制了Lolim值的集。虚线c在这些图上是目标或嘴部信号的预期的轨迹,而点划线d是远场噪声的预期的轨迹。
在图14A的图表中,线e是从处理系统中取出的真实的声测量 值的实际数据,其中,信号是在测试人体模型中由仿真声音再现的粉红噪声。耳机位于人体模型的右耳朵中。应该指出的是,尽管由于此信号的统计的随机性和使用STFT而造成了某些偏差,显示了此测量的嘴部数据的输入信号幅值差的图形的线e按预期的那样严格地遵循虚线c。在图14B的图表中,由位于距离人体模型2m的距离处的扬声器再现粉红噪声信号。同样,显示了此测量的噪声数据的输入信号幅值差的图形的线e按预期的那样严格地遵循点划线,带有一些偏差。
通过使用上面说明的衰减原理,在被线条a和b划分出的“锥体”范围之外的信号将被衰减。如此,易于看出,大多数噪声,特别是高于1000Hz的噪声,将被衰减,而大多数语音信号将被传递到输出端,修改很小或没有修改。在每幅图的右上方,作为时间的函数显示了输出信号。对于每个测量值,在耳机中,使声音电平相同,如此,在这些时域图中看到的信号的降低是由于处理衰减造成的,而不是由于1/r效应造成的。
当然,有许多其他可以代替作为公式(11)、(12)和(13)显示的函数来应用的逐渐减弱和限制函数,任何这样的函数都是可以的。
对于每一个频率成分,衰减函数或衰减函数的系数可以是不同的。类似地,对于每个频率成分全衰减的极限值也可以不同。实际上,在语音通信耳机应用中,逐渐减弱衰减特性和/或全衰减阈值是有益的,以便(未衰减的信号传递给输出端的)X(ω,θ,d,r)的值的范围变窄,即,对于高频率,衰减变得更加激进,如图14A和B中所演示的。
在第二种实现方式中,涉及了输入信号幅值的差所起作用的颠倒。当可以在处理之前,预先确定在麦克风处目标信号电平的差将是什么时,可以通过预先计算出并应用的校正,撤消该电平差。在如此校正了目标信号的输入信号幅值差之后,两个输入目标信号变得匹配(即,输入信号幅值差将是0dB),但是,远场噪声源的信号幅值将不再匹配。
这不同于匹配如上文所描述的换能器响应。当换能器响应匹配 时,意味着,当置于相同位置并由相同的复杂声音输入信号驱动时,每个匹配的换能器将放出相同信号。这里,当换能器分别在它们各自接收不同的复杂输入信号的分离的(并且不同的)位置时,对于每个换能器产生的信号发生匹配。这种匹配被称为“信号匹配”。
目标信号的信号匹配更容易实现,可以更加可靠,部分地是因为目标信号从统计学上来讲更加可能是最大的输入信号,使得对于匹配目的来说检测和使用更容易。这为应用制造起来简单并且操作起来可靠的连续的、自动的、实时匹配算法打开了大门。这样的匹配算法利用所谓的语音活动检测器(VAD)来确定何时有目标信号可用,然后,它们对匹配表或信号放大值进行更新,在A/D转换之后可以以数字方式应用,或通过控制前置放大器增益(例如)来加以应用,以执行匹配。在当VAD输出指出没有目标信号的时段,以前的匹配系数仍保留并被使用,但不更新。常常此更新可以以非常慢的速率发生——几分钟到几天——由于任何信号漂移都非常慢,这意味着,用于支持这样的匹配的计算可以非常低,只消耗微小的额外的计算能量。
文献中公开了很多现有技术的VAD系统。从简单的检测器到比较复杂的检测器都有。简单检测常常基于感测信号的幅值、能量、功率密度或其他瞬时的电平特性,然后,根据此特性是否超出一些阈值来判断是否有语音,阈值可以固定,也可以是自适应地修改的阈值以跟踪信号的平均或一般电平,以适应信号电平的缓慢变化。更加复杂的VAD系统可以使用各种信号统计信息来确定信号的调制,以便检测何时信号的语音部分是活动的,或在那一瞬间信号是否只是噪声。
如果判断换能器信号有效地具有相同的频率响应并且将不会漂移到足以成为问题,但是主要是信号强度不同,那么,匹配可以简单得像将后麦克风前置放大器的增益设计得高出校正此信号强度不平衡的量即可。在这里所描述的实例中,该量将是3dB。此相同的校正也可以通过将后麦克风的A/D标度设置为更加敏感来完成,或者甚至在数字域中,通过将每一个A/D样本乘以校正量来完成。如果判断频率响应不匹配,那么,通过在变换之后放大频域内的信号,可以提供 一些优点,因为每个频带或成分都可以放大一个不同的匹配值,以便校正失配的交叉频率。当然,或者,前麦克风的信号可以缩小或衰减,以实现匹配。
用于进行匹配的放大/衰减值可以包含在匹配表中,根据需要,从匹配表中读出,或者实时地计算。如果使用表,那么,表值可以是固定的,或根据需要,通过如上文所讨论的匹配算法定期更新。
一旦输入信号的目标信号部分的强度是匹配的,就可以应用上文所描述的任何一个衰减方法,以便达到噪声消减的目的,但是,输入信号幅值差首先偏移匹配校正的量,或者,衰减表值偏移匹配校正的量。
例如,如果后信号放大3dB,以便执行目标信号匹配,那么,当输入中有目标信号时,输入信号幅值比X(ω,θ,d,rm)=1(即,0dB),而当有噪声时,X(ω,θ,d,r)=0.707(即,-3dB)。为应用第一种衰减方法的衰减,X(ω,θ,d,r)最初偏移所述匹配增益,在此情况下是偏移3dB。如此,在对公式(12)进行求值时使用Xc(ω,θ,d,r)=1.414×X(ω,θ,d,r)和Xc(ω,θ,d,rm)=1.414×X(ω,θ,d,rm)来求出关联的衰减,其中,下标c,表示校正的幅值比。
抵御风噪声
在设计任何麦克风拾音系统时要解决的另一个噪声分量是风噪声。风噪声本质上不是声音,而是穿过麦克风的声音端口的空气的紊流效应所产生的。因此,每一个端口中的风噪声实际上不相关,反之声音则高度相关。
在气压梯度方向性麦克风类型中,全向或零阶麦克风具有最低的风噪声灵敏度,并且这里所描述的系统表现出零阶特征。这使得如上文所描述的基本系统固有地容忍风噪声。
然而,随后所描述的衰减方法甚至更好地滤去风噪声。由于风噪声在阵列的每个麦克风的端口不相关,从统计学上来讲,风噪声的比较大的一部分具有超出声信号的有效范围的输入信号幅值差X(ω,θ,d,r)。由于在本说明书中使用的耳机实例中的声信号的有效范 围从0dB到3dB,那么,产生超出该有效范围的X(ω,θ,d,r)的值的其他信号组合将自动地减少到零,从而,只有在它们正巧在有效范围内的情况下才影响输出信号。从统计学上来讲,这很少发生,结果,风噪声大大地被这里所描述的处理的限制性效果所降低。
将上文所描述的方法组合起来是十分有用的。例如,使用这里所描述的一种方法产生的输出信号可以通过随后应用这里所描述的第二种方法来进一步减少噪声。一种特别有用的组合是将公式14的极限表方法应用于公式(11)的方法的输出信号。此组合通过图12所示的处理块图形来示范。
作为替代的使用方式
当具有用于在存在(大量的)噪声的情况下获取干净信号的装置时,可以使用该装置作为比较复杂的系统中实现其他目标的组件。通过使用所描述的系统和传感器阵列来产生干净语音信号,意味着,这些干净的语音信号可用于其他用途,例如,作为频谱相减系统的参考信号。如果原始有噪声的信号,例如,来自前麦克风的信号,与该干净的语音信号一起,被发送到频谱相减过程,那么,可以准确地从有噪声的信号减去该干净的语音部分,只留下噪声本身的准确的瞬时版本。然后,此只有噪声的信号可以用于噪声消除耳机中或其他NC系统中,以改善它们的工作。类似地,如果双工通信系统中的回声是个问题,那么,只具有回声信号的干净版本将大大地改善回音消除技术和系统的工作。
进一步的应用是远距信号的干净拾取而忽略和衰减近场信号。这里,远场“噪声”包括所需的信号。这样的系统适用于助听器,用于体育赛事中的边线中的远场麦克风系统、天文学和射电天文学(当本地电磁源干扰观测时)、TV/无线电记者采访、及其他这样的用途。
再一个用法是将这里所描述的多个系统组合起来,通过将它们的输出相加,或者当两个信号不同时进一步压制输出,实现更好的噪声消减。例如,嵌入在军用头盔中的并受保护的这里所说明的两个耳机样式的拾音器(每一侧各一个或两个都在同一侧),将可以在极端的 噪声条件下进行极好的、可靠的和冗余的语音拾取,而无需使用容易损坏和发生故障的悬挂式麦克风。
如此,虽然描述的是在小的单耳耳机中的应用,但是,系统提供了在任何波感测应用中在近场信号和远场信号之间产生明显的区别的方法。它效率高(低的计算和电池功耗,尺寸小,传感器元件的数量最少),而有效(功能极好)。系统包括传感器阵列、高动态范围,线性的模拟信号处理和数字或模拟信号处理。
为说明性能,图15显示了沿着阵列轴的作为源到麦克风阵列的距离的函数的灵敏度的图。下面的曲线(标记为a)是上文所描述的实例耳机的衰减效果。此图中的上面的曲线(标记为b)是使用位于距离嘴部的边缘1″远的一阶压力梯度抗噪声麦克风的常规高端悬挂式麦克风的衰减效果。此悬挂式麦克风配置被大多数音频工艺师视为最能实现的语音拾取系统,它用于许多极端的噪声场合,从舞台娱乐到机场和军用。注意,这里所描述的系统在几乎所有的距离范围内都优于悬挂式麦克风,即,具有更低的噪声拾取灵敏度。
图16显示了此相同数据,但是,是在对数距离轴上绘制的。这里,可以看出,对应于常规的悬挂式设备的曲线b开始进一步向左,因为它更靠近用户的嘴部。对应于这里所描述的系统的性能的曲线a开始进一步向右,在大约0.13-m(5″)的距离,因为这是从嘴部回到耳部的耳机中的前麦克风的距离。在0.3-m(1英尺)范围之外,来自噪声源的信号与被常规悬挂式麦克风“gold standard”衰减程度相比,被这里所描述的系统衰减得更加厉害。利用位于与所需信号的源五倍的距离远的麦克风阵列实现此效果。此改善的效果是由于两倍于常规设备的衰减对距离的斜率而造成的。
如此,可以获得的优点包括下面的各项中的任何一项或全部:
·零阶平坦的目标信号响应-无邻域效应
·二阶远场噪声响应-随距离的非常快速的衰减
·风噪声不敏感性
·固有的混响和回音消除
·在负SNR环境中工作
·高语音保真度——对于自动语音识别兼容性和免提质量
·非常高的噪音消减——在所有噪声条件下
·处理非静态以及静态噪声——甚至冲击声
·“即时”自适应——无自适应延迟
·与其他通信设备和信号处理兼容
·尺寸小——轻松地装入商用耳机中——分立的
·低成本——最小数量的阵列元件以及计算效率非常高
·电池漏电少——电池寿命长以及电池充电迅速
·重量轻
·替代的配置,例如,对于远场感测,产生VAD信号等。
上面的描述是实施本发明的示范性模式,不意在对本发明作出限制。对于所属领域的技术人员来说显而易见的是,在不偏离如下面的权利要求所阐述的本发明的精神和范围的情况下,可以作出很多修改。