具体实施方式
参考图2,垂饰形式的设备2包括布置在垂饰2的相对侧或相对面上的两个传感器4、6,使得当两个传感器4、6中的一个与用户接触时,另一个传感器与空气接触。与用户接触的传感器4、6将充当骨-传导或接触传感器(并提供BC音频信号),并且与空气接触的传感器4、6将充当空气-传导传感器(并提供AC音频信号)。传感器4、6一般具有相同的类型和结构。在示出的实施例中,传感器4、6可以是基于MEMS技术的麦克风。本领域技术人员将理解,传感器4、6可以用其它类型的传感器或换能器来实现。
设备2可以附接至绳索,从而可以围绕用户的颈部佩戴所述设备2。绳索和设备可以布置为使得所述设备当作为垂饰佩戴时具有相对于用户的身体的预定的取向,以便保证传感器4、6中的一个传感器与用户接触。此外,所述设备的形状可以设定为使得该设备是旋转不变的,从而防止在使用时由于用户的运动而导致设备取向改变以及所述一个传感器失去与用户的接触。设备的形状例如可以是矩形。
图3中示出根据本发明的设备2的框图。如上所述,设备2包括两个麦克风:第一麦克风4和第二麦克风6,它们设置在设备2中使得当麦克风4、6中的一个与用户的一部分接触时,另一个麦克风4、6与空气接触。
第一麦克风4和第二麦克风6同时地操作(即它们同时捕捉相同的语音)以产生相应的音频信号(在图3中标示为m1和m2)。
将音频信号提供给鉴别器块7,所述鉴别器块7分析音频信号以确定哪一个(若有的话)对应于BC音频信号和AC音频信号。
然后,鉴别器块7将音频信号输出至电路8,所述电路8执行处理以改进音频信号中的语音的质量。
处理电路8可以对BC音频信号和AC音频信号执行任意公知的语音增强算法,以产生干净的(或至少改进的)代表用户的语音的输出音频信号。将所述输出音频信号提供给发射机电路10,以用于经由天线12传送至另一电子设备(例如移动电话或设备基站)。
如果鉴别器块7确定麦克风4、6都不与用户的身体接触,则鉴别器块7可以将AC音频信号两者都输出至处理电路8,所述处理电路8随后基于多个AC音频信号的存在执行替代的语音增强方法(例如波束成形)。
公知的是,BC音频信号中的语音的高频部分由于传送介质而衰减(例如在1kHz以上的频率),其由图3中的曲线图示出,图3示出了在存在背景扩散白噪声(图4A)和不具有背景噪声(图4B)的情况下的BC和AC音频信号的功率频谱密度的比较。因此可以由鉴别器块7利用该特性在BC和AC音频信号之间进行区分。
图5中示出根据本发明的方法的示例性实施例,在步骤101中,使用第一麦克风4和第二麦克风6同时获得相应的音频信号,并且将所述音频信号提供给鉴别器块7。然后,在步骤103和105中,鉴别器块7分析每个音频信号的频谱特性,并且基于所述频谱特性检测第一和第二麦克风4、6中的哪一个(若有的话)与用户的身体接触。在一个实施例中,鉴别器块7分析每个音频信号在阈值频率(例如1kHz)以上的频谱特性。
然而,一个困难产生于两个麦克风4、6可能没有被校准(即两个麦克风4、6的频率响应可能是不同的)的事实。在这种情况下,在继续进行鉴别器块7之前可以将校准滤波器应用于麦克风中的一个(未在附图中示出)。因此,在下文中,可以假设直至一宽频带增益所述响应都是相等的,即两个麦克风的频率响应具有相同的形态。
在以下的操作中,鉴别器块7比较来自两个麦克风4、6的音频信号的频谱以确定哪一个音频信号(若有的话)是BC音频信号。如果麦克风4、6具有不同的频率响应,则这可以在设备2的产生期间用校准滤波器来修正,所以不同的麦克风响应不影响由鉴别器块7执行的比较。
即使使用了该校准滤波器,仍有必要考虑AC与BC音频信号之间的一些增益差异,因为除了它们的频谱特性以外,AC和BC信号的强度是不同的(尤其是频率在1kHz以上)。
因此,鉴别器块7基于在阈值频率以下的整体峰值使两个音频信号在阈值频率以上的频谱归一化(单纯为了区分的目的),并且比较在阈值频率以上的频谱以确定哪一个(若有的话)是BC音频信号。如果没有执行该归一化,则由于BC音频信号的高强度,可能确定更高频率的功率在BC音频信号中仍比在AC音频信号中高,而实际情况可能并非如此。
图6的流程图中示出本发明的具体实施例。在下文中,假定已经执行了考虑在麦克风4、6的频率响应中的差异所需的任意校准,并且假定来自BC麦克风4和AC麦克风6的相应的音频信号在下文描述的对音频信号的进一步处理之前使用适当的时延进行时间校准。在步骤111中,使用第一麦克风4和第二麦克风6同时获得相应的音频信号,并且将其提供给鉴别器块7。
在步骤113中,鉴别器块26如下所示将N点(单边)快速傅里叶变换(FFT)应用于来自每个麦克风4、6的音频信号:
M1(ω)=FFT{m1(t)} (1)
M2(ω)=FFT{m2(t)} (2)
在ω=0弧度(rad)和ω=2πfs rad之间产生N个频率窗口,其中,fs是模数转换器的以赫兹(Hz)为单位的采样频率,所述模数转换器将模拟麦克风信号转换至数字域。除了包括奈奎斯特频率πfs的最初的N/2+1个窗口,剩下的窗口是可以丢弃的。然后,鉴别器块26使用针对音频信号的FFT的结果来计算每个音频信号的功率频谱。
然后,在步骤115中,鉴别器块7在阈值频率ωc以下的频率窗口中得到功率频谱的最大波峰值:
并且使用最大峰值来使阈值频率ωc以上的音频信号的功率频谱归一化。阈值频率ωc选择为一频率,在该频率以上,BC音频信号的频谱通常相对于AC音频信号被衰减。例如,阈值频率ωc可以是1kHz。每个频率窗口包含单一的值,对于功率频谱而言,所述单一的值是在该窗口中的频率响应的大小的平方。
替代地,在步骤115中,鉴别器块7可以得到每个音频信号的在ωc以下的总计的功率频谱,即:
并且可以使用总计的功率频谱使音频信号的在阈值频率ωc以上的功率频谱归一化。
因为AC音频信号和BC音频信号的低频窗口应当包含大致相同的低频信息,所以p1和p2的值用来使来自两个麦克风4、6的信号频谱归一化,从而可以比较音频信号两者的高频窗口(其中预计会找到BC音频信号和AC音频信号之间的差异),并且可以识别潜在的BC音频信号。
在步骤117中,然后,鉴别器块7在更高的频率窗口中比较来自第一麦克风4的信号的频谱与来自归一化后的第二麦克风6的信号的频谱之间的功率:
其中,ε是防止除以零的较小的常数,并且p1/(P2+ε)代表第二音频信号的频谱的归一化(虽然将理解的是,可以替代地将归一化应用于第一音频信号)。
如果在两个音频信号的功率之间的差异大于预定量(其取决于骨-传导麦克风的位置且可以实验地确定),则在ωc以上的归一化后的频谱中具有最大功率的音频信号确定为来自AC麦克风的音频信号,并且具有最小功率的音频信号确定为来自BC麦克风的音频信号。
然而,如果在两个音频信号的功率之间的差异小于预定量,则不能肯定地确定音频信号中的某一个是BC音频信号(并且可能的是麦克风4、6两者都没有与用户的身体接触)。
将理解的是,可以计算模量值,以取代在步骤117中计算以上等式中的模量的平方。
也将理解的是,在步骤117中可以使用有界限的比例(bounded ratio)来进行对两个信号的功率之间的另一种比较,从而可以在作决定时考虑不确定性。例如,可以如下确定频率在阈值频率以上的功率的有界限的比例:
其中,所述比例被限定在-1和1之间,接近于0的值表示麦克风(若有的话)是BC麦克风的不确定性。
鉴别器块7包括开关电路,所述开关电路将确定为BC音频信号的音频信号输出至处理电路8的BC音频信号输入端,并且将确定为AC音频信号的音频信号输出至处理电路8的AC音频信号输入端。然后,处理电路8对BC音频信号和AC音频信号执行语音增强算法以产生干净(或至少改进的)的代表用户的语音的输出音频信号。
如果由于不确定性,两个音频信号都确定为AC音频信号,则鉴别器块7中的开关电路可以将所述信号输出至处理电路8的替代的音频信号输入端(未在图3中示出)。然后,处理电路8可以将两个音频信号都视为AC音频信号,并且使用常规的双麦克风技术处理它们,例如通过使用波束成形技术组合AC音频信号。
在替代的实施例中,开关电路可以是处理电路8的一部分,这意味着鉴别器块7可以连同表示音频信号中的哪一个(若有的话)是BC或AC音频信号的信号13一起将来自第一麦克风4的音频信号输出至处理电路8的第一音频信号输入端,并且将来自第二麦克风6的音频信号输出至处理电路8的第二音频信号输入端。
图7中的曲线图示出了在测试程序期间上文描述的鉴别器块7的操作。尤其是,在测试的第一个10秒期间,第二麦克风6与用户接触(所以它提供BC音频信号),其由鉴别器块7正确地识别(如在底部曲线图中示出的)。在测试的下一个10秒中,第一麦克风4作为替代与用户接触(所以它随后提供BC音频信号)并且这再次由鉴别器块7正确地识别。
图8示出了根据本发明的更详细的设备2的处理电路8的实施例。所述设备2一般对应于在图3中示出的设备2,两个设备2共有的特征用相同的附图标记标示。
因此,在该实施例中,处理电路8包括:语音检测块14,接收来自鉴别器块7的BC音频信号;语音增强块16,接收来自鉴别器块7的AC音频信号以及语音检测块14的输出;第一特征提取块18,接收BC音频信号并产生信号;第二特征提取块20,接收语音增强块16的输出;以及均衡器22,接收来自第一特征提取块18的信号以及第二特征提取块20的输出并产生处理电路8的输出音频信号。
处理电路8也包括另外的电路24,其用于当确定来自第一和第二麦克风4、6的音频信号两者都是AC音频信号时,处理来自第一和第二麦克风4、6的音频信号。如果使用该电路24,则将该电路24的输出提供给发射机电路10以代替来自均衡器块22的输出音频信号。
简单地说,处理电路8使用BC音频信号的特性或特征以及语音增强算法以降低AC音频信号中的噪声量,然后,使用降噪后的AC音频信号来均衡BC音频信号。该具体的音频信号处理方法的优点是:虽然降噪后的AC音频信号可能仍包含噪声和/或假象,但是它可以用来改进BC音频信号(其一般不包含语音假象)的频率特性,从而使得所述BC音频信号听起来更清晰。
语音检测块14处理接收到的BC音频信号以识别代表设备2的用户的语音的BC音频信号的部分。由于BC麦克风4相对不受背景噪声的影响且具有高的SNR,所以BC音频信号的使用对于语音检测是有利的。
语音检测块14可以通过将简单阈值技术应用至BC音频信号来执行语音检测,由此在BC音频信号的幅值在阈值以上时检测语音周期。
在处理电路8的其它实施例中,在执行语音检测之前能够基于最小统计和/或波束成形技术(在可获得多于一个的BC音频信号的情况下)抑制BC音频信号中的噪声。
图9中的曲线图示出了语音检测块14对BC音频信号的操作的结果。
将语音检测块14的输出(在图9的底部部分中示出)与AC音频信号一起提供给语音增强块16。与BC音频信号相比,AC音频信号包含稳态和非稳态背景噪声源,所以对AC音频信号执行语音增强,使得它可以用作之后增强(均衡)所述BC音频信号的参考。语音增强块16的一个作用是降低AC音频信号中的噪声量。
公知的是,可以通过块16将许多不同类型的语音增强算法应用于AC音频信号,并且所使用的具体的算法可以取决于设备2中的麦克风4、6的结构以及将怎样使用设备2。
在具体实施例中,语音增强块16将某种形式的频谱处理应用于AC音频信号。例如,语音增强块16可以使用语音检测块14的输出来估计在如由语音检测块14确定的非语音时间段期间的AC音频信号的谱域中的本底噪声。每当没有检测到语音时更新本底噪声估计。
在设备2被设计为具有多于一个的AC传感器或麦克风(即除了与用户接触的传感器外的多个AC传感器)的实施例中,语音增强块16也可以应用某种形式的麦克风波束成形。
图10中的顶部曲线图示出了从AC麦克风6中获得的AC音频信号,并且图10中的底部曲线图示出了使用语音检测块14的输出而将语音增强算法应用于AC音频信号的结果。可以看出AC音频信号中的背景噪声水平足以产生约0dB的SNR,并且语音增强块16对AC音频信号施加增益,以抑制背景噪声达将近30dB。然而,也可以看出虽然AC音频信号中的噪声量已经得到显著的降低,但是仍保留一些假象。
然后,降噪后的AC音频信号用作参考信号以增加BC音频信号的清晰度(即增强BC音频信号)。
在处理电路8的一些实施例中,能够使用长程频谱法(long-term spectralmethod)来构建均衡滤波器,或者替代地,BC音频信号可以用作自适应滤波器的输入,所述自适应滤波器最小化滤波器的输出与增强后的AC音频信号之间的均方差,其中滤波器的输出提供均衡后的BC音频信号。另一种替代利用有限脉冲响应可以对在BC音频信号与增强后的AC音频信号之间的传递函数进行建模的假设。在使用以BC音频信号作为输入且以增强后的AC音频信号作为参考的自适应滤波器的情况下,自适应滤波器的输出是均衡后的BC音频信号。在这些实施例中,将理解的是,均衡器块22除了需要由特征提取块18从BC音频信号中提取的特征之外还需要初始的BC音频信号。在这种情况下,将存在BC音频信号输入线与图8中示出的处理电路8中的均衡块22之间的额外的连接。
然而,基于线性预测的方法可以更好地适用于改进BC音频信号中的语音的清晰度,所以,如下文进一步描述的,特征提取块18、20优选地是从BC音频信号和降噪后的AC音频信号两者提取线性预测系数的线性预测块,其用来构建均衡滤波器。
线性预测(LP)是基于语音产生的源-滤波器模型的语音分析工具,其中所述源和滤波器分别对应于由声带和声道形状产生的声门激励。所述滤波器假定为全极点的。因此,LP分析提供了激励信号和由全极点模型代表的频域包络,所述全极点模型与语音产生期间的声道特性相关。
所述模型如下给出:
其中,y(n)和y(n-k)对应于受分析信号的当前信号采样和过去的信号采样,u(n)是具有增益G的激励信号,ak代表预测器系数,p是全极点模型的阶(order)。
LP分析的目标是估计提供给音频信号采样的预测器系数的值,以最小化预测的误差。
其中所述误差实际上对应于源滤波器模型中的激励源。e(n)是信号的不能由模型预测的部分,因为该模型仅仅能够预测频谱包络,并且所述e(n)实际上对应于由喉头中的声门产生的脉冲(声带激励)。
公知的是,附加的白噪声严重地影响LP系数的估计,在y(n)中存在的一个或多个附加源带来对包括来自这些源的贡献的激励信号的估计。所以,重要的是,获取仅仅包含期望的源信号的无噪声音频信号以估计准确的激励信号。
BC音频信号是如下的信号:因为其高的SNR,可以使用由线性预测块18执行的LP分析来准确地估计激励源e。然后,可以使用所得到的通过分析降噪后的AC音频信号而估计的全极点模型对该激励信号e进行滤波。因为,全极点滤波器代表降噪后的AC音频信号的平滑的频谱包络,所以它对源自增强处理的假象更具有鲁棒性。
如图8中所示,对BC音频信号(使用线性预测块18)和降噪后的AC音频信号(通过线性预测块20)两者执行线性预测分析。对音频采样的长度为32ms的每个块执行线性预测,其中有16ms的重叠。在线性预测分析之前,也可以对所述信号的一个或两者都应用预加重滤波器。为了改进线性预测分析的执行以及随后的BC音频信号的均衡,降噪后的AC音频信号和BC信号可以首先通过在音频信号的两者之一中引入合适的时延来进行时间校准(未示出)。该时延可以使用交叉-相关技术来适应性地确定。
在当前采样块期间,估计过去、当前和将来的预测器系数,将它们转换为线谱频率(LSF),使它们平滑,并且将它们转换回线性预测器系数。因为代表频谱包络的线性预测系数不受平滑处理影响(not amenable to smoothing),所以使用LSF。在合成操作期间,平滑处理适用于衰减过渡效应。
针对BC音频信号而获得的LP系数用来产生BC激励信号e。然后,该信号由均衡块22滤波(均衡),所述均衡块22简单地使用从降噪后的AC音频信号中估计且平滑的全极点滤波器。
可以将使用全极点滤波器的LSF的进一步成形应用于AC全极点滤波器以防止有效频谱中的不必要的增强。
如果在LP分析之前将预加重滤波器应用于所述信号,则可以将去加重滤波器应用于H(z)的输出。也可以将宽频带增益应用于输出以补偿源自所述加重滤波器的宽频带放大或衰减。
因此,通过对“干净”的激励信号e进行滤波导出所述输出音频信号,所述“干净”的激励信号e是使用全极点模型从BC音频信号的LP分析中获得的,所述全极点模型是从对降噪后的AC音频信号的LP分析中估计出的。
图11示出当使用线性预测时在嘈杂和干净环境中的AC麦克风信号与所述处理电路8的输出之间的比较。因此,可以看出输出音频信号与嘈杂的AC音频信号相比包含相当少的假象,并且更接近地类似干净的AC音频信号。
图12示出在图11中所示的三个信号的功率频谱密度之间的比较。这里也可以看出输出音频信号频谱更接近地匹配干净环境中的AC音频信号。
因此,处理电路8的该实施例允许在语音被严重的噪声或混响降低品质的听觉上恶劣的环境中产生干净(或至少清晰的)语音音频信号。
在处理电路8的进一步的实施例(未在图8中示出)中,提供第二语音增强块以用于在执行线性预测之前增强由鉴别器块7提供的BC音频信号(降低其中的噪声)。如同第一语音增强块16,第二语音增强块接收语音检测块14的输出。第二语音增强块用来将适度的语音增强应用于BC音频信号以去除可能泄露到麦克风信号中的任意噪声。虽然由第一和第二语音增强块执行的算法可以是相同的,但是所施加的噪声抑制/语音增强的实际量对于AC和BC音频信号而言将是不同的。
将理解的是,在图2中示出的垂饰2或包含上文描述的发明的其它非垂饰设备可以包括多于两个的麦克风。例如,垂饰2的横截面可以是三角形(需要三个麦克风,每个面上一个)或方形(需要四个麦克风,每个面上一个)。设备2也可能配置为使得多于一个的麦克风可以获得BC音频信号。在这种情况下,能够在通过电路8进行语音增强处理之前使用(例如)波束成形技术将来自多个AC(或BC)麦克风的音频信号组合以产生具有改进的SNR的AC(或BC)音频信号。这有助于通过处理电路8进一步改进音频信号输出的质量和清晰度。
当在这样的设备中使用多于一个的具体类型(例如AC和/或BC)的麦克风时,用于将每台设备的麦克风分类为AC或BC的一般的方法可以如下文所述。首先,在麦克风间执行如图5或6中描述的逐对分类,并且将它们分组为AC、BC或不确定。下面,这次在归类为不确定和BC信号的那些麦克风之间再执行按对分类。如果两个麦克风仍归类为不确定,则它们属于BC组,否则它们属于麦克风的AC组。也可以使用AC组替代BC组来进行第二步骤。
虽然已经在上文中按照作为MPERS的一部分的垂饰描述了本发明,但是将理解的是,本发明可以以其它类型的电子设备来实现,所述其它类型的电子设备使用传感器或麦克风来检测语音。图13中示出一种类型的设备2,所述设备2是可以与移动电话连接以提供免提功能的有线免提套件。设备2包括耳塞(未示出)和包括两个麦克风4、6的麦克风部分30,所述两个麦克风4、6在使用时接近于用户的嘴或颈部设置。取决于任意给定时间麦克风部分的取向,所述麦克风部分配置为使得两个麦克风4、6中的任意一个可以与用户的颈部接触。
将理解的是,在图2和7中示出的鉴别器块7和/或处理电路8可以实施为单一的处理器,或者实施为多个互相连接的处理块。替代地,将理解的是,处理电路8的功能可以以计算机程序的形式实现,所述计算机程序由设备内的通用目的的一个或多个处理器来执行。此外,将理解的是,处理电路8可以在与容纳第一和/或第二麦克风4、6的设备分离的设备中实现,其中在那些设备之间传递音频信号。
也将理解的是,鉴别器块7和处理电路8可以基于逐块的方式处理音频信号(即一次处理音频采样的一块)。例如,在鉴别器块7中,音频信号在应用FFT之前可以划分为N个音频采样的块。然后,可以对N个转换后的音频采样的每个块执行由鉴别器块26执行的后续处理。特征提取块18、20可以以类似的方式操作。
因此,提供了一种即使当设备可以相对于用户自由移动进而导致提供BC和AC信号的麦克风改变时,也允许从BC和AC音频信号获得代表用户的语音的音频信号的设备及其操作方法。
虽然在附图和前面的描述中已经详细地示出并描述了本发明,但是这样的图示和描述将被认为是例证性或示例性的,而非限制性的;本发明不限于所公开的实施例。
在实践所要求保护的发明时,本领域技术人员可以根据对附图、公开内容和所附权利要求的学习理解并实现所公开的实施例的变型。在所述权利要求中,词语“包括”不排除其它元件或步骤,并且不定冠词“一”不排除多个。单一的处理器或其它单元可以实现在权利要求中记载的多项的功能。在相互不同的从属权利要求中记载的特定措施的单纯事实并不表示这些措施的组合不能有利地加以利用。计算机程序可以存储/分布在合适的介质中,例如光存储介质或者与其它硬盘一起提供或作为其它硬盘的一部分的固态介质,但是所述计算机程序也可以以其它形式分布,例如经由互联网或者其它有线或无线的远程通信系统。在权利要求中的任意附图标记不应当解释为构成对范围的限制。