CN103229238A

CN103229238A - 用于产生音频信号的系统和方法

Info

Publication number: CN103229238A
Application number: CN2011800566358A
Authority: CN
Inventors: P·克基基安; W·A·M·A·M·范登敦根
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2010-11-24
Filing date: 2011-11-17
Publication date: 2013-07-31
Anticipated expiration: 2031-11-17
Also published as: EP2643834A1; RU2595636C2; JP6034793B2; BR112013012538A2; EP2643834B1; US9812147B2; RU2013128375A; EP2458586A1; US20130246059A1; CN103229238B; WO2012069966A1; JP2014502468A

Abstract

本发明提供了一种产生代表用户的语音的信号的方法，所述方法包括：使用与用户接触的传感器来获得代表用户的语音的第一音频信号；使用空气传导传感器来获得第二音频信号，所述第二音频信号代表用户的语音，并且包括来自用户周围的环境的噪声；检测所述第一音频信号中的语音周期；将语音增强算法应用于第二音频信号以降低第二音频信号中的噪声，所述语音增强算法使用在第一音频信号中所检测到的语音周期；使用降噪后的第二音频信号来均衡第一音频信号以产生代表用户的语音的输出音频信号。

Description

用于产生音频信号的系统和方法

技术领域

本发明涉及一种用于产生音频信号的系统和方法，并且尤其涉及一种从使用诸如骨-传导或接触麦克风之类的接触传感器获得的音频信号中产生代表用户语音的音频信号的系统和方法。

背景技术

移动设备频繁地用在听觉上恶劣的环境（即存在许多背景噪声的环境）中。除了移动设备的用户在双向通信期间能够听到远端方（far-end party）的问题之外，困难的是获得代表用户语音的“干净”（即没有噪声或噪声基本上降低）的音频信号。在捕获的信噪比（SNR）较小的环境中，在可以利用“乐音”假象（artifact）使近端语音信号（即由移动设备中的麦克风获得的信号）失真之前，传统的语音处理算法仅仅可以执行有限量的噪声抑制。

公知的是，与使用诸如麦克风（即与通过空气产生声音的对象相分离的麦克风）之类的空气-传导（AC）传感器获得的音频信号相比，使用诸如骨-传导（BC）或接触麦克风（即与产生声音的对象物理接触的麦克风）之类的接触传感器获得的音频信号相对不受背景噪声的影响，因为由BC麦克风所测量的声音振动是通过用户的身体传播，而不是如用普通的AC麦克风那样通过空气传播，所述普通的AC麦克风除了捕获期望的音频信号之外也拾取背景噪声。此外，使用BC麦克风获得的音频信号的强度通常比使用AC麦克风获得的音频信号的强度高得多。因此，已经考虑将BC麦克风用于可能在嘈杂的环境中使用的设备。图1示出了在相同嘈杂的环境中使用BC麦克风获得的音频信号相对于使用AC麦克风获得的音频信号的高SNR特性。

然而，使用BC麦克风获得语音的问题在于其质量和清晰度通常比使用AC麦克风获得的语音的质量和清晰度低得多。清晰度的这种降低一般源自骨头和组织的滤波特性，其可以严重地衰减音频信号的高频成分。

使用BC麦克风获得的语音的质量和清晰度取决于其在用户上的具体位置。麦克风设置得离在喉咙和颈部区域周围的喉头和声带越近，所得到的BC音频信号的质量和强度越好。此外，由于BC麦克风与产生声音的对象物理接触，所以得到的信号与AC音频信号相比具有更高的SNR，该AC音频信号也拾取背景噪声。

然而，虽然使用在颈部区域中或在颈部区域周围设置的BC麦克风获得的语音将具有高得多的强度，但是信号的清晰度仍将非常低，其归因于通过在颈部区域中或在颈部区域周围的骨头和软组织对声门信号进行的滤波以及声道传送功能的缺失。

使用BC麦克风获得的音频信号的特性也取决于BC麦克风的壳体（即它是否与环境中的背景噪声屏蔽开了）以及用于建立与用户的身体的接触而施加至BC麦克风的压力。

虽然存在旨在改进从BC麦克风获得的语音的清晰度的滤波或语音增强方法，但是这些方法需要存在干净的语音参考信号，从而构建均衡滤波器以应用于来自BC麦克风的音频信号，或者需要使用来自AC麦克风的干净的音频信号来训练特定于用户的模型。因此，这些方法不适合于真实世界的应用，在所述真实世界的应用中，不总能得到干净的语音参考信号（例如，在嘈杂的环境中）或数个不同用户中的某些用户会使用特定的设备。

因此，需要一种用于从使用BC麦克风获得的音频信号中产生代表用户语音的音频信号的替代的系统和方法，其可以用在嘈杂的环境中，并且不需要用户在使用前训练算法。

发明内容

根据本发明的第一方案，提供了一种产生代表用户的语音的信号的方法，所述方法包括：使用与所述用户接触的传感器获得代表用户的语音的第一音频信号；使用空气传导传感器获得第二音频信号，所述第二音频信号代表所述用户的语音并包括来自所述用户周围的环境的噪声；检测所述第一音频信号中的语音周期；将语音增强算法应用于所述第二音频信号以降低所述第二音频信号中的噪声，所述语音增强算法使用所述检测到的所述第一音频信号中的语音周期；使用降噪后的所述第二音频信号来均衡所述第一音频信号以产生代表所述用户的所述语音的输出音频信号。

该方法具有以下的优点：虽然降噪后的AC音频信号可能仍包含噪声和/或假象，但是它可以用来改进BC音频信号（其通常不包含假象）的频率特性，从而使其听起来更清晰。

优选地，检测第一音频信号中的语音周期的步骤包括检测第一音频信号中的音频信号的幅值在阈值以上的部分。

优选地，应用语音增强算法的步骤包括对所述第二音频信号应用频谱处理。

在优选的实施例中，应用语音增强算法以降低所述第二音频信号中的噪声的步骤包括使用所述检测到的第一音频信号中的语音周期来估计在第二音频信号的谱域中的本底噪声。

在优选的实施例中，均衡所述第一音频信号的步骤包括对所述第一音频信号和降噪后的所述第二音频信号两者执行线性预测分析以构建均衡滤波器。

尤其是，执行线性预测分析的步骤优选地包括：（i）估计用于所述第一音频信号和降噪后的所述第二音频信号两者的线性预测系数；（ii）使用用于所述第一音频信号的所述线性预测系数来产生用于所述第一音频信号的激励信号；（iii）使用用于降噪后的所述第二音频信号的所述线性预测系数来构建频域包络；以及（iv）使用频域包络来均衡用于所述第一音频信号的激励信号。

替代地，均衡所述第一音频信号的步骤包括：（i）使用长程频谱法来构建均衡滤波器，或（ii）使用第一音频信号作为自适应滤波器的输入，所述自适应滤波器最小化所述滤波器输出与降噪后的所述第二音频信号之间的均方差。

在一些实施例中，在均衡步骤之前，所述方法进一步包括将语音增强算法应用于所述第一音频信号以降低在所述第一音频信号中的噪声的步骤，所述语音增强算法利用在第一音频信号中检测到的语音周期，并且其中，所述均衡步骤包括使用降噪后的所述第二音频信号来均衡所述降噪后的第一音频信号，以产生代表所述用户的所述语音的所述输出音频信号。

在具体实施例中，所述方法进一步包括以下步骤：使用第二空气传导传感器获得第三音频信号，所述第三音频信号代表所述用户的语音并包括来自所述用户周围的所述环境的噪声；以及使用波束成形技术来将所述第二音频信号和所述第三音频信号组合并产生组合音频信号；并且其中，应用语音增强算法的步骤包括将所述语音增强算法应用于所述组合音频信号以降低在所述组合音频信号中的所述噪声，所述语音增强算法使用在第一音频信号中检测到的语音周期。

在具体实施例中，所述方法进一步包括以下的步骤：使用与所述用户接触的第二传感器获得代表用户的语音的第四音频信号；以及使用波束成形技术以将所述第一音频信号和所述第四音频信号组合并产生第二组合音频信号；并且其中，检测语音周期的步骤包括检测所述第二组合音频信号中的语音周期。

根据本发明的第二方案，提供了一种用于产生代表用户的语音的音频信号的设备，所述设备包括：处理电路，其配置为从与所述用户接触的传感器接收代表所述用户的所述语音的第一音频信号；从空气传导传感器中接收第二音频信号，所述第二音频信号代表所述用户的所述语音并包括来自在所述用户周围的所述环境的噪声；检测所述第一音频信号中的语音周期；将语音增强算法应用至所述第二音频信号以降低第二音频信号中的所述噪声，所述语音增强算法使用在所述第一音频信号中检测到的语音周期；并且使用降噪后的所述第二音频信号均衡所述第一音频信号以产生代表所述用户的所述语音的输出音频信号。

在优选的实施例中，所述处理电路配置为通过以下方式来均衡所述第一音频信号：对所述第一音频信号和降噪后的所述第二音频信号两者执行线性预测分析，以构建均衡滤波器。

在优选的实施例中，所述处理电路配置为通过以下步骤来执行线性预测分析：（i）估计用于所述第一音频信号和降噪后的所述第二音频信号两者的线性预测系数；（ii）使用用于所述第一音频信号的所述线性预测系数来产生用于所述第一音频信号的激励信号；（iii）使用用于所述降噪后的音频信号的所述线性预测系数来构建频域包络；以及（iv）使用频域包络来均衡用于所述第一音频信号的激励信号。

优选地，所述设备进一步包括：接触传感器，其配置为当使用所述设备时与所述用户的身体接触且产生所述第一音频信号；以及空气传导传感器，其配置为产生第二音频信号。

根据本发明的第三方案，提供了一种包括计算机可读代码的计算机程序产品，其配置为使得：在通过合适的计算机或处理器执行所述计算机可读代码时，所述计算机或处理器执行上文描述的方法。

附图说明

现在将通过参考以下的附图而仅仅举例描述本发明的示例性实施例，在所述附图中：

图1示出了在相同的嘈杂环境中使用BC麦克风获得的音频信号相对于使用AC麦克风获得的音频信号的高SNR特性；

图2是根据本发明的第一实施例的包括处理电路的设备的框图；

图3是例示出根据本发明的用于处理来自BC麦克风的音频信号的方法的流程图；

图4是示出对使用BC麦克风获得的信号执行语音检测的结果的曲线图；

图5是示出对使用AC麦克风获得的信号应用语音增强算法的结果的曲线图；

图6是示出在嘈杂和干净环境中使用AC麦克风获得的信号与根据本发明的所述方法的输出之间的比较的曲线图；

图7是示出在图6中所示的三个信号的功率谱密度之间的比较的曲线图；

图8是根据本发明的第二实施例的包括处理电路的设备的框图；

图9是根据本发明的第三实施例的包括处理电路的设备的框图；

图10A和10B是分别示出在具有和不具有背景噪声的情况下从BC麦克风和AC麦克风中获得的信号的功率谱密度之间的比较的曲线图；

图11是示出根据所述第三实施例的处理电路中的BC/AC鉴别器模块的动作的结果的曲线图；以及

图12、13和14示出了根据本发明的组合了可以与处理电路一起使用的两个麦克风的示例性设备。

具体实施方式

如上所述，本发明处理从恶劣的声环境提供的干净（或至少清晰）的语音音频信号的问题，在所述恶劣的声环境中，所述语音被严重的噪声或混响降低品质。

现有的为了均衡使用BC麦克风或接触传感器获得的音频信号（以增加语音的逼真度）而开发的算法依赖于干净的参考信号的使用或特定于用户的模型的前期训练，但是本发明提供了一种用于从BC或接触麦克风获得的音频信号中产生代表用户的所述语音的改进的系统和方法，该BC或接触麦克风可以用在嘈杂的环境中而并不要求用户在使用前训练所述算法。

在图1中示出根据本发明的第一实施例的包括处理电路的设备2。所述设备2可以是便携式的或移动的设备，例如移动电话、智能电话或PDA、或者用于这种移动设备的配件（例如，无线或有线免提耳机）。

设备2包括用于产生代表用户语音的相应的音频信号的两个传感器4、6。第一传感器4是设置在设备2中的骨-传导或接触传感器，其设置在设备2中使得当使用设备2时它与设备2的部分用户接触，并且第二传感器6是通常不与所述用户直接物理接触的空气传导传感器。在示出的实施例中，第一传感器4是骨-传导或接触麦克风，并且所述第二传感器是空气-传导麦克风。在替换实施例中，第一传感器4可以是加速度计，所述加速度计在用户说话时产生代表由用户身体的振动产生的加速度的电信号。本领域技术人员将理解第一和/或第二传感器4、6可以使用其它类型的传感器或换能器来实现。

BC麦克风4和AC麦克风6同时操作（即它们同时捕获相同的语音）以分别产生骨-传导和空气-传导的音频信号。

向处理电路8提供来自BC麦克风4的音频信号（以下称为“BC音频信号”并且在图2中标示为“m₁”）和来自AC麦克风6的音频信号（以下称为“AC音频信号”并且在图2中标示为“m₂”），所述处理电路8根据本发明执行对所述音频信号的处理。

所述处理电路8的输出是代表用户语音的干净的（或者至少是改进了的）音频信号，该输出被提供给发射机电路10，以用于经由天线12传送至另一电子设备。

处理电路8包括：语音检测块14，接收BC音频信号；语音增强块16，接收AC音频信号以及所述语音检测块14的输出；第一特征提取块18，接收BC音频信号；第二特征提取块20，接收语音增强块16的输出；以及均衡器22，接收来自第一特征提取块18的信号输出和第二特征提取块20的输出，并且产生处理电路8的输出音频信号。

现在将参考图3更详细地描述上文中介绍的处理电路8的操作和各种块的功能，图3是示出根据本发明的信号处理方法的流程图。

简要地，根据本发明的方法包括：使用BC音频信号的特性或特征以及语音增强算法来降低AC音频信号中的噪声量，然后，使用降噪后的AC音频信号来均衡BC音频信号。该方法的优点是：虽然降噪后的AC音频信号可能仍包含噪声和/或假象，但是它可以用来改进BC音频信号（其通常不包含语音假象）的频率特性，以使得所述BC音频信号听起来更清晰。

因此，在图3的步骤101中，使用BC麦克风4和AC麦克风6同时获得相应的音频信号，并且将所述信号提供给处理电路8。在下文中，假定来自BC麦克风4和AC麦克风6的相应的音频信号在下文描述的对所述音频信号的进一步处理之前使用适当的时延来进行时间校准。

语音检测块14处理接收到的BC音频信号以识别BC音频信号中代表设备2的用户的语音的部分（图3的步骤103）。因为BC麦克风4对背景噪声的相对抗干扰力以及较高的SNR，所以将BC音频信号用于语音检测是有利的。

语音检测块14可以通过对BC音频信号应用简单的阈值技术来执行语音检测，通过这种方式，当BC音频信号的幅值在阈值以上时检测出语音的周期。

在本发明的进一步实施例（未在附图中示出）中，在执行语音检测之前（在能够获得多于一个的BC音频信号的情况下）能够基于最小统计和/或波束成形技术抑制BC音频信号中的噪声。

图4中的曲线图示出了语音检测块14对BC音频信号的操作的结果。

如上所述，将语音检测块14的输出（在图4的底部部分中示出）与AC音频信号一起提供给语音增强块16。与BC音频信号相比较，AC音频信号包含稳态和非稳态背景噪声源，所以对AC音频信号执行语音增强（步骤105），使得它可以用作之后增强（均衡）所述BC音频信号的参考。语音增强块16的一个作用是降低AC音频信号中的噪声量。

公知的是，许多不同类型的语音增强算法可以通过块16而应用于AC音频信号，并且所使用的具体的算法可以取决于设备2中的麦克风4、6的结构以及将怎样使用设备2。

在具体实施例中，语音增强块16将某种形式的频谱处理应用于AC音频信号。例如，语音增强块16可以使用语音检测块14的输出来估计在如由语音检测块14确定的非语音时间段期间的AC音频信号的谱域中的本底噪声特性。每当没有检测到语音时更新本底噪声估计。在替换实施例中，语音增强块16使用在语音检测块14的输出中表示的非语音部分来滤除AC音频信号中的非语音部分。

在设备2包括多于一个AC传感器（麦克风）6的实施例中，语音增强块16也可以适用某种形式麦克风波束成形。

图5中上部的曲线图示出了从AC麦克风6获得的AC音频信号，图5中下部的曲线图示出了使用语音检测块14的输出而将语音增强算法应用于AC音频信号的结果。可以看出AC音频信号中的背景噪声水平足以产生约0dB的SNR，并且语音增强块16对AC音频信号施加增益，以抑制背景噪声达将近30dB。然而，也可以看出虽然AC音频信号中的噪声量已经得到显著的降低，但是仍保留一些假象。

因此，如上所述，降噪后的AC音频信号用作参考信号以增加BC音频信号的清晰度（即增强）（步骤107）。

在本发明的一些实施例中，能够使用长程频谱法（long-term spectralmethod）来构建均衡滤波器，或者替代地，BC音频信号可以用作自适应滤波器的输入，所述自适应滤波器最小化滤波器的输出与增强后的AC音频信号之间的均方差，其中滤波器的输出提供均衡后的BC音频信号。另一种替代利用有限脉冲响应可以对在BC音频信号与增强后的AC音频信号之间的传递函数进行建模的假设。在这些实施例中，将理解的是，均衡器块22除了需要由特征提取块18从BC音频信号中提取的特征之外还需要初始的BC音频信号。在这种情况下，将存在BC音频信号输入线与图2中示出的处理电路8中的均衡块22之间的额外的连接。

然而，基于线性预测的方法可以更好地适用于改进BC音频信号中的语音的清晰度，所以在本发明的优选实施例中，如下文进一步描述的，特征提取块18、20是从BC音频信号和降噪后的AC音频信号两者中提取线性预测系数的线性预测块，其用来构建均衡滤波器。

线性预测（LP）是基于语音产生的源滤波器模型的语音分析工具，其中所述源和滤波器分别对应于由声带和声道形状产生的声门激励。所述滤波器假定为全极点的。因此，LP分析提供了激励信号和由全极点模型代表的频域包络，所述全极点模型与语音产生期间的声道特性相关。

所述模型如下给出：

(n) = - Σ_{k = 1}^{p} a_{k} y (n - k) + Gu (n) - - - (1)

其中，y(n)和y(n-k)对应于受分析信号的当前信号采样和过去的信号采样，u(n)是具有增益G的激励信号，a_k代表预测器系数，p是全极点模型的阶（order）。

LP分析的目标是估计提供给音频信号采样的预测器系数的值，以最小化预测的误差。

e (n) = y (n) + Σ_{k = 1}^{p} a_{k} y (n - k) - - - (2)

其中所述误差实际上对应于源滤波器模型中的激励源。e(n)是信号的不能由模型预测的部分，因为该模型仅仅能够预测频谱包络，并且所述e(n)实际上对应于由喉头中的声门产生的脉冲（声带激励）。

公知的是，附加的白噪声严重地影响LP系数的估计，在y(n)中存在的一个或多个附加源带来对包括来自这些源的贡献的激励信号的估计。因此，重要的是，获取仅仅包含期望的源信号的无噪声音频信号以估计准确的激励信号。

BC音频信号是这样的信号。因为其高的SNR，可以使用由线性预测块18执行的LP分析准确地估计激励源e。然后，可以使用所得到的通过分析降噪后的AC音频信号而估计的全极点模型对该激励信号e进行滤波。因为，全极点滤波器代表降噪后的AC音频信号的平滑的频谱包络，所以它对源自增强处理的假象更具有鲁棒性。

如图2中所示，对BC音频信号（使用线性预测块18）和降噪后的AC音频信号（通过线性预测块20）两者执行线性预测分析。对音频采样的长度为32ms的每个块执行线性预测，其中有16ms的重叠。在线性预测分析之前，也可以对所述信号的一个或两者都应用预加重滤波器。为了改进线性预测分析的执行以及随后的BC音频信号的均衡，降噪后的AC音频信号和BC信号可以首先通过在音频信号的两者之一中引入合适的时延来进行时间校准（未示出）。该时延可以使用交叉-相关技术来适应性地确定。

在当前采样块期间，估计过去、当前和将来的预测器系数，将它们转换为线谱频率（LSF），使它们平滑，并且将它们转换回线性预测器系数。因为代表频谱包络的线性预测系数不受平滑处理影响（not amenable tosmoothing），所以使用LSF。在合成操作期间，平滑处理适用于衰减过渡效应。

针对BC音频信号而获得的LP系数用来产生BC激励信号e。然后，该信号由均衡块22滤波（均衡），所述均衡块22简单地使用从降噪后的AC音频信号中估计且平滑的全极点滤波器。

H (z) = \frac{1}{1 + Σ_{k = 1}^{p} a_{k} z^{- k}} - - - (3)

可以将使用全极点滤波器的LSF的进一步成形应用于AC全极点滤波器以防止有效频谱中的不必要的增强。

如果在LP分析之前将预加重滤波器应用于所述信号，则可以将去加重滤波器应用于H(z)的输出。也可以将宽频带增益应用于输出以补偿源自所述加重滤波器的宽频带放大或衰减。

因此，通过对“干净”的激励信号e进行滤波来导出所述输出音频信号，所述“干净”的激励信号e是使用全极点模型从BC音频信号的LP分析中获得的，所述全极点模型是从对降噪后的AC音频信号的LP分析中估计出的。

图6示出当使用线性预测时在嘈杂和干净环境中的AC麦克风信号与根据本发明的方法的输出之间的比较。因此，可以看出输出音频信号与嘈杂的AC音频信号相比包含相当少的假象，并且更接近地类似干净的AC音频信号。

图7示出在图6中所示的三个信号的功率谱密度之间的比较；这里也可以看出输出音频频谱更接近地匹配干净环境中的AC音频信号。

图8示出根据本发明的第二实施例的包括处理电路8的设备2。设备2和处理电路8通常对应于本发明的第一实施例中的设备和处理电路，其中对两个实施例两者而言共同的特征用相同的附图标记来标示。

在第二实施例中，提供第二语音增强块24，以用于在执行线性预测之前增强由BC麦克风4提供的BC音频信号（降低其中的噪声）。如同第一语音增强块16，第二语音增强块24接收语音检测块14的输出。第二语音增强块24用来将适度的语音增强应用于BC音频信号以去除可能泄露到麦克风信号中的任意噪声。虽然由第一和第二语音增强块16、24执行的算法可以是相同的，但是所施加的噪声抑制/语音增强的实际量对于AC和BC音频信号而言将是不同的。

图9示出根据本发明的第三实施例的包括处理电路8的设备2。设备2和处理电路8通常对应于本发明的第一实施例中的设备和处理电路，其中对两个实施例两者而言共同的特征用相同的附图标记来标示。

本发明的该实施例可以用在设备2，其中传感器/麦克风4、6布置在设备2中，使得两个传感器/麦克风4、6中的任一个可以与用户接触（并且因此用作BC或接触传感器或麦克风），另一个传感器与空气接触（并且因此用作AC传感器或麦克风）。这样的设备的一个示例是垂饰，其中传感器布置在所述垂饰的相对面上，使得传感器中的一个与用户接触，而不必考虑垂饰的取向。一般地，在这些设备2中，传感器4、6的类型相同，因为其中的任意一个都可以与用户或空气接触。

在这种情况下，处理电路8有必要确定来自第一麦克风4和第二麦克风6的音频信号中的哪一个（如果存在的话）对应于BC音频信号和AC音频信号。

因此，处理电路8设置有鉴别器块26，所述鉴别器块26接收来自第一麦克风4和第二麦克风6的音频信号，分析所述音频信号以确定哪一个（如果存在的话）音频信号是BC音频信号，并且将音频信号输出至处理电路8的合适的分支。如果鉴别器块26确定麦克风4、6中的任何一个都没有与用户的身体接触，则随后鉴别器块26可以将AC音频信号中的一个或两者都输出至执行常规的语音增强（例如波束成形）的电路（未在图9中示出）以产生输出音频信号。

公知的是，BC音频信号中的高频语音由于传送介质而衰减（例如在1kHz以上的频率），其由图9中的曲线图来说明，所述曲线图示出了在背景扩散白噪声存在的情况下BC和AC音频信号的功率谱密度的比较（图10A）和在不具有背景噪声的情况下BC和AC音频信号的功率谱密度的比较（图10B）。该特性因此可以用于BC和AC音频信号之间的区分，并且在鉴别器块26的一个实施例中，分析每一个音频信号的频谱特性以检测哪一个（如果存在的话）麦克风4、6与身体接触。

然而，如下事实导致困难的产生：两个麦克风4、6可能没有被校准，即两个麦克风4、6的频率响应可能是不同的。在这种情况下，在继续进行鉴别器块26之前可以将校准滤波器应用于麦克风中的一个（未在附图中示出）。因此，在下文中，可以假设直至一宽频带增益所述响应都是相等的，即两个麦克风的频率响应具有相同的形态。

在以下的操作中，鉴别器块26比较来自两个麦克风4、6的音频信号的频谱以确定哪个音频信号（如果存在的话）是BC音频信号。如果麦克风4、6具有不同的频率响应，则这可以在设备2的产生期间用校准滤波器来修正，所以不同的麦克风响应不影响由鉴别器块26执行的比较。

即使使用了该校准滤波器，仍有必要考虑在AC与BC音频信号之间的一些增益差异，因为除了他们的频谱特性以外，AC和BC信号的强度是不同的（尤其是频率在1kHz以上）。

因此，鉴别器块26基于在阈值频率以下的整体峰值使两个音频信号在阈值频率以上的频谱归一化（单纯为了区分的目的），并且比较在阈值频率以上的频谱以确定哪一个（如果存在的话）是BC音频信号。如果没有执行该归一化，则由于BC音频信号的高强度，可能确定更高频率的功率在BC音频信号中仍比在AC音频信号中高，而实际情况可能并非如此。

在下文中，假设已经执行了考虑在麦克风4、6的频率响应中的差异所需的任意校准。在第一步骤中，鉴别器块26如下所示将N点快速傅里叶变换（FFT）应用于来自每个麦克风4、6的音频信号：

M₁(ω)=FFT{m₁(t)} （4）

M₂(ω)=FFT{m₂(t)} (5）

在ω=0弧度（rad）和ω=2πf_s rad之间产生N个频率窗口，其中，f_s是模数转换器的以赫兹（Hz）为单位的采样频率，所述模数转换器将模拟麦克风信号转换至数字域。除了包括奈奎斯特频率πf_s的最初的N/2+1个窗口，剩下的窗口是可以丢弃的。然后，鉴别器块26使用针对音频信号的FFT的结果来计算每个音频信号的功率频谱。

然后，鉴别器块26从在阈值频率ω_c以下的频率窗口中得到功率频谱的最大波峰值：

P_{1} = \max_{0 < ω < ω_{c}} {| M_{1} (ω) |}^{2} - - - (6)

p_{2} = \max_{0 < ω < ω_{c}} {| M_{2} (ω) |}^{2} - - - (7)

并且使用最大峰值来使阈值频率ω_c以上的音频信号的功率频谱归一化。阈值频率ω_c选择为一频率，在该频率以上，BC音频信号的频谱通常相对于AC音频信号被衰减。例如，阈值频率ω_c可以是1kHz。每个频率窗口包含单一的值，对于功率频谱而言，所述单一的值是在该窗口中的频率响应的大小的平方。

替代地，鉴别器块26可以得到每个信号的在ω_c以下的总计的功率频谱，即：

p_{1} = Σ_{ω = 0}^{ω_{c}} {| M_{1} (ω) |}^{2} - - - (8)

p_{2} = Σ_{ω = 0}^{ω_{c}} {| M_{2} (ω) |}^{2} - - - (9)

并且可以使用总计的功率频谱使阈值频率ω_c以上的音频信号的功率频谱归一化。

因为AC音频信号和BC音频信号的低频窗口应当包含大致相同的低频信息，p₁和p₂的值用来使来自两个麦克风4、6的信号频谱归一化，从而可以比较两个音频信号两者的高频窗口（其中预计会发现BC音频信号和AC音频信号之间的差异），并且可以识别潜在的BC音频信号。

然后，鉴别器块26在更高的频率窗口中比较来自第一麦克风4的信号的频谱与来自归一化后的第二麦克风6的信号的频谱之间的功率：

\underset{ω > ω_{c}}{Σ} {| M_{1} (ω) |}^{2} < = > p_{1} / (P_{2} + ϵ) \underset{ω > ω_{c}}{Σ} {| M_{2} (ω) |}^{2} - - - (10)

其中，ε是防止除以零的较小的常数，并且p₁/(P₂+ε)代表第二音频信号的频谱的归一化（虽然将理解的是，可以替代地将归一化应用于第一音频信号）。

假设两个音频信号的功率之间的差异大于一预先确定量，则在ω_c以上的归一化后的频谱中具有最大功率的音频信号是来自AC麦克风的音频信号，并且具有最小功率的音频信号是来自BC麦克风的音频信号，其中所述预先确定量取决于骨-传导传感器的位置且可以实验地确定。然后，鉴别器块26将确定为BC音频信号的音频信号输出至处理电路8的上部分支（即包括语音检测块14和特征提取块18的分支），并且将确定为AC音频信号的音频信号输出至处理电路8的下部分支（即包括语音增强块16的分支）。

然而，如果两个音频信号的功率之间的差异小于所述预先确定量，则无法肯定地确定音频信号中的某一个是BC音频信号（并且可能的是麦克风4、6两者都没有与用户的身体接触）。在这种情况下，处理电路8可以将两个音频信号都当作AC音频信号，并且使用常规的技术来处理它们，例如通过使用波束成形技术来合并所述AC音频信号。

将理解的是，可以计算模量值，以取代计算以上等式中的模量的平方。

也将理解的是，可以使用有界限的比例（bounded ratio）来进行对两个信号的功率之间的另一种比较，从而可以在作决定时考虑不确定性。例如，可以如下确定频率在阈值频率以上的功率的有界限的比例：

\frac{p_{1} - p_{2}}{p_{1} + p_{2}} - - - (11)

其中，所述比例被限定在-1和1之间，接近于0的值表示麦克风（如果存在的话）是BC麦克风的不确定性。

图11中的曲线图示出了在测试过程期间的上文描述的鉴别器块26的操作。尤其是，在测试的第一个10秒期间，第二麦克风与用户接触（所以它提供BC音频信号），其由鉴别器块26正确地识别（如在下部的曲线图中所示出的）。在测试的下一个10秒中，第一麦克风作为替代与用户接触（所以它随后提供BC音频信号）并且这再次由鉴别器块26正确地识别。

图12、13和14示出了根据本发明的组合了可以与处理电路8一起使用的两个麦克风的示例性设备2。

在图12中示出的设备2是可以与移动电话一起使用以提供免提功能的无线耳机。无线耳机的形状适合围绕用户的耳朵，并且无线耳机包括：耳塞28，用于将声音传送至用户；AC麦克风6，将接近于用户的嘴或面颊设置以提供AC音频信号；以及BC麦克风4，设置在设备2中使得它与用户的头部（优选耳朵周围的地方）接触并提供BC音频信号。

图13示出了无线免提套件形式的设备2，其可以连接至移动电话以提供免提功能。设备2包括耳塞（未示出）和包括两个麦克风4、6的麦克风部分30，所述两个麦克风4、6在使用时接近于用户的嘴和颈部设置。所述麦克风部分配置为使得两个麦克风4、6中的任意一个可以与用户的颈部接触，这意味着上文描述的包括鉴别器块26的处理电路8的第三实施例在该设备2中尤其有用。

图14示出了佩戴在用户的颈部周围的垂饰形式的设备2。这样的垂饰可以用在使用户能够与保健提供者或应急服务进行通信的移动式个人应急响应系统（MPERS）设备中。

在垂饰2中的两个麦克风4、6布置为使得所述垂饰是旋转不变的（即它们在垂饰2的两个相反面上），这意味着两个麦克风4、6中的一个应该与用户的颈部或胸部接触。因此，垂饰2需要使用根据上文描述的包括鉴别器块26的第三实施例的处理电路8，以便成功操作。

将理解的是，上文描述的示例性设备2中的任意一个可以扩展为包括多于两个麦克风（例如，垂饰2的横截面可以是三角形（需要三个麦克风，每个面上一个）或方形（需要四个麦克风，每个面上一个））。设备2也可能配置为使得多于一个的麦克风可以获得BC音频信号。在这种情况下，能够在输入至处理电路8之前使用（例如）波束成形技术将来自多个AC（或BC）麦克风的音频信号组合以产生具有改进的SNR的AC（或BC）音频信号。这有助于通过处理电路8进一步改进音频信号输出的质量和清晰度。

本领域技术人员会知道能够用作AC麦克风和BC麦克风的合适的麦克风。例如，一个或多个麦克风可以基于MEMS技术。

将理解的是，在图2、8和9中示出的处理电路8可作为单一的处理器实施，或者作为多个互相连接的专用处理块。替代地，将理解的是，处理电路8的功能可以以计算机程序的形式实现，所述计算机程序由设备内的通用目的的一个或多个处理器来执行。此外，将理解的是，处理电路8可以在与容纳BC和/或AC麦克风4、6的设备相分离的设备中实现，其中在那些设备之间传递音频信号。

也将理解的是，处理电路8（和鉴别器块26，如果在具体实施例中实施）可以基于逐块的方式处理音频信号（即一次处理音频采样的一块）。例如，在鉴别器块26中，音频信号在应用FFT之前可以划分为N个音频采样的块。然后，可以对N个转换后的音频采样的每个块执行由鉴别器块26执行的后续处理。特征提取块18、20可以以类似的方式操作。

因此，提供了一种用于从使用BC麦克风获得的音频信号中产生代表用户语音的音频信号的系统和方法，所述BC麦克风可以用在嘈杂的环境中，并且不要求用户在使用前训练算法。

虽然在附图和前面的描述中已经详细地示出并描述了本发明，但是这样的图示和描述将被认为是例证性或示例性的，而非限制性的；本发明不限于所公开的实施例。

在实践所要求保护的发明时，本领域技术人员可以根据对附图、公开内容和所附权利要求的学习理解并实现所公开的实施例的变型。在所述权利要求中，词语“包括”不排除其它元件或步骤，并且不定冠词“一”不排除多个。单一的处理器或其它单元可以实现在权利要求中记载的多项的功能。在相互不同的从属权利要求中记载的特定措施的单纯事实并不表示这些措施的组合不能有利地加以利用。计算机程序可以存储/分布在合适的介质中，例如光存储介质或者与其它硬盘一起提供或作为其它硬盘的一部分的固态介质，但是所述计算机程序也可以以其它形式分布，例如经由互联网或者其它有线或无线的远程通信系统。在权利要求中的任意附图标记不应当解释为构成对范围的限制。

Claims

1.一种产生代表用户的语音的信号的方法，所述方法包括：

使用与所述用户接触的传感器来获得代表所述用户的所述语音的第一音频信号（101）；

使用空气传导传感器来获得第二音频信号，所述第二音频信号代表所述用户的所述语音并包括来自所述用户周围的环境的噪声（101）；

检测所述第一音频信号中的语音周期（103）；

将语音增强算法应用于所述第二音频信号以降低所述第二音频信号中的噪声，所述语音增强算法使用在所述第一音频信号中检测到的所述语音周期（105）；

使用降噪后的所述第二音频信号来均衡所述第一音频信号，以产生代表所述用户的所述语音的输出音频信号（107）。

2.根据权利要求1所述的方法，其中，检测所述第一音频信号中的语音周期的步骤（103）包括检测所述第一音频信号中的音频信号的幅值在阈值以上的部分。

3.根据权利要求1或2所述的方法，其中，应用语音增强算法的步骤（105）包括对所述第二音频信号应用频谱处理。

4.根据权利要求1、2或3所述的方法，其中，应用语音增强算法以降低所述第二音频信号中的噪声的步骤（105）包括使用在所述第一音频信号中检测到的所述语音周期以估计所述第二音频信号的谱域中的本底噪声。

5.根据权利要求1、2、3或4所述的方法，其中，均衡所述第一音频信号的步骤（107）包括对所述第一音频信号和降噪后的所述第二音频信号两者执行线性预测分析以构建均衡滤波器。

6.根据权利要求5所述的方法，其中，执行线性预测分析包括：

（i）估计用于所述第一音频信号和降噪后的所述第二音频信号两者的线性预测系数；

（ii）使用用于所述第一音频信号的所述线性预测系数来产生用于所述第一音频信号的激励信号；

（iii）使用用于降噪后的所述第二音频信号的所述线性预测系数来构建频域包络；以及

（iv）使用所述频域包络来均衡用于所述第一音频信号的所述激励信号。

7.根据权利要求1、2、3或4所述的方法，其中，均衡所述第一音频信号的步骤（107）包括：（i）使用长程频谱法来构建均衡滤波器，或（ii）使用所述第一音频信号作为自适应滤波器的输入，所述自适应滤波器最小化所述滤波器的输出与降噪后的所述第二音频信号之间的均方差。

8.根据前述权利要求中的任意一项所述的方法，其中，在均衡步骤（107）之前，所述方法进一步包括将语音增强算法应用于所述第一音频信号以降低在所述第一音频信号中的噪声的步骤，所述语音增强算法利用在所述第一音频信号中检测到的语音周期，并且其中，所述均衡步骤包括使用降噪后的所述第二音频信号来均衡降噪后的所述第一音频信号，以产生代表所述用户的所述语音的所述输出音频信号。

9.根据前述权利要求中的任意一项所述的方法，进一步包括以下步骤：

使用第二空气传导传感器来获得第三音频信号，所述第三音频信号代表所述用户的所述语音并且包括来自所述用户周围的环境的噪声；以及

使用波束成形技术来将所述第二音频信号和所述第三音频信号组合并产生组合音频信号；

并且其中，应用语音增强算法的步骤（105）包括将所述语音增强算法应用于所述组合音频信号以降低所述组合音频信号中的噪声，所述语音增强算法使用在所述第一音频信号中检测到的语音周期。

10.根据前述权利要求中的任意一项所述的方法，进一步包括以下步骤：

使用与所述用户接触的第二传感器来获得代表用户的所述语音的第四音频信号；以及

使用波束成形技术来将所述第一音频信号和所述第四音频信号组合并产生第二组合音频信号；

并且其中，检测语音周期的步骤（103）包括检测所述第二组合音频信号中的语音周期。

11.一种用于产生代表用户的语音的音频信号的设备（2），所述设备（2）包括：

处理电路，其被配置为：

从与所述用户接触的传感器（4）接收代表所述用户的所述语音的第一音频信号；

从空气传导传感器（6）接收第二音频信号，所述第二音频信号代表所述用户的所述语音并且包括来自所述用户周围的环境的噪声；

检测所述第一音频信号中的语音周期；

将语音增强算法应用于所述第二音频信号以降低所述第二音频信号中的噪声，所述语音增强算法使用在所述第一音频信号中检测到的语音周期；并且

使用降噪后的所述第二音频信号来均衡所述第一音频信号，以产生代表所述用户的所述语音的输出音频信号。

12.根据权利要求11所述的设备（2），其中，所述处理电路（8）被配置为通过以下操作来均衡所述第一音频信号：对所述第一音频信号和降噪后的所述第二音频信号两者执行线性预测分析，以构建均衡滤波器。

13.根据权利要求11或12所述的设备（2），其中，所述处理电路（8）被配置为通过以下操作来执行所述线性预测分析：

（iii）使用用于降噪后的所述音频信号的所述线性预测系数来构建频域包络；以及

14.根据权利要求11至13中的任意一项所述的设备（2），所述设备（2）进一步包括：

接触传感器（4），所述接触传感器（4）被配置为：当所述设备（2）被应用时，所述接触传感器（4）与所述用户的身体接触，并且产生所述第一音频信号；以及

空气传导传感器（6），其被配置为产生所述第二音频信号。

15.一种包括计算机可读代码的计算机程序产品，所述计算机可读代码被配置为使得：在合适的计算机或处理器执行所述计算机可读代码时，所述计算机或处理器执行根据权利要求1至10中的任意一项所述的方法。