CN103002170A

CN103002170A - 包括通过分数延迟过滤来去噪语音信号的装置的音频设备

Info

Publication number: CN103002170A
Application number: CN2012101796014A
Authority: CN
Inventors: G·怀特; M·赫夫
Original assignee: Parrot SA
Current assignee: Parrot SA
Priority date: 2011-06-01
Filing date: 2012-06-01
Publication date: 2013-03-27
Anticipated expiration: 2032-06-01
Also published as: EP2530673A1; JP6150988B2; EP2530673B1; US8682658B2; FR2976111A1; CN103002170B; ES2430121T3; JP2012253771A; FR2976111B1; US20120310637A1

Abstract

本发明涉及包括通过分数延迟过滤来用于去噪语音信号的装置的音频设备。本发明的设备包括两个话筒、采样装置、以及去噪装置。该去噪装置是非频率噪声减少装置，包括具有自适应过滤器的组合器，该自适应过滤器执行迭代搜索设法以另一个话筒传感器给出的噪声参考为基础消除所述话筒中的一个所获取的噪声。该自适应过滤器是分数延迟过滤器，其模制短于采样周期的延迟。该设备还具有语音活动检测器装置，该装置传递代表来自该设备的使用者的语音存在或不存在的信号。该自适应过滤器接收这个信号作为输入从而使该过滤器能选择性地动作：i)或是在语音信号不存在时执行对过滤器参数的自适应搜索；ii)或是在语音信号存在时“冻结”过滤器的这些参数。

Description

包括通过分数延迟过滤来去噪语音信号的装置的音频设备

技术领域

本发明涉及处理嘈杂环境中的语音。

本发明特别涉及处理由在嘈杂环境中使用的“免提”类型的电话设备所获取的语音信号。

发明背景

这些应用具有一个或多个敏感话筒，这些话筒不仅获取使用者的话音还获取周围的噪声，这些噪声在特定环境下构成干扰元素，甚至可使得使用者的语音难以辨别。如果期望实现话音识别技术，也会有同样的情况，因为对于被高级别噪声所掩埋的话语（word）非常难以执行形状识别。

与周围噪声相关联的这个困难特别地限制了机动车辆中的“免提设备”，不论该设备是否包括结合于车辆内的设备，或形式为结合了用于处理电话通信的信号的所有组件与功能的可移动单元的配件。

话筒（被放置在仪表板上或位于车厢顶壁的顶部转角处）和说话者（其位置由驾驶位置所决定）之间的较大距离意味着相对高级别的噪声被获取，藉此使得难以提取出掩埋在噪声中的有用信号。进一步，车辆环境的非常嘈杂的周围环境呈现出不稳定的频谱特性，即，以不可预测的方式应变于驾驶条件：经过崎岖的道路或鹅卵石、工作中的车辆无线电，等。

当该设备是音频头戴式耳机（组合话筒和耳机类型，除了用于听取来自该头戴式耳机所连接至的器具的音频源（如，音乐）之外，还被用于诸如“免提”电话功能之类的通信功能）时，会出现同样的困难。

在这样的环境下，重要的是确保由话筒所获取的信号（即，来自近旁讲话者（头戴式耳机的佩戴者）的语音信号）的足够的可分辨性。不幸的是，头戴式耳机可被用在噪杂的环境中（地铁、繁忙的街道、列车等），从而话筒不仅获取了头戴式耳机的佩戴者的语音，还获取了周围的干扰噪声。头戴式耳机确实保护佩戴者免于这些噪声的干扰，特别如果该头戴式耳机是具有将耳朵与外界隔离的封闭式耳机的类型的话,且如果该头戴式耳机被设置有“主动噪声控制”的话更是如此。反之，远处讲话者（如，位于通信频道另一端的讲话者）将忍受由话筒所获取的干扰噪声，且这些噪声变得重叠在来自近旁讲话者（头戴式耳机的佩戴者）的语音信号上并干扰该语音信号。特定地，对于理解话音至为重要的特定语音峰段经常被淹没在日常环境中通常会遇到的噪声分量中。

本发明特别涉及去噪技术，该技术用多个话筒实现，通常是两个话筒，从而将这两个话筒同时获取的信号以合适的方式组合，用于将有用的语音分量从干扰噪声分量中隔离出来。

常规技术是放置并定向其中一个话筒，从而该话筒主要获取讲话者的话音，同时另一个话筒被设置为获取噪声分量，该噪声分量大于由主话筒所获取的噪声分量。通过使用相对简单的软件手段来分析两个信号之间的空间一致性，比较所获取的信号，然后能使话音从周围噪声中被提取出来。

US 2008/0280653A1描述了一个这样的设置，其中话筒中的一个（主要获取话音的话筒）是由车辆的驾驶者所佩戴的无线耳机的话筒，而另一个话筒（主要获取噪声的话筒）是电话用具的话筒，被较远地放置在车厢内，例如，附着至仪表板，

无论如何，这个技术表现出如下缺点，需要彼此间隔放置的两个话筒，且技术的有效性随着这两个话筒之间的距离的增加而增加。作为结果，这个技术不适用于其中两个话筒靠近的设备，如，两个话筒被结合在机动车辆的车载无线电前面、或两个话筒放置在音频头戴式耳机的耳机的其中一个的外壳上。

另一个技术，被称为“波束形成”，是使用软件手段来创建方向性，该方向性用于改进话筒阵列或“天线”的信噪比。US 2007/0165879A1描述了一个这样的技术，应用于背对背放置的一对没有方向性的话筒。对于它们所获取的信号的自适应过滤能导出输出信号，此输出信号中语音分量被增强。

无论如何，发现这样的方法仅在至少具有八个话筒的阵列的条件下提供良好结果，而当仅使用两个话筒时性能非常有限。

发明目的和内容

在这样的背景下，本发明的一般问题在于有效地减少噪声从而将表示近旁讲话者（车辆驾驶者或头戴式耳机的佩戴者）所发出的语音的话音信号传送给远处讲话者，这通过如下来达成：从所述信号中移除存在于近旁讲话者的环境中的外部噪声。

在这样的情况下，本发明的问题也还在于能够使用一组话筒，其中话筒的数量较小（有利地仅两个）且这些话筒还相对地靠近在一起（一般间隔仅数厘米）。

这个问题的另一个重要方面是需要回放自然且易于理解的语音信号，即，没有失真，且其中没有经降噪处理移除有用的频谱。

为此目的，本发明提出了在上述US 2008/0280653A1中所公开的一般类型的语音设备，即，包括：一组两个话筒传感器，适用于获取该设备的使用者的语音并用于传递各自的噪声语音信号；采样装置，用于采样由该话筒传感器所传递的语音信号；以及去噪装置，用于对语音信号去噪，该去噪装置接收由所述两个话筒传感器所传递的语音信号的样本作为输入并传递表示该设备的使用者所发出的语音的经去噪的语音信号作为输出。该去噪装置是非频率噪声减少装置，包括自适应过滤器组合器，用于将由所述两个话筒传感器所传递的信号组合、以另一个话筒传感器所传递的信号所给出的噪声参考为基础通过迭代搜索操作设法消除由话筒传感器中的一个所获取的噪声。

根据本发明，该自适应过滤器是分数延迟过滤器，适用于模制比采样装置的采样周期短的延迟。该设置还包括话音活动检测器装置，适用于传递表示来自该设备的使用者的语音的存在或不存在的信号，且该自适应过滤器还接收该语音存在或不存在信号作为输入来选择性地动作：i)或是在语音信号不存在时执行对过滤器参数的自适应搜索；ii)或是在语音信号存在时“冻结”过滤器的这些参数。

自适应过滤器特别适用于估算最优过滤器H，从而：

\hat{H} = \hat{G} &CircleTimes; \hat{F}

其中:

x^{'} (n) = G &CircleTimes; x (n)

且G(k)=sinc(k+τ/Te),

表示用于为包括分数延迟的脉冲响应而在两个话筒传感器之间转移噪声的所估算的最优过滤器H；

表示在两个话筒传感器之间的所估算的分数延迟过滤器G；

表示所估算的环境的声学响应；

表示卷积；

x(n)是输入至过滤器H的信号的一系列样本；

x'(n)是由延迟τ偏置的序列x(n)；

Te是输入至过滤器H的信号的采样周期；

τ是所述分数延迟，等于Te的约数；且

sinc表示基本正弦函数。

优选地，自适应过滤器是具有最小均方（LMS）类型的线性预测算法的过滤器。

在一个实施例中，该设备包括指向该设备的使用者且适用于获取该使用者的图像的视频摄像头；且话音活动检测器装置包括视频分析装置，适用于分析由该摄像头所产生的信号并作为响应传递表示使用者语音的存在或不存在的所述信号。

在另一个实施例中，该设备包括生理学传感器，适用于与该设备的使用者的头部相接触从而该生理学传感器被耦合至头部，从而获取由内骨导传输的非声学发音振动；且话音活动检测器装置包括适用于分析由该生理学传感器所传递的信号并作为响应传递表示所述使用者语音的存在或不存在的所述信号，这特别是通过评估由该生理学传感器所传递的信号的能量并将该能量与阈值相比较来达成。

特定地，该设备可以是组合的话筒和耳机类型的音频头戴式听筒，该头戴式耳机包括：耳机，每一个耳机包括用于重现音频信号的声音的换能器，且耳机被容纳于设置在围绕耳朵的垫片中的外壳内；所述两个话筒传感器设置在所述耳机中的一个的外壳上；且所述生理学传感器结合在所述耳机中的一个的垫片中，且生理学传感器位于其中适于与头戴式耳机的佩戴者的脸颊或鬓角相接触的区域中。这两个话筒传感器优选地对齐作为在指向该设置的使用者的口的主要方向上的线性阵列。

附图简述

下文是参考了相应附图的所给出的发明的设备的实施例的描述，在附图中，每个附图中使用同样的数字参考标号来代表相同或功能类似的元件。

图1是示出其中执行本发明的去噪处理的方法的框图。

图2是示出在本发明的去噪处理中所模制的基本正弦函数的图。

图3a和3b分别示出对于一序列信号样本的各点、以及对于在时间上由分数值所偏置的同一序列的图2的基本正弦函数。

图4示出周围环境的声学响应，具有在纵坐标轴绘出的幅值以及沿横坐标轴所绘的表示这个偏移的过滤器的系数。

图5对应于图4，在使用基本正弦响应卷积之后。

图6是示出在于使用用于检测话音活动的摄像头的实施例的图。

图7是可向其应用本发明的教示的组合的话筒和耳机的头戴式听筒的整体图。

图8是整体框图，示出为了输出表示由图7头戴式耳机的佩戴者所发出的语音的经去噪的信号的目的如何实现信号处理的整体框图。

图9示出两个时序图，分别对应于由话筒所获取的原始信号的示例、以及由用于分辨语音时间段和讲话者沉默的时间段的生理学传感器所获取的信号的示例。

详细描述

图1是示出了由本发明实现的各功能的框图。

本发明的过程由软件手段实现，用各功能框所表示的本发明的过程对应于用微控制器或数字信号处理器所执行的适当的算法。尽管为了解释的简洁，用分立的模块形式示出各功能，它们共同使用元件且在实践中，它们对应于由单个软件整体执行的多个功能。

期望被去噪的信号来自图示为最小设置的话筒传感器阵列，该话筒阵列可包括以预确定的设置排列的仅有两个传感器的阵列，每一个传感器由相应各自的话筒10、12构成。

无论如何，本发明可被一般化为多于两个话筒传感器的阵列、和/或数个话筒传感器，其中每一个传感器由比单个话筒更复杂的结构所构成，例如多个话筒和/或其他语音传感器的组合。

话筒10、12是获取由有用的信号源所发射的信号（来自讲话者的语音信号）的话筒，且两个话筒之间的位置上的差异引起从有用信号源获取的信号中的一组相位偏差和幅值变化。

在实践中，话筒10和12都是全方向话筒，彼此间隔数厘米地位于车厢顶板上、车辆无线电的前面板上、或位于仪表板上的适当位置处、或就放在音频头戴式耳机的耳机之一的外壳上，等。

如上所述，本发明的技术使得即使在话筒彼此非常靠近时（即当话筒彼此间隔间距d以使一个话筒所获取的信号和另一个所获取的信号之间的最大相位延迟小于被用于数字化该信号的转换器的采样周期）时，也可能提供有效的去噪，这对应于当采样频率Fe为8千赫（kHz）时的4.7厘米（cm）大小的最大距离d（且对应于当采样频率加倍时减半的间距d，等）。

近旁讲话者发出的语音信号将在到达另一个话筒之前到达话筒中的一个，且因此表现出延迟，以及因此表现出相移

其是基本不变的。对于噪声，确实有可能在两个话筒10和12之间也存在相移。反之，由于相移的概念与入射波所行进的方向的概念相关联，可预期的是噪声的相移与语音的相移不同。例如，如果定向噪声在与来自口的方向相反的方向中行进的话，如果话音的相移是

的话，噪声相移将是

在本发明中，由话筒10和12所获取的信号的噪声减少并不是在频域中进行的（如同在常规去噪技术中经常发生的情况），而是在时域中进行。

使用搜索在一个话筒（如，话筒10）和另一个话筒（即，话筒12）之间的转移函数的算法（通过实现LMS类型的预测过滤器16的自适应组合器14的方式来进行搜索）来执行这个噪声减少。在18，从来自话筒10的信号中减去来自过滤器16的输出，从而给出经去噪的信号S，该信号S被返回施加至过滤器16从而能使该过滤器16应变于该信号S的预测误差而迭代地自适应。因此，可能使用由话筒12获取的信号来预测由话筒10获取的信号中所含有的噪声分量（标识噪声转移的转移函数）。

仅在语音不存在的阶段中执行两个话筒之间的转移函数的自适应搜索。为了这个目的，仅当在传感器22的控制下的话音活动检测器（VAD）20指示近旁讲话者没有在讲话时，激活过滤器16的迭代自适应。这个功能用开关24来表示：当话音活动检测器20确认语音信号不存在时，自适应组合器14设法最优化两个话筒10和12之间的转移函数，从而减少噪声分量（开关24处于关闭位置，如图中所示）；反之，当话音活动检测器20确认语音信号存在时，自适应组合器14将过滤器16的参数“冻结”为恰在语音被检测到之前具有的值（打开开关24），藉此避免来自近旁讲话者的语音信号的任何衰减。

应该发现，这样进行并不麻烦，即使存在变化的噪声环境，因为过滤器16的参数的更新非常频繁，假定每次在近旁讲话者停止讲话时发生更新。

根据本发明，自适应组合器14的过滤是分数延迟过滤，即，其在由两个话筒获取的信号之间施加过滤，同时考虑到短于信号的数字化采样的持续时间的延迟。

已知的是，通带[0,Fe/2]的随时间变化的信号x(t)可完美地从其中样本x(k)对应于在时刻k.Te(其中Te=1/Fe是采样周期)时的x(t)的值的离散序列x(k)而被重新设立（reconstitute）。

数学表达式如下：

x (t) = \underset{k}{Σ} x (k) . \sin c (\frac{t - k . Te}{Te})

基本正弦函数sinc被定义如下：

\sin c (t) = \frac{\sin (pi * t)}{pi * t}

图2是表示这个函数sinc(t)的图。

可见，这个函数快速下降，结果是总和中有限且相对少数量的系数k给出对实际结果的非常好的近似。

对于在采样周期Te被数字化的信号，两个样本之间的时间间隔或偏移在时间上对应于Te的持续秒数（s）。

所获取的信号的n个连续数字化的样本的序列x(n)，对于所有的整数n，可因此由如下表达式表示：

x (n . Te) = \underset{k}{Σ} x (k) . \sin c (\frac{n . Te - k . Te}{Te})

应该观察到正弦项对于除了k=n之外的所有k而言都是零。

图3a给出这个函数的图形化表示。

如果期望的是计算由分数值τ，即，由短于一个数字化采样Te的持续时间的延迟所偏置的同一序列x(n)，上述表达式变为：

x (n . Te - τ) = \underset{k}{Σ} x (k) . \sin c (\frac{(n - k) . Te - τ}{Te})

图3b给出对于τ=0.5(半个采样)的分数值示例的这个函数的图形化表示。

序列x′(n)(由τ所偏置的序列)可被视为是x(n)与非因果过滤器G的卷积，因此：

x^{'} (n) = G &CircleTimes; x (n)

因此有必要确定最优过滤器G的估计值

如下：

\hat{H} = \hat{G} &CircleTimes; \hat{F}

且G(k)=sinc(k+τ/Te),

是在两个话筒之间的噪声转移的估算，包括分数延迟；且

是周围环境的声学响应的估算。

为了估算两个话筒之间的噪声转移过滤器，估算

对应于最小化如下误差的过滤器：

e (n) = MicFront (n) - \hat{H} * MicBack (n)

MicFront(n)和MicBack(n)是来自话筒传感器10和12的信号的相应值。

这个过滤器具有非因果的特性，即，其使用未来的样本。在实践中，这意味着对于执行算法处理的时间引入时间延迟。由于过滤器是非因果的，该过滤器能模制分数延迟且因此能写为

（而在因果过滤器的常规情况下，等式是

\hat{H} = \hat{F}) .

具体地，在算法中，

是直接被估算的，通过最小化上述误差e(n)，没有必要个别地估算

和

在常规的因果情况下（如，对于回声消除过滤器），用于最小化的误差e(n)被写成如下展开形式如下：

e (n) = MicFront (n) - Σ_{k = 0}^{L - 1} \hat{H} (k) . MicBack (n - k)

其中L是过滤器的长度。

在本发明的情况下（非因果过滤器），误差变为：

e (n) = MicFront (n) - Σ_{k = - L}^{L - 1} \hat{H} (k) . MicBack (n - k)

应该注意到，过滤器的长度被翻倍，从而将未来的样本考虑在内。

过滤器H的预测给出分数延迟过滤器，该分数延迟过滤器，理想地且在语音不存在时，使用话筒12作为参考而消除来自话筒10的噪声（如上所述，在语音时间段内，该过滤器被“冻结”从而避免本地语音的任何衰减）。

具体地，由自适应算法而计算的估算了话筒10和12之间的噪声的转移的过滤器

可被认为是两个过滤器

和的卷积其中：

对应于分数部分（具有基本正弦波形）；且

对应于两个话筒之间的声学转移，即，对应于系统的“环境”部分，表示过滤器在其中操作的周围环境的声响。

图4示出两个话筒之间的声学响应的示例，形式为给出应变于过滤器F的系数k的幅值A的特性。应变于周围环境可出现的声音的各种反射，如反射在车厢的窗或其他壁上，引起在这个声学响应特性中可见的峰值。

图5示出两个过滤器G（基本正弦响应）和F（使用环境）的卷积

的结果的示例，形式为给出应变于卷积过滤器的系数k的幅值A的特性。

估算

可由寻求最小化误差

从而在最优过滤器上收敛的迭代LMS算法而计算。LMS类型的过滤器-或作为LMS的归一化版本的归一化LMS（NLMS）类型的过滤器-是相对简单且不需要大量计算源的算法。这些算法本身都是已知的，如，如在如下文献中所描述：

[1]B.Widrow,Adaptive Filters （自适应过滤器),Aspect of Network andSystem Theory,R.E.Kalman and N.De Claris Eds.,New York:Holt,Rinehart andWinston,pp.563-587,1970;

[2]B.Widrow et al.,Adaptive Noise Cancelling:Principles and Applications（自适应噪声消除：原理与应用）,Proc.IEEE,Vol.63,No.12pp.1692-1716,Dec.1975;

[3]B.Widrow and S.Stearns,AdaptiveSignal Processing （自适应信号处理),Prentice-Hall Signal Processing Series,Alan V.Oppenheim Series Editor,1985.

如上所述，为了使得上述处理成为可能，有必要具有话音活动检测器，该检测器使得可能分辨其中语音存在的阶段（在其中使得该过滤器自适应用于最优化噪声评估）和其中语音不存在的阶段（其中过滤器的参数被“冻结”在它们最近发现的值的时间段）。

更准确地，在这个示例中，话音活动检测器优选地是“完美”的检测器，即，它传递二元信号（语音存在或不存在）。因此，该检测器区别于在已知去噪系统中所使用的大多数话音活动检测器，因为这些已知的话音活动检测器仅能传递语音存在的可能性，这可能在0到100%之间连续地或连续阶地变化。使用仅基于语音存在可能性的这样的检测器，在噪声环境中错误的检测可能是非常显著的。

为了达到“完美”，该话音活动检测器不能单独依赖于话筒所获取的信号；它还必须具有附加信息能使它区别语音阶段和其中近旁讲话者沉默的阶段。

这样的检测器的第一示例被图示在图6中，其中话音活动检测器20响应于摄像头所产生的信号而操作。

以示例的方式，摄像头是安装在机动车辆车厢中的摄像头26，且指出，在所有环境下，其视野28覆盖了驾驶员的头部30，驾驶员被认为是近旁讲话者。摄像头26所传递的信号被分析，从而基于口和唇的运动而确定讲话者是否正在讲话。

为此目的，可能使用用于检测脸部图像中的口部区域的算法，以及用于唇部轮廓跟踪的算法，诸如在下述文献中具体描述的：

[4]G.Potamianos et al.,Audio-Visual Automatic Speech Recognition:AnOverview(音频-视觉自动语音识别：概览),Audio-Visual Speech Processing,G.Bailly et al.Eds.,MIT Press,pp.1-30,2004.

一般地，该文献描述了除音频信号之外视觉信息的贡献，特别是为了在被衰减的声学条件中识别话音的目的。因此除了传统的音频数据之外，视频数据能改进话音信息（语音增强）。

可在本发明的环境中使用这样的处理，从而分辨其中讲话者正在讲话的阶段和其中讲话者沉默的阶段。为了考虑车厢中使用者的运动较慢而口的运动较快的事实，可能，例如，一旦聚焦在口部，来比较两张连续的图像并评估给定像素的变化。

这种图像分析技术的优势在于，其提供了完全独立于声学噪声环境的附加信息。

适于对话音活动的“完美”检测的传感器的另一个示例是适于检测极少或完全没有受到周围噪声破坏的讲话者的特定发音振动的生理学传感器。

这样的传感器可特定地由施加在讲话者的脸颊或鬓角的加速度计或压电传感器构成。

当人正在发出话音声（即，其产生伴有声带振动的语音分量）时，振动从声带传递至咽、口鼻腔，在其中该振动被调制、放大、以及清楚地表达。口、软腭、咽、窦、以及鼻腔然后用作这个话音声的共振箱，且由于上述器官壁是柔性的，它们依序振动且这些振动由内骨导传输且从脸颊和鬓角可察觉到。

脸颊和鬓角的这些振动，由于它们的特别性质，呈现出基本不受到外界环境噪声破坏的特性：在外部噪声存在时，即使是非常响的噪声，脸颊和鬓角的组织基本完全不振动，且无论外部噪声的频谱组成如何皆是如此。

获取没有噪声的这些话音振动的生理学传感器给出表示由讲话者发出的话音声的存在或不存在的信号，因此提供了对于语音阶段和当讲话者沉默的阶段之间的非常良好的分辨。

这样的生理学传感器可被结合至特别是图7中所示的类型的组合的话筒和耳机的头戴式单元。

在这个附图中，附图标记32是对于本发明的头戴式耳机的整体标记，其包括用头带组合的两个听筒34。这些听筒的每一个优选地由容纳声音再现转换器的封闭外壳36构成，并用将耳朵与外界隔绝的插入垫片38而被压紧在围绕使用者的耳朵周围。

被用于检测话音活动的生理学传感器40可例如是以被尽可能近地压向使用者的脸颊或鬓角而与其耦合的方式结合在垫片38中的加速度计。生理学传感器40可特定地被放置在垫片38的外皮的内侧表面上，从而一旦该头戴式耳机被放置到位，在源自使得垫片的材料变平的少量压力的作用下，该传感器被压向使用者的脸颊或鬓角，之间仅有被插入其间的垫片的外侧皮。

该头戴式耳机也携载有用于获取和去噪讲话者的语音的电路的话筒10和12。这两个话筒是放在外壳36上的全方向的话筒，且它们被设置为话筒10放在前面（更接近于头戴式耳机的佩戴者的口部）且话筒12被放置为进一步向后。进一步，其中两个话筒10和12被对齐的方向42大致指向头戴式耳机的佩戴者的口部44。

图8是示出由图7的话筒和头戴式耳机单元所实现的各种功能的框图。

这个图示出两个话筒10和12以及话音活动检测器20。前话筒10是主话筒，且后话筒12提供输入到组合器14的自适应过滤器16中。话音活动检测器20受控于由生理学传感器40传递的信号，例如，对由所述传感器40所传递的信号的功率进行平滑：

power_sensor(n)=α.power_sensor(n-1)+(1-α).(sensor(n))²α是接近于1的平滑常数。然后，可以设置阈值ξ，以使只要讲话者开始讲话则超过这个阈值。

图9示出所获取的信号的外观：

·上面的时序图的信号S₁₀对应于由前话筒10所获取的信号：可见不可能在这个（嘈杂）信号基础上有效地分辨何时语音存在以及何时语音不存在；且

·下面的时序图的信号S₄₀对应于同时由生理学话筒40所传递的信号：语音存在和不存在的相继阶段在其中被标记得更加明显。在评估信号S₄₀的功率并将其相对于预定义的阈值ξ相比较之后，用二元信号标记的VAD对应于由话音活动检测器20所传递的表示（′1′=语音存在；′0′=语音不存在）。

由生理学传感器40所传递的信号可不仅被用作话音活动检测器的输入信号，还被用作使得话筒10和12所获取的信号更丰富的信号，特别是在频谱的低频区域。

自然低，由生理学传感器所传递的信号，其对应于话音声，并不是完全是讲话的语音，因为语音不仅由话音声组成，还包括不源自声带的分量：频率内容可能例如更为富含例如来自喉咙且从口产生的声音。进一步，内骨导和通过皮肤的通道具有过滤特定话音分量的效果。

此外，由于以所有方式传播到鬓角或脸颊的振动引起的过滤，由生理学传感器所获取的信号适于仅在低频处使用，主要在声音频谱的低区（一般是0到1500hertz(Hz)）。

然而，由于在日常周围环境（街道、地铁、火车…）中通常遇到的噪声主要集中在低频处，来自生理学传感器的信号呈现出自然地没有任何寄生噪声分量的显著优势，所以可能利用这个在频谱低区的信号，同时在频谱高区（1500Hz以上）将其与由话筒10和12所获取的（嘈杂的）信号相关联（在这些嘈杂信号经受自适应组合器14所执行的噪声减少之后）。

通过同时接收如下信号的混合器框46的方式来重建完整的频谱：来自生理学传感器40的频谱低区的信号；以及来自话筒10和12的在由自适应组合器14去噪之后的频谱高区的信号。通过汇总被同步地施加给混合器框46的信号而执行这个重建，从而避免任何变形。

所获得的由框46所传递的信号可经受电路48进行的最后噪声减少，该噪声减少在频域中使用可与在WO 2007/099222A1(Parrot)中所描述的相比的常规技术来执行，从而输出最后的经去噪的信号S。

例如，然而，这个技术的实现相比上述文献中的教示大为简化。在当前情形下，不再需要以所获取的信号为基础评估语音存在的可能性，因为这个信息可通过话音活动检测器块20响应于检测到生理学传感器40执行的话音声的发射而直接获得。因此该算法被简化且变得更有效、更快速。

有利地，在语音存在和不存在情况下（由完美的语音活动检测器20所给出的信息）不同地执行频率噪声减少：

·在语音不存在情况下，在所有频带最大化噪声减少，即，对应于最大去噪的增益被以同样的方式施加至信号的所有分量（因为可确定在这样的情况下没有任何分量包含任何有用分量）；且

·反之，在语音存在情况下，噪声减少是以常规方式对每一个频带不同地施加的频率减少。

上述系统使得可能获得优秀的整体性能，一般具有在来自近旁讲话者的语音信号的30分贝（dB）到40dB数量级的噪声减少。由于自适应组合器14在由话筒10和12所获取的信号上操作，组合器特定地用作，以分数延迟过滤，来获取高频范围内的非常良好的去噪性能。

通过消除所有干扰噪声，远方讲话者（头戴式耳机的佩戴者与之通信的讲话者）得到的印象是另一方（头戴式耳机的佩戴者）在安静的房间内。

Claims

1.音频设备，包括：

·一组两个话筒传感器，适用于获取所述设备的使用者的语音并用于传递各自的噪声语音信号；

·采样装置，用于采样由所述话筒传感器所传递的语音信号；

·用于去噪语音信号的去噪装置，所述去噪装置接收由所述两个话筒传感器所传递的语音信号的样本作为输入，并传递表示所述设备的使用者所发出的语音的经去噪的语音信号作为输出；

其中：

·所述去噪装置是非频率噪声减少装置，包括自适应过滤器组合器，用于将由所述两个话筒传感器所传递的信号组合、以另一个话筒传感器所传递的信号所给出的噪声参考为基础通过迭代搜索操作设法消除由所述话筒传感器中的一个所获取的噪声；

·所述自适应过滤器是分数延迟过滤器，适用于模制比所述采样装置的采样周期短的延迟；

·所述设备还包括语音活动检测器装置，所述装置适用于传递表示来自所述设备的使用者的语音存在或不存在的信号；且

·所述自适应过滤器还将所述语音存在或不存在信号作为输入从而选择性地动作：i)或是在语音信号不存在时执行对所述过滤器参数的自适应搜索；ii)或是在语音信号存在时“冻结”所述过滤器的这些参数。

2.如权利要求1所述的音频设备，其特征在于，所述自适应过滤器适用于估算最优过滤器H，以使：

\hat{H} = \hat{G} &CircleTimes; \hat{F}

其中:

x^{'} (n) = G (&CircleTimes;) x (n)

且G(k)=sinc(k+τ/Te)

表示用于为包括分数延迟的脉冲响应而在所述两个话筒传感器之间转移噪声的所估算的最优过滤器H；

表示在所述两个话筒传感器之间的经估算的分数延迟过滤器G；

表示经估算的环境的声学响应；

表示卷积；

x(n)是输入至过滤器H的信号的样本序列；

x′(n)是由延迟τ偏置的序列x(n)；

Te是输入至过滤器H的信号的采样周期；

τ是所述分数延迟，等于Te的约数；且

sinc表示基本正弦函数。

3.如权利要求1所述的音频设备，其特征在于，所述自适应过滤器是具有最小均方类型的线性预测算法的过滤器。

4.如权利要求1所述的音频设备，其特征在于，

·所述设备还包括指向所述设备的使用者的且适用于获取所述使用者的图像的视频摄像头；且

·所述话音活动检测器装置包括视频分析装置，适用于分析由所述摄像头所产生的信号并作为响应传递表示所述使用者语音的存在或不存在的所述信号。

5.如权利要求1所述的音频设备，其特征在于，

·所述设备还包括生理学传感器，适用于与所述设备的使用者的头部相接触从而所述生理学传感器被耦合至头部，从而获取由内骨导传输的非声学发音振动；且

·所述话音活动检测器装置包括适用于分析由所述生理学传感器所传递的信号并作为响应传递表示所述使用者语音的存在或不存在的所述信号的装置。

6.如权利要求5所述的音频设备，其特征在于，所述话音活动检测器装置包括用于评估由所述生理学传感器所传递的信号中的能量的装置、以及阈值装置。

7.如权利要求6所述的音频设备，其特征在于，所述设备是组合的话筒和耳机类型的音频头戴式耳机，所述头戴式耳机包括：

·耳机，每一个耳机包括用于重现音频信号的声音的换能器，且所述耳机被容纳于设置在围绕耳朵的垫片中的外壳内；

·所述两个话筒传感器设置在所述耳机中的一个的外壳上；且

·所述生理学传感器结合在所述耳机中的一个的垫片中，且所述生理学传感器位于其中适于与所述头戴式耳机的佩戴者的脸颊或鬓角相接触的区域中。

8.如权利要求7所述的音频设备，其特征在于，所述两个话筒传感器对齐作为在指向所述设备的使用者的口的主要方向上的线性阵列。