CN204857179U

CN204857179U - 语音活动检测器

Info

Publication number: CN204857179U
Application number: CN201420687581.6U
Authority: CN
Inventors: 埃里克·知念·金
Original assignee: AliphCom LLC
Current assignee: AliphCom LLC
Priority date: 2011-01-10
Filing date: 2012-01-10
Publication date: 2015-12-09
Anticipated expiration: 2022-01-10
Also published as: EP2663976A4; AU2012205683A1; EP2663927A1; US10230346B2; US20120209603A1; CA2824439A1; US20120209601A1; EP2663976A1; EP2663927A4; CN204029371U; CA2824384A1; US10218327B2; WO2012097014A1; AU2012205596A1; WO2012097016A1

Abstract

本实用新型涉及一种语音活动检测器，包括：接收第一信号的第一检测器；接收不同于所述第一信号的第二信号的第二检测器；第一语音活动检测器部件，所述第一语音活动检测器部件被耦接到所述第一检测器和所述第二检测器；第二语音活动检测器部件，所述第二语音活动检测器部件被耦接到所述第二检测器；接触检测器，所述接触检测器被耦接到所述第一语音活动检测器部件和所述第二语音活动检测器部件；以及选择器，所述选择器被耦接到所述第一语音活动检测器部件和所述第二语音活动检测器部件。本实用新型处理接收到的语音信号以维持和增强语音清晰度。

Description

语音活动检测器

本申请为下述申请的分案申请，

原申请的申请日(国际申请日)：2012年1月10日，

原申请的申请号：201290000347.0(国际申请号：PCT/US2012/020848)，

原申请的发明名称：头戴式耳机系统中的动态音频增强(DAE)。

技术领域

该公开在此一般地涉及信号处理，并且尤其涉及处理接收到的语音信号以维持和增强语音清晰度。

背景技术

许多听筒和头戴式耳机制造商已经在他们的头戴式耳机中实现了一些形式的动态音频增强(DAE)技术。而功能性的常规的头戴式耳机不是很适合于适当地确定例如用户语音正在什么时候出现，因此错误地估计噪音级。

实用新型内容

根据本实用新型的一个方面，提供了一种语音活动检测器，包括：

接收第一信号的第一检测器；

接收不同于所述第一信号的第二信号的第二检测器；

第一语音活动检测器部件，所述第一语音活动检测器部件被耦接到所述第一检测器和所述第二检测器；

第二语音活动检测器部件，所述第二语音活动检测器部件被耦接到所述第二检测器；

接触检测器，所述接触检测器被耦接到所述第一语音活动检测器部件和所述第二语音活动检测器部件；以及

选择器，所述选择器被耦接到所述第一语音活动检测器部件和所述第二语音活动检测器部件。

在所述语音活动检测器中，所述第二检测器是声传感器。

在所述语音活动检测器中，所述声传感器包括两个全向传声器。

通过采用本实用新型的语音活动检测器，能够正确地估计噪音级。

附图说明

图1A是根据一些实施例的包含实现DAE结构和/或功能的接收器的通信装置的方框图；

图1B是根据一些实施例的包含NLE的DAE装置的方框图；

图1C显示根据一些实施例的对于DAE装置的AVC的增益的高阶和线性插值关系；

图1D显示根据一些实施例的DAE的EQ滤波器的幅度响应；

图1E显示根据一些实施例的具有EQ滤波器的DAE在不同的噪音级处的结果的语音响应；

图1F描绘根据一些实施例的限制器的效果；

图1G包含根据一些实施例的显示因DAE装置的限制器而产生的时域波形变化的曲线图；

图1H是根据一些实施例的使用心理声学响度模型的以宋(Sone)为单位的语音的“响度”测量的曲线图；

图1I是根据一些实施例的使用限制器和语音清晰度指数(ANSIS3.5-1997)标准的语音的清晰度测量的曲线图；

图2A是根据一些实施例的用于语音活动检测器(VAD)的实例的方框图；

图2B是按照替代实施例的用于语音活动检测器(VAD)的另一个实例的方框图；

图2C是根据一些实施例的用于语音活动检测的实例的流程图；

图3是在时间(上部)和频率(0－4kHz，下部)中的示范性的SSM信号；

图4是用于存在语音的SSM信号的示范性的标准化自相关函数；

图5是用于存在刮擦声的SSM信号的示范性的标准化自相关函数；

图6是根据一些实施例的用于自相关算法的实例的示范性的流程图；

图7是根据一些实施例的用于示范性的互相关算法的流程图；

图8是根据一些实施例的因SSMVAD中的改进而产生的增强的降噪性能的实例；

图9显示根据一些实施例的抗刮擦声的WAD的示范性的实施；

图10是根据一些实施例的VAD组合算法的实例的流程图；

图11是根据一些实施例的双传声器自适应噪音抑制系统的实例；

图12是根据一些实施例的包含阵列和语音源(S)的示范性的配置；

图13是根据实施例的使用两个全向元件O₁和O₂的一阶压差传声器的方框图；

图14是根据一些实施例的用于DOMA的方框图，该DOMA包括被配置成形成两个虚拟传声器V₁和V₂的两个物理传声器的实例；

图15是根据一些实施例的用于DOMA的实例的方框图，该DOMA包括被配置成形成N个虚拟传声器V₁到V_N的两个物理传声器，其中N是大于1的任何数；

图16是根据一些实施例的包括如此处描述的DOMA的头戴式耳机或头戴装置的实例；

图17是根据一些实施例的使用DOMA对声学信号进行降噪的流程图；

图18是根据一些实施例的形成示范性的DOMA的流程图；

图19是根据一些实施例的虚拟传声器V₂对于在第一距离处的语音源的示范性的线性响应的曲线图；

图20是根据一些实施例的虚拟传声器V₂对于在第二距离处的噪音源的示范性的线性响应的曲线图；

图21是根据一些实施例的虚拟传声器V₁对于在第一距离处的语音源的示范性的线性响应的曲线图；

图22是根据一些实施例的虚拟传声器V₁对于在第二距离处的噪音源的示范性的线性响应的曲线图；

图23是根据一些实施例的虚拟传声器V₁对于在用于示范性频率的距离处的语音源的线性响应的曲线图；

图24是显示用于实施例的阵列和用于示范性的心形传声器，对于语音的频率响应的对比的曲线图；

图25是根据一些实施例的对于V₁和V₂的示范性的语音响应随着d_s对比B的曲线图；

图26是根据一些实施例的V₁/V₂语音响应的示范性的比率对比B的曲线图；

图27是根据一些实施例的B的示范性的值对比语音源的距离d_s的示范性的值的曲线图；

图28是根据一些实施例的B的示范性的值对比θ的示范性的值的曲线图；

图29是根据一些实施例的N(s)的示范性的振幅和示范性的相位响应的曲线图的图表；

图30是根据一些实施例的具有非整数B)的N(s)的示范性的振幅和示范性的相位响应的曲线图的图表；

图31是根据一些实施例的对V₂中的语音消除有影响的示范性的振幅和示范性的相位响应的曲线图的图表；

图32是根据一些实施例的对V₂中的语音消除有影响的其他示范性的振幅和示范性的相位响应的曲线图的图表；

图33显示根据一些实施例的在大声的噪音环境中使用模拟器的示范性的阵列的试验结果；

图34是根据一些实施例的具有语音源S的双传声器阵列的示范性的配置；

图35是根据一些实施例的使用固定β(z)的V₂构造的示范性的方框图；

图36是根据一些实施例的使用自适应β(z)的V₂构造的示范性的方框图；

图37是根据一些实施例的V₁构造的示范性的方框图；

图38是根据一些实施例的声学语音活动检测的示范性的流程图；

图39显示根据一些实施例，当存在噪音时，使用固定β的示范性的算法的实验结果；

图40显示根据一些实施例，当存在语音时，使用固定β的示范性的算法的实验结果；

图41显示根据一些实施例，当存在语音和噪音时，使用固定β的示范性的算法的实验结果；

图42显示根据一些实施例，当存在噪音时，使用自适应β的示范性的算法的实验结果；

图43显示根据一些实施例，当存在语音时，使用自适应β的示范性的算法的实验结果；

图44显示根据一些实施例，当存在语音和噪音时，使用自适应β的示范性的算法的实验结果；

图45是根据一些实施例的NAVSAD系统的示范性的方框图；

图46是根据一些实施例的PSAD系统的示范性的方框图；

图47是根据一些实施例的此处被称为导航器系统(PathfinderSystem)的降噪系统的示范性的方框图；

图48是根据一些实施例的在检测浊语音和清语音中使用的检测算法的示范性的流程图；

图49A是根据一些实施例的描绘用于发声的接收到的GEMS信号以及平均相关性的曲线图的图表；

图49B是根据一些实施例的描绘用于发声的接收到的GEMS信号以及GEMS信号的标准偏差和用于浊语音检测的阈值的曲线图的图表；

图50是根据一些实施例的描绘从发声检测到的浊语音以及GEMS信号和噪声的曲线图的图表；

图51是根据PSAD系统的一些实施例的使用的示范性的传声器阵列；

图52是根据一些实施例的对于几个Δd示范性的值的ΔΜ对比d₁的曲线图；

图53显示根据一些实施例的示范性的增益参数的曲线图，该增益参数作为H₁(z)和来自传声器1的声学数据或者音频的绝对值的总和；

图54是根据一些实施例的在图53中呈现的声学数据的替代曲线图的实例；

图55是根据一些实施例的声振动传感器的实例的横截面视图；

图56A是根据图55中显示的实例的声振动传感器的分解图；

图56B是根据图55中显示的实例的声振动传感器的立体图；

图57是按照图55的实施例的声振动传感器的耦合器的示意图；

图58是按照替代实施例的声振动传感器的实例的分解图；

图59显示根据一些实施例的在适合于放置声振动传感器的实例的人类头部上的代表性的敏感性区域；

图60是根据一些实施例的头戴式耳机装置，该头戴式耳机装置包含放置在许多位置中的任何位置上的示范性的声振动传感器；和

图61是根据一些实施例的用于示范性的声振动传感器的制造方法的图表。

具体实施方式

实现此处具体描述的动态音频增强(DAE)技术的结构和/或功能可以被配置成(例如，连续地或者主要地)监视接收到的信号的噪音级，并且可以配置成处理接收到的远端语音信号，以维持和/或增强语音清晰度。因而，“DAE技术”(在下文中，该术语包含促进DAE技术的结构和/或功能)被配置成基于周围的噪声级和属性来调整、修改和/或过滤表示接收到的音频的信号。因此，接收到的音频的收听者(例如，通信的被呼叫者或者接受者)可以感知音频(例如，浊音音频)，以辨别远端喇叭(例如，通信的呼叫者或者发起者)的所说的语音。环境噪声有可能干扰或者屏蔽表示接收到的音频的信号，从而使得进入语音更加难以听到和理解。实现DAE的装置可以减少或者排除手动音量调整的必要性或者将收听装置(例如，头戴式耳机)推得更靠近耳道以克服噪音级的必要性。因而，DAE装置可以通过使用如此处描述的各种技术来增强清晰度，以使得语音更加可理解。DAE装置可以被配置成在用户没有注意任何变化的情况下(例如，在没有用户输入的情况下)，进行这些功能。DAE装置可以实现如此处以及在相关申请中具体描述的专有的皮肤表面传声器(SSM)和声学语音活动检测(AVAD)技术，可以在各种声学环境中进行得很好。

在以下描述中，介绍许多具体细节，以提供对DAE装置、系统和方法的各种实施例的彻底了解，并且能够实现对于DAE装置、系统和方法的各种实施例的描述。然而，相关技术领域中的一个技术人员将认识到，在没有一个以上的具体细节或者利用其它部件、系统等等的情况下，可以实践此处描述的实例。在其他情况下，众所周知的结构或者操作没有被显示，或者没有被详细地描述，以避免模糊揭示的实施例的方面。

除非另有规定，以下术语具有除了它们可以传达给本领域的技术人员的任何含义或理解之外的相应含义。

术语“动态音频增强”或者“DAE”指的是依据噪音环境来修整音频流的音量和均衡化两者的技术，并且可以指的是与通信装置相关联地实现的结构或者功能或者两者。

术语“NLE”指的是噪音级估计器。

术语“AVC”指的是自动音量控制器。

术语“帧”指的是语音片段，除非另有规定，该语音片段被假定为持续近似2.5毫秒；可以使用其他的帧大小。

术语“远端”指的是连接头戴式耳机或者听筒的用户的人或者装置的远程环境。

术语“听筒”指的是握在手中的用于采集近端语音以及发送远端音频信息的装置。

术语“近端”指的是用户的环境。

术语“噪音”指的是环境噪声。

术语“传声器”指的是物理全向传声器，并且至少在一些实施例中，可以指的是其他类型的传声器。

术语“SSM”的“皮肤表面传声器”指的是用于检测用户皮肤内部的声振动的装置。SSM的实例在此处以及在相关申请(例如，参见作为2008年10月7日发布的美国专利号7,433,484的延续部分的2008年10月1日提交的美国专利申请号12/243,718，以及2010年5月3日提交的美国专利申请号12/772,947)中被具体描述，并且能够从加利福尼亚州旧金山的艾利佛有限公司(“艾利佛”)得到。

术语“语音活动检测”或者“VAD”指的是语音活动检测信号，并且该信号可以表示浊语音或者清语音，或者是可以浊语音或者清语音。

术语“声学VAD”或者“AVAD”指的是使用声学输入确定的并且不需要依靠诸如SSM或者加速计的振动传感器的语音活动检测。AVAD的实例在此处以及在相关申请(例如，参见作为2007年6月27日发布的美国专利号7,246,058的延续部分的2007年5月25日提交的美国专利申请号11/805,987，2009年10月26日提交的美国专利申请号12/606,140，以及2010年5月3日提交的美国专利申请号12/772,947)中被具体描述，并且能够从加利福尼亚州旧金山的艾利佛有限公司得到。

术语“RX”指的是接收、被接收到的和/或接收器。

术语“TX”指的是发送、被发送的和/或发送器。

术语“O₁”指的是被安置得最靠近用户嘴巴的全向传声器。

术语“O₂”指的是被安置得离用户嘴巴最远的全向传声器。

有许多被用于评价DAE系统、装置和方法的性能的特性。例如，可以使用以下特性来评价，但是各种实施不意欲被限制于这些特性：系统在噪音的开和关时的行为，包含响应速率；在平稳的噪音环境中的稳态行为；在不平稳的噪音环境中的行为；在风噪音环境中的行为；对于近端语音和近端回声效应的稳固性。

对于噪音的开和关的响应速率可以类似于人注意调整音量旋钮的响应速率。例如，到达变化的3－dB点的时间可以在1到3秒的范围。有时，响应速率包含持续时间，在该持续时间内，DAE装置判定噪音是脉冲的还是稳态的。系统不需要响应脉冲噪音，除非有这样做的预定阈值和要求(例如，在短时期内可以有对于脉冲噪音触发响应的大量噪音脉冲)。

在“平稳的噪音”环境中，DAE系统可以使用增益量、动态范围压缩(以强调弱的语音片段)和/或有利于清晰度的频率区域的强调来增强清晰度。增强量可以是噪音级的函数。在一些实例中，DAE系统或者装置可以操作用于在60－90dBASPL范围内的噪音级。

“不平稳的噪音”可以包含与单个脉冲(例如，一拍击)、重复的脉冲(例如，气锤(jack-hamme))、几乎平稳的噪音(例如，多个说话者串音)相关的声响，但是不会被如此限制。各种实施例的DAE系统和装置被配置成表现和响应类似于人类。例如，单个脉冲可以不触发对于DAE系统或者装置中的增益的任何变化。具有小于一定持续时间(例如一秒)的期间的重复脉冲可以负面地影响语音清晰度，因为语音音素典型地具有几百毫秒的持续时间。随后，为了这些重复的噪音，系统可以增强进入的语音。

“风噪音”环境非常不同于噪声环境。风噪音可以是非常脉冲的，快速重复，并且也可以渗透传声器。因此，DAE系统或者装置被配置成补偿风噪音，因为因风而产生噪音可能减少清晰度或者实质上使语音变得难以理解。DAE系统或者装置通过使用风检测器以及风级估计器来补偿风噪音。

在一些实施例中，DAE系统或者装置可以被配置成放弃对接收到的语音(例如，来自位于远端环境处的远程音频源的进入语音)的操作。因此，DAE系统或者装置可以包含噪音计，以使用消除回声的传声器信号。此外，DAE系统或者装置可以包含VAD，以致噪音级估计将不会在近端用户语音期间更新，从而放弃近端(例如，用户)语音的可能的错误分类。

一旦限定了用于DAE系统或者装置的期望行为，就可以使用以下度量来评价DAE系统或者装置的稳态性能，但是各种实施例不意欲被限制：语音清晰度(例如，理解来自远端用户的浊音音频有多容易)；语音质量(例如，感知到的语音有多令人愉快)；语音响度(感知到的语音是多响)；等等。测量语音清晰度的实例包含语音清晰度指数(SII)、诊断韵律测试(DRT)、修改的诊断韵律测试(MDRT)等等；测量语音质量的实例包含PESQMOS、MOS等等的使用；以及语音响度的实例包含基于心理声学的响度(宋))。在一些实施例中，DAE系统和装置使用所有的三个度量来使好的清晰度与合意的容易听到语音组合。

在一个技术中，音频流的清晰度可以通过提升音量增益来被增强。DAE系统和装置可以包含与压缩器耦接的增益，以例如保持喇叭输出线性，以致回声抑制是最佳的。压缩操作以将扬声器信号的振幅限制到最大振幅，从而减少扬声器的非线性效应。这随后又提升了弱浊语音和清语音，弱浊语音和清语音提供构成语音的大量信息，该语音另外可能被噪音屏蔽。

在另一个技术中，DAE系统和装置可以被配置成改变喇叭(例如，扬声器)信号的频率成分以增加清晰度。DAE系统和装置可以包含均衡器(EQ)，该均衡器被配置成“倾向”它的均衡化功能，以便例如利用频率来修正增益变化。因而，进入语音的较高频率可以相对于低的频率被提升。

其他技术包含在频域中的噪音屏蔽的效果的计算。在这种情况下，示范性的DAE系统或者装置基于频率的次能带(例如，频率的范围)将语音细分或者分解成Bark音阶(或者类似的心理声学音阶)。然后DAE系统或者装置可以计算噪音的屏蔽曲线，以便判定每个次能带可以接收多少增益或者衰减。例如，DAE系统或者装置可以操作以强调进入的语音次能带，进入的语音次能带与噪音环境竞争，以致它们更加容易被用户感知到。有时，DAE系统或者装置可能衰减语音以维持响度。次能带上的增益可以被应用，所以在那些次能带中的语音能量升到噪音制造等级之上，导致可听到的语音。

示范性的DAE系统或者装置可以提供增强的用户经验、或者没有变化的或者好于另外可能是该情况的用户经验。此处具体描述的DAE系统、装置和方法的各种实例提供增强的用户经验。例如，DAE系统、装置和方法的效果和操作变化一般不被用户注意(例如，感知到音量发出几乎相同的声音，不管噪音)。作为另一个实例，DAE系统、装置和方法不必要地操作，以致力于脉冲的和/或短期间噪音，并且可以足够快速地对噪音级的长期变化起反应。因而，用户不需要手动地调整他或者她的音量，因为最大音量级被配置成低得足以不损害听觉，并且高得足以在各种噪音环境中是有效的。

根据各种实施例，DAE系统、装置和方法可以包含一个以上的以下内容：近端VAD、远端VAD、噪音级估计器、和/或稳固的算法流，所有的这些在下面被具体描述。

图1A是根据一些实施例的包含实现DAE结构和/或功能的接收器的通信装置的方框图。细线表示标量值(即，每帧一个值)，而粗线表示音频数据的帧。TX处理部件没有被显示在图表中。同样，回声消除器、用于近端语音的VAD、和风处理模块可以形成为TX处理部件的一部分并且没有被显示。但是，至少一些TX处理部件被显示作为到RX处理路径的输入。

DAE装置被描绘作为动态音频增强器102，存在于RX处理路径中。DAE装置102被配置成经由路径101接收无回声传声器信号(来自O₂)以及经由路径103接收近端VAD信号，作为输入。如所示的，DAE装置包含但不局限于NLE112、AVC114、均衡器116和限制器118。在一些实施例中，NLE112可以被配置成接收无回声传声器信号(来自O₂)和近端VAD信号，以生成表示路径115上的噪音级估计的信号。AVC114接收表示噪音级估计的信号，并且被配置成基于噪音级来调整应用到RX语音路径107的增益(“增益3”)。在一些实例中，应用到来自AVC114的信号上的增益可以在0到18dB之内。选择性地，表示音量增益的信号经由路径117被应用，以衰减或者修改AVC114的输出，从而形成路径121a上的信号。随后，路径121a上的信号与RX语音路径107上的信号一起被处理，以形成路径121b上的最终增益信号。例如，用于路径121b上的信号的最终增益的范围可以从－14到46dB。

通过RXAGC110生成表示RX语音路径107上的语音的信号，RXAGC110具有增益(“增益2”)，该增益(“增益2”)被应用到关于语音的信号。例如，用于路径107上的关于语音的信号的增益的范围可以从－9到+9dB。路径107上的关于语音的信号来源于经过远端VAD104以及噪音门106和均衡器108的接收到的语音(“RX语音”)105。至少在一些实施例中，噪音门106可以被配置成门输出或者去除诸如静态噪音的噪音(例如，当没有或者不足的RX语音105存在时)。均衡器108被配置成接收表示路径109上的噪音级估计的信号。

均衡器116可以操作为均衡器滤波器，均衡器116被配置成基于噪音级来适配以提升噪音的高频，并且可以被配置成接收来自路径115的表示噪音级估计的信号以及路径113a上的信号。路径113a上的信号可以是基于噪音门控语音105和路径111上的信号。路径111上的信号可以表示代表音调或者其他的音频广播的信号，诸如话音广播(例如，音调上的力量、连接音调、电池寿命广播、及其他同样的基于音频的功能)。

限制器118被配置成接收AVC114的输出，结合路径107上的语音信号和经由路径119的压缩增益。压缩增益的实例是22dB。因此，限制器118被配置成在每个采样基础上动态地调整RX语音级，以减少或者防止因要被应用的增益而产生的硬削波。此外，限制器118可以被配置成减少语音动态范围并且增强语音的弱浊音段。限制器118被配置成“预见”要被应用到语音的增益，并且如果削波是被期望的，那么限制器118足够地衰减语音，以防止硬削波。虽然有时AVC增益变化是慢过程，并且可能被看作为模仿人利用旋钮来调整音量，但是限制器118操作更快，诸如在毫秒而不是秒的范围内进行操作。

风生成器120引入风舒适噪音，风舒适噪音是表示风噪音或者像风的噪音的信号，可以被包含在接收到的信号中以警告用户风的存在，而不过度地影响通信清晰度。

除了NLE112之外，算法实现了近端VAD(两个SSM，SSM的实例在此处以及在相关申请(例如，参见作为2008年10月7日发布的美国专利号7,433,484的延续部分的2008年10月1日提交的美国专利申请号12/243,718，以及2010年5月3日提交的美国专利申请号12/772,947)中被具体描述)，AVAD(参见在此处以及在相关申请，例如，作为2007年6月27日发布的美国专利号7,246,058的延续部分的2007年5月25日提交的美国专利申请号11/805,987，以及2010年5月3日提交的美国专利申请号12/772,947中的具体描述)，以及风算法(参见相关申请，例如，2010年5月3日提交的美国专利申请号12/772,963)。此外，实施可以包含VAD和DAE技术中的风检测器算法。

图1B是根据一些实施例的DAE装置的方框图。如所示的，DAE装置可以包含NLE124。表示为“WindPresent”信号125的到NLE124的第一输入是风检测器和/或风检测器算法的输出，该输入指示当前是否有风存在。如果风存在，那么NLE125冻结噪音估计更新，并且输出表示当前的噪音级的信号127，当前的噪音级使用来自在当前帧之前的帧(例如，在两(2)个帧(近似5毫秒)之前的帧)的噪音级，以确保噪音级估计没有被风噪音污染。

表示为“VadState”信号129的实施例的到NLE124的另一个输入是近端VAD算法的输出，该输入指示是否有近端语音存在。如果检测到近端语音，那么NLE124冻结噪音估计更新，并且输出表示来自“防护”期间之前的噪音级的信号127。实施例的“防护”期间例如可以是近似50毫秒，作为正好在VAD从0变换到1之前(即，正好在检测语音开始之前)的时期。防护期间可以在实施中被使用，以确保近端语音没有影响或者另外污染噪音级估计。

当没有风或者近端语音存在时，信号126被激活以操作“开关”128，从而选通(gate)消除回声的O₂信号作为NLE124的主要输入。在头戴式耳机配置的实例(参见相关申请，例如，2008年6月13日提交的美国专利申请号12/139,333)中，O₂信号被使用，因为它是最靠近耳朵的传声器，从而提供用户听到的噪音的稍微更精确的测量。O₂信号是被充分地消除回声的，以致任何回声是在进入的远端语音以下的至少20－30dB(以上)。

因为实施例的O₂信号首先穿过像A加权的滤波器130，所以噪音计解释人类听觉响应，并且对人类听觉不敏感的低频噪音不再被适当地强调。不需要使用可以被配置用于低等级噪音的标准A加权。作为替代，可以使用具有类似于B加权的响应的滤波器。

然后过滤的O₂信号被输入到VAD131中，可以使用任何通常已知的技术，诸如基于能量的技术，来构造VAD131。在一些实施例中，使用能量对比阈值技术来构造VAD131。VAD131每次每个帧输出二进制标量值，然后使用一阶无限脉冲响应(IIR)低通滤波器(“LPF”)132(例如，具有近似2.5秒的时间常数)来过滤二进制标量值。LPF132的功能是使NLE124的反应时间慢下来，以便大约为例如2秒。滞后模块133可以被配置成应用当前状态的一些“粘滞性”(例如，该滞后可以在输入>0.35时等于1并且保持在1直到输入<0.1)。来自滞后模块133的二进制信号指示噪音的两个模式中的哪个模式是目前的——平稳噪音或者像语音的不平稳噪音。像语音的不平稳噪音的检测器134检测像语音的不平稳噪音，而平稳噪音的检测器136检测平稳噪音。

这个双模态分类以及结果的处理提供增强的DAE技术。照此，NLE124在一些实施例中可以被描述为双模态NLE，因为它基于噪音的检测类型来不同地生成噪音级估计。当检测到“平稳噪音”时，从第一模式中的能量计算噪音级。在一些实施例中，能量计算模块计算能量，估计的噪音级来源于该能量。

当检测到像语音的噪音时，峰值跟踪器被用于估计第二模式中的噪音级。峰值跟踪器通过首先找到当前帧中的最大的绝对值来进行工作。然后，每帧1值经历快速攻击和缓慢延迟的不对称的指数平均滤波器，快速攻击和缓慢延迟的不对称的指数平均滤波器取决于例如以下等式：

y(n)＝y(n－1)*α+x*(1.0－α)；

当x>＝y(n－1)时，α＝0.989981，对应于0.262秒的时间常数，

当x<y(n－1)时，α＝0.998998，对应于2.62秒的时间常数，

在指数平均滤波器(或者任何其他的非线性峰值跟踪滤波器)之后，NLE124使用像语音的不平稳噪音的检测器134中的最后的低通滤波器(“LPF”)，来使信号平滑。利用指数平均滤波器来构造最后的滤波器：

y(n)＝y(n－1)*α+x*(1.0－α)；

α＝0.8990384。

在一些实施例中，在存在不平稳噪音的情况下，像语音的噪音的非线性峰值跟踪滤波器的使用可能导致增强的并且更稳定的噪音级估计。

在实施例的移动平均滤波器、峰值跟踪器以及低通滤波器中使用的参数使得在两个模式之间有平滑变换。即，对于可以被分类为像语音的噪音的半平稳的噪音或者平稳噪音，NLE124可以从任一模式提供输出噪音值。移动平均滤波器的实例包含使多个输入采样平均，以产生输出采样的那些滤波器，以及FIR滤波器，或者任何其他的同样类型的滤波器。

为了最佳性能，近端用户语音以及远端语音回声可以从噪音级估计中被排除。如果检测到近端语音，则NLE124冻结它的计算，并且NLE124不需要判定远端信号是期望的语音还是不期望的回声。因此，非常精确的VAD以及回声消除被用于最佳性能，并且实施例的SSMVAD和AVAD提供了稳固的NLE124。

各种实例的NLE124可以对脉冲噪音不敏感，除非该噪音连续地重复(诸如气锤噪音)。持续时间小于近似2－3秒的任何单个爆发噪音被认为是脉冲噪音。低通滤波器132(被安置在VAD的输出和滞后的输入之间)和滞后的调整对实施例的噪音不敏感性负很大责任。

对于可能快速改变能量的语音及其他不平稳噪音类型，NLE124可以在比检测到更多平稳噪音的期间长的期间跟踪噪音级。这通过峰值跟踪器的快速跟踪和缓慢衰减本质来实现，对于不平稳噪音类型，峰值跟踪器的快速跟踪和缓慢衰减属性比基于能量的方法更适合。

NLE124被配置成在噪音(平稳噪音和不平稳噪音两者)开始时在近似2－3秒内斜升至实际噪音级的71％(－3dB)。然后，NLE124可以在平稳噪音结束时在近似小于1秒内，以及在不平稳噪音结束时在近似2－3秒内，斜降至新的噪音级的71％(－3dB)。这导致极好的性能；大多数用户不需要察觉到系统的音量和/或均衡化可能正在改变以适合于环境，并且用户可以在各种噪音环境中感知远端语音，而不必手动地调整音量控制。

图1A的自动音量控制器(AVC)114可以使用NLE124的噪音级作为输入，并且可以计算要被应用到RX语音信号的增益(参见图1A)，以维持或者增强感知到的响度和清晰度。

AVC114使用以下函数对60到90dBSPL的NLE噪音级从0－18dB进行调整

gain_avc＝(18－0)*(noise_level－60dB)。

操作范围可以基于在近似60dBSPL以上开始负面地影响感知到的响度和清晰度的噪音级。当噪音级在90dB以上时，最大增益的上限可以被定在18dB，以防止因过高的扬声器音量而产生的对听觉的可能的损害。在一些实施中，DAE装置102可以包含高阶插值函数。

还显示的是可以在替代实施例的AVC中使用的类型的高阶插值曲线141(例如，第二阶曲线)的实例。

可以在实施例中应用强调高频的音频的自适应均衡化。因为噪音级被应用到图1A的AVC114，所以图1A滤波器的EQ116适应于60到90dBSPL的NLE112噪音级。EQ滤波器可以被实现为有限脉冲响应(FIR)，并且可以适应根据以下示范性的函数：

对于noise_level<＝60dBSPL)：

h[k]＝h_base[k]

对于60<＝noise_level<＝90dBSPL)：

h[k]＝h_base[k]+h_delta[k]*[(noise_level[k]－60dB/30]

对于noise_level>＝90dBSPL

h[k]＝h_base[k]+h_delta[k]

其中h_base[k]表示在时间k的基线滤波器系数向量。

图1D显示根据一些实施例的DAE装置的EQ滤波器的幅度响应。基于噪音级，通过在60dB噪音曲线和90dB噪音曲线之间进行插值，可以连续地(或者对于主要的时间量)计算EQ滤波器系数。在90dBSPL或者以上的噪音级(例如，由NLE确定)，EQ滤波器在0－4000Hz的频率范围内具有大约12dB的增加倾斜，具有出现在2000－3500Hz范围中的主要的倾斜量，其中对语音清晰度有用的信息被定位。

图1E显示根据至少一些实施例的具有EQ滤波器的DAE装置在不同噪音级处的示范性的结果的语音响应。在这个实例中，B&K头和躯干模拟器(HATS)已经与Jawbone头戴式耳机(能够从艾利佛有限公司得到)一起被使用，以在IFU-810的规格的指导下生成示范性的测量。还显示了ITU-810的屏蔽。头戴式耳机在90dB噪音级的响应超出了ITU屏蔽、可接受条件的范围，因为ITU-810规格不需要该响应在用于喧闹情形的屏蔽之内。在高的噪音级处，响应在近似2－3.4kHz的范围内超过上屏蔽。响应152表示小于或等于60dB的响应，以及响应152表示大于或等于90dB的响应。

关于动态范围压缩，增强清语音和弱浊语音的范围压缩的概念可以作为增强清晰度的方法来被进行。自适应压缩器可以进行操作，以便根据噪音级经由图1A的路径119改变压缩器输入增益。当噪音级高时，输入增益高，并且压缩器正在非线性区中操作。高峰值的压缩和低语音级的提升增强了语音清晰度。

图1A的限制器118可以被配置成防止夹住Jawbone头戴式耳机的扬声器。但是，利用适当的输入调整和限制器参数，限制器在提高语音清晰度上是有力的工具。限制器通过引入延迟的帧来考虑未来。对于语音，限制器118可以被微调，具有快速的对数攻击和缓慢的几何学衰减。

图1F描绘根据一些实施例的限制器的效果。粗线显示根据一些实施例的与实际的时域语音信号有关的限制器增益值156。图1A的限制器118可以被用于通过使语音预增益来增强语音，该语音已经通过AGC110被标准化为固定等级，以便正好在限制器118的操作点之下或者附近。然后，任何AVC增益将使得限制器118减少语音的强浊音段，从而相对于浊音段放大了清音段和弱浊音段。实际上，限制器操作为快速适应的动态范围压缩器。

图1A的AGC110虽然不是DAE系统(图1A)的一部分，但是有助于限制器的动态压缩效果。AGC110可以去除因来源(例如，说话者)和通信信道而产生的语音级可变性，从而允许限制器在最佳点附近操作。

在AGC110阶段之后，经由路径107的RX语音可以被标准化为额定等级。在限制器进行操作(即，削波开始)之前，这经受得起对于语音信号中剩下的动态余量的判定。这个动态余量在诸如Jawbone的通信装置上是大约12dB。换句话说，将12dB增益应用到路径107上的RX语音信号可以相对于削波的阈值影响RX语音级。AVC114所需的任何附加增益将导致限制器压缩信号。

限制器118通过近似r*avcGain来减少语音信号的动态范围。通过将峰值维持在与限制器之前相同的等级处，弱清语音段通过r*avcGain被有效地提出，其中r是在限制器中确定的比率(例如，0.9)。所以，弱的语音段可以被增加差不多0.9*18dB～＝16dB。因为弱的语音段大多数被噪音不利地屏蔽，并且它们趋向于含有相应的语音信息，所以限制器大大地提高了语音清晰度。

图1G到1I是图解限制器118对语音的影响的曲线图。产生这些曲线图的语音是口语短语“StarTrek,ratedPG13,press8”。“startrek”的发声在49和50秒之间。“RatedPG13”在50和52秒之间。“Press8”在52和53.5秒之间。

图1G包含根据一些实施例的显示因DAE的限制器而产生的时域波形变化的曲线图。曲线图160显示在限制器118的实施之前的语音波形，以及曲线图162显示在限制器118的实施之后的语音波形。限制器118的操作可以被配置成使动态范围减少近似10dB。清音和弱浊音音素可以被限制器提升。例如，单词“Star”的摩擦音‘S’和单词“Trek”的浊塞音‘K’被显著地提升。同样，“RatedPG13”语音的部分161被增强作为曲线图162中的部分163。在没有限制器118的情况下，短语“StarTrek”可能通过噪音被至少部分地屏蔽，潜在地使得它难理解。

图1H是根据一些实施例的使用心理声学响度模型的以宋为单位的语音的“响度”测量的曲线图170。实施例的心理声学响度模型是MBSD模型，但是实施例不会被如此限制(参见Wonho，Y.，增强修改的巴克频谱失真(EMBSD)：基于可听失真和认知模型的客观的语音质量测量(Anobjectivespeechqualitymeasurebasedonaudibledistortionandcognitionmodel)，博士论文，坦普尔大学，Ft.华盛顿，美国，1999；参见B.Moore、B.Glasberg、T.Baer，‘用于阈值、响度和部分响度的预报模型(Amodelforthepredictionofthresholds,loudnessandpartialloudness)’J.AudioEng.Soc.45，1997)。替代地，穆尔和格拉斯模型(MooreandGlasmodel)可以提供类似的结果(参见J.Timoney、T.Lysaght、MarcSchoenwiesner、L.McManus，在MATLAB中实施响度模型(IMPLEMENTINGLOUDNESSMODELSINMATLAB)，Proc.Ofthe7thInt.ConferenceonDigitalAudioEffects(DAFX-04)，那不勒斯，意大利，10月5日－8日，2004)。

响度模型可以模拟人类感知的响度评定值。曲线图中显示了表示原始语音173、通过限制器修改的语音171、和应用有简单的10dB增益的原始语音172的三条曲线。对于弱语音段，限制器处理的语音可以达到与10dB增益的响度级相类似的响度级。而对于强语音段，限制器处理的语音可以类似于原始语音。这个行为所期望的是在没有发出太响的声音和/或驱动扬声器以失真的情况下，达到清晰度上的增益。

图1I是根据一些实施例的使用限制器和语音清晰度指数(ANSIS3.5-1997)标准的语音的清晰度测量的曲线图180。在这个曲线图中，对于弱浊音段，限制器处理的语音的清晰度可以类似于10dB增益方案。曲线图中显示了表示原始语音183、通过限制器修改的语音181、和应用有简单的10dB增益的原始语音182的三条曲线。

返回参考图1A，各种实施例的限制器118可以包含作为单个增益的输入，该单个增益是AGC110、AVC114和音量设定增益的总和。除了它对于清晰度增强的范围压缩影响之外，限制器118还减少或者防止了硬削波。因而，在DAE的语音路径(或者其一部分)中，可以在限制器处应用增益，这导致了算法具有相对更多的稳定性。在具体实施例中，该限制器考虑到仅有的增益，以影响算法的稳定性。

屏蔽是很好理解的基于频率的心理声学属性，可以被利用以增强语音清晰度。MP3及其他新型的音频编码译码器利用屏蔽效应，以便通过“隐藏”频带中的量化噪音来减少比特率，该频带被屏蔽并且是听不见的。在实施例中，远端语音被过滤，以使得将被环境噪音屏蔽的频率清楚。当适当地实行时，与例如跨越频率范围的增益增加相比，对于相同的给定的响度，可以达到较高的清晰度。

为了在电子系统中使用而描述语音活动检测器(VAD)或者检测系统。如下所述，实施例的VAD将声学VAD和振动传感器VAD的使用适当地组合到用户正在操作主机装置的环境或者条件。精确的VAD对于任何噪音抑制系统的噪音抑制性能是关键的，因为没有被适当地检测出的语音可能被去除，导致清音化。另外，如果语音被不适当地认为是存在的，则噪音抑制性能可能被减少。同样，为了最好的性能，其他算法，诸如语音识别、说话者验证等，需要精确的VAD信号。传统的基于单传声器的VAD在不平稳的、多风的或者大噪音环境中可能具有高的误差率，导致取决于精确VAD的算法的差的性能。此处任何的斜体文字泛指此处描述的算法中的变量的名称。

图2A是根据一些实施例的用于语音活动检测器(VAD)的实例的方框图200。实施例的VAD202包含接收第一信号的第一检测器(“DET1”)204和接收不同于第一信号的第二信号的第二检测器(“DET2”)206。VAD202包含第一语音活动检测器(VVAD)部件208，该第一语音活动检测器(VVAD)部件208被耦接到第一检测器和第二检测器。当从对第一信号的至少一个操作所导致的能量超过第一阈值时，第一VAD部件208判定第一信号对应于浊语音。VAD202包含第二VAD部件(“AVAD”)210，该第二VAD部件(“AVAD”)210被耦接到第二检测器。当与第二信号相对应的第二参数和与第一信号相对应的第一参数的比率超过第二阈值时，第二VAD部件210判定第二信号对应于浊语音。

实施例的VAD202包含接触检测器212，该接触检测器212被耦接到第一VAD部件和第二VAD部件。如此处具体描述的，接触检测器212判定第一检测器与用户皮肤的接触状态。

实施例的VAD202包含选择器214，该选择器214被耦接到第一VAD部件和第二VAD部件。当第一信号对应于浊语音并且接触状态是第一状态时，选择器生成VAD信号以指示浊语音的存在。替代地，当第一信号和第二信号中的任何一个对应于浊语音并且接触状态是第二状态时，选择器214生成VAD信号。

图2B是根据各种实施例的用于语音活动检测器(VAD)的另一个实例的方框图250。VAD252包含接收第一信号的第一检测器254和接收不同于第一信号的第二信号的第二检测器256。这个替代实施例的第二检测器256是声传感器，该声传感器包括两个全向传声器(例如，全向传声器(“O₁”)255和全向传声器(“O₂”)257)，但是实施例不局限于此。

这个替代实施例的VAD252包含第一语音活动检测器(VVAD)部件258，该第一语音活动检测器(VVAD)部件258被耦接到第一检测器和第二检测器。当从对第一信号的至少一个操作所导致的能量超过第一阈值时，第一VAD部件258判定第一信号对应于浊语音。VAD252包含第二VAD部件260，该第二VAD部件260被耦接到第二检测器。当与第二信号相对应的第二参数和与第一信号相对应的第一参数的比率超过第二阈值时，第二VAD部件260判定第二信号对应于浊语音。

这个替代实施例的VAD252包含接触检测器262，该接触检测器262被耦接到第一VAD部件和第二VAD部件。如此处具体描述的，接触检测器262判定第一检测器与用户皮肤的接触状态。

这个替代实施例的VAD252包含选择器264，该选择器264被耦接到第一VAD部件和第二VAD部件以及接触检测器。当第一信号对应于浊语音并且接触状态是第一状态时，选择器264生成VAD信号以指示浊语音的存在。替代地，当第一信号和第二信号中的任何一个对应于浊语音并且接触状态是第二状态时，选择器生成VAD信号。

图2C是根据一些实施例的用于语音活动检测290的实例的流程图。在292，语音活动检测在第一检测器处接收第一信号并且在第二检测器处接收第二信号。第一信号不同于第二信号。在294，当从对第一信号的至少一个操作所导致的能量超过第一阈值时，语音活动检测判定第一信号对应于浊语音。在296，语音活动检测判定第一检测器与用户皮肤的接触状态。在298，当与第二信号相对应的第二参数和与第一信号相对应的第一参数的比率超过第二阈值时，语音活动检测判定第二信号对应于浊语音。在299，当第一信号对应于浊语音并且接触状态是第一状态时，语音活动检测算法生成语音活动检测(VAD)信号以指示浊语音的存在，和/或当第一信号和第二信号中的任何一个对应于浊语音并且接触状态是第二状态时，语音活动检测算法生成VAD信号。

以下描述的声学VAD(AVAD)算法(参见以下章节“供电子系统使用的声学语音活动检测(AVAD)算法”)使用两个全向传声器，该两个全向传声器以在常规的一个和两个传声器系统之上显著增加VAD精确度的方式被组合，但是它受其基于声学的构造所限制并且可以在大声的、脉冲的和/或反射的噪声环境中开始显现降低了的性能。以下描述的振动传感器VAD(VVAD)(参见以下章节“使用声学和非声学传感器两者来检测浊语音和清语音”以及章节“声振动传感器”)几乎在任何噪声环境中工作很好，但是如果不能维持与皮肤的接触或者如果语音能量很低，则可能显现降低了的性能。有时，VAD可能受因用户移动而产生的振动传感器相对于用户皮肤移动的移动误差的影响。

然而，AVAD和VVAD的组合能够减轻许多与个别算法相关联的问题。同样，去除总移动误差的额外处理已经显著地增加了组合VAD的精确度。

在本公开中使用的通信头戴式耳机实例是由加利福尼亚州旧金山的艾利佛公司制造的JawbonePrime蓝牙头戴式耳机。这个头戴式耳机使用两个全向传声器，以便使用以下描述的系统(参见以下章节“双重全向传声器阵列(DOMA)”)以及第三振动传感器来形成两个虚拟传声器，第三振动传感器检测在用户面部上的面颊内的人类语音。虽然面颊位置是较佳的，但是也可以使用能够可靠地检测振动的任何传感器(诸如是加速计或者无线振动检测器(参见以下章节“使用声学和非声学传感器两者来检测浊语音和清语音”)。

除非明确地声明，以下缩写和术语被如下定义。

降噪是从电子信号中去除不需要的噪音。

清音化是从电子信号中去除期望的语音。

假阴性是当VAD在语音存在的时候指示语音不存在时的VAD误差。

假阳性是当VAD在语音不存在的时候指示语音存在时的VAD误差。

传声器是物理声学传感元件。

标准化最小均方(NLMS)自适应滤波器是用于判定传声器信号之间的相关性的通用自适应滤波器。可以使用任何类似的自适应滤波器。

术语O₁表示第一物理全向传声器。

术语O₂表示第二物理全向传声器。

皮肤表面传声器(SSM)是适合于检测皮肤表面上的人类语音的传声器(参见以下章节“声振动传感器”)。可以用能够检测用户皮肤中的语音振动的任何类似的传感器来代替。

语音活动检测(VAD)信号是含有关于浊语音和/或清语音场合的位置的信息的信号。

虚拟传声器是由物理传声器信号的组合组成的传声器信号。

实施例的VVAD使用由位于加利福尼亚州旧金山的艾利佛公司制造的皮肤表面传声器(SSM)。SSM是声学传声器，该声学传声器被修改，以使它能够响应用户面颊中的振动(参见以下章节“声振动传感器”)，而不是空气传播的声源。还可以使用响应于振动(例如加速计或无线振动计(参见以下章节“使用声学和非声学传感器两者来检测浊语音和清语音”))的任何类似的传感器。即使在有大声的环境噪声存在的情况下，这些传感器也允许用户语音的精确检测，但是这些传感器对因传感器相对于用户的总移动而产生的假阳性敏感。当用户行走、咀嚼或者物理地位于诸如汽车或火车的振动空间中时，可能生成这些非语音移动(以下泛指“刮擦声”)。以下算法限制了因这些移动而产生的假阳性的出现。

图3是在时间(上部)和频率(0－4kHz，下部)中的示范性的SSM信号302。图4是用于存在语音的SSM信号的示范性的标准化自相关函数。图5是用于存在刮擦声的SSM信号的示范性的标准化自相关函数。

基于能量的算法已经被用于SSMVAD(参见以下章节“使用声学和非声学传感器两者来检测浊语音和清语音”)。它在大多数的噪音环境中工作得很好，但是可能具有性能问题，并且导致假阳性的非语音刮擦声。这些假阳性降低了噪音抑制的效率，并且寻求一种方法来使它们最小化。结果是，因为刮擦声往往比语音生成更多的SSM信号能量，所以实施例的SSMVAD使用基于非能量的方法。

以两个步骤来计算实施例的SSMVAD决定。第一个是现有的基于能量的决定技术。当基于能量的技术判定存在有语音时，应用第二步骤，以试图降低假阳性。

在检查用于减少假阳性的算法之前，以下描述呈现在用户面颊上操作的SSM和类似振动传感器信号的属性的评述。SSM和类似振动传感器信号的一个属性是，用于浊语音的传感器信号是可检测的，但可能是非常弱的；清语音典型地太弱而不能被检测到。示范性的SSM和类似振动传感器信号的另一个属性是，它们被有效地低通滤波，并且可以在600－700Hz以下具有各种能量(例如，一些能量到大量的能量)。SSM和类似振动传感器信号的另外的属性是，它们在人与人之间以及音素与音素之间显著地变化。SSM和类似振动传感器信号的又一个属性是，传感器信号的强度和声学记录的语音信号之间的关系通常是相反的——高能量振动传感器信号对应于用户嘴内的大量能量(诸如“ee”)和少量辐射声能。同样地，低能量振动传感器信号与高能量声输出相关。

在实施例中使用两个主类的算法，以将语音信号和“刮擦声”信号区分开：SSM信号的基音检测以及SSM信号与传声器信号的互相关。因为由SSM检测的浊语音总是存在有基音以及和声，所以使用基音检测，并且使用互相关来确保语音正由用户制造。当在具有类似频谱属性的环境中可能有其他语音源时，单独的互相关是不足的。

通过计算标准化自相关函数、找到它的峰值以及将它与阈值比较，可以简单有效地实施基音检测。

对于窗口大小N，实施例中使用的自相关序列是：

R_{k} = Σ_{i = 0}^{N - 1 - k} S_{i} S_{i + k} e^{- i / t}

其中i是窗口中的采样，S是SSM信号，以及e^－i/t(指数衰减系数)被应用于提供语音帧的检测的快速开始和平滑效果。同样，k是延滞，并且对于与400Hz到67Hz的音质频率范围相对应的20到120个采样的范围，计算k。在计算自相关函数过程中使用的窗口大小是固定大小的2×120＝240个采样。这是为了确保在计算中有至少两个完整的波的周期。

在实际的应用中，为了降低MIPS，SSM信号首先从8kHz到2kHz以4的系数被降低采样。这是可接受的，因为SSM信号在1kHz以上具有少量有用的语音能量。这意味着k的范围可以被减少到5至30个采样，并且窗口大小是2×30＝60个采样。这仍然覆盖从67到400Hz的范围。

图6显示根据一些实施例的用于自相关算法的实例的流程图600。历史缓冲器606中的数据被应用有指数增益608和延迟611，然后(例如，以四)被降低采样604的SSM信号的新帧602被存储在其中610。在当前帧期间，R(0)614被计算一次。R(k)616可以被计算用于延滞的范围。然后最大值R(k)620与T618×R(0)进行比较，并且如果它大于T×R(0)，那么当前帧被表明为含有语音。

传感器信号与传声器信号的互相关也是非常有用的，因为传声器信号不会含有刮擦声信号。但是，详细的检查显示了利用这个方法有多个挑战。

根据一些实例，传声器信号和SSM信号不必是同步的，因而可以进行信号的时间对准。O₁或者O₂对不存在于SSM信号中的噪声敏感，因而在低SNR环境下，即使当语音存在时，信号也可以具有低的相关值。同样，环境噪音可能含有与SSM信号相关的语音成分。但是，已经显示自相关对减少假阳性有用。

图7显示根据一些实施例的示范性的互相关算法的流程图700。O₁信号702和O₂信号704首先经过噪音抑制器706(NS，它可以是单信道或者双信道噪音抑制)，然后被低通滤波(LPF)708，以使语音信号看上去类似于SSM信号710。LPF708可以在幅度和相位响应两者上建立SSM信号710的静态响应的模型。然后，当语音存在时，语音信号可以通过建立SSM信号的动态响应模型的自适应滤波器(H)712被过滤。路径715上的误差残余驱动滤波器的自适应，并且当AVAD检测语音时，可以进行自适应。当语音支配SSM信号时，残余能量716可以是小的。当刮擦声支配SSM信号时，残余能量716可以是大的。

图8显示根据一些实施例的抗刮擦声的VVAD对噪音抑制性能的示范性的影响。即，图8描绘了因SSMVAD中的改进而产生的改进的降噪性能的实例。上图802显示噪音抑制系统因为原始VVAD的假阳性而具有降噪良好的麻烦，因为它正触发在因咀嚼口香糖而产生的刮擦声上。下图852显示实施有改进的抗刮擦声的VVAD的相同的噪音抑制系统。至少在一些实例中，降噪性能可以被增强，因为VVAD不需要触发在刮擦声上，从而允许降噪系统适应并去除噪音。

图9显示根据一些实施例的抗刮擦声的WAD的示范性的实施。图9显示根据一些实施例的在语音(检测到的)、因移动SSM跨越面部而产生的刮擦噪音(除了单帧之外被忽略的)、以及因行走而产生的刮擦噪音(忽略的)期间的VVAD(黑色实线)、自适应阈值(黑色虚线)和SSM能量(灰色虚线)。图中的黑色实线902是VVAD的输出的指标，黑色虚线904是自适应能量阈值，以及灰色虚线906是SSM信号的能量。在这个实施例中，为了使用能量而被分类为语音，SSM的能量可以大于自适应能量阈值。即使大部分刮擦声能量在自适应能量阈值以上是良好的，也要注意系统如何正确地识别语音片段，但几乎排除刮擦噪音片段的单个窗口。在此处描述的VAD算法没有改进的情况下，许多高能量刮擦声SSM信号可能已经生成了假阳性指示，降低了系统去除环境噪声的能力。因此，在没有显著地影响系统识别语音的能力的情况下，这个算法可以显著地减少或者排除与非语音振动传感器信号相关联的假阳性的数量。

在一些实例中，组合的VAD算法可以影响和/或有助于VAD选择处理。例如，AVAD和VVAD两者都不能够被信赖(例如，AVAD或者VVAD可以被强调或者不强调结构和/或功能)，所以必须小心选择最可能正确的组合。

实施例的AVAD和VVAD的组合是“OR(或)”组合——如果VVAD或者AVAD指示用户正在制造语音，那么VAD状态被设定为TRUE(真)。虽然有效地减少了假阴性，但是这增加了假阳性。尤其是在高噪音和反射环境中，这尤其对AVAD来说是成立的，AVAD对假阳性误差更敏感。

为了减少假阳性误差，试图判定SSM与皮肤接触得有多好是有用的。在一些实例中，如果有好的接触并且SSM是可靠的，那么可以使用VVAD。在其他实例中，如果没有好的接触，那么以上的“OR”组合可以是有利的。

在没有专用(硬件)接触传感器的情况下，没有简单的方法来实时地知道SSM接触是否是好的。以下方法使用AVAD的保守版本，并且每当保守的AVAD(CAVAD)检测语音时，它将它的VAD与SSMVAD输出进行比较。如果SSMVAD在CAVAD触发时还不断地检测语音，那么判定SSM接触是好的。保守的意味着AVAD不可能因为噪音而错误地触发(假阳性)，但是对于语音可能非常倾向于假阴性。AVAD通过将V1/V2比率与阈值进行比较来工作，并且每当V1/V2大于阈值(例如，近似3－6dB)时，AVAD被设定为TRUE。CAVAD具有相对较高的(例如，9+dB)阈值。在这个层次，极不可能返回假阳性，但敏感得足以在语音上触发显著的时间百分比。因为由DOMA技术给予的V1/V2比率的非常大的动态范围，所以实际上将这个向上设定是可能的。

但是，如果AVAD由于某种原因而不适当地起作用，则这个技术可能失败，并且使算法(和头戴式耳机)变得无用。所以，保守的AVAD还与VVAD进行比较，以看看AVAD是否正在工作。图10是根据一些实施例的VAD组合算法的实例的流程图。在图10中显示了这个算法的细节，其中SSM_contact_state是最终输出。它采用三个值中的一个值：GOOD(好)、POOR(差)或者INDETERMINATE(不确定)。如果是GOOD，则忽略AVAD输出。如果是POOR或者INDETERMINATE，则如上所述的在与VVAD的“OR”组合中被使用。

此处已经描述了对于使用双重全向传声器和振动传感器的头戴式耳机的VAD系统的几个改进。通过使用传感器信号的自相关以及传感器信号和一个或两个传声器信号之间的互相关两者，已经减少了由因头戴式耳机和面部之间的相对非语音移动而产生的大能量伪传感器信号所造成的假阳性。通过测试每个相对于另一个的性能以及依据哪个是更可靠的传感器来调整组合，已经减少了由基于声学传声器的VAD和传感器VAD的“OR”组合所造成的假阳性。

此处描述了提供改进的噪音抑制的双重全向传声器阵列(DOMA)。与设法通过使噪音源归零来减少噪音的常规的阵列和算法相比，实施例的阵列被用于形成两个有差别的虚拟定向传声器，这两个有差别的虚拟定向传声器被配置成具有非常相似的噪音响应以及非常不相似的语音响应。由DOMA形成的仅有的零位是用于从V2去除用户语音的那个。实施例的两个虚拟传声器可以与自适应滤波器算法和/或VAD算法配对，以便显著地减少噪音而不使语音失真，显著地改进了期望语音的SNR，超过常规的噪音抑制系统。此处描述的实施例在操作上是稳定的，相对于虚拟传声器模式选择是灵活的，并且已经被证实相对于语音源对阵列距离和方位以及温度和校准技术是稳固的。

在以下描述中，介绍许多具体细节以提供对DOMA的实施例的彻底了解，以及能够实现对于DOMA的实施例的描述。然而，相关领域中的一个技术人员将认识到，在没有一个以上的具体细节或者利用其它部件、系统等等的情况下，可以实践这些实施例。在其他情况中，众所周知的结构或者操作没有被显示，或者没有被详细地描述，以避免模糊揭示的实施例的方面。

术语“渗透(bleedthrough)”意指在语音期间不期望存在的噪音。

术语“降噪”意指从Mic1中去除不需要的噪音，并且还指以分贝(dB)为单位的信号中的噪音能量的减少量。

术语“清音化”意指从Mic1中去除期望的语音/使期望的语音失真。

术语“定向传声器(DM)”意指在传感膜片两侧上开孔的物理定向传声器。

术语“Mic1(M1)”意指通常含有语音比噪音多的自适应噪音抑制系统传声器的统称。

术语“Mic2(M2)”意指通常含有噪音比语音多的自适应语音抑制系统传声器的统称。

术语“噪音”意指不需要的环境噪声。

术语“零位”意指在物理或者虚拟定向传声器的空间响应中的零或者最小值。

术语“O₁”意指用于形成传声器阵列的第一物理全向传声器。

术语“O₂”意指用于形成传声器阵列的第二物理全向传声器。

术语“语音”意指用户的期望的语音。

术语“皮肤表面传声器(SSM)”是在耳机(例如，能够从加利福尼亚州旧金山的艾利佛得到的Jawbone耳机)中使用以检测用户皮肤上的语音振动的传声器。

术语“V₁”意指没有零位的虚拟定向“语音”传声器。

术语“V₂”意指对于用户语音具有零位的虚拟定向“噪音”传声器。

术语“语音活动检测(VAD)信号”意指指示用户语音在什么时候被检测的信号。

术语“虚拟传声器(VM)”或者“虚拟定向传声器”意指使用两个以上的全向传声器以及关联的信号处理来构造的传声器。

图11是根据一些实施例的双传声器自适应噪音抑制系统1100的实例。包括物理传声器(“MIC1”)1102和(“MIC2”)1103的组合以及传声器耦接的处理或电路部件(以下具体描述，但在这个图中没有显示)的双传声器系统1100在此被参考作为双重全向传声器阵列(DOMA)1110，但是实施例不局限于此。参考图11，在分析单个噪音源1101b和到传声器的直接路径的过程中，进入MIC1(1102，可以是物理传声器或者虚拟传声器)的全部声学信息由m.sub.1(n)表明。进入MIC2(1103，也可以是物理传声器或者虚拟传声器)的全部声学信息同样地被标记m₂(n)。在z(数字频率)域中，这些被表示为M₁(z)和M₂(z)。然后，

M₁(z)＝S(z)+N₂(z)

M₂(z)＝N(z)+S₂(z)

以及

N₂(z)＝N(z)H₁(z)

S₂(z)＝S(z)H₂(z)，

因此

M₁(z)＝S(z)+N(z)H₁(z)

M₂(z)＝N(z)+S(z)H₂(z)。等式1

这对于所有的双传声器系统而言是普通情况。等式1具有四个未知数和两个已知的关系，因此不能被明确地求解。

但是，有另一种方式来求出等式1中的一些未知数。分析从没有语音正被生成的情况的检查开始，没有语音正被生成的情况即来自VAD子系统1104(任选的)的信号等于零的情况。在这种情况下，s(n)＝S(z)＝0，并且等式1减少成

M_1N(z)＝N(z)H₁(z)

M_2N(z)＝N(z)，

其中M变量上的N下标指示噪音正在被接收。这导致

M_1N(z)＝M_2N(z)H₁(z)

H_{1} (z) = \frac{M_{1 N} (z)}{M_{2 N} (z)} .

等式2

可以使用任何可用的系统识别算法来计算函数H₁(z)1122，并且当系统确信正在接收噪音时，传声器进行输出。该计算可以被自适应地完成，因此系统可以对噪音变化作出反应。

对于等式1中的一个未知数H₁(z)，解法是现有的。可以通过使用正在制造语音并且VAD等于一的情况来确定最后的未知数H₂(z)1120。当这个正在出现，但是传声器的最近(或许小于1秒)历史指示低的噪声级时，可以假定n(s)＝N(z)～0。然后，等式1减少成

M_1S(z)＝S(z)

M_2S(z)＝S(z)H₂(z)，

这随后导致

M_2S(z)＝M_1S(z)H₂(z)

H_{2} (z) = \frac{M_{2 S} (z)}{M_{1 S} (z)},

这是H₁(z)1122计算的倒数。但是，注意，不同的输入正在被使用(现在语音正在出现，而之前噪音正在出现)。在计算H₂(z)1120的同时，为H₁(z)计算的值被保持不变(反之亦然)，并且假定噪音级没有足够高到造成H₂(z)计算中的误差。

在计算H₁(z)1122和H₂(z)1120之后，它们被用于从信号中去除噪音。如果等式1被重写为

S(z)＝M₁(z)－N(z)H₁(z)

N(z)＝M₂(z)－S(z)H₂(z)

S(z)＝M₁(z)－[M₂(z)－S(z)H₂(z)]H₁(z)

S(z)[l－H₂(z)H₁(z)]＝M₁(z)－M₂(z)H₁(z)，

那么N(z)可以如所示的被代入以求出S(z)为

S (z) = \frac{M_{1} (z) - M_{2} (z) H_{1} (z)}{1 - H_{1} (z) H_{2} (z)} .

等式3

如果可以以足够的精确度来描述传递函数H₁(z)1122和H₂(z)1120，那么可以完全去除噪音，并且恢复原始信号。不管噪音的振幅或光谱特性，这仍然是成立的。如果有来自语音源的极少的泄漏或无泄漏到M₂中，那么H₂(z)≈0并且等式3减少成

S(z)≈M₁(z)－M₂(z)H₁(z)。等式4

假定H₁(z)是稳定的，等式4更容易实施并且非常稳定。但是，如果显著的语音能量处于M₂(z)，则清音化可能出现。为了构造良好执行的系统并且使用等式4，对以下条件给予考虑：

R1.在喧闹条件下的理想的(或者至少非常好的)VAD的可用性

R2.足够精确的H₁(z)

R3.非常小的(理论上是零的)H₂(z)。

R4.在语音制造期间，H₁(z)基本上不能改变。

R5.在噪音期间，H₂(z)基本上不能改变。

如果期望的语音对于不需要的噪音的SNR足够高，则条件R1容易满足。“足够”意指取决于VAD生成的方法的不同事物。如果使用如Burnett(伯内特)7,256,048中的VAD振动传感器，则处于非常低的SNR(－10dB以下)的精确的VAD是可能的。使用来自O₁和O₂的信息的声学相关的方法也可以返回精确的VAD，但是为了充足的性能而被限制在－3dB以上的SNR。

条件R5通常易于满足，因为对于大多数应用，传声器不会经常或者快速地相对于用户嘴来改变位置。在可能发生的那些应用(诸如，免提会议系统)中，它可以通过配置Mic21103来被满足，因此H₂(z)≈0。

满足条件R2、R3和R4是更加困难的，但是可以给予V₁和V₂的正确组合。已经证明对满足以上条件、导致实施例中的极好的噪音抑制性能和最小的语音去除和失真有效的方法在下面被检查。

各种实施例中，DOMA可以与导航器系统(Pathfindersystem)一起使用作为自适应滤波器系统或噪音去除。在此处参考的其他专利和专利申请中具体描述了能够从加利福尼亚州旧金山的艾利佛公司得到的导航器系统。替代地，在一个以上的各种替换实施例或者配置中，任何自适应滤波器或者噪音去除算法可以与DOMA一起使用。

当DOMA与导航器系统一起使用时，导航器系统通常通过在时域中进行过滤以及求和，组合两个传声器信号(例如，Mic1、Mic2)，来提供自适应噪音消除。自适应滤波器通常使用从DOMA的第一传声器接收到的信号，以去除来自从DOMA的至少一个其他传声器接收到的语音的噪音，这依赖噪音源的两个传声器之间的缓慢变化的线性传递函数。如以下具体描述的，接着DOMA的两个信道的处理，生成其中噪音内容相对于语音内容被衰减的输出信号。

图12是根据一些实施例的包括全向传声器(“O₂”)1202和全向传声器(“O₁”)1201的阵列、以及语音源S配置1200的示范性的双传声器阵列(DOMA)。传声器被分开近似等于2d₀的距离，并且语音源以角度θ被定位在距离阵列的中点的距离d_s。因为系统可以是轴向对称的，所以d_s和θ可以被指定。

图13是根据一些实施例的用于使用两个全向元件(“O₁”)1201和O₂1202来生成、制造或者仿真示范性的一阶压差传声器V的系统1300。实施例的阵列包括分开距离2d₀放置的两个物理传声器1201和1202(例如，全向传声器)，以及以θ角度1212被定位在距离参考点1210的距离d_s的语音源1200。因为这个阵列是轴向对称的(至少在自由空间中)，所以不需要其他角度。如图13中演示的，来自每个传声器1201和1202的输出可以通过延迟(“z₁”)1304和延迟(“z₂”)1306被延迟，乘以增益(“A₁”)1308和再次(“A₂”)1310，然后与另一个求和。如以下具体描述的，阵列的输出是至少一个虚拟传声器或者形成至少一个虚拟传声器。这个操作可以遍及期望的任何频率范围。至少在一些实施例中，通过改变延迟和增益的幅度和符号，可以实现在此还被称为虚拟定向传声器的多种虚拟传声器(VM)。对于本领域中的那些技术人员而言，已知有用于构造VM的其他方法，但是这是通用的一个并且将在以下实现中被使用。

举例来说，图14是根据一些实施例的用于系统1400(例如，DOMA系统)的方框图，系统1400包含配置为形成两个虚拟传声器V₁1410和V₂1412的两个物理传声器的实例。根据一些实施例，DOMA1400包括使用两个传声器或者元件O₁和O₂(1201和1202)的输出而形成的两个一阶压差传声器V₁和V₂。如以上参考图12和13描述的，实施例的DOMA1400包括可以是全向传声器的两个物理传声器(“O₁”)1201和(“O₂”)1202。来自每个传声器的输出被耦接到处理部件1402或者电路，并且该处理部件输出表示或者对应于虚拟传声器V₁和V₂的信号。

在这个实例的系统1400中，物理传声器1201的输出被耦接到处理部件1402，处理部件1402包含第一处理路径和第二处理路径，第一处理路径包含第一延迟(“z₁₁”)1304a和第一增益(“A₁₁”)1308a的应用，第二处理路径包含第二延迟(“z₁₂”)1304b和第二增益(“A₁₂”)1306b的应用。物理传声器1202的输出被耦接到处理部件1402的第三处理路径和第四处理路径，第三处理路径包含第三延迟(“z₂₁”)1306a和第三增益(“A₂₁”)1310a的应用，第四处理路径包含第四延迟(“z₂₂”)1306b和第四增益(“A₂₂”)1316b的应用。第一和第三处理路径的输出被求和以形成虚拟传声器(“V₁”)1410，以及第二和第四处理路径的输出被求和以形成虚拟传声器(“V₂”)1412。

如以下具体描述的，改变处理路径的延迟和增益的幅度和符号，导致可以实现在此还被称为虚拟定向传声器的多种虚拟传声器(VM)。虽然在这个实例中描述的处理部件1402包含生成两个虚拟传声器或者传声器信号的四个处理路径，但是该实施例不局限于此。

例如，图15是根据一些实施例的用于DOMA1500的实例的方框图，DOMA1500包含配置为形成虚拟传声器V₁到V_N的两个物理传声器1201和1202，其中N是大于一的任何数。因此，DOMA可以包含处理部件1502，该处理部件1502适当地具有任何数量的处理路径，以形成N个虚拟传声器。

实施例的DOMA可以被耦接或者连接到一个以上的远程装置。在系统配置中，DOMA将信号输出到远程装置。远程装置包含但不局限于，移动电话、卫星电话、携带式电话、有线电话、因特网电话、无线收发机、无线通信收音机、个人数字助理(PDA)、个人计算机(PC)、头戴式耳机装置、头戴装置和耳机中的至少一个。

此外，实施例的DOMA可以是与主机装置集成的部件或者子系统。在这个系统配置中，DOMA将信号输出到主机装置的部件或者子系统。主机装置包含但不局限于，移动电话、卫星电话、携带式电话、有线电话、因特网电话、无线收发机、无线通信收音机、个人数字助理(PDA)、个人计算机(PC)、头戴式耳机装置、头戴装置和耳机中的至少一个。

举例来说，图16是根据一些实施例的包含如此处描述的DOMA的头戴式耳机或者头戴装置1600的实例。实施例的头戴式耳机1600包括外壳，该外壳具有容纳和保持两个传声器(例如，O₁和O₂)的两个区域或者容器(未显示)。头戴式耳机1600通常是说话者1602能够佩带的装置，例如将传声器安置或者保持在说话者的嘴附近的头戴式耳机或者听筒。实施例的头戴式耳机1600将第一物理传声器(例如，物理传声器O₁)放置在说话者的嘴唇附近。第二物理传声器(例如，物理传声器O₂)被放置在第一物理传声器之后的一距离处。在一些实例中，该距离可以处于第一物理传声器之后的几厘米的范围内或者如此处描述的(例如，参考图11－15描述的)。DOMA是对称的，并且以与单个近距离说话的传声器相同的配置或者方式被使用，但是不局限于此。

图17是根据一些实施例的用于使用DOMA使声学信号降噪1700的实例的流程图。降噪1700从在第一物理传声器和第二物理传声器处接收声学信号1702开始。响应于该声信号，从第一物理传声器输出第一传声器信号，以及从第二物理传声器输出第二传声器信号1704。通过生成第一传声器信号和第二传声器信号的第一组合来形成第一虚拟传声器1706。通过生成第一传声器信号和第二传声器信号的第二组合来形成第二虚拟传声器1708，并且第二组合不同于第一组合。第一虚拟传声器和第二虚拟传声器是对噪音具有基本上相似的响应以及对语音具有基本上不相似的响应的有差别的虚拟定向传声器。通过组合来自第一虚拟传声器和第二虚拟传声器的信号，降噪1700生成输出信号1710，并且该输出信号包含比声学信号少的噪声。

图18是根据一些实施例的用于形成示范性的DOMA1800的流程图。DOMA的形成1800包括形成物理传声器阵列1802，物理传声器阵列包括第一物理传声器和第二物理传声器。第一物理传声器输出第一传声器信号，以及第二物理传声器输出第二传声器信号。形成包括第一虚拟传声器和第二虚拟传声器的虚拟传声器阵列1804。第一虚拟传声器包括第一传声器信号和第二传声器信号的第一组合。第二虚拟传声器包括第一传声器信号和第二传声器信号的第二组合，并且第二组合不同于第一组合。虚拟传声器阵列包含单个零位，该单个零位被定向在朝向人类说话者的语音源的方向上。

用于实施例的自适应噪音抑制系统的VM的构造在V₁和V₂中包含基本上相似的噪音响应。此处使用的基本上相似的噪音响应意指H₁(z)易于建立模型，并且在语音期间不会改变很多，满足上面描述的条件R2和R4并且允许强降噪以及最小化的渗透。

用于实施例的自适应噪音抑制系统的VM的构造包括对于V₂相对小的语音响应。对于V₂相对小的语音响应意指H₂(z)≈0，这将满足上面描述的条件R3和R5。

用于实施例的自适应噪音抑制系统的VM的构造进一步包含对于V₁的足够的语音响应，因此干净的语音将具有比由O₁采集的原始语音显著高的SNR。

接下来的描述假定已经使全向传声器O₁和O₂对于同一声源的响应标准化，因此它们对那个源具有完全相同的响应(振幅和相位)。这可以使用精通本领域的技术人员众所周知的标准传声器阵列方法(诸如基于频率的校准)来实现。

参考用于实施例的自适应噪音抑制系统的VM的构造包含对于V₂相对小的语音响应的情况，可见，对于离散系统，V₂(z)可以被表示为：

V₂(z)＝O₂(z)-z^-γβO₁(z)

其中

B = \frac{d_{1}}{d_{2}}

γ = \frac{d_{2} - d_{1}}{c} \cdot f_{s}

(采样)

d_{1} = \sqrt{d_{S}^{2} - 2 d_{S} d_{0} c o s (θ) + d_{0}^{2}}

d_{2} = \sqrt{d_{S}^{2} + 2 d_{S} d_{0} c o s (θ) + d_{0}^{2}}

距离d₁和d₂分别是从O₁和O₂到语音源的距离(参见图12)，以及γ是它们的差除以音速c并乘以采样频率f_s。因此，γ是在采样中，但不必是整数。对于非整数γ，可以使用分数延迟滤波器(精通本领域的技术人员众所周知的)。

注意，上面的β不是用于表明自适应波束形成中的VM的混合的传统的β；它是取决于内部传声器距离d₀(固定的)以及可以改变的距离d_s和角度θ的系统的物理变量。如以下所示，对于适当校准的传声器，系统不必利用准确的阵列的β被编程。实际的β中的近似10－15％的误差(即，由算法使用的β不是物理阵列的β)已经被使用，具有极少的质量下降。β的算法值可以被计算并且为特定用户而设定，或者当几乎没有噪音存在时，可以在语音制造期间被自适应地计算。但是，在使用期间的自适应对于标称性能是不需要的。

图19是根据一些实施例的虚拟传声器V₂对于在第一距离处的语音源的示范性的线性响应的曲线图。在显示的实例中，图19是根据一些实施例的具有β＝0.8的虚拟传声器V₂对于在0.1m距离处的1kHz语音源的线性响应1900的曲线图。虚拟传声器V₂对于语音的线性响应中的零位位于0度，其中典型地期望语音被定位。因而，零位在0度处，其中语音被正常定位。

图20是根据一些实施例的虚拟传声器V₂对于在第二距离处的噪音源的示范性的线性响应的曲线图。在显示的实例中，图20描绘根据一些实施例的具有β＝0.8的虚拟传声器V₂对于在1.0m距离处的1kHz噪音源的线性响应2000的曲线图。V₂对于噪音的线性响应可以缺乏零位或者可以不包含零位。例如，大量的或者所有的噪音源可以被检测。因而，可以没有零位，并且大多数的或者所有的噪音源可以被检测。

以上用于V₂(z)的公式在语音位置具有零位，因此将显现对于语音的最小响应。对于具有d₀＝10.7mm的阵列以及在阵列的轴(θ＝0)上10cm(β＝0.8)处的语音源，这在图19中被显示。注意，如具有近似1米距离的噪音源的图20所示，对于相同的传声器，零度处的语音零位对于远场中的噪音是不存在的。这确保将检测到用户前面的噪音，因此它可以被去除。这不同于传统的系统，传统的系统可能难以去除在用户的嘴的方向上的噪音。

可以使用V₁(z)的通式来用公式表示V₁(z)：

V_{1} (z) = α_{A} O_{1} (z) \cdot z^{- d_{A}} - α_{B} O_{2} (z) \cdot z^{- d_{B}}

因为

V₂(z)＝O₂(z)-z^-γβO₁(z)

以及，因为对于前向中的噪音

O_2N(z)＝O_1N(z)·z^-γ

然后

V_2N(z)＝O_1N(z)·z^-γ-z^-γβO_1N(z)

V_2N(z)＝(1-β)(O_1N(z)·z^-γ)

然后如果这被设定成等于上面的V₁(z)，则结果是

V_{1 N} (z) = α_{A} O_{1 N} (z) \cdot z^{- d_{A}} - α_{B} O_{1 N} (z) \cdot z^{- γ} \cdot z^{- d_{B}} = (1 - β) (O_{1 N} (z) \cdot z^{- γ})

因此，以下可以设定

d_A＝γ

d_B＝0

α_A＝1

α_B＝β

以得到

V₁(z)＝O₁(z)·z^-γ-βO₂(z)

以上对V₁和V₂的定义意味着对于噪音H₁(z)是：

H_{1} (z) = \frac{V_{1} (z)}{V_{2} (z)} = \frac{- {βO}_{2} (z) + O_{1} (z) \cdot z^{- γ}}{O_{2} (z) - z^{- γ} {βO}_{1} (z)}

其中，如果振幅噪音响应是大致相同的，则具有全通滤波器的形式。因此，尤其在幅度响应中，噪音可以被精确地建立模型，满足R2。这个公式保证了噪音响应将尽可能地相似，并且语音响应将与(1－β²)成比例。因为β是从O₁和O₂到语音源的距离的比率，所以它受到阵列大小以及从阵列到语音源的距离的影响。

图21是根据一些实施例的虚拟传声器V₁对于在第一距离处的语音源的示范性的线性响应的曲线图。在显示的实例中，图21描绘根据一些实施例的具有β＝0.8的虚拟传声器V₁对于在0.1m的距离处的1kHz语音源的线性响应2100的曲线图。虚拟传声器V₁对于语音的线性响应缺乏或者不包含零位，并且对于语音的响应大于图19中所显示的。在一些实例中，有可以忽略的零位或者没有零位，并且对于语音的响应可以大于图19中所示的。

图22是根据一些实施例的虚拟传声器V₁对于在第二距离处的噪音源的示范性的线性响应的曲线图。在显示的实例中，图22是根据一些实施例的具有β＝0.8的虚拟传声器V₁对于在1.0m的距离处的1kHz噪音源的线性响应2200的曲线图。虚拟传声器V₁对于噪音的线性响应缺乏或者不包含零位，并且该响应非常相似于图20中显示的V₂。图22是根据一些实施例的虚拟传声器V₁对于在1.0m距离处的1kHz噪音源的示范性的线性响应的曲线图。没有零位，并且该响应与图20中所示的V₂非常相似。

图23是根据一些实施例的虚拟传声器V₁对于在一距离处的用于示范性的频率的语音源的线性响应的曲线图。在显示的实例中，图23是根据一些实施例的具有β＝0.8的虚拟传声器V₁对于在0.1m的距离处的用于100、500、1000、2000、3000和4000Hz频率的语音源的线性响应2300的曲线图。

图24是显示用于实施例的阵列的对于语音的频率响应2402和用于示范性的心形传声器的频率响应2404的对比的曲线图。

V₁对于语音的响应被显示在图21中，以及对于噪音的响应被显示在图22中。注意，与V₂相比的语音响应的差异被显示在图19中，以及噪音响应的相似性被显示在图20中。同样注意，图21中显示的对于V₁的语音响应的方位完全与传统的系统的方位相反，在传统的系统中，通常将响应的主瓣定向为朝向语音源。实施例中将V₁的语音响应的主瓣定向为远离语音源的方位意指，V₁的语音敏感性比正常的定向传声器低，但是对于在阵列的轴的近似+－30度内的所有频率是平坦的，如图23所示。对于语音的平坦性意指，例如，可以不需要整形的后置滤波器来修复全向频率响应。这得到了代价——如图24所示，图24显示了具有β＝0.8的V₁的语音响应和心形传声器的语音响应。对于近似16000Hz的采样频率，在近似500和7500Hz之间，V₁的语音响应是近似0到～13dB，小于正常的定向传声器，以及在近似500Hz以下和7500Hz以上，V₁的语音响应是近似0到10+dB，大于定向传声器。但是，使用这个系统使得进行较好的噪音抑制是可能的，而不只是对初始较差的SNR的补偿。

应当注意，图19-22假定语音位于近似0度以及近似10cm，β＝0.8，以及在所有角度的噪音距离阵列的中点的距离近似1.0米。通常，噪音距离不要求是1m以上，但是降噪对于那些距离是最好的。对于小于近似1m的距离，降噪因为V₁和V₂的噪音响应的较大的不相似性而不会是有效的。这在实际使用中没有被证明是阻碍——事实上，它可以被看作特征。在至少一些实施例中，距离听筒～10cm的任何“噪音”源很可能期望被采集和发送。

V₂的语音零位意指VAD信号不再是关键部件。VAD的目的是确保系统不会对准语音，然后接着去除它，导致语音失真。但是，如果V₂不含有语音，则自适应系统不能对准语音并且不能去除它。结果，系统可以一直进行降噪而不必担忧清音化，然后结果的干净音频可以被用于产生在后续的诸如频谱相减的单信道噪音抑制算法中使用的VAD信号。另外，即使检测到语音，对于H₁(z)的绝对值上的约束(即，将它限制成小于二的绝对值)也可以阻止系统完全地对准语音。然而，实际上，语音可能因为错误定位的V₂零位和/或回声或者其他现象而存在，并且推荐VAD传感器或者其他与声学有关的VAD，以使语音失真最小化。

取决于应用，β和γ可以在噪音抑制算法中被固定，或者当该算法指示语音制造在几乎没有噪音的情况下正在发生时，可以估计它们。在任一情况中，在系统的实际β和γ的估计中可能有误差。以下描述检查这些误差以及它们对系统的性能的影响。如上，系统的“好的性能”指示有足够的降噪以及最小的清音化。

通过检查以上定义，可以看到不正确的β和γ对V₁和V₂的响应的影响：

V_{1} (z) = O_{1} (z) \cdot z^{- γ_{T}} - β_{T} O_{2} (z)

V_{2} (z) = O_{2} (z) \cdot z^{- γ_{T}} - β_{T} O_{1} (z)

其中β_T和γ_T表示噪音抑制算法中使用的β和γ的理论估计值。实际上，O₂的语音响应是

O_{2 S} (z) = β_{R} O_{1 S} (z) \cdot z^{- γ_{R}}

其中，β_R和γ_R表明物理系统的真实β和γ。β和γ的理论值和实际值之间的差异可以是起因于语音源的错误位置(例如，语音源可能不在假定的位置)和/或气温的变化(其改变了音速)。将O₂对于语音的实际响应插入到以上用于V₁和V₂的等式，得到

V_{2 S} (z) = O_{1 S} (z) [β_{R} z^{- γ_{R}} - β_{T} z^{{- γ}_{T}}]

如果相位差由以下等式表示

γ_R＝γ_T+γ_D

并且振幅差为

β_R＝Bβ_T

那么

等式5

V₂中的语音消除(直接影响清音化的程度)以及V₁的语音响应将取决于B和D两者。接下来是D＝0的情况的检查。

图25是根据一些实施例的对于V₁和V₂的示范性的语音响应对比具有d_s的B的曲线图。在这个实例中，图25是显示根据一些实施例，d_s被假定为0.1m，对于V₁(上部，虚线)的语音响应2502和对于V₂(下部，实线)的语音响应2504对比B的曲线图。在这个实例中，这个曲线图显示了在V₂中的空间零位是相对宽的。

图26是根据一些实施例的V₁/V₂语音响应的示范性的比率对比B的曲线图。在显示的实例中，图26是显示根据一些实施例的图20中所示的V₁/V₂语音响应的比率2602对比B的曲线图。对所有的0.8<B<1.1，V₁/V₂的比率是在10dB以上，并且这意指系统的物理β不需要为了好的性能而被准确地建立模型。

图27是根据一些实施例的B的示范性的值对比语音源的距离ds的示范性的值的曲线图。在显示的实例中，该曲线图描绘了根据一些实施例的假定d_s＝10cm并且θ＝0的在B和实际d_s之间的关系2700。

图28是根据一些实施例的B的示范性的值对比θ的示范性的值的曲线图。在显示的实例中，该曲线图描绘了根据一些实施例的随着d_s＝10cm在B和θ之间的关系2800。

在图25中，当d_s被认为是近似10cm并且θ＝0时，V₁(上部，虚线)和V₂(下部，实线)与O₁相比的语音响应被显示对比B。当B＝1时，V₂缺少语音。在图26中，显示图20中的语音响应的比率。当0.8<B<1.1时，V₁/V₂比率在近似10dB以上——对于好的性能是足够的。明显地，如果D＝0，则B可能显著地改变而不会不利地影响系统的性能。再次，这假定了传声器的校准，以致例如，振幅和相位响应两者对于同一源是相同的。

由于种种原因，B系数可以是非整数。到语音源的距离或者阵列轴和语音源的相对方位或者两者，可以不同于期望的。如果对于B，包括距离和角度失配两者，那么

B = \frac{β_{R}}{β_{T}} \frac{\sqrt{d_{S R}^{2} - 2 d_{S R} d_{0} c o s (θ_{R}) + d_{0}^{2}}}{\sqrt{d_{S R}^{2} + 2 d_{S R} d_{0} c o s (θ_{R}) + d_{0}^{2}}} \cdot \frac{\sqrt{d_{S T}^{2} + 2 d_{S T} d_{0} c o s (θ_{T}) + d_{0}^{2}}}{\sqrt{d_{S T}^{2} - 2 d_{S T} d_{0} c o s (θ_{T}) + d_{0}^{2}}}

其中，再次，T下标指示理论值以及R指示实际值。在图27中，假定d_s＝10cm以及θ＝0，系数B相对于实际的d_s被绘制。因此，如果语音源在阵列的同轴上，则实际距离可以从近似5cm变化到18cm，而不显著地影响性能——大量地。同样地，图28显示如果语音源位于近似10cm的距离但不在阵列的轴上，则发生什么。在这种情况下，角度可以变化直至近似+－55度，并且仍然导致B小于1.1，保证好的性能。这是大量的容许角偏差。如果有角度和距离误差两者，则上面的等式可以被用于判定偏差是否将导致适当的性能。当然，如果允许β_T的值在语音期间更新，基本上跟踪语音源，那么B可以对于几乎所有的配置被保持成接近整数。

接着是B为整数而D为非零的情况的检查。如果语音源不在它被认为的地方或者如果音速不同于它被认为的，则这可能发生。从以上等式5中，将减少V₂中用于语音的语音零位的系数表达为

N (z) = {Bz}^{- γ_{D}} - 1

或者在连续的s域中为

N(s)＝Be^-Ds-1。

因为γ是语音到达V₁与语音到达V₂相比之间的时间差，所以它可以是在语音源相对于阵列的轴的角度位置估计中的和/或通过温度变化的误差。检查温度敏感性，音速随着温度而变化为

C＝331.3+(0.606T)m/s

其中T是摄氏温度。当温度降低时，音速也降低。设定20℃作为设计温度，以及将最大的期望的温度范围设定为－40℃到+60℃(－40℉到140℉)。在20℃处的设计音速是343m/s，并且在－40℃处的最慢音速将是307m/s以及在60℃处的最快音速362m/s。设定阵列长度(2d₀)为21mm。对于阵列的轴上的语音源，对于音速中最大变化的传播时间差是

或者近似7微秒。在图29中显示了对于给予B＝1以及D＝7.2微秒的N(s)的响应。

图29是根据一些实施例的N(s)的示范性的振幅和示范性的相位响应的曲线图的图表。在显示的实例中，根据一些实施例，具有B＝1并且D＝－7.2微秒，N(s)的振幅2902(上部)和相位2904(下部)响应的曲线图。结果的相位差可以影响比一些低频更多的一些高频。振幅响应对于所有的小于7kHz的频率是小于近似－10dB，并且在8kHz处可以为大约－9dB。因此，假定B＝1，这个系统将可能在直至近似8kHz的频率处进行得很好。这意指适当补偿的系统在格外宽(例如，－40C到80C)的温度范围内即使直至8kHz也将工作得很好。注意，因延迟估计误差而产生的相位失配使得N(s)在高频处比在低频处大很多。如果B不是整数，则因为来自非整数B的影响随着非零D的累加而累加，所以可能降低了系统的稳固性。图30显示了对于B＝1.2并且D＝7.2微秒的振幅3002和相位响应3004。

图30是根据一些实施例的具有非整数B)的N(s)的示范性的振幅和示范性的相位响应的曲线图的图表。在显示的实例中，根据一些实施例，具有B＝1并且D＝－7.2微秒的N(s)的振幅(上部)和相位(下部)响应的曲线图。非整数B影响一些或者整个频率范围。现在，N(s)对于小于近似5kHz的频率是近似－10dB以下，并且在低频处的响应更大。这种系统在5kHz以下将仍然进行得很好，并且对于5kHz以上的频率可以受到稍微升高的清音化。为了终极的性能，温度传感器可以被集成到系统中以允许算法随着温度变化来调整γ_T。

D可能是非零的另一个方式是在语音源不在被认为的地方的时候——具体地，从阵列的轴到语音源的角度是不正确的。到该源的距离也可能是不正确的，但是那个引入了B中的误差，而不是D中的误差。

参考图12，可见，对于两个语音源(各自具有它们自己的d_s和θ)，语音到达O₁和语音到达O₂之间的时间差是

Δ t = \frac{1}{c} (d_{12} - d_{11} - d_{22} + d_{21})

其中

d_{11} = \sqrt{d_{S 1}^{2} - 2 d_{S 1} d_{0} c o s (θ_{1}) + d_{0}^{2}}

d_{12} = \sqrt{d_{S 1}^{2} + 2 d_{S 1} d_{0} c o s (θ_{1}) + d_{0}^{2}}

d_{21} = \sqrt{d_{S 2}^{2} - 2 d_{S 2} d_{0} c o s (θ_{2}) + d_{0}^{2}}

d_{22} = \sqrt{d_{S 2}^{2} + 2 d_{S 2} d_{0} c o s (θ_{2}) + d_{0}^{2}}

对于θ₁＝0度和θ₂＝30度并且假定B＝1的V₂语音消除响应被显示在图31中。

图31是根据一些实施例的对V₂中的语音消除有影响的示范性的振幅和示范性的相位响应的曲线图的图表。在显示实例中，根据一些实施例，对V₂中的语音消除的影响的振幅3102(上部)和相位(下部)响应3104的曲线图可以是因为具有q1＝0度并且q2＝30度的语音源的位置错误。注意，该消除对于6kHz以下的频率可以在－10dB以下。因为该消除对于近似6kHz以下的频率仍然在近似－10dB以下，所以这个类型的误差将不会显著地影响系统的性能。但是，如图32所示，如果θ₂被增加到近似45度，则该消除对于近似2.8kHz以下的频率在近似－10dB以下。

图32是根据一些实施例的对V₂中的语音消除有影响的其他示范性的振幅和示范性的相位响应的曲线图的图表。在显示实例中，根据一些实施例，图32是根据实施例，表示因为具有q1＝0度并且q2＝45度的语音源的位置错误而对V₂中的语音消除有示范性的影响的振幅3202(上部)和相位(下部)响应3204的曲线图。该消除对于大约2.8kHz以下的频率在－10dB以下，并且性能降低是预期的。近似4kHz以上的不合意的语音消除可能导致对于那些频率的显著清音化。

以上描述已经假定，传声器O₁和O₂被校准，因此对于位于离开相同距离的位置上的源，它们对于振幅和相位两者的响应是相同的。这并不总是可行的，所以以下呈现更加实用的校准过程。它并不精确，但是更加易于实现。通过定义滤波器α(z)开始，以致

O_1C(z)＝α(z)O_2C(z)

其中，“C”下标指示已知的校准源的使用。使用的最简单的一个是用户的语音。然后

O_1S(z)＝α(z)O_2C(z)

传声器定义可以被如下表达为：

V₁(z)＝O₁(z)·z^-γ-β(z)α(z)O₂(z)

V₂(z)＝α(z)O₂(z)-z^-γβ(z)O₁(z)

系统的β可以是固定的，并且尽可能地接近于真实值。在实践中，系统不会对β的变化敏感，并且容易容忍近似+－5％的误差。在用户正在制造语音而几乎没有噪音期间，系统可以对准α(z)，以便去除尽可能多的语音。这伴随有：

1.利用“MIC1”位置中的βΟ_1S(z)z^－γ、“MIC2”位置中的Ο_2S(z)以及H₁(z)位置中的α(z)，来构造如图11所示的自适应系统。

2.在语音期间，适应α(z)以使系统的残余最小化。

3.如上构造V₁(z)和V₂(z)。

简单的自适应滤波器可以被用于α(z)，因此传声器之间的关系被很好地建立成模型。实施例的系统瞄准了语音可以在什么时候被用户制造。诸如SSM的传感器可以被用于判定什么时候在无噪音的情况下正在制造语音。如果语音源位置固定并且不会在使用期间(诸如当阵列在耳机上时)显著地变化，则自适应可以是不常见的并且更新缓慢，以使由存于瞄准期间的噪音所引入的任何误差最小化。

以上公式工作得非常好，因为V₁和V₂的噪音(远场)响应是非常相似的，而语音(近场)响应是非常不同的。但是，用于V₁和V₂的公式可以被改变，并且总体上仍然导致系统的好的性能。如果由上获得V₁和V₂的定义并且新变量B1和B2被插入，则结果是：

V_{1} (z) = O_{1} (z) \cdot z^{- γ_{T}} - B_{1} β_{T} O_{2} (z)

V_{2} (z) = O_{2} (z) - z^{- γ_{T}} B_{2} β_{T} O_{1} (z)

其中，B1和B2两个都是正数或者零。如果B1和B2被设定成等于整数，则最优系统结果如上所述。如果允许B1从整数变化，则V₁的响应受影响。接着是B2被保留在1并且B1被减少的情况的检查。当B1减少到近似零时，V₁变得越来越少地定向，直到当B1＝0时，它变成简单的全向传声器。因为B2＝1，语音零位保持在V₂中，所以对于V₁和V₂，非常不同的语音响应保持。但是，噪音响应更加不相似，所以降噪将不会有效。然而，实际上，系统仍然进行得很好。B1也可以从整数被增加，并且再一次，系统将仍然很好地降噪，只不过是没有B1＝1时的好。

如果允许B2变化，则V₂中的语音零位受影响。只要语音零位仍然足够地深，系统将仍然进行得很好。实际上，降至近似B2＝0.6的值已经显示了足够的性能，但是为了最佳性能，建议将B2设定成接近于整数。

同样地，变量ε和Δ可以被引入，因此：

V₁(z)＝(ε-β)O_2N(z)+(1+Δ)O_1N(z)z^-γ

V₂(z)＝(1+Δ)O_2N(z)+(ε-β)O_1N(z)z^-γ

这个公式还允许虚拟传声器响应被变化，但保持H₁(z)的全通特性。总之，系统足够灵活以在各种B1值很好地操作，但是注意，至少在一些实例中，为了增强的性能，B2值可以被选择为接近于整数以限制清音化。

图33显示根据一些实施例的用于在大声的噪音环境中使用模拟器的示范性的阵列的试验结果。在显示的实例中，根据一些实施例，描绘了在非常大声的(～85dBA)音乐/语音噪音环境中，在Bruel和Kjaer头和躯干模拟器(HATS)上使用0.83的线性β的2d₀＝19mm阵列的实验结果。噪音可以被降低大约25dB，并且语音可以是可忽略的或者是不受影响的，具有最小的失真或者没有明显的失真。上面论述的替换的传声器校准技术可以被用于校准传声器。图表3302中的噪音可以被降低大约25dB，并且语音很难受影响，没有如图表3304中描绘的明显的失真。在各种实例中，该技术显著地增加了原始语音的SNR，从而胜过至少一些常规的噪音抑制技术。

DOMA可以是单个系统、多个系统和/或地理上分开的系统的部件。DOMA也可以是单个系统、多个系统和/或地理上分开的系统的子部件或者子系统。DOMA可以被耦接到主机系统的或者耦接到该主机系统的系统的一个以上的其它部件(未显示)。

DOMA的一个以上的部件和/或耦接或连接DOMA的相应的系统或应用程序包括处理系统，和/或在处理系统下运行，和/或与处理系统相关联地运行。如本领域中已知的，处理系统包括基于处理器的装置或者一起操作的计算装置，或者处理系统或装置的部件的任何集合。例如，处理系统可以包括在通信网络和/或网络服务器中操作的一个以上的便携式计算机、便携式通信装置。便携式计算机可以是从个人计算机、蜂窝式移动电话、个人数字助理、便携式计算装置和便携式通信装置中选择的装置的任何数量和/或组合，但不局限于此。处理系统可以包括在大的计算机系统之内的部件。

此处描述了声学语音活动检测(AVAD)方法和系统。包括算法或程序的AVAD方法和系统使用传声器来生成具有非常相似的噪音响应和非常不相似的语音响应的虚拟定向传声器。然后在给定的窗口大小之上计算虚拟传声器的能量比率，并且该比率然后可以与各种方法一起使用以生成VAD信号。可以使用固定或者自适应滤波器来构造虚拟传声器。自适应滤波器通常导致更加精确的并且噪音稳固的VAD信号，但是需要对准。另外，可以对滤波器设置限制以确保它对语音而不对环境噪音进行对准。

在以下描述中，介绍许多具体细节，以提供对实施例的彻底了解，以及能够实现对于实施例的描述。然而，相关领域中的一个技术人员将认识到，在没有一个以上的具体细节或者利用其它部件、系统等等的情况下，可以实践这些实施例。在其它例子中，众所周知的结构或操作没有被显示，或者没有被详细地描述，以避免使揭示的实施例的方面不明显。

图34是根据一些实施例的具有语音源S3406的AVAD的双传声器阵列的示范性的配置。实施例的AVAD使用两个物理传声器3402(“O₁”)和3404(“O₂”)，以形成两个虚拟传声器(V₁和V₂)。实施例的虚拟传声器是定向传声器，但是实施例不局限于此。实施例的物理传声器包括全向传声器，但是此处描述的实施例不局限于全向传声器。如此处具体描述的，虚拟传声器(VM)V₂以对用户的语音具有最小响应的方式被配置，同时V₁被配置成它响应于用户的语音，但是对V₂具有非常相似的噪音幅度响应。然后，PSADVAD方法可以被用于判定语音正在什么时候产生。进一步的改进是自适应滤波器的使用，以进一步使V₂的语音响应最小化，从而增加PSAD中使用的语音能量比率，并且导致AVAD的更好的综合性能。

此处描述的PSAD算法计算两个定向传声器M₁和M₂的能量的比率：

R = \underset{i}{Σ} \sqrt{\frac{M_{1} {(z_{i})}^{2}}{M_{2} {(z_{i})}^{2}}}

其中，“z”指示离散频域，以及“i”的范围从感兴趣的窗口开始到结束，但是相同的关系保持在时域中。总和可以出现在任何长度的窗口之上；处于8kHz的采样率的200个采样已经被用于好的影响。传声器M₁被假定为具有比传声器M₂大的语音响应。比率R取决于由传声器检测出的感兴趣的声学信号的相对强度。

对于匹配的全向传声器(即，对于所有的空间方位和频率，它们对声学信号具有相同的响应)，可以通过使语音和噪音波的传播近似为球形对称源，来为语音和噪音计算R的大小。为此，传播波的能量降低为1/r²：

R = \underset{i}{Σ} \sqrt{\frac{M_{1} {(z_{i})}^{2}}{M_{2} {(z_{i})}^{2}}} \frac{d_{2}}{d_{1}} = \frac{d_{1} + d}{d_{1}}

距离d₁是从声源到M₁的距离，d₂是从声源到M₂的距离，以及d＝d₂－d₁(参见图34)。假定传声器(“O₁”)3402更接近于语音源(用户的嘴)，因此d总是正的。如果传声器和用户的嘴全都在一条直线上，那么d＝2d₀，传声器之间的距离。对于匹配的全向传声器，R的幅度取决于传声器和声源之间的相对距离。对于噪音源，该距离典型地是一米以上，并且对于语音源，该距离大约是10cm，但是该距离不局限于此。因此，对于2-cm阵列，R的典型值是：

R_{S} = \frac{d_{2}}{d_{1}} \approx \frac{12 c m}{10 c m} = 1.2

R_{N} = \frac{d_{2}}{d_{1}} \approx \frac{102 c m}{100 c m} = 1.02

其中，“S”下标表示对于语音源的比率，而“N”表示对于噪音源的比率。在这种情况下，噪音和语音源之间没有大量间隔，因此将难以使用简单的全向传声器来实施稳固的解决方案。

一种较好的实施是在第二传声器具有最小的语音响应的地方使用定向传声器。如此处描述的，可以使用全向传声器O₁和O₂来构造这种传声器：

V₁(z)＝-β(z)α(z)O₂(z)+O₁(z)z^-γ

[1]

V₂(z)＝α(z)O₂(z)-β(z)O₁(z)z^-γ

其中，α(z)是用于补偿O₂的响应以使O₂与O₁相同的校准滤波器，β(z)是描述对于语音的O₁和校准的O₂之间的关系的滤波器，以及γ是取决于阵列大小的固定延迟。如上，没有限定α(z)中的一般性的损失，因为任何一个传声器可以被补偿，以便与另一个相匹配。对于这个配置，如果

γ = \frac{d}{c}

那么V₁和V₂具有非常相似的噪音响应幅度以及非常不相似的语音响应幅度。其中再次，d＝2d₀以及c是空气中的音速，c与温度有关，并且近似为

其中T是空气的摄氏度温度。

可以使用波动理论来将滤波器β(z)计算成

β (z) = \frac{d_{1}}{d_{2}} = \frac{d_{1}}{d_{1} + d} - - - [2]

其中再次，d_k是从用户的嘴到O_k的距离。

图35是根据一些实施例的使用固定β(z)滤波器3508的V₂构造的示范性的方框图。如果校准滤波器α(z)3506是精确的并且d₁和d₂对于用户是精确的，那么这个固定的(或静态的)β足够好地工作。滤波器3508的输出被发送到延迟滤波器3510。然而，这个固定β的算法忽略了诸如反射、衍射、差的阵列方位(即，传声器和用户的嘴没有全部在一条线上)的影响，以及对于不同用户的不同d₁和d₂值的可能性。还可以使用自适应滤波器来试验性地确定滤波器β(z)。

图36是根据一些实施例的使用自适应β(z)3608的V₂构造的示范性的方框图，其中：

\tilde{β} (z) = \frac{α (z) o_{2} (z)}{z^{- γ} o_{1} (z)} - - - [3]

当语音正在被O₁和O₂接收时，自适应处理改变以使V₂的输出最小化。可以忍受少量的噪音具有少许的不良影响，但是，较佳的是，当计算的系数时，语音正被接收。可以使用任何自适应处理；在以下的实例中使用标准化最小均方(NLMS)算法。

可以使用的当前值来构造V₁，或者为了简单起见，可以使用固定滤波器β(z)。

图37是根据一些实施例的V₁构造的示范性的方框图。比率R可以被如下表达为：

R = \frac{| | V_{1} (z) | |}{| | V_{2} (z) | |} = \sqrt{\frac{{(- \tilde{β} (z) α (z) O_{2} (z) + O_{1} (z) z^{- γ})}^{2}}{{(α (z) O_{2} (z) - \tilde{β} (z) O_{1} (z) z^{- γ})}^{2}}}

其中，双竖条指示模方，并且可以再次使用任何大小的窗口。如果已经精确地计算了则对于语音的比率可以是相对高的(例如，近似大于2)，并且对于噪音的比率可以是相对低的(例如，近似小于1.1)。计算的比率将取决于语音和噪音两者的相对能量以及噪音的方位和环境的混响感。实际上，自适应滤波器或者静态滤波器b(z)可以被用于V₁(z)，对于R具有少许影响——但是注意自适应滤波器为了最佳性能而在V₂(z)中的使用。本领域的技术人员已知的许多技术(例如，平滑等等)可以被用于使得R在生成VAD的过程中更加易于使用，并且此处的实施例不局限于此。

如所显示的，图37包含校准滤波器3706、滤波器3710和延迟3708。可以对于感兴趣的整个频带计算比率R，或者可以在频率次能带中计算比率R。发现的一个有效的次能带是250Hz到1250Hz，另一个是200Hz到3000Hz，但是许多其他的次能带是可能的并且有用的。

一旦生成，比率R对比时间(或者如果使用多个次能带，则R的矩阵对比时间)的矢量可以被用于任何检测系统(诸如使用固定和/或自适应阈值的系统)，以便确定语音正在什么时候出现。虽然本领域的技术人员已知许多检测系统和方法并且这些检测系统和方法可以被使用，但是此处描述的用于生成R以便可容易地辨别语音的方法是新颖的。注意，R并不取决于噪音的类型或者它的方位或者频率成分；R简单地取决于V₁和V₂对于噪音的空间响应的相似度以及对于语音的空间响应的不相似度。如此，它是非常稳固的，并且可以在各种喧闹的声学环境中平滑地操作。

图38是根据一些实施例的声学语音活动检测3800的示范性的流程图。该检测包括通过组合第一物理传声器的第一信号和第二物理传声器的第二信号来形成第一虚拟传声器3802。该检测包括形成滤波器，该滤波器描述第一物理传声器和第二物理传声器之间对于语音的关系3804。该检测包括通过将滤波器应用到第一信号以生成第一中间信号，并且对第一中间信号和第二信号进行求和，来形成第二虚拟传声器3806。该检测包括生成第一虚拟传声器和第二虚拟传声器的能量的能量比3808。该检测包括当能量比大于阈值时，检测说话者的声学语音活动3810。

对于系统的β(z)的自适应的精确度是确定AVAD的有效性中的因素。对于系统的实际的β(z)的更加精确的自适应导致V₂中的较低能量的语音响应和较高的比率R。通过自适应处理，没有大大地改变噪音(远场)幅度响应，所以对于精确自适应的β，比率R将接近整数。为了精确度，系统可以被单独瞄准语音，或者噪音可以在能量上足够低，以便不影响瞄准或者对于瞄准具有最小的影响。

为了使得瞄准尽可能的精确，实施例的滤波器β(z)的系数大体根据以下条件被更新，但是实施例不局限于此：语音正被制造(需要相对高的SNR或其他的检测方法，诸如2004年1月30日提交的美国专利申请序列号10/769,302中描述的艾利佛皮肤表面传声器(SSM)，其全部内容通过引用被结合在此)；没有检测到风(可以使用现有技术中已知的许多不同的方法，诸如检查用于不相关的低频噪音的传声器，来检测风)；以及R的当前值比R值的平滑的历史大得多(这确保了对准在强语音存在时出现)。这些过程是灵活的，并且在没有显著地影响系统的性能的情况下，可以使用其他过程。这些限定可以使得系统相对更加稳固。

即使采用这些预防措施，系统也有可能意外地对准噪音(例如，在没有使用非声学VAD装置的情况下，可能有较高的这种可能性，非声学VAD装置诸如是在由加利福尼亚州旧金山的艾利佛制造的Jawbone头戴式耳机中使用的SSM)。因而，实施例包含进一步的故障保险系统，以防止意外的瞄准显著地破坏系统。自适应的β被限制成语音所期望的某些值。例如，对于耳朵安装的头戴式耳机的对于d₁的值通常将落在9厘米和14厘米之间，所以使用2d₀＝2.0cm的阵列长度以及上述等式2，

| β (z) | = \frac{d_{1}}{d_{2}} \approx \frac{d_{1}}{d_{1} + 2 d_{0}}

这意指

0.82＜|β(z)|＜0.88。

因此，β滤波器的幅度可以被限制成在近似0.82和0.88之间，以排除噪音是否在瞄准期间存在的问题。较松的限制可以被用于补偿不精确的校准(全向传声器的响应通常被彼此校准，以致它们的频率响应对于相同的声源是相同的——如果校准不是完全地精确，则虚拟传声器不可能适当地形成)。

同样地，β滤波器的相位可以被限制成从阵列轴开始的+－30度之内的语音源所期望的。如在此描述的，并且参考图34，

d_{1} = \sqrt{d_{S}^{2} - 2 d_{S} d_{0} c o s (θ) + d_{0}^{2}}

d_{2} = \sqrt{d_{S}^{2} + 2 d_{S} d_{0} c o s (θ) + d_{0}^{2}}

其中d_s是从阵列的中点到语音源的距离。使d_s从10cm变化到15cm，并且允许θ在0和+－30度之间变化，对于d_s＝10cm，γ中的最大差异由0度处的γ(58.8微秒)和+－30度处的γ(50.8微秒)的差异引起。这个意指最大期望的相位差是58.8－50.8＝8.0微秒，或在8kHz采样率的0.064个采样。因为

在4kHz实现的最大相位差可以是0.2rad或大约11.4度，小的量，但是不是可以忽略的量。因此，β滤波器可以几乎是线性相位，但是在位置和角度上容许一些差异。实际上，使用稍微大的量(在8kHz的0.071个采样)，以便补偿差的校准和衍射效应，并且这个工作良好。以下对实例中的相位的限制被实施作为中心抽头能量与其他抽头的组合能量的比率：

其中β是当前估计。这个通过限定非中心抽头的影响来限制相位。限制β滤波器的相位的其他方式为本领域的技术人员所知，并且这里呈现的算法不局限于此。

如以上具体描述的，在此呈现的实施例使用固定β(z)和自适应β(z)两者。在两种情况下，使用在8kHz的200个采样的窗口大小，使用在250Hz和3000Hz之间的频率来计算R。在图39－44中，显示了对于V₁(上部曲线图)、V₂(中间曲线图)、R(下部曲线图，实线，使用在8kHz的200采样矩形窗口来开窗的)和VAD(下部曲线图，虚线)的结果。图39－44分别演示了在噪音(街道和公共汽车噪音，在耳朵处的近似70dBSPL)的条件下、在语音(在嘴的基准点(MRP)处标准化为94dBSPL)的条件下、以及在混合噪音和语音的条件下的固定β滤波器β(z)的使用。Bruel&Kjaer头部和身体模拟器(HATS)被用于测试和安装在HATS的耳部上的全向传声器，全向传声器具有距离MRP近似11cm的阵列的中线。使用的固定的β滤波器是β_F(z)＝0.82，其中“F”下标指示固定的滤波器。使用固定阀值1.5来计算VAD。

图39显示根据一些实施例，当存在噪音时，使用固定β的示范性的算法的实验结果。上部曲线图是V₁3902对比时间，中间曲线图是V₂3904对比时间，以及下部曲线图是R3906(实线)和VAD结果(虚线)对比时间。检查图39，V₁和V₂两者的响应非常相似，并且比率R对于整个采样非常接近整数。VAD响应在R曲线图中具有由峰值表明的偶尔的假阳性(由算法识别的窗口，当它们没有时包含语音)，但是使用标准脉冲去除算法和/或R结果的平滑，容易地去除这些。

图40显示根据一些实施例，当存在语音时，使用固定β的示范性的算法的实验结果。上部曲线图是V₁4002对比时间，中间曲线图是V₂4004对比时间，以及下部曲线图是R4006(实线)和VAD结果(虚线)对比时间。R比率平均在近似2和近似7之间，并且使用固定阀值，可容易地辨别语音。这些结果显示两个虚拟传声器对于语音的响应是非常不同的，并且实际上，比率R在语音期间从2改变到7。在一些实施例中，可以有很少的假阳性和很少的假阴性(即，包含语音但是没有被识别作为语音窗口的窗口)。因此，语音可以被精确地检测。

图41显示根据一些实施例，当存在语音和噪音时，使用固定β的示范性的算法的实验结果。上部曲线图是V₁4102对比时间，中间曲线图是V₂4104对比时间，以及下部曲线图是R4106(实线)和VAD结果(虚线)对比时间。R比率比没有噪音存在时的低，但是VAD保持精确，具有少许假阳性。比没有噪音有更多的假阴性，但是使用标准阈值算法，语音保持可容易地检测。即使在适度大声的噪音环境中(图41)，R比率显著地保持在整数以上，并且VAD再次返回很少的假阳性。观察到更多的假阴性，但是这些可以使用诸如R的平滑的标准方法被减少，并且允许VAD在R低于阀值之后，继续对于少许窗口报告浊音窗口。

在图42－44中显示使用自适应β滤波器的结果。使用的自适应滤波器是使用从100Hz到3500Hz的频带的五抽头(five-tap)NLMSFIR滤波器。z^－0.43的固定滤波器被用于过滤O₁，以致在计算自适应滤波器之前，对于语音排列O₁和O₂。使用0.73的低β限制、0.98的高β限制、和0.98的相位限制比率，使用以上方法抑制自适应滤波器。再次，固定阀值用于生成来自比率R的VAD结果，但是在这种情况下，使用阈值2.5，因为使用自适应β滤波器的R值通常大于使用固定滤波器时的R值。这允许假阳性的减少，而不显著地增加假阴性。

图42显示根据一些实施例，当存在噪音时，使用自适应β的示范性的算法的实验结果。上部曲线图是V₁4202对比时间，中间曲线图是V₂4204对比时间，以及下部曲线图是R4206(实线)和VAD结果(虚线)对比时间，并且y轴扩展到0－50。再次，V₁和V₂在能量中非常接近，并且R比率接近整数。可以生成单个假阳性。

图43显示根据一些实施例，当存在语音时，使用自适应β的示范性的算法的实验结果。上部曲线图是V₁4302对比时间，中间曲线图是V₂4304对比时间，以及下部曲线图是R4306(实线)和VAD结果(虚线)对比时间，扩展到0－50。使用自适应β来大大地减少V₂响应，并且R比率已经平均地从近似2－7的范围增加到近似5－30的范围，使用标准阈值算法使得语音检测更加简单。几乎没有假阳性或假阴性。因此，V₂对于语音的响应是最小的，R非常高，并且在几乎没有假阳性的情况下，所有的语音被容易地检测。

图44显示根据一些实施例，当存在语音和噪音时，使用自适应的β的示范性的算法的实验结果。上部曲线图是V₁4402对比时间，中间曲线图是V₂4404对比时间，以及下部曲线图是R4406(实线)和VAD结果(虚线)对比时间，并且y轴扩展到0－50。R比率再次比没有噪音存在时的低，但是具有显著的噪音的这个R导致VAD信号，并且与使用没有噪音存在的固定β的情况大致相同。这显示了自适应β的使用允许系统在比固定β高的噪音环境中进行得好。因此，利用混合的噪音和语音，再次有比图41的结果更加少的假阳性和更少的假阴性，表明自适应滤波器在相同的噪音环境中可以胜过固定滤波器。实际上，已经证明自适应滤波器对于语音显著地更加敏感，并且对于噪音有较少的敏感。

以下提供用于从背景噪音区分浊语音和清语音的系统和方法，包含非声学传感器浊语音活动性检测(NAVSAD)系统和导航器语音活动性检测(PSAD)系统。在此提供的噪音去除和减少方法，在允许清音和浊音的人类语音从背景噪音中分离和分类的同时，通过在没有失真的情况下清除感兴趣的声学信号来应对现有技术中已知的典型系统的缺点。

图45是根据一些实施例的NAVSAD系统4500的示范性的方框图。NAVSAD系统将传声器4510和传感器4520耦接到至少一个处理器4530。实施例的传感器4520包含语音活动检测器或者非声学传感器。处理器4530控制子系统，该子系统包含在此被称为检测算法的检测子系统4550和降噪子系统4540。在相关的申请中具体描述了降噪子系统4540的操作。NAVSAD系统在任何背景噪声环境中工作得极其好。

图46是根据一些实施例的PSAD系统4600的示范性的方框图。PSAD系统将传声器4610耦接到至少一个处理器4630。处理器4630包含在此被称为检测算法的检测子系统4650和降噪子系统4640。PSAD系统在低噪声环境中高度敏感，并且在高噪声环境中相对不敏感。PSAD可以独立操作或作为对于NAVSAD的备份，如果NAVSAD出故障，那么就检测浊语音。

注意，实施例的NAVSAD和PSAD系统两者的检测子系统4650和降噪子系统4640是由处理器4630控制的算法，但是不局限于此。NAVSAD和PSAD系统的替换的实施例可以包含检测子系统4650和/或降噪子系统4640，检测子系统4650和/或降噪子系统4640包括其他的硬件、固件、软件和/或硬件、程序包和软件的组合。此外，检测子系统4650和降噪子系统4640的功能可以跨越NAVSAD和PSAD系统的众多部件被分布。

图47是根据一些实施例的此处被称为导航器系统的降噪子系统4700的示范性的方框图。以下简要地描述导航器系统的实例，并且在相关的申请中具体描述导航器系统的实例。在导航器系统中使用两个传声器Mic1和Mic2，并且Mic1被认为是“信号”传声器。参考图45，当语音活动检测器(VAD)4720是非声学语音传感器20并且噪音去除子系统4740包含检测子系统50和降噪子系统40时，导航器系统4700相当于NAVSAD系统4500。参考图46，在没有VAD4720时，并且当噪音去除子系统4740包含检测子系统50和降噪子系统40时，导航器系统4700相当于PSAD系统4600。

NAVSAD和PSAD系统支持两个级别的商业方法，其中(i)相对低价的PSAD系统支持在大多数低噪音到中等噪音环境中起作用的声学方法，和(ii)NAVSAD系统添加非声学传感器，以使得能够在任何环境中检测浊语音。通常不使用传感器来检测清语音，因为它通常没有充分震动人的组织。然而，在高噪音的情形中，检测清语音并不是重要的，因为它通常能量极低，并且容易被噪音冲走。因此，在高噪音环境中，清语音不可能影响浊语音降噪。当少许噪音存在到没有噪音存在时，清语音信息可以出现，并且因此，清音的检测可以在低噪音情形中是高度敏感的，并且在高的噪音情形中是不敏感的。这并不容易实现，并且现有技术中已知的可比较的声学清音检测器不能在这些环境要素下操作。

NAVSAD和PSAD系统包含用于语音检测的阵列算法，阵列算法使用两个传声器之间的频率成分中的差异，来计算两个传声器的信号之间的关系。这与传统的阵列相反，传统的阵列尝试使用每个传声器的时间/相位差，以将噪音排除到“敏感区域”之外。在此描述的方法提供了显著的优势，因为它们不需要阵列相对于信号的特定方位。

此外，在此描述的系统对于每个类型和每个方位的噪音是敏感的，不像取决于特定的噪音方位的传统的阵列。因此，在此呈现的基于频率的阵列是唯一的，因为它们取决于两个传声器本身的相对方位，而没有取决于噪音和信号相对于传声器的方位。这导致相对于噪音/信号源和传声器之间的噪音类型、传声器和方位的稳固的信号处理系统。

如以下具体描述的，在此描述的系统使用来源于导航器噪音抑制系统和/或在相关的申请中描述的非声学传感器的信息，以确定输入信号的调声状态。调声状态包含无声的、浊音的和清音的状态。例如，NAVSAD系统包含非声学传感器，以检测与语音相关的人的组织的振动。实施例的非声学传感器是以下简要描述并且在相关的申请中详细描述的通用电磁移动传感器(GeneralElectromagneticMovementSensor，GEMS)，但是不局限于此。然而，替换的实施例可以使用任何传感器，任何传感器能够检测与语音相关的人类组织运动，并且不受背景噪声的影响。

GEMS是允许检测移动人类组织电介质界面的无线电频率装置(2.4GHz)。GEMS包含RF干扰计，RF干扰计使用零差混合以检测与目标运动相关的小的相移。实质上，传感器发出微弱的电磁波(小于1毫瓦)，微弱的电磁波反映传感器周围的无论什么东西。反射波与原始发射波以及对于目标位置中的任何变化的分析的结果混合。移动接近传感器的任何物体将引起反射波的相位变化，该变化将随着来自传感器的输出电压中的变化而被放大和显示。相似的传感器在“声门电磁微功率传感器(GEMS)的生理基础和它们在限定对于人的声域的激励函数中的使用(Thephysiologicalbasisofglottalelectromagneticmicropowersensors(GEMS)andtheiruseindefininganexcitationfunctionforthehumanvocaltract)中由格雷戈里·C·伯内特(1999)描述；博士论文，在戴维斯的加利福尼亚大学。

图48是根据一些实施例，用于检测浊语音和清语音的检测流程4800的示范性的流程图。参考图45和46，实施例的NAVSAD和PSAD系统两者都包含作为图45的检测子系统4550的检测流程4800。这个检测流程4500实时操作，并且在实施例中，在20毫秒窗口上操作，并且每次步进10毫秒，但是不局限于此。对于第一个10毫秒，记录语音活动确定，并且第二个10毫秒起到“预见”缓冲的作用。虽然实施例使用20/10窗口，但是替换实施例可以使用众多其他的窗口值的组合。

对于许多开发检测流程4800中的多维因素给予考虑。最大的考虑是维持导航器降噪技术的有效性，在相关的申请中具体描述并且在此评述。如果自适应滤波器瞄准在语音上执行而不是在噪音上执行，则导航器性能可能被损害。注意，可以在各种实例中避免从VAD排除任何大量语音，以将这种干扰保持为最小。

还对于浊语音和清语音信号之间的特征化的精确度给予考虑，并且从噪音信号区分这些语音信号中的每一个信号。这个类型的特征化在作为语音识别和说话者验证的这种申请中可能是有用的。

此外，使用实施例的检测算法的系统在包含变化量的背景噪声的环境中起作用。如果非声学传感器是可用的，那么这个外部噪音对于浊语音不是问题。然而，对于清语音(如果非声学传感器不可用或已经不正常工作，则对于浊语音)，单独地对声学数据寄予信任，以从清语音分离噪音。在导航器噪音抑制系统的实施例中使用两个传声器具有优点，并且传声器之间的空间关系被开发，以帮助清语音的检测。然而，可能偶尔有足够高的噪音级，以致语音将几乎不能被检测到，并且与声学有关的方法可能失效。在这些情形中，将需要非声学传感器(或此后仅仅传感器)以确保良好性能。

在双传声器系统中，当与另一个传声器比较时，语音源在一个指定的传声器中可以是相对大声的。测试已经显示，当传声器被放置在头部上时，这个要求容易满足传统的传声器，因为任何噪音可能导致具有接近整数的增益的H₁。

关于NAVSAD系统，并且参考图45和图47，NAVSAD依赖于两个参数来检测浊语音。这两个参数包含感兴趣的窗口中的传感器的能量，在实施例中由标准偏差(SD)确定，在来自传声器1的声学信号和传感器数据之间可选择地互相关(XCORR)。可以以许多方式中的任何一个方式来确定传感器的能量，SD仅仅是确定能量的一个方便的方式。

对于传感器，SD近乎于信号的能量，SD通常十分精确地对应于调声状态，但是可能易受移动噪音(传感器相对于人的相对运动)和/或电磁噪音的影响。为了进一步从组织运动区分传感器噪音，可以使用XCORR。XCORR被计算为15个延迟，对应于仅仅在8000Hz的2毫秒之下。

当传感器信号以一些方式被变形或调制时，XCORR同样可以是有用的。例如，有传感器位置(诸如下巴或脖子的背部)，在该传感器位置，可以检测到语音制造，但是信号可能具有错误的或变形的基于时间的信息。也就是说，它们在时间上可能并不具有将与声学波形相匹配的良好限定的特征。然而，XCORR更加易受来自噪声的误差的影响，并且在高的(<0dBSNR)环境几乎是无用的。因此，它可以不是调声信息的唯一源。

因为传感器检测与声襞的闭合相关的人类组织运动，所以由声襞的闭合产生的声学信号与闭合是高度相关的。因此，与声学信号高度相关的传感器数据被宣布为语音，并且没有很好相关的传感器数据被称为噪音。期望声学数据延滞在传感器数据之后大约0.1到0.8毫秒(或大约1-7个采样)，作为因相对缓慢的音速(大约330m/s)而产生的延迟时间的结果。然而，实施例使用15采样相关，因为声波形状取决于产生的声音显著地改变，并且需要较大的相关宽度来确保检测。

SD和XCORR信号是关联的，但是是充分不同的，以致浊语音检测更加可靠。然而，为简单起见，可以使用任何参数。用于SD和XCORR的值与实验的阈值进行比较，并且如果两者都在它们的阀值以上，那么宣布是浊语音。实例数据被呈现并且在下面被描述。

图49A、49B和50显示根据一些实施例的用于实例的数据曲线图，在该实例中，对象两次说短语“poppan”。图49A是根据一些实施例的描绘用于发声的接收到的GEMS信号以及平均相关性的曲线图的图表。在显示的实例中，描绘了用于这个发声的GEMS信号4902，以及在GEMS信号和Mic1信号之间的平均相关性4904和用于浊语音检测的阈值T1。

图49B是根据一些实施例的描绘用于发声的接收到的GEMS信号以及GEMS信号的标准偏差和用于浊语音检测的阈值的曲线图的图表。在显示的实例中，曲线图描绘了用于这个发声的接收到的GEMS信号4902，以及GEMS信号的标准偏差4906和用于浊语音检测的阈值T2。

图50是根据一些实施例的描绘从发声检测到的浊语音以及GEMS信号和噪声的曲线图的图表。在显示的实例中，描绘了从声学或音频信号5008检测到的浊语音5002，以及GEMS信号5004和噪声5006；由于大量的背景嘈杂的噪音5006，在这个实例中没有清语音被检测到。已经设定阈值以致没有虚拟的假阴性，并且偶尔有假阳性。在任何声学背景噪音情况之下，已经取得大于99％的浊语音活动检测精确度。

由于非声学传感器信息，NAVSAD可以以高度的精确度确定浊语音在什么时候正出现。然而，传感器为从噪音分离清语音提供少许协助，因为清语音通常导致在大多数非声学传感器中没有可检测的信号。如果有可检测的信号，则可以使用NAVSAD。当没有可检测的信号时，使用确定什么时候出现清语音的导航器噪音去除的系统和方法。以下描述导航器算法的简短评论，同时在相关的申请中具体说明。

参考图47，进入传声器1的声学信息由m.sub.1(n)表明，进入传声器2的声学信息类似地由m.sub.2(n)标记，以及假定GEMS传感器可以用来确定浊语音区域。在z(数字频率)域中，这些信号被表示为M.sub.1(z)和M.sub.2(z)。然后

M₁(z)＝S(z)+N₂(z)

M₂(z)＝N(z)+S₂(z)

随着

N₂(z)＝N(z)H₁(z)

S₂(z)＝S(z)H₂(z)

所以

M₁(z)＝S(z)+N₂(z)H₁(z)

M₂(z)＝N(z)+S₂(z)H₂(z)(1)

对于所有的双传声器系统，这是普通情况。总是将要有一些噪音泄漏到Mic1中，以及一些信号泄漏到Mic2中。等式1具有四个未知数和两个关系式，并且不能被明确地求解。

然而，有另一个方法来求出等式1中的一些未知数。检查信号没有正被生成的情况——也就是说，GEMS信号表示调声没有出现。在这种情况下，s(n)＝S(z)＝0，并且等式1减少为

M_1n(z)＝N(z)H₁(z)

M_2n(z)＝N(z)

其中，M变量上的下标n指示噪音正被接收。这导致

M_1n(z)＝M_2n(z)H₁(z)

H_{1} (z) = \frac{M_{1 n} (z)}{M_{2 n} (z)} - - - (2)

可以使用任何可用的系统识别算法来计算H₁(z)，并且当噪音正被接收时，传声器进行输出。计算可以被自适应地完成，以致如果噪音显著地变化，则H₁(z)可以被迅速地重新计算。

利用等式1中的一个未知数的解法，可以使用GEMS或相似装置的振幅以及两个传声器的振幅来找到用于另一个H₂(z)的解法。当GEMS指示调声时，但是近来(小于1秒)的传声器的历史记录指示低的噪音级，假定n(s)＝N(z)～0。然后，等式1减少为

M_ls(z)＝S(z)

M_2s(z)＝S(z)H₂(z)

这随后导致

M_2s(z)＝M_1s(z)H₂(z)

H_{2} (z) = \frac{M_{2 s} (z)}{M_{1 s} (z)}

这是H₁(z)计算的倒数，但是注意，不同的输入正被使用。

在计算以上的H₁(z)和H₂(z)之后，它们被用于从信号去除噪音。等式1被重写为

S(z)＝M₁(z)-N(z)H₁(z)

N(z)＝M₂(z)-S(z)H₂(z)

S(z)＝M₁(z)-[M₂(z)–S(z)H₂(z)]H₁(z)

S(z)[1-H₂(z)H₁(z)]＝M₁(z)-M₂(z)H₁(z)

并且求出S(z)为：

S (z) = \frac{M_{1} (z) - M_{2} (z) H_{1} (z)}{1 - H_{2} (z) H_{1} (z)}

实际上，H₂(z)通常是十分小的，以致H₂(z)H₁(z)＜＜1，以及

S(z)≈M₁₍z)-M₂(z)H₁(z),

避免了H₂(z)计算的需要。

参考图46和图47，描述PSAD系统。随着声波传播，由于衍射和散射，在它们行进是通常消耗能量。假定声波来源于点声源并且均质地散发，它们的振幅将随着函数1/r而减少，其中，r是离开起点的距离。与振幅成正比的这个函数1/r是最坏的情况，如果限制在较小的区域中，那么减少将是较少的。然而，它对于感兴趣的配置是适当的模型，具体地，噪音和语音传播到位于用户的头部上的某处的传声器。

图51是根据PSAD系统的一些实施例的使用的示范性的传声器阵列。将传声器Mic1和Mic2放置成与阵列中线上的嘴成线性阵列，Mic1和Mic2中的信号强度中的差异(假定传声器具有相同的频率响应)将与d₁和△d成正比。假定1/r(或者在这种情况下1/d)关系，可见

Δ M = \frac{| M i c 1 |}{| M i c 2 |} = {ΔH}_{1} (z) α \frac{d_{1} + Δ d}{d_{1}},

其中ΔΜ是Mic1和Mic2之间的增益中的差异，因此，H₁(z)同上等式2中的。变量d.sub.1是从Mic1到语音或者噪音源的距离。

图52是根据一些实施例的对于一些Δd示范性值的ΔΜ对比d₁的曲线图5200。显然，随着Δd变得越大以及噪音源变得越近，ΔΜ就变得越大。取决于语音/噪音源的方位，变量Δd将从阵列中线上的最大值变化为垂直于阵列中线的零点。从曲线图5200，显然的是，对于小的Δd以及对于近似30厘米(cm)之上的距离，ΔΜ接近于整数。因为大多数噪音源比30cm更远并且不可能在阵列的中线上，所以很可能当计算如上等式2中的H₁(z)时，ΔΜ(或者等同于H₁(z)的增益)将接近于整数。相反地，对于接近(几厘米之内)的噪音源，取决于哪个传声器更接近噪音，可以在增益中有相当大的差异。

如果“噪音”是用户说话，并且Mic1比Mic2更接近嘴，那么增益增加。因为环境噪音通常在比语音更远离用户的头部处出现，所以在H₁(z)接近整数或者一些固定值的期间将找到噪音，并且可以在增益激增之后找到语音。语音可以是清音的或者浊音的，只要与周围噪音相比有足够的音量。在语音部分期间，增益将保持有些高，然后在语音停止之后迅速下降。H₁(z)的增益的迅速增减可以足以允许在几乎任何情况之下检测语音。这个实例中的增益通过滤波系数的绝对值的总和来计算。这个总和并不等于增益，但是两者是相关的，因为绝对值的总和的上升反映了增益的上升。

作为这个行为的实例，图53显示根据一些实施例的示范性的增益参数5302的曲线图5300，增益参数5302作为H₁(z)和来自传声器1的声学数据5304或者音频的绝对值的总和。语音信号是重复两次短语“poppan”的发声。估计的带宽包含从2500Hz到3500Hz的频率范围，尽管实际上1500Hz到2500Hz被另外使用。注意，当首先遇到清语音时，增益迅速增加，然后，当语音结束时迅速恢复正常。源于噪音和语音之间的传递的增益中的大变化可以通过任何标准信号处理技术被检测。使用最近(lastfew)增益计算的标准偏差，由标准偏差的运行平均值和标准偏差噪音层限定阈值。为了清楚，对于浊语音的稍后的增益变化在这个曲线图5300中被抑制。

图54是根据一些实施例的在图53中呈现的声学数据的替换曲线图5400的实例。在这个曲线图5400中再次呈现用于形成曲线图5300的数据，以及没有噪音的音频数据5404和GEMS数据5406，以使得清语音显而易见。浊音信号5402具有三个可能的值：0用于噪音，1用于清音，以及2用于浊音。当V＝0时，可以实现降噪。显然清语音被非常好地采集，暂且不论清音的检测中的两个单个回动接近每个“pop”的末端。然而，这些单个窗口回动不是普遍的，并且没有显著地影响降噪算法。它们可以使用标准平滑技术被容易地去除。

从这个曲线图5400不明确的是，PSAD系统起到对于NAVSAD自动备份的作用。这是因为，如果传感器或者NAVSAD系统由于任何原因而失效，那么浊语音(因为它对传声器与清语音具有相同的空间关系)将被检测作为清音的。浊语音将被误分类为清语音，但是降噪将仍然没有发生，保持语音信号的品质。

然而，NAVSAD系统的这个自动的备份在具有低噪音(近似10+dBSNR)的环境中起最佳作用，因为大量(10dB的SNR以下)的噪声可以迅速淹没任何声学相关的清音检测器，包含PSAD。这分别在图50和54的曲线图5000和5400中显示的浊音的信号数据5002和5402中的差异中是明显的，其中相同的发声被说出，但是曲线图5000的数据没有显示清语音，因为清语音是不可检测的。当进行降噪时，这是想要的行为，因为如果清语音是不可检测的，那么它将不会显著地影响降噪处理。使用导航器系统来检测清语音确保了大声得足以使降噪失真的任何清语音的检测。

关于硬件考虑，以及参考图51，传声器的配置可以对与语音相关的增益中的变化以及检测语音所需的阈值有影响。通常，每个配置将需要测试以确定适当的阈值，但是对于两个非常不同的传声器配置的测试显示相同的阈值及其他参数良好地工作。第一个传声器组具有接近嘴的信号传声器和距离耳朵几厘米的噪音传声器，同时第二配置将噪音和信号传声器背对背地放置在嘴的几厘米之内。使用第一传声器配置得出在此呈现的结果，但是使用另一个设定的结果是虚拟相同的，所以检测算法相对于传声器放置是相对稳固的。

使用NAVSAD和PSAD系统，许多配置可以检测浊语音和清语音。一个配置使用NAVSAD系统(非声学)以检测浊语音以及使用PSAD系统以检测清语音；PSAD同样起对于NAVSAD系统的备份的作用，用于检测浊语音。替换的配置使用NAVSAD系统(与声学相关的非声学)来检测浊语音，以及使用PSAD系统来检测清语音；PSAD同样起对于NAVSAD系统的备份的作用，用于检测浊语音。另一个替换的配置使用PSAD系统来检测浊语音和清语音两者。

虽然已经参考从背景噪声分离浊语音和清语音来描述如上所述的系统，但是没有理由不能做出更加复杂的分类。为了语音的更加深度的特征化，系统可以使来自Mic1和Mic2的信息带通，以致可以看见Mic1数据中的哪个频带大量地由噪音组成，以及哪个语音的权重更大。使用这个知识，可以通过它们相似传统的声学方法的光谱特性来对发声分组；这个方法在噪音环境中起更好的作用。

作为实例，“kick”中的“k”具有从500Hz到4000Hz的显著频率成分形式，但是“she”中的“sh”包含从1700-4000Hz的显著能量。可以以相似的方式分类浊语音。例如，/i/(“ee”)具有大约300Hz和2500Hz的显著能量，并且/a/(“ah”)具有大约900Hz和1200Hz的能量。如此，在噪音存在的情况下区分清语音和浊语音的这个能力是非常有用的。

以下描述同样被称为语音传感装置的声振动传感器。声振动传感器与传声器的相似之处在于，它从噪音环境中的人类讲话者或者讲话者的头部区域采集语音信息。以前对于这个问题的解决方案已经易受噪音的影响，物理上对于某个应用太大，或者成本过高。相反，在实质上的空气传播的噪声存在的情况下，在此描述的声振动传感器准确地检测和采集语音振动，仍旧在较小的和较便宜的物理外壳之内。由声振动传感器提供的噪音免疫的语音信息随后可以用于下游语音处理应用中(语音增强和噪音抑制，语音编码，语音识别，讲话者验证等等)，以改善那些应用的性能。

图55是根据一些实施例的在此还被称为传感器5500的声振动传感器5500的实例的横截面视图。图56A是根据图55中显示的实例的声振动传感器5500的分解图。图56B是根据图55中显示的实例的声振动传感器5500的立体图。传感器5500包含壳体5502，壳体5502具有在壳体5502的第一侧上的第一端口5504和在壳体5502的第二侧上的至少一个第二端口5506。同样被称为感测膜片5508的膜片5508位于第一和第二端口之间。还被称为覆盖物5510或者盖子5510的耦合器5510形成壳体5502周围的声学密封，以致第一端口5504和膜片面对第一端口5504的一侧与人类讲话者的空气传播的声学环境隔离。实施例的耦合器5510是邻接的，但是不局限于此。第二端口5506将膜片的第二侧耦接到外部环境。

传感器还包含电介体材料5520和耦接的相关部件和电子设备，以便经由耦合器5510和膜片5508从讲话者接收声学信号，并且将声学信号转换为代表人类语音的电信号。电触点5530提供电信号作为输出。替换实施例可以使用任何类型/组合的材料和/或电子设备，以便将声学信号转换为代表人类语音的电信号并且输出该电信号。

使用具有与人类皮肤的阻抗(皮肤的特征声学阻抗大致是1.5×10⁶Pa×s/m)相匹配的声学阻抗的材料来形成实施例的耦合器5510。因此，使用包含硅胶、电介质凝胶体、热塑性弹性体(TPE)和橡胶混合物中的至少一个来形成耦合器5510，但是不局限于此。作为实例，使用KraiburgTPE产品形成实施例的耦合器5510。作为另一个实例，使用有机硅产品来形成实施例的耦合器5510。

实施例的耦合器5510包含接触装置5512，接触装置5512包含例如从耦合器5510的一侧或两侧突出的螺纹接套或突起。在操作中，从连接器5510的两侧突出的接触装置5512包含接触装置5512与讲话者的皮肤表面接触的一侧和接触装置5512与膜片接触的另一侧，实施例不局限于此。耦合器5510和接触装置5512可以由相同的或不同的材料形成。

耦合器5510有效地将声能从讲话者的皮肤/肉体传送到膜片，并且将膜片与周围的空气传播的声学信号隔离。因此，具有耦合装置5512的连接器5510有效地直接将声学信号从讲话者身体(语音振动)传送到膜片，同时使膜片与讲话者的空气传播的环境中的声学信号(空气的特征声学阻抗近似是415Pa×s/m)隔离。该膜片通过耦合器5510与讲话者的空气传播的环境中的声学信号隔离，因为耦合器5510防止信号到达膜片，因此反射和/或驱散空气传播的环境中的声学信号的大量能量。因此，传感器5500主要地响应从讲话者的皮肤而不是空气传送的声能。当靠着讲话者的头部放置时，传感器5500拾取皮肤表面上的语音感应的声学信号，同时空气传播的噪声信号被大规模的去除，因此增加信噪比，并且提供非常可靠的语音信息源。

通过使用在膜片和讲话者的空气传播的环境之间设置的密封件，传感器5500的性能被改进。由耦合器5510提供该密封件。在实施例中使用改良的压差传声器，因为它在两端上具有压力孔。如此，当第一端口5504被耦合器5510密封时，第二端口5506提供用于气流经过传感器5500的通风孔。

图57是根据图55中显示的实施例的声振动传感器的耦合器5510的示意图。显示的尺寸是亳米，并且被视为充当一个实施例的实例。耦合器的替换实施例可以具有不同的结构和/或尺寸。连接器5510的尺寸显示声振动传感器5500是小的，实施例的传感器5500与移动通信装置中找到的典型的传声器膜盒有近似相同的大小。这个小的形状因素允许在高度可移动的小型化应用中使用传感器5510，其中，一些实例应用包含移动电话、卫星电话、携带式电话、有线电话、因特网电话、无线收发器、无线通信收音机、个人数字助理(PDA)、个人计算机(PC)、头戴式耳机装置、头戴式装置和耳机中的至少一个。

声振动传感器在高噪音环境中提供非常准确的语音活动检测(VAD)，其中，高噪音环境包含空气传播的声学环境，在空气传播的声学环境中，如果噪音振幅不大于语音振幅，那么噪音振幅与由传统的全向传声器测量的一样大。准确的VAD信息提供显著的性能以及许多语音处理应用中的效率好处，然而并不局限于：可从加利福尼亚州布里斯班的艾利佛得到、并且在相关的申请中被描述的诸如导航器算法的噪音抑制算法；在许多商业体制中被开发的诸如改进的变化率代码(EVRC)的语音压缩算法；以及语音识别系统。

除了提供具有改进的噪声比的信号，声振动传感器还使用最小的功率来操作(例如，数量级为200微安)。与需要电源、滤波器和/或显著的放大的替代方案相比，声振动传感器使用标准传声器接口，以便与信号处理装置连接。标准传声器接口的使用避免主机装置中的附加费用以及接口线路的大小，并且支持在高移动式应用中的传感器，其中，功率利用率是争论点。

图58是根据至少一些实施例的声振动传感器5800的实例的分解图。传感器5800包含壳体5802，壳体5802具有在壳体5802的第一侧上的第一端口5804和在壳体5802的第二侧上的至少一个第二端口(未显示)。膜片5808位于第一和第二端口之间。硅胶5809或其他相似物质的层形成与膜片5808的至少一部分接触。耦合器5810或覆盖物5810形成在壳体5802和硅胶5809周围，其中，耦合器5810的一部分与硅胶5809接触。耦合器5810和硅胶5809组合形成壳体5802周围的声学密封，以致第一端口5804和膜片面对第一端口5804的一侧与人类讲话者的声学环境隔离。第二端口将膜片的第二侧耦接到声学环境。

如上所述，传感器酌情包含其他的电子材料，其他的电子材料经由耦合器5810、硅胶5809和膜片5808，从讲话者接收声学信号，并且将声学信号转换为代表人类语音的电信号。替换实施例可以使用任何类型/组合的材料和/或电子设备，以便将声学信号转换为代表人类语音的电信号。

使用具有与人类皮肤的阻抗相匹配的材料来形成实施例的耦合器5810和/或凝胶体5809。因此，使用包含硅胶、电介质凝胶体、热塑性弹性体(TPE)和橡胶混合物中的至少一个来形成耦合器5810，但是不局限于此。耦合器5810有效地将声能从讲话者的皮肤/肉体传送到膜片，并且使膜片与周围的空气传播的声学信号隔离。因此，耦合器5810有效地将声学信号从讲话者的身体(语音振动)直接传送到膜片，同时在讲话者的空气传播的环境中使膜片与声学信号隔离。该膜片通过硅胶5809/耦合器5810在讲话者的空气传播的环境中与声学信号隔离，因为硅胶5809/耦合器5810防止信号到达膜片，因此反射和/或驱散空气传播的环境中的声学信号的大量能量。因此，传感器5800主要地响应从讲话者的皮肤而不是空气传送的声能。当靠着讲话者的头部放置时，传感器5800拾取皮肤表面上的语音感应的声学信号，同时空中传播的噪声信号被大规模地去除，因此增加信噪比并且提供非常可靠的语音信息源。

在耳朵之外有许多位置，声振动传感器可以从这些位置检测与语音的产生相关联的皮肤振动。传感器可以以任何方式被安装在装置、电话听筒或耳机中，唯一的限制是，可靠的皮肤接触被用于检测与语音的产生相关联的皮肤负担的振动。

图59显示根据一些实施例的在适合于声振动传感器5500/5800的实例放置的人类头部上的敏感性的代表区域5900-5920。敏感性的区域5900-5920包含在耳朵后面的区域5900中的多个位置5902-5908，在耳朵前面的区域5910中的至少一个位置5912，以及在耳道区域5920中的多个位置5922-5928。敏感性的区域5900-5920对于人类头部的两侧是相同的。这些敏感性的代表区域5900-5920被提供作为实例，并且没有限制在此描述的在这些区域中使用的实施例。

图60是根据一些实施例的头戴式耳机装置6000，头戴式耳机装置6000包含放置在多个位置6002-6010中的任何位置的示范性的声振动传感器5500/5800。通常，声振动传感器5500/5800可以放置在装置6000的对应于人类头部上的敏感性区域5900-5920(图59)的任何部分上。虽然头戴式耳机装置被显示作为实例，但是现有技术中已知的许多通信装置可以携带和/或耦接到声振动传感器5500/5800。

图61是根据一些实施例的用于示范性的声振动传感器的制造方法6100的图。例如，在块6102，操作从单向传声器6120开始。在块6104，硅胶6122被形成在膜片(未显示)和相关联的端口上方/上。在块6106，例如聚氨脂薄膜的材料6124被形成或放置传声器6120/硅胶6122组合上方，以形成耦合器或覆盖物。在块6108，滑动配合卡圈或其他装置被放置在传声器上，以便确保在固化期间的耦合器的材料。

注意，如上所述，硅胶(块6102)是取决于正被制造的传感器的实施例的可选择的部件。因此，包含接触装置5512(参考图55)的声振动传感器5500的制造将并不包含在膜片上方/上形成硅胶6122的。此外，对于这个传感器5500的形成在传声器上方的耦合器将包含接触装置5512或接触装置5512的形成。

此处描述的系统和方法包含处理系统和/或在处理系统下运行和/或与处理系统有关联。如本领域中已知的，处理系统包含基于处理器的装置或者一起操作的计算装置，或者处理系统或装置的部件的任何集合。例如，处理系统可以包含在通信网络和/或网络服务器中操作的一个以上的便携式计算机、便携式通信装置。便携式计算机可以是从个人计算机、蜂窝式移动电话、个人数字助理、便携式计算装置和便携式通信装置中选择的装置的任何数量和/或组合，但是不会被如此限制。处理系统可以包含在大的计算机系统之内的部件。

实施例的处理系统包含至少一个处理器以及至少一个存储装置或者子系统。处理系统也可以包含或者被耦接到至少一个数据库。通常使用的术语“处理器”在此指的是任何逻辑处理单元，诸如一个以上的中央处理单元(CPU)、数字信号处理器(DSP)、专用集成电路(ASIC)等等。处理器和存储器可以被统一地集成在单芯片之上，被分配在主系统的许多芯片或者部件当中，和/或通过一些算法的组合被提供。在此描述的方法可以在一个以上的软件算法、程序、固件、硬件、部件、电路中以任何组合被实施。

使此处描述的系统和方法具体化的系统部件可以被放置在一起或者可以被在分开的位置上。因此，使此处描述的系统和方法具体化的系统部件可以是单个系统、多个系统和/或地理上分开的系统的部件。这些部件也可以是单个系统、多个系统和/或地理上分开的系统的子部件或者子系统。这些部件可以被耦接到主系统的或者耦接到该主系统的系统的一个以上的其它部件。

通信路径耦接该系统部件并且包含用于通信或者传送该部件当中的文件的任何介质。通信路径包含无线连接、有线连接以及混合的无线/有线连接。通信路径还包含对网络的耦接或者连接，该网络包含局域网(LAN)、城域网(MAN)、广域网(WAN)、专有网络、局间或者后端网络、以及因特网。此外，通信路径包含可移动的固定介质，如软盘、硬盘驱动器和CD-ROM磁盘，以及闪速RAM、通用串行总线(USB)连接、RS-232连接、电话线路、总线以及电子邮件消息。

除非上下文另外清楚地需要，贯穿整个说明书，文字“包含”、“包括”等等将被视为包括在内的意义，与排他或者详尽的意义相对；换句话说，在某种意义上是“具有，但不局限于”。另外，文字“此处”、“在此之下”、“以上”、“以下”、和类似含意的文字指的是这个申请作为一个整体，而不是指的是这个申请的任何特定的部分。当使用文字“或者”来关系到两个以上的项目的列表时，那个文字覆盖所有以下词的解释：列表中的任何项目、列表中的所有项目以及列表中的项目的任何组合。

实施例的以上描述不意欲是详尽的或者将描述的系统和方法限制为精确公开的形式。虽然特定实施例和实例是为了说明性的目的而在此被描述，但是如相关领域中的其他些技术人员将认识到，各种等效变形在其他系统和方法的范围内是可能的。在此提供的教导可以应用于其他处理系统和方法，而不是用于上述的处理系统和方法。

上述各种实施例的要素和动作可以被组合以提供更多的实施例。考虑到以上的具体描述，可以对实施例做出这些及其他改变。

在本发明的至少一些实施例中，任何上述接口和面板的结构和/或功能可以在软件、硬件、固件、电路或者其组合中被实施。注意，全部显示的结构和构成要素，以及它们的功能可以被与一个以上的其他结构或者要素集合。

替代地，如果有的话，要素和它们的功能可以被再分成构成子要素。作为软件，可以使用各种类型的编程或者格式化语言、框架、语法、应用程序、协议、对象或者技术，包含C、ObjectiveC、C++、C#、Flex^TM、Java^TM、Javascript^TM、AJAX、COBOL、Fortran、ADA、XML、HTML、DHTML、XHTML、HTTP、XMPP等，来实施上述技术。这些可以被改变，并且不局限于提供的实例或者描述。

在本发明的至少一些实施例中，任何上述特征的一个以上的结构和/或功能可以在软件、硬件、固件、电路或者其组合中被实施。注意，以上的结构和构成要素，以及它们的功能可以被与一个以上的其他结构或者要素集合。替代地，如果有的话，要素和它们的功能可以被再分成构成子要素。

为了说明，以上描述使用具体的术语来提供对本发明的彻底的了解。但是，本领域的技术人员将显而易见的是为了实践本发明，不需要具体细节。事实上，这个描述可以不被读取，以将本发明的任何特征或者方面局限于任何实施例；相反地，一个实施例的特征和方面可以容易地与其他的实施例互换。

因而，本发明的具体实施例的以上描述为了图解和描述而被呈现。它们不意欲是详尽的，或者将本发明局限于公开的精确形式，鉴于上述教导，许多替换、修改、等效和变化是可能的。为了清楚起见，没有具体描述在与实施例相关的技术领域中已知的技术资料，以避免不必要地使该描述模糊。因而，各种实施例可以在附上的权利要求书的范围和同等物之内被修改。此外，为了最好地说明本发明的原则和它的实际应用，选择和描述了实施例；因此，它们使得本领域的技术人员能够最好地利用本发明以及具有适合于预期的特定使用的各种修改的各种实施例。值得注意地，不是此处描述的每个益处都需要通过本发明的每个实施例被实现；相反地，任何具体的实施例可以提供以上论述的一个以上的优点。在权利要求书中，要素和/或操作不暗指任何特定的操作顺序，除非在权利要求书中明确地声明。意图是，下面的权利要求书以及它们的同等物限定了本发明的范围。

Claims

1.一种语音活动检测器，其特征在于，包括：

接收第一信号的第一检测器；

接收不同于所述第一信号的第二信号的第二检测器；

2.如权利要求1所述的语音活动检测器，其特征在于，所述第二检测器是声传感器。

3.如权利要求2所述的语音活动检测器，其特征在于，所述声传感器包括两个全向传声器。