CN110754096A

CN110754096A - 检测耳机用户的话音活动的系统和方法

Info

Publication number: CN110754096A
Application number: CN201880019495.9A
Authority: CN
Inventors: 姚翔恩; M·埃格泽; A·加尼施库玛
Original assignee: BOSS Co Ltd
Current assignee: BOSS Co Ltd
Priority date: 2017-03-20
Filing date: 2018-03-19
Publication date: 2020-02-04
Anticipated expiration: 2038-03-19
Also published as: US20190304487A1; US10366708B2; WO2018175283A1; US10762915B2; EP3603119A1; CN110754096B; US20180268845A1

Abstract

本发明提供了一种耳机系统，该耳机系统包括左听筒和右听筒，该左听筒和该右听筒分别具有左麦克风和右麦克风，以接收左声学信号和右声学信号并且提供左信号和右信号以便进行处理。该左信号和该右信号相加以提供主信号，并且该左信号和该右信号相减以提供参考信号。检测电路将该主信号与该参考信号进行比较，并且选择性地指示用户是否正在说话。

Description

检测耳机用户的话音活动的系统和方法

相关申请的交叉引用

本申请依照PCT第8条的规定，要求2017年3月20日提交的名称为SYSTEMS ANDMETHODS OF DETECTING SPEECH ACTIVITY OF HEADPHONEUSER(检测耳机用户的话音活动的系统和方法)的共同未决的美国专利申请15/463,259的优先权权益，该美国专利申请全文以引用方式并入本文以用于所有目的。

背景技术

耳机系统用于多种环境和各种目的，这些目的的示例包括娱乐目的(诸如玩游戏或听音乐)、生产性目的(诸如打电话)以及专业目的(诸如航空通信或录音室监听)，仅举几例。不同环境和目的对保真度、隔声、降噪、语音拾取等可具有不同要求。在一些环境中或在一些应用中，可能有利的是检测耳机或头戴式受话器的用户何时正在主动说话。

发明内容

各方面和示例涉及检测用户的语音活动的耳机系统和方法。该系统和方法检测用户何时正在主动说话，同时忽略不是因用户说话而引起的可听声，诸如其他说话者或背景噪声。检测用户的语音活动可有利地应用于另外的功能或操作特性。例如，检测用户的语音活动可用于提示录音、提示语音识别系统、激活虚拟个人助理(VPA)、触发自动增益控制(AGC)、声学回声处理或消除、噪声抑制、侧音增益调节或其他声控开关(VOX)应用。本文所公开的各方面和示例可通过耳机佩戴者的定向语音活动检测来改善耳机使用并减少由噪声或其他人谈话引起的误触发。

根据一个方面，提供了耳机系统，该耳机系统包括左听筒和右听筒，左麦克风耦接到左听筒以接收左声学信号并提供从左声学信号导出的左信号，右麦克风耦接到右听筒以接收右声学信号并提供从右声学信号导出的右信号，并且检测电路耦接到左麦克风和右麦克风并被配置为将主信号与参考信号进行比较，并且至少部分地基于该比较来选择性地指示用户正在说话，该主信号从左信号和右信号的总和导出，并且该参考信号从左信号和右信号之间的差值导出。

在一些示例中，检测电路被配置为在主信号超过参考信号达阈值时指示用户正在说话。在一些示例中，检测电路被配置为通过比较主信号和参考信号各自的功率含量来将主信号与参考信号进行比较。

根据一些示例，对主信号和参考信号各自进行带滤波。

在某些示例中，左麦克风和右麦克风中的至少一者包括多个麦克风，并且相应左信号或右信号至少部分地从该多个麦克风导出，作为来自该多个麦克风中的一个或多个的输出的组合。

一些示例还包括后麦克风，该后麦克风耦接到任一听筒并且被定位成接收后声学信号，该后声学信号相对于左声学信号和右声学信号中的任一者或两者朝向用户头部的后部，并且检测电路被进一步配置为将从后麦克风导出的后信号与左信号和右信号中的至少一者进行比较以生成后比较，并且进一步基于该后比较来选择性地指示用户正在说话。在另外的示例中，当主信号超过参考信号达第一阈值并且左信号和右信号中的该至少一者超过后信号达第二阈值时，检测电路可指示用户正在说话。

根据另一个方面，提供了耳机系统，该耳机系统包括听筒；前麦克风，该前麦克风耦接到听筒以接收第一声学信号；后麦克风，该后麦克风耦接到听筒以接收第二声学信号，该第二声学信号相对于第一声学信号朝向用户头部的后部；以及检测电路，该检测电路耦接到前麦克风和后麦克风，并且被配置为将从前麦克风导出的前信号与从后麦克风导出的后信号进行比较，并且至少部分地基于该比较来选择性地指示用户正在说话。

在一些示例中，检测电路被配置为在前信号超过后信号达阈值时指示用户正在说话。在一些示例中，检测电路被配置为通过比较前信号和后信号各自的功率含量来将前信号与后信号进行比较。

在某些示例中，对前信号和后信号进行带滤波。

根据一些示例，前麦克风包括多个麦克风，并且前信号至少部分地从该多个麦克风导出，作为来自该多个麦克风中的一个或多个的输出的组合。

一些示例包括第二听筒；第二前麦克风，该第二前麦克风耦接到第二听筒以接收第三声学信号；以及第二后麦克风，该第二后麦克风耦接到第二听筒以接收第四声学信号，该第四声学信号相对于第三声学信号朝向用户头部的后部。在这些示例中，检测电路被进一步配置为执行第二比较，并且至少部分地基于第一比较和第二比较来选择性地指示用户正在说话，该第二比较包括将从第二前麦克风导出的第二前信号与从第二后麦克风导出的第二后信号进行比较。

一些示例包括第二听筒和第三麦克风，该第三麦克风耦接到第二听筒以接收第三声学信号并提供第三信号，并且检测电路被进一步配置为将第三信号与选择的信号组合，该所选择的信号是前信号和后信号中的一者；确定第三信号与所选择的信号之间的差值；执行第二比较，该第二比较包括将所组合的信号与所确定的信号进行比较；并且至少部分地基于第二比较来选择性地指示用户正在说话。

根据另一个方面，提供了确定耳机用户正在说话的方法，该方法包括接收从第一麦克风导出的第一信号；接收从第二麦克风导出的第二信号；提供从第一信号和第二信号的总和导出的主信号；提供从第一信号和第二信号之间的差值导出的参考信号；将主信号与参考信号进行比较；以及至少部分地基于该比较来选择性地指示用户正在说话。

在一些示例中，将主信号与参考信号进行比较包括比较主信号是否超过参考信号达阈值。在一些示例中，将主信号与参考信号进行比较包括比较主信号和参考信号各自的功率含量。

一些示例包括对第一信号、第二信号、主信号和参考信号中的至少一者进行滤波。

在某些示例中，第一信号至少部分地从多个第一麦克风导出，作为来自该多个第一麦克风中的一个或多个的输出的组合。

一些示例还包括接收从第三麦克风导出的第三信号；将第三信号与第一信号和第二信号中的至少一者进行比较以生成第二比较；以及至少部分地基于第二比较来选择性地指示用户正在说话。

以下仍然详细讨论了这些示例性方面和示例的其他方面、示例和优点。本文所公开的示例可以与本文所公开的至少一个原理一致的任何方式与其他示例组合，并且对“示例”、“一些示例”、“另选的示例”、“各种示例”、“一个示例”等的引用不一定互相排斥，并且旨在指示所述的特定特征、结构或特性可包括在至少一个示例中。本文中此类术语的出现未必全都指代相同的示例。

附图说明

下面参考附图讨论至少一个示例的各个方面，这些附图并非旨在按比例绘制。包括附图以提供对各个方面和示例的例证和进一步理解，并且附图并入本说明书且构成本说明书的一部分，但并非旨在作为本发明的限制的定义。在附图中，在各种图中示出的相同或几乎相同的部件可用类似的数字表示。为清楚起见，并不是在每个图中给每个部件都注上标记。在附图中：

图1是耳机组的透视图；

图2是耳机组的左侧视图；

图3是比较信号能量以检测语音活动的示例性方法的流程图；

图4是比较信号能量以检测语音活动的另一个示例性方法的流程图；

图5是检测语音活动的示例性系统的示意图；

图6是检测语音活动的另一个示例性系统的示意图；并且

图7是检测语音活动的另一个示例性系统的示意图。

具体实施方式

本公开的各方面涉及检测耳机组的用户(例如，佩戴者)的语音活动的耳机系统和方法。这种检测可以增强可作为耳机组或其他相关设备(诸如蜂窝电话或音频处理系统)的一部分提供的语音激活的特征或功能。本文所公开的示例可通过有线或无线装置耦接到其他系统或被设置成与其他系统连接，或者可独立于任何其他系统或设备。

本文所公开的耳机系统在一些示例中可包括航空头戴式受话器、电话头戴式受话器、媒体耳机和网络游戏耳机、或者这些或其他的任何组合。在整个本公开中，术语“头戴式受话器”、“耳机”和“耳机组”可互换使用，并且除非上下文另外明确指明，否则使用一个术语代替另一个术语并非意在作出区分。另外，根据本文所公开的那些的各方面和示例在一些情况下可应用于听筒形状因数(例如，入耳式换能器、耳塞)，并且因此也可以通过术语“头戴式受话器”、“耳机”和“耳机组”设想到。一些示例的优点包括监测用户语音活动时的低功耗、检测用户语音的高准确性以及他人语音活动的拒绝。

本文所公开的示例可以与本文所公开的至少一个原理一致的任何方式与其他示例组合，并且对“示例”、“一些示例”、“另选的示例”、“各种示例”、“一个示例”等的引用不一定互相排斥，并且旨在指示所述的特定特征、结构或特性可包括在至少一个示例中。本文中此类术语的出现未必全都指代相同的示例。

应当理解，本文讨论的方法和装置的示例不限于应用到以下描述中提及的或附图中示出的构造细节和部件布置。这些方法和装置能够在其他示例中实施，并且能够以各种方式操作或执行。本文提供的具体实施的示例仅出于进行示意性的目的，并非旨在进行限制。此外，本文所用的措辞和术语是出于描述的目的，而不应被视为限制。本文使用“包括”、“包含”、“具有”、“含有”、“涉及”及其变型形式旨在涵盖其后列出的项目及其等同物以及附加的项目。对“或”的引用可以被理解为是包含性的，使得使用“或”描述的任何术语可以指示该术语中的单个、多于一个和全部中的任何一种。对前和后、左和右、顶部和底部、上部和下部以及垂直和水平的任何引用是为了便于描述，而不是为了将本系统和方法或它们的部件限制成任何一个位置或空间取向。

图1示出了耳机组的一个示例。耳机100包括两个听筒(例如，右耳罩102和左耳罩104)，它们分别耦接到右轭组件108和左轭组件110，并且由头带106相互耦接。右耳罩102和左耳罩104分别包括右罩耳式耳垫112和左罩耳式耳垫114。左耳罩104上可见的是左内表面116。虽然示例性耳机100被示出为包括具有罩耳式耳垫的听筒以配合在用户耳部周围或上方，但在其他示例中耳垫可坐置在耳部上，或可包括突出到用户耳道的一部分中的耳塞部分，或可包括替代物理布置。如下文更详细讨论，耳罩102,104中的每一者包括一个或多个麦克风，诸如一个或多个前麦克风、一个或多个后麦克风和/或一个或多个内部麦克风。虽然图1所示的示例性耳机100包括两个听筒，但一些示例可仅包括单个听筒以仅在头部一侧上使用。另外，虽然图1所示的示例性耳机100包括头带106，但其他示例可包括不同支撑结构以保持一个或多个听筒(例如，耳罩、入耳式结构等)接近用户的耳部，例如耳塞可包括被配置为将耳塞保持在用户耳部的一部分内的形状和/或材料。

图1和图2示出了麦克风的多个示例性设置，某些示例中可包括这些示例性设置中的任何一个或多个。图1示出了位于左耳罩104内部的内部麦克风120。在一些示例中，内部麦克风可另外或另选地包括在右耳罩102内部，任一耳罩可具有多个内部麦克风，或两个耳罩可都没有内部麦克风。图2从左侧示出了耳机100，并且示出了左耳罩104的细节，该左耳罩包括一对前麦克风202(其可更靠近耳罩的前边缘204)和后麦克风206(其可更靠近耳罩的后边缘208)。右耳罩102可另外或另选地具有前麦克风和后麦克风的类似布置，但在示例中这两个耳罩在麦克风的数量和设置方面可具有不同布置。另外，各种示例可具有更多或更少前麦克风202，并且可具有更多、更少或没有后麦克风206。虽然附图标记120、202和206用来指代一个或多个麦克风，但附图中所示的该视觉元素在一些示例中可表示声孔，声学信号从此进入以最终到达可能位于内部且在物理上从外部不可见的麦克风120,202,206。在示例中，麦克风120,202,206中的一个或多个可紧邻声孔的内部，或可从声孔移除一定距离，并且可在声孔与相关麦克风之间包括声波导。

将以各种方式处理各种麦克风信号以检测耳机100的用户(即，佩戴耳机的人)是否正在主动说话。用户说话的检测有时将被称为语音活动检测(VAD)。如本文所用，术语“语音”、“话音”、“谈话”及其变型形式可互换使用而不用考虑这种话音是否涉及声带的使用。

本文所公开的检测用户语音活动的示例可操作或依赖于环境、声学、声音特性和独特使用方面的各种原理，例如佩戴或放置在用户头部每一侧上的要检测语音活动的听筒。例如，在头戴式受话器环境中，用户的语音一般起源于与头戴式受话器左侧和右侧对称的点，并且将在实质上相同的时间和实质上相同的相位下以实质上相同的振幅到达右前麦克风和左前麦克风两者，而背景噪声和他人的发声将趋于在左与右之间不对称，具有振幅、相位和时间的变化。另外，用户的语音起源于耳机的近场，并且将以比到达后麦克风更大的声能到达前麦克风。起源于更远地方的背景噪声和他人的发声可趋于以实质上相同的声能到达前麦克风和后麦克风。此外，起源于比用户嘴部更远的地方的背景噪声和人发声一般将引起任何麦克风处接收到的声能处于特定级别，并且当用户的语音活动添加到这些其他声学信号时，声能级将增加。因此，用户的语音活动将引起任何麦克风处的平均声能增加，这可有利地用于将阈值应用于语音活动检测。各种频谱特性也可在检测用户的语音活动中起到有益的作用。

图3示出了处理麦克风信号以检测耳机用户正在主动说话的可能性的方法300。图3所示的示例性方法300依赖于处理并比较双耳(即，左和右)信号的特性。如上所讨论，因用户语音引起的左声音信号和右声音信号彼此实质上对称，并且由于左麦克风和右麦克风处于离用户嘴部的实质上等距位置，该左声音信号和右声音信号可实质上相同。图3的方法通过将左信号302和右信号304加在一起提供主信号306来处理该左信号和右信号。图3的方法还通过使左信号302和右信号304相减提供参考信号308来处理该左信号和右信号。左信号和右信号302,304各自分别由耳机左侧和右侧的麦克风提供并从其接收，并且可来自每一侧的多个麦克风。例如，左侧可具有一个麦克风或可具有多个麦克风(如上所讨论)，并且左信号302可由左侧的单个麦克风提供或可为来自左侧的多个麦克风的信号的组合。在左侧有多个麦克风的情况下，左信号302可由通过处理多个麦克风形成的偏转波束(例如，作为相控阵)提供，或可为来自多个麦克风的信号的简单组合(例如，相加)，或可通过其他信号处理来提供。类似地，右信号304可由全在右侧的单个麦克风、多个麦克风的组合或麦克风阵列提供。

如上所讨论，左信号302和右信号304加在一起以提供主信号306，并且从左信号302减去右信号304以提供参考信号308。另选地，可替代地从右信号304减去左信号302以提供参考信号308。如果耳机的用户正在谈话，则用户的语音在左信号302和右信号304两者中将实质上等同。因此，左信号302和右信号304相长组合于主信号306中。然而，在参考信号308中，用户的语音可在相减中实质上消除自身，即相消干涉自身。因此，当用户正在谈话时，主信号306将包括信号能量是单独左信号302或右信号304中任一者的大约两倍的用户语音分量；而参考信号308将实质上没有来自用户语音的分量。这允许主信号306和参考信号308的比较以提供用户是否正在谈话的指示。

不与用户语音相关的左信号302和右信号304的分量不太可能在左侧和右侧之间对称，并且将趋于彼此既不加强也不干涉，而不论是相加还是相减。这样，对于不与用户语音相关的分量而言，主信号306和参考信号308将具有大约相同的信号能量。例如，来自周围噪声、一定距离的其他谈话者以及即使在附近也离左侧和右侧不等距的其他谈话者的信号分量将在主信号306和参考信号308中具有实质上相同的信号能量。实质上，参考信号308提供不包括用户语音的周围声能的参考，而主信号306提供周围声能的相同分量但还包括用户正在谈话时用户的语音。因此，如果主信号306具有比参考信号308充分更多的信号能量，则可以推断出用户正在谈话。

继续参照图3，通过平滑算法310处理主信号306和参考信号308中的每一者。平滑算法310可采取许多形式，或在一些示例中可完全不存在，并且图3所示的平滑算法310的细节仅仅表示平滑算法的一个示例。图3的示例性平滑算法310生成输入信号(例如，主信号306或参考信号308)的平均能量/功率含量的缓慢变化指标。平滑算法的至少一种益处是防止声环境的突然变化引起用户正在谈话的错误指示。平滑算法310在框312处处理这些信号以测量每个信号的功率，并且在框318处计算随时间推移的每个信号的功率测量值的衰减加权平均值。当前和先前功率测量值的加权平均值可基于在框316处选择的影响权重的某个特性值，例如α值或时间常数，并且α值的选择可取决于在框314处确定的当前功率量度是正在增加还是正在减小。作用于主信号306和参考信号308中每一者的平滑算法310分别提供主功率信号320和参考功率信号322。

在某些示例中，主信号306可直接与参考信号308比较，并且如果主信号306具有更大振幅，则推断出用户正在谈话。在其他示例中，比较主功率信号320和参考功率信号322，并且如果主功率信号320具有更大振幅，则作出用户正在谈话的确定。在某些示例中，阈值应用于规定最小信号差分，以提供用户实际上正在谈话的置信水平。在图3所示的示例性方法300中，通过在框324处将参考功率信号322乘以阈值来应用阈值。例如，可具有如下的一定置信水平：如果主功率信号320比参考功率信号322高至少8％，则用户正在谈话，并且在这种情况下，可在框324处将参考功率信号322乘以1.08以提供阈值功率信号326。然后在框328处将主功率信号320与阈值功率信号326进行比较。如果主功率信号320高于阈值功率信号326，则确定用户正在谈话，否则确定用户未在谈话。可经由阈值的选择来选择各种置信水平。例如，在各种示例中，阈值可包括2％至30％范围内的任何值，即，各种示例测试主功率信号320是否比参考功率信号322大例如2％至30％，这可通过在框324处将例如1.02至1.30的乘数应用于参考功率信号322来实现，以向框328处的比较提供阈值功率信号326。

在其他示例中，平滑主信号320可乘以阈值(例如，小于1)，作为参考功率信号322乘以阈值的替代或补充。在某些示例中，根据上文所讨论的主信号和参考信号中的任何一者的主信号与参考信号之间的比较可通过获得主信号与参考信号的比率来实现，并且该比率可与阈值(例如，1、1.08或诸如1.02至1.30的任何值范围或其他值)比较。然而，与计算比率并将该比率与分数阈值进行比较的方法相比，图3的示例性方法300在直接比较之前将这些信号之一乘以阈值，这可需要更小的计算能力或更少的处理资源。

在某些示例中，处理麦克风信号以检测耳机用户正在主动说话的可能性的方法(诸如示例性方法300)可包括带滤波或子带处理。例如，可对左信号302和右信号304进行滤波以在由例如示例性方法300处理之前去除不是典型语音或声道范围一部分的频率分量。此外，可将左信号302和右信号304分成频率子带，并且可由例如示例性方法300单独地处理一个或多个频率子带。滤波或子带处理中的任一者或这两者的组合可降低由与用户语音不相关的不相干声音引起的误报的可能性。然而，滤波或子带处理中的任一者可需要会使成本增加的附加电路部件，并且/或者可需要附加计算能力或处理资源，因此从电源(例如，电池)消耗更多能量。在某些示例中，滤波可提供准确性与功耗之间的良好折衷。

上文所讨论的图3的方法300是基于双耳(即，左和右)输入信号的处理和比较来检测用户的语音活动的示例性方法。根据本文所公开的各方面和示例的检测用户语音活动的附加方法涉及前信号和后信号。参照图4示出示例性方法400。示例性方法400接收前信号402和后信号404，并且比较它们的相对加权平均功率以确定用户是否正在说话。

当佩戴耳机的用户说话时，来自用户语音的声能将以比到达后麦克风更大的强度到达前麦克风(任一侧上，例如左耳罩或右耳罩)。许多因素影响到达前麦克风与到达后麦克风的声强差异。例如，后麦克风离用户嘴部更远，并且这两个麦克风均位于用户语音的近场区域中，这会使距离变化具有显著影响，因为声强以与距离的立方成比例地衰减。用户的头部以及耳罩和轭组件的存在还会形成声影，这进一步促使在到达后麦克风时声强更低。来自背景噪声及来自其他谈话者的声能在到达前麦克风和后麦克风时将趋于具有实质上相同的声强，因此前和后之间的信号能量差异可用于检测用户正在说话。示例性方法400相应地以与示例性方法300如何处理并比较主信号306和参考信号308类似的方式处理并比较前信号402中的能量与后信号404中的能量。

前信号402和后信号404各自分别由耳机单侧(例如，左耳罩或右耳罩)上的前麦克风和后麦克风提供并从其接收。例如，左前信号402可来自如图2(该图是左侧视图)所示的前麦克风202，或可为来自多个左侧前麦克风的输出的组合，或可仅存在单个左前麦克风。左后信号404可来自图2所示的后麦克风206或后麦克风(未示出)的组合(如上所讨论)。

前信号402和后信号404中的每一者可由如上所讨论的平滑算法310处理，以分别提供前功率信号420和后功率信号422。与上文所讨论的示例性方法300中在框324处应用阈值类似，可任选地在框424处将后功率信号422乘以阈值，以提供阈值功率信号426。在框428处将前功率信号420与阈值功率信号426进行比较，并且如果前功率信号420大于阈值功率信号426，则方法400确定用户正在说话；否则方法400确定用户未在说话。某些示例可包括平滑算法310的变型形式或不存在该平滑算法，如上文结合示例性方法300所讨论，并且某些示例可包括例如通过计算比率或通过应用阈值来进行比较的不同方法，类似于上文结合示例性方法300讨论的此类变型形式。

虽然已提到了多个功率信号例如主功率信号320和参考功率信号322以及前功率信号420和后功率信号422，但为图3至图4的示例性方法中的比较提供的信号可以是适用于如所述那样进行比较或以其他方式得出与各种信号的用户声音内容有关的结论的功率、能量、振幅的量度或其他可测量的信号强度指标。

在各种示例和组合中，一种或多种上述方法可用于检测耳机用户正在主动谈话，例如提供语音活动检测。任何该方法可基于例如麦克风质量、麦克风设置、声孔、耳机框架设计、阈值、平滑算法的选择、加权因数、窗口大小等以及可适应不同应用和操作参数的其他标准以不同可靠性水平实现。上述方法的任何示例对于某些应用而言可足以充分检测用户的语音活动。然而，可通过方法的组合(诸如上述那些的示例)来实现改进的检测，以在多种方法或方式之中结合并发性和/或置信水平。

图5的框图示出了用于用户语音活动检测的组合系统500的一个示例。图5的示例性系统500包括耳机组的左侧和右侧每一侧上的前麦克风和后麦克风。这些麦克风提供左前信号502、右前信号504、左后信号506和右后信号508。如上所讨论，任何麦克风可以是可按各种方式组合其输出信号的一组多个麦克风。可由双耳检测器510处理左前信号502和右前信号504，该双耳检测器实现以上述方法300为例的双耳检测方法的示例以产生指示用户语音活动与否的二进制输出512。可由第一前至后检测器520处理左前信号502和左后信号506，该第一前至后检测器实现以上述方法400为例的前至后检测方法的示例以产生指示用户语音活动与否的二进制输出522。类似地，可由第二前至后检测器530处理右前信号504和右后信号508，该第二前至后检测器实现前至后检测(以上述方法400为例)的示例以产生指示用户语音活动与否的二进制输出532。

二进制输出512、522或532中的任何一者可以可靠地指示用户语音活动，但它们可由逻辑540进一步组合以提供更可靠的组合输出550，从而指示用户语音活动的检测。在图5的示例性系统500中，逻辑540被示出为“与”逻辑，其需要所有三个二进制输出512、522和532来指示用户语音活动以提供指示用户语音活动的组合输出550。其他示例可包括不同组合逻辑540。例如，在某些示例中，组合输出550可仅需要这三个二进制输出512、522和532中的两个来指示用户语音活动以提供指示用户语音活动的组合输出550。在其他示例中，二进制输出512,522,532中的一个可优先于另两个，即，除非另两个在指定的结果中一致。在示例中，可存在不同数量或类型的检测器(例如，检测器510,520,530)，并且基于所包括的检测器的数量和类型，可存在更多或更少的二进制输出。

例如，图6示出了与系统500类似但包括不同组合逻辑640的组合系统600。在示例性系统600中，组合逻辑640包括在左前至后检测器620和右前至后检测器630两者都指示用户语音活动的情况下指示用户语音活动的“与”逻辑642，以及在双耳检测器610或左前至后检测器620和右前至后检测器630的组合指示用户语音活动的情况下提供总组合输出650来指示用户语音活动的“或”逻辑644。

附加类型的检测器包括至少阈值检测器和内部声音检测器。阈值检测器可检测一般阈值声级，并且可提供二进制输出来指示耳机附近的一般声级足够高，因而用户可能正在谈话。另选地，阈值检测器可指示一般声级最近已增加，因而用户可能正在谈话。阈值检测器或本文所公开的任何检测器的二进制输出可看作对组合输出550的附加输入，或可用作通向其他检测器的使能信号。因此，只要某种检测器(例如，阈值检测器)或检测器的组合指示没有用户语音活动，各种检测器就可保持断开状态或消耗更低功率。

内部声音检测器可检测一个或两个耳罩内的声级，诸如来自定位在耳罩内部的一个或多个内部麦克风120(参见图1)的声级。内部麦克风尤其对风噪声具有稳健性并且对其他声音也具有稳健性，因为内部麦克风可与耳机的外部物理地隔离。可监测内部麦克风的信号电平以确定用户是否正在说话。当用户说话时，内部麦克风处的信号会因通过骨骼、鼻腔等的声传导而增加，并且可测量内部麦克风处的信号电平并将其与阈值进行比较以确定是否存在用户的语音，或通过其他检测器确认(例如，增强的置信水平)语音活动的确定。

如上所讨论，滤波或子带处理也可增强根据本文所述的各方面和示例的语音活动检测系统的操作。在一个示例中，可对麦克风信号进行滤波以便频带限制于用户头部形成实质头影的频谱的一部分，即，对于来自前或后的声音将具有显著前至后差分以及对于来自侧面的声音将具有显著左至右差分的频率。在某些示例中，在由本文所述的各种检测器中的一个或多个处理之前，对各种麦克风信号中的一个或多个进行带通滤波以包括实质上从约800赫兹至2,000赫兹的频带。

图7示出了系统700的示例，该系统结合上文所讨论的各种检测方法和组合逻辑的多个示例。在示例性系统700中，在耳机组的左耳罩和右耳罩每一者中存在一个或多个前麦克风、后麦克风和内部麦克风702。可由滤波器704处理来自任何麦克风702的信号，以例如去除非声音频带或限制预期具有实质差分的频率范围，如上所讨论。阈值检测器706可监测麦克风702中的任何一个或多个，并且当存在指示用户可能正在说话的足够声级或声级变化时，启用检测器710、720、730和/或740中的任何一者。如上所讨论，阈值检测器可节省能量，因为每当声环境表现出用户可能未在谈话的特性(例如，缺少频谱内容或太安静)时，检测器710、720、730和/或740都可保持断开。双耳检测器710可为如上所讨论的双耳检测器的任何示例或其变型形式，并且左前至后检测器720和右前至后检测器730可为如上所讨论的前至后检测器的任何示例或其变型形式。示例性系统700还包括内部检测器740，该内部检测器将来自内部麦克风702中的一个或多个的一个或多个信号与阈值电平进行比较，以指示用户正在说话的可能性。向组合逻辑750提供来自检测器710、720、730和740中每一者的二进制输出以提供组合输出760。应当理解，图7的示例性系统700仅意在说明结合本文所公开的系统和方法的许多方面和示例的系统的示例，并非被呈现为主要或优选的示例。根据本文所公开的系统和方法的示例可以设想到组合逻辑、麦克风的数量和类型、检测器的数量和类型、阈值、滤波器等的许多变型形式。

应当理解，方法300、400或类似方法的任何功能以及系统500、600、700或类似系统的任何部件可在数字信号处理器(DSP)、微处理器、逻辑控制器、逻辑电路等或这些的组合中实现或实施，并且对于任何特定实施方式而言，可包括模拟电路部件和/或其他部件。本文所公开的功能和部件可在数字域中操作，并且某些示例包括由麦克风生成的模拟信号的模数(ADC)转换，即便各个附图中没有ADC的图示。任何合适的硬件和/或软件(包括固件等)可被配置为实施或实现本文所公开的各方面和示例的部件，并且各方面和示例的各种实施方式可包括除所公开的那些之外的部件和/或功能。

已经在上文描述了至少一个示例的若干方面，应当理解，本领域技术人员将容易想到各种改变、修改和改进。此类改变、修改和改进旨在成为本公开的一部分，并且旨在落入本发明的范围内。因此，前面的描述和附图仅是示例性的，并且本发明的范围应由所附权利要求书的适当构造及其等同内容来确定。

Claims

1.一种耳机系统，包括：

左听筒；

右听筒；

左麦克风，所述左麦克风耦接到所述左听筒以接收左声学信号并提供从所述左声学信号导出的左信号；

右麦克风，所述右麦克风耦接到所述右听筒以接收右声学信号并提供从所述右声学信号导出的右信号；和

检测电路，所述检测电路耦接到所述左麦克风和所述右麦克风，所述检测电路被配置为将主信号与参考信号进行比较，并且至少部分地基于所述比较来选择性地指示用户正在说话，所述主信号从所述左信号和所述右信号的总和导出，并且所述参考信号从所述左信号和所述右信号之间的差值导出。

2.根据权利要求1所述的耳机系统，其中所述检测电路被配置为在所述主信号超过所述参考信号达阈值时指示所述用户正在说话。

3.根据权利要求1或2所述的耳机系统，其中所述检测电路被配置为通过比较所述主信号和所述参考信号各自的功率含量来将所述主信号与所述参考信号进行比较。

4.根据权利要求1-3中任一项所述的耳机系统，其中对所述主信号和所述参考信号各自进行带滤波。

5.根据权利要求1-4中任一项所述的耳机系统，其中所述左麦克风和所述右麦克风中的至少一者包括多个麦克风，并且相应左信号或右信号至少部分地从所述多个麦克风导出，作为来自所述多个麦克风中的一个或多个的输出的组合。

6.根据权利要求1-5中任一项所述的耳机系统，还包括：

后麦克风，所述后麦克风耦接到任一听筒并且被定位成接收后声学信号，所述后声学信号相对于所述左声学信号和所述右声学信号中的任一者或两者朝向所述用户头部的后部；

所述检测电路被进一步配置为将从所述后麦克风导出的后信号与所述左信号和所述右信号中的至少一者进行比较以生成后比较，并且进一步基于所述后比较来选择性地指示所述用户正在说话。

7.根据权利要求6所述的耳机系统，其中当所述主信号超过所述参考信号达第一阈值并且所述左信号和所述右信号中的所述至少一者超过所述后信号达第二阈值时，所述检测电路指示所述用户正在说话。

8.一种耳机系统，包括：

第一听筒；

第一前麦克风，所述第一前麦克风耦接到所述第一听筒以接收第一声学信号；

第一后麦克风，所述第一后麦克风耦接到所述第一听筒以接收第二声学信号，所述第二声学信号相对于所述第一声学信号朝向用户头部的后部；和

检测电路，所述检测电路耦接到所述第一前麦克风和所述第一后麦克风，并且被配置为将从所述第一前麦克风导出的前信号与从所述第一后麦克风导出的后信号进行比较，并且至少部分地基于所述比较来选择性地指示所述用户正在说话。

9.根据权利要求8所述的耳机系统，其中所述检测电路被配置为在所述前信号超过所述后信号达阈值时指示所述用户正在说话。

10.根据权利要求8或9所述的耳机系统，其中所述检测电路被配置为通过比较所述前信号和所述后信号各自的功率含量来将所述前信号与所述后信号进行比较。

11.根据权利要求8-10中任一项所述的耳机系统，其中对所述前信号和所述后信号进行带滤波。

12.根据权利要求8-11中任一项所述的耳机系统，其中所述第一前麦克风包括多个麦克风，并且所述前信号至少部分地从所述多个麦克风导出，作为来自所述多个麦克风中的一个或多个的输出的组合。

13.根据权利要求8-12中任一项所述的耳机系统，还包括：

第二听筒；

第二前麦克风，所述第二前麦克风耦接到所述第二听筒以接收第三声学信号；和

第二后麦克风，所述第二后麦克风耦接到所述第二听筒以接收第四声学信号，所述第四声学信号相对于所述第三声学信号朝向所述用户头部的后部；

其中所述比较是第一比较并且所述检测电路被进一步配置为执行第二比较，并且至少部分地基于所述第一比较和所述第二比较来选择性地指示所述用户正在说话，所述第二比较包括将从所述第二前麦克风导出的第二前信号与从所述第二后麦克风导出的第二后信号进行比较。

14.根据权利要求8-12中任一项所述的耳机系统，还包括：

第二听筒；和

第三麦克风，所述第三麦克风耦接到所述第二听筒以接收第三声学信号并提供第三信号；

其中所述比较是第一比较并且所述检测电路被进一步配置为：

将所述第三信号与选择的信号组合，所选择的信号是所述前信号和所述后信号中的一者，

确定所述第三信号与所选择的信号之间的差值，

执行第二比较，所述第二比较包括将所组合的信号与所确定的信号进行比较，以及

至少部分地基于所述第二比较来选择性地指示所述用户正在说话。

15.一种确定耳机用户正在说话的方法，所述方法包括：

接收从第一麦克风导出的第一信号；

接收从第二麦克风导出的第二信号；

提供从所述第一信号和所述第二信号的总和导出的主信号；

提供从所述第一信号和所述第二信号之间的差值导出的参考信号；

将所述主信号与所述参考信号进行比较；以及

至少部分地基于所述比较来选择性地指示用户正在说话。

16.根据权利要求15所述的方法，其中将所述主信号与所述参考信号进行比较包括比较所述主信号是否超过所述参考信号达阈值。

17.根据权利要求15或16所述的方法，其中将所述主信号与所述参考信号进行比较包括比较所述主信号和所述参考信号各自的功率含量。

18.根据权利要求15-17中任一项所述的方法，还包括对所述第一信号、所述第二信号、所述主信号和所述参考信号中的至少一者进行滤波。

19.根据权利要求15-18中任一项所述的方法，其中所述第一信号至少部分地从多个第一麦克风导出，作为来自所述多个第一麦克风中的一个或多个的输出的组合。

20.根据权利要求15-19中任一项所述的方法，还包括：

接收从第三麦克风导出的第三信号；

将所述第三信号与所述第一信号和所述第二信号中的至少一者进行比较以生成第二比较；以及