CN113196797B

CN113196797B - 用于可听设备的控制的声学手势检测

Info

Publication number: CN113196797B
Application number: CN201980081820.9A
Authority: CN
Inventors: L-H.金; D.王; F.萨基; E.维泽; A.K.科内茨; S.卡齐乌纳斯; S.张; C-Y.洪
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2018-12-17
Filing date: 2019-12-12
Publication date: 2022-09-20
Anticipated expiration: 2039-12-12
Also published as: US10623845B1; TW202030597A; CN113196797A; KR102389646B1; WO2020131580A1; KR20210076996A; EP3900389A1

Abstract

提出了用于手势控制的方法、系统、计算机可读介质和装置。一个示例包括基于来自第一音频输入信号的信息指示在麦克风附近的对象的存在，并且响应于该指示而增加音量级。

Description

用于可听设备的控制的声学手势检测

35 U.S.C.§119下优先权的主张

本专利申请要求于2018年12月17日提交的非临时申请号为16/222,995、题为“ACOUSTIC GESTURE DETECTION FOR CONTROL OF A HEARABLE DEVICE”的优先权，该申请已转让给其受让人，在此通过引用明确并入本文。

技术领域

本公开的各方面涉及声学手势检测。

背景技术

可听设备或“可听戴设备”(也称为“智能头戴式耳机”、“智能耳机”或“智能耳塞”)正变得越来越流行。此类设备设计为戴在耳朵上或耳内，已用于多种用途，包括无线传输和健康追踪。如图1A所示，可听戴设备的硬件架构通常包括将声音再现到用户的耳朵的扬声器；用于感测用户的声音和/或环境声音的麦克风；和用于与另一个设备(例如智能电话)进行通信的信号处理电路。可听戴设备还可以包括一个或多个传感器：例如，用于跟踪心率、用于跟踪物理活动(例如，身体运动)或用于检测接近度。

发明内容

一种根据总体配置的手势控制的方法包括：基于来自第一音频输入信号的信息确定用户已经做出预定手势；并且响应于该确定，相对于基于第一音频输入信号的源信号的总能量，增加源信号的期望的声音分量的能量。在该方法中，第一音频输入信号基于来自佩戴在用户耳朵处的麦克风产生的第一麦克风信号的信息。一种根据另一总体配置的用于音量级的手势控制的方法包括：接收基于第一麦克风的输出信号的第一音频输入信号；至少基于第一音频输入信号的频谱变化，指示在第一麦克风附近的对象的存在；以及响应于该指示，增加音量级。还公开了包括代码的计算机可读存储介质，该代码在由至少一个处理器执行时，使该至少一个处理器执行这种方法。

一种根据总体配置的用于手势控制的装置包括：声学变化检测器，被配置为基于来自第一音频输入信号的信息指示用户已经做出预定手势；和信号增强器，被配置为相对于基于第一音频输入信号的源信号的总能量，并且响应于该指示，增加源信号的期望的声音分量的能量。在该装置中，第一音频输入信号基于来自佩戴在用户的耳朵处的麦克风产生的第一麦克风信号的信息。一种根据另一总体配置的用于音量级的手势控制的可穿戴设备包括：被配置为存储计算机可执行指令的存储器；和处理器，其耦合到该存储器并被配置为执行计算机可执行指令以：接收基于第一麦克风的输出信号的第一音频输入信号；至少基于第一音频输入信号的频谱变化，指示第一麦克风附近的对象的存在；以及响应于该指示，增加可穿戴设备的音量级。还公开了一种装置，其包括：被配置为存储计算机可执行指令的存储器；和耦合到该存储器并被配置为执行计算机可执行指令以执行此类操作(例如，指示、增加、接收)的处理器。

附图说明

本公开的各方面以示例的方式说明。在附图中，相似的附图标记表示相似的元件。

图1A示出了可听戴设备的框图。

图1B示出了包括根据总体配置的装置A100的设备D100的框图。

图2示出了作为要佩戴在用户的右耳处的可听戴设备的设备D100的实现方式D110R的图片。

图3示出了难以听到期望的声音的人的示例。

图4A和4B示出了由用户覆盖她的右耳引起的频谱变化的两个示例。

图5A和5B示出了来自用户佩戴的可听戴设备的外部和内部麦克风的信号的平均频谱的图。

图6A示出了包括装置A100的实现方式A105和内部麦克风MC20的设备D100的实现方式D105的框图。

图6B示出了包括装置A100的实现方式A200的设备D100的实现方式D200的框图。

图7示出了作为被配置为要佩戴在用户的双耳处的可听戴设备的设备D100的实现方式D120的图片。

图8A示出了设备A105和D200的实现方式D205的框图。

图8B示出了包括装置A200的实现方式A300的设备D200的实现方式D300的框图。

图9A示出了包括装置A105和A300的实现方式A305的设备D105和D300的实现方式D305的框图。

图9B示出了包括装置A200的实现方式A400的设备D200的实现方式D400的框图。

图10A示出了包括装置A100的实现方式A110的设备D100的实现方式D110的框图。

图10B示出了设备D110和D200的实现方式D210的框图。

图11A示出了设备D110和D300的实现方式D310的框图。

图11B示出了包括装置A100的实现方式A120的设备D100的实现方式D120的框图。

图12A示出了包括装置A200的实现方式A220的设备D200的一种实现方式D220的框图。

图12B示出了包括装置A300的实现方式A320的设备D300的实现方式D320的框图。

图13A示出了包括装置A100的实现方式A130的设备D100的实现方式D130的框图。

图13B示出了包括装置A200的实现方式A230的设备D200的实现方式D230的框图。

图14A示出了包括装置A300的实现方式A330的设备D300的实现方式D330的框图。

图14B示出了包括装置A210的实现方式A410的设备D210的实现方式D410的框图。

图15示出了包括装置A230的实现方式A430的设备D230的实现方式D430的框图。

图16A和16B示出了设备D410或D430的实现方式D412的用户难以听见用户面对的说话者的示例。

图17A示出了根据总体配置的手势控制的方法M100的流程图。

图17B示出了根据总体配置的用于手势控制的装置F100的框图。

具体实施方式

如本文公开的方法、装置和系统包括可用于提供简单且稳健的方法以使用用户输入来直接控制可听戴设备、而不依赖于另一设备(例如智能电话)的用户界面的实现方式。例如，此类技术可用于克服可听戴设备的功耗约束典型地限制可听戴设备可包含的传感器的数量的困难。

可期望通过识别手势作为用户输入，来实现对具有非常有限的传感器可用性(例如，仅麦克风)的设备(诸如可听戴设备)的控制。作为一个具体的示例，公开了将手靠近耳朵的典型动作的识别，并且使用这种识别来用系统启用期望的动作(例如，增强声学信号)。该原则可泛化到其他手势，并且还可以通过附加传感器和/或无线信道以及自然声学信道的可用性进行扩展。

现在将关于形成其一部分的附图描述几个说明性实施例。尽管下文描述了可以实施本公开的一个或多个方面的具体实施例，但是在不脱离本公开的范围或所附权利要求的精神的情况下可以使用其他实施例并且可以作出各种修改。

除非受其上下文明确限制，否则本文中术语“信号”用于指示其任何普通含义，包括如在线、总线或其他传输介质中表达的存储器位置(或存储器位置集合)的状态。除非受其上下文明确限制，否则本文中术语“生成”用于指示其任何普通含义，诸如计算或以其他方式产生。除非受其上下文明确限制，否则本文中术语“计算”用于指示其任何普通含义，诸如计算、评估、估计和/或从多个值中选择。除非受其上下文明确限制，否则术语“获得”用于指示其任何普通含义，诸如计算、导出、接收(例如，从外部设备)和/或检索(例如，从存储元素的阵列)。除非受其上下文明确限制，否则术语“选择”用于指示其任何普通含义，诸如识别、指示、应用和/或使用两个或多个的集合中至少一个且少于全部。除非受其上下文明确限制，否则术语“确定”用于指示其任何普通含义，诸如决定、建立、得出结论、计算、选择和/或评估。在本说明书和权利要求中使用术语“包括”时，不排除其他元件或操作。术语“基于”(如“A基于B”)用于指示其任何普通含义，包括情况(i)“从……导出”(例如，“B是A的前提”)，(ii)“至少基于”(例如，“A至少基于B”)，以及，如果在特定上下文中合适，(iii)“等于”(例如，“A等于B”)。类似地，术语“响应于”用于指示其任何普通含义，包括“至少响应于”。除非另有说明，否则术语“A、B和C的至少一个”、“A、B和C的一个或多个”、“A、B和C中的至少一个”和“A、B和C中的一个或多个”指示“A和/或B和/或C”。除非另有说明，否则术语“A、B和C的每一个”和“A、B和C中的每一个”均指示“A、B和C”。

除非另有说明，否则具有特定特征的装置的操作的任何公开也明确旨在公开具有类似特征的方法(反之亦然)，以及根据特定配置的装置的操作的任何公开配置还明确旨在公开根据类似配置的方法(反之亦然)。术语“配置”可以参考由其特定上下文所指示的方法、装置和/或系统来使用。除非特定上下文另外指出，否则术语“方法”、“处理”、“过程”和“技术”通用且可互换地使用。具有多个子任务的“任务”也是方法。除非特定上下文另有指示，否则术语“装置”和“设备”也通用和可互换地使用。术语“元件”和“模块”典型地用于指示更大配置的一部分。除非受其上下文明确限制，否则术语“系统”在本文中用于指示其任何普通含义，包括“一组相互作用以服务于共同目的的要素”。

除非最初由定冠词引入，否则用于修饰权利要求要素的序数术语(例如，“第一”、“第二”、“第三”等)本身并不指示权利要求要素相对于另一个的任何优先级或顺序，而只是将权利要求要素与具有相同名称(如果没有使用序数术语)的另一个权利要求要素区分开来。除非受其上下文明确限制，否则术语“多个”和“组”中的每一个在本文中用于指示大于一的整数数量。

图1B示出了根据总体配置的包括装置A100的设备D100的框图。装置A100包括声学变化检测器CD100，其被配置为基于来自第一音频输入信号IS10的信息指示在麦克风附近的对象的存在(例如，通过改变控制信号CS10的逻辑状态)。例如，对象可以是处于预定手势的设备的用户的手。第一音频输入信号IS10基于来自由佩戴在用户的耳朵处的麦克风产生的第一麦克风信号的信息。在图1B的示例中，设备D100还包括产生第一麦克风信号的麦克风MC10。装置A100和/或设备D100可以被配置为通过对由麦克风MC10响应于声振动而产生的信号执行一个或多个预处理操作(未示出)，诸如模拟到数字的转换、均衡、电平控制等中的任何，获得第一音频输入信号IS10。装置A100的处理器可以被配置为从设备的存储器(例如，缓冲器)接收第一音频输入信号IS10。

装置A100还包括信号增强器SE100，其被配置为增加基于第一麦克风信号的信号的音量级(例如，信号的期望分量的相对音量级)。例如，信号增强器SE100可以被配置为响应于指示，产生包含第一音频输入信号的期望声音分量的输出信号，以使输出信号中期望声音分量的能量相对于输出信号的总能量，大于第一音频输入信号中的期望声音分量的能量相对于第一音频输入信号的总能量。在一个示例中，信号增强器SE100被配置为使用静态噪声参考(例如，第一音频输入信号的稳态平均值，如在频域中在已识别的瞬态源(诸如说话者的语音)为非活动期间的一个或多个间隔上测量)来抑制第一音频输入信号中的环境噪声。在另一个示例中，信号增强器SE100被实现为分离网络，其配置为将期望声音分量与静态和非静态噪声分开。在图1B的示例中，设备D100包括被配置为基于由信号增强器SE100产生的输出信号OS10再现信号的扬声器。

装置A100和/或设备D100的用例的示例包括酒吧、自助餐厅或其他空间，在这些空间中环境噪声太大而不允许用户足够好地听到附近朋友的声音以进行正常对话。可期望使用该装置和/或设备来降低环境噪声的音量并增加对话的音量，并使用自然手势来实现该目标。例如，可期望为用户提供足够的控制以通过做出与可听设备相关的自然手势来实现该目标，并避免为此目的用户使用另一个设备(例如智能电话)来向可听设备提供控制界面。在另一个示例中，装置A100的至少一部分(例如，声学变化检测器CD100)位于可穿戴设备或“可佩戴设备”中，其可以被配置为与可听戴设备无线地进行通信(例如，接收音频输入信号和发送相应的音量级命令)。可穿戴设备的示例包括(除了可听戴设备之外)手表、头戴式显示器、耳机、健身追踪器和吊坠。

图2示出了作为要佩戴在用户的右耳处的可听戴设备的设备D100的实现方式D110R的图片。这样的设备D110R可以包括用于将设备固定在耳甲艇和/或耳廓的钩或翼中的任何一个；用于提供被动的隔音的耳塞；一个或多个用于用户控制的开关和/或触摸传感器；一个或多个附加麦克风(例如，用于感测声学错误信号)；以及一个或多个接近传感器(例如，用于检测设备是否正被佩戴)。

发明人已经注意到，难以听到期望声音的人倾向于将手放在她的一只耳朵上，并且还可能朝着声源的方向倾斜和/或旋转她的头(例如，如图3所示)。当用户的手覆盖或半覆盖她的一只耳朵时，在该耳朵外面形成新的声腔。新的腔的形成改变了耳道入口处的声学共振，导致频谱的某个频率范围被放大，而其他频率分量被衰减。

因此，当用户将手保持在她的耳朵处时，由于具有特征共振的新声腔的形成(例如，在外耳)，在该耳朵处的麦克风的输出中可能检测到突然的频谱变化。频谱变化可以发生在例如大约一到大约三千赫兹的范围内，或者大约一到大约五千赫兹的范围内。声学变化检测器CD100可以实现为例如通过比较信号中随时间推移的当前平均频谱和信号中随时间推移的先前的平均频谱以判定新的声腔是否已在耳朵处形成，检测第一音频输入信号IS10的这种变化。

图4A和4B示出了由用户覆盖她的右耳引起的频谱变化的两个示例。这些图是从由面对白噪声点源的用户佩戴的一对可听戴设备的外部麦克风记录的。在每张图中，实线表示左耳处的频谱，虚线表示右耳处的频谱，上图表示遮耳前的结果，并且下图表示遮耳后的结果。在图4A和再一次在图4B中，当右耳被覆盖时，在大约一到两千赫兹的范围内，可以看到右耳信号增加了大约十分贝。

声学变化检测器CD100可以被配置为通过检测第一音频输入信号IS10的频谱的变化，诸如平均频谱随时间的变化，来检测对象(例如，用户的手)的存在。声学变化检测器CD100可以被配置为例如检测第一音频输入信号IS10的一个或多个检测频带的能量相对于信号IS10的一个或多个一个或多个控制频带(例如，信号IS10的整个频谱，或信号IS10的剩余频谱)的能量的变化。检测频带的示例包括约一到约二、三或五千赫兹。

在一个示例中，声学变化检测器CD100被配置为通过对来自信号的一系列重叠的快速傅立叶变换(FFT)或短时傅里叶变换(STFT)的随时间的功率谱密度求平均，计算第一音频输入信号IS10的关于频率的能量分布。在这种情况下，声学变化检测器CD100可以被配置为将信号的频带中的能量计算为该频带中FFT或STFT分量的平方幅度之和。替代地，声学变化检测器CD100可以被配置为通过使用滤波器来选择期望的频带(例如，二阶无限脉冲响应或‘双二阶’滤波器)来计算时域中信号的频带中的能量，并将该能量计算为滤波器输出的平方样本之和。

声学变化检测器CD100可以被配置为通过将检测带能量和控制带能量之间的关系(例如，比率)与阈值进行比较来检测相对能量的变化，并且这种比较可以以例如0.1、0.2、0.25、0.4、0.5或1秒的间隔重复。可能期望基于环境(例如，响应于瞬态信号活动的变化、背景信号能量等)来改变阈值和间隔时段中的一者或两者。

在一些情况下，可听戴设备还可以提供有位于耳道内的内部麦克风。例如，这样的麦克风可用于获得用于主动降噪(ANC)的误差信号(例如，反馈信号)。声学变化检测器CD100可以实现为基于信号的频谱变化(附加地或替代地来自外部麦克风的信号变化)来指示对象(例如，用户的手)的存在。图5A和5B显示了来自用户佩戴的可听戴设备的外部和内部麦克风(分别为顶部和底部图)的信号的平均频谱图，其中可听戴设备未被用户的手覆盖(黑线)和被用户的手覆盖(白线)。在图5A中，用户正面对白噪声点源，并且手势引起来自外部麦克风的信号的频谱变化，其在1-3kHz之间以及在5-10kHz之间的频谱变化更加明显。在图5B中，用户位于扩散噪声场中，并且在这种情况下，手势导致来自内部麦克风的信号的频谱变化，其在5到10kHz之间以及在15到18kHz之间更加明显。

图6A示出了包括装置A100的实现方式A105和内部麦克风MC20的设备D100的实现方式D105的框图。装置A105包括声学变化检测器CD200的实例，如本文中关于声学变化检测器CD100的描述，其被布置为接收基于麦克风MC20的输出信号的音频输入信号IS20，并且将检测到对象的存在(例如，预定的手势)指示给信号增强器SE100的实例。声学变化检测器CD200可以被配置为通过检测第一音频输入信号IS10的频谱变化和音频输入信号IS20的频谱变化中的至少一个来检测对象的存在(例如，用户已经做出预定手势)。声学变化检测器CD200可以被配置为检测第一音频输入信号IS10的频谱的变化，如上文中关于声学变化检测器CD100的描述，并且声学变化检测器CD200可以被配置为以类似的方式(例如，使用从大约5到大约10kHz和/或从大约15到18kHz的检测频带)来检测第一音频输入信号IS10的频谱的变化。在进一步的示例中，声学变化检测器CD200可以被配置为基于信号IS10和IS20的频谱来指示对象的方向(例如，用户的手是环抱耳朵还是覆盖在耳朵上)。

由信号增强器SE100提供的增强可以扩展到双耳操作。图6B示出了包括装置A100的实现方式A200的设备D100的实现方式D200的框图。在装置A200中，信号增强器SE100被实现为定向选择处理器DS100，其被配置为在多声道信号中执行定向选择处理操作，该多通道信号包括第一音频输入信号IS10(这里标记为“IS10L”)和第二音频输入信号IS10R(例如，基于由用户的另一只耳朵处的麦克风产生的信号)。定向选择处理器DS100可以被实现为例如波束形成器，或者波束形成器/零点形成器(BFNF)。定向选择处理器DS100可以被配置为例如传递或增强来自从用户正面向的方向(例如，来自远离用户的耳间轴的源)的声音和/或阻止或抑制来自用户两旁的声音(例如，来自靠近用户的耳间轴的源)。

在用户的每只耳朵处佩戴的可听戴设备可以被配置为无线地(例如，通过蓝牙

(例如，如由华盛顿州柯克兰市的蓝牙特殊兴趣小组(SIG)指定))或近场磁感应(NFMI))或通过有线向彼此传达音频和/或控制信号。图7示出了作为被配置为要佩戴在用户的双耳处的可听戴设备的设备D100的实现方式D120的图片，该实现方式D120包括在每只耳朵处的麦克风MC10(MC10L、MC10R)和扬声器LS10(LS10L、LS10R)的对应实例。

图8A设备A105和D200的实现方式D205的框图，该实现方式D205包括内部麦克风MC20L的左耳实例以及装置A105和A200的实现方式A205。

图8B示出包括装置A200的实现方式A300的设备D200的实现方式D300的框图。装置A300包括接收左和右音频输入信号的声学变化检测器CD100的实现方式CD110。声学变化检测器CD110可以被实现为例如通过比较左耳的随时间的当前平均频谱和右耳的随时间的当前平均频谱，和/或通过比较右耳的随时间的当前平均频谱和右耳的随时间的先前平均频谱，检测右耳信号IS10R的频谱的变化(例如，在右耳已经形成新的共振)。

图9A示出设备D105和D300的实现方式D305的框图，该实现方式D305包括分别用于用户的左耳和右耳中的每一个的外部麦克风MC10L、MC10R和内部麦克风MC20L、MC20R、以及装置A105和A300的实现方式A305。装置A305包括声学变化检测器CD110和CD200的实现方式CD210的实例，如本文中关于声学变化检测器CD110和CD200的描述，其被布置成控制定向选择处理器DS100的实例。

为了保持自然的控制界面和/或让用户声学上继续听到期望声音，可期望实现声学变化检测器CD100(包括其实现方式)来检测控制手势(例如，手放在或环抱在耳朵上)，而无需用户完全盖住耳朵。替代地或附加地，声学变化检测器CD100可以被实现为检测手完全覆盖耳朵作为不同于将手环抱在耳朵上的另一控制指示。替代地或附加地，声学变化检测器CD100可以被实现为检测在左耳做出的手势作为与在右耳做出的类似手势不同的控制功能。

可能期望提供初始注册会话以允许声学变化检测器CD100根据用户的特定声学特性正确地识别控制手势。这样的会话可以包括图形用户界面，其链接到设备并指示用户重复每个期望的控制手势(例如，完全覆盖左耳、完全覆盖右耳、环抱左耳、环抱右耳)多次(例如，每个五次，可能以随机顺序)，从而可以以对用户行为的变化具有鲁棒性的方式为每个控制手势记录由于共振引起的相应频谱变化。在另一示例中，用户界面是通过设备的扬声器来指导用户的音频界面。在一个示例中，声学变化检测器CD100(例如CD105、CD110、CD150、CD160、CD200、CD210)的实现方式被配置为包括使用此类记录数据训练的神经网络。

这种控制界面可以广泛地应用于任何功能的控制。在另一个应用中，用户可以覆盖她的一只或一对耳朵以启动主动降噪(ANC)和/或媒体回放。例如，设备D100的这种实现方式可以被配置为允许用户覆盖双耳来选择ANC，并且覆盖任意一只耳朵来选择媒体回放(替代地，通过覆盖左耳或右耳来选择不同的媒体源)。在媒体回放期间，设备D100的这种实现方式还可以被配置为允许用户覆盖耳朵以跳到下一音轨，或者例如覆盖或握住她的左耳来选择“提高音量”功能和覆盖或握住她的右耳以选择“降低音量”功能。

可期望配置定向选择处理器DS100以允许用户根据保持相应控制手势的持续时间来控制选择性的程度(例如，定向的响应的主瓣的窄度)。例如，定向选择处理器DS100可以被配置为当控制信号CS10保持在活动状态时，随着时间变得越来越具有选择性。

替代地或附加地，可期望允许用户根据保持相应控制手势的持续时间来控制相对增强的程度(例如，方向分量的相对音量级)。在一个示例中，添加音频输出级，以用于对定向选择处理器DS100产生的输出信号的增益和混合。图9B示出设备D200的实现方式D400的框图，该实现方式D400包括定向选择处理器DS100的实现方式DS200、声学变化检测器CD100的实现方式CD105和音频输出级AO100。定向选择处理器DS200被实现为输出包括来自所选择的方向的信号分量的输出信号OS10和包括来自非所选择的方向的信号分量的噪声信号NS10。声学变化检测器CD105被配置为产生控制信号CS20以在保持相应的控制手势的同时具有活动状态，并且音频输出级AO100被配置为产生输出信号OS20，其中当控制信号CS20保持在活动状态时，输出信号OS10的权重相对于噪声信号NS10的权重增大随时间增加。

图10A示出包括装置A100的实现方式A110的设备D100的实现方式D110的框图。装置A110包括加速度计AC100，其产生指示装置的加速度的信号DS10。装置A110还包括：检测逻辑DL100，其产生指示所指示的加速度和阈值之间关系的状态的控制信号CS30；以及声学变化检测器CD100的实现方式CD150，其被控制信号CS30的活动状态激活。这种布置可以通过仅在检测到所指示的加速度超过阈值时激活信号变化检测器CD150来节省设备的功率。加速度计AC100(可以具有一个、两个或三个轴)可以包括在惯性测量单元(IMU)中，该惯性测量单元还可以包括一个或多个陀螺仪和/或磁力计。图10B示出包括装置A110和A200的实现方式A210的设备D110和D200的实现方式D210的框图，并且图11A示出包括装置A110和A300的实现方式A310的设备D110和D300的实现方式D310的框图。

很可能加速度计AC100将比用户将做出预定控制手势更频繁地指示有意义的加速度。因此，可能期望(例如，为了节省功率)不太频繁地激活声学变化检测器CD100。图11B示出包括装置A100的实现方式A120的设备D100的实现方式D120的框图。装置A120类似于装置A110，除了加速度计AC100是由来自声学变化检测器CD100的控制信号CS10激活，并且信号增强器SE100是由来自检测逻辑DL100的控制信号CS30激活。图12A示出设备D200的类似实现方式D220的框图，并且图12B示出设备D300的类似实现方式D320的框图。在这样的设备中，加速度计AC100和/或检测逻辑DL100可以被实现为包括容量大约等于例如0.25、0.5、1或2秒的缓冲器(例如，环形缓冲器或其他先进先出(FIFO)缓冲器)，以支持识别发生在检测到相应的控制手势事件稍稍之前的有意义的加速度事件。

图13A示出包括装置A100的实现方式A130的设备D100的另一实现方式D130的框图。装置A130包括检测逻辑DL100的实现方式DL200，其被配置为检测有意义的加速度事件和控制手势事件的对应(例如，同时)发生。图13B示出设备D200的类似实现方式D230的框图，并且图14A示出设备D300的类似实现方式D330的框图。

可期望将设备D100配置为基于用户的行为的模型来识别和执行期望的操作。这样的设备可以用如上所述的手势元素进行训练和/或用用户的行为的更广泛方面进行训练。在一个示例中，训练界面可以被配置为用如下命令提示用户提供将对象接近度和加速度相关联的数据，所述命令诸如：“将一只手放在你的耳朵上并移动你的头就好像表示听到你前面的人……你左边的人……你右边的人有困难”。在一个示例中，检测逻辑DL100(例如，DL110、DL200)的实现被配置为包括使用此类数据训练的神经网络。

可期望基于来自加速度计AC100的输出来控制声音增强和/或抑制的方向性。图14B示出包括装置A210的实现方式A410的设备D210的实现方式D410的框图。装置A410包括检测逻辑DL100的实现方式DL110，其被配置为确定例如与手势同时的加速度发生的方向，或与当这样的加速度结束时产生的取向相关联的方向(例如，用户正面对的方向、用户的耳间轴的方向等)。对于加速度计AC100是IMU的一部分的情况，检测逻辑DL110可以被配置为也基于IMU的其他传感器(例如，一个或多个陀螺仪和/或磁力计)的输出来确定方向。装置A410还包括定向选择处理器DS100的实现方式DS200，其被配置为根据检测逻辑DL110指示的方向选择多通道输入信号的方向分量。装置A220、A310和A320中的任一个可以以类似的方式实施，使得检测逻辑DL100被实现为检测逻辑DL110的实例，该检测逻辑DL110被配置为向被实现为定向选择处理器DS200的实例的定向选择处理器DS100指示方向。图15示出包括装置A230的实现方式A430的设备D230的实现方式D430的框图。装置A430包括检测逻辑DL110的类似实现方式DL210，其被配置为向定向选择处理器DS100的实现方式DS200指示方向，并且装置A330可以类似方式实现。

可期望实现检测逻辑DL110(例如，DL210)来向定向选择处理器DS200指示用于增强的方向，其与所确定的方向不同。例如，所指示的方向可以基于如上所述的训练结果。图16A和16B示出了这样的示例，其中难以听到用户正面对的说话者(图16A)的用户通过将她的右手举到她的右耳并且将她的头部向左旋转大约四十五度来启动增强(图16B)。在这种情况下，检测逻辑DL110(DL210)已被训练为将用户的此类运动与期望的增强方向相关联，该方向大约在用户已经转向的方向与用户的耳间轴的右侧之间的中间。可期望配置检测逻辑DL110(DL210)在用户已经启动增强后继续使用来自加速度计AC100(以及可能来自IMU的其他传感器)的输出来控制定向选择处理器DS200保持对期望的源的增强，甚至在用户将她的头部转向另一个方向之后(例如，保持在图16B中启动的朝向说话者的增强，甚至在如图16A中那样用户转回面向说话者之后)。

对话中不同参与者佩戴的可听戴设备之间的无线连接可用于允许每个此类可听戴设备(例如，本文描述的设备D100的任何实现的进一步实施例)动态地估计每个其他参与者的直接混响比(DRR)以及到达方向(DoA)。无线连接可用于将由一个用户的可听戴设备的麦克风捕获的信号传输到其他用户的可听戴设备，其中可以执行计算(例如，基于无线信号携带的语音信息与包括在麦克风输出信号中的语音信息之间的相关性)。在这种情况下，如果其中一个用户转过头从其他参与者之一看向另一个参与者，则该用户的可听戴设备检测到方向的变化(例如，基于加速度计AC100的输出和/或麦克风MC10L和MC10R的输出)并用用户关注的新对象对应的DoA和DRR替代。

图17A示出根据总体配置的手势控制方法M100的流程图。方法M100包括基于来自第一音频输入信号的信息确定在麦克风附近的对象的存在的任务T100(例如，如本文中关于声学变化检测器CD100的描述)。第一音频输入信号是基于来自佩戴在用户的耳朵处的麦克风产生的第一麦克风信号的信息，并且对象可以是例如处于预定手势的用户的手。方法M100还包括增加基于第一麦克风信号的信号的音量级的任务T200(例如，如本文中关于信号增强器SE100的描述)。音量级可以是例如信号的期望分量的相对音量级。例如，任务T200可以响应于该确定并且相对于基于第一音频输入信号的源信号的总能量，增加源信号的期望声音分量的能量。

根据另一总体配置的音量级的手势控制方法包括：接收基于第一麦克风的输出信号的第一音频输入信号；至少基于第一音频输入信号的频谱的变化，指示在第一麦克风附近的对象的存在；并且响应于该指示，增加音量级(例如，如本文中关于装置A100及其实现的描述)。第一音频输入信号的频谱变化可以是第一音频输入信号的平均频谱随时间的变化。指示可以包括指示在第一麦克风附近的对象的方向。该增加可以基于指示的持续时间。这样的方法还可以包括以下的任何一个或多个：检测所指示的加速度不小于阈值，其中响应于该检测发生增加音量级；接收基于第二麦克风的输出信号的第二音频输入信号，其中该指示基于第一音频输入信号与第二音频输入信号之间的差值；接收基于第二麦克风的输出信号的第二音频输入信号并基于第一和第二麦克风的输出信号再现该信号；接收基于第二麦克风的输出信号的第二音频输入信号，其中音量级是所选择的方向上的多通道信号的音量级，并且其中多通道信号是基于第一和第二麦克风的输出信号(在这种情况下，该方法可以进一步包括指示与所指示的加速度相关联的方向，其中所选择的方向基于所指示的方向)。实现方式包括代码(例如，存储在非暂时性计算机可读存储介质中)，当由至少一个处理器执行时，该代码使该至少一个处理器执行如这些示例中的任何示例中的手势控制的方法。

图17B示出了根据总体配置的装置F100的框图，该装置F100包括用于基于来自第一音频输入信号的信息来指示在麦克风附近的对象的存在的部件MF100(例如，如本文中关于声学变化检测器CD100的描述)。第一音频输入信号是基于来自佩戴在用户的耳朵处的麦克风产生的第一麦克风信号的信息，并且对象可以是例如处于预定手势的用户的手。装置F100还包括用于增加基于第一麦克风信号的信号的音量级的部件MF200(例如，如本文中关于信号增强器SE100的描述)。音量级可以是例如信号的期望分量的相对音量级。例如，相对于基于第一音频输入信号的源信号的总能量，并且响应于该指示，工具MF200可以增加源信号的期望声音分量的能量(例如，如本文中关于信号增强器SE100的描述)。

根据另一总体配置的用于音量级的手势控制的装置包括：用于产生基于第一麦克风的输出信号的第一音频输入信号的部件；用于至少基于第一音频输入信号的频谱的变化来指示在第一麦克风附近的对象的存在的部件(例如，如本文中关于声学变化检测器CD100及其实现的描述)；以及用于响应于该指示增加音量级的部件(例如，如本文中关于信号增强器SE100及其实现的描述)。用于产生的部件可以包括一个或多个无源和/或有源组件以通过执行诸如阻抗匹配、滤波、放大和/或均衡的操作中的任何一个或多个，从来自对应的麦克风输出信号产生音频输入信号。在一些实现方式中，用于产生的部件可以至少部分地位于麦克风的外壳内。

第一音频输入信号的频谱的变化可以是第一音频输入信号的平均频谱随时间的变化。该指示可以包括指示在第一麦克风附近的对象的方向。该增加可以基于指示的持续时间。这样的装置还可以包括以下中的任何一个或多个：用于检测所指示的加速度不小于阈值的部件，其中增加音量级响应于检测发生；用于产生基于第二麦克风的输出信号的第二音频输入信号的部件，其中该指示基于第一音频输入信号和第二音频输入信号之间的差值；用于产生基于第二麦克风的输出信号的第二音频输入信号的部件和用于再现基于第一和第二麦克风的输出信号的信号的部件；用于产生基于第二麦克风的输出信号的第二音频输入信号的部件，其中音量级是所选择的方向上的多通道信号的音量级，并且其中多通道信号基于第一麦克风和第二麦克风的输出信号(在这种情况下，该装置可以进一步包括用于指示与所指示的加速度相关联的方向的部件，其中所选择的方向基于所指示的方向)。

如本文所公开的装置或系统的实现方式(例如，装置A100和F100及其实现方式)的各种元件可以体现为硬件与软件和/或与被认为适合于预期用途的固件的任何组合。例如，这样的元件可以被制造为驻于例如同一芯片上或芯片组中的两个或更多个芯片中的电子和/或光学设备。这种设备的一个示例是逻辑元件的固定或可编程阵列，诸如晶体管或逻辑门，并且这些元件中的任何一个都可以实现为一个或多个这样的阵列。任何两个或更多，甚至所有这些元件都可以在同一个或多个阵列中实现。这样的一个或多个阵列可以在一个或多个芯片内实现(例如，在包括两个或多个芯片的芯片组内)。

如本文所公开的用于处理的处理器或其他部件可以被制造为例如驻于在同一芯片上或芯片组中的两个或多个芯片中的一个或多个电子和/或光学设备。这种设备的一个示例是逻辑元件的固定或可编程阵列，诸如晶体管或逻辑门，并且这些元件中的任何一个都可以被实现为一个或多个这样的阵列。这样的一个或多个阵列可以在一个或多个芯片内实现(例如，在包括两个或多个芯片的芯片组内)。此类阵列的示例包括逻辑元件的固定或可编程阵列，诸如微处理器、嵌入式处理器、IP核、DSP(数字信号处理器)、FPGA(现场可编程门阵列)、ASSP(专用标准产品)和ASIC(专用集成电路)。如本文所公开的用于处理的处理器或其他部件也可以体现为一台或多台计算机(例如，包括被编程为执行一个或多个指令序列集合的一个或多个阵列的机器)或其他处理器。这里描述的处理器可用于执行与方法M100或M200(或如参考本文描述的装置或系统的操作所公开的另一方法)的实现方式的过程不直接相关的任务或执行其他指令集，所述任务诸如与处理器是嵌入式的设备或系统(例如，语音通信设备，诸如智能电话或智能扬声器)的另一操作相关的任务。如本文所公开的方法的一部分还可以在一个或多个其他处理器的控制下执行。

本文所公开的方法的每个任务可以直接体现在硬件、在由处理器执行的软件模块中、或在两者的组合中。在如本文所公开的方法的实现方式的典型应用中，逻辑元件的阵列(例如，逻辑门)被配置为执行该方法的各种任务中的一个、多个或甚至所有。一个或多个(可能所有)任务也可以实现为代码(例如，一组或多组指令)，体现在计算机程序产品中(例如，一个或多个数据存储介质，诸如磁盘、闪存或其他非易失性存储卡、半导体存储芯片等)，其可由包括逻辑元件阵列(例如处理器、微处理器、微控制器或其他有限状态机)的机器(例如计算机)读取和/或执行。本文公开的方法的实现的任务还可以由不止一个这样的阵列或机器来执行。在这些或其他实现方式中，任务可以在诸如蜂窝电话或具有这种通信能力的其他设备的用于无线通信的设备内执行。这种设备可以被配置为与电路交换和/或分组交换网络进行通信(例如，使用一种或多种协议，诸如VoIP)。例如，这样的设备可以包括被配置为接收和/或发送编码帧的RF电路。

在一个或多个典型性实施例中，本文描述的操作可以在硬件、软件、固件或其任何组合中实现。如果在软件中实现，则此类操作可以作为一个或多个指令或代码存储在计算机可读介质上或通过计算机可读介质传输。术语“计算机可读介质”包括计算机可读存储介质和通信(例如，传输)介质。作为示例而非限制，计算机可读存储介质可包括存储元件阵列，诸如半导体存储器(其可包括但不限于动态或静态RAM、ROM、EEPROM和/或闪存RAM)或铁电体、磁阻、双向的、聚合的或相变存储器；CD-ROM或其他光盘存储；和/或磁盘存储或其他磁存储设备。这种存储介质可以以可由计算机访问的指令或数据结构的形式存储信息。通信介质可包括可用于以指令或数据结构的形式承载期望的程序代码并且可由计算机访问的任何介质，包括有助于将计算机程序从一个地方转移到另一个地方的任何介质。另外，任何连接都被恰当地称为计算机可读介质。例如，如果软件是使用同轴电缆、光纤电缆、双绞线、数字用户线(DSL)或无线技术(如红外线、无线电和/或微波)从网站、服务器或其他远程源传输的，那么同轴电缆、光纤电缆、双绞线、DSL或无线技术(如红外线、无线电和/或微波)都包含在介质的定义中。如本文所用，磁盘和光盘包括紧凑盘(CD)、激光盘、光盘、数字多功能盘(DVD)、软盘和蓝光光盘^TM(蓝光光盘协会，环球城，加州)，其中磁盘通常以磁性方式再现数据，而光盘则使用激光以光学方式再现数据。上述的组合也应包括在计算机可读介质的范围内。

提供先前的描述以使本领域技术人员能够制造或使用所公开的实现方式。对这些实现方式的各种修改对于本领域技术人员来说将是显而易见的，并且在不脱离本公开的范围的情况下，本文定义的原则可以应用于其他实现方式。因此，本公开不旨在限于本文所示的实现方式，而是与符合所附权利要求定义的原则和新特征的可能的最宽范围一致。

Claims

1.一种用于音量级的手势控制的可穿戴设备，所述可穿戴设备包括：

存储器，被配置为存储基于第一麦克风的输出信号的第一音频输入信号；和

处理器，耦合到所述存储器并被配置为：

检测由加速度计指示的加速度不小于阈值；

接收所述第一音频输入信号；

至少基于所述第一音频输入信号的频谱变化，指示所述第一麦克风附近的对象的存在，其中在检测到所述加速度不小于所述阈值之后，检测所述频谱变化；以及

响应于所述检测和所述指示，增加所述可穿戴设备的音量级，

所述处理器还被配置为接收基于第二麦克风的输出信号的第二音频输入信号和指示与所指示的加速度相关联的方向，

其中，所述音量级是所选择的方向上的多通道信号的音量级，所述多通道信号基于所述第一麦克风和所述第二麦克风的输出信号，并且

其中，所选择的方向基于所指示的方向。

2.根据权利要求1所述的可穿戴设备，其中，所述第一音频输入信号的频谱变化是所述第一音频输入信号的平均频谱随时间的变化。

3.根据权利要求1所述的可穿戴设备，其中所述可穿戴设备是包括所述第一麦克风的可听戴设备。

4.根据权利要求1所述的可穿戴设备，其中，所述指示包括指示在所述第一麦克风附近的所述对象的方向。

5.根据权利要求1所述的可穿戴设备，其中所述增加基于所述指示的持续时间。

6.根据权利要求1所述的可穿戴设备，其中，所述处理器被配置为接收基于第二麦克风的输出信号的第二音频输入信号，并且

其中，所述指示基于第一音频输入信号和第二音频输入信号之间的差值。

7.根据权利要求1所述的可穿戴设备，其中，所述处理器被配置为接收基于第二麦克风的输出信号的第二音频输入信号，并且

其中，所述可穿戴设备是可听戴设备，所述可听戴设备包括所述第一麦克风和被配置为再现基于所述第一麦克风和所述第二麦克风的输出信号的信号的扬声器。

8.根据权利要求6所述的可穿戴设备，其中，所述第一麦克风朝向第一方向，并且其中，所述第二麦克风朝向不同于所述第一方向的第二方向。

9.一种音量级的手势控制的方法，所述方法包括：

接收基于第一麦克风的输出信号的第一音频输入信号；

检测指示的加速度不小于阈值；

至少基于所述第一音频输入信号的频谱变化，指示在所述第一麦克风附近的对象的存在，其中在检测到所述加速度不小于所述阈值之后，检测所述频谱变化；以及

响应于所述检测和所述指示，增加音量级，

所述方法还包括接收基于第二麦克风的输出信号的第二音频输入信号和指示与所指示的加速度相关联的方向，

其中，所选择的方向基于所指示的方向。

10.根据权利要求9所述的方法，其中，所述第一音频输入信号的频谱变化是所述第一音频输入信号的平均频谱随时间的变化。

11.根据权利要求9所述的方法，其中，所述指示包括指示在所述第一麦克风附近的所述对象的方向。

12.根据权利要求9所述的方法，其中，所述增加基于所述指示的持续时间。

13.根据权利要求9所述的方法，所述方法还包括接收基于第二麦克风的输出信号的第二音频输入信号，

其中，所述指示基于所述第一音频输入信号和所述第二音频输入信号之间的差值。

14.根据权利要求9所述的方法，所述方法还包括：

接收基于第二麦克风的输出信号的第二音频输入信号，以及

再现基于所述第一麦克风和所述第二麦克风的输出信号的信号。

15.根据权利要求13所述的方法，其中，所述第一麦克风朝向第一方向，并且其中，所述第二麦克风朝向不同于所述第一方向的第二方向。

16.一种用于音量级的手势控制的装置，所述装置包括：

用于产生基于第一麦克风的输出信号的第一音频输入信号的部件；

用于检测指示的加速度不小于阈值的部件；

用于至少基于所述第一音频输入信号的频谱变化来指示在第一麦克风附近的对象的存在的部件，其中在检测到所述加速度不小于所述阈值之后，检测所述频谱变化；和

用于响应于所述检测和所述指示增加音量级的部件，

所述装置还包括用于接收基于第二麦克风的输出信号的第二音频输入信号的部件和用于指示与所指示的加速度相关联的方向的部件，

其中，所选择的方向基于所指示的方向。

17.一种存储计算机可执行指令的非暂时计算机可读存储介质，所述指令在由一个或多个处理器执行时，使所述一个或多个处理器执行用于音量级的手势控制的方法，所述方法包括：

接收基于第一麦克风的输出信号的第一音频输入信号；

检测指示的加速度不小于阈值；

至少基于所述第一音频输入信号的频谱变化，指示在第一麦克风附近的对象的存在，其中在检测到所述加速度不小于所述阈值之后，检测所述频谱变化；和

响应于所述检测和所述指示，增加音量级，

其中，所选择的方向基于所指示的方向。