CN114080589A

CN114080589A - 自动主动降噪（anr）控制以改善用户交互

Info

Publication number: CN114080589A
Application number: CN202080049274.3A
Authority: CN
Inventors: S·梅亚潘; N·布拉格罗夫; P·托雷斯; A·加尼施库玛
Original assignee: Bose Corp
Current assignee: Bose Corp
Priority date: 2019-06-12
Filing date: 2020-06-08
Publication date: 2022-02-22
Anticipated expiration: 2040-06-08
Also published as: US11696063B2; WO2020251902A1; US20230353928A1; US10681453B1; EP3984020A1; US20210385571A1; US20200396533A1; US11343607B2; CN114080589B

Abstract

提供了由用户佩戴的可穿戴音频输出设备执行的用于控制由可穿戴音频输出设备衰减的外部噪声的方法。检测到来自佩戴该可穿戴音频输出设备的用户的语音信号，其中该音频输出设备已开启主动降噪。基于该检测来确定用户希望跟该用户附近的对象说话。响应于该确定，降低降噪的水平以使该用户能够听到该音频输出设备外部的声音。通过检测多个条件中的至少一个条件来确定用户希望跟该对象说话。

Description

自动主动降噪(ANR)控制以改善用户交互

技术领域

本公开的各方面整体上涉及控制音频输出设备中的外部噪声，并且更具体地涉及自动主动降噪(ANR)控制以改善与另一对象的用户交互。

背景技术

具有噪声消除能力的可穿戴音频输出设备的受欢迎度稳定地增加。具有ANR(有时称为主动噪声消除(ANC))能力的现代耳机衰减耳机外部的声音，以向用户提供沉浸式音频体验。然而，用户可能想要选择性地设置外部声音的衰减水平以适合特定的使用情况。例如，可能存在特定的情况，佩戴开启了ANR的耳机的用户可能想要或需要将ANR设置为低水平以增加情境感知。另一方面，可能存在这样的情况，用户可能想要将ANR设置为高水平以衰减外部声音。虽然大多数ANR音频设备允许用户手动开启或关闭ANR，或者甚至手动设置ANR的水平，但这不提供最佳用户体验。因此，期望用于自动选择ANR控制的方法以及被配置为实施这些方法的装置和系统。

发明内容

本文提及的所有示例和特征均可以任何技术上可能的方式组合。

本公开的方面提供了一种用于控制可穿戴音频输出设备中的外部噪声的方法。该方法通常包括检测来自佩戴该可穿戴音频输出设备的用户的语音信号，其中该音频输出设备已开启主动降噪；至少基于该检测确定该用户希望向该用户附近的对象讲话；以及响应于该确定，修改该主动降噪的水平以使该用户能够听到该音频输出设备外部的声音。

在一个方面，确定用户希望跟对象说话包括检测以下中的至少一个：所检测到的语音信号不包括被配置为触发语音个人助理(VPA)的唤醒字词(WUW)；所检测到的语音信号不包括用于该VPA的语音命令；该用户正使用该音频输出设备参与电话交谈，并且如从该音频输出设备的麦克风接收到的与该电话交谈相关的该用户的语音流被该用户设置为静音；或者该用户将音乐流式传输到音频输出设备，并且该语音信号不指示用户正在唱歌。

在一个方面，检测所检测到的语音信号不包括用于该VPA的语音命令包括在检测到该WUW之后确定由用户在给定时间段内说出的至少一个字词是用于VPA的语音命令。

在一个方面，检测来自佩戴该可穿戴音频输出设备的用户的语音信号包括以下中的至少一个：检测包括该语音信号的声音信号正从该用户的口部的总体方向发出；使用语音活动检测(VAD)来检测该声音信号包括该语音信号；检测该用户的口部正在移动；或基于该语音信号检测该用户的身份。

在一个方面，修改主动降噪的水平包括暂时降低该主动降噪的水平达已配置的时间段。

在一个方面，该方法进一步包括在该时间段期间检测来自该用户的另外的语音信号；至少基于检测到该另外的语音信号来确定该用户希望继续跟该对象说话；以及响应于确定用户希望继续跟该对象说话而重置该时间段。

在一个方面，确定用户希望继续跟对象说话包括检测所检测到的附加语音信号不包括被配置为触发语音个人助理(VPA)的唤醒字词(WUW)。

在一个方面，该方法进一步包括在该时间段到期之后重置该主动降噪的水平到配置的值或该修改之前该水平所设置的值中的至少一个。

在一个方面，该方法进一步包括通过该音频输出设备的至少一个扬声器降低音频输出的音量。

在一个方面，该方法还包括：当该用户正使用该音频输出设备参与电话交谈时以及当该主动降噪处于修改的水平时，检测如从该音频输出设备的麦克风接收到的与该电话交谈相关的该用户的语音流被该用户设置为取消静音；以及作为响应，重置该主动降噪的水平到配置的值或该降噪之前该水平所设置的值中的至少一个。

本公开的方面提供了一种用于控制音频输出设备中的外部噪声的音频输出设备。该音频输出设备通常包括：用于检测该音频输出设备附近的声音的至少一个麦克风；用于衰减外部噪声的主动降噪电路；用于与用户设备通信的接口；和至少一个处理器。该至少一个处理器通常被配置为使用该至少一个麦克风检测来自佩戴该可穿戴音频输出设备的用户的语音信号，其中该音频输出设备已开启该主动降噪；至少基于该检测来确定该用户希望向该用户附近的对象讲话；以及响应于该确定，使用该主动降噪电路修改该主动降噪的水平，以使该用户能够听到该音频输出设备外部的声音。

在一个方面中，该至少一个处理器被配置为通过检测以下中的至少一个来确定该用户希望跟对象说话：所检测到的语音信号不包括被配置为触发语音个人助理(VPA)的唤醒字词(WUW)；所检测到的语音信号不包括用于该VPA的语音命令；该用户正使用该音频输出设备参与电话交谈，并且如从该音频输出设备的麦克风接收到的与该电话交谈相关的该用户的语音流被该用户设置为静音；或者该用户将音乐流式传输到音频输出设备，并且该语音信号不指示用户正在唱歌。

在一个方面，该至少一个处理器被配置为通过在检测到该WUW之后确定由用户在给定时间段内说出的至少一个字词是用于VPA的语音命令来检测所检测到的语音信号不包括用于该VPA的语音命令。

在一个方面，该至少一个处理器被配置为通过以下中的至少一者检测来自佩戴该可穿戴音频输出设备的用户的语音信号：检测包括该语音信号的声音信号正从该用户的口部的总体方向发出；使用语音活动检测(VAD)来检测该声音信号包括该语音信号；检测该用户的口部正在移动；或基于该语音信号检测该用户的身份。

在一个方面，该至少一个处理器被进一步配置为在该时间段期间检测来自该用户的另外的语音信号；至少基于检测到该另外的语音信号来确定该用户希望继续对该对象讲话；以及响应于确定用户希望继续对对象讲话而重置该时间段。

本公开的方面提供了一种用于控制音频输出设备中的外部噪声的装置。该装置通常包括至少一个处理器和耦接到该至少一个处理器的存储器。该处理器通常被配置为检测来自佩戴该可穿戴音频输出设备的用户的语音信号，其中该音频输出设备已开启主动降噪；至少基于该检测来确定该用户希望向该用户附近的对象讲话；以及响应于该确定，修改该主动降噪的水平以使该用户能够听到该音频输出设备外部的声音。

在一个方面中，该至少一个处理器被配置为通过检测以下中的至少一个来确定该用户希望向对象说话：所检测到的语音信号不包括被配置为触发语音个人助理(VPA)的唤醒字词(WUW)；所检测到的语音信号不包括用于该VPA的语音命令；该用户正使用该音频输出设备参与电话交谈，并且如从该音频输出设备的麦克风接收到的与该电话交谈相关的该用户的声音流被该用户设置为静音；或者该用户将音乐流式传输到音频输出设备，并且该语音信号不指示用户正在唱歌。

本公开中所述的两个或更多个特征，包括本发明内容部分中所述的那些，可组合以形成在本文未具体描述的具体实施。

一个或多个具体实施的细节在附图和以下描述中论述。其他特征、对象和优点在说明书、附图和权利要求书中将是显而易见的。

附图说明

图1示出了可以实践本公开的方面的示例系统。

图2示出了根据本公开的某些方面的由用户佩戴的可穿戴音频输出设备执行的用于控制外部噪声的示例操作。

图3示出了根据本公开的某些方面的用于自动ANR控制算法的示例操作。

具体实施方式

具有ANR能力的可穿戴音频输出设备(例如，ANR耳机)通过衰减包括该音频输出设备外部的噪声的声音来帮助用户享受高质量音乐并参与富有成效的语音通话。然而，ANR耳机将用户与世界声学地隔离，使得用户难以与该用户附近的其他人交互。因此，当佩戴开启了ANR的耳机的用户希望与另一个人说话时，用户必须手动降低ANR的水平(例如，通过使用耳机上的按钮)或者必须从耳机的常规收听位置完全或部分地移开该耳机。这不能为用户提供最佳体验。另外，从耳机的收听位置移除该耳机不允许用户在同时跟另一人说话时听音频(例如，音乐播放或会议通话)。

本公开的方面讨论了用于自动控制可穿戴音频输出设备的ANR水平(例如，暂时中断或降低ANR水平)的技术，以使用户能够与用户附近的一个或多个其他对象(例如，其他人)说话。另外，所讨论的技术允许用户有效地与其他人交互而不必从可穿戴音频输出设备的常规收听位置移除该可穿戴音频输出设备，使得用户可以在与其他人交互时同时收听在设备扬声器上播放的音频。

常规ANR耳机通常需要用户界面(UI)来改变ANR的水平。这种UI可以采取许多形式，包括按钮按下或手势控制。本公开的各方面提供了用于基于检测到用户想要与另一对象(例如，另一个人、自动化语音系统等)说话来自动降低ANR的技术。检测到该用户想要说话可以考虑以下组合：检测用户正在说话(这可以由耳机麦克风上的波束形成器和适应于环境的整体本底噪声的语音活动检测(VAD)捕获)，以及检查一个或多个其他条件以确认用户的检测到的语音不与跟另一对象说话之外的目的相关(例如，与免提模式(HFP)通话相关的语音、用于虚拟个人助理(VPA)的语音命令、用户歌唱等)。

在某些方面，所讨论的技术提供UI自由解决方案以允许用户例如通过在收听耳机扬声器上的语音通话或音乐的同时与实际世界中的第二方交互来允许用户进行多任务。

图1示出了可以实践本公开的方面的示例系统100。

如图所示，系统100包括由用户150佩戴的一对耳机110。该耳机110通信地耦接到便携式用户设备120。在一个方面，耳机110可以包括一个或多个麦克风112以检测耳机110附近的声音。耳机110还包括用于输出声音的至少一个声换能器(也称为驱动器或扬声器)。所包括的声学换能器可被配置为通过空气和/或通过骨(例如，经由骨传导，诸如穿过颅骨的骨)来传输音频。耳机110可以进一步包括硬件和电路，该硬件和电路包括处理器/处理系统和存储器，该处理器/处理系统和存储器被配置为实施一个或多个声音管理能力或其他能力，包括但不限于噪声消除电路(未示出)和/或噪声掩蔽电路(未示出)、身体移动检测设备/传感器和电路(例如，一个或多个加速度计、一个或多个陀螺仪、一个或多个磁力计等)、地理定位电路和其他声音处理电路。该噪声消除电路被配置为通过使用主动噪声消除(也称为主动降噪)来减少耳机110外部的不想要的环境声音。该声音掩蔽电路被配置为通过经由耳机110的扬声器播放掩蔽声音来减少干扰。该移动检测电路被配置为使用设备/传感器(诸如加速度计、陀螺仪、磁力计等)来检测佩戴耳机的用户是否正在移动(例如，行走、跑步、处于运输的移动模式等)或处于静止和/或用户正在看着或面向的方向。该移动检测电路还可被配置为检测用户的头部位置以用于增强现实(AR)应用，其中基于用户的注视方向回放AR声音。该地理定位电路可以被配置为检测佩戴耳机的用户的物理位置。例如，该地理定位电路包括全球定位系统(GPS)天线和用于确定用户的GPS坐标的相关电路。

在一个方面，耳机110包括能够检测由耳机110的麦克风112接收的声音信号中的语音信号(例如，人类语音信号)的存在的语音活动检测(VAD)电路。例如，如图1所示，耳机110的麦克风112可以接收耳机110附近的环境外部声音，包括由用户150说出的语音。因此，由麦克风112接收的声音信号具有与耳机110附近的其他声音混合的用户语音信号。通过使用该VAD，耳机110可以从接收到的声音信号检测和提取语音信号。

在一个方面，耳机110包括说话者识别电路，该说话者识别电路能够检测所检测到的语音信号涉及的说话者的身份。例如，该说话者识别电路可以分析由VAD电路检测到的语音信号的一个或多个特性，并且确定用户150是说话者。在一个方面，该说话者识别电路可以使用任何现有的说话者识别方法和相关系统来执行说话者识别。

在一个方面，耳机110使用一个或多个无线通信方法无线地连接到便携式用户设备120，该无线通信方法包括但不限于蓝牙、Wi-Fi、蓝牙低功耗(BLE)、其他基于射频(RF)的技术等。在一个方面，耳机110包括收发器，该收发器经由一个或多个天线发射和接收信息以与用户设备120交换信息。

在一个方面，在具有或没有对应的无线连接的情况下，耳机110可以使用有线连接来连接到便携式用户设备120。如图所示，用户设备120可以连接到网络130(例如，互联网)并且可以通过该网络访问一个或多个服务。如图所示，这些服务可以包括一个或多个云服务140。

便携式用户设备120表示各种计算设备，诸如移动电话(例如，智能电话)或计算平板电脑。在一个方面，用户设备120可以使用在用户设备120上运行的移动网络浏览器或本地软件应用程序或“app”通过网络130访问云140中的云服务器。在一个方面，软件应用程序或“app”是在用户设备120上安装并本地运行的本地应用程序。在一个方面，云140上的可访问云服务器包括在云服务器上运行的一个或多个云应用程序。该云应用程序可由用户设备120访问和运行。例如，该云应用程序可以生成由用户设备120上的移动网络浏览器渲染的网页。在一个方面，根据本公开的各方面，安装在用户设备120上的移动软件应用程序和安装在云服务器上的云应用程序可以单独或组合地用来实现用于关键字识别的技术。

可能需要说明的是，尽管本公开的某些方面出于示例性目的讨论了耳机110的上下文中的自动ANR控制，但在这些方面可以互换地使用具有相似能力的任何可穿戴音频输出设备。例如，可与本文所讨论的技术一起使用的可穿戴音频输出设备可以包括包耳式耳机、音频眼镜或框架、入耳式耳塞、耳罩式音频设备、裸耳式音频设备(诸如肩戴或其他体佩音频设备)等。

图2示出了根据本公开的某些方面的通过由用户(例如，用户150)佩戴的可穿戴音频输出设备(例如，如图1所示的耳机110)来执行的用于控制由该可穿戴音频输出设备减弱的外部噪声的示例操作200。

操作200在202处通过检测来自佩戴该可穿戴音频输出设备的用户的语音信号开始，其中该音频输出设备已开启主动降噪。

在204处，至少基于该检测来确定用户希望跟该用户附近的对象说话。在一个方面，检测到该用户希望跟该用户附近的对象说话包括检测以下中的至少一个：所检测到的语音信号不包括被配置为触发语音个人助理(VPA)的唤醒字词(WUW)，所检测到的语音信号不包括用于VPA的语音命令，用户正使用音频输出设备参与电话交谈并且如从音频输出设备的麦克风接收到的与该电话交谈相关的该用户的声音流被用户设置为静音，或者该用户正将音乐流式传输到音频输出设备并且该语音信号不指示用户正在唱歌。

在206处，响应于确定用户希望跟该用户附近的对象说话，降低该主动降噪的水平以使该用户能够听到该音频输出设备外部的声音。

在某些方面，当耳机麦克风(例如，麦克风112)中的至少一个耳机麦克风检测该用户附近的声音，该声音被分析以确定该声音是否涉及或包括由于该用户说话而产生的语音信号。

在一个方面，由耳机麦克风检测到的声音信号被耳机中的VAD模块处理，以尝试检测语音信号。在一个方面，为了避免错误触发，系统确认检测到的语音信号对应于用户说话并且不对应于该用户附近的其他人。因此，在一个方面，将说话者识别应用于由VAD模块检测到的语音信号，以便确定该语音信号是否对应于用户说话。该说话者识别确保仅当用户正在说话时并且不是该用户附近的其他对象正在说话时触发ANR控制算法。

在某些方面，为了避免检测来自该用户附近的其他对象的语音信号，将波束形成应用于麦克风扬声器并且麦克风收听聚焦在用户的口部的总体方向上。这降低了麦克风从其他方向接收声音的可能性并避免不必要的处理，从而节省电力。另外，麦克风波束形成提高了由用户说话生成的语音信号的检测准确性。

在一个方面，附加地或另选地，耳机中的一个或多个传感器可用于检测用户正在说话。例如，耳机中的惯性测量单元(IMU)传感器可用于检测与用户的口部相关的移动，并且IMU数据流可用于基于用户的口部正如何移动来检测用户是否正在说话。在一个方面，IMU传感器包括以下中的至少一个：一个或多个加速度计、一个或多个磁力计或一个或多个陀螺仪。

在某些方面，检测用户希望跟用户附近的另一对象说话包括检查一个或多个条件，并且仅当满足该一个或多个条件时确定用户希望仅对另一对象说话。

在一个方面，一种条件可以包括确定检测到的语音信号不涉及由用户说出的用于触发虚拟个人辅助(VPA)模块的唤醒字词。在一个方面，该VPA模块可以被配置在耳机或连接到该耳机的用户设备(例如，用户设备120)中。在一个方面，该耳机可以包括用于检测语音信号是否包括唤醒字词的语言处理模块。

在一个方面，另一条件可以包括确定所检测到的语音信号不包括用于VPA模块或另一语音接口的语音命令。在一个方面，在从检测到由用户说出的唤醒字词开始的预定时间内检测到的来自用户的任何语音被确定为用于VPA模块的语音命令。

在一个方面，另一个条件可以包括确定用户处于语音通话中(例如，蓝牙免提模式(HFP)通话)并且来自耳机麦克风的用户语音流被静音以用于语音通话。在示例情况下，用户可以处于与一个或多个其他方的会议通话中，并且开启ANR以避免干扰。通常，用户暂时使麦克风流静音，使得语音通话中的其他参与者不受用户附近的背景噪声的干扰。在一个方面，当确定用户处于语音通话中并且用户的语音流被静音以用于该语音通话时，该ANR控制算法假设用户愿意与用户附近的对象说话。可能需要说明的是，当用户在语音通话期间使耳机麦克风静音时，该麦克风可以继续检测用户附近的声音，包括用户的语音流，而无需例如将检测到的语音流发送到用户设备以用于传送到与用户进行语音对话的一方或多方。

在一个方面，另一条件可以包括检测用户正在通过耳机扬声器收听音乐流(例如，通过蓝牙A2DP或其他音乐模式)以及该语音信号不涉及用户单独歌唱或哼唱。在一个方面，当检测到耳机扬声器正在播放音乐流并且所检测到的语音信号与用户单独歌唱或哼唱相关时，该ANR控制算法确定用户不是想要与用户附近的另一对象说话。

在某些方面，该ANR控制算法可以被配置为检查上述条件中的一个或多个条件，以便确定用户是否希望与该用户附近的另一对象说话。可能需要说明的是，上述条件不是详尽的条件列表，并且ANR控制算法可以被配置为检查一个或多个其他条件以尝试确定用户是否希望与另一对象说话。

在某些方面，当用户被检测为正说话时并且当满足所有经配置条件时，该ANR控制算法降低ANR，使得用户更声学地感知用户的周围环境。例如，仅当出现以下情况时降低ANR：确定所检测到的语音信号不涉及由用户说出的用于触发VPA模块的唤醒字词，所检测到的语音信号不包括用于VPA模块或另一语音接口的语音命令，确定用户处于语音通话中并且来自耳机麦克风的用户语音流被静音以用于语音通话，以及检测到用户通过耳机扬声器收听音乐流(例如，通过蓝牙A2DP或其他音乐模式)并且语音信号不涉及用户用户单独歌唱或哼唱。

在一个方面，ANR被临时设置为预定低水平(或暂时关闭)以允许用户更清楚地且可听得见地听到外部声音。在一个方面，用于降低或关闭ANR的临时持续时间由预配置的感知定时器限定。在一个方面，当ANR降低或关闭时，启动预配置的感知定时器。在一个方面，当感知定时器到期时，ANR恢复到其先前的水平或被设置为预先配置的水平(例如，更高水平)。

在某些方面，在已经降低了ANR并且当感知定时器正运行时，ANR控制算法持续监测用户说出的语音。如果检测到来自用户的另外的语音，则ANR检查已配置条件并将感知定时器重置为原始配置值，使得感知状态延长感知定时器持续时间。在一个方面，在检测来自用户的语音的每个实例以所有已配置条件得到满足为准的情况下重置感知定时器。

在一个方面，将感知定时器的持续时间选择为1分钟，因为其通常为用户确认其他方每分钟至少一次。然而，该持续时间可以设置为任何值。在一个方面，感知定时器的值可以由用户通过使用用户设备上的用户界面来配置。

在某些方面，除了降低ANR之外，还可以任选地降低在耳机扬声器上播放的音频/音乐的音量，或者可以暂停或停止音频/音乐，以便向用户提供更好的情境感知。

在本公开的方面中讨论的ANR控制技术可用于若干使用情况。

在一个示例使用情况下，用户可能正参与会议通话，并且可能正将会议通话的音频流式传输到耳机，并且可以使ANR开启以避免在收听与会议通话相关的音频时的任何干扰。用户可以进一步使麦克风流静音，使得会议通话中的其他参与者不受用户附近的背景噪声的干扰。当用户希望与用户附近的另一个人(例如，想要与用户说话的同事)说话时，用户可以开始跟另一个人说话，并且耳机中的ANR控制算法将自动降低ANR以帮助用户与其他人说话。在一个方面，即使用户的语音流针对会议通话被静音，但麦克风继续收听用户附近的声音，而无需将接收到的声音发送到会议应用程序以传送到参与会议通话的其他方。当用户开始说话时，ANR控制算法检测用户正在说话(例如，基于VAD和用户识别)并且进一步检测用户的语音流被静音。作为响应，该算法确定用户希望与另一对象说话并且通过降低ANR(例如，将ANR设置为预配置水平)自动切换到感知状态。这使得用户能够对其他人说话同时仍然监视会议通话，从而允许用户如果需要的话(例如，会议通话中的一方向用户讲话)返回到通话中。在一个方面，当用户未使麦克风流静音以参与会议通话时，自动退出该感知状态，并且ANR被设置为预定高水平或先前设置的水平(例如，在感知状态初始化之前)。

在一个方面，除了降低ANR之外，会议音频的音量可以自动降低，或者仅在耳机扬声器之一上播放，以帮助用户与另一人的交互。当定时器到期时，ANR控制算法可自动将ANR水平恢复到先前的水平。

在某些方面，常见到的是，用户参与语音通话时暂时静音语音流，然后忘记该静音。然后，用户可能通过语音通话开始跟另一方说话，但不知道用户的语音流被静音。ANR控制算法向用户提供清晰的声音反馈，以指示用户正在跟被静音的麦克风讲话。如上所述，当用户开始说话而用户的语音流被设置为静音时，耳机自动进入感知状态并且ANR自动降低。这种从较高降噪水平到较低水平的ANR水平改变通常对用户来说是明显的听觉差异，并且可以充当用户正在对被静音的麦克风说话的提醒者。

在某些方面，当耳机已经处于降低的ANR状态时并且每当用户确认与该用户说话的另一对象具有任何语音时，VAD触发上述ANR控制逻辑，并且如果满足所有条件，则耳机继续处于感知状态。在一个方面，这个逻辑在这样的假设下起作用：大多数用户将确认谈话中的第二方口头地发出像“嗯”、“好”、“不错”、“是”、“不”、“有意思”等的声音或词语，即使用户没有在双方交谈中说得太多。因此，当耳机已经处于感知状态时，每当用户说出指示用户正确认对话中的另一方的一个或多个字词时，感知定时器被重置并且耳机继续处于感知状态。

在某些方面，本公开中所论述的ANR控制算法的某些方面可以用于控制由除用户之外的对象发起的对话的ANR。例如，当另一个人与用户开始对话时，耳机可以进入感知状态并降低ANR。通过非用户扬声器说出的一个或多个预配置字词可以触发耳机进入感知状态。这些预配置的字词可以包括用户姓名、一个或多个别名、人们通常用于向其他人打招呼的一个或多个字词或词组(例如，喂、你好等)、或者它们的组合。一旦耳机进入感知状态，并且在用户和另一个人之间已经开始对话，上述逻辑可用于延长耳机的感知状态并恢复ANR水平。

图3示出了在本公开的某些方面中的用于自动ANR控制算法的示例操作300。

操作300在302处开始于通过算法检测语音信号。如以上段落所述，ANR耳机的一个或多个麦克风可以检测耳机附近的外部声音，并且耳机的VAD模块可以提取所检测到的外部声音中包含的任何语音信号。

在304处，算法确定所检测到的语音信号是否对应于用户说话。如以上段落所述，可以使用现有的用户确认/识别算法来进行此确定。如果确定用户没有说话，则算法返回到过程框302，其中算法继续监测语音信号。

在304处，当确定用户正在说话时，在306处，算法检查一个或多个配置的条件，以便确定用户是否希望与用户附近的另一对象说话。如上所述，该配置的条件可包括以下中的至少一个：确定所检测到的语音信号不涉及由用户说出的用于触发VPA模块的唤醒字词，所检测到的语音信号不包括用于VPA模块或另一语音接口的语音命令，确定用户处于语音通话中并且来自耳机麦克风的用户语音流被静音以用于语音通话，以及检测到用户通过耳机扬声器收听音乐流(例如，通过蓝牙A2DP或其他音乐模式)并且语音信号不涉及用户用户单独歌唱或哼唱。

在308处，算法确定是否满足所有配置的条件。如果确定所有配置的条件未被满足，则算法返回到过程框302。然而，如果确定满足所有配置的条件，则在310处算法检查ANR是否被设置为高水平。如果ANR被确定为设置为高水平，则在312处耳机通过将ANR设置为预配置低水平来进入感知状态。在314处，将定时器(例如，上文讨论的感知定时器)设置为预定值以设置感知状态的持续时间。

在一个方面，在310处，如果ANR被确定为未设置为高，则在316处，算法检查感知定时器是否正在运行。如果感知定时器未运行，则算法返回到过程框302。在一个方面，在316处，感知定时器未运行可指示用户已经将ANR手动设置为不触发感知定时器的低水平。

在316处，如果确定感知定时器正在运行，则在320处算法将感知状态延长预定持续时间。例如，感知定时器被延长预定值。

可能需要说明的是，如本公开的方面中所讨论的，与自动ANR控制相关的处理可以在耳机中原生地执行、由用户设备执行或它们的组合。

应当说明的是，上文出于说明的目的呈现本公开的方面的描述，但是本公开的方面并不旨在限于所公开的方面中的任何一者。在不脱离所描述的方面的范围和实质的情况下，许多修改和变化对于本领域普通技术人员将是显而易见的。

在前述内容中，参考了本公开中呈现的各方面。然而，本公开的范围不限于具体描述的方面。本公开的各方面能够采取完全硬件化实施方案、完全软件化实施方案(包括固件、常驻软件、微代码等)或组合软件和硬件方面的实施方案的形式，软件和硬件方面在本文中能够统称为“部件”、“电路”、“模块”或“系统”。此外，本公开的各方面能够采取体现在一个或多个计算机可读介质中的计算机程序产品的形式，该一个或多个计算机可读介质具有体现在其上的计算机可读程序代码。

能够利用一个或多个计算机可读介质的任何组合。计算机可读介质能够是计算机可读信号介质或计算机可读存储介质。计算机可读存储介质能够是，例如但不限于，电子、磁性、光学、电磁、红外或半导体系统、装置或设备，或前述的任何合适的组合。计算机可读存储介质的更具体的示例包括：具有一条或多条导线的电连接件、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪存存储器)、光纤、便携式光盘只读存储器(CD-ROM)、光学存储设备、磁存储设备或前述的任何合适组合。在当前上下文中，计算机可读存储介质能够是可包含或存储程序的任何有形介质。

附图中的流程图和框图示出了根据各个方面的系统、方法和计算机程序产品的可能具体实施的架构、功能和操作。就这一点而言，流程图或框图中的每个框能够表示模块、代码的部分，其包括用于实现一个或多个指定逻辑功能的一个或多个可执行指令。在一些另选具体实施中，框中所述的功能能够不按照附图中所述的顺序发生。例如，取决于所涉及的功能，连续示出的两个框实际上能够基本上同时执行，或者框有时能够以相反的顺序执行。框图和/或流程图图示中的每个框以及框图和/或流程图图示中的框的组合可由执行指定功能或动作的基于专用硬件的系统或专用硬件和计算机指令的组合来实现。

Claims

1.一种控制具有主动降噪(ANR)能力的可穿戴音频输出设备的方法，所述方法包括：

检测来自佩戴所述可穿戴音频输出设备的用户的语音信号，其中所述ANR被设置为初始水平；

响应于检测到所述语音信号，相对于所述初始水平自动设置所述ANR以允许所述用户更加可听得见地听到所述可穿戴音频输出设备外部的声音，并且启动定时器；

响应于在所述定时器正在运行时检测到来自所述用户的另外的语音信号，延长或重置所述定时器；以及

响应于所述定时器到期，将所述ANR自动设置为所述初始水平。

2.根据权利要求1所述的方法，其中检测来自佩戴所述可穿戴音频输出设备的所述用户的所述语音信号包括以下中的至少一个：

检测包括语音的声音信号从所述用户的口部的总体方向发出，

使用语音活动检测(VAD)来检测所述声音信号包括所述语音，

检测所述用户的口部正在移动，或者

基于所述语音检测所述用户的身份。

3.根据权利要求1所述的方法，其中所述语音信号不包括被配置用于触发语音个人助理(VPA)的唤醒字词(WUW)。

4.根据权利要求1所述的方法，其中所述语音信号不包括用于语音个人助理(VPA)的语音命令。

5.根据权利要求1所述的方法，其中所述语音信号在语音通话期间不包括语音，除非所述可穿戴音频输出设备被静音。

6.根据权利要求1所述的方法，其中所述语音信号在音乐被流式传输到所述可穿戴音频输出设备时不包括歌声或哼唱。

7.根据权利要求1所述的方法，其中相对于所述初始水平自动设置所述ANR以允许所述用户更加可听得见地听到所述可穿戴音频输出设备外部的声音包括：关闭所述ANR。

8.根据权利要求1所述的方法，其中所述定时器最初被设置为预定持续时间。

9.根据权利要求1所述的方法，其中响应于在所述定时器正在运行时检测到来自所述用户的所述另外的语音信号，所述定时器被延长预定持续时间。

10.根据权利要求1所述的方法，其中所述定时器的持续时间是用户可配置的。

11.根据权利要求1所述的方法，还包括：响应于检测到所述语音信号，进行以下中的至少一个：i)自动降低在所述可穿戴音频输出设备上播放的音频或音乐的音量，或ii)自动暂停或停止在所述可穿戴音频输出设备上播放的所述音频或音乐。

12.一种可穿戴音频输出设备，包括：

至少一个麦克风，所述至少一个麦克风用于检测所述可穿戴音频输出设备外部的声音；

主动降噪(ANR)电路，所述ANR电路用于衰减所述可穿戴音频输出设备外部的所述声音；以及

至少一个处理器，所述至少一个处理器被配置用于

检测来自佩戴所述可穿戴音频输出设备的用户的语音信号，其中所述ANR被设置为初始水平，

响应于检测到所述语音信号，相对于所述初始水平自动设置所述ANR以允许所述用户更加可听得见地听到所述可穿戴音频输出设备外部的所述声音，并且启动定时器，

响应于在所述定时器正在运行时检测到来自所述用户的另外的语音信号，延长或重置所述定时器，以及

13.根据权利要求12所述的可穿戴音频输出设备，其中检测所述语音信号包括以下中的至少一个：

使用语音活动检测(VAD)来检测所述声音信号包括所述语音，

检测所述用户的口部正在移动，或者

基于所述语音检测所述用户的身份。

14.根据权利要求12所述的可穿戴音频输出设备，其中所述语音信号不包括以下中的至少一个：

被配置用于触发语音个人助理(VPA)的唤醒字词(WUW)，

用于语音个人助理(VPA)的语音命令，

语音通话期间的语音，除非所述可穿戴音频输出设备被静音，或者

当音乐被流式传输到所述可穿戴音频输出设备时的歌声或哼唱。

15.根据权利要求12所述的可穿戴音频输出设备，其中相对于所述初始水平自动设置所述ANR以允许所述用户更加可听得见地听到所述可穿戴音频输出设备外部的声音包括：关闭所述ANR。

16.根据权利要求12所述的可穿戴音频输出设备，其中响应于在所述定时器正在运行时检测到来自所述用户的所述另外的语音信号，所述定时器被延长预定持续时间。

17.根据权利要求12所述的可穿戴音频输出设备，其中所述定时器的持续时间是用户可配置的。

18.根据权利要求12所述的可穿戴音频输出设备，其中所述至少一个处理器被进一步配置用于：响应于检测到所述语音信号，进行以下中的至少一个：i)自动降低在所述可穿戴音频输出设备上播放的音频或音乐的音量，或ii)自动暂停或停止在所述可穿戴音频输出设备上播放的所述音频或音乐。

19.一种控制具有主动降噪(ANR)能力的可穿戴音频输出设备的方法，所述方法包括：

检测来自佩戴所述可穿戴音频输出设备的用户的语音信号，其中所述ANR被设置为第一水平；

响应于检测到所述语音信号，自动将所述ANR设置为低于所述第一水平的第二水平，并且启动定时器；

响应于在所述定时器正在运行时检测到来自所述用户的另外的语音信号，延长所述定时器；以及

响应于所述定时器到期，自动将所述ANR设置为所述第一水平或预配置水平。

20.根据权利要求19所述的方法，其中所述第二水平关闭所述ANR。