CN113905320B

CN113905320B - 为考虑语音检测而调节声音回放的方法和系统

Info

Publication number: CN113905320B
Application number: CN202110676617.5A
Authority: CN
Inventors: C·T·尤班克; D·W·查尔梅斯; K·卡里尼切夫; R·耐尔; T·G·索尔特
Original assignee: Apple Inc
Current assignee: Apple Inc
Priority date: 2020-06-22
Filing date: 2021-06-16
Publication date: 2024-05-07
Anticipated expiration: 2041-06-16
Also published as: US11822367B2; US20210397407A1; CN113905320A

Abstract

本公开涉及为考虑语音检测而调节声音回放的方法和系统。本发明公开了一种由包括头戴式耳机的音频系统执行的方法。该方法发送包含用户期望的音频内容的回放信号以驱动被用户佩戴的该头戴式耳机的扬声器；从麦克风接收麦克风信号，该麦克风被布置为捕获该用户所处的周围环境内的声音；对该麦克风信号执行语音检测算法以检测其中包含的语音；响应于语音的检测，确定该用户意图参与与位于该周围环境内的人的对话；并且响应于确定该用户意图参与该对话，基于该用户期望的音频内容来调节该回放信号。

Description

为考虑语音检测而调节声音回放的方法和系统

相关申请的交叉引用

本申请要求2020年6月22日提交的美国临时专利申请序列号63/042395的权益和优先权，该临时专利申请据此全文以引用方式并入本文。

技术领域

本公开的一个方面涉及为考虑语音检测而调节声音回放的音频系统。还描述了其他方面。

背景技术

头戴受话器是包括一对扬声器的音频设备，当头戴受话器配戴在用户头上或围绕用户头部配戴时，每个扬声器被放置在用户的耳朵上。类似于头戴受话器，耳机(或入耳式头戴受话器)是两个分开的音频设备，每个音频设备具有插入到用户耳朵中的扬声器。头戴受话器和耳机两者通常有线连接到单独的回放设备诸如MP3播放器，该回放设备以音频信号驱动设备的每个扬声器以便生成声音(例如，音乐)。头戴受话器和耳机提供用户可用以单独收听音频内容而不必将音频内容广播给附近其他人的一种方便的方法。

发明内容

本公开的一个方面是由包括头戴式耳机(例如，包耳式头戴受话器、贴耳式头戴受话器等)的音频系统执行的方法以便为考虑语音检测而调节声音回放。音频系统发送包含用户期望的音频内容诸如音乐、播客、有声读物或电影音轨的回放信号以驱动被用户佩戴的头戴式耳机的扬声器。该系统从麦克风接收麦克风信号，该麦克风被布置为捕获用户所处的周围环境内的声音。例如，麦克风可为头戴式耳机的一部分，或可为另一个电子设备(例如，通信地耦接到头戴式耳机的配套设备)的一部分。该系统对麦克风信号执行语音检测算法以检测其中包含的语音。响应于语音的检测，该系统确定用户是否意图参与与位于周围环境内的人的对话。响应于确定用户意图参与该对话，该系统基于用户期望的音频内容来调节该回放信号。

在一个方面，该系统可基于用户所执行的姿态来确定用户意图参与该对话。例如，该系统可使用(例如，麦克风阵列的)若干麦克风来确定语音的到达方向(DoA)。该系统可确定用户已执行指示用户的注意力指向DoA的姿态。例如，用户可通过移向DoA来作姿态，或可通过转向DoA来作姿态。该确定可基于指示用户的移动的运动数据，该运动数据从惯性测量单元(IMU)传感器接收到。在一些方面，该系统可基于用户是否正朝向DoA观看来确定用户意图参与该对话。例如，该系统可获得相机所捕获的数字图像以检测其中包含的用户的眼睛，并且确定用户的眼睛的注视方向指向DoA。在另一个方面，该系统可基于检测到某人在附近来确定用户意图参与该对话。具体地讲，该系统使用相机捕获周围环境的场景并且对图像数据使用对象识别算法来识别以下的至少一者：1)该人位于周围环境的场景中以及2)指示正在说话的该人的面部表情。

在一个方面，该系统通过闪避该回放信号来调节该回放信号。例如，该系统通过应用标量增益来闪避该信号以便降低扬声器的声音输出级别。当用户期望的音频内容包括音乐内容(或音乐)时，该系统可闪避该信号。在另一个方面，该系统通过暂停该回放信号(或完全停止回放)来调节该回放信号。该系统可在用户期望的音频内容包括语音内容诸如播客、有声读物或电影音轨时暂停。

本公开的另一个方面是由包括头戴式耳机的音频系统执行的方法。该系统发送包含用户期望的音频内容的回放信号以驱动被用户佩戴的头戴式耳机的扬声器。该系统从麦克风接收麦克风信号，该麦克风信号包含用户所处的周围环境的环境噪声。该系统处理该麦克风信号以确定环境噪声是否为一种类型的音频内容。当用户期望的音频内容是与环境噪声的音频内容的类型相同的类型的音频内容时，该系统暂停该回放信号。

在一个方面，该系统可从内部麦克风(例如，被布置为捕获用户的耳朵处或附近的声音的麦克风)接收包含用户的耳朵处的声音的麦克风信号。该系统确定该声音包括用户期望的音频内容和周围环境的环境噪声，并且确定是否可处理该回放信号以产生经处理的回放信号，该经处理的回放信号在被发送以驱动头戴式耳机的扬声器时掩蔽用户的耳朵处的环境噪声的至少一部分。当用户期望的音频内容是与环境噪声的音频内容的类型相同的类型的音频内容时并且当无法处理该回放信号以掩蔽用户的耳朵处的环境噪声时，暂停该回放信号。

在一些方面，该系统通过以下方式确定是否可处理该回放信号：确定环境噪声的环境噪声级别；确定用户的耳朵处的扬声器的声音输出级别(例如，声压级别(SPL)值)(例如，基于用户定义的音量级别或处理内部麦克风信号)；基于环境噪声级别和声音级别来确定掩蔽阈值，其中掩蔽阈值大于声音输出级别；并且基于头戴式耳机的设备特性来确定是否可升高扬声器的声音输出级别以至少匹配掩蔽阈值。响应于确定可处理该回放信号，该系统通过以下方式处理该回放信号：执行一个或多个音频处理操作，诸如应用标量增益，应用均衡操作，和/或对麦克风信号执行ANC操作以产生抗噪声信号。

在一些方面，该系统确定用户期望的音频内容包括语音内容，并且确定环境噪声通过掩蔽语音内容(例如，播客、有声读物或电影音轨)的一个或多个频谱分量来压过语音内容。作为响应，该系统暂停该回放信号。在一个方面，该一个或多个频谱分量位于100Hz–8,000Hz的范围内。

在一个方面，本文所述的操作可由音频系统的一个或多个设备执行。例如，音频系统的头戴式耳机可执行这些操作中的每个操作以便为考虑语音检测而调节声音回放。例如，头戴式耳机可包括至少一个处理器和存储器(集成在其中)，其中存储器已存储指令，所述指令在由处理器执行时使得头戴式耳机执行本文所述的操作中的一个或多个操作。作为另一个示例，与头戴式耳机通信地耦接的配套设备(例如，图1的音频源设备2)可执行这些操作中的至少一些操作。

以上概述不包括本公开的所有方面的详尽列表。可预期的是，本公开包括可由上文概述的各个方面以及在下文的具体实施方式中公开并且在权利要求书中特别指出的各个方面的所有合适的组合来实践的所有系统和方法。此类组合可具有未在上述发明内容中具体阐述的特定优点。

附图说明

在附图的图示中通过举例而非限制的方式示出了多个方面，在附图中类似的附图标号指示类似的元件。应当指出的是，在本公开中提到“一”或“一个”方面未必是同一方面，并且其意指至少一个。另外，为了简洁以及减少附图的总数，某个附图可能被用于示出不止一个方面的特征，并且对于某个方面，可能并不需要该附图中的所有元素。

图1示出了根据一个方面的音频系统，该音频系统具有音频源设备和音频输出设备，并且用于为考虑语音检测而调节声音回放。

图2示出了根据一个方面的音频输出设备的框图。

图3示出了根据一个方面的曲线图，该曲线图示出了响应于用户意图参与对话而暂停回放信号。

图4示出了根据一个方面的曲线图，该曲线图示出了响应于用户意图参与该对话而通过应用标量增益来闪避回放信号。

图5示出了根据一个方面的曲线图，该曲线图示出了响应于用户意图参与该对话而通过对回放信号应用若干信号处理操作来闪避该回放信号。

图6示出了根据一个方面的曲线图，该曲线图示出了用户意图退出该对话的误报。

图7是为考虑语音检测而调节声音回放的过程的一个方面的流程图。

图8是确定用户是否意图参与该对话的过程的一个方面的流程图。

图9是响应于确定环境噪声与该回放信号冲突而暂停该回放信号的过程的一个方面的流程图。

具体实施方式

现在将参考所附附图来解释本公开的各方面。只要在某个方面中描述的部件的形状、相对位置和其他方面未明确限定，这里本公开的范围就不仅仅局限于所示出的部件，所示出的部件仅用于说明的目的。另外，虽然阐述了许多细节，但应当理解，一些实施方案可在没有这些细节的情况下被实施。在其他情况下，未详细示出熟知的电路、结构和技术，以免模糊对该描述的理解。此外，除非该含义明确相反，否则本文示出的所有范围被认为包括每个范围的端值。

音频输出设备诸如电子头戴式耳机(或头戴受话器)已变得越来越受用户欢迎，因为它们以高保真度再现诸如音乐、播客、有声读物和电影音轨的媒体，同时不打扰附近的其他人。头戴式耳机的物理特征通常被设计为无源地衰减原本会被头戴式耳机的用户(或穿戴者)清晰听到的环境声音或外部声音。一些头戴式耳机通过例如对穿戴者的头部或外耳进行“封闭”或通过对穿戴者的耳道进行声学密封来显著地衰减环境声音；其他头戴式耳机仅轻度衰减，诸如松配合入耳式头戴受话器(或耳塞)。尽管这些特征可为用户提供更令人满意的声音体验，但是环境声音的衰减可能具有缺点。例如，如果某人试图通过道一声问候诸如“嗨”来发起与穿戴者的对话，则穿戴者可能因无源衰减而无法听到该问候。如果穿戴者正在听音乐而音乐可进一步掩蔽该问候，则该问题可能更加复杂。因此，该人可能被迫多次问候(同时每次连续问候的声音大于上一次)直到该人引起穿戴者的注意。此时，要使穿戴者参与该对话，穿戴者可能需要手动地停止该音乐的回放(例如，通过按下头戴式耳机上或配套设备上的“停止”按钮)。一旦完成该对话，穿戴者就将继续播放该音乐(例如，通过按下“播放”按钮)。穿戴者所执行的此类动作可能很麻烦并且降低了用户体验，尤其是在穿戴者要在头戴式耳机的单次使用期间参与若干单独对话的情况下。

为了克服这些不足，本公开描述了一种音频系统，该音频系统能够为考虑语音检测而调节声音回放。该音频系统发送包含用户期望的音频内容的回放信号以驱动被用户佩戴的头戴式耳机的扬声器。该系统从麦克风接收麦克风信号，该麦克风被布置为捕获用户所处的周围环境内的声音，并且该系统对麦克风信号执行语音检测算法以检测其中包含的语音。响应于语音的检测，该系统确定用户是否意图参与与位于周围环境内的人的对话。如果是，该系统基于用户期望的音频内容来调节该回放信号。具体地讲，该系统可基于该系统当前正播放的音频内容来调节回放。例如，如果用户期望的音频内容包括语音内容(例如，播客、有声读物、电影音轨等)，则该系统可暂停该回放信号，这是由于穿戴者将使注意力从音频内容转向该人。然而，如果音频内容包括音乐内容(例如，乐曲或音乐)，则该系统可闪避该回放信号(例如，向该回放信号应用标量增益)以便降低该系统的音量。闪避该信号允许该音乐以更低音量级别播放，从而允许穿戴者在穿戴者参与对话的同时在背景中感知该音乐。因此，该音频系统基于用户期望的音频内容来调节回放以便允许穿戴者参与对话，同时保留该用户体验(例如，无需用户停止回放或摘下头戴式耳机)。

即使头戴式耳机提供无源衰减，不期望的环境噪声也可能泄露进用户的耳朵(例如，穿过用户的耳朵与头戴式耳机的耳垫垫层之间的开口)。在一些情况下，不期望的噪声可通过产生非期望的声音混合来与该回放信号的用户期望的音频内容“冲突”。例如，正收听通过头戴式耳机播放的音乐的穿戴者可能进入正播放不同音乐(例如，不同速度、音色、歌词等)的健身房，该不同音乐泄露进用户的耳朵并且与穿戴者的音乐混合。该音乐组合对于穿戴者而言可能是非期望的，这是由于健身房中播放的音乐可通过掩蔽或混淆头戴式耳机的音乐来不利地影响用户的体验。因此，穿戴者可能被迫过度提高头戴式耳机的音量以便压过健身房的音乐，这最终对于消除该音乐可能没有多大用处。该音量提高持续延长时间段可导致听力损伤。

本公开描述了另一个方面，其中音频系统检测头戴式耳机的穿戴者所感知的冲突音频内容，并且基于用户期望的音频内容来调节回放。具体地讲，该音频系统发送包含用户期望的音频内容的回放信号以驱动被用户佩戴的头戴式耳机的扬声器。该系统从麦克风接收麦克风信号，该麦克风信号包含用户所处的周围环境的环境噪声。该系统处理该麦克风信号以确定环境噪声是否为一种类型的音频内容。例如，该系统可确定噪声的特性(例如，频谱内容)是否对应于预定义类型的音频内容。当用户期望的音频内容是与环境噪声的音频内容的类型相同的类型的音频内容时，该系统暂停该回放信号。返回到前一示例，如果在用户的头戴式耳机正播放音乐时用户进入正回放音乐的健身房并且用户可感知这两种声音(例如，基于环境噪声的一部分泄露进用户的耳朵)，则该系统可暂停该回放信号，这是由于这两种声音可能冲突并因此可能让用户感到很吵。

图1示出了根据一个方面的音频系统1，该音频系统具有音频源设备2和音频输出设备3，并且用于为考虑语音检测而调节声音回放。在一个方面，这两个设备中的任一个设备可执行如本文所述的为考虑语音检测而调节声音回放的一些或所有操作。在一个方面，音频系统可包括其他设备，诸如远程电子服务器(未示出)，该远程电子服务器可通信地耦接到音频源设备、音频输出设备或这两者，并且可被配置为执行如本文所述的一个或多个操作。如图所示，音频输出设备是头戴式耳机(例如，其可包括集成在其中的电子部件，诸如一个或多个处理器和存储器)，该头戴式耳机被布置为将声音引导到穿戴者的耳朵中。具体地讲，头戴式耳机是包耳式头戴式耳机(或头戴受话器)，其被示出为至少部分地覆盖用户的右耳。在一个方面，头戴式耳机可包括两个头戴受话器(一个在左侧，一个在右侧)，每个头戴受话器至少部分地覆盖用户的相应耳朵，并且被布置为输出至少一个音频声道(例如，右头戴受话器输出音频内容诸如音乐作品的立体声记录的双声道输入的右音频声道)。在另一个方面，音频输出设备可为至少一个入耳式头戴受话器或入耳式耳机。在一些方面，头戴受话器可以是具有柔性耳机末端的密封类型，该柔性耳机末端用于通过阻塞或闭塞在耳道中来在声学上密封用户的耳道的入口以与周围环境隔开。在一个方面，音频输出设备是贴耳式头戴受话器。在另一方面，输出设备可以是包括至少一个扬声器并且被布置为由用户佩戴并且被布置为通过用音频信号驱动扬声器来输出声音的任何电子设备。

在另一个方面，音频输出设备3可以是便携式设备，诸如智能电话。在一些方面，输出设备可以是头戴式设备诸如智能眼镜，或可穿戴设备诸如智能手表。在一个方面，输出设备可以是被布置为将声音输出到周围环境中的任何电子设备。例如，输出设备是独立扬声器、智能扬声器、家庭影院系统或集成在车辆内的信息娱乐系统中的至少一者的一部分。

音频源设备2被例示为多媒体设备，更具体地为智能电话。在一个方面，音频源设备可以是包括电子部件(例如，集成在其中的一个或多个处理器和存储器)并且可执行音频信号处理操作和/或联网操作的任何电子设备。这种设备的示例可包括平板电脑、膝上型计算机、台式计算机、智能扬声器等。

如图所示，音频源设备2是音频输出设备3的“配套”设备，使得源设备经由无线连接来与输出设备配对(或通信地耦接)。例如，源设备可被配置为经由无线通信协议(例如，BLUETOOTH协议或任何其他无线通信协议)与音频输出设备3建立无线连接。在所建立的无线连接期间，音频源设备可与音频输出设备交换(例如，发射和接收)数据分组(例如，互联网协议(IP)分组)，其可包括音频数字数据。在另一个方面，音频源设备可经由其他方法诸如有线连接来通信地耦接到输出设备。

在一些方面，音频源设备2可以是音频输出设备的一部分(或与音频输出设备集成)。例如，如本文所述，音频源设备的至少一些部件(诸如控制器)可以是音频输出设备的一部分。在这种情况下，每个设备可经由作为音频输出设备内一个或多个印刷电路板(PCB)的一部分的迹线通信地耦接。

图2示出了根据一个方面的音频输出设备3的框图。音频输出设备包括一个或多个部件(或电子设备)，诸如输入音频源16、控制器8、一个或多个传感器15和扬声器18。如图所示，传感器包括惯性测量单元(IMU)传感器4、相机5、麦克风6和加速度计7。在一个方面，音频输出设备可包括更多或更少的部件。例如，该设备可包括一个或多个IMU传感器、相机、麦克风、扬声器和/或加速度计。作为另一个示例，该设备可包括至少一个显示屏(例如，就头戴式设备而言)，该至少一个显示屏被配置为呈现数字图像或视频。

在一个方面，尽管被示出为音频输出设备3的一部分，但是本文所述的部件中的至少一些部件可以是音频系统1的任何电子设备诸如音频源设备2的一部分。例如，音频源设备可包括输入音频源16、一个或多个传感器15和/或控制器8。在另一个方面，音频源设备可执行一个或多个操作以调节声音回放，如本文所述。

在一个方面，扬声器18例如可以是可被专门设计用于特定频带的声音输出的电动驱动器，诸如低音扬声器、高音扬声器或中音驱动器。在一个方面，扬声器可以是“全音域”(或“全频”)电动驱动器，其尽可能多地再现可听频率范围。在一些方面，输出设备可包括一个或多个不同扬声器(例如，至少一个低音扬声器和至少一个全音域驱动器)。在一个方面，扬声器可被布置为将声音直接投射(或输出)到用户的耳朵中(如同入耳式、贴耳式或包耳式头戴受话器的情况一样)。在另一个方面，输出设备可包括一个或多个“耳外”扬声器，该一个或多个“耳外”扬声器可被布置为将声音直接投射到周围环境中。在另一个方面，输出设备可包括(两个或更多个)耳外扬声器的阵列，这些耳外扬声器被配置为将声音的定向波束方向图投射在环境内的位置处，诸如将波束朝向用户的耳朵引导。在一些方面，输出设备(的控制器8)可包括声音输出波束形成器，该声音输出波束形成器被配置为接收一个或多个输入音频信号(例如，回放信号)并且被配置为产生扬声器驱动器信号，这些扬声器驱动器信号在用于驱动两个或更多个耳外扬声器时可产生一个或多个声音输出波束方向图的形式的空间选择性声音输出，每个图案包含输入音频信号的至少一部分。

输入音频源16可包括正在运行媒体播放器软件应用程序的经编程的处理器，并且可包括正在产生一个或多个回放信号作为到控制器8的数字音频输入的解码器。在一个方面，回放信号可包括用户期望的音频内容，诸如语音内容和/或音乐内容。在一个方面，用户期望的音频内容是用户选择用于回放(例如，经由音频源设备的显示屏上显示的用户界面)的音频内容。在一个方面，语音内容可包括播客、有声读物或电影音轨，并且音乐内容可包括音乐。在一个方面，输入音频源可从(例如，音频源设备2或音频输出设备3的)存储器检索回放信号。在另一个方面，输入音频源可(例如，通过互联网)流式传输来自另一个源的回放信号。在一个方面，如本文所述，经编程的处理器可以是音频源设备2的一部分。在这种情况下，音频源设备2可(例如，经由无线连接)将回放信号传输到音频输出设备3。在一些方面，解码器可能能够解码经编码的音频信号，该经编码的音频信号是已被使用任何合适音频编解码器诸如例如高级音频编码(AAC)、MPEG音频层II、MPEG音频层III以及自由无损音频编解码(FLAC))进行了编码。另选地，输入音频源16可包括编解码器，该编解码器将模拟或光学音频信号从线路输入转换成例如用于控制器的数字形式。另选地，可存在多于一个输入音频声道，诸如双声道输入，即音乐作品的立体声录音的左声道和右声道，或者可存在多于两个输入音频声道，诸如例如动画胶卷或者电影的5.1环绕格式的整个音频音轨。在一个方面，输入源16可提供数字输入或模拟输入。

在一个方面，每个传感器15被配置为检测周围环境的输入，并且作为响应，产生传感器数据。例如，IMU传感器4被配置为检测移动，并且作为响应，产生运动数据。例如，当用户穿戴着输出设备时，IMU传感器可检测用户何时沿一定方向(例如，相对于参考点)转身和/或移动。在一个方面，IMU传感器可包括至少一个加速度计、陀螺仪和/或磁力仪。

在一个方面，相机5是互补金属氧化物半导体(CMOS)图像传感器，该CMOS图像传感器能够以图像数据的形式捕获数字图像，这些数字图像表示相机的视场，其中视场包括输出设备3所处的环境的场景。在一些方面，相机5可以是电荷耦合器件(CCD)相机类型。该相机被配置为捕获由一系列数字图像表示的静态数字图像和/或视频。在一个方面，该相机可以是被定位成捕获向外视场的“外部”相机。例如，该相机可被定位到输出设备上，使得其具有向外并沿相对于用户的正面方向(例如，沿用户头部指向的方向)投射的视场。在另一个方面，该相机可以以不同方式定位。例如，该相机可为“内部”相机，使得其具有包括穿戴着该设备的用户的至少一个物理特性(例如，眼睛)的视场。在一些方面，该系统可包括超过一个相机，使得存在外部相机和内部相机。

在一个方面，麦克风6(例如，差分压力梯度微机电系统(MEMS)麦克风)可被配置为将由在声学环境中传播的声波导致的声能转换成麦克风信号。在一些方面，输出设备可包括两个或更多个麦克风的麦克风阵列。具体地讲，控制器8可包括声音拾取波束形成器，该声音拾取波束形成器可被配置为处理麦克风信号以形成用于在某些方向上进行空间选择性声音拾取的定向波束方向图，以便对一个或多个声源位置更敏感。例如，麦克风阵列可将波束方向图朝向用户的嘴部引导以便捕获用户的语音，同时使周围环境内的非期望的声音和噪声最小化。

在一个方面，加速度计7被配置为检测移动或振动并且产生机械振动形式的音频信号。具体地讲，该加速度计被布置和配置为接收(检测或感测)在用户说话时产生的语音振动，并且产生表示(或包含)语音振动的加速度计信号(作为音频信号)。例如，该加速度计被配置为感测在说话和/或哼唱时从声带贯穿用户的头部(和/或身体)传输的骨传导振动。因此，在一个方面，该加速度计可被定位成使得在用户穿戴着输出设备3时，其靠近用户的头部(例如，紧挨着用户的耳朵)。然而，在一个方面，该加速度计可被定位在输出设备之上或之内的任何地方。

控制器8可以是专用处理器诸如专用集成电路(ASIC)、通用微处理器、现场可编程门阵列(FPGA)、数字信号控制器或一组硬件逻辑结构(例如滤波器、算术逻辑单元以及专用状态机)。该控制器可被配置为执行声音回放调节操作以考虑语音检测，如本文所述。具体地讲，为了执行这些操作，该控制器包括上下文引擎9，该上下文引擎被配置为确定音频输出设备的用户是否意图参与与周围环境中的另一个人的对话。另外，该控制器还包括音频处理引擎10，该音频处理引擎被配置为响应于上下文引擎9确定用户意图参与该对话并且基于回放信号的音频内容来对从输入音频源16获得的回放信号执行音频信号处理操作。本文描述了关于这些操作的更多说明。在一个方面，由每个所述引擎执行的所述操作中的至少一些操作可由控制器在软件中实现(例如，实现为存储在音频输出设备3的存储器中的指令)和/或可由硬件逻辑结构实现，如本文所述。在一个方面，该控制器可执行一个或多个其他操作，诸如音频信号处理操作。

上下文引擎9包括第一人语音检测器11、第二人语音检测器12、第三人语音检测器13和参与意图检测器14。在一个方面，这些检测器中的每个检测器可被配置为从一个或多个传感器15获得传感器数据以确定谁在说话(或更具体地讲，环境内的声源位于何处)以及用户是否意图参与对话。本文现在将描述每个检测器的说明。

在一个方面，第一人语音检测器11被配置为确定用户(例如，音频输出设备3的穿戴者)是否在说话，而不是针对邻近用户(例如，站在用户的前面)的某人。该检测器被配置为从麦克风6获得一个或多个麦克风信号并且从加速度计7获得加速度计信号。该检测器基于所获得的信号中的至少一些信号来确定谁在说话。具体地讲，语音检测器11被配置为对麦克风6(其被布置为感测周围环境中的声音)所捕获的至少一个麦克风信号执行语音检测算法以确定其中是否含有语音。例如，该检测器可确定这些信号是否包含与语音相对应的一定频率范围(例如，语音频率范围，诸如100Hz–8,000Hz)内的(例如，特定)频谱内容。在另一个方面，该检测器可使用任何方法来检测麦克风信号内包含的语音。

在检测到语音时，检测器11确定该语音是否来自于(或起源于)用户。具体地讲，该语音检测器被配置为使用一个或多个麦克风来确定该语音的到达方向(DoA)。在一个方面，该语音检测器可使用任何DoA估计方法(或语音定位方法)诸如基于时间延迟的算法和波束形成来估计DoA。在一个方面，该DoA可处于任何坐标系(例如，球面坐标系)，其中原点被定位在用户(例如，用户头部的顶部)周围或音频输出设备周围。检测器11还被配置为确定加速度计7是否正产生与用户说话(或哼唱)一致的信号。例如，该检测器可确定该加速度计是否正产生一定信号，该信号具有高于阈值的量值，这指示用户说话(例如，基于骨传导)。该检测器可使用DoA和加速度计信号来确定语音的原点。例如，如果加速度计正产生超过阈值的信号并且DoA指向用户的嘴部(例如，相对于用户(或例如用户的头部)向前和向下引导)，则该检测器可确定用户在说话。然而，如果加速度计信号低于阈值和/或DoA不指向与用户说话相关联的位置，则该检测器可确定用户未说话。在一个方面，该检测器可产生指示用户是否在说话的输出(数字)信号(例如，其具有指示用户在说话的高状态并且具有指示用户未说话的低状态)。

第二人语音检测器12被配置为确定所检测的语音是否起源于向用户说话(或指向用户)的某人。该检测器被配置为获得以下的至少一者：1)来自麦克风6的一个或多个麦克风信号，2)来自一个或多个相机5的图像数据，以及3)来自第一人语音检测器11的输出信号。为了确定语音的原点，检测器12可使用麦克风信号来确定语音的DoA。例如，检测器12可执行与检测器11类似的操作。在另一个方面，检测器12可从第一人语音检测器获得DoA(或反之亦然)。当DoA“向外”，具体地讲DoA不起源于用户(例如，不指向或背向用户的嘴部)时，该检测器可确定某人在向用户说话。

在一些方面，第二人语音检测器12可基于识别以下的至少一者来确定除用户之外的某人在说话：1)该人在相机5的视场内，以及2)该人正在执行指示某人朝向另一个人(在这种情况下为用户)说话的身体姿态或面部表情。具体地讲，检测器12被配置为对相机5所捕获的数字图像(图像数据)执行对象识别(例如，通过使用对象识别算法)以便检测在相机的视场内捕获的对象。例如，该检测器可获得相机5所捕获的周围环境的场景的数字图像。该检测器可处理数字图像以识别其中的图案(例如，结构图案)并且将它们与先前存储的图案(例如，本地存储在存储器中的图案)进行比较。一旦找到匹配图案，就称该检测器检测到(或识别)数字图像内的对象。在一个方面，语音检测器12使用对象识别来识别所检测的语音的声源，诸如向用户说话的某人。例如，检测器12可对相机所捕获的数字图像使用对象识别算法以识别指示某人向另一个人说话的对象。该检测器可确定该算法是否识别以下的至少一者：1)位于数字图像内所包含的周围环境的场景内的某人，以及2)指示朝向用户说话的该人的身体姿态或面部表情(例如，该人的嘴部在动、该人的眼睛正指向用户等)。

因此，当满足以下至少一个条件时，第二人语音检测器12可确定语音起源于向用户说话的某人：1)DoA向外，2)对象识别算法识别位于相机的视场内并且正在执行指示某人朝向用户说话的身体姿态的某人，和/或3)来自第一人语音检测器11的输出信号指示用户未说话(例如，具有低状态)。这些条件中的任何一个条件可满足检测器12的确定。作为响应，检测器12可产生输出信号，其中高状态(例如，当满足本文所述条件中的至少一个条件时)指示某人在向用户说话，并且低状态指示某人在说话，但不是向用户说话(例如，这可基于该人背对着用户)。

在一个方面，第三人语音检测器13被配置为确定某人是否在说话，但该人不是向用户说话(例如，其语音不指向用户)。检测器13被配置为获得以下的至少一者：1)来自麦克风6的一个或多个麦克风信号，2)来自该一个或多个相机5的图像数据，以及3)来自第一人语音检测器11和第二人语音检测器12的输出信号。该检测器可确定语音是否未指向用户。例如，周围环境内正在说话但未面对用户(例如，面向远离用户的方向且背对着用户)的某人。在一个方面，第三人语音检测器13被配置为使用如本文所述的麦克风信号来确定语音的DoA，或可从另一个语音检测器获得DoA。类似地，第三人语音检测器被配置为对相机所捕获的数字图像执行对象识别以便检测其中包含的对象。在一个方面，语音检测器可执行对象识别以识别其中包含的指示某人在向除用户之外的人说话的对象。例如，当前置相机捕获该图像，识别出某人的背部面向用户或位于用户前面的某人的侧面视图(这可指示该人在与用户旁边的某人交谈)时。在另一个方面，第三人语音检测器可从另一个语音检测器(例如，第二人语音检测器12)获得数字图像内包含的所识别的对象。

在一个方面，当满足以下至少一个条件时，第三人语音检测器13可确定语音的原点并且可确定有人在向除用户之外的某人说话：1)DoA向外，2)对象识别算法识别位于相机的视场内但未面向用户的某人，以及3)第一人语音检测器和第二人语音检测器的输出信号指示用户未说话并且某人未向用户说话(例如，这两个信号均具有低状态)。在一个方面，该检测器还可通过确定DoA起源于未面向用户的所识别的人来确定原点是未向用户说话的人。作为响应，检测器13可产生输出信号，其中高状态指示某人在说话但不是向用户说话。

在一个方面，这些语音检测器中的一个或多个语音检测器可执行本文所述的操作中的至少一些操作。例如，如果第二人语音检测器12确定某人在与用户交谈(例如，基于对象识别和DoA估计)，则上下文引擎9可不执行第一人语音检测器和第三人语音检测器的操作。在另一个方面，上下文引擎9可在执行一个或多个语音检测器的操作之前先对一个或多个麦克风信号执行语音检测操作以检测其中包含的语音。换句话讲，一旦在麦克风信号内检测到语音，语音检测器就可确定语音的原点，如本文所述。

在一个方面，参与意图检测器14被配置为确定用户是否意图参与对话。具体地讲，检测器14被配置为获得传感器数据(例如，来自IMU传感器4的运动数据、来自麦克风6的一个或多个麦克风信号、来自一个或多个相机5的图像数据)和/或来自第二人语音检测器12和第三人语音检测器13的输出信号，并且基于传感器数据和/或来自一个或多个语音检测器的输出信号来确定用户是否意图参与对话。在一个方面，检测器14可通过确定周围环境内是否存在起源于除用户之外的声源(例如，另一个人)的语音来确定用户是否意图参与对话。具体地讲，检测器14可确定来自第二人语音检测器和第三人语音检测器的任一输出信号是否处于高状态。如果是，参与检测器14被配置为确定用户是否已执行指示用户的注意力正指向所检测的语音的DoA的姿态。例如，该检测器可从IMU传感器4获得运动数据并且可确定(或获得)语音的DoA(如本文所述)，并且使用该运动数据来确定用户已执行姿态，诸如移动和转身。在一个方面，当用户执行(身体)姿态时，该检测器可确定用户的注意力指向(或正指向)DoA，该姿态诸如为1)移向DoA(例如，移向说话的人)，2)转向DoA(例如，转向说话的人)，3)用户按DoA移动(例如，在说话的人旁边行走)，或4)用户停止移动。因此，该检测器可基于来自IMU传感器的运动数据是否指示用户已停止行走(或慢下来)来确定用户意图参与对话。在一些方面，该确定可基于运动数据所指示的姿态的组合，诸如用户停止行走和转向(或移向)DoA。在一个方面，该检测器可在移向DoA之后确定用户的注意力指向DoA时确定用户意图参与该对话。例如，用户可通过转向DoA并随后面朝(或指向)DoA来意图参与该对话。

在一个方面，检测器14可基于附加传感器数据来确定用户意图参与对话。例如，检测器14可从相机5获得数字图像，并且执行对象识别以识别这些图像内包含的所检测的语音的声源，如本文所述。检测器14可处理(或分析)数字图像以确定声源是否进入相机的视野，这可指示用户正转向该源。作为另一个示例，当确定该源是向用户说话的某人(例如，基于第二人语音检测器12的输出信号)时，检测器14可确定数字图像内识别的该人在数字图像的整个进程中是否在变化(例如，变得越来越大)，从而指示用户正移向说话的该人。在另一个方面，检测器14可基于麦克风6所产生的麦克风信号来确定用户正朝向DoA作姿态。例如，当(例如，基于麦克风信号中的相位变化得出)DoA在与用户的移动或姿态相反的方向上移动(例如，DoA相对于用户向左旋转，而用户向右转)时，控制器8可确定用户意图参与对话。

在另一个方面，该检测器可基于用户所执行的眼睛移动或眼睛姿态来确定用户意图参与对话。在一个方面，检测器14被配置为跟踪(例如，内部)相机所捕获的数字图像内的用户眼睛。该检测器执行眼睛跟踪算法以测量数字图像中的至少一只眼睛的眼睛位置和/或眼睛移动，从而确定相对于参考点的注视方向(或注视点)。在一个方面，眼睛跟踪算法基于角膜反射的光学跟踪来确定注视方向。例如，(例如，可见、近红外、红外等)光指向用户的眼睛，从而引起角膜中的反射。相机捕获这些反射，根据这些反射来确定相对于输出设备(例如，相机5的位置)的注视方向。在另一个方面，该检测器可通过跟踪眼睛(例如，眼睛的瞳孔)的移动来确定注视方向。在一个方面，眼睛跟踪算法可使用任何方法来确定某人的注视方向。在一些方面，这些方法中的任何方法可确定输出设备的用户(或穿戴者)和/或面向用户的另一个人的注视方向。为了基于眼睛姿态来确定用户意图参与该对话，该检测器可确定用户的注视方向指向DoA(例如，在至少一定时间段内)。作为另一个示例，该确定可基于注视方向是否转向DoA。

在另一个方面，参与意图可基于环境中的另一个人的注视方向。例如，参与意图检测器14可在确定注视方向指向环境内识别的某人时(例如，基于对一个或多个数字图像执行对象识别)来确定用户意图参与对话。在一个实施方案中，该意图可基于用户和该人是否已建立相互目光接触(例如，在一定时间段内)。当DoA的原点在用户已与之建立相互目光接触的该人处(或周围)时，情况可能尤其是如此。

在另一个方面，参与意图可基于环境内的另一人的其他动作。例如，该检测器可对一个或多个数字图像使用对象识别算法来识别环境内存在声源(例如，另一个人)。该检测器可确定该人是否意图参与与用户的对话，诸如执行指示说话的面部表情(例如，嘴部在动以及基于所确定的注视方向得出该人正看着用户)。

在一些方面，参与意图检测器14可基于用户是否意图参与该对话的确定来产生参与置信度信号(或评分)。例如，如果用户正在执行指示用户的注意力指向DoA的姿态，则置信度评分可增加(例如，从低状态(例如，0)增加到高状态(例如，1))。在一个方面，置信度评分可以以特定速率从一个状态递增地改变为另一个状态。此类改变可减少(或防止)误报。例如，在处于低状态时，该检测器可确定用户意图参与对话(例如，基于用户转向DoA)。在该确定时，检测器14可开始增加置信度评分(例如，以每ms 0.1的速率)。只要用户继续转向DoA(和/或完成该转身并且现在正面向DOA)，评分就可增加直到评分达到高状态。然而，如果用户开始远离DoA转身，则评分可开始以相同(或不同)速率降低。

在一个方面，检测器14被配置为确定用户是否意图退出对话。具体地讲，该检测器可以以确定用户是否意图参与该对话的相反方式作出该确定。例如，检测器14可确定用户正在执行姿态，诸如开始(例如，从静止位置)行走或移动。作为另一个示例，用户可开始远离DoA转身，和/或(从静止位置)远离DoA移动。作为另一个示例，该检测器可基于眼睛移动或眼睛姿态(例如，跟踪到用户的眼睛正远离DoA移动)来确定用户意图退出。作为响应，检测器14可降低置信度评分(例如，从高状态降低到低状态)。在另一个方面，检测器14可在不再检测到麦克风信号内的语音时确定该对话完成。本文描述了关于降低置信度评分的更多内容。

音频处理引擎10被配置为获得具有来自输入音频源16的用户期望的音频内容和来自参与意图检测器14的置信度评分的回放信号，并且被配置为响应于检测器14确定用户意图参与该对话而调节该回放信号。具体地讲，音频处理引擎可在参与置信度评分指示用户意图参与对话时执行一个或多个音频处理操作。例如，处理引擎可在评分处于高状态(例如，1值)时执行这些操作。作为另一个示例，处理引擎可在置信度评分超过第一阈值(例如，0.8)时执行一个或多个操作。相反，处理引擎可在评分降至低状态(例如，0值)和/或降至低于第二阈值(其可与第一阈值相同或不同)时停止执行这些操作。本文描述了关于基于置信度评分超过阈值来执行音频处理操作的更多内容。

在一个方面，音频处理引擎10被配置为基于用户期望的音频内容来调节该回放信号。处理引擎被配置为确定该回放信号内包含的用户期望的音频内容的类型。例如，该回放信号可包含描述其中包含的音频内容的类型的元数据，该引擎将该元数据用于该确定。在一个方面，该引擎可分析该回放信号以确定音频内容的类型。该引擎可将该回放信号的频谱内容和与音频内容的类型相关联的预定义的频谱内容进行比较。在另一个方面，该引擎可执行任何方法以确定其中包含的音频内容的类型。

在确定用户期望的音频内容时，处理引擎10可通过执行一个或多个音频处理操作来调节该回放信号。例如，当用户期望的音频内容包括语音内容诸如播客、有声读物、电影音轨等时，处理引擎可暂停该回放信号。作为另一个示例，当用户期望的音频内容包括音乐内容诸如乐曲时，该引擎可闪避该回放信号。在一个方面，为了闪避该回放信号，该引擎可向该回放信号应用标量增益以便降低扬声器的声音输出级别。在另一个方面，处理引擎可通过应用一个或多个音频处理(例如，线性)滤波器(例如，低通滤波器、带通滤波器、带阻滤波器(或陷波滤波器)等)以滤除频谱内容来对该回放信号进行频谱成形。例如，处理引擎可应用陷波滤波器，该陷波滤波器具有阻带以衰减特定频率范围。在一个方面，该频率范围可包括如本文所述的语音频率范围的至少一部分。在另一个方面，该阻带可包括整个语音频率范围。作为一个示例，处理引擎可向该回放信号应用混响。作为另一个示例，处理引擎可对该回放信号应用一个或多个空间滤波器(例如，头部相关传递函数(HRTF))以使该音频空间化。在一些方面，处理引擎可应用本文所述的音频处理操作中的一个或多个音频处理操作以闪避该回放信号。本文描述了关于闪避该回放信号的更多内容。

在一个方面，音频处理引擎10可基于环境内的所检测的语音来确定如何调节该回放信号。具体地讲，处理引擎可根据一个或多个麦克风信号中检测到的语音级别来闪避该信号。在确定语音级别为低(例如，低于语音阈值)时，该回放信号闪避该信号的程度可大于语音级别为高(例如，高于语音阈值)的情况。因此，当语音级别降低(例如，该对话位于库中)时，该引擎可(例如，成比例地)降低标量增益以便进一步降低扬声器的声音输出级别(例如，在增益为输出与输入之比的情况下，当增益降低时，声音输出级别将降低)。

在一个方面，音频处理引擎10可执行一个或多个附加音频处理操作。例如，该引擎可被配置为对该回放信号进行均衡(例如，频谱成形)。在另一个方面，该引擎可被配置为从麦克风6接收一个或多个麦克风信号，并且可被配置为执行有源噪声消除(ANC)操作以产生通过扬声器18输出的抗噪声，从而减少来自环境的环境噪声。在一个方面，该引擎可执行自适应前馈ANC、自适应反馈ANC或混合方法。例如，当执行自适应反馈ANC时，音频处理引擎可从“误差”(或内部)麦克风获得麦克风信号，该麦克风被布置为捕获用户的耳朵处(例如，用户的耳朵(或内耳)与音频输出设备3之间)的声音。该引擎可根据自适应算法来处理误差麦克风信号以确定反馈ANC滤波器，该反馈ANC滤波器用于产生抗噪声信号。在另一个方面，该引擎被配置为执行环境声音增强(ASE)操作，其中由音频输出设备3(例如，该音频输出设备的扬声器18)回放的声音是由该设备的一个或多个麦克风捕获的环境声音的再现。因此，当输出设备为头戴式耳机时，该设备可以“透明”方式操作，例如，好像头戴式耳机没有被用户佩戴那样。为了执行ASE操作，该引擎可用一个或多个ASE滤波器处理一个或多个麦克风信号，这降低由于头戴式耳机佩戴在用户的耳朵上方(上或里)而引起的声学遮蔽。

在另一个方面，音频处理引擎10可基于用户是否参与对话来执行不同音频信号处理操作。例如，在用户未参与对话时，处理引擎可对误差麦克风信号执行ANC操作以产生抗噪声信号并且发送该抗噪声信号(与该回放信号一起)以驱动扬声器18。然而，当音频处理引擎确定用户意图参与该对话时，该引擎可暂停ANC操作的执行，对麦克风信号执行ASE操作以产生ASE信号，并且发送该ASE信号以驱动扬声器，从而再现麦克风在周围环境内捕获的声音。在一个方面，ASE操作可选择性地衰减麦克风信号所捕获的周围环境的至少一个声音，并且在这种情况下，扬声器可再现在由ASE信号驱动时在周围环境内捕获的声音的至少一部分。一旦该对话已终止(例如，置信度评分降至低于阈值)，音频处理引擎就可暂停ASE操作并且继续执行ANC操作。

如本文所述，为考虑语音检测而调节声音回放的操作由音频系统1的音频输出设备3(例如，该音频输出设备的控制器8)执行。在一个方面，这些操作中的一个或多个操作可由音频系统的任何设备执行。在一个方面，音频源设备2(在通信地耦接到音频输出设备时)可(例如，使用集成在其中的一个或多个处理器和存储器)执行这些操作中的一个或多个操作。例如，音频输出设备可将传感器数据传输到音频源设备，然后音频源设备基于传感器数据来处理该回放信号。一旦经过处理，就可将该回放信号传输回音频输出设备以驱动扬声器18。作为另一个示例，可从音频源设备(或另一个电子设备)的一个或多个传感器获得传感器数据而不是从音频输出设备获得传感器数据(或作为从音频输出设备获得传感器数据的补充)。当音频输出设备是非供电音频设备，诸如连接到源设备的有线头戴受话器时，情况可能是如此。

图3至图6示出了曲线图，这些曲线图示出了响应于上下文引擎9确定用户意图参与该对话而由音频处理引擎10执行的一个或多个音频处理操作。具体地讲，图4至图6中示出了低通滤波器的低通截止41、标量增益32和混响42。在一个方面，在音频处理引擎10闪避该回放信号时，可执行这些操作中的任何操作，如本文所述。在另一个方面，可执行其他操作，如本文所述。将参考图2来描述这些图。

图3示出了根据一个方面的曲线图20，该曲线图示出了响应于用户意图参与对话而暂停回放信号。具体地讲，该图示出了相对于时间的与该回放信号的回放状态22相关的参与置信度评分21。在一个方面，该曲线图表示音频处理引擎基于上下文引擎确定用户是否意图参与(和/或退出)对话来暂停和播放该回放信号。

曲线图20从T₀开始，此时置信度评分为低(例如，在0处)，因此音频输出设备正在播放该回放信号。从T₀开始，置信度评分将随时间增加。在一个方面，上下文引擎9可确定用户意图参与对话(例如，转向DoA)。当置信度评分升高(例如，评分可因用户转向并随后面向正在面朝用户谈话的某人而升高)时，音频输出设备继续播放该回放信号。在T₁时，置信度评分突破置信度评分阈值(例如，0.8)。如图所示，该回放状态具有在置信度评分超过阈值之后开始的前置时间或第一时间段(T_暂停)，在该时间中，音频处理引擎继续播放该回放信号。如果置信度评分在至少前置时间内保持高于置信度阈值，则音频处理引擎将改变该回放状态以暂停该回放信号。在一个方面，每当置信度评分超过置信度阈值时，音频处理引擎都可等待T_暂停以确定是否要改变该回放状态。在一个方面，T_暂停是预定义的时间段。在另一个方面，其可以是用户定义的。在T_暂停之后，该回放状态22从播放改变为暂停，从而引起该处理引擎暂停该回放信号。在一个方面，一旦置信度评分超过阈值，该回放状态就可立即改变。

在T₁和T₂之间，置信度评分继续增加直到其达到最大置信度值(例如，1.0)，该最大置信度值可表示该系统确信用户意图参与(和/或已参与)对话(例如，基于图像数据得出用户继续看着在说话的某人)。在T₂时，置信度评分开始相对于时间降低。在一个方面，由于语音检测器11、12和/或13不再检测到一个或多个麦克风信号内的语音，因此置信度评分可开始下降。在T₃时，置信度评分降至低于置信度阈值，此时音频处理引擎可确定评分是否在滞后时间或第二时间段(T_播放)内保持低于阈值。在一个方面，T_暂停与T_播放相同。在另一个方面，这些时间段可不同。在T_播放之后并且由于置信度评分保持低于阈值，该回放状态从暂停改变为播放，此时音频处理引擎开始再次回放。在一个方面，前置时间和滞后时间确保音频处理引擎不会因误报而改变该回放状态。例如，置信度评分21可在T₁时突破阈值，但随后在T_暂停结束之前，评分可降至低于阈值(例如，该人转向碰巧在谈话的某人并立即走开)。因此，该系统将继续播放该回放信号。

图4示出了根据一个方面的曲线图30，该曲线图示出了响应于用户意图参与该对话而通过应用标量增益来闪避回放信号。具体地讲，该图示出了相对于时间的与音频处理引擎向该回放信号应用的(标量)增益32相关的参与评分21。

在T₀时，置信度评分21为低，这指示上下文引擎9已确定用户不意图参与(或已参与)对话。因此，音频处理引擎不闪避该回放信号，因此增益32在1.0处(例如，指示该系统未衰减(或增强)该信号)。从T₀开始，评分增加直到其在T₁时突破置信度阈值，此时增益32开始降低。在一个方面，增益可具有前置时间，如本文所述。音频处理引擎开始在T₁时应用标量增益以便闪避该信号。从T₁开始，音频处理引擎10继续降低增益直到其在T₂时达到增益阈值。在这种情况下，阈值为0.5。因此，该系统将该回放信号的声音输出降低(或将该回放信号衰减)50％。在一个方面，阈值可以是用户定义的或预定义的。该系统在一定时间段(T₁-T₂)内降低增益，而不是将增益立即设定为0.5，以便使回放从“正常”回放(例如，没有闪避)平滑地转变为闪避该回放信号。在一个方面，转变时间可以是预定义的或用户定义的。在一个方面，增益阈值可基于所检测的语音的语音级别。例如，如果语音级别低于阈值，则音频处理引擎可降低该阈值(例如，降至0.75)，如本文所述。

在T₃时，置信度评分开始降低，并且在T₄时，评分降至低于置信度阈值，此时增益32开始升高。在一个方面，增益可具有滞后时间，如本文所述。在T₅时，增益32返回到1.0，此时音频处理引擎10可停止闪避该回放信号。在一个方面，T₄和T₅之间的时间段可与T₁和T₂相同或不同。因此，增益的改变速率在这两个时间段之间可相同或不同。

图5示出了根据一个方面的曲线图40，该曲线图示出了响应于用户意图参与该对话而通过对回放信号执行若干信号处理操作来闪避该回放信号。具体地讲，该图示出了相对于时间的与各自由音频处理引擎10向该回放信号应用的低通滤波器的低通截止41、增益32和混响(reverberation或reverb)42相关的参与置信度评分。在其他示例中，作为低通滤波器的补充或替代，可使用带通滤波器。

如本文所述，置信度评分开始从T₀增加。在T₁时，置信度评分突破置信度阈值，此时音频处理引擎10开始闪避该回放信号。具体地讲，音频处理引擎开始向该回放信号应用(以下的至少一者)1)低通滤波器、2)增益32和3)混响42以产生经调节的回放信号以便驱动扬声器18。在一个方面，这些操作中的每个操作是线性操作，因此可按任何次序应用。在另一个方面，音频处理引擎10可按特定次序应用这些操作以产生经调节的信号。从T₁开始，音频处理引擎调节这些操作中的每个操作直到它们中的每一者在T₂时达到相应阈值。例如，从T₁到T₂，处理引擎可调节(例如，降低)所应用的低通滤波器的低通截止频率直到达到fc。具体地讲，在该时间段期间，截止频率可随时间的变化而从起始(高)频率降低。音频处理引擎可执行相对于混响类似的操作。例如，处理引擎可随时间的变化而增加向该回放信号添加的混响的量(例如，增加预延迟、降低低通滤波器截止等)直到在T₂时达到5的混响阈值。例如，混响的每个值可对应于与混响相关联的一个或多个参数诸如预延迟和低通滤波器截止的不同值。因此，更低混响值可对应于向回放信号应用的更少混响。在T₄时，当置信度评分降至低于置信度阈值时，音频处理引擎将开始减少所应用的操作，直到在T₅时音频处理引擎停止应用这些操作并因此停止闪避该信号。在一些示例中，每个信号处理操作达到其对应阈值所需的时间量可不同。

图6示出了根据一个方面的曲线图50，该曲线图示出了用户意图退出该对话的误报。该图与图5类似，使得一旦参与置信度评分21在T₁时超过置信度阈值，音频处理引擎10就应用三个音频处理操作。然而，在T₃时，置信度评分21降至低于置信度阈值，此时低通滤波器的低通截止41开始增大。然而，一旦评分降至低于阈值，增益32和混响42就保持相同，因为这两个操作均包括滞后时间T_增益和T_混响，其中只要置信度评分在给定时间段内保持低于阈值，音频处理引擎就继续应用这些操作。如图所示，这两个操作具有不同滞后时间。在一个方面，这些滞后时间可相同。在另一个方面，这些操作中的至少一些操作可具有前置时间，如图3所述。

在T₃不久之后，在T₄时，置信度评分开始增加。置信度评分的该突然变化可对应于上下文引擎确定尽管在短时间段内看起来用户意图退出该对话(例如，通过远离DoA转身)，但是用户仍意图参与该对话(例如，已往回转向或正往回转向DoA)。尽管置信度评分不断增加，但是在T₅时，在置信度评分达到置信度阈值之前，音频处理引擎停止应用低通滤波器。在T₆时，置信度评分超过置信度阈值，此时音频处理引擎10开始应用低通滤波器并且开始减小低通截止41。然而，由于时间段T₃-T₆小于T_增益和T_混响，因此音频处理引擎保持这两个操作的应用。在T₇时，置信度评分再次降至低于置信度阈值，此时低通截止开始增大。在T_增益之后，音频处理引擎开始降低所应用的标量增益32，并且在T_混响之后，该引擎开始减少所应用的混响的量，这是由于在这两个滞后时间之后，置信度评分保持低于置信度阈值。

图7至图9是可由本文所述音频系统1(例如，该音频系统的音频输出设备3)执行的每个过程60、70和80分别的流程图。例如，过程60、70和/或80的操作中的至少一些操作可由音频输出设备的控制器8(例如，该控制器的上下文引擎9和/或音频处理引擎10)执行。在另一个方面，这些操作中的至少一些操作可由图1的音频源设备2和音频输出设备3执行。在一些方面，这些操作中的至少一些操作可由与音频源设备和/或音频输出设备通信地耦接的另一个电子设备诸如远程服务器执行。因此，这些图将参考图1和图2来描述。

图7是为考虑语音检测而调节声音回放的过程60的一个方面的流程图。过程60首先发送包含用户期望的音频内容的回放信号以驱动被用户佩戴的头戴式耳机的扬声器(在框61处)。具体地讲，可由控制器8(从输入音频源16)接收该回放信号，该控制器使用该信号来驱动扬声器18。过程60从麦克风6接收麦克风信号，该麦克风被布置为捕获用户所处的周围环境内的声音(在框62处)。过程60对麦克风信号执行语音检测算法以检测其中包含的语音(在框63处)。语音检测器11-13中的任何一个语音检测器可执行语音检测操作以确定麦克风是否正在捕获语音。

过程60基于所检测的语音来确定用户是否意图参与与位于周围环境内的人的对话(在决策框64处)。具体地讲，一旦检测到语音，语音检测器11-13就可确定谁在周围环境内说话，并且参与意图检测器14可基于来自一个或多个传感器15的传感器数据来确定用户是否意图参与该对话。例如，参与检测器可确定用户是否已执行指示用户的注意力指向声源(或语音的DoA)的姿态。如果否，则过程60返回到框61。否则，过程60前进以基于用户期望的音频内容来调节该回放信号(在框65处)。例如，音频处理引擎10可在音频内容包括语音内容时暂停该回放信号，或该引擎可在音频内容包括音乐内容时闪避该回放信号。

图8是确定用户是否意图参与该对话的过程70的一个方面的流程图。具体地讲，该过程中描述的操作中的至少一些操作可在图7中的过程60的决策框64和/或框65中执行。过程70首先接收来自一个或多个传感器15的传感器数据，诸如来自麦克风6的麦克风信号、来自相机5的图像数据、来自IMU传感器4的运动数据和/或来自加速度计7的加速度计信号。(在框71处)。在一个方面，传感器数据可对应于一个或多个类似传感器。例如，控制器8可从两个或更多个麦克风获得两个或更多个麦克风信号，这两个或更多个麦克风组成音频输出信号的麦克风阵列。过程70基于传感器数据来确定环境内的语音的到达方向(DoA)(相对于用户)(在框72处)。如本文所述，上下文引擎9(的语音检测器11-13)可使用任何DoA估计方法(诸如基于麦克风信号的波束形成)来确定DoA。

过程70基于传感器数据来确定用户是否已执行指示用户的注意力指向DoA的姿态(在决策框73处)。例如，参与意图检测器14可基于从IMU传感器4获得的运动数据来执行该确定，如本文所述。如果是，过程70输出提醒用户将调节该回放信号的通知(在框74处)。具体地讲，在确定用户意图参与对话时(例如，在参与置信度评分21超过置信度阈值时)，音频系统可输出该通知。在一个方面，该通知可以是在音频源设备和/或音频输出设备的显示屏上显示的视觉警报(例如，弹出消息)。在另一个方面，该通知可以是警报音频信号，使得该系统通过使用警报音频信号驱动扬声器18来输出该通知。在一个方面，该通知可向用户提醒该系统确信用户参与了(或即将参与)对话，并且将相应地调节该回放声音(例如，弹出消息可包括文本，诸如“您的音乐将被闪避以允许您参与对话”)。在一些方面，当该通知是警报音频信号时，该信号可包括非语言声音(例如，叮)。

过程70确定用户是否已请求将调节该回放信号(在决策框75处)。例如，视觉警报可包括用户可选择的UI项，该用户可选择的UI项在被选择(例如，通过按压在音频源设备的触敏显示屏上)时，指示音频系统继续调节该回放信号。具体地讲，如果被用户选择，视觉警报可包括指示可如何调节该回放信号的文本(例如，“您想要闪避您的音乐吗？”)。在一个方面，该请求可以是由用户说出并且由麦克风6捕获的语音命令(例如，“请闪避”)。在另一个方面，该请求可以是由用户作出并由一个或多个传感器15捕获的非有声确认。例如，该确认可以是由(例如，外部和/或内部)相机5捕获的身体姿态，诸如用户点头或用户眨动一只眼。如果是，过程70基于用户期望的音频内容来调节(例如，暂停、闪避等)该回放信号，如本文所述(在框76处)。否则，过程70返回到框71。

过程70基于传感器数据来确定用户是否已执行指示用户的注意力远离DoA的另一个姿态(在决策框77处)。具体地讲，上下文引擎9的参与意图检测器14可确定用户是否意图退出该对话，如本文所述。在一个方面，该检测器可确定用户是否已执行与用户所执行的确定用户的注意力指向DoA的姿态相反的姿态。例如，该检测器可基于IMU传感器所捕获的运动数据来确定用户是否已远离DoA转身。在一个方面，这可基于来自IMU传感器的运动数据和/或基于用户的注视方向是否已远离DoA移动来确定。在一个方面，该检测器可基于用户是否已停止说话一段时间(例如，十秒)来执行该确定。在该示例中，该检测器可监测麦克风6所捕获的麦克风信号以确定在该时间段内其中是否包含语音。在另一个方面，该检测器可确定用户已参与与之的对话的人是否已执行指示他们已退出该对话的姿态。例如，该检测器可确定该人是否已走开(例如，基于相机5所捕获的图像数据)，或该人是否已停止行走(例如，基于麦克风6所捕获的麦克风信号)。在一个方面，该确定可基于如本文所述的一个或若干个因素(例如，基于用户远离DoA转身和该人走开的组合)。

在一个方面，用户的注意力是否远离DoA(这可指示用户意图退出该对话)的确定可基于置信度评分的降低。例如，参与意图检测器14可基于用户是否正在执行指示用户的注意力远离DoA的一个或多个姿态来降低置信度评分，如本文所述。在一个方面，用户正在执行的姿态越多(在一定时间段内)，置信度评分将降得越低。一旦评分降至低于置信度评分阈值，该过程就通过停止调节该回放信号来恢复(例如，解除暂停、解除闪避等)该回放信号(在框78处)。换句话讲，在确定评分已降至低于置信度评分时，音频输出设备开始以与评分已超过阈值之前类似的方式回放该回放信号。具体地讲，音频处理引擎10开始停止应用曾为调节该回放信号而应用的该一个或多个音频处理操作。在一个方面，该过程可在恢复该回放信号之前等待一定时间段(例如，两秒)以确保置信度评分不会增加回到置信度阈值以上。

一些方面执行图8中所述的过程70的变型。例如，这些过程中的至少一些的特定操作可以不以所示出和所描述的确切顺序执行。可不在连续的一系列操作中执行该特定操作，并且可在不同方面中执行不同的特定操作。在一个方面，决策框73中作出的确定基于参与意图检测器14所产生的参与置信度评分是否超过置信度阈值。例如，在决策框73处，过程70可确定置信度评分是否超过置信度阈值。这可基于如本文所述由用户执行的所检测的姿态(例如，转向DoA)来进行。

如到此为止描述的，上下文引擎确定用户是否意图参与对话，并且作为响应而产生参与置信度评分，音频处理引擎使用该参与置信度评分来调节该回放信号(当评分超过阈值时)。在一个方面，上下文引擎可基于用户是否意图收听(或注意)音频声源的确定来产生置信度评分。例如，声源可以是人以外的东西，诸如电视机、收音机、对讲机等。上下文引擎可执行如本文所述的类似操作以确定用户是否意图收听声源。例如，在检测到声源的DoA时，该引擎可确定用户是否已执行指示用户的注意力指向DoA的姿态，诸如转向电视机。如果是，该引擎可产生高置信度评分，该高置信度评分在超过置信度阈值时可调节回放信号，如本文所述。

图9是响应于确定环境噪声与该回放信号冲突而暂停该回放信号的过程80的一个方面的流程图。具体地讲，该过程包括响应于确定环境噪声与用户期望的音频内容冲突而调节声音回放(例如，暂停该回放信号)的操作，如本文所述。过程80首先发送包含用户期望的音频内容的回放信号以驱动被用户佩戴的头戴式耳机(例如，设备3)的扬声器(例如，扬声器18)(在框81处)。过程80从麦克风接收(第一)麦克风信号，该麦克风信号包含用户所处的周围环境的环境噪声(在框82处)。例如，该麦克风可以是被布置为捕获环境噪声的外部麦克风，如本文所述。

过程80确定用户感知到环境噪声(在框83处)。具体地讲，音频系统1可使用一个或多个麦克风6(例如，内部麦克风)来确定环境噪声是否泄露进用户的耳朵(例如，不基于头戴式耳机的物理特性来无源地衰减，和/或不基于该系统执行的ANC操作来有源地衰减)。例如，该系统可从内部麦克风接收(第二)麦克风信号，该麦克风信号包含用户的耳朵处或附近的内部麦克风所捕获的声音。例如，该内部麦克风可以是集成在头戴式耳机的耳罩的内部(例如，指向用户的部分)中的误差麦克风。在这种情况下，麦克风可被布置为使得捕获用户的耳道中或周围的声音。在另一个方面，第二麦克风信号可由定位在其他地方的麦克风诸如另一个外部麦克风(例如，集成在耳罩的外部上)产生。该系统可确定声音包括用户期望的音频内容和周围环境的环境噪声。在一个方面，该系统可基于该回放信号(例如，基于该回放信号与第二麦克风信号之间的关联)来确定第二麦克风信号包括环境噪声。例如，如果第二麦克风信号与该回放信号不由阈值关联起来，则可确定其他声音(诸如环境噪声)与扬声器所产生的声音混合。在另一个方面，该系统可基于第一麦克风信号的至少一部分是否与第二麦克风信号关联(例如，基于这两个信号之间的部分是否类似)来执行该确定。在一些方面，该确定可基于用户动作。例如，在确定用户已按下按钮(例如，音频源设备2的音量按钮)并且确定存在环境噪声(例如，基于第一麦克风信号超过阈值)，该系统可确定用户可感知到该噪声。

在一个方面，该系统可基于确定环境噪声正在掩蔽用户的耳朵处的该回放信号(的至少一部分)来确定用户正感知到环境噪声。当一个声音的感知受到另一个声音的存在的影响时，便会发生听觉掩蔽。在这种情况下，该系统确定环境噪声是否阻止(或减少)用户对在用回放信号驱动时扬声器所产生的声音的感知。为了作出该确定，该系统确定扬声器的声音输出级别(例如，声压级别(SPL)值)，并且确定(例如，来自第一麦克风信号的)环境噪声的环境噪声级别。该系统确定环境噪声级别是否超过(或匹配)扬声器的声音输出级别。如果是，则环境噪声正掩蔽该回放信号。在一个方面，该确定可以是频率相关的，这意味着可基于环境噪声的至少一个频率分量的级别是否超过该回放信号的至少一个频率分量(在相同频率范围或不同范围内)来作出掩蔽的确定。

在一个方面，该系统可通过应用表示用户的耳朵处的环境噪声的效应的环境噪声模型来确定环境噪声正掩蔽该回放信号。例如，该系统可将该模型应用于一个或多个麦克风信号(由外部麦克风捕获)以产生建模的环境噪声信号。该系统可将环境噪声信号与该回放信号进行比较以确定噪声信号的(至少一些频谱分量的)级别是否超过该回放信号的级别。如果是，则该系统可确定环境噪声正在(至少部分地)掩蔽用户的耳朵处的该回放信号。

过程80确定是否可处理(或调节)该回放信号以阻断用户所感知的环境噪声(在决策框84处)。具体地讲，该系统确定是否可处理该回放信号以产生经处理的回放信号，该经处理的回放信号在被发送并用于驱动头戴式耳机的扬声器时，使得扬声器产生掩蔽用户的耳朵处的环境噪声的至少一部分的声音(包含用户期望的音频内容)。在一个方面，为了作出该确定，该系统确定可充当掩蔽阈值的扬声器的声音输出级别(例如，声压级别(SPL)值)，其中对于用户而言具有低于掩蔽阈值的声音级别的声音(诸如环境噪声)与扬声器所产生的声音难以区分。该系统确定(例如，来自第一麦克风信号的)环境噪声的环境噪声级别，并且确定用户的耳朵处的扬声器的声音输出级别。在一些方面，可通过以下方式确定声音输出级别：处理第二麦克风信号以确定声音输出级别。在另一个方面，可根据音频系统的设置来确定声音输出级别，诸如接收该系统的用户定义的音量级别作为声音输出级别。该系统基于环境噪声级别和声音级别来确定掩蔽阈值，其中掩蔽阈值大于声音输出级别。在一个方面，由于已确定用户正感知到环境噪声，故掩蔽阈值可更大，并且因此扬声器当前所产生的声音不足以掩蔽环境噪声。在一个方面，掩蔽阈值可以是频率相关的，使得掩蔽阈值对应于特定频率分量。例如，掩蔽阈值可在语音的频率范围内，如本文所述。

在确定掩蔽阈值时，该系统可确定该系统是否能够处理该回放信号以便扬声器实现将掩蔽环境噪声的这种声音输出级别。在一个方面，该系统可基于头戴式耳机的设备特性来确定是否可增加扬声器的声音输出级别以至少匹配掩蔽阈值。具体地讲，该系统确定是否可对该回放信号执行一个或多个音频处理操作以便声音输出级别超越(或满足)掩蔽阈值。例如，该系统可基于当前音量设置或用户设置(例如，指示音量无法超过阈值的设置)来确定是否可增加该系统的音量(例如，通过对该回放信号应用标量增益)。作为另一个示例，该系统可确定是否可对该回放信号进行频谱成形(例如，通过应用均衡操作)以便该回放信号的一个或多个频率分量超过对应于该频率分量的掩蔽阈值。在另一个方面，该系统可确定是否可将一个或多个滤波器(例如，低通滤波器等)应用于该回放信号以便减少高频噪声。在一个方面，该系统可确定是否可执行其他信号处理操作以便掩蔽环境噪声。例如，该系统可确定ANC操作的执行是否可产生抗噪声信号，该抗噪声信号在用于驱动扬声器时可消除环境噪声(或环境噪声的至少一部分)。在这种情况下，可通过以下方式处理该回放信号：将该回放信号与抗噪声信号组合以产生组合的音频信号作为经处理的回放信号以便通过扬声器输出。响应于确定可处理该回放信号，过程80对该回放信号执行该一个或多个音频处理操作以产生经处理的回放信号，该系统使用经处理的回放信号来驱动扬声器(在框85处)。

然而，如果无法处理该回放信号以掩蔽环境噪声，则过程80确定环境噪声是否包含与用户期望的音频内容相同的类型的音频内容(在决策框86处)。具体地讲，该系统可分析环境噪声以确定其中包含的音频内容的类型(例如，其是否包含语音内容、音乐内容等)。在一个方面，该系统可使用环境噪声的频谱内容在使频谱内容与预定义类型的音频内容相关联的数据结构中执行查表。例如，语音内容可位于100Hz–8,000Hz的范围内。因此，如果环境噪声包含大部分(或全部)在该范围内的频谱内容，则该系统可确定环境噪声包含语音内容。在另一个方面，该系统可将环境噪声传输到单独电子设备(例如，远程服务器)，该单独电子设备可执行音频内容识别操作。之后，远程服务器可传输环境噪声内包含的音频内容的类型的指示。在一个方面，该系统可执行类似操作以确定该回放信号内包含用户期望的音频内容的类型。在另一个方面，该系统可基于与该回放信号相关联的元数据来确定用户期望的音频内容的类型，如本文所述。如果环境噪声包含与用户期望的音频内容相同的类型的音频内容(例如，两者均是音乐内容或两者均是语音内容)，则过程80暂停该回放信号(在框87处)。因此，当用户期望的音频内容是与环境噪声的音频内容的类型相同的类型的音频内容时并且当无法处理该回放信号以掩蔽用户的耳朵处的环境噪声时，可暂停该回放信号。

否则，过程80确定用户期望的音频内容是否包含语音内容(在决策框88处)。如果否，过程80在框87处暂停该回放信号。否则，该系统确定环境噪声是否压过语音内容(在决策框89处)。具体地讲，该系统确定环境噪声是否完全(或至少部分地)掩蔽语音内容，使得用户无法听到(或无法明白)语音内容。例如，该系统可确定语音内容的一个或多个频谱分量是否被环境噪声掩蔽。在一个方面，这些频谱分量可位于100Hz–8,000Hz的范围(其包括端点)内，该范围可以是至少一些语音的频率范围。在另一个方面，该系统可确定环境噪声是否掩蔽阈值数量的频谱分量。如果是，则过程80暂停该回放信号。

一些方面执行图9中所述的过程80的变型。例如，这些过程中的至少一些的特定操作可以不以所示出和所描述的确切顺序执行。可不在连续的一系列操作中执行该特定操作，并且可在不同方面中执行不同的特定操作。

在一个方面，本文所述的操作中的至少一些操作(例如，分别在图7至图9的过程60、70和/或80中)可由机器学习算法执行，该机器学习算法被配置为检测语音，基于传感器数据来确定用户是否意图参与对话，并且响应于确定用户意图参与该对话，基于该信号的用户期望的音频内容来调节回放信号。在另一方面，机器学习算法可包括被配置为执行本文所述操作的一个或多个神经网络(例如，卷积神经网络、递归神经网络等)。

在一个方面，本文所述的操作中的至少一些操作是可执行或可不执行的任选操作。具体地讲，可任选地执行被示出为具有虚线或虚线边界的框。例如，可不执行图8的过程70中的框74和/或决策框75。在这种情况下，在确定用户已执行姿态时，过程70可直接继续在框76处调节该回放信号。

要使用的个人信息应遵循通常公认为满足(和/或超过)维护用户隐私的政府和/或行业要求的实践和隐私政策。例如，任何信息都应该被管理以便降低未经授权或无意访问或使用的风险，并且应清楚地通知用户任何经授权使用的性质。

如前所解释，本公开的一个方面可为其上存储有指令的非暂态机器可读介质(诸如微电子存储器)，所述指令对一个或多个数据处理部件(这里一般性地称为“处理器”)进行编程以执行为考虑语音检测和/或响应于确定环境噪声与用户期望的音频内容冲突而调节声音回放的操作、网络操作、信号处理操作和音频信号处理操作。在其他方面，可通过包含硬连线逻辑的特定硬件部件来执行这些操作中的一些操作。另选地，可通过所编程的数据处理部件和固定硬连线电路部件的任何组合来执行那些操作。

虽然已经在附图中描述和示出了某些方面，但是应当理解，此类方面仅仅是对广义公开的说明而非限制，并且本公开不限于所示出和所述的具体结构和布置，因为本领域的普通技术人员可以想到各种其他修改型式。因此，要将描述视为示例性的而非限制性的。

在一些方面，本公开可包括语言例如“[元素A]和[元素B]中的至少一者”。该语言可以是指这些元素中的一者或多者。例如，“A和B中的至少一者”可以是指“A”、“B”、或“A和B”。具体地讲，“A和B中的至少一者”可以是指“A中至少一者和B中至少一者”或者“至少A或B任一者”。在一些方面，本公开可包括语言例如“[元素A]、[元素B]、和/或[元素C]”。该语言可以是指这些元素中任一者或其任何组合。例如，“A、B和/或C”可以是指“A”、“B”、“C”、“A和B”、“A和C”、“B和C”或“A、B和C”。

Claims

1.一种由包括头戴式耳机的音频系统执行的方法，所述方法包括：

发送包含用户期望的音频内容的回放信号以驱动被用户佩戴的所述头戴式耳机的扬声器；

从麦克风接收麦克风信号，所述麦克风被布置为捕获所述用户所处的周围环境内的声音；

通过对所述麦克风信号执行语音检测算法来检测所述周围环境内除所述用户之外的人的语音；

在所述用户参与与所述人的对话之前，

响应于检测到所述人的所述语音，确定所述用户意图参与与位于所述周围环境内的所述人的所述对话；以及

响应于确定所述用户意图参与所述对话，基于所述用户期望的音频内容来调节所述回放信号。

2.根据权利要求1所述的方法，其中所述麦克风是多个麦克风中的一个麦克风，其中确定所述用户意图参与与所述人的所述对话包括：

使用所述多个麦克风来确定所述语音的到达方向DoA；以及

确定所述用户已执行指示所述用户的注意力指向所述DoA的姿态。

3.根据权利要求2所述的方法，所述方法还包括：

从惯性测量单元IMU接收指示所述用户的移动的运动数据；以及

基于所述运动数据来将所述姿态确定为以下的至少一者：1)所述用户移向所述DoA，2)所述用户转向所述DoA，3)所述用户按所述DoA移动，以及4)所述用户停止移动。

4.根据权利要求2所述的方法，所述方法还包括：

获得相机所捕获的数字图像；

检测所述数字图像内的所述用户的眼睛；以及

确定所述用户的所述眼睛的注视方向指向所述DoA。

5.根据权利要求1所述的方法，其中调节所述回放信号包括基于所述用户期望的音频内容包括音乐内容，通过以下方式闪避所述回放信号：应用标量增益以便降低所述扬声器的声音输出级别。

6.根据权利要求1所述的方法，其中调节所述回放信号包括基于所述用户期望的音频内容包括语音内容，暂停所述回放信号。

7.根据权利要求1所述的方法，其中所述麦克风是第一麦克风并且所述麦克风信号是第一麦克风信号，其中所述方法还包括：

从第二麦克风接收第二麦克风信号，所述第二麦克风被布置为捕获所述用户的耳朵内的声音；

对所述第二麦克风信号执行声学噪声消除ANC操作以产生抗噪声信号；以及

在所述用户未参与所述对话时发送所述回放信号和所述抗噪声信号以驱动所述头戴式耳机的所述扬声器。

8.根据权利要求7所述的方法，所述方法还包括响应于确定所述用户意图参与所述对话，

暂停所述ANC操作的所述执行；以及

对所述第一麦克风信号执行环境声音增强ASE操作以产生ASE信号，其中选择性地衰减所述周围环境的至少一个声音；以及

发送所述ASE信号以驱动所述扬声器，从而再现在所述周围环境内捕获的所述声音的至少一部分。

9.根据权利要求1所述的方法，确定所述用户意图参与与位于所述周围环境内的所述人的对话是基于来自所述音频系统的至少一个传感器的传感器数据的。

10.一种音频系统，所述音频系统包括：

处理器；和

其中存储有指令的存储器，所述指令在由所述处理器执行时使得音频系统：

发送包含用户期望的音频内容的回放信号以驱动被用户佩戴的头戴式耳机的扬声器，

从麦克风接收麦克风信号，所述麦克风被布置为捕获周围环境内的声音，

通过对所述麦克风信号执行语音检测算法来检测所述周围环境内除所述用户之外的人的语音，

在所述用户参与与所述人的对话之前，

响应于检测到除所述用户之外的所述人的所述语音，确定所述用户意图参与与位于所述周围环境内的所述人的对话，以及

11.根据权利要求10所述的音频系统，其中所述麦克风是多个麦克风中的一个麦克风，其中确定所述用户意图参与与所述人的所述对话的所述指令包括用于以下操作的指令：

使用所述多个麦克风来确定除所述用户之外的所述人的所述语音的到达方向DoA；以及

12.根据权利要求11所述的音频系统，其中所述存储器已存储用于以下操作的进一步指令：

基于所述运动数据来将所述姿态确定为以下的至少一者：1)所述用户移向所述DoA，2)所述用户转向所述DoA，以及3)所述用户按所述DoA移动。

13.根据权利要求11所述的音频系统，其中所述存储器已存储用于以下操作的进一步指令：

获得相机所捕获的数字图像；

检测所述数字图像内的所述用户的眼睛；以及

确定所述用户的所述眼睛的注视方向指向所述DoA。

14.根据权利要求10所述的音频系统，其中调节所述回放信号的所述指令包括基于所述用户期望的音频内容包括音乐内容，通过以下方式闪避所述回放信号的指令：应用标量增益以便降低所述扬声器的声音输出级别。

15.根据权利要求10所述的音频系统，其中调节所述回放信号的所述指令包括基于所述用户期望的音频内容包括语音内容，暂停所述回放信号的指令。

16.根据权利要求10所述的音频系统，其中所述麦克风是第一麦克风并且所述麦克风信号是第一麦克风信号，其中所述存储器已存储用于以下操作的进一步指令：

17.根据权利要求16所述的音频系统，其中所述存储器已存储用于以下操作的进一步指令：响应于确定所述用户意图参与所述对话，暂停所述ANC操作的所述执行；以及

18.一种由包括头戴式耳机的音频系统执行的方法，所述方法包括：

从麦克风接收麦克风信号，所述麦克风信号包含所述用户所处的周围环境的环境噪声；

处理所述麦克风信号以确定所述环境噪声是否为一种类型的音频内容；以及

当所述用户期望的音频内容是与所述环境噪声的音频内容的所述类型相同的类型的音频内容时，暂停所述回放信号。

19.根据权利要求18所述的方法，其中所述麦克风是外部麦克风并且所述麦克风信号是第一麦克风信号，其中所述方法还包括：

从内部麦克风接收第二麦克风信号，所述第二麦克风信号包含所述用户的耳朵处的声音；

确定所述声音包括所述用户期望的音频内容和所述周围环境的所述环境噪声；

确定是否能够处理所述回放信号以产生经处理的回放信号，所述经处理的回放信号在被发送以驱动所述头戴式耳机的所述扬声器时掩蔽所述用户的耳朵处的所述环境噪声的至少一部分，

其中当所述用户期望的音频内容是与所述环境噪声的音频内容的所述类型相同的类型的音频内容时并且当无法处理所述回放信号以掩蔽所述用户的耳朵处的所述环境噪声时，暂停所述回放信号。

20.根据权利要求19所述的方法，其中确定是否能够处理所述回放信号包括：

确定所述环境噪声的环境噪声级别；

确定所述用户的耳朵处的所述扬声器的声音输出级别；

基于所述环境噪声级别和所述声音级别来确定掩蔽阈值，其中掩蔽阈值大于所述声音输出级别；以及

基于所述头戴式耳机的设备特性来确定是否能够增加所述扬声器的所述声音输出级别以至少匹配所述掩蔽阈值。

21.根据权利要求20所述的方法，其中确定所述声音输出级别包括：

处理所述第二麦克风信号以确定所述扬声器的所述声音输出级别；或者

接收所述系统的用户定义的音量级别作为所述声音输出级别。

22.根据权利要求19所述的方法，所述方法还包括响应于确定能够处理所述回放信号，通过以下方式处理所述回放信号：对所述回放信号执行一个或多个音频处理操作以产生所述经处理的回放信号，并且发送所述经处理的回放信号以驱动所述扬声器。

23.根据权利要求22所述的方法，其中所述一个或多个音频处理操作包括：

对所述回放信号应用标量增益；以及

应用均衡操作以对所述回放信号的一个或多个频率分量进行频谱成形。

24.根据权利要求22所述的方法，其中通过执行一个或多个音频处理操作来处理所述回放信号包括：

对所述第一麦克风信号执行ANC操作以产生抗噪声信号；以及

将所述抗噪声信号与所述回放信号组合以产生所述经处理的回放信号。

25.根据权利要求18所述的方法，所述方法还包括：

确定所述用户期望的音频内容包括语音内容；

确定所述环境噪声掩蔽所述语音内容的一个或多个频谱分量；以及

作为响应，暂停所述回放信号。