CN114286248A

CN114286248A - 媒体补偿通过和模式切换

Info

Publication number: CN114286248A
Application number: CN202111589336.2A
Authority: CN
Inventors: M·亚历山大; 李春建; J·B·兰多; A·J·泽费尔特; C·P·布朗; D·J·布里巴尔特
Original assignee: Dolby Laboratories Licensing Corp
Current assignee: Dolby Laboratories Licensing Corp
Priority date: 2016-06-14
Filing date: 2017-06-14
Publication date: 2022-04-05
Also published as: JP2023022215A; EP3468514A1; CN109310525B; JP2022009238A; WO2017218621A1; EP3468514A4; US20230359430A1; US12164832B2; US11740859B2; US20190179604A1; EP3888603A1; JP6964608B2; EP3468514B1; JP7434505B2; JP7187646B2; CN109310525A; US20220253274A1; US11354088B2; JP2019523583A; US20210165629A1

Abstract

本申请涉及媒体补偿通过和模式切换。可以接收对应于媒体流的媒体输入音频数据和来自至少一个麦克风的麦克风输入音频数据。可以确定所述媒体输入音频数据的多个频带中的至少一个的第一电平以及所述麦克风输入音频数据的多个频带中的至少一个的第二电平。媒体输出音频数据和麦克风输出音频数据可以通过基于所述麦克风输入音频数据的所感知的响度、所述麦克风输出音频数据的所感知的响度、所述媒体输出音频数据的所感知的响度和所述媒体输入音频数据的所感知的响度调节所述第一和第二多个频带中的一或多个的电平产生。可以在接收模式切换指示之后修改一或多个过程。

Description

媒体补偿通过和模式切换

分案申请的相关信息

本案是分案申请。该分案的母案是申请日为2017年6月14日、申请号为201780036541.1、发明名称为“媒体补偿通过和模式切换”的发明专利申请案。

技术领域

本发明涉及处理视频数据。具体地说，本发明涉及处理对应于媒体流的媒体输入音频数据和来自至少一个麦克风的麦克风输入音频数据。

背景技术

例如头戴式耳机和耳塞的音频装置的使用已变得极其普遍。此类音频装置可以至少部分阻塞来自外部世界的声音。一些头戴式耳机能够在头戴式耳机扬声器与耳膜之间形成基本上闭合的系统，在所述系统中来自外部世界的声音被极大地减弱。经由头戴式耳机或其它此类音频装置减弱来自外部世界的声音存在各种潜在优点，例如，消除失真、提供平缓均衡等。然而，当佩戴此类音频装置时，用户可能并不能够听到来自外部世界的听到将会是有利的声音，例如，接近的汽车的声音、朋友的语音的声音等。

发明内容

本文中所公开的一些方法可以涉及接收对应于媒体流的媒体输入音频数据和接收来自至少一个麦克风的麦克风输入音频数据。如本文中所使用，术语“媒体流”、“媒体信号”和“媒体输入音频数据”可用于指代对应于音乐、播客、电影原声音乐等的音频数据。然而，所述术语不限于此类实例。替代地，术语“媒体流”、“媒体信号”和“媒体输入音频数据”可用于指代对应于接收用于播放的其它声音的音频数据，例如，如同电话对话的一部分。一些方法可涉及确定媒体输入音频数据的多个频带中的至少一个的第一电平并且确定麦克风输入音频数据的多个频带中的至少一个的第二电平。一些此类方法可涉及通过调节第一和第二多个频带中的一或多个的电平产生媒体输出音频数据和麦克风输出音频数据。举例来说，一些方法可涉及调节电平使得麦克风输入音频数据的所感知的响度与在媒体输出音频数据的存在下麦克风输出音频数据的所感知的响度之间的第一差异小于麦克风输入音频数据的所感知的响度与在媒体输入音频数据的存在下麦克风输入音频数据的所感知的响度之间的第二差异。一些此类方法可涉及混合媒体输出音频数据和麦克风输出音频数据以产生混合的音频数据。一些此类实例可涉及将混合的音频数据提供到音频装置(例如，头戴式耳机或耳塞)的扬声器。

在一些实施方案中，调节可涉及将麦克风增益和媒体增益应用到第一和第二多个频带中的一或多个。麦克风增益和媒体增益中的至少一个可以是作为麦克风和媒体输入电平的函数计算的。所述函数可具有在所期望的麦克风输入电平的范围内的以下特性中的至少一个：对于固定的麦克风输入电平，麦克风增益随着增大媒体输入电平而增大；或对于固定的媒体输入电平，麦克风增益随着增大麦克风输入电平而减小。

在一些实施方案中，调节可涉及仅升高麦克风输入音频数据的多个频带中的一或多个的电平。然而，在一些实例中，调节可涉及升高麦克风输入音频数据的多个频带中的一或多个的电平并且减弱媒体输入音频数据的多个频带中的一或多个的电平这两者。在一些实例中，在媒体输出音频数据的存在下麦克风输出音频数据的所感知的响度可以基本上等于麦克风输入音频数据的所感知的响度。根据一些实例，媒体和麦克风输出音频数据的总响度可以介于媒体和麦克风输入音频数据的总响度与媒体和麦克风输出音频数据的总响度之间的范围内。然而，在一些例子中，媒体和麦克风输出音频数据的总响度可以基本上等于媒体和麦克风输入音频数据的总响度，或者可以基本上等于媒体和麦克风输出音频数据的总响度。

一些实施方案可涉及接收(或确定)模式切换指示并且至少部分地基于模式切换指示修改一或多个过程。举例来说，一些实施方案可涉及至少部分地基于模式切换指示修改接收、确定、产生或混合过程中的至少一个。在一些例子中，修改可涉及相对于媒体输出音频数据的响度增大麦克风输出音频数据的相对响度。根据一些此类实例，增大麦克风输出音频数据的相对响度可涉及抑制媒体输入音频数据或暂停媒体流。

根据一些实施方案，模式切换指示可以至少部分地基于头部移动的指示和/或眼睛移动的指示。在一些此类实施方案中，模式切换指示可以至少部分地基于惯性传感器数据。举例来说，惯性传感器数据可对应于头戴式耳机的移动。在一些例子中，眼睛移动的指示可以包含相机数据和/或脑电图数据。

一些实例可涉及至少部分地基于来自两个或大于两个麦克风的麦克风数据确定声音源的方向。一些此类实例可涉及确定声音源的方向是否与头部移动和/或眼睛移动对应。替代地或另外，一些实例可涉及从用户接收所选择的声音源方向的指示。一些此类实例可涉及至少部分地基于来自两个或大于两个麦克风的麦克风数据确定声音源的方向。一些此类实例可涉及如果声音源的位置与所选择的声音源方向对应，那么确定声音源的位置是模式切换指示。

一些其它实例可涉及至少部分地基于来自两个或大于两个麦克风的麦克风数据确定声音源的方向。一些此类实例可涉及至少部分地基于声音源的移动方向确定是否存在模式切换指示。一些此类实例可涉及至少部分地基于确定声音源的移动方向可以朝向麦克风中的至少一个确定模式切换指示。

替代地或另外，一些实例可涉及确定声音源的速度。一些此类实例可涉及至少部分地基于确定声音源的速度超过阈值确定模式切换指示。

根据一些实施方案，模式切换指示可以至少部分地基于辨识麦克风输入音频数据中的话语。一些此类实例可涉及麦克风输入音频数据的分类。举例来说，分类可涉及确定麦克风输入音频数据是否包含汽车喇叭、接近的车辆的声音、尖叫、叫喊、预先选择的个人的语音、预先选择的关键词和/或公开广播通知。模式切换指示可以至少部分地基于分类。

本文中所公开的方法可以经由硬件、固件、存储在一或多个非暂时性媒体中的软件和/或其组合实施。举例来说，本发明的至少一些方面可以在包含接口系统和控制系统的设备中实施。接口系统可以包含用户接口和/或网络接口。在一些实施方案中，设备可以包含存储器系统。接口系统可以包含在控制系统与存储器系统之间的至少一个接口。

控制系统可以包含至少一个处理器，例如，通用单或多芯片处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它可编程逻辑装置、离散门或晶体管逻辑、离散硬件组件，和/或其组合。

根据一些实例，控制系统可以能够接收对应于媒体流的媒体输入音频数据并且从至少一个麦克风接收麦克风输入音频数据。在一些实施方案中，设备可以包含具有一或多个麦克风的麦克风系统。在一些实例中，麦克风系统可以包含两个或大于两个麦克风。在一些实施方案中，设备可以包含扬声器系统，所述扬声器系统包含一或多个扬声器。根据一些此类实施方案，设备可以是头戴式耳机或头戴式耳机的组件。然而，在其它实施方案中，设备可经配置以用于接收麦克风输入音频数据和/或从另一装置接收对应于媒体流的媒体输入音频数据。

在一些实例中，控制系统可以能够确定媒体输入音频数据的多个频带中的至少一个的第一电平并且确定麦克风输入音频数据的多个频带中的至少一个的第二电平。举例来说，控制系统可以能够通过调节第一和第二多个频带中的一或多个的电平产生媒体输出音频数据和麦克风输出音频数据。举例来说，控制系统可以能够调节电平使得麦克风输入音频数据的所感知的响度与在媒体输出音频数据的存在下麦克风输出音频数据的所感知的响度之间的第一差异小于麦克风输入音频数据的所感知的响度与在媒体输入音频数据的存在下麦克风输入音频数据的所感知的响度之间的第二差异。在一些实例中，控制系统可以能够混合媒体输出音频数据和麦克风输出音频数据以产生混合的音频数据。根据一些实例，控制系统可以能够将混合的音频数据提供到音频装置(例如，头戴式耳机或耳塞)的扬声器。

根据一些实例，控制系统可以能够接收(或确定)模式切换指示并且至少部分地基于模式切换指示修改一或多个过程。举例来说，控制系统可以能够至少部分地基于模式切换指示修改接收、确定、产生或混合过程中的至少一个。在一些例子中，修改可涉及相对于媒体输出音频数据的响度增大麦克风输出音频数据的相对响度。根据一些此类实例，增大麦克风输出音频数据的相对响度可涉及抑制媒体输入音频数据或暂停媒体流。

根据一些实施方案，控制系统可以能够至少部分地基于头部移动的指示和/或眼睛移动的指示确定模式切换指示。在一些此类实施方案中，设备可以包含惯性传感器系统。根据一些此类实施方案，控制系统可以能够至少部分地基于从惯性传感器系统接收的惯性传感器数据确定模式切换指示。举例来说，惯性传感器数据可对应于头戴式耳机的移动。

在一些例子中，设备可以包含眼睛移动检测系统。根据一些此类实施方案，控制系统可以能够至少部分地基于从眼睛移动检测系统接收的数据确定模式切换指示。在一些实例中，眼睛移动检测系统可包含一或多个相机。在一些实例中，眼睛移动检测系统可包含脑电图(EEG)系统，其可以包含一或多个EEG电极。根据一些实施方案，EEG电极可经配置以放置在用户的耳道中和/或放置在用户的头皮上。根据一些此类实例，控制系统可以能够经由分析从EEG系统的一或多个EEG电极接收的EEG信号检测用户的眼睛移动。在一些此类实例中，控制系统可以能够至少部分地基于眼睛移动的指示确定模式切换指示。眼睛移动的指示可基于相机数据和/或来自眼睛移动检测系统的EEG数据。

根据一些实例，控制系统可以能够至少部分地基于来自两个或大于两个麦克风的麦克风数据确定声音源的方向。根据一些此类实例，控制系统可以能够确定声音源的方向是否与头部移动和/或眼睛移动对应。替代地或另外，控制系统可以能够从用户接收所选择的声音源方向的指示。在一些此类实例中，控制系统可以能够至少部分地基于来自两个或大于两个麦克风的麦克风数据确定声音源的方向。举例来说，如果声音源的位置与所选择的声音源方向对应，那么控制系统可以能够确定声音源的位置是模式切换指示。

一些其它实例可涉及至少部分地基于来自两个或大于两个麦克风的麦克风数据确定声音源的方向。在一些此类实例中，控制系统可以能够至少部分地基于声音源的移动方向确定是否存在模式切换指示。在一些此类实例中，控制系统可以能够可涉及至少部分地基于确定声音源的移动方向可以朝向至少一个麦克风确定模式切换指示。

替代地或另外，控制系统可以能够确定声音源的速度。在一些此类实例中，控制系统可以能够至少部分地基于确定声音源的速度超过阈值确定模式切换指示。

根据一些实施方案，模式切换指示可以至少部分地基于辨识麦克风输入音频数据中的话语。在一些此类实例中，控制系统可以能够对麦克风输入音频数据进行分类。举例来说，分类可涉及确定麦克风输入音频数据是否包含汽车喇叭、接近的车辆的声音、尖叫、叫喊、预先选择的个人的语音、预先选择的关键词和/或公开广播通知。模式切换指示可以至少部分地基于分类。

一些实施方案可以包含上面存储有软件的一或多个非暂时性媒体。在一些实例中，非暂时性媒体可以包含快闪存储器、硬盘驱动器和/或其它存储器装置。软件可以包含用于控制至少一个设备以用于接收对应于媒体流的媒体输入音频数据并且从至少一个麦克风接收麦克风输入音频数据的指令。软件可以包含用于确定媒体输入音频数据的多个频带中的至少一个的第一电平并且确定麦克风输入音频数据的多个频带中的至少一个的第二电平的指令。软件可以包含用于通过调节第一和第二多个频带中的一或多个的电平产生媒体输出音频数据和麦克风输出音频数据的指令。举例来说，软件可以包含用于调节电平使得麦克风输入音频数据的所感知的响度与在媒体输出音频数据的存在下麦克风输出音频数据的所感知的响度之间的第一差异小于麦克风输入音频数据的所感知的响度与在媒体输入音频数据的存在下麦克风输入音频数据的所感知的响度之间的第二差异的指令。在一些实例中，软件可以包含用于混合媒体输出音频数据和麦克风输出音频数据以产生混合的音频数据的指令。一些此类实例可涉及将混合的音频数据提供到音频装置(例如，头戴式耳机或耳塞)的扬声器。

在一些实例中，软件可以包含用于接收(或确定)模式切换指示并且用于至少部分地基于模式切换指示修改一或多个过程的指令。举例来说，在一些实施方案中，软件可以包含用于至少部分地基于模式切换指示修改接收、确定、产生或混合过程中的至少一个的指令。在一些例子中，修改可涉及相对于媒体输出音频数据的响度增大麦克风输出音频数据的相对响度。根据一些此类实例，软件可以包含用于通过抑制媒体输入音频数据或暂停媒体流来增大麦克风输出音频数据的相对响度的指令。

根据一些实施方案，软件可以包含用于至少部分地基于头部移动的指示和/或眼睛移动的指示确定模式切换指示的指令。在一些此类实施方案中，软件可以包含用于至少部分地基于惯性传感器数据确定模式切换指示的指令。举例来说，惯性传感器数据可对应于头戴式耳机的移动。在一些例子中，眼睛移动的指示可以包含相机数据和/或脑电图数据。

在一些实例中，软件可以包含用于至少部分地基于来自两个或大于两个麦克风的麦克风数据确定声音源的方向的指令。在一些此类实例中，软件可以包含用于确定声音源的方向是否与头部移动和/或眼睛移动对应的指令。替代地或另外，在一些实例中软件可以包含用于从用户接收所选择的声音源方向的指示的指令。在一些此类实例中，软件可以包含用于至少部分地基于来自两个或大于两个麦克风的麦克风数据确定声音源的方向的指令。在一些此类实例中，如果声音源的位置与所选择的声音源方向对应，那么软件可以包含用于确定声音源的位置是模式切换指示的指令。

一些其它实例可涉及至少部分地基于来自两个或大于两个麦克风的麦克风数据确定声音源的方向。根据一些实施方案，软件可以包含用于至少部分地基于声音源的移动方向确定是否存在模式切换指示的指令。一些此类实例可涉及至少部分地基于确定声音源的移动方向可以朝向麦克风中的至少一个确定模式切换指示。

替代地或另外，在一些实例中软件可以包含用于确定声音源的速度的指令。在一些此类实例中，软件可以包含用于至少部分地基于确定声音源的速度超过阈值确定模式切换指示的指令。

根据一些实施方案，模式切换指示可以至少部分地基于辨识麦克风输入音频数据中的话语。在一些此类实例中，软件可以包含用于对麦克风输入音频数据进行分类的指令。举例来说，分类可涉及确定麦克风输入音频数据是否包含汽车喇叭、接近的车辆的声音、尖叫、叫喊、预先选择的个人的语音、预先选择的关键词和/或公开广播通知。在一些此类实例中，软件可以包含用于至少部分地基于分类确定模式切换指示的指令。

在附图及下文描述中阐述本说明书中描述的标的物的一或多个实施方案的细节。其它特征、方面和优点将从所述描述、图式和权利要求书中变得显而易见。应注意，以下各图的相对尺寸可能未按比例绘制。

附图说明

图1A是示出了能够实施本发明的各种方面的设备的组件的实例的框图。

图1B示出了其中扬声器系统和控制系统在不同装置中的实例。

图2是概述可通过例如图1A或图1B中所示的设备执行的方法的一个实例的流程图。

图3示出了包含惯性传感器系统的音频装置的实例。

图4示出了包含一对重合的垂直地堆叠的方向性麦克风的麦克风系统的一个实例。

图5示出了包含一对重合的垂直地堆叠的方向性麦克风的麦克风系统的另一实例。

图6示出了相对于包含重合的垂直地堆叠的方向性麦克风的对的麦克风系统的方位角和仰角的实例。

图7是示出了指示在通过一对重合的垂直地堆叠的方向性麦克风产生的右侧和左侧麦克风音频信号之间的方位角与强度或电平的比率(L/R能量比)之间的关系的曲线的实例的曲线图。

各个图式中的相同参考标号和指定指示相同元件。

具体实施方式

以下描述出于描述本发明的一些创新方面以及其中可以实施这些创新方面的情境的实例的目的涉及某些实施方案。然而，本文中的教示可以各种不同方式应用。举例来说，虽然各种实施方案是就特定音频装置而言描述的，但是本文中的教示广泛地适用于其它已知的音频装置，以及将来可以引入的音频装置。此外，所描述的实施方案可以至少部分在各种装置和系统中作为硬件、软件、固件、基于云的系统等实施。相应地，本发明的教示内容并不意图限于图中所示和/或本文中所描述的实施方案，而是替代地具有广泛的适用性。

如上文所提及，提供至少一定程度的声音阻塞的音频装置提供各种潜在优势，例如，控制音频质量的改进的能力。其它优势包含减弱来自外部世界的潜在地恼人的或分散注意力的声音。然而，此类音频装置的用户可能并不能够听到来自外部世界的听到将会是有利的声音，例如，接近的汽车的声音、汽车喇叭、公开广播通知等。

相应地，一或多种类型的声音阻塞管理将是所期望的。本文中所描述的各种实施方案涉及在用户正经由头戴式耳机、耳塞或另一此类音频装置收听音频数据的媒体流的时间期间的声音阻塞管理。如本文中所使用，术语“媒体流”、“媒体信号”和“媒体输入音频数据”可用于指代对应于音乐、播客、电影原声音乐等的音频数据，以及对应于接收用于播放的声音的音频数据，如同电话对话的一部分。在一些实施方案中，例如，耳塞实施方案，即使在收听对应于媒体流的音频数据时，用户也可以能够听到来自外部世界的大量的声音。然而，一些音频装置(例如，头戴式耳机)可以显著减弱来自外部世界的声音。相应地，一些实施方案也可以涉及将麦克风数据提供给用户。麦克风数据可以提供来自外部世界的声音。

当对应于音频装置(例如，头戴式耳机)外部的声音的麦克风信号与媒体信号混合并且经由头戴式耳机的扬声器播放时，媒体信号通常掩蔽麦克风信号，使得外部声音是对收听者听不见的或不可懂的。因而，期望的是处理麦克风和媒体信号两者使得当混合时，麦克风信号在听觉上高于媒体信号，并且处理过的麦克风和媒体信号两者在感知上保持天然发声。为了实现此效应，有用的是考虑感知响度和部分响度的模型，如本文中所公开的。一些此类实施方案提供一或多种类型的通过模式。在通过模式中，媒体信号可以在音量上减小，并且用户与其它人之间的对话(或用户的所关注的其它外部声音，如由麦克风信号指示)可以混合到提供给用户的音频信号中。在一些实例中，媒体信号可以临时静音。

图1A是示出了能够实施本发明的各种方面的设备的组件的实例的框图。在此实例中，设备100包含接口系统105和控制系统110。接口系统105可以包含一或多个网络接口、一或多个用户接口和/或一或多个外部装置接口(例如，一或多个通用串行总线(USB)接口)。在一些实例中，接口系统105可以包含在控制系统110与存储器系统(例如，图1A中所示的可选的存储器系统115)之间的一或多个接口。然而，控制系统110可以包含存储器系统。举例来说，控制系统110可以包含通用单或多芯片处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它可编程逻辑装置、离散门或晶体管逻辑，和/或离散硬件组件。在一些实施方案中，控制系统110可以能够至少部分执行本文中所公开的方法。

本文中所描述的方法中的一些或全部可根据存储在非暂时性媒体上的指令(例如，软件)由一或多个装置执行。此类非暂时性媒体可包含例如本文中所描述的那些存储器装置，包含但不限于随机存取存储器(RAM)装置、只读存储器(ROM)装置等等。非暂时性媒体可以例如驻留在图1A中所示的可选的存储器系统115中和/或驻留在控制系统110中。相应地，本发明中所描述的标的物的各种创新方面可在具有存储于其上的软件的非暂时性媒体中实施。所述软件可以例如包含用于控制至少一个装置以处理音频数据的指令。所述软件可以例如是可由控制系统(例如，图1A的控制系统110)的一或多个组件执行的。

在一些实例中，设备100可以包含：可选的麦克风系统120，其包含一或多个麦克风；可选的扬声器系统125，其包含一或多个扬声器；和/或可选的惯性传感器系统130，其包含一或多个惯性传感器，如图1A中所示。在本文中公开了麦克风配置的一些实例。举例来说，惯性传感器可以包含一或多个加速计或陀螺仪。

然而，在一些实施方案中，接口系统105和控制系统110可以在一个装置中，并且麦克风系统120、扬声器系统125和/或惯性传感器系统130可以在一或多个其它装置中。图1B示出了其中扬声器系统和控制系统在不同装置中的实例。在此实例中，扬声器系统125包含耳塞150并且控制系统在附接到用户的手臂的智能电话100a中。相应地，智能电话是图1A中所示的设备100的例子。在替代性实例中，在下文中描述了所述实例中的一些，扬声器系统125可以包含头戴式耳机。

图2是概述可通过例如图1A或1B中所示的设备执行的方法的一个实例的流程图。类似本文中所描述的其它方法，方法200的框不一定按指示的次序执行。此外，此类方法可包含比所示出和/或描述的更多或更少的框。

在此实例中，方法200的框205涉及接收对应于媒体流的媒体输入音频数据。音频数据可以例如对应于音乐、电视节目原声音乐、电影原声音乐、播客等。

此处，框210涉及从至少一个麦克风接收麦克风输入音频数据。根据一些实施方案，麦克风输入音频数据可以是从一或多个本地麦克风接收的，因此麦克风输入音频数据与来自外部世界的声音对应。在一些此类实例中，方法200的控制系统框205涉及经由接口系统接收媒体输入音频数据和麦克风输入音频数据。

在图2的实例中，框215涉及确定媒体输入音频数据的多个频带中的每一个的第一电平。此处，框220涉及确定麦克风输入音频数据的多个频带中的每一个的第二电平。术语“第一电平”和“第二电平”在本文中用于区分媒体输入音频数据的频带的电平与麦克风输入音频数据的频带的电平。取决于特定情况，第一电平可以或可以不基本上不同于第二电平。在一些实例中，框215和220可以涉及进行从时域到频域的变换。然而，在替代性实例中，接收到的媒体输入音频数据和/或接收到的麦克风输入音频数据可已经从时域变换到频域。

在此实施方案中，框225涉及通过调节第一和第二多个频带中的一或多个的电平产生媒体输出音频数据和麦克风输出音频数据。根据此实例，电平是至少部分地基于所感知的响度调节的。具体地说，一些实例涉及调节第一和第二多个频带中的一或多个的电平，使得麦克风输入音频数据的所感知的响度与在媒体输出音频数据的存在下麦克风输出音频数据的所感知的响度之间的第一差异小于麦克风输入音频数据的所感知的响度与在媒体输入音频数据的存在下麦克风输入音频数据的所感知的响度之间的第二差异。下文描述了一些详细实例。

此处，框230涉及混合媒体输出音频数据与麦克风输出音频数据以产生混合的音频数据。混合的音频数据可以例如被提供到音频装置(例如，头戴式耳机或耳塞)的扬声器。

在一些实例中，调节过程可以仅涉及升高麦克风输入音频数据的多个频带的电平。一些此类实例可以仅涉及临时升高麦克风输入音频数据的多个频带的电平。然而，在一些实施方案中调节可以涉及升高麦克风输入音频数据的多个频带的电平和减弱媒体输入音频数据的多个频带的电平两者。

在一些例子中，在媒体输出音频数据的存在下麦克风输出音频数据的所感知的响度可以基本上等于麦克风输入音频数据的所感知的响度。根据一些实施方案，媒体和麦克风输出音频数据的总响度可以介于媒体和麦克风输入音频数据的总响度与仅通过升高麦克风信号产生的媒体和麦克风音频数据的总响度之间的范围内。替代地，媒体和麦克风输出音频数据的总响度可以等于媒体和麦克风输入音频数据的总响度，或者可以等于仅通过升高麦克风信号产生的媒体和麦克风音频数据的总响度。

根据一些实施方案，响度模型由在上激励信号E上运算的特定响度函数L{·}定义。跨越频率和时间两者变化的激励信号意图表示沿耳朵的基底膜由所关注的音频信号诱发的能量的时变分布。在实践中，激励是经由滤波器组分析计算的，所述滤波器组分析将信号打破成离散频带b，所述频带具有跨越时间t变化的每个频带信号。理想地而并非需要的，这些频带跨越频率的间距可以是与例如ERB(等效矩形带宽)的感知频率标度相称的。通过函数FB{·}表示此滤波器组分析，输入媒体和麦克风信号的多频带版本x_med(t)和x_mic(t)可以是例如如等式1a和1b中所示的产生的：

X_med(b,t)＝FB{x_med(t)} (1a)

X_mic(b,t)＝FB{x_mic(t)} (1b)

在等式1a中，X_med(b,t)表示输入媒体信号的多频带版本。在等式1b中，X_mic(b,t)表示输入麦克风信号的多频带版本。在一些实例中，图2的框205可以涉及接收输入媒体信号的时域版本，例如，x_med(t)，并且框210可以涉及接收输入麦克风信号的时域版本，例如，x_mic(t)。然而，在替代性实例中，图2的框205可以涉及接收输入媒体信号的多频带版本，例如，X_med(b,t)，并且框210可以涉及接收输入麦克风信号的多频带版本，例如，X_mic(b,t)。

根据一些实施方案，接下来计算媒体和麦克风信号的激励函数。在一些此类实例中，媒体和麦克风信号的激励可以计算为具有应用的频率变化感知权重W(b)的多频带信号的时间平滑化功率，例如，如等式2a和2b中所示：

E_med(b,t)＝λE_med(b,t-1)+(1-λ)W(b)|X_med(b,t)|² (2a)

E_mic(b,t)＝λE_mic(b,t-1)+(1-λ)W(b)|X_mic(b,t)|² (2b)

在一些实施方案中，W(b)可以考虑头戴式耳机、外耳和中耳的传递函数。在等式2a中，E_med(b,t)表示媒体信号的激励，并且在等式2b中，E_mic(b,t)表示麦克风信号的激励。等式2a和2b涉及通过平滑化系数λ用参数表示的简单单极点平滑化函数，但是其它平滑化滤波器也是可能的。等式2a提供图2的框215的过程的一个实例，而等式2b提供框220的过程的一个实例。

随着激励信号的产生，可以应用特定响度函数L{·}以产生媒体和麦克风的特定响度，例如，如等式3a和3b中所示：

L_med(b,t)＝L{E_med(b,t)} (3a)

L_mic(b,t)＝L{E_mic(b,t)} (3b)

在等式3a中，L_med(b,t)表示对应于媒体信号的特定响度函数，并且在等式3b中，L_mic(b,t)表示对应于麦克风信号的特定响度函数。特定响度函数对人类的响度的感知中的各种非线性进行建模，并且所得的特定响度信号描述跨越频率的所感知的响度的时变分布。相应地，特定响度函数L_mic(b,t)提供上文参考图2的框225所描述的“麦克风输入音频数据的所感知的响度”的一个实例。

用于媒体和麦克风音频数据的这些特定响度信号表示当各自隔离地被听见时媒体流和来自麦克风的声音的所感知的响度。然而，当两个信号混合时，可能发生掩蔽。具体地说，如果一个信号与另一个相比响很多，那么它将掩蔽更轻软的信号，由此相对于隔离地听到的更轻软的信号的所感知的响度减小更轻软的信号的所感知的响度。

此掩蔽现象可以通过部分响度函数PL{·,·}建模，所述函数需要两个输入。第一输入是所关注的信号的激励，并且第二输入是竞争信号的激励。在竞争信号的存在下部分响度函数返回表示所关注的信号的所感知的响度的部分特定响度信号PL。如果竞争信号的激励是零，那么所关注的信号的部分特定响度等于其特定响度，PL＝L。随着干扰信号的激励的增长，由于掩蔽PL减小到低于L。然而，为了使此减小为显著的，竞争信号激励的电平必须接近或大于所关注的信号的激励。如果所关注的信号的激励显著大于竞争信号激励，那么所关注的信号的部分特定响度近似地等于其特定响度，

出于在媒体信号的存在下维持麦克风信号的可听度的目的，我们可以考虑麦克风作为所关注的信号和媒体作为竞争信号。通过此指定，可以从麦克风和媒体的激励中计算麦克风的部分特定响度，例如，如等式4中所示：

PL_mic(b,t)＝PL{E_mic(b,t),E_med(b,t)} (4)

一般来说，在媒体的存在下麦克风的部分特定响度PL_mic(b,t)小于其隔离的特定响度L_mic(b,t)。当与媒体混合时为了维持麦克风信号的可听度，麦克风和媒体信号可以经处理使得在处理过的媒体信号的存在下处理过的麦克风信号的部分特定响度更接近于L_mic(b,t)，其表示隔离的麦克风信号的可听度。确切地说，频变和时变麦克风和媒体处理增益G_mic(b,t)和G_med(b,t)可以经计算使得麦克风特定响度L_mic(b,t)与处理过的麦克风部分特定响度

之间的差异小于麦克风特定响度L_mic(b,t)与未处理的麦克风部分特定响度PL_mic(b,t)之间的差异：

，使得：

等式5b中的表达式

提供上文参考图2的框225所描述的“麦克风输入音频数据的所感知的响度与在媒体输出音频数据的存在下麦克风输出音频数据的所感知的响度之间的第一差异”的一个实例。类似地，等式5b中的表达式L_mic[b,t]-PL_mic[b,t]提供上文参考图2的框225所描述的“麦克风输入音频数据的所感知的响度与在媒体输入音频数据的存在下麦克风输入音频数据的所感知的响度之间的第二差异”的一个实例。

一旦这些增益被计算出来，则处理过的媒体和麦克风信号可以通过将合成滤波器组或逆变换应用到对应的增益修改后的滤波器组信号产生，例如，如下文所示：

y_med(t)＝FB^-1{G_med(b,t)X_med(b,t)} (6a)

y_mic(t)＝FB^-1{G_mic(b,t)X_mic(b,t)} (6b)

等式6a的表达式y_med(t)提供上文参考图2的框225所描述的“媒体输出音频数据”的一个实例。类似地，等式6b的表达式y_mic(t)提供上文参考图2的框225所描述的“麦克风输出音频数据”的一个实例。

在一些实例中，最终输出信号可以通过混合处理过的媒体和麦克风信号产生：

y(t)＝y_med(t)+y_mic(t) (7)

相应地，等式7提供上文参考图2的框230所描述的“混合媒体输出音频数据和麦克风输出音频数据以产生混合的音频数据”的一个实例。

为了计算所需要的麦克风和媒体处理增益，可以有用的是定义逆部分特定响度函数，所述函数在竞争信号激励的存在下返回对应于所关注的信号的特定部分特定响度的所关注的信号的激励，例如：

PL^-1{PL_int,E_comp}＝E_int (8a)

使得

PL_int＝PL{E_int,E_comp} (8b)

在等式8a和8b中，PL^-1表示逆部分特定响度函数，PL_int表示所关注的信号的部分特定响度，E_int表示所关注的信号的激励并且E_comp表示竞争信号的激励。

满足通过等式5所描述的实施方案的一般目标的解决方案的一个实例是使处理过的麦克风部分特定响度等于隔离的麦克风的特定响度，例如，如下文所示：

设置此状况规定在处理过的媒体的存在下处理过的麦克风的响度与就其自身而言的原始的未处理的麦克风的响度相同。换句话说，无论媒体信号的播放如何，麦克风的所感知的响度应该保持一致。将等式9和等式3b代入到等式5a中并且使用在等式8a和8b中给出的逆部分特定响度的定义得到用于麦克风处理增益G_mic(b,t)的对应的解：

施加媒体信号保持未处理的约束条件，意味着G_med(b,t)＝1，得到麦克风处理增益的唯一解，所述解是从已知的麦克风和媒体激励信号中计算的，如在(10)中所见。此特定解可以涉及仅升高麦克风信号以维持其所感知的响度，同时单独的留下媒体信号。因而，用于麦克风增益的此解被称为G_boost(b,t)。

虽然解G_boost(b,t)确实维持麦克风信号的可听度高于媒体，但是在实践中组合的处理过的麦克风和媒体的声音可能变为过于响亮的或不自然的发声的。为了避免这一点，可能需要在等式10上施加不同约束条件以得到麦克风和媒体增益的唯一解。一个此类的替代是约束混合物的总响度等于一些目标。未处理的麦克风和媒体混合物的总响度L_tot(b,t)可以通过应用于麦克风和媒体激励的总和的响度函数给出：

L_tot(b,t)＝L{E_mic(b,t)+E_med(b,t)} (11a)

媒体输出音频数据和麦克风输出音频数据的处理过的混合物的总响度

可以按类似方式定义：

仅增强解的总响度可如下表达为：

为了减少处理过的混合物的整体响度，可指定处理过的混合物的总响度处于仅增强解的总响度与未处理的混合物的总响度之间的某处，例如，如下：

组合等式12与等式10指定用于麦克风和媒体增益两者的唯一解。当α＝1时，所得解等同于仅增强解，并且当α＝0时通过额外地减弱媒体信号，混合物的总响度保持与未处理的混合物相同。当α处于一和零之间时，混合物的总响度处于这两个端值之间的某处。无论如何，等式10的应用确保处理过的麦克风信号的部分响度保持等于麦克风信号单独的响度，由此在媒体信号的存在下维持其可听度。

例如头戴式耳机和耳塞的常规的音频装置通常具有一个工作模式(媒体播放模式)，其中来自膝上型计算机、计算机、移动电话、移动音频播放器或平板计算机的媒体输入音频数据被再现到用户的鼓膜。在一些实例中，此类媒体播放模式可使用有源噪声抵消技术以消除或至少减少来自环境声音或背景噪声的干扰。

本文中所公开的一些音频方法可涉及额外的模式，例如，通过模式。一些此类通过模式是上文所描述的。在一些通过模式实例中，媒体音频信号可以是在音量上减小的或静音的，并且用户与其它人之间的对话(或用户的所关注的其它外部声音)可以是由音频装置(例如，头戴式耳机或耳塞)的麦克风俘获的，并且混合到输出音频中以用于播放。在一些此类实施方案中，用户可以能够参与对话而不必必须停止媒体播放和/或从用户的耳朵移除音频装置。相应地，一些此类模式在本文中可以被称为“对话模式”。在一些实例中，用户可给出命令，例如，经由上文所描述的接口系统105的用户接口，以便将操作模式变为对话模式。此类命令是如本文中所描述的“模式切换指示”的一个实例。

然而，本文中公开了用于音频装置的其它类型的操作模式切换。根据一些此类实施方案，模式切换可能不需要用户输入，而是可能替代地是自动的。一或多个类型的音频处理可以是在接收模式切换指示之后修改的。根据一些此类实例，上文参考图2所描述的接收、确定、产生或混合过程中的一或多个可以是根据模式切换指示修改的。在一些实例中，修改可涉及相对于媒体输出音频数据的响度增大麦克风输出音频数据的相对响度。举例来说，修改可涉及通过抑制媒体输入音频数据或暂停媒体流来增大麦克风输出音频数据的相对响度。

本发明人设想了各种类型的模式切换指示。在一些实例中，模式切换指示可以至少部分地基于头部移动的指示。替代地或另外，模式切换指示可以至少部分地基于眼睛移动的指示。在一些实例中，头部移动可以是通过惯性传感器系统检测的。相应地，在一些实施方案中模式切换指示可以至少部分地基于来自惯性传感器系统的惯性传感器数据。惯性传感器数据可指示头戴式耳机的移动，例如，用户所佩戴的头戴式耳机的移动。

图3示出了包含惯性传感器系统的音频装置的实例。在此实例中，音频装置是头戴式耳机305。惯性传感器系统310包含一或多个惯性传感器装置，例如，一或多个陀螺仪、一或多个加速计等。惯性传感器系统310能够将惯性传感器数据提供到控制系统。在此实例中，控制系统的至少一部分是设备100b的组件，设备100b是本文中其它处所描述的设备100的实例。替代地或另外，控制系统的至少一部分可以是例如头戴式耳机305的音频装置的组件。惯性传感器数据可以指示头戴式耳机305的移动，并且因此当用户佩戴头戴式耳机305时可以指示用户的头部的移动。

在图3中所示的实例中，设备100b包含具有至少一个相机350的相机系统。在一些实例中，相机系统可以包含两个或大于两个相机。在一些实施方案中，(例如，设备100b的)控制系统可以能够至少部分地基于来自相机系统的相机数据确定用户的眼睛移动和/或用户当前观看的方向。替代地或另外，控制系统可以能够根据脑电图数据确定用户的眼睛移动。此类脑电图数据可以例如是从头戴式耳机305的脑电图系统接收的。在一些实施方案中，头戴式耳机305(或另一音频装置，例如，耳塞)可以包含经配置以放置在用户的耳道中和/或放置在用户的头皮上的一或多个EEG电极。用户的眼睛移动可以是经由来自一或多个EEG电极的EEG信号的分析确定的。

在此实例中，头戴式耳机305包含头戴式耳机单元325a和325b，其中的每一个包含扬声器系统125的一或多个扬声器。在一些实例中，头戴式耳机单元325a和325b中的每一个可以包含一或多个EEG电极。根据一些此类实例，头戴式耳机单元325a和325b中的每一个可以包含在前侧上的至少一个EEG电极，因此当佩戴头戴式耳机305时EEG电极可以放置在用户370的眼睛附近。在图3的实例中，当佩戴头戴式耳机305时头戴式耳机单元325a的EEG电极375a可以放置在用户370的右眼附近并且头戴式耳机单元325b的EEG电极375b可以放置在左眼380附近。在一些此类实施方案中，EEG电极375a与EEG电极375b之间的电位差可用于检测眼睛移动。在此实例中，头戴式耳机单元325a和325b也包含麦克风320a和320b。在一些实例中，设备100b的控制系统或头戴式耳机305可以能够至少部分地基于来自两个或大于两个麦克风(例如，麦克风320a和320b)的麦克风数据确定声音源的方向。根据一些此类实例，控制系统可以能够至少部分地基于来自麦克风320a的第一麦克风音频信号与来自麦克风320b的第二麦克风音频信号之间的强度差异确定对应于声音源位置的方向。在一些实例中“强度差异”可以是第一麦克风音频信号与第二麦克风音频信号之间的强度或电平的比率或者可以同第一麦克风音频信号与第二麦克风音频信号之间的强度或电平的比率对应。

替代地或另外，控制系统可以能够至少部分地基于来自麦克风320a的第一麦克风音频信号与来自麦克风320b的第二麦克风音频信号之间的时间差确定对应于声音源位置的方向。下文提供了确定对应于声音源位置的方位角和确定对应于声音源位置的仰角的一些实例。

在一些实例中，控制系统可以能够确定声音源的方向是否与头部移动或眼睛移动对应。此类实施方案是潜在地有利的，因为事件的此组合表明用户的注意力已经短暂地从媒体流的内容转移到现实世界中的所关注的事件。举例来说，可能存在环境声音对用户的一些可听度，或者通过经由麦克风输入音频数据主动地通过环境声音，或者由于头戴式耳机305提供的不完整声音阻塞引起的环境声音的被动泄漏。在一些例子中，用户可以能够确定存在由环境声音指示的活动，但是环境声音可能并不是足以被理解的以进行对话而无需模式切换或移除头戴式耳机305。基于此环境声音和/或视觉信息，用户通常可以判断是否存在需要他的/她的注意力的事件。如果是，那么用户的自然反应将是转动他的或她的头部和/或瞥向声音源的方向。确切地说，如果来自特定方向的音频事件之后是立即的或几乎立即的朝向声音事件的方向的头部旋转，那么假设音频事件与所关注的事件对应是合理的。

相应地，在控制系统能够确定声音源的方向是否与头部移动或眼睛移动对应的一些实施方案中，此类确定将是模式切换指示的实例。在一些实例中，控制系统可至少部分地基于模式切换指示修改接收、确定、产生或混合过程(上文参考图2所描述的)中的至少一个。举例来说，控制系统可相对于媒体输出音频数据的响度增大麦克风输出音频数据的相对响度。在一些此类实例中，增大麦克风输出音频数据的相对响度可涉及抑制媒体输入音频数据或暂停媒体流。

出于计算简单性起见，可能有利的是具有在麦克风系统的定向与惯性传感器系统的定向之间的一些对应性。在图3中所示的实例中，麦克风320a和320b平行于惯性传感器系统310的坐标系335的一条轴线对齐。在此实例中，轴线345通过麦克风320a和320b。此处，坐标系335的y轴与束头带330对齐并且平行于轴线345。在此实例中，头戴式耳机坐标系335的z轴相对于束头带330的顶部和惯性传感器系统310的顶部垂直地对齐。在此实施方案中，坐标系335是x、y、z坐标系，但是其它实施方案可使用另一坐标系，例如，极性、球形或圆柱形坐标系。

其它类型的模式切换可以至少部分基于声音源的移动的方向。如果确定声音源朝向用户移动，那么出于安全原因这可以是重要的。实例包含接近的汽车噪声、脚步声、来自跑步的人的叫喊等。

相应地，一些实施方案可涉及至少部分地基于来自两个或大于两个麦克风(例如图3中所示的麦克风320a和320b)的麦克风数据确定声音源的移动方向。此类实施方案可涉及至少部分地基于声音源的移动方向确定是否存在模式切换指示。如果移动方向朝向用户所有的装置的麦克风中的一或多个，那么这是产生声音的对象朝向用户移动的指示。举例来说，朝向用户的移动方向可以是根据随着声音源接近麦克风声音源的显而易见的音量增加确定的。因此，一些实施方案可涉及至少部分地基于确定声音源朝向至少一个麦克风的移动方向确定模式切换指示。

如果声音源正接近用户并且高于预定速度移动，那么就对用户的潜在危险而言这可以是更加显著的。相应地，一些实施方案可涉及确定声音源的速度并且至少部分地基于确定声音源的速度超过阈值确定模式切换指示。举例来说，接近声音源(例如，汽车)的速度可以通过测量汽车噪声的音量改变并且将它与立方功率增大曲线进行比较来确定，因为功率随着声音源与麦克风之间的距离的减小的立方而增大。

一些模式切换实施方案可涉及识别用户所关注的个人。在一些实例中，所关注的个人可以例如根据与所关注的个人的当前位置对应的声音源的方向间接识别。在一些例子中，声音源的方向可与邻近于用户的位置对应，所关注的个人位于所述位置。举例来说，对于舱内电影播放的使用情况，用户的所选择的声音源方向可与用户的右侧的或左侧的座位对应，用户的朋友正坐在所述座位上。控制系统可以能够确定何时从所选择的声音源方向接收声音的例子并且识别此例子为模式切换指示。根据一些此类实例，控制系统可以能够控制音频装置(例如，头戴式耳机)以通过来自所选择的声音源方向的声音，而来自其它方向的声音将不通过。

因此，一些实施方案可涉及从用户接收所选择的声音源方向的指示。此类实施方案可涉及至少部分地基于来自两个或大于两个麦克风的麦克风数据确定声音源的方向。一些此类实施方案可涉及如果声音源的位置与所选择的声音源方向对应，那么确定声音源的位置是模式切换指示。

一些模式切换实施方案可涉及麦克风输入音频数据的话语辨识和/或基于辨识为话语的麦克风输入音频数据识别关键词。举例来说，预先确定的关键词可以是模式切换指示。此类关键词可例如与紧急情况、对用户的潜在危险等对应，例如，“救命！”或“小心！”。

一些模式切换实施方案可涉及对麦克风输入音频数据进行分类且使模式切换指示至少部分基于所述分类的过程。一些此类模式切换实施方案可涉及辨识用户所关注的个人的语音，所述语音在本文中也可以被称为预先选择的个人的语音。替代地或另外，所述分类可涉及确定麦克风输入音频数据是否指示对用户的潜在后果的另一声音，例如，汽车喇叭、接近的车辆的声音、尖叫、叫喊、预先选择的个人的语音、预先选择的关键词和/或公开广播通知。

虽然图3中所示的麦克风布置可提供令人满意的结果，但是其它实施方案可以包含其它麦克风布置。图4示出了包含一对重合的垂直地堆叠的方向性麦克风的麦克风系统的一个实例。在此实例中，麦克风系统400a包含具有垂直地堆叠的麦克风405a和405b的XY立体声麦克风系统，所述麦克风中的每一个包含麦克风炭精盒。在麦克风405a和405b之间具有已知的垂直偏移是潜在地有利的，因为它允许对应的音频信号的到达之间的时间差的检测。此类时间差可用于确定声音源的仰角，例如，如下文所述。

在此实施方案中，麦克风405a包含麦克风炭精盒410a并且麦克风405b包含麦克风炭精盒410b，由于麦克风405b的定向麦克风炭精盒410b在图4中不可见。在此实例中麦克风炭精盒410a的纵向轴线415a延伸进出页面。

在图4中所示的实例中，xyz坐标系是相对于麦克风系统400a示出的。在此实例中，坐标系的z轴是纵轴。相应地，在此实例中麦克风炭精盒410a的纵向轴线415a与麦克风炭精盒410b的纵向轴线415b之间的垂直偏移420a沿着z轴延伸。然而，图4中所示的xyz坐标系的定向和本文中所公开的其它坐标系的定向仅借助于实例示出。在其它实施方案中，x或y轴可以是纵轴。在又其它实施方案中，替代于xyz坐标系可以参考圆柱形或球形坐标系。

在此实施方案中，麦克风系统400a能够附接到第二装置，例如，头戴式耳机、智能电话等。在一些实例中，麦克风系统400a的坐标系可以与惯性传感器系统的坐标系重合，所述惯性传感器系统例如图3中所示的惯性传感器系统310。此处，安装架425经配置以用于与第二装置耦合。在此实例中，在麦克风系统400a经由安装架425与第二装置物理地连接之后，可以在麦克风系统400a与第二装置之间形成电气连接。相应地，对应于由麦克风系统400a俘获的声音的音频数据可以被传送到第二装置以用于存储装置、进一步处理、再现等。

图5示出了包含一对重合的垂直地堆叠的方向性麦克风的麦克风系统的另一实例。麦克风系统400b包含垂直地堆叠的麦克风405e和405f，所述麦克风中的每一个包含在图5中不可见的麦克风炭精盒：麦克风405e包含麦克风炭精盒410e并且麦克风405f包含麦克风炭精盒410f。在此实例中，麦克风炭精盒410e的纵向轴线415e和麦克风炭精盒410f的纵向轴线415f在x、y平面中延伸。

此处，z轴延伸进出页面。在此实例中，z轴通过纵向轴线415e和纵向轴线415f的交点410。此几何关系是麦克风系统400b的麦克风“重合”的一个实例。纵向轴线415e和纵向轴线415f沿z轴垂直地偏移，然而此偏移在图5中不可见。纵向轴线415e和纵向轴线415f通过角度α分隔开，取决于特定实施方案所述角度可以是90度、120度或另一角度。

在此实例中，麦克风405e和麦克风405f是方向性麦克风。麦克风的方向性的度可以由“极坐标图案”表示，其指示麦克风对相对于麦克风的纵向轴线按不同角度到达的声音的敏感程度。在图5中所说明的极坐标图案405a和405b表示在麦克风中产生相同信号电平输出的点的轨迹，前提是从该点产生给定声压级(SPL)。在此实例中，极坐标图案405a和405b是心形极坐标图案。在替代的实施方案中，麦克风系统可以包含具有超级心形或超心形极坐标图案或其它极坐标图案的重合的垂直地堆叠的麦克风。

本文中所使用的麦克风的方向性有时可参考“前方”区域和“后方”区域。图5中所示的声音源515a位于将在本文中被称为前方区域的区域中，因为声音源515a位于麦克风相对更敏感的区域中，如由沿纵向轴线415e和415f的极坐标图案的更大延伸所指示。声音源515b位于将在本文中被称为后方区域的区域中，因为它是麦克风相对不太更敏感的区域。

确定与声音源方向对应的方位角θ可以至少部分地基于由麦克风炭精盒410e俘获的声音与由麦克风炭精盒410f俘获的声音之间的声压级的差异(其在本文中也可以被称为强度或幅度的差异)。下文描述了一些实例。

图6示出了相对于包含重合的垂直地堆叠的方向性麦克风的对的麦克风系统的方位角和仰角的实例。为简单起见，在此实例中仅示出了麦克风系统400d的麦克风炭精盒410g和410h，而没有支撑结构、电连接等。此处，麦克风炭精盒410g的纵向轴线415g与麦克风炭精盒410h的纵向轴线415h之间的垂直偏移420c沿着z轴延伸。在此实例中，对应于声音源(例如，声音源515c)的位置的方位角是在平行于x、y平面的平面中测量的。此平面在本文中可以被称为“方位平面”。相应地，在此实例中，仰角是在垂直于x、y平面的平面中测量的。

图7是示出了指示在通过一对重合的垂直地堆叠的方向性麦克风产生的右侧和左侧麦克风音频信号之间的方位角与强度或电平的比率(L/R能量比)之间的关系的曲线的实例的曲线图。右侧和左侧麦克风音频信号是在本文中其它处参考的第一和第二麦克风音频信号的实例。在此实例中，曲线705对应于在方位角与用于通过一对重合的垂直地堆叠的方向性麦克风产生的信号的L/R比率之间的关系，具有在方位平面中分隔开90度的纵向轴线。

参考图5，举例来说，纵向轴线415e和415f在方位平面中分隔开角度α。图5中所示的声音源515a在方位角θ处，在此实例中所述方位角是从在纵向轴线415e与纵向轴线415f之间的中间位置的轴线402测量的。曲线705对应于用于通过类似对的重合的垂直地堆叠的方向性麦克风产生的信号的方位角与L/R能量比之间的关系，其中α是90度。曲线710对应于方位角与用于通过另一对重合的垂直地堆叠的方向性麦克风产生的信号的L/R比率之间的关系，其中α是120度。

可以观察到在图7中所示的实例中，曲线705和710两者具有在零度的方位角处的拐点，在此实例中其对应于沿在左侧麦克风的纵向轴线与右侧麦克风的纵向轴线之间的中间位置的轴线放置的声音源的方位角。如图7中所示，局部极大值发生在-130度或-120度的方位角处。在图7中所示的实例中，曲线705和710也分别具有对应于130度和120度的方位角的局部极小值。这些极小值的位置部分取决于α是90度还是120度，并且还取决于麦克风的方向性图案。图7中所示的极大值和极小值的位置大体上与麦克风方向性图案对应，例如通过图5中所示的极坐标图案505a和505b所指示的那些图案。极大值和极小值的位置对于具有不同方向性图案的麦克风将是稍微的不同的。

再次参考图6，可以看到声音源515c以仰角

位于麦克风系统400d上方。由于麦克风炭精盒410g与麦克风炭精盒410h之间的垂直偏移420c，通过声音源515c发出的声音将在到达麦克风炭精盒410h之前到达麦克风炭精盒410g。因此，将在响应于来自声音源515c的声音来自麦克风炭精盒410g的麦克风音频信号与响应于来自声音源515c的声音来自麦克风炭精盒410g的对应的麦克风音频信号之间存在时间差。

相应地，一些实施方案可涉及至少部分地基于第一麦克风音频信号与第二麦克风音频信号之间的时间差确定对应于声音源位置的仰角。仰角可以是根据所述对重合的垂直地堆叠的方向性麦克风的第一麦克风与第二麦克风之间的垂直距离(在本文中也被称为垂直偏移)确定的。根据一些实施方案，图1A的控制系统110可以能够至少部分地基于第一麦克风音频信号与第二麦克风音频信号之间的时间差确定对应于声音源位置的仰角。

本发明中所描述的实施方案的各种修改可以是对所属领域的技术人员显而易见的。在不脱离本发明的精神或范围的情况下，本文中所定义的一般原理可应用于其它实施方案。因此，权利要求书并不意图限于本文中所示的实施方案，而应符合与本发明、本文中所公开的原理和新颖特征相一致的最广泛范围。

Claims

1.一种方法，其包括：

接收对应于媒体流的媒体输入音频数据；

从至少一个麦克风接收麦克风输入音频数据；

确定所述媒体输入音频数据的第一多个频带中的每个频带的第一电平，其中确定所述第一电平涉及计算所述媒体输入音频数据的激励函数；

确定所述麦克风输入音频数据的第二多个频带中的每个频带的第二电平，其中确定所述第二电平涉及计算所述麦克风输入音频数据的激励函数；

通过调节所述第一和第二多个频带中的一或多个的电平产生媒体输出音频数据和麦克风输出音频数据使得所述麦克风输入音频数据的所感知的响度与在所述媒体输出音频数据的存在下所述麦克风输出音频数据的所感知的响度之间的第一差异小于所述麦克风输入音频数据的所述所感知的响度与在所述媒体输入音频数据的存在下所述麦克风输入音频数据的所感知的响度之间的第二差异，其中所述媒体输入音频数据的所述所感知的响度至少部分地基于所述媒体输入音频数据的所述激励函数，且其中所述麦克风输入音频数据的所述所感知的响度至少部分地基于所述麦克风输入音频数据的所述激励函数；以及

混合所述媒体输出音频数据和所述麦克风输出音频数据以产生混合的音频数据。

2.根据权利要求1所述的方法，其中所述调节涉及仅升高所述麦克风输入音频数据的所述第二多个频带中的一或多个的所述电平。

3.根据权利要求2所述的方法，其中在所述媒体输出音频数据的存在下所述麦克风输出音频数据的所述所感知的响度基本上等于所述麦克风输入音频数据的所述所感知的响度。

4.根据权利要求1所述的方法，其中所述调节涉及既升高所述麦克风输入音频数据的所述第二多个频带中的一或多个的所述电平又减弱所述媒体输入音频数据的所述第一多个频带中的一或多个的所述电平。

5.根据权利要求4所述的方法，其中在所述媒体输出音频数据的存在下所述麦克风输出音频数据的所述所感知的响度基本上等于所述麦克风输入音频数据的所述所感知的响度。

6.根据权利要求4所述的方法，其中所述媒体输出音频数据和麦克风输出音频数据的总响度(A)介于所述媒体输入音频数据和麦克风输入音频数据的总响度(B)与当所述调节仅涉及升高所述麦克风输入音频数据的所述多个频带中的一或多个的所述电平时的所述媒体输出音频数据和麦克风输出音频数据的总响度(C)之间、所述媒体输出音频数据和麦克风输出音频数据的总响度(A)基本上等于(B)，或所述媒体输出音频数据和麦克风输出音频数据的总响度(A)基本上等于(C)。

7.根据权利要求1所述的方法，其进一步包括将所述混合的音频数据提供到头戴式耳机的扬声器。

8.根据权利要求1所述的方法，其进一步包括：

接收模式切换指示；以及

至少部分地基于所述模式切换指示修改所述接收、确定、产生或混合过程中的至少一个。

9.根据权利要求8所述的方法，其中所述修改涉及相对于所述媒体输出音频数据的响度增大所述麦克风输出音频数据的相对响度。

10.根据权利要求9所述的方法，其中增大所述麦克风输出音频数据的所述相对响度涉及抑制所述媒体输入音频数据或暂停所述媒体流。

11.根据权利要求8所述的方法，其中所述模式切换指示至少部分地基于头部移动的指示或眼睛移动的指示中的至少一个。

12.根据权利要求8所述的方法，其中所述模式切换指示至少部分地基于惯性传感器数据。

13.根据权利要求12所述的方法，其中所述惯性传感器数据对应于头戴式耳机的移动。

14.一或多个上面存储有软件的非暂时性介质，所述软件包含指令，所述指令控制一或多个装置以用于：

接收对应于媒体流的媒体输入音频数据；

从至少一个麦克风接收麦克风输入音频数据；

15.根据权利要求14所述的一或多个非暂时性介质，其中所述调节涉及仅升高所述麦克风输入音频数据的所述第二多个频带中的一或多个的所述电平。

16.根据权利要求15所述的一或多个非暂时性介质，其中在所述媒体输出音频数据的存在下所述麦克风输出音频数据的所述所感知的响度基本上等于所述麦克风输入音频数据的所述所感知的响度。

17.一种音频处理设备，其包括：

接口系统；以及

控制系统，其经配置以用于：

经由所述接口系统接收对应于媒体流的媒体输入音频数据；

经由所述接口系统从包含至少一个麦克风的麦克风系统接收麦克风输入音频数据；

18.根据权利要求17所述的音频处理设备，其中所述调节涉及仅升高所述麦克风输入音频数据的所述第二多个频带中的一或多个的所述电平。

19.根据权利要求18所述的音频处理设备，其中在所述媒体输出音频数据的存在下所述麦克风输出音频数据的所述所感知的响度基本上等于所述麦克风输入音频数据的所述所感知的响度。

20.根据权利要求17所述的音频处理设备，其中所述控制系统进一步经配置以用于：

接收模式切换指示；以及