CN106464998B

CN106464998B - 用来掩蔽干扰性噪声在耳机与源之间协作处理音频

Info

Publication number: CN106464998B
Application number: CN201580023335.8A
Authority: CN
Inventors: D·M·小高吉尔; C·B·伊克勒; D·B·拉姆齐
Original assignee: Bose Corp
Current assignee: Bose Corp
Priority date: 2014-03-26
Filing date: 2015-03-25
Publication date: 2019-08-13
Anticipated expiration: 2035-03-25
Also published as: CN106464998A; EP3123613A1; EP3123613B1; US20150281829A1; US9503803B2; JP2017510200A; JP6374529B2; WO2015148658A1

Abstract

一种媒体回放设备，具有可编程信号处理能力和接收表示环境噪声的信号的输入。媒体回放设备识别与媒体回放设备相关联的一组耳机的输出响应特性和衰减特性，基于环境噪声输入信号、输出响应特性和耳机的衰减特性来预测由耳机在用户的耳朵处输出的音频的特性，预测当佩戴耳机时从环境噪声输入信号和衰减特性导出的在用户的耳朵处的预期残余环境噪声，并且修改待提供至耳机的掩蔽音频信号，使得它们将掩蔽在用户的耳朵处的预期残余环境噪声。

Description

用来掩蔽干扰性噪声在耳机与源之间协作处理音频

背景技术

本公开涉及在耳机与音频源之间的音频的协作处理，并且特别地用于掩蔽(mask)干扰性噪声。

耳机允许用户沉浸在他们选择的音频材料中，而不会干扰他们周围的人，无论是与诸如智能电话之类的便携式音频设备或诸如家庭影院系统或台式计算机之类的固定音频源一起使用。当前解决方案的局限性包括环境噪声对用户享受其所选内容的能力的干扰以及内容本身对用户的情境感知——他们听见他们应该听见的环境中的声音的能力——的干扰。佩戴耳机，特别是噪声衰减耳机，同时听见音频也可以(如果需要)提供掩蔽以改善佩戴者与干扰的隔离。单独的耳机的选择通常不能给予用户实现音乐的水平的能力以及听见(或听不见)他们期望的周围环境的能力，这部分是由于在耳机设计中可以提供的信号处理的限制。然而，许多个人音频播放器或其他音频源具有可以应用以改善这些体验的过多的计算能力。

发明内容

通常，在一个方面，一种媒体回放设备具有可编程信号处理能力和接收表示环境噪声的信号的输入。媒体回放设备识别与媒体回放设备相关联的一组耳机的输出响应特性和衰减特性，基于环境噪声输入信号、输出响应特性和耳机的衰减特性来预测耳机在用户的耳朵处输出的音频的特性，预测从环境噪声输入信号和衰减特性导出的在佩戴耳机时在用户的耳朵处的预期残余环境噪声，并且修改待提供至耳机的掩蔽音频信号，使得它们将掩蔽在用户的耳朵处的预期残余环境噪声。

各个实施方式可以以任意组合方式包括以下中的一个或多个。修改掩蔽信号可以包括均衡掩蔽信号以具有与在用户的耳朵处的预期残余环境噪声的频谱匹配的频谱特性。修改掩蔽信号可以包括设置掩蔽信号的水平以控制在用户的耳朵处的预期残余环境噪声的部分响度。媒体回放设备可以基于预期残余环境噪声和输出响应特性来修改掩蔽信号，使得掩蔽信号导致预期残余环境噪声在用户的耳朵处具有预定的部分响度。媒体回放设备可以附加地修改掩蔽信号，使得掩蔽信号导致残余环境噪声具有随着环境噪声水平的增大而以预定方式单调增大的部分响度。残余环境噪声的部分响度的增大可以小于如果当环境噪声水平增大时掩蔽信号的水平保持恒定本将发生的增大。

修改掩蔽信号可以包括将掩蔽信号的水平设置为与在用户的耳朵处的预期残余环境噪声的平均水平具有预定义关系。预定义关系可以基于用户输入值，并且媒体回放设备可以修改掩蔽信号以在第一组耳机耦合到媒体回放设备时根据用户输入值掩蔽预期残余环境噪声，以及当具有与第一组耳机不同的响应特性的第二组耳机耦合到媒体回放设备时，修改掩蔽信号以具有与预期残余环境噪声的平均水平相同的预定义关系，而不接收进一步的用户输入。预定义关系可以基于第一用户输入值，并且媒体回放设备可以修改掩蔽信号以在第一组耳机耦合到媒体回放设备时根据用户输入值掩蔽预期残余环境噪声，以及当具有与第一组耳机不同的响应特性的第二组耳机耦合到媒体回放设备时，基于第二用户输入值来修改掩蔽信号以具有与预期残余环境噪声的平均水平不同的预定义关系。修改掩蔽音频信号可以是动态的。

识别衰减特性可以包括假设耳机不衰减环境噪声。媒体回放设备可以接收调整音频掩蔽信号的修改的用户输入，将用户输入调整与耳机的型号相关联，并且将描述调整和耳机型号的数据发送到媒体回放设备与之通信的服务器。媒体回放设备还可以识别提供表示环境噪声的信号的麦克风的输入响应特性，并且音频掩蔽信号的修改可以附加地基于麦克风的输入响应特性。该麦克风可以耦合至耳机。

通常，在一个方面，一组耳机输出与第一输入音频信号和第二输入音频信号相对应的声音，该第一输入音频信号包括掩蔽信号。麦克风生成表示耳机附近的环境噪声的环境噪声信号。可编程信号处理器基于从麦克风接收到的输入信号和耳机的输出响应特性的组合来动态地修改及合并第一输入音频信号和第二输入音频信号，该修改控制所合并的音频信号的总响度，以及所修改的第一输入音频信号和第二输入音频信号中的每一者在所合并的音频信号内的相对部分响度。

各个实施方式可以以任意组合方式包括以下中的一个或多个。信号处理器可以将第一音频信号和第二音频信号的相对部分响度在耳机的第一操作模式中控制为第一相对值，并且在耳机的第二操作模式中控制为第二相对值。第一相对水平可以将第一音频信号设置在总感知音频环境的所述前景中，并且将第二音频信号设置在总感知音频环境的背景中，并且第二相对水平可以将第二音频信号设置在总感知音频环境的前景中，并且将第一音频信号设置在总感知音频环境的背景中。信号处理器可以被配置为针对该组耳机中的第一耳机和第二耳机中的每个耳机，不同地修改及合并第一输入音频信号和第二输入音频信号。信号处理器可以被集成到该组耳机中。

通常，在一个方面，一组耳机输出对应于输入音频信号的声音，在用户的耳朵处提供环境声音的至少12dBA衰减。可编程信号处理器提供信号，该信号在由该组耳机再现时在用户的耳朵处提供具有从200Hz到500Hz平坦的频谱密度的掩蔽声音，在500Hz以上以约8dB/倍频程的斜率下降，并且在100Hz以下以约20dB/倍频程的斜率下降。

各个实施方式可以以任意组合方式包括以下中的一个或多个。麦克风可以生成表示耳机附近的环境噪声的环境音频信号，并且信号处理器可以以这样的水平提供掩蔽声音，该水平使得在用户的耳朵处的残余噪声的所得部分响度至少小于在不存在掩蔽声音的情况下的残余噪声水平的十分之一。信号处理器可以被集成到该组耳机中。

通常，在一个方面，一种媒体回放设备具有可编程信号处理能力和接收表示环境噪声的信号的输入。媒体回放识别与媒体回放设备相关联的一组耳机的输出响应特性和衰减特性，并且基于输出响应特性、衰减特性和环境噪声输入信号的组合来动态地修改待提供至耳机的音频输出信号。

各个实施方式可以以任意组合方式包括以下中的一个或多个。通过基于耳机的环境噪声输入信号、输出响应特性和衰减特性来预测耳机在用户的耳朵处输出的音频的属性，媒体回放设备可以修改音频输出信号。在用户的耳朵处的音频输出的预测属性可以包括在存在从环境噪声输入信号和衰减特性导出的在用户的耳朵处的预期残余环境噪声的情况下由耳机输出的音频的部分特定响度，并且媒体回放设备可以通过调整音频输出信号的水平并均衡音频输出信号来修改音频输出信号，以维持近似于在没有环境噪声的情况下输出音频输出信号所导致的特定响度的部分特定响度。可以维持音频输出信号的部分响度以与预期残余环境噪声的导出的部分响度相差一受控量。可以维持音频输出信号的部分响度以在可听频谱的子频带内与预期残余环境噪声的导出的特定响度相差一受控量。

由媒体回放设备提供的音频输出信号可以包括娱乐内容，并且媒体回放设备可以修改音频输出信号，使得当它们与用户的耳朵处的预期残余环境噪声合并时，娱乐内容的部分特定响度和频谱平衡大约如它们是在一个安静的环境中。媒体回放设备可以通过调整多个频带内的音频输出信号的属性来修改音频输出信号，以维持由在用户的耳朵处的耳机输出的音频与从每个频带中的衰减特性和环境噪声输入信号导出的在用户的耳朵处的预期剩余环境噪声的最小信噪比。音频输出信号的经调整的属性可以是信号的水平。音频输出信号的经调整的属性可以是信号的动态范围。

媒体回放设备可以识别耳机的型号，并且从媒体回放设备与之通信的服务器接收描述对音频输出信号的修改的调整的数据。媒体回放设备可以通过指示编解码器电路对通过它的信号进行调整来修改音频输出信号。衰减特性可以是耳机相对于环境噪声输入信号的衰减，并且可以包括耳机的被动衰减和由耳机中的主动降噪系统提供的衰减中的一个或多个。表征输出响应特性的数据可以以从耳机提供到媒体回放设备的数据的形式被接收。媒体回放设备可以基于耳机模型的标识从存储器检索表征输出响应特性的数据。存储器可以位于媒体回放设备与之通信的远程服务器中。媒体回放设备可以从耳机接收作为数据的耳机型号的标识。媒体回放设备可以通过探测耳机的电气属性并将探测的电气属性与关联于多个耳机模型的存储数据进行比较来确定耳机模型的标识。接收表示环境噪声的信号的媒体回放设备的输入可以包括媒体回放单元与耳机之间的接口的麦克风输入。

通常，在一个方面，用于向用户提供自动调整的音频输出信号的系统包括具有可编程信号处理能力的媒体回放设备，用于输出与由媒体回放设备提供的音频输出信号相对应的声音的一组耳机，以及用于提供表示耳机附近的环境噪声的环境噪声输入信号的麦克风。媒体回放装置识别耳机的输出响应特性和衰减特性，并且基于输出响应特性、衰减特性和从麦克风接收的输入信号的组合来动态地修改提供至耳机的音频输出信号。

各个实施方式可以以任意组合方式包括以下中的一个或多个。媒体回放设备还可以识别麦克风的输入响应特性，并且输出音频的修改可以另外基于麦克风的输入响应特性。通过基于耳机的环境噪声输入信号、输出响应特性和衰减特性来预测耳机在用户的耳朵处输出的声音的属性，媒体回放设备可以修改音频输出信号。耳机可以从媒体播放设备无线地接收音频输出信号。该麦克风可以耦合至耳机。

通常，在一个方面，一组耳机输出对应于第一输入音频信号和第二输入音频信号的声音，麦克风产生表示耳机附近的环境噪声的环境噪声信号，并且可编程信号处理器基于从麦克风接收到的输入信号与耳机的输出响应特性的组合来动态地修改及合并第一输入音频信号和第二输入音频信号。该修改控制所合并的音频信号的总响度以及所合并的音频信号内的所修改的第一输入音频信号和第二输入音频信号中的每个音频信号的相对部分响度。

各个实施方式可以以任意组合方式包括以下中的一个或多个。第一输入音频信号可以包括来自主动降噪电路的主动透听信号，并且第二音频信号可以包括来自外部源的音频信号。信号处理器可以被配置为将第一音频信号和第二音频信号的相对部分响度在耳机的第一操作模式中控制为第一相对值，并且在耳机的第二操作模式中控制为第二相对值。第一相对水平可以将第一音频信号设置在总感知音频环境的所述前景中，并且将第二音频信号设置在总感知音频环境的背景中，并且第二相对水平可以将第二音频信号设置在总感知音频环境的前景中，并且将第一音频信号设置在总感知音频环境的背景中。信号处理器可以被配置为针对该组耳机中的第一耳机和第二耳机中的每个耳机，不同地修改及合并第一输入音频信号和第二输入音频信号。信号处理器可以被集成到该组耳机中。

各优点包括提供针对耳机的特定响应特性定制的用于娱乐和用于掩蔽周围环境的音频信号，允许用户听到他们希望听到的声音，并且不听到他们不希望听到的声音。

从说明书中以及从权利要求书中，其他特征和优点将显而易见。

附图说明

图1示出了连接到计算设备的一组耳机。

图2至图10示出了比较不同声音的各种属性的图表。

具体实施方式

有数百万人每天花时间通过耳机从电脑、便携式音频播放器和智能手机收听音乐和其他媒体。环境噪声可能干扰用户在用户想要的水平处以正确的频率平衡享受音乐的能力。提高音频的水平以克服环境噪声可能导致不愉快的播放水平，并且仍然不能提供原始材料的正确感知的频率平衡。以相同的方式，对于说出的词语内容，环境噪声可能在舒适的收听水平干扰内容的可理解性。相反，音乐可以通过掩蔽来自环境的其他声音来干扰情境感知。如果所有用户想要被隔离并且仅听到他的音乐，则基本上阻挡环境声音的耳机是适当的；如果他想听到并且意识到他的周围环境以及他的音乐，那么本来具有(或者可以切换到提供其的模式)小的声音阻挡的耳机是更合适的。任何个人用户想要在给定时间听到什么只有他们自己知道。用户可能想要感觉与他们的周围环境连接，使得有一点安静但正确再现的音乐作为他们一天的个人音轨。另一个用户或同一个用户在另一个时间可能想要沉浸在他们正在听或做的音频，以消除他们周围的任何干扰。本文描述的技术介于听觉输入之间以使用户听到他们想要的(当他们想要它时)，将每个输入放置在期望的“地点”——前景、背景或未听到。

可以使用若干类型的信号处理来产生上述效果。向上压缩调整音频信号的动态范围，例如通过提高安静的通道的水平而不提高更响的通道的水平，所以在存在环境噪声的情况下可正确地听到所有部分，而在响的通道期间没有仅由提高总音量导致的不适。压缩是动态的，意味着增益的量基于源内容的频谱或信号水平而随时间变化。另一种类型的处理(称为响度补偿)仅向上压缩源的低频内容，以在源音量降低时维持对不同频率的适当相对响度的感知。

动态噪声补偿(DNC)扩展了压缩的想法，以调整音频信号的动态范围，以考虑外部噪声的影响以及源内容的水平或频谱。DNC也可以调整信号的均衡。DNC系统可以基于源信号的水平以及源信号和噪声两者的相对水平和频谱两者，在源信号内的不同频带中提供不同量的压缩。由此，DNC包含响度补偿的功能，同时还调整环境噪声如何劣化对源信号频谱的任何部分的感知。DNC还可以针对用户设置的音量水平的给定增加，例如通过以比更高频率声音更快的速率增加低频声音的增益来用音量水平调整均衡。虽然这种类型的信号处理可以由集成到一组耳机中的数字信号处理器(DSP)提供，但是这种集成增加了耳机的成本。在处理电子器件由电池供电的情况下，诸如在大多数降噪耳机中，增加处理量也具有降低电池寿命的效果。相比之下，智能电话和其他便携式计算设备(例如平板计算机和便携式音乐播放器)通常具有可在回放音频内容时使用的备用处理能力。在提供音频信号的设备中提供信号处理还允许这种方法与非供电的耳机一起使用。另一方面，所讨论的技术中的一些技术不依赖于音频内容，并且在耳机内提供它们可以提供一定程度自由，以免与特定源设备绑定。

诸如耳机中的动态压缩和DNC的技术可以由数字信号处理算法提供，该数字信号处理算法具有耳机的电声属性的知识和环境声音的知识。给定该信息，可以估计由于环境声音并且由于到耳机的音频输入而导致的耳朵处的声压。执行这样的算法的资源可以在被编程为实现该算法的计算设备(诸如智能电话)中实现的音乐播放器与具有内置麦克风的耳机的组合中可用，该内置麦克风使信号于计算设备可用，诸如来自通信麦克风。如果进行调整以将来自那些麦克风的信号提供至计算设备，则也可以使用用于前馈降噪的麦克风。在一些示例中，计算设备上的麦克风被用于确定环境声音，但是这通常是不可靠的，因为计算设备即智能电话倾向于保持在用户的口袋中。我们遍及本公开提及“耳机”，而不限制所讨论的耳机是否包括通信麦克风(使它们成为“耳机”)，除非这样的麦克风被具体讨论。除非另有说明，否则我们假设表示耳机的环境中的环境声音的至少一个麦克风信号可用于计算设备，而没有关于麦克风位于何处或其如何与计算设备通信的限制。

一般性地，参考图1，其中一组耳机100耦合到诸如智能电话之类的计算设备102。在图1的示例中，使用电缆104进行连接，但是这种连接也可以是无线的，使用诸如蓝牙或者之类的协议，或者某些其他无线协议。沿着电缆的麦克风106用于语音通信。这样的麦克风可以可选地集成到耳机中，在耳机的外部上或在吊杆的端部，举两个例子而言。麦克风也可以不存在，并且如果用户希望口头通信则使用计算设备的麦克风108。计算设备通常将包括在图1中示为触摸屏110的用户接口、处理器(未示出)、以及存储器(未示出)。计算设备还可能(特别是如果它是智能电话)具有用于与数据网络通信的一个或多个无线电(未示出)，数据网络可以包括蜂窝无线电上的因特网和电话网络、使用WiFi或类似协议的局域网、以及使用蓝牙或类似协议的个人区域网络。当然，如果网络中的另一设备用作桥接器或路由器，则本地和个人区域网络还可以提供到电话网络和因特网的连接。环境噪声由噪声源112表示。

耳机100的几个电声属性与所描述的处理算法相关。这些包括输出灵敏度，我们将其定义为对于给定电信号输入水平在耳朵处的声压级(SPL)，还包括环境声音的衰减(主动或被动)以及麦克风106的输入灵敏度，即，由麦克风对于在麦克风振膜处的给定漫射环境SPL(而不是佩戴者的语音)输出的信号水平。优选地，灵敏度被指定为作为频率的函数的响应，而不是描述整体输出或输入增益的单个值。最终，下面讨论的算法需要的是由于环境噪声减去耳机的衰减(即，残余噪声)、以及由于通过耳机的音频响应正在播放的音频(音乐或掩蔽物信号)导致用户所听到的估计。如果A是给定时间帧中的音频信号的频谱，并且Ha是对音频的平均输出灵敏度，则Ha*A是耳朵处的音频的频谱。如果Hm是连接到设备的耳机麦克风的平均输入灵敏度，N是由于环境噪声(当用户不在说话时)测量到的麦克风输出，并且Htl是达到耳朵的环境声音相对于在耳机麦克风处的环境噪声的平均噪声衰减(传输损耗)，则Hm*N/Ht1是在耳朵处的噪声频谱的估计。这两个频谱(Ha*A和H*N/Htl)是所需的主要输入。

可以以几种方式使计算设备102了解这些属性。如果从耳机到计算设备(诸如通过电缆104或无线地)进行数字通信是可能的，则耳机100可以简单地使用一些预先确定的数据格式通知计算设备102它们的属性，即Ha、Hm和Htl，或者耳机100可以通知计算设备102它们的根据模型或类型的标识，允许计算设备在板上或在线数据存储器中查找所需的属性。识别信号不需要基于复杂的通信——仅举一个例子，其可以简单地通过将麦克风106连接到计算设备102上的音频插孔114的电缆104中的导体之间的阻抗的组合进行编码。如果耳机100不能将这样的信息传送到计算设备102，则计算设备可以通过当它们连接到计算设备的音频插孔114时测量耳机的阻抗或其他特性来自己识别耳机。在美国专利8,063,698中描述了一种使用复阻抗的测量来非常精确地识别音频设备的方法，其内容通过引用并入本文，但是诸如DC电阻之类的更简单的测量可能是足够的。在一些情况下，用户可以使用用户接口110手动指定耳机的型号或类型，或者手动输入随耳机提供的灵敏度和传输损耗值。在一些示例中，音频系统可以被配置为仅与给定耳机一起工作，诸如通过使用非标准连接器，在这种情况下，可以假定耳机的属性是属于其与之一起工作的唯一耳机。一般来说，我们说计算设备102“识别”属性以包含其可以发现它们或对其做出合理假设的任何方法。

在一些情况下，仅仅识别耳机的模型是不够的，因为组件之间的变化，特别是麦克风和扬声器之间的变化可能影响性能。耳机可以存储诸如基于制造时的个体调谐的麦克风灵敏度值之类的参数，并使该信息对计算设备可用。举一个例子而言，参数也可以通过以上面引用的专利中所描述的方式，通过从计算设备探测扬声器和麦克风的电气属性来测量。一旦计算设备知道耳机的电声属性并且可以访问环境噪声的测量，则存在实现诸如上面提到的那些之类的信号处理技术的几种方式以使用户听到他们想要听到的。

在给出耳机属性和环境噪声的知识的情况下，可以通过信号处理提供的一个特征是自动掩蔽。自动掩蔽涉及提供称为掩蔽物信号的音频信号，该音频信号刚好足够响以掩蔽其他环境噪声，同时尽可能安静，以最小化由掩蔽物信号本身引起的烦恼或干扰。

图2示出了图示噪声掩蔽的心理声学现象的图表200。X轴表示声音的目标声压级(SPL)，并且Y轴表示对于典型的人类收听者的的声音的以宋(sone)为单位感知到的响度。虚线202表示在环境声音是唯一存在的信号的情况下，目标SPL和环境声音的感知响度之间的关系。在宽范围的水平上，以dB为单位的SPL(或如图所示，dBA，因为通常使用A加权)与以宋为单位的响度的对数之间存在线性关系，其中水平每增加10dB响度大约翻倍。使用用于响度的摩尔(Moore)模型计算虚线202，假设对应于长期平均人类语音的环境噪声谱。(Moore、Glasberg和Bear，“A Model for the Prediction of Thresholds，Loudness，andPartial Loudness”，J.AES Vol.45，No.4，1997年4月)。在图中，围绕听众的假设环境是人们在说话的环境，导致从集中注意力的阅读、写作或思考的分心。我们将听者听到的残余环境噪声称为“干扰物”。虚线202表示干扰物响度水平关系。点204表示另一声音，也听得到的稳定、不干扰的“掩蔽物”。在图2中，掩蔽物具有55dBA的水平，如其水平位置所示。实线206线表示在存在掩蔽物的情况下听者如何感知干扰物——如由摩尔模型的部分响度方面所描述的。该图示出了如何在办公室系统中有时使用掩蔽，其中稳定的声音(通常称为“白噪声”，尽管频谱通常实际上不是白色的)用于减少来自附近对话的干扰。

当干扰物和掩蔽物(对于该频谱)在55dBA的相同目标水平时，干扰物的感知响度206由于掩蔽物的存在而从约15宋降低到约5宋即约三分之一。对于较低的干扰物水平，感知的响度迅速下降到听不见。知道干扰性的周围环境的频谱和水平的系统因而可以自动地调整掩蔽物以使干扰物基本上是听不见的，具有最安静的可能的掩蔽物声音。对于简单的自动化系统，给定环境声音水平和耳机的响应的测量，可以设置掩蔽物水平，使得掩蔽物在耳朵处的水平(以dB为单位)适于掩蔽环境噪声，这仅基于在耳朵处的残余噪声的预测平均或RMS水平。更高级的处理可以用于基于对感知响度的模型和噪声的频谱进行掩蔽，如下所述。

更好的是，如果掩蔽噪声具有与环境干扰物相同或相似的频谱，则可以提供更有效的总体掩蔽，从而允许掩蔽声音仅在必要时才响亮，以在整个频谱上提供期望量的掩蔽。为了将掩蔽声音与噪声的频谱匹配，可以基于预期噪声预先选择掩蔽声音，或者它们可以是动态地成形的。对于试图执行心理任务的人，诸如阅读或写作，最常见的干扰是在他们周围说话的人的声音。稳定的声音，诸如来自HVAC系统或来自飞机发动机的声音可能是恼人的并且想要被静音的，但是它们通常不引起注意。由此，如果使用固定的、非适配的信号，则用于掩蔽以避免干扰的理想频谱接近人类语音的长期平均频谱，如图3中的图表300所示。实线302示出了从200Hz到500Hz平坦的功率谱(dB每单位频率)，在500Hz以上以大约8dB/倍频程的斜率下降，并且在100Hz以下以大约20dB/倍频程的斜率下降。通常在开放式办公室掩蔽系统中使用的掩蔽信号通常具有在形状上与其类似的频谱，但是移动到较低频率，如图中的虚线304所示，这使得在较高水平处收听的噪声更舒适。注意，图3中的两个频谱都是平滑的。

使用语音形状的掩蔽物结合主动降噪(EAR)耳机是理想的组合。通过匹配干扰物的频谱，掩蔽物可以处于掩蔽语音所需的最小水平。通过使用耳机，进一步减少了掩蔽物的必要水平。特别地，ANR耳机是优选的，因为人类语音中的最高水平处于较低频率，其中主动衰减比被动手段更有效。图4示出了图表400中的有益结果。单虚线402示出了具有在X轴上的目标SPL和在Y轴上的对应的感知响度的噪声水平的范围，如图2所示。如果佩戴12dB衰减的耳机(在两条线402与404之间的水平偏移(参见标记406)中可以看见12dB)，点划线404示出了相同的周围环境的感知响度。较响的开放式办公室环境通常具有大约60dBA(向上指的三角形408)的环境噪声水平。耳机本身将办公室噪声的感知响度从三角形408处的19宋减少到在向下指的三角形410处的8宋，即减少略多于一半。由白色圆圈412指示设置为50dBA水平的掩蔽物信号，诸如流动流的声音。该掩蔽物的响度刚好超过没有耳机的情况下办公室噪声响度的一半(在408处的19宋与在412处的10宋)。实线414表示在使用摩尔的部分响度模型计算的情况下，在耳机下方和在50dBA掩蔽物的存在下，作为水平的函数的感知响度。黑色圆圈416是60dBA办公室噪声的所得到的感知响度；该响度(如图所示的1.3宋)对应于约27dBA的A加权水平(见标记418从黑色圆圈416向左到与虚线402的交叉点)。由耳机提供的12dB衰减和50dBA掩蔽物的心理声学效应的组合将办公室的感知响度降低超过10倍。一个略微更响的掩蔽物将使办公室的噪声完全听不见。

提供自动掩蔽特征的计算设备可以包括要用作掩蔽信号的源的一个或多个音频文件，诸如白噪声或安静的声音，诸如雨或流水。掩蔽信号还可以被算法地生成，特别是如果它是诸如白噪声或粉红噪声之类的随机声音。计算设备可以将音频文件(无论是随机噪声还是自然声音)均衡到更好地匹配要被掩蔽的环境噪声的频谱的频谱，例如通过使用最小二乘自适应算法，以确保掩蔽噪声自适应地维持与干扰噪声的匹配。无论掩蔽信号的源是什么，结果是修改信号，使得当其与用户的耳朵处的干扰噪声在声学上相加时，实现目标部分响度。调整掩蔽物的动态需要仔细考虑。掩蔽物的水平应当足够缓慢地变化，使得可听见的掩蔽物信号的波动本身不会成为干扰。

美国专利申请公开2011/0235813(其全部内容通过引用并入本文)描述了将环境噪声的包络相关性与从掩蔽和环境噪声信号计算的耳内信号的估计进行比较，考虑耳机衰减和音频响应，以确定用于掩蔽信号的均衡和输出水平。最近，已经示出了将掩蔽调整基于摩尔的部分响度模型，改变掩蔽音频信号的输出水平以将干扰性的环境噪声强制为目标部分响度值的承诺。

在一些示例中，使用包络相关/语音传输索引(STI)方法或基于摩尔的部分响度模型的方法，自动掩蔽由用户通过允许用户设置阈值的用户接口而控制，该阈值表示与收听掩蔽噪声的接受相对而平衡的与干扰的隔离的期望水平。一旦在不同噪声环境中的几个使用会话上建立该个性化阈值，用户只需打开系统以实现期望的集中能力。在使用摩尔模型的实施方式的情况下，这是通过设置干扰性的环境声音的目标部分响度来实现的。在计算设备中实现的自动掩蔽系统基于由耳机上的麦克风测量到的环境噪声以及由设备输出的掩蔽物的频谱和水平来估计耳机下方的残余环境噪声的部分响度(在将已知的耳机衰减和传递到该设备的音频响应考虑进来之后)。然后，系统调整掩蔽物水平以便收敛在目标上。掩蔽系统还可以实现随环境水平变化的部分响度目标，因为人们在更响的环境中容忍更多的干扰物侵入他们的意识，以便不必收听响的掩蔽物。用户接口可以允许用户调整目标部分响度对环境水平依赖性的斜率；该斜率可以由系统基于用户在不同噪声水平中完成的目标部分响度调整而被估计，或者该斜率可以是固定的，其中系统估计表示用户在某个参考噪声水平的优选目标部分响度的偏移。

可以提供的另一个特征在本文中称为“音乐DNC”。音乐DNC调整音乐信号以维持正确的感知部分响度和频谱平衡，或者摩尔所称的“特定响度”，在耳机内部存在残余环境噪声的情况下，响度作为感知频率的函数。在美国专利8,090,120中描述了提供音乐DNA的一种解决方案。音乐DNC提供音乐的较安静部分的多频带向上压缩，如图5至图7所示。

图5示出了初始音乐和噪声谱的图表500。包括弦乐低音、人声和钢琴在内的爵士音乐由实线502示出。柴油公共汽车的噪声由虚线504示出。两条线都是第三倍频程平滑的，并且显示每第三倍频宽频带的能量。音乐设置为85dBA的适度响的水平，噪音处于通常在公共汽车上遇到的水平73dBA。

图7示出了每单位感知频率(临界频带，在摩尔模型中被称为ERB)的特定响度，也称为响度密度(以宋为单位)的图表700。频率轴用目标频率(Hz)标记，但在ERB中被扭曲隔开；这显示了在较低频率处临界频带如何扩展。实曲线702是来自图4的音乐的特定响度，好像是在安静的环境中收听，而公共汽车噪声由虚曲线704表示。虚线曲线706示出了噪声中音乐的特定部分响度；即，由于噪声的存在而改变的音乐的等效响度。图5示出了音乐的目标水平与低于250Hz的公共汽车的目标水平大致相同。在低频率处的该低信噪比(SNR)降低了音乐的明显响度，如图7所示；低于100Hz的弦乐低音是如果在安静环境中收听的话的一半响。在200Hz处，音乐中的任何内容都是听不见的。

图6中的图表600中的曲线602是在存在公共汽车噪声的情况下近似恢复音乐音色的EQ响应。将该均衡应用于音乐导致图7中的点划线曲线708，其示出了用摩尔模型计算的部分特定响度。注意，均衡的曲线708非常接近实线曲线702，音乐就像它在安静环境中所发出的。在上面提到的8,090,120专利中描述的方法可以用于确定给定音乐和噪声条件集合的均衡器曲线602。

音乐DNC算法提升音乐，如通过比较曲线708与曲线706所示。音乐DNC算法不是以dB为单位的均匀增强，而是基于音乐和噪声两者的频谱在不同频率处不同地提升音乐，以确保在存在环境噪声的情况下音乐的部分特定响度近似地匹配音乐的特定响度，即，音乐如何相对于安静的背景发声。即使在音乐的水平已经大于噪声的情况下，噪声的掩蔽效应也将音乐的部分特定响度降低到其在没有噪声的地方将会是的以下，所以音乐DNC算法提高了水平。音乐DNC可以与任何内容一起使用，而不仅仅是音乐，其中希望保留音频信号的频谱平衡，诸如讲出的字音频。

在一些示例中，驻留在计算设备中的动态处理算法具有调整算法行为的参数。例如，可以调整参数以在自动遮掩特征中为周围环境提供预期感知响度水平。图8A和图8B示出了环境中的目标声音与使用两个不同用户偏好的该声音的感知响度之间的关系的图表800a和800b。在两个图表中，短虚线802表示环境响度/水平关系，即，它与图4中的线402相同。实线804表示在提供12dB衰减的一组耳机下的响度/水平关系，如图4中的线404。这两条线的加粗区域806和808分别表示在诸如开放式办公室的环境中经历的环境水平的假定变化，范围从50到60dBA。

图8A示出了相对较响的掩蔽物声音的效果。向上指的三角形810和812表示旨在提供与干扰的大级别隔离的掩蔽物声音的范围的下极限和上极限。这些掩蔽物声音具有刚好在40dBA以上和刚好在50dBA以上的水平，导致5宋和10宋的感知响度。这些声音的水平由将自动掩蔽物算法设置以维持0.3宋的部分响度造成，0.3宋是非常安静的(相当于18dBA的办公室串扰)。长虚线814和816对应于在相应的环境上限和下限处使用较响掩蔽物范围的那些极值时耳机下的部分响度相对于环境水平。箭头815和817示出了分别在810和812处存在掩蔽物声音时从曲线804到曲线814和816的感知响度的变化。注意，曲线814和816中的每一个曲线的端部对应于0.3宋，如沿着图表的底部边缘的粗长虚线818所示。对于表示在该较响的掩蔽物范围内的最大级别掩蔽物的曲线816，环境噪声区域完全离开图表的底部。

图8B示出了相对较安静的掩蔽物声音的效果。向下指的三角形820和822表示旨在提供较少隔离的掩蔽物声音的范围的下极限和上极限。在恰好高于35dBA和刚好低于50dBA的情况下，分别导致3宋和9宋的感知响度，这些掩蔽物对应于2宋(等同于约43dBA的办公室串扰)的部分响度目标。点划线曲线824和826示出了当在相应的上限和下限处使用较安静的掩蔽物声音的极值时耳机下的部分响度相对于环境水平的关系。箭头825和827示出了该变化。在50至60dBA的环境噪声范围内，较安静的掩蔽声音导致具有2宋的目标感知响度的环境噪声，如粗虚线点线828所示。利用这些更安静的掩蔽声音的更响的端部，大多数环境声音仍然偏离图表，只有最响的声音(在60dBA目标水平)是可听见的，并且它们被减少到目标2宋的感应响度。

在这样的系统中，用户将不直接设置“掩蔽水平”本身，而是在大多数示例中调整标记有像是“目标干扰水平”的控件。由用户选择的目标干扰水平对应于感知响度，即，由最响掩蔽物范围提供的感知环境响度0.3宋与由最安静掩蔽物范围提供的感知环境响度2宋之间的纵轴上的位置。掩蔽物被设置为将导致曲线814和826之间某处的响度/水平曲线的范围，其中上限和下限在对应于目标干扰水平的响度水平处跨越50dBA和60dBA线。

随着时间的推移，软件可以通过观察用户在掩蔽被激活之后进行的调整来学习其用户对于这种设置的偏好。给定该学习和关于不同耳机的性能和环境噪声的充分信息，用户仅需要打开系统，并且算法将自动地提供用户在用户选择的任何耳机中的优选目标干扰水平。如果计算设备连接到因特网，则各个用户的偏好可以被传送回中央服务器，中央服务器然后可以众包关于什么设置对于在用户社区中使用的每个耳机模型最佳工作的知识。然后，当他们的用户获得一组新的耳机时，该知识可以被下载到计算设备以用作默认设置。例如，如果将特定型号的耳机附接到他们的智能手机的大多数用户将目标干扰水平下调一个将掩蔽物水平降低6dB的量，则新用户的默认起始点可以被预先调整比针对以前的用户的低6dB。

在其他示例中，单个用户可能想要在不同时间听到不同量的环境噪声。软件可以作为所使用的耳机的函数来学习目标干扰水平设置，因为用户的使用情况以及因此的偏好可能在耳机型号之间变化。例如，当用户在飞机上或者当坐在台处时，当用户想要阻挡所有环境噪声时，他可以使用一组罩耳式耳机，如曲线804、814、816、824和826所示。相反，相同的用户在外部跑步时可以佩戴一组入耳式运动耳机，并且出于安全原因想要听到一些环境。具有低衰减的耳机的类似的一组曲线将更接近开耳曲线802，相对于噪音阻挡耳机的曲线有效地向上和向左移位。优选地，每个耳机传达其自己的衰减响应以供计算设备使用，然后计算设备可以观察耳机是否意在隔离并且相应地调整。如果耳机不衰减，则算法可能不能估计耳机内部的残余噪声的响度，因此它可能回到正常操作，需要用户设置掩蔽物信号的水平。然而，即使计算设备仅知道使用不同的耳机并且可以跟踪那些不同的耳机，也可以观察到，当在不同的耳机之间切换时，用户通常进行相同的调整，并且在下次相同的耳机连接时自动地进行这些调整。其他数据也可以用于进行这样的调整。许多便携式计算设备配备有位置检测电路，诸如GPS接收器，并且具有诸如加速度计和磁力计之类的传感器。它们还可以跟踪附近的无线网络作为确定位置的手段，即使设备不使用那些网络。所有这些输入可以与用户对掩蔽水平进行的调整相关联，因此即使用户针对两个不同的活动使用相同组的耳机，也可以基于用户的位置自动进行调整。

多模式音量控制的附加特征可以在系统中提供，该系统还具有提供主动透听的能力(改进的前馈滤波器以在耳朵处提供环境声音，旁路被动和基于反馈的主动衰减)，如美国专利申请13/667,103中所述，其通过引用并入本文。主动透听可以被配置为在耳朵处提供具有小于耳机的全部能力的任何目标衰减量的环境声音。如上所述，自动掩蔽算法可以调整音频以将残余环境噪声掩蔽到任何目标感知响度，而音乐DNC可以在存在残余噪声的情况下将期望音频调整为任何感知响度(具有正确感知的频谱平衡)。通过将可调整的主动收听与音乐DNC组合，如图9和图10所示，可以提供控制，(1)调整用户听到的总和的响度，以及(2)将用户正在收听的音频在用户的注意中从前景移到背景。也就是说，如果需要，用户可以控制音频是主要的还是环境是主要的，而不完全消除任一个。如图7所示，图9和图10中的水平轴表示ERB中的频率，而不是均匀的对数标度。图表900和1000两者均示出了用户乘坐公共汽车并想要在他的一天反映时静静地听音乐的情景。显示了两种不同的情况；每个图表均示出部分响度(宋每ERB)，使得曲线以下的面积是针对该信号的净响度。在两个图表中，环境公共汽车噪声是虚线(902、1002)，虚线(904、1004)是在主动透听特征已经过滤并通过一些环境噪声之后耳机内的残余噪声，实线(906、1006)是音乐，并且点划线(908、1008)是用户听到的净和，即残余环境噪声加上音乐。公共汽车噪声902、1002和音乐906、1006是用于生成图5和图7的相同信号。

在图9中，用户正在乘坐公共汽车，思考。他们想听到他们的音乐，并且对公共汽车噪声没有多少意识，但他们希望他们的音乐安静，所以他们也可以思考。在这种情况下，主动透听被设置为提供合理的衰减(在该示例中为15dB，或者响度的约1/3，如在任何频率处环境曲线902与残余曲线904的比率可以看出的)。注意，音乐和噪声曲线908之和类似于仅音乐的曲线906。小音乐DNC将不得不在这种情况下被应用。

在图10中，用户已经意识到他们正在接近他们的目的地。他们想保持他们的音乐播放，但也听到公共汽车司机的通知，并能够与他们附近的人说话。所以他们设置了针对平衡的音乐和环境意识的控件，使得每个具有相同的响度。但是，他们没有调整它们的整体响度。主动透听也被设置为主要穿透语音，积极地衰减低于125Hz的隆隆声并且在4kHz以上缓慢衰减，参见线1004。多模式音量控制自动地调整主动透听的通带，以提供轻微的衰减并将音乐减少相同的量，使得组合的响度1008保持相对恒定。进取的音乐DNC EQ也适用于维持音乐的部分特定响度。两个绘图中的组合的音乐和噪声曲线908和1008以下的面积是相同的，即34宋，这对于这些信号而言对应于大约70dBA。

在一些示例中，使得用户能够针对不同音频流单独地调整前景/背景控件或者设置优先级偏好。例如，当用户在街上走下来时正在听音乐时，他可能希望他的音乐和他的周围环境平衡，使得没有任何一者都要求更多的注意。当用户接听电话时，音乐相对于残余环境噪声移动到背景中很远处，但继续播放，而相对于剩余环境，在前景中主要听到通话。这确保在电话通话期间易于理解。同时，当通话进入并且音乐和剩余环境相对于通话向背景移动时，所听到的总响度可以保持恒定。所有这一切都通过基于音乐的水平和均衡以及对部分响度模型的调用而被实现。

也可以针对每个耳朵不同地控制掩蔽、ANR和源混合。例如，用户可以启用带轻掩蔽的主动透听，使得他可以听到他的环境，但是当他接听电话时，一个耳朵切换到降噪模式以将在该耳朵处的环境噪声放置在远处背景中，而将通话放置在前景中。另一个耳朵保持在主动透听模式中以在通话期间继续提供情境感知。这些特征通常独立于源，因此如上所述在耳机本身内提供必要的信号处理可能是有利的。

虽然音乐DNC或自动掩蔽算法基于感知上精确的响度模型是最期望的，但是可以基于环境中的SPL的测量和在耳机下听到的SPL的估计来实现较少强度计算的方法。例如，自动掩蔽算法可以被设置为维持目标掩蔽物到残余噪声的频率加权SNR。音乐DNC算法可使用残余噪声的估计和噪声中低和高频率的平衡的一些估计，使用少至两个频带，来确定如何在小数量的频带上均衡音乐。

其他实施方式处于以下权利要求以及申请人可能赋予的其他权利要求的范围以内。

Claims

1.一种用于音频的协作处理的装置，包括具有可编程信号处理能力的媒体回放设备和接收表示环境噪声的信号的输入，其中所述媒体回放设备被配置为：

识别与所述媒体回放设备相关联的一组耳机的输出响应特性和衰减特性，

基于所述耳机的所述环境噪声输入信号、所述输出响应特性和所述衰减特性来预测由所述耳机在用户的耳朵处输出的音频的属性，

预测当佩戴所述耳机时从所述环境噪声输入信号和所述衰减特性导出的在所述用户的耳朵处的预期残余环境噪声，以及

修改待提供至所述耳机的掩蔽信号，使得所述掩蔽信号将掩蔽在所述用户的耳朵处的所述预期残余环境噪声，

其中所述媒体回放设备修改所述掩蔽信号，使得所述掩蔽信号导致所述残余环境噪声具有随着所述环境噪声水平的增大而以预定方式单调增大的部分响度。

2.根据权利要求1所述的装置，其中修改所述掩蔽信号包括均衡所述掩蔽信号以具有与在所述用户的耳朵处的所述预期残余环境噪声的频谱匹配的频谱特性。

3.根据权利要求1所述的装置，其中修改所述掩蔽信号包括设置所述掩蔽信号的水平以控制在所述用户的耳朵处的所述预期残余环境噪声的部分响度。

4.根据权利要求1所述的装置，其中所述媒体回放设备基于所述预期残余环境噪声和所述输出响应特性来修改所述掩蔽信号，使得所述掩蔽信号导致所述预期残余环境噪声在所述用户的耳朵处具有预定的部分响度。

5.根据权利要求1所述的装置，其中所述残余环境噪声的所述部分响度的所述增大小于如果当环境噪声水平增大时所述掩蔽信号的所述水平保持恒定本将发生的增大。

6.根据权利要求1所述的装置，其中修改所述掩蔽信号包括将所述掩蔽信号的水平设置为与在所述用户的耳朵处的所述预期残余环境噪声的平均水平具有预定义关系。

7.根据权利要求6所述的装置，其中

所述预定义关系基于用户输入值，并且

当第一组耳机耦合到所述媒体回放设备时，所述媒体回放设备根据所述用户输入值来修改所述掩蔽信号以掩蔽所述预期残余环境噪声，并且

当具有与所述第一组耳机不同的响应特性的第二组耳机耦合到所述媒体回放设备时，所述媒体回放设备修改所述掩蔽信号以具有与所述预期残余环境噪声的所述平均水平相同的预定义关系，而不接收进一步的用户输入。

8.根据权利要求6所述的装置，其中

所述预定义关系基于第一用户输入值，并且

当具有与所述第一组耳机不同的响应特性的第二组耳机耦合到所述媒体回放设备时，所述媒体回放设备基于第二用户输入值来修改所述掩蔽信号以具有与所述预期残余环境噪声的所述平均水平不同的预定义关系。

9.根据权利要求1所述的装置，其中修改所述掩蔽信号是动态的。

10.根据权利要求1所述的装置，其中识别所述衰减特性包括假设所述耳机不衰减所述环境噪声。

11.根据权利要求1所述的装置，其中所述媒体回放设备接收调整所述音频掩蔽信号的所述修改的用户输入，将所述用户输入调整与所述耳机的型号相关联，并且将描述所述调整和所述耳机型号的数据发送到所述媒体回放设备与之通信的服务器。

12.根据权利要求1所述的装置，其中所述媒体回放设备还被配置为识别提供表示所述环境噪声的信号的麦克风的输入响应特性，并且所述音频掩蔽信号的所述修改进一步基于所述麦克风的所述输入响应特性。

13.根据权利要求12所述的装置，其中所述麦克风耦合到所述耳机。

14.一种用于音频的协作处理的装置，包括：

一组耳机，用于输出与第一输入音频信号和第二输入音频信号相对应的声音，所述第一输入音频信号包括掩蔽信号；

麦克风，用于生成表示所述耳机附近的环境噪声的环境噪声信号；以及

可编程信号处理器，被配置为基于从所述麦克风接收到的输入信号与所述耳机的输出响应特性的组合来动态地修改及合并所述第一输入音频信号和所述第二输入音频信号，所述修改控制所合并的音频信号的总响度，以及所修改的第一输入音频信号和第二输入音频信号中的每一者在所合并的音频信号内的相对部分响度；

其中所述可编程信号处理器进一步被配置成修改待提供至所述耳机的所述掩蔽信号，使得所述掩蔽信号导致残余环境噪声具有随着所述环境噪声水平的增大而以预定方式单调增大的部分响度。

15.根据权利要求14所述的装置，其中所述信号处理器被配置为将所述第一输入音频信号和所述第二输入音频信号的所述相对部分响度在所述耳机的第一操作模式中控制为第一相对值，并且在所述耳机的第二操作模式中控制为第二相对值。

16.根据权利要求15所述的装置，其中所述第一相对水平将所述第一输入音频信号设置在总感知音频环境的前景中，并且将所述第二输入音频信号设置在所述总感知音频环境的背景中，并且所述第二相对水平将所述第二输入音频信号设置在所述总感知音频环境的所述前景中，并且将所述第一输入音频信号设置在所述总感知音频环境的所述背景中。

17.根据权利要求15所述的装置，其中所述信号处理器被配置为针对所述一组耳机中的第一耳机和第二耳机中的每个耳机不同地修改及合并所述第一输入音频信号和所述第二输入音频信号。

18.根据权利要求14所述的装置，其中所述信号处理器集成到所述一组耳机中。

19.一种用于音频的协作处理的装置，包括：

一组耳机，用于输出与输入音频信号相对应的声音，所述一组耳机在用户的耳朵处提供环境声音的至少12dBA衰减；以及

可编程信号处理器，被配置为提供信号，所述信号在由所述一组耳机再现时在所述用户的耳朵处提供具有从200Hz到500Hz平坦的频谱密度的掩蔽声音，在500Hz以上以约8dB/倍频程的斜率下降，并且在100Hz以下以约20dB/倍频程的斜率下降；

20.根据权利要求19所述的装置，进一步包括麦克风，所述麦克风用于生成表示所述耳机附近的所述环境噪声的环境音频信号，其中，

所述信号处理器被配置为以这样的水平提供所述掩蔽声音，所述水平使得在所述用户的耳朵处的所述残余噪声的所得部分响度至少小于在不存在所述掩蔽声音的情况下的所述残余噪声水平的十分之一。

21.根据权利要求19所述的装置，其中所述信号处理器集成到所述一组耳机中。