CN104541328B

CN104541328B - 变换音频内容以获得主观保真度

Info

Publication number: CN104541328B
Application number: CN201380042753.2A
Authority: CN
Inventors: 达西·安东内利斯; 路易斯·奥斯特洛威
Original assignee: Warner Bros Entertainment Inc
Current assignee: Warner Bros Entertainment Inc
Priority date: 2012-08-15
Filing date: 2013-08-15
Publication date: 2018-01-02
Anticipated expiration: 2033-08-15
Also published as: US10340870B2; EP2885786A1; US11075609B2; JP2015531084A; US20200403590A1; US20180006622A1; EP2885786A4; JP6231102B2; CN104541328A; WO2014028783A1; US20200162050A1; EP2885786B1; US10700657B2; US20140050334A1; US9748914B2; HK1211737A1

Abstract

一种用于将音频节目(例如音乐)递送到听众的方法或设备可包括识别、采撷和应用听众音频感知特性(有时称作听众个人波形曲线)以变换音频内容，使得所述听众以所述内容被不同听众感知的方式类似地感知所述内容。音频测试工具可实现为软件应用程序以识别和采撷相应听众个人波形曲线。信号处理器可运算使用相应听众个人波形曲线处理源音频内容以基于不同曲线之间的差异提供音频输出的算法。

Description

变换音频内容以获得主观保真度

技术领域

本申请大体来说涉及使用计算机处理音频数据，且更明确地说涉及变换音频内容以获得对内容制作者或其他人的听觉体验的主观保真度。

发明背景

模拟和数字音频内容通常经由各种类型的模拟和数字介质产生、采撷、存储并递送到消费者。举例来说，CD、DVD、BD、磁带、LP唱片、电影胶片、数字文件和流具有各种固有限制和益处以递送足够的保真度以供消费者欣赏。上述产生、采撷、存储和传输介质和构件中的许多的益处和缺点是众所周知的。

每一听众将个人的感知特性集合带到他或她的听觉体验。因为每一听众的听觉敏锐度和感知设备之间的自然差异，与另一人(例如，内容制作者)体验相同内容相比，个别听众可不同地体验音频内容。固有频率、动态和时域偏差可存在于不同听众当中，包括听众中的每一耳朵之间。这些自然地发生的差异可包括设备声音强度、音调、不同频率下的阈值(例如“可听度阈值”)和对位置线索的敏感度的差异。

流行音乐和电影/片段配乐的创意制作者混音是可获得的，每一者突出可强调某些音频特性的创意选择，音频特性例如频率响应曲线和均衡、动态，或单声道、立体声或多声道效果(例如，环绕、回声、延迟或其它位置线索)等。然而，每一听众的外耳和内耳的物理特性，以及每一听众的感知偏差会影响每一听众聆听相同的录音时听到的内容，甚至在相同环境中使用相同的声音再现设备时也这样。这些差异可通过阻止听众主观地感知创意制作者希望的内容而引起对制作者与听众之间的交流的微小障碍。

呈现特定录音(有时称作“混音”)的创意意图可包括向听众提供特定听觉体验，例如包括某一频率均衡、动态以及环绕声场的听觉体验。尽管音频再现的产生、采撷、存储和递送系统经常被严格地管理以试图提供对源内容的高保真度，但每一听众的耳朵和感知偏差仍可在使用播放装置聆听录音时以不受控的方式影响其听觉体验。因此，尽管对音频播放器的高保真度再现和聆听环境非常注意，但听众的主观体验可能与内容制作者希望的听觉体验不匹配。

用于处理音频内容以获得高保真度的现有方法的这些和其它限制可通过本文中公开的新颖方法和设备克服。

发明概要

实施方式中详细描述用于变换音频内容以实现主观保真度的方法、设备和系统，且下文概括某些方面。此概括和以下实施方式应理解为完整的公开的补充部分，其部分可包括冗余标的物和/或补充标的物。任一章节的省略并不指示完整的申请中描述的任何元件的优先性或相对重要性。章节之间的差异可包括如应从相应公开显而易见的替代实施方案、额外细节或使用不同技术的相同实施方案的替代描述的补充公开。

用于将例如音乐等音频节目递送到听众的方法可包括识别、采撷和应用参考听众的(例如，内容制作者的)音频感知特性(在本文中有时称作听众的个人波形曲线(PWP))以变换音频内容，使得另一听众与所述内容将由参考听众(例如，内容制作者)感知的方式类似地感知所述内容。在某种意义上，可因此基于针对听众测量的或假设的PWP以及针对某一其他人(例如，内容制作者)测量的或假设的PWP之间的差异来为每一听众定制音频信号。

所述方法的方面可包括应用音频测试工具和软件应用程序来识别和采撷创意制作者和每一希望的听众的相应的唯一的个人波形曲线。所述方法还可包括使用相应听众的个人波形曲线处理源音频内容以提供音频输出的算法的运算。音频输出被配置来用于使第二听众与源音频内容的第一听众的主观体验更像地主观地体验音频输出。因此，可使听众成员的主观听觉体验更接近任何其他人(例如，音频创意制作者)的听觉体验，使得此听众将类似的听觉体验分享给另一人。

在一些实施方案中，耦接到音频输入和音频输出的数字信号处理器可执行用于处理音频信号的方法。所述方法可包括接收听力测定参考曲线、听力测定听众曲线以及经编码的输入音频信号。所述方法还可包括基于所述参考曲线或优选的听众的曲线与其他听众曲线之间的差异使用信号处理器将所述输入音频信号变换为输出音频信号，使得所述输出音频信号补偿所述差异。变换可用数字方式对经编码的信号执行，从而产生经编码的输出信号。在替代方案中，变换可使用在数字处理器的控制下对经解码的模拟音频信号操作的放大器和/或延迟电路执行。

在一些实施方案中，变换所述输入音频信号可包括与在所述参考和听众曲线的对应的一个或多个频率下的差异成比例地更改输入音频信号的一个或多个频率。所述方法还可包括基于第一人的听力测定测试结果产生听力测定参考曲线，以及基于第二人的听力测定测试结果产生听力测定听众曲线。在此状况下，变换所述输入音频信号还可包括通过在所述差异指示第一人比第二人对声音更敏感的情况下加强一个或多个频率下的输入信号，且在所述差异指示第一人比第二人对声音更不敏感的情况下衰减一个或多个频率下的输入信号来产生所述输出信号。加强输入信号可包括(例如)增大信号在音频频谱的定义的频带部分上方的振幅。同样，衰减输入信号可包括(例如)减小信号在音频频谱的定义的频带部分上方的振幅。

在一方面中，经编码的输入音频信号可被指示为已由第一人编辑。举例来说，第一人可以是获得音频信号的音频轨道或节目的创意制作者。音频播放器可提供制作者的指示，使得听众可了解音频信号的变换的基础。输出音频信号可被配置来使得，当由音频播放装置播放且由第二人听时，对于从输出音频信号产生的声音，第二人的听觉体验变得更像第一人的听觉体验。当第一人是内容制作者时，第二人(例如，音频消费者)可更像制作者体验和希望地体验音频内容。

在其它方面，产生听力测定听众曲线可基于一般人群的样本的听力测定数据，使得听力测定听众曲线表示听众群组的集合测量。举例来说，可针对不同性别和年龄范围形成集合的(例如，平均的或中间的)听力测定曲线。这些平均曲线可用以在个人听力测定数据不可获得时近似听众曲线。

除了补偿不同频率下的敏感度的差异之外，所述方法还可用以补偿对于听响应所需的时间的差异。由于耳道和耳朵的其它物理结构的差异，个人可在稍微不同的时间感知到声音。此些差异可导致感知位置线索或动态效果的差异。为了补偿这些差异，变换输入音频信号可包括与在所述参考和听众曲线的对应的一个或多个时间处的差异成比例地更改输入音频信号的一个或多个时间处的音频信号的相位。举例来说，更改相位可以是针对音频信号的定义的子频带执行的以改变由音频信号编码的声音发生的时间。时移可改变不同信道(例如，右信道或左信道)或所述信道中的频带的声音相对于彼此发生的时间。

在相关方面中，可提供用于执行上述方法中的任一者和方法的方面的音频处理设备。设备可包括(例如)：处理器，其耦接到存储器，其中存储器保持指令以供处理器执行以使所述设备执行如上所述的操作；音频输入，其耦接到处理器以用于提供源音频信号；以及音频输出，其耦接到处理器以用于输出变换的音频信号。此设备的某些方面(例如，硬件方面)可由例如介质播放器、mp3播放器、计算机服务器、个人计算机、具备网络功能的电视、机顶盒、智能电话、记事本型计算机或平板电脑、膝上型计算机，以及用于存取音频内容的各种类型的其它计算装置等设备示范。类似地，可提供包括保持经编码的指令的非暂时性计算机可读介质的制造物品，所述指令在由处理器执行时可使适合于音频信号处理的计算设备执行如上所述的方法和方法的方面。

在随后的实施方式中呈现用于变换音频内容以获得主观保真度的方法、设备和系统的进一步实施方案、方面和细节。

附图简述

参看以下图式详细描述根据一个或多个各种实施方案的本技术。图式经提供以仅用于说明性目的且仅描绘技术的典型或实施例实施方案。相同元件符号可用以指示图式中的一者或多者中出现的相同元件。

图1是说明可用以执行如本文中描述的方法的系统的实施方案的示意图。

图2是说明用于支持和执行本文中描述的方法的音频播放器的实施方案的示意性框图。

图3是说明变换音频内容以获得主观保真度的一般方面的状态图。

图4是说明用于变换音频内容以获得主观保真度的数据流和过程的框图。

图5是说明用于位置线索敏感度的听力测定测试的图形用户界面的实施例的简化屏幕截图。

图6A是说明不同频率下的听觉敏感度的听力图的实施例。

图6B是说明不同频率下的感知时间滞后的听力图的实施例。

图7A-B是说明替代实施方案中的用于基于PWP差异而更改音频信号的信号处理器的方面和过程的框图。

图8-11是说明可由音频处理设备执行的关于变换音频内容以获得主观保真度的操作的图式。

图12是说明被配置来用于变换音频内容以获得主观保真度的音频处理设备的图式。

具体实施方式

在以下描述中，出于解释的目的，阐述众多特定细节以便提供对一个或多个实施方案的透彻理解。然而，可明显的是，此些实施方案可在没有这些特定细节的情况下实践。在其它例子中，众所周知的结构和装置以框图形式展示以便有利于描述一个或多个实施方案。

与用于音频处理的已知方法相反，本技术不校正音频以使其降音或在频率、动态和时域上大体上不失真，也不会使用某种形式的一般响应滤波来为多个听众(即，房间内的多个听众位置)校正。而是，本技术可用以故意失真或以其它方式画音频信号的轮廓以补偿不同听众的听力中的自然差异。可根据先前确定的个人波形曲线画音频的轮廓，使得根据创意制作者的个人波形曲线画轮廓的他/她的混音可被其他人欣赏。

此音频处理可用以用与音频内容的创意制作者的原始和个人体验一致的方式更广泛地分享音频内容的特定体验。创意制作者的PWP可用以参考默认或假设的PWP来为其他听众变换其它内容，或者创意制作者的PWP可用以操纵以有效地取代下游听众的PWP。

在技术的一方面，每一听众的听觉响应敏锐度的基本和有影响的特性以及感知特性或偏差中的一些(例如，创意音频制作者的听觉和音频感知特性)的特点在于用一致的交互方式以参数形式识别和采撷每一听众的PWP。举例来说，交互的听力测定类的应用程序可在个人计算机、智能电话、平板电脑或记事本型计算机上执行。应用程序可产生可通过头戴受话器或耳塞听到的听力测定音调，其中测试协议通过虚拟用户界面管理。每一听众的与标准的不同听觉响应偏差或偏离可被识别并记录为听力测定数据或听觉参数的集合。可被识别并采撷作为参数的每一听众的听觉的基本和有影响的特性以及感知偏差的实施例可包括(例如)在频率响应敏锐度、与不同音量级有关的频率响应敏锐度-即响度曲线、总均衡-即频率响应斜度以及关于位置线索的敏感度上与标准的听力测定偏离。

在其它方面，算法可用以从交互的听力测定式测试应用程序提取PWP参数且将PWP参数解译为可用作信号变换功能的听力图或其它表示法，或用以驱动变换音频内容的软件。举例来说，创意制作者的PWP可绘制成与(若干)参考值相比的听力图，且接着用作可(例如)通过加强或衰减音频或选定频率和/或信道下的时移而对其他人的测量的听力测定参数PWP进行比较和变换的标准。对于不同于优选的创意制作者的听众，已由具有某些测量的听觉特性的创意制作者记录的源材料可使用(例如)均衡和滤波技术‘标准化’或以其它方式变换，以复原或以其它方式强调/削弱频率响应、动态、位置线索和管控创意制作者的听觉感知的其它相关特性，即使如由听力测定参数表示的其他听众的听觉特性与创意制作者不同也是这样。

在其它方面，分布式和主机计算资源的系统可用以存储采撷的PWP变换且使采撷的PWP变换可存取，例如存储且经由云存储器提供对所存储的数据的存取。此数据可稍后被选择且应用于音频内容以用与PWP中采撷的偏差一致的方式对它变换。可基于PWP参数之间的差异(例如)通过选择性频率强调/削弱、不同音量均衡下的频率敏感度以及位置线索强调/削弱来将一人的PWP换另一人的。

在一种模式中，创意制作者的PWP变换可应用于任何内容，而不仅是已由此创意制作者混音的内容。在另一模式中，创意制作者的PWP变换可与第二不同听众的PWP比较，使得下游听众的PWP变换可使用较好地传达创意制作者的PWP变换的音频特性的逆变换参数标准化，使得所要的音频特性按照优选的创意制作者的PWP变换对下游听众的PWP变换来加强或衰减。举例来说，滤波或其它PWP相关的强调/削弱可复原创意制作者希望的但下游听众无法以希望的保真度感知的某些频率、频带、动态，或均衡特性。在另一模式中，PWP第一或第二模式可关闭(例如)以用于比较目的。

存在不同的环境，在其中可使用上述交互的听力测定式测试识别和采撷PWP变换特性。举例来说，测试可经由耳塞测试在耳道中，使用头戴受话器在耳朵上或耳朵上方，或使用扬声器在例如房间或开放区域等空间中执行。这些状况中可涉及不同层的解释，因为房间和头戴受话器用与耳道影响经由耳塞递送的声音的方式不同的方式来‘加载’由音频系统(例如，常规扬声器或头戴受话器)再现的声音。

同样，存在不同的环境，在其中可(例如)经由头戴受话器或耳塞或在房间或开放空间中使用扬声器来欣赏音频内容。另外，不同的声音再现系统再现一些频率、频带、动态和位置线索的能力或无能力根据设备和这些环境的细节而变化。

为了考虑此些差异，可取决于听力测定测试或聆听环境分别是内耳式耳塞、耳朵上方或耳朵上头戴受话器还是其它‘封闭’环境来形成将形成PWP的应用程序测试的不同模式。可在应用PWP变换时考虑播放环境的此些变化。

用于听力测定测试的交互的应用程序可经开发以具有与标准的听力测定测试不同且更有趣的用户界面。举例来说，界面可被配置来使用户能够使用突出某一频率、频带、动态和位置线索材料以识别和采撷PWP的相关参数的内容来选择‘或多或少令人愉悦的’东西。

应用于内容或取代另一PWP变换的PWP变换的添加和/或减少的音频特性进而更改音频内容，其结果是一人可与另一人更像地听到和感知音频内容。举例来说，消费者听到的可与创意制作者听到和希望的更像，尽管两个听众的内耳/外耳和感知偏差不同。

如本文中公开的特征和方面可在如图1所示的系统100内或在能够进行以下操作的任何其它系统中实现：获得针对听众或听众群组的听力测定数据，获得资源源音频内容，处理音频内容以获得变换的内容，以及从变换的内容提供音频输出。系统100可包括经由广域网(WAN)112或以任何其它合适的方式通信的某些发信号和处理组件。举例来说，组件可通过内部总线、无线网络、局域网或其它通信网络或线路中的一者或多者通信。

系统100可包括用于音频内容制作的组件102，其可由视频制作者104操作，视频制作者104可具有可使用听力测定模块114测量的个人听觉和感知特性。音频内容制作模块102可因此与听力测定模块114协调以通过对视频制作者104的测试过程，或通过从数据存储器(例如，从云存储器106)检索先前获得的PWP或其它曲线来获得PWP或其它听力测定曲线。音频内容制作模块102可包括如音频制作的技术中已知的任何合适的音频混音和编辑设备，且可包括数字和模拟组件两者。一旦制作并发布了特定音频内容，可将内容以数字形式(例如，以mp3或其它音频格式)向内容服务器108提供，内容服务器108可安排将音频内容存储在任何合适的非暂时性计算机可读介质(例如，云存储组件106中)或其它有形介质中。

内容服务器108可配置为与WAN 112通信的计算机服务器。服务器108可管理来自云存储器106的音频内容和PWP或其它听力测定数据的存储和检索。应了解，服务器108和云存储器是用于存储和分布数据的一种合适的模式的实施例，但其它模式也可能是合适的。举例来说，音频内容和PWP数据可存储和分布在便携式介质上，例如在光盘或存储器装置上。

系统100可包括智能音频播放器110，音频播放器110可通过专用硬件和/或软件配置为专用音频播放器，或较通用的机器的专用模块。音频播放器还可播放与音频流同步的视频。智能音频播放器110可(例如)在个人计算机、智能电话、笔记本式计算机、记事本型计算机、平板电脑、智能电视或其它组件中体现。播放器110可经由有线和/或无线接口与WAN112通信。播放器110可由音频消费者116操作，音频消费者116具有可使用听力测定模块114或类似模块测量的个人听觉和感知特性。

听力测定模块114可包括为智能音频播放器110的组件，或可配置为单独硬件中的独立组件。在替代方案中，听力测定模块114的第一部分可在音频播放器110中实现，第二部分可在单独硬件组件中实现，且第一部分和第二部分可经由WAN 112或其它连接彼此协调以执行听力测定测试过程。

参看图2，说明了实施例智能音频播放器200的图解视图。音频播放器200可以是或可包括计算机。在选定实施方案中，计算机200可包括操作地耦接到处理器存储器204的处理器202，处理器存储器204保持二进制编码的功能模块以供处理器202执行。此些功能模块可包括：用于处置例如输入/输出和存储器存取等系统功能的操作系统206，用于经由用户接口(例如显示单元228和音频输出端口218)执行听力测定测试的听力测定模块208，用于处理来自听力测定模块208的PWP与参考PWP的比较模块，以及用于基于用户PWP(或选定平均群组PWP)与来自音频制作者的参考PWP或其它标准的比较变换输入音频内容的音频处理模块212。

总线214或其它通信组件可支持计算机200内的信息的通信。处理器202可以是特殊的或专用微处理器，其被配置来根据本文中公开的特征和方面通过执行定义特定任务的机器可读软件代码来执行特定任务。处理器存储器204(例如，随机存取存储器(RAM)或其它动态存储装置)可连接到总线214或直接连接到处理器202，且存储信息和指令以待处理器202执行。存储器204还可在此些指令的执行期间存储暂时变量或其它中间信息。

存储装置224中的计算机可读介质可连接到总线214且存储用于处理器202的静态信息和指令；举例来说，存储装置224可在音频播放器200断开电源时存储模块206、208、210和212，当客户端200上电时，所述模块可从存储装置224加载到处理器存储器204中。存储装置224可包括非暂时性计算机可读介质，其保持信息、指令或其某一组合，例如，在由处理器202执行时使音频播放器200执行如本文中描述的方法的一个或多个操作的指令。

通信接口216也可连接到总线214。通信接口216可可选地经由路由器/调制解调器226和有线或无线连接(未图示)提供或支持音频播放器200与一个或多个外部装置(例如，内容服务器108)之间的双向数据通信。另外，音频播放器200可包括用于驱动用于向用户产生可听输出的合适的音频接收器/扬声器系统(例如，耳塞228、外部头戴受话器、外部或立体声/环绕声系统)的音频输出端口218。应了解，插入到耳道中的高质量的内部耳塞对于消除使用外部头戴受话器或扬声器时存在的环境或组织差异可以是有利的。因此，对于听力测定测试和内容聆听可通过使用耳塞代替外部系统来实现更一致和可预测的结果。

音频播放器200可连接(例如，经由总线214和图形处理单元220)到显示单元228。显示器228可包括用于向音频播放器200的用户显示信息的任何合适的配置。举例来说，显示器228可包括或利用液晶显示器(LCD)、触摸屏LCD(例如，电容式显示器)、发光二极管(LED)显示器、投影仪，或用视觉显示向音频播放器200的用户呈现信息的其它显示装置。

一个或多个输入装置230(例如，字母数字键盘、麦克风、小键盘、遥控器、游戏控制器、相机或相机阵列)可经由用户输入端口222连接到总线214以将信息和命令传送到客户端200。在选定实施方案中，输入装置230可提供或支持对光标的定位的控制。此光标控制装置(也称作指向装置)可配置为鼠标、轨迹球、触控板、触摸屏、光标方向键或用于接收或跟踪物理移动且将所述移动解译成指示光标移动的电信号的其它装置。光标控制装置可(例如)使用触敏屏幕并入到显示单元228中。光标控制装置可将方向信息和命令选择传送到处理器202且控制显示器228上的光标移动。光标控制装置可具有两个或多个自由度，(例如)从而允许装置指定光标位置或平面或三维空间中的其它指向/选择信息。

音频播放器200可用以接收、处理和输出一个或多个源音频内容以及相关联的听力测定参考曲线。在选定实施方案中，此些接收、处理和输出可响应于处理器202执行主存储器204中含有的一个或多个指令的一个或多个序列。此些指令可从另一非暂时性计算机可读介质(例如，存储装置224)读取到主存储器204中。

主存储器204中含有的指令的序列的执行可使处理器202执行本文中描述的程序或步骤中的一者或多者。在选定实施方案中，多处理排列中的一个或多个处理器202也可用以执行主存储器204中含有的指令的序列。另一选择是，或除此之外，固件可取代或结合软件指令使用以根据本文中公开的特征和方面实现程序或步骤。根据本文中公开的特征和方面的实施方案不限于硬件电路和软件的任何特定组合。

参看图3，说明了基于不同听众或听众群组的听力测定曲线之间的差异的音频信号更改过程300的一般方面。初始状态308表示如由创意制作者配置的源音频内容。初始状态308可在计算机存储器中以各种方式，例如，通过数字音频文件(例如，格式是mp3、AIFF、wav、wma或其它格式的文件)表示。应该显而易见的是，初始状态308可由尤其表示在一段时间内来自例如扬声器或耳机等换能器的物理音频输出的数据定义。因而，初始状态数据表示先前实现的或可能在输入的数字音频文件由音频播放器播放时已导致的特定型式的物理状态(例如，特定声音)的改变。

音频变换过程300是(或包括)由计算机处理器执行的输入-输出计算术过程，计算机处理器对初始状态308操作以输出最终状态310。最终状态310同样表示来自例如扬声器或耳机等换能器的物理音频输出。音频变换过程300可因此作为经由输入装置接受初始状态308和用户输入作为输入的状态机操作，且将表示由音频输出装置产生的物理型式的声音的状态数据变换成最终状态310。随后，最终输出状态在来自音频播放器的物理输出中实现，所述输出包括基于定义的听众的PWP定制的动态音频场的输出，以使主观感知能够接近由参考PWP定义的真实的或假设的人的PWP。

音频变换过程300可包括若干交互的模块，例如听力测定曲线绘制模块302、曲线比较或处理模块304以及音频信号处理模块306。模块300可包括其它模块，例如音频内容服务器模块、音频驱动器模块、图形模块等，其为了说明的简单起见未图示。听力测定曲线绘制模块302可获得和管理听力测定测试数据以及相关参数，例如PWP。曲线比较或处理模块304可处理两个或多个不同的PWP或其它听力测定曲线以确定可用于变换音频文件的差异。音频处理模块306可基于来自曲线比较或处理模块304的输入确定最终状态。

图4是说明用于变换音频内容以获得主观保真度的数据流和处理方框的实施例的框图。音频内容制作过程402可将源音频内容输出到服务器404，服务器404可将源音频内容存储在计算机可读存储介质406(例如，磁性或光学存储介质)上。听力测定测试过程408可形成参考人(例如，内容制作者)或参考人的群组以及听众(例如，消费者)的相应PWP，或听众的群组的集合曲线。服务器404可(例如)通过使用数据库或表将用于对应数据记录的识别符联系起来以将参考人或群组的PWP识别为源音频内容的标准。听力测定测试过程可将PWP输出到服务器404以用于存储在存储介质406中。随后，音频播放装置可向服务器404发射对源音频内容的请求(未图示)。请求可包括用于源音频内容以及被识别为经由音频播放器起始请求的听众的识别符。

响应于此请求，服务器404可基于使内容与参考PWP相关联的记录来检索源音频内容、参考人或群组的PWP。服务器404还可检索听众的PWP，且将PWP和音频内容作为数据对象提供到信号处理器410。在替代方案中，参考人或听众的PWP可在比音频内容早或晚的时间提供；或者如果音频播放器已在本地产生听众PWP，那么可替代地从本地存储器检索听众PWP。信号处理器410基于参考人和听众的不同PWP处理音频内容以产生更改的或变换的音频内容。信号处理器410可实现为客户端音频播放装置的模块，或单独机器上的远程过程。处理器410将变换的音频内容提供到音频换能器412，例如音频播放器的耳塞、头戴受话器或扬声器。反过来，换能器向听众414输出通过音频驱动器从变换的音频内容产生的音频。

听力测定测试模块408可在音频播放器或服务器上实现为用户友好应用程序，其具有用于操作听力测定测试协议的图形用户界面。举例来说，图5展示包括触敏显示屏502的音频播放器500上的屏幕截图的实施例。触敏显示屏可用以在听力测定测试的应用期间引导用户。通过将播放器500的音频输出端口连接到耳塞(内部耳机)或外部头戴受话器的集合，或较不优选地连接到驱动扬声器集合的音频接收器，且遵照由在播放器500上操作的听力测定测量程序产生的可听和图形指令，用户可将听力测定测试支配给她自己。此听力测定测试模块可以是经由相关联的音频装置的‘苹果商店’获得的应用程序，例如经由Apple^TMApp Store^TM可用于iPod^TM或iPad^TM。

在更常规的频率敏感测试中，听力测定应用程序可产生各种频率和声能级下的音调集合。通过触摸屏幕，用户在每当听到音调时提供反馈，且播放器可进而确定在每一频率下的听觉阈值。可选地，程序可保留和显示分数或进步指示符以使测试过程更吸引人。在其它测试中，听力测定应用程序可测试动态效果和对位置线索的敏感度。图5展示用于测试对位置线索的敏感度的屏幕502的实施例。听力测定测试器可产生具有各种等级的位置线索的声音序列。用户聆听直到能够(例如)通过从位于表示听众的相对位置的人图标506周围的多个节点中选择3D位置节点504来区分声音的明显的3D起源。因此，播放器可确定听众对音频内容的位置线索的敏感度。其它听觉感知测试也可由播放器500支配，例如右耳与左耳之间的时间敏感度的差异。

频率敏感度数据可按照惯例表示为频率响应表600，如图6A所示。阈值敏感度在纵坐标轴604上用分贝表示且选定的测试频率在横坐标轴602上用赫兹(Hz)表示。在说明的实施例中，上部曲线606表示特定听众的第一(例如，右)耳且下部曲线608可表示较不敏感的第二(例如，左)耳。表示曲线606和608的数据可用任何合适的数值格式编码(例如，编码为数字序列)且存储为听众的PWP的一部分。

图6B展示仅作为可包括在PWP中的非常规测试数据的实施例的非常规听力图650。听力图包括纵轴654上的时间(例如，毫秒或几十毫秒)以及横坐标轴652上的以赫兹为单位的选定的测试频率。曲线656表示(例如)听众的右耳与左耳之间的时间敏感度的差异。对于进一步实施例，在250Hz下，曲线指示右耳听到音调比左右早约1.4个时间单位。此些差异在感知位置线索或其它动态效果时可以是重要的。曲线656可用任何合适的格式编码且存储为听众PWP的第二部分。

图7A说明用于基于PWP差异更改音频信号的信号处理器和过程700的方面，其中经编码的音频信号被重新写码以产生相同格式的另一数字信号，其被变换以补偿参考PWP与听众PWP之间的差异。应了解，如果特定听众PWP不可获得，那么一般的或集合的听众PWP可取代针对特定听众确定的PWP。经数字编码的数据704输入到数字重新写码过程706，过程706由包括处理器和用于重新写码的算法的控制电路702控制。重新写码可包括随频率的变化与参考和听众曲线之间的差异和/或相移/时移成比例地加强增益。经重新编码的音频数据708可由解码器710用常规方式解码，从而产生经解码的数字音频数据712。经解码的数据可提供到数/模转换器714，数/模转换器714处理数字信号，从而准备模拟音频信号716。模拟音频信号716可提供到放大器718，放大器718放大信号且将放大的模拟信号720提供到音频换能器722。音频换能器722产生可由听众726听到的声音724。

图7B说明用于基于PWP差异更改音频信号的信号处理器和过程750的方面，其中经编码的音频信号首先被解码并转换成模拟形式，且模拟信号基于参考PWP与听众PWP之间的差异而变换(调整)。原始的经编码的音频数据752可提供到用常规方式准备经解码的音频信号756的解码器754。经解码的音频信号756可提供到产生模拟音频信号760的数/模转换器758。

可选地，模拟音频信号760可提供到信道延迟/滤波模块762。在包括操作控制算法的处理器的控制电路770的控制下，延迟/滤波模块762可与由参考和听众PWP曲线定义的时间敏感度差异成比例地延迟单独信道(例如，右信道和左信道)。举例来说，如果针对右信道比较PWP展示参考人与听众相比在右耳比左耳响应地更迅速，那么延迟/滤波模块762可延迟左信道以进行补偿。对于进一步实施例，延迟/滤波模块可延迟左信道达与差异成比例的量，从而允许听众的较慢的右耳“赶上”左耳的感知。此些差异可尤其影响位置线索的个人感知。

在替代方案中，或另外，延迟/滤波模块762和控制电路770可使用从PWP或PWP的部分得到的滤波器对经解码的音频信号760滤波。举例来说，PWP可包括头相关传递函数(HRTF)。HRTF是技术中已知的，且可理解为描述对由外耳(耳廓)引起的声音的反射和衍射效果的功能集合。由耳廓引起的声音的反射和衍射单独地或结合内耳的结构可在定位声音(即，感知声音起源的位置)时起到重要作用。因此，使用HRTF的滤波可用以改变听众对三维(3D)空间中的声音起源的感知。就HRTF包括在参考和听众的相应PWP中来说，模块762可对音频信号760滤波，使得如由听众感知的位置线索将与参考人体验的位置线索更接近地匹配。HRTF滤波可补偿不同个人的耳廓/内耳几何结构之间的差异。对于进一步实施例，在入耳式换能器(例如，耳塞或耳蜗植入物)仅由听众使用而参考人不使用的情况下，HRTF滤波可用以补偿听众的音频路径中的耳廓的不存在。应了解，在替代方案中，HRTF或其它滤波可使用如图7A的模块706处说明的数字处理来应用。

HRTF在不同个人之间可显著地不同，且HRTF的准确测量可需要比个人通常将忍受的更严格和乏味的测试过程。因此，音频信号变换过程(例如，过程700或750)可使用户能够基于某一外部标记(例如，耳廓的大小和形状)来选择一般HRTF。在替代方案中，或另外，系统可基于来自位置线索测试过程的用户反馈来选择假设的HRTF。举例来说，使用如图5中所示的用户界面以获得关于用户的对定义的音频信号的位置感觉的信息，系统可使用户与若干假设的HRTF中的一者相关，或使用算法产生假设的HRTF。

另外，模拟音频信号764可提供到在控制电路770的控制下的放大器766。放大器766可在电路770的控制下加强或衰减模拟信号764的增益以补偿PWP之间的频率敏感度差异。放大器可将放大的音频信号768提供到为听众776产生声音774的音频换能器772。图7A和7B仅作为说明，且不应理解为将数字或模拟信号的调整限于特定说明的模式或模块。

因此，本技术的实施方案可包括经由用与参数一致的方式识别和采撷听众的相关音频感知特性的交互的听力测定类测试应用程序来收集听众的个人波形曲线，且接着记忆这些参数作为变换，例如可使用算法应用于音频内容的滤波器或其它强调/削弱功能的集合。用这种方式，用户的PWP变换可在音频内容呈现到听众之前应用于音频内容或取代另一人的PWP。因此，通过使用创意制作者的PWP以用减轻随后的听众的不同PWP的影响的方式变换内容，由创意制作者(其PWP变换可如上述进行存取)形成、混音或另外按听到的画轮廓的音频内容可变换为更像制作者希望其被听到的声音。

音频处理操作和设备

上述实施例可用由计算机(例如，音频播放器、服务器或音频播放器和服务器的某一组合)执行的一种或多种方法体现。将参考各种流程图更好地了解可根据公开的标的物实现的方法。尽管为了说明的简单起见将方法展示和描述为一系列动作/方框，但应理解和了解，主张的标的物不受方框的数目或次序限制，因为一些方框可按与本文中描绘和描述不同的次序和/或在与其它方框大体上相同的时间发生。此外，可能不需要所有说明的方框来实现本文中描述的方法。应了解，与方框相关联的功能性可通过软件、硬件、其组合或任何合适的构件(例如，装置、系统、过程或组件)实现。另外，应进一步了解，在本说明书全文中公开的方法能够作为经编码的指令和/或数据存储在制造物品(例如，非暂时性计算机可读介质)上以有利于将此些方法存储、输送和传递到各种装置。本领域技术人员将理解和了解，方法可替代地表示为一系列相关的状态或事件，例如在状态图中。

如图8所示，音频处理设备可执行用于变换音频信号以获得对参考听力测定曲线的主观保真度的方法800。方法800可包括在810处通过信号处理器接收听力测定参考曲线。举例来说，信号处理器可用音频元数据接收创意制作者的PWP，或使用从音频元数据获得的参考识别符从服务器请求和接收参考。

方法800还可包括在820处，信号处理器接收听力测定听众曲线。举例来说，信号处理器可从计算机存储器检索通过与信号处理器在相同的播放装置上执行的应用程序从较早听力测定测量得到的听众曲线。

方法800还可包括在830处，接收经编码的输入音频信号。举例来说，包括信号处理器的音频播放器可读取来自计算机可读介质的经编码的音频文件，可经由网络下载文件，或可经由流式传输的音频接收文件。

方法800还可包括在840处，信号处理器可执行基于参考曲线与听众曲线之间的差异，将输入音频信号变换为输出音频信号，使得输出音频信号补偿所述差异。变换可用数字方式对经编码的信号执行，从而产生经编码的输出信号。在替代方案中，变换可使用在数字处理器的控制下对经解码的模拟音频信号操作的放大器和/或延迟电路执行。信号处理器可在变换之前确定参考曲线与听众曲线之间的差异。变换不需要也不排除数据格式的改变。

参看图9-11，描绘用于音频变换过程的若干额外操作900、1000和1100，音频变换过程可由计算机服务器单独地或结合音频播放器和/或另一服务器执行。操作900、1000和1100中的一者或多者可可选地执行作为方法800的部分。这些操作的元件可按任何操作次序执行，或可由开发算法涵盖而不需要特定的按时间顺序排列的执行次序。操作可独立地执行且不互相排斥。因此，此些操作中的任一者可执行而不管另一下游或上游操作是否执行。举例来说，如果方法800包括操作900、1000和1100中的至少一者，那么方法800可在至少一个操作之后终止，而不必包括可说明的任何随后的下游操作。

在一方面中，参看图9，方法800还可包括在910处，与在参考和听众曲线的对应的一个或多个频率下的差异成比例地更改输入音频信号的一个或多个频率。举例来说，信号处理器可通过从特定离散频率下的听力测定测量内插来计算每一频率下的差异。接着，信号处理器可与每一频率下的差异成比例地加强或减少增益。举例来说，方法800还可包括在920处，在差异指示第一人比第二人对声音更敏感的情况下加强一个或多个频率下的输入信号，且在差异指示第一人比第二人对声音更不敏感的情况下衰减一个或多个频率下的输入信号。加强输入信号可包括增大信号在一个或多个选定的频带处在适用音频频谱的选定部分上方的振幅。衰减输入信号可包括减小信号在一个或多个选定的频带处在适用音频频谱的选定部分上方的振幅。

在替代方案中，或另外，方法800还可包括在930处，与在参考和听众曲线的对应的一个或多个时间处的差异成比例地更改输入音频信号的一个或多个时间处的音频信号的相位。举例来说，方法800还可包括在940处，更改音频信号的定义的子频带的相位以改变由音频信号编码的声音发生的时间。

在另一方面，参看图10，方法800还可包括在1010处，基于第一人的听力测定测试结果产生听力测定参考曲线。举例来说，第一人可以是音频创意制作者，其个人感知特性确定或影响了音频作品的制作。在此状况下，方法可包括在1020处，确定经编码的输入音频信号被指示为已由第一人编辑。类似地，方法800可在1030处，可包括基于第二人的听力测定测试结果产生听力测定听众曲线。因此，方法800还可包括在1040处，为第二人播放输出音频信号，借此对于从输出音频信号产生的声音，第二人的第二听觉体验变得更像第一人的第一听觉体验。

在其它方面，参看图11，方法800还可包括在1110处，基于一般人群的样本的听力测定数据产生听力测定听众曲线。举例来说，人群数据可针对特定群组收集以在个人听力测定曲线数据不可获得的状况下使用。举例来说，方法800还可包括在1120处，产生表示听众群组的集合测量的听力测定听众曲线。集合测量可包括(例如)平均值或中间值。方法800还可包括在1130处，为被识别为听众群组的成员的人播放输出音频信号，借此那个人的听觉体验变得更像由听力测定参考曲线表示的参考听觉体验。

参看图12，提供一种用于实现音频变换过程以获得主观保真度的示范性设备1200，其可被配置成音频播放器或音频播放器与服务器的组合。

如所说明，在一个实施方案中，设备1200可包括用于接收听力测定参考曲线的电组件或构件1202。举例来说，电组件或构件1202可包括耦接到存储器组件1216的至少一个控制处理器1210。控制处理器可运算可作为程序指令保持在存储器组件中的算法。算法可包括(例如)将从音频元数据获得的曲线识别符提供到服务器，以及作为响应接收来自服务器的曲线数据。

设备1200还可包括用于接收听力测定听众曲线的电组件或模块1204。举例来说，电组件或构件1204可包括耦接到存储器组件1216的至少一个控制处理器1210。控制处理器可运算可作为程序指令保持在存储器组件中的算法。算法可包括(例如)从本地存储器获得用户识别符，以及基于用户识别符从本地数据表检索存储的听众曲线。在替代方案中，算法可包括将用户识别符提供到服务器，以及响应于提供用户识别符接收来自服务器的听众曲线。

设备1200还可包括用于接收经编码的输入音频信号的电组件或模块1206。举例来说，电组件或构件1206可包括耦接到存储器组件1216的至少一个控制处理器1210。控制处理器可运算可作为程序指令保持在存储器组件中的算法。算法可包括(例如)读取来自计算机可读介质的经编码的音频文件，从服务器下载文件，或接收来自服务器的流式传输的音频文件。

设备1200还可包括用于基于参考曲线与听众曲线之间的差异，将输入音频信号变换为输出音频信号，使得输出音频信号补偿所述差异的电组件或模块1208。举例来说，电组件或构件1208可包括耦接到存储器组件1216的至少一个控制处理器1210。控制处理器可运算可作为程序指令保持在存储器组件中的算法。算法可包括(例如)在差异指示第一人比第二人对声音更敏感的情况下加强一个或多个频率下的输入信号，且在差异指示第一人比第二人对声音更不敏感的情况下衰减一个或多个频率下的输入信号。在替代方案中，或另外，算法可包括与在参考和听众曲线的对应的一个或多个时间处的差异成比例地更改输入音频信号的一个或多个时间处的音频信号的相位。

设备1200可包括用于执行结合图8-11描述的额外操作800-1100中的任一者或全部的类似的电组件，其为了说明的简单起见在图12中未图示。

在相关方面，设备1200可可选地包括具有至少一个处理器的处理器组件1210。处理器1210可经由总线1212或类似的通信耦接与组件1202-1208或类似组件进行操作通信。处理器1210可实现由电组件1202-1208执行的过程或功能的起始和调度。

在进一步相关方面，设备1200可包括实现客户端与服务器之间的通信的网络接口组件1214。设备1200可可选地包括用于存储信息的组件，例如存储器装置/组件1216。计算机可读介质或存储器组件1216可经由总线1212等等操作地耦接到设备1200的其它组件。存储器组件1216可适合于存储用于实现组件1202-1208以及其子组件，或处理器1210的过程和行为或本文中公开的方法的计算机可读指令和数据。存储器组件1216可保留用于执行与组件1202-1208相关联的功能的指令。尽管展示为在存储器1216外部，但应理解，组件1202-1208可存在于存储器1216内。

应理解，公开的过程中的步骤的特定次序或层级仅仅是实施例。基于设计偏好，应理解过程中的步骤的特定次序或层级可重新排列而同时保持在本公开的范围内。所附方法权利要求书按样本次序呈现各种步骤的元件，且不意味着限于所呈现的特定次序或层级。

本领域技术人员将理解，信息和信号可使用多种不同技术和技艺中的任一者表示。举例来说，可在以上描述全文中提到的数据、指令、命令、信息、信号、位、符号和芯片可由电压、电流、电磁波、磁场或磁粒子、光场或光粒子，或其任何组合表示。

技术人员将进一步了解，结合本文中公开的实施方案描述的各种说明性逻辑块、模块、电路和算法步骤可实现为电子硬件、计算机软件，或两者的组合。为了清楚地说明硬件与软件的此可互换性，上文已大体上在其功能性方面描述了各种说明性组件、块、模块、电路和步骤。此功能性是实现为硬件还是软件取决于特定应用和施加在整体系统上的设计约束。本领域技术人员可针对每一特定应用以不同的方式实现所描述的功能性，但此实现决定不应理解为导致脱离本公开的范围。

结合本文中公开的实施方案描述的各种说明性逻辑块、模块和电路可借助经设计以执行本文中描述的功能的通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它可编程逻辑装置、离散门或晶体管逻辑、离散硬件组件，或其任何组合来实现或执行。通用处理器可以是微处理器，但在替代方案中，处理器可以是任何常规处理器、控制器、微控制器或状态机。处理器还可实现为计算装置的组合，例如，DSP与微处理器、多个微处理器、一个或多个微处理器结合DSP内核、片上系统(SOC)或任何其它此配置的组合。

提供公开的实施方案的先前描述以使本领域技术人员能够制作或使用本公开。对这些实施方案的各种修改将对本领域技术人员显而易见，且本文中定义的一般原理可适用于其它实施方案而不脱离本公开的精神或范围。因此，本公开不希望限于本文中展示的实施方案，而应被赋予与本文中公开的原理和新颖特征一致的最广范围。

Claims

1.一种用于处理音频信号的方法，所述方法包括：

基于第一人的听力测定测试结果，接收听力测定参考曲线；

向听众提供指示：第一人是包括音乐或视频内容的音轨中至少一者的录音的编辑者；

基于不同于所述第一人的听众的听力测定测试结果，或者基于听众群组的听力测定测试结果的集合，接收听力测定听众曲线；

将由通过提供所述指示而被指示为已由所述第一人编辑过的所述录音生成的经编码的输入音频信号提供到信号处理器；以及

基于所述参考曲线与所述听众曲线之间的差异使用所述信号处理器将所述输入音频信号变换为输出音频信号，使得所述输出音频信号补偿所述差异，并使听众能与录音的编辑者更像地感知所述音乐或音轨中的至少一者。

2.如权利要求1所述的方法，其中变换所述输入音频信号包括与在所述参考和听众曲线的对应的一个或多个频率下的所述差异成比例地更改所述输入音频信号的一个或多个频率。

3.如权利要求1所述的方法，其还包括基于所述第一人的所述听力测定测试结果产生所述听力测定参考曲线。

4.如权利要求3所述的方法，其还包括基于所述听众的所述听力测定测试结果，或者基于所述听众群组的听力测定测试结果的集合，产生所述听力测定听众曲线。

5.如权利要求1所述的方法，其中所述变换还包括通过在所述差异指示所述第一人比所述听众或者所述听众群组对声音更敏感的情况下加强一个或多个频率下的所述输入信号，且在所述差异指示所述第一人比所述听众或者所述听众群组对声音更不敏感的情况下衰减一个或多个频率下的所述输入信号来产生所述输出信号。

6.如权利要求5所述的方法，其中加强所述输入信号包括增大所述信号在音频频谱的定义的频带部分上方的振幅。

7.如权利要求1所述的方法，其还包括基于一般人群的样本的听力测定数据产生所述听力测定听众曲线，使得所述听力测定听众曲线表示所述听众群组的集合测量。

8.如权利要求1所述的方法，其中变换所述输入音频信号包括与在所述参考和听众曲线的对应的一个或多个时间处的所述差异成比例地更改所述输入音频信号的一个或多个时间处的所述音频信号的相位。

9.如权利要求8所述的方法，其中更改所述相位是针对所述音频信号的定义的子频带执行以改变由所述音频信号编码的声音发生的时间。

10.一种用于处理音频信号的设备，其包括至少一个处理器，所述至少一个处理器被配置来用于：

基于第一人的听力测定测试结果，接收听力测定参考曲线；

接收由通过提供所述指示而被指示为已由所述第一人编辑过的所述录音生成的经编码的输入音频信号；

基于所述参考曲线与所述听众曲线之间的差异将所述输入音频信号变换为输出音频信号，使得所述输出音频信号补偿所述差异，并使听众能与录音的编辑者更像地感知所述音乐或音轨中的至少一者；以及

存储器，其耦接到所述至少一个处理器以用于存储数据。

11.如权利要求10所述的设备，其中所述处理器还被配置来用于通过与在所述参考和听众曲线的对应的一个或多个频率下的所述差异成比例地更改所述输入音频信号的一个或多个频率来变换所述输入音频信号。

12.如权利要求10所述的设备，其中所述处理器还被配置来用于基于所述第一人的所述听力测定测试结果产生所述听力测定参考曲线。

13.如权利要求12所述的设备，其中所述处理器还被配置来用于基于所述听众的所述听力测定测试结果，或者基于所述听众群组的听力测定测试结果的集合，产生所述听力测定听众曲线。

14.如权利要求10所述的设备，其中所述处理器还被配置来用于通过在所述差异指示所述第一人比所述听众或者所述听众群组对声音更敏感的情况下加强一个或多个频率下的所述输入信号，且在所述差异指示所述第一人比所述听众或者所述听众群组对声音更不敏感的情况下衰减一个或多个频率下的所述输入信号来将所述输入音频信号变换为所述输出信号。

15.如权利要求14所述的设备，其中所述处理器还被配置来用于通过增大所述信号在音频频谱的定义的频带部分上方的振幅来加强所述输入信号。

16.如权利要求10所述的设备，其中所述处理器还被配置来用于为听众播放所述输出音频信号，借此对于从所述输出音频信号产生的声音，所述听众的第二听觉体验变得更像所述第一人的第一听觉体验。

17.如权利要求10所述的设备，其中所述处理器还被配置来用于基于一般人群的样本的听力测定数据产生所述听力测定听众曲线，使得所述听力测定听众曲线表示所述听众群组的集合测量。

18.如权利要求10所述的设备，其中所述处理器还被配置来用于通过与在所述参考和听众曲线的对应的一个或多个时间处的所述差异成比例地更改所述输入音频信号的一个或多个时间处的所述音频信号的相位来变换所述输入音频信号。

19.如权利要求18所述的设备，其中所述处理器还被配置来用于更改所述音频信号的定义的子频带的所述相位以改变由所述音频信号编码的声音发生的时间。

20.一种包括经编码的指令的非暂时性计算机可读介质，所述经编码的指令在由处理器执行时使信号处理装置执行以下操作：

基于第一人的听力测定测试结果，接收听力测定参考曲线；

接收由通过提供所述指示而被指示为已由所述第一人编辑过的由所述录音生成的经编码的输入音频信号；以及

基于所述参考曲线与所述听众曲线之间的差异将所述输入音频信号变换为输出音频信号，使得所述输出音频信号补偿所述差异，并使听众能与录音的编辑者更像地感知所述音乐或音轨中的至少一者。