CN114424583A

CN114424583A - 混合近场/远场扬声器虚拟化

Info

Publication number: CN114424583A
Application number: CN202080066788.XA
Authority: CN
Inventors: N·R·茨恩高斯; S·S·帕基; V·普特汉维德; P·A·C·克拉姆; J·R·贝克; I·E·埃斯特纳; S·戴勒; D·P·达西
Original assignee: Dolby Laboratories Licensing Corp
Current assignee: Dolby Laboratories Licensing Corp
Priority date: 2019-09-23
Filing date: 2020-09-22
Publication date: 2022-04-29
Also published as: JP2022548400A; WO2021061680A2; EP4035418A2; WO2021061680A3; US20220345845A1

Abstract

公开了用于混合近场/远场扬声器虚拟化的实施例。在实施例中，一种方法包括：接收包括基于声道的音频或音频对象的源信号；基于源信号和混合模式生成近场增益和远场增益；至少部分地基于源信号和远场增益生成远场信号；使用扬声器虚拟器渲染远场信号以通过远场扬声器将远场声学音频回放到音频再现环境中；至少部分地基于源信号和近场增益生成近场信号；在将远场信号提供给远场扬声器之前，向近场回放设备或耦合到近场回放设备的中间设备发送近场信号；将远场信号提供给远场扬声器；以及将近场信号提供给近场扬声器以同步地叠加远场声学音频。

Description

混合近场/远场扬声器虚拟化

相关申请的交叉引用

本申请要求2019年9月23日提交的美国临时申请No.62/903,975；2019年9月23日提交的美国临时申请No.62/904,027；以及2020年9月11日提交的美国临时申请No.63/077,517的优先权，这些美国临时申请中的每一个通过引用整体并入本文。

技术领域

本公开总体上涉及音频信号处理。

背景技术

典型的电影声轨包括许多不同的声音元素，这些声音元素对应于屏幕上、屏幕外、看不见和隐含的元素和图像、对话、噪声和声音效果，其源自不同的屏幕上元素并且与背景音乐和环境效果组合以创建总体听众体验。创建者和制作者的艺术意图代表他们的使这些声音以关于声源位置、强度、移动和其它类似参数尽可能紧密地对应于屏幕上示出的内容的方式再现的期望。

传统的基于声道的音频系统以扬声器馈送的形式将音频内容发送到回放环境中的各个扬声器，诸如立体声和5.1系统。为了进一步改善收听者体验，一些家庭影院系统采用基于对象的音频以利用音频对象提供声音的三维(3D)空间呈现，这些音频对象是具有表观源位置(例如，3D坐标)、表观源宽度和其它参数的相关联的参数源描述的音频信号。

家庭影院系统通常包括比电影院少的扬声器，因此不太能够根据创建者的艺术意图再现3D声音。实际上，所有听音环境中的缺点是它们是听音环境的周边，因此拥有创建离收听者近或远的深刻感觉的有限能力。扬声器虚拟化算法通常用于家庭影院系统中以在不存在物理扬声器的回放环境中的各个位置处再现声音。然而，一些3D声音仅使用作为在家庭影院系统中找到的最常见的扬声器布局的立体声扬声器或甚至5.1环绕系统无法被再现。

发明内容

公开了用于混合近场/远场扬声器虚拟化的实施例。在实施例中，一种方法包括：使用媒体源设备接收包括基于声道的音频或音频对象中的至少一个的源信号；使用所述媒体源设备基于所述源信号和混合模式生成一个或多个近场增益和一个或多个远场增益；使用所述媒体源设备至少部分地基于所述源信号和所述一个或多个远场增益生成远场信号；使用扬声器虚拟器渲染所述远场信号以通过远场扬声器将远场声学音频回放到音频再现环境中；使用所述媒体源设备至少部分地基于所述源信号和所述一个或多个近场增益生成近场信号；在将所述远场信号提供给所述远场扬声器之前，向近场回放设备或耦合到所述近场回放设备的中间设备发送所述近场信号；以及将所述远场信号提供给所述远场扬声器。

在实施例中，所述方法进一步包括：将所述源信号滤波成低频信号和高频信号；生成一组两个近场增益，包括近场低频增益和近场高频增益；生成一组两个远场增益，包括远场低频增益和远场高频增益；基于所述低频信号和所述高频信号的加权的线性组合生成所述近场信号，其中所述低频信号通过所述近场低频增益加权，并且所述高频信号通过所述近场高频增益加权；以及基于所述低频信号和所述高频信号的加权的线性组合生成所述远场信号，其中所述低频信号通过所述远场低频增益加权，并且所述高频信号通过所述远场高频增益加权。

在实施例中，所述混合模式至少部分地基于所述音频再现环境中的所述远场扬声器的布局以及所述远场扬声器或耦合到所述近场回放设备的近场扬声器的一个或多个特性。

在实施例中，所述混合模式为环绕声渲染，并且所述方法进一步包括：设置所述一个或多个近场增益和所述一个或多个远场增益以在所述近场信号中包括所有的环绕基于声道的音频或环绕音频对象和在所述远场信号中包括所有的前部基于声道的音频或前部音频对象。

在实施例中，所述方法进一步包括：基于近场和远场扬声器特性确定所述远场扬声器比所述近场扬声器更能够再现低频；以及设置所述一个或多个近场增益和所述一个或多个远场增益以在所述远场信号中包括所有的低频基于声道的音频或低频音频对象。

在实施例中，所述方法进一步包括：确定所述源信号包括距离效果；以及将所述一个或多个近场增益和所述一个或多个远场增益设置为所述音频再现环境中的指定位置与所述远场扬声器之间的规范化距离的函数。

在实施例中，所述方法进一步包括：确定所述源信号包括用于增强所述源信号中的特定类型的音频内容的基于声道的音频或音频对象；以及设置所述一个或多个近场增益和所述一个或多个远场增益以将用于增强所述特定类型的音频内容的所述基于声道的音频或音频对象包括到所述近场信号中。

在实施例中，所述特定类型的音频内容为对话内容。

在实施例中，所述源信号与包括所述一个或多个近场增益和所述一个或多个远场增益的元数据一起被接收。

在实施例中，所述元数据包括指示所述源信号可以用于使用远场和近场扬声器进行混合扬声器虚拟化的数据。

在实施例中，所述近场信号或渲染的近场信号以及渲染的远场信号包括用于辅助近场声学音频与远场声学音频的同步叠加的听不见的标记信号。

在实施例中，所述方法进一步包括：获得所述音频再现环境中的用户的头部姿势信息；以及使用所述头部姿势信息渲染所述近场信号。

在实施例中，对渲染的近场信号应用均衡以补偿近场扬声器的频率响应。

在实施例中，所述近场信号或渲染的近场信号通过无线信道被提供给所述近场回放设备。

在实施例中，将所述近场信号或渲染的近场信号提供给所述近场回放设备进一步包括：使用所述媒体源设备向耦合到所述近场回放设备的中间设备发送所述近场信号或渲染的近场信号。

在实施例中，对渲染的远场信号应用均衡以补偿近场扬声器的频率响应。

在实施例中，与所述近场信号或渲染的近场信号相关联的时间戳由所述媒体源设备提供给所述近场回放设备或中间设备以辅助近场声学音频与远场声学音频的同步叠加。

在实施例中，至少部分地基于所述源信号和所述一个或多个远场增益生成所述远场信号和所述近场信号进一步包括：将所述源信号存储在所述媒体源设备的缓冲器中；检索存储在所述缓冲器中的第一位置处的所述源信号的第一组帧，其中所述第一位置与第一时间对应；使用所述媒体源设备至少部分地基于所述第一组帧和所述一个或多个远场增益生成所述远场信号；检索存储在所述缓冲器中的第二位置处的所述源信号的第二组帧，其中所述第二位置与早于所述第一时间的第二时间对应；以及使用所述媒体源设备至少部分地基于所述第二组帧和所述一个或多个近场增益生成所述近场信号。

在实施例中，一种方法包括：接收由音频再现环境中的媒体源设备传输的近场信号，所述近场信号包括用于通过近场扬声器投射的低频和高频基于声道的音频或音频对象的加权的线性组合，所述近场扬声器邻近或插入位于所述音频再现环境中的用户的耳朵；使用一个或多个处理器将所述近场信号转换成数字近场数据；使用所述一个或多个处理器缓冲所述数字近场数据；使用一个或多个麦克风捕获由远场扬声器投射的远场声学音频；使用所述一个或多个处理器将所述远场声学音频转换成数字远场数据；使用所述一个或多个处理器缓冲所述数字远场数据；使用所述一个或多个处理器和缓冲器内容确定时间偏移；使用所述一个或多个处理器将设置的本地时间偏移添加到所述时间偏移以产生总时间偏移；以及使用所述一个或多个处理器使用所述总时间偏移发起通过所述近场扬声器回放所述近场数据，使得由所述近场扬声器投射的近场声学数据与所述远场声学音频同步地叠加。

在实施例中，一种方法包括：使用媒体源设备接收包括基于声道的音频或音频对象中的至少一个的源信号；使用所述媒体源设备至少部分地基于所述源信号生成远场信号；使用所述媒体源设备渲染所述远场信号以通过远场扬声器将远场声学音频回放到音频再现环境中；使用所述媒体源设备至少部分地基于所述源信号生成一个或多个近场信号；在将所述远场信号提供给所述远场扬声器之前，向近场回放设备或耦合到所述近场回放设备的中间设备发送所述近场信号；以及将渲染的远场信号提供给所述远场扬声器以投射到所述音频再现环境中。

在实施例中，所述近场信号包括增强的对话。

在实施例中，存在发送到所述近场回放设备或所述中间设备的至少两个近场信号，并且其中第一近场信号被渲染成近场声学音频以通过所述近场回放设备的近场扬声器回放，并且第二近场信号用于辅助所述远场声学音频与所述第一近场信号同步。

在实施例中，存在发送到所述近场回放设备的至少两个近场信号，并且第一近场信号包括第一语言的对话内容，并且第二近场信号包括与所述第一语言不同的第二语言的对话内容。

在实施例中，所述近场信号和所述渲染的远场信号包括用于辅助近场声学音频与远场声学音频的同步叠加的听不见的标记信号。

在实施例中，所述方法进一步包括：使用无线接收器接收由音频再现环境中的媒体源设备传输的近场信号；使用一个或多个处理器将所述近场信号转换成数字近场数据；使用所述一个或多个处理器缓冲所述数字近场数据；使用一个或多个麦克风捕获由远场扬声器投射的远场声学音频；使用所述一个或多个处理器将所述远场声学音频转换成数字远场数据；使用所述一个或多个处理器缓冲所述数字远场数据；使用所述一个或多个处理器和缓冲器内容确定时间偏移；使用所述一个或多个处理器将设置的本地时间偏移添加到所述时间偏移以产生总时间偏移；以及使用所述一个或多个处理器使用所述总时间偏移发起通过近场扬声器回放所述近场数据，使得由所述近场扬声器投射的近场声学数据与所述远场声学音频同步地叠加。

在实施例中，所述方法进一步包括：使用所述近场回放设备的一个或多个麦克风从所述音频再现环境捕获目标声音；使用所述一个或多个处理器将捕获的目标声音转换成数字数据；使用所述一个或多个处理器通过使用逼近电声传递函数的滤波器对所述数字数据进行反转来生成反声；以及使用所述一个或多个处理器使用所述反声消除所述目标声音。

在实施例中，所述远场声学音频包括作为所述目标声音的第一语言的第一对话，并且消除的第一对话被利用与所述第一语言不同的第二语言的第二对话替换，其中第二语言对话被包括在辅助近场信号中。

在实施例中，所述远场声学音频包括作为所述目标声音的第一评论，并且消除的第一评论被利用与所述第一评论不同的第二评论替换，其中所述第二评论被包括在辅助近场信号中。

在实施例中，所述远场声学音频是通过所述反声消除以使所述远场声学音频静音的所述目标声音。

在实施例中，一个或多个音频对象的电影院渲染和近场回放设备渲染之间的差异被包括在所述近场信号中并且用于渲染近场声学音频，使得包括在所述电影院渲染中但不包括在所述近场回放设备渲染中的所述一个或多个音频对象被排除在所述近场声学音频的渲染之外。

在实施例中，加权作为所述音频再现环境中的对象到收听者的距离的函数被应用，使得意图被听到靠近收听者的一个或多个特定的声音仅在所述近场信号中传送，并且所述近场信号用于消除所述远场声学音频中的相同特定的一个或多个声音。

在实施例中，所述近场信号通过收听者的头部相关传递函数(HRTF)修改以提供增强的空间性。

在实施例中，一种装置包括：一个或多个处理器；以及存储器，所述存储器存储指令，所述指令在由所述一个或多个处理器执行时使所述一个或多个处理器执行前面描述的方法中的任何一个。

在实施例中，一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质已在其上存储指令，所述指令在由一个或多个处理器执行时使所述一个或多个处理器执行前面描述的方法中的任何一个。

本文公开的特定实施例提供以下优点中的一个或多个。包含近场和远场扬声器虚拟化的音频回放系统通过添加在渲染音频以仅使用远场扬声器回放时缺失、不完整或难以察觉的高度、深度或其它空间信息来增强用户的收听体验。

附图说明

在下面参考的附图中，各种实施例以框图、流程图和其它图图示。流程图或框图中的每个框可以表示模块、程序或代码的一部分，其包含用于执行指定的逻辑功能的一个或多个可执行指令。尽管这些框以用于执行方法的步骤的特定顺序图示，但是它们可以不必严格地根据所示的顺序执行。例如，它们可能以相反的顺序或同时执行，这取决于各个操作的性质。还应当注意的是，框图和/或流程图中的每个框及其组合可以由用于执行指定的功能/操作的专用的基于软件或基于硬件的系统或由专用硬件和计算机指令的组合来实现。

图1图示了根据实施例的包括混合近场/远场扬声器虚拟化以增强音频的音频再现环境。

图2是根据实施例的用于混合近场/远场扬声器虚拟化以增强音频的处理流水线的流程图。

图3示出了根据实施例的包括近场信号的提前传输的近场信号的无线传输的时间线。

图4A是根据实施例的用于确定总时间偏移以使近场声学音频的回放与远场声学音频同步的处理流水线的框图。

图4B是根据实施例的用于使近场声学音频的回放与远场声学音频同步的处理流水线的框图。

图5是根据实施例的混合近场/远场扬声器虚拟化以增强音频的过程的流程图。

图6是根据实施例的使近场声学音频的回放与远场声学音频同步的过程的流程图。

图7是根据实施例的使近场声学音频的回放与远场声学音频同步的替代过程的流程图。

图8是根据实施例的使近场声学音频的回放与远场声学音频同步的另一个替代过程的流程图。

图9是根据实施例的用于实现参考图1-6描述的特征和过程的媒体源设备架构的框图。

图10是根据实施例的用于实现参考图1-6描述的特征和过程的近场回放设备架构的框图。

在各种附图中使用的相同的参考符号指示同样的元素。

具体实施方式

命名和定义

出于描述这个公开内容的一些创新方面的目的，以下描述针对某些实现，以及可以实现这些创新方面的背景的示例。然而，本文的教导可以以各种不同的方式应用。此外，描述的实施例可以在各种各样的硬件、软件、固件等中实现。例如，本申请的各方面可以至少部分地在装置、包括多于一个设备的系统、方法、计算机程序产品等中实施。

相应地，公开的实施例的各方面可以采取硬件、软件(包括固件、驻留软件、微代码等)和/或软件和硬件的组合的形式。公开的实施例在本文中可以被称为“电路”、“模块”或“引擎”。公开的实施例的一些方面可以采取在一个或多个非暂态介质中实施的计算机程序产品的形式，所述一个或多个非暂态介质具有在其上实施的计算机可读程序代码。这样的非暂态介质例如可以包括硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪存)、便携式紧凑盘只读存储器(CD-ROM)、光存储设备、磁存储设备、或前述的任何合适的组合。相应地，本公开的教导不意图限于附图中所示和/或本文所描述的实现，而是具有广泛的可应用性。

如本文所使用的，以下术语具有以下相关联的含义：

术语“声道”意指音频信号加上元数据，其中位置被编码为声道标识符(例如，左前或右上环绕)。

术语“基于声道的音频”是被格式化以通过具有相关联的标称位置的预定义的一组扬声器区回放的音频(例如，5.1、7.1、9.1等)。

术语“音频对象”或“基于对象的音频”意指具有参数源描述(诸如表观源位置(例如，3D坐标)、表观源宽度等)的一个或多个音频信号。

术语“音频再现环境”意指任何开放、部分封闭或完全封闭的区域，诸如可以单独回放音频内容或者与视频或其它内容一起回放音频内容、并且可以实施在家庭、电影院、剧院、礼堂、演播室、游戏控制台等中的房间。

术语“渲染”意指将音频对象位置数据映射到特定声道。

术语“双耳”渲染是将左/右(L/R)双耳信号递送到L/R耳朵。双耳渲染可以使用通用或个性化的头部相关变换函数(HRTF)、HRTF的各方面，诸如耳间水平和时间差，以增强空间感。

术语“媒体源设备”是回放包括在比特流中或存储在介质(例如，Ultra-HD或

DVD)上的媒体内容(例如，音频、视频)的任何设备，包括但不限于：电视系统、机顶盒、数字媒体接收器、环绕声系统、便携式计算机、平板计算机等。

术语“远场扬声器”是有线或无线连接到媒体源设备的任何扬声器，位于音频再现环境中的固定物理位置，并且不位于邻近收听者的耳朵或插入收听者的耳朵中，其包括但不限于：立体声扬声器、环绕扬声器、低频增强(LFE)设备、条形音箱等。

术语“近场扬声器”是嵌入或耦合到近场回放设备的任何扬声器，并且位于邻近收听者的耳朵或插入收听者的耳朵中。

术语“近场回放设备”是包括或耦合到近场扬声器的任何设备，包括但不限于：耳机、耳塞、耳麦、听筒、智能眼镜、游戏控制器/设备、增强现实(AR)、虚拟现实(VR)头盔、助听器、骨传导设备、或邻近用户的耳朵提供声音的任何其它部件。近场回放设备可以是两个设备，诸如一对真正的无线耳塞。替代地，近场回放设备可以是用于在两个耳朵处使用的单个设备，诸如具有两个耳杯的一对耳机。近场回放设备也可以被设计用于仅在单个耳朵处使用。

在实施例中，近场回放设备包含用于捕获可以包括远场声学音频的用户附近的声音的至少一个麦克风。对于每个耳朵可以存在一个麦克风。麦克风可以位于中心点(诸如在头顶的耳机带上)，或者位于来自每个耳朵的导线会聚的中心点处。可以存在多个麦克风，例如每个耳朵中或附近一个。

在实施例中，近场回放设备可以包含用于对麦克风和其它音频数据执行信号处理的常规元件，包括模数转换器(ADC)、中央处理单元(CPU)、数字信号处理器(DSP)和存储器。近场回放设备可以包含用于回放音频的常规元件，诸如数模转换器(DAC)和放大器。

在实施例中，近场回放设备包含至少一个近场扬声器，并且理想地一个近场扬声器邻近每个耳朵。近场扬声器可以包括平衡电枢、传统动态驱动器或骨传导换能器。

在实施例中，近场回放设备包含到媒体源系统装备或中间设备(例如，个人移动设备)的链路，用于接收近场信号。链路可以是射频(RF)链路，诸如WiFi、蓝牙或蓝牙低功耗(BLE)，或者链路可以是导线。在实施例中，近场信号以其中许多是众所周知的格式(诸如模拟信号或数字编码信号)通过链路传输。可以使用编解码器(诸如Opus、AAC或G.772)对数字编码信号进行编码，以减少所需的数据带宽。

在实施例中，近场回放设备可以进行包含远场声学音频(下面定义)的环境音频的麦克风测量，同时还经由链路接收近场信号。使用信号处理(下面讨论)，近场回放设备可以确定远场声学音频和近场声学音频(下面定义)之间的时间偏移。时间偏移然后用于从近场扬声器播放出与由远场扬声器投射到音频再现环境中的远场声学音频同步地叠加的近场声学音频。

术语“中间设备”是耦合在媒体源设备和近场回放设备之间的设备，并且被配置为处理和/或渲染从媒体源设备接收的音频信号，以及将处理/渲染的音频信号通过有线或无线连接发送到近场回放设备。

在实施例中，中间设备是个人移动设备，诸如智能电话，并且通常包含比可以装配到近场回放设备中大的电池和高的计算能力。个人设备因此可以方便与近场回放设备结合使用，以减少近场回放设备所需的电力，从而延长它的电池寿命。为此，近场回放设备中的组件中的一些可以优先位于个人移动设备中。

例如，如果近场回放设备和个人移动设备之间的链路是导线，那么耳朵设备可能不需要ADC、CPU或DSP、DAC或放大器，因为麦克风信号和扬声器信号可以完全在个人移动设备内被测量、处理或生成并且沿着导线发送。在这种情况下，近场回放设备可以类似于具有麦克风的耳机。在简单的耳机没有麦克风的情况下，可以利用个人移动设备上的麦克风测量远场声学音频。然而，这不是理想的，因为用户经常将移动设备放置在远场声学音频将被消声的口袋或包中。

如果近场回放设备和个人移动设备之间的通信链路是无线的，那么近场回放设备可以包含用于信号测量、处理和生成的组件。取决于计算与经由链路的通信的相对功率效率，将所有信号处理保留在耳朵设备内或将测量持续地卸载到个人移动设备以进行处理可能功率更高效。整个系统具有执行信号处理的计算能力，但是这个能力可以跨组件分布。

在实施例中，个人移动设备可以经由相对高能量消耗的RF协议从娱乐装备接收近场信号，并且通过相对低能量消耗的协议将它再传输到近场回放设备。高能量协议的一些示例包括蜂窝无线电和WiFi。相对低能量协议的一些示例包括蓝牙和蓝牙低功耗(BLE)。如果近场回放设备是有线耳机，那么个人移动设备可以经由RF协议从娱乐装备接收辅助流，并且通过导线将它传输到近场回放设备。

在实施例中，个人移动设备可以提供用于图形用户接口(GUI)的控件或屏幕。

在实施例中，个人移动设备可以是用于近场回放设备的充电携带箱。

术语“源信号”包括音频内容或者音频和其它内容(例如，音频加上视频)的比特流，其中音频内容可以包括音频样本和相关联的元数据的帧，其中每个音频样本与声道(例如，左、右、中央、环绕)或音频对象相关联。音频内容可以包括例如音乐、对话和声音效果。

术语“远场声学音频”意指从远场扬声器投射到音频再现环境中的音频。

术语“近场声学音频”意指从近场扬声器投射到用户的耳朵(例如，耳塞)中或邻近用户的耳朵(例如，耳机)的音频。

概述

下面的详细描述针对用于增强音频的混合近场/远场扬声器虚拟化。在实施例中，位于音频再现环境中的媒体源设备接收时域源信号，该时域源信号包括基于声道的音频、基于对象的音频或基于声道的音频和基于对象的音频的组合。媒体源设备中的交叉滤波器将源信号滤波成低频时域信号和高频时域信号。生成近场信号和远场信号，这些近场信号和远场信号是低频时域信号和高频时域信号的加权的线性组合，其中低频和高频时域信号对近场和远场信号的贡献分别由一组近场增益和一组远场增益确定。在实施例中，增益由考虑远场扬声器布局以及远场扬声器和近场扬声器的特性的混合算法生成。

近场和远场信号分别被路由到近场和远场音频处理流水线，其中信号被渲染成近场和远场信号，这些近场和远场信号可选地接收后处理加工，诸如均衡或压缩。在实施例中，低频内容(例如，<40Hz)由交叉滤波器滤波并且直接发送到LFE设备，绕过近场和远场信号处理流水线。

在应用任何后处理加工之后，渲染的远场信号被馈送到远场扬声器馈送端，这导致将远场声学音频投射到音频再现环境中。在投射远场声学音频之前，并且在应用任何后处理加工之后，渲染的近场信号被馈送到无线传输器以无线传输到近场回放设备用于通过近场扬声器回放。近场扬声器投射与远场声学音频重叠并且同步的近场声学音频。

在实施例中，渲染的近场信号由中间设备通过第一无线通信链路(例如，WiFi或蓝牙通信链路)接收，并且在通过第二无线通信信道(例如，蓝牙信道)传输到近场回放设备之前被进一步处理。在实施例中，近场信号由近场回放设备或由中间设备而不是由媒体源设备渲染。

在实施例中，用于远场声学音频和近场声学音频的同步的总时间偏移在近场回放设备或中间设备处计算。例如，远场声学音频的多个样本可以由中间设备或近场回放设备的一个或多个麦克风捕获并且存储在近场回放设备或中间设备的第一缓冲器中。同样，通过无线链路接收的渲染(或未渲染)的近场信号的多个样本可以存储在近场回放设备或中间设备的第二缓冲器中。第一和第二缓冲器内容然后被相关以确定两个信号之间的时间偏移。

在实施例中，计算本地时间偏移，该本地时间偏移考虑了近场回放设备和/或中间设备处的本地信号处理、以及通过无线通信信道从中间设备向近场回放设备发送音频所需的时间。本地时间偏移被添加到从相关所得到的时间偏移以确定总时间偏移。总时间偏移然后用于使近场声学音频与远场声学音频同步，以回放基本上没有伪像的增强的音频。

示例音频再现环境

图1图示了根据实施例的包括混合近场/远场扬声器虚拟化以增强音频的音频再现环境100。音频再现环境100包括媒体源设备101、远场扬声器102、LFE设备108、中间设备110和近场回放设备105。一个或多个麦克风107附接到或嵌入在近场回放设备105和/或中间设备110中。无线收发器106被示为附接到或嵌入在近场回放设备105中，并且无线收发器103、109被示为分别附接到或嵌入在远场扬声器102(或替代地媒体源设备101)和LFE设备108中。无线收发器(未示出)嵌入在中间设备110中。

应当理解的是，音频再现环境100仅是用于混合近远场扬声器虚拟化的一个示例环境，并且其它音频再现环境也适用于公开的实施例，包括但不限于具有更多或更少的扬声器、不同类型的扬声器或扬声器阵列、更多或更少的麦克风和更多或更少(或不同)的近场回放设备或中间设备的环境。例如，音频再现环境100可以是具有多个玩家的游戏环境，每个玩家具有他们自己的近场回放设备。

在图1中，用户104正在观看和收听分别通过媒体源设备101(例如，电视机)和远场扬声器102(例如，条形音箱)播放的媒体内容(例如，电影)。媒体内容包含在源信号的帧中，这些帧包括通道和音频对象的组合。在实施例中，可以在通过WiFi连接耦合到数字媒体接收器(未示出)的广域网(例如，因特网)上提供源信号。数字媒体接收器(DMR)使用例如HDMI端口和/或光学链路耦合到媒体源设备101。在另一个实施例中，可以通过同轴电缆将源信号接收到电视机顶盒中和媒体源设备101中。在又一个实施例中，源信号从通过天线或卫星接受器接收的广播信号提取。在其它实施例中，媒体播放器提供源信号，该源信号从存储介质(例如，Ultra-HD、

或DVD盘)检索并且提供给媒体源设备101。

在源信号的回放期间，远场扬声器102将远场声学音频投射到音频再现环境100中。此外，源信号中的低频内容(例如，次低音频率内容)被提供给LFE设备108，该LFE设备108在这个示例中使用例如蓝牙配对协议与远场扬声器102“配对”。无线传输器103将具有低频内容(例如，次低音频率内容)的射频(RF)信号传输到音频再现环境100中，在该音频再现环境100中，它被附接到或嵌入在LFE设备108中的无线接收器109接收，并且由LFE设备108投射到音频再现环境100中。

对于某些媒体内容，描述的示例音频再现环境100可能做出处置某些类型的音频内容的差的工作。例如，某些声音效果可能被编码为天花板对象，这些天花板对象在异我中心或自我中心的参考系中位于用户104上方。远场扬声器102，诸如图1中所示的条形音箱，可能不能够如内容创建者所意图的那样渲染这些天花板对象。对于这样的内容，近场回放设备105可以用于根据内容创建者的意图回放双耳渲染的近场信号。例如，为了更好的结果，可以渲染直升机飞过头顶的声音效果以在近场回放设备105的立体声近场扬声器而不是远场扬声器102上回放。

存在在音频再现环境100中出现的几个问题。如下面参考图3所描述的，声学传播时间、无线传输时间和信号处理时间的合计可以导致远场声学音频和近场声学音频不同步。参考图4A和4B描述了对这个问题的解决方案。

与音频再现环境100相关联的另一个问题是近场扬声器由于其构造(例如，后封闭式耳机)或频率响应(例如，低频响应差)而遮蔽耳朵。通过使用低遮蔽耳塞或其它后开放式耳机可以减少遮蔽。可以使用均衡(EQ)来补偿近场扬声器的频率响应。例如，在将信号发送到近场扬声器馈送端之前，可以将平均或校准的EQ曲线(例如，作为近场扬声器的自然频率响应曲线的反转或镜像的EQ曲线)应用到渲染的近场扬声器输入信号。

在存在单个用户的实施例中，近场回放设备105通过无线收发器103、106与媒体源设备101通信，并且提供指示近场扬声器特性的数据，诸如近场扬声器的频率响应和/或音频遮蔽数据，媒体源设备101中的均衡器使用该数据以调整渲染的远场信号的EQ。例如，如果音频遮蔽数据指示近场扬声器将使特定频带(例如，高频带)中的音频数据衰减3dB，那么这些频带可以在渲染的远场信号中被提升大约3dB。

在实施例中，至少部分地基于基于相同近场扬声器类型的许多实例的平均目标均衡来均衡渲染的近场扬声器输入信号中的至少一些以补偿近场扬声器的非平坦性。例如，用于一组耳机的渲染的近场信号鉴于平均目标均衡对于频带可以衰减3dB，因为平均目标均衡将导致对于那个频带的渲染的远场信号提升比对于由该组耳机引起的音频遮蔽所需的多3dB。在时延是一个因素的实施例中，收听环境的环境声音使用中间设备或耳机的一个或多个麦克风捕获，并且在耳机中利用遮蔽的反转进行补偿。

上述处理的最终结果是近场扬声器投射与由远场扬声器102投射的远场声学音频同步地叠加的近场声学音频。因此，对于某些音频内容，近场扬声器可以用于通过添加在渲染这样的音频内容以仅使用远场扬声器102回放时缺失、不完整或难以察觉的高度、深度或其它空间信息来增强用户104的收听体验。

示例信号处理流水线

图2是根据实施例的用于混合近场/远场虚拟化以增强音频的处理流水线200的流程图。源信号s(t)被输入到交叉滤波器201和增益生成器210。源信号可以包括基于声道的音频、基于对象的音频或基于声道和基于对象的音频两者。交叉滤波器201(例如，高通滤波器)的输出是低频信号lf(t)和高频信号hf(t)。交叉滤波器201可以实现任何期望的交叉频率f_c。例如，f_c可以是100Hz，这导致低频信号lf(t)包含小于100Hz的频率，并且高频信号hf(t)包含大于100Hz的频率。

在实施例中，增益生成器210生成两个远场增益Gf(t)、Gf'(t)和两个近场增益Gn(t)、Gn'(t)。分别在远场和近场混合模块202、207中，增益Gf(t)和Gn(t)应用到高频信号hf(t)，并且增益Gf(t)和Gn'(t)应用到低频信号lf(t)。注意上标“'”指示低频。

在实施例中，可以例如根据V.Pulkki，Compensating Displacement ofAmplitude-Panned Virtual Sources(Audio Engineering Society(AES)InternationalConference on Virtual,Synthetic and Entertainment Audio的第2节第3-4页中描述的幅度平移方法确定增益。在一些实施例中，可以使用其它方法以平移远场音频对象，诸如，例如，在D.de Vries，Wave Field Synthesis(AES Monograph 1999)中描述的涉及对应的声学平面或球面波的合成的方法。在一些实现中，增益中的至少一些可以是频率依赖的。近场和远场增益两者可以与音频再现环境100中的远场扬声器布局以及对象或声道位置有关。

在实施例中，不是将源信号s(t)分成近场和远场信号，而是源信号s(t)包括两个声道(L/R立体声声道)，这两个声道被使用上述方法预渲染以在近场回放设备上回放。这些“耳朵”轨道也可以使用手动过程创建。例如，在电影院实施例中，可以在内容创作过程期间将对象标记为“耳朵”或“附近”。由于电影院音频被打包的方式，这些轨道被预渲染，并且作为数字电影院包(DCP)的一部分提供。DCP的其它部分可以包括基于声道的音频和完整的Dolby

声道。在家庭娱乐实施例中，可以对内容提供两个单独的预渲染的“耳朵”轨道。“耳朵”轨道在存储时可以相对于其它音频和视频轨道在时间上偏移。这样，不需要从存储装置两次读取媒体数据来提前将音频发送到近场回放设备。

示例混合模式

一般地，Gf(t)＝Gf'(t)且Gn(t)＝Gn'(t)。然而，如果远场扬声器206-1至206-n更能够再现低频，那么所有的音频内容可以通过设置Gn'(t)＝0和Gf'(t)＝1被路由到远场扬声器虚拟器203。

对于使用基于声道的音频的传统环绕渲染，其中仅前部扬声器(例如，存在L/R立体声扬声器和LFE设备)，混合功能可以通过应用Gn(t)＝1.0和Gf(t)＝0.0来将所有的环绕声道路由到近场扬声器虚拟器208，并且通过应用Gn(t)＝0.0和Gf(t)＝1.0将所有的前部扬声器声道(例如，L/R扬声器声道)路由到远场扬声器虚拟器203。

为了渲染距离效果，远场扬声器虚拟器203和近场扬声器虚拟器208两者作为到音频再现环境100的中心(例如，用户104的优选收听位置或房间的中心)的(规范化)距离r的函数被混合为Gn(t)＝1.0-r和Gf(t)＝sqrt(1.0-Gn(t)*Gn(t))，r在0.0(100％近场)和1.0(100％远场)之间。

在实施例中，可以通过远场扬声器和近场扬声器播放一定百分比的音频内容以提供增强层(例如，对话增强层)，其中音频对象或中央声道利用Gf(t)＝1.0和Gn(t)>0.0渲染。

在实施例中，远场混合模块202的输出是远场信号f(t)，该远场信号f(t)是高频和低频信号hf(t)、lft(t)的加权的线性组合，其中权重是远场增益Gf(t)、Gf'(t)：

f(t)＝Gf′(t)*lf(t)+Gf(t)*hf(t). [1]

远场信号f(t)被输入到远场扬声器虚拟器203中，该远场扬声器虚拟器203生成渲染的远场信号F(t)。渲染的远场信号F(t)可以使用利用任何数量的物理扬声器的任何期望的扬声器虚拟化算法生成，该扬声器虚拟化算法包括但不限于：基于向量的幅度平移(VBAP)和多方向幅度平移(MDAP)。

渲染的远场信号F(t)被输入到可选的远场后处理器204中以对渲染的远场信号F(t)应用任何期望的后处理(例如，均衡、压缩)。渲染的并且可选地后处理的远场信号F(t)然后被输入到耦合到远场扬声器206-1至206-n的音频子系统205中。音频子系统205包括用于生成用于驱动远场扬声器206-1至206-n的电信号的各种电子器件(例如，放大器、滤波器)。响应于电信号，远场扬声器206-1至206-n将远场声学音频投射到音频再现环境100中。在实施例中，上述远场处理流水线完全地或部分地在中央处理单元和/或数字信号处理器上运行的软件中实现。

现在参考图2中的近场处理流水线，近场混合模块207的输出是近场信号n(t)，该近场信号n(t)是高频和低频信号hf(t)、lf(t)的加权的线性组合，其中权重是近场增益Gn(t)、Gn'(t)：

n(t)＝Gn′(t)*lf(t)+Gn(t)*hf(t). [2]

在实施例中，近场信号n(t)被直接输入到无线收发器103中，该无线收发器103对近场信号n(t)进行编码并且通过无线通信信道将其传输到近场回放设备105或中间设备110。近场信号被递送到近场回放设备并且成为通过邻近用户的耳朵的近场扬声器播放的近场声学音频。

在实施例中，近场信号是一些或全部远场声学音频的扩增。例如，近场信号可以仅包含对话，使得一起收听远场声学音频和近场声学音频的效果导致增强且更易懂的对话。替代地，近场信号可以提供对话和背景(例如，音乐、效果等)的混合，使得最终效果是个性化的、更沉浸式的体验。

在实现中，近场信号包含意在被感知为靠近收听者的声音，作为空间声音系统中的用户邻近的声音。在这样的系统中，音频对象，诸如例如在场景中飞过头顶的飞机的声音，基于可以随时间改变的音频对象坐标被渲染到音频再现环境中的一组扬声器，因此音频对象声源似乎在音频再现环境中移动。然而，因为声音系统扬声器通常处于房间或电影院的周边，所以它们拥有创建离收听者近或远的深刻感觉的有限能力。这通常通过将音频平移到并且通过邻近用户的耳朵的扬声器来解决。

在实施例中，出于艺术原因，近场信号可以包含意在被感知为靠近收听者的声音，诸如电影中出现在电影中的特定角色上或周围的声音。靠近角色并且听到邻近收听者的心跳声、呼吸、衣服沙沙声、脚步声、悄悄话等可以与那个角色产生情感联系、同理心或个人认同。

在实施例中，近场信号可以包含意在靠近收听者被播放以增加具有空间音频系统的房间中的最佳收听位置的大小的声音。因为近场信号与远场声学音频同步，所以平移到或通过用户的位置的音频对象针对从远场扬声器的声学行进时间进行校正。

在实施例中，近场信号包含用于校正房间声学中的缺陷的声音。例如，近场信号可以是渲染的远场信号的完整副本。远场声学音频利用近场回放设备的麦克风进行采样，并且与近场回放设备或中间设备处的近场信号进行比较。如果远场声学音频被发现在某种意义上有缺陷，例如由于用户在房间中的位置而缺失某些频率成分，那么可以在近场扬声器中回放之前扩增那些频率成分。

用户可定制近场信号的各方面以适合他们自己的偏好。定制的一些选项可以包括近场信号的类型之间的选择、两个或更多个频带中的响度均衡的调整、或近场信号的空间化。近场信号的类型可以包括仅对话，对话、音乐和效果的组合，或替代语言轨道。

近场信号可以以各种各样的方法创建。一种方法是有意创作，其中作为媒体创建过程的一部分可以创作娱乐内容的特定部分的一个或多个可能的近场信号。例如，可以创建干净的(即，隔离的且没有其它声音)对话轨道。或者，空间音频对象可以被有意地平移通过将使它们渲染给用户的邻近近场扬声器的坐标。或者，可以做出艺术选择以将某些声音(诸如，源自可识别的主角上或周围的那些)放置为靠近用户。

用于近场信号创建的替代方法是在媒体内容创建期间自动或通过算法如此进行。例如，由于5.1或类似音频混合中的中央声道经常包含对话，并且L和R声道通常包含所有的其它声音的主要部分，那么L+C+R可以用作近场信号。类似地，如果近场信号的目标是提供增强的对话，那么可以使用深度学习或本领域中已知的其它方法以提取干净的对话。

近场信号也可以在媒体回放时自动或通过算法创建。在许多娱乐装备(诸如前面提到的那些)中，内部计算资源(诸如中央处理单元(CPU)或数字信号处理器(DSP))可以用于组合声道或提取对话以用作近场信号。远场声学音频和近场信号可以包含出于改善时间偏移计算的目的而插入的信号或数据，诸如标记信号可以是简单的超声波音或可以被调制以携带信息或改善可检测性，如下面进一步详细描述的。

在替代实施例中，近场信号n(t)被输入到近场扬声器虚拟器208中，该近场扬声器虚拟器208生成渲染的近场信号N(t)。渲染的近场信号N(t)可以使用双耳(立体声)渲染算法生成，该双耳(立体声)渲染算法使用例如头部相关变换函数(HRTF)。在实施例中，近场扬声器虚拟器208接收近场信号n(t)和用户104的头部姿势，从近场信号n(t)和用户104的头部姿势它生成并且输出渲染的近场信号N(t)。用户104的头部姿势可以基于输出用户104相对于远场扬声器206-1至206-n或音频再现环境100的朝向和可能地头部位置的头部跟踪设备(例如，相机、蓝牙跟踪器)的实时输入来确定。

在实施例中，渲染的近场信号N(t)被输入到可选的近场后处理器209中以对渲染的近场信号N(t)应用任何期望的后处理(例如，均衡)。例如，可以应用均衡以补偿近场扬声器的频率响应中的缺陷。渲染的或可选地后处理的近场信号N(t)然后被输入到无线收发器103中，该无线收发器103对渲染的近场信号N(t)进行编码并且通过无线通信信道将其传输到近场回放设备105或中间设备110。

如下面更全面地描述的，近场信号n(t)或渲染的近场信号N(t)比远场声学音频的投射早地传输以允许近场声学音频与远场声学音频的同步叠加。在下文中，以下示例描述了近场信号n(t)被传输到近场回放设备或中间设备110的实施例。

在实施例中，无线收发器103是蓝牙或WiFi收发器，或者使用自定义的无线技术/协议。在实施例中，以上参考图2描述的近场处理流水线可以完全地或部分地在中央处理单元和/或数字信号处理器上运行的软件中实现。

在实施例中，近场回放设备105和/或中间设备110包括近场扬声器虚拟器208和近场后处理器209，而不是媒体源设备101。在这个实施例中，增益Gn(t)、Gf(t)和近场信号n(t)由无线收发器103传输到近场回放设备105或中间设备110。中间设备110然后将近场信号n(t)渲染成渲染的近场信号N(t)，并且将渲染的信号传输到近场回放设备105(例如，耳机、耳塞或耳麦等)。近场回放设备105然后通过嵌入到或耦合到近场回放设备105的近场扬声器将近场声学音频邻近用户104的耳朵投射或投射到用户104的耳朵中。

在实施例中，增益Gn(t)、Gf(t)在头端或其它基于网络的内容服务提供商或分发商处被预先计算，并且作为元数据在比特流的一个或多个层(例如，传输层)中被传输到媒体源设备101，其中源信号和增益被解复用和解码，并且增益被应用到源信号的音频内容。这允许音频内容的创作者创建可以在各种各样的音频再现环境中的各种各样的扬声器布局上与混合近场/远场扬声器虚拟化一起使用的音频内容的不同版本。此外，元数据可以包括一个或多个标志(例如，一个或多个比特)，该一个或多个标志向解码器指示比特流包括远场和近场增益，因此适合于与混合近场/远场扬声器虚拟化一起使用。

在实施例中，近场和远场信号中的一个或两个可以在网络计算机上生成并且递送到媒体源设备，其中远场信号在被从远场扬声器投射之前可选地被进一步处理，并且近场信号在被传输到近场回放设备或中间设备之前可选地被进一步处理，如前面所描述的。

近场信号的提前传输

图3示出了根据实施例的图示了提前传输的益处的近场信号n(t)的无线传输的示例时间线。时间线示出了远场声学音频的传播时间与近场无线传输时延和信号处理时间。远场声学音频在t＝0开始远离远场扬声器206-1至206-n传播，并且在t＝10ms到达用户104的位置(假设离远场扬声器206-1至206-n约3米距离)。注意的是，图3中示出的时间线是以10倍为因子的非线性标度，其中负数指示早于t＝0的时间(例如，-0.01是t＝0之前10ms)。为了使得能够同步，在远场声学音频到达中间设备110或近场回放设备105的麦克风107之前或刚刚到达时，近场信号n(t)的无线传输应当被接收和解码，并且所有同步信号处理和渲染完成。

参考图3，时间线(a)图示了自定义的无线协议(在消费者电子器件中不常用)如何可以提供短传输时延并且使得渲染的近场信号能够及时可用。时间线(b)示出了普遍存在的协议(例如，WiFi、蓝牙)没有及时递送近场信号。时间线(c)示出了无线传输如何可以在任意早于t＝0秒开始以补偿任何传输时延，并且允许任何信号处理时间，以使得远场声学音频能够与近场声学音频同步。

递送和同步近场信号所需的传输、解码和信号处理时间可以意义重大。在消费者电子器件中常用的无线传输方法，诸如WiFi和蓝牙，具有范围从几十毫秒到几百毫秒的时延。此外，无线传输通常使用数字编解码器对音频进行编码，该数字编解码器压缩数字信息以最小化所需的带宽。一旦被接收，就需要一些信号处理时间来解码编码的信号和恢复音频信号。将在下面详细描述的用于同步的信号处理可以需要数百万次的计算操作。取决于正在使用的处理器的速度，解码和信号处理也可以需要长时间，尤其是在计算能力可能低的电池供电的端点设备中。

声音在仅仅不到3毫秒内行进一米。家庭客厅或电影院中的用户可能离远场扬声器在一米与几十米之间，因此预计的声音行进时间的范围为从大约3ms到100ms。如果近场信号n(t)及其后续处理需要比远场声学音频的行进时间长的时间，那么近场信号n(t)到达太晚，并且近场声学音频与远场声学音频的同步是不可能的。

在用户离远场扬声器更远的情形下，例如在大型音乐会场地，近场信号n(t)可能在允许同步的足够时间内到达那些用户。并且此外，如果无线协议是不太普遍存在或可能定制的技术，那么可以使无线传输时延比远场声学音频行进时间短。然而，使用尚未内置到大多数消费者个人移动设备中的无线协议将需要辅助装备来进行无线接收。

更好的解决方案是使用常见的无线协议来递送近场信号n(t)，但充分早于预计远场声学音频到达近场回放设备105。例如，如果通过WiFi路由器传输造成250ms的最坏情况时延，解码和同步需要20ms，并且预计的声波行进时间为10ms，那么近场信号n(t)到近场回放设备105(或中间设备110)的传输在渲染的远场信号F(t)被馈送到远场扬声器206-1至206-n的扬声器馈送端之前多于260ms，然后近场信号n(t)的这样的提前传输将对近场回放设备105(或中间设备110)处的同步提供足够的时间。在实践中，300ms到1000ms的提早时间是有效的。

注意的是，近场信号n(t)的提前传输可能无法用于实况事件，其中舞台声音(歌唱、乐器等)立即向外传播，然后几乎同时通过放大器和扬声器，并且其中任何电子记录和无线传输仅可以在声音创建的时刻之后开始。然而，在“实况”事件中，一些或全部声音可以立即被无线地传输，然后在从扬声器播出之前延迟，使得有时间接收和使用无线传输。这对于不立即声学地传播的舞台声音(诸如，电子乐器)或者在扬声器音量足够大以掩蔽任何舞台声音时可以尤其有效。针对实况事件，对于不在实况事件处的用户，提前传输也是可能的。例如，在其家庭娱乐系统上的足球比赛的观众可以仅在娱乐内容因网络审查延迟、信号处理延迟、广播和传输装备延迟等而已被延迟几秒钟之后在他们的家中接收到娱乐内容。通常这样的延迟容易累加至至少几秒钟。

存在近场扬声器信号n(t)的提前传输的几种方法。在实施例中，接收或播放媒体并且递送远场声学音频的媒体源设备101具有包含源信号的缓冲器。这个缓冲器被读取两次：一次从缓冲器中的第一位置读取，以递送远场扬声器输入信号F(t)和可能地相关联的视频；以及在第一次之后经过期望的提早时间的第二次从缓冲器中的第二位置读取，以将近场信号n(t)递送到近场回放设备105或中间设备110。这两个缓冲器读取的次序可以切换；只有缓冲器中的相对位置才是重要的。在实施例中，可以存在多于一个的缓冲器，诸如用于渲染的远场信号F(t)的一个缓冲器和用于近场信号n(t)的一个缓冲器。

在另一个实施例中，媒体源设备101被配置为摄取包括音频内容和视频内容的源信号。摄取的源信号被缓冲以使得能够进行指定的延迟。近场信号n(t)被传输到近场回放设备105，其中它通过近场扬声器被投射为近场声学音频。在指定的延迟之后，从缓冲器读取音频和视频，并且如上所述处理音频以生成远场声学音频。

发现手段

在实施例中，近场回放设备105(以及可选的中间设备110)包括用于理解近场信号n(t)何时可用的硬件或软件。这可以像在WiFi网络上监听多播数据包一样简单。这也可以使用各种零配置联网协议的方法(诸如Apple

)来实现。

用于同步的时间戳传输

存在众所周知的方法，有线或无线的联网设备可以通过这些方法共享信息以同步它们的时钟。两个示例是网络时间协议(NTP)和IEEE 1588精确时间协议(PTP)。如果媒体源设备101和近场回放设备105(或中间设备110)已使用这样的方法同步了它们的时钟，那么每个设备可以在约定的时间同步地播放带有时间戳的音频数据包。

在更详细的示例中，DMR(例如，

TV DMR)和中间设备(例如，智能电话)具有使用NTP的同步时钟。近场信号n(t)的帧在相同的帧通过高清多媒体接口(HDMI)和/或光链路播放到媒体源设备101(例如，电视机)之前500ms使用WiFi从DMR传输到中间设备。近场信号n(t)的帧，每个包含向中间设备110指示帧应当播放到用户的耳朵中的确切时间的时间戳。中间设备110在指示的时间播放音频的帧，其中对于将近场信号n(t)从中间设备110传输到近场回放设备105所需的时间进行调整。

时间戳的使用不保证近场声学音频将与远场声学音频同步地播放，至少因为时间戳不自动地考虑几个时间误差源，即媒体源设备101中用于播放远场声学音频的处理时间、从中间设备110到近场回放设备105的无线信号传输时延、以及远场声学音频从远场扬声器206-1至206-n到音频产生环境100中的用户104的位置的声学传输时间。尽管如此，使用时间戳将减小需要被搜索的可能延迟时间的范围，从而减小计算时间和功耗。如果声学同步失败，那么时间戳也可以对同步提供次佳的延迟时间。结合下面描述的更严格的时间偏移确定，时间戳可以提供接近的估计、声学同步失败时的已知的良好回退、以及复杂性和功耗减小。

时间偏移确定

为了避免负面的收听体验，近场声学音频由近场回放设备105与远场声学音频同步地回放。近场声学音频和远场声学音频之间的小时间差(几毫秒的量级)可以造成明显的、令人不快的频谱染色。随着时间差接近10-30ms及以上，频谱染色扩展到较低频率，然后变成梳状滤波器。用户104然后听到音频内容的两个副本。在较低的延迟下，这可以听起来像近回声；在较高的延迟下，像远回声。在甚至更大的时间延迟下，收听音频内容的两个副本造成非常不愉快的认知负担。

为了避免这些负面影响，近场声学音频通过近场回放设备105与远场声学音频同步地叠加。在实施例中，远场声学音频和近场声学音频之间的总时间偏移被确定为指示近场声学音频的哪个片段应当被发送到近场扬声器以实现同步叠加。使用参考图4A描述的方法中的一个或多个来实现总时间偏移确定。

时间偏移确定的示例方法

图4A是根据实施例的用于确定总时间偏移以使近场声学音频的回放与远场声学音频同步的处理流水线400a的框图。在近场回放设备105(或中间设备110)处，一个或多个麦克风107捕获由远场扬声器206-1至206-n投射的远场声学音频的样本。样本由模拟前端(AFE)和数字信号处理器(DSP)401a捕获和处理以生成数字远场数据，该数字远场数据存储在远场数据缓冲器403b中。在实施例中，AFE可以包括前置放大器和模数转换器(ADC)。在接收远场声学音频(参见图3)之前，近场信号n(t)由无线收发器106接收并且使用AFE/DSP401b进行处理。AFE/DSP 401b包括例如用于解调/解码近场信号n(t)的电路。解调/解码的近场信号n(t)被转换成数字近场数据，该数字近场数据存储在近场数据缓冲器403b中。

接下来，分别存储在缓冲器403a、403b中的远场和近场数据使用相关方法进行比较。在实施例中，缓冲器403a、403b各自存储1秒的数据。缓冲器403a、403b的内容之间的时间偏移由相关器404确定，该相关器404将缓冲器403a中存储的远场数据与缓冲器403b中存储的近场数据相关。相关可以由相关器404在时域中使用蛮力来实现，或者可以在使用例如快速傅里叶变换(FFT)将缓冲的数据变换到频域之后在频域中执行。在实施例中，相关器404可以在时域或频域中实现公知的具有相位变换的广义互相关(GCC-PHAT)算法。

在实施例中，近场信号n(t)和渲染的远场信号F(t)包括听不见的高频标记信号。这样的标记信号可以是简单的超声波音或者可以被调制以携带信息或改善可检测性。例如，标记信号可以高于18.5kHz，其中大多数人无法听到，但是仍然在被大多数音频装备通过的频率范围内。因为这样的标记信号对于远场声学音频和近场信号两者是共同的，所以它们可以用于改善远场声学音频和近场信号之间的时间偏移计算。在实施例中，标记信号由AFE/DSP 401a和AFE/DSP 401b分别使用标记信号提取器402a、402b提取，使得标记信号将不从近场扬声器播出。在实施例中，标记信号提取器402a、402b是低通滤波器，其滤除高频听不见的时间标记信号，这些高频听不见的时间标记信号然后被提供给相关器404。

相关器404的输出是时间偏移和置信度度量。时间偏移是远场声学音频到达中间设备110或近场回放设备105的麦克风107与近场信号n(t)到达近场回放设备105之间的时间。时间偏移指示缓冲器403b的哪个部分通过近场回放设备105的近场扬声器播放，并且对于近场声学音频在远场声学音频上的完美同步叠加几乎是足够的。

可以通过将附加的固定的本地时间偏移405添加到由相关器404输出的时间偏移来确定总时间偏移。本地时间偏移包括将近场信号n(t)从中间设备110发送到近场回放设备105所需的附加时间，包括但不限于：数据包传输时间、传播延迟和处理延迟。这个本地偏移时间可以由中间设备110准确测量。

在实施例中，上述总时间偏移确定是连续的，而不是在启动或设置步骤期间发生一次。例如，总时间偏移可以每秒计算一次或每秒计算几次。这个工作周期允许同步以适应音频再现环境100内的用户104的变化的位置。尽管图4A中所示的总时间偏移的计算在近场回放设备105或中间设备110中出现，但是原则上总时间偏移计算在特定应用(诸如具有单个近场回放设备105的应用)中可以在媒体源设备101中发生。

在实施例中，相关器404还输出置信度度量，以知道何时相信已实现同步。一个合适的置信度度量是由时间偏移值移位的缓冲器403a、404b之间的已知的Pearson相关系数，其输出线性相关的指示，其中“1”是总正线性相关，“0”是非线性相关并且“-1”是总负线性相关。

图4B是根据实施例的用于使近场声学音频的回放与远场声学音频同步的处理流水线400b的框图。在实施例中，同步器406作为输入从缓冲器403b接收数字近场数据、以及从处理流水线403a输出的总时间偏移和置信度度量，并且将总时间偏移应用到渲染的近场信号以使近场声学音频回放与远场声学音频同步。在实施例中，仅在总时间偏移的对应的置信度度量指示缓冲器403a、403b的内容之间的正线性相关(即，高于正阈值)的情况下才使用总时间偏移。如果置信度度量指示没有线性相关(即，低于正阈值)，那么同步器406不将总时间偏移应用到渲染的近场信号N(t)。替代地，可以使用先前确定的总时间偏移。

在实施例中，同步器406执行提供指向近场数据缓冲器403b的指针的计算或操作，该指针与渲染的近场信号中要开始回放的确切样本对应。播放渲染的近场信号可以意味着从缓冲器403b检索在指针位置开始的帧。指针位置也可以指向单个音频样本。从缓冲器403b检索的音频数据的帧边界可以或可以不与在缓冲器403b中放置或存储数据时使用的那些边界对齐，因此可以在任何时间开始播放音频。

在一些操作场景中，本文描述的同步算法可能造成缓冲器中的一些样本被播放多于一次或被跳过。这在收听者移动靠近或远离远场扬声器时可能发生。在这样的情况下，可以执行混合操作以使音频伪像(例如，重复或跳过等)听不见或不太明显。

近场信号n(t)和从渲染的远场信号F(t)生成的远场声学音频具有时间对应性，使得每个包含或提供如果与另一个同步则意味着同时被听到的音频。例如，远场声学音频可以是战争电影的完整音频，并且包含被嘈杂的噪声部分遮掩的对话。近场信号n(t)或由此生成的用户邻近的声音可以包含相同的对话，但是“干净”或未被噪声遮掩。这个示例中的时间对应性是大量完全重合的对话。时间间隔，诸如两个话语或其它音频事件之间的确切时间，在每个信号中可以具有相同的长度。

辅助近场信号

在实施例中，近场信号可以包括意在用于在耳朵中回放的音频信号，并且还可以包括用于附加目的的辅助近场信号。辅助近场信号的一种用途是提供附加信息以改善同步。例如，如果近场信号耳朵声道稀疏，那么不存在近场信号和远场声学音频两者共同的许多信号。同步然后是困难的或不频繁的。在那种情况下，辅助近场信号提供与远场声学音频共同的附加信号，并且对辅助近场信号操作同步以在近场声学音频上同步地叠加远场声学音频。

在另一个实施例中，辅助近场信号包括意在用于在耳朵中回放的替代内容。这个内容可以与远场声学音频不是共同的。例如，远场声学音频可以至少包含电影的英语对话，并且辅助近场信号可以包含替代语言的对话。对远场声学音频和近场信号操作同步，但是辅助近场信号在耳朵中播放。在一些实现中，替代内容可以包括针对视觉受损用户的场景和动作的听觉描述。

同步流消除

提前递送和同步对主动噪声消除(ANC)呈现了独特的机会。传统的入耳式ANC设备依靠麦克风来测量要消除的目标声音。总是存在时延和时间响应的问题。声音在它被测量之后非常短的时间内到达耳膜，并且此时必须计算和产生反声。这通常是不可能的，尤其是在高频下。然而，如果目标声音是近场信号或辅助近场信号的一部分，并且也是远场声学音频的一部分，那么目标声音可以被主动消除，即从远场声学音频去除，而没有典型ANC的缺点中的一些。这样的目标声音的示例包括：对话、意在由具有多个座位的整个剧院共享的声音、对听力受损者造成掩蔽的非对话动态响亮的声音(例如，音乐、爆炸)。

ANC麦克风通常面向外以用于前馈消除和/或在耳杯或耳道内以用于反馈消除。在前馈和反馈消除两者中，作为消除的目标的声音由麦克风测量。模数转换器(ADC)将麦克风信号转换为数字数据。然后，算法使用逼近相关电声传递函数的滤波器来反转那个声音以创建可以破坏性地干扰环境声音的反声。滤波器可以在变化的条件期间适应性地工作良好。反声通过数模转换器(DAC)转换回模拟信号。放大器利用换能器(诸如，典型的动态驱动器或平衡电枢)将反声播放到耳朵中。

这个系统的所有的组件需要时间来操作。每一级，包括麦克风、ADC、滤波器、DAC、扬声器放大器，可能需要几十微秒或更多来操作。总时延可以是100微秒或更多的量级。通过减少较高频率处的可用相位裕度，这个时延使主动噪声消除大大地逊色。例如，100微秒的延迟是1kHz声波的一个周期的10％。

如果近场信号或辅助近场信号的成分是作为消除的目标的声音，那么这些信号的提前递送构成要消除的声音的预先了解。可以提早计算噪声消除滤波器的输出，并且补偿所有其它系统组件延迟，使得那些滤波器和系统组件的操作延迟是无关的。这是与其中不存在要消除的声音的预先了解的典型噪声消除不同的情形。

在实施例中，同步流消除用于从远场声学音频去除对话，使得它可以被利用替代语言的对话替换。主动声音消除以在近场信号中发送到耳朵设备的原始对话为目标，以从远场声学音频去除原始对话。可以改为播放经由辅助近场信号发送的替代语言对话轨道。

在实施例中，同步流消除用于从体育内容中的可能评论当中选择。例如，远场声学音频包含足球比赛的“主场”评论。这个比赛的各个观众可以选择改为收听针对“客场”球队的评论。远场声学音频中的“主场”评论经由近场信号递送到近场回放设备并且作为声音消除的目标。辅助近场信号将“客场”评论递送给各个观众。

在实施例中，同步流消除用于使整个远场声学音频基本上静音。例如，观众观看娱乐媒体，并且在房间中播放远场声学音频。近场信号包含远场声学音频的副本并且作为声音消除的目标。如果观众想要听附近的人讲话，那么这个模式可能是有用的。

在实施例中，同步流消除用于修改空间音频娱乐系统中的空间音频。例如，在具有环绕声系统的电影院中，一些用户可能具有诸如本文公开的近场回放设备，并且一些用户可能没有。没有近场回放设备的用户可以被给予完整、正常的电影院体验。相应地，渲染的远场信号包含完整的空间音频对象声音。近场信号包含用户邻近的声道，其中空间音频对象平移通过用户的近场回放设备。相同的空间音频对象对纯电影院系统和对近场信号的渲染可能大幅不同，使得具有近场回放设备的用户的空间音频体验因额外的房间声音而减弱。在实施例中，可以将音频对象的电影院远场信号渲染与相同音频对象的近场设备渲染之间的差异放置到辅助近场信号中并且作为近场回放设备或中间设备处的声音消除的目标。

在一些实现中，加权作为音频再现环境中的对象到收听者的距离的函数被应用，使得仅在近场信号中传送意图被听到靠近收听者的音频对象，并且辅助近场信号消除来自由例如整个剧院听众共享的共同音频对象的声音。这可以允许以利用共享声音信号无法进行的方式将声音放置为极其靠近收听者(或者甚至在头内部)。

在另一个实施例中，同步流消除使用近场信号和辅助近场信号的组合以补偿具有环绕声(或其它3D声音技术)的剧院中的非理想的座位位置，诸如靠近声学信号空间的边界的任何一个。即，靠近房间的一侧、在后角落中等。以这种方式，收听者可以接收更接近混音工程师的意图的感知的渲染。

在实施例中，同步流消除使用算法，诸如例如最小均方(LMS)自适应滤波算法，以构造将包括捕获的远场声学音频的麦克风信号与近场信号匹配的滤波器。该滤波器然后可以被反转并且应用到近场信号以创建反声。反声然后在正确的时刻回放以消除与近场信号共同的远场声学音频的部分。

在替代实施例中，算法和滤波器被设计为以远场声学音频和近场信号不共同的所有声音为目标。在这个实施例中，滤波器以不在近场信号中的所有声音为目标，使得除了在近场信号中的声音之外的所有声音被消除，并且用户仅听到近场信号中的声音。例如，如果近场信号是远场信号的副本，那么可以在近场回放设备或中间设备处消除无关的房间声音，诸如谈话或厨房声音。

在实施例中，远场声学音频由中间设备或近场设备的一个或多个麦克风捕获并且在近场回放设备中部分地渲染以补偿近场扬声器对耳道的任何遮蔽。如果期望增强环境声音的用户的体验，那么在音频再现环境中挡住所有环境声音可能不是期望的。例如，一些耳塞部分地遮蔽大多数人的耳朵。遮蔽以非期望的方式减弱并且可能左右环境声音的用户的感知。为了对此进行校正，在实施例中，测量遮蔽的影响，并且环境声音的缺失部分在被渲染以通过近场回放设备回放之前被添加回近场信号中。

图5是根据实施例的混合近场/远场扬声器虚拟化以增强音频的过程500的流程图。过程500可以通过例如参考图9描述的媒体源设备架构来实现。

过程500通过获得源信号(501)开始。源信号可以包括基于声道的音频、基于对象的音频或基于声道的音频和基于对象的音频的组合。源信号可以由媒体源设备(诸如电视系统、机顶盒或DMR)提供。源信号可以是从网络或存储设备(例如，Ultra-HD、蓝光或DVD盘)接收的比特流。

过程500通过基于源信号、远场扬声器布局以及远场和近场扬声器特性生成远场和近场增益(502)继续。例如，如果源信号的音频内容中的音频对象位于用户的头部上方，并且媒体源设备是条形音箱，那么计算增益使得整个音频对象被包括在渲染的近场扬声器输入信号中，以便它可以由近场回放设备或中间设备双耳渲染。

过程500通过使用增益生成远场和近场信号(503)继续。例如，远场和近场信号可以是由交叉滤波器输出的低频和高频信号的加权的线性组合，其中权重是低频和高频增益。

过程500通过渲染远场信号并且可选地对渲染的远场信号进行后处理(505)继续。例如，可以使用任何已知的算法以渲染远场信号(例如，VBAP)，并且可以使用HRTF双耳渲染近场信号。在实施例中，近场信号在被传输到近场回放设备之前在媒体源设备处被渲染/后处理。

过程500通过将近场信号提前传输到近场回放设备或中间设备(506)并且向远场扬声器馈送端发送渲染的远场信号(507)继续。例如，近场信号被传输到近场回放设备或中间设备以提供足够的时间来计算用于与远场声学音频同步的总时间偏移，如参考图3、图4A和图4B所描述的。

图6是根据实施例的使近场声学音频的回放与远场声学音频同步的过程的流程图。过程600可以通过例如参考图10描述的近场回放设备架构来实现。

过程600通过接收提前传输的近场信号(601)开始。例如，包括第一基于声道的音频和/或音频对象的近场信号可以通过有线或无线信道接收，如参考图1和图2所描述的。

过程600通过接收远场声学音频(602)继续。例如，包括第二基于声道的音频和/或音频对象的渲染的远场信号由一个或多个麦克风捕获。

过程600通过将麦克风输出转换成数字远场数据并且将近场信号转换成数字近场数据(603)、以及将数字远场数据和数字近场数据存储在缓冲器中(604)继续，如参考图4A所描述的。

过程600通过通过使用缓冲器内容并且添加本地时间偏移来确定总时间偏移和可选的置信度度量(605)继续，如参考图4A所描述的。

过程600通过使用总时间偏移发起通过近场扬声器回放近场数据、使得由近场扬声器投射的近场声学数据与远场声学同步地叠加(606)继续。在实施例中，基于指示相关性的置信度度量来应用同步。

图7是根据实施例的使近场声学音频的回放与远场声学音频同步的替代过程700的流程图。过程700可以通过例如参考图9描述的媒体源设备架构来实现。

过程700通过使用媒体源设备接收包括基于声道的音频或音频对象中的至少一个的源信号(701)开始，如参考图2所描述的。

过程700通过使用媒体源设备至少部分地基于源信号生成远场信号继续，如参考图2所描述的。

过程700通过使用媒体源设备渲染远场信号以通过远场扬声器将远场声学音频回放到音频再现环境中(703)继续，如参考图2所描述的。

过程700通过使用媒体源设备至少部分地基于源信号生成一个或多个近场信号(704)继续，如参考图2所描述的。

过程700通过在将远场信号提供给远场扬声器之前向近场回放设备或耦合到近场扬声器的中间设备发送近场信号(705)继续，如参考图2所描述的。

过程700通过将渲染的远场信号提供给远场扬声器以投射到音频再现环境(706)继续，如参考图2所描述的。

图8是根据实施例的使近场声学音频的回放与远场声学音频同步的另一个替代过程800的流程图。过程800可以通过例如参考图10描述的近场回放设备架构来实现。

过程800可以通过使用无线接收器接收由音频再现环境中的媒体源设备传输的近场信号(801)开始，如参考图4A所描述的。

过程800通过使用一个或多个处理器将近场信号转换成数字近场数据(802)继续，如参考图4A所描述的。

过程800通过使用一个或多个处理器缓冲数字近场数据(803)继续，如参考图4A所描述的。

过程800通过使用一个或多个麦克风捕获由远场扬声器投射的远场声学音频(804)继续，如参考图4A所描述的。

过程800通过使用一个或多个处理器将远场声学音频转换成数字远场数据(805)继续，如参考图4A所描述的。

过程800通过使用一个或多个处理器缓冲数字远场数据(806)继续，如参考图4A所描述的。

过程800通过使用一个或多个处理器和缓冲器内容确定时间偏移(807)继续，如参考图4A所描述的。

过程800通过使用一个或多个处理器将设置的本地时间偏移添加到时间偏移以产生总时间偏移(808)继续，如参考图4A所描述的。

过程800通过使用一个或多个处理器使用总时间偏移发起通过近场扬声器回放近场数据、使得由近场扬声器投射的近场声学数据与远场声学音频同步地叠加(809)继续，如参考图4B所描述的。

图9是根据实施例的用于实现参考图1-8描述的特征和过程的媒体源设备架构900的框图。架构900包括无线接口901、输入用户接口902、有线接口903、I/O端口904、扬声器阵列905、音频子系统906、电源接口907、LED指示器908、逻辑和控制909、存储器910和音频处理器912。这些组件中的每一个耦合到一个或多个总线913。存储器910还包括缓冲器914，以供如参考图2所描述的那样使用。架构900可以在电视系统、机顶盒、DMR、个人计算机、环绕声系统等中实现。

无线接口901包括用于接收来自无线路由器(例如，WiFi路由器)、遥控器、无线近场回放设备、无线中间设备以及期望与媒体源设备通信的任何其它设备的无线通信的一个或多个天线以及无线收发器芯片或芯片组。

输入用户接口902包括用于允许用户控制和管理媒体源设备的输入机制，诸如机械按钮、开关和/或触摸界面。

有线接口903包括用于处置来自各种I/O端口904(例如，蓝牙、WiFi、HDMI、光纤)的通信的电路，音频子系统906包括音频放大器和驱动扬声器阵列905所需的任何其它电路。

扬声器阵列905可以包括任何数量、尺寸和类型的扬声器，无论是一起放置在单个壳体中还是独立壳体中。

电源接口907包括用于调节来自AC插座或USB端口或任何其它供电设备的电源的电源管理器和电路。

LED指示器908对用户提供设备的各种操作的可见反馈。

逻辑和控制909包括中央处理单元、微控制器单元或用于控制媒体源设备的各种功能的任何其它电路。

存储器910可以是任何类型的存储器，诸如RAM、ROM和闪存。

音频处理器912可以是实现编解码器并且准备音频内容以通过扬声器阵列905输出的DSP。

图10是根据实施例的用于实现参考图1-8描述的特征和过程的近场回放设备架构1000的框图。架构1000包括无线接口1001、用户接口1002、触觉接口1003、音频子系统1004、扬声器1005、麦克风1006、能量存储/电池充电器1007、输入电源接口/保护电路1008、传感器1009、存储器1010和音频处理器1011。这些组件中的每一个耦合到一个或多个总线1013。存储器1010还包括缓冲器1012。架构1000可以在耳机、耳塞、听筒、耳麦、游戏硬件、智能眼镜、头饰、AR/VR护目镜、智能扬声器、椅子扬声器、各种汽车内部装饰件等中实现。

无线接口1001包括用于向/从媒体源设备和/或中间设备以及期望与近场回放设备通信的任何其它设备接收/发送无线通信的一个或多个天线以及无线收发器芯片。

输入用户接口1002包括用于允许用户控制和管理端点设备的输入机制，诸如机械按钮、开关和/或触摸界面。

触觉接口1003包括用于向用户提供力反馈的触觉引擎，音频子系统1004包括音频放大器和驱动扬声器1005所需的任何其它电路。

扬声器1004可以包括立体声扬声器，诸如在耳机、耳塞等中找到的。

音频子系统1004还包括用于处理来自一个或多个麦克风1006的信号的电路(例如，前置放大器、ADC、滤波器)。

输入电源接口/保护电路1008包括用于调节来自能量存储1007(例如，可再充电电池)、USB端口、充电板、充电座或任何其它电源的电力的电路。

传感器1009可以包括运动传感器(例如，加速度计、陀螺仪)和生物传感器(例如，指纹检测器)。

存储器1010可以是任何类型的存储器，诸如RAM、ROM和/或闪存。

缓冲器1012(例如，图4A中的缓冲器403a、403b)可以从存储器1010的一部分创建并且用于存储用于确定总时间偏移的音频数据，如上面参考图4A所描述的。

虽然这个文档包含许多具体的实现细节，但是这些不应当被解释为对可以要求保护的范围的限制，而是作为可以特定于特定实施例的特征的描述。在这个说明书中在单独实施例的上下文中描述的某些特征也可以在单个实施例中以组合实现。反过来，在单个实施例的上下文中描述的各种特征也可以在多个实施例中单独地或以任何合适的子组合实现。此外，尽管特征可能在上面被描述为在某些组合中起作用，甚至最初如此要求保护，但是来自要求保护的组合的一个或多个特征在一些情况下可以从组合删除，并且要求保护的组合可以针对子组合或子组合的变体。附图中描绘的逻辑流程不需要所示的特定次序或相继次序来实现期望的结果。此外，可以提供其它步骤，或者可以从描述的流程消除步骤，并且可以将其它组件添加到描述的系统或从描述的系统去除。相应地，其它实现在以下权利要求的范围内。

Claims

1.一种方法，包括：

使用媒体源设备接收包括基于声道的音频或音频对象中的至少一个的源信号；

使用所述媒体源设备基于所述源信号和混合模式生成一个或多个近场增益和一个或多个远场增益；

使用所述媒体源设备至少部分地基于所述源信号和所述一个或多个远场增益生成远场信号；

使用扬声器虚拟器渲染所述远场信号以通过远场扬声器将远场声学音频回放到音频再现环境中；

使用所述媒体源设备至少部分地基于所述源信号和所述一个或多个近场增益生成近场信号；

在将所述远场信号提供给所述远场扬声器之前，向近场回放设备或耦合到所述近场回放设备的中间设备发送所述近场信号；以及

将所述远场信号提供给所述远场扬声器。

2.根据权利要求1所述的方法，进一步包括：

将所述源信号滤波成低频信号和高频信号；

生成一组两个近场增益，包括近场低频增益和近场高频增益；

生成一组两个远场增益，包括远场低频增益和远场高频增益；

基于所述低频信号和所述高频信号的加权的线性组合生成所述近场信号，其中所述低频信号通过所述近场低频增益加权，并且所述高频信号通过所述近场高频增益加权；以及

基于所述低频信号和所述高频信号的加权的线性组合生成所述远场信号，其中所述低频信号通过所述远场低频增益加权，并且所述高频信号通过所述远场高频增益加权。

3.根据权利要求1或2所述的方法，其中所述混合模式至少部分地基于所述音频再现环境中的所述远场扬声器的布局以及所述远场扬声器或耦合到所述近场回放设备的近场扬声器的一个或多个特性。

4.根据权利要求3所述的方法，其中所述混合模式为环绕声渲染，并且所述方法进一步包括：

设置所述一个或多个近场增益和所述一个或多个远场增益以在所述近场信号中包括所有的环绕基于声道的音频或环绕音频对象和在所述远场信号中包括所有的前部基于声道的音频或前部音频对象。

5.根据权利要求3或4所述的方法，进一步包括：

基于近场和远场扬声器特性确定所述远场扬声器比所述近场扬声器更能够再现低频；以及

设置所述一个或多个近场增益和所述一个或多个远场增益以在所述远场信号中包括所有的低频基于声道的音频或低频音频对象。

6.根据前面的权利要求3-5中的任一项所述的方法，进一步包括：

确定所述源信号包括距离效果；以及

将所述一个或多个近场增益和所述一个或多个远场增益设置为所述音频再现环境中的指定位置与所述远场扬声器之间的规范化距离的函数。

7.根据前面的权利要求3-6中的任一项所述的方法，进一步包括：

确定所述源信号包括用于增强所述源信号中的特定类型的音频内容的基于声道的音频或音频对象；以及

设置所述一个或多个近场增益和所述一个或多个远场增益以将用于增强所述特定类型的音频内容的所述基于声道的音频或音频对象包括到所述近场信号中。

8.根据权利要求7所述的方法，其中所述特定类型的音频内容为对话内容。

9.根据前面的权利要求1-8中的任一项所述的方法，其中所述源信号与包括所述一个或多个近场增益和所述一个或多个远场增益的元数据一起被接收。

10.根据权利要求9所述的方法，其中所述元数据包括指示所述源信号可以用于使用远场和近场扬声器进行混合扬声器虚拟化的数据。

11.根据前面的权利要求1-10中的任一项所述的方法，其中所述近场信号或渲染的近场信号以及渲染的远场信号包括用于辅助近场声学音频与远场声学音频的同步叠加的听不见的标记信号。

12.根据前面的权利要求1-11中的任一项所述的方法，进一步包括：

获得所述音频再现环境中的用户的头部姿势信息；以及

使用所述头部姿势信息渲染所述近场信号。

13.根据前面的权利要求1-12中的任一项所述的方法，其中对渲染的近场信号应用均衡以补偿近场扬声器的频率响应。

14.根据前面的权利要求1-13中的任一项所述的方法，其中所述近场信号或渲染的近场信号通过无线信道被提供给所述近场回放设备。

15.根据前面的权利要求1-14中的任一项所述的方法，其中将所述近场信号或渲染的近场信号提供给所述近场回放设备进一步包括：

使用所述媒体源设备向耦合到所述近场回放设备的中间设备发送所述近场信号或渲染的近场信号。

16.根据前面的权利要求1-15中的任一项所述的方法，其中对渲染的远场信号应用均衡以补偿近场扬声器的频率响应。

17.根据前面的权利要求1-16中的任一项所述的方法，其中与所述近场信号或渲染的近场信号相关联的时间戳由所述媒体源设备提供给所述近场回放设备或中间设备以辅助近场声学音频与远场声学音频的同步叠加。

18.根据前面的权利要求1-17中的任一项所述的方法，其中至少部分地基于所述源信号和所述一个或多个远场增益生成所述远场信号和所述近场信号进一步包括：

将所述源信号存储在所述媒体源设备的缓冲器中；

检索存储在所述缓冲器中的第一位置处的所述源信号的第一组帧，其中所述第一位置与第一时间对应；

使用所述媒体源设备至少部分地基于所述第一组帧和所述一个或多个远场增益生成所述远场信号；

检索存储在所述缓冲器中的第二位置处的所述源信号的第二组帧，其中所述第二位置与早于所述第一时间的第二时间对应；以及

使用所述媒体源设备至少部分地基于所述第二组帧和所述一个或多个近场增益生成所述近场信号。

19.一种方法，包括：

接收由音频再现环境中的媒体源设备传输的近场信号，所述近场信号包括用于通过近场扬声器投射的低频和高频基于声道的音频或音频对象的加权的线性组合，所述近场扬声器邻近或插入位于所述音频再现环境中的用户的耳朵；

使用一个或多个处理器将所述近场信号转换成数字近场数据；

使用所述一个或多个处理器缓冲所述数字近场数据；

使用一个或多个麦克风捕获由远场扬声器投射的远场声学音频；

使用所述一个或多个处理器将所述远场声学音频转换成数字远场数据；

使用所述一个或多个处理器缓冲所述数字远场数据；

使用所述一个或多个处理器和缓冲器内容确定时间偏移；

使用所述一个或多个处理器将设置的本地时间偏移添加到所述时间偏移以产生总时间偏移；以及

使用所述一个或多个处理器使用所述总时间偏移发起通过所述近场扬声器回放所述近场数据，使得由所述近场扬声器投射的近场声学数据与所述远场声学音频同步地叠加。

20.一种装置，包括：

一个或多个处理器；

存储器，所述存储器存储指令，所述指令在由所述一个或多个处理器执行时使所述一个或多个处理器执行权利要求1-20中所述的方法中的任何一个。

21.一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质已在其上存储指令，所述指令在由一个或多个处理器执行时使所述一个或多个处理器执行权利要求1-20中所述的方法中的任何一个。

22.一种方法，包括：

使用所述媒体源设备至少部分地基于所述源信号生成远场信号；

使用所述媒体源设备渲染所述远场信号以通过远场扬声器将远场声学音频回放到音频再现环境中；

使用所述媒体源设备至少部分地基于所述源信号生成一个或多个近场信号；

将渲染的远场信号提供给所述远场扬声器以投射到所述音频再现环境中。

23.根据权利要求22所述的方法，其中所述近场信号包括增强的对话。

24.根据权利要求22或23所述的方法，其中存在发送到所述近场回放设备或所述中间设备的至少两个近场信号，并且其中第一近场信号被渲染成近场声学音频以通过所述近场回放设备的近场扬声器回放，并且第二近场信号用于辅助所述远场声学音频与所述第一近场信号同步。

25.根据前面的权利要求22-24中的任一项所述的方法，其中存在发送到所述近场回放设备的至少两个近场信号，并且第一近场信号包括第一语言的对话内容，并且第二近场信号包括与所述第一语言不同的第二语言的对话内容。

26.根据前面的权利要求22-25中的任一项所述的方法，其中所述近场信号和所述渲染的远场信号包括用于辅助近场声学音频与远场声学音频的同步叠加的听不见的标记信号。

27.一种方法，包括：

使用无线接收器接收由音频再现环境中的媒体源设备传输的近场信号；

使用所述一个或多个处理器缓冲所述数字近场数据；

使用所述一个或多个处理器缓冲所述数字远场数据；

使用所述一个或多个处理器和缓冲器内容确定时间偏移；

使用所述一个或多个处理器使用所述总时间偏移发起通过近场扬声器回放所述近场数据，使得由所述近场扬声器投射的近场声学数据与所述远场声学音频同步地叠加。

28.根据权利要求27所述的方法，进一步包括：

使用所述近场回放设备的一个或多个麦克风从所述音频再现环境捕获目标声音；

使用所述一个或多个处理器将捕获的目标声音转换成数字数据；

使用所述一个或多个处理器通过使用逼近电声传递函数的滤波器对所述数字数据进行反转来生成反声；以及

使用所述一个或多个处理器使用所述反声消除所述目标声音。

29.根据权利要求28所述的方法，其中所述远场声学音频包括作为所述目标声音的第一语言的第一对话，并且消除的第一对话被利用与所述第一语言不同的第二语言的第二对话替换，其中第二语言对话被包括在辅助近场信号中。

30.根据权利要求28或29所述的方法，其中所述远场声学音频包括作为所述目标声音的第一评论，并且消除的第一评论被利用与所述第一评论不同的第二评论替换，其中所述第二评论被包括在辅助近场信号中。

31.根据前面的权利要求28-30中的任一项所述的方法，其中所述远场声学音频是通过所述反声消除以使所述远场声学音频静音的所述目标声音。

32.根据权利要求28所述的方法，其中一个或多个音频对象的电影院渲染和近场回放设备渲染之间的差异被包括在所述近场信号中并且用于渲染近场声学音频，使得包括在所述电影院渲染中但不包括在所述近场回放设备渲染中的所述一个或多个音频对象被排除在所述近场声学音频的渲染之外。

33.根据权利要求32所述的方法，其中加权作为所述音频再现环境中的对象到收听者的距离的函数被应用，使得意图被听到靠近收听者的一个或多个特定的声音仅在所述近场信号中传送，并且所述近场信号用于消除所述远场声学音频中的相同特定的一个或多个声音。

34.根据前面的权利要求27-33中的任一项所述的方法，其中所述近场信号通过收听者的头部相关传递函数(HRTF)修改以提供增强的空间性。

35.一种装置，包括：

一个或多个处理器；以及

存储器，所述存储器存储指令，所述指令在由所述一个或多个处理器执行时使所述一个或多个处理器执行权利要求22-34中所述的方法中的任何一个。

36.一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质已在其上存储指令，所述指令在由一个或多个处理器执行时使所述一个或多个处理器执行权利要求22-34中所述的方法中的任何一个。