CN112262585A

CN112262585A - 环境立体声深度提取

Info

Publication number: CN112262585A
Application number: CN201880094417.5A
Authority: CN
Inventors: E·斯特因
Original assignee: DTS Inc
Current assignee: DTS Inc
Priority date: 2018-04-08
Filing date: 2018-12-06
Publication date: 2021-01-22
Anticipated expiration: 2038-12-06
Also published as: US20190310759A1; KR102622714B1; WO2019199610A1; EP3777244A1; US20190313200A1; KR20210006909A; WO2019199359A1; US10609503B2; US11036350B2; KR20210003790A; EP3776157A1; EP3777244A4; CN112437911A; CN112262585B

Abstract

本文描述的系统和方法可以被配置为从编码的3D音频混合中识别、操纵和渲染不同的音频源分量，例如可以包括相对于听者针对方位角、俯仰和/或深度混合的内容。该系统和方法可以被配置为去耦合深度编码和解码，以允许空间性能被定制于特定的回放环境或平台。在示例中，该系统和方法改进涉及听者跟踪的应用中的渲染，包括跟踪六个自由度(例如，偏航、滚动方向和x、y、z位置)。

Description

环境立体声深度提取

相关申请和优先权声明

本申请涉及并要求2018年4月8日提交的标题为“Single Depth Extracion fromExtended Depth Ambionics/ESAF”的美国临时申请号62/654435的优先权，其全部内容通过引用并入本文。

技术领域

本专利文件中描述的技术涉及用于在声音再现系统中合成空间音频的系统和方法。

背景技术

几十年来，空间音频再现吸引了音频工程师和消费电子行业的兴趣。空间声音再现需要必须根据应用的上下文(例如，音乐会表演、电影院、家用高保真设备、计算机显示器、个人头盔显示器)配置的双声道或多声道电声系统(例如，扬声器、耳机)，这在Jot，Jean-Marc的“Real-Time Spatial Processing of Sounds for Music，Multimedia andInteractive Human-Computer Interfaces，”IRCAM，1Place Igor-Stravinsky 1997(以下称为“Jot，1997”)中进一步描述，该文献通过引用并入本文。

用于电影和家庭视频娱乐行业的音频记录和再现技术的发展导致了各种多声道“环绕立体声”记录格式的标准化(最突出的是5.1和7.1格式)。已经开发了用于在记录中编码三维音频提示的各种音频记录格式。这些3-D音频格式包括含有升高的扬声器声道的环境立体声(Ambisonics)和离散多声道音频格式，例如NHK 22.2格式。

下混合(downmix)被包括在各种多声道数字音频格式(例如，来自加利福尼亚州卡拉巴萨斯的DTS公司的DTS-ES和DTS-HD)的声带(soundtrack)数据流中。该下混合是后向兼容的，并且可以由传统解码器解码并在现有回放设备上重现。该下混合包括数据流扩展，该数据流扩展承载了被传统解码器忽略但可以被非传统解码器使用的附加音频声道。例如，DTS-HD解码器可以恢复这些附加声道，减去它们在后向兼容下混合中的贡献，并且以不同于后向兼容格式的、包括升高的扬声器位置的目标空间音频格式来渲染它们。在DTS-HD中，附加声道在后向兼容混合中和目标空间音频格式中的贡献由一组混合系数(例如，每个扬声器声道一个)来描述。在编码阶段，声带预期的目标空间音频格式被指定。

该方法允许以数据流的形式编码多声道音频声带，该数据流与传统环绕立体声解码器和同样在编码/产生阶段选择的一个或多个备选目标空间音频格式兼容。这些备选目标格式可以包括适合于改进的三维音频提示再现的格式。然而，该方案的一个限制在于，为另一种目标空间音频格式编码相同的声带需要返回到产生设施，以便记录和编码针对新格式混合的声带的新版本。

基于对象的音频场景编码提供了独立于目标空间音频格式的声带编码的一般解决方案。基于对象的音频场景编码系统的示例是针对场景的MPEG-4高级音频二进制格式(AABIFS)。在该方法中，每个源信号与渲染提示数据流一起被独个地发送。该数据流携带空间音频场景渲染系统的参数的时变值。这组参数可以以与格式无关的音频场景描述的形式提供，从而可以通过根据该格式设计渲染系统来以任何目标空间音频格式渲染声带。每个源信号与其相关联的渲染提示结合定义“音频对象”。该方法使得渲染器能够实现可用于以在再现端选择的任何目标空间音频格式来渲染每个音频对象的最精确的空间音频合成技术。基于对象的音频场景编码系统还允许在解码阶段对所渲染的音频场景进行交互式修改，包括重新混合、音乐重新解释(例如，卡拉OK)或场景中的虚拟导航(例如，视频游戏)。

对多声道音频信号的低比特率传输或存储的需求推动了新的频域空间音频编码(SAC)技术的发展，包括双耳提示编码(BCC)和MPEG环绕。在示例性SAC技术中，M声道音频信号以伴随有空间提示数据流的下混合音频信号的形式被编码，该空间提示数据流描述在时频域中存在于原始M声道信号中的声道间关系(声道间相关性和级别差)。由于下混合信号包括少于M个音频声道并且空间提示数据速率与音频信号数据速率相比较小，因此该编码方法显著降低了数据速率。此外，可以选择下混合格式以有助于与传统设备的后向兼容性。

在该方法的变型(如美国专利申请No.2007/0269063中描述的，被称为空间音频场景编码(SASC))中，传输到解码器的时频空间提示数据与格式无关的。这使得能够以任何目标空间音频格式进行空间再现，同时保留在编码的声带数据流中携带后向兼容的下混合信号的能力。然而，在该方法中，经编码的声带数据不定义可分离的音频对象。在大多数记录中，位于声音场景中不同位置的多个声源并发于时频域中。在这种情况下，空间音频解码器不能分离它们在下混合音频信号中的贡献。因此，音频再现的空间保真度可能会受到空间定位误差的影响。

MPEG空间音频对象编码(SAOC)与MPEG环绕的类似之处在于经编码的声带数据流包括后向兼容的下混合音频信号以及时频提示数据流。SAOC是多对象编码技术，其被设计为在单声道或双声道下混合音频信号中传输M个音频对象。与SAOC下混合信号一起发送的SAOC提示数据流包括时频对象混合提示，该时频对象混合提示在每个频率子带中描述被应用于单声道或双声道下混合信号的每个声道中的每个对象输入信号的混合系数。此外，SAOC提示数据流包括频域对象分离提示，该频域对象分离提示允许在解码器侧单独对音频对象进行后处理。SAOC解码器中提供的对象后处理功能模仿基于对象的空间音频场景渲染系统的功能，并支持多种目标空间音频格式。

SAOC提供了一种用于多个音频对象信号以及基于对象的且与格式无关的三维音频场景描述的低比特率传输和计算高效的空间音频渲染的方法。然而，SAOC编码流的传统兼容性仅限于SAOC音频下混合信号的双声道立体声再现，因此不适合扩展现有的多声道环绕声编码格式。此外，应当注意，如果在SAOC解码器中对音频对象信号应用的渲染操作包括某些类型的后处理效果，例如人工混响(因为这些效果在渲染场景中是可以听到的，但是不会同时并入包含未处理的对象信号的下混合信号中)，则SAOC下混合信号不能在感知上表示所渲染的音频场景。

此外，SAOC受到与SAC和SASC技术相同的限制：SAOC解码器不能在下混合信号中完全分离在时频域中并发的音频对象信号。例如，SAOC解码器对对象进行大量放大或衰减通常会导致所渲染场景的音频质量出现不可接受的下降。

空间编码的声带可以通过两种互补的方法产生：(a)用重合或紧密间隔的麦克风系统(基本上放置在场景内听者的虚拟位置处或其附近)记录现有的声音场景，或者(b)合成虚拟声音场景。

第一种方法使用传统的3D双耳音频录制，可以说是通过使用“虚拟头部”麦克风来创造尽可能接近“你在那里”的体验。在这种情况下，声音场景是使用在耳朵处放置麦克风的声学人体模型现场捕捉的。然后，通过耳机在耳朵处重放所记录的音频的双耳重现被用来重建原始的空间感知。传统的虚拟头部记录的限制之一是它们只能捕捉现场事件，而且只能从虚拟的角度和头部方向捕捉。

利用第二种方法，已经开发了数字信号处理(DSP)技术，以通过对虚拟头部(或耳道插入有探头麦克风的人类头部)周围的头部相关传递函数(HRTF)的选择进行采样并对这些测量结果进行内插以近似针对中间任何位置测量的HRTF，来模拟双耳收听。最常用的技术是将所有测量的同侧和对侧HRTF转换为最小相位，并在它们之间执行线性内插，以得出HRTF对。HRTF对与适当的耳间时间延迟(ITD)相结合表示用于期望的合成位置的HRTF。该内插通常在时域中执行，其通常包括时域滤波器的线性组合。内插还可以包括频域分析(例如，在一个或多个频率子带上执行的分析)，随后在频域分析输出之间或当中进行线性内插。时域分析可以提供计算更高效的结果，而频域分析可以提供更精确的结果。在一些实施例中，内插可以包括时域分析和频域分析的组合，诸如时频分析。可以通过减小源相对于仿真距离的增益来模拟距离提示。

该方法已用于模拟远场中的声源，在远场中耳间HRTF差异随距离的变化可以忽略不计。然而，随着源越来越接近头部(例如，“近场”)，头部的大小相对于声源的距离变得显著。这种转变的位置随着频率而变化，但按照惯例，源在大约l米以外(例如，“远场”)。随着声源进一步进入听者的近场，耳间HRTF变化变得显著，特别是在较低的频率。

一些基于HRTF的渲染引擎使用远场HRTF测量结果的数据库，该数据库包括在距听者恒定的径向距离处测量的所有数据。结果，对于比远场HRTF数据库内的原始测量结果近得多的声源，很难精确地模拟与变化的频率有关的HRTF提示。

许多现代3D音频空间化产品选择忽略近场，因为对近场HRTF建模的复杂性传统上过于昂贵，并且近场声学事件传统上在典型的交互式音频模拟中并不是很常见。然而，虚拟现实(VR)和增强现实(AR)应用的出现导致了虚拟对象将经常出现在离用户头部更近的地方的若干应用。对这种对象和事件的更精确的音频模拟已成为必要。

先前已知的基于HRTF的3D音频合成模型使用在听者周围固定距离处测量的HRTF对(即，同侧和对侧)的单个集合。这些测量结果通常发生在远场，那里的HRTF不会随着距离增加而显著改变。结果，可以通过经由适当的远场HRTF滤波器对对声源进行滤波并根据模拟相对于距离的能量损失的与频率无关的增益(例如，平方反比定律)缩放所得到的信号，来模拟更远的声源。

然而，随着声音越来越接近头部，在相同的入射角度下，HRTF频率响应相对于每只耳朵可能发生显著变化，并且不再能用远场测量结果有效地模拟。这种随着对象接近头部模拟其声音的场景对于诸如虚拟现实等较新的应用(其中与对象和化身的更密切的检查和交互将变得更加普遍)来讲特别有兴趣。

全3D对象(例如，音频和元数据位置)的传输已被用于实现头部跟踪和交互，但是这种方法要求每个源有多个音频缓冲器，并且使用的源越多，复杂度就大大增加。此方法可能还需要动态源管理。这种方法不能容易地集成到现有音频格式中。对于固定数量的声道，多声道混合也具有固定的开销，但通常需要较高的声道计数以建立足够的空间分辨率。现有的场景编码(诸如矩阵编码或环境立体声)具有较低的声道计数，但是不包括指示音频信号与听者的所需深度或距离的机制。

附图说明

在不一定按比例绘制的附图中，相同的标号可以在不同的视图中描述相似的组件。具有不同字母后缀的相似数字可以表示相似组件的不同实例。附图一般地以示例的方式而非限制的方式示出了本文档中讨论的各种实施例。

图1A-1C是用于示例音频源位置的近场和远场渲染的示意图。

图2A-2C是用于生成具有距离提示的双耳音频的算法流程图。

图3A示出了估计HRTF提示的方法。

图3B示出了头部相关脉冲响应(HRIR)内插的方法。

图3C是HRIR内插的方法。

图4是针对两个同时声源的第一示意图。

图5是针对两个同时声源的第二示意图。

图6是针对3D声源的示意图，该声源是方位角、仰角和半径(θ，φ，r)的函数。

图7是用于对3D声源应用近场和远场渲染的第一示意图。

图8是用于对3D声源应用近场和远场渲染的第二示意图。

图9示出了HRIR内插的第一时延滤波方法。

图10示出了HRIR内插的第二时延滤波方法。

图11示出了HRIR内插的简化的第二时延滤波方法。

图12示出了简化的近场渲染结构。

图13示出了简化的双源近场渲染结构。

图14是具有头部跟踪的主动解码器(active decoder)的功能框图。

图15是具有深度和头部跟踪的主动解码器的功能框图。

图16是具有单个转向声道‘D’的具有深度和头部跟踪的备选主动解码器的功能框图。

图17是仅具有元数据深度的具有深度和头部跟踪的主动解码器的功能框图。

图18示出了用于虚拟现实应用的示例最佳传输场景。

图19示出了用于主动3D音频解码和渲染的通用架构。

图20示出了针对三个深度的基于深度的子混合的示例。

图21是音频渲染装置的一部分的功能框图。

图22是音频渲染装置的一部分的示意性框图。

图23是近场和远场音频源位置的示意图。

图24是音频渲染装置的一部分的功能框图。

图25一般地示出了包括使用深度信息来确定如何渲染特定源的方法的示例。

图26一般地示出了包括更新HRTF以适应更新的听者位置的示例。

图27A-27C一般地示出了具有和不具有深度提取的编码和/或解码过程的示例。

具体实施方式

本文描述的方法和装置最优地将全3D音频混合(例如，方位角、仰角和深度)表示为其中解码过程有助于头部跟踪的“声音场景”。声音场景渲染可以针对听者的朝向(例如，偏航、俯仰、侧滚)和3D位置(例如，x、y、z)被修改。这提供了将声音场景源位置视为3D位置而不限于相对于听者的位置的能力。可以通过将深度直接编码到源来增强声音场景渲染。这提供了修改传输格式和平移(panning)公式以支持在内容产生期间添加深度指示符的能力。与在混合中应用诸如响度和混响变化之类的深度提示的典型方法不同，该方法将使得能够恢复混合中的源的距离，从而可以针对最终回放能力而非产生侧的能力渲染它。本文讨论的系统和方法可以在任何数量的音频声道中完全表示这样的场景，以提供与通过诸如DTS HD之类的现有音频编解码器的传输的兼容性，然而携带比7.1声道混合多得多的信息(例如，深度、高度)。该方法可以容易地被解码为任何声道布局或通过DTS Headphone:X，其中头部跟踪特征将特别有利于VR应用。该方法还可以实时地用于具有VR监视的内容产生工具，例如由DTS Headphone:X实现的VR监视。当接收传统2D混合(例如，仅方位角和仰角)时，解码器的全3D头部跟踪也是后向兼容的。

一般定义

下面结合附图阐述的详细描述旨在作为对本主题的当前优选实施例的描述，并不旨在表示可以构造或使用本主题的唯一形式。本说明书结合所示实施例阐述了用于开发和操作本主题的功能和步骤序列。应当理解，相同或等同的功能和序列可以由不同实施例来实现，不同实施例也旨在被包含在本主题的范围内。还应当理解，关系性术语(例如，第一、第二)的使用仅用于将一个实体与另一个实体区分开来，而不一定要求或暗示这类实体之间的任何实际的这种关系或顺序。

本主题涉及处理音频信号(即，表示物理声音的信号)。这些音频信号由数字电子信号表示。在下面的讨论中，可能显示或讨论模拟波形来说明概念。然而，应当理解，本主题的典型实施例将在数字字节或字的时间序列的上下文中操作，其中这些字节或字形成模拟信号或最终的物理声音的离散近似。离散的、数字的信号对应于周期性采样的音频波形的数字表示。对于均匀采样，以足以满足感兴趣频率的奈奎斯特采样定理的速率或更高的速率对波形进行采样。在典型实施例中，可以使用每秒约44100个样本(例如，44.1kHz)的均匀采样率，然而也可以备选地使用更高的采样率(例如，96kHz、128kHz)。根据标准数字信号处理技术，量化方案和位分辨率应被选择为满足特定应用的要求。本主题的技术和装置通常将相互依赖地应用于多个声道。例如，它可以用在“环绕”音频系统(例如，具有两个以上声道)的上下文中。

如本文所使用的，“数字音频信号”或“音频信号”并不仅仅描述数学抽象，而是表示在能够由机器或装置检测的物理介质中体现或由其携带的信息。这些术语包括所记录或所传输的信号，并且应该理解为包括通过任何形式的编码进行的传递，包括脉冲编码调制(PCM)或其他编码。输出、输入或中间音频信号可以通过各种已知方法中的任何一种来编码或压缩，包括MPEG、ATRAC、AC3或DTS公司的专有方法，如美国专利No.5974380、5978762和6487535中所描述的。可能需要对计算进行一些修改以适应特定的压缩或编码方法，如将对本领域技术人员显而易见的。

在软件中，音频“编解码器”包括根据给定音频文件格式或流音频格式对数字音频数据进行格式化的计算机程序。大多数编解码器被实现为与一个或多个多媒体播放器(诸如QuickTime Player、XMMS、Winamp、Windows Media Player、Pro Logic或其他编解码器)接口的库。在硬件方面，音频编解码器是指将模拟音频编码为数字信号并将数字解码回模拟的单个或多个设备。换句话说，它包含使用公共时钟的模数转换器(ADC)和数模转换器(DAC)二者。

音频编解码器可以被实现在消费电子设备中，例如DVD播放器、蓝光播放器、电视调谐器、CD播放器、手持播放器、互联网音频/视频设备、游戏控制台、移动电话或另一电子设备。消费电子设备包括中央处理单元(CPU)，CPU可以代表一种或多种常规类型的这种处理器，例如IBM PowerPC、Intel Pentium(x86)处理器或其他处理器。随机存取存储器(RAM)临时存储由CPU执行的数据处理操作的结果，并且通常经由专用存储器通道与其互连。消费电子设备还可以包括同样通过输入/输出(I/O)总线与CPU通信的永久存储设备，例如硬盘驱动器。还可以连接其他类型的存储设备，例如带驱动器、光盘驱动器或其他存储设备。图形卡也可以经由视频总线连接到CPU，其中图形卡将表示显示数据的信号传输到显示监视器。诸如键盘或鼠标之类的外部外围数据输入设备可以通过USB端口连接到音频再现系统。USB控制器针对连接到USB端口的外部外围设备转换来往于CPU的数据和指令。诸如打印机、麦克风、扬声器或其他设备之类的附加设备可以连接到消费电子设备。

消费电子设备可以使用具有图形用户界面(GUI)的操作系统，例如来自华盛顿州雷蒙德的微软公司的Windows、来自加利福尼亚州库比蒂诺的苹果公司的MAC OS、针对诸如Android之类的移动操作系统设计的各种版本的移动GUI或其他操作系统。消费电子设备可以执行一个或多个计算机程序。通常，操作系统和计算机程序有形地体现在计算机可读介质中，其中计算机可读介质包括固定的或可移动的数据存储设备(包括硬盘驱动器)中的一个或多个。操作系统和计算机程序都可以从上述数据存储设备被加载到RAM中，以供CPU执行。计算机程序可以包括指令，指令当由CPU读取和执行时使CPU执行执行本主题的步骤或特征的步骤。

音频编解码器可以包括各种配置或架构。在不脱离本主题的范围的情况下，可以容易地替换任何这样的配置或架构。本领域普通技术人员将认识到，上述序列是计算机可读介质中最常用的，但是在不脱离本主题的范围的情况下，存在其他现有的序列可以被替换。

音频编解码器的一个实施例的元件可以由硬件、固件、软件或其任意组合来实现。当被实现为硬件时，音频编解码器可以在单个音频信号处理器上使用或分布在各种处理组件中。当在软件中实现时，本主题的实施例的元件可以包括执行必要任务的代码段。软件优选地包括执行本主题的一个实施例中描述的操作的实际代码，或者包括模拟或仿真操作的代码。程序或代码段可以被存储在处理器或机器可访问介质中，或者由体现在载波(例如，由载波调制的信号)中的计算机数据信号通过传输介质传输。“处理器可读或可访问介质”或“机器可读或可访问介质”可以包括可存储、传输或传送信息的任何介质。

处理器可读介质的示例包括电子电路、半导体存储设备、只读存储器(ROM)、闪存、可擦除可编程ROM(EPROM)、软盘、压缩盘(CD)ROM、光盘、硬盘、光纤光学介质、射频(RF)链路或其他介质。计算机数据信号可以包括可以通过诸如电子网络信道、光纤、空气、电磁、RF链路或其他传输介质的传输介质传播的任何信号。代码段可以经由诸如因特网、内联网或另一网络的计算机网络下载。机器可访问介质可以体现在制品中。机器可访问介质可以包括数据，该数据当被机器访问时使机器执行以下描述的操作。本文的术语“数据”指的是为机器可读目的而编码的任何类型的信息，其可以包括程序、代码、数据、文件或其他信息。

本主题的实施例的全部或部分可以由软件实现。该软件可以包括若干相互耦合的模块。软件模块耦合到另一模块以生成、发送、接收或处理变量、参数、自变量、指针、结果、更新的变量、指针或其他输入或输出。软件模块还可以是与在平台上执行的操作系统交互的软件驱动器或接口。软件模块也可以是硬件驱动器，以配置、设置、初始化、发送或接收去往或来自硬件设备的数据。

本主题的一个实施例可以被描述为过程，该过程通常被描述为流程图表、流程图、结构图或框图。尽管框图可能将操作描述为顺序过程，但许多操作可以并行或并发执行。此外，操作的顺序可以重新安排。过程可以在其操作完成时终止。过程可以对应于方法、程序、进程或其他步骤组。

本说明书包括用于合成音频信号的方法和装置，特别是在耳机(例如，耳麦)应用中。虽然本公开的各方面是在包括耳机的示例性系统的上下文中提供的，但是应该理解，所描述的方法和装置不限于这种系统，并且本文的教导适用于包括合成音频信号的其他方法和装置。如在下面的描述中使用的，音频对象包括3D位置数据。因此，音频对象应被理解为包括音频源与3D位置数据的特定组合表示，其在位置方面通常是动态的。相反，“声源”是用于在最终混合或渲染中回放或再现的音频信号，并且它具有预期的静态或动态渲染方法或目的。例如，源可以是信号“前左(Front Left)”，或者源可以播放到低频效果(“LFE”)声道或向右平移90度。

本文描述的实施例涉及音频信号的处理。一个实施例包括一种方法，至少一组近场测量结果被用来创建近场听觉事件的印象，其中近场模型与远场模型并行运行。通过两个模型之间的交叉衰落来创建要在由指定的近场和远场模型模拟的区域之间的空间区域中模拟的听觉事件。

本文描述的方法和装置利用在距参考头部的各种距离处(从近场跨越到远场边界)合成或测量的多组头部相关传递函数(HRTF)。可以使用附加的合成或测量的传递函数来延伸到头部内部，即，比近场更近的距离。此外，每组HRTF的相对距离相关增益被归一化为远场HRTF增益。

图1A-1C是用于示例性音频源位置的近场和远场渲染的示意图。图1A是在相对于听者的声音空间(包括近场和远场区域)中定位音频对象的基本示例。图1A提供了使用两个半径的示例，然而，如图1C中所示，可以使用多于两个半径来表示声音空间。特别地，图1C示出了图1A的使用任意数量的有效半径的扩展的示例。图1B示出了图1A的使用球形表示21的示例球形扩展。特别地，图1B示出了对象22可以具有相关联的高度23和到地平面上的相关联的投影25、相关联的仰角27和相关联的方位角29。在这种情况下，可以在半径为Rn的全3D球上采样任何适当数量的HRTF。每个通用半径HRTF集合中的采样不必相同。

如图1A-1B中所示，圆R1表示距听者的远场距离，圆R2表示距听者的近场距离。如图1C中所示，对象可以位于远场位置、近场位置、介于两者之间的某个位置、近场内部或远场之外。多个HRTF(H_xy)被示为与以原点为中心的环R1和R2上的位置相关，其中x表示环号，y表示环上的位置。这种位置相关的HRTF将被称为“通用半径HRTF集合”。图中的远场集合中示出了四个位置权重，近场集合中示出了两个位置权重，使用传统W_xy，其中x表示环号，y表示环上的位置。指示符W_R1和W_R2表示可用于将对象分解为通用半径HRTF集合的加权组合的径向权重。

在图1A和图1B所示的示例中，随着音频对象穿过听者的近场，测量到头部中心的径向距离。识别界定该径向距离的两个测量的HRTF数据集合。对于每一集合，基于声源位置的所需方位角和仰角来导出适当的HRTF对(同侧和对侧)。然后，通过内插每个新的HRTF对的频率响应来创建最终的组合HRTF对。该内插很可能基于要渲染的声源的相对距离和每个HRTF集合的实际测量距离。然后，要渲染的声源由所导出的HRTF对滤波，并且所得到的信号的增益基于到听者头部的距离而增大或减小。随着声源非常接近听者的一只耳朵，可以限制该增益以避免饱和。

每个HRTF集合可以跨越仅在水平面中进行的测量或合成HRTF的集合，或者可以表示听者周围的整个HRTF测量范围。此外，基于径向测量距离，每个HRTF集合可以具有更少或更多数量的样本。

图2A-2C是指示生成具有距离提示的双耳音频的示例的算法流程图。图2A表示根据本主题的各方面的样本流程。在线路12上输入音频对象的音频和位置元数据10。该元数据用于确定径向权重W_R1和W_R2，如框13中所示。此外，在框14，评估元数据以确定该对象位于远场边界之内还是之外。如果对象位于由线16表示的远场区域内，则下一步骤17是确定远场HRTF权重，例如图1A中所示的W₁₁和W₁₂。如果对象不位于远场内，如线18所示，则评估元数据以确定对象是否位于近场边界内，如框20所示。如果对象位于近场和远场边界之间，如线22所示，则下一步骤是确定远场HRTF权重(框17)和近场HRTF权重，例如图1A中的W₂₁和W₂₂(框23)。如果对象位于近场边界内，如线24所示，则下一步骤是在框23确定近场HRTF权重。一旦计算出适当的径向权重、近场HRTF权重和远场HRTF权重，则在26、28将它们组合。最后，在框30，然后利用组合权重对音频对象进行滤波，以产生具有距离提示32的双耳音频。以这种方式，径向权重用于进一步缩放来自每个通用半径HRTF集合的HRTF权重，并创建距离增益/衰减以重建对象位于所需位置的感觉。同样的方法可以扩展到任何半径，其中超出远场的值会导致由径向权重应用的距离衰减。任何小于近场边界R2的半径(被称为“内部”)可以通过由仅HRTF的近场集合的某种组合来重建。单个HRTF可以用来表示被认为位于听者的耳朵之间的单声道“中间声道”的位置。

图3A示出了估计HRTF提示的方法。HL(θ，φ)和HR(θ，φ)表示在单位球(远场)上的(方位角＝θ，俯＝φ)处的针对源在左耳和右耳处测量的最小相位头部相关脉冲响应(HRIR)。τ_L和τ_R表示到达每只耳朵的飞行时间(通常移除了过量的通用延迟)。

图3B示出了HRIR内插的方法。在这种情况下，存在预先测量的最小相位左耳和右耳HRIR的数据库。通过对所存储的远场HRIR的加权组合求和，得出给定方向的HRIR。加权是由被确定为角度位置的函数的增益阵列确定的。例如，距离期望位置最近的四个采样HRIR的增益可以具有与到源的角度距离成正比的正增益，而所有其他增益设置为零。备选地，如果在方位角和仰角方向上都对HRIR数据库进行采样，则可以使用VBAP/VBIP或类似的3D平移器(panner)将增益应用于三个最近的测量HRIR。

图3C是HRIR内插的方法。图3C是图3B的简化版本。粗线表示一簇一个以上声道(等于我们数据库中存储的HRIR的数量)。G(θ，φ)表示HRIR加权增益阵列，并且可以假设它对于左耳和右耳是相同的。H_L(f)、H_R(f)表示左耳和右耳HRIR的固定数据库。

此外，一种导出目标HRTF对的方法是基于已知技术(时域或频域)从每个最接近的测量环内插两个最接近的HRTF，然后基于到源的径向距离在这两个测量结果之间进一步内插。这些技术由针对位于O1处的对象的公式(1)和针对位于O2处的对象的公式(2)来描述。注意，H_xy表示在测量的环y中的位置索引x处测量的HRTF对。H_xy是与频率有关的函数。α、β和δ都是内插加权函数。它们也可以是频率的函数。

O1＝δ₁₁(α₁₁H₁₁+α₁₂H₁₂)+δ₁₂(β₁₁H₂₁+β₁₂H₂₂) (1)

O2＝δ₂₁(α₂₁H₂₁+α₂₂H₂₂)+δ₂₂(β₂₁H₃₁+β₂₂H₃₂) (2)

在本示例中，所测量的HRTF集合是在听者周围的环中测量的(方位角，固定半径)。在其他实施例中，可以在球(方位角和仰角、固定半径)周围测量HRTF，并且可以在两个或更多个测量结果之间内插HRTF。径向内插将保持不变。

HRTF建模的另一个要素涉及随着声源越来越接近头部，音频的响度呈指数增加。一般地，到头部的距离每减一半，声音的响度将会翻倍。因此，例如，在0.25m处的声源音量将是当在1m处测量时相同声音的大约四倍。类似地，在0.25米处测量的HRTF的增益将是在1m处测量的相同HRTF的四倍。在该实施例中，所有HRTF数据库的增益被归一化，使得感知增益不随距离改变。这意味着HRTF数据库可以以最大位分辨率存储。然后，与距离相关的增益也可以在渲染时被应用于所导出的近场HRTF近似。这允许实施者使用他们想要的任何距离模型。例如，随着HRTF增益接近头部，可以将其限制为某个最大值，这可能会减少或防止信号增益变得过于失真或控制限制器。

图2B表示包括距听者的多于两个径向距离的扩展算法。可选地，在该配置中，可以针对每个感兴趣的半径计算HRTF权重，但是针对与音频对象的位置无关的距离，某些权重可以为零。在一些情况下，这些计算可以导致零权重，并且可以有条件地省略，如图2A的示例中那样。

图2C示出了包括计算耳间时延(ITD)的又一示例。在远场，通常在最初没有通过在测量的HRTF之间进行内插而测量的位置导出近似的HRTF对。这通常是通过将测量的消声HRTF对转换为它们的最小相位等同量并用分数时延近似ITD来实现的。这对于远场很有效，因为只有一个HRTF集合，并且这个HRTF集合是在某个固定距离测量的。在一个实施例中，确定声源的径向距离，并识别两个最近的HRTF测量组。如果源在最远的集合之外，则实现方式与仅有一个远场测量集合可用时的实现方式相同。在近场内，从距要建模的声源的两个最近的HRTF数据库中的每一个导出两个HRTF对，并且进一步内插这些HRTF对，以基于目标到参考测量距离的相对距离来导出目标HRTF对。然后，目标方位角和仰角所需的ITD可以从ITD的查找表中得出，或者可以计算出来。注意，在近场内或近场外的相似方向上，ITD值可能没有显著差异。

图4是针对两个同时声源的第一示意图。使用该方案，虚线内的部分可以是角度距离的函数，同时HRIR保持固定。相同的左耳和右耳HRIR数据库在此配置中被实现两次。同样，粗体箭头表示与数据库中的HRIR数量相等的一簇信号。

图5是针对两个同时的声源的第二示意图。图5示出不必针对每个新的3D源内插HRIR。对于线性、时不变系统，其输出可以在固定滤波块之前混合。也就是说，无论使用的3D源的数目是多少，固定的滤波器开销都可以合并并产生一次。

图6是作为方位角、仰角和半径(θ，φ，r)的函数的3D声源的示意图。在本示例中，输入根据到源的径向距离被缩放，并且可以基于标准距离滚降曲线。这种方法的一个问题是，虽然这种与频率无关的距离缩放在远场有效，但在近场(例如，r<l)可能不同样奏效，因为针对固定的(θ，φ)，随着源接近头部，HRIR的频率响应可以变化。

图7是针对对3D声源应用近场和远场渲染的第一示意图。在图7中，假设存在被表示为方位角、仰角和半径的函数的单个3D源。一种技术实现了单个距离。根据本主题的各个方面，采样了两个独立的远场和近场HRIR数据库。然后在这两个数据库之间应用交叉衰落作为径向距离的函数，r<1。近场HRIRS的增益被归一化到远场HRIRS，以减小在测量结果中看到的频率无关的距离增益。当r<1时，基于由g(r)定义的距离滚降函数，这些增益被重新插入于输入。在示例中，当r>1时，g_FF(r)＝1且g_NF(r)＝0，而当r<1时，g_FF(r)和g_NF(r)是距离的函数，例如，g_FF(r)＝a，g_NF(r)＝1-a。

图8是用于对3D声源应用近场和远场渲染的第二示意图。图8类似于图7，但具有在距头部不同距离处测量的两个近场HRIR集合。该示例可以提供近场HRIR随径向距离变化的更好的采样覆盖。

图9示出了HRIR内插的第一时延滤波方法。在示例中，图9可以是图3B的备选。与图3B相反，图9提供HRIR时延被存储为固定滤波器结构的一部分。在图9的示例中，基于导出的增益来用HRIR内插ITD。ITD不会基于3D源角度进行更新。在该示例中，两次应用相同的增益网络(例如，在图9中由框80表示)。

图10示出了HRIR内插的第二时延滤波方法。通过经由网络块90应用一个增益集合，例如针对两只耳朵使用函数G(θ，φ)和单个更大的滤波器结构H(f)，图10克服了图9中增益的双重应用。图10的示例中所示的配置的一个优点是它使用一半数目的增益和相应数目的声道，但是该优点可以以HRIR内插精度为代价而获得。

图11示出了HRIR内插的简化的第二时延滤波方法。图11是具有两个不同3D源的图10的简化描绘，类似于图5的示例。

图12示出了简化的近场渲染结构。图12使用更简化的结构(针对一个源)实现近场渲染。该配置类似于图7的示例，但具有更简单的实现方式。

图13示出了简化的双源近场渲染结构。图13类似于图12，但包括两个近场HRIR数据库集合。

前面的实施例假设随着每个源位置更新并且针对每个3D声源计算不同的近场HRTF对。因此，处理要求将随要渲染的3D源的数量线性缩放。这通常是不希望的特征，因为用于实现3D音频渲染解决方案的处理器可能很快地且以不确定的方式超出其分配的资源(或许取决于在任何给定时间要渲染的内容)。例如，许多游戏引擎的音频处理预算可能最多占CPU的3％。

图21是音频再现设备的一部分的功能框图。与可变滤波开销相反，可能需要具有固定且可预测的滤波开销，每个源的开销较小。这可以允许以更确定的方式针对给定的资源预算渲染更多数量的声源。

图21示出了使用固定滤波器网络60、混合器62以及每个对象的增益和延迟的附加网络64的HRTF实现方式。在该实施例中，每个对象的延迟网络包括三个增益/延迟模块66、68和70，分别具有输入72、74和76。

图22是音频再现装置的一部分的示意性框图。具体地，图22示出了使用图21中概述的基本拓扑的实施例，包括固定音频滤波器网络80、混频器82和每个对象的增益延迟网络84。在该示例中，如图2C流程图中所描述的，每个源的ITD模型允许对每个对象进行更精确的延迟控制。声源被应用于每个对象的增益延迟网络84的输入86，其通过应用节能增益或权重88、90对在近场HRTF和远场HRTF之间进行划分，节能增益或权重88、90是相对于每个测量集合的径向距离、基于声音的距离导出的。耳间时延(ITD)92、94被应用来相对于右信号延迟左信号。在框96、98、100和102中进一步调整信号级别。

该实施例使用单个3D音频对象、表示大于约1米远的四个位置的远场HRTF集合和表示比约1米近的四个位置的近场HRTF集合。假设已经将任何基于距离的增益或滤波应用于该系统的输入的上游的音频对象。在该实施例中，针对位于远场中的所有源，G_NEAR＝0。

左耳和右耳信号相对于彼此延迟，以针对近场和远场信号贡献模仿ITD。针对左耳和右耳以及近场和远场的每个信号贡献由四个增益的矩阵加权，这四个增益的值由音频对象相对于所采样的HRTF位置的位置来确定。HRTF 104、106、108和110被存储，其中耳间延迟诸如在最小相位滤波器网络中移除。每个滤波器组的贡献被合计到左112或右114输出，并被发送到耳机以供双耳收听。

对于受存储器或信道带宽限制的实现方式，可以实现提供类似探测结果但不需要基于每个源实现ITD的系统。

图23是近场和远场音频源位置的示意图。具体地，图23示出了使用固定滤波器网络120、混合器122和每个对象的增益的附加网络124的HRTF实现方式。在这种情况下，不应用每个源的ITD。在被提供给混合器122之前，每个对象的处理应用针对每个通用半径HRTF集合136和138的HRTF权重以及径向权重130、132。

在图23所示的情况下，固定滤波器网络实现HRTF集合126、128，其中保留原始HRTF对的ITD。结果，针对近场和远场信号路径，该实现方式只需要单个增益集合136、138。声源被应用于每个对象的增益延迟网络124的输入134，其通过应用能量或幅度保持增益对130、132在近场HRTF和远场HRTF之间进行划分，该能量或幅度保持增益130、132是基于声音相对于每个测量集合的径向距离导出的。在框136和138中进一步调整信号级别。每个滤波器组的贡献被合计到左140或右142输出，并被发送到耳机以供双耳收听。

这种实现方式的缺点是，由于两个或更多对侧HRTF(每个具有不同时延)之间的内插，所渲染对象的空间分辨率将不那么聚焦。利用充分采样的HRTF网络可以最小化相关联伪影的可听性。对于稀疏采样的HRTF集合，可以听到与对侧滤波器求和相关联的梳状滤波，尤其是在采样的HRTF位置之间。

所描述的实施例包括以足够的空间分辨率采样的至少一个远场HRTF集合，以便提供有效的交互式3D音频体验，以及接近左耳和右耳采样的近场HRTF对。虽然在这种情况下近场HRTF数据空间被稀疏采样，但效果仍然非常令人信服。在进一步的简化中，可以使用单个近场或“中间”HRTF。在这种最小化情况下，只有当远场集合是活动的时，方向性才是可能的。

图24是音频再现装置的一部分的功能框图。在示例中，图24表示上述各种示例的简化实现方式。实际实现方式可能具有更大的被采样的远场HRTF位置集合，这些HRTF位置也是在三维收听空间周围采样的。此外，在各种实施例中，输出可以经受附加处理步骤，例如串扰消除，以创建适合于扬声器再现的跨耳信号。类似地，要注意，跨越通用半径集合的距离平移可用于创建子混合(例如，图23中的混合块122)，使得其适合于在其他适当配置的网络上的存储/传输/转码或其他延迟渲染。

上面的说明书描述了用于音频对象在声音空间中的近场渲染的方法和装置。在近场和远场中渲染音频对象的能力使得能够完全渲染不仅是对象的深度，而且能够完全渲染利用主动转向/平移解码的任何空间音频混合的深度，例如环境立体声、矩阵编码等，从而实现超过水平面中的简单旋转的完全直移头部跟踪(例如，用户移动)、或6自由度(6-DOF)跟踪和渲染。现在将描述用于将深度信息附加到例如通过捕获或通过环境立体声平移创建的环境立体声混合的方法和装置。本文所描述的技术通常使用一阶环境立体声作为示例，但是这些技术也可以应用于三阶或更高阶的环境立体声。

环境立体声基础

在多声道混合会从多个进入信号捕获声音作为贡献的情况下，环境立体声提供捕获或编码代表来自单个点的声场中所有声音的方向的固定信号集合。换句话说，相同的环境立体声信号可以用来在任意数量的扬声器上重新渲染声场。在多声道的情况下，可以限制为再现源自声道组合的源。例如，如果没有高度声道，则不会传输高度信息。另一方面，在环境立体声中，可以捕获和传输关于全方向性图片的信息，并且通常只在再现时施加限制。

考虑1阶(例如，B-格式)平移方程集合，其在很大程度上可以被认为是在兴趣点处的虚拟麦克风：

W＝S*1/√2，其中W＝全向组分；

X＝S*cos(θ)*cos(φ)，其中X＝图8指向前；

Y＝S*sin(θ)*cos(φ)，其中Y＝图8指向右；

Z＝S*sin(φ)，其中Z＝图8指向上；

并且S是要平移的信号。

根据这四个信号(W、X、Y和Z)，可以创建指向任何方向的虚拟麦克风。因此，接收这些信号的解码器主要负责重建指向用于渲染的每个扬声器的虚拟麦克风。这项技术在很大程度上是有效的，但在某些情况下，它只能像使用真正的麦克风来捕捉响应一样好。因此，虽然解码信号可能具有针对每个输出声道的期望信号，但是每个声道也将包括一定量的泄漏或“渗漏”，因此对于设计最佳地代表解码器布局的解码器存在一些技术，特别是在其具有非均匀间距的情况下。这就是为什么许多环境立体声重现系统使用对称布局(四边形、六边形等)的原因。

这些种类的解决方案自然支持头部跟踪，因为解码是通过WXYZ方向性转向信号的组合权重来实现的。例如，为了旋转B-格式混合，可以在解码之前对WXYZ信号应用旋转矩阵，并且结果将解码到适当调整的方向。然而，这样的解决方案可能不能实现直移(translation)(例如，用户移动或听者位置的改变)。

主动解码扩展

需要防止泄漏并提高非均匀布局的性能。主动解码解决方案(例如Harpex或DirAC)不会形成用于解码的虚拟麦克风。相反，他们检查声场的方向、重建信号、并特别按照他们针对每个时频识别的方向渲染信号。虽然这极大地提高了解码的指向性(directivity)，但它限制了方向性(directionality)，因为每个时频片都使用硬判决。在DirAC的情况下，它对每个时频进行单方向假设。在Harpex的情况下，可以检测两个方向性波前。在任一系统中，解码器都可以提供对方向性判决应该有多软或多硬的控制。这样的控制在本文中被称为“焦点”的参数，它可以是允许软聚焦、内平移或软化方向性断言的其他方法的有用的元数据参数。

即使在主动解码器的情况下，距离也是关键的缺失功能。虽然方向被直接编码在环境立体声平移方程中，但是除了基于声源距离对级别或混响比的简单改变之外，关于声源距离的任何信息都不能被直接编码。在环境立体声捕获/解码方案中，可以且应该针对麦克风“接近度”或“麦克风邻近度”进行频谱补偿，但这不允许主动解码在例如2米处的一个源和在4米处的另一个源。这是因为信号仅限于携带方向性信息。事实上，被动解码器性能取决于这样一个事实，即如果听者恰到好处地位于最佳位置并且所有声道都是等距离的，则泄漏将不会成为问题。这些条件最大限度地重建了预期的声场。

此外，在B-格式的WXYZ信号中旋转的头部跟踪解决方案将不允许具有平移的变换矩阵。虽然坐标可以允许投影向量(例如，均匀坐标)，但是很难或不可能在操作之后重新编码(这将导致修改丢失)，并且很难或不可能渲染它。需要克服这些限制。

具有直移的头部跟踪

图14是具有头部跟踪的主动解码器的功能框图。如上所述，没有直接编码在B-格式信号中的深度考虑。解码时，渲染器将假设此声场表示作为在扬声器距离处渲染的声场的一部分的源的方向。然而，通过使用主动转向，将所形成的信号渲染到特定方向的能力仅受平移器的选择的限制。在功能上，这由图14表示，其示出了具有头部跟踪的主动解码器。

如果所选平移器是使用上述近场渲染技术的“距离平移器”，则随着听者的移动，可以通过同质的坐标变换矩阵来修改源位置(在这种情况下是每个区间组的空间分析的结果)，该均匀坐标变换矩阵包括所需的旋转和平移，以利用绝对坐标在全3D空间中完全渲染每个信号。例如，图14中所示的主动解码器接收输入信号28，并使用FFT 30将该信号转换到时域。转换后的信号可以使用空间分析32来处理，诸如使用时域信号来确定一个或多个信号的相对位置。例如，空间分析32可以确定第一声源位于用户前面(例如，0°方位角)，而第二声源位于用户的右侧(例如，90°方位角)。在示例中，框32处的空间分析(例如，针对图14、15、16、17和19的任何示例)可以包括定位要在相对于听者位置的预期深度处渲染的虚拟源，包括当虚拟源基于来自一个或多个空间音频信号的信息并且每个空间音频信号对应于相对于参考位置的相应不同参考深度时，如本文其他部分所讨论的。在示例中，空间音频信号是或包括子混合的一部分。信号形成34使用时域信号来生成这些源，这些源被输出为具有相关联的元数据的声音对象。主动转向38可以从空间分析32或信号形成34接收输入，并旋转(例如，平移)信号。具体地，主动转向38可以接收来自信号形成34的源输出，并且可以基于空间分析32的输出来平移该源。主动转向38还可以从头部跟踪器36接收旋转或直移输入。基于旋转或直移输入，主动转向旋转或直移声源。例如，如果头部跟踪器36指示逆时针旋转90°，则第一声源将从用户的前面旋转到左面，而第二声源将从用户的右面旋转到前面。一旦在主动转向38中应用任何旋转或直移输入，输出就被提供给逆FFT 40，并用于生成一个或多个远场声道42或一个或多个近场声道44。源位置的修改还可以包括类似于3D图形领域中使用的源位置修改的技术。

主动转向方法可以使用(从空间分析计算的)方向和平移算法，例如VBAP。通过使用方向和平移算法，支持直移的计算增加主要在于改变到4x4变换矩阵(而不是仅旋转所需的3x3)、距离平移(大致是原始平移方法的两倍)以及针对近场声道的附加逆快速傅立叶变换(IFFT)的成本。注意，在这种情况下，4x4旋转和平移操作作用于数据坐标上，而不是信号上，这意味着随着区间分组增加，计算成本降低。图14的输出混合可以用作针对如上所述和图21所示的具有近场支持的类似配置的固定HRTF滤波器网络的输入，因此图14在功能上可以用作针对环境立体声对象的增益/延迟网络。

深度编码

一旦解码器支持具有直移的头部跟踪并且具有相当精确的渲染(由于主动解码)，将期望直接对到源的深度进行编码。换句话说，期望修改传输格式和平移公式以支持在内容产生期间添加深度指示符。与在混合中应用深度提示(例如响度和混响变化)的典型方法不同，这种方法将能够恢复混合中源的距离，以便它可以针对除产生侧的能力以外的最终回放功能被渲染。本文讨论了三种具有不同权衡的方法，其中权衡可以根据可允许的计算成本、复杂性和诸如后向兼容性等要求来进行。

基于深度的子混合(N个混合)

图15是具有深度和头部跟踪的主动解码器的功能框图。在示例中，图15提供了一种支持对“N”个独立的B-格式混合(每个混合具有相关联的元数据(或假设)深度)进行并行解码的方法。在图15的示例中，近场和远场B-格式被渲染为独立的混合以及可选的“中间”声道。近场Z声道也是可选的，因为某些实现方式可能不会渲染近场高度声道。当被丢弃时，高度信息被投射到远/中场中，或者使用下面讨论的用于近场编码的伪邻近性(FauxProximity)(“Froximity”)方法。结果是等同于上述的“距离平移器”/“近场渲染器”的环境立体声，其中各种深度混合(近、远、中等)保持分离。然而，在所示情况下，对于任何解码配置，总共有8或9个声道的传输，并且对于每个深度都有完全独立的灵活的解码布局。就像距离平移器一样，这可以概括到“N”个混合，然而，在许多情况下，可以使用两个混合(例如，一个混合用于远场，一个混合用于近场)，并且比远场更远的源可以在远场中混合，诸如具有距离衰减。近场内部的源可以放置在近场混合中，具有或不具有“Froximity”样式修改或投射，使得半径为0的源在没有方向的情况下被渲染。

要概括这一过程，需要将一些元数据与每种混合相关联。在示例中，每个混合可以利用以下标记：(1)混合的距离，以及(2)混合的聚焦(例如，指示混合应该被解码的急剧程度，例如使得头部内部的混合不会通过太多的主动转向被解码)。其他实施例可以使用湿/干混合参数来指示如果存在具有更多或更少反射(或可调谐反射引擎)的HRIR的选择，则使用哪个空间模型。优选地，将对布局做出适当的假设，以便不需要额外的元数据来将其作为8声道混合来发送，从而使其与现有的流和工具兼容。

‘D’声道(如在WXYZD中的)

图16是具有以单个转向声道‘D’进行深度和头部跟踪的备选主动解码器的功能框图。图16是用一个或多个深度(或距离)声道‘D’替换可能冗余的信号(WXYZ近)集合的备选方法。深度声道用于编码关于环境立体声混合的有效深度的时频信息，解码器可以使用该信息在每个频率处对声源进行距离渲染。‘D’声道将编码为归一化距离，作为一个示例，该归一化距离可以被恢复为值0(在原点的头部)，0.25正好在近场，并且针对完全在远场中渲染的源高达1。该编码可以通过使用绝对值参考(例如，OdBFS)或者通过相对于一个或多个其他声道(例如，“W”声道)的相对幅度和/或相位来实现。超出远场而导致的任何实际距离衰减都由混合的B-格式部分处理，就像在传统解决方案中一样。

通过以这种方式处理距离，通过丢弃D声道，B-格式声道在功能上与正常解码器后向兼容，导致假设距离为1或“远场”。然而，我们的解码器将能够利用这些信号来在近场内外进行转向。由于不需要外部元数据，因此信号可以与传统5.1音频编解码器兼容。与“N个混合”解决方案一样，额外的声道是信号速率，并且是针对所有时频定义的。这意味着，只要它与B-格式声道保持同步，它也可以与任何区间分组或频域片兼容。这两个兼容性因素使其成为特别可伸缩的解决方案。编码D声道的一种方法是在每个频率处使用W声道的相对幅度。如果D声道在特定频率的幅度与W声道在该频率处的幅度完全相同，则该频率处的有效距离为1或“远场”。如果D声道在特定频率处的幅度为0，则该频率处的有效距离为0，其对应于听者头部的中间。在另一示例中，如果D声道在特定频率处的幅度是W声道在该频率处的幅度的0.25倍，则有效距离是0.25或“近场”。同样的思想可以用于使用W声道在每个频率处的相对功率来编码D声道。

编码D声道的另一方法是执行方向分析(空间分析)，该方向分析(空间分析)与解码器用来提取与每个频率相关联的声源方向的方向分析(空间分析)完全相同。如果在特定频率处仅检测到一个声源，则编码与该声源相关联的距离。如果在特定频率处检测到多于一个声源，则编码与这些声源相关联的距离的加权平均。

备选地，可以通过在特定时间帧处执行每个单独声源的频率分析来编码距离声道。可以将每个频率处的距离编码为与该频率处的最主要声源相关联的距离，或者编码为与该频率处的活动声源相关联的距离的加权平均。上述技术可以扩展到附加的D个声道，例如扩展到总共N个声道。在解码器可以在每个频率支持多个声源方向的情况下，可以包括附加的D个声道以支持在这些多个方向上扩展距离。需要注意确保源方向和源距离保持与正确的编码/解码顺序相关联。

伪邻近性或“Froximity”编码是用于添加‘D’声道的备选编码系统，例如修改‘W’声道使得W中的信号与XYZ中的信号的比率指示期望的距离。然而，该系统并不后向兼容到标准B-格式，因为典型的解码器需要固定的声道比率以确保解码时的节能。该系统将需要“信号形成”部分中的主动解码逻辑来补偿这些级别波动，而编码器将需要方向分析来预补偿XYZ信号。此外，该系统在将多个相关源转向到相反侧时有局限性。例如，在XYZ编码时，两个源左侧/右侧、正面/背面或顶部/底部将降为0。因此，解码器将被迫对该频段做出“零方向”假设，并将两个源都渲染到中间。在这种情况下，单独的D声道可以允许源都被转向为具有距离‘D’。

为了最大化邻近度渲染的能力以指示邻近度，优选的编码将是随着源接近而增加W声道能量。这可以通过XYZ声道中的额外减少来平衡。这种邻近度方式通过在增加整体归一化能量的同时降低“指向性”来同时编码“接近度”——从而产生更“当前”的源。这可以通过主动解码方法或动态深度增强来进一步增强。

图17是具有深度和头部跟踪的主动解码器的功能框图，仅具有元数据深度。备选地，使用完整的元数据是个选项。在该备选方案中，B-格式信号仅用可以与其一起发送的任何元数据来扩充。这如图17中所示。至少，元数据定义了整个环境立体声信号的深度(例如将混合标记为近或远)，但理想情况下，它将在多个频带处采样，以防止一个源修改整个混合的距离。

在示例中，所需的元数据包括深度(或半径)和“焦点”以渲染混合，它们是与上面的N个混合解决方案相同的参数。优选地，该元数据是动态的，并且可以随着内容而改变，并且是逐个频率的或者至少在分组值的临界频带中。

在示例中，可选参数可以包括湿/干混合，或者具有或多或少的早期反射或“房间声音”。然后可以将其作为早期反射/混响混合级别上的控制提供给渲染器。应该注意，这可以使用近场或远场双耳房间脉冲响应(BRIR)来实现，其中BRIR也是近似干的。

空间信号的最佳传输

在以上方法中，我们描述了扩展环境立体声B-格式的特定情况。在本文档的其余部分，我们将在更广泛的上下文中关注空间场景编码的扩展，但这有助于突出当前主题的关键元素。

图18示出了用于虚拟现实应用的示例性最佳传输场景。期望的是识别复杂声音场景的有效表示，其在保持相对较低的传输带宽的同时优化高级空间渲染器的性能。在理想的解决方案中，复杂的声音场景(具有包括高度和深度信息的完整3D定位的多源、床混合或声场)可以用与标准仅音频编解码器兼容的最小数量的音频声道完全表示。换句话说，理想的是不创建新的编解码器或依赖元数据旁声道，而是在现有传输路径上承载最佳流，其通常为仅音频。很明显，取决于诸如高度和深度渲染之类的高级特征的应用优先级，“最佳”传输变得有些主观。出于本说明书的目的，我们将关注需要全3D和头部或位置跟踪(例如，虚拟现实)的系统。在图18中提供了一般化场景，其是针对虚拟现实的示例性最佳传输场景。

期望的是保持输出格式不可知，并支持对任何布局或渲染方法的解码。应用可能正在尝试对任意数量的音频对象(带位置的单声道音干)、基础/床混合或其他声场表示(例如，环境立体声)进行编码。使用可选的头部/位置跟踪允许恢复源以便重新分布，或者在渲染期间平滑地旋转/直移。此外，由于可能存在视频，因此音频必须以相对较高的空间分辨率产生，这样它才不会脱离声源的视觉表示。应注意，本文描述的实施例不要求视频(如果不包括，则不需要A/V复用和解复用)。此外，多声道音频编解码器可以像无损PCM波数据一样简单，也可以像低比特率感知编码器一样先进，只要它将音频打包成容器格式以供传输即可。

基于对象、声道和场景的表示

最完整的音频表示是通过维护独立的对象(每个对象由一个或多个音频缓冲区和所需的元数据组成，以用正确的方法和位置渲染它们，从而实现所需结果)来实现的。这需要最多数量的音频信号，并且可能更有问题，因为它可能需要动态源管理。

基于声道的解决方案可以被视为对将渲染的内容的空间采样。最终，声道表示必须与最终渲染扬声器布局或HRTF采样分辨率匹配。虽然一般化的上/下混合技术可能允许适应不同的格式，但每次从一种格式转换到另一种格式、适应头部/位置跟踪或其他转换都会导致对源进行“重新平移”。这可能增加最终输出声道之间的相关性，并且在HRTF的情况下可能导致外部化降低。另一方面，声道解决方案与现有的混合架构非常兼容，并且对于加性源是鲁棒的，其中在任何时候向床混合中添加附加源都不会影响已在混合中的源的传输位置。

基于场景的表示更进一步，通过使用音频声道来编码位置音频的描述。这可以包括声道兼容选项，例如矩阵编码，其中最终格式可以作为立体声对播放，或者被“解码”成更接近原始声音场景的更空间化的混合。备选地，像环境立体声(B-格式、UHJ、HOA等)的解决方案可用于将声场描述直接“捕获”为信号集合，该信号集合可以或不可以直接播放，但可以在任何输出格式上空间解码和渲染。这种基于场景的方法可以显著减少声道计数，同时针对有限数量的源提供相似的空间分辨率；然而，场景级别上的多个源的交互实质上将格式降低为丢失个别源的感知方向编码。因此，在解码过程期间可能会发生源泄漏或模糊，从而降低有效分辨率(这可以通过以声道为代价的高阶环境立体声或者通过频域技术来改进)。

改进的基于场景的表示可以使用各种编码技术来实现。例如，通过对编码信号执行空间分析或信号的部分/被动解码、然后经由离散平移将信号的该部分直接渲染到检测到的位置，主动解码减少基于场景的编码的泄漏。例如，DTS神经环绕中的矩阵解码过程或DirAC中的B-格式处理。在某些情况下，可以检测和渲染多个方向，与高角度分辨率平面波扩展(Harpex)的情况一样。

另一技术可以包括频率编码/解码。大多数系统将显著受益于与频率有关的处理。以时频分析和合成的开销为代价，可以在频域中执行空间分析，从而允许不重叠源被独立地转向到它们各自的方向。

另一方法是使用解码的结果来通知编码。例如，当基于多声道的系统被简化为立体声矩阵编码时。矩阵编码在第一遍中进行，被解码，并与原始多声道渲染进行对比分析。基于检测到的错误，利用将最终解码输出与原始多声道内容更好地对齐的校正进行第二遍编码。这种类型的反馈系统最适用于已经具有上述与频率有关的主动解码的方法。

深度渲染与源直移

本文前面描述的距离渲染技术在双耳渲染中实现深度/接近度的感觉。该技术使用距离平移将声源分布在两个或更多个参考距离上。例如，渲染远场和近场HRTF的加权平衡以实现目标深度。在深度信息的编码/传输中，使用这样的距离平移器在各种深度创建子混合也是有用的。一般来说，子混合代表场景编码的相同方向性，但子混合的组合通过它们的相对能量分布揭示深度信息。这样的能量分布可以包括深度的直接量化，例如被均匀地分布或分组以用于相关性，例如“近”和“远”。在示例中，这样的能量分布可以包括相对于参考距离的相对转向或接近或远离，例如，一些信号被理解为比远场混合的其余部分更近。

在没有传输距离信息的示例中，解码器可以使用深度平移来实现包括源的直移的3D头部跟踪。在示例中，可以假设混合中表示的源来自参考方向和参考距离。随着听者在空间中移动，可以使用距离平移器重新平移源，以引入从听者到源的绝对距离的变化感。如果没有使用全3D双耳渲染器，则可以使用其他方法来修改听者对深度的感知，例如，如共同拥有的美国专利No.9332373中所描述的，其内容通过引用结合于此。重要的是，如本文将描述的，音频源的直移需要修改的深度渲染。

传输技术

图19示出了用于主动3D音频解码和渲染的一般化架构。根据编码器的可接受复杂度或其他要求，可以使用以下技术。假设本文讨论的一些解决方案受益于如上所述的与频率有关的主动解码。还可以看出，几种技术关注于深度信息的编码方式，其中使用分层结构的动机是除了音频对象之外，深度不是由任何经典音频格式直接编码的。也就是说，深度可能是需要重新引入的“缺失”维度。图19是用于主动3d音频解码和再现的一般化架构的框图，其可以包括或使用深度提取和重新引入。为了清楚起见，用单箭头示出信号路径，但应当理解，它们表示任意数量的声道或双耳/跨耳信号或信号对。

在图19的示例中，使用空间分析32处理经由音频声道或元数据发送的音频信号和可选的数据。在空间分析32，例如针对多个时频区间中的每一个，可以确定用于渲染信息的期望方向和/或深度。音频源可以经由信号形成34来重建，例如可以包括提供音频声道的加权和、被动矩阵或环境立体声解码。然后，通过主动转向38将音频源主动地渲染到最终音频格式中的期望位置，包括经由头部或位置跟踪(例如来自头部跟踪器36)针对听者移动的任何调整。

所示过程发生在时频分析/合成处理块(例如，如FFT 30和IFFT 40模块所指示)内，然而，应当理解，频率处理不需要基于FFT，而是可以使用任何其他时频表示。此外，所有或部分密钥块可以在时域中执行(不需要与频率有关的处理)。例如，该系统可以用于创建新的基于声道的音频格式，该音频格式可以稍后由HRTF/BRIR集合来渲染，例如在时间和/或频域处理的另一混合中。

头部跟踪器36可以理解为对于特定的听者来说，3D音频应该被调整的旋转和/或直移的任何指示。通常，调整将是偏航/俯仰/侧滚、四元数或旋转矩阵、以及用于调整相对位置的听者位置。可以执行调整，使得音频节目保持与预期声音场景或与其他视觉组件的绝对对准。虽然主动转向可以是很可能的应用，但该位置信息可以用于在其他过程(例如，源信号形成)中通知判决。在示例中，头部跟踪器36提供听者头部旋转和/或直移的指示，例如可以从听者佩戴的传感器或被配置为感测听者的位置或方向的其他环境传感器来确定。在示例中，听者佩戴的传感器可以包括头戴式虚拟现实或增强现实耳机、具有惯性或位置传感器的便携式电子设备、或者来自另一旋转和/或直移跟踪电子设备的输入。可以提供来自头部跟踪器36的关于旋转和/或直移的位置信息作为用户输入，例如来自电子控制器的用户输入。

下面提供并讨论各种解决方案。每个解决方案包括或使用至少主音频信号。该信号可以是任何空间格式或场景编码信号，并且在一些示例中，可以是多声道音频混合、矩阵/相位编码立体声对或环境立体声混合的组合。在示例中，每个信号基于传统表示，并且可以预计针对特定距离或距离组合的每个子混合表示例如左/右、前/后和理想上/下(高度)。

不代表音频样本流的附加可选音频数据信号可以被提供为元数据或被编码为音频信号。它们可用于通知空间分析或转向；然而，由于假设数据是主音频混合的辅助数据，因此通常不需要它们形成用于最终渲染的音频信号。一般来说，如果元数据可用，那么可以预计解决方案将不会使用“音频数据”，但混杂数据解决方案也是可能的。类似地，可以假设最简单和最后向兼容的系统将仅依赖真实音频信号。

深度声道编码

深度-声道编码或‘D’声道包括关于给定子混合的每个时频区间的主要深度/距离的信息，例如使用针对每个区间的幅度和/或相位被编码到音频信号中。例如，相对于最大/参考距离的源距离由相对于0dBFS的每管脚的幅度编码，使得-inf db是没有距离的源，并且满标度是处于参考或最大距离的源。可以假设，超出参考距离或最大距离，仅通过级别降低或距离的其他混合级别指示(例如，在传统混合格式中是可能的)，才认为源改变。换言之，最大或参考距离可以是在没有深度编码的情况下以其他方式渲染源的距离，有时称为远场。

备选地，“D”声道可以是转向信号，使得深度被编码为“D”声道中的幅度和/或相位与一个或多个其他主声道的比率。例如，深度可以被编码为在环境立体声中的“D”与全向“W”声道的比率。通过使其相对于其他信号而不是0dBFS或某个其他绝对级别，编码可以对音频编解码器的编码或诸如级别调整之类的其他音频过程更鲁棒。

如果解码器知道针对该音频数据声道的编码假设，则即使解码器时频分析或感知分组与编码过程中使用的不同，解码器也能够恢复所需的信息。利用这种系统要解决的问题可以是针对给定子混合编码单个深度值。因此，如果要表示多个重叠的源，则在单独的混合中发送这些源，或者选择主导距离。虽然可以将该系统与多声道床混合一起使用，但这样的声道更有可能用于增强环境立体声或矩阵编码的场景，其中解码器中已经分析时频转向，并且声道计数保持在最小。

基于环境立体声的编码

针对所提出的环境立体声解决方案的更详细描述，请参见上面的“具有深度编码的环境立体声”部分。这样的方法将产生最少5声道混合W、X、Y、Z和D，用于传输具有深度的B-格式信号。文中还讨论了伪邻近性或“Froximity”方法，其中必须通过W(全向声道)与X、Y、Z方向声道的能量比率将深度编码结合到现有B-格式中。虽然这只允许四个声道的传输，但它还有其他缺点，这些缺点可能最好由其他4声道编码方案来解决。

基于矩阵的编码

在示例中，矩阵系统可以利用D声道来将深度信息添加到已经传输的内容。在示例中，对单个立体声对进行增益相位编码，以在每个子带表示向源的方位角和仰角。因此，3个声道(例如，MatrixL、MatrixR、D)将足以传输全3D信息，并且MatrixL和MatrixR信号可以提供后向兼容的立体声下混合。

备选地，高度信息可以作为用于高度声道(MatrixL、MatrixR、HeightMatrixL、HeightMatrixR、D)的单独的矩阵编码来传输。然而，在这种情况下，与“D”声道类似地编码“高度”可能是有利的。这将提供(MatrixL，MatrixR，H，D)，其中MatrixL和MatrixR表示后向兼容的立体声下混合，并且H和D是用于位置转向的可选音频数据声道。

在特殊情况下，“H”声道在性质上可以类似于B-格式混合的“Z”声道或高度声道。使用正信号用于向上转向，而负信号用于向下转向，可以使用“H”和矩阵声道之间的能量比率的关系来指示将信号向上或向下转向多远，类似于在B-格式混合中使用“Z”和“W”声道的能量比率。

基于深度的子混合

基于深度的子混合可以包括或使用不同深度处的两个或更多个混合，例如远深度(例如，对应于典型渲染距离)和近深度(例如，邻近度)。虽然完整的描述可以通过深度零或“中间”声道和远(例如，最大距离)声道来实现，但是更多的传输深度可以对应于最终渲染时更高的精度和灵活性。换句话说，多个可用子混合可以作为每个单独源的深度的量化。正好落在所量化的深度的源可以以最高精度直接编码，因此子混合对应于渲染器的相关深度也是有利的。例如，在双耳系统中，近场混合深度应对应于近场HRTF的深度，而远场应对应于我们的远场HRTF。与深度编码相比，这种方法的主要优点是混合是加性的，并且不需要其他源的高级或先前知识。从某种意义上说，它是“完整的”3D混合的传输。

图20示出了针对三个深度的基于深度的子混合的示例。如图20中所示，三个深度可以包括中间(意味着头部的中心)、近场(意味着听者头部的外围)和远场(意味着我们典型的远场混合距离)。可以使用任意数量的深度，但是图20(类似图1A)对应于双耳系统，其中HRTF在非常接近头部(例如，对应于近场)处被采样，并且在典型的远场距离处(例如，大于l米并且通常为2-3米)被采样。当源“S”恰好是远场的深度时，它将仅被包括在远场混合中。随着声源延伸到远场之外，它的级别可以降低，可选地它可以变得更混响或更不“直接”发声。换句话说，远场混合就是标准3D传统应用中处理它的方式。随着源向近场过渡，源被编码在远场和近场混合的相同方向上，直到它恰好位于近场，从此处起它将不再对远场混合做出贡献。在混合之间的这种交叉衰落期间，总的源增益可以增加，并且渲染可以变得更直接或更干，以创建“邻近”的感觉。如果源继续进入到头部中间(“M”)，则最终将在多个近场HRTF或一个代表性的中间HRTF上渲染该源，使得听者不感知方向，相反，听者感知该源，就好像它来自头部内部一样。虽然可以在编码侧进行这种内部平移，但传输中间信号允许最终渲染器在头部跟踪操作中更好地操纵源，以及基于最终渲染器的能力为“中间平移的”源选择最终渲染方法。

因为该方法依赖于两个或更多个独立混合之间的交叉衰落，所以沿深度方向有更多的源分离。例如，具有相似时频内容的源S1和S2可以具有相同或不同的方向、不同的深度并保持完全独立。在解码器侧，远场可以被视为全部具有参考距离D1的源的混合，而近场将被视为全部具有不同参考距离D2的源的混合。然而，必须对最终的渲染假设进行补偿。例如，D1＝1(源级别为0dB的参考最大距离)和D2＝0.25(源级别假设为+12dB的针对邻近的参考距离)。由于渲染器使用距离平移器，该距离平移器将针对其在D2处渲染的源应用12dB增益，而针对其在D1处渲染的源应用0dB增益，因此传输的混合应针对目标距离增益进行补偿。

在示例中，如果混合器将源S1放置在D1和D2之间的距离D处(近50％，远50％)，则混合的源理想情况下将具有6db的源增益。在示例中，这可以被编码为在远场中具有6db的“S1远”，和在近场中具有-6db(例如，6db-12db)的“S1近”。当被解码和被重新渲染时，系统将在+6db处播放S1近(例如，6db-12db+12db)，而在+6db处播放S1远(例如，6db+0db+0db)。

类似地，如果混合器在相同方向上对距离D＝D1处的源S1进行步进，则其将仅在远场中以0dB的源增益进行编码。如果在渲染期间，听者在S1的方向上移动，使得D再次等于D1和D2之间的中间距离，则渲染侧的距离平移器将再次应用6db的源增益，并在近HRTF和远HRTF之间重新分布S1。这将产生与上面讨论的相同的最终渲染。应当理解，这仅仅是说明性的，并且其他值(包括不使用距离增益的情况)可以在传输格式中适应。

基于环境立体声的编码

在环境立体声场景的情况下，最小3D表示由具有中间声道的4声道B-格式(W、X、Y、Z)组成。附加深度可以在四个声道的附加B-格式混合中渲染。在示例中，完整的远-近-中编码将需要九个声道。然而，由于近场通常是在没有高度的情况下渲染的，因此可以将近场简化为仅为水平的。然后可以在八个声道(W、X、Y、Z远场、W、X、Y近场、中场)中实现相对有效的配置。在这种情况下，被平移到近场的源可以将其高度投射到远场和/或中间声道的组合中。随着源仰角增加给定距离，可以使用sin/cos衰落(或类似的处理方法)来实现这一点。

如果音频编解码器需要七个或更少声道，则仍可以优选地发送(W，X，Y，Z远场，W，X，Y近场)，而不是(W X Y Z Mid)的最小3D表示。权衡的是针对多个源的深度精度相对于对头部的完全控制。如果将源位置限制为大于或等于近场是可以接受的，则附加的定向声道将在最终渲染的空间分析期间改进源分离。

基于矩阵的编码

通过类似的扩展，可以使用多个矩阵或增益/相位编码的立体声对。例如，MatrixFarL、MatrixFarR、MatrixNearL、MatrixNearR、Middle、LFE的5.1传输可以提供全3D声场的信息。如果矩阵对不能完全编码高度(例如，如果需要后向兼容)，则可以使用附加的MatrixFarHeight对。使用高度转向声道的混杂系统可以类似于上面关于D声道编码所讨论的方式来添加。然而，预计对于7声道混合，以上环境立体声方法是优选的。

另一方面，如果可以从矩阵对中解码完全的方位角和仰角方向，则针对该方法的最小配置是3个声道(MatrixL、MatrixR、Mid)，这甚至在任何低比特率编码之前就已经显著节省了所需的传输带宽。

元数据/编解码器

本文描述的方法(诸如“D”声道编码)可以借助元数据，例如可以用来确保在音频编解码器的解码器侧精确地恢复数据。然而，这类方法通常与传统音频编解码器不兼容。

混杂解决方案

尽管上面分开讨论了，但是可以理解，取决于应用要求，每个深度或子混合的最佳编码可以是不同的。如上所述，可以使用矩阵编码和环境立体声转向的混杂来将高度信息添加到矩阵编码的信号中。类似地，可以针对基于深度的子混合系统中的一个、任意或所有子混合使用D-声道编码或元数据。

基于深度的子混合也可以用作中间分级格式。一旦混合完成，则可以使用“D”声道编码来进一步减少声道计数，从而将多个深度混合编码成单个混合加深度。

在示例中，这几种技术可以一起使用。该混合可以首先用距离平移器分解成基于深度的子混合，由此每个子混合的深度是恒定的，从而允许不被传输的隐含的深度声道。在这样的系统中，深度编码可用于增加深度控制，而子混合可用于保持比通过单个定向混合所实现的更好的源方向分离。可以基于特定于应用的参数(诸如特定的音频编解码器、最大允许带宽或其他渲染要求)来选择最终折衷方案。可以理解，对于每个子混合，例如在特定传输格式中，可以不同地平衡各种兴趣，并且最终解码布局仍然可以是不同的。例如，最终解码可以取决于特定的渲染器功能来渲染特定的声道。

本文讨论的各种系统和方法可以被配置为从最佳编码的3D音频混合或子混合中识别、操纵和渲染各个音频源分量，诸如可以针对相对于听者的各个不同的方位角、仰角和深度位置来提供。在示例中，该系统和方法有助于各种深度编码技术和对应的解码器或渲染器要求的去耦合。在一些示例中，诸如本文描述的双耳渲染器可以被配置为允许空间性能被定制到特定回放环境或平台(例如，移动、PC、VR、AR、家庭影院等)。本文讨论的各种示例还可以用于改进包括或使用6自由度听者跟踪(例如，经由头部跟踪器36和偏航、俯仰、侧滚方向+X、Y和/或Z位置信息)的应用的渲染。

在示例中，可以对用于传输3D音频混合的上述系统和方法进行各种改进，例如使用基于深度的子混合的集合。在示例中，3D音频混合可以包括或使用至少两个不同的信号混合，诸如对应于相对于参考听者位置的至少两个各自不同的深度。3D音频混合可以包括任何级别的深度量化，也就是说，它可以包括多达n个不同的混合。在示例中，n个混合中的至少一个可以包括或表示空间信息。也就是说，该至少一个混合可以包括关于一个或多个音频信号的方向信息。这种3D音频混合的一些示例可以包括环境立体声、多声道(例如，环绕声)和矩阵编码信号。在示例中，方向信息可以包括高度信息和/或可以包括表示距听者相应距离的球上的所有方向的信息(例如，参见图1B的示例)。本领域技术人员将认识到，多声道扬声器系统也可以有其他形状，例如不规则多边形等。然而，这样的系统可以被认为在不同的相应深度处具有附加或更多的子混合，或者可以使它们的声道深度归一化。在示例中，可以利用包括或使用具有相关联的中间深度和具有有限空间信息的多个混合的系统或方法。在示例中，可以利用包括或使用不具有空间限制的一个混合的系统或方法(例如，没有方向信息的混合)，并且该混合可以是例如对应于深度＝0的混合(例如，在听者的参考位置)。在图20的示例中，对应于深度＝0的混合被称为包括中间声道。

在示例中，可以将一个或多个音频源添加到3D音频混合。为了添加源，可以使用本文讨论的系统和方法来渲染源，其中在每个深度处的方向混合及其各自的子混合贡献可以根据源的真实或预期深度来加权。在示例中，可以通过平移与正在使用的特定空间音频格式相关联的限制来确定方向贡献。例如，可以使用矢量基本幅度平移(VBAP)或基于能量的矢量基本强度平移(VBIP)，或使用Furse-Malham(Fuma)加权等技术和平移惯例来平移声道。距离加权可以类似地通过惯例来选择。例如，放置在两个子混合深度之间的距离处的源可以由对每个相邻子混合的相等贡献来表示。然而，如果要添加的源与特定的一个子混合重叠，则该源可以主要贡献该特定的一个子混合，并且可以对(多个)其他子混合具有较小或零的影响或贡献。中间值将在两个极端之间过渡。在示例中，这样的子混合可以基本上是连续的，并且表示相邻子混合之间的线性交叉衰落，例如基于相对距离。在示例中，如果所选函数是单调的，并且因此利用一对一映射可逆，则可以类似地使用非线性交叉衰落。在示例中，可以使用对数、扭曲、分段或其他衰落或信号混合方法。

如上所述，示例可以包括对应于远场和近场的不同子混合(或者表示靠近听者头部的源的邻近混合)。例如，当要包括的源或混合与对渲染器的已知远场和近场输入充分对准时，则在远场和近场中渲染的源的组合产生与要包括的给定源的预期深度近似的组合音频图像。

在示例中，如针对对象22的图1A的示例所示，要包括的源或混合位于近场和远场之间的中间位置。在示例中，双耳渲染器可以用于使用不同深度处的空间/方向HRTF的加权(例如，在图1A中表示为Hxx)和交叉衰落深度权重(例如，在图1A中表示为Wxx)来渲染复合源(例如，对象22)，以产生对象22被渲染在对象22在近场和远场之间的位置处的感觉或听者的感知。在示例中，如果多个源被混合为使得解码产生径向权重W₁₁、W₁₂、W₂₁和W₂₂，如图1A中所示，则可以根据W_R1和W_R2的权重来分配对于每个深度的相应贡献。

在示例中，针对多个方向混合中的每一个，本文讨论的系统和方法可以包括或使用空间重新定位或跟踪来适应听者位置。也就是说，该系统和方法可以被配置为根据听者位置(包括听者位置随时间改变)利用更新的深度和/或方向特性来渲染多个子混合。结果，听者可以感觉要渲染的音频源如同锚定在3D空间中(例如，如果要渲染的源预期是固定的)，并且听者可以自由地围绕它移动。这样的方法也可以在没有实际听者跟踪的情况下被模拟。在这样的示例中，听者视角由诸如自动化、鼠标/键盘输入或其他控制输入的其他手段控制。

要解决的问题可以包括当特定源或对应于共同源的信息被编码成一个以上的子混合时对子混合进行解码和渲染。例如，当使用不同的子混合独立处理特定源的贡献时，可能会出现渲染问题。例如，随着听者相对于子混合的空间定位移动，听者可以在与听者遇到特定源的第二分量(例如，由于与第二空间位置或深度相关联的第二子混合)不同的位置处遇到相同特定源的第一分量(例如，由于与第一空间位置或深度相关联的第一子混合)。

此外，当子混合深度量化较低时，在静止条件下可能暴露出空间保真度的不足。例如，如果系统可以传输有限数量的音频声道(例如，5个音频声道)，则所选择的声道可以是WXYZ+M，其中WXYZ是环境立体声声道，而M是中间声道。虽然从远场环境立体声到M的连续交叉衰落是可能的，但源组合的心理声学效应可能不够强，不足以随着源接近听者头部而提供平滑或连续的轨迹，这进而可能导致源朝向听者的感知崩塌。如果渲染器被配置为使用接收到的子混合来提供与中间深度对应的信息，则优选的是首先识别特定源的真实或期望的深度，然后在期望的深度处渲染组合。

深度提取

本发明人已经认识到，上述问题的解决方案可以包括或使用用于深度提取的系统和方法。该系统和方法还可以包括将编码格式与特定解码器的渲染能力去耦合，从而提供可以部署在包括传统系统的广泛平台和系统(例如，包括移动电话、PC、家庭影院、VR、AR等的平台)上的更模块化和可伸缩的解决方案。本文讨论的各种解决方案可以使用时域和/或频域处理并且独立地或并发地针对一个或多个音频源应用。为简洁起见，下面的示例描述了使用频域中的处理来分析源。在该示例中，源或源分量被编码在3D空间音频子混合中，该3D空间音频子混合包括远场环境立体声混合(例如，包括信号WXYZ)并且包括深度为0的中间声道(例如，包括信号M)。

图25一般地示出了包括使用深度信息来确定如何渲染特定源的方法2500的示例。在该示例中，关于特定源的信息可以被包括在包含要渲染的音频节目的一个或多个子混合中。在步骤2510，该示例可以包括分析子混合以检测关于特定音频源的信息是否或是否可能被包括在每个子混合中。也就是说，可以分析或识别特定音频源的各种候选分量，以确定候选分量是否对应于感兴趣的特定音频源。在示例中，可以使用FFT 30或另一时频滤波器组来处理子混合，以创建可以分析的时频表示。在示例中，步骤2510包括通过检测对应于每个子混合的全向声道(例如，使用信号W和M)的代表性时频片中的信号能量，来检测空间音频混合中的特定音频源。在示例中，可以将信号能量测量为对应于关键频率区间的幅度或RMS能量，或者对应于特定音频源的频带中的多个区间的平均值。在示例中，一个或多个区间或频带可以被感知地分组，例如使用Bark或ERB标度等。在示例中，可以诸如使用遗忘因子、泄漏积分器或类似方法来随时间平滑这样的区间或频带信息。

步骤2520可以包括确定特定音频源是否存在于多于一个的子混合中。当在至少两个子混合中没有检测到对应于特定音频源的信息时，则可能不需要进一步的比较，并且可以将各个子混合保持在它们各自的混合深度。因此，在步骤2530，包括至少两个子混合的音频节目可以使用子混合在其各自的混合深度(例如，远场深度和近场深度)处渲染。因此，对于特定音频源的任何贡献将在该子混合被预期的空间深度处提供，并且任何为零的特定音频源分量将不会影响听者对特定音频源定位的精度的感知，包括当这些贡献被“渲染”在不正确的深度处时。

在步骤2520，如果确定特定音频源存在于多于一个子混合中，则该示例可以在步骤2540和/或步骤2550继续。

在步骤2540，可以针对每个不同子混合检测特定音频源的预期深度。在示例中，可以根据与子混合或声道之一相关联的元数据来确定预期深度信息。在示例中，当在相应的全向声道中的一个或多个中检测到对应于特定音频源的信号或信息时，则可以例如使用比率来比较相应检测到的信号级别。可以使用该比率，例如与编码方案的知识一起，来估计源的原始预期深度。可以类似地使用除使用比率之外的其他技术。例如，步骤2540可以包括或使用编码函数中使用的径向平移权重的逆函数。在示例中，步骤2540可以包括或使用具有在各种所支持的深度处的深度量化的值的查找表。在这样的示例中，可以使用最近的近似或内插值来分配或估计特定音频源的深度。在另一示例中，步骤2540可以包括或使用由来自不同子混合的信息的上下文或内容暗示的深度指示信息。

步骤2550可以包括确定关于同一特定音频源的信息被表示在要渲染的子混合中的置信度。也就是说，步骤2550可以包括验证所分析的信息对应于要在指定位置或深度处一起渲染的共同虚拟源，该指定位置或深度包括不同于与现有子混合之一相关联的深度。在示例中，除了特定音频源之外，还可以存在也被包括在子混合中的第二音频源。理想地，特定音频源和第二音频源将通过不同的频率或频谱内容分开或区分。然而，当在频率上存在重叠时，则(例如，从步骤2540)估计的深度精确的置信度可能较低。在其他示例中，深度可以随着特定音频源和第二音频源彼此调制而波动。在示例中，针对这种内容重叠或波动的解决方案包括确定音频源实际上相关或不相关的置信度。

在示例中，在步骤2550确定置信度可以包括用于提供来自不同子混合或空间音频信号的特定音频源的一个或多个候选分量之间的关系性度量或归属性指示的各种手段或方法。在示例中，在步骤2550确定置信度可以包括或使用关于信号相关性的信息。在例如各个子混和的全向信号分量之间存在高相关性的情况下，所确定的置信度可以很高，即特定音频源和第二音频源指的是相同源。如果在步骤2550确定的置信度满足或超过指定的置信度阈值水平，则该示例可以在步骤2560继续渲染音频节目。如果在步骤2560确定低相关性，则源分量位置可以在渲染时相对不触及或不修改。在示例中，可以使用各种函数来缩放回源位置的改变。

在示例中，在步骤2550确定置信度可以包括或使用方向信息。例如，当子混合或信号都包含与特定音频源和第二音频源相关联的方向分量时，则在步骤2550的确定可以包括关于方向分量在空间中是否共同定位或对应的信息。如果子混合不包括足够的方向信息，则可以在非零深度检测源，例如，如果它等同地包含在远场和中场声道中。虽然可以调整远场源以使用检测到的深度进行渲染，但中间声道缺少渲染方向。在这种情况下，可以为中间信号假设远场的方向分量。

在示例中，在步骤2550的置信度确定的各种示例可以一起使用或组合，例如利用适当的加权以进一步增加置信度。可以通过各种方法对置信度分量或复合置信度度量进行平滑，从而得到最终置信度“C”。

关于特定音频源是否在多个子混合中或者包括在多个子混合中的信息的判决可以随着分析中使用的子混合而改变。此外，二元判决或突然移动可能会产生音频伪影，因此对渲染中使用的深度估计和/或最终平移权重进行平滑是有帮助的。这可以通过包括遗忘因子或泄漏积分器等几种方法之一来实现。一个示例可以包括使用公式Depth(n)＝(1-ɑ)*NewEstimate(n)+ɑ*Depth(n-1)，其中ɑ是值更接近1的遗忘因子，从而减缓了深度的变化。

在步骤2560，可以渲染音频节目，包括在其预期位置处渲染的特定音频源。例如，步骤2560可以包括或使用来自步骤2540的估计深度和音频子混合的相应分量，来在其预期位置渲染特定音频源。

在示例中，步骤2560包括用子混合深度修改来渲染音频节目。特定音频源分量可以被混合在子混合中，并被检测为被指定“SFar”和“SMid”的子源，并且可具有各自的估计深度“D”和置信度“C”。在示例中，SFar可以具有远场半径R和方向(θ,φ)的球形位置。SMid可以用半径0和从远场假设的方向(θ,φ)来表示。然后，可以例如通过将置信度应用于每个子源的半径差来修改子源的深度：

SMid修改半径＝C*D

SFar修改半径＝C*(D-Rfar)+RFar

可以看出，当置信度接近1时，则两个源的修改半径将等于D，即预期的源距离。

图26一般地示出了包括将信息从各种原始源位置(由三角形表示)重新分配到HRTF位置(由菱形表示)以适应更新的听者位置的示例2600。在示例2600中，输入仅包括由三角形表示的远场源的代表性分布。其他位置是可能的，并且可以由代表性行为推断出来。在该示例中，听者在收听环境内从第一听者位置2601移动到第二听者位置2602。在第一听者位置2601处，听者具有第一注视方向θ₀(例如，相对于图中的“向上”或“向前”方向为零度)，并且在第二听者位置2602处，听者具有不同的第二注视方向θ_LOOK，其从θ₀偏离。当听者位于第一听者位置2601处时，解码器可以通过标准手段(例如，将源信号解码到与最终3D音频渲染器的HRTF位置相对应的位于听者周围的多个声道)来渲染环境立体声节目信息。随着听者移动或直移到第二听者位置2602，对于听者的源信号解码可以适应新的听者位置，使得可以使用近场HRTF声道来渲染来自位于或靠近听者的更新的近场2611的环境立体声节目的一些信息，并且可以使用远场HRTF声道来渲染留在听者的远场2612中的一些信息。

在示例中，来自头部跟踪器36的信息可以被接收并被考虑用于进一步处理或主动转向38，诸如用于确定听者移动的幅度和方向。也就是说，使用来自头部跟踪器36的信息，可以通过例如使用主动解码执行对一个或多个有效源半径(例如，相对于一个或多个子混合参考深度并且取决于行进方向)和听者的注视方向(θ,φ)的改变，来适应听者位置或视角的改变。与头部跟踪操作包括相对信号操纵的被动解码不同的是，主动解码可用于识别音频源的特定方向坐标。在这种情况下，可以通过使用被选择来表示视角中的相对移位的仿射变换矩阵或四元数运算来处理听者坐标来实现调整，例如以提供修改的听者坐标。修改的坐标可以与原始音频信号分量或子混合一起使用，以在新的或更新的位置或注视方向为听者渲染音频节目。

可以以各种方式应用相对于一个或多个子混合的针对听者修改的深度信息。在示例中，修改的深度信息可用于主动渲染应用中，其中子混合可用与各种源相对于听者的最终位置相关联的新位置来渲染子混合。在示例中，各种源可以被组合以创建新的音频主干信息，诸如具有表示新检测到的深度和组合位置的元数据的单声道主干信息。在该示例中，可以使用各种其他基于对象的渲染系统来应用所提取的源和位置参数来再现源。

图27A一般地示出了示例2700A，其包括使用近场信息(对应于半径R2)和远场信息(对应于半径R1)针对位于所示位置的第一听者编码的源S。在图27A的示例中，源S被表示为近场源分量SN和远场源分量SF。也就是说，SN和SF表示与两个不同的子混合相对应的环境立体声信息，这两个不同的子混合当针对听者一起渲染并且当听者位于所示位置时产生源S。

图27B一般地示出了示例2701，其示出了当听者位于新位置但没有深度提取时针对听者的源渲染。在该示例中，由于期望的源S的位置可能是未知的，所以源SN可以被分配到针对更新的听者位置的近场和远场信号的组合，并且源SF可以仅被提供在近场内部。在本示例中，虚线示出了，来自各个源SN和SF对于在新位置处的听者的各个HRTF(被表示为Hxx)的贡献。原始源位置S由阴影圆圈指示，在本例中其与HRTF H21的位置重合。然而，在该示例中，由于对于S(即SN和SF)的各种贡献被分布到围绕其未经修改位置的多个HRTF，这可能导致空间和/或音色模糊，因此源S将不会针对更新的听者位置处的听者被适当地定位。换言之，简单地使用更新的HRTF渲染近场源分量SN和远场源分量SF可能导致源S的不正确定位，如在更新的听者位置处的听者所感知的。

图27C一般地示出了示例2702，其示出了针对具有深度提取的新源位置的源渲染。在该示例中，来自近场源分量SN的信息和来自远场源分量SF的信息可以被“拉”到对应于源S的原始预期位置的共同源位置S’。在示例中，当近场和远场子混合中的每一个中的源分量信息充分对应于共同源(即，对应于共同音频信息使得它可以被确定为或预期为共同源的一部分)时，发生在位置S’处的源渲染。在该示例中，因为位置S’落在近场HRTF H₂₁上，所以可以从该位置完全渲染源，从而导致示例解码器/渲染器的最大定位精度。

示例2702可以包括在近场子混合中识别对应于虚拟源S的源信息SN。示例2702还可以包括在远场子混合中识别对应于相同虚拟源S的源信息SF。根据源信息SN和SF的关系性，可以确定要渲染来自各个子混合的源信息的深度。也就是说，基于SN和SF中的信息的相关性程度(例如，在频率内容、幅度、定时等方面)，可以选择渲染信息的深度，使得处于更新的听者位置的听者将基本上按照它被预期在S的位置(或相对于更新的听者位置的S’)那样感知虚拟源S。

如本文其他部分所讨论的，可以使用各种处理来从各个不同子混合确定源信息SN和SF与预期虚拟源S的关系性。在示例中，可以使用置信度度量来指示源信息SN和SF对于同一虚拟源的归属性。然后，可以使用置信度度量来确定要渲染信息SN和SF的深度，例如，通过沿着从它们各自的参考位置到S’的深度谱来按比例调整一个或两个深度。置信度度量可以包括源S在不同子混合中的能量比率或相对分布等，或者可以包括相关性。在发现源信息SN和SF不相关的情况下，则可以替代地使用没有深度提取的渲染(例如参见图27B)。

已经详细并且参考其示例性实施例描述了本公开，对本领域技术人员显而易见的是，在不脱离实施例的范围的情况下，可以在其中进行各种改变和修改。因此，旨在本公开涵盖本公开的修改和变化，前提是它们在所附权利要求及其等同的范围内。

为了更好地说明本文公开的方法、系统、设备和装置，在此提供示例实施例的非限制性列表。

示例1可以包括或使用主题，例如一种用于定位要在相对于听者位置的预期深度处渲染的虚拟源的方法，所述虚拟源包括来自两个或更多个空间音频信号的信息，所述两个或更多个空间音频信号被配置为相对于第一听者位置在空间上一起被渲染，并且每个所述空间音频信号对应于相对于参考位置的不同深度。在示例1中，所述方法包括：每个空间音频信号中识别所述虚拟源的相应候选分量；确定来自所述空间音频信号的所述虚拟源的被识别的候选分量的第一关系性度量；以及使用第一关系性度量，确定对于在第一听者位置处的听者要渲染来自所述空间音频信号的所述候选分量的深度，使得在第一听者位置处的听者基本上在所述预期深度处感知到所述虚拟源。

示例2可以包括并且可以可选地与示例1的主题相结合，以包括：确定第一关系性度量的置信度，所述置信度指示所述一个或多个候选分量对所述虚拟源的归属性。在示例2中，确定要渲染所述候选分量的深度包括基于所确定的置信度按比例调整所述深度，其中按比例调整包括沿着从空间音频信号分量的相应参考位置到所述预期深度的深度谱来定位所述空间音频信号分量。

示例3可以包括并且可以可选地与示例2的主题相结合，使得确定第一关系性度量的置信度包括使用关于所述候选分量的趋势、移动平均或平滑特征的信息。

示例4可以包括并且可以可选地与示例2或示例3的主题相结合，使得确定第一关系性度量的置信度包括确定所述候选分量中的两个或更多个的相应空间分布或方向是否对应。

示例5可以包括并且可以可选地与示例2、3或4的主题相结合，使得确定第一关系性度量的置信度包括确定所述虚拟源的所述候选分量中的至少两个之间的相关性。

示例6可以包括并且可以可选地与实施例1-5中的任何一个或多个结合以包括：确定第一关系性度量包括使用所述候选分量中的两个的相应信号级别的比率。

示例7可以包括并且可以可选地与示例1-6中的任何一个或多个相结合以包括：确定第一关系性度量包括从查找表中检索用于渲染空间音频信号分量的相应信号级别的比率，其中该比率是基于预期深度从查找表中选择的。附加地或另选地，示例7可以包括并且可以可选地与示例1-6中的任何一个或多个相结合以包括：确定渲染所述候选分量的深度包括(1)将第一关系性度量的值与查找表中的值进行比较，所述查找表包括第一关系性度量的潜在值和各自对应的深度；以及基于所述比较的结果选择渲染所述候选分量的深度。选择深度可以基于例如第一关系性度量的值与针对查找表中该度量的一个或多个潜在值之间的相似性或接近度。

示例8可以包括并且可以可选地与示例1-7中的任何一个或多个相结合以包括：使用所述候选分量对于在第一听者位置处的听者渲染音频输出信号，其中渲染音频输出信号包括使用HRTF渲染器电路或波场合成电路以根据所确定的深度来处理所述空间音频信号。

示例9可以包括并且可以可选地与示例1-8中的任何一个或多个结合以包括：所述空间音频信号包括多个时频信号，并且其中识别所述虚拟源的相应候选分量包括识别与所述时频信号中的离散频带对应的候选分量，并且其中确定第一关系性度量包括针对与所述离散频带对应的候选分量。

示例10可以包括并且可以可选地与示例1-9中的任何一个或多个相结合以包括：接收关于所述听者的更新位置的信息，以及确定对于在所述更新位置处的听者要渲染来自所述空间音频信号的所述候选分量的不同的更新深度，使得在所述更新位置处的听者基本上在与相对于所述第一听者位置的预期深度对应的位置处感知到所述虚拟源。

示例11可以包括并且可以可选地与示例1-10中的任何一个或多个结合以包括：接收具有与第一深度对应的音频信息的第一空间音频信号，以及接收具有与第二深度对应的音频信息的第二空间音频信号。在示例11中，确定要渲染所述候选分量的深度包括确定所述第一深度和所述第二深度之间的中间深度；并且第一和第二空间音频信号(1)分别包括近场和远场子混合，或者(2)分别包括第一和第二环境立体声信号。

示例12可以包括并且可以可选地与示例1-11中的任何一个或多个相结合以包括：使用与所述两个或更多个空间音频信号相关联的深度指示元数据以及由所述两个或更多个空间音频信号的上下文或内容所暗示的深度指示信息中的一项或多项来确定所述预期深度。

示例13可以包括并且可以可选地与示例1-12中的任何一个或多个相结合以包括：使用所确定的深度和所述候选分量，针对所述虚拟源生成合并的源信号。

示例14可以包括并且可以可选地与示例1-13中的任何一个或多个相结合以包括：确定所述虚拟源的每个候选分量是否包括方向特性；以及如果所述候选分量中的特定候选分量缺少方向特性，则基于来自相同虚拟源的不同候选分量的方向特性，为所述候选分量中的特定候选分量分配方向特性。

示例15可以包括或使用主题，诸如一种用于处理音频信息以定位要在相对于听者位置的预期深度处渲染的虚拟音频源的系统，虚拟源包括来自两个或更多个空间音频信号的信息，所述两个或更多个空间音频信号被配置为相对于第一听者位置在空间上一起被渲染，并且每个所述空间音频信号对应于相对于参考位置的不同深度。示例15可以包括音频信号深度处理器电路，其被配置为：在每个空间音频信号中识别所述虚拟源的相应候选分量；确定来自所述空间音频信号的所述虚拟源的被识别的候选分量的第一关系性度量；以及使用第一关系性度量，确定对于在第一听者位置处的听者要渲染来自所述空间音频信号的所述候选分量的深度，使得在第一听者位置处的听者基本上在所述预期深度处感知到所述虚拟源。示例15的系统可以可选地被配置为执行示例1-14的一个或多个方法、步骤或过程。

示例16可以包括并且可以可选地与示例15的主题相结合以包括渲染电路，其被配置为使用所述候选分量为在第一听者位置处的听者提供音频输出信号的渲染电路，其中根据所确定的深度和回放系统的特性、使用所述空间音频信号的HRTF双耳/跨耳或波场合成处理来提供所述音频输出信号。

示例17可以包括并且可以可选地与示例15或16相结合以包括，听者头部跟踪器，其被配置为感测关于所述听者的更新位置的信息。在示例17中，所述处理器电路被配置为确定对于在所述更新位置处的听者要渲染来自所述空间音频信号的所述候选分量的不同的更新深度，使得在所述更新位置处的听者基本上在相对于第一听者位置的预期深度处感知到所述虚拟源。

示例18可以包括或使用主题，例如一种用于定位要在相对于听者位置的预定深度处渲染的虚拟源的方法，所述虚拟源基于来自一个或多个空间音频信号的信息，并且每个所述空间音频信号对应于相对于参考位置的各自不同的参考深度。示例18可以包括：在多个空间音频信号中的每个中识别所述虚拟源的相应候选分量；确定来自所述空间音频信号的所述虚拟源的被识别的候选分量的第一关系性度量；以及确定第一关系性度量的置信度，所述置信度指示所述一个或多个候选分量对所述虚拟源的归属性。在示例18中，当第一度量的置信度指示被识别的候选分量之间在内容和/或位置上对应时，确定对于在第一听者位置处的听者要渲染所述候选分量的第一深度，使得所述听者基本上在所述预期深度处感知到所述虚拟源，其中所确定的第一深度中的至少一个不同于其对应的参考深度。在示例18中，当第一关系性度量的置信度指示被识别的候选分量之间在内容或位置上不对应时，确定对于在第一听者位置处的听者要渲染所述候选分量的第二深度，使得所述听者基本上在所述预期深度处感知到所述虚拟源，其中所确定的第二深度对应于所述参考深度。示例18的方法可以任选地由各种系统(例如包括示例15的系统)全部或部分地执行。

示例19可以包括并且可以可选地与示例18的主题相结合以包括：确定第一关系性度量的置信度包括使用关于所述候选分量的趋势、移动平均或平滑特征的信息。

示例20可以包括并且可以可选地与示例18或19相结合以包括：确定要渲染所述候选分量的深度包括基于所确定的置信度按比例调整所述参考深度，其中按比例调整包括沿着从空间音频信号分量的相应参考位置到所述预期深度的深度谱来定位所述空间音频信号分量。

这些示例中的每一个都可以单独使用或以各种组合和排列相结合。

上述详细描述包括对附图的参考，附图构成详细描述的一部分。附图以图解的方式示出了具体实施例。这些实施例在本文中也被称为“示例”。这样的示例还可以包括除了所示或所描述的那些元素之外的元素。此外，主题可以包括相对于特定示例(或其一个或多个方面)或相对于本文示出或描述的其他示例(或其一个或多个方面)所示或所描述的那些元素(或其一个或多个方面)的任何组合或排列。

在本文档中，如专利文献中常见的那样，术语“一”用于包括一个或多于一个，独立于“至少一个”或“一个或多个”的任何其他实例或用法。在本文档中，术语“或”指的是非排他的，使得除非另有说明，否则“A或B”包括“A而不是B”、“B而不是A”以及“A和B”。在本文档中，术语“包括”和“其中”被用作各自术语“包括”和“其中”的简明语等价词。此外，在所附权利要求中，术语“包括”和“包含”是开放式的，即包括除了在权利要求中这样的术语之后列出的那些元素之外的元素的系统、设备、物品、复合物、公式或过程仍被认为落入该权利要求的范围内。此外，在所附权利要求中，术语“第一”、“第二”和“第三”等仅用作标签，并不意图对其对象施加数字要求。

上述描述旨在是说明性的，而不是限制性的。例如，上述示例(或其一个或多个方面)可以彼此组合使用。可以使用其他实施例，例如由本领域普通技术人员在回顾上述说明时。提供摘要以允许读者快速确定本技术公开的性质。提交时理解的是，它不会被用来解释或限制权利要求的范围或含义。在以上详细描述中，可以将各种特征分组在一起以使本公开流畅。这不应被解释为意图未声明保护的所公开的特征对任何权利要求是必要的。相反，主题可以在于少于特定所公开实施例的所有特征。因此，本文将所附权利要求合并到详细描述中，每个权利要求单独作为独立的实施例，并且可以预期这样的实施例可以以各种组合或排列彼此组合。范围应参照所附权利要求以及此类权利要求享有的等同的全部范围来确定。

Claims

1.一种用于定位要在相对于听者位置的预期深度处渲染的虚拟源的方法，所述虚拟源包括来自两个或更多个空间音频信号的信息，所述两个或更多个空间音频信号被配置为相对于第一听者位置在空间上一起被渲染，并且每个空间音频信号对应于相对于参考位置的不同深度，所述方法包括：

在每个空间音频信号中识别所述虚拟源的相应候选分量；

确定来自所述空间音频信号的所述虚拟源的被识别的候选分量的第一关系性度量；以及

使用第一关系性度量，确定对于在第一听者位置处的听者要渲染来自所述空间音频信号的所述候选分量的深度，使得在第一听者位置处的听者基本上在所述预期深度处感知到所述虚拟源。

2.如权利要求1所述的方法，还包括：确定第一关系性度量的置信度，所述置信度指示所述一个或多个候选分量对所述虚拟源的归属性；并且

其中确定要渲染所述候选分量的深度包括基于所确定的置信度按比例调整所述深度，其中按比例调整包括沿着从空间音频信号分量的相应参考位置到所述预期深度的深度谱来定位所述空间音频信号分量。

3.如权利要求2所述的方法，其中确定第一关系性度量的置信度包括使用关于所述候选分量的趋势、移动平均或平滑特征的信息。

4.如权利要求2所述的方法，其中确定第一关系性度量的置信度包括确定所述候选分量中的两个或更多个的相应空间分布或方向是否对应。

5.如权利要求2所述的方法，其中确定第一关系性度量的置信度包括确定所述虚拟源的所述候选分量中的至少两个之间的相关性。

6.如权利要求1所述的方法，其中确定第一关系性度量包括使用所述候选分量中的两个的相应信号级别的比率。

7.如权利要求1所述的方法，其中确定要渲染所述候选分量的深度包括：

将第一关系性度量的值与查找表中的值进行比较，所述查找表包括第一关系性度量的潜在值和各自对应的深度，以及

基于所述比较的结果选择要渲染所述候选分量的深度。

8.如权利要求1所述的方法，还包括使用所述候选分量对于在第一听者位置处的听者渲染音频输出信号，其中渲染音频输出信号包括使用HRTF渲染器电路或波场合成电路以根据所确定的深度来处理所述空间音频信号。

9.如权利要求1所述的方法，其中所述空间音频信号包括多个时频信号，并且其中识别所述虚拟源的相应候选分量包括识别与所述时频信号中的离散频带对应的候选分量，并且其中确定第一关系性度量包括针对与所述离散频带对应的候选分量。

10.如权利要求1所述的方法，还包括接收关于所述听者的更新位置的信息，以及确定对于在所述更新位置处的听者要渲染来自所述空间音频信号的所述候选分量的不同的更新深度，使得在所述更新位置处的听者基本上在与相对于所述第一听者位置的预期深度对应的位置处感知到所述虚拟源。

11.如权利要求1所述的方法，还包括：

接收具有与第一深度对应的音频信息的第一空间音频信号；

接收具有与第二深度对应的音频信息的第二空间音频信号；

其中确定要渲染所述候选分量的深度包括确定所述第一深度和所述第二深度之间的中间深度；并且

其中第一和第二空间音频信号(1)分别包括近场和远场子混合，或者(2)分别包括第一和第二环境立体声信号。

12.如权利要求1所述的方法，还包括使用与所述两个或更多个空间音频信号相关联的深度指示元数据以及由所述两个或更多个空间音频信号的上下文或内容所暗示的深度指示信息中的一项或多项来确定所述预期深度。

13.如权利要求1所述的方法，还包括使用所确定的深度和所述候选分量，针对所述虚拟源生成合并的源信号。

14.如权利要求1所述的方法，还包括：

确定所述虚拟源的每个候选分量是否包括方向特性；以及

如果所述候选分量中的特定候选分量缺少方向特性，则基于来自相同虚拟源的不同候选分量的方向特性，为所述候选分量中的特定候选分量分配方向特性。

15.一种用于处理音频信息以定位要在相对于听者位置的预期深度处渲染的虚拟音频源的系统，虚拟源包括来自两个或更多个空间音频信号的信息，所述两个或更多个空间音频信号被配置为相对于第一听者位置在空间上一起被渲染，并且每个空间音频信号对应于相对于参考位置的不同深度，所述系统包括：

音频信号深度处理器电路，被配置为：

在每个空间音频信号中识别所述虚拟源的相应候选分量；

16.如权利要求15所述的系统，还包括被配置为使用所述候选分量为在第一听者位置处的听者提供音频输出信号的渲染电路，其中根据所确定的深度和回放系统的特性、使用所述空间音频信号的HRTF双耳/跨耳或波场合成处理来提供所述音频输出信号。

17.如权利要求15所述的系统，还包括被配置为感测关于所述听者的更新位置的信息的听者头部跟踪器；

其中所述处理器电路被配置为确定对于在所述更新位置处的听者要渲染来自所述空间音频信号的所述候选分量的不同的更新深度，使得在所述更新位置处的听者基本上在相对于第一听者位置的预期深度处感知到所述虚拟源。

18.一种用于定位要在相对于听者位置的预定深度处渲染的虚拟源的方法，所述虚拟源基于来自一个或多个空间音频信号的信息，并且每个空间音频信号对应于相对于参考位置的各自不同的参考深度，所述方法包括：

在多个空间音频信号中的每个中识别所述虚拟源的相应候选分量；

确定第一关系性度量的置信度，所述置信度指示所述一个或多个候选分量对所述虚拟源的归属性；以及

当第一度量的置信度指示被识别的候选分量之间在内容和/或位置上对应时，确定对于在第一听者位置处的听者要渲染所述候选分量的第一深度，使得所述听者基本上在所述预期深度处感知到所述虚拟源，其中所确定的第一深度中的至少一个不同于其对应的参考深度；以及

当第一关系性度量的置信度指示被识别的候选分量之间在内容或位置上不对应时，确定对于在第一听者位置处的听者要渲染所述候选分量的第二深度，使得所述听者基本上在所述预期深度处感知到所述虚拟源，其中所确定的第二深度对应于所述参考深度。

19.如权利要求18所述的方法，其中确定第一关系性度量的置信度包括使用关于所述候选分量的趋势、移动平均或平滑特征的信息。

20.如权利要求18所述的方法，其中确定要渲染所述候选分量的深度包括基于所确定的置信度按比例调整所述参考深度，其中按比例调整包括沿着从空间音频信号分量的相应参考位置到所述预期深度的深度谱来定位所述空间音频信号分量。