CN114631332A

CN114631332A - 比特流中音频效果元数据的信令

Info

Publication number: CN114631332A
Application number: CN202080073035.1A
Authority: CN
Inventors: N·G·彼得斯; S·塔加迪尔施瓦帕; S·M·A·萨尔辛; J·菲洛斯; S·G·斯瓦米纳坦; F·奥利维利
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2019-11-04
Filing date: 2020-10-29
Publication date: 2022-06-14
Also published as: US20220386060A1; WO2021091769A1; EP4055840A1; KR20220097888A

Abstract

提出了用于操纵声场的方法、系统、计算机可读介质和装置。一些配置包括：接收包括元数据和声场描述的比特流；解析元数据，以获得效果标识符和至少一个效果参数值；并将由效果标识符标识的效果应用于声场描述。该应用可以包括：使用至少一个效果参数值，将所标识的效果应用到声场描述。

Description

比特流中音频效果元数据的信令

相关申请的交叉引用

本申请要求享受2019年11月4日提交的、标题为“SIGNALLING OF AUDIO EFFECTMETADATA IN A BITSTREAM”的希腊临时专利申请No.20190100493的优先权，故以引用方式将其全部内容并入本文。

本公开内容的各方面涉及音频信号处理。

背景技术

环绕声的发展使得当今许多娱乐输出格式可用。市场上的环绕声格式范围包括流行的5.1家庭影院系统格式，其在进入立体声以外的客厅方面最为成功。这种格式包括以下六个通道：左前(L)、右前(R)、中央或前中(C)、左后或左环绕(Ls)、右后或右环绕(Rs)以及低频效果(LFE))。环绕声格式的其它示例包括日益增长的7.1格式和由NHK(Nippon HosoKyokai或日本广播公司)开发的用于例如超高清电视标准的未来派22.2格式。可能需要环绕声格式将音频编码在二维(2D)和/或三维(3D)中。但是，这些2D和/或3D环绕声格式需要高比特率才能将音频正确编码在2D和/或3D中。

除了基于通道的格式之外，用于增强再现的新音频格式变得可用，例如，基于对象和基于场景的(例如，高阶Ambisonics或HOA)编解码器。音频对象封装了单独的脉冲编码调制(PCM)音频流、以及它们的三维(3D)位置坐标和编码为元数据的其它空间信息(例如，对象相干性)。通常使用例如基于变换的方案(例如，MPEG层3(MP3)、AAC、基于MDCT的编码)，对PCM流进行编码。也可以对元数据进行编码以用于传输。在解码和渲染端，将元数据与PCM数据相结合，重新创建3D声场。

基于场景的音频通常使用诸如B格式的Ambisonics格式进行编码。B格式信号的通道对应于声场的球谐函数，而不是扬声器馈送。一阶B格式信号具有多达四个通道(一个全向通道W和三个定向通道X、Y、Z)；二阶B格式信号具有多达九个通道(四个一阶通道和五个其它通道R、S、T、U、V)；三阶B格式信号具有多达16个通道(九个二阶通道和七个其它通道K、L、M、N、O、P、Q)。

可以使用高级音频编解码器(例如，基于对象的编解码器或基于场景的编解码器)来表示区域上的声场(即，气压在空间和时间上的分布)，以支持多方向和沉浸式再现。在渲染过程中加入与头部相关的传递函数(HRTF)可以用于增强耳机的这些质量。

发明内容

根据一般配置，一种操纵声场的方法包括：接收包括元数据和声场描述的比特流；解析所述元数据，以获得效果标识符和至少一个效果参数值；并将由所述效果标识符标识的效果应用于所述声场描述。该应用可以包括：使用至少一个效果参数值，将所标识的效果应用到声场描述。还公开了包括代码的计算机可读存储介质，当所述代码由至少一个处理器执行时使所述至少一个处理器执行这种方法。

根据一般配置，一种用于操纵声场的装置包括：解码器，其被配置为接收包括元数据和声场描述的比特流，并解析所述元数据以获得效果标识符和至少一个效果参数值；以及渲染器，其被配置为将由所述效果标识符标识的效果应用于所述声场描述。所述渲染器被配置为使用所述至少一个效果参数值，以将所标识的效果应用到所述声场描述。还公开了包括存储器和处理器的装置，所述存储器被配置为存储计算机可执行指令，所述处理器耦合到所述存储器并被配置为执行所述计算机可执行指令以执行这些解析和渲染操作。

附图说明

通过示例的方式来说明本公开内容的各方面。在附图中，相同的附图标记表示相似的元件。

图1示出了用于操纵声场的用户方向的示例。

图2A描绘了音频内容产生和再现的序列。

图2B描绘了根据一般配置的音频内容产生和再现的序列。

图3A示出了根据一般配置的方法M100的流程图。

图3B示出了与音频效果有关的两个元数据字段的示例。

图3C示出了与音频效果有关的三个元数据字段的示例。

图3D示出了用于效果标识符元数据字段的值表的示例。

图4A示出了包括三个声源的声场的示例。

图4B示出了对图4A的声场进行聚焦操作的结果。

图5A示出了相对于参考方向来旋转声场的示例。

图5B示出了将声场的参考方向替换为不同方向的示例。

图6A示出了声场和用户位置的期望平移的示例。

图6B示出了将期望的平移应用到图6A的声场的结果。

图7A示出了与音频效果有关的三个元数据字段的示例。

图7B示出了与音频效果有关的四个元数据字段的示例。

图7C示出了方法M100的实施方案M200的框图。

图8A示出了佩戴用户跟踪设备的用户的示例。

图8B图示了六自由度(6DOF)中的(例如，用户的)运动。

图9A示出了与多个效果标识符相关联的限制标志元数据字段的示例。

图9B示出了多个限制标志元数据字段的示例，每个都与对应的效果标识符相关联。

图9C示出了与持续时间元数据字段相关联的限制标志元数据字段的示例。

图9D示出了在扩展有效载荷内编码音频效果元数据的示例。

图10示出了针对不同热点的不同级别的缩放和/或归零的示例。

图11A示出了包括围绕用户位置的五个声源的声场的示例。

图11B示出了对图11A的声场执行角度压缩操作的结果。

图12A示出了根据一般配置的系统的框图。

图12B示出了根据一般配置的装置A100的框图。

图12C示出了装置A100的实施方案A200的框图。

图13A示出了根据一般配置的装置F100的框图。

图13B示出了装置F100的实施方案F200的框图。

图14示出了场景空间的示例。

图15示出了VR设备的示例400。

图16是描绘可穿戴设备的实施方式800的示例的图。

图17示出了可以在设备内实现的系统900的框图。

具体实施方式

如本文所述的声场可以是二维的(2D)或三维的(3D)。用于捕获声场的一个或多个阵列可以包括线性换能器阵列。另外地或替代地，所述一个或多个阵列可以包括球形换能器阵列。一个或多个阵列也可以定位在场景空间内，并且这样的阵列可以包括具有固定位置的阵列和/或具有在事件期间可能改变的位置的阵列(例如，安装在人、电线或无人机上)。例如，场景空间内的一个或多个阵列可以安装在参与事件的人身上，例如体育赛事中的运动员和/或官员(例如，裁判)、音乐赛事中的表演者和/或管弦乐队指挥等。

可以使用多个分布式换能器阵列(例如，麦克风)来记录声场，以便在大的场景空间(例如，如图14所示的棒球场、足球场、板球场等)上捕获空间音频。例如，可以使用位于场景空间外部(例如，沿着场景空间的外围)的一个或多个声音感测换能器(例如，麦克风)阵列来执行捕获。可以对这些阵列进行定位(例如，定向和/或分布)，使得声场的某些区域比其它区域更密集或更不密集地采样(例如，取决于感兴趣区域的重要性)。这样的定位可以随时间改变(例如，对应于感兴趣聚焦的改变)。布置可以根据场地的大小/场地类型或具有最大覆盖范围和减少盲点而有所不同。生成的声场可以包括已从另一个源(例如，广播亭内的评论员)捕获并添加到场景空间的声场的音频。

提供更准确的声场建模的音频格式(例如，基于对象和场景的编解码器)也可以允许对声场进行空间操作。例如，用户可能更喜欢在以下任何一个或多个方面改变再现的声场：使来自特定方向的声音与来自其它方向的声音相比更响亮或更柔和；与来自其它方向的声音相比，更清楚地听到来自特定方向的声音；只听到一个方向的声音和/或使特定方向的声音静音；旋转声场；在声场内移动声源；在声场内移动用户的位置。例如，可以使用移动设备(例如，智能手机)、平板设备或任何其它交互式一个或多个设备来执行如本文所描述的用户选择或修改。

可以类似于选择图像或视频中的感兴趣区域(例如，如图1所示)的方式，来执行这种用户交互或指向(例如，声场旋转、放大到音频场景)。用户可以在触摸屏上指示期望的音频操作，例如，通过执行展开(“反向捏合”或“捏开”)或触摸并保持手势以指示期望的缩放、触摸和拖动手势以指示期望的旋转等等。用户可以通过手势(例如，用于光学和/或声音检测)来指示期望的音频操纵：通过在期望的方向上移动她的手指或手以指示缩放，通过执行抓握和移动手势来指示期望的旋转等。用户可以通过改变能够记录这种变化的手持设备(例如智能手机或配备惯性测量单元(IMU)的其它设备(例如，包括一个或多个加速度计、陀螺仪和/或磁力计))的位置和/或方向来指示期望的音频操纵。

尽管在上文将音频操纵(例如，缩放、聚焦)描述为仅消费者侧的过程，但内容创作者可能希望能够在包括声场的媒体内容的制作期间应用这样的效果。这种产生的内容的示例可以包括现场事件的记录，例如体育或音乐表演，以及脚本事件(例如，电影或戏剧)的记录。该内容可以是视听的(例如，视频或电影)，或仅是音频的(例如，音乐会的录音)，并且可以包括录制的(即，捕获的)音频和生成的(例如，合成的，意思是合成而不是捕获的)音频中的一者或两者。内容创作者可能出于各种原因想要操纵记录和/或生成的声场，例如为了戏剧效果、提供强调、引导听众的注意力、提高可理解性等等。这种处理的产物是音频内容(例如，文件或比特流)具有预置的音频效果(如图2A中所示)。

虽然以这种形式产生音频内容可以确保声场能够按照内容创作者的意图进行再现，但是这种产生也可能阻碍用户体验原始记录的声场的其它方面。例如，用户尝试放大声场的某个区域的结果可能不是最佳的，因为该区域的音频信息可能不再在生成的内容中可用。以这种方式产生音频内容还可以防止消费者能够逆转创作者的操作，甚至可以防止内容创作者能够以期望的方式修改所产生的内容。例如，内容创作者可能对音频处理不满意，并且可能想要事后改变效果。由于支持此类更改所需的音频信息可能在制作过程中丢失，因此能够在制作后更改效果可能需要单独存储原始声场作为备份(例如，可能需要创作者在应用效果之前维护一个单独的声场存档)。

可以实现如本文所公开的系统、方法、装置和设备，以将预期的音频操作作为元数据进行发送。例如，可以以原始格式存储(即，没有预期的音频效果)捕获的音频内容，并且创作者的预期音频效果行为可以作为元数据存储在比特流中。内容的消费者可以决定她是想收听原始音频还是想收听具有预期创作者的音频效果的音频(如图2B中所示)。如果消费者选择了创作者音频效果的版本，那么音频渲染将基于发信号通知的音频效果行为元数据来处理音频。如果消费者选择原始版本，则还可以允许消费者自由地将音频效果应用到原始音频流上。

现在将参照形成说明书一部分的附图描述一些说明性配置。尽管下文描述了其中可以实施本公开内容的一个或多个方面的特定配置，但是在不脱离本公开内容的范围或所附权利要求的精神的情况下，可以使用其它配置并且可以进行各种修改。

除非受到其上下文的明确限制，否则在本文中使用术语“信号”来指示其任何普通含义，包括在线路、总线或其它传输介质上表示的存储位置(或一组存储位置)的状态。除非受到其上下文的明确限制，否则在本文中使用术语“生成”来指示其任何普通含义，例如计算或以其它方式产生。除非受到其上下文的明确限制，否则在本文中使用术语“计算”来指示其任何普通含义，例如计算、评估、估计和/或从多个值中选择。除非受到其上下文的明确限制，否则使用术语“获取”来表示其任何普通含义，例如计算、导出、接收(例如，从外部设备)和/或检索(例如，从存储阵列元素)。除非受到其上下文的明确限制，否则使用术语“选择”来指示其任何普通含义，例如识别、指示、应用和/或使用一组两个或多个中的至少一个，而不是全部。除非受到其上下文的明确限制，否则使用术语“确定”来表示其任何普通含义，例如决定、建立、结论、计算、选择和/或评估。在本说明书和权利要求书中使用术语“包括”时，它不排除其它元素或操作。术语“基于”(如“A基于B”)用于表示其任何普通含义，包括以下情况：(i)“源自”(例如，“B是A的前体”)，(ii)“至少基于”(例如，“A至少基于B”)，并且在特定上下文中适当时，(iii)“等于”(例如，“A等于B”)。同样，使用“响应”一词来表示其任何普通含义，其包括“至少响应”。除非另外说明，否则术语“A、B和C中的至少一个”、“A、B和C中的一个或多个”、“A、B和C之中的至少一个”和“A、B、C之中的一个或多个”表示“A和/或B和/或C”。除非另外说明，否则术语“A、B和C中的每一个”和“A、B和C之中的每一个”表示“A和B和C”。

除非另外说明，否则对具有特定特征的装置的操作的任何公开也明确旨在公开具有类似特征的方法(反之亦然)，并且根据特定配置的装置的操作的任何公开也明确旨在公开根据类似配置的方法(反之亦然)。术语“配置”可用于指由其特定上下文指示的方法、装置和/或系统。除非特定上下文另外说明，否则术语“方法”、“处理”、“过程”和“技术”可以通用且可互换使用。具有多个子任务的“任务”也是一种方法。除非特定上下文另外说明，否则术语“装置”和“设备”也可以通用且可互换地使用。术语“元素”和“模块”通常用于表示更大配置的一部分。除非受到其上下文的明确限制，否则在本文中使用“系统”一词来表示其任何普通含义，包括“一组相互作用以服务于共同目的的元素”。

除非最初由定冠词引入，否则用于修改权利要求要素的序数术语(例如，“第一”、“第二”、“第三”等)本身并不表示权利要求要素相对于另一个权利要求要素的任何优先级或顺序，而只是将权利要求要素与具有相同名称的另一个权利要求要素区分开来(但使用序数术语)。除非受到其上下文的明确限制，否则在本文中使用术语“多个”和“集合”中的每一个来表示大于一的整数数量。

图3A示出了根据包括任务T100、T200和T300的一般配置来操纵声场的方法M100的流程图。任务T100接收包括元数据(例如，一个或多个元数据流)和声场描述(例如，一个或多个音频流)的比特流。例如，该比特流可以包括单独的音频和元数据流，将这些流格式化为符合国际电信联盟建议(ITU-R)BS 2076-1(音频定义模型，2017年6月)。

声场描述可以例如基于声场内的预定感兴趣区域，包括用于不同区域的不同音频流(例如，一些区域基于对象的方案和其它区域HOA方案)。例如，可能需要使用基于对象或HOA方案来编码具有高度波场集中度的区域，并使用HOA或平面波扩展来编码具有低度波场集中度的区域(例如，氛围、人群噪音、鼓掌声)。

基于对象的方案可以将声源减少为点源，并且可能不会保留方向性模式(例如，由例如喊叫的演奏者或喇叭演奏者发出的声音的方向变化)。在编码大量声源时，HOA方案(更一般地，基于基函数系数的分层集的编码方案)通常比基于对象的方案更高效(与基于对象的方案相比，更多的对象可以用更小的HOA系数来表示)。使用HOA方案的好处可以包括：能够评估和/或表示不同收听者位置的声场，而无需检测和跟踪单个对象。对于HOA编码的音频流的渲染通常是灵活的，并且与扬声器配置无关。HOA编码通常在自由场条件下也是有效的，这样可以在靠近最近的源的有效区域内执行用户的虚拟收听位置的转换。

任务T200解析元数据以获得效果标识符和至少一个效果参数值。任务T300将由效果标识符标识的效果应用于声场描述。在元数据流中用发信号通知的信息可以包括要应用于声场的音频效果的类型：例如，聚焦、缩放、空位、旋转和平移中的任何一个或多个。对于要应用的每个效果，可以实现元数据以包括标识效果的对应效果标识符ID10(例如，不同的值对应于缩放、置零、聚焦、旋转和平移中的每一个；用于指示期望模式的模式指示符，例如会议或会议模式等)。图3D示出了效果标识符ID10的值表的一个示例，其将唯一标识符值分配给多个不同音频效果中的每一个，并且还提供一个或多个特殊配置或模式的信令(例如，如下所述的会议或会议模式；过渡模式，例如淡入或淡出；用于混合一个或多个声源和/或混合一个或多个其它声源的模式；用于启用或禁用混响和/或均衡的模式等等)。

对于每个所标识的效果，元数据可以包括用于定义如何应用所标识的效果的参数的一组对应的效果参数值PM10(例如，如图3B中所示)。例如，这样的参数可以包括：对相关音频效果的感兴趣区域的指示(例如，空间方向和区域的大小和/或宽度)；效果特定参数的一个或多个值(例如，聚焦效果的强度)；等。在下面参考特定效果来更详细地讨论这些参数的示例。

可能期望分配元数据流的更多比特来携带用于一种效果的参数值而不是用于另一种效果的参数值。在一个示例中，为每个效果的参数值分配的比特数是编码方案的固定值。在另一示例中，为每个所标识的效果的参数值分配的比特数在元数据流内指示(例如，如图3C中所示)。

可以将聚焦效应定义为特定源或区域的增强方向性。定义如何应用期望的聚焦效果的参数可以包括：聚焦区域或源的方向、聚焦效果的强度、和/或聚焦区域的宽度。可以在三个维度中指示该方向，例如，作为对应于区域或源的中心的方位角和仰角。在一个示例中，在渲染期间通过以更高的HOA阶来解码聚焦源或区域(更一般地，通过添加基函数系数的分层集合的一个或多个级别)和/或通过以较低HOA阶来解码其它源或区域，来应用聚焦效果。图4A示出了将应用源SS10上的聚焦的声场的示例，图4B示出了应用聚焦效果后的相同声场的示例(应当注意，本文声场附图中所示的声源可以指示例如，基于对象的表示中的音频对象或基于场景的表示中的虚拟源)。在该示例中，通过增加源SS10的方向性和增加其它源SS20和SS30的扩散率来应用聚焦效果。

可以应用缩放效果来提高声场在期望方向上的声级。定义如何应用期望的缩放效果的参数可以包括：要提升的区域的方向。可以在三个维度中指示该方向，例如，作为对应于区域中心的方位角和仰角。可以包括在元数据中的定义缩放效果的其它参数可以包括：级别提升的强度和要提升的区域的大小(例如，宽度)中的一者或两者。对于使用波束成形器实现的缩放效果，定义参数可以包括：选择波束成形器类型(例如，FIR或IIR)；选择一组波束成形器权重(例如，一个或多个抽头权重系列)；时频掩蔽值；等等。

可以应用零效应来降低声场在期望方向上的声级。定义如何应用期望的零效果的参数，可以类似于定义如何应用期望的缩放效果的参数。

可以通过将声场旋转到期望的方向来应用旋转效果。定义声场的期望旋转的参数，可以指示要旋转到定义的参考方向的方向(例如，如图5A中所示)。替代地，可以将期望的旋转指示为参考方向在声场内向不同的指定方向的旋转(例如，如图5B中等效所示)。

可以应用平移效果来将声源平移到声场内的新位置。定义期望平移的参数可以包括方向和距离(或者，相对于用户位置的旋转角度)。图6A示出了具有三个声源SS10、SS20、SS30和源SS20的期望平移TR10的声场的示例；图6B示出了应用平移TR10之后的声场。

元数据中指示的每个声场修改可以链接到声场流的特定时刻(例如，通过元数据中包括的时间戳，如图7A和7B中所示)。对于在共享时间戳下指示多于一个声场修改的实现，元数据还可以包括用于识别修改之间的时间优先级的信息(例如，“将指示的旋转效果应用于声场，然后将指示的聚焦效果应用于旋转的声场”)。

如上所述，可能希望使用户能够选择声场的原始版本或者由音频效果元数据修改的版本，和/或以部分或完全不同于效果元数据中指示的效果的方式修改声场。用户可以主动地指示这样的命令：例如，在触摸屏上、通过手势、通过语音命令等等。替代地或另外地，可以通过被动用户交互，经由跟踪用户的移动和/或方向的设备(例如，其可以包括惯性测量单元(IMU)的用户跟踪设备)产生用户命令。图8A示出了还包括显示屏和耳机的这种设备的一个示例UT10。IMU可以包括一个或多个加速度计、陀螺仪和/或磁力计，以指示和量化运动和/或方向。

图7C示出了方法M100的实施方案M200的流程图，其包括任务T400和任务T300的实施方案T350。任务T400接收至少一个用户命令(例如，通过主动和/或被动用户交互)。基于(A)至少一个效果参数值或(B)至少一个用户命令中的至少一个，任务T350将由效果标识符标识的效果应用于声场描述。可以例如通过用户跟踪设备UT10的实现来执行方法M200，该用户跟踪设备UT10接收音频和元数据流，并且经由耳机向用户产生对应的音频。

为了支持沉浸式VR体验，可能需要响应于收听者的虚拟位置的变化来调整所提供的音频环境。例如，可能需要支持六自由度(6DOF)的虚拟运动。如图8A和8B中所示，6DOF包括3DOF的三个旋转运动以及三个平移运动：前/后(浪涌)、上/下(起伏)和左/右(摇摆)。6DOF应用的示例包括：远程用户虚拟参加诸如体育赛事(例如，棒球比赛)之类的观众活动。对于佩戴诸如用户跟踪设备UT10之类的设备的用户，可能希望根据设备UT10产生的被动用户命令来执行声场旋转(例如，将用户的当前前视方向指示为声场的期望参考方向)，而不是根据如上所述的元数据流中的内容创作者指示的旋转效果。

可能希望允许内容创作者限制元数据中描述的效果可以在下游改变的程度。例如，可能需要施加空间限制，以允许用户仅在特定区域中应用效果和/或阻止用户在特定区域中应用效果。这样的限制可以应用于所有用信号发送的效果或特定的一组效果，或者限制可以仅应用于单个效果。在一个示例中，空间限制允许用户仅在特定区域中应用缩放效果。在另一个示例中，空间限制阻止用户在另一个特定区域(例如，机密和/或私人区域)中应用缩放效果。在另一个示例中，可能需要施加时间限制以允许用户仅在特定间隔期间应用效果和/或阻止用户在特定间隔期间应用效果。同样，这样的限制可以应用于所有发信号通知的效果或特定的一组效果，或者限制可以仅应用于单个效果。

为了支持这种限制，元数据可以包括用于指示期望限制的标志。例如，限制标志可以指示元数据中指示的效果里的一个或多个(可能所有)是否可以被用户交互覆盖。另外地或替代地，限制标志可以指示是允许还是禁止用户对声场的改变。这种禁用可以应用于所有效果，或者可以专门启用或禁用一种或多种效果。限制可以应用于整个文件或比特流，或者可以与文件或比特流内的特定时间段相关联。在另一个示例中，可以实现效果标识符，以使用不同的值来区分效果的受限版本(例如，其不能被移除或覆盖)和相同效果的非受限版本(可以根据消费者的选择来应用或忽略)。

图9A示出了元数据流的示例，其中限制标志RF10应用于两个所标识的效果。图9B示出了元数据流的示例，其中单独的限制标志应用于两个不同效果中的每一个。图9C示出了限制标志在元数据流中伴随有限制持续时间RD10的示例，该限制持续时间RD10指示限制有效的持续时间。

音频文件或流可以包括一个或多个版本的效果元数据，并且可以为相同的音频内容提供这种效果元数据的不同版本(例如，作为来自内容生成者的用户建议)。例如，不同版本的效果元数据可以为不同的观众提供不同的关注区域。在一个示例中，不同版本的效果元数据可以描述放大到视频中不同人(例如，演员、运动员)的效果。内容创作者可以标记感兴趣的音频源和/或方向(例如，例如图10中所描绘的不同热点的不同级别的缩放和/或归零)，并且相应的视频流可以被配置为支持用户选择所需的元数据流(通过在视频流中选择相应的特征来获取)。在另一个示例中，可以经由社交媒体共享用户生成的元数据的不同版本(例如，对于具有许多不同观众视角的现场事件，例如，竞技场规模的音乐事件)。例如，不同版本的效果元数据可以描述相同声场的不同改变以对应于不同的视频流。不同版本的音频效果元数据比特流可以单独下载或流式传输，可能来自与声场本身不同的来源。

可以由人类指导(例如，由内容创作者)创建效果元数据，和/或根据一个或多个设计标准自动创建效果元数据。例如，在电话会议应用中，可能希望自动选择单个最大声源或来自多个谈话源的音频，并降低声场的其它音频分量的重要性(例如，丢弃或降低音量)。相应的效果元数据流可以包括指示“会议模式”的标志。在一个示例中，如图3C中所示，对元数据的效果标识符字段(例如，效果标识符ID10)的一个或多个可能值进行分配以指示该模式的选择。定义如何应用会议模式的参数可以包括：要放大的源的数量(例如，会议桌上的人数、要发言的人数等等)。源的数量可以由现场用户、内容创作者选择和/或自动选择。例如，可以对一个或多个对应的视频流执行面部、运动和/或个人检测，以识别感兴趣的方向和/或支持抑制从其它方向到达的噪声。

定义如何应用会议模式的其它参数可以包括：用于增强从声场中对源的提取的元数据(例如，波束成形器权重、时间频率掩蔽值等)。该元数据还可以包括指示声场的期望旋转的一个或多个参数值。可以根据最大声源的位置来旋转声场：例如，支持远程用户的视频和音频的自动旋转，以便最大声的扬声器位于远程用户的前面。在另一个示例中，元数据可以指示声场的自动旋转，以便在远程用户面前进行两人讨论。在另一个示例中，这些参数值可以指示所记录的声场的角度范围的压缩(或其它重新映射)(例如，如图11A中所示)，使得远程参与者可以将其它参加者感知为在她前面而不是在她后面(例如，如图11B中所示)。

如本文所述的音频效果元数据流可以在与对应的音频流(或多个流)相同的传输中承载，或者可以在单独的传输中接收，或者甚至从不同的源接收(例如，如上所述)。在一个示例中，将效果元数据流存储或传输在专用扩展有效载荷中(例如，在如图9D所示的afx_data字段中)，这是高级音频编码(AAC)编解码器(例如，如在ISO/IEC 14496-3:2009中所定义的)和更新的编解码器中的现有特征。这种扩展有效载荷中的数据可以由理解这种类型的扩展有效载荷的设备(例如，解码器和渲染器)进行处理，并且可以被其它设备忽略。在另一个示例中，可以针对音频或视听编解码器，对如本文所述的音频效果元数据流进行标准化。例如，这种方法可以作为沉浸式环境的标准化表示的一部分的音频组中的修正来实现(例如，MPEG-H(例如，如高级电视系统委员会(ATSC)Doc.A/342-3:2017)和/或MPEG-I(例如，如ISO/IEC 23090中所述))。在另外的示例中，可以根据与编码无关的代码点(CICP)规范来实现如本文所述的音频效果元数据流。如本文所述的音频效果元数据流的其它用例包括：在IVAS(沉浸式语音和音频服务)编解码器内编码(例如，作为3GPP实现的一部分)。

虽然关于AAC进行了描述，但可以使用任何类型的心理声学音频编码来执行该技术，如下文更详细描述的，该编码允许扩展有效载荷和/或扩展分组(例如，填充元素或其它信息容器，其包括标识符后跟着填充数据)或以其它方式允许向后兼容。其它心理声学音频编解码器的示例包括：音频编解码器3(AC-3)、苹果无损音频编解码器(ALAC)、MPEG-4音频无损流(ALS)、

增强型AC-3、免费无损音频编解码器(FLAC)、Monkey's Audio、MPEG-1音频层II(MP2)、MPEG-1音频层III(MP3)Opus和Windows媒体音频(WMA)。

图12A示出了用于处理包括如本文所述的音频数据和音频效果元数据的比特流的系统的框图。该系统包括音频解码阶段，其被配置为解析音频效果元数据(例如，在扩展有效载荷中接收)，并将该元数据提供给音频渲染阶段。音频渲染阶段被配置为使用音频效果元数据来应用创作者所期望的音频效果。音频渲染阶段还可以被配置为接收用户交互，以操纵音频效果并考虑这些用户命令(如果允许的话)。

图12B示出了根据包括解码器DC10和声场渲染器SR10的一般配置的装置A100的框图。解码器DC10被配置为接收包括元数据MD10和声场描述SD10的比特流BS10(例如，如本文关于任务T100所描述的)，并解析元数据MD10以获得效果标识符和至少一个效果参数值(例如，如本文关于任务T200所描述的)。渲染器SR10被配置为向声场描述SD10应用由效果标识符所标识的效果(例如，如本文关于任务T300所描述的)以生成经修改的声场MS10。例如，渲染器SR10可以被配置为使用至少一个效果参数值，将所标识的效果应用于声场描述SD10。

渲染器SR10可以被配置为向声场应用聚焦效果，例如，通过以比其它区域更高的分辨率渲染声场的选定区域，和/或通过渲染其它区域以具有更高的扩散率。在一个示例中，执行任务T300的装置或设备(例如，渲染器SR10)被配置为通过有线和/或无线连接(例如，Wi-Fi和/或LTE)，从服务器请求聚焦源或区域的额外信息(例如，高阶HOA系数值)来实现聚焦效果。

渲染器SR10可以被配置为向声场应用缩放效果，例如，通过应用波束成形器(例如，根据元数据的对应字段内携带的参数值)。渲染器SR10可以被配置为向声场应用旋转或平移效果，例如，通过将相应的矩阵变换应用到一组HOA系数(或更一般地，应用到基函数系数的分层集合)和/或通过相应地移动声场内的音频对象。

图12C示出了包括命令处理器CP10的装置A100的实施方案A200的框图。处理器CP10被配置为接收如本文所述的元数据MD10和至少一个用户命令UC10，并产生基于至少一个用户命令UC10和至少一个效果参数值的至少一个效果命令EC10(例如，根据元数据中的一个或多个限制标志)。渲染器SR10被配置为使用至少一个效果命令EC10将所标识的效果应用于声场描述SD10，以生成经修改的声场MS10。

图13A示出了根据一般配置的用于操纵声场F100的装置的框图。装置F100包括用于接收比特流的单元MF100，该比特流包括元数据(例如，一个或多个元数据流)和声场描述(例如，一个或多个音频流)(例如，如本文关于任务T100所描述的)。例如，用于接收的单元MF100包括收发器、调制解调器、解码器DC10、被配置为接收比特流BS10的一个或多个其它电路或设备、或者其组合。装置F100还包括用于解析元数据以获得效果标识符和至少一个效果参数值的单元MF200(例如，如本文关于任务T200所描述的)。例如，用于解析的单元MF200包括解码器DC10、被配置为解析元数据MD10的一个或多个其它电路或设备、或者其组合。装置F100还包括用于将由效果标识符所标识的效果应用到声场描述的单元MF300(例如，如本文关于任务T300所描述的)。例如，单元MF300可以被配置为通过使用至少一个效果参数值将矩阵变换应用到声场描述，来应用所标识的效果。在一些示例中，用于应用效果的单元MF300包括渲染器SR10、处理器CP10、被配置为将效果应用到声场描述SD10的一个或多个其它电路或设备、或者其组合。

图13B示出了装置F100的实施方案F200的框图，其包括用于接收至少一个用户命令(例如，通过主动和/或被动用户交互)(例如，如本文关于任务T400所描述的)的单元MF400。例如，用于接收至少一个用户命令的单元MF400包括处理器CP10、被配置为接收至少一个用户命令UC10的一个或多个其它电路或设备、或它们的组合。装置F200还包括：用于基于(A)至少一个效果参数值或(B)至少一个用户命令中的至少一者，向声场描述应用由效果标识符所标识的效果的单元MF350(单元MF300的实现)。在一个示例中，单元MF350包括：用于将至少一个效果参数值与用户命令组合以获得至少一个修正参数的单元。在另一个示例中，解析元数据包括：解析元数据以获得第二效果标识符，并且单元MF350包括用于确定不对声场描述应用由第二效果标识符所标识的效果的单元。在一些示例中，用于应用效果的单元MF350包括渲染器SR10、处理器CP10、被配置为将效果应用到声场描述SD10的一个或多个其它电路或设备、或者其组合。装置F200可以例如通过用户跟踪设备UT10的实现来体现，该用户跟踪设备UT10接收音频和元数据流，并经由耳机向用户产生相应的音频。

用于虚拟现实(VR)的硬件可以包括：向用户呈现视觉场景的一个或多个屏幕、提供相应的音频环境的一个或多个发声换能器(例如，扬声器阵列或头戴式换能器阵列)、以及用于确定用户的位置、方向和/或移动的一个或多个传感器。如图8A中所示的用户跟踪设备UT10是VR头戴式耳机的一个示例。为了支持身临其境的体验，这样的耳机可以检测用户头部在三个自由度(3DOF)中的方向：头部围绕上下轴旋转(偏航)，头部在前后平面中的倾斜(俯仰)，以及头部在左右平面中的倾斜(滚动)，并相应地调整所提供的音频环境。

正在开发计算机介导的现实系统以允许计算设备增强或添加、移除或减去、替换或更换、或一般地修改用户体验的现有现实。举几个示例，计算机介导的现实系统可以包括虚拟现实(VR)系统、增强现实(AR)系统和混合现实(MR)系统。计算机介导的现实系统的感知成功，通常与此类系统在视频和音频方面提供逼真的沉浸式体验的能力有关，使得视频和音频体验以用户认为自然和期望的方式对齐。尽管人类视觉系统比人类听觉系统更敏感(例如，就场景内各种对象的感知定位而言)，但确保足够的听觉体验对于确保逼真的沉浸式体验来说是一个越来越重要的因素，尤其是随着视频体验的改进，可以更好地定位视频对象，从而使用户能够更好地识别音频内容的来源。

在VR技术中，可以使用头戴式显示器向用户呈现虚拟信息，使得用户可以在他们眼前的屏幕上视觉体验人造世界。在AR技术中，通过可能叠加(例如，覆盖)在现实世界中的物理对象上的视觉对象，来增强现实世界。这种增强可以在真实世界环境中插入新的视觉对象和/或掩蔽视觉对象。在MR技术中，真实或合成/虚拟与用户视觉体验之间的界限变得难以辨别。如本文所描述的技术可以与如图15中所示的VR设备400一起使用，以经由设备的耳机404改善设备的用户402的体验。

视频、音频和其它感官数据可以在VR体验中发挥重要作用。为了参与VR体验，用户402可以佩戴VR设备400(也可以称为VR头戴式耳机400)或其它可穿戴电子设备。VR客户端设备(例如，VR头戴式耳机400)可以跟踪用户402的头部运动，并调整经由VR头戴式耳机400显示的视频数据以说明头部运动，从而提供其中用户402可以体验在视觉三维中在视频数据中显示的虚拟世界的沉浸式体验。

虽然VR(和其它形式的AR和/或MR)可以允许用户402视觉地驻留在虚拟世界中，但是VR头戴式耳机400通常可能缺乏将用户放置在可听的虚拟世界中的能力。换言之，VR系统(其可能包括负责渲染视频数据和音频数据的计算机(为了便于说明起见而在图15的示例中没有示出)、以及VR头戴式耳机400)可能无法支持听觉上的全3D沉浸感(在某些情况下，以经由VR头戴式耳机400向用户显示的虚拟场景的方式真实地反映)。

尽管全三维可听渲染仍然提出一些挑战，但本公开内容中的技术使得朝着该目标进一步迈出一步。可以将AR、MR和/或VR的音频方面分为三个独立的沉浸式类别。第一类别提供最低程度的沉浸感，称为三自由度(3DOF)。3DOF指的是音频渲染，它考虑了头部在三个自由度(偏航、俯仰和滚动)中的运动，从而允许用户在任何方向上自由地环顾四周。然而，3DOF无法解释头部不以声场的光学和声学中心为中心的平移(和定向)头部运动。

第二类别称为3DOF plus(或“3DOF+”)，除了由于头部移开声场内的光学中心和声学中心的运动而导致的有限空间平移(和定向)运动之外，还提供三个自由度(偏航、俯仰和滚动)。3DOF+可以为诸如运动视差的感知效果提供支持，可以增强沉浸感。

第三类别称为六自由度(6DOF)，其渲染音频数据的方式考虑了头部运动的三个自由度(偏航、俯仰和滚动)，但也考虑了人在空间中的平移(x、y和z平移)。例如，可以通过传感器跟踪人在物理世界中的位置、通过输入控制器和/或通过模拟用户在虚拟空间内的运输的渲染程序，来诱导空间平移。

VR的音频方面的沉浸感可能不如视频方面，从而潜在地降低用户体验的整体沉浸感。然而，随着处理器和无线连接的进步，可以使用可穿戴的AR、MR和/或VR设备实现6DOF渲染。此外，未来有可能考虑到具有AR、MR和/或VR设备功能的车辆的移动，并提供身临其境的音频体验。此外，普通技术人员将认识到移动设备(例如，手机、智能手机、平板电脑)也可以实现VR、AR和/或MR技术。

根据本公开内容中描述的技术，调整音频数据的各种方式(无论是音频通道格式、音频对象格式和/或基于音频场景的格式)可以允许6DOF音频渲染。6DOF渲染通过以考虑头部运动(偏航、俯仰和滚动)三个自由度以及平移运动(例如，在空间三维坐标系x,y,z)的方式渲染音频数据，提供更身临其境的聆听体验。在实施中，在头部运动可能不能以光学和声学中心为中心的情况下，可以进行调整以提供6DOF渲染，而不必限于空间二维坐标系。如本文所公开的，以下附图和描述允许6DOF音频渲染。

图16是描绘可以根据本公开内容中描述的技术的各个方面操作的可穿戴设备的实施方式800的示例的图。在各种示例中，可穿戴设备800可以表示VR头戴式耳机(例如，上面所描述的VR头戴式耳机400)、AR头戴式耳机、MR头戴式耳机或扩展现实(XR)头戴式耳机。增强现实“AR”可以指代覆盖在用户实际所在的现实世界上的经计算机渲染的图像或数据。混合现实“MR”可以指代经计算机渲染的图像或世界锁定到现实世界中特定位置的数据，或者可以指代VR的变体，其中将部分经计算机渲染的3D元素和部分拍摄的真实元素组合成一个模拟用户在环境中的物理存在的沉浸式体验。扩展现实“XR”可以是指VR、AR和MR的统称。

可穿戴设备800可以表示其它类型的设备，例如手表(包括所谓的“智能手表”)、眼镜(包括所谓的“智能眼镜”)、耳机(包括所谓的“无线耳机”和“智能耳机”)、智能服装、智能首饰等。无论是代表VR设备、手表、眼镜和/或耳机，可穿戴设备800都可以经由有线连接或无线连接与支持可穿戴设备800的计算设备进行通信。

在一些情况下，支持可穿戴设备800的计算设备可以集成在可穿戴设备800内，因此，可以将可穿戴设备800视作为与支持可穿戴设备800的计算设备相同的设备。在其它实例中，可穿戴设备800可以与能够支持可穿戴设备800的单独计算设备进行通信。在该方面，术语“支持”不应理解为需要单独的专用设备，而是被配置为执行各种本公开内容中描述的技术的各方面的一个或多个处理器可以集成在可穿戴设备800内，或者集成在与可穿戴设备800分离的计算设备内。

例如，当可穿戴设备800代表VR设备400时，单独的专用计算设备(例如，包括一个或多个处理器的个人计算机)可以渲染音频和视频内容，而可穿戴设备800可以根据本公开内容中描述的技术的各个方面，基于平移的头部运动来确定专用计算设备可以在其上渲染音频内容(作为扬声器馈送)的平移头部运动。再举一个示例，当可穿戴设备800代表智能眼镜时，可穿戴设备800可以包括处理器(例如，一个或多个处理器)，其确定平移头部运动(通过在可穿戴设备800的一个或多个传感器内连接)并且基于所确定的平移头部运动来渲染扬声器馈送。

如图所示，可穿戴设备800包括后置相机、一个或多个定向扬声器、一个或多个跟踪和/或记录相机、以及一个或多个发光二极管(LED)灯。在一些示例中，LED灯可以称为“超亮”LED灯。此外，可穿戴设备800包括一个或多个眼球追踪相机、高灵敏度音频麦克风和光学/投影硬件。可穿戴设备800的光学/投影硬件可以包括耐用的半透明显示技术和硬件。

可穿戴设备800还包括连接硬件，其可以表示一个或多个支持多模式连接的网络接口，例如4G通信、5G通信等。可穿戴设备800还包括环境光传感器和骨导换能器。在一些情况下，可穿戴设备800还可以包括一个或多个具有鱼眼镜头和/或远摄镜头的无源和/或有源相机。根据本公开内容的各种技术，可穿戴设备800的转向角可以用于选择声场的音频表示(例如，混合阶环绕声(MOA)表示之一)以经由可穿戴设备800的定向扬声器(耳机404)进行输出。应当理解，可穿戴设备800可以呈现出多种不同的形状因数。

尽管在图16的示例中没有示出，但可穿戴设备800可以包括方向/平移传感器单元，例如用于感测的微机电系统(MEMS)的组合，或者能够提供支持头部和/或身体跟踪的信息的任何其它类型的传感器。在一个示例中，定向/平移传感器单元可以代表用于感测平移运动的MEMS，类似于在蜂窝电话中使用的那些(例如，所谓的“智能手机”)。

尽管关于可穿戴设备的特定示例进行了描述，但是本领域普通技术人员应当理解与图15和图16相关的描述可以应用于可穿戴设备的其它示例。例如，其它可穿戴设备(例如，智能眼镜)可以包括传感器，通过这些传感器可以获得平移的头部运动。再举一个示例，其它可穿戴设备(例如，智能手表)可以包括传感器，通过该传感器获得平移运动。因此，本公开内容中描述的技术不应限于特定类型的可穿戴设备，而是可以将任何可穿戴设备配置为执行本公开内容中描述的技术。

图17示出了可以在设备(例如，可穿戴设备400或800)内实现的系统900的框图。系统900包括处理器420(例如，一个或多个处理器)，其可以被配置为执行如本文所述的方法M100或M200。系统900还包括耦合到处理器420的存储器120、传感器110(例如，设备800的环境光传感器、方向和/或跟踪传感器)、视觉传感器130(例如，夜视传感器、跟踪和记录相机、眼睛追踪相机和设备800的后置相机)、显示设备100(例如，设备800的光学器件/投影仪)、音频捕捉设备112(例如，设备800的高灵敏度麦克风)、扬声器470(例如，设备400的耳机404、设备800的定向扬声器)、收发器480和天线490。在特定的方面，系统900包括调制解调器，作为收发器480的补充或替代。例如，调制解调器、收发器480或两者被配置为接收表示比特流BS10的信号，并将比特流BS10提供给解码器DC10。

如本文所公开的装置或系统(例如，装置A100、A200、F100和/或F200)的实施方式的各种元件，可以利用被认为适合于预期应用的硬件与软件和/或与固件的任何组合来体现。例如，可以将这些元件制造为电子和/或光学设备，例如驻留在同一芯片上或在芯片组中的两个或更多个芯片之间。这种设备的一个示例是逻辑元件的固定或可编程阵列(例如，晶体管或逻辑门)，并且这些元件中的任何一个都可以实现为一个或多个这样的阵列。这些元件中的任何两个或更多个，甚至所有这些元件都可以在相同的一个或多个阵列中实现。这样的一个或多个阵列可以在一个或多个芯片内实现(例如，在包括两个或更多个芯片的芯片组内实现)。

如本文所公开的用于处理的处理器或其它装置可以被制造为一个或多个电子和/或光学设备，该电子和/或光学设备例如位于同一芯片上或芯片组中的两个或多个芯片之间。这种设备的一个示例是逻辑元件的固定或可编程阵列(例如，晶体管或逻辑门)，并且这些元件中的任何一个都可以实现为一个或多个这样的阵列。这样的一个或多个阵列可以在一个或多个芯片内实现(例如，在包括两个或多个芯片的芯片组内实现)。此类阵列的示例包括逻辑元件的固定或可编程阵列，例如微处理器、嵌入式处理器、IP核、DSP(数字信号处理器)、FPGA(现场可编程门阵列)、ASSP(特定应用标准产品)和ASIC(专用集成电路)。如本文所公开的用于处理的处理器或其它单元也可以体现为一个或多个计算机(例如，包括一个或多个阵列的机器，这些阵列被编程为执行一组或多组指令或指令序列)或其它处理器。如本文所述的处理器有可能用于执行任务或执行与方法M100或M200(或如参考本文所描述的装置或系统的操作所公开的另一方法)的实现的过程不直接相关的其他指令集，例如与嵌入处理器的设备或系统(例如，诸如智能手机或智能扬声器之类的语音通信设备)的另一操作有关的任务。如本文所公开的方法的一部分也可以在一个或多个其它处理器的控制下执行。

本文所公开的方法(例如，方法M100和/或M200)的每个任务可以直接体现在硬件中、由处理器执行的软件模块中或两者的组合中。在如本文所公开的方法的实现的典型应用中，逻辑元件(例如，逻辑门)阵列被配置为执行该方法的一项、多项甚至所有任务。一个或多个(可能所有)任务也可以实现为代码(例如，一组或多组指令)，体现在计算机程序产品(例如，诸如磁盘、闪存或其它非易失性存储卡、半导体存储芯片等等之类的一个或多个数据存储介质)中，该计算机程序产品可以由包括逻辑元件阵列(例如，处理器、微处理器、微控制器或其它有限状态机)的机器(例如，计算机)读取和/或执行。实施如本文所公开的方法的任务也可以由多于一个这样的阵列或机器来执行。在这些或其它实施方式中，可以在诸如蜂窝电话或具有这种通信能力的其它设备之类的用于无线通信的设备内执行这些任务。这样的设备可以被配置为与电路交换和/或分组交换网络进行通信(例如，使用诸如VoIP的一种或多种协议)。例如，这样的设备可以包括被配置为接收和/或发送编码帧的RF电路。

在一个或多个示例性方面，本文所描述的操作可以利用硬件、软件、固件或者其任意组合来实现。当使用软件来实现时，可以将这些操作存储在计算机可读介质上或者作为一个或多个指令或代码进行传输。术语“计算机可读介质”包括计算机可读存储介质和通信(例如，传输)介质。举例而言，但非做出限制，计算机可读存储介质可以包括存储元件阵列，例如半导体存储器(其可以包括但不限于动态或静态RAM、ROM、EEPROM和/或闪存RAM)、或铁电、磁阻、椭圆、聚合物或相变存储器；CD-ROM或其它光盘存贮设备；和/或磁盘存储或其它磁性存贮设备。这种存储介质可以存储计算机能访问的指令或数据结构形式的信息。通信介质可以包括能够用于携带具有指令或数据结构形式的期望的程序代码并能够由计算机进行存取的任何介质，其包括便于从一个地方向另一个地方传送计算机程序的任何介质。此外，可以将任何连接适当地称作计算机可读介质。举例而言，如果软件是使用同轴电缆、光纤电缆、双绞线、数字用户线路(DSL)或者诸如红外线、无线和/或微波之类的无线技术，从网站、服务器或其它远程源传输的，那么所述同轴电缆、光纤电缆、双绞线、DSL或者诸如红外线、无线和/或微波之类的无线技术包括在所述介质的定义中。如本文所使用的，磁盘和光盘包括压缩光盘(CD)、激光光盘、光盘、数字通用光盘(DVD)、软盘和蓝光光盘TM(蓝光光盘协会，加利福尼亚州环球城)，其中磁盘通常磁性地复制数据，而光盘则用激光来光学地复制数据。上述的组合也应当包括在计算机可读介质的保护范围之内。

在一个示例中，一种非临时性计算机可读存储介质包括代码，当该代码由至少一个处理器执行时，使所述至少一个处理器执行如本文所描述的表征声场的部分的方法。这种存储介质的进一步示例包括进一步包括代码的介质，当由至少一个处理器执行该代码时，使至少一个处理器执行以下操作：接收包括元数据和声场描述的比特流(例如，如本文参考任务T100所描述的)；解析元数据，以获得效果标识符和至少一个效果参数值(例如，如本文参考任务T200所描述的)；并将由效果标识符标识的效果应用于声场描述(例如，如本文参考任务T300所描述的)。该应用可以包括：使用至少一个效果参数值，将所标识的效果应用到声场描述。

在以下编号的条款中描述了实现示例：

条款1。一种操纵声场的方法，该方法包括：接收包括元数据和声场描述的比特流；解析所述元数据，以获得效果标识符和至少一个效果参数值；并将由所述效果标识符标识的效果应用于所述声场描述。

条款2。根据条款1所述的方法，其中，所述解析所述元数据包括：解析所述元数据以获得对应于所述效果标识符的时间戳，并且其中，所述应用所标识的效果包括使用所述至少一个效果参数值将所标识的效果应用到与所述时间戳相对应的所述声场描述的部分。

条款3。根据条款1所述的方法，其中，所述应用所标识的效果包括：将所述至少一个效果参数值与用户命令组合以获得至少一个修改的参数值。

条款4。根据条款1至3中的任何一项所述的方法，其中，应用所标识的效果包括：将所述声场旋转到期望的方向。

条款5。根据条款1至3中的任何一项所述的方法，其中，所述至少一个效果参数值包括指示方向，并且其中，所述应用所标识的效果包括使用所述至少一个效果参数值将所述声场旋转到所述指示方向。

条款6。根据条款1至3中的任何一项所述的方法，其中，所述至少一个效果参数值包括指示方向，并且其中，所述应用所标识的效果包括相对于其它方向中的所述声场的声级，使用所述至少一个效果参数值来增加所述声场在所述指示方向上的声级。

条款7。根据条款1至3中的任何一项所述的方法，其中，所述至少一个效果参数值包括指示方向，并且其中，所述应用所标识的效果包括相对于其它方向中的所述声场的声级，使用所述至少一个效果参数值来降低所述声场在所述指示方向上的声级。

条款8。根据条款1至3中的任何一项所述的方法，其中，所述至少一个效果参数值指示所述声场内的位置，并且其中，所述应用所标识的效果包括：使用所述至少一个效果参数值将声源转换到所指示的位置。

条款9。根据条款1至3中的任何一项所述的方法，其中，所述至少一个效果参数值包括指示方向，并且其中，所述应用所标识的效果包括：相对于所述声场的另一个声源或所述声场的区域，使用所述至少一个效果参数值来增加所述声场的声源或所述声场的所述区域中的至少一者的方向性。

条款10。根据条款1至3中的任何一项所述的方法，其中，所述应用所标识的效果包括：将矩阵变换应用到所述声场描述。

条款11。根据条款10所述的方法，其中，所述矩阵变换包括所述声场的旋转和所述声场的平移中的至少一者。

条款12。根据条款1至3中的任何一项所述的方法，其中，所述声场描述包括基函数系数的分层集合。

条款13。根据条款1至3中的任何一项所述的方法，其中，所述声场描述包括多个音频对象。

条款14。根据条款1至3中的任何一项所述的方法，其中，所述解析所述元数据包括：解析所述元数据以获得第二效果标识符，并且其中,所述方法包括确定不对所述声场描述应用由所述第二效果标识符标识的效果。

条款15。一种用于操纵声场的装置，所述装置包括：解码器，其被配置为接收包括元数据和声场描述的比特流，并解析所述元数据以获得效果标识符和至少一个效果参数值；以及渲染器，其被配置为将由所述效果标识符标识的效果应用于所述声场描述。

条款16。根据条款15所述的装置，还包括调制解调器，其被配置为：接收表示所述比特流的信号；并将所述比特流提供给所述解码器。

条款17。一种用于操纵声场的设备，所述设备包括：存储器，其被配置为存储包括元数据和声场描述的比特流；以及耦合到所述存储器的处理器，其被配置为：解析所述元数据以获得效果标识符和至少一个效果参数值；并将由所述效果标识符标识的效果应用于所述声场描述。

条款18。根据条款17所述的设备，其中，所述处理器被配置为解析所述元数据以获得与所述效果标识符相对应的时间戳，并且通过使用所述至少一个效果参数值来应用所标识的效果，以将所标识的效果应用到与所述时间戳相对应的所述声场描述的部分。

条款19。根据条款17所述的设备，其中，所述处理器被配置为：将所述至少一个效果参数值与用户命令组合以获得至少一个修改的参数。

条款20。根据条款17至19中的任何一项所述的设备，其中，所述至少一个效果参数值包括指示方向，并且其中，所述处理器被配置为通过使用所述至少一个效果参数值将所述声场旋转到所述指示方向，来应用所标识的效果。

条款21。根据条款17至19中的任何一项所述的设备，其中，所述至少一个效果参数值包括指示方向，并且其中，所述处理器被配置为通过相对于其它方向中的所述声场的声级，使用所述至少一个效果参数值来增加所述声场在所述指示方向上的声级，来应用所标识的效果。

条款22。根据条款17至19中的任何一项所述的设备，其中，所述至少一个效果参数值包括指示方向，并且其中，所述处理器被配置为相对于其它方向中的所述声场的声级，使用所述至少一个效果参数值来降低所述声场在所述指示方向上的声级，来应用所标识的效果。

条款23。根据条款17至19中的任何一项所述的设备，其中，所述至少一个效果参数值指示所述声场内的位置，并且其中，所述处理器被配置为使用所述至少一个效果参数值将声源转换到所指示的位置，来应用所标识的效果。

条款24。根据条款17至19中的任何一项所述的设备，其中，所述至少一个效果参数值包括指示方向，并且其中，所述处理器被配置为相对于所述声场的另一个声源或所述声场的区域，使用所述至少一个效果参数值来增加所述声场的声源或所述声场的所述区域中的至少一者的方向性，来应用所标识的效果。

条款25。根据条款17至19中的任何一项所述的设备，其中，所述处理器被配置为通过使用所述至少一个效果参数值将矩阵变换应用到所述声场描述，来应用所标识的效果。

条款26。根据条款25所述的设备，其中，所述矩阵变换包括所述声场的旋转和所述声场的平移中的至少一者。

条款27。根据条款17至19中的任何一项所述的设备，其中，所述声场描述包括基函数系数的分层集合。

条款28。根据条款17至19中的任何一项所述的设备，其中，所述声场描述包括多个音频对象。

条款29。根据条款17至19中的任何一项所述的设备，其中，所述处理器被配置为解析所述元数据以获得第二效果标识符，并确定不对所述声场描述应用由所述第二效果标识符标识的效果。

条款30。根据条款17至19中的任何一项所述的设备，其中，所述设备包括专用集成电路，所述专用集成电路包括所述处理器。

条款31。一种用于操纵声场的装置，该装置包括：用于接收包括元数据和声场描述的比特流的接收单元；用于解析所述元数据，以获得效果标识符和至少一个效果参数值的解析单元；用于将由所述效果标识符标识的效果应用于所述声场描述的应用单元。

条款32。根据条款31所述的装置，其中，所述用于接收的单元、所述用于解析的单元或所述用于应用的单元中的至少一者集成在移动电话、平板计算机设备、可穿戴电子设备、相机设备、虚拟现实耳机、增强现实耳机或车辆中的至少一者中。

本领域普通技术人员还应当理解，结合本文所公开实施方式描述的各种示例性的逻辑框、配置、模块、电路和算法步骤均可以实现成电子硬件、由处理器执行的计算机软件、或二者的组合。上面对各种示例性的部件、框、配置、模块、电路和步骤均围绕其功能进行了总体描述。至于这种功能是实现成硬件还是实现成处理器可执行指令，取决于特定的应用和对整个系统所施加的设计约束条件。熟练的技术人员可以针对每个特定应用，以变通的方式实现所描述的功能，但是，这种实现决策不应解释为背离本公开内容的保护范围。

结合本文所公开实施方式描述的方法或者算法的步骤，可以直接体现为硬件、由处理器执行的软件模块或二者的组合。软件模块可以位于随机存取存储器(RAM)、闪存、只读存储器(ROM)、可编程只读存储器(PROM)、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)、寄存器、硬盘、移动硬盘、压缩光盘只读存储器(CD-ROM)、或者本领域已知的任何其它形式的非临时性存储介质中。可以将一种示例性的存储介质连接至处理器，从而使该处理器能够从该存储介质读取信息，并可向该存储介质写入信息。在替代的方案中，存储介质也可以是处理器的组成部分。处理器和存储介质可以驻留在专用集成电路(ASIC)中。ASIC可以驻留在计算设备或用户终端中。替代地，处理器和存储介质可以作为分立组件驻留在计算设备或用户终端中。

为使本领域任何普通技术人员能够实现或者使用所公开的实施方式，上面围绕本公开内容进行了描述。对于本领域普通技术人员来说，对这些实施方式的各种修改是显而易见的，并且，本文定义的总体原理也可以在不脱离本公开内容的保护范围的基础上适用于其它变型。因此，本公开内容并不限于本文所示的实施方式，而是与所附权利要求书所界定的原理和新颖性特征的最广范围相一致。

Claims

1.一种操纵声场的方法，所述方法包括：

接收包括元数据和声场描述的比特流；

解析所述元数据，以获得效果标识符和至少一个效果参数值；以及

将由所述效果标识符标识的效果应用于所述声场描述。

2.根据权利要求1所述的方法，其中，所述解析所述元数据包括：解析所述元数据以获得对应于所述效果标识符的时间戳，并且其中，所述应用所标识的效果包括使用所述至少一个效果参数值将所标识的效果应用到与所述时间戳相对应的所述声场描述的部分。

3.根据权利要求1所述的方法，其中，所述应用所标识的效果包括：将所述至少一个效果参数值与用户命令组合以获得至少一个修改的参数值。

4.根据权利要求1所述的方法，其中，所述应用所标识的效果包括：将所述声场旋转到期望的方向。

5.根据权利要求1所述的方法，其中，所述至少一个效果参数值包括指示方向，并且其中，所述应用所标识的效果包括使用所述至少一个效果参数值将所述声场旋转到所述指示方向。

6.根据权利要求1所述的方法，其中，所述至少一个效果参数值包括指示方向，并且其中，所述应用所标识的效果包括相对于其它方向中的所述声场的声级，使用所述至少一个效果参数值来增加所述声场在所述指示方向上的声级。

7.根据权利要求1所述的方法，其中，所述至少一个效果参数值包括指示方向，并且其中，所述应用所标识的效果包括相对于其它方向中的所述声场的声级，使用所述至少一个效果参数值来降低所述声场在所述指示方向上的声级。

8.根据权利要求1所述的方法，其中，所述至少一个效果参数值指示所述声场内的位置，并且其中，所述应用所标识的效果包括：使用所述至少一个效果参数值将声源转换到所指示的位置。

9.根据权利要求1所述的方法，其中，所述至少一个效果参数值包括指示方向，并且其中，所述应用所标识的效果包括：相对于所述声场的另一个声源或所述声场的区域，使用所述至少一个效果参数值来增加所述声场的声源或所述声场的所述区域中的至少一者的方向性。

10.根据权利要求1所述的方法，其中，所述应用所标识的效果包括：将矩阵变换应用到所述声场描述。

11.根据权利要求10所述的方法，其中，所述矩阵变换包括所述声场的旋转和所述声场的平移中的至少一者。

12.根据权利要求1所述的方法，其中，所述声场描述包括基函数系数的分层集合。

13.根据权利要求1所述的方法，其中，所述声场描述包括多个音频对象。

14.根据权利要求1所述的方法，其中，所述解析所述元数据包括：解析所述元数据以获得第二效果标识符，并且其中，所述方法包括确定不对所述声场描述应用由所述第二效果标识符标识的效果。

15.一种用于操纵声场的装置，所述装置包括：

解码器，其被配置为接收包括元数据和声场描述的比特流，并且解析所述元数据以获得效果标识符和至少一个效果参数值；以及

渲染器，其被配置为将由所述效果标识符标识的效果应用于所述声场描述。

16.根据权利要求15所述的装置，还包括调制解调器，其被配置为：

接收表示所述比特流的信号；以及

将所述比特流提供给所述解码器。

17.一种用于操纵声场的设备，所述设备包括：

存储器，其被配置为存储包括元数据和声场描述的比特流；以及

耦合到所述存储器的处理器，其被配置为：

解析所述元数据以获得效果标识符和至少一个效果参数值；并且

将由所述效果标识符标识的效果应用于所述声场描述。

18.根据权利要求17所述的设备，其中，所述处理器被配置为解析所述元数据以获得与所述效果标识符相对应的时间戳，并且通过使用所述至少一个效果参数值来应用所标识的效果，以将所标识的效果应用到与所述时间戳相对应的所述声场描述的部分。

19.根据权利要求17所述的设备，其中，所述处理器被配置为：将所述至少一个效果参数值与用户命令组合以获得至少一个修改的参数。

20.根据权利要求17所述的设备，其中，所述至少一个效果参数值包括指示方向，并且其中，所述处理器被配置为通过使用所述至少一个效果参数值将所述声场旋转到所述指示方向，来应用所标识的效果。

21.根据权利要求17所述的设备，其中，所述至少一个效果参数值包括指示方向，并且其中，所述处理器被配置为通过相对于其它方向中的所述声场的声级，使用所述至少一个效果参数值来增加所述声场在所述指示方向上的声级，来应用所标识的效果。

22.根据权利要求17所述的设备，其中，所述至少一个效果参数值包括指示方向，并且其中，所述处理器被配置为相对于其它方向中的所述声场的声级，使用所述至少一个效果参数值来降低所述声场在所述指示方向上的声级，来应用所标识的效果。

23.根据权利要求17所述的设备，其中，所述至少一个效果参数值指示所述声场内的位置，并且其中，所述处理器被配置为使用所述至少一个效果参数值将声源转换到所指示的位置，来应用所标识的效果。

24.根据权利要求17所述的设备，其中，所述至少一个效果参数值包括指示方向，并且其中，所述处理器被配置为相对于所述声场的另一个声源或所述声场的区域，使用所述至少一个效果参数值来增加所述声场的声源或所述声场的所述区域中的至少一者的方向性，来应用所标识的效果。

25.根据权利要求17所述的设备，其中，所述处理器被配置为通过使用所述至少一个效果参数值将矩阵变换应用到所述声场描述，来应用所标识的效果。

26.根据权利要求25所述的设备，其中，所述矩阵变换包括所述声场的旋转和所述声场的平移中的至少一者。

27.根据权利要求17所述的设备，其中，所述声场描述包括基函数系数的分层集合。

28.根据权利要求17所述的设备，其中，所述声场描述包括多个音频对象。

29.根据权利要求17所述的设备，其中，所述处理器被配置为解析所述元数据以获得第二效果标识符，并且确定不对所述声场描述应用所述第二效果标识符标识的效果。

30.根据权利要求17所述的设备，其中，所述设备包括专用集成电路，所述专用集成电路包括所述处理器。