CN110786016A

CN110786016A - 音频驱动的视区选择

Info

Publication number: CN110786016A
Application number: CN201880042494.6A
Authority: CN
Inventors: N·G·彼得斯; S·塔加迪尔·施瓦帕; D·森
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2017-06-30
Filing date: 2018-05-22
Publication date: 2020-02-11
Anticipated expiration: 2038-05-22
Also published as: US20190005986A1; US11164606B2; EP3646609B1; EP3646609A1; CN110786016B; WO2019005325A1; TW201907707A

Abstract

本发明提供一种实例装置，其包含存储器装置及耦合至所述存储器装置的处理器。所述存储器经配置以存储与声场相关联的音频空间元数据以及视频数据。所述处理器经配置以使用存储至所述存储器装置的所述音频空间元数据来识别所述声场的一或多个前景音频对象，且基于所述经识别的一或多个前景音频对象而选择与所述视频数据相关联的一或多个视区。耦合至所述处理器及所述存储器装置的显示器硬件经配置以输出所述视频数据的与由所述处理器选择的所述一或多个视区相关联的部分。

Description

音频驱动的视区选择

本申请案主张2017年6月30日申请的美国临时申请案第62/527,794号的权利，所述临时申请案的全部内容特此以引用的方式并入。

技术领域

本发明涉及处理例如音频数据及/或视频数据的媒体数据。

背景技术

高阶立体混响(HOA)信号(常常由多个球谐系数(SHC)或其它层次元素表示)是声场的三维表示。HOA或SHC表示可按独立于用以回放从SHC信号显现的多声道音频信号的本地扬声器几何布置的方式来表示声场。SHC信号还可促进后向兼容性，这是因为可将SHC信号显现为熟知且被高度采用的多声道格式，例如5.1音频声道格式或7.1音频声道格式。SHC表示因此可实现对声场的较佳表示，其也适应后向兼容性。

另外，数字视频能力可并入至广泛范围的装置中，包含数字电视、数字直播系统、无线广播系统、个人数字助理(PDA)、膝上型或桌上型计算机、平板计算机、电子书阅读器、数字相机、数字记录装置、数字媒体播放器、视频游戏装置、视频游戏控制台、蜂窝或卫星无线电电话(所谓的“智能手机”)、视频电话会议装置、视频流式处理装置等等。数字视频装置实施视频译码技术，例如在由MPEG-2、MPEG-4、ITU-T H.263、ITU-T H.264/MPEG-4第10部分高级视频译码(AVC)、ITU-T H.265(也被称作高效视频译码(HEVC))所定义的标准及这些标准的扩展中所描述的那些视频译码技术。视频装置可通过实施这些视频译码技术而更高效地传输、接收、编码、解码及/或存储数字视频信息。

视频译码技术包含空间(图片内)预测及/或时间(图片间)预测以减少或移除视频序列中所固有的冗余。对于基于块的视频译码，视频切片(例如视频图片或视频图片的部分)可分割成视频块，视频块也可被称作译码树单元(CTU)、译码单元(CU)及/或译码节点。图片的经帧内译码(I)切片中的视频块是使用相对于同一图片中的相邻块中的参考样本的空间预测被编码。图片的经帧间译码(P或B)切片中的视频块可使用相对于同一图片中的相邻块中的参考样本的空间预测或相对于其它参考图片中的参考样本的时间预测。图片可被称作帧，且参考图片可被称作参考帧。

发明内容

本发明大体上涉及使用计算机介导式(computer-mediated)实境系统的用户体验的听觉方面来增强用户体验的视觉方面，所述实境系统包含虚拟实境(VR)、混合实境(MR)、扩增实境(AR)、计算机视觉及图形系统。在一些特定实例中，本发明的方面涉及使用音频数据的方向性来预测要以较大分辨率输出(或“经升采样”)的对应视频数据的特定部分，从而增强由计算机介导式实境系统提供的用户体验。

在一个实例中，一种装置包含：存储器装置，其经配置以存储与声场相关联的音频空间元数据以及视频数据；及处理器，其耦合至所述存储器装置。在此实例中，所述处理器经配置以使用存储至所述存储器装置的所述音频空间元数据来识别所述声场的一或多个前景音频对象，且基于所述经识别的一或多个前景音频对象而选择与所述视频数据相关联的一或多个视区。在此实例中，所述装置还包含耦合至所述处理器及所述存储器装置的显示器硬件，且所述显示器硬件经配置以输出所述视频数据的与由所述处理器选择的所述一或多个视区相关联的部分。

在另一实例中，一种方法包含由耦合至存储器装置的处理器使用存储至所述存储器装置的音频空间元数据来识别声场的一或多个前景音频对象。在此实例中，所述方法进一步包含由所述处理器且基于所述经识别的一或多个前景音频对象而选择与存储至所述存储器装置的视频数据相关联的一或多个视区。在此实例中，所述方法进一步包含由耦合至所述处理器及所述存储器装置的显示器硬件输出所述视频数据的与由所述处理器选择的所述一或多个视区相关联的部分。

在另一实例中，一种设备包含：用于使用音频空间元数据来识别声场的一或多个前景音频对象的装置；用于基于所述经识别的一或多个前景音频对象而选择与视频数据相关联的一或多个视区的装置；及用于输出所述视频数据的部分的与由处理器选择的经选择的一或多个视区相关联的装置。

在另一实例中，一种计算机可读存储媒体经编码有指令，所述指令在经执行时使处理器进行以下操作：使用存储至存储器装置的音频空间元数据来识别声场的一或多个前景音频对象；及基于所述经识别的一或多个前景音频对象而选择与视频数据相关联的一或多个视区。在此实例中，所述指令在经执行时进一步使所述处理器经由显示器硬件输出所述视频数据的与由所述处理器选择的所述一或多个视区相关联的部分。

本发明的一或多个实例的细节在下文阐述于附图及具体实施方式中。其它特征、目标及优点将从具体实施方式及附图以及从权利要求书显而易见。

附图说明

图1是绘示具有各种阶及子阶的球谐基底函数的图解。

图2是绘示可执行本发明中所描述的技术的各种方面的系统的图解。

图3A及3B是绘示用以呈现全景视频数据的显示器的模型的表示的图解。

图4是绘示柱面全景视频数据的实例的图解。

图5是绘示划分成多个区的实例3D画布的图解。

图6是绘示实例3D画布与对应立方体贴图(cube map)视图之间的对应关系的图解。

图7是绘示流式处理服务器可将声场的HOA表示提供至流式处理客户端所根据的本发明的方面的图解。

图8是绘示视场(FoV)视区、邻近于FoV的视区及与FoV视区相对的视区之间的视频分辨率的比较的曲线图。

图9是绘示本发明的一或多个计算机介导式实境系统可使用的耳机的实例的图解。

图10A是绘示本发明的流式处理客户端可借以基于对音频空间元数据的分析而在逐视区基础上请求视频数据的分辨率特定流式处理的机制的图解。

图10B是绘示回放装置可借以基于对音频空间元数据的分析而在逐视区基础上实施分辨率特定视频数据的本地选择的机制的图解。

图11是绘示本发明的流式处理客户端可实施以执行视区预测的实例工作流程的图解。

图12是绘示根据本发明的一或多个方面的装置(例如图10B的回放装置)可执行的实例过程的流程图。

具体实施方式

一般来说，本发明涉及用于预测性地选择一或多个查看区域(或“视区”)的技术，在所述查看区域处，对要在计算机介导式实境系统的用户体验期间显示的视频数据进行升采样。计算机介导式实境技术包含各种类型的内容产生及内容消费(content-consuming)系统，例如虚拟实境(VR)、混合实境(MR)、扩增实境(AR)、计算机视觉及图形系统。虽然为易于论述而借助于实例关于虚拟实境系统来描述本发明的若干方面，但将了解，本发明的技术还适用于其它类型的计算机介导式实境技术，例如混合实境、扩增实境、计算机视觉及图形系统。

虚拟实境系统可充分利用用户的视场(FoV)信息来编辑及输出经定制以服务用户的FoV的球面视频数据。球面视频数据是指部分地或完全环绕查看者的头部的视频数据，例如用于虚拟实境应用或用户可移动其头部以查看在将焦点引向画布的单一点时无法看到的图像画布的不同部分的其它类似情境。特定来说，可在查看者将视觉焦点引向大型画布(例如部分地或完全包封查看者的头部的三维画布)的特定部分时应用这些技术。可使用屏幕的组合(例如环绕用户的屏幕的集合)或经由头戴式光学件提供包封用户的头部的球面视频数据。

可提供头戴式光学件的硬件的实例包含VR耳机、MR耳机、AR耳机及各种其它耳机。感测数据及/或测试数据可用以确定用户的FoV。作为感测数据的一个实例，与VR耳机的定位相关联的一或多个角度可指示用户的FoV，所述一或多个角度形成耳机的“转向角”。作为感测数据的另一实例，用户的凝视角度(例如经由虹膜检测来感测)可指示用户的FoV。

可使用特性的集合来编码及准备球面视频数据及对应音频数据(例如用于存储及/或传输)。关于球面视频数据，可使用例如画布的不同区的空间分辨率、3D画布(其可使用各种量化参数来实现)的不同区的位速率等等的特性来编码及准备数据。举例来说，可在3D画布的处于用户的FoV中的一或多个表面处对球面视频数据进行升采样以增强用户体验的视觉方面。3D画布的每一表面在本文中被称作相应“视区”。

现有VR系统选择视区用于以反应方式进行升采样。即，现有VR系统首先确定用户的FoV(例如通过辨别VR耳机的转向角，通过跟踪用户的眼睛凝视等等)且接着对正显示于FoV视区处的视频数据进行升采样。因而，现有VR系统提供如下用户体验：在显示于FoV视区处的视频正等待或经受升采样时，用户在FoV视区处查看低于全分辨率视频持续某时间长度。因此，根据现有VR系统，在FoV视区经升采样时，用户可经历某滞后时间。

关于用户体验的听觉分量，许多目前先进技术VR系统贯穿VR体验显现及回放3D声场的完整HOA表示。因而，在许多状况下，VR系统用完全定向音频对象回放环绕声音频。因此，根据这些VR系统，音频回放不会经历质量波动，如在3D画布的包含任何新指定FoV视区的各种视区处所显示的视频数据的状况下。

本发明涉及用于在用户的凝视移位至新FoV视区之前预测视区将是FoV视区的技术。本发明的技术使用在HOA表示声场中表示的各种音频对象的方向性及能量来预测FoV视区转变。因为VR系统先前已存取声场表示的全部内容，所以本发明的VR系统可充分利用已可用的音频数据来预测FoV视区的指定，而不必依赖于用户的凝视已移位至新FoV视区的事后确定。以此方式，本发明的VR系统可通过在一或多个经预测FoV视区候选者处预先对视频数据进行升采样来减少或潜在地消除现有系统的滞后时间。

举例来说，声场的HOA表示可确定用于最具能量主导性的(“前景”)音频对象的部位信息倾向于与VR故事所聚焦的视区部位一致或接近。部位信息表示关于前景音频对象的“空间元数据”或“音频空间元数据”。因而，本发明描述使用能量主导音频对象的部位信息来预测FoV视区转变的VR系统。

举例来说，本发明的VR客户端装置可充分利用声场的HOA表示中的前景音频对象的空间元数据来在一个可能的后续FoV视区处或在多个可能的后续视区处预测性地对视频馈送进行升采样。即，本发明的VR客户端可使用音频空间元数据来预测将吸引用户的注意力的可能的后续视区。在音频空间元数据与横跨多个可能的后续视区的视频数据相关联的状况下，VR客户端还可使用声场的音频空间元数据来预测数个可能的后续视区。

在用户将其视野移位至后续FoV视区或移位至两个或多于两个可能的后续视区的介接区域之前，本发明的VR客户端装置可开始且可能甚至结束升采样。以此方式，本发明的VR客户端装置可增强由VR系统提供的用户体验，这是因为在用户将其凝视移位至FoV视区之前，FoV视区经部分地或完全升采样。因为声场的HOA表示是先前使用场景分析而产生，所以本发明的预测性视区选择方面不介绍可潜在地消耗计算资源的额外场景分析过程。

尽管上文关于声场的HOA表示的音频空间元数据来进行描述，但本发明的预测性视区选择技术还可基于声场的其它表示而执行。举例来说，VR客户端可实施本发明的技术以通过使用声场的基于对象的表示的对象元数据来预测性地选择一或多个可能的后续视区。因而，本发明的VR系统可基于各种格式的音频馈送中的前景音频对象的空间元数据而执行用于视频馈送的预测性视区选择。

本发明的技术可结合关于传输(例如发送及/或接收)针对媒体数据(例如视频数据及音频数据)要回放所在的不同区以各种质量等级译码的媒体数据的技术来使用。举例来说，本发明的技术可由包含全景显示器(例如部分地或完全包封查看者的显示器)及环绕声扬声器的客户端装置使用。一般来说，显示器经配置使得用户的视觉焦点在给定时间仅引向显示器的部分。本发明的系统可经由环绕声扬声器显现及输出音频数据，使得与显示器上的目前焦点区域相关联的音频对象是以比其余音频对象大的方向性来输出。

图1是绘示从零阶(n＝0)至四阶(n＝4)的球谐基底函数的图解。如可见，对于每一阶，存在m子阶的扩展，为易于说明的目的，在图1的实例中展示所述子阶，但未明确地注释。

可由各种麦克风阵列配置物理地获取(例如记录)或替代地从声场的基于声道或基于对象的描述导出SHC

SHC表示基于场景的音频，其中可将SHC输入至音频编码器以获得可促成更高效传输或存储的经编码SHC。举例来说，可使用涉及(1+4)²(25，且因此为四阶)系数的四阶表示。

如上文所提到，可使用麦克风阵列从麦克风记录导出SHC。可如何从麦克风阵列导出SHC的各种实例描述于Poletti,M的“Three-Dimensional Surround Sound SystemsBased on Spherical Harmonics”(J.Audio Eng.Soc.，第53卷，第11期，2005年11月，第1004至1025页)中。

为说明可如何从基于对象的描述导出SHC，考虑以下方程式。可将对应于个别音频对象的声场的系数

表达为：

其中i是

是n阶的球面汉克(Hankel)函数(第二种类)，且

是对象的部位。知晓依据频率变化的对象源能量g(ω)(例如使用时间-频率分析技术，例如对PCM流执行快速傅里叶变换)允许我们将每一PCM对象及对应部位转换成SHC

另外，可展示(由于上式为线性及正交分解)每一对象的系数为相加性的。以此方式，许多PCM对象可由

系数(例如作为个别对象的系数向量的总和)来表示。基本上，所述系数含有关于声场的信息(作为3D坐标的函数的压力)，且上式表示在观测点

附近从个别对象至总声场的表示的变换。下文在基于对象及基于SHC的音频译码的内容脉络中描述其余诸图。

图2是绘示可执行本发明中所描述的技术的各种方面的系统10的图解。如图2的实例中所展示，系统10包含源装置12及内容消费者装置14。虽然在源装置12及内容消费者装置14的内容脉络中描述，但技术可实施于声场的任何层次表示经编码以形成表示音频数据的位流的任何内容脉络中。此外，源装置12可表示能够产生声场的层次表示的任何形式的计算装置，且本文中一般在是VR内容创建者装置的内容脉络中描述。同样地，内容消费者装置14可表示能够实施本发明中所描述的声场表示选择技术以及音频回放的任何形式的计算装置，且本文中一般在是VR客户端装置的内容脉络中描述。

源装置12可由娱乐公司或可产生多声道音频内容以供内容消费者装置(例如内容消费者装置14)的操作者消费的其它实体操作。在许多VR情境中，源装置12产生音频内容连同视频内容。源装置12包含内容捕获装置300及内容捕获辅助装置302。内容捕获装置300可经配置以与麦克风5介接或以其它方式通信。麦克风5可表示

或能够捕获声场及将声场表示为HOA系数11的其它类型的3D音频麦克风。在一些实例中，内容捕获装置300可包含集成至内容捕获装置300的外壳中的集成麦克风5。在一些实例中，内容捕获装置300可以无线方式或经由有线连接与麦克风5介接。在其它实例中，内容捕获装置300可在HOA系数11经由某类型的可装卸存储器输入之后处理HOA系数11。根据本发明，内容捕获装置300与麦克风5的各种组合是可能的。

内容捕获装置300还可经配置以与声场表示产生器302介接或以其它方式通信。声场表示产生器302可包含能够与内容捕获装置300介接的任何类型的硬件装置。声场表示产生器302可使用由内容捕获装置300提供的HOA系数11以使用HOA系数11的完整集合产生声场的完整HOA表示。

在一些实例中，内容捕获装置300可经配置以与声场表示产生器302无线通信。在一些实例中，内容捕获装置300可经由无线连接或有线连接中的一者或两者通信，与声场表示产生器302通信。经由内容捕获装置300与声场表示产生器302之间的连接，内容捕获装置300可以各种内容形式来提供内容，其在本文中出于论述的目的而描述为是HOA系数11的部分。

在一些实例中，内容捕获装置300可充分利用声场表示产生器302的各种方面(就声场表示产生器302的硬件或软件能力来说)。举例来说，声场表示产生器302可包含经配置以执行音质音频编码的专用硬件(或在经执行时使一或多个处理器执行音质音频编码的专门软件)(例如标示为由动画专家组(MPEG)提出的“USAC”的统一话音及音频译码器)。内容捕获装置300可能不包含音质音频编码器专用硬件或专门软件，而替代地以非音质音频译码形式提供内容301的音频方面。声场表示产生器302可通过关于内容301的音频方面至少部分地执行音质音频编码来辅助内容301的捕获。

声场表示产生器302还可通过至少部分地基于从HOA系数11产生的音频内容而产生一或多个位流21来辅助内容捕获及传输。位流21可表示HOA系数11的经压缩版本(例如作为完全定向的3D音频声场)及任何其它不同类型的内容301(例如球面视频数据、图像数据或文本数据的经压缩版本)。声场表示产生器302可产生位流21以供跨越传输信道(作为一个实例)传输，所述传输信道可为有线或无线信道、数据存储装置等等。位流21可表示HOA系数11的经编码版本，且可包含主要位流及另一旁侧位流，其可被称作旁侧信道信息。

在许多实例中，内容消费者装置14可由个人操作且可代表VR客户端装置。内容消费者装置14可包含音频回放系统16，其可指能够显现SHC(不管呈三阶HOA表示及/或MOA表示的形式)以作为多声道音频内容回放的任何形式的音频回放系统。

虽然在图2中经展示为直接传输至内容消费者装置14，但源装置12可将位流21输出至定位于源装置12与内容消费者装置14之间的中间装置。所述中间装置可存储位流21以供稍后递送至可能请求位流的内容消费者装置14。所述中间装置可包括文件服务器、网页服务器、桌上型计算机、膝上型计算机、平板计算机、移动电话、智能手机，或能够存储位流21以供音频解码器稍后检索的任何其它装置。所述中间装置可驻留于内容递送网络中，所述内容递送网络能够将位流21流式处理(且可能结合传输对应视频数据位流)至请求位流21的例如内容消费者装置14的订户。

替代地，源装置12可将位流21存储至存储媒体，例如紧密光盘、数字视频光盘、高清晰度视频光盘或其它存储媒体，所述存储媒体中的大多数能够由计算机读取且因此可被称作计算机可读存储媒体或非暂时性计算机可读存储媒体。在此内容脉络中，传输信道可指借以传输存储至所述媒体的内容的信道(且可包含零售商店及其它基于商店的递送机构)。在任何情况下，本发明的技术因此就此来说不应限于图2的实例。

如图2的实例中进一步展示，内容消费者装置14包含音频回放系统16。音频回放系统16可表示能够回放多声道音频数据的任何音频回放系统。音频回放系统16可包含数个不同显现器22。显现器22可各自提供不同形式的显现，其中不同形式的显现可包含执行基于向量的振幅平移(VBAP)的各种方式中的一或多者及/或执行声场合成的各种方式中的一或多者。如本文中所使用，“A及/或B”意指“A或B”，或“A及B”两者。

音频回放系统16可进一步包含音频解码装置24。音频解码装置24可表示经配置以从位流21解码立体混响系数15的装置。因而，立体混响系数15可类似于HOA系数11的完整集合或部分子集，但可能由于有损操作(例如量化)及/或经由传输信道的传输而不同。音频回放系统16可在解码位流21以获得立体混响系数15之后且显现立体混响系数15以输出扩音器馈送25。扩音器馈送25可驱动一或多个扩音器(为易于说明的目的，其未在图2的实例中展示)。

为选择适当显现器或在一些情况下为产生适当显现器，音频回放系统16可获得指示扩音器的数目及/或扩音器的空间几何布置的扩音器信息13。在一些情况下，音频回放系统16可使用参考麦克风且以使得动态地确定扩音器信息13的方式驱动扩音器而获得扩音器信息13。在其它情况下或结合扩音器信息13的动态确定，音频回放系统16可提示用户与音频回放系统16介接且输入扩音器信息13。

音频回放系统16可接着基于扩音器信息13而选择音频显现器22中的一者。在一些情况下，在音频显现器22中无一者处于扩音器信息13中所指定的扩音器几何布置的某阈值类似性度量(就扩音器几何布置来说)内时，音频回放系统16可基于扩音器信息13而产生音频显现器22中的一者。在一些情况下，音频回放系统16可基于扩音器信息13而产生音频显现器22中的一者，而不首先尝试选择音频显现器22中的现有音频显现器。一或多个扬声器可接着回放显现的扩音器馈送25。

图3A及3B是绘示用以呈现全景视频数据的显示器的模型的表示的图解。图3A绘示立方体贴图投影100的实例，而图3B绘示等矩形投影110。

在图3A中，立方体(cube或cuboid)104的六个面102A至102F(面102)中的每一者被划分成四个图块(总计24个图块)。面102在概念上可表示立方体104的内表面。可见面(即，面102A、102B及102C)的图块标记为图块106A至106L。特定来说，面102C被划分成图块106A至106D，面102B被划分成图块106E至106H，且面102A被划分成图块106I至106L。出于可读性的目的，在图3A中未标记隐藏面(即，面102D、102E及102F)的图块，但应理解，面102D至102F也被划分成图块。“图块”也可被称作区。图3A中的立方体面102中的每一者对应于90度乘90度视场(FoV)。球面的任何任意的90×90度图块可能需要以高分辨率解码1/3全景。FoV很少横跨多于八个图块。因此，在不损失视觉质量的情况下，高分辨率解码的跨度可限于八个图块或少于八个图块。

图3B绘示被划分成八个图块116A至116H的画布118。在此实例中，当用户正观察球体的“极点”(例如北极112，其中在观察北极112时用户的视场由灰色阴影区域114表示)时，将需要以高分辨率解码画布118的整个上半部分(即，图块116A至116D)。将图块116A至116D分成更多竖直图块将无助于解决问题。因此，在此实例中，将需要以高分辨率解码全景的一半。这是相比图3A的实例中分辨率显著更高的数据。因此，本发明的技术可使用立方体贴图投影模型100以供显示。

参考上文关于图1所论述的实例，在所述实例中，以包含6k、4k、HD(1080p)及720p的分辨率译码视频数据，在图3A中，可以6k分辨率解码正面四个图块106A至106D(也被称作“区”)，可以4k分辨率解码相邻的八个图块(例如图块106E、106G、106K及106L以及面102D及102F的相邻于图块106A、106C及106D的未标记图块)，可以HD(1080p)分辨率解码相邻于这八个图块的八个图块(即，图块106F、106H、106I、106J及相邻于图块106A、106C及106D所相邻的图块的其它未标记图块)，且可以720p解码四个背面图块。在此实例中，此视频数据的总带宽要求将是每帧6.5MP。在跨越递减次序的分辨率存在图块的8-4-4-8分布的更坏状况下，总带宽要求将是每帧8.17MP。将了解，上文所描述的视频分辨率/速率是非限制性实例，且其它视频分辨率/速率也与本发明的各种方面兼容。还将了解，随着技术及标准演进，视频分辨率/速率经历改变。

图4是绘示柱面全景视频数据120的实例的图解。柱面全景视频数据120被分割成图块122至130。相比解码器复杂度的降低，位速率降低对于某些用途是同等重要的(如果并非更重要)。举例来说，相较于常规的高质量全景视频数据的30mbps要求，一些报告指示平均美国互联网连接速度是5mbps。从全景切分多个小图块可降低压缩效率。即，可存在时间预测效率的一些损失。

在图4的实例中，服务器(例如图2的源装置12)可存储12×90度图块122至130(其等效于全景的三个副本)。此实例可用以避免小图块，这意指压缩效率未受损。此外，还可存储12×30度图块。任意的90度视图因而将需要最多四个30度图块，其中一个30度图块及一个90度图块可用以构成任意的90度视图。

可使用本发明的技术实现球面全景视频数据120的位速率优化。折衷存储空间以节省位速率的想法可推广至其它状况。举例来说，相同图块粒度在所有视角下可用是不必要的。不同于柱面全景状况，对于球面全景来说，用相等的图块粒度覆盖所有视点是重要的。

一般来说，图2的源装置12可以多个图块粒度保存球面全景视频数据120的副本。比图块122至130大的图块(未展示)之间在一些地方可具有重叠的视场以用于较佳覆盖。举例来说，源装置12可以较大图块大小编码最感兴趣的视点(如由正准备内容的例如管理员的用户确定)。以此方式，源装置12可发送多种大小图块的组合，例如针对用户的视觉焦点所引向的区的大图块(例如图块122至130中的一者的图块大小的四倍)及针对其它其余区的较小图块(关于图3A的实例，总计21个图块)。

立方体投影中的实例图块译码可如下：立方体面可为形成水平环的A、B、C及D，用于顶部的E及用于底部的F。最小图块可为A1、A2、A3、A4、B1、B2、......、F1、F2、F3及F4(总计24个图块)。较大图块可为A、B、C、D、E及F(其中图块A覆盖由图块A1、A2、A3及A4横跨的区域，B覆盖由图块B1、B2、B3及B4横跨的区域，对于图块C至F中的每一者，情况如此)。在一些实例中，将以较大图块大小仅译码更可能被查看的那些视点。因此，如果用户将不太可能向上看或向下看，那么仅A、B、C及D可译码为大图块。任选地，这些图块中的每一者可具有用于立体视频数据的左方及右方视图。

源装置12可准备用于立体视频状况的视频数据以改进在目的地装置14从低分辨率流切换至高分辨率流时的时延。本发明的技术可避免引入额外光子运动(m2p)时延。一般来说，在从例如低分辨率转变至高分辨率期间(当用户移动其头部时)的时延可较大。最大时延等于从抬头显示器(HUD)至服务器及返回的时延(例如目的地装置14与服务器装置12之间的往返时延)加上直至下一I帧经解码为止的GOP结构或时间的长度。然而，在不同分辨率下的内容可用于HUD处(在本地存储于文件中或经流式处理)的情境致使网络延迟部分在上文的最大时延计算中为0。

图5是绘示划分成区142A至142F(区142)的实例画布140的图解。出于论述的目的，将画布140作为矩形划分成多个矩形区142，但应理解，此论述可适用于类似于如图3A中所展示的立方体贴图投影100的立方体贴图投影。

根据本发明的技术，可针对区142中的每一者提供视频数据的各种集合。在图5的实例中，针对区142A提供视频数据144A，针对区142B提供视频数据144B，针对区142C提供视频数据144C，针对区142D提供视频数据144D，针对区142E提供视频数据144E，且针对区142F提供视频数据144F。视频数据144A至144F中的每一者可包含以多种质量等级(例如空间分辨率)编码的视频数据。举例来说，视频数据144A至144F中的每一者可包含以成比例的6K分辨率(即，具有6K分辨率的像素密度)、4K分辨率、1080P分辨率及720P分辨率编码的视频数据。

在一些实例中，可提供覆盖多个区142的视频数据。在图5的实例中，提供覆盖区142A、142B、142D及142E的视频数据146。因此，如果用户的焦点引向包含区142A、142B、142D及142E的视场，那么目的地装置14可简单地检索视频数据146，而非从视频数据144A、144B、144D、144E检索视频数据的个别集合。在一些实例(例如图5中所展示的实例)中，仅提供覆盖多个区的单一质量(例如空间分辨率)，但在其它实例中，可针对多个区提供多个质量。

图6是绘示实例画布180与对应立方体贴图视图182A、182B之间的对应关系的图解。特定来说，画布180包含以不同方式加阴影的多个图块，其中不同阴影表示所请求的不同质量等级(例如空间分辨率)。立方体贴图视图182A、182B表示画布180的图块中的每一者将显示于何处。立方体贴图视图182A展示立方体贴图的正视图的正面透视图，而立方体贴图视图182B展示立方体贴图的后部图块的剖视正面透视图。白色图块表示最高质量等级(例如最高空间分辨率)，对角线阴影图块表示第二最高质量等级，交叉影线阴影图块表示第三最高质量等级，且纯黑色阴影图块表示最低质量等级。质量等级也可被称作“层”。

在一个实例中，为实现较低质量等级，空间分辨率经降采样。举例来说，层1可为全空间分辨率，层2可沿水平及竖直方向在空间上减半(总计四分之一空间分辨率)，层3可沿水平及竖直方向在空间上减少为三分之一(总计九分之一空间分辨率)，且层4可沿水平及竖直方向在空间上减少为四分之一(总计十六分之一空间分辨率)。

图7是绘示流式处理服务器可将声场的HOA表示提供至流式处理客户端所根据的本发明的方面的图解。图7的流式处理服务器是图2的源装置12的实例，而图7的流式处理客户端是图2的内容消费者装置14的实例。

听觉方面形成VR故事的用户体验的显著部分。一些研究已得出结论：音频形成关于VR故事的呈现的用户体验的六十百分比(60％)。VR故事的音频数据常常以全360°音频分辨率存储及/或流式处理。因而，流式处理客户端的用户可从任何(或潜在地所有)声源部位感知声音。因为音频空间元数据在VR叙事的内容脉络中描述音频数据的音频对象，所以定向音频常常用以导引用户经历VR故事。VR叙事体验的音频部分的方面描述于在http://digital-library.theiet.org/content/conferences/10.1049/ibc.2016.0029处可得的“Directing Attention in 360°Video”中。

根据现有VR技术，用于VR视频流式处理的一种常见方法是将视频编码至不同视区中。用户通常仅可看到视频数据的大约120°部分。因此，流式处理客户端(例如VR客户端)可以例如6K分辨率的最高可用分辨率输出FOV视区。同时，VR客户端可以较低分辨率并行地输出其余视区(其不在FOV中)。举例来说，VR客户端可将例如4K或1080p的中间分辨率用于邻近于FOV视区的视区。VR客户端可将最低可用分辨率(例如720p)用于定位成与当前FOV视区相对的视区。在检测到耳机的转向角的改变后，VR客户端可在视区当中重新指派分辨率以较佳地符合新FOV信息。如上文所描述，根据现有VR技术，分辨率重新指派一般带来滞后时间，在此期间FOV视区经历升采样。

图8是绘示FoV视区(针对‘正面’标记为‘F’)、邻近于FoV的视区(针对‘右方’标记为‘R’)及与FoV视区相对的视区(针对‘背面’标记为‘B’)之间的视频分辨率的比较的曲线图。如上文所描述，目前先进技术的VR流式处理方法是基于使用VR耳机的转向角识别FoV信息。为节省带宽及计算资源，VR客户端装置可在FoV视区处提供最高可用视频质量，而在VR客户端确定在用户的FoV外的其余视区处提供较低视频质量。当用户改变查看方向(VR客户端可使用用户的VR耳机的转向角或通过使用对用户虹膜的凝视跟踪来检测所述查看方向)时，处理及传输时延可切换至新视区流。在此转变时间期间，用户察看较低质量的视频质量(例如由于视频包含相对较大像素而呈块状或经像素化)。

从用户的观点，本发明的技术减少或潜在地消除在切换用户的FoV后察看降级的视频质量的转变时间。在一些实例中，本发明的技术使得VR客户端能够预测一或多个可能的后续FoV视区，且由此预提取经由可能的后续视区显示的视频数据且预先对其进行升采样。将了解，本发明的技术支持基于音频分析或还基于音频分析与一或多个其它准则的组合而选择可能的后续视区。

换句话说，本发明的VR客户端可基于VR视听数据的3D音频声场中的听觉线索而预测用户可将FoV移位至的一或多个可能的后续视区。本发明的VR客户端可基于用户可能注意(例如将注意力移向)匹配对应场景中的能量主导声音的方向性的视频部位的理论或假设而预测可能的后续视区。举例来说，用户可朝向接下来场景中的能量主导声音的部位旋转或以其它方式移动其凝视。

基于场景的HOA目前是用于VR技术的常用音频格式。各种HOA译码技术将音频场景分解成主导的前景及背景分量。因而，VR客户端装置的音频解码器借助于描述声音的方向性的音频空间元数据而可能已具有主导声音的方向信息。因而，VR客户端可充分利用音频解码器(例如图2的音频解码装置24)的功能性来预测用户消费的VR视频的可能的后续视区。

在其它实例中，除一或多个音频对象外，本发明的VR客户端还可充分利用基于场景的音频(即，HOA)。即，本发明的技术使得本发明的VR客户端能够使用各种类型的音频格式(包含基于对象的格式)的空间信息来预测VR视频输出的可能的后续视区。在声场的基于对象的表示的状况下，本发明的VR客户端可使用音频对象的元数据以用于视区预测。

在给定视频帧内，视频对象可基于其与对应音频讯帧的前景或背景音频对象的关联而区别。在此说明中，“原始”帧可以相等分辨率展示视频场景的所有对象。然而，“经分解的主导声音+元数据”帧可仅展示从“原始”帧提取的与声场表示的对应音频讯帧的能量主导音频对象同置的那些视频对象。另外，“背景”帧可展示“原始”帧，其中“主导声音+元数据”帧的那些视频对象经移除且其余视频对象在较低分辨率下。即，“背景”帧可仅包含与声场表示的对应音频讯帧中的背景或环境音频对象同置的视频对象。“经压缩”帧可以高分辨率展示“主导声音+元数据”帧的视频对象视频对象，且其中“背景”帧的视频对象在较低分辨率下。

图9是绘示本发明的一或多个计算机介导式实境系统可使用的耳机200的实例的图解。在各种实例中，耳机200可表示VR耳机、AR耳机、MR耳机或扩展实境(XR)耳机。如所展示，耳机200包含后视相机、一或多个定向扬声器、一或多个跟踪及/或记录相机及一或多个发光二极管(LED)灯。在一些实例中，LED光可被称作“超亮”LED光。此外，耳机200包含一或多个眼睛跟踪相机、高灵敏度音频麦克风及光学件/投影硬件。耳机200的光学件/投影硬件可包含耐久的半透明显示器技术及硬件。

耳机200还包含连接性硬件，其可代表支持多模式连接性的一或多个网络接口，例如4G通信、5G通信等等。耳机200还包含环境光传感器及骨导传感器。在一些情况下，耳机200还可包含具有鱼眼镜头及/或望远镜头的一或多个无源及/或有源相机。根据本发明的各种技术，本发明的各种装置(例如图2的内容消费者装置14)可使用耳机200的转向角选择声场的音频表示以经由耳机200的定向扬声器输出。应了解，耳机200可展现多种不同的外观尺寸。

图10A是绘示本发明的流式处理客户端可借以基于对音频空间元数据的分析而在逐视区基础上请求视频数据的分辨率特定流式处理的机制的图解。流式处理服务器是图2的源装置12的一个实例，且流式处理客户端是图2的内容消费者装置14的一个实例。流式处理客户端可实施预测算法以请求要从流式处理服务器流式处理的‘N’个最可能的后续视区(其由音频空间元数据确定)。流式处理客户端可基于各种准则执行预测，各种准则包含从流式处理服务器接收到的音频位流中的主导音频分量的方向以及当前FoV。

根据本发明的各种方面，图10A的流式处理客户端可确定经由音频流接收的声场表示的前景音频对象的部位。举例来说，流式处理客户端可使用声场的各种对象的能量来确定哪些对象合格作为前景音频对象。流式处理客户端又可将声场中的前景音频对象的位置映射至对应视频数据中的对应位置，例如映射至图3B中所绘示的图块116中的一或多者。如果流式处理客户端确定即将回放的前景音频对象映射至不同于当前FoV视区(或图块)的视区(或图块)中的位置，那么流式处理客户端可预测用户的FoV将改变以跟踪映射至很快将显现的前景音频对象的位置的视区位置。

基于上文所描述的音频驱动的预测，流式处理客户端可在FoV实际上改变至经预测视区中的任一者之前向流式处理服务器请求经预测视区的高分辨率视频数据。以此方式，图10A的流式处理客户端可预测性地请求及获得高分辨率视频数据以用于未来FoV视区，同时减少或潜在地消除在将FoV改变至不同视区或不同视区群组时用户所经历的滞后时间。

图10B是绘示回放装置可借以基于对音频空间元数据的分析而在逐视区基础上实施分辨率特定视频数据的本地选择的机制的图解。图10B的回放装置可包含、可为可实施本发明的技术的任何计算机介导式实境装置，例如图2的回放装置14，或可为任何计算机介导式实境装置的部分。可在逐视区基础上实施分辨率特定视频数据的本地选择的其它装置的实例包含虚拟实境(VR)、扩增实境(AR)、混合实境(MR)或扩展实境(XR)装置。

图10B的回放装置可实施预测算法以识别要从本地存储器检索且经由显示器硬件(例如图9中所绘示的耳机200)回放的‘N’个最可能的后续视区(如从音频空间元数据确定)。回放装置可基于各种准则执行预测，各种准则包含经回放以用于计算机介导式实境(例如VR)体验的声场表示中的主导音频分量的方向以及当前FoV。

根据本发明的各种方面，图10B的回放装置可确定要显现或当前正显现以用于计算机介导式实境(例如VR)体验的声场表示的前景音频对象的部位。举例来说，回放装置可使用声场的各种对象的能量来确定哪些对象合格作为前景音频对象。回放装置又可将声场中的前景音频对象的位置映射至对应视频数据中的对应位置，例如映射至图3B中所绘示的图块116中的一或多者。如果回放装置确定即将回放的前景音频对象映射至不同于当前FoV视区(或图块)的视区(或图块)中的位置，那么回放装置可预测用户的FoV将改变以跟踪映射至很快显现的前景音频对象的位置的视区位置。

基于上文所描述的音频驱动的预测，回放装置可在FoV实际上改变至经预测视区中的任一者之前从本地存储的视频数据选择经预测视区的高分辨率视频数据。以此方式，图10B的回放装置可预测性地选择高分辨率视频数据以用于未来FoV视区且准备经选择的高分辨率视频数据以供经由对应视区输出，同时减少或潜在地消除在将FoV改变至不同视区或不同视区群组时用户所经历的滞后时间。

图11是绘示本发明的流式处理客户端可实施以执行视区预测的实例工作流程的图解。音频解码装置24可使用从3D HOA声场表示获得的元数据(例如音频空间元数据)以确定3D HOA声场的主导声音。举例来说，音频解码装置24可使用音频对象的V向量主方向。在流式处理情境中，音频解码装置24可使用在位流21中接收的音频空间元数据。在本地存储情境中，音频解码装置24可使用来自在本地存储于内容消费者装置14处的3D HOA声场表示的音频空间元数据。音频解码装置24还可使用与音频对象相关联的元数据(例如方向、距离及优先级信息)以确定声场的能量主导声音。音频解码装置24又可计算3D声场的主导声音方向的时间平均(及任选地，元数据加权)直方图。

内容消费者装置14可实施阈值检测以确定定位于当前FoV视区外的声音的数目。如果所检测到的声音的数目超过阈值，那么内容消费者装置14可确定‘N’个最可能的后续视区。‘N’表示整数值。又，如果超出当前视区外的声音的数目超过阈值，那么内容消费者装置14可获得经升采样视频数据以用于所有‘N’个最可能的后续视区。在流式处理情境中，内容消费者装置14可向源装置12请求经升采样视频数据以用于所有‘N’个最可能的后续视区。在本地存储情境中，内容消费者装置14可从内容消费者装置14的本地存储器检索经升采样视频数据以用于所有‘N’个最可能的后续视区。

然而，如果内容消费者装置14确定无声音(或不超过阈值数目个声音)位于当前视区外，那么内容消费者装置14可获得经升采样视频数据仅用于当前FoV视区。如图11中所展示，为确定正由用户查看的当前视区(即，当前FoV视区)，内容消费者装置14可使用VR耳机的当前转向角。在流式处理情境中，内容消费者装置14可向源装置12请求经升采样视频数据以仅用于当前FoV视区。在本地存储情境中，内容消费者装置14可从内容消费者装置14的本地存储器检索经升采样视频数据以仅用于当前FoV视区。

如上文关于图11所描述，内容消费者装置14可包含各种手段以跟踪用户的头部运动，例如VR耳机跟踪、凝视跟踪等等。内容消费者装置14可使用所跟踪的头部运动以便显现音频及视频，从而适应用户的当前查看凝视(例如凝视角度或转向方向)。内容消费者装置14又可获得经升采样视频数据以用于当前查看凝视的适当视区。作为实例，内容消费者装置14可从本地存储器检索经升采样视频数据或向源装置12请求经升采样视频数据。内容消费者装置14又可输出所获得的经升采样视频数据以用于经选择视区，而不管选择是仅针对当前FoV视区还是针对一或多个经预测视区。

实施选择可用视区中的哪一者的决策由来自伴随的空间音频内容确定的信息(例如部分地)确定，内容消费者装置14装置可使所述决策基于对来自经压缩HOA位流(使用主导声音的方向及/或HOA V向量的方向)或声场表示的对象相关元数据(例如方向、距离、对象优先级)的定向音频参数的解析。内容消费者装置14可使用上文所列出的信息预测可能的后续视区，作为内容消费者装置14可能需要获得以供在不久的将来回放的数据。在一些实例中，替代使决策基于可获自声场表示的定向音频参数，内容消费者装置14可计算及使用经解码空间音频内容的空间能量分布以用于视区预测。

举例来说，内容消费者装置14可基于所跟踪的转向角确定用户正查看正向方向。在此实例中，对于相对于用户的位置而定位于正向方向上的视区，内容消费者装置14可获得经升采样视频数据以实现具有最好视频质量的视区。又，在此实例中，内容消费者装置14可确定声场表示包含即将与用户右侧同置(例如在大约一秒内)的响亮音频对象。基于即将回放响亮音频对象(例如显示较大能量的音频对象)的确定，内容消费者装置14可基于要显现的响亮音频元素/对象的方向而预测用户可能即将向右方查看。内容消费者装置14可实施本发明的技术以充分利用定位于用户右方的响亮声音的基于音频的确定来预提取经升采样视频数据以用于右方视区，这是因为用于右方视区的经升采样视频数据表示具有最好的可用视频质量的响亮音频物体的方向。

图12是绘示根据本发明的一或多个方面的装置(例如图10B的回放装置)可执行的实例过程220的流程图。过程220可在回放装置使用耦合至存储器的处理器、使用存储至存储器的音频空间元数据识别声场的一或多个前景音频对象时开始(222)。回放装置的处理器又可基于经识别的一或多个前景音频对象而选择与存储至存储器装置的视频数据相关联一或多个视区(224)。回放装置可包含耦合至处理器及存储器的显示器硬件，或可耦合至此显示器硬件，例如耳机200的显示器硬件。显示器硬件可输出视频数据(其存储至存储器)的部分，所述部分与由处理器选择的一或多个视区相关联(226)。

在一些实例中，回放装置的处理器可与经识别的一或多个前景音频对象相关联的能量。在一些实例中，回放装置的处理器可基于经识别的一或多个前景音频对象而确定与经识别的一或多个视区相关联的视区数目。在一些实例中，回放装置的处理器可对与经识别的一或多个前景音频对象相关联的所存储视频数据的部分进行升采样。在这些实例中，显示器硬件可输出视频数据的经升采样部分。

在一些实例中，一或多个扩音器(例如耳机200的扬声器硬件)可输出表示声场的音频数据格式。在一些实例中，处理器、回放装置可检测经更新视场(FoV)信息，且可基于经更新FoV信息更新经识别的一或多个视区。在一些实例中，显示器硬件可仅输出视频数据的与经选择的一或多个视区相关联的部分，而不输出视频数据的不与一或多个视区相关联的其余部分。

在一些实例中，回放装置的存储器装置可存储声场的多个表示，所述多个表示包含声场的多个基于对象的表示、声场的高阶立体混响表示、声场的混合阶立体混响表示、声场的基于声道的表示、声场的基于对象的表示与声场的高阶立体混响表示的组合、声场的基于对象的表示与声场的混合阶立体混响表示的组合，或声场的混合阶表示与声场的高阶立体混响表示的组合。在一些实例中，回放装置的存储器装置可存储与声场相关联的空间音频内容，且回放装置的处理器可进一步基于与声场相关联的空间音频内容的空间能量分布而选择一或多个视区。

在一些实例中，回放装置的处理器可进一步基于与声场相关联的空间音频内容的空间能量分布而选择一或多个视区。在一些实例中，回放装置的存储器装置可存储包含空间元数据的声场的HOA表示，且回放装置的处理器可解析HOA表示以获得主导声音的方向。在这些实例中，回放装置的存储器装置可进一步基于主导声音的方向而选择一或多个视区。

在一些实例中，回放装置的存储器装置可存储包含空间元数据的声场的基于对象的表示，且回放装置的处理器可解析基于对象的表示以获得对象相关元数据，其包含方向、距离或对象优先级中的一或多者。在这些实例中，回放装置的处理器可基于对象相关元数据而选择一或多个视区。

在一些实例中，回放装置的处理器可跟踪由与装置(例如耳机200)相关联的一或多个角度提供的转向角，所述装置与回放装置配对及/或包含处理器及存储器装置。在这些实例中，回放装置的处理器可进一步基于转向角而选择一或多个视区。在一些实例中，回放装置的处理器可基于转向角而选择一或多个视区中的当前视区，且可基于经识别的一或多个前景音频对象而选择一或多个视区中的经预测视区。

应认识到，取决于实例，本文中所描述的技术中的任一者的某些动作或事件可按不同序列执行、可经添加、合并或完全省去(例如并非所有所描述动作或事件对于所述技术的实践是必要的)。此外，在某些实例中，可例如经由多线程处理、中断处理或多个处理器同时而非依序执行动作或事件。

在一或多个实例中，所描述的功能可以硬件、软件、固件或其任何组合实施。如果以软件实施，那么所述功能可作为一或多个指令或代码而存储于计算机可读媒体上或经由计算机可读媒体进行传输，且由基于硬件的处理单元执行。计算机可读媒体可包含计算机可读存储媒体，其对应于例如数据存储媒体的有形媒体，或包含有助于例如根据通信协议将计算机程序从一处传送至另一处的任何媒体的通信媒体。以此方式，计算机可读媒体通常可对应于(1)非暂时性的有形计算机可读存储媒体，或(2)例如信号或载波的通信媒体。数据存储媒体可为可由一或多个计算机或一或多个处理器存取以检索指令、代码及/或数据结构以用于实施本发明中所描述的技术的任何可用媒体。计算机程序产品可包含计算机可读媒体。

借助于实例而非限制，这些计算机可读存储媒体可包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储、磁盘存储或其它磁性存储装置、快闪存储器，或可用于存储呈指令或数据结构形式的所要程序代码且可由计算机存取的任何其它媒体。此外，任何连接被恰当地称为计算机可读媒体。举例来说，如果使用同轴电缆、光缆、双绞线、数字订户线(DSL)或例如红外线、无线电及微波的无线技术而从网站、服务器或其它远程源传输指令，那么同轴电缆、光缆、双绞线、DSL或例如红外线、无线电及微波的无线技术包含于媒体的定义中。然而，应理解，计算机可读存储媒体及数据存储媒体并不包含连接、载波、信号或其它暂时性媒体，而是涉及非暂时性的有形存储媒体。如本文中所使用，磁盘及光盘包含紧密光盘(CD)、激光光盘、光学光盘、数字多功能光盘(DVD)、软盘及蓝光光盘，其中磁盘通常以磁性方式再现数据，而光盘通过激光以光学方式再现数据。以上各者的组合也应包含于计算机可读媒体的范围内。

指令可由一或多个处理器执行，所述一或多个处理器是例如一或多个数字信号处理器(DSP)、通用微处理器、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它等效集成或离散逻辑电路。因此，如本文中所使用的术语“处理器”可指上述结构或适合于实施本文中所描述的技术的任何其它结构中的任一者。此外，在一些方面中，本文中所描述的功能可提供于经配置以用于编码及解码或并入于组合式编解码器中的专用硬件及/或软件模块内。此外，所述技术可完全实施于一或多个电路或逻辑元件中。

本发明的技术可实施于包含无线手机、集成电路(IC)或IC集合(例如芯片组)的广泛多种装置或设备中。在本发明中描述各种组件、模块或单元以强调经配置以执行所揭示技术的装置的功能方面，但未必要求由不同硬件单元来实现。确切地说，如上文所描述，各种单元可结合合适的软件及/或固件而组合于编解码器硬件单元中或由互操作性硬件单元的集合提供，所述硬件单元包含如上文所描述的一或多个处理器。

各种实例已予以描述。这些及其它实例在所附权利要求书的范围内。

Claims

1.一种装置，其包括：

存储器装置，其经配置以存储与声场相关联的音频空间元数据以及视频数据；

处理器，其耦合至所述存储器装置，所述处理器经配置以使用存储至所述存储器装置的所述音频空间元数据来识别所述声场的一或多个前景音频对象，且基于所述经识别的一或多个前景音频对象而选择与所述视频数据相关联的一或多个视区；及

显示器硬件，其耦合至所述处理器及所述存储器装置，所述显示器硬件经配置以输出所述视频数据的与由所述处理器选择的所述一或多个视区相关联的部分。

2.根据权利要求1所述的装置，其中所述处理器经进一步配置以确定与所述经识别的一或多个前景音频对象相关联的能量。

3.根据权利要求1所述的装置，其中所述处理器经进一步配置以基于所述经识别的一或多个前景音频对象而确定与所述经识别的一或多个视区相关联的视区数目。

4.根据权利要求1所述的装置，其中所述处理器经进一步配置以对存储至所述存储器装置的所述视频数据的与所述经识别的一或多个前景音频对象相关联的部分进行升采样，且

其中所述显示器硬件经配置以输出所述视频数据的所述经升采样部分。

5.根据权利要求1所述的装置，其进一步包括经配置以输出表示所述声场的音频数据格式的一或多个扩音器。

6.根据权利要求1所述的装置，其中所述处理器经配置以检测经更新视场FoV信息且基于所述经更新FoV信息而更新所述经识别的一或多个视区。

7.根据权利要求1所述的装置，其中所述显示器硬件经配置以仅输出所述视频数据的与所述一或多个视区相关联的所述部分，而不输出所述视频数据的不与由所述处理器选择的所述一或多个视区相关联的其余部分。

8.根据权利要求1所述的装置，其中所述存储器装置经进一步配置以存储所述声场的多个表示，所述多个表示包括所述声场的多个基于对象的表示、所述声场的高阶立体混响表示、所述声场的混合阶立体混响表示、所述声场的基于声道的表示、所述声场的基于对象的表示与所述声场的高阶立体混响表示的组合、所述声场的基于对象的表示与所述声场的混合阶立体混响表示的组合，或所述声场的混合阶表示与所述声场的高阶立体混响表示的组合。

9.根据权利要求1所述的装置，其中所述存储器装置经配置以存储与所述声场相关联的空间音频内容，且其中所述处理器经配置以进一步基于与所述声场相关联的空间音频内容的空间能量分布而选择所述一或多个视区。

10.根据权利要求1所述的装置，其中所述处理器经配置以进一步基于与所述声场相关联的空间音频内容的空间能量分布而选择所述一或多个视区。

11.根据权利要求1所述的装置，其中所述存储器装置经配置以存储包含空间元数据的所述声场的高阶立体混响HOA表示，且其中所述处理器经配置以解析所述HOA表示以获得主导声音的方向并基于所述主导声音的所述方向而选择所述一或多个视区。

12.根据权利要求1所述的装置，其中所述存储器装置经配置以存储包含空间元数据的所述声场的基于对象的表示，且其中所述处理器经配置以解析所述基于对象的表示以获得包含方向、距离或对象优先级中的一或多者的对象相关元数据，且基于所述对象相关元数据而选择所述一或多个视区。

13.根据权利要求1所述的装置，其中所述处理器经配置以跟踪由与所述装置相关联的一或多个角度提供的转向角。

14.根据权利要求13所述的装置，其中所述处理器经配置以进一步基于所述转向角而选择所述一或多个视区。

15.根据权利要求14所述的装置，其中所述处理器经配置以基于所述转向角而选择所述一或多个视区中的当前视区，且基于所述经识别的一或多个前景音频对象而选择所述一或多个视区中的经预测视区。

16.一种方法，其包括：

由耦合至存储器装置的处理器使用存储至所述存储器装置的音频空间元数据来识别声场的一或多个前景音频对象；

由所述处理器且基于所述经识别的一或多个前景音频对象而选择与存储至所述存储器装置的视频数据相关联的一或多个视区；及

由耦合至所述处理器及所述存储器装置的显示器硬件输出所述视频数据的与由所述处理器选择的所述一或多个视区相关联的部分。

17.根据权利要求16所述的方法，其进一步包括由所述处理器确定与所述经识别的一或多个前景音频对象相关联的能量。

18.根据权利要求16所述的方法，其进一步包括由所述处理器基于所述经识别的一或多个前景音频对象而确定与所述经识别的一或多个视区相关联的视区数目。

19.根据权利要求16所述的方法，其进一步包括：

由所述处理器对存储至所述存储器装置的所述视频数据的与所述经识别的一或多个前景音频对象相关联的部分进行升采样；及

由所述显示器硬件输出所述视频数据的所述经升采样部分。

20.根据权利要求16所述的方法，其进一步包括由一或多个扩音器输出表示所述声场的音频数据格式。

21.根据权利要求16所述的方法，其进一步包括：

检测经更新视场FoV信息；及

基于所述经更新FoV信息而更新所述经识别的一或多个视区。

22.根据权利要求16所述的方法，其进一步包括：

由所述显示器硬件仅输出所述视频数据的与所述经选择的一或多个视区相关联的所述部分，而不输出所述视频数据的不与所述一或多个视区相关联的其余部分。

23.根据权利要求16所述的方法，其进一步包括将所述声场的多个表示存储至所述存储器装置，所述多个表示包括所述声场的多个基于对象的表示、所述声场的高阶立体混响表示、所述声场的混合阶立体混响表示、所述声场的基于声道的表示、所述声场的基于对象的表示与所述声场的高阶立体混响表示的组合、所述声场的基于对象的表示与所述声场的混合阶立体混响表示的组合，或所述声场的混合阶表示与所述声场的高阶立体混响表示的组合。

24.根据权利要求16所述的方法，其进一步包括：

将与所述声场相关联的空间音频内容存储至所述存储器装置；及

由所述处理器进一步基于与所述声场相关联的空间音频内容的空间能量分布而选择所述一或多个视区。

25.根据权利要求16所述的方法，其进一步包括进一步基于与所述声场相关联的空间音频内容的空间能量分布而选择所述一或多个视区。

26.根据权利要求16所述的方法，其进一步包括：

将包含空间元数据的所述声场的高阶立体混响HOA表示存储至所述存储器装置；

由所述处理器解析所述HOA表示以获得主导声音的方向；及

由所述处理器进一步基于所述主导声音的所述方向而选择所述一或多个视区。

27.根据权利要求16所述的方法，其进一步包括：

将包含空间元数据的所述声场的基于对象的表示存储至所述存储器装置；

由所述处理器解析所述基于对象的表示以获得对象相关元数据，其包含方向、距离或对象优先级中的一或多者；及

由所述处理器基于所述对象相关元数据而选择所述一或多个视区。

28.根据权利要求16所述的方法，其进一步包括跟踪由与包含所述处理器及所述存储器装置的装置相关联的一或多个角度提供的转向角。

29.根据权利要求28所述的方法，其进一步包括进一步基于所述转向角而选择所述一或多个视区。

30.根据权利要求29所述的方法，其进一步包括：

由所述处理器基于所述转向角而选择所述一或多个视区中的当前视区；及

基于所述经识别的一或多个前景音频对象而选择所述一或多个视区中的经预测视区。