CN116017263A

CN116017263A - 用于处理虚拟现实环境中的听音位置之间的全局过渡的方法和系统

Info

Publication number: CN116017263A
Application number: CN202211607875.9A
Authority: CN
Inventors: 利昂·特连蒂夫; 克里斯托弗·费尔施; 丹尼尔·费希尔
Original assignee: Dolby International AB
Current assignee: Dolby International AB
Priority date: 2017-12-18
Filing date: 2018-12-18
Publication date: 2023-04-25
Also published as: US20230022740A1; US20240031760A1; KR102616673B1; CN111527760A; RU2020120210A; RU2020120210A3; US20210006924A1; RU2765926C2; BR112020012299A2; JP2023179510A; JP2021507559A; CN116017264A; CN111527760B; US11405741B2; KR20240000641A; JP7354107B2; KR20200098651A; WO2019121775A1; EP3729831A1; US11750999B2

Abstract

本申请涉及用于处理虚拟现实环境中的听音位置之间的全局过渡的方法和系统。描述了一种用于在虚拟现实渲染环境(180)中渲染音频的方法(900)。所述方法(900)包括从围绕监听器(181)的听音位置(201)的球体(114)上的原始源位置渲染(901)原始音频场景(111)的原始音频源(113)的原始音频信号。此外，所述方法(900)包括确定(902)所述监听器(181)从所述原始音频场景(111)内的所述听音位置(201)移动到不同的目的地音频场景(112)内的听音位置(202)。此外，所述方法(900)包括将淡出增益应用(903)到所述原始音频信号以确定经修改的原始音频信号；以及从围绕所述听音位置(201，202)的所述球体(114)上的所述原始源位置渲染(903)所述原始音频源(113)的所述经修改的原始音频信号。

Description

用于处理虚拟现实环境中的听音位置之间的全局过渡的方法和系统

分案申请的相关信息

本申请是申请号为201880081930.0、申请日为2018年12月18日、发明名称为“用于处理虚拟现实环境中的听音位置之间的全局过渡的方法和系统”的发明专利申请的分案申请。

相关申请交叉引用

本申请要求在此引入作为参考的以下优先权申请的优先权：2017年12月18日提交的美国临时申请62/599,841(参考文献：D17085USP1)和2017年12月18日提交的欧洲申请17208088.9(参考文献：D17085EP)。

技术领域

本文档涉及在虚拟现实(VR)渲染环境中对听觉视口和/或听音位置之间的过渡的有效且一致的处理。

背景技术

虚拟现实(VR)、增强现实(AR)和混合现实(MR)应用正在快速发展成包括能够从不同视点/视角或听音位置享受的声源和场景的日益细化的声学模型。两种不同类的灵活音频表示可以例如被用于VR应用：声场表示和基于对象的表示。声场表示是对听音位置处的入射波前进行编码的基于物理的方案。例如，诸如B格式或更高阶高保真度立体声响复制(HOA)的方案使用球谐函数分解来表示空间波前。基于对象的方案将复杂听觉场景表示为包括音频波形或音频信号和可能随时间变化的关联参数或元数据的奇异元素的集合。

享受VR、AR和MR应用可以包括由用户体验不同听觉视点或视角。例如，可以基于使用6个自由度(DoF)的机制来提供基于房间的虚拟现实。图1图示了6个DoF交互的示例，其示出了平移移动(向前/向后、向上/向下和向左/向右)和旋转移动(俯仰、偏航和滚动)。与限于头部旋转的3DoF球形视频体验不同，为6DoF交互创建的内容除了头部旋转之外还允许虚拟环境内的导航(例如，在房间内物理走动)。这能够基于位置跟踪器(例如，基于照相机)和方向跟踪器(例如，陀螺仪和/或加速度计)来实现。6DoF跟踪技术可以在更高端桌面VR系统(例如，

VR、Oculus Rift、HTC Vive)上以及在高端移动VR平台(例如，GoogleTango)上提供。用户对声音或音频源的方向性和空间范围的体验对于6DoF体验的真实性是关键的，特别是对导航通过场景和虚拟音频源周围的体验。

可用的音频渲染系统(诸如MPEG-H 3D音频渲染器)通常被限于3DoF的渲染(即，由监听器的头部移动引起的音频场景的旋转移动)。监听器的听音位置的平移更改和关联DoF通常不能由此类渲染器处理。

本文档涉及为在音频渲染的上下文中处理平移移动提供资源高效的方法和系统的技术问题。

发明内容

根据一方面，描述了一种用于在虚拟现实渲染环境中渲染音频的方法。该方法包括从围绕监听器的听音位置的球体上的原始源位置渲染原始音频场景的原始音频源的原始音频信号。此外，该方法包括确定监听器从原始音频场景内的听音位置移动到不同目的地音频场景内的听音位置。另外，该方法包括将淡出增益应用到原始音频信号以确定经修改的原始音频信号。该方法进一步包括从围绕听音位置的球体上的原始源位置渲染原始音频源的经修改的原始音频信号。

根据又一方面，描述了一种用于在虚拟现实渲染环境中渲染音频的虚拟现实音频渲染器。该虚拟现实音频渲染器被配置成从围绕监听器的听音位置的球体上的原始源位置渲染原始音频场景的原始音频源的原始音频信号。另外，该虚拟现实音频渲染器被配置成确定监听器从原始音频场景内的听音位置移动到不同目的地音频场景内的听音位置。此外，该虚拟现实音频渲染器被配置成将淡出增益应用到原始音频信号以确定经修改的原始音频信号，并且从围绕听音位置的球体上的原始源位置渲染原始音频源的经修改的原始音频信号。

根据又一方面，描述了一种用于生成指示要在虚拟现实渲染环境内被渲染的音频信号的位流的方法。该方法包括：确定原始音频场景的原始音频源的原始音频信号；确定关于原始音频源的原始源位置的原始位置数据；生成包括原始音频信号和原始位置数据的位流；接收监听器在虚拟现实渲染环境内从原始音频场景移动到目的地音频场景的指示；确定目的地音频场景的目的地音频源的目的地音频信号；确定关于目的地音频源的目的地源位置的目的地位置数据；以及生成包括目的地音频信号和目的地位置数据的位流。

根据另一方面，描述了一种被配置成生成指示要在虚拟现实渲染环境内被渲染的音频信号的位流的编码器。该编码器被配置成：确定原始音频场景的原始音频源的原始音频信号；确定关于原始音频源的原始源位置的原始位置数据；生成包括原始音频信号和原始位置数据的位流；接收监听器在虚拟现实渲染环境内从原始音频场景移动到目的地音频场景的指示；确定目的地音频场景的目的地音频源的目的地音频信号；确定关于目的地音频源的目的地源位置的目的地位置数据；以及生成包括目的地音频信号和目的地位置数据的位流。

根据又一方面，描述了一种用于在虚拟现实渲染环境中渲染音频信号的虚拟现实音频渲染器。该音频渲染器包括3D音频渲染器，该3D音频渲染器被配置成在虚拟现实渲染环境内从围绕监听器的听音位置的球体上的源位置渲染音频源的音频信号。此外，该虚拟现实音频渲染器包括预处理单元，该预处理单元被配置成确定在虚拟现实渲染环境内监听器的新听音位置。此外，该预处理单元被配置成相对于围绕新听音位置的球体来更新音频源的音频信号和源位置。该3D音频渲染器被配置成从围绕新听音位置的球体上的更新的源位置来渲染音频源的更新的音频信号。

根据又一方面，描述了一种软件程序。软件程序可以适于在处理器上执行，并且在处理器上被运行时适于执行本文档中概述的方法步骤。

根据另一方面，描述了一种存储介质。该存储介质可以包括软件程序，该软件程序适于在处理器上执行，并且在处理器上被运行时适于执行本文档中概述的方法步骤。

根据又一方面，描述了一种计算机程序产品。该计算机程序可以包括在计算机上被运行时用于执行本文档中概述的方法步骤的可执行指令。

应注意的是，包含如在本专利申请中概述的其优选实施例的方法和系统可以被单独使用或与本文档中公开的其它方法和系统结合使用。此外，本专利申请中概述的方法和系统的所有方面可以被任意组合。具体地说，权利要求的特征可以以任意方式被相互组合。

附图说明

下面参照附图以示例性方式解释本发明，其中

图1a示出了用于提供6Dof音频的示例音频处理系统；

图1b示出了在6Dof音频和/或渲染环境内的示例情况；

图1c示出了从原始音频场景到目的地音频场景的示例过渡；

图2图示了用于在不同音频场景之间的过渡期间确定空间音频信号的示例方案；

图3示出了示例音频场景；

图4a图示了在对音频场景内听音位置的更改的反应中音频源的重新映射；

图4b示出了示例性距离函数；

图5a图示了带有非均匀方向性轮廓(directivity profile)的音频源；

图5b示出了音频源的示例方向性函数；

图6示出了带有声学相关障碍的示例音频场景；

图7图示了监听器的视场和注意焦点；

图8图示了在音频场景内听音位置更改的情况下对环境音频的处理；

图9a示出了用于在不同音频场景之间的过渡期间渲染3D音频信号的示例方法的流程图；

图9b示出了用于为不同音频场景之间的过渡生成位流的示例方法的流程图；

图9c示出了用于在音频场景内的过渡期间渲染3D音频信号的示例方法的流程图；以及

图9d示出了用于为局部过渡生成位流的示例方法的流程图。

具体实施方式

如上所概述的，本文档涉及在3D(三维)音频环境中6DoF的有效提供。图1a图示了示例音频处理系统100的框图。诸如体育场的声学环境110可以包括各种不同音频源113。体育场内的示例音频源113是各个观众、体育场扬声器、场上的运动员等。声学环境110可以被细分为不同音频场景111、112。作为示例，第一音频场景111可以对应于主队支持块，并且第二音频场景112可以对应于客队支持块。根据监听器在音频环境内所处的位置，监听器将感知来自第一音频场景111的音频源113或来自第二音频场景112的音频源113。

可以使用音频传感器120，特别地使用麦克风阵列来捕获音频环境110的不同音频源113。具体地说，可以使用多声道音频信号、一或多个音频对象和/或更高阶高保真度立体声响复制(HOA)信号来描述音频环境110的一或多个音频场景111、112。在下文中，假设音频源113与由音频传感器120捕获的音频数据相关联，其中音频数据指示音频信号和作为时间的函数(在例如20ms的具体采样率)的音频源113的位置。

诸如MPEG-H 3D音频渲染器的3D音频渲染器通常假设监听器位于音频场景111、112内的具体听音位置。用于音频场景111，112的不同音频源113的音频数据通常是在假设监听器位于该特定听音位置的情况下提供的。音频编码器130可以包括3D音频编码器131，3D音频编码器131被配置成对一或多个音频场景111、112的音频源113的音频数据进行编码。

此外，可以提供VR(虚拟现实)元数据，这使得监听器能够更改音频场景111、112内的听音位置和/或在不同音频场景111、112之间移动。编码器130可以包括被配置成对VR元数据进行编码的元数据编码器132。音频源113的编码的VR元数据和编码的音频数据可以在组合单元133中组合以提供指示音频数据和VR元数据的位流140。VR元数据可以例如包括描述音频环境110的声学特性的环境数据。

位流140可以使用解码器150来解码，以提供(解码的)音频数据和(解码的)VR元数据。用于在允许6DoF的渲染环境180内渲染音频的音频渲染器160可以包括预处理单元161和(常规)3D音频渲染器162(诸如MPEG-H 3D音频)。预处理单元161可以被配置成确定在听音环境180内监听器181的听音位置182。听音位置182可以指示监听器181处在其内的音频场景111。此外，听音位置182可以指示在音频场景111内的确切位置。预处理单元161可以进一步被配置成基于(解码的)音频数据和可能基于(解码的)VR元数据来确定用于当前听音位置182的3D音频信号。随后可以使用3D音频渲染器162来渲染3D音频信号。

应注意的是，在本文档中描述的概念和方案可以以频率变化的方式来指定，可以全局地或以对象/媒体相关的方式来定义，可以直接在谱或时域中被应用和/或可以被硬编码到VR渲染器160中或可以经由相应的输入接口来指定。

图1b示出了示例渲染环境180。监听器181可以位于原始音频场景111内。为便于渲染，可以假设音频源113、194被放置在围绕监听器181的(统一)球体114上的不同渲染位置。不同音频源113、194的渲染位置可以随时间而更改(根据给定的采样速率)。不同情况可以在VR渲染环境180内发生：监听器181可以执行从原始音频场景111到目的地音频场景112的全局过渡191。作为另一选择或另外，监听器181可以执行到相同音频场景111内不同听音位置182的本地过渡192。作为另一选择或另外，音频场景111可以展示环境的、声学相关的属性(诸如壁)，其可以使用环境数据193来描述并且在发生听音位置182的更改时应被考虑在内。作为另一选择或另外，音频场景111可以包括一或多个环境音频源194(例如用于背景噪声)，其在发生听音位置182的更改时应当被考虑在内。

图1c示出了从带有音频源113A₁到A_n的原始音频场景111到带有音频源113B₁到B_m的目的地音频场景112的示例全局过渡191。特别地，每个音频源113可以仅被包含在原始音频场景111和目的地音频场景112中的一个中，例如，音频源113A₁到A_n被包含在原始音频场景111中但不在目的地音频场景112中，而音频源113B₁到B_m被包含在目的地音频场景112中但不在原始音频场景111中。

音频源113可以由对应位置间对象属性(坐标、方向性、距离声音衰减函数等)来表征。全局过渡191可以在某个过渡时间间隔内(例如在5秒、1秒或更短的范围中)被执行。原始场景182内的听音位置111在全局过渡191开始时被标记有“A”。此外，目的地场景182内的听音位置112在全局过渡191结束时被标记有“B”。此外，图1c图示了在听音位置“B”与听音位置“C”之间在目的地场景112内的本地过渡192。

图2示出了在过渡时间间隔t期间从原始场景111(或原始视口)到目的地场景112(或目的地视口)的全局过渡191。此类过渡191可以在监听器181在例如体育场内的不同场景或视口111、112之间切换时发生。因此，从原始场景111到目的地场景112的全局过渡191不需要对应于监听器181的实际物理移动，而是能够简单地由监听器的切换或过渡到另一个视口111、112的命令启动。尽管如此，本公开参考了监听器的位置，其被理解成是监听器在VR/AR/MR环境中的位置。

在中间时刻213，监听器181可以位于原始场景111与目的地场景112之间的中间位置。通过确定原始场景111的音频源113A₁到A_n中的每一个的贡献和目的地场景112的音频源113B₁到B_m中的每一个的贡献，同时将每个音频源113的声音传播考虑在内，可以确定要在中间位置和/或在中间时刻213被渲染的3D音频信号203。然而，这将与相对高的计算复杂度相关联(特别地在音频源113的数量相对高的情况下)。

在全局过渡191开始时，监听器181可以位于原始听音位置201。在整个过渡191期间，可以相对于起源听音位置201生成3D原始音频信号A_G，其中原始音频信号仅取决于原始场景111的音频源113(并且不取决于目的地场景112的音频源113)。全局过渡191不影响原始场景111的音频源113的视在源位置。因此，假设有原始场景113的固定音频源111，即使听音位置可以从原始场景过渡到目的地场景(相对于监听器)，相对于听音位置201的在全局过渡191期间音频源113的渲染位置也未更改。

此外，监听器181将在全局过渡191结束时到达目的地场景112内的目的地听音位置202，这在全局过渡191开始时可以被固定。在整个过渡191期间，可以相对于目的地听音位置202生成3D目的地音频信号B_G，其中目的地音频信号仅取决于目的地场景112的音频源113(并且不取决于源场景111的音频源113)。全局过渡191不影响目的地场景112的音频源113的视在源位置(相对于监听器)。

为确定在全局过渡191期间在中间位置和/或在中间时刻213的3D中间音频信号203，在中间时刻213的原始音频信号可以与在中间时刻213的目的地音频信号组合。具体地说，可以将从淡出函数211导出的淡出因子或增益应用到原始音频信号。淡出函数211可以使得淡出因子或增益“a”随着中间位置离原始场景111的距离增大减小。此外，可以将从淡入函数212导出的淡入因子或增益应用到目的地音频信号。淡入函数212可以使得淡入因子或增益“b”随着中间位置离目的地场景112的距离减小而增大。图2中示出了示例淡出函数211和示例淡入函数212。随后可以通过原始音频信号和目的地音频信号的加权和来给出中间音频信号，其中权重分别对应于淡出增益和淡入增益。

因此，可以为在不同3DoF视口201、202之间的全局过渡191定义淡入函数或曲线212和淡出函数或曲线211。函数211、212可以被应用到表示原始音频场景111和目的地音频场景112的预渲染虚拟对象或3D音频信号。这样，可以在不同音频场景111、112之间的全局过渡191期间提供一致的音频体验，同时减少了VR音频渲染计算。

可以使用原始音频信号和目的地音频信号的线性内插来确定在中间位置x_i处的中间音频信号203。音频信号的强度F可以由下式给出：F(x_i)＝a*F(A_G)+(1-a)*F(B_G)。因子“a”和“b＝1-a”可以由范数函数a＝a()给出，其取决于原始听音位置201、目的地听音位置202和中间位置。作为函数的替代，可以为不同中间位置提供查找表a＝[1，...，0]。

在上文中，要理解的是，可以为多个中间位置x_i确定和渲染中间音频信号203以允许从原始场景111到目的地场景112的平滑过渡。

在全局过渡191期间，可以将另外的效应(例如多普勒效应和/或混响)考虑在内。函数211、212可以由内容提供商适配，例如以反映艺术意图。关于函数211、212的信息可以作为元数据被包括在位流140内。因此，编码器130可以被配置成将关于淡入函数212和/或淡出函数211的信息提供为位流140内的元数据。作为另一选择或另外，音频渲染器160可以应用存储在音频渲染器160的函数211、212。

可以从监听器将标志用信号通知渲染器160，特别地用信号通知VR预处理单元161，以向渲染器160指示要执行从原始场景111到目的地场景112的全局过渡191。该标志可以触发本文档中所描述的音频处理，以便在过渡阶段期间生成中间音频信号。可以通过相关信息(例如，经由新视口或听音位置202的坐标)显式或隐式地用信号通知该标志。可以从任何数据接口侧(例如，服务器/内容、用户/场景、辅助)发送该标志。可以将关于原始音频信号A_G和目的地音频信号B_G的信息与该标志一起提供。作为示例，可以提供一或多个音频对象或音频源的ID。作为另一选择，可以将计算原始音频信号和/或目的地音频信号的请求提供到渲染器160。

因此，包括用于3DoF渲染器162的预处理器单元161的VR渲染器160被描述用于以资源高效的方式使能6DoF功能性。预处理单元161允许使用诸如MPEG-H 3D音频渲染器的标准3DoF渲染器162。VR预处理单元161可被配置成通过使用分别表示原始场景111和目的地场景112的预渲染的虚拟音频对象A_G和B_G，有效地执行用于全局过渡191的计算。通过在全局过渡191期间仅利用两个预渲染的虚拟对象，降低了计算复杂度。每个虚拟对象可以包括用于多个音频源的多个音频信号。此外，可以降低位率要求，因为在过渡191期间，仅可以在位流140内提供预渲染的虚拟音频对象A_G和B_G。另外，可以降低处理延迟。

可以为沿全局过渡轨迹的所有中间位置提供3DoF功能性。这可以通过使用淡出/淡入函数211、212叠加原始音频对象和目的地音频对象来实现。此外，可以渲染另外的音频对象和/或可以包含额外的音频效应。

图3示出了在相同音频场景111内从原始听音位置B 301到目的地听音位置C 302的示例本地过渡192。音频场景111包括不同音频源或对象311、312、313。不同音频源或对象311、312、313可以具有不同方向性轮廓332。此外，音频场景111可以具有对音频场景111内音频的传播有影响的环境属性，特别地，一或多个障碍。可以使用环境数据193来描述环境属性。另外，音频对象311到听音位置301、302的相对距离321、322可以是已知的。

图4a和4b图示了用于处理本地过渡192对不同音频源或对象311、312、313的强度的影响的方案。如上所概述的，音频场景111的音频源311、312、313通常由3D音频渲染器162假定为位于围绕听音位置301的球体114上。因此，在本地过渡192开始时，音频源311、312、313可以被放置在围绕原始听音位置301的原始球体114上，并且在本地过渡192结束时，音频源311、312、313可以被放置在围绕目的地听音位置302的目的地球体114上。音频源311、312、313可以从原始球体114被重新映射到目的地球体114。为此，可以考虑从目的地听音位置302到在原始球体114上音频源311、312、313的源位置的射线。音频源311、312、313可以被放置在射线与目的地球体114的交点上。

在目的地球体114上音频源311、312、313的强度F通常不同于在原始球体114上的强度。可以使用强度增益函数或距离函数415来修改强度F，该函数将距离增益410提供为音频源311、312、313离听音位置301、302的距离420的函数。距离函数415通常展示截止距离421，在该截止距离之上应用零距离增益410。音频源311到原始听音位置301的原始距离321提供原始增益411。此外，音频源311到目的地听音位置302的目的地距离322提供目的地增益412。可以使用原始增益411和目的地增益412来重新缩放音频源311的强度F，从而提供在目的地球体114上音频源311的强度F。具体地说，在原始球体114上音频源311的原始音频信号的强度F可以除以原始增益411并乘以目的地增益412，以提供在目的地球体114上音频源311的目的地音频信号的强度F。

因此，在本地过渡192之后音频源311的位置可以被确定为：C_i＝source_remap_function(B_i，C)(例如使用几何变换)。此外，在本地过渡192之后音频源311的强度可以被确定为：F(C_i)＝F(B_i)*distance_function(B_i，C_i，C)。距离衰减因此可以通过由距离函数415提供的对应强度增益来建模。

图5a和5b图示了具有非均匀方向性轮廓332的音频源312。可以使用方向性增益510来定义方向性轮廓，该方向性增益指示不同方向或方向性角520的增益值。具体地说，可以使用方向性增益函数515来定义音频源312的方向性轮廓332，该方向性增益函数将方向性增益510指示为方向性角520的函数(其中角520的范围可以从0°到360°)。应注意的是，对于3D音频源312，方向性角520通常是包括方位角和仰角的二维角。因此，方向性增益函数515通常是二维方向性角520的二维函数。

通过确定在音频源312与原始听音位置301之间原始射线的原始方向性角521(音频源312被放置在围绕原始听音位置301的原始球体114上)和在音频源312与目的地听音位置302之间目的地射线的目的地方向性角522(音频源312被放置在围绕目的地听音位置302的目的地球体114上)，可以在本地过渡192的上下文中将音频源312的方向性轮廓332考虑在内。使用音频源312的方向性增益函数515，可以将原始方向性增益511和目的地方向性增益512分别确定为用于原始方向性角521和目的地方向性角522的方向性增益函数515的函数值(参见图5b)。随后，可以将在原始听音位置301的音频源312的强度F除以原始方向性增益511并乘以目的地方向性增益512，以确定在目的地听音位置302的音频源312的强度F。

因此，声源方向性可以由通过方向性增益函数515所指示的方向性因子或增益510来参数化。方向性增益函数515可以指示相对于听音位置301、302在作为角520的函数的某一距离处音频源312的强度。方向性增益510可以被定义为相对于在具有在所有方向上被均匀辐射的相同总功率的相同距离处音频源312的增益的比率。方向性轮廓332可以由一组增益510来参数化，该组增益对应于起源于音频源312的中心并且终止于分布在围绕音频源312的中心的单位球体上的点的矢量。音频源332的方向性轮廓312可以取决于用例情形和可用数据(例如，用于3D飞行情况的均匀分布、用于2D+用例的平坦分布等)。

可以将在目的地听音位置302的音频源312的结果音频强度估计为：F(C_i)＝F(B_i)*Distance_function()*Directivity_gain_function(C_i，C，Directivity_paramertization)，其中Directivity_Gain_function取决于音频源312的方向性轮廓332。Distance_function()将由于音频源312的过渡而造成的音频源312的距离321、322的更改所引起的经修改的强度考虑在内。

图6示出了在不同听音位置301、302之间的本地过渡192的上下文中可能需要被考虑在内的示例障碍603。具体地说，音频源313可以隐藏在目的地听音位置302处障碍603的后面。障碍603可以由指示由障碍603造成的声音的衰减的环境数据193来描述，该环境数据包括一组参数，诸如障碍603的空间维度和障碍衰减函数。

音频源313可以展示到目的地听音位置302的无障碍距离602(OFD)。OFD 602可以指示在音频源313与目的地听音位置302之间的不穿过障碍603的最短路径的长度。此外，音频源313可以展示到目的地听音位置302的经过距离601(GHD)。GHD 601可以指示在音频源313与目的地听音位置302之间通常经过障碍603的最短路径的长度。障碍衰减函数可以是OFD 602和GHD 601的函数。此外，障碍衰减函数可以是音频源313的强度F(B_i)的函数。

在目的地听音位置302的音频源C_i的强度可以是来自音频源313的绕过障碍603的声音和来自音频源313的经过障碍603的声音的组合。

因此，可以为VR渲染器160提供有用于控制环境几何形状和媒体的影响的参数。障碍几何形状/媒体数据193或参数可以由内容提供者和/或编码器130提供。可以将音频源313的音频强度估计为：F(C_i)＝F(B_i)*Distance_function(OFD)*Directivity_gain_function(OFD)+Obstacle_attenuation_function(F(Bi)，OFD，GHD)。第一项对应于绕过障碍603的声音的贡献。第二项对应于经过障碍603的声音的贡献。

最小无障碍距离(OFD)602可以使用A*Dijkstra的路径查找算法来确定，并且可以被用于控制直接声音衰减。经过距离(GHD)601可以被用于控制混响和失真。作为另一选择或另外，射线投射方法可以被用来描述障碍603对音频源313的强度的影响。

图7图示了位于目的地听音位置302的监听器181的示例视场701。此外，图7示出了位于目的地听音位置302的监听器的示例注意焦点702。视场701和/或注意焦点702可以被用来增强(例如，放大)来自位于视场701和/或注意焦点702内的音频源的音频。视场701可以被认为是用户驱动的效应，并且可以被用于使能用于与用户的视场701关联的音频源311的声音增强器。具体地说，通过从背景音频源移除频率片(frequency tile)，可以执行“鸡尾酒会效应”(cocktail party effect)模拟以增强与位于监听器的视场701内的音频源311关联的语音信号的可理解性。注意焦点702可以被视为内容驱动的效应，并且可以被用于使能用于与感兴趣的内容区域关联的音频源311的声音增强器(例如，吸引用户注意观看和/或移动到音频源311的方向)

可以将音频源311的音频强度修改为：F(B_i)＝Field_of_view_function(C，F(B_i)，Field_of_view_data)，其中Field_of_view_function描述被应用到位于监听器181的视场701内的音频源311的音频信号的修改。此外，可以将位于监听器的注意焦点702内的音频源的音频强度修改为：F(B_i)＝Attention_focus_function(F(B_i)，Attention_focus_data)，其中Attention_focus_function描述被应用到位于注意焦点702内的音频源311的音频信号的修改。

可以将在本文档中描述的用于处理监听器181从原始听音位置301到目的地听音位置302的过渡的功能以类似的方式应用到音频源311、312、313的位置的更改。

因此，本文档描述了用于计算表示在任意听音位置301、302的本地VR音频场景111的虚拟音频对象或音频源311、312、313的坐标和/或音频强度的有效途径。可以通过将声源距离衰减曲线、声源方位和方向性、环境几何形状/媒体影响和/或用于另外的音频信号增强的“视场”和“注意焦点”数据考虑在内来确定坐标和/或强度。所描述的方案可以通过仅在听音位置301、302和/或音频对象/源311、312、313的位置更改时执行计算来显著降低计算复杂度。

此外，本文档描述了用于VR渲染器160的距离、方向性、几何功能、处理和/或信令机制的规范的概念。此外，描述了用于控制直接声衰减的最小“无障碍距离”和用于控制混响和失真的“穿过距离”的概念。另外，还描述了用于声源方向性参数化的概念。

图8图示了在本地过渡192的上下文中对环境声源801、802、803的处理。具体地说，图8示出了三个不同环境声源801、802、803，其中环境声音可以归因于点音频源。可以将环境标志提供到预处理单元161以便指示点音频源311是环境音频源801。在听音位置301、302的本地和/或全局过渡期间的处理可以取决于环境标志的值。

在全局过渡191的上下文中，可以像正常音频源311一样处理环境声源801。图8图示了本地过渡192。可以将环境声源801、802、803的位置从原始球体114复制到目的地球体114，从而提供在目的地听音位置302的环境声音源811、812、813的位置。此外，如果环境条件保持不变，则环境声源801的强度可以保持不变，F(C_Ai)＝F(B_Ai)。另一方面，在有障碍603的情况下，可以使用障碍衰减函数来确定环境声源803、813的强度，例如FF(C_Ai)＝F(BAi)*Distance_function_Ai(OFD)+Obstacle_attenuation_function(F(B_Ai)，OFD，GHD)。

图9a示出了用于在虚拟现实渲染环境180中渲染音频的示例方法900的流程图。方法900可以由VR音频渲染器160执行。方法900包括从围绕监听器181的听音位置201的球体114上的原始源位置渲染901原始音频场景111的原始音频源113的原始音频信号。渲染901可以使用3D音频渲染器162来执行，3D音频渲染器162可以被限于仅处理3DoF，特别地，其可以被限于仅处理监听器181的头部的旋转移动。具体地说，3D音频渲染器162可以未被配置成处理监听器的头部的平移移动。3D音频渲染器162可以包括或者可以是MPEG-H音频渲染器。

应注意的是，表述“从具体源位置渲染音频源113的音频信号”指示监听器181将音频信号感知为来自该具体源位置。该表述不应被理解为对实际上如何渲染音频信号的限制。各种不同渲染技术可以被用来“从具体源位置渲染音频信号”，即向监听器181提供音频信号来自具体源位置的感觉。

此外，方法900包括确定902监听器181从原始音频场景111内的听音位置201移动到不同目的地音频场景112内的听音位置202。因此，可以检测到从原始音频场景111到目的地音频场景112的全局过渡191。在此上下文中，方法900可以包括接收监听器181从原始音频场景111移动到目的地音频场景112的指示。该指示可以包括或者可以是标志。可以例如经由VR音频渲染器160的用户接口，从监听器181将该指示用信号通知VR音频渲染器160。

通常，原始音频场景111和目的地音频场景112各自包括彼此不同的一或多个音频源113。具体地说，一或多个原始音频源113的原始音频信号可能在目的地音频场景112内是听不见的和/或一或多个目的地音频源113的目的地音频信号可能在原始音频场景111内是听不见的。

方法900可以包括(在对确定到新目的地音频场景112的全局过渡191被执行的反应中)将淡出增益应用903到原始音频信号以确定经修改的原始音频信号。特别地，如将在原始音频场景111中的听音位置所感知到的，原始音频信号被生成，而不管监听器181从原始音频场景111内的听音位置201移动到目的地音频场景112内的听音位置202。此外，方法900可以包括(在对确定到新目的地音频场景112的全局过渡191被执行的反应中)从围绕听音位置201、202的球体114上的原始源位置渲染904原始音频源113的经修改的原始音频信号。在全局过渡191期间，可以例如以定期的时间间隔重复执行这些操作。

因此，通过渐进地淡出原始音频场景111的一或多个原始音频源113的原始音频信号，可以执行在不同音频场景111、112之间的全局过渡191。因此，提供了在不同音频场景111、112之间在计算上高效且在声学上一致的全局过渡191。

可以确定在过渡时间间隔期间监听器181从原始音频场景111移动到目的地音频场景112，其中过渡时间间隔通常具有某个持续时间(例如2s、1s，500ms或更短)。可以在过渡时间间隔内渐进地执行全局过渡191。具体地说，在全局过渡191期间，可以确定在过渡时间间隔内的中间时刻213(例如，根据例如100ms、50ms、20ms或更小的某个采样速率)。随后可以基于过渡时间间隔内的中间时刻213的相对位置来确定淡出增益。

具体地说，可以将用于全局过渡191的过渡时间间隔细分成中间时刻213的序列。对于中间时刻213的该序列的每个中间时刻213，可以确定用于修改一或多个原始音频源的原始音频信号的淡出增益。此外，在中间时刻213的该序列的每个中间时刻213，可以从围绕听音位置201、202的球体114上的原始源位置渲染一或多个原始音频源113的经修改的原始音频信号。这样，可以以在计算上高效的方式执行在声学上一致的全局过渡191。

方法900可以包括提供淡出函数211，其指示在过渡时间间隔内的不同中间时刻213的淡出增益，其中淡出函数211通常使得淡出增益随着渐进的中间时刻213而减小，从而提供到目的地音频场景112的平滑全局过渡191。具体地说，淡出函数211可以使得原始音频信号在过渡时间间隔开始时保持不变，原始音频信号在渐进中间时刻213被渐增地衰减，和/或原始音频信号在过渡时间间隔结束时被完全衰减。

在围绕听音位置201、202的球体114上的原始音频源113的原始源位置可以在监听器181从原始音频场景111移动到目的地音频场景112时(特别地在整个过渡时间间隔期间)被保持。作为另一选择或另外，可以假设(在整个过渡时间间隔期间)监听器181保持在相同的听音位置201、202。这样，可以进一步降低用于在音频场景111、112之间的全局过渡191的计算复杂度。

方法900可以进一步包括确定目的地音频场景112的目的地音频源113的目的地音频信号。此外，方法900可以包括确定在围绕听音位置201、202的球体114上的目的地源位置。特别地，如将在目的地音频场景112中的听音位置所感知到的，目的地音频信号被生成，而不管监听器181从原始音频场景111内的听音位置201移动到目的地音频场景112内的听音位置202。另外，方法900可以包括将淡入增益应用到目的地音频信号以确定经修改的目的地音频信号。随后可以从围绕听音位置201、202的球体114上的目的地源位置渲染目的地音频源113的经修改的目的地音频信号。在全局过渡191期间，可以例如以定期的时间间隔重复执行这些操作。

因此，可以以与原始场景111的一或多个原始音频源113的原始音频信号的淡出类似的方式，淡入目的地场景112的一或多个目的地音频源113的目的地音频信号，从而提供在音频场景111、112之间的平滑全局过渡191。

如上所指示的，监听器181可以在过渡时间间隔期间从原始音频场景111移动到目的地音频场景112。可以基于过渡时间间隔内的中间时刻213的相对位置来确定淡入增益。具体地说，可以为在全局过渡191期间中间时刻213的对应序列确定淡入增益的序列。

可以使用指示在过渡时间间隔内的不同中间时刻213的淡入增益的淡入函数212来确定淡入增益，其中淡入函数212通常使得淡入增益随着渐进的中间时刻213而增大。具体地说，淡入函数212可以使得目的地音频信号在过渡时间间隔开始时被完全衰减，目的地音频信号在渐进中间时刻213被渐减地衰减和/或目的地音频信号在过渡时间间隔结束时保持未被修改，从而以在计算上高效的方式提供在音频场景111、112之间的平滑全局过渡191。

以与原始音频源113的原始源位置相同的方式，在围绕听音位置201、202的球体114上的目的地音频源113的目的地源位置可以在监听器181从原始音频场景111移动到目的地音频场景112时(特别地在整个过渡时间间隔期间)被保持。作为另一选择或另外，可以假设(在整个过渡时间间隔期间)监听器181保持在相同的听音位置201、202。这样，可以进一步降低用于在音频场景111、112之间的全局过渡191的计算复杂度。

淡出函数211和淡入函数212的组合可以为多个不同中间时刻213提供恒定增益。具体地说，淡出函数211和淡入函数212可以相加到用于多个不同中间时刻213的恒定值(例如1)。因此，淡入函数212和淡出函数211可以是相互依赖的，从而在全局过渡191期间提供一致的音频体验。

淡出函数211和/或淡入函数212可以从指示原始音频信号和/或目的地音频信号的位流140导出。位流140可以由编码器130提供到VR音频渲染器160。因此，全局过渡191可以由内容提供商控制。作为另一选择或另外，淡出函数211和/或淡入函数212可以从被配置成在虚拟现实渲染环境180内渲染原始音频信号和/或目的地音频信号的虚拟现实(VR)音频渲染器160的存储单元导出，从而在在音频场景111、112之间的全局过渡191期间提供可靠的操作。

方法900可以包括将监听器181从原始音频场景111移动到目的地音频场景112的指示(例如，指示的标志)发送到编码器130，其中编码器130可以被配置成生成指示原始音频信号和/或目的地音频信号的位流140。该指示可以使得编码器130能够在位流140内选择性地提供用于原始音频场景111的一或多个音频源113和/或用于目的地音频场景112的一或多个音频源113的音频信号。因此，提供用于即将到来的全局过渡191的指示使得用于位流140的所要求的带宽能够降低。

如上已经指示的，原始音频场景111可以包括多个原始音频源113。因此，方法900可以包括从围绕听音位置201、202的球体114上的多个不同原始源位置渲染对应多个原始音频源113的多个原始音频信号。此外，方法900可以包括将淡出增益应用到多个原始音频信号以确定多个经修改的原始音频信号。另外，方法900可以包括从围绕听音位置201、202的球体114上的对应多个原始源位置渲染原始音频源113的多个经修改的原始音频信号。

类似地，方法900可以包括确定目的地音频场景112的对应多个目的地音频源113的多个目的地音频信号。另外，方法900可以包括确定在围绕听音位置201、202的球体114上的多个目的地源位置。此外，方法900可以包括将淡入增益应用到多个目的地音频信号以确定多个经修改的目的地音频信号。方法900进一步包括从围绕听音位置201、202的球体114上的对应多个目的地源位置渲染目的地音频源113的多个经修改的目的地音频信号。

作为另一选择或另外，在全局过渡191期间被渲染的原始音频信号可以是多个原始音频源113的音频信号的叠加。具体地说，在过渡时间间隔开始时，可以组合原始音频场景111的(所有)音频源113的音频信号以提供组合的原始音频信号。可以通过淡出增益来修改此原始音频信号。此外，可以在过渡时间间隔期间以特定采样速率(例如20ms)更新原始音频信号。类似地，目的地音频信号可以对应于多个目的地音频源113(特别地，所有目的地音频源113)的音频信号的组合。随后可以使用淡入增益在过渡时间间隔期间修改组合的目的地音频源。通过分别组合原始音频场景111和目的地音频场景112的音频信号，可以进一步降低计算复杂度。

此外，描述了用于在虚拟现实渲染环境180中渲染音频的虚拟现实音频渲染器160。如在本文档中所概述的，VR音频渲染器160可以包括预处理单元161和3D音频渲染器162。虚拟现实音频渲染器160被配置成从围绕监听器181的听音位置201的球体114上的原始源位置渲染原始音频场景111的原始音频源113的原始音频信号。此外，VR音频渲染器160被配置成确定监听器181从原始音频场景111内的听音位置201移动到不同目的地音频场景112内的听音位置202。另外，VR音频渲染器160被配置成将淡出增益应用到原始音频信号以确定经修改的原始音频信号，并且从围绕听音位置201、202的球体114上的原始源位置渲染原始音频源113的经修改的原始音频信号。

此外，描述了被配置成生成指示要在虚拟现实渲染环境180内被渲染的音频信号的位流140的编码器130。编码器130可以被配置成确定原始音频场景111的原始音频源113的原始音频信号。此外，编码器130可以被配置成确定关于原始音频源113的原始源位置的原始位置数据。编码器130随后可以生成包括原始音频信号和原始位置数据的位流140。

编码器130可以被配置成接收监听器181在虚拟现实渲染环境180内从原始音频场景111移动到目的地音频场景112的指示(例如，经由从VR音频渲染器160朝向编码器130的反馈信道)。

编码器130随后可以确定目的地音频场景112的目的地音频源113的目的地音频信号和关于目的地音频源112的目的地源位置的目的地位置数据(特别地仅在对接收此类指示的反应中)。此外，编码器130可以生成包括目的地音频信号和目的地位置数据的位流140。因此，编码器130可以被配置成选择性地仅在接收用于到目的地音频场景112的全局转变191的指示的条件下，才提供目的地音频场景112的一或多个目的地音频源113的目的地音频信号。这样，可以降低用于位流140的所要求的带宽。

图9b示出了用于生成指示要在虚拟现实渲染环境180内被渲染的音频信号的位流140的对应方法930的流程图。方法930包括确定931原始音频场景111的原始音频源113的原始音频信号。此外，方法930包括确定932关于原始音频源113的原始源位置的原始位置数据。另外，方法930包括生成933包括原始音频信号和原始位置数据的位流140。

方法930包括接收934监听器181在虚拟现实渲染环境180内从原始音频场景111移动到目的地音频场景112的指示。在对此的反应中，方法930可以包括确定935目的地音频场景112的目的地音频源113的目的地音频信号，以及确定936关于目的地音频源113的目的地源位置的目的地位置数据。此外，方法930包括生成937包括目的地音频信号和目的地位置数据的位流140。

图9c示出了用于在虚拟现实渲染环境180中渲染音频信号的示例方法910的流程图。方法910可以由VR音频渲染器160执行。

方法910包括从围绕监听器181的原始听音位置301的原始球体114上的原始源位置渲染911音频源311、312、313的原始音频信号。可以使用3D音频渲染器162来执行渲染911。具体地说，可以在原始听音位置301是固定的假设下执行渲染911。因此，渲染911可以被限于三个自由度(特别地，监听器181的头部的旋转移动)。

为将另外的三个自由度(例如，对于监听器181的平移移动)考虑在内，方法910可以包括确定912监听器181从原始听音位置301移动到目的地听音位置302，其中目的地听音位置302通常位于相同音频场景111内。因此，可以确定912监听器181在相同音频场景111内执行本地过渡192。

在对确定监听器181执行本地过渡192的反应中，方法910可以包括基于原始源位置，确定913在围绕目的地听音位置302的目的地球体114上的音频源311、312、313的目的地源位置。换而言之，音频源311、312、313的源位置可以从围绕原始听音位置301的原始球体114被转移到围绕目的地位置302的目的地球体114。这可以通过将原始源位置从原始球体114投影到目的地球体114上来实现。具体地说，可以确定目的地源位置，使得目的地源位置对应于在目的地听音位置302和原始源位置之间的射线与目的地球体114的交点。

此外，方法910可以包括(在对确定监听器181执行本地过渡192的反应中)基于原始音频信号来确定914音频源311、312、313的目的地音频信号。具体地说，可以基于原始音频信号的强度来确定目的地音频信号的强度。作为另一选择或另外，可以基于原始音频信号的频谱组成来确定目的地音频信号的频谱组成。因此，可以确定如何从目的地听音位置302感知音频源311、312、313的音频信号(特别地，可以确定音频信号的强度和/或频谱组成)。

上面提及的确定步骤913、914可以由VR音频渲染器160的预处理单元161执行。通过将一或多个音频源311、312、313的音频信号从围绕原始听音位置301的原始球体114转移到围绕目的地听音位置302的目的地球体114，预处理单元161可以处理监听器181的平移移动。因此，也可以使用3D音频渲染器162(其可以被限于3DoF)来渲染一或多个音频源311、312、313的所转移的音频信号。因此，方法910允许在VR音频渲染环境180内有效地提供6DoF。

因此，方法910可以包括从围绕目的地听音位置302的目的地球体114上的目的地源位置渲染915音频源311、312、313的目的地音频信号(例如，使用3D音频渲染器，诸如MPEG-H音频渲染器)。

确定914目的地音频信号可以包括确定在原始源位置与目的地听音位置之间302的目的地距离322。随后可以基于目的地距离322来确定(特别地，缩放)目的地音频信号(特别地，目的地音频信号的强度)。具体地说，确定914目的地音频信号可以包括将距离增益410应用到原始音频信号，其中距离增益410取决于目的地距离322。

可以提供距离函数415，其指示作为在音频信号311、312、313的源位置与监听器181的听音位置301、302之间距离321、322的函数的距离增益410。可以基于用于目的地距离322的距离函数415的函数值来确定被应用到原始音频信号(用于确定目的地音频信号)的距离增益410。这样，可以以有效和精确的方式确定目的地音频信号。

此外，确定914目的地音频信号可以包括确定在原始源位置与原始听音位置301之间的原始距离321。随后可以(也)基于原始距离321来确定目的地音频信号。具体地说，可以基于用于原始距离321的距离函数415的函数值来确定被应用到原始音频信号的距离增益410。在优选示例中，用于原始距离321的距离函数415的函数值和用于目的地距离322的距离函数415的函数值被用来重新缩放原始音频信号的强度以确定目的地音频信号。因此，可以提供在音频场景111内的有效且精确的本地过渡191。

确定914目的地音频信号可以包括确定音频源311、312、313的方向性轮廓332。方向性轮廓332可以指示在不同方向上的原始音频信号的强度。随后可以(也)基于方向性轮廓332来确定目的地音频信号。通过将方向性轮廓332考虑在内，可以改进本地过渡192的声学质量。

方向性轮廓332可以指示要被应用到原始音频信号以便确定目的音频信号的方向性增益510。具体地说，方向性轮廓332可以指示方向性增益函数515，其中方向性增益函数515可以将方向性增益510指示为在音频源311、312、313的源位置与监听器181的听音位置301，302之间(可能是二维的)方向性角520的函数。

因此，确定914目的地音频信号可以包括确定在目的地源位置与目的地听音位置302之间的目的地角522。随后可以基于目的地角522来确定目的地音频信号。具体地说，可以基于用于目的地角522的方向性增益函数515的函数值来确定目的地音频信号。

作为另一选择或另外，确定914目的地音频信号可以包括确定在原始源位置与原始听音位置301之间的原始角521。随后可以基于原始角521来确定目的地音频信号。具体地说，可以基于用于原始角521的方向性增益函数515的函数值来确定目的地音频信号。在优选示例中，通过使用用于原始角521和用于目的地角522的方向性增益函数515的函数值来修改原始音频信号的强度以确定目的地音频信号的强度，可以确定目的地音频信号。

此外，方法910可以包括确定指示在目的地源位置与目的地听音位置302之间的媒体的音频传播属性的目的地环境数据193。目的地环境数据193可以指示位于在目的地源位置与目的地听音位置302之间的直接路径上的障碍603；指示关于障碍603的空间维度的信息；和/或指示由在目的地源位置与目的地听音位置302之间的直接路径上的音频信号所引发的衰减。具体地说，目的地环境数据193可以指示障碍603的障碍衰减函数，其中衰减函数可以指示由穿过在目的地源位置和目的地听音位置302之间的直接路径上的障碍603的音频信号所引发的衰减。

随后可以基于目的地环境数据193来确定目的地音频信号，从而进一步增大在VR渲染环境180内所渲染的音频的质量。

如上所指示的，目的地环境数据193可以指示在目的地源位置与目的地听音位置302之间的直接路径上的障碍603。方法910可以包括确定在目的地源位置与目的地听音位置302之间的直接路径上穿过距离601。然后可以基于穿过距离601来确定目的地音频信号。作为另一选择或另外，可以确定在不穿过障碍603的间接路径上在目的地源位置与目的地听音位置302之间的无障碍距离602。随后可基于无障碍距离602来确定目的地音频信号。

具体地说，可以基于沿间接路径传播的原始音频信号来确定目的地音频信号的间接分量。此外，可以基于沿直接路径传播的原始音频信号来确定目的地音频信号的直接分量。随后可以通过组合间接分量和直接分量来确定目的音频信号。这样，可以以精确且有效的方式将障碍603的声学效应考虑在内。

此外，方法910可以包括确定关于监听器181的视场701和/或注意焦点702的焦点信息。随后可以基于焦点信息来确定目的地音频信号。具体地说，可以根据焦点信息来适配音频信号的频谱组成。这样，可以进一步改进监听器181的VR体验。

另外，方法910可以包括确定音频源311、312、313是环境音频源。在本上下文中，可以在来自编码器130的位流140内接收指示(例如标志)，其中该指示指示音频源311、312、313是环境音频源。环境音频源通常提供背景音频信号。环境音频源的原始源位置可以被保持为目的地源位置。作为另一选择或另外，环境音频源的原始音频信号的强度可以被保持为目的地音频信号的强度。这样，可以在本地过渡192的上下文中有效且一致地处理环境音频源。

上面提及的方面适用于包括多个音频源311、312、313的音频场景111。具体地说，方法910可以包括从围绕原始球体114上的多个不同原始源位置渲染对应多个音频源311、312、313的多个原始音频信号。另外，方法910可以包括基于多个原始源位置来分别确定用于在目的地球体114上的对应多个音频源311、312、313的多个目的地源位置。另外，方法910可以包括基于多个原始音频信号来分别确定对应多个音频源311、312、313的多个目的地音频信号。随后可以从围绕目的地听音位置302的目的地球体114上的对应多个目的地源位置渲染对应多个音频源311、312、313的多个目的地音频信号。

此外，描述了用于在虚拟现实渲染环境180中渲染音频信号的虚拟现实音频渲染器160。音频渲染器160被配置成从围绕监听器181的原始听音位置301的原始球体114上的原始源位置渲染音频源311、312、313的原始音频信号(特别地使用VR音频渲染器160的3D音频渲染器162)。

此外，VR音频渲染器160被配置成确定监听器181从原始听音位置301移动到目的地听音位置302。在对此的反应中，VR音频渲染器160可以被配置成(例如在VR音频渲染器160的预处理单元161内)基于原始源位置来确定在围绕目的地听音位置302的目的地球体114上音频源311、312、313的目的地源位置，并且基于原始音频信号来确定音频源311、312、313的目的地音频信号。

另外，VR音频渲染器160(例如，3D音频渲染器162)可以被配置成从围绕目的地听音位置302的目的地球体114上的目的地源位置渲染音频源311、312、313的目的地音频信号。

因此，虚拟现实音频渲染器160可以包括被配置成确定音频源311、312、313的目的地源位置和目的地音频信号的预处理单元161。此外，VR音频渲染器160可以包括被配置成渲染音频源311、312、313的目的地音频信号的3D音频渲染器162。在有监听器181的头部的旋转移动(以在渲染环境180内提供3DoF)的条件下，3D音频渲染器162可以被配置成适配在围绕监听器181的听音位置301、302的(单位)球体114上音频源311、312、313的音频信号的渲染。另一方面，在有监听器181的头部的平移移动的条件下，3D音频渲染器162可以未被配置成适配音频源311、312、313的音频信号的渲染。因此，3D音频渲染器162可以被限于3个DoF。随后可以使用预处理单元161来以有效的方式提供平移DoF，从而提供具有6个DoF的整体VR音频渲染器160。

此外，描述了被配置成生成位流140的音频编码器130。位流140被生成，使得位流140指示至少一个音频源311、312、313的音频信号，并且指示在渲染环境180内至少一个音频源311、312、313的位置。另外，位流140可以指示关于在渲染环境180内音频的音频传播属性的环境数据193。通过用信号通知关于音频传播属性的环境数据193，可以以精确的方式使能在渲染环境180内的本地过渡192。

此外，描述了位流140，其指示至少一个音频源311、312、313的音频信号；在渲染环境180内至少一个音频源311、312、313的位置；以及环境数据193，其指示在渲染环境180内的音频的音频传播属性。作为另一选择或另外，位流140可以指示音频源311、312、313是否为环境音频源801。

图9d示出了用于生成位流140的示例方法920的流程图。方法920包括确定921至少一个音频源311、312、313的音频信号。此外，方法920包括确定922关于在渲染环境180内至少一个音频源311、312、313的位置的位置数据。另外，方法920可以包括确定923指示在渲染环境180内音频的音频传播属性的环境数据193。方法920进一步包括将音频信号、位置数据和环境数据193插入934到位流140中。作为另一选择或另外，指示可以关注在位流140内音频源311、312、313是否为环境音频源801。

因此，在本文档中，描述了用于在虚拟现实渲染环境180中渲染音频信号的虚拟现实音频渲染器160(和对应方法)。音频渲染器160包括3D音频渲染器162，3D音频渲染器162被配置成在虚拟现实渲染环境180内从围绕监听器181的听音位置301、302的球体114上的源位置渲染音频源113、311、312、313的音频信号。此外，虚拟现实音频渲染器160包括预处理单元161，预处理单元161被配置成确定在虚拟现实渲染环境180内(在相同或不同音频场景111、112内)监听器181的新听音位置301、302。此外，预处理单元161被配置成相对于围绕新听音位置301、302的球体114来更新音频源113、311、312、313的音频信号和源位置。该3D音频渲染器162被配置成从围绕新听音位置301、302的球体114上的更新的源位置来渲染音频源311、312、313的更新的音频信号。

本文档中所描述的方法和系统可以被实现为软件、固件和/或硬件。某些组件可以例如被实现为在数字信号处理器或微处理器上运行的软件。其它组件可以例如被实现为硬件和/或专用集成电路。在所描述的方法和系统中遇到的信号可以被存储在诸如随机存取存储器或光学存储介质的介质上。可以经由诸如无线电网络、卫星网络、无线网络或有线网络(例如因特网)的网络来转移它们。利用本文档中所描述的方法和系统的典型装置是被用来存储和/或渲染音频信号的便携式电子装置或其它消费者设备。

本文档的列举的示例(EE)为：

EE 1)一种用于在虚拟现实渲染环境180中渲染音频的方法900，方法900包括，

-从围绕监听器181的听音位置201的球体114上的原始源位置渲染901原始音频场景111的原始音频源113的原始音频信号；

-确定902监听器181从原始音频场景111内的听音位置201移动到不同目的地音频场景112内的听音位置202；

-将淡出增益应用903到原始音频信号以确定经修改的原始音频信号；以及

-从围绕听音位置201，202的球体114上的原始源位置渲染904原始音频源113的经修改的原始音频信号。

EE 2)EE 1的方法900，其中方法900进一步包括，

-确定监听器181在过渡时间间隔期间从原始音频场景111移动到目的地音频场景112；

-确定在过渡时间间隔内的中间时刻213；以及

-基于过渡时间间隔内中间时刻213的相对位置来确定淡出增益。

EE 3)EE 2的方法900，其中

-方法900包括提供指示在过渡时间间隔内的不同中间时刻213的淡出增益的淡出函数211；以及

-淡出函数211使得淡出增益随着渐进的中间时刻213而减小。

EE 4)EE 3的方法900，其中淡出函数211使得

-原始音频信号在过渡时间间隔开始时保持不变；和/或

-原始音频信号在渐进的中间时刻213被渐增地衰减；和/或

-原始音频信号在过渡时间间隔结束时被完全衰减。

EE 5)前述EE中的任一项的方法900，其中方法900包括

-在监听器181从原始音频场景111移动到目的地音频场景112时将原始音频源113的原始源位置保持在围绕听音位置201，202的球体114上；和/或

-在监听器181从原始音频场景111移动到目的地音频场景112时保持听音位置201，202不变。

EE 6)前述EE中的任一项的方法900，其中方法900包括

-确定目的地音频场景113的目的地音频源112的目的地音频信号；

-确定在围绕听音位置201，202的球体114上的目的地源位置；

-将淡入增益应用到目的地音频信号以确定经修改的目的地音频信号；以及

-从围绕听音位置201，202的球体114上的目的地源位置渲染目的地音频源113的经修改的目的地音频信号。

EE 7)EE 6的方法900，其中方法900进一步包括，

-确定在过渡时间间隔内的中间时刻213；以及

-基于过渡时间间隔内的中间时刻213的相对位置来确定淡入增益。

EE 8)EE 7的方法900，其中

-方法900包括提供指示在过渡时间间隔内的不同中间时刻213的淡入增益的淡入函数212；以及

-淡入函数212使得淡入增益随着渐进的中间时刻213而增大。

EE 9)EE 8的方法900，其中淡入函数212使得

-目的地音频信号在过渡时间间隔结束时保持不变；和/或

-目的地音频信号在渐进的中间时刻213被渐减地衰减；和/或

-目的地音频信号在过渡时间间隔开始时被完全衰减。

EE 10)EE 6至9中的任一项的方法900，其中方法900包括

-在监听器181从原始音频场景111移动到目的地音频场景112时将目的地音频源113的目的地源位置保持在围绕听音位置201，202的球体114上；以及

EE 11)回引EE 3的EE 8的方法900，其中淡出函数211和淡入函数212的组合为多个不同中间时刻213提供恒定增益。

EE 12)回引EE 3的EE 8的方法900，其中淡出函数211和/或淡入函数212

-从指示原始音频信号和/或目的地音频信号的位流140导出；和/或

-从被配置成在虚拟现实渲染环境180内渲染原始音频信号和/或目的地音频信号的虚拟现实音频渲染160的存储单元导出。

EE 13)前述EE中的任一项的方法900，其中方法900包括接收监听器181从原始音频场景111移动到目的地音频场景112的指示。

EE 14)EE 13的方法900，其中指示包括标志。

EE 15)前述EE中的任一项的方法900，其中方法900包括将监听器181从原始音频场景111移动到目的地音频场景112的指示发送到编码器130；其中编码器130被配置成生成指示原始音频信号的位流140。

EE 16)任何前述EE的方法900，其中第一音频信号使用3D音频渲染器162，特别地MPEG-H音频渲染器来渲染。

EE 17)前述EE中的任一项的方法900，其中方法900包括，

-从围绕听音位置201，202的球体114上的多个不同原始源位置渲染对应多个原始音频源113的多个原始音频信号；

-将淡出增益应用到多个原始音频信号以确定多个经修改的原始音频信号；以及

-从围绕听音位置201，202的球体114上的对应多个原始源位置渲染原始音频源113的多个经修改的原始音频信号。

EE 18)EE 6至17中的任一项的方法900，其中方法900包括，

-确定目的地音频场景113的对应多个目的地音频源112的多个目的地音频信号；

-确定在围绕听音位置201，202的球体114上的多个目的地源位置；以及

-将淡入增益应用到多个目的地音频信号以确定对应多个经修改的目的地音频信号；以及

-从围绕听音位置201，202的球体114上的对应多个目的地源位置渲染多个目的地音频源113的多个经修改的目的地音频信号。

EE 19)前述EE中的任一项的方法900，其中原始音频信号是多个原始音频源113的音频信号的叠加。

EE 20)一种用于在虚拟现实渲染环境180中渲染音频的虚拟现实音频渲染器160，其中虚拟现实音频渲染器160被配置成

-从围绕监听器181的听音位置201的球体114上的原始源位置渲染原始音频场景111的原始音频源113的原始音频信号；

-确定监听器181从原始音频场景111内的听音位置201移动到不同目的地音频场景112内的听音位置202；

-将淡出增益应用到原始音频信号以确定经修改的原始音频信号；以及

-从围绕听音位置201，202的球体114上的原始源位置渲染原始音频源113的经修改的原始音频信号。

EE 21)一种编码器130，被配置成生成指示要在虚拟现实渲染环境180内被渲染的音频信号的位流140；其中编码器130被配置成

-确定原始音频场景111的原始音频源113的原始音频信号；

-确定关于原始音频源113的原始源位置的原始位置数据；

-生成包括原始音频信号和原始位置数据的位流140；

-接收监听器181在虚拟现实渲染环境180内从原始音频场景111移动到目的地音频场景112的指示；

-确定关于目的地音频源113的目的地源位置的目的地位置数据；以及

-生成包括目的地音频信号和目的地位置数据的位流140。

EE 22)一种用于生成指示要在虚拟现实渲染环境180内被渲染的音频信号的位流140的方法930，方法930包括，

-确定931原始音频场景111的原始音频源113的原始音频信号；

-确定932关于原始音频源113的原始源位置的原始位置数据；

-生成933包括原始音频信号和原始位置数据的位流140；

-接收934监听器181在虚拟现实渲染环境180内从原始音频场景111移动到目的地音频场景112的指示；

-确定935目的地音频场景113的目的地音频源112的目的地音频信号；

-确定936关于目的地音频源113的目的地源位置的目的地位置数据；以及

-生成937包括目的地音频信号和目的地位置数据的位流140。

EE 23)一种用于在虚拟现实渲染环境180中渲染音频信号的虚拟现实音频渲染器160，其中音频渲染器160包括，

-3D音频渲染器162，其被配置成在虚拟现实渲染环境180内从围绕监听器181的听音位置201，202的球体114上的源位置渲染音频源113的音频信号；

-预处理单元161，其被配置成

-确定在虚拟现实渲染环境180内监听器181的新听音位置201，202；以及

-相对于围绕新听音位置201，202的球体114来更新音频源201，202的音频信号和源位置。

其中3D音频渲染器162被配置成从围绕新听音位置201，202的球体114上的更新的源位置来渲染音频源113的更新的音频信号。

Claims

1.一种用于在使用用于渲染3个自由度3DoF的音频渲染器的虚拟现实渲染环境中渲染音频的方法，所述方法包括，

-由所述音频渲染器在虚拟现实渲染环境内从围绕监听器的原始听音位置的球体上的原始源位置渲染原始音频场景的原始音频源的原始音频信号；

-确定存在所述监听器的移动，其中所述移动在所述虚拟现实渲染环境内从所述原始音频场景内的所述原始听音位置到目的地音频场景内的目的地听音位置；

-基于所述移动的所述确定，通过将淡出增益应用到所述原始音频信号来确定经修改的原始音频信号；以及

-由所述音频渲染器从围绕所述原始听音位置的球体上的所述原始源位置渲染所述原始音频源的所述经修改的原始音频信号。

2.根据权利要求1所述的方法，其进一步包括：

-确定所述目的地音频场景的目的地音频源的目的地音频信号；

-确定在围绕所述目的地听音位置的所述球体上的目的地源位置；

-将淡入增益应用到所述目的地音频信号以确定经修改的目的地音频信号；以及

-由所述音频渲染器从围绕所述目的地听音位置的所述球体上的所述目的地源位置渲染所述目的地音频源的所述经修改的目的地音频信号。

3.根据权利要求2所述的方法，其中在从所述原始音频场景内的所述原始听音位置到所述目的地音频场景内的所述目的地听音位置的整个所述移动期间，从相对于所述监听器的相同位置渲染所述经修改的原始音频信号。

4.根据权利要求2所述的方法，其中所述目的地音频场景不包含所述原始音频源。

5.根据权利要求2所述的方法，其进一步包括，

-确定所述监听器在过渡时间间隔期间从所述原始音频场景移动到所述目的地音频场景；

-确定在所述过渡时间间隔内的中间时刻；以及

-基于所述过渡时间间隔内所述中间时刻的相对位置来确定所述淡出增益。

6.一种非暂时性计算机可读介质，其上存储有可执行指令以致使计算机执行根据权利要求1所述的方法。

7.一种用于在使用用于渲染3个自由度3DoF的音频渲染器的虚拟现实渲染环境中渲染音频的系统，所述系统包括，

第一渲染器，其用于由所述音频渲染器在虚拟现实渲染环境内从围绕监听器的原始听音位置的球体上的原始源位置渲染原始音频场景的原始音频源的原始音频信号；

第一处理器，其用于确定存在所述监听器的移动，其中所述移动在所述虚拟现实渲染环境内从所述原始音频场景内的所述原始听音位置到目的地音频场景内的目的地听音位置；

第二处理器，其用于基于所述移动的所述确定，通过将淡出增益应用到所述原始音频信号来确定经修改的原始音频信号；以及

第二渲染器，其用于由所述音频渲染器从围绕所述原始听音位置的球体上的所述原始源位置渲染所述原始音频源的所述经修改的原始音频信号。

8.一种用于产生指示要在虚拟现实渲染环境中被渲染的音频信号的位流的编码方法，所述方法包括：

确定原始音频场景的原始音频源的原始音频信号；

确定关于所述原始音频源的原始源位置的原始位置数据；以及

产生包括所述原始音频信号和所述原始位置数据的所述位流。

9.根据权利要求8所述的方法，其进一步包括：

接收监听器在所述虚拟现实渲染环境内从所述原始音频场景移动到目的地音频场景的指示；

确定所述目的地音频场景的目的地音频源的目的地音频信号；

确定关于所述目的地音频源的目的地源位置的目的地位置数据；以及

产生包括所述目的地音频信号和所述目的地位置数据的所述位流。