CN116998169A - 在虚拟现实环境中控制音频源的指向性的方法和系统 - Google Patents

在虚拟现实环境中控制音频源的指向性的方法和系统 Download PDF

Info

Publication number
CN116998169A
CN116998169A CN202280021528.XA CN202280021528A CN116998169A CN 116998169 A CN116998169 A CN 116998169A CN 202280021528 A CN202280021528 A CN 202280021528A CN 116998169 A CN116998169 A CN 116998169A
Authority
CN
China
Prior art keywords
audio
directivity
audio source
source
directivity pattern
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202280021528.XA
Other languages
English (en)
Inventor
L·特伦蒂夫
C·费尔施
P·塞蒂亚万
D·菲舍尔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dolby International AB
Original Assignee
Dolby International AB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dolby International AB filed Critical Dolby International AB
Priority claimed from PCT/EP2022/062543 external-priority patent/WO2022243094A1/en
Publication of CN116998169A publication Critical patent/CN116998169A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Stereophonic System (AREA)

Abstract

描述了一种用于在虚拟现实渲染环境(180)中渲染音频源(211,212,213)的音频信号的方法(700)。所述方法(700)包括确定(701)针对虚拟现实渲染环境(180)内收听者(181)的收听情况是否要考虑音频源(211,212,213)的指向性图案(232)。此外,所述方法(700)包括如果确定针对收听者(181)的收听情况不考虑音频源(211,212,213)的指向性图案(232),则在不考虑音频源(211,212,213)的指向性图案(232)的情况下渲染(702)音频源(211,212,213)的音频信号。另一方面,所述方法(700)包括如果确定针对收听者(181)的收听情况要考虑指向性图案(232),则根据音频源(211,212,213)的指向性图案(232)来渲染(703)音频源(211,212,213)的音频信号。

Description

在虚拟现实环境中控制音频源的指向性的方法和系统
相关申请的交叉引用
本申请要求以下优先申请的优先权:于2021年5月17日提交的美国临时申请第63/189,269号(参考号:D21027USP1)和于2021年5月17日提交的欧洲申请第21174024.6号(参考号:D21027EP),这些申请通过引用并入本文。
技术领域
本文档涉及在虚拟现实(VR)渲染环境中高效且一致地处理音频源的指向性。
背景技术
虚拟现实(VR)、增强现实(AR)和/或混合现实(MR)应用正在迅速发展,以包括可能从不同的视点和/或视角或收听位置欣赏的声源和场景的日益完善的声学模型。例如,VR应用可以采用两种不同的灵活音频表示:声场表示和基于对象的表示。声场表示是基于物理的方法,其对收听位置处的入射波前进行编码。例如,诸如B格式或高阶高保真度立体声响复制(HOA)的方法使用球面谐波分解来表示空间波前。基于对象的方法将复杂的听觉场景表示为单一元素的集合,这些单一元素包括音频波形或音频信号以及可能随时间变化的相关参数或元数据。
享受VR、AR和/或MR应用可以包括用户体验不同的听觉视点或观点。例如,可以基于使用6个自由度(DoF)的机制来提供基于房间的虚拟现实。6DoF交互可以包括平移运动(前/后、上/下和左/右)和旋转运动(俯仰、偏航和滚动)。与仅限于头部旋转的3DoF球形视频体验不同,为6DoF交互创建的内容除了头部旋转之外,还允许在虚拟环境内导航(例如,在房间内实际行走)。这可以基于位置跟踪器(例如,基于相机)和取向跟踪器(例如,陀螺仪和/或加速度计)来实现。6DoF跟踪技术可以用于桌面VR系统(例如,VR、OculusRift、HTC Vive)以及移动VR平台(例如,Google Tango)。用户对声音或音频源的指向性和空间范围的体验对于6DoF体验的真实感是至关重要的,特别是在场景中和虚拟音频源周围的导航体验。
可用的音频渲染系统(诸如MPEG-H 3D音频渲染器)通常仅限于渲染3DoF(即,由收听者的头部运动引起的音频场景的旋转运动)或3DoF+,后者还增加了收听者收听位置的微小平移变化,但没有考虑指向性或遮挡等影响。此类渲染器通常无法处理收听者收听位置和相关DoF的较大平移变化。
本文档针对的技术问题是提供用于处理音频渲染上下文中的平移运动的资源高效的方法和系统。特别地,本文档解决的技术问题是以资源高效且一致的方式处理6DoF音频渲染内的音频源的指向性。
发明内容
根据一方面,描述了一种用于在虚拟现实渲染环境中渲染音频源的音频信号的方法。所述方法包括确定针对虚拟现实渲染环境内收听者的(当前)收听情况是否要考虑音频源的指向性图案。此外,所述方法包括如果确定针对收听者的收听情况不考虑音频源的指向性图案,则在不考虑音频源的指向性图案的情况下渲染音频源的音频信号。另外,所述方法包括如果确定针对收听者的收听情况要考虑指向性图案,则根据音频源的指向性图案来渲染音频源的音频信号。
根据进一步方面,描述了一种用于向虚拟现实渲染环境内的收听者渲染第一音频源的音频信号的方法。应当注意,术语“虚拟现实渲染环境”还应当包括增强和/或混合现实渲染环境。所述方法包括基于指向性控制函数确定针对虚拟现实渲染环境内收听者的收听情况的控制值。此外,所述方法包括根据控制值调整第一音频源的指向性图案,尤其是指向性图案的指向性增益。另外,所述方法包括根据第一音频源的调整后的指向性图案、尤其是根据调整后的指向性增益向虚拟现实渲染环境内的收听者渲染第一音频源的音频信号。
根据进一步方面,描述了一种虚拟现实音频渲染器,其用于在虚拟现实渲染环境中渲染音频源的音频信号。所述音频渲染器被配置为确定针对虚拟现实渲染环境内收听者的收听情况是否要考虑音频源的指向性图案。另外,所述音频渲染器被配置为如果确定针对收听者的收听情况不考虑音频源的指向性图案,则在不考虑音频源的指向性图案的情况下渲染音频源的音频信号。所述音频渲染器进一步被配置为如果确定针对收听者的收听情况要考虑指向性图案,则根据音频源的指向性图案来渲染音频源的音频信号。
根据另一方面,描述了一种虚拟现实音频渲染器,其用于向虚拟现实渲染环境内的收听者渲染第一音频源的音频信号。所述音频渲染器被配置为基于(例如在比特流内提供的)指向性控制函数来确定针对虚拟现实渲染环境内收听者的收听情况的控制值。此外,所述音频渲染器被配置为根据控制值调整第一音频源的(例如,在比特流内提供的)指向性图案。所述音频渲染器进一步被配置为根据第一音频源的调整后的指向性图案向虚拟现实渲染环境内的收听者渲染第一音频源的音频信号。
根据进一步方面,描述了一种用于生成比特流的方法。所述方法包括确定至少一个音频源的音频信号,以及确定该至少一个音频源在虚拟现实渲染环境内的源位置。另外,所述方法包括确定至少一个音频源的(非均匀)指向性图案,以及确定指向性控制函数,以用于根据虚拟现实渲染环境内的收听者的收听情况来控制用于渲染至少一个音频源的音频信号的指向性图案的使用。所述方法还包括将关于音频信号、源位置、指向性图案和指向性控制函数的数据插入比特流中。
根据进一步方面,描述了一种被配置为生成比特流的音频编码器。所述比特流可以指示至少一个音频源的音频信号,和/或至少一个音频源在虚拟现实渲染环境内的源位置。此外,所述比特流可以指示至少一个音频源的指向性图案,和/或指向性控制函数,所述指向性控制函数用于根据虚拟现实渲染环境内的收听者的收听情况来控制用于渲染至少一个音频源的音频信号的指向性图案的使用。
根据另一方面,描述了一种比特流和/或用于比特流的语法。所述比特流可以指示至少一个音频源的音频信号,和/或至少一个音频源在虚拟现实渲染环境内的源位置。此外,所述比特流可以指示至少一个音频源的指向性图案,和/或指向性控制函数,所述指向性控制函数用于根据虚拟现实渲染环境内的收听者的收听情况来控制用于渲染至少一个音频源的音频信号的指向性图案的使用。所述比特流可以包括一个或多个数据元素,所述数据元素包括关于上述信息的数据。
根据进一步方面,描述了一种软件程序。所述软件程序可以适于在处理器上执行并且当在处理器上执行时用于执行本文档中概述的方法步骤。
根据另一方面,描述了一种计算机可读存储介质。所述计算机可读存储介质可以包括软件程序(的指令),所述软件程序可以适于在处理器(或计算机)上执行并且当在处理器上执行时用于执行本文档中概述的方法步骤。
根据进一步方面,描述了一种计算机程序产品。所述计算机程序可以包括可执行指令,所述可执行指令当在计算机上执行时用于执行本文档中概述的方法步骤。
应当注意,如在本专利申请中概述的方法和系统、包括其优选实施例可以独立使用,或者与本文档中公开的其他方法和系统结合使用。此外,本专利申请中概述的方法和系统的所有方面可以任意组合。特别地,权利要求的特征可以以任意方式彼此组合。
附图说明
下面参考附图以示例性方式是说明本发明,在附图中:
图1a示出了用于提供6DoF音频的示例音频处理系统;
图1b示出了6DoF音频和/或渲染环境中的示例情况;
图2示出了示例音频场景;
图3a图示了响应于音频场景内收听位置的变化而重新映射音频源;
图3b示出了示例距离函数;
图4a图示了具有非均匀指向性图案的音频源;
图4b示出了音频源的示例指向性函数;
图5a示出了用于测量指向性图案的示例设置;
图5b图示了当经过虚拟音频源时的示例指向性增益;
图6a示出了示例指向性控制函数;
图6b示出了示例衰减函数;
图7a和图7b示出了用于在音频场景内渲染音频源的3D音频信号的示例方法的流程图;以及
图7c示出了用于生成虚拟现实音频场景的比特流的示例方法的流程图。
具体实施方式
如上所述,本文档涉及在3D(三维)音频环境中高效且一致地提供6DoF。图1a图示了示例音频处理系统100的框图。诸如体育场的声学环境110可以包括各种不同的音频源113。体育场内的示例音频源113是各个观众、体育场扬声器、场上的运动员等。声学环境110可以被细分为不同的音频场景111、112。举例来说,第一音频场景111可以对应于主队支持区块,并且第二音频场景112可以对应于客队支持区块。取决于收听者位于音频环境内的位置,收听者将要么感知来自第一音频场景111的音频源113,要么感知来自第二音频场景112的音频源113。
可以使用音频传感器120、尤其是使用麦克风阵列来捕获音频环境110的不同音频源113。可以使用多通道音频信号、一个或多个音频对象和/或高阶高保真度立体声响复制(HOA)和/或一阶高保真度立体声响复制(FOA)信号来描述音频环境110的一个或多个音频场景111、112。在下文中,假设音频源113与由一个或多个音频传感器120随时间(以例如20ms的特定采样率)捕获的音频数据相关联,其中,音频数据指示音频信号(其由音频源113发出)以及音频源113的位置。
诸如MPEG-H 3D音频渲染器的3D音频渲染器通常假设收听者181位于音频场景111、112内的特定(固定)收听位置182处。音频场景111、112的不同音频源113的音频数据通常是在收听者181位于该特定收听位置182的假设下提供的。音频编码器130可以包括3D音频编码器131,其被配置为对音频环境110的一个或多个音频场景111、112的一个或多个音频源113的音频数据进行编码。
此外,可以提供VR(虚拟现实)元数据,其使得收听者181能够在音频场景111、112内改变收听位置182和/或在不同音频场景111、112之间移动。编码器130可以包括被配置为对VR元数据进行编码的元数据编码器132。已编码的VR元数据和音频源113的已编码音频数据可以在组合单元133中进行组合,以提供指示音频数据和VR元数据的比特流140。VR元数据可以例如包括描述音频环境110的声学特性的环境数据。
可以使用解码器150对比特流140进行解码以提供(已解码的)音频数据和(已解码的)VR元数据。用于在渲染环境180内渲染音频的允许6DoF的音频渲染器160可以包括预处理单元161和(传统的)3D音频渲染器162(诸如MPEG-H 3D音频渲染器)。预处理单元161可以被配置为确定收听环境180内的收听者181的收听位置182。收听位置182可以指示收听者181所处的音频场景111。此外,收听位置182可以指示音频场景111内的确切位置。预处理单元161还可以被配置为基于(已解码的)音频数据并且可能基于(已解码的)VR元数据来确定针对当前收听位置182的3D音频信号。然后可以使用3D音频渲染器162来渲染3D音频信号。3D音频信号可以包括音频场景111的一个或多个音频源113的音频信号。
应当注意,在本文档中描述的概念和方案可以以频率变化的方式指定,可以全局地或以对象/介质相关的方式定义,可以直接在频域或时域中应用,和/或可以被硬编码到VR渲染器160中或者可以经由对应的输入接口来指定。
图1b示出了示例渲染环境180。收听者181可以位于原始音频场景111内。出于渲染目的,可以假设音频源113、194被放置在收听者181周围(尤其是收听位置182周围)的(单位)球体114上的不同渲染位置处。不同音频源113、194的渲染位置可能随时间改变(根据给定采样率)。不同音频源113、194的位置可以在VR元数据内指示。VR渲染环境180内可能发生不同的情况:收听者181可能执行从原始音频场景111到目的地音频场景112的全局转变191。可替代地或附加地,收听者181可能执行到同一音频场景111内的不同收听位置182的局部转变192。可替代地或附加地,音频场景111可能表现出声学相关的环境属性(诸如墙壁),这些属性可以使用环境数据193来描述并且当收听位置182发生改变时应当予以考虑。环境数据193可以作为VR元数据被提供。可替代地或附加地,音频场景111可以包括当收听位置182发生改变时应当考虑的一个或多个环境音频源194(例如,背景噪声)。
图2示出了从原始收听位置B 201到同一音频场景111内的目的地收听位置C 202的示例局部转变192。音频场景111包括不同的音频源或对象211、212、213。不同的音频源或对象211、212、213可以具有不同的指向性分布232(本文也称为指向性图案)。一个或多个音频源211、212、213的指向性分布232可以被指示为VR元数据。此外,音频场景111可以具有环境属性,尤其是一个或多个障碍物,它们对音频在音频场景111内的传播有影响。可以使用环境数据193来描述环境属性。另外,音频对象211与不同收听位置182、201、202的相对距离221、222可以是已知的(例如,基于VR渲染器160的一个或多个传感器(诸如陀螺仪或加速度计)的数据)。
图3a和图3b图示了用于处理局部转变192对不同音频源或对象211、212、213的强度的影响的方案。如上所述,3D音频渲染器162通常假设音频场景111的音频源211、212、213位于收听位置201周围的球体114上。这样,在局部转变192开始时,音频源211、212、213可以被放置在原始收听位置201周围的原始球体114上,并且在局部转变192结束时,音频源211、212、213可以被放置在目的地收听位置202周围的目的地球体114上。音频源211、212、213可以从原始球体114重新映射到目的地球体114。为此目的,可以考虑从目的地收听位置202延伸到原始球体114上音频源211、212、213的源位置的射线。音频源211、212、213可以放置在射线与目的地球体114的交点上。
音频源211、212、213在目的地球体114上的强度F通常不同于在原始球体114上的强度。可以使用强度增益函数或距离函数315(本文也称为衰减函数)来修改强度F,该函数提供作为音频源211、212、213距收听位置182、201、202的距离320的函数的距离增益310(本文也称为衰减增益)。距离函数315通常表现出截止距离321,高于该截止距离时,应用零的距离增益310。音频源211到原始收听位置201的原始距离221提供原始增益311。此外,音频源211到目的地收听位置202的目的地距离222提供目的地增益312。可以使用原始增益311和目的地增益312来重新缩放音频源211的强度F,从而提供音频源211在目的地球体114上的强度F。特别地,音频源211的原始音频信号在原始球体114上的强度F可以除以原始增益311并乘以目的地增益322,以提供音频源211的目的地音频信号在目的地球体114上的强度F。
因此,局部转变192之后的音频源211的位置可以被确定为:Ci=sourse_remap_function(Bi,C)(例如使用几何变换)。此外,局部转变192之后的音频源211的强度可以被确定为:F(Ci)=F(Bi)*distance_function(Bi,Ci,C)。因此,可以通过由距离函数315提供的对应距离增益315对距离衰减进行建模。
图4a和图4b图示了具有非均匀指向性分布232的音频源212。可以使用指向性增益410来定义指向性分布,该指向性增益指示不同方向或指向性角420的增益值。特别地,可以使用指向性增益函数415来定义音频源212的指向性分布232,该指向性增益函数将指向性增益410指示为指向性角420的函数(其中,角度420可以在从0°到360°的范围内)。应当注意,对于3D音频源212,指向性角420通常是包括方位角和仰角的二维角。因此,指向性增益函数415通常是二维指向性角420的二维函数。
在局部转变192的上下文中,可以通过确定音频源212与原始收听位置201之间的原始射线的原始指向性角421(其中,音频源212被放置在原始收听位置201周围的原始球体114上)以及音频源212与目的地收听位置202之间的目的地射线的目的地指向性角422(其中,音频源212被放置在目的地收听位置202周围的目的地球体114上)来考虑音频源212的指向性分布232。使用音频源212的指向性增益函数415,原始指向性增益411和目的地指向性增益412可以分别被确定为指向性增益函数415针对原始指向性角421和目的地指向性角422的函数值(见图4b)。然后,原始收听位置201处音频源212的强度F可以除以原始指向性增益411并乘以目的地指向性增益412,以确定目的地收听位置202处音频源212的强度F。
因此,声源指向性可以通过由指向性增益函数415指示的指向性因子或增益410来参数化。指向性增益函数415可以将音频源212在定义的距离处的强度指示为相对于收听位置182、201、202的角度420的函数。指向性增益410可以被定义为相对于以相同总功率在所有方向上均匀辐射的音频源212在相同距离处的增益的比率。指向性分布232可以通过一组增益410来参数化,该组增益对应于起始于音频源212的中心并且结束于分布在音频源212的中心周围的单位球体上的点的向量。
目的地收听位置202处音频源212的所得音频强度可以被估计为:F(Ci)=F(Bi)*Distance_function()*Directivity_gain_function(Ci,C,Directivity_paramertization),其中,Directivity_gain_function取决于音频源212的指向性分布232。Distance_function()考虑由于收听位置201、202的转变导致的音频源212的距离321、322的变化引起的修改后的强度。
图5a示出了用于测量给定距离320处音频源211的指向性分布232的示例设置。为此目的,音频传感器120,尤其是麦克风,可以放置在音频源211周围的圆上,其中,该圆具有与给定距离320相对应的半径。可以针对圆上的不同角度420测量音频信号的强度或幅度,从而提供针对距离D 320的指向性图案P(D)232。可以针对多个不同的距离值D 320确定这样的指向性图案或分布。
指向性图案数据可以表示:
·由产生声场的音频源或对象211引起的发声特性;
·由近距离障碍物引起的局部声音遮挡效应,其会影响声场;和/或
·内容创作者的意图。
指向性图案数据通常是针对距音频源211的特定距离范围来测量的(并且仅对特定距离有效),如图5a所示。
如果来自指向性图案232的指向性增益被直接应用于所渲染的音频信号,则可能出现一个或多个问题。对于相对远离音频对象211的收听位置182、201、202来说,指向性的考虑通常可能在感知上不相关。造成这种情况的原因可能是
·总对象声能相对较低(例如,由于距离衰减效应占主导地位);
·心理声学掩蔽效应(由更靠近收听位置201的一个或多个其他音频源212、213引起、由混响引起和/或由早期反射引起);
·音频对象211对于收听者注意力的主观重要性相对较低;和/或
·缺乏示出对象211的取向的清晰视觉指示,该取向对应于音频对象211的指向性。
进一步的问题可能是指向性的应用导致音频源211的原点500处(即,源位置处)的声音强度的不连续性,如图5b所示。当收听者经过虚拟音频场景111内的音频源211的原点500时(尤其是对于由体积对象表示的音频源211),可能感知到这种声学伪影。用户在经过这样的虚拟对象时可能感知到音频源211的中心点500处的突然声级变化。这在图5b中图示,其示出了当从前方接近音频源211的中心点500时的声级501以及当在音频源211的后侧离开中心点500时的声级502。在图5b中可以看出,在中心点500处出现声级501、502的不连续性。
对于给定音频源211,针对距发声对象211的中心500的不同距离Di,可以获得一组N个声源指向性图案Pi=P(Di),其中,i∈{1,…,N}(其中,N=1或更多,或2或更多,或3或更多)。对于这些指向性图案之间的所有距离D,min(Di)≤D≤max(Di),可以应用空间插值方案来确定针对特定距离D的指向性图案。举例来说,可以使用线性插值。
在本文档中,描述了一种用于针对距音频源211的原点500的相对较小的距离(D<min(Di))(即,针对音频源中心500与可获得指向性图案的最小距离之间的距离320)确定外推的(并且可能优化的)指向性增益值P=P(D)的方案。此外,描述了一种用于针对相对较大的距离(D>max(Di))(即,超出存在指向性图案的最大距离)确定外推的(并且可能优化的)指向性增益值P=P(D)的方案。
本文描述的方案被配置为防止原点500(即,D=0)处的声级不连续性,和/或避免指向性增益计算导致相对较大距离(即,D→∞)的声场出现感知上不相关的变化。可以假设对于D→0和/或对于D>D*应用指向性的影响是可忽略的,其中,D*是定义的距离阈值。
可以针对特定收听情况计算指向性控制值(directivity_control_gain)。指向性控制值可以指示对应指向性数据对于收听者181的特定收听情况的相关性。可以基于用户到对象的距离D(distance)320的值并且基于指向性的给定参考距离Di(reference_distance)(其可以例如是min(Di)或max(Di))来确定指向性控制值。参考距离Di可以是可获得指向性图案232的距离Di。可以使用指向性控制函数(如图6a所示)来确定指向性控制值(本文也称为指向性控制增益),即
directivity_control_gain=get_directivity_control_gain(distance,reference_distance)。
指向性控制值(directivity_control_gain)的值可以与预定义的指向性控制值阈值D*(directivity_control_threshold)进行比较。如果指向性控制值大于阈值D*,则可以基于指向性图案232来确定(与距离无关的)指向性增益值(directivity_gain_tmp),并且可以根据指向性控制值(directivity_control_gain)来修改指向性增益值。指向性增益值的修改可以如以下伪代码所指示的来完成:
if directivity_control_gain>directivity_controlthreshold
directivity_gain_tmp=get_directivity_gain();
directivity_gain=directivity_control_gain*(directivity_gain_tmp-1)+1;
else
directivity_gain=1;
end
如上述伪代码所示,如果指向性控制值小于阈值D*,则可以省略指向性数据应用。
所得到的(距离相关的)指向性增益(directivity_gain)可以应用于对应的距离衰减增益,如下所示:
distance_attenuation_gain=get_attenuation_gain();
gain=directivity_gain*distance_attenuation_gain;
图6a示出了示例指向性控制函数600get_directivity_control_gain()。指向性影响的最高重要性(即,主观相关性)的点位于标记位置或参考距离610(reference_distance)周围的区域中。参考距离610可以是已经测得指向性图案232的距离320。指向性影响从小于参考距离610的值开始,并且在高于参考距离610的相对较大距离时消失。仅针对指向性控制值高于阈值D*的距离320来执行关于指向性的应用的计算。因此,在原点500附近和/或远离原点500处不应用指向性。
图6a图示了可以如何基于(“s”形)函数602的组合来确定指向性控制函数600,函数602对于相对较小的距离单调递减至0并且对于参考距离610和更高的距离保持接近1(以解决原点500处的不连续性问题)。另一函数601对于相对较大的距离320可以单调递减至0,并且可以在参考距离610处具有其最大值(以解决感知相关性的问题)。表示这两个函数601、602的乘积的函数600同时考虑这两个问题,并且可以用作指向性控制函数。
图6b示出了示例距离衰减函数650get_attenuation_gain(),其指示作为距离320的函数的距离增益651并且其表示由音频信号211发射的音频信号的衰减。距离衰减函数650可以与图3b的上下文中描述的距离函数315相同。
可以考虑、定义和应用不同类型的指向性控制函数600和/或距离衰减函数650来用于指向性应用控制。它们的形状和值可以源自物理考虑、测量数据和/或内容创作者的意图。指向性控制函数600可以取决于收听者181的特定收听情况。收听情况可以通过以下参数中的一个或多个来描述,即,指向性控制函数600可以取决于以下参数中的一个或多个,
·由音频源211发出的音频信号的频率;
·该音频信号被渲染的时间;
·收听者181的收听者到对象的取向、收听者观看方向和/或轨迹;
·用户交互、其他条件和/或场景事件;和/或
·系统相关条件(例如,渲染工作负载)。
本文档中描述的方案允许改善3D音频渲染的质量,尤其是通过避免靠近声源211的原点500的音频音量的不连续性。此外,可以降低指向性应用的复杂性,尤其是通过避免在感知上不相关的地方应用对象指向性。另外,提供了经由编码器130的配置来控制指向性应用的可能性。
在本文档中,描述了用于经由比特流140(而不修改指向性数据本身)来提高6DoF音频渲染质量、节省计算复杂性并建立指向性应用控制的通用方法。此外,描述了解码器接口,以用于使得解码器150、160能够执行如本文档中概述的指向性相关处理。此外,描述了用于使得比特流140能够传输指向性控制数据的比特流语法。指向性控制数据,尤其是指向性控制函数600,可以以参数化和采样的方式和/或作为预定义函数来提供。
图7a示出了用于在虚拟现实渲染环境180中渲染音频源211、212、213的音频信号的示例方法700的流程图。方法700可以由VR音频渲染器160执行。
方法700可以包括确定701针对虚拟现实渲染环境180内收听者181的收听情况是否要考虑音频源211、212、213的指向性图案232。收听情况可以描述收听者181感知音频源211、212、213的音频信号的环境。该环境可以取决于音频源211、212、213与收听者181之间的距离。可替代地或附加地,该环境可以取决于收听者181面向音频源211、212、213还是收听者181背对音频源211、212、213。可替代地或附加地,该环境可以取决于收听者181在虚拟现实渲染环境180内、尤其是要渲染的音频场景111内的收听位置182、201、202。
特别地,收听情况可以由一个或多个参数来描述,其中,不同的收听情况可以在该一个或多个参数中的至少一个参数方面不同。示例参数是,
·收听者181在虚拟现实渲染环境180内、尤其是音频场景111内的收听位置182、201、202;
·在虚拟现实渲染环境180内、尤其是在音频场景111内,音频源211、212、213的源位置500(尤其是中心点)与收听者181的收听位置182、201、202之间的距离320;
·音频信号的频率和/或频谱成分;
·音频信号将被渲染的时刻;
·在虚拟现实渲染环境180内(即,在虚拟音频场景111内),收听者181相对于音频源211、212、213的取向和/或观看方向和/或移动轨迹;举例来说,取决于收听者181是移动靠近还是远离音频源211、212、213,收听情况可以不同;
·用于渲染音频信号的渲染器160的条件,尤其是关于(可用)计算资源的条件;和/或
·收听者181关于虚拟现实渲染环境180的动作。
方法700可以包括基于描述收听情况的一个或多个参数来确定701是否要考虑音频源211、212、213的指向性图案232。为此目的,可以使用(预定的)指向性控制函数600,其中,指向性控制函数600可以被配置为针对不同的收听情况(尤其是针对一个或多个参数的不同组合)指示是否要考虑音频源211、212、213的指向性图案232。特别地,指向性控制函数600可以被配置为识别音频源211、212、213的指向性在感知上不相关的收听情况和/或音频源211、212、213的指向性将导致感知伪影的收听情况。
此外,方法700包括如果确定针对收听者181的收听情况不考虑音频源211、212、213的指向性图案232,则在不考虑音频源211、212、213的指向性图案232的情况下渲染702音频源211、212、213的音频信号。因此,指向性图案232可以被渲染器160忽略。特别地,渲染器160可以省略基于指向性图案232计算指向性增益410。此外,渲染器160可以省略将指向性增益410应用于音频信号以渲染音频信号。因此,可以在不影响感知质量的情况下实现音频信号的资源高效渲染。
另一方面,方法700包括如果确定针对收听者181的收听情况要考虑指向性图案232,则根据音频源211、212、213的指向性图案232来渲染703音频源211、212、213的音频信号。在这种情况下,渲染器160可以(基于音频源211、212、213的源位置500与收听者181的收听位置182、201、202之间的指向性角420)确定要应用于音频信号的指向性增益410。指向性增益410可以在渲染音频信号之前应用于音频信号。因此,音频信号可以以高感知质量渲染(在指向性是相关的收听情况下)。
因此,描述了方法700,其在处理用于渲染的音频信号之前(例如,使用指向性控制函数600)预先验证在收听者181的当前收听情况下指向性的使用是否相关和/或是否在感知上有利。仅当确定指向性的使用相关和/或在感知上有利时才计算和应用指向性。因此,实现了以高感知质量对音频信号的资源高效渲染。
音频源211、212、213的指向性图案232可以指示音频信号在不同方向上的强度。可替代地或附加地,指向性图案232可以指示要被应用于音频信号以渲染音频信号的与方向相关的指向性增益410(如图4a和图4b的上下文中概述的)。
特别地,指向性图案232可以指示指向性增益函数415。指向性增益函数415可以将指向性增益410指示为音频源211、212、213的源位置500与收听者181的收听位置182、201、202之间的指向性角420的函数。当收听位置182、201、202在源位置500周围(在圆周上)移动时,指向性角420可以在0°到360°之间变化。在非均匀指向性图案232的情况下,指向性增益410随指向性角420而变化(例如,如图4b所示)。
根据音频源211、212、213的指向性图案232来渲染703音频源211、212、213的音频信号可以包括基于指向性图案232并且基于音频源211、212、213的源位置500与收听者181的收听位置182、201、202之间的指向性角420(如图4a和图4b的上下文中概述的)来确定指向性增益410(以用于在特定收听情况下渲染音频信号)。然后可以根据指向性增益410来渲染音频信号(尤其是通过在渲染之前将指向性增益410应用于音频信号)。因此,可以在虚拟现实渲染环境180内实现高感知质量(当收听者181在渲染环境180内四处移动从而改变收听情况时)。
应当注意,本文描述的方法700通常以一系列时间实例重复(例如,以特定重复率周期性地重复,例如每20ms)。在每一时刻,确定当前有效的收听情况(例如,通过确定用于描述收听情况的一个或多个参数的当前值)。此外,在每个时刻,确定是否要考虑音频源211、212、213的指向性图案232。此外,在每个时刻,根据该决策来执行音频信号的渲染。因此,可以实现虚拟现实渲染环境180内的音频信号的连续渲染。
此外,应当注意,通常在虚拟现实渲染环境180内同时渲染来自多个不同音频源211、212、213的多个音频信号(如例如在图3a和图3b的上下文中概述的)。可以针对不同音频信号和/或音频源211、212、213中的每一个来执行方法700。用于描述收听情况的另一参数可以是在虚拟现实渲染环境180内(在特定时刻)活动的不同音频源211、212、213的数量、位置和/或强度。
方法700可以包括根据音频源211、212、213的源位置500与收听者181的收听位置182、201、202之间的距离320来确定衰减或距离增益310、651。可以使用衰减或距离函数315、650来确定衰减或距离增益310、651,该函数将衰减或距离增益310、651指示为距离320的函数。可以根据衰减或距离增益310、651来渲染音频信号(如图3a和图3b的上下文中所描述的),从而进一步提高感知质量。
如上所述,可以(在确定收听者181的收听情况时)确定音频源211、212、213的源位置500距虚拟现实渲染环境180内的收听者181的收听位置182、201、202的距离320。
方法700可以包括基于所确定的距离320来确定701是否要考虑音频源211、212、213的指向性图案232。为此目的,可以使用预定的指向性控制函数600,其被配置为指示在当前收听情况下、尤其是对于源位置500与收听位置182、201、202之间的当前距离320使用音频源211、212、213的指向性的相关性和/或适当性。源位置500与收听位置182、201、202之间的距离320是收听情况的特别重要的参数,并且因此,在渲染音频源211、212、213的音频信号时,该参数对资源效率和/或感知质量具有特别高的影响。
可以确定音频源211、212、213的源位置500距收听位置182、201、202的距离320小于近场距离阈值。基于此,可以确定不考虑音频源211、212、213的指向性图案232。另一方面,可以确定音频源211、212、213的源位置500距收听位置182、201、202的距离320大于近场距离阈值。基于此,可以确定考虑音频源211、212、213的指向性图案232。近场距离阈值可以例如为0.5m或更小。通过在相对较小距离处抑制指向性的使用,可以防止在收听者181穿过虚拟现实渲染环境180内的(虚拟)音频源211、212、213的情况下产生感知伪影。
此外,可以确定音频源211、212、213的源位置500距收听位置182、201、202的距离320大于远场距离阈值(其大于近场距离阈值)。基于此,可以确定不考虑音频源211、212、213的指向性图案232。另一方面,可以确定音频源211、212、213的源位置500距收听位置182、201、202的距离320小于远场距离阈值。基于此,可以确定考虑音频源211、212、213的指向性图案232。远场距离阈值可以是5m或更大。通过在相对较大距离处抑制指向性的使用,可以在不影响感知质量的情况下改善渲染器160的资源效率。
近场阈值和/或远场阈值可以取决于指向性控制函数600。指向性控制函数600可以被配置为提供作为源位置500与收听位置182、201、202之间的距离320的函数的控制值。控制值可以指示要考虑指向性图案232的程度。特别地,控制值可以指示是否要考虑指向性图案232(例如,取决于控制值是大于还是小于控制阈值D*)。通过使用指向性控制函数600,可以以高效且可靠的方式控制指向性图案232的应用。
方法700可以包括基于指向性控制函数600确定针对收听情况的控制值。指向性控制函数600可以被配置为针对不同的收听情况(尤其是针对源位置500与收听位置182、201、202之间的不同距离320)提供不同的控制值。然后可以基于控制值以可靠的方式确定是否要考虑音频源211、212、213的指向性图案232。
特别地,方法700可以包括将控制值与控制阈值D*进行比较。指向性控制函数600可以被配置为提供最小值(例如0)与最大值(例如1)之间的控制值。控制阈值可以位于最小值与最大值之间(例如0.5)。然后可以基于该比较,特别是取决于控制值是大于还是小于控制阈值,以可靠的方式确定是否要考虑音频源211、212、213的指向性图案232。特别地,方法700可以包括如果针对收听情况的控制值小于控制阈值,则确定不考虑音频源211、212、213的指向性图案232。可替代地或附加地,方法700可以包括如果针对收听情况的控制值大于控制阈值,则确定要考虑音频源211、212、213的指向性图案232。
指向性控制函数600可以被配置为在以下收听情况下提供低于控制阈值的控制值:音频源211、212、213的源位置500距收听者181的收听位置182、201、202的距离320小于近场阈值(从而防止当用户穿过虚拟现实渲染环境180内的虚拟音频源211、212、213时出现感知伪影)。可替代地或附加地,指向性控制函数600可以被配置为在以下收听情况下提供低于控制阈值的控制值:音频源211、212、213的源位置500距收听者181的收听位置182、201、202的距离320大于远场阈值(从而在不影响感知质量的情况下提高渲染器160的资源效率)。
因此,方法700可以包括基于指向性控制函数600确定针对收听情况的控制值,其中,指向性控制函数600可以为虚拟现实渲染环境180内的收听者181的不同收听情况提供不同的控制值。如上所述,控制值可以指示要考虑指向性图案232的程度。
此外,方法700可以包括根据控制值(特别地,如果确定要考虑指向性图案232)来调整音频源211、212、213的指向性图案232,尤其是指向性图案232的指向性增益410。然后,可以根据音频源211、212、213的调整后的指向性图案232,尤其是根据调整后的指向性增益410,来渲染音频源211、212、213的音频信号。因此(除了决定是否使用指向性图案232之外),指向性控制函数600可以用于控制在渲染音频信号时考虑指向性的程度。该程度可以根据收听者181的收听情况(尤其是根据源位置500与收听位置182、201、202之间的距离320)而变化(以连续的方式)。通过这样做,可以进一步提高虚拟现实渲染环境180内的音频渲染的感知质量。
(根据控制值)调整音频源211、212、213的指向性图案232可以包括确定音频源211、212、213的(非均匀)指向性图案232与均匀指向性图案的加权和,其中,用于确定加权和的权重可以取决于控制值。调整后的指向性图案可以是加权和。特别地,调整后的指向性增益可以被确定为原始指向性增益410和均匀增益(通常为1或0dB)的加权和。通过针对接近近场阈值或远场阈值的距离320(平滑地)调整指向性图案232,可以在指向性图案232的应用与抑制之间实现平滑转变,从而进一步提高感知质量。
音频源211、212、213的指向性图案232可以适用于参考收听情况,尤其是适用于音频源211、212、213的源位置500与收听者181的收听位置之间的参考距离610。特别地,指向性图案232可能已经针对参考收听情况、尤其是针对参考距离610而测量和/或设计。
指向性控制函数600可以使得如果收听情况对应于参考收听情况(尤其是如果距离320对应于参考距离610),则不调整指向性图案232,尤其是指向性增益410。举例来说,如果收听情况对应于参考收听情况,则指向性控制函数600可以提供控制值的最大值(例如1)。
此外,指向性控制函数600可以使得指向性图案232的调整程度随着收听情况与参考收听情况的偏差的增加(尤其是随着距离320与参考距离610的偏差的增加)而增加。特别地,指向性控制函数600可以使得指向性图案232随着收听情况与参考收听情况的偏差的增加(尤其是随着距离320与参考距离610的偏差的增加)而逐渐趋向于均匀指向性图案(即,指向性增益410逐渐趋向于1或0dB)。因此,感知质量可以进一步提高。
图7b示出了用于向虚拟现实渲染环境180内的收听者181渲染第一音频源211的音频信号的示例方法710的流程图。方法710可以由渲染器160执行。应当注意的是,已经在本文档中、尤其是在方法700的上下文中描述的所有方面也适用于方法710(单独地或组合地)。
方法710包括基于指向性控制函数600确定711针对虚拟现实渲染环境180内收听者181的收听情况的控制值。如上所述,指向性控制函数600可以针对不同的收听情况提供不同的控制值,其中,控制值可以指示要考虑音频源211、212、213的指向性的程度。
方法710还包括根据控制值来调整712第一音频源211、212、213的指向性图案232,尤其是指向性增益410。另外,方法710包括根据第一音频源211、212、213的调整后的指向性图案232、尤其是根据指向性增益410向虚拟现实渲染环境180内的收听者181渲染713第一音频源211、212、213的音频信号。通过根据当前收听情况调整指向性的应用程度,可以提高虚拟现实渲染环境180内的音频渲染的感知质量。
如图1a的上下文中概述的,用于在虚拟现实渲染环境内渲染音频信号的数据可以由编码器130在比特流140内提供。图7c示出了用于生成比特流140的示例方法720的流程图。方法720可以由编码器130执行。应当注意,本文档中描述的特征可以应用于方法720(单独地和/或组合地)。
方法720包括确定721至少一个音频源211、212、213的音频信号,确定722至少一个音频源211、212、213在虚拟现实渲染环境180内的源位置500,和/或确定723至少一个音频源211、212、213的指向性图案232。此外,方法720包括确定724指向性控制函数600,其用于根据虚拟现实渲染环境180内收听者181的收听情况来控制用于渲染至少一个音频源211、212、213的音频信号的指向性图案232的使用。另外,方法720包括将关于音频信号、源位置500、指向性图案232和/或指向性控制函数600的数据插入725比特流140中。
因此,为虚拟现实环境的创作者提供了用于以灵活且精确的方式控制一个或多个音频源211、212、213的指向性的手段。
此外,描述了用于在虚拟现实渲染环境180中渲染音频源211、212、213的音频信号的虚拟现实音频渲染器160。音频渲染器160可以被配置为执行方法700和/或方法710的方法步骤。
另外,描述了被配置为生成比特流140的音频编码器130。音频编码器130可以被配置为执行方法720的方法步骤。
此外,描述了比特流140。比特流140可以指示至少一个音频源211、212、213的音频信号和/或至少一个音频源211、212、213在虚拟现实渲染环境180内(即,在音频场景内111内)的源位置500。此外,比特流140可以指示至少一个音频源211、212、213的指向性图案232和/或指向性控制函数600,该指向性控制函数用于根据虚拟现实渲染环境180内收听者181的收听情况来控制用于渲染至少一个音频源211、212、213的音频信号的指向性图案232的使用。
指向性控制函数600可以以参数化和/或以采样的方式来指示。指向性图案232和/或指向性控制函数600可以作为比特流140内的VR元数据被提供(如图1a的上下文中概述的)。
本文档中描述的方法和系统可以被实施为软件、固件和/或硬件。某些部件可以例如被实施为在数字信号处理器或微处理器上运行的软件。其他部件可以例如被实施为硬件和/或专用集成电路。所描述的方法和系统中遇到的信号可以存储在如随机存取存储器或光学存储介质等介质上。这些信号可以经由如无线电网络、卫星网络、无线网络或有线网络(例如,因特网)等网络来传输。利用本文档中描述的方法和系统的典型设备是用于存储和/或渲染音频信号的便携式电子设备或其他消费设备。
可以从以下枚举的示例实施例(EEE)中理解本发明的各个方面:
1)一种用于在虚拟现实渲染环境(180)中渲染音频源(211,212,213)的音频信号的方法(700),所述方法(700)包括,
-确定(701)针对所述虚拟现实渲染环境(180)内收听者(181)的收听情况是否要考虑所述音频源(211,212,213)的指向性图案(232);
-如果确定针对所述收听者(181)的所述收听情况不考虑所述音频源(211,212,213)的所述指向性图案(232),则在不考虑所述音频源(211,212,213)的所述指向性图案(232)的情况下渲染(702)所述音频源(211,212,213)的音频信号;以及
-如果确定针对所述收听者(181)的所述收听情况要考虑所述指向性图案(232),则根据所述音频源(211,212,213)的所述指向性图案(232)来渲染(703)所述音频源(211,212,213)的所述音频信号。
2)如EEE 1所述的方法(700),其中,所述方法(700)包括,
-确定描述所述收听情况的一个或多个参数;以及
-基于所述一个或多个参数来确定(701)是否要考虑所述音频源(211,212,213)的所述指向性图案(232)。
3)如EEE 2所述的方法(700),其中,所述一个或多个参数包括
-所述音频源(211,212,213)的源位置(500)与所述收听者(181)的收听位置(182,201,202)之间的距离(320);
-所述音频信号的频率;
-所述音频信号将被渲染的时刻;
-在所述虚拟现实渲染环境(180)内所述收听者(181)相对于所述音频源(211,212,213)的取向和/或观看方向和/或轨迹;
-用于渲染所述音频信号的渲染器(160)的条件,尤其是关于计算资源的条件;和/或
-所述收听者(181)关于所述虚拟现实渲染环境(180)的动作。
4)如任一前述EEE所述的方法(700),其中,所述方法(700)包括,
-确定所述虚拟现实渲染环境(180)内所述音频源(211,212,213)的源位置(500)距所述收听者(181)的收听位置(182,201,202)的距离(320);以及
-基于所述距离(320)确定(701)是否要考虑所述音频源(211,212,213)的所述指向性图案(232)。
5)如EEE 4所述的方法(700),其中,所述方法(700)包括,
-确定所述音频源(211,212,213)的所述源位置(500)距所述收听位置(182,201,202)的所述距离(320)小于近场距离阈值;以及
-响应于此,确定不考虑所述音频源(211,212,213)的所述指向性图案(232);和/或
-确定所述音频源(211,212,213)的所述源位置(500)距所述收听位置(182,201,202)的所述距离(320)大于所述近场距离阈值;以及
-响应于此,确定要考虑所述音频源(211,212,213)的所述指向性图案(232)。
6)如EEE 4至5中任一项所述的方法(700),其中,所述方法(700)包括,
-确定所述音频源(211,212,213)的所述源位置(500)距所述收听位置(182,201,202)的所述距离(320)大于远场距离阈值;以及
-响应于此,确定不考虑所述音频源(211,212,213)的所述指向性图案(232);和/或
-确定所述音频源(211,212,213)的所述源位置(500)距所述收听位置(182,201,202)的所述距离(320)小于所述远场距离阈值;以及
-响应于此,确定要考虑所述音频源(211,212,213)的所述指向性图案(232)。
7)如EEE 5至6中任一项所述的方法(700),其中,
-所述近场阈值和/或所述远场阈值取决于指向性控制函数(600);
-所述指向性控制函数(600)提供作为所述距离(320)的函数的控制值;以及
-所述控制值指示要考虑所述指向性图案(232)的程度。
8)如任一前述EEE所述的方法(700),其中,所述方法(700)包括,
-基于指向性控制函数确定针对所述收听情况的控制值(600);其中,所述指向性控制函数(600)针对不同的收听情况提供不同的控制值;以及
-基于所述控制值确定是否要考虑所述音频源(211,212,213)的所述指向性图案(232)。
9)如EEE 8所述的方法(700),其中,所述方法(700)包括,
-将所述控制值与控制阈值进行比较;以及
-基于所述比较,特别是取决于所述控制值是大于还是小于所述控制阈值来确定是否要考虑所述音频源(211,212,213)的所述指向性图案(232)。
10)如EEE 9所述的方法(700),其中,
-所述指向性控制函数(600)被配置为提供介于最小值与最大值之间的控制值;
-特别地,所述最小值为0和/或所述最大值为1;
-所述控制阈值位于所述最小值与所述最大值之间;并且
-所述方法(700)包括
-如果针对所述收听情况的控制值小于所述控制阈值,则确定不考虑所述音频源(211,212,213)的所述指向性图案(232);和/或
-如果针对所述收听情况的控制值大于所述控制阈值,则确定要考虑所述音频源(211,212,213)的所述指向性图案(232)。
11)如EEE 10所述的方法(700),其中,所述指向性控制函数(600)被配置为在以下收听情况下提供低于所述控制阈值的控制值:
-所述音频源(211,212,213)的源位置(500)距所述收听者(181)的收听位置(182,201,202)的所述距离(320)小于近场阈值;和/或
-所述音频源(211,212,213)的所述源位置(500)距所述收听者(181)的所述收听位置(182,201,202)的所述距离(320)大于远场阈值。
12)如前述EEE中任一项所述的方法(700),其中,所述方法(700)包括,
-基于指向性控制函数确定针对所述收听情况的控制值(600);其中,所述指向性控制函数(600)针对不同的收听情况提供不同的控制值;其中,所述控制值指示要考虑所述指向性图案(232)的程度;
-根据所述控制值来调整所述音频源(211,212,213)的所述指向性图案(232);以及
-根据所述音频源(211,212,213)的调整后的指向性图案(232)来渲染(703)所述音频源(211,212,213)的所述音频信号。
13)如EEE 12所述的方法(700),其中,
-调整所述音频源(211,212,213)的所述指向性图案(232)包括确定所述音频源(211,212,213)的所述指向性图案(232)与均匀指向性图案的加权和;以及
-用于确定所述加权和的权重取决于所述控制值。
14)如EEE 12至13中任一项所述的方法(700),其中,
-所述音频源(211,212,213)的所述指向性图案(232)适用于参考收听情况,尤其是适用于所述音频源(211,212,213)的源位置(500)与所述收听者(181)的收听位置之间的参考距离(610);以及
-所述指向性控制函数(600)使得
-如果所述收听情况对应于所述参考收听则不调整所述指向性图案(232);和/或
-对所述指向性图案(232)的调整程度随着所述收听情况与所述参考收听情况的偏差的增加而增加,特别是使得所述指向性图案(232)随着所述收听情况与所述参考收听情况的偏差的增加而逐渐趋向于均匀指向性图案。
15)如任一前述EEE所述的方法(700),其中,
-所述音频源(211,212,213)的所述指向性图案(232)指示所述音频信号在不同方向上的强度;和/或
-所述指向性图案(232)指示要被应用于所述音频信号以渲染所述音频信号的与方向相关的指向性增益(410)。
16)如EEE 14所述的方法(700),其中,
-所述指向性图案(232)指示指向性增益函数(415);以及
-所述指向性增益函数(415)将指向性增益(410)指示为所述音频源(211,212,213)的源位置(500)与所述收听者(181)的收听位置(182,201,202)之间的指向性角(420)。
17)如任一前述EEE所述的方法(700),其中,根据所述音频源(211,212,213)的所述指向性图案(232)来渲染(703)所述音频源(211,212,213)的所述音频信号包括,
-基于所述指向性图案(232)并且基于所述音频源(211,212,213)的源位置(500)与所述收听者(181)的收听位置(182,201,202)之间的指向性角(420)来确定指向性增益(410);以及
-根据所述指向性增益来渲染所述音频信号(410)。
18)如任一前述EEE所述的方法(700),其中,所述方法(700)包括,
-使用将衰减增益(651)指示为所述距离(320)的函数的衰减函数(650),根据所述音频源(211,212,213)的源位置(500)与所述收听者(181)的收听位置(182,201,202)之间的距离(320)来确定所述衰减增益(651);以及
-根据所述衰减增益来渲染所述音频信号(651)。
19)一种用于向虚拟现实渲染环境(180)内的收听者(181)渲染第一音频源(211)的音频信号的方法(710),所述方法(710)包括,
-基于指向性控制函数(600)确定(711)针对所述虚拟现实渲染环境(180)内所述收听者(181)的收听情况的控制值;其中,所述指向性控制函数(600)针对不同的收听情况提供不同的控制值;其中,所述控制值指示要考虑音频源(211,212,213)的指向性的程度;
-根据所述控制值来调整(712)所述第一音频源(211,212,213)的指向性图案(232);以及
-根据所述第一音频源(211,212,213)的调整后的指向性图案(232)来向所述虚拟现实渲染环境(180)内的所述收听者(181)渲染(713)所述第一音频源(211,212,213)的所述音频信号。
20)一种虚拟现实音频渲染器(160),用于在虚拟现实渲染环境(180)中渲染音频源(211,212,213)的音频信号,其中,所述音频渲染器(160)被配置为
-确定针对所述虚拟现实渲染环境(180)内收听者(181)的收听情况是否要考虑所述音频源(211,212,213)的指向性图案(232);
-如果确定针对所述收听者(181)的所述收听情况不考虑所述音频源(211,212,213)的所述指向性图案(232),则在不考虑所述音频源(211,212,213)的所述指向性图案(232)的情况下渲染所述音频源(211,212,213)的音频信号;以及
-如果确定针对所述收听者(181)的所述收听情况要考虑所述指向性图案(232),则根据所述音频源(211,212,213)的所述指向性图案(232)来渲染所述音频源(211,212,213)的所述音频信号。
21)一种虚拟现实音频渲染器(160),用于向虚拟现实渲染环境(180)内的收听者(181)渲染第一音频源(211)的音频信号,其中,所述音频渲染器(160)被配置为
-基于指向性控制函数(600)确定针对所述虚拟现实渲染环境(180)内所述收听者(181)的收听情况的控制值;其中,所述指向性控制函数(600)针对不同的收听情况提供不同的控制值;其中,所述控制值指示要考虑音频源(211,212,213)的指向性的程度;
-根据所述控制值来调整所述第一音频源(211,212,213)的指向性图案(232);以及
-根据所述第一音频源(211,212,213)的调整后的指向性图案(232)来向所述虚拟现实渲染环境(180)内的所述收听者(181)渲染所述第一音频源(211,212,213)的所述音频信号。
22)一种音频编码器(130),被配置为生成比特流(140),所述比特流指示
-至少一个音频源(211,212,213)的音频信号;
-所述至少一个音频源(211,212,213)在虚拟现实渲染环境(180)内的源位置(500);
-所述至少一个音频源(211,212,213)的指向性图案(232);以及
-指向性控制函数(600),所述指向性控制函数用于根据所述虚拟现实渲染环境(180)内的收听者(181)的收听情况来控制用于渲染所述至少一个音频源(211,212,213)的音频信号的所述指向性图案(232)的使用。
23)一种比特流(140),所述比特流指示
-至少一个音频源(211,212,213)的音频信号;
-所述至少一个音频源(211,212,213)在虚拟现实渲染环境(180)内的源位置(500);
-所述至少一个音频源(211,212,213)的指向性图案(232);以及
-指向性控制函数(600),所述指向性控制函数用于根据所述虚拟现实渲染环境(180)内的收听者(181)的收听情况来控制用于渲染所述至少一个音频源(211,212,213)的音频信号的所述指向性图案(232)的使用。
24)一种用于生成比特流(140)的方法(720),所述方法(720)包括,
-确定(721)至少一个音频源(211,212,213)的音频信号;
-确定(722)所述至少一个音频源(211,212,213)在虚拟现实渲染环境(180)内的源位置(500);
-确定(723)所述至少一个音频源(211,212,213)的指向性图案(232);
-确定(724)指向性控制函数(600),所述指向性控制函数用于根据所述虚拟现实渲染环境(180)内的收听者(181)的收听情况来控制用于渲染所述至少一个音频源(211,212,213)的音频信号的所述指向性图案(232)的使用;以及
将关于所述音频信号、所述源位置(500)、所述指向性图案(232)和所述指向性控制函数(600)的数据插入(725)所述比特流(140)中。

Claims (25)

1.一种用于在虚拟现实渲染环境(180)中渲染音频源(211,212,213)的音频信号的方法(700),所述方法(700)包括:
-确定所述音频源(211,212,213)的源位置(500)距所述虚拟现实渲染环境(180)内的收听者(181)的收听位置(182,201,202)的距离(320);
-基于所述距离确定(701)针对所述虚拟现实渲染环境(180)内所述收听者(181)的收听情况是否要考虑所述音频源(211,212,213)的指向性图案(232);
-如果确定针对所述收听者(181)的所述收听情况不考虑所述音频源(211,212,213)的所述指向性图案(232),则在不考虑所述音频源(211,212,213)的所述指向性图案(232)的情况下渲染(702)所述音频源(211,212,213)的音频信号;以及
-如果确定针对所述收听者(181)的所述收听情况要考虑所述指向性图案(232),则根据所述音频源(211,212,213)的所述指向性图案(232)来渲染(703)所述音频源(211,212,213)的所述音频信号。
2.如权利要求1所述的方法(700),其中,所述方法(700)包括:
-确定描述所述收听情况的一个或多个参数;以及
-基于所述一个或多个参数来确定(701)是否要考虑所述音频源(211,212,213)的所述指向性图案(232)。
3.如权利要求2所述的方法(700),其中,所述一个或多个参数包括:
-所述音频源(211,212,213)的所述源位置(500)与所述收听者(181)的所述收听位置(182,201,202)之间的所述距离(320);
-所述音频信号的频率;
-所述音频信号将被渲染的时刻;
-在所述虚拟现实渲染环境(180)内所述收听者(181)相对于所述音频源(211,212,213)的取向和/或观看方向和/或轨迹;
-用于渲染所述音频信号的渲染器(160)的条件,尤其是关于计算资源的条件;和/或
-所述收听者(181)关于所述虚拟现实渲染环境(180)的动作。
4.如前述权利要求中任一项所述的方法(700),其中,所述方法(700)包括:
-确定所述音频源(211,212,213)的所述源位置(500)距所述收听位置(182,201,202)的所述距离(320)小于近场距离阈值;以及
-响应于此,确定不考虑所述音频源(211,212,213)的所述指向性图案(232);和/或
-确定所述音频源(211,212,213)的所述源位置(500)距所述收听位置(182,201,202)的所述距离(320)大于所述近场距离阈值;以及
-响应于此,确定要考虑所述音频源(211,212,213)的所述指向性图案(232)。
5.如前述权利要求中任一项所述的方法(700),其中,所述方法(700)包括:
-确定所述音频源(211,212,213)的所述源位置(500)距所述收听位置(182,201,202)的所述距离(320)大于远场距离阈值;以及
-响应于此,确定不考虑所述音频源(211,212,213)的所述指向性图案(232);和/或
-确定所述音频源(211,212,213)的所述源位置(500)距所述收听位置(182,201,202)的所述距离(320)小于所述远场距离阈值;以及
-响应于此,确定要考虑所述音频源(211,212,213)的所述指向性图案(232)。
6.如前述权利要求中任一项所述的方法(700),其中,
-所述近场阈值和/或所述远场阈值取决于指向性控制函数(600);
-所述指向性控制函数(600)提供作为所述距离(320)的函数的控制值;以及
-所述控制值指示要考虑所述指向性图案(232)的程度。
7.如任一前述权利要求所述的方法(700),其中,所述方法(700)包括:
-基于指向性控制函数确定针对所述收听情况的控制值(600);其中,所述指向性控制函数(600)针对不同的收听情况提供不同的控制值;以及
-基于所述控制值确定是否要考虑所述音频源(211,212,213)的所述指向性图案(232)。
8.如权利要求7所述的方法(700),其中,所述方法(700)包括:
-将所述控制值与控制阈值进行比较;以及
-基于所述比较,特别是取决于所述控制值是大于还是小于所述控制阈值来确定是否要考虑所述音频源(211,212,213)的所述指向性图案(232)。
9.如权利要求8所述的方法(700),其中,
-所述指向性控制函数(600)被配置为提供介于最小值与最大值之间的控制值;
-特别地,所述最小值为0和/或所述最大值为1;
-所述控制阈值位于所述最小值与所述最大值之间;并且其中,
-所述方法(700)包括:
-如果针对所述收听情况的控制值小于所述控制阈值,则确定不考虑所述音频源(211,212,213)的所述指向性图案(232);和/或
-如果针对所述收听情况的控制值大于所述控制阈值,则确定要考虑所述音频源(211,212,213)的所述指向性图案(232)。
10.如权利要求9所述的方法(700),其中,所述指向性控制函数(600)被配置为在以下收听情况下提供低于所述控制阈值的控制值:
-所述音频源(211,212,213)的所述源位置(500)距所述收听者(181)的所述收听位置(182,201,202)的所述距离(320)小于近场阈值;和/或
-所述音频源(211,212,213)的所述源位置(500)距所述收听者(181)的所述收听位置(182,201,202)的所述距离(320)大于远场阈值。
11.如前述权利要求中任一项所述的方法(700),其中,所述方法(700)包括:
-基于指向性控制函数确定针对所述收听情况的控制值(600);其中,所述指向性控制函数(600)针对不同的收听情况提供不同的控制值;其中,所述控制值指示要考虑所述指向性图案(232)的程度;
-根据所述控制值来调整所述音频源(211,212,213)的所述指向性图案(232);以及
-根据所述音频源(211,212,213)的调整后的指向性图案(232)来渲染(703)所述音频源(211,212,213)的所述音频信号。
12.如权利要求11所述的方法(700),其中,
-调整所述音频源(211,212,213)的所述指向性图案(232)包括确定所述音频源(211,212,213)的所述指向性图案(232)与均匀指向性图案的加权和;以及
-用于确定所述加权和的权重取决于所述控制值。
13.如权利要求11至12中任一项所述的方法(700),其中,
-所述音频源(211,212,213)的所述指向性图案(232)适用于参考收听情况,尤其是适用于所述音频源(211,212,213)的所述源位置(500)与所述收听者(181)的所述收听位置之间的参考距离(610);以及
-所述指向性控制函数(600)使得
-如果所述收听情况对应于所述参考收听情况则不调整所述指向性图案(232);和/或
-对所述指向性图案(232)的调整程度随着所述收听情况与所述参考收听情况的偏差的增加而增加,特别是使得所述指向性图案(232)随着所述收听情况与所述参考收听情况的偏差的增加而逐渐趋向于均匀指向性图案。
14.如任一前述权利要求所述的方法(700),其中,
-所述音频源(211,212,213)的所述指向性图案(232)指示所述音频信号在不同方向上的强度;和/或
-所述指向性图案(232)指示要被应用于所述音频信号以渲染所述音频信号的与方向相关的指向性增益(410)。
15.如权利要求13所述的方法(700),其中,
-所述指向性图案(232)指示指向性增益函数(415);以及
-所述指向性增益函数(415)将指向性增益(410)指示为所述音频源(211,212,213)的所述源位置(500)与所述收听者(181)的所述收听位置(182,201,202)之间的指向性角(420)的函数。
-
16.如任一前述权利要求所述的方法(700),其中,根据所述音频源(211,212,213)的所述指向性图案(232)来渲染(703)所述音频源(211,212,213)的所述音频信号包括,
-基于所述指向性图案(232)并且基于所述音频源(211,212,213)的所述源位置(500)与所述收听者(181)的所述收听位置(182,201,202)之间的指向性角(420)来确定指向性增益(410);以及
-根据所述指向性增益来渲染所述音频信号(410)。
17.如任一前述权利要求所述的方法(700),其中,所述方法(700)包括,
-使用将衰减增益(651)指示为所述距离(320)的函数的衰减函数(650),根据所述音频源(211,212,213)的源位置(500)与所述收听者(181)的收听位置(182,201,202)之间的距离(320)来确定所述衰减增益(651);以及
-根据所述衰减增益来渲染所述音频信号(651)。
18.一种用于向虚拟现实渲染环境(180)内的收听者(181)渲染第一音频源(211)的音频信号的方法(710),所述方法(710)包括,
-基于指向性控制函数(600)确定(711)针对所述虚拟现实渲染环境(180)内所述收听者(181)的收听情况的控制值;其中,所述指向性控制函数(600)针对不同的收听情况提供不同的控制值;其中,所述控制值是所述第一音频源的位置与所述收听者的收听位置之间的距离的函数,并且其中,所述控制值指示要考虑音频源(211,212,213)的指向性的程度;
-根据所述控制值来调整(712)所述第一音频源(211,212,213)的指向性图案(232);以及
-根据所述第一音频源(211,212,213)的调整后的指向性图案(232)来向所述虚拟现实渲染环境(180)内的所述收听者(181)渲染(713)所述第一音频源(211,212,213)的所述音频信号。
19.一种虚拟现实音频渲染器(160),用于在虚拟现实渲染环境(180)中渲染音频源(211,212,213)的音频信号,其中,所述音频渲染器(160)被配置为
-确定所述音频源(211,212,213)的源位置(500)距所述虚拟现实渲染环境(180)内的收听者(181)的收听位置(182,201,202)的距离(320);
-基于所述距离确定针对所述虚拟现实渲染环境(180)内所述收听者(181)的收听情况是否要考虑所述音频源(211,212,213)的指向性图案(232);
-如果确定针对所述收听者(181)的所述收听情况不考虑所述音频源(211,212,213)的所述指向性图案(232),则在不考虑所述音频源(211,212,213)的所述指向性图案(232)的情况下渲染所述音频源(211,212,213)的音频信号;以及
-如果确定针对所述收听者(181)的所述收听情况要考虑所述指向性图案(232),则根据所述音频源(211,212,213)的所述指向性图案(232)来渲染所述音频源(211,212,213)的所述音频信号。
20.一种虚拟现实音频渲染器(160),用于向虚拟现实渲染环境(180)内的收听者(181)渲染第一音频源(211)的音频信号,其中,所述音频渲染器(160)被配置为
-基于指向性控制函数(600)确定针对所述虚拟现实渲染环境(180)内所述收听者(181)的收听情况的控制值;其中,所述指向性控制函数(600)针对不同的收听情况提供不同的控制值;其中,所述控制值是所述第一音频源的收听位置与所述收听者的位置之间的距离的函数,并且其中,所述控制值指示要考虑音频源(211,212,213)的指向性的程度;
-根据所述控制值来调整所述第一音频源(211,212,213)的指向性图案(232);以及
-根据所述第一音频源(211,212,213)的调整后的指向性图案(232)来向所述虚拟现实渲染环境(180)内的所述收听者(181)渲染所述第一音频源(211,212,213)的所述音频信号。
21.一种音频编码器(130),被配置为生成比特流(140),所述比特流指示
-至少一个音频源(211,212,213)在虚拟现实渲染环境(180)内的源位置(500);
-所述至少一个音频源(211,212,213)的指向性图案(232);以及
-指向性控制函数(600),所述指向性控制函数用于根据所述虚拟现实渲染环境(180)内的收听者(181)的收听情况来控制用于渲染所述至少一个音频源(211,212,213)的音频信号的所述指向性图案(232)的使用,其中,所述指向性控制函数被配置为提供作为所述源位置与所述收听者的收听位置之间的距离的函数的控制值。
22.一种比特流(140),所述比特流指示
-至少一个音频源(211,212,213)在虚拟现实渲染环境(180)内的源位置(500);
-所述至少一个音频源(211,212,213)的指向性图案(232);以及
-指向性控制函数(600),所述指向性控制函数用于根据所述虚拟现实渲染环境(180)内的收听者(181)的收听情况来控制用于渲染所述至少一个音频源(211,212,213)的音频信号的所述指向性图案(232)的使用,其中,所述指向性控制函数被配置为提供作为所述源位置与所述收听者的收听位置之间的距离的函数的控制值。
23.一种用于生成比特流(140)的方法(720),所述方法(720)包括,
-确定(721)至少一个音频源(211,212,213)的音频信号;
-确定(722)所述至少一个音频源(211,212,213)在虚拟现实渲染环境(180)内的源位置(500);
-确定(723)所述至少一个音频源(211,212,213)的指向性图案(232);
-确定(724)指向性控制函数(600),以用于根据所述虚拟现实渲染环境(180)内的收听者(181)的收听情况来控制用于渲染所述至少一个音频源(211,212,213)的所述音频信号的所述指向性图案(232)的使用,其中,所述指向性控制函数被配置为提供作为所述源位置与所述收听者的收听位置之间的距离的函数的控制值;以及
-将关于所述音频信号、所述源位置(500)、所述指向性图案(232)和所述指向性控制函数(600)的数据插入(725)所述比特流(140)中。
24.一种包括指令的计算机可读存储介质,所述指令当被计算机执行时使所述计算机执行如权利要求1至18和23中任一项所述的方法。
25.一种包括指令的计算机程序产品,当所述程序由计算机执行时,所述指令使所述计算机执行如权利要求1至18和23中任一项所述的方法。
CN202280021528.XA 2021-05-17 2022-05-10 在虚拟现实环境中控制音频源的指向性的方法和系统 Pending CN116998169A (zh)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US202163189269P 2021-05-17 2021-05-17
US63/189,269 2021-05-17
EP21174024.6 2021-05-17
PCT/EP2022/062543 WO2022243094A1 (en) 2021-05-17 2022-05-10 Method and system for controlling directivity of an audio source in a virtual reality environment

Publications (1)

Publication Number Publication Date
CN116998169A true CN116998169A (zh) 2023-11-03

Family

ID=88527079

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202280021528.XA Pending CN116998169A (zh) 2021-05-17 2022-05-10 在虚拟现实环境中控制音频源的指向性的方法和系统

Country Status (1)

Country Link
CN (1) CN116998169A (zh)

Similar Documents

Publication Publication Date Title
US11743672B2 (en) Method and system for handling local transitions between listening positions in a virtual reality environment
US11750999B2 (en) Method and system for handling global transitions between listening positions in a virtual reality environment
JP7371003B2 (ja) オーディオ・レンダリングのための事前レンダリングされた信号のための方法、装置およびシステム
CN116998169A (zh) 在虚拟现实环境中控制音频源的指向性的方法和系统
US20240155304A1 (en) Method and system for controlling directivity of an audio source in a virtual reality environment
EP4164255A1 (en) 6dof rendering of microphone-array captured audio for locations outside the microphone-arrays
JP2024521689A (ja) 仮想現実環境においてオーディオソースの指向性を制御するための方法およびシステム
RU2777921C2 (ru) Способ и система для обработки локальных переходов между положениями прослушивания в среде виртуальной реальности
US20230007429A1 (en) Apparatus and method for rendering a sound scene comprising discretized curved surfaces

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40095908

Country of ref document: HK

SE01 Entry into force of request for substantive examination