CN111164990A

CN111164990A - 基于级别的音频对象交互

Info

Publication number: CN111164990A
Application number: CN201880062626.1A
Authority: CN
Inventors: L·拉克索南
Original assignee: Nokia Oyj
Current assignee: Nokia Oyj
Priority date: 2017-09-29
Filing date: 2018-09-14
Publication date: 2020-05-15
Anticipated expiration: 2038-09-14
Also published as: EP3689003A1; US20190104375A1; US11395087B2; CN111164990B; EP3689003A4; WO2019063876A1

Abstract

一种方法，包括获得与用户相关联的收听位置以及获得与在收听位置处的渲染对应的音频和元数据。该方法还包括获得收听环境以及确定收听环境对在收听位置处的渲染的影响。该方法还包括通过将音频渲染级别与对应的级别阈值相比较来检测在收听位置处的音频交互，以及由处理设备根据音频交互检测应用音频修改。基于所应用的音频修改，在收听位置处音频被渲染。

Description

基于级别的音频对象交互

技术领域

示例性和非限制性实施例通常涉及使用空间渲染引擎来渲染自由视点音频以呈现给用户。

背景技术

现有发展的简要说明

自由视点音频通常允许用户在音频(或者通常视听或介导现实)空间中移动，并且以正确对应于他在音频空间中的位置和定向的方式体验该音频空间。这可以实现各种虚拟现实(VR)和增强现实(AR)使用实例。空间音频例如可以包括基于声道的床和音频对象、仅音频对象、或者任何等效的空间音频表示。在空间中移动时，用户可与音频对象接触，用户可使自己与其它对象保持相当大的距离，并且还会出现新的对象。因此，收听/渲染点可以适应用户的移动，并且用户可以与音频对象交互，和/或音频内容亦可以由于相对于渲染点或用户动作的改变而进化。

发明内容

以下概述仅仅旨在示例。本发明内容并非旨在限制权利要求的范围。

根据一个方面，一种示例性方法包括：获得音频空间中的收听位置；获得与在收听位置处的渲染对应的音频和元数据；获得收听环境并确定收听环境对在收听位置处的渲染的影响；通过将音频渲染级别与对应的级别阈值元数据相比较来检测在收听位置处的音频交互；由处理设备根据音频交互检测，应用音频修改；以及基于所应用的音频修改，在收听位置处渲染音频。

根据另一个方面，一种示例性装置包括至少一个处理器；包括计算机程序代码的至少一个非暂时性存储器，至少一个存储器和计算机程序代码被配置为与至少一个处理器一起使该装置：获得音频空间中的收听位置；获得与在收听位置处的渲染对应的音频和元数据；获得收听环境并确定收听环境对在收听位置处的渲染的影响；通过将音频渲染级别与对应的级别阈值元数据相比较来检测在收听位置处的音频交互；根据音频交互检测，应用音频修改；以及基于所应用的音频修改，在收听位置处渲染音频。

根据另一个方面，一种示例性装置包括一种机器可读的非暂时性程序存储设备，有形地体现机器可执行的指令程序以执行操作，该操作包括：获得与用户相关联的收听位置；获得与在收听位置处的渲染对应的音频和元数据；获得收听环境并确定收听环境对在收听位置处的渲染的影响；通过将音频渲染级别与对应的级别阈值元数据相比较来检测在收听位置处的音频交互；根据音频交互检测，应用音频修改；以及基于所应用的音频修改，在收听位置处渲染音频。

附图说明

结合附图，在以下描述中说明了前述各方面和其它特征，其中：

图1是示出包括示例性实施例的特征的现实系统的示意图；

图2是示出图1中所示的系统的一些组件的示意图；

图3a和图3b是示出自由视点内容消费的特性的示意图；

图4a和图4b是示出VR用户在开放空间(图4a)和具有强反射的空间(图4b)中收听相同的音频源的示意图；

图5是交互检测和音频对象修改的示例性高级框图；

图6是示出基于级别的音频对象渲染系统的示例性框图；

图7是实现了基于级别的音频对象交互的交互检测和音频对象修改的示例性高级框图；

图8示出根据示例性实施例的可由装置执行的方法。

具体实施方式

参考图1，示出了包含示例性实施例的特征的现实系统100的示意图。用户可以将现实系统100用于例如包含自由视点音频的增强现实(AR)、虚拟现实(VR)、或存在捕获(PC)体验和内容消费。虽然将参考附图中示出的示例性实施例来描述特征，但是应当理解，这些特征可以采用实施例的多个替代形式来体现。

系统100通常包括视觉系统110、音频系统120、相对位置系统130以及基于级别的音频对象渲染系统140。视觉系统110被配置为向用户提供视觉图像。例如，视觉系统12可以包括虚拟现实(VR)耳机、护目镜或眼镜。音频系统120被配置为向用户提供音频声音，诸如通过例如一个或多个扬声器、VR耳机、或耳塞。相对位置系统130被配置为感测用户(诸如用户的头部)的位置，并确定用户在现实内容消费空间的领域中的位置。现实内容消费空间中的移动可以基于实际的用户移动、用户控制的移动、和/或一些其它外部控制的移动或预定移动、或这些的任意组合。用户能够在自由视点的内容消费空间中移动和转动他们的头部。相对位置系统130可能够基于用户在现实世界中的移动来改变用户看到和听到的内容；该现实世界移动改变了用户在自由视点渲染中看到和听到的内容。

用户的移动、与音频对象的交互以及用户所看到和听到的东西可以由包括有效距离参数和可逆性参数的预定参数来定义。有效距离参数可以是定义与针对当前音频对象考虑交互的用户的距离的核心参数。在一些实施例中，有效距离参数也可以被视为修改调整参数，其可被应用于交互的修改，如在2016年10月14日提交的美国专利NO.15/293,607中所描述的，其内容通过引用并入本文中。可逆性参数也可以被视为核心参数，并且可以定义交互响应的可逆性。可逆性参数也可以被视为修改调整参数。虽然为了便于说明和简洁明了而在本文中描述了音频对象交互的特定模式，但是应当理解，本文描述的方法可被应用于其它类型的音频对象交互。

用户可以虚拟地位于自由视点内容空间中，或者换句话说，接收与自由视点渲染中的位置对应的渲染。音频对象可以在该用户位置处被渲染给用户。所选择的收听点周围的区域可以基于用户输入、基于使用实例或内容特定设置、和/或基于音频渲染的特定实现来定义。此外，在一些实施例中，该区域可以至少部分地基于间接用户或者诸如系统的整体输出级别(例如，当输出处的声压级别被降低时，一些声音可能听不到)的系统设置来定义。在这种实例中，输入到应用的输出级别可能会导致特定声音没有被渲染，因为与这些音频对象相关联的声音级别可被认为是从收听点无法感知的。在其它实例中，具有更高输出级别的远距离声音(例如，爆炸或类似的大声音事件)可以免除要求(换句话说，这些声音可被渲染)。如果在区域定义中考虑了音频输出级别，则诸如动态范围控制的过程也可能会影响渲染，并且因此影响该区域。

基于级别的音频对象渲染系统140被配置为经由跟踪针对音频渲染音量级别的收听位置来实现参数化的音频对象交互检测和渲染控制。通过考虑在收听位置处的音频的声压级别，空间音频环境的贡献被自动考虑。基于级别的音频对象渲染系统140还可以经由跟踪针对音频渲染音量级别的收听位置来确定用于参数化的音频对象交互检测和渲染控制的元数据。

音频对象交互可被定义为由于至少基于空间音频场景中与音频对象位置重叠的用户位置的触发而引起的用于呈现给用户的音频对象渲染的修改。在一些系统或示例性实施例中，虽然该位置冲突异常可以基于至少规定了用户与音频对象之间的第一距离的元数据参数来定义，但是基于级别的音频对象渲染系统140可以不需要距离元数据来确定重叠或音频对象交互。相反，基于级别的音频对象渲染系统140可以使用与音频的感知相关的元数据(例如，每个频率间隔(frequency bin)的音量或级别)来确定重叠。因此，基于级别的音频对象渲染系统140可以自动考虑单独的音频对象的室内声学贡献以用于它的交互控制。通常可以针对每个频率间隔进行级别估计，进而可以例如采用包含心理声学的方式将这些测量合并为单个测量。

考虑到上述情况，基于级别的音频对象渲染系统140可以允许以下两者：1)与基于距离的系统明显不同的用于音频对象交互的替代实现；以及2)在提供针对声压和空间环境进行调整的能力方面对基于距离的系统的改进。

还参考图2，现实系统100通常包括一个或多个控制器210、一个或多个输入220以及一个或多个输出230。输入220例如可以包括相对位置系统130和基于级别的音频对象渲染系统140的位置传感器、用于基于级别的音频对象渲染系统140的渲染信息、来自另一个设备(诸如通过因特网)的现实信息、或者用于向系统100中输入信息的任何其它合适的设备。输出230例如可以包括视觉系统110的VR耳机上的显示器、音频系统120的扬声器、以及用于向另一个设备传送信息的通信输出。控制器210可以包括一个或多个处理器240以及具有软件260(或机器可读指令)的一个或多个存储器250。

还参考图3a和图3b，其示出了自由视点内容消费的特性的示意图300，350。

图3a示出了用户310围绕视听自由视点VR体验300进行导航。用户310被自然场景包围，其中，用户310例如听到用户310周围的鸟叫声320和在用户前面的一定距离处的蜂鸣声330。在用户310向前移动(图3b)时，用户310可能会与蜂箱340接触，蜂箱340根据音频(或在音频方面)例如可以包括单个音频对象。这是一个示例性使用实例，其中，沉浸式自由视点音频体验需要针对用户与音频对象之间的交互的定义。

在通过麦克风(以类似于通过耳朵的方式)检测到声音的实例中，声音基于声压而被确定。在声学方面，已知从点源辐射的球面波前的声压会随着距离的加倍而降低6.02dB。这对应于声压降低50％或减半。因此，声压降低为1/r，而声强降低为1/r²。这可以在用户310在他们在视听自由视点VR体验300中移动时体验的声音中反映出来。

还参考图4a和图4b，其示出了VR用户在开放空间(4a)和具有强反射的空间(4b)中收听相同的音频源的示意图。

图4a和图4b呈现了用户410正在收听6DoF自由视点音频内容，在这个实例中示出为来自音频源420(示出为恐龙)发出的声音。在开放空间(图4a)中，用户410主要听到来自声源420的直接声音分量430。然而，当将相同的声源被放置在诸如房间或洞穴的混响空间440(图4b)中时，用户410可越来越多地接收(和听到)附加反射450以及直接声音430。环境的特性以及用户410和声源420的相对位置可以确定如何组合这些分量以及(直接声音和反射的)和460将听起来像什么。本文描述的实施例考虑空间音频环境之间的差异并根据基于级别的音频对象渲染系统140提供了用于沉浸式6DoF使用实例的功能。

返回参考图4a和图4b，可以确定不包含反射的影响的音频对象交互系统的实现，相同的固有音频对象交互用于图4a和图4b的两个实例。然而，基于级别的音频对象渲染系统140可以确定(例如，观察)(图4b中的)反射有助于1)由我们的耳朵在现实世界中听到的所接收的声压，或者2)在虚拟6DOF自由视点世界中通过耳机的呈现级别，并且可以调整以补偿两个实例对用户感知之间的差异。在差异没有得到补偿的实例中，可能由于两个原因以及其它原因而出现问题。首先，图4b的实例中的感知可能更大声。由于音频对象交互可能会导致播放音量的增加，因此，由环境引起的额外响度可能会变得令人不安。其次，音频对象交互可能导致音频渲染修改，例如，增加的混响(例如，可能产生增加的混响或回声)。空间音频环境可以类似地向感知增加混响。这两个不同的修改组件可能以不会产生所需的输出感知的方式进行交互。例如，音量可能会随时间变化很大，或者混响可能变得非常强烈或嘈杂。

基于级别的音频对象渲染系统140可以为空间音频环境中的音频对象交互过程提供支持。基于级别的音频对象渲染系统140可以处理交互，以使得对于音频对象的两个实例，诸如图4a和图4b中所示的那些，其行为将有所不同，因为它们的渲染指令(元数据)不同并且基于对象到用户的距离的交互定义将环境考虑在内。基于级别的音频对象渲染系统140可以实现克服了对纠正空间环境中的差异的特别方法的责任(例如，诸如通过内容创建者的人工工作(具有附加元数据的支持)而使音频对象适应不同的已知环境的特别方法)的过程。基于级别的音频对象渲染系统140可以提供调适也可在消费期间被修改的高度交互的视听空间中的渲染的能力。因此，响应于在内容消费期间空间的声学和/或“物理”特性的变化，基于级别的音频对象渲染系统140可以提供在渲染中考虑了这些变化的控制。例如，可以打开建筑物的屋顶或墙壁，或者可以将音频对象例如从很大的房间移动到非常小的房间。这样的一个示例是将内容从第一空间共享到第二空间中的多用户使用实例。基于级别的音频对象渲染系统140可以提供工具以直接的方式解决这些变化。

基于级别的音频对象渲染系统140可以考虑用于音频对象交互的空间音频环境。基于级别的音频对象渲染系统140可以在渲染时考虑环境因素，以便为用户提供最沉浸式的用户体验。基于级别的音频对象渲染系统140可以提供与视听环境本身的动态性质对应的过程，并且减少或消除通过单独的参数来人工控制空间音频环境的必要性，这可能会是耗费时间和/或资源的任务。基于级别的音频对象渲染系统140可以允许创建(或被并入)更有效的内容创建工具。

基于跟踪针对音频渲染音量级别的收听位置，基于级别的音频对象渲染系统140可以实现参数化的音频对象交互检测和渲染控制系统。音频空间中的收听位置可以与用户相关联，并且在一些示例性实施例中可以是自由视点，而在其它示例性实施例中是3DoFAR/VR。音频空间可以是指由一个或多个音频源填充的AR/VR空间。用户可以在该空间中具有收听位置，并且该收听位置(其可包括用户的头部旋转)会影响渲染。通过考虑在音频空间中的收听位置处的音频的声压或音量级别，基于级别的音频对象渲染系统140可以自动考虑空间音频环境的贡献。这是因为环境通过反射等直接影响收听位置声压。在基于级别的音频对象渲染系统140仅考虑直接声音的实例中(例如，出于复杂性原因)，基于级别的音频对象交互渲染系统140可以具有与仅基于距离信息来确定跟踪的系统类似的行为(例如，以类似的方式确定音频对象交互)。基于级别的音频对象渲染系统140可以跟踪收听位置与音频对象之间的距离。声学空间可能对此距离没有影响。基于级别的音频对象渲染系统140可以检测和测量环境对音频对象交互的影响。

收听环境可以是指音频空间中的可能会影响(例如，通过几何学建模等)至少正在考虑(例如，音频交互)的音频源在音频空间中的用户的收听位置处的渲染的部分。在一些实例中，收听环境可以是指用户的物理空间，但未必对应于物理空间。例如，关于VR使用实例，当系统尝试将用户从现实世界中移除时，收听环境可能不对应于物理空间。在AR的实例中，物理空间实际上可以是收听环境。然而，在示例性高级AR使用实例中，渲染可以考虑用户周围的物理空间以及音频空间的虚拟(增强)元素。

在一些示例性实施例中，诸如混响的空间音频环境影响可以与直接声压分开地评估并且用于音频对象交互检测和控制。

基于级别的音频对象渲染系统140可以提高内容创建者考虑6DoF音频环境和体验的各个方面的能力，从而允许改进用户体验。在一些实例中，内容创建者可以提供指令，以使空间音频环境不对音频对象交互产生影响，例如，通过定义覆盖该功能的元数据标志。因此，根据使用实例，基于级别的音频对象渲染系统140可以允许内容创建者实现1)不考虑空间环境因素的音频对象交互，或2)考虑空间环境因素的音频对象交互。

基于级别的音频对象渲染系统140可以在独立的音频交互渲染系统中实现，也可以与基于(例如，仅基于)距离元数据来确定音频对象交互的渲染的系统结合使用。例如，基于级别的音频对象渲染系统140可以通过定义一组作为音频对象元数据而被存储和发送的参数来实现。可替代地，这种元数据可以是指声道、音轨、或者例如一组定向音频子带分量或参数。基于级别的音频对象渲染系统140可以采用空间音频渲染软件产品以及采用允许6DoF沉浸式音频体验的任何硬件产品来实现。

基于级别的音频对象渲染系统140可以实现直观的音频对象交互，其可以自动考虑室内声学特性以提供改进的真实感和沉浸感。

还参考图5，其示出了交互检测和音频对象修改的高级框图的示例性图示500。

图5示出了基于距离参数的交互检测和音频对象修改。在一些示例性实施例中，图5中所示的过程可以与用于基于级别的音频对象渲染的系统一起实现。

如图5中所示，在步骤510，基于距离元数据来确定音频对象交互的渲染的系统(未示出，例如，诸如在2016年10月14日提交的美国专利申请NO.15/293,607中进一步描述的系统，其内容通过引用并入本文中)可以监视和检测音频对象交互。该系统可以确定是否已经检测到交互的变化520。如果没有检测到交互的变化530，则系统可以继续监视交互510。

在检测到交互减少(步骤540)的实例中，系统可以基于可逆性来应用调整570，并且向音频对象空间渲染引擎发送修改信息580。在检测到音频对象交互增加(步骤550)的实例中，系统可以基于有效距离来应用调整560，并且向音频对象空间渲染引擎发送修改信息580。音频对象空间修改引擎可以负责应用音频对象的修改以用于渲染/呈现给用户。

还参考图6，其示出了基于级别的音频对象渲染系统140的示例性框图。基于级别的音频对象渲染系统140包括音频对象默认渲染组件610、音频对象交互调整组件620、以及音频对象空间渲染引擎630。

基于级别的音频对象渲染系统140可以应用过程，以使得由修改引擎执行的单个音频对象的音频对象交互修改在开放空间与封闭空间之间在声学上不同。基于级别的音频对象渲染系统140可以向内容创建者提供直观且有效的工具，以在设计总体用户体验时考虑开放空间与封闭空间之间的差异的要求。基于级别的音频对象渲染系统140可以提供交互检测的替代方法，以向在2016年10月14日提交的美国专利申请NO.15/293,607中提出的框架添加参数。

基于跟踪至少一个对象到用户的距离，音频对象默认渲染组件610可以基于音频对象交互范例来确定默认音频渲染。由于音频源与收听者之间的距离也与声压的变化有关，因此，音频对象默认渲染组件610可以使用在收听位置处观察到的音频对象的声压作为用于确定音频对象交互的触发和强度的基础。

音频对象默认渲染组件610可以(至少在一定程度上)根据音量级别(或声压)定义空间音频环境对收听者感知的影响。进一步地，为了控制由于空间音频环境而引起的用户的感知的进一步变化，诸如混响，音频对象交互调整组件620还可以考虑与这种影响有关的测量或参数。

音频对象默认渲染组件610可以在用户的收听位置(例如，渲染位置)处至少观察当前空间音频环境中每个音频对象的渲染。音频对象默认渲染组件610可以将在没有任何音频交互的情况下音频对象在用户收听位置处的渲染定义为“默认渲染”。

音频对象交互调整组件620可以在正在进行的音频对象交互中获得(例如，至少也在一些实施例中)对应的渲染。由此，音频对象交互调整组件620可以考虑例如由于音频对象交互而导致的音频对象的位置改变。

在一些示例性实施例中，默认渲染可以包括空间音频环境的影响，这意味着可影响直接声音的反射或者甚至障碍物(在一些示例性实施例中可以包括其它用户)。在一些示例性实施例中，默认渲染可以不包括与环境有关的这些影响。在这些实例中，音频对象交互调整组件620可以提供其中不使用显式距离元数据的音频对象交互的实现。

音频对象交互调整组件620可以将默认渲染与至少一个阈值相比较，内容创建者可以向系统提供指令以一般地定义至少一个阈值(例如，经由作为内容下载的一部分的元数据字段的条目)。这可以是基于直接音频对象时域信号的相对测量，其中，音频源与用户的收听点之间的行进时间已经得到补偿。因此，根据该实现，测量可以是单一值，或者它例如可以是时变阈值包络。该阈值可以是声压的测量或与声压有关的测量。该阈值例如可以是以分贝(dB)表示的值。该时变阈值包络可以允许在不同时间的不同的交互响应强度。交互响应可根据音频的播放时间、完整体验的播放时间、或者提供的基于特定时间的输入而变化。

音频对象交互调整组件620可以以单独的方式来确定正在进行的音频对象交互的情况和新的音频对象交互的检测。这有两个原因。首先，音频对象交互调整组件620可以实现用于触发音频对象交互和维持一个音频对象交互的单独的阈值。

举例来说，在图5中，音频对象交互调整组件620可以采用与实现第一距离参数有效距离和其它修改参数可逆性类似的方式来实现这些不同的阈值。然而，有效距离和可逆性参数不允许直接考虑音频对象交互调整组件620可实现的空间音频环境。进一步地，音频对象交互调整组件620可以提供在音频对象交互结束时允许不同的一组修改参数生效的能力。音频对象默认渲染和交互可以由音频对象空间渲染引擎630实现。

基于级别的音频对象渲染系统140可以用诸如空间音频渲染点扩展(例如，使用诸如在2017年1月23日提交的美国专利申请NO.15/412,561中描述的系统，其内容通过引用并入本文中)和平滑渲染重叠的音频对象交互(例如，使用诸如在2017年3月20日提交的美国专利申请NO.15/463,513中描述的系统，其内容通过引用并入本文中)的其它音频对象交互系统来实现。可以结合可基于感知的级别来提供音频对象交互检测的基于级别的音频对象渲染系统140来利用这些系统。

图7是交互检测和音频对象修改的示例性高级框图700。

图7示出了音频对象的音频对象交互检测和交互修改的高级框图，其可以由基于级别的音频对象渲染系统140例如使用如本文上面关于图6所述的过程来实现。

如图7中所示，在框705处，系统可以获得音频对象默认渲染。

在步骤710，系统可以确定音频对象渲染是否先前被交互。如果音频对象渲染先前被交互(715，是)，则系统可以将声压测量(例如，与渲染的交互有关)与活动阈值相比较720，并确定声压测量是否等于或超过阈值725。如果声压测量等于或超过阈值(是，高于，735)，则系统可以应用音频对象交互调整740，并向音频对象空间渲染引擎630发送修改信息。如果声压测量低于阈值(否，770)，则系统可以逐步停止交互，并向音频对象空间渲染引擎630发送对应的信息(步骤750)。

在步骤710处，如果音频对象渲染先前没有被交互725(否)，则系统可以将声压测量与触发阈值730相比较，并确定声压测量是否等于或超过阈值755。如果声压测量等于或超过触发阈值(是，高于，760)，则系统可以应用音频对象交互调整740，并向音频对象空间渲染引擎630发送修改信息。如果声压测量低于触发阈值(否，775)，则系统可以向音频对象空间渲染引擎630发送默认信息(步骤765)。

在一些示例性实施例中，步骤765(例如，向音频对象空间渲染引擎630发送默认信息)和步骤750(例如，逐步停止交互，并向音频对象空间渲染引擎发送对应的信息)可以相同。至少在一些示例性实施例中，可以使用与默认渲染和音频对象交互渲染两者不同的一组特定修改参数来逐步停止音频对象交互。内容创建者例如可以提供使用户清楚音频对象交互刚刚已经结束的指令。内容创建者例如可以基于根据存储在内容流中的元数据设置而渲染的音频效果/处理来定义响应。这例如可以通过使用特定的(例如，特定的视觉、触觉和/或听觉)效果来实现。可以根据设置的元数据向用户呈现音频。用户可以体验到该效果，从而了解渲染的改变，交互已经结束。

声压测量和(活动和触发)阈值与可用于系统(或由系统渲染)的音频对象音频有关。因此，系统可能不需要其它校准或参考音量级别。然而，在一些示例性实施例中，可以具有至少一个校准级别或其它参考(诸如参考信号)，其例如可以用于动态范围控制(DRC)的目的。

在一些示例性实施例中，系统可以将直接声音和反射的声音分开比较。可以这样做例如以便不复制混响效果。例如，如果用户在高度混响的空间中与音频对象进行交互，并且与音频源或对象相关联的交互元数据(包括由内容提供的指令，反映了内容创建者对交互影响的选择)也包含混响效果，则可能会发生这种复制。因此，在这种实例中，音频对象空间修改引擎630可以忽略特定的音频对象交互修改(诸如混响效果)，并且至少在一些示例性实施例中该效果可以用另一个效果来代替。在一些示例性实施例中，内容创建者可以使用元数据条目来传送次要效果。

图8示出了根据示例性实施例的可由装置执行的方法。图8示出了根据示例性实施例的过程的概述。虽然一些示例性实施例可以具体考虑基于对象的音频，但是本文描述的其它实施例可以更一般地解决6DoF音频。

在框810处，系统可以获得收听位置(虚拟用户位置)。这可以包括与用户相关联的收听位置和旋转。

在框820处，基于该收听位置，系统进而可以获得针对该位置要渲染给用户的音频(诸如音频对象)。至少在一些示例性实施例中，在这些步骤中可能已经考虑了用户旋转。

在框830处，系统可以获得收听环境描述或环境的模型。该模型可以规定在收听位置处环境如何修改音频渲染。这可以包括反射，各种材料的阻尼，并且在一些示例性实施例中可以包括诸如其它用户的影响的主动场景理解。

在一些示例性实施例中，收听环境可以包括用户的VR模型或真实AR空间。AR实现(例如，针对不同的使用实例)可以处理为VR使用实例的扩展，其中，AR消费中的捕获设备可以(至少)获得真实室内声学的基本模型，然后使用与针对VR使用实例类似的步骤。

收听环境对感知的影响可以基于特定实现的准确性。例如，简单的示例性实现可以只考虑直接声音和单个反射，或者基于模型而导出的具有混响效果的直接声音。另一方面，复杂的示例性实现可以考虑大量反射或实际室内脉冲响应(RIR)。

因此，音频的(默认)渲染可用于空间音频渲染系统630。在更高级的系统中，空间音频环境的任何效果类似地可用于渲染器。

系统(在框840处)可以通过将音频渲染级别与对应的级别阈值元数据相比较来检测在收听位置处的交互。例如，在已经定义和提供与至少一个声压阈值相关的元数据之后，系统可以将音频渲染的声压(在一些示例性实施例中，包括空间音频环境影响)与至少一个阈值相比较。这允许检测音频交互以及对其范围的控制。

在框850处，系统可以根据音频交互检测结果，对音频应用修改。

在框860处，可以在收听位置处渲染音频并将其呈现给用户。至少在该步骤中，还可以考虑用户的头部的旋转，以便正确呈现空间音频方向。

不以任何方式限制在下面出现的权利要求的范围、解释、或应用，本文公开的一个或多个示例性实施例的技术效果是该系统实现了直观的音频对象交互，其可以自动考虑室内声学特性以提供改进的真实感和沉浸感。该系统的另一个优点是当满足特定条件时，系统可以使用修改参数，诸如位置、比例、旋转、放大、均衡、定向(例如、声音传播的方向)、以及时移。另外，可以使用诸如空间范围和混响的进一步的修改参数。

此外，应注意，在一些示例性实现中，可以一起考虑基于音量的(例如，如由基于级别的音频对象渲染系统140实现的)和基于距离的方面。例如，特定内容可以仅支持这些方法中的一个。进而，渲染器实现可以使用在给定可用元数据的情况下为用户实现预期体验的一组过程。在另一个示例性实施例中，内容创建者可以提供指令以区分依赖于空间音频环境的第一组音频对象交互和不依赖于空间音频环境的第二组音频对象交互。这可以经由使用专用元数据标志来实现。

示例性实施例可以提供允许内容创建者尽可能地定义他们的内容的渲染(例如，具有与物理音频环境更大的对应)的工具。考虑空间音频环境的影响实现了这一点。另外，元数据标志可以允许在用于每个音频对象的两个操作模式之间进行切换(并且在一些实例中，该标志可以随时间变化)，这大大增强了内容创建者的创意选择。由于6DoF AR/VR的关键区别之一是用户的漫游场景的能力，并且使场景对用户产生反应并允许用户直接与各种对象进行交互，因此，这提高了表示的准确性。

根据示例，一种方法可以包括：获得与用户相关联的收听位置；获得与在收听位置处的渲染对应的音频和元数据；获得收听环境，并确定所述收听环境对在收听位置处的渲染的影响；通过将音频渲染级别与对应的级别阈值元数据相比较来检测在收听位置处的音频交互；由处理设备根据音频交互检测，应用音频修改；以及基于所应用的音频修改，在收听位置处渲染音频。

根据另一个示例，其中，通过将音频渲染级别与对应的级别阈值元数据相比较来检测在收听位置处的音频交互还包括：确定在收听位置处的音频是否先前被交互；响应于确定在收听位置处的音频先前被交互，将在收听位置处的音频与活动阈值相比较；以及响应于确定音频高于活动阈值，应用音频交互调整，并向音频对象空间渲染引擎发送修改信息。

根据另一个示例，响应于确定音频低于活动阈值，逐步停止音频交互，并向音频对象空间渲染引擎发送对应的信息。

根据另一个示例，提供特定效果以向用户通知音频对象交互已经结束。

根据另一个示例，其中，通过将音频渲染级别与对应的级别阈值元数据相比较来检测在收听位置处的音频交互还包括：确定在收听位置处的音频是否先前被交互；响应于确定在收听位置处的音频先前没有被交互，将在收听位置处的音频与触发阈值相比较；以及响应于确定音频高于触发阈值，应用音频交互调整，并向音频对象空间渲染引擎发送修改信息。

根据另一个示例，响应于确定音频低于触发阈值，向音频对象空间渲染引擎发送默认信息。

根据另一个示例，其中，音频渲染级别包括声压级别和音量级别中的至少一个。

根据另一个示例，其中，通过将音频渲染级别与对应的级别阈值元数据相比较来检测在收听位置处的音频交互还包括：将直接声音和反射的声音分开比较；以及如果检测到混响效果，则忽略混响效果。

根据另一个示例，用次要效果代替混响效果。

根据另一个示例，检查元数据标志以确定是否要应用音频修改。

根据另一个示例，其中，音频和元数据还包括：至少一个音轨、至少一个声道、以及一组定向子带分量中的一个或多个。

根据另一个示例，一种示例性装置可以包括至少一个处理器；以及包括计算机程序代码的至少一个非暂时性存储器，至少一个存储器和计算机程序代码被配置为与至少一个处理器一起使该装置：获得与用户相关联的收听位置；获得与在收听位置处的渲染对应的音频和元数据；获得收听环境，并确定所述收听环境对在收听位置处的渲染的影响；通过将音频渲染级别与对应的级别阈值元数据相比较来检测在收听位置处的音频交互；根据音频交互检测，应用音频修改；以及基于所应用的音频修改，在收听位置处渲染音频。

根据另一个示例，一种示例性装置可以包括机器可读的非暂时性程序存储设备，有形地体现机器可执行的指令程序以执行操作，该操作包括：获得与用户相关联的收听位置；获得与在收听位置处的渲染对应的音频和元数据；获得收听环境，并确定所述收听环境对在收听位置处的渲染的影响；通过将音频渲染级别与对应的级别阈值元数据相比较来检测在收听位置处的音频交互；根据音频交互检测，应用音频修改；以及基于所应用的音频修改，在收听位置处渲染音频。

根据另一个示例，一种示例装置包括：用于获得与用户相关联的收听位置的装置；用于获得与在收听位置处的渲染对应的音频和元数据的装置；用于获得收听环境并确定所述收听环境对在收听位置处的渲染的影响的装置；用于通过将音频渲染级别与对应的级别阈值元数据相比较来检测在收听位置处的音频交互的装置；用于根据音频交互检测，应用音频修改的装置；以及用于基于所应用的音频修改，在收听位置处渲染音频的装置。

一个或多个计算机可读介质的任意组合可被用作存储器。计算机可读介质可以是计算机可读信号介质或非暂时性计算机可读存储介质。非暂时性计算机可读存储介质不包括传播信号，并且例如可以是但不限于电子、磁、光、电磁、红外、或半导体系统、装置、或设备、或前述的任何合适的组合。计算机可读存储介质的更具体示例(非详尽列表)将包括以下内容：具有一个或多个线路的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦可编程只读存储器(EPROM或闪存)、光纤、便携式光盘只读存储器(CD-ROM)、光学存储设备、磁存储设备、或前述的任何合适的组合。

应当理解，以上描述仅仅是示例性的。本领域技术人员可以设计出各种替代和修改。例如，各从属权利要求中所述的特征可以采用任何合适的组合彼此进行组合。另外，可以将来自上述不同实施例的特征选择性地组合成新的实施例。因此，说明书旨在涵盖落入所附权利要求的范围内的所有此类替代、修改和变形。

Claims

1.一种方法，包括：

获得音频空间中的收听位置；

获得与在所述收听位置处的渲染对应的音频和元数据；

获得收听环境的至少一个特性，并确定所述收听环境对在所述收听位置处的所述渲染的影响，其中，所述收听环境包括所述音频空间的影响至少一个音频源在所述收听位置处的渲染的部分；

通过将音频渲染级别与对应的级别阈值相比较来检测在所述收听位置处的音频交互；

由处理设备根据所述音频交互检测，应用音频修改；以及

基于所应用的音频修改，在所述收听位置处渲染音频。

2.根据权利要求1所述的方法，其中，通过将所述音频渲染级别与所述对应的级别阈值相比较来检测在所述收听位置处的所述音频交互还包括：

确定在所述收听位置处的所述音频是否先前被交互；

响应于确定在所述收听位置处的所述音频先前被交互，将在所述收听位置处的所述音频与活动阈值相比较；以及

响应于确定所述音频高于所述活动阈值，应用音频交互调整，并向音频对象空间渲染引擎发送修改信息。

3.根据权利要求2所述的方法，还包括：

响应于确定所述音频低于所述活动阈值，逐步停止所述音频交互，并向所述音频对象空间渲染引擎发送对应的信息。

4.根据权利要求3所述的方法，还包括：

提供特定效果以向用户通知音频对象交互已经结束。

5.根据权利要求1所述的方法，其中，通过将所述音频渲染级别与所述对应的级别阈值相比较来检测在所述收听位置处的所述音频交互还包括：

确定在所述收听位置处的所述音频是否先前被交互；

响应于确定在所述收听位置处的所述音频先前没有被交互，将在所述收听位置处的所述音频与触发阈值相比较；以及

响应于确定所述音频高于所述触发阈值，应用音频交互调整，并向音频对象空间渲染引擎发送修改信息。

6.根据权利要求5所述的方法，还包括：

响应于确定所述音频低于所述触发阈值，向所述音频对象空间渲染引擎发送默认信息。

7.根据权利要求1所述的方法，其中，所述音频渲染级别包括声压级别和音量级别中的至少一个。

8.根据权利要求1所述的方法，其中，通过将所述音频渲染级别与所述对应的级别阈值相比较来检测在所述收听位置处的所述音频交互还包括：

将直接声音和反射的声音分开比较；以及

如果使用了混响效果，则忽略所述混响效果。

9.根据权利要求8所述的方法，还包括：

用次要效果代替所述混响效果。

10.根据权利要求1所述的方法，还包括：

检查元数据标志以确定是否要应用所述音频修改。

11.根据权利要求1所述的方法，其中，所述音频和所述元数据还包括：

至少一个音轨、至少一个声道、以及一组定向子带分量中的一个或多个。

12.根据权利要求1所述的方法，其中，所述对应的级别阈值包括单一值和时变阈值包络中的一个。

13.根据权利要求1所述的方法，其中，基于所应用的音频修改在所述收听位置处渲染所述音频还包括：

基于所述用户的旋转，渲染所述音频。

14.一种装置，包括：

至少一个处理器；以及

包括计算机程序代码的至少一个非暂时性存储器，所述至少一个存储器和所述计算机程序代码被配置为与所述至少一个处理器一起使所述装置：

获得音频空间中的收听位置；

获得与在所述收听位置处的渲染对应的音频和元数据；

根据所述音频交互检测，应用音频修改；以及

基于所应用的音频修改，在所述收听位置处渲染音频。

15.根据权利要求14所述的装置，其中，当通过将所述音频渲染级别与所述对应的级别阈值相比较来检测在所述收听位置处的所述音频交互时，所述至少一个非暂时性存储器和所述计算机程序代码被配置为与所述至少一个处理器一起使所述装置：

确定在所述收听位置处的所述音频是否先前被交互；

响应于确定在所述收听位置处的所述音频先前被交互，将所述收听位置处的所述音频与活动阈值相比较；以及

16.根据权利要求15所述的装置，其中，响应于确定所述音频低于所述活动阈值，所述至少一个存储器和所述计算机程序代码被配置为与所述至少一个处理器一起使所述装置：

逐步停止所述音频交互，并向所述音频对象空间渲染引擎发送对应的信息。

17.根据权利要求16所述的装置，其中，所述至少一个非暂时性存储器和所述计算机程序代码进一步被配置为与所述至少一个处理器一起使所述装置：

提供特定效果以向用户通知音频对象交互已经结束。

18.根据权利要求14所述的装置，其中，当通过将所述音频渲染级别与所述对应的级别阈值相比较来检测在所述收听位置处的所述音频交互时，所述至少一个非暂时性存储器和所述计算机程序代码被配置为与所述至少一个处理器一起使所述装置：

确定在所述收听位置处的所述音频是否先前被交互；

响应于确定在所述收听位置处的所述音频先前没有被交互，将所述收听位置处的所述音频与触发阈值相比较；以及

19.根据权利要求14所述的装置，其中，所述音频渲染级别包括声压级别和音量级别中的至少一个。

20.一种机器可读的非暂时性程序存储设备，有形地体现所述机器可执行的指令程序以执行操作，所述操作包括：

获得音频空间中的收听位置；

获得与在所述收听位置处的渲染对应的音频和元数据；

根据所述音频交互检测，应用音频修改；以及

基于所应用的音频修改，在所述收听位置处渲染音频。