CN112911495B

CN112911495B - 自由视点渲染中的音频对象修改

Info

Publication number: CN112911495B
Application number: CN202110178162.4A
Authority: CN
Inventors: L·拉克索南
Original assignee: Nokia Technologies Oy
Current assignee: Nokia Technologies Oy
Priority date: 2016-10-14
Filing date: 2017-10-06
Publication date: 2022-09-02
Anticipated expiration: 2037-10-06
Also published as: CN112911495A; US20190082282A1; CN109845290A; JP7100633B2; CN109845290B; JP7100741B2; JP2021119708A; EP3526982A4; EP3526982A1; US20180109901A1; WO2018069573A1; JP2019535210A; US10433096B2; US9980078B2

Abstract

一种方法，包括：在向用户自由视点渲染期间，以及在自由视点渲染中的用户的位置与音频对象之间的相对移动期间，检测音频对象与用户位置之间的位置冲突异常，其中自由视点渲染包括音频对象的渲染；以及基于位置冲突异常的检测，改变音频对象的渲染，其中改变基于至少一个预先确定的异常修改参数。

Description

自由视点渲染中的音频对象修改

本申请是2017年10月6日提交的申请号为201780063477.6、发明名称为“自由视点渲染中的音频对象修改”的专利申请的分案申请。

技术领域

示例性的和非限制性的实施例一般涉及音频对象，更具体地，涉及修改音频对象。

背景技术

在视听消费中的自由视点，指的是能够在内容消费空间中移动的用户。非自由视点虚拟现实体验限于改变视点的方向(旋转)，但是自由视点渲染允许经由移动(平移)改变渲染点以及改变视点的方向(旋转)。在自由视点渲染中提供一个音频对象是已知的。因此，对于自由视点渲染而言，几何变换包括3D旋转和2D平移或3D平移。

发明内容

以下概述仅是示例性的。该发明内容不旨在限制权利要求的范围。

根据一个方面，示例方法包括，在向用户进行自由视点渲染期间，以及在所述自由视点渲染中的所述用户的位置与所述自由视点渲染中的所述音频对象之间的相对移动期间，检测所述自由视点渲染中的所述音频对象与所述用户的位置之间的位置冲突异常，其中所述自由视点渲染包括音频对象的渲染；以及基于所述位置冲突异常的所述检测，改变所述音频对象的所述渲染，其中所述改变基于至少一个预先确定的异常修改参数。

根据另一方面，示例装置包括至少一个处理器；以及至少一个包括计算机程序代码的非瞬态存储器，所述至少一个存储器以及计算机程序代码被配置为与所述至少一个处理器一起使得所述装置：在向用户进行自由视点渲染期间，以及在所述自由视点渲染中的所述用户的位置与所述自由视点渲染中的所述音频对象之间的相对移动期间，检测所述自由视点渲染中的所述音频对象与所述用户的位置之间的位置冲突异常，其中所述自由视点渲染包括音频对象的渲染；以及基于所述位置冲突异常的所述检测，改变所述音频对象的所述渲染，其中所述改变基于至少一个预先确定的异常修改参数。

根据另一方面，示例装置包括一种由机器能够读取的非瞬态程序存储设备，其有形地体现了由所述机器能够执行的用于执行操作的程序指令，所述操作包括：在向用户进行自由视点渲染期间，以及在所述自由视点渲染中的所述用户的位置与所述自由视点渲染中的所述音频对象之间的相对移动期间，检测所述自由视点渲染中的所述音频对象与所述用户的位置之间的位置冲突异常，其中所述自由视点渲染包括音频对象的渲染；以及基于所述位置冲突异常的所述检测，改变所述音频对象的所述渲染，其中所述改变基于至少一个预先确定的异常修改参数。

附图说明

结合附图，前述方面和其他特征将在以下描述中被解释，其中：

图1是包括示例实施例的特征的现实系统的示意图；

图2是示出了在图1中所示出的系统的一些组件的示意图；

图3是从第三人视角的虚拟现实场景的示例说明；

图4是类似于图3的示意图，示出了在自由视点渲染中音频对象与用户位置之间的位置冲突异常的说明；

图5A-5D示出了针对在自由视点渲染中音频对象与用户位置之间的位置冲突异常的不同结果；

图6是在图1和2中所示系统的一些组件的示意图；

图7是用于示例性实施例的特征进行编程的用户界面的示例；

图8示出了用于处理图4中所示的位置冲突异常的一些示；

图9是示例方法的示意图；

图10是示出了有效距离参数的示例的示意图；

图10A-10B是有效距离参数的示例场强的示意图；

图11是一个示例方法的示意图；

图12是一个示例方法的示意图；

图13是一个示例方法的示意图；

图14是一个示例方法的示意图；以及

图15是一个示例方法的示意图。

具体实施方式

图1示出了结合示例实施例的特征的现实系统10的示意图。例如，用户可以将现实系统10用于增强现实(AR)、虚拟现实(VR)、或存在捕获(PC)体验和内容消费。尽管将参考附图中示出的示例性实施例来描述这些特征，但是应该理解，特征可以以许多替换形式的实施例来实现。

系统10被配置为向用户提供自由视点渲染。系统10通常包括视觉系统12、音频系统14和相对位置系统16。视觉系统12被配置为向用户提供视觉图像。例如，视觉系统12可包括一个虚拟现实(VR)头戴式耳机、护目镜或眼镜。音频系统14被配置为向用户提供音频声音，诸如，通过一个或多个扬声器、一个VR头戴式耳机或耳塞。相对位置系统16被配置为感测用户的位置(诸如例如用户的头部)，并且确定用户在现实内容消费空间场景中的位置。现实内容消费空间中的移动可以基于用户实际移动、用户控制的移动和/或一些其他外部控制的移动或预先确定的移动，或这些移动的任意组合。用户能够在自由视点的内容消费空间中移动。相对位置系统16可以能够基于用户在现实世界中的移动来改变用户看到和听到的内容；现实世界的移动改变了用户在自由视点渲染中看到和听到的内容。

参考图2，现实系统10通常包括一个或多个控制器18、一个或多个输入20以及一个或多个输出22。输入20可以包括，例如，相对位置系统16的位置传感器、来自另一设备(诸如通过因特网，或用于将信息输入至系统10的任何其他合适的设备)的现实信息。输出22可以包括，例如，视觉系统12的VR头戴式耳机上的显示器、音频系统14的扬声器、和一个与另一设备通信信息的通信输出。控制器18可包括一个或多个处理器24和一个或多个包括软件28的存储器26。

参考图3，示出了自由视点介导现实体验的快照。在该示例中，体验包括树32、鸟34和具有蜂巢38和蜜蜂40的树枝36。图3示出了一个正在体验自由视点视频和音频的用户。该示例示出了一个用户，被描绘为在现实空间中佩戴头戴式显示器(HMD)和组合耳机；被介导现实体验所包围。换句话说，图3呈现了一个第三人视角，其将用户和用户当前体验的介导现实空间进行组合。用户在体验中的位置由30表示。介导现实空间由现实空间的视频表示和音频对象声源32、34、38、40组成。在该示例中，用户体验到一个自然场景，他在其中看到并听到鸟儿在他周围歌唱、蜜蜂在用户面前的蜂巢周围嗡叫。

参考图4，示出了用户已经从介导现实体验中的图3中所示的定位中移动到了一个新的位置。然而，在图4中所示的新位置，用户已经进入或者通过了音频对象或源；即，用户30的头部31显示在蜂巢38内。这示出了自由视点渲染中的音频对象38与用户的位置之间的位置冲突异常。在现实世界中，在不破坏蜂巢的情况下，一个人的头部不能在蜂巢中。图中所示的蜂巢示例内的头部仅仅是位置冲突异常的一个示例。另一可能的示例是，例如，用户靠近炉子，来自该位置的炉子的热量将超过现实生活中的人可以承受的热量。基于该位置冲突异常，炉子的声音的音频对象可以基于一个或多个参数而被修改。音频对象修改也可以应用于任何音频对象交互；不一定限于那些在现实世界中不可能、危险或不舒服的场景。

本文描述的特征可以被用于新的音频-对象交互检测和定义，以改善自由视点音频的用户体验。例如，可以将特征与增强现实(AR)、虚拟现实(VR)和存在捕获(PC)体验和内容消费一起使用。特别地，这些特征可以与空间音频(诸如基于对象的音频)，以及用户交互和用户界面一起使用。

利用视听消费中的自由视点，用户可以移动，例如，连续地或以离散的步伐在对应于捕获的点(诸如NOKIA OZO设备的定位)周围的区域中移动，或者例如，在至少两个这样的捕获点之间移动。用户可以在允许的移动区域中的每个位置处以每个方向以自然的方式感知视听场景。当体验的至少一部分被模拟时(诸如，通过计算机生成的附加效果或所捕获的视听信息的修改来模拟时)，这些体验可以总称为术语“介导现实体验”。内容可以被捕获(因此对应于感知的现实)、可以由计算机生成、或者可以是两者的组合。它可以是预先录制的或预先生成的，或者，例如是现场视频。捕获的内容和数据可以包括，例如，空间音频和视频、点云以及地理位置数据，地理位置数据可以通过例如射频(RF)跟踪获得。例如，RF跟踪可以是基于HAIP技术(高精度室内定位)的。音频对象可以被捕获或被生成。

如上面关于图3-4所述的，自由视点介导现实体验的用户可以使用头戴式显示器(HMD)来消费视频内容，并且使用头戴式耳机来关联音频内容。系统中的至少一个组件可以跟踪用户的头部移动，允许从正确的视角向用户显示视频的“正确部分”，并且音频对象或源类似地出现在相对用户在消费空间中的定位和方向的正确定位。用户可以在现实空间中移动，其中用户的移动与介导现实空间中感知的移动直接或间接地对应。另一方面，用户还可以经由用户界面控制其在空间中的移动，或者在某些情况下可以采用预先编程的移动或由第三方(诸如控制者或服务)控制的移动。在一些情况下，类似的效果可以通过现实空间中的捕获设备的现实移动来实现。

参考图4，自由视点渲染可以允许用户在其捕获的定位或缺省渲染定位中与音频源“物理的连接”。“缺省”可以是定位随时间变化意义上的，但它在给定时间实例处是预期的定位。这种音频交互的开始和程度，以及响应通常是未指定的。似乎对于此连接或交互的任何缺省响应可能仅适用于音频对象和用户实例的一个子集。在此之前，缺少的是自由视点渲染中音频对象交互的通用框架。因此，对本文提出的问题的解答包括诸如：什么是与自由视点音频中的音频对象的交互？交互如何被检测？交互何时何地开始，以及交互何时何地结束？换句话说，它的范围是多大？

参考图5A，其示出了在“渲染”中当用户从位置K移动到位置L时用户30与音频对象38进行联系的图示。可能存在与用户看到的内容对应的自然音频响应。用户(用户头部佩戴耳机)被示出移动到音频对象38的缺省位置。因此，当对用户渲染的定位与音频对象38重叠时，鉴于这种位置冲突异常，提出了如何将音频对象渲染给用户的问题。存在可以考虑的可能的缺省响应

利用本文描述的特征，可以为高质量的自由视点音频体验定义位置冲突异常交互和对交互的响应。还可以考虑内容创建者的视点。通过提供灵活性，可能存在许多不同的渲染选项，涵盖许多不同的用户实例。另外，可以针对给定音频对象提供最佳的或期望的渲染选项的信息。换句话说，产品工具可能被期望考虑到这一点。传统系统中缺少这些解决方案，并且可以使用本文描述的特征来定义通用框架。

如本文所述的特征可以被用于用于自由视点介导现实体验的参数化的对象-音频交互。可以将交互定义为对于音频对象的渲染，作为在自由视点音频中渲染的定位的函数。这可以通过例如定义一组参数来实现，参数可以作为音频-对象元数据被存储和被传输。备选地，此类元数据可指代信道、轨道或例如一组定向的音频子带的组件或参数。

整个系统还可以包括一个界面，该界面用于为音频对象、频道、轨道等设置参数或参数的子集。该界面可以表现为空间音频产品软件的一部分。此外，系统可以具有一个增强的空间渲染器，或在空间渲染器之前的修改器模块，其根据检测到的与音频对象的用户交互来修改音频对象。图6示出了示例实施例的一些特征的框图。

用户交互和对该交互的检测可以至少基于当前的“渲染位置”，诸如包括K或L，与音频对象的定位有关。还可以考虑运动矢量V，诸如例如，先前的“渲染的定位”或在“渲染的定位”的中变化。在一些进一步的实施例中，还可以使用对下一个“渲染的定位”的预测。此行为可以通过一个次要的参数来反映。此处，“渲染的定位”指的是介导现实中的用户的视点。该定位/视点在介导现实体验中可以改变，(例如，根据上面的描述)。

在进一步的实施例中，用户-音频-对象交互的概念可以包括分析，该分析是关于超出用户在介导现实空间中的定位或视点的用户移动和动作的。例如，用户可以通过用他们的手或一组应用控制器操控音频对象来与之交互。用于VR的各种对象操控技术是已知的。这些应用作为用户输入的手段。通过具有如本文所述特征的技术来定义响应。响应可以分为两类：第一类涉及“交互检测和修改参数的调整”，而第二类涉及“音频对象空间修改”。

在一些改进的实施例中，诸如在支持多用户内容消费的实施例中，可以利用基于用户交互的音频对象的共同渲染。换句话说，至少两个用户可以同时消费相同的介导现实体验。通常来说，用于每个用户的音频渲染将独立于用于其他用户的渲染的内容。如果利用共同渲染，则对一个用户的渲染的修改可以反映在一个第二用户的对应的渲染中。这允许有趣的、类似游戏的音频对象渲染和体验的新类型。

与如何渲染对象相关的音频对象的属性或特征的最小集合，可以是音频轨道和对象在“渲染”空间中的位置。通常还会使用一个大小的属性。例如，这可以用于指示在扬声器设置中，基于音频对象当前的位置，将有多少扬声器来渲染音频对象。例如，可以将与直升机对应的音频对象进行混合以在用户上方的某距离处悬停，然后飞离至用户的右前方。在实践中，在渲染期间对应于直升机的音频轨道相应地通过最合适的(或者用户设置的)扬声器进行平移。参考图6，该步骤可以由右侧的方框44，空间渲染引擎执行。图7示出了混合例如DOLBY ATMOS的内容的示例可视化。这种混合的可视化可以适用于对异常修改参数和修改调整参数(诸如例如，如下所述的，有效距离以及可逆性)的编程。在内容消费空间29中的独立的音频源(诸如例如38a-38d)，可以被编程为具有用于个性化响应的单独的修改参数，个性化响应可能彼此不同。这仅仅是一个示例，不应被视为限制。在一些示例中，界面可以允许在同一时间利用共同修改参数设置两个或更多个音频源(诸如38a和38b)，诸如，基于共同的音频对象“类型”分类。这可以加速界面处的参数的设置。

音频对象的音频轨道可以是单声道轨道、立体声轨道或多通道轨道。此外，音频轨道可以包括用于空间再现的附加元数据。一些形式的空间轨道对于高质量渲染是优选的。然而，同样可以使用单声道音频轨道。在改进的实施例中，可能存在本文也考虑的附加的属性。这样的附加属性可以包括，例如，音频源的方向和指向性。

在图6中，“渲染定位跟踪”46指代用户定位或视角的跟踪。这可以与头部跟踪48的功能相结合。传统的跟踪系统可以被用于跟踪46、48。交互检测定义了何时应修改音频对象渲染。此外，可以定义应该进行何种程度的修改。可以基于渲染的定位、音频对象的位置以及被称为“有效距离”参数的总称参数来检测交互。下面更详细地描述该“有效距离”参数。此外，可以在交互检测中考虑音频对象的大小。然而，根据实施情况，可以通过“有效距离”参数来考虑此信息。进一步地，关于渲染定位的大小的输入可以被使用。尽管如此，该信息可以被省略，并且关于人体头部大小的推测可以被使用。头部跟踪输入(例如头部方向信息)也可以被使用。

如上所述，如本文所述的特征可以与用于自由视点介导现实体验的交互检测和交互参数修改一起使用。整个系统可以包括一组参数，这些参数定义用户何时与一个音频对象交互以及用户与音频对象交互的方式如何影响音频对象的状态和渲染。参数可以被实现为元数据，其允许在其他事件中的与现有的或功能较弱的渲染器的向后互通性。在这种情况下的互通性意味着由此处描述的新系统提供的新特征因而是不可用的，并且传统系统可以以其最初预期的方式工作而不会产生由增加特性而引发暂时性的小问题。因此，如本文所述的特征因而解决了在自由视点音频中检测与音频对象的交互的问题，以及在该交互的环境中选择影响音频对象属性的修改的参数的问题。

如图6所示，来自头部跟踪48和渲染定位跟踪46的结果可以被用于如框50所示的交互检测和修改参数的调整。交互检测和修改参数的调整50，以及来自头部跟踪48的输出可以被用作音频对象修改引擎52的输入。该引擎52，包括至少一个处理器和至少一个包括计算机代码的存储器，然后可以生成将要由空间渲染引擎44(包括至少一个处理器和至少一个包括计算机代码的存储器)使用的输出。经解码的空间音频56还可以被用作空间渲染引擎44的输入。

四种可能的基本修改参数可以包括位置、比例、旋转和放大。将参考图8利用一些示例来说明他们。位置参数可以定义用于音频对象38的位置修改(在X-Y-Z中)。这可以用于，例如，移动音频对象远离渲染的用户/定位。缩放参数定义音频对象38的修改大小(在X-Y-Z中)。因此，缩放也可以改变音频对象的形状。例如，可以使用缩放来放大音频对象以使音频对象围绕用户(或用户的头部31)。旋转参数可以定义用于音频对象38的旋转修改(围绕X-Y-Z)。例如，如果音频对象以方向性或空间音频轨道为特征，则这可能是有用的。放大参数可以定义音频对象38相对于其初始音量的音量。通常地，这可以是时变的。例如，在具体时间处的交互可以使音频对象静音，而在另一时间的交互可能对音量没有任何影响。

图8示出了三种交互的修改和音频对象38的渲染结果，音频对象38具有图4中所示的位置冲突异常。如箭头A所示，初始音频对象38的大小可以被修改以将音频对象相对于用户头部31外部化为38'所示出的(该尺寸可能影响，例如，哪些扬声器将有助于声音再现或声音音量)。如箭头B所示，可以修改位置以使音频对象与如38”所示的渲染点保持距离(该位置将影响从其再现声音的方向)。如箭头C所示，可以修改尺寸和旋转，并且因此音频对象都被外部化并且围绕用户旋转，如38”'所示(旋转假设具有至少一个立体声轨道或者备选的一些人为空间处理)。

附加的参数可以定义更加改进的响应，其在设计体验时提供额外的自由度。这些可包括例如均衡、指向性和时移。均衡参数可以定义用于音频对象的音频轨道重放级别的频率相关修改。由于音频对象可以具有指向性属性，可以根据指向性参数来进一步修改音频对象的方向性。该指向性参数可以定义，例如，用于音频对象音频轨道的重放的扇区形状、大小和方向。它可以是频率相关的。指向性可以是对于均衡参数而言的次要参数。时移参数可以定义用于音频对象的音频轨道的回放时间码的修改。例如，它可以是相对的或绝对的时移。因此，用户交互可以，例如，触发或“倒回”一个音频轨道。例如，进一步的改进的参数可以使音频对象跟随与其联系的用户(“粘性”参数)，或乘以音频对象或其音频轨道(“对象乘法”参数)。特别地，这些改进的参数可以在(新)自由视点介导现实体验中实现多用户交互和新的有趣体验。另外，可以存在指示具体的响应的参数(诸如用于改善外部化的去相关滤波器的使用)。

空间音频渲染引擎44(参见图6)接收音频对象以及基本混合(或所谓的由声床，如果可用)，并在渲染点处渲染空间音频。还参考图9，这里我们假设空间音频渲染引擎44接收至少一个已修改的音频对象实例。该修改基于检测到的交互56和已为音频对象定义的参数集合。如下所述，至少一个参数可以定义“何时”音频对象将响应交互。并且如上所述，至少一个参数可以定义音频对象将“如何”响应交互。图9展示了修改在音频对象空间修改引擎中的音频对象的过程。在一些实施例中，该过程也可以是空间渲染引擎44的一部分。如58所示，用于音频对象的交互信息被获取，并且如60所示，用于音频对象的对应的修改参数的调整被执行。如果检测到了音频对象交互，诸如例如位置冲突异常，如框62所示，可以应用至少一个修改参数。然后，空间渲染引擎44可以执行它的对已修改音频对象的渲染。

应用于音频对象的修改可以依赖于音频对象的属性(诸如例如音频轨道的类型)。例如，可以根据需要通过去相关器处理单声道轨道，以改善信号的外部化性能(从单声道到立体声的上混)。空间渲染引擎44可以像任何其他音频对象一样处理已修改的音频对象实例。假设在设计和混合体验时做出合理的参数选择，音频对象交互下的作为结果的渲染将会被改善。

还参考图5B-5D，这些图示出了在图4的问题情况中，渲染器可以独立执行的进一步的示例性响应。如图5B所示，当用户30进入其中时，音频源38可以静音。该方案避免了其他解决方案可能具有的不好的影响，但是对于整个用例而言可能不是非常现实或者不符合需要的。如图5C所示，可以像没有发生任何事情一样继续渲染音频源38，因此音频源出现在用户的脑海中。这可能是不好的且不现实的，并且由于小的动作(可能是用户和/或音频对象等的动作)可能会变得尤其糟糕，这些动作可能导致所渲染的音频声音(如音频对象)在用户脑海中来回播放。如图5D所示，音频源38可以避开用户，即，可以在用户和音频源之间可以保持一个距离(诸如相对于定位的相对距离或绝对距离)。该方案在某些情况中可能是不现实的并且不合适的，然而，在由音频对象创建环境并且不对应任何可见的对象的情况下，它可能显得尤其自然。

在图5B的情况下，蜂箱或单个的蜜蜂停止发出噪声。显然，这似乎是一种尴尬的用户体验。然而，它可能对应于用户将看到的内容。如果使用图5B的渲染，则渲染可以是现实的，这取决于实际的音频对象。如果存在单个的蜜蜂对象或者对象由若干部分组成，则渲染可以对应于在用户周围嗡嗡作响的蜜蜂。然而，如果音频对象是单个蜂巢，则嗡嗡声将位于用户脑海中。这可能是令人不愉快的。根据图5B的渲染可以根据确切的实现细节而实施。然而，它也可能看起来非常不现实且不好的。同样地，它不太可能与视觉体验相对应。因此，与图5B-5D的示例不同，以上描述的参数化修改可以提供更自然或能够理解的响应。如图8所示的参数化的交互也可用于以受控方式容易地实现图5中的每个响应。

似乎更好的灵活性是可能的，并且为了实现在用户交互下实现与在音频-对象渲染的环境中同样好的用户体验，可以考虑内容创建者的视点是非常重要的。为了灵活性，可能有许多不同的渲染选项，可以覆盖尽可能多的使用情况。另外，可以提供针对给定音频对象而言的最佳或期望渲染选项的信息。换句话说，可以提供产品工具以考虑所涉及的音频对象的类型；不同类型的音频对象有不同修改参数。

如本文所述的特征使得能够在自由视点音频中进行自然的响应。如本文所述的特征在自由视点音频中提供新的令人兴奋的用户体验，包括类似游戏的交互，例如，在一些多用户环境中。如本文所述的特征允许与具有可预测输出的各种不同音频对象的直观的用户交互。如本文所述的特征使得内容创建中的新工具和机会产生上述优点和内容区分。这可以被实现为元数据，其反过来潜在地使得市场中的渲染器得到区分，同时实现后向“兼容性”(即，传统渲染器可以忽略元数据并且简单地不提供新功能)。此外，系统的方面可以在例如支持自由视点音频的MPEG或3GPP标准中被使用。

如上所述，可以使用附加参数来调整修改参数。这些附加参数可以被认为是修改调整参数。交互检测可以基于距离计算，其中已知两个关键组件的X-Y-Z坐标(渲染的定位和音频对象的位置)。从其大小信息中导出的阈值可以定义用户是否与空间中的音频对象相交。此外，“有效距离”参数可以定义交互是否在与该实际相交点不同的距离处开始。

在改进的实施例中，用户的形状(或渲染点)以及音频对象可以是已知的并且在上述计算中使用。然而，在实践中，考虑到用户的实际形状，计算复杂度可能会显著增加，在渲染中不具有任何实质性改变或改进。对于一些用户，与头部相关传递函数(HRTF)相关的滤波的隐含变化可能在感知上是显著的。还可以考虑用于音频对象形状的参数集合。可能需要对于用户/渲染点的形状进行单独的定义。

有效距离

即使被认为是一个修改调整参数，有效距离参数也可以是核心参数，其定义了如下距离，从该距离对于当前音频对象的用户交互被考虑。有效距离的示例在图10中示出。有效距离参数定义了如下距离，从该距离一个或多个其他参数的影响可以被考虑。换句话说，该参数在音频对象属性和开始于周长100的参数上定义用于用户交互的“力场”强度。不同的修改参数可以具有不同的有效距离参数，或者对共同有效距离参数的响应不同。该距离是相对于渲染空间中音频对象的位置的。它可以根据方向来定义。例如，有效距离可以根据用户交互的方向而不同。因此，对于有效距离可能存在X-Y-Z分量。本地坐标优选地基于音频对象大小和旋转属性。在一些实施例中，可能需要为有效距离参数定义更复杂的形状。

如图10A所示，效果曲线102的形状可以被定义为以上距离的函数。因此，当用户开始更深地进入有效区域时，该效果可以，例如很容易随着交互开始而变得更强，并且随着用户靠近音频对象的原点移动时而充分发挥作用。虽然期望有效距离来检测并指示交互，但是针对不同的修改参数具有不同的有效距离可能是有用的。因此，可以为每个参数定义有效距离参数的修改器。图10A可以示出有效距离参数对仅来自音频对象的一个方向上的修改参数的影响。图10B可以示出有效距离参数对与音频对象不同的第二方向上的修改参数的效果曲线102'。以上描述是关于影响一个修改参数的效果的修改调整参数的(在这种情况下是有效距离参数)。但是，效果可能作用于音频对象本身；而非直接在修改参数上。换句话说，对音频对象的效果可能不一定经由参数化计算来实现。

可逆性

即使被认为是一个修改调整参数，可逆性的修改参数也可以被认为是核心参数，并且可以定义交互响应的可逆性。在一个用户交互修改音频对象的渲染之后，随后用户交互可以被移除(即，渲染的定位再次改变)。音频对象可以保持其新的修改状态或返回至其初始的“预期”的状态。可逆性的参数描述了音频对象经历这种被动修改的趋势。

在一些实施例中，可逆性可以是另一参数的次要参数(或者如上面针对有效距离参数所描述的，可以使用另外的子修改器)。例如，如果音频对象的在空间中的大小和位置已经通过用户交互修改，则移除用户交互可能导致维持在前修改的属性(例如，参数值0)，在后修改的属性为改变到其初始状态(例如，个正参数值)。因此，就像滞后一样，执行指定此更改的速度。

注意，上面所谓的初始状态可能不是如下状态，从该状态修改发生。这是因为音频对象的基础状态可以变化(诸如例如是时间的函数)。因此，用户交互的移除还可能导致次要用户的交互以及相同音频对象的修改。这可以通过基于有效距离和可逆性的交互检测来控制，以便平滑地修改渲染。

以上参数可用于调整“音频对象空间修改引擎”所使用的修改参数。图11显示了整个过程。基于检测交互70，如框72所示，确定在交互中的改变是什么。如框74所示，交互可以被增加(诸如基于有效距离应用一个调整)。如框76所示，交互可以被减少(诸如基于可逆性的应用一个调整)。如框78所示，然后，可以将修改信息发送到音频对象空间渲染引擎。至少在一些实施例中，新的调整可以是之前的调整与提出的新调整之间更重要的那一个调整。例如，新调整可以是来自框74的输出或来自块76的输出之间的更重要的那一个调整；如基于框72所决定的那样。

如本文描述的特征可以使得能够在自由视点音频中构建用于自然响应的系统。如本文所描述的特征可以允许与各种不同音频对象之间的直观用户交互。如本文所描述的特征可以使内容创建中的新工具和机会产生以上优点和内容以及产品差异。

参考图12，根据示例的方法，如框80所示，方法包括：在向用户进行自由视点渲染期间，以及在自由视点渲染中的用户相对于音频对象的位置之间的相对移动期间，检测音频对象与用户位置之间的位置冲突异常，其中自由视点渲染包括音频对象的渲染；以及如框82所示，基于位置冲突异常的检测，改变音频对象的渲染，其中该改变基于至少一个预先确定的异常修改参数,。

改变可以包括音频对象的大小、位置、比例、旋转和放大中的至少一个。改变可以包括均衡、指向性、时移、粘性以及音频对象乘法中的至少一个。自由视点渲染可以包括对第二音频对象的渲染，以及检测自由视点渲染中的第二音频对象与相对于第二音频对象的用户的位置之间的第二位置冲突异常。并且基于第二位置冲突异常的检测，改变第二音频对象的渲染，其中第二音频对象的渲染的改变是基于至少一个不同的预定异常修改参数的。至少一个预定异常修改参数可以包括预先确定的异常修改参数中的至少两个。该方法还可以包括，基于音频对象，通过至少一个预先确定的异常修改参数来改变效果，该效果是通过修改调整改变对音频对象的渲染达到的。修改调整可以将时间间隔和/或比例改变应用于至少一个预先确定的异常修改参数。修改调整可以是关于自由视点渲染中的音频对象与自由视点渲染中的音频对象相关的用户的位置之间的距离的有效距离修改调整。修改调整可以是基于随后对至少部分地去除位置冲突异常的检测的可逆性的修改调整。该方法还可以包括，基于检测到的位置冲突异常的类型，来选择至少一个预先确定的异常修改参数。该方法还可以包括，基于检测到的位置冲突异常的特征，为所选择的至少一个预定异常修改参数选择一个值。对位置冲突异常的检测可以包括使用渲染定位跟踪。对位置冲突异常的检测还可以包括使用用户头部的头部跟踪。相对移动可以包括在自由视点渲染中用户的第一位置改变至在自由视点渲染中用户的第二不同位置，其中位置冲突异常是在自由视点渲染中音频对象和用户的第二位置之间的。在一个示例中，自由视点渲染中的用户位置可能不会改变；它可以是在视点渲染中用户的位置基本不变的情况下改变音频对象的位置。例如，图4中所示的蜜蜂中的一个蜜蜂可能飞入用户的头部(可能进入用户的嘴部或不通过用户的嘴部)，但是用户的头部可能在渲染中静止。可能存在一个渲染，其中用户应该根据渲染中发生的情况移动，但是渲染中用户的位置没有改变，因此，由于没有预期用户在渲染中的移动，渲染中的音频对象的移动导致了位置冲突的异常。例如，如果熔岩在渲染中移动并且用户没有从熔岩的路径中移开(或者像现实生活中预期的那样快速从路径中移开)，那么位置冲突异常可能是由熔岩相对于渲染中的用户的移动造成的。利用如本文所描述的特征，自由视点渲染中的用户位置与音频对象的位置之间的潜在位置冲突异常可以以更有意义且有用的方式，来适应性调整使用户去体验正常定义的移动或相对位置之外的事件。

根据示例实施例，可以提供一种装置，包括：至少一个处理器；和至少一个包括计算机程序代码的非瞬态存储器，至少一个存储器和计算机程序代码被配置为与至少一个处理器一起使得装置：在向用户进行自由视点渲染期间，以及在自由视点渲染中的用户的位置与自由视点渲染中的音频对象之间的相对移动期间，检测在自由视点渲染中的音频对象与用户的位置之间的位置冲突异常，其中自由视点渲染包括音频对象的渲染；以及基于位置冲突异常的检测，改变音频对象的渲染，其中改变基于至少一个预先确定的异常修改参数。

该改变可以包括音频对象的大小、位置、比例、旋转和放大中的至少一个。该改变可以包括均衡、指向性、时移、粘性以及音频对象乘法中的至少一个。自由视点渲染可以包括第二音频对象的渲染，该至少一个存储器和计算机程序代码被配置为与至少一个处理器一起使得该装置检测自由视点渲染中的第二音频对象与自由视点渲染中的第二音频对象相关的用户的位置之间的第二位置冲突异常；并且，基于第二位置冲突异常的检测，改变第二音频对象的渲染，其中对第二音频对象的渲染的改变基于至少一个不同的预先确定的异常修改参数。至少一个预先确定的异常修改参数可以包括预先确定的异常修改参数中的至少两个。至少一个存储器和计算机程序代码可以被配置为与至少一个处理器一起使得装置基于音频对象，通过至少一个预先确定的异常修改参数改变对音频对象的渲染效果的调整，该音频对象的渲染效果由一个修改调整来改变。修改调整可以被配置为将时间间隔和/或比例改变应用于至少一个预先确定的异常修改参数。修改调整可以是关于自由视点渲染中的音频对象与自由视点渲染中的音频对象相关的用户的位置之间的距离的有效距离修改调整。修改调整可以是基于随后对至少部分地去除位置冲突异常的检测的可逆性的修改调整。

根据示例实施例，可以提供一种由机器能够读取的非瞬态程序存储设备，其有形地体现由机器能够执行的用于执行操作的程序指令，操作包括：在向用户进行自由视点渲染期间，以及在自由视点渲染中的用户的位置与音频对象之间的相对移动期间，检测音频对象与所述用户的位置之间的位置冲突异常，其中自由视点渲染包括音频对象的渲染；和基于位置冲突异常的检测，改变音频对象的渲染，其中改变是基于至少一个预先确定的异常修改参数的。

一个或多个计算机可读介质的任何组合可以用作存储器。计算机可读介质可以是计算机可读信号介质或非瞬态计算机可读存储介质。非瞬态计算机可读存储介质不包括传播信号，并且可以是，例如但不限于电、磁、光、电磁、红外或半导体系统、装置或设备，或者任何以上合适的组合。计算机可读存储介质的更具体示例(非详尽列表)将包括以下内容：具有一条或多条线路的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)，可擦除可编程只读存储器(EPROM或闪存)、光纤、便携式光盘只读存储器(CD-ROM)、光存储设备、磁存储设备或任何以上的适当的组合。

根据示例实施例，可以提供一种装置，包括在向用户自由视点渲染期间，以及用户的位置相对于与自由视点渲染中的音频对象之间的相对移动期间，用于检测音频对象与用户位置之间的位置冲突异常的装置，其中自由视点渲染包括音频对象的渲染；以及基于位置冲突异常的检测，用于改变音频对象渲染的装置，其中改变基于至少一个预先确定的异常修改参数。

参考图13，根据一个示例方法，可以提供一种方法，包括，如框84所示，对于自由视点媒体的音频对象，识别用于音频对象的对象分类类型；以及如框86所示，基于所识别的音频对象的分类类型，将至少一个预先确定的异常修改参数与音频对象一起存储。

根据另一示例，示例性装置可以包括至少一个处理器；至少一个包括计算机程序代码的非瞬态存储器，至少一个存储器和计算机程序代码被配置为与至少一个处理器一起使得装置：对于自由视点媒体的音频对象，允许识别音频对象的对象分类类型；并且基于所识别的音频对象的分类类型，将至少一个预先确定的异常修改参数与音频对象一起存储。

根据另一示例，示例性装置可以包括机器可读的非瞬态程序存储设备，其有形地体现包含由机器能够执行的用于执行操作的程序指令，操作包括：对于自由视点媒体的音频对象，识别音频对象的对象分类类型；基于所识别的音频对象的分类类型，将至少一个预先确定的异常修改参数与音频对象一起存储。

参考图14，根据一个示例方法，可以提供一种方法，包括，如框88所示，在向用户自由视点渲染期间，检测自由视点渲染中的音频对象与音频对象相关的用户的位置之间的位置冲突异常，其中自由视点渲染包括音频对象的渲染；以及如框90所示，基于位置冲突异常的检测，改变音频对象的渲染，其中改变至少部分地基于音频对象的对象类型分类。

根据另一示例，示例装置可以包括至少一个处理器；至少一个包括计算机程序代码的非瞬态存储器，至少一个存储器和计算机程序代码被配置为与一个处理器一起使得装置：在向用户自由视点渲染期间，检测自由视点渲染中的音频对象与音频对象相关的用户的位置之间的位置冲突异常，其中自由视点渲染包括音频对象的渲染；以及基于位置冲突异常的检测，改变音频对象的渲染，其中改变至少部分地基于音频对象的对象类型分类。

根据另一示例，示例装置可以包括由机器能够读取的非瞬态程序存储设备，其有形地体现由机器能够执行的用于执行操作的指令程序，该操作包括：在向用户自由视点渲染期间，检测自由视点渲染中的音频对象与音频对象相关的用户的位置之间的位置冲突异常，其中自由视点渲染包括音频对象的渲染；并且基于位置冲突异常的检测，改变音频对象的渲染，其中改变至少部分地基于音频对象的对象类型分类。

参考图15，根据另一示例性方法，可以提供一种方法，包括，如框92所示，对于自由视点媒体的音频对象，识别用于音频对象的对象分类类型；以及，如框94所示，基于所识别的音频对象的对象分类类型，将至少一个预先确定的异常修改参数与音频对象相关联以用于音频对象被播放的时候。

根据另一示例，示例装置可包括至少一个处理器；至少一个包括计算机程序代码的非瞬态存储器，至少一个存储器和计算机程序代码被配置为与至少一个处理器一起使得装置：对于自由视点媒体的音频对象，识别音频对象的对象分类类型；以及基于所识别的音频对象的对象分类类型，将至少一个预先确定的异常修改参数与音频对象相关联以用于播放音频对象的时候。

根据另一示例，示例性装置可以包括由机器能够读取的非瞬态程序存储设备，其有形地体现由机器能够执行的用于执行操作的程序指令，该操作包括：对于自由视点媒体的音频对象，识别音频对象的对象分类类型；并且基于所识别的音频对象的对象分类类型，将至少一个预先确定的异常修改参数与音频对象相关联以用于播放音频对象的时候。

本文描述的第一特征涉及自由视点音频对象的环境中的交互的定义和检测。另外，它涉及基于交互来定义参数修改的程度。本文描述的第二特征涉及实际参数修改以及它如何影响音频对象的渲染。第一特征可以用作启动器技术，用于解决关于位置异常的问题。这些特征可用于创建提供端到端解决方案的系统，其中内容制作者将控制用户如何与音频对象交互以及如何相应地实现渲染。利用本文描述的特征，可以满足当用户与音频对象联系时需要发生某些事件的需要，以用于创建可信的体验。这基本上是间接或非自愿的交互。结果通常可以是“自然的”和“可信的”。这不仅仅是自定义地与地理位置相关联的音频效果。本文描述的特征可以与完全地自由视点音频一起使用并且用于修改“单个”音频对象；不仅仅是组合音频对象。

应该理解，前面的描述仅是说明性的。本领域技术人员可以设计出各种替换和修改。例如，各种从属权利要求中记载的特征可以以任何合适的组合彼此组合。另外，来自以上不同实施例的特征可以选择性地组合成新的实施例。因此，该描述旨在涵盖落入所附权利要求范围内的所有这些替代、修改和变化。

Claims

1.一种用于音频对象修改的装置，包括：

至少一个处理器；以及

包括计算机程序代码的至少一个非瞬态存储器，所述至少一个存储器以及计算机程序代码被配置为，与所述至少一个处理器一起，使得所述装置：

确定与至少一个音频对象相关联的音频对象元数据，其中所述音频对象元数据包括至少一个指令，所述指令用于基于至少一个预先确定的异常修改参数响应于位置冲突异常的检测来在自由视点渲染中渲染所述至少一个音频对象；以及

发送所述音频对象元数据，其中所述音频对象元数据被配置为修改所述至少一个音频对象的渲染。

2.根据权利要求1所述的装置，其中所述至少一个预先确定的异常修改参数包括位置参数，其中所述位置参数定义针对所述至少一个音频对象的位置修改。

3.根据权利要求1所述的装置，其中所述至少一个预先确定的异常修改参数包括缩放参数，其中所述缩放参数定义针对所述至少一个音频对象的大小修改。

4.根据权利要求1所述的装置，其中所述至少一个预先确定的异常修改参数包括旋转参数，其中所述旋转参数定义针对所述至少一个音频对象的旋转修改。

5.根据权利要求1所述的装置，其中所述至少一个预先确定的异常修改参数包括放大参数，其中所述放大参数相对于所述至少一个音频对象的原始音量定义所述至少一个音频对象的音量。

6.根据权利要求1所述的装置，其中包括计算机程序代码的所述至少一个非瞬态存储器被进一步配置为，与所述至少一个处理器一起，使得所述装置提供接口，以设置所述至少一个预先确定的异常修改参数，用于以下至少一个：

所述至少一个音频对象，

至少一个频道，或

对于检测到的用户交互的至少一个跟踪。

7.根据权利要求1所述的装置，其中用于响应于所述位置冲突异常的检测来在所述自由视点渲染中渲染所述至少一个音频对象进一步包括基于以下项目中的至少一个的用于所述位置冲突异常的检测的至少一个指令：

所述渲染的当前位置，

所述渲染的先前位置，或

所述渲染的下一位置，

其中所述渲染的所述当前位置、所述先前位置和所述下一位置每一个包括用户的视点。

8.根据权利要求1所述的装置，其中所述音频对象元数据进一步包括定义何时将修改所述至少一个音频对象的渲染的至少一个指令。

9.根据权利要求1所述的装置，其中所述音频对象元数据进一步包括定义所述至少一个音频对象的渲染将被修改到何程度的至少一个指令。

10.根据权利要求1所述的装置，其中所述位置冲突异常的检测基于距离参数。

11.根据权利要求1所述的装置，其中包括计算机程序代码的所述至少一个非瞬态存储器被进一步配置为，与所述至少一个处理器一起，使得所述装置发送所述至少一个音频对象。

12.根据权利要求1所述的装置，其中所述音频对象元数据包括以下中的至少一个：

频道，

轨道，

方向性子带分量集合，

修改参数，或

渲染参数。

13.根据权利要求1所述的装置，其中包括计算机程序代码的所述至少一个非瞬态存储器被进一步配置为，与所述至少一个处理器一起，使得所述装置发送所述音频对象元数据以用于音频对象空间修改。

14.根据权利要求13所述的装置，其中包括计算机程序代码的所述至少一个非瞬态存储器被进一步配置为，与所述至少一个处理器一起，使得所述装置将所述元数据发送给音频对象空间修改引擎。

15.一种用于音频对象修改的方法，包括：

16.根据权利要求15所述的方法，其中所述至少一个预先确定的异常修改参数包括位置参数，其中所述位置参数定义针对所述至少一个音频对象的位置修改。

17.根据权利要求15所述的方法，其中所述至少一个预先确定的异常修改参数包括缩放参数，其中所述缩放参数定义针对所述至少一个音频对象的大小修改。

18.根据权利要求15所述的方法，其中所述至少一个预先确定的异常修改参数包括旋转参数，其中所述旋转参数定义针对所述至少一个音频对象的旋转修改。

19.根据权利要求15所述的方法，其中所述至少一个预先确定的异常修改参数包括放大参数，其中所述放大参数相对于所述至少一个音频对象的原始音量定义所述至少一个音频对象的音量。

20.根据权利要求15所述的方法，其中用于响应于所述位置冲突异常的检测来在所述自由视点渲染中渲染所述至少一个音频对象进一步包括基于以下项目中的至少一个的用于所述位置冲突异常的检测的至少一个指令：

所述渲染的当前位置，

所述渲染的先前位置，或

所述渲染的下一位置，

21.一种机器可读的非瞬态存储器，其有形地体现了由所述机器能够执行的用于执行操作的程序指令，所述操作包括：