CN111492342A

CN111492342A - 音频场景处理

Info

Publication number: CN111492342A
Application number: CN201880080993.4A
Authority: CN
Inventors: A·埃罗南; J·A·利帕南; S·S·马特; A·勒蒂涅米
Original assignee: Nokia Technologies Oy
Current assignee: Nokia Technologies Oy
Priority date: 2017-12-27
Filing date: 2018-12-03
Publication date: 2020-08-04
Anticipated expiration: 2038-12-03
Also published as: EP3506080A1; US11221821B2; EP3506080B1; TW201928945A; CN111492342B; US20200401364A1; WO2019130133A1; TWI709131B

Abstract

公开了一种装置，包括：用于从音频场景中的多个音频对象中标识感兴趣的一个或多个音频对象部件；以及用于处理与多个对象相关联的第一音频信号，以用于提供给用户设备的部件。处理可以基于用户设备在音频场景中的位置。处理可以包括：组合与音频对象相关联的第一音频信号，以形成经组合的第一音频信号；修改经组合的第一音频信号的振幅并且将经组合的第一音频信号的最大振幅限制为第一电平；以及修改与感兴趣的一个或多个音频对象相关联的一个或多个个体第一音频信号的振幅，所述修改独立于经组合的第一音频信号的振幅。

Description

音频场景处理

技术领域

本公开涉及用于音频场景处理的方法和系统，尤其是(但不排他地)用于包括来自一个或多个音频对象的空间音频的虚拟现实(VR)和增强现实(AR)内容的方法和系统。

背景技术

虚拟现实(VR)是将视频内容和音频内容中的一者或两者提供给用户设备的快速发展的技术领域。用户设备可以被提供有来自内容源的实时或所存储的馈送，该馈送表示用于通过用户设备进行沉浸式输出的虚拟现实空间或世界。在提供音频的情况下，可以是空间音频的音频表示从多个音频对象捕获或合成的音频。虚拟空间或虚拟世界是空间(例如捕获到的现实世界空间)的任何计算机生成的版本，用户可以通过诸如虚拟现实头戴式受话器的用户设备而沉浸其中。虚拟现实头戴式受话器可以被配置为例如通过使用被并入在头戴式受话器内的视频屏幕和头戴式耳机对来向用户提供虚拟现实视频和空间音频内容中的一者或多者。

用户设备的位置和/或移动可以增强沉浸式体验。一些虚拟现实用户设备使用所谓的三自由度(3DoF)，其意味着偏航轴、俯仰轴以及滚转轴中的头部移动被测量到并且确定用户看到和听到的内容。在用户旋转其头部时，这促进了场景在单个位置中主要保持静态。下一阶段可以被称为3DoF+，其可以促进例如在位置周围的数十厘米的范围内的欧几里德空间中的有限平移移动。又一阶段是六自由度(6DoF)系统，其中，用户能够在欧几里德空间中自由地移动并且在偏航轴、俯仰轴以及滚转轴中旋转其头部。六自由度系统和方法将实现体积虚拟现实内容的供应和消耗。

体积虚拟现实内容包括从所有角度以三维度来表示空间和/或对象的数据，使用户能完全在空间和/或对象周围移动，以从任何角度查看和/或听到这些数据。

为了避免产生疑问，对虚拟现实(VR)的参考也旨在涵盖相关技术，诸如增强现实(AR)。

发明内容

第一方面提供了一种装置，包括：用于从音频场景中的多个音频对象中标识感兴趣的一个或多个音频对象的部件；以及用于通过以下操作来处理与多个对象相关联的第一音频信号以用于提供给用户设备的部件：组合与音频对象中的至少一些音频对象相关联的第一音频信号，以形成经组合的第一音频信号；修改该经组合的第一音频信号的振幅并且将经组合的第一音频信号的最大振幅限制为第一电平；以及

修改与感兴趣的一个或多个音频对象相关联的一个或多个个体第一音频信号的振幅，所述修改独立于经组合的第一音频信号的振幅。

该装置可以还包括用于随后将受到第一电平限制的经组合的第一音频信号与一个或多个个体第一音频信号组合并且将所得信号提供给用户设备的部件。

处理部件在第一处理路径中可以将第一动态范围压缩应用于经组合的第一音频信号；并且在第二处理路径中可以将单独的第二动态范围压缩应用于分别与一个或多个感兴趣对象相关联的一个或多个单独的第一音频信号。

该处理部件可以还执行：在组合之前在第一处理路径中对第一音频信号进行放大；以及在将个体的第二动态范围压缩应用于一个或多个个体第一音频信号之后，在第二处理路径中进行放大，该放大是基于的是用户设备距感兴趣的一个或多个音频对象的距离。

该放大可以通过用户设备距一个或多个感兴趣音频对象的倒排距离而被确定。

感兴趣的多个对象可以通过标识部件而被标识，并且其中通过处理部件被个体地应用于每个个体第一音频信号的第二动态范围压缩可以具有不同动态范围压缩特性。

该处理部件可以被配置为使得分别与一个或多个感兴趣对象相关联的一个或多个第一音频信号的比例(i)在组合并应用第一动态范围压缩之前被减小并且(ii)在将个体第二动态范围压缩应用于所述一个或多个信号之前被同时地增大。

该处理部件可以被配置为使得经组合的第一音频信号仅包括与除了一个或多个感兴趣音频对象之外的音频对象相关联的第一音频信号。

该处理部件可以通过求和来组合音频信号。

感兴趣的一个或多个对象可以基于距用户设备的距离而被标识。

感兴趣的一个或多个对象可以基于用户设备相对于对象的移动方向而被标识。

音频对象可以包括体积虚拟场景中的虚拟对象。

个体第一音频信号可以受限于与第一最大振幅电平不同的第二最大振幅电平，并且第一最大振幅电平与第二最大振幅电平之间的差异可以基于用户设备在音频场景中的位置来动态地调整。

另一方面提供了一种方法，包括：从音频场景中的多个音频对象中标识感兴趣的一个或多个音频对象；处理与多个对象相关联的第一音频信号以用于提供给用户设备，包括：组合与音频对象相关联的第一音频信号，以形成经组合的第一音频信号；

修改经组合的第一音频信号的振幅并且将经组合的第一音频信号的最大振幅限制为第一电平；以及修改与感兴趣的一个或多个音频对象相关联的一个或多个个体第一音频信号的振幅，该修改独立于经组合的第一音频信号的振幅。

另一方面提供了一种计算机可读介质，包括在其上存储的计算机程序代码，该计算机可读介质和计算机程序代码被配置为当在至少一个处理器上运行时：从音频场景中的多个音频对象中标识感兴趣的一个或多个音频对象；处理与多个对象相关联的第一音频信号以用于提供给用户设备，包括：

组合与音频对象相关联的第一音频信号，以形成经组合的第一音频信号；修改经组合的第一音频信号的振幅并且将经组合的第一音频信号的最大振幅限制为第一电平；以及修改与感兴趣的一个或多个音频对象相关联的一个或多个个体第一音频信号的振幅，所述修改独立于经组合的第一音频信号的振幅。

另一方面提供了一种装置，该装置具有至少一个处理器和至少一个存储器，该至少一个存储器在其上存储有计算机可读代码，该计算机可读代码在被执行时控制至少一个处理器：从音频场景中的多个音频对象中标识感兴趣的一个或多个音频对象；处理与多个对象相关联的第一音频信号以用于提供给用户设备，包括：组合与音频对象相关联的第一音频信号，以形成经组合的第一音频信号；修改经组合的第一音频信号的振幅并且将经组合的第一音频信号的最大振幅限制为第一电平；以及修改与一个或多个感兴趣音频对象相关联的一个或多个个体第一音频信号的振幅，所述修改独立于经组合的第一音频信号的振幅。

另一方面提供了一种非瞬态计算机可读介质，该非瞬态计算机可读介质在其上存储有计算机可读代码，该计算机可读代码在被至少一个处理器执行时使该至少一个处理器执行方法，该方法包括：从音频场景中的多个音频对象中标识感兴趣的一个或多个音频对象；以及处理与多个对象相关联的第一音频信号以用于提供给用户设备，包括：

组合与音频对象相关联的第一音频信号，以形成经组合的第一音频信号；修改经组合的第一音频信号的振幅并且将经组合的第一音频信号的最大振幅限制为第一电平；以及修改与一个或多个感兴趣音频对象相关联的一个或多个个体第一音频信号的振幅，所述修改独立于经组合的第一音频信号的振幅。

附图说明

现在将参照附图以非限制性示例方式描述实施例，在附图中：

图1是根据本文中所描述的各种示例的音频捕获系统的示例，该音频捕获系统可以被使用以便捕获用于处理的音频信号；

图2是根据示例实施例的虚拟现实显示系统的透视图；

图3是根据示例实施例的包括图2的虚拟现实显示系统的计算机网络的框图；

图4是根据示例实施例的形成图2的虚拟现实显示系统的一部分的媒体播放器的组件的示意图；

图5是包括关于承载虚拟现实头戴式受话器的用户示出的多个音频对象的示例音频场景的俯视平面图；

图6是示出了可以在示例实施例中采用的动态范围压缩特性的示例操作的示意图；

图7是包括关于承载虚拟现实头戴式受话器的用户示出的多个音频对象的示例音频场景的俯视平面图，该用户在音频场景中平移移动；

图8是示出了根据示例性实施例的可以执行的处理操作的流程图；

图9是与图7类似的可用于解释图8的处理操作的俯视平面图；以及

图10是提供了用以实现图8的处理操作的方式的电路或处理器的示意图。

具体实施方式

在说明书和附图中，相同的附图标记始终表示相同的元件。

在概述中，实施例总体上涉及对来自音频场景(例如虚拟现实(VR)音频场景或增强现实(AR)音频场景)中的多个对象的音频信号的音频处理，但本文中所描述的方法和系统不限于此。音频场景可以伴随有视频场景，该视频场景包括视觉虚拟世界中的对象的视效，但这并不是必需的。通常佩戴或携带诸如具有一个或多个显示屏和听筒的虚拟现实头戴式受话器的用户设备的用户可以通过移动来探索音频和/或视频场景，该探索可以在六个自由度中，其中，用户能够在欧几里德空间中自由移动，并在偏航轴、俯仰轴和滚转轴上旋转其头部。

实施例尤其涉及音频处理方法和系统，由此感兴趣的一个或多个对象被标识，并且从这些感兴趣对象得出的音频信号与来自其他对象的那些音频信号被不同地处理。音频信号可以直接从由音频对象携带的麦克风或拾音器(pickup)提供，或可以从可以由空间捕获装置产生的复合音频信号中被提取，或可以从两者的组合中被提取。

例如，佩戴或携带诸如虚拟现实(VR)头戴式受话器的用户设备的用户可以以其更接近或更远离一个或多个声音对象(例如产生声音的对象，诸如歌手或乐器)的方式来探索场景。可以通过下文将要描述的任何合适的位置确定技术来确定用户随着时间变化的位置，且因此确定移动。为了提供真实感，当用户接近对象时，来自这种对象的声音应该变得更响亮(振幅较高)，而当用户远离对象移动时，来自这种对象的声音应该变得更安静(振幅较低)。最大振幅电平通常针对这种音频信号而被设置，以免打扰或压倒用户，但其缺点在于，如果在用户极为接近特定对象之前已经达到该电平，但振幅将不会再进一步增加。这有损真实感。避免该问题的一种方式是减小其他背景声音的振幅，以使所接近的对象的声音的振幅相对增加。然而，在复杂的音频场景中或在用户相对于对象来回移动的情况下，在背景声音的电平中将会发生连续变化，这可能会干扰和/或有损真实感。

本文中的实施例提供了改进。

图1是根据本文中所描述的各种示例的音频捕获系统1的示例，该音频捕获系统1可以被使用以便捕获用于处理的音频信号。在该示例中，系统1包括被配置为捕获空间音频信号的空间音频捕获装置10以及一个或多个附加音频捕获设备12A、12B、12C。

空间音频捕获装置10包括多个音频捕获设备101A、101B(例如方向性麦克风或无方向性麦克风)，其被布置为捕获音频信号，该音频信号随后可以以重构的声音被收听者感知为源自至少一个虚拟空间位置的方式被空间地绘制成音频流。通常，由空间音频捕获装置10捕获到的声音从多个不同的音频对象被得出，这些音频对象可以相对于空间音频捕获装置10处于一个或多个不同位置处。由于捕获到的空间音频信号包括从多个不同的声音源得出的分量，因此可以将其称为复合音频信号。尽管在图1中仅两个音频捕获设备101A、101B可见，但空间音频捕获装置10可以包括多于两个的设备101A、101B。例如，在一些具体示例中，音频捕获装置10可以包括八个音频捕获设备。

在图1的示例中，空间音频捕获装置10也被配置为通过多个视觉内容捕获设备102A至102G(例如摄像机)来捕获视觉内容(例如视频)。空间音频捕获装置10的多个视觉内容捕获设备102A至102G可以被配置为从装置周围的各种不同方向捕获视觉内容，从而提供用于用户消费的沉浸感(或虚拟现实内容)。在图1的示例中，空间音频捕获装置10是存在捕获设备(presence-capture device)，诸如诺基亚的OZO摄像机。然而，如应了解，空间音频捕获装置10可以是另一类型的设备和/或可以由多个物理上分离的设备组成。例如，空间音频捕获装置10可以仅记录音频而非视频。如也应理解，尽管捕获到的内容可以适合于作为沉浸式内容而提供，但其也可以例如经由智能电话或平板电脑以常规的非VR格式提供。

如先前所提及，在图1的示例中，空间音频捕获系统1还包括一个或多个附加音频捕获设备12A至12C。附加音频捕获设备12A至12C中的每个麦克风可以包括至少一个麦克风，并且在图1的示例中，附加音频捕获设备12A至12C是被配置用于捕获源自于相关联的用户13A至C的音频信号的领夹式麦克风。用户13A至13C在此上下文中表示声音或音频对象，因为这些用户产生了声音。例如，在图1中，附加音频捕获设备12A至12C中的每个音频捕获设备通过以某种方式附着到用户而与不同用户相关联。然而，应了解，在其他示例中，附加音频捕获设备12A至12C可以采用不同形式和/或可以位于音频捕获环境内的固定的预定位置处。

附加音频捕获设备12A至12C和/或空间音频捕获装置10在音频捕获环境内的位置可以由音频捕获系统1(例如音频处理装置14)知道或可以由音频捕获系统1(例如音频处理装置14)确定。例如，在移动音频捕获装置的情况下，装置可以包括用于使装置的位置被确定的位置确定组件。在一些具体示例中，可以采用诸如高精度室内定位的射频位置确定系统，由此附加音频捕获设备12A至C(且在一些示例中为空间音频捕获装置10)传输用于使位置服务器能确定附加音频捕获设备在音频捕获环境内的位置的消息。在其他示例中，例如，当附加音频捕获设备12A至C是静态的时，位置可以由形成音频捕获系统1的一部分的实体(例如音频处理装置14)预先存储。

在图1的示例中，音频捕获系统1还包括音频处理装置14。音频处理装置14被配置为接收和存储由空间音频捕获装置10和一个或多个附加音频捕获设备12A至12C捕获到的信号。信号可以在音频信号的捕获期间实时地在音频处理装置14处被接收或可以随后例如经由中间存储设备被接收。在这种示例中，音频处理装置14可以在音频捕获环境本地或可以在地理上远离提供了音频捕获装置10和设备12A至C的音频捕获环境。在一些示例中，音频处理装置14甚至可以形成空间音频捕获装置10的一部分。

由音频信号处理装置14接收的音频信号可以包括具有扩音器格式的多信道音频输入。这种格式可以包括但不限于立体声信号格式、4.0信号格式、5.1信号格式以及7.1信号格式。在这种示例中，由图1的系统捕获到的信号可能已经从其最初的原始格式被预处理成扩音器格式。备选地，在其他示例中，由音频处理装置14接收的音频信号可以具有多麦克风信号格式，诸如原始八信道输入信号。在一些示例中，原始多麦克风信号可以通过音频处理装置14使用空间音频处理技术进行预处理，从而将接收到的信号转换为扩音器格式或双声道格式。

在一些示例中，音频处理装置14可以被配置为将从一个或多个附加音频捕获设备12A至12C得出的信号与从空间音频捕获装置10得出的信号混合。例如，可以利用附加音频捕获设备12A至C的位置将从附加音频捕获设备12A至12C得出的信号混合到从空间音频捕获装置10得出的空间音频内的正确空间位置。由音频处理装置14对信号进行的混合可以是部分或完全自动化的。

音频处理装置14可以还被配置为执行由附加音频捕获设备12A至12C所捕获到的音频对象在空间音频捕获装置10捕获到的空间音频内的空间重新定位(或允许执行空间重新定位)。

音频对象的空间重新定位可以被执行，以实现将来利用自由视点音频在三维空间中进行绘制，用户可以自由地在该三维空间中选择新收听位置。此外，空间重新定位可以被用于分离音频对象，从而使这些音频对象更个体清楚。类似地，空间重新定位可以被用于通过修改特定音频源的空间位置来着重/不再着重特定音频源。空间重新定位的其他用途可以包括但不特定地限于将特定音频对象放置到所需的空间位置，从而引起收听者关注(这些可以被称为音频提示)，限制音频对象的移动以与特定阈值相匹配，并通过扩宽各种音频对象的空间位置来扩宽混合音频信号。用于执行空间重新定位的各种技术在本领域中是已知的，因此在本文中将不对此进行详细描述。

图2是表示用户端设备的虚拟现实显示系统201的示意性图示。虚拟现实系统201包括用于显示虚拟现实空间的视觉数据的具有虚拟现实头戴式受话器220形式的用户设备；以及用于在虚拟现实头戴式受话器220上绘制视觉数据的虚拟现实媒体播放器210。在一些示例实施例中，可以将分离的用户控件(未示出)与虚拟现实显示系统1(例如手持式控制器)相关联。

在本说明书的上下文中，虚拟空间或世界是空间的任何计算机生成的版本，例如捕获到的现实世界空间，用户可以沉浸在该现实世界空间中。在一些示例实施例中，虚拟空间可以是完全计算机生成的，即，不从图1的空间音频捕获装置捕获和接收。虚拟现实头戴式受话器220可以属于任何合适的类型。虚拟现实头戴式受话器220可以被配置为向用户提供虚拟现实视频和/或音频内容数据。因而，用户可以沉浸于虚拟空间中。

虚拟现实头戴式受话器220从虚拟现实媒体播放器210接收虚拟现实内容数据。虚拟现实媒体播放器210可以是通过有线或无线连接而连接到虚拟现实头戴式受话器220的单独设备的一部分。例如，虚拟现实媒体播放器210可以包括游戏控制台或被配置为将视觉数据传达到虚拟现实头戴式受话器220的PC。

备选地，虚拟现实媒体播放器210可以形成虚拟现实头戴式受话器220的一部分。

此处，虚拟现实媒体播放器210可以包括移动电话、智能电话或平板计算机，该移动电话、智能电话或平板计算机被配置为通过其显示器来播放内容。例如，虚拟现实媒体播放器210可以是在设备的主表面上方具有较大显示器的触摸屏设备，视频内容通过该触摸屏设备可以被显示。虚拟现实媒体播放器210可以被插入虚拟现实头戴式受话器220的固定器中。利用这种虚拟现实头戴式受话器220，智能电话或平板计算机可以显示经由虚拟现实头戴式受话器220中的相应透镜被提供给用户的眼睛的视觉数据。虚拟现实显示系统1还可以包括被配置为转换设备作为虚拟现实显示系统201的一部分而操作。备选地，虚拟现实媒体播放器210可以集成到虚拟现实头戴式受话器220中。虚拟现实媒体播放器210可以以软件被实现。在一些示例实施例中，包括虚拟现实媒体播放器软件的设备被称为虚拟现实媒体播放器210。

虚拟现实显示系统201可以包括用于确定用户的空间位置和/或用户头部的定向的部件。这可以借助于确定虚拟现实头戴式受话器220的空间位置和/或定向。在连续的时间帧上，可以因此计算并存储对移动的测量。这种部件可以包括虚拟现实媒体播放器210的一部分。备选地，该部件可以包括虚拟现实头戴式受话器220的一部分。例如，虚拟现实头戴式受话器20可以包含运动追踪传感器，该运动追踪传感器可以包括陀螺仪、加速度计和结构化光系统中的一个或多个。这些传感器生成位置数据，根据该位置数据来确定当前视觉视场(FOV)，并且该当前视觉视场在用户且因此虚拟现实头戴式受话器220改变位置和/或定向时进行更新。虚拟现实头戴式受话器220可以包括用于在用户的相应眼部前面显示虚拟世界的立体视频图像的两个数字屏幕，且还包括用于传递音频的两个头戴式头戴式受话器、耳塞或扬声器。本文中的示例实施例不限于特定类型的虚拟现实头戴式受话器220。

在一些示例实施例中，虚拟现实显示系统201可以使用上文所提及的六自由度方法来确定用户头部的空间位置和/或定向。如图1中所示出，这些包括俯仰222、滚动223和偏航224的测量并且还包括欧几里德空间中沿着左右、前后和上下轴225、226、227的平移移动。

虚拟现实显示系统201可以被配置为基于虚拟现实头戴式受话器的空间位置和/或定向虚拟现实头戴式受话器220显示虚拟现实内容数据。空间位置和/或定向的检测到的变化(即，移动形式)可以导致视觉和/或音频数据中的对应变化，以参考视觉数据投影到的空间来反映用户的位置或定向转变。这允许虚拟现实内容数据由体验3D虚拟现实环境的用户消费。

在体积虚拟现实空间或世界的背景中，这意味着可以相对于体积虚拟现实内容内提供的内容来检测用户的位置，例如以使得用户可以在给定的虚拟现实空间或世界内围绕单独对象或对象组自由地移动，并且可以根据其头部的旋转从不同角度查看和/或收听对象。在稍后将描述的示例实施例中，用户还可以查看和探索多个不同的虚拟现实空间或世界，并且从一个虚拟现实空间或世界移动到另一虚拟现实空间或世界。

可以将音频数据提供给作为虚拟现实头戴式受话器220的一部分而提供的头戴式头戴式受话器。音频数据可以表示空间音频源内容和/或可以表示来自图1中所示出的附加音频捕获设备12A至C的信号。空间音频可以指虚拟现实空间或世界中的音频的方向性绘制，以使用户的空间位置或其头部定向的检测到的变化可以导致空间音频绘制中的对应变化，以参考绘制空间音频数据的空间来反映转变。

通过虚拟现实头戴式受话器220可观察或可听到的环境的角度范围被称为视觉或听觉视场(FOV)。由用户在视觉方面观察到的实际FOV取决于瞳孔间距离以及虚拟现实头戴式受话器220的透镜与用户的眼部之间的距离，但当虚拟现实头戴式受话器正由用户佩戴时，对于给定显示设备的所有用户，FOV可以被视为是大致相同的。

参照图3，可以作为图1中所示出的音频处理装置14的远程内容提供者230可以存储和传输流虚拟现实内容数据，在示例实施例的上下文中，该流虚拟现实内容数据是用于输出到虚拟现实头戴式受话器220的体积虚拟现实内容数据。响应于接收或下载由虚拟现实媒体播放器210发送的请求，内容提供者230通过数据网络240串流虚拟现实数据，该数据网络可以是任何网络，例如IP网络，诸如互联网。

远程内容提供者230可以是或可以不是虚拟现实视频在其中被捕获、创建和/或处理的位置或系统。

出于说明的目的，我们可以假定内容提供者230还捕获虚拟现实内容，对虚拟现实内容进行编码并且存储虚拟现实内容，并且响应于来自虚拟现实显示系统201的信号来串流虚拟现实内容。

图4是虚拟现实媒体播放器210的组件的示意图。这假定了在虚拟现实媒体播放器210内处理本文中的实施例，但应了解，可以在虚拟现实头戴式受话器220内处理本文中的实施例，在这种情况下，将存在对应组件。

虚拟现实媒体播放器210可以具有控制器250、紧被密耦合到控制器并且由RAM262和ROM 264以及网络接口270组成的存储器260。其可以附加地但非必需地包括显示器和硬件密钥。控制器250连接到其他组件中的每一个，以便控制其操作。

网络接口270可以被配置成连接到网络240，例如可以是有线或无线的调制解调器。示出了用于无线连接的天线272，其可以使用例如WiFi和/或蓝牙。可以借助于网络接口270接收关于虚拟现实头戴式受话器220的位置的数据，并且可以借助于该网络接口将视频和/或音频数据传输到虚拟现实头戴式受话器220。

存储器260可以包括硬盘驱动器(HDD)或固态驱动器(SSD)。除了其他之外，存储器260的ROM 264还存储操作系统266，并且可以存储一个或多个软件应用268。RAM 262由控制器250用于临时存储数据。操作系统266可以包含代码，该代码在被控制器250连同RAM 262执行时控制硬件组件中的每个硬件组件的操作。

控制器250可以采用任何合适的形式。例如，其可以是微控制器、多个微控制器、处理器或多个处理器。

在一些示例实施例中，也可以将虚拟现实媒体播放器210与外部软件应用相关联。这些可以是存储在远程服务器设备上的应用，并且可以部分或专门在远程服务器设备上运行。这些应用可以被称作云托管应用或数据。虚拟现实媒体播放器210可以与远程服务器设备通信，以便利用存储在其中的软件应用。

现在将参考示例更详细地描述本文中的实施例。下文将描述的处理操作可以由设置于存储器260上的软件应用268执行，该软件应用用于基于针对佩戴虚拟现实头戴式受话器220的用户的一个或多个感兴趣对象来控制如何处理音频。如已经提及的，备选地，可以在虚拟现实头戴式受话器220本身或适合于处理音频的任何其他形式的用户设备中提供这种软件应用268。

图5示出了以俯视平面图示出的示例虚拟世界场景，该虚拟世界作为示例包括三个音频对象301、303、305。每个音频对象301、303、305可以是具有任何形式的捕获到的或生成的音频对象。在该示例中，第一音频对象301可以表示发出引擎噪声的第一车辆，第二音频对象303可以表示发出不同引擎噪声的第二车辆，且第三音频对象305可以表示正在讲话或唱歌的人。出于方便起见，还关于第一音频对象至第三音频对象301、303、305示出了佩戴上述虚拟现实头戴式受话器220的用户300的位置。

在操作中，将基于用户位置向虚拟现实头戴式受话器220的头戴式头戴式受话器绘制来自第一音频对象至第三音频对象301、303、305中的每个音频对象的具有数字形式的音频信号。因此，来自第三音频对象305的音频信号可以比来自第一音频对象和第二音频对象301、303的其他音频信号更突出，例如以更高增益绘制，这是因为来自第三音频对象305的音频信号更接近用户300。所述音频信号的位置也将在用户的前面，而来自第一音频对象和第二音频对象301、303的音频信号将在其相应的偏心位置处被感知。

在一些实施例中，增益是控制音频信号振幅的因素。我们可以将音频信号样本与增益系数(例如在0与1之间)相乘，这导致信号振幅的变化。振幅变化在由系统实现时可以通过与特定增益系数相乘被执行。

在用户300接近第一音频对象至第三音频对象301、303、305中的一个时，相应音频信号的振幅将变得更响亮，从而以真实度进行绘制。常规上，可以应用被称为动态范围压缩(DRC)的音频信号处理的形式来限制最大振幅，且因此限制被绘制为虚拟现实头戴式受话器220的音量。

图6示出了用于应用向下压缩的典型动态范围压缩特性。如将看到，随着以分贝为单位的输入电平增加，以分贝为单位的输出电平也以对应速率增加。然而，在阈值点310处，输入电平的持续增加导致了增加的输出电平的速率减小，这意味着振幅或音量仍将增加，但以较小速率增加。最大振幅在点312处指示，在该点处，防止输出电平进一步增加。

图7是与图5的视图类似的视图。此处，在从第一位置A到第二位置B然后到第三位置C的平移移动的三个阶段期间示出了用户300。位置A表示如图5中所示出的起始位置。用户300然后可以开始探索虚拟世界，该用户已经听到在其前面的第一音频对象到第三音频对象301、303、305。在这一点上，第一音频对象至第三音频对象301、303、305的音频信号的相应音量可能相当响亮，可能地相对于距离较远且在图中不可见的其他对象而言。在到达第二位置B时，来自第一音频对象至第三音频对象301、303、305的音频信号将变得甚至更响亮，可能应用了图6的动态范围压缩，并且在这一点上假定达到了最大振幅。在用户300进一步前进到第三位置C时，尽管归因于在位置B处达到了最大振幅的事实而进行了前进移动，但第一音频对象至第三音频对象301、303、305的绘制后的音频信号将保持在相同电平下。在一些实施例中，可以减小第一对象和第二对象301、303的振幅，以基于相应位置使第三对象305听起来更接近用户300，但这具有如上文所提及的缺点。

相应地，在实施例中，提供了根据图8中所示出的操作进行操作的装置和方法。图8可以表示以软件、硬件或其组合执行的处理操作。在本文中的实施例中，我们假定图8的操作借助于图4中所示出的软件应用268以软件被执行。

第一操作8.1可以包括标识音频场景中感兴趣的一个或多个音频对象。

另一操作8.2可以包括基于用户设备在音频场景中的位置来处理与音频对象相关联的第一音频信号，以用于提供给用户设备。后续步骤8.3至8.5是可以包括操作8.2的示例处理操作。

操作8.3可以包括组合第一音频信号，该第一音频信号可以是第一音频信号的全部或子集。例如，仅来自不包括感兴趣的一个或多个对象的对象的第一音频信号可以被组合。例如，感兴趣的一个或多个对象的第一音频信号可以与其余对象不同被不同地处理，例如，使其振幅或增益被不同地调整或使比例被不同地处理。

操作8.4可以包括将来自操作8.3的经组合的第一音频信号限制为第一振幅电平。

操作8.5(其可以(但并不一定必须)与操作8.3和8.4并行执行)包括允许针对感兴趣对象的单独音频信号的相应振幅独立于经组合的第一音频信号的振幅(例如在操作8.4中所使用的有限的第一振幅电平)而增加或减小。

另一操作8.6可以包括组合从操作8.4和8.5得到的信号。

例如，可以修改(多个)个体音频信号的一个或多个最大振幅，例如增加到在操作8.4中所使用的第二振幅电平，该第二振幅电平大于第一振幅电平。然而，情况并非总是如此。即使限制了组合信号进一步增加，但重要的是，例如通过基于用户300与相关联的音频对象之间的距离的减小来增加单独音频信号的增益，相比于组合音频信号、个体音频信号被不同地修改或处理。

在一些实施例中，组合可以包括求和(即，相加)。

应注意，图8中所示出的操作是说明性的，并且某些操作可以被重新排序，顺序地而非并行地执行，反之亦然。在一些实施例中，可以省略某些操作和/或可以添加其他操作。

从上文，应了解，对于被确定为感兴趣的对象的某些音频对象允许附加净空(headroom)(即，超出组合信号所限制的范围之外的附加信号修改)，以便允许其(多个)相应音量振幅电平增大，而不考虑应用于其他音频对象的最大电平。如将解释的，这被发现提供了改进结果。

为了确定感兴趣的一个或多个对象，存在已知方法，并且这些已知方法可以基于以下示例中的一个或多个：

-最接近对象是感兴趣对象(基于距离的)；

-最接近的n个对象是感兴趣对象，其中，n>1(基于距离的)；

-用户设备的预定直径内的一个或多个对象是感兴趣对象(基于距离的)；

-用户设备的视场(FOV)内的一个或多个对象是感兴趣对象(基于视角的)；

-用户设备正在朝向其移动的一个或多个对象是感兴趣对象(基于位置或移动的)；

-用户正在与其交互的一个或多个对象是感兴趣对象(基于交互的)；以及

-属于一个或多个特定类别的一个或多个对象，诸如人类(基于类别的)

本公开不限于这种示例。

图9是与图7的视图类似的视图。与图7类似，在从第一位置A1到第二位置B1然后到第三位置C1的三个移动阶段期间示出了用户300。位置A1表示如图5中所示出的起始位置。用户300然后可以开始探索虚拟世界，该用户已经听到在其前面的第一音频对象到第三音频对象301、303、305。在这一点上，第一音频对象至第三音频对象301、303、305的音频信号的相应音量可能相当响亮，可能地相对于距离较远且在图中不可见的其他对象而言。使用图8的操作，可以基于第三对象305与用户设备220最接近来将该第三对象确定为唯一的感兴趣对象。

这样，例如与第一音频对象和第二音频对象301、303(例如由第一音频对象和第二音频对象301、303产生)相关联的音频信号可以被组合。在一些实施例中，由第三对象305产生的音频信号也可以与这些信号被组合，尽管处于较低的比例。组合信号被限制为第一振幅电平。允许独立于如何修改经组合的音频信号来修改与第三音频对象305相关联的音频信号。例如，与第三音频对象305相关联的音频信号的增益可以增加或减小；在增加时，所得振幅甚至可以超过该第一振幅电平。如果标识了多于一个的感兴趣对象，那么可以允许其相应音频信号中的每一个独立地改变或与第一振幅电平无关地改变。

相应地，在位置B1处，假定达到了第一振幅电平，来自第一音频对象和第二音频对象301、303的经组合的音频信号的振幅可能不会再进一步增加。然而，针对来自第三音频对象305的个体音频信号的振幅可以进一步增加，使得该感兴趣对象基于朝向其的前进移动而在用户300看来显得更加响亮。在用户300甚至更加接近第三位置C1时，振幅可以再进一步增加。在一些情况下，这可以增加，直到达到第二振幅最大电平的时间为止。

相应地，当移动得极为接近对象或更加远离对象移动时允许用户300感知到音量的变化。可以在不必在背景音级(有时被称为声床(sound bed))上产生恼人变化的情况下实现这一点。

图10是根据示例实施例的用于执行图8的过程的音频处理装置400的示意图。

在音频处理装置400中，将来自第一音频对象和第二音频对象的音频信号应用于相应输入节点401、402。第三输入节点402被示出为指示可以将来自更多数目的音频对象的其他音频信号应用于音频处理装置。可以满足任何数目的附加音频对象。

如应了解的，音频信号可以具有数字化形式，且因此对音频信号的参考等同于音频数据。

如所示的，音频处理装置400可以被布置为第一处理路径和第二处理路径410、420。下方的第一处理路径410用于处理组合信号上的主动态范围压缩。上方的第二处理路径420用于处理经由输入节点401、402等接收的来自一个或多个所标识的感兴趣对象的单独信号上的单独动态范围压缩。

来自第一处理路径410和第二处理路径420处理后的输出信号由求和模块430组合，之后，将处理后的音频提供给例如虚拟现实头戴式受话器220的头戴式头戴式受话器。

第一处理路径410包括主动态范围压缩模块460，该主动态范围压缩模块从输入节点401、402等接收所选择的和组合的音频信号。出于此目的，提供了组合器或求和模块450。主动态范围压缩模块460可以沿着与图6中所示出的具有最大允许第一电平312的特征类似的线应用第一动态范围压缩。在输入节点401、402等与求和模块450之间，可以提供一个或多个第一放大器g1,o，以控制经由输入节点401、402等接收到的信号的增益或衰减。可以在第一放大器g1,o之后提供第二放大器g2,o，以提供稍后将描述的距离规则增益。在两者中，“o”是指对象索引，例如1、2等。

第二处理路径420包括用于经由输入节点401、402等接收到的每个信号的个体第二动态范围压缩模块470。每个第二动态范围压缩模块470可以应用与第一动态范围压缩模块460的动态范围压缩不同的第二动态范围压缩。这并不是说每个第二动态范围压缩模块470具有相同特性；例如，第二动态范围压缩模块470中的不同第二动态范围压缩模块可以具有不同最大电平。

在输入节点401、402等与第二动态范围压缩模块470中的每个第二动态范围压缩模块之间，可以提供放大器1-g1,o，以用于在应用第二动态范围压缩之前控制经由输入节点401、402等接收到的信号的增益或衰减。在第二动态范围压缩模块470中的每个第二动态范围压缩模块与求和模块430之间，可以提供放大器g2,o，以基于距离规则增益来控制来自相应第二动态范围压缩模块470的信号的增益或衰减。距离规则增益可以通过用户设备距一个或多个感兴趣音频对象的反向距离来确定，即，使得随着距离的减小，增益增加，反之亦然。

如所示的，提供了感兴趣对象确定模块440，以用于控制被应用于各种放大器的增益/衰减。目的是控制被应用于第一处理路径和第二处理路径410、420中的每一个的动态范围控制器460、470的信号的比例(这可能是艰难的选择)，由此来自一个或多个感兴趣对象的信号被第一处理路径抑制，从而绕过主动态范围压缩460，且相反地，只有这些信号传递到第二处理路径中，而不是来自其他对象的其他信号。

在第一处理路径410中，信号路径中的每个第一放大器被称作g1,o，而相同信号路径中的每个第二放大器被称作g2,o，其中，o是对象索引。应了解，第一处理路径410促使对在输入节点401、402处接收到的放大/衰减后的信号进行求和，以创建表示例如除了被确定为感兴趣的那些音频内容之外的音频内容的信道床。

第二动态范围压缩模块470的目的是将来自单独的感兴趣对象的音频信号的音量电平保持为处于检查中。这是必需的，因为通过第二处理路径420传递的音频不会经过主动态范围控制器模块460。如果该音频具有高音量峰值，那么可能会出现输出削波。在通过g2,o进行放大之前应用第二动态范围压缩，以使得距离感知不受影响。

为了阐明，感兴趣对象确定模块440确定感兴趣的一个或多个对象。对于感兴趣对象或每个感兴趣对象，例如对于第一对象，可以同时减小g1,1的增益并增加1–g1,1的增益。这意味着对象音频将以较大比例通过第二处理路径420传递，并以较小比例通过第一处理路径410传递。用于该第一对象音频的第二动态范围压缩模块470可以具有与主动态范围压缩模块460的压缩形状类似的压缩形状，以使得其压缩较大输入电平。

如上文所提到的，增益g1,o可被配置用于通过将其设置为1(对象并不重要，因此用主动态范围压缩模块460进行处理)或0(对象重要，因此用第二动态范围压缩模块470单独进行处理)来硬选择是要使用第一处理路径410还是要使用第二处理路径420。

另一方面，放大器g2,o根据距离规则(例如反向距离或1/距离规则)来控制增益。由于在针对信号应用了第二动态范围压缩模块470之后应用该放大器，因此即使对象较响亮，也可以感觉到其效果。如果对象由于除了用户接近对象之外的其他原因而变得响亮，那么应用第二动态范围压缩模块470以抑制其响度。

当用户更加远离对象移动时，增益g1,o减小，且增益1–g1,o增加。这意味着音频对象再次通过正常处理。可以应用交叉衰落，以使得增益g1,o逐渐减小，这意味着1-g1,o逐渐增加，从而使得信号在不具有听觉效果的情况下平稳地移动到正常处理路径。

在一些实施例中，体积音频场景的不同部分可以具有针对主动态范围压缩和/或第二动态范围压缩模块470的不同设置。例如，音频场景的一些部分可能已应用了较强压缩，而一些部分可能已应用了较低压缩。

在一些实施例中，针对感兴趣对象预留的净空量可以取决于体积场景的位置；感兴趣对象选择逻辑或标识方法对于场景的不同部分可以是不同的。例如，在一些部分中，可以选择最接近的对象，而在其他部分中，该选择可以基于使用预定规则进行，例如标识高度重要的特定对象。

在以上实施例中对，经组合的第一信号的修改和对个体第一信号的修改可以基于用户设备关于一个或多个音频对象的位置。然而，在其他实施例中，修改可以基于例如通过一些其他交互手段进行的位置的改变。例如，用户可以与触摸屏交互以改变位置，而非在空间内实际移动。

本文中所描述的实例可以被实现在软件、硬件、应用逻辑或软件、硬件和应用逻辑的组合中。软件、应用逻辑和/或硬件可以驻留在存储器或任何计算机介质上。在示例实施例中，应用逻辑、软件或指令集合被保持在各种常规计算机可读介质中的任何一种上。在本文档的上下文中，“存储器”或“计算机可读介质”可以是可包含、存储、传送、传播或传输可供指令执行系统、装置或设备(诸如计算机)使用的或可与指令执行系统、装置或设备(诸如计算机)一起使用的指令的任何介质或部件。

在相关的情况下，对“计算机可读存储介质”、“计算机程序产品”、“有形体现的计算机程序”等或“处理器”、“处理电路系统”等的引用应该被理解为不仅囊括了具有不同架构的计算机，诸如单处理器/多处理器架构以及串行/并行架构，而且还囊括了专用电路，诸如现场可编程门阵列(FPGA)、专用电路(ASIC)、信号处理设备和其他设备。对计算机程序、指令、代码等的引用应该被理解为将用于可编程处理器固件的软件(诸如硬件设备的可编程内容)表达为针对处理器的或针对固定功能设备、门阵列或可编程逻辑设备等的已配置设置或配置设置的指令。

如本申请中所使用，术语‘电路系统’是指以下全部：(a)纯硬件电路实现(诸如仅在模拟和/或数字电路系统中的实现)以及(b)电路和软件(和/或固件)的组合，诸如(若适用)：(i)(多个)处理器的组合或(ii)(多个)处理器/软件(包括(多个)数字信号处理器、软件和(多个)存储器的部分，这些部分一起工作以使装置(诸如移动电话或服务器)执行各种功能)和(c)电路(诸如(多个)微处理器或(多个)微处理器的一部分)，这些电路需要软件或固件(即使该软件或固件物理上不存在)来进行操作。

‘电路系统’的定义适用于该术语在本申请中(包括在任何权利要求项中)的所有使用。作为另一示例，如在本申请中所使用的，术语“电路系统”还将涵盖仅处理器(或多个处理器)或处理器的一部分及他(或他们)的随附软件和/或固件的实现。术语“电路系统”还将涵盖例如且在适用于特定权利要求要素的情况下服务器、蜂窝网络设备或其他网络设备中的移动电话或类似集成电路的基带集成电路或应用处理器集成电路。

若需要，本文中所论述的不同功能可以按照不同的顺序和/或彼此并行执行。此外，若需要，上述功能中的一种或者多种功能可以是可选的或可以被组合。

虽然在独立权利要求项中阐述了各个方面，但其他方面包括来自所描述的实施例和/或附属权利要求项的特征与独立权利要求项的特征的其他组合，且不仅包括在权利要求项中明确阐述的组合。在本文中还应注意，虽然上文描述了各种示例，但不应该以限制性意义来考虑这些描述。相反，存在可以在不脱离如随附权利要求书中所限定的本发明的范围的情况下进行的若干变化和修改。

Claims

1.一种装置，包括：

用于从音频场景中的多个音频对象中标识一个或多个感兴趣的音频对象的部件；

用于通过以下操作来处理与多个所述对象相关联的第一音频信号以用于提供给用户设备的部件：

组合与所述音频对象中的至少一些音频对象相关联的第一音频信号，以形成组合的第一音频信号；

修改所述经组合的第一音频信号的振幅并且将所述经组合的第一音频信号的最大所述振幅限制为第一电平；以及

修改与所述感兴趣的一个或多个音频对象相关联的一个或多个个体第一音频信号的所述振幅，所述修改独立于针对所述经组合的第一音频信号的修改。

2.根据权利要求1所述的装置，还包括用于随后将受到所述第一电平限制的所述经组合的第一音频信号与所述一个或多个个体第一音频信号组合并且将所得信号提供给所述用户设备的部件。

3.根据权利要求1或权利要求2所述的装置，其中所述处理部件：

在第一处理路径中，将第一动态范围压缩应用于所述经组合的第一音频信号；以及

在第二处理路径中，将个体第二动态范围压缩应用于分别与所述感兴趣的一个或多个对象相关联所述一个或多个个体第一音频信号。

4.根据权利要求3所述的装置，其中所述处理部件还执行：

在组合之前在所述第一处理路径中对所述第一音频信号进行放大；以及

在将个体的第二动态范围压缩应用于所述一个或多个个体第一音频信号之后在所述第二处理路径中进行放大，所述放大基于的是所述用户设备距感兴趣的所述一个或多个音频对象的距离。

5.根据权利要求4所述的装置，其中所述放大通过所述用户设备距所述感兴趣的一个或多个音频对象的倒排距离而被确定。

6.根据权利要求3至5中任一项所述的装置，其中感兴趣的多个对象通过所述标识部件而被标识，并且其中通过所述处理部件被个体地应用于每个个体第一音频信号的所述第二动态范围压缩具有不同动态范围压缩特性。

7.根据权利要求3至6中任一项所述的装置，其中所述处理部件被配置为使得分别与所述感兴趣的一个或多个对象相关联的一个或多个第一音频信号的比例(i)在组合并且应用第一动态范围压缩之前被减小，并且(ii)同时在将个体第二动态范围压缩应用于所述一个或多个信号之前被增大。

8.根据权利要求1至6中任一项所述的装置，其中处理部件被配置为使得所述经组合的第一音频信号仅包括与除了感兴趣的所述一个或多个音频对象之外的音频对象相关联的第一音频信号。

9.根据任一项前述权利要求所述的装置，其中所述处理部件通过求和来组合所述音频信号。

10.根据任一项前述权利要求所述的装置，其中所述感兴趣的一个或多个对象基于距所述用户设备的距离而被标识。

11.根据任一项前述权利要求所述的装置，其中所述感兴趣的一个或多个对象基于所述用户设备相对于所述对象的移动方向而被标识。

12.根据任一项前述权利要求所述的装置，其中所述音频对象包括体式虚拟场景中的虚拟对象。

13.根据权利要求12所述的装置，其中所述个体第一音频信号受限于与第一最大振幅电平不同的第二最大振幅电平，并且所述第一最大振幅电平与所述第二最大振幅电平之间的差异可以基于所述用户设备在所述音频场景中的位置来动态地调整。

14.一种方法，包括：

从音频场景中的多个音频对象中标识感兴趣的一个或多个音频对象；

处理与多个所述对象相关联的第一音频信号以用于提供给用户设备，包括：

组合与所述音频对象相关联的所述第一音频信号，以形成经组合的第一音频信号；

修改与感兴趣的所述一个或多个音频对象相关联的一个或多个个体第一音频信号的所述振幅，所述修改独立于针对所述经组合的第一音频信号的修改。

15.根据权利要求14所述的方法，还包括随后将受到所述第一电平限制的所述经组合的第一音频信号与所述一个或多个个体第一音频信号组合并且将所得信号提供给所述用户设备。

16.根据权利要求14或权利要求15所述的方法，还包括：

在第二处理路径中，将单独的第二动态范围压缩应用于所述一个或多个个体第一音频信号，所述一个或多个个体音频信号分别与所述感兴趣的一个或多个对象相关联。

17.根据权利要求16所述的方法，还包括：

在组合之前在所述第一处理路径中放大所述第一音频信号；以及

在所述第二处理路径中，在应用个体第二动态范围压缩之后，放大所述一个或多个个体第一音频信号，其中在所述第二处理路径中进行所述放大基于的是所述用户设备距感兴趣的所述一个或多个音频对象的距离。

18.根据权利要求17所述的方法，其中所述放大通过所述用户设备距所述感兴趣的一个或多个音频对象的倒排距离而被确定。

19.根据权利要求16至18中任一项所述的方法，其中感兴趣的多个对象被标识，并且其中被个体地应用于每个个体第一音频信号的所述第二动态范围压缩针对相应的所述个体第一音频信号具有不同的动态范围压缩特性。

20.一种计算机可读介质，包括在其上存储的计算机程序代码，所述计算机可读介质和计算机程序代码被配置为当在至少一个处理器上运行时：

修改与感兴趣的所述一个或多个音频对象相关联的一个或多个个体第一音频信号的所述振幅，所述修改独立于所述经组合的第一音频信号的所述振幅。