CN112205005B

CN112205005B - 使声学渲染适应基于图像的对象

Info

Publication number: CN112205005B
Application number: CN201980034595.3A
Authority: CN
Inventors: H·M·斯托金; H·N·欣德里克斯
Original assignee: Nederlandse Organisatie voor Toegepast Natuurwetenschappelijk Onderzoek TNO; Koninklijke KPN NV
Current assignee: Nederlandse Organisatie voor Toegepast Natuurwetenschappelijk Onderzoek TNO; Koninklijke KPN NV
Priority date: 2018-05-23
Filing date: 2019-05-23
Publication date: 2022-06-24
Anticipated expiration: 2039-05-23
Also published as: CN112205005A; US20210209855A1; WO2019224292A1; EP3797529A1; US11450071B2

Abstract

提供了一种用于使音频源的声学渲染适应基于图像的对象的视觉渲染的方法和处理器系统。这种视觉渲染可以在虚拟现实(VR)中或在增强现实(AR)中。可以对该基于图像的对象进行建模，并且可以在包含该音频源并且与该视觉渲染相关联的声学场景中建立表示该所建模的对象的音频对象。可以为该音频对象分配混响和/或吸收性质，并且可以使该声学渲染适应该音频对象。这样，该声学渲染可以适应基于图像的对象，并且用户可以将该声学渲染感知为更好地匹配该视觉渲染。

Description

使声学渲染适应基于图像的对象

技术领域

本发明涉及一种使音频源的声学渲染适应对象的视觉渲染的方法。该视觉渲染是提供给用户的基于图像的渲染，其中该视觉渲染是包括该对象的该基于图像的表示的场景的基于图像的表示的虚拟现实(VR)渲染和该对象的该基于图像的表示相对于现实生活场景的增强现实(AR)渲染中的一种。

本发明进一步涉及一种包括用于执行该方法的指令的计算机程序。本发明进一步涉及一种用于生成元数据以用于使音频源的声学渲染适应包括对象的场景的视觉渲染的处理器系统，以及一种用于基于该元数据来适应音频源的声学渲染的处理器系统。本发明进一步涉及一种包括该元数据的计算机可读介质。

背景技术

虚拟现实(VR)涉及使用计算机技术来模拟用户在虚拟环境中的物理存在。通常，VR渲染设备利用头戴式显示器(HMD)向用户渲染虚拟环境，尽管还可以使用其他类型的VR显示器和渲染技术，包括但不限于全息术和洞穴状自动虚拟环境。

VR可以用于渲染由三维(3D)图形表示(例如，被定义为一组顶点、边、面等)的场景。

然而，在许多情况下，也可能期望在VR中渲染场景的基于图像的表示。在这种情况下，场景可以由数字图像或平铺的或以其他方式分割的数字图像集来表示。例如，数字图像可以是现实生活场景的照片、或者是通过虚拟场景的计算机生成图像(CGI)获得的数字图像等。在一些情况下，(多个)数字图像可以表示全向图像，该全向图像可以提供场景的大视场，例如，允许用户在场景内“环顾四周”。

对场景的这种基于图像的表示的渲染可以涉及将(多个)数字图像的图像数据投影到虚拟主体(比如球体)上，并然后从该虚拟主体内的或面向该虚拟主体的视点进行渲染。

例如，在VR中的多用户通信会话中，会议室的照片可以用作该多用户通信会话的“虚拟背景”，方法是将该照片投影到球体内部并将表示该多用户通信会话的用户的化身放置在该球体内部，从而为每个用户提供从该会议室内部的视图。另一个示例是，可以在VR中显示场景位置的全向图像以向用户提供实际出现在该场景位置的印象。

然而，在VR中渲染场景的基于图像的表示的问题是，如果单独的音频源与场景的视觉渲染一起渲染，则用户可能会体验到声学渲染与视觉渲染不匹配并且可能不逼真并且从而可能在VR中获得不太沉浸式的体验。这里，术语“单独的”是指不表示场景的听觉分量的音频源，例如，没有被记录在与视觉渲染中所示的场景相同的场景中。这种音频源的示例是多用户通信会话的用户之一的音频记录，该音频记录可以被记录在用户的家庭-办公室环境中并且然后在会议室的前述虚拟背景中以VR再现。

发明人已经认识到，这种不匹配的原因是，在现实生活场景中，场景内的音频源的声波将与场景中的对象相互作用，例如，通过从这些对象的表面反弹。这种相互作用在上述示例中可能是缺失的。

类似的问题也可能发生在增强现实(AR)(其中可以渲染和显示对象的基于图像的表示以增强用户对现实世界场景的实时视图)中。例如，用户可以在戴着头戴式耳机的同时佩戴AR设备，比如AR眼镜。在许多情况下，单独的音频源与对象的视觉渲染一起渲染，比如例如提供关于所视觉渲染的对象的信息的画外音、或者由对象产生和/或发出的声音。此外，在这种情况下，用户还可能体验到声学渲染与视觉渲染不匹配，例如，由于音频源的声波不与对象的(多个)表面相互作用。

已知例如通过使用Google的Resonance Audio[1]模拟音频源的声波如何与基于3D图形的场景相互作用来将音频源的声学渲染调整到由3D图形(例如，由一组顶点、边、面等)表示的场景。然而，这种技术不能直接应用于场景的基于图像的表示。

参考文献

[1]https://developers.google.com/resonance-audio/

发明内容

将有利的是，能够使音频源的声学渲染适应对象的基于图像的表示的视觉渲染。

根据本发明的第一方面，可以提供一种使音频源的声学渲染适应场景中的对象的视觉渲染的方法。该视觉渲染可以被提供给用户并且可以是以下之一：包括该对象的场景的基于图像的表示的虚拟现实渲染和该对象的基于图像的表示相对于现实生活场景的增强现实渲染。通常，该虚拟现实渲染也可以是该对象的基于图像的表示在虚拟现实场景中的虚拟现实渲染。该方法可以包括：

-生成与该对象的该基于图像的表示相关联的元数据，该元数据表示该对象的建模；

-通过以下步骤建立该音频源的该声学渲染：

将该音频源提供为声学场景中的空间音频源，该声学场景在几何上与该对象的该视觉渲染对齐；

基于该元数据，将该对象建立为该声学场景中的音频对象，该音频对象具有混响和/或吸收声学性质；以及

使用空间音频渲染技术渲染该声学场景，同时使该声学场景的该渲染适应该音频对象的该混响和/或吸收声学性质。

根据本发明的进一步方面，可以提供一种暂态或非暂态计算机可读介质。该计算机可读介质可以包括计算机程序，并且该计算机程序可以包括用于使处理器系统执行该方法的指令。

根据本发明的进一步方面，可以提供一种暂态或非暂态计算机可读介质。该计算机可读介质可以包括与对象的基于图像的表示相关联的元数据。该元数据可以定义该对象的几何形状的至少一部分并指示该对象的混响和/或吸收声学性质。

根据本发明的进一步方面，可以提供一种用于生成元数据以用于使音频源的声学渲染适应对象的视觉渲染的处理器系统。

该处理器系统可以包括：

-通信接口。该通信接口可以被配置用于与接收方通信，该接收方可以被配置用于通过将该音频源提供为声学场景中的空间音频源来建立该音频源的该声学渲染，该声学场景在几何上与该对象的该视觉渲染对齐；以及

-处理器。该处理器可以被配置用于：

生成与该对象的基于图像的表示相关联的元数据，该元数据可以表示该对象的建模；以及

经由该通信接口，可以向该接收方提供该元数据，以使该接收方能够将该对象建立为该声学场景中的音频对象，该音频对象具有混响和/或吸收声学性质。

根据本发明的进一步方面，可以提供一种用于使音频源的声学渲染适应对象的视觉渲染的处理器系统。该处理器系统可以包括：

-通信接口。该通信接口可以被配置用于接收与该对象的基于图像的表示相关联的元数据，该元数据可以表示该对象的建模；

-音频处理器。该音频处理器可以被配置用于通过以下步骤建立该音频源的该声学渲染：

基于该元数据，可以将该对象建立为该声学场景中的音频对象，该音频对象具有混响和/或吸收声学性质；以及

渲染该声学场景可以使用空间音频渲染技术，同时使该声学场景的该渲染适应该音频对象的该混响和/或吸收声学性质。

以上措施涉及生成表示要在VR或AR中视觉渲染的对象的建模的元数据。该对象本身可以由图像数据(例如，由像素、体素等)表示。基于图像的表示通常基于一个或多个相机对对象的捕获，比如2D、3D、6DOF、光场或其他图像捕获，这些捕获可以是例如作为静止图像或视频流被预先记录或实时捕获的。对这种对象建模可以指生成明确定义对象的几何形状或者至少指示该几何形状的数据。因此，元数据可以提供比图像数据本身更明确的对对象的几何形状的指示，其中对象的几何形状可能仅对人类观察者或机器学习的观察者是明显的。

这里，术语“几何形状”至少可以指对象的近似形状，并且在一些实施例中还可以包括对象的近似大小、相对于场景的近似位置和/或相对于场景的近似取向。当然，在一些实施例中，元数据也可以提供所述性质的精确指示，而不是提供近似指示。

例如，元数据可以提供表示对象的几何形状的坐标的列表。在一些实施例中，元数据可以表示对象从图像数据到计算机图形的详细“转换”，例如，定义详细描述对象的一组顶点、边、面等。在许多其他实施例中，元数据可以例如通过仅对对象的主表面建模来仅提供对象的粗略近似。例如，如果对象是房间，则元数据可以定义房间的盒形表示，从而省略比如例如存在于房间中的窗玻璃或壁龛等细节。

在一些实施例中，元数据可以由发送方生成并被提供给接收方，该接收方建立音频源的声学渲染并且在一些实施例中还可以建立对象的视觉渲染。接收方例如可以是VR或AR设备，或者是VR或AR渲染系统的一部分。发送方例如可以是用于内容分发的服务器或用于内容创作的工作站。元数据可以经由网络从发送方“发送”到接收方，或者经由计算机可读介质被物理地分发。在一些实施例中，元数据可以由接收方生成或者在接收方处生成，或者由发送方与接收方之间的网络节点或其他网络实体生成。

元数据可以与对象的图像数据相关联，例如，通过被包括在与对象的图像数据相同的数据容器(比如相同的媒体流)中。另一个示例是元数据可以包含对象的图像数据的数据容器的标识符，比如通用资源定位符(URL)，从而允许元数据被检索并与图像数据相关联。又一个示例是，元数据可以被包括在与图像数据相关联的清单文件中，或者其可以被包括在服务公告中，例如，电子节目指南(EPG)。同样可以设想各种其他关联手段。例如，在一些实施例中，图像数据可以链接到元数据。接收方可以由此将元数据与对象的图像数据相关联，并且还由此将元数据与将与对象的图像数据的视觉渲染一起被建立的特定声学渲染相关联。

然后，接收方可以通过将音频源提供为声学场景中的空间音频源来建立音频源的声学渲染，该声学场景在几何上与对象的视觉渲染对齐。在许多实施例中，音频源本身可以表示单声道音频，该单声道音频可以优选地以无回声方式记录或者可替代地可以使用混响去除(或“去混响”)算法来处理。短语“将音频源提供为空间音频源”可以指音频源在声学场景中被表示为声源，该声源具有位置和可选的一个或多个空间性质，比如方向性等。从概念上讲，这种表示可以被视为在声学场景中的特定位置处建立虚拟扬声器。此外，术语“在几何上对齐”可以指假定存在于视频再现设备(例如，再现视觉渲染的显示器)与音频再现设备(例如，再现声学渲染的(多个)扬声器)之间的特定空间关系，并且根据该预定空间关系建立声学场景，如在VR/AR领域中本身已知的那样。

接收方然后可以使用元数据将成像对象表示为声学场景中的音频对象。这里，术语“音频对象”可以指声学场景中的对象的空间表示。为此，可以使用空间音频渲染技术，该技术允许在声学场景中定义对象的这种空间表示，同时具有混响和/或吸收声学性质，比如前述的Google Resonance Audio[1]。通过这样做，可以在伴随的声学场景中粗略地或精确地表示视觉渲染中示出的对象。有效地，基于图像的对象被提供声学域中的表示。通过在声学场景中表示，音频对象可以影响音频源的声学渲染。例如，空间音频源的声波可以以与这些声波在现实生活中的情况至少粗略相似的方式从对象“反弹”。因此，可以渲染包含空间音频源的声学场景，同时使该渲染适应音频对象的混响和/或吸收声学性质，从而将声学场景模拟得就好像是现实生活场景一样。然后可以将声学渲染的结果(例如，是放置在声学场景中的“虚拟麦克风”的输出)播放给观看对象的视觉渲染的用户。

因此，可以向用户提供声学渲染，其中可以“以听觉方式感知”对象的存在，尽管很可能不是以有意识的方式，而是至少以无意识的方式。因此，该声学渲染可以被感知为更逼真，因为其可以更好地匹配向用户显示的视觉渲染。在VR中的以会议室作为“虚拟背景”的多用户通信的前述具体示例中，参与者的声音听起来(更加)好像他们实际上位于会议室中，例如，因为存在他们的声音的反射，这些反射粗略地对应于会议室的墙壁的形状、大小和(可能)材料。通过声学渲染更好地匹配视觉渲染，VR/AR会话可以被感知为更沉浸式的。

在实施例中，该对象可以是具有至少一面墙壁的房间，并且该元数据可以例如通过定义表示该房间的盒子模型来定义该房间的几何形状的至少一部分。房间是声学上突出的对象，因为其具有一面或多面墙壁，该一面或多面墙壁是相对较大的表面，声波可以通过这些表面反射。在许多情况下，这些墙壁可能是场景中最突出的声学对象。因此，通过对房间建模并在声学渲染中考虑其墙壁的声学性质，声学渲染可以更好地匹配视觉渲染，在许多情况下，比替代地另一个非房间对象被建模的情况更好。在一些实施例中，可以通过定义表示房间的盒子模型来近似房间的几何形状。盒子模型的优点是，其可能需要很少的数据，但可以允许房间的墙壁被足够精确地建模。这种盒子模型可以提供在元数据中定义房间和类似对象的标准化方式。

在实施例中，该场景的该基于图像的表示可以是全向图像。这里，形容词“全向”可以指当被显示给用户时提供沉浸式体验的图像。对于这样的图像，通过匹配音频场景的声学渲染和场景的视觉渲染来确保或增强沉浸感可能是特别有价值的。具体示例是全向图像可以提供场景的至少180度视图。全向图像甚至可以提供场景的更大视图，例如，完整的360度，从而为用户提供甚至更沉浸式的体验。这种类型的全向图像也被称为(半)球形图像。

在实施例中，该场景的该基于图像的表示可以与第一轴系统相关联，该场景可以在该第一轴系统中具有默认取向，该元数据可以包括定义该对象的几何形状的至少一部分的一个或多个坐标，并且该方法可以包括：在该第一轴系统与该一个或多个坐标之间建立空间对应关系，并且基于该空间对应关系将该对象建立为该声学场景中的该音频对象。可能需要将音频对象在声学场景中的放置与视觉渲染对齐，例如，以确保用户在显示器上看到的正前方的墙壁也在相应的声学场景中正前方。为此，元数据可以被生成为与场景的基于图像的表示具有已知的空间关系。基于该已知的空间关系，然后可以将音频对象放置在声学场景中。为了实现这种对齐，场景可以在数字图像中具有默认取向。这种默认取向也可以被称为“默认姿势”、“初始姿势”、“初始取向”等，并且可以是标准化的，例如，如MPEG全向媒体格式所定义的。因此，可以假设场景是根据这种默认取向来定向的。这也可以至少部分地指示数字图像内对象的取向。例如，如果对象是房间，则默认取向可以大致指示地板(靠近“地面”)、天花板(靠近“天空”)和墙壁(在地板与天花板之间)在数字图像中的位置。另外或可替代地，对象在场景中的取向也可以通过图像分析来检测，或者可以由元数据来定义，或者可以假设，例如，基于对象在场景中的标准化表示。例如，如果图像是等距柱状投影，则可以标准化为房间的长度轴显示为0度(或“北”)。因此，可以在与数字图像相关联的轴系统与元数据的坐标之间建立空间对应关系，以允许对象的几何形状被映射到图像的轴系统并且从而允许音频对象基于元数据在声学场景中的放置至少大致与场景内的对象的视觉渲染对齐。

在实施例中，生成该元数据可以包括：将该对象的该几何形状的至少一部分定义为不同于该第一轴系统的第二轴系统中的坐标；确定该第一轴系统与该第二轴系统之间的空间对应关系；以及生成该元数据，或者生成与该元数据相关联的进一步的元数据，以指示该空间对应关系。如果元数据使用与同场景的基于图像的表示相关联的轴系统不同的轴系统，则可以生成元数据来指示两个轴系统之间的空间对应关系，或者可以为此目的生成额外的单独元数据。这种空间对应关系可以以各种方式来定义，例如，作为空间变换，比如旋转。例如，元数据可以使用一个或多个向量来定义旋转，该旋转然后可以在接收方处被应用于定义对象的几何形状的坐标。可替代地，旋转或其他类型的空间变换可以被应用于图像数据。

在实施例中，生成该元数据可以包括在该第一轴系统中定义该一个或多个坐标。也可以直接在与场景的基于图像的表示相关联的轴系统中定义几何形状。这可以具有这样的优点，即，对象的几何形状可以直接与场景的基于图像的表示相关，而不需要进一步对齐。

在实施例中，生成该元数据可以包括分析该场景的该基于图像的表示、该对象的该基于图像的表示以及与任一基于图像的表示相关联的深度信息中的一项或多项使用图像分析技术或计算机视觉技术来获得该对象的建模。从图像数据中检测对象的几何形状本身是已知的。这种技术可以用于以自动或至少半自动的方式生成元数据。作为分析图像数据的补充或替代，如果可用，还可以分析与图像数据相关联的深度信息。例如，这样的深度信息可以是显式可用的，例如，以深度图的形式，或者是隐式可用的。隐式可用的示例是一对立体图像(例如，表示左眼视点和右眼视点)形式的场景和/或对象的基于图像的表示。在这样的立体图像中，深度信息以这两个立体图像之间的视差的形式隐式存在。

在实施例中，生成该元数据可以包括经由用户界面从用户获得指示该对象的几何形状的用户输入。因此，可以基于用户输入来手动或半自动地生成元数据。例如，元数据可以由操作内容创作工作站的用户生成。这种工作站可以允许用户查看场景的基于图像的表示并提供表示场景中对象的建模的输入。例如，用户可以手动指定表示房间的盒子模型的一个或多个参数。另外或可替代地，这种用户输入可以用于调整对象的几何形状的自动估计。

在实施例中，生成该元数据可以包括例如通过指示该对象的材料或通过直接定义该混响和/或吸收声学性质来指示该混响和/或吸收声学性质。如果在声学场景中对对象的声学性质、并且特别是其(多个)表面的声学性质逼真地建模，而不是例如假设默认性质，则声学渲染可以被感知为更逼真。为此，元数据可以指定对象的材料、并且特别是其(多个)表面的材料，其可以指示混响和/或吸收声学性质。例如，材料可以指示材料是高吸收性的还是对声波具有相当高的反射性。在一些实施例中，材料还可以以频率特定的方式指示混响和/或吸收声学性质。在一些实施例中，可以直接在元数据中指定混响和/或吸收声学性质，例如，作为相对于吸收系数列出频率的表格或以任何其他合适的方式。

在实施例中，可以在服务器处生成该元数据并且可以将该元数据提供给被配置用于建立该音频源的该声学渲染的接收方。在实施例中，该音频源可以表示多用户通信会话的音频，并且该场景的该基于图像的表示可以表示该多用户通信会话的虚拟背景。

本领域技术人员应当理解，可以以任何认为有用的方式组合上文提及的本发明的实施例、实施方式和/或方面中的两个或更多个。

本领域技术人员能够基于本说明书执行方法、(多个)处理器系统、元数据和/或计算机程序的修改和变化，这些修改和变化与针对所述实体中的另一个实体描述的修改和变化相对应。

附图说明

参考下文所描述的实施例，本发明的这些方面和其他方面是显而易见的并且将被阐明。在附图中：

图1示出了在房间内获取的全向图像；

图2展示了虚拟现实中的多用户通信会话，其中用户由虚拟现实环境中的化身表示，并且其中房间的全向图像通过被投影到用户周围的球体内部而被用作通信会话的“虚拟背景”；

图3示出了用户之一在虚拟现实环境中感知的成像房间；

图4示出了表示虚拟现实环境的听觉部分的声学场景，展示了所记录的用户的声音如何被虚拟扬声器再现，该虚拟扬声器由表示另一用户的虚拟麦克风捕获；

图5A展示了虚拟现实环境的视觉渲染与伴随的声学场景的声学渲染的对齐，同时展示了为什么这种声学渲染可能被感知为不逼真；

图5B示出了在声学场景中提供的表示成像房间的音频对象，该音频对象具有使音频源的声波被反射的混响和/或吸收声学性质；

图5C展示了声学渲染，其中音频对象与视觉渲染对齐，使得声学场景中的表示成像房间的音频对象被感知为与视觉渲染在空间上对齐；

图6示出了包括音频对象的声学场景，其中，该音频对象表示不是房间的成像对象的建模；

图7示出了虚拟现实中的多用户通信会话中涉及的各种实体，比如远程用户和本地用户的处理器系统；

图8展示了服务器与处理器系统之间的数据通信，该处理器系统被配置用于建立视觉渲染和声学渲染；

图9示出了表示成像对象的建模(在该示例中是通过盒子模型对房间的建模)的元数据；

图10示出了用于生成元数据的处理器系统；

图11示出了被配置用于基于元数据建立声学渲染、以及可选地建立视觉渲染的处理器系统；

图12示出了使声学场景的声学渲染适应包括成像对象的视觉渲染的方法；

图13示出了包括非暂态数据的计算机可读介质；

图14示出了示例性数据处理系统。

应该注意，在不同的附图中具有相同附图标记的项具有相同的结构特征和相同的功能，或是相同的信号。在已经解释了这种项的功能和/或结构的情况下，在详细描述中不再重复解释。

参考标号和缩写的列表

以下参考标号和缩写的列表被提供用于简化附图解释，并且不应该被解释为对权利要求的限制。

100 房间的全向图像

110、120 成像墙壁

130 成像门

140 成像的壁挂式显示器

105 在虚拟现实中感知的成像房间

115、125 在虚拟现实中感知的成像房间墙壁

135 在虚拟现实中感知的成像门

145 在虚拟现实中感知的成像显示器

200 虚拟现实环境

210 投影到虚拟主体上的全向图像

220、222 化身

300 表示观察者的虚拟相机

310 虚拟相机的视角

400 声学场景

410 表示观察者的虚拟麦克风

420 表示空间音频源的虚拟扬声器

422 声波

430 表示成像房间的建模的音频对象

432、434 反射的声波

440 表示成像对象的音频对象

442 反射的声波

500 远程用户

505 麦克风

510 处理器系统

515 音频数据

520 现实生活场景

525 相机

530 处理器系统

535 图像数据+元数据

540 网络

545 处理器系统

550 头戴式显示器

555 所渲染的虚拟现实环境

600 服务器

610 图像数据

612 数据容器

615 音频数据

620、622 元数据

630 网络

640 处理器系统

650 头戴式显示器

655 所渲染的图像数据

660 头戴式耳机

665 所渲染的音频数据

700 处理器系统

710 通信接口

712 输出数据

720 处理器

730 数据库

800 处理器系统

810 通信接口

812 输入数据

820 视频处理器

822 所渲染的图像数据

825 显示器

830 音频处理器

832 所渲染的音频数据

835 扬声器

900 使声学渲染适应视觉渲染的方法

910 生成元数据

920 建立声学渲染

925 提供空间音频源

930 将成像对象建立为音频对象

935 渲染声学场景

950 计算机可读介质

960 非暂态数据

1000 示例性数据处理系统

1002 处理器

1004 存储器元件

1006 系统总线

1008 本地存储器

1010 大容量存储设备

1012 输入设备

1014 输出设备

1016 网络适配器

1018 应用

具体实施方式

以下实施例中的许多实施例是在VR中的多用户通信的背景下描述的，其中房间的基于图像的表示被用作“虚拟背景”。然而，应当理解，利用这些实施例描述的技术措施可以应用于涉及对象的基于图像的表示的视觉渲染和音频源的声学渲染的任何类型的VR应用。这样的应用的示例包括但不限于教育、建筑、医疗保健、娱乐等领域中的基于VR的游戏和专业应用。除了VR应用之外，还设想了AR应用，其中对象的基于图像的表示被覆盖或者以另一种方式与现实生活场景一起显示。

图1示出了已经在房间内(更具体地，会议室)内获取的全向图像100。成像房间被示出为包括墙壁110、120、门130、壁挂式显示器140等。这种全向图像本身是已知的，并且可以提供场景的更大视图，例如，180度视图，或者，如图1的示例所示，360度视图。通常，由全向图像显示的视场是球形的，但通过投影在图像的矩形画布内表示。图1的全向图像100示出了等距柱状投影的结果。也可以使用其他投影，比如天空盒投影(也称为立方体贴图)。

虚拟现实中经常看到全向图像。虚拟现实(VR)通常涉及使用计算机技术来模拟用户在虚拟现实环境(此后也被简称为“虚拟环境”)中的物理存在。通常，VR渲染设备利用头戴式显示器(HMD)向用户渲染虚拟环境，尽管还可以使用其他类型的VR显示器和渲染技术，包括但不限于全息术和洞穴状自动虚拟环境。

通常，渲染全向图像涉及将全向图像的图像数据投影到虚拟主体上(比如在球体、半球体、立方体、盒子或任何其他几何图元的内部)并且从该虚拟主体内的或面向该虚拟主体的视点渲染全向图像。这里，虚拟主体可以是几何构造，该几何构造例如可以由一组坐标或者由一个或多个参数(比如，定义球体的大小的半径)或者由表示虚拟主体的网格来定义，并且该几何构造可以是“虚拟的”，因为主体没有被明确地渲染，而是被用作图像数据的投影表面。例如，可以通过将多个图像(例如，使用鱼眼镜头捕获的两个180°图像)拼接在一起来创建360°视频。当要渲染360°视频时，通常将图像映射到虚拟主体(的内部)上，该虚拟主体可以是球体、盒子或其他几何图元。这样做之后，可以从该虚拟主体内的或面向该虚拟主体的视点渲染全向图像。这样，图像数据被显示给用户，而该虚拟主体本身通常是不可见的，可能的例外是渲染伪像。

为了将(多个)图像投影到虚拟主体上，可以使用投影。这种投影可以涉及从(多个)图像的典型直角坐标到与虚拟主体相关联的坐标系的坐标映射。例如，如果虚拟主体是球体并且与球坐标系相关联，则坐标映射可以将坐标从(多个)图像的直角坐标系映射到该球坐标系，或反之亦然。

VR中全向图像的上述显示本身是已知的，例如，从VR中所谓的“照片球查看器(Photo Sphere Viewer)”应用中。

图2至图5C示出了另一个应用的示例，其中图1的全向图像被用作VR中的多用户通信会话的虚拟背景。图2示意性地示出了图1的全向图像已被投影210到球体内部。通信会话中的参与者(此后也被简称为“用户”)可以由虚拟环境内的化身来表示，同时通过语音(例如，使用麦克风和扬声器)并且可能通过非语言交流进行通信。这里，术语“化身”是指用户在虚拟环境内的表示，其可以包括作为真实的或想象的人、真实的或抽象的对象等的表示。这种表示可以是基于图像的(例如，通过显示用户的图像或视频或由用户的图像或视频表示的化身)或基于计算机图形的或两者的组合。

图2示出了这样的化身中的两个——220、222，这些化身被放置在虚拟环境200内，并且具体地，被放置在全向图像被投影到其上的球体210内。因此，成像的会议室可以提供通信会话的“虚拟背景”。然后可以渲染虚拟环境200并显示给用户中的一个或多个。这种视觉渲染可以从用户的化身的角度进行。这在图2中由表示用户之一的视点的虚拟相机300被叠加在该用户的化身222上示意性地示出。相机310的视场可以与例如使用HMD向用户显示的视场相对应。虚拟相机300的取向可以由用户例如基于对用户的头部或HMD的所谓3自由度(DoF)跟踪来控制，从而允许用户在虚拟环境200中自由地环顾四周。在一些实施例中，用户也能够例如基于通过鼠标或操纵杆或键盘的额外输入或者通过对用户头部或HMD的所谓6-DoF跟踪来在虚拟环境中四处移动。

图3示出了用户在虚拟现实环境中大体感知的成像房间105。在这里和其他地方，关于对象的形容词“成像的”是指对象的基于图像的表示。继续参考图3，即使全向图像被投影到球体或其他几何图元上，用户通常也会根据房间的原始形状(在该示例中为矩形)感知房间，或者一般情况下是成像的场景或对象。具体地，由虚拟相机300表示的用户可以看到另一个用户的化身220、房间的墙壁115、125以及门135，并且当转身时，可以看到壁挂式显示器145。注意，可能除了化身220之外，这些对象115至145在虚拟环境中由图像数据表示，而不是例如由计算机图形表示。

虚拟现实环境可以伴随有声学场景，该声学场景可以是虚拟现实环境的音频分量并且可以在几何上与该环境的视觉分量对齐。这可以参考图4来阐明，该图示意性地示出了这种声学场景400，其中与图3的化身220相关联的用户由音频源420表示，该音频源通过类比的方式被示出并且进一步被称为扩音器420，该扩音器在声学场景中发出声波422。即，音频源420可以例如实时地再现所记录的用户的音频(例如，话音)以与虚拟环境中的另一个用户通信。另一个用户由虚拟麦克风410表示，该虚拟麦克风是图3的虚拟相机300的音频等价物。类似于图3的虚拟相机300，但是现在用于音频而不是视频，虚拟麦克风410可以用于在特定空间位置处捕获声学场景400内的音频，所捕获的音频然后例如经由(立体声)头戴式耳机被播放给相应的用户。

尽管在图4中没有明确示出，但是应当理解，通常每个用户由声学场景中的虚拟扬声器来表示以在声学场景中产生用户的话音或其他音频，以及由虚拟麦克风来表示以从相应用户的角度获得声学场景的声学渲染。声学场景的这种渲染本身是已知的。

虚拟现实环境的听觉分量和视觉分量可以以对齐的方式渲染，这在图5A中由叠加在成像房间105上的声学场景400象征性地示出，使得虚拟扩音器420的位置与化身220的位置匹配并且虚拟麦克风410的位置与化身222的位置匹配，匹配的方式与图3中虚拟相机300的位置与所述化身222匹配的方式相同。因此，与化身222相关联的用户将感知到源自化身220的所记录的另一个用户的话音。虚拟现实环境的听觉分量和视觉分量的这种对齐渲染本身是已知的。

然而，在图5A的示例等中，所渲染的声学场景可能被感知为与虚拟现实环境的视觉分量不匹配。即，如图5A所示，源自虚拟扩音器420的声波不与用户看到的基于图像的对象相互作用。这种相互作用通常使声波被反射，从而产生回声或混响，或者使声波被吸收，反射或吸收的特性可能是频率和/或相位相关的。在图5A的示例中，声波因此不会像在现实生活中那样从成像房间105的墙壁反弹。因此，化身222的用户可能只听到直接(“主要”)声波，而没有从成像房间105中的对象反射的“辅助”声波。

为了获得声学场景的更逼真的渲染，可以对虚拟环境中示出的一个或多个基于图像的对象进行建模，并且基于其建模，将其再现为声学场景中的音频对象，这些音频对象具有混响和/或吸收声学性质。在一些实施例中，分配给音频对象的声学性质可以近似于“现实生活”对象的声学性质。然后，可以使用空间音频渲染技术来渲染声学场景，其中使声学场景的渲染适应音频对象的混响和/或吸收声学性质。

图5B和图5C展示了图1至图5A的成像房间的这种建模，而图6展示了单独成像的对象的这种建模，该建模例如可以在AR中显示为覆盖。通常，建模可以由元数据表示，该元数据可以以各种方式生成、格式化、传输等，这也将参考图7至图9进行描述。

图5B示出了已被建模并且被再现为声学场景400中的音频对象430的房间的结果。在该示例中，房间已经通过盒子模型近似，房间的音频对象然后基于该盒子模型的参数被建立为音频环境中的几何模型。参考“确定元数据”来进一步描述这种建模。

应当理解，音频对象可以被放置在声学场景400中的特定位置处，这通过声学场景400与视觉环境的视觉分量之间的几何对齐使音频对象与成像房间的成像墙壁对齐。注意，可以以各种方式建立音频对象的期望位置，如例如参考“将元数据链接到图像数据”进一步描述的。

可以为音频对象分配一个或多个声学性质，这些声学性质使音频对象与声学场景400中的声波相互作用。例如，音频对象可以使声波被反射，同时衰减其振幅并且从而至少部分地具有吸收声学性质。这些声学性质可以精确地表示现实生活对象的声学性质，例如在频率相关的衰减方面，但是这些声学性质也可以是近似的或者可以简单地被赋予默认或标准值。因此，在图5B中，声波422被示出为从音频对象430的墙壁反射，从而以至少类似于其在现实生活房间中的谈话期间被反射的方式产生反射的声波432、434。因此，被提供由虚拟麦克风410捕获的音频的用户不但将会听到直接声波422，而且还会听到从音频对象430的墙壁反射的声波。同样如图5C中通过声学场景400在成像房间105上的叠加所示，这可以向用户提供更逼真的体验，因为声学场景将被感知为(更好地)匹配向用户显示的视觉渲染。

下面讨论成像对象的以上建模以及这些成像对象在声学场景中作为音频对象的再现的各个方面。

“记录图像”——成像对象可以是成像场景的一部分。该场景可以在图像内具有默认取向，这可以促进元数据在空间上链接到图像数据。例如，如果成像场景是全向图像的一部分，则该场景可以在全向图像的画布内具有默认取向。这个默认取向也称为“默认姿势”、“初始姿势”、“初始取向”等，并且通常取决于在图像中表示场景的投影格式。对于等距柱状投影，默认图像的竖直中间表示北或0度，并且默认水平中间(赤道)是水平0度。MPEG还定义了立方体贴图格式的默认取向，例如，如由MPEG OMAF FDIS[6]定义的。在投影内，然后可以例如通过以下参数在x、y和z轴上旋转来改变默认投影方向：

-中心_方位角(centre_azimuth)，例如，从-180°到180°的水平旋转

-中心_仰角(centre_elevation)，例如，向上/向下看，从-90°到+90°

-中心_倾斜(center_tilt)，例如，倾斜头部，从-180°到180°

可替代地，可以以偏航、俯仰、滚转的度数来指定旋转，这可以类似于球形视频的谷歌空间元数据如何在其投影标题框中定义旋转(偏航、俯仰、滚转的度数)或者A-Frame[7]如何定义其初始相机位置(在x、y和z轴上的旋转度数)。注意，以上可能需要一致同意的轴系统，例如，如由MPEG OMAF定义的。

“确定元数据”——可以以各种方式生成对对象建模的元数据。在一些实施例中，可以例如使用内容创作工作站手动生成元数据。例如，如果对象是房间，则内容作者(用户)可以指定定义该房间的简单盒子模型的参数并指示相机在该房间内的捕获位置。

房间模型可以被描述为元数据，例如，如[1]中所定义的。在具体示例中，元数据可以定义以下参数

尺寸

о宽度，单位为米，例如，width＝4

о高度，单位为米，例如，height＝2.5

о深度，单位为米，例如，depth＝5

材料

о左墙壁材料，作为字符串，例如，left＝brick-painted

о右墙壁材料，作为字符串，例如，right＝curtain-heavy

о前墙壁材料，作为字符串，例如，front＝brick-bare

о后墙壁材料，作为字符串，例如，back＝glass-thick

о上(天花板)，作为字符串，例如，up＝wood-ceiling

о下(地板)，作为字符串，例如，down＝linoleum-on-concrete

元数据还可以指定房间内的相机位置，从而有效地指示房间在图像中如何定位。为此，例如可以使用如[1]所定义的下列参数：

listenerPosition(x,y,z)，其中，相对于房间的中心，x轴＝左/右(宽度)，y轴＝前/后(深度)，并且z轴＝上/下(高度)。具体示例是listenerPosition＝(0,1,0.5)

作为对对象手动建模的补充或替代，对象的建模可以至少部分地基于图像分析或计算机视觉技术。这种技术可以应用于对象的图像数据。在一些实施例中，图像数据可以伴随有深度信息，比如提供对象的立体视角的第二图像、或深度图。在这种情况下，可以代替图像数据或者除了图像数据之外分析深度信息。通常，检测图像中的对象本身是已知的。例如，使用计算机视觉技术，可以在图像中检测墙壁、角落、地板和天花板。通过这种检测，可以确定房间的相对尺寸。类似地，可以识别场景中的对象，比如桌子、椅子、人、植物等。在标识了对象之后，可以例如通过进一步分析图像数据或者通过从数据库中选择与对象的类型相对应的默认几何形状并且可能使所选择的默认几何形状适应成像对象(例如，就大小而言)来生成对象的几何描述。

元数据还可以提供对象的更复杂的几何建模。例如，元数据可以包括对象外部的LIDAR扫描(或者如果对象是房间或类似结构，则包括对象内部的LIDAR扫描)(其可以被提供为LAS数据[8])、或者就复杂性而言在盒子模型与LIDAR扫描之间的建模，例如，如在MPEG-4[4][5]中所定义的。

“将元数据链接到图像数据”——可以将元数据与图像数据对齐，以便使得能够以在位置、取向和/或大小方面至少近似地匹配用户感知的对象的成像版本的位置、取向和/或大小来在声学场景内建立音频对象。这种对齐通常允许元数据中的坐标通过轴系统的直接转换或者通过提供空间变换来与基于图像的轴相匹配，且反之亦然。通常，这种直接或间接对齐也被称为“建立空间对应关系”。

为此，元数据中的坐标可以使用与图像数据相关联的轴系统。如果例如元数据与图像数据一起提供，例如，作为同一数据容器的一部分，则这可能是有利的。在这种情况下，可以使用或假设相同的“默认取向”，例如，(0,0,0)。

然而，如果元数据和图像数据尚未对齐，则其可以以各种方式对齐。例如，可以定义要应用于基于图像的坐标的旋转，以便校正未对齐。这种类型的旋转由例如MPEG OMAF定义。另一个示例是可以定义要应用于元数据的坐标的旋转，例如，如[1]中描述的。这种旋转可以由两个向量来定义，例如，“向前”向量和“向上”向量。每个向量可以由x、y和z的值来定义，以定义该向量的方向。然后，这两个向量一起可以定义元数据相对于图像数据的取向。又一个示例是可以转换元数据的坐标，以便在基于图像的坐标中表达这些坐标。例如，对于房间坐标的90度旋转(例如，使“前墙壁”变成“左壁”)，宽度尺寸和深度尺寸可以切换，使得前墙壁变成左墙壁，左墙壁变成后墙壁，后墙壁变成右墙壁，并且右墙壁变成前墙壁。元数据中的相机位置可以被相应地调整。又一个示例是旋转可以应用于基于图像的坐标和元数据中的坐标两者。又一个示例是基于图像的坐标可以被旋转，而元数据中的坐标可以被转换成旋转后的基于图像的坐标。

“在场景中插入音频源”——关于声学场景的渲染，可以使用例如[1]中描述的技术将音频源放置在声学场景中。因此，可以在声学场景内对音频源进行定位以及(可能)取向，这可以例如由以下各项来定义：Source position(x,y,z)，例如，位置＝(1,2,0.4)

Source orientation作为vector forward(x,y,z)和vector up(x,y,z)，例如，取向＝(0.5,0.5,0,0,0,1)

在另一个示例中，当使用A-Frame[7]时，音频源可以作为分量被添加到任何实体(其可以是可见的或不可见的)，并且然后可以通过位置和(可能)旋转被放置在场景中，例如，如：

<a-entity position＝"1,2,0.4"rotation＝”-45 0 0”></a-entity>

注意，除了位置和方向(取向)，还可以向音频源分配其他音频特性，比如增益和源宽度。这些特性可以由伴随音频数据的元数据来定义，该元数据可以不同于对成像对象建模的元数据。

“基于元数据处理音频”——这是指在声学场景中建立音频对象并在考虑音频对象的声学性质的情况下对场景进行后续声学渲染。[1]等音频框架这两个步骤都支持，而在例如[2]和[3]中描述了在考虑这样的音频对象的情况下的声学场景的渲染的示例。通常，声学场景的这种渲染涉及基于音频对象的几何形状、音频对象的声学性质以及音频对象在声学场景内、并且特别是相对于音频源的相对位置来计算反射和/或向音频源添加混响。

作为另一个示例，除了使用[1]之外，还可以使用如例如[5]中描述的MPEG 4音频BIFS版本2，其使用VRML(虚拟现实建模语言，ISO/IEC 14772)。例如，可以通过将墙壁、地板和天花板构建为所谓的IndexedFaceSet2D node来对房间进行建模，每个节点可以被赋予指定每个表面的声音反射率的AcousticMaterial性质。或者，可以使用常规IndexedFaceSet将房间或对象描述为一组顶点。此外，还可以指定ListenerPosition。

作为坐标系，可以使用以米为单位的正交右手笛卡尔坐标系。在房间的前述示例中，可以通过在coordIndex中列出墙壁、地板、天花板等的坐标来对其进行定义，coordIndex本质上是整数数组。例如，对于4×4×2.5米的房间，这可以通过指定每面墙壁(以及地板、天花板)的四个角落点来完成，下面展示了一面墙壁的：

接下来，可以通过使用reffunc和refFrequency字段来指定声音反射率。如MPEG规范中所解释的：“如果refFrequency是空向量，则reffunc是线性时不变系统的系统函数表示，即，该材料的数字滤波器的反射率传递函数。如果refFrequency不同于空向量，则reffunc的语义与上述不同。在这种情况下，refFrequency指定一组频率(以Hz为单位)，在这些频率下，reffunc字段中的增益有效；当声音从该表面反射时，应用于声音的滤波器实施频率幅度响应，其中，在这些给定频率(在refFrequency字段中)下，reffunc字段中的增益有效。”

例如，refFrequency可以是[250 1000 2000 4000]并且然后reffunc可以是[0.750.9 0.9 0.2]。听音点通常从属于视点，但是可以使用ListeningPoint被单独定义为位置和取向。位置可以由3个浮点限定，取向可以由4个浮点限定，前3个浮点限定旋转轴并且最后一个浮点限定旋转本身。

“渲染”——可以渲染虚拟现实环境的声学场景和视觉分量两者并且然后将其提供给用户，例如，通过在用户佩戴的VR头戴式设备上显示表示虚拟环境的图像并且通过向用户佩戴的头戴式耳机输出所渲染的音频。这种视觉渲染和声学渲染本身在本领域中是已知的。

下面可以是具体示例，其中假设成像对象是大致正方形的房间。图像可以具有初始取向，该初始取向可以是等距柱状图片的中间，并且可以假设赤道在图像中是水平的。因此，轴系统可以与图像相关联。图像的初始取向可以朝向房间的墙壁B(墙壁按顺序编号为A(前)、B(右)、C(后)、D(左))。可以用由4面墙壁组成的正方形来对房间进行建模，这些墙壁可以设有地板和天花板。当基于房间的建模将房间建立为声学场景中的音频对象时，可能期望：

-音频对象的大小与成像房间类似，例如，其长度、宽度和高度至少大致类似。

-例如通过指示高度以及虚拟相机的水平放置来指示虚拟相机在图像中的位置，例如，指示放置在房间中间、墙壁附近、角落等。

-音频对象的取向与图像中成像房间的取向相对应，例如，初始取向相同。

在更具体的示例中，如果用放置在离两面墙壁大约1米处的一个角落附近并指向右边的远墙壁(例如，墙壁B)的定位于1.5米高度的相机获取4×4米和2.5米高的正方形房间的全向图像，则可以描述元数据：

-“零”位置，可以根据该“零”位置定义对象。例如，该零位置可以是(0,0,0)(在左/右、前/后、下/上轴)。该零位置可以具有预定义的含义，比如该零位置表示房间的中心。

-接下来，可以定义房间的墙壁，例如，通过定义4×2.5米的前墙壁(A)，“前”被定义为与初始取向成90度角。这样，该墙壁可以由坐标(-2,2,-1.25)至(2,2,1.25)定义。接下来，墙壁B可以例如通过被附接到前墙壁A的右手侧等而被定义为(2,2,-1.25)至(2,-2,1.25)，等等。房间的地板和天花板可以以相同或类似的方式来定义。

-接下来，相机位置可以被定义为例如(-1,-1,0.25)。

-并且相机取向可以被定义为例如(1,0,0)。

另一个具体示例可以是两个用户(进一步被称为“爱丽丝(Alice)”和“鲍勃(Bob)”)之间的VR会议。他们的会面可以发生在可以由真实起居室的360度静态照片表示的虚拟起居室里。他们的VR会议服务可以基于用于创建虚拟现实环境的A-Frame[7]和用于音频渲染的Google Resonance[1]。鲍勃可能正在使用HMD(比如奥库斯裂谷(Oculus Rift))并且可能正在使用该HMD中内置的麦克风录制他的音频。这可以产生他的声音的充分无回声记录。

从爱丽丝的角度来看：

-起居室的图像可以以等距柱状格式提供，其可以伴随有元数据，该元数据包含使用Google Resonance中定义的属性对起居室的几何描述。该描述可以是例如通过拍摄照片时测量过该房间来手动提供的。

-在A-frame中，可以使用<a-sky>标签将起居室的照片放置在球体上。

-与图像一起接收的元数据可以在Google Resonance中用于设置房间性质，从而创建反映起居室的图像的音频环境，例如，使用<a-resonance-audio-room>标签。

-可以使用<a-video>标签将可以通过WebRTC连接接收的鲍勃的视频作为“视频化身”放置在场景中。视频的位置和取向可以由VR会议框架预先配置，以适合场景并且特别是提供自然的体验。例如，可以显示坐在可用的沙发空间上的鲍勃的视频化身。

-可以使用resonance-audio-src将也可以通过WebRTC连接接收的鲍勃的音频放置为场景中的共振对象。该音频对象可以被定位在视频对象的中心，使得爱丽丝将从她在虚拟现实环境中看到鲍勃的方向听到鲍勃的音频。

A-Frame和Google Resonance然后可以渲染虚拟环境，例如，通过渲染鲍勃的成像房间和视频化身以及鲍勃的音频数据。可以向爱丽丝提供所渲染的输出，通过该输出，爱丽丝可以看到包含鲍勃的虚拟起居室，同时从相应的方向听到鲍勃的声音。爱丽丝会有意识地或以其他方式感知音频中房间的混响性质。

图6示出了包括音频对象440的声学场景400，该音频对象表示不是房间的成像对象的建模。即，尽管到目前为止针对以全向图像显示的成像房间进行了描述，但是对象的任何基于图像的表示都可以被建模并由声学场景中的音频对象表示。例如，在AR中，可能期望将历史城墙的基于图像的表示覆盖在已占据该城墙的位置的结构或空间上。作为音频源420，可以提供演讲者的声音来解释城墙背后的历史。同样在这里，可能期望使演讲者的声音的声学渲染适应对象(例如，该城墙)的基于图像的表示。这在图6中通过墙壁型结构440反射源自表示演讲者的声音的音频源420的声波442示意性地示出。应当理解，代替墙壁，可以对任何基于图像的对象进行建模。视觉渲染可以在VR或AR中。

图7示出了虚拟现实中的多用户通信会话中涉及的各种实体，比如远程用户和本地用户的处理器系统。这里，形容词“远程”和“本地”仅表示以下解释中的角度：“远程”用户是针对其描述音频捕获的参与者，并且“本地”用户是针对其描述虚拟现实环境的声学渲染和视觉渲染的参与者。换句话说，下面从所谓的“本地”用户的角度来描述体验。

在图7的示例中，远程用户500的话音可以由连接到远程处理器系统510的麦克风505捕获，该远程处理器系统可以将捕获的音频数据515传输到网络540中托管的基于云的服务器(未示出)。先前，现实生活场景520可能已经被相机525捕获。该现实生活场景的图像数据可以由处理器系统530连同描述该场景中的一个或多个对象的几何形状的元数据一起提供。例如，处理器系统530可以表示允许工作站的用户手动生成元数据的内容创作工作站。在替代性实施例中，处理器系统530可以使用图像分析和/或计算机视觉技术来(半)自动生成元数据。图像和元数据535然后可以一起(例如，在相同的数据容器中)被提供给基于云的服务器，然后该服务器可以在通信会话开始之前将该图像数据和元数据提供给本地用户的处理器系统545。本地用户的处理器系统545然后可以通过在虚拟现实环境中插入表示远程用户500的化身并将成像场景投影到化身周围的球体上来渲染虚拟现实环境，从而为VR会话建立“背景”。然后，可以经由HMD 550和头戴式耳机或其他类型的扬声器(图7中未明确示出)向本地用户提供所渲染的视频和音频，其中声学渲染是基于元数据来调整的，如本说明书其他地方所描述的。

图8展示了服务器600与处理器系统640之间的数据通信，该处理器系统被配置用于建立视觉渲染和声学渲染。可以是基于云的服务器的服务器600可以例如经由网络630(比如互联网)向处理器系统640提供表示成像对象或场景的图像数据610。另外，服务器600可以向处理器系统640提供表示成像对象的建模的元数据620。例如，元数据620可以作为与图像数据610相同的媒体流的一部分提供、在图像数据610的头部中提供等。可替代地，元数据620可以例如作为单独的数据容器和/或通过单独的实体(比如基于云的数据库)被单独提供给处理器系统640。在又一替代性实施例中，元数据620可以由处理器系统640生成，而不是从另一个实体接收。图8示出了服务器600进一步向处理器系统640提供音频数据615。应当理解，音频数据615也可以由另一个实体提供给处理器系统640。

在接收到图像数据610、元数据620和音频数据615后，处理器系统640可以以如本说明书其他地方描述的方式建立视觉渲染和声学渲染。处理器系统640然后可以将得到的所渲染的图像数据655输出到用户佩戴的HMD 650并将所渲染的音频数据665输出到用户佩戴的头戴式耳机660。

同样可以设想图7和图8实施例的各种其他替代方案。例如，除了多用户通信之外，实施例可以涉及例如VR音乐应用，其中人们可以在喜爱的基于图像的场景中听音乐，并且其中音乐从该场景中的一个或多个对象“反射”。又一个示例是教学视频，其中由视频化身表示的教师被放置在某个基于图像的场景中等。

应当理解，对对象或场景的基于图像的表示的任何提及同样适用于由一系列图像(例如，视频)表示的对象或场景。在视频的情况下，例如可以通过更新和发送更新的元数据或者通过发送对已经提供的元数据的更新(比如对象或相机的新位置)来更新元数据。

注意，成像对象可以是被成像的场景的一部分。例如，图1所示的图像被示出为包括除房间本身之外的其他对象，比如桌子。然而，在一些实施例中，可以提供仅表示成像对象的图像数据，例如，以分段的形式。

图9示出了表示成像对象的建模(在该示例中是通过盒子模型对房间的建模)的元数据620、622。元数据可以是与图像数据610相同的数据容器612(例如，相同的文件或媒体流)的一部分，但是也可以作为可以与图像数据610相关联的单独元数据620来提供。例如，元数据可以包含对象的图像数据610的数据容器的标识符，比如URL，从而允许元数据被检索并与图像数据相关联。又一个示例是，元数据可以被包括在与图像数据相关联的清单文件中，或者其可以被包括在服务公告中，例如，EPG。同样可以设想各种其他关联方式。例如，在一些实施例中，图像数据610可以例如通过包含可以访问元数据620的URL链接到元数据620。

图10示出了用于生成元数据的处理器系统700。为此，处理器系统700被示出为包括处理器720，该处理器可以例如通过硬件设计或软件被配置为执行参考图5B至图9以及与元数据的生成有关的其他地方所描述的操作。例如，处理器720可以被配置用于将图像分析和/或计算机视觉技术应用于对象的基于图像的表示以便获得对象的建模。例如，处理器730不但可以由单个中央处理单元(CPU)来具体化，而且还可以由这种CPU和/或其他类型的处理单元的组合或系统来具体化。处理器系统700进一步被示出为包括比如内部存储器、硬盘、固态驱动器、或其阵列等数据存储装置730，该数据存储装置可以用于存储或缓冲数据，比如成像对象的图像数据、和/或元数据。图10进一步示出了处理器系统700包括通信接口710，该通信接口可以是用于输出数据712(比如元数据)的任何合适类型的接口。例如，通信接口710可以是存储接口或网络接口。网络接口的示例包括但不限于例如基于Wi-Fi、蓝牙、ZigBee、4G或5G移动通信的无线网络接口，或例如基于以太网或光纤的有线网络接口。例如，通信接口710可以是局域网(LAN)网络接口，或到广域网(WAN)(比如互联网)的网络接口。

处理器系统700可以由(单个)设备或装置来具体化。例如，处理器系统700可以由服务器、工作站、个人计算机等来具体化。在一些实施例中，处理器系统700可以是终端用户设备，例如(集成到)如参考图11描述的被配置用于建立声学渲染的相同设备。这种设备的示例包括但不限于智能电话、个人计算机、膝上型计算机、平板设备、游戏控制台、机顶盒、电视、监视器、投影仪、智能手表、智能眼镜、媒体播放器、媒体记录器、头戴式显示设备等。处理器系统700还可以由这种设备或装置的分布式系统来具体化。该分布式系统的示例可以是处理器系统700的功能至少部分地分布在网络中的网络元件上。

图11示出了被配置用于基于元数据来建立声学渲染的处理器系统800。处理器系统800可以实施如参考图1至图9以及其他地方所描述的“渲染侧”功能的一部分或全部。处理器系统800被示出为包括通信接口810，该通信接口可以被配置用于接收数据812，该数据至少包括音频数据和元数据以及可选的图像数据。通信接口810可以是用于接收所述数据的任何合适类型的接口，包括但不限于如参考图10描述的存储接口或网络接口。处理器系统800进一步被示出为包括音频处理器830，该音频处理器可以例如通过硬件设计或软件被配置为执行参考图1至图9以及与声学场景的渲染有关的其他地方所描述的操作。在一些实施例中，音频处理器830可以将扬声器信号832直接输出到扬声器835(例如，扩音器、扩音器系统或(立体声)头戴式耳机)。在其他实施例中，音频处理器830可以输出所渲染的音频数据，该所渲染的音频数据可以由另一部件或另一实体输出到扬声器835。

作为可选部件，处理器系统800可以包括视频处理器820，该视频处理器可以例如通过硬件设计或软件被配置为执行参考图1至图9以及与图像数据的视觉渲染有关的其他地方所描述的操作。在一些实施例中，视频处理器820可以直接生成显示数据822并将该显示数据输出到显示器825(比如HMD)。在其他实施例中，视频处理器820可以输出所渲染的视频数据，该所渲染的视频数据可以由另一部件或另一实体输出到显示器825。

视频处理器820和音频处理器830不但可以各自或一起由单个中央处理单元(CPU)来具体化，而且还可以由这种CPU和/或其他类型的处理单元的组合或系统来具体化。

尽管在图11中未示出，但是处理器系统800还可以包括比如内部存储器、硬盘、固态驱动器、或其阵列等数据存储装置，该数据存储装置可以用于缓冲数据，例如，所接收的音频数据、所接收的元数据和/或可选的所接收的图像数据。

处理器系统800可以由(单个)设备或装置来具体化。例如，处理器系统800可以具体化为智能电话、个人计算机、膝上型计算机、平板设备、游戏控制台、机顶盒、电视、监视器、投影仪、智能手表、智能眼镜、媒体播放器、媒体记录器、头戴式显示设备等。处理器系统800还可以由这种设备或装置的分布式系统来具体化。该分布式系统的示例可以是处理器系统800的功能至少部分地分布在网络中的网络元件上。

通常，图10的处理器系统700和图11的处理器系统800可以各自具体化为设备或装置，或在设备或装置中具体化。该设备或装置可以包括执行适当软件的一个或多个(微)处理器。任一系统的处理器可以由这些(微)处理器中的一个或多个来具体化。实施任一系统的功能的软件可能已经被下载和/或存储在相应的一个或多个存储器中，例如，比如RAM等易失性存储器或比如闪存等非易失性存储器。可替代地，任一系统的处理器可以以可编程逻辑的形式在设备或装置中实施，例如，作为现场可编程门阵列(FPGA)。任何输入和/或输出接口可以由设备或装置的相应接口(比如网络接口)实施。通常，任一系统的每个单元可以以电路的形式实施。注意，任一系统还可以以分布式方式实施，例如，涉及不同的设备。

图12示出了使声学场景的声学渲染适应包括成像对象的视觉渲染的方法900。该方法可以包括，在标题为“生成元数据”的步骤中，生成910与该对象的基于图像的表示相关联的元数据，该元数据表示该对象的建模。该方法可以进一步包括，在标题为“建立声学渲染”的步骤中，通过以下步骤建立920音频源的声学渲染：在标题为“提供空间音频源”的子步骤中，将音频源提供925为声学场景中的空间音频源，该声学场景在几何上与该对象的视觉渲染对齐；在标题为“将成像对象建立为音频对象”的子步骤中，基于该元数据，将该对象建立930为该声学场景中的音频对象，该音频对象具有混响和/或吸收声学性质；以及在标题为“渲染声学场景”的子步骤中，使用空间音频渲染技术渲染935该声学场景，同时使该声学场景的该渲染适应该音频对象的该混响和/或吸收声学性质。应当理解，该方法的步骤可以由相同的实体执行，但是也可以由不同的实体执行。非限制性示例是，步骤910可以由第一处理器系统执行，该第一处理器系统生成元数据并将该元数据传输到执行步骤920至935的第二处理器系统。

注意，在本说明书中描述的任何方法，例如，在任何权利要求中描述的任何方法，可以在计算机上实施为计算机实施的方法、专用硬件、或两者的组合。用于计算机的指令(例如，可执行代码)可以例如以一系列机器可读物理标记960的形式和/或作为一系列具有不同电(例如，磁或光)性质或值的元件的形式存储在如例如图13所示的计算机可读介质950上。可执行代码可以以暂态或非暂态的方式存储。计算机可读介质的示例包括存储器设备、光学存储设备、集成电路、服务器、在线软件等。图13通过示例示出了光学存储设备950。

图14是展示可以在本说明书中描述的实施例中使用的示例性数据处理系统1000的框图。这种数据处理系统包括本说明书中描述的数据处理实体，包括但不限于图7至图11的处理器系统等。

数据处理系统1000可以包括通过系统总线1006耦合至存储器元件1004的至少一个处理器1002。这样，数据处理系统可以在存储器元件1004内存储程序代码。此外，处理器1002可以执行经由系统总线1006从存储器元件1004访问的程序代码。在一方面，数据处理系统可以被实施为适合于存储和/或执行程序代码的计算机。然而，应该理解，数据处理系统1000可以以包括能够执行本说明书中描述的功能的处理器和存储器的任何系统的形式实施。

存储器元件1004可以包括一个或多个物理存储器设备，比如例如本地存储器1008和一个或多个大容量存储设备1010。本地存储器可以指在程序代码的实际执行期间通常使用的随机存取存储器或其他(多个)非持久性存储器设备。大容量存储设备可以被实施为硬盘驱动器、固态硬盘或其他持久性数据存储设备。数据处理系统1000还可以包括一个或多个高速缓存存储器(未示出)，这些高速缓存存储器提供至少一些程序代码的临时存储，以便减少否则在执行期间从大容量存储设备1010检索程序代码的次数。

被描绘为输入设备1012和输出设备1014的输入/输出(I/O)设备可以可选地耦合至数据处理系统。输入设备的示例可以包括但不限于，例如，麦克风、键盘、鼠标等定点设备、游戏控制器、蓝牙控制器、VR控制器和基于手势的输入设备等。输出设备的示例可以包括但不限于，例如，监视器或显示器、扬声器等。输入设备和/或输出设备可以直接或通过中间I/O控制器耦合至数据处理系统。网络适配器1016还可以耦合至数据处理系统，以使其能够通过中间私有或公共网络耦合至其他系统、计算机系统、远程网络设备和/或远程存储设备。网络适配器可以包括用于接收由所述系统、设备和/或网络向所述数据传输的数据的数据接收器和用于向所述系统、设备和/或网络传输数据的数据发射器。调制解调器、电缆调制解调器和以太网卡是可以与数据处理系统1000一起使用的不同类型的网络适配器的示例。

如图14所示，存储器元件1004可以存储应用1018。应该理解，数据处理系统1000可以进一步执行能够促进应用执行的操作系统(未示出)。以可执行程序代码的形式实施的应用可以由数据处理系统1000(例如，由处理器1002)执行。响应于执行应用，数据处理系统可以被配置用于执行将在本文进一步详细描述的一个或多个操作。

例如，数据处理系统1000可以表示如参考图6至图9描述的处理器系统等。在这种情况下，应用1018可以表示当被执行时配置数据处理系统1000来执行参考所述实体所描述的功能的应用。这样的功能可以包括参考图1至图5C描述的功能等。

参考文献

[1]Google Resonance,https://developers.google.com/resonance-audio/

[2]Svensson,U.P.(2002年11月).Modelling acoustic spaces for audiovirtual reality[音频虚拟现实的声学空间建模].IEEE Benelux Workshop关于ModelBased Processing and Coding of Audio[基于模型的音频处理和编码]的会议记录(109-116页).

[3]Coleman,P.,Franck,A.,Jackson,P.J.,Hughes,R.J.,Remaggi,L.和Melchior,F.(2017).Object-based reverberation for spatial audio[空间音频的基于对象的混响].Journal of the Audio Engineering Society[音频工程学会志],65(1/2),66-77.

[4]Scheirer,E.,Huopaniemi,J.和

R.(1998年11月).AudioBIFS:TheMPEG-4standard for effects processing[音频BIFS:用于效果处理的MPEG-4标准].DAFX98 Workshop关于Digital Audio Effects Processing[数字音频效果处理]的会议记录.

[5]Scheirer,E.D.,Vaananen,R.和Huopaniemi,J.(1999年).AudioBIFS:Describing audio scenes with the MPEG-4multimedia standard[音频BIFS:使用MPEG-4多媒体标准描述音频场景].IEEE Transactions on Multimedia[IEEE多媒体会刊],1(3),237-250.

[6]ISO/IEC FDIS 23090-12:201x,Information technology-Codedrepresentation of immersive media(MPEG-I)-Part 2:Omnidirectional media format[沉浸式媒体的编码表示(MPEG-I)-第2部分:全向媒体格式],2017年12月11日

[7]A framework for WebVR[WebVR框架]:https://aframe.io/

[8]Format for providing LIDAR data[用于提供LIDAR数据的格式]:http://www.asprs.org/a/society/committees/standards/LAS_1_4_r13.pdf

在权利要求中，置于括号间的任何附图标记不应被解释为限制权利要求。动词“包括(comprise)”及其词形变化的使用不排除权利要求中所述的元件或步骤之外的元件或步骤的存在。元件前面的冠词“一个(a)”或“一种(an)”不排除存在多个这种元件。本发明可以通过包括若干不同元件的硬件以及通过适当编程的计算机来实施。在列举了若干装置的设备权利要求中，这些装置中的若干装置可以由同一个硬件项具体化。在相互不同的从属权利要求中陈述某些措施这一事实，并不表示不能有利地使用这些措施的组合。

Claims

1.一种使音频源的声学渲染适应场景中的对象的视觉渲染的方法，其中，该视觉渲染被提供给用户，其中，该视觉渲染是以下之一：

该对象的基于图像的表示在虚拟现实场景中的虚拟现实渲染，以及

该对象的基于图像的表示相对于现实生活场景的增强现实渲染，

该方法包括：

-生成与该对象的该基于图像的表示相关联的元数据，该元数据表示该对象的建模，该元数据定义该对象的几何形状的至少一部分并指示该对象的混响和/或吸收声学性质；

-通过以下步骤建立该音频源的该声学渲染：

使用空间音频渲染技术渲染该声学场景，同时使该声学场景的该渲染适应该音频对象的该混响和/或吸收声学性质,其中渲染该声学场景包括基于该音频对象的几何形状、该音频对象的声学性质以及该音频对象在该声学场景内相对于该音频源的相对位置来计算反射。

2.根据权利要求1所述的方法，其中，该对象是具有至少一面墙壁的房间，并且其中，该元数据定义该房间的几何形状的至少一部分。

3.根据权利要求2所述的方法，其中，该元数据通过定义表示该房间的盒子模型来定义该房间的该几何形状的至少一部分。

4.根据权利要求1或2所述的方法，其中，该虚拟现实场景是全向图像。

5.根据权利要求1所述的方法，其中，该虚拟现实场景与第一轴系统相关联，其中，该虚拟现实场景在该第一轴系统中具有默认取向，其中，该元数据包括定义该对象的几何形状的至少一部分的一个或多个坐标，并且其中，该方法包括：

-在该第一轴系统与该一个或多个坐标之间建立空间对应关系；以及

-基于该空间对应关系将该对象建立为该声学场景中的该音频对象。

6.根据权利要求5所述的方法，其中，生成该元数据包括：

-将该对象的该几何形状的至少一部分定义为不同于该第一轴系统的第二轴系统中的坐标；

-确定该第一轴系统与该第二轴系统之间的空间对应关系；以及

-生成该元数据，或者生成与该元数据相关联的其他元数据，以指示该空间对应关系。

7.根据权利要求5所述的方法，其中，生成该元数据包括在该第一轴系统中定义该一个或多个坐标。

8.根据权利要求1所述的方法，其中，生成该元数据包括分析以下各项中的一项或多项：

-该场景的基于图像的表示；

-该对象的该基于图像的表示；以及

-与任一基于图像的表示相关联的深度信息；

使用图像分析技术或计算机视觉技术来获得该对象的建模。

9.根据权利要求1所述的方法，其中，生成该元数据包括经由用户界面从用户获得指示该对象的几何形状的用户输入。

10.根据权利要求1所述的方法，其中，生成该元数据包括指示该混响和/或吸收声学性质。

11.根据权利要求10所述的方法，其中，生成该元数据包括通过指示该对象的材料或通过直接定义该混响和/或吸收声学性质来指示该混响和/或吸收声学性质。

12.根据权利要求1所述的方法，进一步包括在服务器处生成该元数据并将该元数据提供给被配置用于建立该音频源的该声学渲染的接收方。

13.根据权利要求1所述的方法，其中，该音频源表示多用户通信会话的音频，并且其中，该虚拟现实场景表示该多用户通信会话的虚拟背景。

14.一种暂态或非暂态计算机可读介质，该计算机可读介质包括计算机程序，该计算机程序包括用于使处理器系统执行根据权利要求1至13中任一项所述的方法的指令。

15.一种用于生成元数据以用于使音频源的声学渲染适应场景中的对象的视觉渲染的处理器系统，其中，该视觉渲染是以下之一：

该处理器系统包括：

-通信接口，该通信接口被配置用于与接收方通信，其中该接收方被配置用于通过以下步骤建立该音频源的该声学渲染：

将该对象建立为该声学场景中的音频对象，该音频对象具有混响和/或吸收声学性质；以及

使用空间音频渲染技术渲染该声学场景，同时使该声学场景的该渲染适应该音频对象的该混响和/或吸收声学性质,其中渲染该声学场景包括基于该音频对象的几何形状、该音频对象的声学性质以及该音频对象在该声学场景内相对于该音频源的相对位置来计算反射；以及

-处理器，该处理器被配置用于：

生成与该对象的该基于图像的表示相关联的元数据，该元数据表示该对象的建模，该元数据定义该对象的该几何形状的至少一部分并指示该对象的该混响和/或吸收声学性质；以及

经由该通信接口，向该接收方提供该元数据，以使该接收方能够将该对象建立为该声学场景中的该音频对象，该音频对象具有该混响和/或吸收声学性质。

16.一种用于使音频源的声学渲染适应对象的视觉渲染的处理器系统，其中，该视觉渲染是以下之一：

该处理器系统包括：

-通信接口，该通信接口被配置用于接收与该对象的该基于图像的表示相关联的元数据，该元数据表示该对象的建模，该元数据定义该对象的几何形状的至少一部分并指示该对象的混响和/或吸收声学性质；

-音频处理器，该音频处理器被配置用于通过以下步骤建立该音频源的该声学渲染：

17.根据权利要求16所述的处理器系统，进一步包括视频处理器，该视频处理器被配置用于通过向用户提供该虚拟现实渲染和该增强现实渲染之一来建立该虚拟现实场景和该现实生活场景之一的视觉渲染。

18.根据权利要求16或17所述的处理器系统，其中，该处理器系统被配置用于参与多用户通信会话，其中，该空间音频源表示该多用户通信会话的音频，并且其中，该虚拟现实场景表示该多用户通信会话的虚拟背景。