CN116134809A

CN116134809A - 用于传输3d xr媒体数据的方法和设备

Info

Publication number: CN116134809A
Application number: CN202180060114.3A
Authority: CN
Inventors: E·伊普; 梁贤九; 宋在涓
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2020-07-23
Filing date: 2021-07-23
Publication date: 2023-05-16
Also published as: EP4173283A1; US20240096036A1; EP4173283A4; US20220028172A1; KR20220012658A; US11861797B2; WO2022019702A1

Abstract

本公开提供一种由第一终端执行的方法。该方法包括识别连接至至少一个组件装置的第一终端的能力，基于第一终端的能力经由服务器建立与增强现实(AR)服务相关联的会话，对由至少一个组件装置获取的三维(3D)媒体数据执行预处理，以及向第二终端传输预处理的3D媒体数据。

Description

用于传输3D XR媒体数据的方法和设备

技术领域

本公开涉及用于向用户提供扩展现实(XR)体验的方法和设备。更具体地，本公开涉及用于向另一装置传输三维(3D)XR媒体数据的方法和设备。

背景技术

随着近来通信技术和图像处理技术的进步，出现了通过使用诸如可穿戴装置或移动装置的各种装置向用户提供扩展现实(XR)体验的服务。XR或XR服务是集合术语，包括虚拟现实(VR)、增强现实(AR)、混合现实(MR)等，是指通过独立地或与真实世界的环境或对象一起向用户提供虚拟环境或对象，就好像虚拟环境或对象是真实的或与真实世界混合一样，允许用户体验由计算装置虚拟生成的虚拟环境或对象的服务。

作为提供XR服务的方法，使用经由显示装置向用户提供二维(2D)媒体内容的方法。一种经由显示装置向用户提供2D媒体内容的方法包括捕捉、编码、解码和渲染2D对象。

此外，随着可以使用点云或网格表示的3D媒体内容的引入，出现了使用各种装置向用户提供3D XR媒体内容的服务的可能性。用于提供3D XR媒体内容的装置不限于2D显示装置，还可以使用诸如头戴式显示器(head mounted display，HMD)或AR眼镜的各种显示装置。然而，用于捕捉、编码、解码和渲染3D对象的过程可能不同于与2D对象相关的过程。例如，用于处理3D对象的过程可能比处理2D对象的过程更复杂，并且用于处理2D对象的过程在捕捉或编码操作中可能需要很少或不需要数据预处理。另一方面，为了处理3D对象，可能需要数据的预处理，附加的元数据和足够高的信令、处理、呈现或显示性能等与处理2D对象相比可能是必需的。

因此，需要建立一种用于向用户提供3D XR媒体内容的方法和过程。

以上信息仅作为背景信息呈现，以帮助理解本公开。关于上述任何内容是否可以作为现有技术应用于本公开，没有做出确定，也没有做出断定。

发明内容

解决方案

根据本公开的实施例，提供了一种用于在第一终端与第二终端之间执行增强现实(AR)服务的方法和设备。

附图说明

图1A是根据本公开实施例的用于描述二维(2D)视频流和2D视频呼叫的示意图；

图1B是根据本公开实施例的用于描述提供虚拟现实(VR)内容的方法和提供增强现实(AR)内容的方法的示意图；

图2A是根据本公开实施例的用于描述由第一用户设备(UE)执行的向第二UE提供或从第二UE接收三维(3D)扩展现实(XR)媒体内容的方法的示意图；

图2B是根据本公开实施例的用于描述由第一用户执行的与第二用户共享XR媒体内容的方法的示意图；

图3是根据本公开实施例的用于描述XR服务流的示意图，在该XR服务流中向第二用户提供存在于第一用户的环境中的对象作为3D媒体对象；

图4是根据本公开实施例的用于描述可用于提供3D XR媒体的各种装置配置的示意图；

图5是根据本公开实施例的用于描述建立XR服务会话和提供XR服务的进程的示意图；

图6是根据本公开实施例的用于描述用户空间集的示意图；

图7是根据本公开实施例的用于描述媒体数据和元数据的流的示意图；

图8是根据本公开实施例的用于描述UE的XR媒体架构的示意图；

图9是根据本公开实施例的用于描述由第一UE执行的向第二UE传输3D XR媒体数据的方法的示意图；

图10是根据本公开实施例的用于描述UE或组件装置的配置的示意图；

图11是根据本公开实施例的用于描述服务器的配置的示意图；

图12是根据本公开实施例的示出由第一终端执行的方法的流程图；以及

图13是根据本公开实施例的示出由第二终端执行的方法的流程图。

具体实施方式

本公开的多个方面至少解决上述问题和/或缺点，并至少提供下述优点。因此，本公开的一个方面是提供用于向另一装置传输三维(3D)扩展现实(XR)媒体数据的方法和设备。

附加的方面将在下面的描述中部分地阐述，并且从描述中部分地变得显而易见，或者可以通过对所呈现的实施例的实践来了解。

根据本公开的一个方面，提供了一种在无线通信系统中由第一终端执行的方法。方法包括：识别连接至至少一个组件装置的第一终端的能力，基于第一终端的能力经由服务器建立与增强现实(AR)服务相关联的会话，对由至少一个组件装置获取的三维(3D)媒体数据执行预处理，以及向第二终端传输预处理的3D媒体数据。

根据本公开的另一方面，提供了一种在无线通信系统中由第二终端执行的方法。方法包括：识别连接至至少一个组件装置的第二终端的能力，基于第二终端的能力经由服务器建立与增强现实(AR)服务相关联的会话，从第一终端接收三维(3D)媒体数据，对3D媒体数据执行后处理，以及在第二终端上渲染后处理的3D媒体数据。

根据本公开的另一方面，提供了无线通信系统中的第一终端。第一终端包括收发器和至少一个处理器，该处理器被配置为识别连接至至少一个组件装置的第一终端的能力，基于第一终端的能力经由服务器建立与增强现实(AR)服务相关联的会话，对经由至少一个组件装置获取的三维(3D)媒体数据执行预处理，以及经由收发器向第二终端传输预处理的3D媒体数据。

根据本公开的另一方面，提供了无线通信系统中的第二终端。第二终端包括收发器和至少一个处理器，该处理器被配置为识别连接至至少一个组件装置的第二终端的能力，基于第二终端的能力经由服务器建立与增强现实(AR)服务相关联的会话，经由收发器从第一终端接收三维(3D)媒体数据，对3D媒体数据执行后处理，以及在第二终端上渲染后处理的3D媒体数据。

从结合附图公开了本公开的各种实施例的以下描述中，本公开的其他方面、优点和显著特征对于本领域技术人员将变得显而易见。

提供参照附图的以下描述以帮助全面理解如由权利要求及其等同所限定的本公开的各种实施例。它包括各种具体细节以帮助理解，但这些仅视为示例性的。因此，本领域普通技术人员将认识到，在不背离本公开的范围和精神的情况下，可以对这里描述的各种实施例进行各种改变和修改。此外，为了清楚和简明起见，可以省略对众所周知的功能和结构的描述。

在以下描述和权利要求中使用的术语和词语不限于文献意义，而是仅由发明人使用，以使得能够清楚和一致地理解本公开。因此，对于本领域的技术人员来说显而易见的是，本公开的各种实施例的以下描述仅仅是为了说明的目的而提供的，而不是为了限制如由所附权利要求及其等同所限定的本公开。

应当理解，单数形式″一″、″一个″和″该″包括复数指示物，除非上下文中另有明确规定。因此，例如，提及″一个组件表面″包括提及一个或多个这样的表面。

出于同样的原因，在附图中将一些组件夸大、省略或示意性地示出。此外，每个元素的尺寸并不完全反映其实际尺寸。在附图中，相同的附图标记始终指代相同或相应的元素。

通过参照以下实施例和附图的描述，将更容易理解本公开的优点和特征及其实现方法。然而，本公开可以以许多不同的形式体现，并且不应解释为限于下面阐述的实施例。相反，提供这些实施例是为了使本公开变得全面和完整，并将本公开的概念完全传达给本公开所属领域的普通技术人员，并且本公开将仅由所附权利要求来限定。在整个说明书中，相同的附图标记指代相同的元素。

在整个公开中，表述″a、b和c中的至少一个″表示仅a、仅b、仅c、a和b两者、a和c两者、b和c两者、a、b和c的全部或其变体。

终端的示例可以包括用户设备(UE)、移动站(MS)、蜂窝电话、智能手机、计算机、能够执行通信功能的多媒体系统等。

在本公开中，控制器也可以被称为处理器。

在整个说明书中，层(或层设备)也可以被称为实体。

将会理解的是，附图中的流程图的每个块以及流程图的块的组合可以由计算机程序指令来执行。这些计算机程序指令可以加载到通用计算机、专用计算机或其他可编程数据处理设备的处理器中，因此，由计算机或其他可编程数据处理设备的处理器执行的指令创建用于执行流程图块中指定的功能的单元。计算机程序指令也可以存储在计算机可执行或计算机可读存储器中，其能够指导计算机或另一可编程数据处理设备以特定方式实现功能，因此，存储在计算机可执行或计算机可读存储器中的指令能够产生包括用于执行流程图块中描述的功能的指令含义的项目。计算机程序指令也可以加载到计算机或另一可编程数据处理设备中，因此，当在计算机或其他可编程数据处理设备中执行一系列操作时，用于通过生成计算机执行的进程来操作计算机或其他可编程数据处理设备的指令可以提供用于执行流程图块中描述的功能的操作。

此外，每个块可以代表包括一个或多个用于执行指定的(多个)逻辑功能的可执行指令的模块、片段或代码的一部分。还应注意，在一些替代实现中，块中提到的功能可以不按顺序出现。例如，连续示出的两个块可以基本上同时执行，或者这些块有时可以根据与其对应的功能以相反的顺序执行。

如本文中所使用的，术语″单元″表示软件元素或硬件元素，诸如现场可编程门阵列(field-programmable gate array，FPGA)或专用集成电路(application-specificintegrated circuit，ASIC)，并且执行某些功能。然而，术语″单元″不限于软件或硬件。″单元″可以被配置为位于可寻址的存储介质中，或者被配置为操作一个或多个处理器。因此，术语″单元″可以包括例如诸如软件元素、面向对象的软件元素、类元素和任务元素之类的元素、进程、功能、属性、过程、子例程、程序代码段、驱动程序、固件、微代码、电路、数据、数据库、数据结构、表格、数组和变量。由元素和″单元″提供的功能可以组合成较小数量的元素和″单元″，或者可以进一步划分为附加的元素和″单元″。此外，元素和″单元″可以体现为在装置或安全多媒体卡中再生一个或多个中央处理单元(central processing unit，CPU)。此外，在本公开的实施例中，″单元″可以包括一个或多个处理器。

本公开可以应用于各种装置和XR服务。例如，本公开可以应用于诸如增强现实(AR)、AR可穿戴装置(例如AR眼镜、头戴式显示器(HMD)等)、移动AR可穿戴装置、独立AR可穿戴装置、三维(3D)对象建模、3D电话会议、用于XR服务的会话建设(setup)和建立、用于提供XR服务的云辅助会话管理、虚拟现实监视器(virtual reality monitor，VRM)移动VR、电视VR等。可以应用本公开的扩展现实(XR)的领域可以不限于上述示例而以多种不同形式确定。

在本公开中，术语XR是包括VR、AR和混合现实(MR)中的至少一个的术语。例如，AR眼镜、AR对象和VR服务可以分别被称为XR眼镜、XR对象和XR服务。

在本公开中，XR媒体内容可以包括各种类型的媒体内容。例如，XR媒体内容可以包括360度视频内容和基于3D对象的媒体内容(点云和网格)。在本公开中，除非另有说明，XR媒体、XR媒体内容、XR内容、XR服务等都属于3D内容。

在本公开中，″用户的装置″指的是位于用户周围的一个或多个装置，其获取、处理或传输或接收数据以向用户提供XR服务。

在本公开中，″XR装置″是指包括显示器并经由显示器向用户提供XR内容的装置。可以以多种不同形式确定XR装置的显示器的形状和属性。例如，显示器可以是透明的、半透明的或不透明的，并且可以是柔性显示器、可折叠显示器或刚性显示器，其中显示元件是有机发光二极管(organic light-emitting diode，OLED)、LED、液晶(liquid crystal，LC)等。XR装置的显示器的形状和属性可以不限于上述示例而以多种不同形式确定。此外，XR装置可以是用户能够佩戴的可穿戴设备(例如HMD、XR眼镜等)。

在本公开中，″组件装置″是指执行″渲染″、″视觉″中″捕捉″功能中的至少一个以提供XR服务的装置。组件装置可以是指渲染装置、视觉装置和捕捉装置的统称。下面将参照图4详细描述每个功能。组件装置可以是独立的装置或包括在另一装置中的装置块。

各种通信技术中的任何一种或多种可以用作可用于在组件装置之间的通信以及在组件装置与UE之间的通信的通信技术。例如，可以使用装置到装置(device-to-device，D2D)通信技术，诸如Wi-Fi、无线直连(Wi-Fi Direct)、D2D通信、5G旁路(sidelink)、蓝牙、网络共享(tethering)和其他短程通信技术。可用于在组件装置之间的通信和在组件装置与UE之间的通信的通信技术可以不限于上述示例而以多种不同形式确定。

在本公开中，″UE″指的是具有网络能力(例如第五代(5G)调制解调器能力)以经由网络向另一用户的装置传输数据或从另一用户的装置接收数据的装置。例如，UE可以经由服务器与另一UE通信，并且可以包括用于与服务器或另一UE通信的通信模块或通信应用。

作为可用于UE之间通信的通信技术，可以使用各种通信技术中的任何一种或多种。例如，UE可以通过使用符合第三代合作伙伴计划(3GPP)标准的诸如长期演进(LTE)或5G的通信技术或者诸如Wi-Fi的通信技术来与其他UE进行通信。可用于UE之间通信的通信技术可以不限于上述示例而以多种不同形式确定。

在本公开中，诸如″XR装置″、″组件装置″和″UE″的装置名称用于根据用户装置的功能对其进行逻辑分类。因此，装置可以由一个或多个装置名称来指代。例如，当第一装置包括显示器并且能够向第一用户显示XR内容、向第二用户的UE传输数据或从第二用户的UE接收数据、以及经由内置相机捕捉对象时，根据情况，第一装置可以被称为XR装置、捕捉装置(组件装置)和UE中的任何一个。

本公开提出的提供3D XR媒体内容的方法包括如下：

——用于XR服务的端到端(End to end，E2E)流和架构。用于XR服务的E2E流程和架构可以包括跨多个装置之间的服务的媒体处理的分布，并且可以由云中的处理实体(一个或多个云服务器、边缘云、移动边缘计算(mobile edge computing，MEC)服务器等)组成。

——用于XR服务的终端或UE的功能组件架构。

——支持包括多个装置的配置(以下被称为多装置配置)的UE架构。例如，多个装置可以经由有线网络共享(wired tethering)、无线网络共享(wireless tethering)或其他有线/无线网络彼此连接(或网络共享)。此外，多装置配置可以包括独立的可穿戴装置(例如，HMD、XR眼镜等)。

——用于各种装置上的各种XR服务的UE会话建设和建立过程。

——用于启用XR对话服务的用例的必要信息(例如，装置姿态信息、参考点、装置的功能类型(例如，视觉、捕捉等))和媒体属性(例如对象尺寸等)。

——用于确定会话建立的UE特征和能力的定义。

——基于服务、UE能力和需求(根据UE或服务管理实体)来确定云协助。

然而，以上描述仅仅是为了便于理解，将在整个公开中描述本公开中呈现的实施例。在下文中，将参照附图描述根据本公开的方法和设备。

图1A是根据本公开实施例的用于描述二维(2D)视频流101和2D视频呼叫的示意图。

参照图1A，在2D视频流101中，2D视频内容可以直接传输至UE。2D视频呼叫102是这样一种服务，其中当使用第一UE的第一用户与使用第二UE的第二用户进行或接收视频呼叫时，第一用户和/或第二用户的多图像(或单图像)作为2D视频图像显示在第一UE和第二UE中的每一个的2D显示器上。在2D视频呼叫102中，在第一UE和第二UE的每一个的显示器中，第一UE的第一用户的2D视频图像和第二UE的第二用户的2D视频图像简单地彼此重叠，但是这两个视频图像可能彼此不相关。

图1B是根据本公开实施例的用于描述VR内容提供方法103和AR内容提供方法104的示意图。

参照图1B，在VR内容提供方法103中，可以基于UE的视点创建视口，并且可以基于视口生成VR内容。视口指的是表示空间区域的多边形，并且可以在视口内渲染对象。换句话说，在VR内容提供方法103中，可以生成为VR内容的只有在从UE的视点由UE观看的区域中包括的对象。生成的VR内容可以显示在UE的显示器上，或者传输至另一UE。

在AR内容提供方法104中，可以基于UE的姿态生成视觉信息，并且可以基于视觉信息生成AR内容。视觉信息是关于UE的周围环境的信息。换句话说，在AR内容提供方法104中，可以基于第一UE的姿态来生成视觉信息，包括关于第一UE相对于第一UE的周围环境所处的位置和方向的信息，并且可以通过考虑第一UE的周围环境来向第二UE提供第一UE的图像或第一UE周围的对象的图像。例如，当第一UE躺在沙发上时，第二UE可以显示躺在沙发上的第一UE或任何对象上图像。换句话说，在AR内容提供方法104中，可以基于视觉信息来确定要将存在于第一UE的周围环境中的对象显示在第二UE的显示器上的位置(将增强的对象的位置)。

与2D媒体内容的使用情况相比，本公开提供了一种用于为XR应用启用360度视频和3D媒体相关服务的方法。本公开的360度视频和3D媒体相关服务可以包括XR对话服务。XR对话服务是这样的服务，其中在使用XR装置的用户之间的实时对话(例如，呼叫)期间将预先或实时生成的AR对象、VR对象等实时提供给用户。对于XR对话服务，在端到端(E2E)流中可能需要附加的预处理/后处理，以支持VR或AR应用。此外，正确渲染和显示对象可能需要与在XR对话服务的用例中可能使用的装置的配置和设置相关的附加信息。

例如，对元数据以及附加预处理和后处理的要求可以根据以下因素来确定。

——应用和用例(从用户的角度)

——用例中可能使用的各种装置的组合和外形因素(从用户角度和系统角度)

——由于服务链中的E2E约束或瓶颈(例如，对网络带宽或装置处理/功能的约束)而可能需要的媒体协调

为了支持通过360度视频和3D媒体实现的实时服务(例如，诸如XR对话服务的服务，其中实时捕捉和处理内容，并实时递送给网络处理实体或另一用户)，元数据(例如，姿态、相机类型等)可能需要用于处理和显示360度视频和3D媒体。此外，可能需要优化与跨整个E2E流的元数据相关的处理操作，以便装置、服务和网络的要求都得到满足。

根据本公开的实施例，定义了用于XR服务的UE架构。本公开的UE架构可以跨越不同的装置配置(或设置)和不同的能力(捕捉、视觉、渲染、显示和处理能力，以及处理速度/功率)在各种网络能力和环境下(例如，可变的网络带宽、MEC/云处理能力等)使具有各种要求(媒体类型、媒体质量、等待时间等)的各种服务(例如，AR对话服务)成为可能。

图2A是根据本公开实施例的用于描述由第一UE执行的向第二UE提供或从第二UE接收3D XR媒体内容的方法的示意图。

参照图2A，与UE相关的信息包括指示UE的周围环境的视觉信息和关于包括在UE的周围环境中的XR对象的信息。为了使第二UE向第二UE的用户提供被包括在第一UE的周围环境中的第一XR对象作为3D XR媒体内容，可能需要关于第一XR对象的信息和关于第一UE的周围环境的第一视觉信息。第一视觉信息可以由第二UE用来确定在哪里显示第一XR对象。

在根据本公开实施例的3D XR内容提供方法201中，第一UE可以向第二UE提供第一UE的第一空间集信息，使得第二UE可以获得第一XR对象和第一视觉信息，并在其上显示第一XR对象。第一空间集信息是关于第一UE周围的空间的信息，第二UE可以使用第一空间集信息来辨认第一UE的周围环境并显示第一XR对象。此外，通过考虑第一和第二UE两者的周围环境，第二UE可以进一步使用第二UE的第二空间集信息来显示第一XR对象。类似地，第一UE可以从第二UE接收第二空间集信息，并且基于第二视觉信息显示第二XR对象。可选地，一些或所有视觉信息可以不在UE之间共享，并且每个UE可以基于所接收的空间集信息来显示XR对象。下面将参照图6详细描述空间集信息。

图2B是根据本公开实施例的用于描述由第一用户211执行的与第二用户221共享XR媒体内容的方法的示意图。将参照图2B描述的本公开实施例仅仅是示例，根据本公开的提供3D XR媒体内容的方法不限于图2B所示的本公开实施例。图2B示出了将XR眼镜用作XR设备的示例。XR眼镜可以是透明的、半透明的或不透明的。除了当XR眼镜不透明时，XR眼镜的用户可以直接通过镜片看到实际存在于用户视野(field ofview，FOV)中的对象，并且另外看到由XR眼镜显示的3D媒体对象。

参照图2B，图2B的202示出了在第一用户211与第二用户221之间执行XR呼叫(或AR呼叫)的情况。XR呼叫可以由第一UE 214与第二UE 222之间的呼叫请求和呼叫响应发起。第一用户211可以经由第一XR眼镜212看到代表第二用户221的3D视频对象215和共享对象216，而第二用户221可以经由第二XR眼镜(或第二UE)222看到代表第一用户211的3D视频对象225和共享对象226。

第一XR眼镜212、第一相机213和第一UE 214可以作为用于XR服务的装置存在于第一用户211周围。第一XR眼镜212可以渲染要在其显示器上显示的XR对象。此外，第一XR眼镜212可以包括视觉相机，并且可以通过使用视觉相机来捕捉第一用户211的周围环境210。第一相机213可以实时捕捉第一用户211的图像，并且可以用于向第二用户221传输第一用户211的实时3D图像。第一UE 214可以控制与第二UE 222的XR呼叫，接收和处理来自第二UE222的数据以传输至第一XR眼镜212，并且接收和处理从第一XR眼镜212和第一相机213捕捉的图像以传输至第二UE 222。类似地，第二XR眼镜(或第二UE)222和第二相机223可以在第二用户环境220内作为用于XR服务的装置存在于第二用户221周围。这样的配置与第一用户211周围的装置的配置的不同之处在于，第二XR眼镜还用作能够向第一UE 214传输数据和从第一UE 214接收数据并管理和处理各种数据片的第二UE 222。

共享对象216或226可以是实际存在于第一用户211或第二用户221周围的对象，或者是由第一用户211或第二用户221虚拟创建或共享的对象。此外，第一用户211或第二用户221能够操纵共享对象216或226(或与之交互)。例如，第二用户221可以移动或旋转显示在第二XR眼镜(或第二UE222)上的共享对象226，并且相应地，共享对象216也可以在第一XR眼镜212的显示器中移动或旋转。

在如图2B的202和203所示执行XR呼叫的情况下，可能存在以下特征。以下特征中的至少一些可能不同于图1A的2D视频呼叫的特征。

——可以在两个用户之间递送(和/或共享)一个或多个3D媒体对象。对象可以实时捕捉，或者在AR呼叫之前预先捕捉。

——用户可以经由XR装置看到3D媒体对象。

——当在XR设备上渲染时，3D媒体对象可以逼真地增强到用户的环境或背景中。

——用户交互是可能的，诸如在用户环境中由用户旋转和放置3D媒体对象。

——3D媒体对象可以预先制作并在通话中的用户之间共享(例如，像共享对象216一样)，或者以实时直播的方式捕捉和递送(例如，像代表第一用户211或第二用户221的3D视频对象一样)。

——用户的UE可以包括一个或多个具有不同处理功能和能力的硬件装置，或者可以连接至一个或多个硬件装置。例如，一个或多个硬件装置可以包括捕捉相机、视觉相机、渲染XR眼镜、执行特定处理并具有5G能力的移动装置等。

——一个或多个硬件装置可以位于用户环境中的不同位置，并且硬件装置的位置可以是静态的或动态的。

——服务所需的媒体处理可以分布在E2E流内的其他装置和实体(例如云和MEC服务器等)中。

根据本公开的实施例，为了在用户环境中增强和显示3D媒体对象，XR眼镜、UE和相机可以彼此交换信息。第二UE 222可经由第二相机223获得关于第二用户221的信息、用于生成第二空间集的信息和关于存在于第二空间集中的对象(例如第二用户221)的信息。第一UE 214可以从第二UE 222接收关于第二UE 222周围的第二空间集的信息和关于第二用户221的信息。第一UE 214可以在处理或不处理接收的信息之后，将从第二UE 222接收的信息传输至第一XR眼镜212。第一XR眼镜212可以基于所接收的信息通过使用显示器在第一用户211的环境中增强和显示用于第二用户221的3D媒体对象和共享对象216。为了使第一XR眼镜212增强并显示3D媒体对象，还可以使用从第一相机213获得的关于第一用户211的周围环境的信息。以相同的方式，第二XR装置可以在第二用户221的环境中增强和显示第一用户211和共享对象226。

图2B的附图标记203代表佩戴第一XR眼镜212的第一用户211的视野。作为共享对象216的桌子和代表第二用户221的3D视频对象215可以显示在第一XR眼镜212的显示器上。此外，可以在三个或更多用户之间进行XR呼叫。例如，参照图2B的203，包括第一用户211在内的总共五个用户参与XR呼叫，并且第二用户221、第三用户和第四用户显示在第一XR眼镜212上。因为作为共享对象216的桌子和第五用户217实际上存在于第一用户211的周围，所以桌子和第五用户217对于第一用户211来说可以是直接可见的，而无需各自显示在第一XR眼镜212的透明或半透明显示器上。

在下文中，将参照图3至图11描述根据本公开的用于提供各种3D XR服务(诸如参照图2B描述的XR呼叫)的3D XR媒体内容提供方法。图3是用于描述提供XR服务的媒体流程的示意图，图4示出了用于提供XR服务的各种装置配置。图5示出了用于提供XR服务的XR服务会话建立，图6示出了用于提供XR服务的用户空间集和用户空间集参数。图7示出了XR服务会话中的媒体数据和元数据的流，图8示出了用于提供XR服务的UE的XR媒体架构，图9是XR服务提供方法的流程图。图10和图11示出了用于提供XR服务的装置的配置。

图3是根据本公开实施例的用于描述XR服务流的示意图，在该XR服务中向第二用户提供存在于第一用户的环境中的对象(下文中被称为″第一对象″)作为3D媒体对象。

参照图3，通过3D媒体进程300可以给第二用户提供第一对象。3D媒体进程300可以由包括第一UE的第一用户的装置和包括第二UE的第二用户的装置来执行，并且一些3D媒体进程300可以由云或MEC服务器来执行。例如，捕捉310可以由第一用户的装置来执行，并且3D建模320、XR编码330和XR格式化340中的至少一些可以由第一用户的装置或云或MEC服务器来执行。XR解码360或XR渲染370中的至少一个可以由第二用户的装置或云或MEC服务器来执行。因此，可能需要XR服务会话的管理，以便在实体之间分布服务处理，即以分布的方式确定哪个实体将执行3D媒体进程300中的特定进程。例如，基于组件装置的能力、UE的能力或XR装置的能力中的至少一个，UE可以确定请求云或MEC服务器为至少一些3D媒体进程300执行处理(即云辅助处理)。此外，云或MEC服务器可以从UE接收装置能力报告，并且基于组件装置的能力、UE的能力和XR装置的能力中的至少一个，确定是否为3D媒体进程300中的至少一些执行云辅助处理。用于评估用户装置的能力的标准可以包括装置的存储容量、每秒可处理操作的数量、处理装置的时钟数量或者关于是否包括专用于特定处理的硬件设备的信息。用于评估用户装置的能力的标准可以不限于上述示例而以多种不同形式确定。

3D媒体进程300中的详细操作的示例如下。

——捕捉(或捕获)310：经由一个或多个相机实时捕捉内容(例如场景、对象、两者的组合等，取决于服务应用)的操作。一个或多个相机不仅可以包括RGB相机(输出2D视频)，还可以包括能够捕捉深度属性和诸如反射率的可用于捕捉3D建模所需的数据(例如，深度图)的其他属性的相机。可由相机捕捉的属性不限于上述示例，并且可以包括各种其他属性。此外，除了捕捉的数据之外，对由相机捕捉的数据的处理可能需要在捕捉期间可获得的其他数据(例如，相机的内在和外在参数)。

——3D建模320：捕捉310中的数据输出可以用于执行3D建模，以生成并输出3D模型数据比特流形式的内容。诸如多边形文件格式(polygon file format，PLY)数据的3D模型数据比特流可以以点云或网格的形式表示3D媒体数据。例如，在捕捉310中输出的数据可以处理为如下的层数据。

>多重RGB+深度->代表一个对象的单个PLY(>multiple RGB+depth->a singlePLY representing one object)

>多重RGB+深度->多个PLY(多个对象子部分)->代表一个对象的单个PLY(>multiple RGB+depth->a plurality ofPLYs(a plurality of object sub-parts)->Asingle PLY representing one object)

——XR编码330：可以对3D建模320中的输出进行编码以压缩大量的原始数据。可以使用各种编码技术(例如，基于运动图像专家组(moving pictures expert group，MPEG)视频的点云压缩(video based point cloud compression，V-PCC)、Google Draco等)来执行点云编码或网格编码。编码可以是有损编码或无损编码。为了支持压缩数据的解码，可能必须使用与在XR编码330中使用的编码器相对应的解码器。

——XR格式化(或格式)340：对于利用诸如5G网络的网络的数据传输，在XR编码330的进程中输出的压缩数据可能需要格式化和/或封装。例如，用于文件封装的MPEG国际标准化组织基本文件格式(ISOBMFF)、MPEG媒体传输协议(MPEG media transportprotocol，MMTP)有效载荷格式、用于在递送数据之前准备的实时传输协议(real-timetransport protocol，RTP)有效载荷格式等可以用作格式技术。

——递送350：通过使用超文本传输协议(hypertext transfer protocol，HTTP)、RTP、基于HTTP的MPEG动态自适应流(dynamic adaptive streaming over HTTP，DASH)、MPEG媒体传输(MPEG media transport，MMT)或其他递送机制，可以利用5G网络等将压缩和格式化的媒体递送至第二UE。

——XR解码360：压缩数据可以由XR解码实体接收，并且XR解码实体可以对压缩比特流进行解封装和解码，以恢复尚未压缩的PLY比特流。

——XR渲染370：在XR解码360之后，3D数据比特流可以传输至渲染器。渲染器可以根据从第一UE接收的第一用户或第一UE的意图或使用第二UE的第二用户的姿态信息(例如用户偏移位置、姿态、朝向、视见平截头体和视口)来渲染3D数据的2D视口。第一用户或第一UE的意图可以通过例如一些元数据递送给第二UE。

图3中示出的3D媒体进程300仅仅是XR 3D服务流的示例，并且可以通过与3D媒体进程300略有不同的媒体进程来提供3D媒体。此外，第一和第二UE可以各自包括一个或多个组件装置，或者可以连接至一个或多个组件装置。例如，一个或多个组件装置可以通过使用蓝牙、Wi-Fi Direct、5G旁路或其他通信技术连接或网络共享至第一UE或第二UE。

图4是根据本公开实施例的用于描述可用于提供3D XR媒体的各种装置配置的示意图。

在描述装置配置之前，将描述根据本公开实施例的每个装置的语法。可以使用以下语法或标识符来指定每个装置。

——UE ID、装置描述和装置功能类型描述(UEx：devicedescription：devicefunctionalitytypedescription)

这里，当每个装置具有向另一用户的装置传输数据和从另一用户的装置接收数据的网络能力(以下被称为数据网络能力)时，对应的装置具有唯一的UE ID，否则，用于对应装置的语法可以包括在以有线或无线方式与该装置连接的装置中具有数据网络能力的另一装置的UE ID。例如，在图4的第一装置配置401中，因为只有移动电话具有数据网络能力，所以用户周围的所有装置的UE ID是作为移动电话的UE ID的“UE1″。另一方面，在第三装置配置403中，因为独立的XR眼镜、第三相机和移动电话各自都具有数据网络能力，所以它们可以分别具有“UE1″、“UE2″和“UE3″作为UE ID。根据本公开的实施例，当UE能够接入5G系统时，订阅永久标识符(subscription permanent identifier，SUPI)、永久设备标识符(permanent equipment identifier，PEI)、和5G全球唯一临时标识符(5G global uniquetemporary identifier，5G-GUTI)中的至少一个可以用作UE ID。此外，可以根据预设算法来确定UE ID与使用单独算法生成的SUPI、PEI和5G-GUTI中的每一个之间的相关性，并且可以向UE提供该相关性。该相关性可以例如由UE或服务器来确定，并且可以提供给UE或服务器。

根据本公开的实施例，对应于装置的“装置功能类型描述″可以基于装置配置中的角色来分类，并且可以定义如下。

——渲染：与渲染功能类型相对应的装置可以在显示器上渲染XR对象。渲染装置可以通过使用元数据/用于与XR渲染相关的功能处理的必要信息来渲染XR对象。与渲染相关的功能处理可以包括例如2D/3D媒体解码、后处理、呈现和渲染到2D/3D显示器。用于XR渲染的必要信息不仅可以包括媒体数据，还可以包括渲染装置本身的姿态信息。

——视觉：与视觉功能类型相对应的装置可以获得并提供关于用户周围环境的信息(即视觉信息)，以使用于XR服务的2D或3D媒体的准确渲染成为可能。例如，视觉装置可以通过使用RGB相机或其他相机来获得用于计算机视觉处理的基本输入数据，诸如同步定位与地图构建(simultaneous localization and mapping，SLAM)，从而可以标识和分析用户的周围环境。为了逼真地将XR环境叠加到用户的环境上，可能需要对用户的周围环境以及3D媒体对象进行准确的分析。逼真表现叠加的用例可以是例如将狗的3D媒体点云(3D媒体对象)放置在地板表面上(用户的周围环境)或用户起居室的沙发上(用户的周围环境)。

——捕捉：与捕捉功能类型相对应的装置可以获得并提供用于捕捉用户环境中的3D对象(例如用户头部、身体或其他对象的3D模型)的基本输入数据。

图4示出了根据本公开实施例的能够经由XR装置向用户提供3D媒体内容的三种装置配置。图4中所示的各种装置相对于彼此的相对位置可以是静态的或动态的。

参照图4，第一装置配置401由网络共享至移动电话的XR眼镜、在XR眼镜中包括的第一相机以及三个外部相机组成。视觉相机UE1：camera1：vision(UE1：相机1：视觉)可以位于XR眼镜(渲染装置)上或内部。捕捉相机UE1：camera3：capturing(UE1：相机3：捕捉)、UE1：camera4：capturing(UE1：相机4：捕捉)和UE1：camera5：capturing(UE1：相机5：捕捉)可以位于XR眼镜外部以捕捉用户周围的对象。具有数据网络能力的移动电话可以以有线方式或根据无线通信方法(例如蓝牙、网络共享等)连接至XR眼镜。此外，移动电话可以在移动电话的显示器上渲染XR对象(并且因此可以被识别为″UE1：phone：rendering(UE1：手机：渲染)″)，并且经由其相机捕捉移动电话周围的对象(并且因此可以被识别为″UE1：camera2：capturing(UE1：相机2：捕捉)″)。

第二装置配置402由独立XR眼镜、独立XR眼镜中包括的第一相机、可停驻的(dockable)第二相机和外部相机组成。与第一装置配置401中不同，如此称呼独立XR眼镜是因为它们具有向另一用户的装置传输数据和从另一用户的装置接收数据的数据网络能力，而无需单独的移动电话。可停驻的第二相机是可从独立的XR眼镜上拆卸下来的相机。换句话说，第一相机可以作为独立XR眼镜的组件附接至或包括在独立XR眼镜中，而第二相机可以附接至独立XR眼镜或从独立XR眼镜拆卸以置于不同的位置。第一相机可以执行视觉功能，第二相机可以执行视觉功能和捕捉功能两者。

第三装置配置403由独立XR眼镜、两个外部相机和移动电话组成。第三装置配置403由具有数据网络能力的多个装置(独立XR眼镜、第三相机和移动电话)组成。因此，具有数据网络能力的每个装置可以经由其他装置将与XR服务相关的数据传输至目标目的地(例如另一个用户的装置或服务器)，或者直接传输至目标目的地而不经过其他装置。

此外，图4仅示出了各种设备配置的三个示例，并且本公开不限于图4的示例，并且可以包括各种其他设备配置。例如，可以用各种方式来确定每个设备是否具有数据网络能力。即使当第一装置具有数据网络能力时，第一装置也可以将数据传输至具有数据网络能力的第二装置，并且第二装置可以处理接收的数据并将其传输至服务器或另一装置。此外，可以包括在装置配置中的装置的数量可以不限于图4的示例并以多种不同形式确定。每个装置具有的功能类型(捕捉、视觉和渲染)也可以以多种不同形式确定。

图5是根据本公开实施例的用于描述建立XR服务会话和提供XR服务的进程的示意图。

参照图5，UE 51可以与属于UE用户环境的一个或多个组件装置52和XR服务提供者53通信。可以基于UE、一个或多个组件装置和XR服务提供者之间的通信来建立XR服务会话。UE的用户可以通过使用建立的XR服务会话实时地向另一UE的用户传输XR 3D媒体内容或从另一UE的用户接收XR 3D媒体内容。XR服务提供者可以包括至少一个服务器，并将XR服务相关数据或元数据传输到UE。例如，XR服务提供者可以包括云、MEC服务器等。

在操作501中，每个组件装置可以向UE传输其装置描述作为初始能力报告。一个或多个组件装置可以包括例如AR眼镜、相机等。当将相应的组件装置初始安装/连接至UE时，可以向UE传输初始能力报告。

在操作502中，UE可以请求XR服务提供者传输与XR服务列表相关联的信息。例如，当UE的用户经由UE请求来自另一用户的XR呼叫或者接收来自另一用户的XR呼叫请求时，可以发起对XR服务列表的请求。UE可以假设XR服务可以根据装置能力或网络能力提供对象或场景的一个或多个表现。

在操作503中，XR服务提供者可以向UE提供XR服务列表作为响应。XR服务列表可以包括对于每个XR服务的能力要求。在XR服务列表中可以包括的XR服务可以以多种不同形式确定。例如，XR服务可以包括XR会议、AR会议、视频呼叫等。此外，XR服务可以包括对于相同类型的服务(例如，XR呼叫)具有不同能力要求的多个服务(例如，高能力XR呼叫服务和低能力XR呼叫服务)。此外，对于给定的XR服务，XR服务提供者可以执行网络媒体处理来支持处理能力不足的UE。例如，XR服务提供者可以代替UE执行诸如XR媒体数据的编码或解码的处理，并将结果数据传输至UE。XR服务列表还可以包括关于网络辅助媒体处理对于每个XR服务是否可用或是否需要的信息。

在操作504中，UE可以从每个组件装置请求装置状态报告。

在操作505中，对应的组件装置可以向UE传输装置状态报告。例如，装置状态报告可以包括以下装置状态信息或装置能力信息：

——装置的物理位置和面向方向(例如，相机姿态)

——装置的硬件能力(例如，对于相机，RGB分辨率、深度分辨率和FOV；对于XR眼镜，编码器和解码器功能、3D建模功能、显示分辨率、显示FOV等。)

在操作506中，基于在操作501中接收的初始能力报告、在操作503中接收的XR服务列表以及在操作505中接收的装置状态报告，UE可以从XR服务列表中选择至少一个XR服务。在操作505中，UE可以收集从一个或多个组件装置接收的装置状态报告，并从XR服务列表中选择具有与每个组件装置的状态或能力相匹配的能力要求的XR服务。

在操作507中，基于在操作501中接收的初始能力报告和在操作505中接收的装置状态报告，UE可以确定与所选择的XR服务相关的对应组件装置的能力信息和状态信息，并将确定的组件装置的能力信息和状态信息作为装置能力报告传输至XR服务提供者。装置能力报告可以包括相机信息、组件装置的处理性能、组件装置的位置和朝向信息等。根据本公开的实施例，装置能力报告可以包括用户空间集参数。UE可以基于在操作501中接收的初始能力报告和在操作505中接收的装置状态报告来确定用户空间集参数。下面将参照图6详细描述用于用户空间集参数的语法和语义。此外，基于对应的组件装置的能力、UE的能力、和XR装置的能力中的至少一个，UE可以确定请求XR服务提供者对与所选择的XR服务相关的3D媒体进程中的至少一些进程执行处理(即网络辅助处理)。根据本公开的实施例，装置能力报告可以包括用于为与所选择的XR服务相关的至少一些3D媒体进程请求网络辅助处理的信息。

在操作508中，XR服务提供者可以向UE提供装置配置信息和服务入口点(例如，以基于HTTP的动态自适应流(DASH)媒体呈现描述(media presentation description，MPD)的形式的清单)等。装置配置信息可以包括与所选择的XR服务相关的组件装置的操作相关配置信息(例如，显示分辨率、上行链路媒体简档、必要的元数据等)。服务入口点可以包括UE可访问的数据网络的标识信息(例如，地址)以接收所选XR服务。此外，基于在操作507中接收的装置能力报告中包括的UE的请求或用户装置的能力(组件装置的能力、UE的能力或XR装置的能力)，XR服务提供者可以确定执行与所选择的XR服务相关的至少一些3D媒体进程。根据本公开的实施例，在操作508中，XR服务提供者可以向UE传输关于网络将支持哪个3D媒体进程的信息。

在操作509中，UE可以向每个组件装置传输装置配置信息。

每个组件装置可以向UE传输配置确认(acknowledgment，ACK)响应(操作510)。配置ACK响应可以包括响应的细节，指示对应的组件装置根据所接收的装置配置信息已经配置或者能够配置其自身。此外，组件装置可以向UE传输所选择的XR服务的会话所需的媒体数据和元数据。

在操作511中，UE可以经由访问在操作508中接收的服务入口点来建立XR服务会话。当建立XR服务会话时，在操作512中，UE和XR服务提供者可以继续进行媒体数据和元数据的上行链路/下行链路流。

根据本公开的实施例，操作501至505可以仅在UE初始连接至每个组件装置时执行。换句话说，在初始连接之后，UE建立第一XR服务会话以向用户提供第一XR服务，并且当第一XR服务会话结束之后需要建立第二XR服务会话时，可以跳过操作501至505。此外，在操作501中初始报告的装置描述可以改为在操作505中报告。

不仅由于物理环境本身的重要性，而且由于依赖于用户物理环境的用户装置配置的多样性，高质量的XR体验可能需要与组件装置的用户环境相关的装置能力信息和元数据。本公开定义了XR服务会话中所需的与组件装置的用户环境相关的装置能力信息和元数据。参与XR服务会话的实体可以使用装置能力信息和元数据来向用户提供XR服务。

此外，本公开提出了用于在定义装置能力信息和元数据时考虑用户环境的“用户空间集″。用户空间集可以是包括关于位于用户周围并用于提供XR服务的各种装置的位置和朝向的信息、装置的能力信息或关于用户周围的物理环境的信息中的至少一个的信息集。位于用户周围的各种装置可以用于与用户周围的物理环境一起定义用户空间集。每个用户可以有用户空间集。换句话说，可以存在与每个用户相对应的用户空间集。

图6是根据本公开实施例的用于描述用户空间集的示意图。

根据本公开的实施例，用户空间集可以包括指示用户周围环境的各种参数(在下文中，被称为″用户空间集参数″)。用户空间集可以包括关于空间的信息和关于位于用户周围并用于提供XR服务的各种装置的信息。参与XR服务会话的至少一些装置(即UE)可以基于被包括在用户空间集中的各种参数来获得或处理用于提供XR服务所需的信息。例如，UE可以从附近的相机接收捕捉的数据或视觉数据，并且基于用户空间集来处理所接收的捕捉的数据或视觉数据。所处理的数据可以与用户空间集一起传输至服务器或另一UE，并且可以用于向其他用户提供关于用户周围环境的3D媒体数据。

参照图6，可以使用右手笛卡尔坐标系来表示用户空间集，其中原点被定义为参考点，x轴方向被定义为空间集参考朝向。然而，这仅仅是示例，用户空间集可以根据用于表示3D空间的各种其他表示技术来表示。在本公开中，为了方便起见，将使用右手笛卡尔坐标系作为表示技术的示例来描述用户空间集。根据图6的示例，在用户空间集中可以有XR眼镜601、第一捕捉相机602和第二捕捉相机603，它们执行作为UE的功能、视觉功能和渲染功能。

此外，用户空间集可以包括一个或多个子空间集。根据本公开的一个实施例，视觉子空间集定义了空间，其中在视觉子空间内渲染并逼真地增强3D媒体，使得用户可以体验3D媒体作为存在于视觉子空间中的场景/背景的逼真部分。一个或多个视觉子空间集可以存在于单个用户空间集内。视觉子空间集可以使用一个或多个视觉相机来实现，其FOV可以重叠或不重叠。此外，可以有与执行视觉功能的每个组件装置相对应的视觉子空间集。

根据本公开的实施例，捕捉子空间集定义了空间，其中真实3D对象可以由一个或多个捕捉相机立体地捕捉。当只有真实3D对象的一部分存在于捕捉子空间集内时，只可以捕捉真实3D对象的该部分。一个或多个捕捉子空间集可以存在于单个用户空间集内。捕捉子空间集可以使用一个或多个捕捉相机来实现，其FOV可以重叠或不重叠。此外，可以有与执行捕捉功能的每个组件装置相对应的捕捉子空间集。

另外，尽管为了方便起见，下面描述了用户空间集和子空间集均为长方体形状，但是用户空间集和子空间集的形状不限于长方体，而是可以以多种不同形式确定。此外，用户空间集或子空间集可以是静态的，也可以是动态变化的。例如，用户空间集或子空间集的形状、尺寸、形状等可能由于各种原因(例如，用户或装置的重新定位等)而修改，并且用户空间集或子空间集的位置可以改变。

根据本公开的实施例，可以为每个装置或装置的每个功能类型提供子空间集。例如，对于XR眼镜601可以存在视觉子空间集610，对于第一捕捉相机602可以存在第一捕捉子空间集620，对于第二捕捉相机603可以存在第二捕捉子空间集630。另外，XR眼镜601还可以执行捕捉功能，并且在这种情况下，也可以为XR眼镜601提供单独的捕捉子空间集。用户空间集600中的位置和朝向信息可以相对于用户空间集600的参考点605来确定。另外，可以相对于子空间集中的参考点来确定子空间集中的位置和朝向信息，并且可以相对于用户空间集600的参考点605来确定子空间集中的参考点。例如，视觉子空间集610中的参考点611、第一捕捉子空间集620中的参考点621和第二捕捉子空间集630中的参考点631可以相对于用户空间集600中的参考点605来确定。

根据本公开的实施例，提供XR服务所需的信息可以包括以下多个信息中的至少一个：

——用户空间集中的装置数量

——每个装置的装置描述

——每个装置的装置功能类型。装置功能类型可以用作使用每个装置的姿态信息的基础。每个装置的装置功能类型可以包括渲染、视觉、和捕捉中的至少一个。

——每个装置的位置和朝向(例如，相机前面的位置和朝向)。换句话说，每个装置相对于在用户空间集中定义的参考点的姿态。

——参考点。参考点可以是以下之一：

o基于真实世界坐标的任意绝对位置坐标，诸如全球定位系统(GPS)坐标

o绑定到用户空间集中的一个装置的参考点。

——装置的位置和/或朝向是静态还是动态的指示；

——对于相机装置：

o FOV/视角

o传感器深度灵敏度的最小值和最大值

o内在参数

o外在参数

根据本公开的实施例，用户空间集参数可以包括如上所述的XR服务的必要信息，并且可以使用以下语法来表示。首先，用户空间集参数可以分类为第一参数组和第二参数组。根据本公开的实施例，第二参数组可以是或可以不是基于第一参数组获得的。

根据本公开的实施例，用于表示第一参数组的语法如下。第一参数组可以包括下面描述的所有或一些参数。换句话说，一些参数可以省略。此外，以下第一参数组的语法仅仅是示例，与第一参数组中的参数具有相同或相似语义的参数也可以根据不同的语法来表示。

根据本公开的实施例，根据上述语法表示的每个参数的语义如下。

——num_components：它指定用户空间集中组件(组件装置)的数量。

——initial_position_x、initial_position_y、initial_position_z：它们指定x、y和z坐标值，其与组件装置相对于用户空间集参考点的初始位置的坐标相对应。表示坐标值的单位可以是例如厘米或毫米，但是不限于此，并且可以以多种不同形式确定。当组件装置用作用户空间集中的参考装置时(当组件装置的device_id与在SpaceSetReference结构中指定为space_set_reference_type＝1的device_id值相匹配时)，三个坐标值都设置为0。

——initial_orientation_x、initial_orientation_y、initial_orientation_z、initial_orientation_w：它们分别指定指示组件装置的初始朝向的朝向四元数(或Hamilton数)的x、y、z和w元素。w是四元数的实部，x，y，z是四元数的虚部。当组件装置用作用户空间集中的参考装置时，这些参数的值定义了在组件装置的方向上具有零旋转的单位四元数。在这种情况下，initial_orientation_x可以指示空间集坐标系(例如，右手笛卡尔坐标系)的x轴方向，initial_orientation_y可以指示垂直向上的y轴方向。

——space_setreference_type：它指定如何在用户空间集中定义参考点，即原点(0，0，0)和参考方向。用于第一参数组的所有其他姿态信息可以用参考点作为原点来定义。参考朝向可以定义空间集坐标系(例如，右手笛卡尔坐标系)的x轴方向。当space_set_reference_type的值为0时，参考点(地平面)和参考朝向可分别定义为真实世界GPS坐标和真实世界朝向。对于space_setreference_type的值设置为1的组件装置，组件装置的姿态(位置坐标和朝向)可以用作用户空间集的参考点和参考朝向。

——gps_latitude、gps_longitude：它们以十进制度(DD)为单位，为用户空间集坐标系的参考点(原点)的GPS坐标指定纬度和经度线。

——world_orientation：它以度为单位指定世界指南针朝向，其定义为空间集坐标系的参考朝向(例如，右手笛卡尔坐标系的x轴)(0度与真实世界中的真北相对应)。坐标系可以是右手笛卡尔坐标系，其y轴垂直于x轴并指向上方。默认方向(x轴)可以是正北。

——device_id：它指定组件装置的唯一标识符。

——dynamic_reference：指定用户空间集中的参考点是静态的(当标志值为0时)还是动态的(当标志值为1时)的标志。

——device_description：它指定组件装置的描述。可以将组件装置的描述指定为1)预定义列表中的描述(例如，″0＝眼镜，1＝移动电话，2＝相机″)或者2)描述字符串条目。

——dynamic_pose：指定组件装置的姿态是静态的(当标志值为0时)还是动态的(当标志值为1时)的标志。

——num_functionalities：它指明使用组件装置和组件装置的姿态信息的功能(由pose_functionality_type定义的功能)的数量。由一个device_id标识的组件装置可以包括一个或多个功能。换句话说，组件装置可以包括仅一个功能、捕捉和视觉功能两者、捕捉和再现功能两者、视觉和再现功能两者或者所有的捕捉、视觉和再现功能。

——pose_functionality_type：它指定组件装置的姿态功能类型。值0表示用于渲染的姿态功能，值1表示用于视觉的姿态功能，值2表示用于捕捉的姿态功能。

——hor_field_of_view、ver_field_of_view：它们分别指定组件装置(例如相机)的水平和垂直FOV捕捉或视觉能力。FOV的单位可以是例如弧度。

——minimum_depth、maximum_depth：它们为指定的功能分别指定组件装置(例如，相机)的深度捕捉或视觉能力的最小值和最大值。深度的单位可以是例如毫米。

——IntrinsicParameters()、ExtrinsicParameters()：它们为每个组件装置(相机)分别指定内部参数列表和外部参数列表。例如，内部参数是用于相机装置本身的参数，并且可以包括焦距、主点、倾斜系数等，而外部参数是用于描述相机坐标系与真实世界坐标系之间的变换关系的参数，并且可以包括两个坐标系之间的旋转或平移参数。

接下来，根据本公开的实施例，用于表示第二参数组的语法如下。第二参数组可以包括下面描述的所有或一些参数。换句话说，一些参数可以省略。此外，下面的第二参数组的语法仅仅是示例，并且具有与第二参数组中的参数相同或相似语义的参数也可以根据不同的语法来表示。

根据本公开的实施例，根据上述语法表示的每个参数的语义如下：

——space setsize_cubible_dx、space setsize_cubible_dy、space setsize_cubible_dz：它们指定在笛卡尔坐标系的x轴、y轴和z轴方向上具有长方体形式的用户空间集的尺寸。例如，当space_set_reference_type＝0时，用户空间集中的参考点可以是长方体的中心，当space_set_reference_type＝1时，可以是长方体的底面的中心。然而，这仅仅是示例，参考点的位置可以以多种不同形式确定。

——visionspacesize_cubible_dx、visionspacesize_cubible_dy、visionspacesize_cubible_dz：它们指定在笛卡尔坐标系的x轴、y轴和z轴方向上具有长方体形式的视觉子空间集的尺寸。相对于视觉子空间集中的参考点来指定x、y和z轴方向上的尺寸。视觉子空间集中的参考点可以由视觉子空间结构中包括的SubSpaceReferencePointStruct()来定义。例如，视觉子空间集中的参考点(或锚点)可以由表示视觉子空间集的长方体的边中最接近用户空间集中的参考点的边来确定。视觉子空间集中的锚点可以不限于上述示例而以多种不同形式确定。

——capturesubspacesize_cubible_dx，capturesubspacesize_cubible_dy，capturesubspacesize_cubible_dz：

它们指定了在笛卡尔坐标系的x轴、y轴和z轴方向上具有长方体形式的捕捉子空间集的尺寸。相对于捕捉子空间集中的参考点来指定x、y和z轴方向上的尺寸。捕捉子空间集中的参考点可由捕捉子空间结构中包括的SubSpaceReferencePointStruct()来定义。例如，捕捉子空间集中的参考点(或锚点)可以由表示捕捉子空间的长方体的边中最接近用户空间集中的参考点的边来确定。捕捉子空间集中的锚点可以不限于上述示例而以多种不同形式确定。

接下来，根据本公开的实施例，描述了表示由捕捉相机在用户空间集中捕捉的3D媒体对象的第三参数组。基于用户空间集的第一或第二参数组中的至少一个可以确定第三参数组。

根据本公开的实施例，用于表示第三参数组的语法如下。第三参数组可以包括下面描述的所有或一些参数。换句话说，一些参数可以省略。此外，下面的第三参数组的语法仅仅是示例，并且具有与第三参数组中的参数相同或相似语义的参数也可以根据不同的语法来表示。

——real_size_dx、real_size_dy、real_size_dz：它们分别指定3D媒体在x、y和z方向上的实际尺寸，其对应于用于表示3D媒体数据的编码长方体(例如，用于V-PCC压缩点云的1 0比特边界框)。尺寸单位可以是例如毫米。

——object_default_orientation_x、object_default_orientation_y、object_default_orientation_z、object_default_orientation_w：它们指定表示3D媒体对象相对于用于表示3D媒体数据的编码长方体(例如，用于V-PCC压缩点云的10比特边界框)的默认渲染朝向的朝向四元数的元素。对于V-PCC编码的数据，默认渲染朝向可以匹配pi_front[d]补充增强信息(supplemental enhancement information，SEI)消息(在V-PCC规范中，pi_front[d]指示以2-16为单位表示重构的点云序列的前方方向的单位向量的d轴的值)。当pi_front[d]不存在时，可以假设默认渲染朝向表示单位向量(0.0，1.0，0.0)。

——min_rendering_distance指定用户显示器与3D媒体对象之间的最小距离，在该距离处可以渲染3D媒体对象并呈现给用户。距离单位可以是例如厘米或毫米。

——max_rendering_distance指定用户显示器与3D媒体对象之间的最大距离，在该距离处可以渲染3D媒体对象并呈现给用户。距离单位可以是例如厘米或毫米。

——default_rendering_distance指定用户显示器与3D媒体对象之间的默认渲染距离，在该距离处，在初始回放时渲染3D媒体对象并呈现给用户。例如，距离单位可以是厘米或毫米。

参照图6描述的第一参数组、第二参数组或第三参数组在第一UE、服务器和/或第二UE之间共享，作为用户空间集参数或子空间集参数，使得第一UE/第二UE或服务器可以理解第二UE/第一UE周围的空间，并处理第二UE/第一UE周围的对象，以控制其在XR设备上显示为3D XR媒体对象。

图7是根据本公开实施例的用于描述媒体数据和元数据的流的示意图。

图7示出了媒体数据和元数据的流、用户空间集参数的流以及用于XR服务的附加媒体元数据(例如对象尺寸、默认朝向、或用户空间集参数中的一些或全部)的流，这些流在参与XR服务会话的实体之间。参照图7，为了方便起见，云、服务器、MEC服务器等统称为云。根据本公开的实施例，可以根据图7所示的元数据流来选择第一、第二或第三参数组中包括的所有或一些参数，并在UE之间传输。

根据本公开的实施例，可以使用以下语法来描述媒体数据和元数据的流。

——UE1：source device->UE2：target device(UE1：源装置->UE2：目标装置)

这里，尽管每个用户可以具有一个或多个UE(即具有网络能力(例如，5G调制解调器能力)以通过网络向另一用户的装置传输数据和从另一用户的装置接收数据的装置)，但是为了描述的方便，假设第一用户和第二用户每个都具有一个UE。因此，UE1和UE2分别指第一用户的第一UE和第二用户的第二UE。根据本公开的实施例，使用语法描述的媒体数据和元数据的每个流如下。

(操作701)第一用户的姿态信息

-UE1：glasses->cloud[目的：拆分渲染]

-UE1：glasses->UE2：phone[目的：视图相关的部分捕捉和递送)/速率适配]

-user_pose_parameter：SpaceSetReferenceStruct(pose_functionality_type＝0)

拆分渲染是在云中执行一些渲染操作的进程。

(操作701a)第二用户的姿态信息

-UE2：glasses->UE1：phone[目的：视图相关的部分捕捉和递送)/速率适配]

-UE2：glasses->cloud[目的：拆分渲染]

-user_pose_parameters：SpaceSetReferenceStruct(pose_functionality_type＝0)

(操作702)3D/2D媒体数据

-UE2：phone->UE1：phone[3D数据]

-cloud->UE1：glasses[2D数据，目的：拆分渲染]

(操作702a)2D媒体数据

-UE1：camera->UE1：phone

-UE1：camera->cloud[目的：云中的3D建模]

(操作702b)3D媒体数据

-UE1：phone->UE2：phone

-cloud->UE2：phone

(操作703)第一用户的视觉信息

-UE1：phone->UE2：phone/glasses[目的：支持UE2中的渲染和速率适配]

-UE1：phone->cloud[目的：支持基于云的3D建模和拆分渲染]

-vision_cam_parameters：SpaceSetReferenceStruct(pose_functionality_type＝1)[未处理的数据或第一个参数组]

-space_set_size：spaceset size struct()[视觉-所处理的数据]

-space_set_reference_point：SpaceSetReferenceStruct()[视觉-所处理的数据]

-light_source_direction[视觉-所处理的数据]

-augmentation_type[视觉-所处理的数据]

(操作703a)第二用户的视觉信息：通过将UE1和UE2相互替换，可以从在操作703中获得的第一用户的视觉信息中推断出。

(操作704)3D建模参数

-UE1：camera->UE1：phone[在用户装置之间传递信息]

-UE1：camera/phone->cloud[目的：云3D建模]

-capture_cam：SpaceSetReferenceStruct(pose_functionality_type＝2)

-Intrinsic_param：Intrinsic parameters()

-Extrinsic_param：Extrinsic parameters()

(操作705)3D模型信息

-UE1：phone->UE2：phone/glasses[在UE中进行3D建模时]

-Cloud->UE2：phone/glasses[在云中进行3D建模时]

-Object size，default orientation，default rendering size，priority(对象尺寸、默认朝向、默认渲染尺寸、优先级)

当第一用户在第一用户的空间集中的移动需要(通过缩放或不缩放)正确地映射至第二用户的空间集时，第一用户的姿态信息(或空间集信息)，诸如第一用户的第一参数组或第二参数组，可以直接传输至第二用户，并由第二用户用于渲染。此外，当对象在两个用户之间共享并且对这两个用户可见时，这两个用户都能够通过关于另一用户的姿态信息和视觉信息(空间集等)的知识准确地知道其他用户正在哪个FOV(从哪个方向和距离)观看共享的对象。彼此共享每个用户的姿态信息在实时用例中可以很有用，诸如两个用户需要以相同的距离和角度查看共享对象的情况。

图8是根据本公开实施例的用于描述UE的XR媒体架构的示意图。

参照图8，其示出了包括第一UE 81的XR交互控制器830的XR媒体架构。第一用户的第一UE 81可以经由一个或多个接口向服务器(或第二UE)82传输和从服务器(或第二UE)82接收XR服务相关信息。服务器82可以是例如云、MEC服务器、数据网络入口点等。第一UE 81可以向服务器82传输数据，或者直接或经由服务器82向第二UE传输数据。

第一UE 81的XR媒体架构中的每个实体可以是逻辑实体或硬件实体。逻辑实体可以通过各种硬件配置来实现。XR交互控制器830可以处理和控制组件装置(渲染装置、视觉相机、捕捉相机等)的姿态信息。组件装置的姿态信息可以由诸如XR媒体播放器840或XR媒体生成器850的实体使用。此外，当XR会话服务内的部分传输或部分渲染需要姿态信息时，姿态信息的至少一部分(已处理或未处理)可以传输至服务器82或直接传输至第二UE。根据本公开实施例的XR媒体架构中的每个实体的功能如下。

——XR感知应用810：它可以控制XR媒体架构中的其他XR实体。

——XR媒体会话处理机820：通过与服务器(或第二UE)82通信，它可以执行用于XR服务配置的能力协商，建立XR会话，以及控制(管理)和支持XR会话。例如，能力协商可以涉及基于用户装置的能力和XR服务的要求，确定具有在UE和服务器之间基于用户装置的能力可以支持的质量水平的XR服务，或者确定在用户装置中仅执行与XR服务相关的3D媒体进程中基于用户装置的能力可支持的进程，而在服务器中执行其余进程。

——XR交互控制器830：它可以通过与服务器(或第二UE)82通信来管理基于交互的服务。XR交互控制器830可以向XR感知应用810提供相关数据用于交互控制，向XR媒体会话处理机820提供相关数据用于交互报告控制，向XR媒体播放器840提供相关数据用于基于视觉的交互回放，以及向XR媒体生成器850提供相关数据用于媒体生成。

——XR媒体播放器840：它可以通过与服务器(或第二UE)82通信来接收XR媒体内容。XR媒体播放器840可以向XR感知应用810提供相关数据用于媒体回放(媒体访问、解包、解封装、解码、渲染等)，向XR媒体会话处理机820提供相关数据用于媒体会话控制，以及向XR交互控制器830提供相关数据用于会话交互。

——XR媒体生成器850：它可以通过与服务器(或第二UE)82通信来产生XR媒体内容。XR媒体生成器850可以向XR感知应用810提供相关数据用于媒体生成(捕捉、3D建模和预处理、编码、封装、打包等)，向XR媒体会话处理机820提供相关数据用于媒体会话控制，以及向XR交互控制器830提供相关数据用于XR媒体生成交互。

根据本公开的实施例，可以由XR媒体架构中的实体之间的接口传输的接口参数(包括可以在接口之中共享的元数据)如下。然而，下面只是可能的元数据的示例。例如，根据本公开实施例的XR媒体处理、XR媒体流、XR服务等可以经由在实体之间传输的接口参数来实现。

·第一接口(801)的参数：在服务器82中处理数据所需的元数据。因为服务器82可以支持远程渲染和远程内容创建两者，所以关于第一用户的元数据和关于第二用户的元数据两者都可以被包括在其中。

-User pose information(用户姿态信息)(目的：远程渲染)：

>NonDerivedParameters(pose_functionality_type＝0)；

-Vision camera information(视觉相机信息)(用于远程渲染)：

>NonDerivedParameters(pose_functionality_type＝1)；

-Capture camera information(捕捉相机信息)(用于基于云的3D建模和编码)：

>NonDerivedParameters(pose_functionality_type＝2)；

-User space set information(用户空间集信息)(用于远程渲染/3D建模)：

>SpaceSetReferenceStruct()

>SpaceSetSizeStruct()

>VisionSub Space Struct()

>CaptureSubSpaceStruct()

>SubSpaceReferencePointStruct()

-Media object capture information(媒体对象捕捉信息)(上行链路：对于当大多数处理在装置上完成时；下行链路：对于当大部分渲染在装置上完成时)

>Obj ectS ize Struct()

>DefaultOrientationStruct()

>DefaultRenderingParamStruct()

第二接口(802)的参数：在XR交互控制器830与XR媒体播放器840之间传输的元数据。元数据通常是与第二用户相关的元数据信息。然而，XR媒体播放器840可能没有必要再现与第二用户相关的元数据。根据本公开的实施例，XR媒体播放器840通常可以不具有空间集相关的处理能力，并且可以具有视觉信息处理能力。然而，在XR交互控制器830与XR媒体播放器840之间可以灵活地共享处理能力。换句话说，在XR交互控制器830与XR媒体播放器840之间共享信息，使得不能个别处理的数据可以以协作的方式处理。

-User pose information(用户姿态信息)(用于媒体播放)：

>NonDerivedParameters(pose_functionality_type＝0)；

-Vision camera information(视觉相机信息)(用于媒体播放)：

>NonDerivedParameters(pose_functionality_type＝1)；

-User space set information(用户空间设置信息)(用于媒体播放)：

>SpaceSetReferenceStruct()

>SpaceSetSizeStruct()

>VisionSub Space Struct()

>(CaptureSubSpaceStruct())

>SubSpaceReferencePointStruct()

-Media obj ect capture information(媒体对象捕捉信息)(上行链路：对于当大多数处理在用户装置上而不是在服务器上完成时；下行链路：对于当大部分渲染在用户装置而不是服务器上完成时)

>Obj ectS ize Struct()

>DefaultOrientationStruct()

>DefaultRenderingParamStruct()

第三接口(803)的参数：根据本公开的实施例，XR媒体生成器850可以不具有强大的处理能力。因此，XR媒体生成器850可以卸载3D媒体生成和编码等。根据本公开的实施例，元数据可以经由第五接口(805)直接传输至服务器(或第二UE)82，或者可以在经由第三接口(803)通过XR交互控制器830之后经由第一接口(801)传输至服务器。经由第一接口(801)和第三接口(803)输入至XR媒体生成器850的第二用户的姿态信息和视觉信息可以用于为第一用户对第二用户的媒体数据执行基于观看的部分捕捉、生成、递送或渲染。

-Capture camera information(捕捉相机信息)(用于远程3D建模和编码等)：

>NonDerivedParameters(pose_functionality_type＝2)；

-User space set information(用户空间集信息)(可选)：

>SpaceSetReferenceStruct()

>SpaceSetSizeStruct()

>(VisionSubSpaceStruct())

>CaptureSubSpaceStruct()

>SubSpaceReferencePointStruct()

-Media obj ect capture information(媒体对象捕捉信息)(如果所有处理都由XR媒体生成器850执行)

>Obj ectS ize Struct()

>DefaultOrientationStruct()

>DefaultRenderingParamStruct()

第四接口(804)的参数：通常接收的媒体清单，诸如DASH MPD。

第五接口(805)的参数：当时延很重要时，在XR媒体生成器850和服务器(或第二UE)82之间可以直接传输特定的元数据。换句话说，媒体数据可以经由第五接口(805)直接传输至服务器(或第二UE)82，而不经过XR交互控制器830。

图9是根据本公开实施例的用于描述由第一UE执行的向第二UE传输3D XR媒体数据的方法的示意图。

参照图9，在操作910中，第一UE可以从至少一个组件装置接收关于该至少一个组件装置的能力和状态报告。

在操作920中，第一UE可以基于能力和状态报告向服务器传输关于XR服务的装置能力报告。

在操作930中，第一UE可以从服务器接收用于XR服务的装置配置信息。

在操作940中，第一UE可以基于装置配置信息建立XR服务会话。

在操作950中，第一UE可以处理通过控制至少一个组件装置获得的与XR服务相关的3D媒体数据和元数据。

在操作960中，第一UE可以经由服务器向第二UE传输所经处理的3D媒体数据和元数据。

图10是根据本公开实施例的用于描述UE或组件装置的配置的示意图。参照图1A、图1B、图2A、图2B和图3至图9描述的UE、XR装置或组件装置可以各自具有如图10所示的配置。可选地，一些组件装置可以包括与图10中的组件不同的组件(例如，相机、低功率处理器、显示器、短距离通信模块等)。在下文中，为了描述方便，将以UE为例进行描述。

参照图10，UE可以包括收发器1020、存储器1030和处理器1010。然而，UE的组件不限于此。例如，UE可以包括比上述组件更多或更少的组件。例如，UE可以不包括存储器1030。此外，收发器1020、存储器1030和处理器1010可以实现为单个芯片。此外，处理器1010可以包括一个或多个处理器。

接收器和发送器统称为收发器1020，并且可以向服务器、组件装置、XR装置或另一UE传输信号和从其接收信号。例如，收发器1020可以传输和接收控制信号、媒体数据和元数据。为了实现这一点，收发器1020可以包括用于上变频并放大要传输的信号的频率的RF传输器和用于低噪声放大所接收的信号并下变频其频率的RF接收器。然而，这仅仅是收发器1020的示例，收发器1020的组件不限于RF传输器和RF接收器。

此外，收发器1020可以经由无线电信道接收信号，并将该信号输出至处理器1010，并且经由无线电信道传输从处理器1010输出的信号。

存储器1030可以存储UE操作所需的数据和程序。此外，存储器1030可以存储在由UE获得的信号中包括的控制信息或数据。存储器1030可以包括存储介质，诸如只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、硬盘、光盘(compact disc，CD)-ROM和数字多功能盘(digital versatile disc，DVD)或其组合。另外，存储器1030可以不单独存在，而是可以被包括在处理器1010中。

处理器1010可以控制一系列进程，使得UE可以根据本公开的实施例进行操作。例如，处理器1010可以通过收发器1020接收控制信号、媒体数据和元数据，并处理所接收的控制信号、媒体数据和元数据。另外，处理器1010可以通过收发器1020传输所处理的控制信号、媒体数据和元数据。处理器1010可以包括多个处理器，并执行存储在存储器1030中的程序，以执行控制UE的组件的操作。

图11是根据本公开实施例的用于描述服务器的配置的示意图。参照图1A、图1B、图2A、图2B和图3至图9描述的云、服务器或MEC服务器可以具有如图11所示的配置。在下文中，为了描述方便，将以服务器为例进行描述。

参照图11，服务器可以包括收发器1120、存储器1130和处理器1110。然而，服务器的组件不限于此。例如，服务器可以包括比上述更多或更少的组件。例如，服务器可以不包括存储器1130。此外，收发器1120、存储器1130和处理器1110可以实现为单个芯片。此外，处理器1110可以包括一个或多个处理器。

接收器和发送器统称为收发器1120，并且可以向UE、组件装置、XR装置或另一服务器传输信号和从其接收信号。例如，收发器1120可以传输和接收控制信号、媒体数据和元数据。为了实现这一点，收发器1120可以包括用于上变频并放大要传输的信号的频率的RF传输器和用于低噪声放大所接收的信号并下变频其频率的RF接收器。然而，这仅仅是收发器1120的示例，收发器1120的组件不限于RF传输器和RF接收器。

此外，收发器1120可以经由无线电信道接收信号，并将该信号输出至处理器1110，并且经由无线电信道传输从处理器1110输出的信号。

存储器1130可以存储UE操作所需的数据和程序。此外，存储器1130可以存储在由服务器获得的信号中包括的控制信息或数据。存储器1130可以包括存储介质，诸如ROM、RAM、硬盘、CD-ROM和DVD或其组合。另外，存储器1130可以不单独存在，而是可以包括在处理器1110中。

处理器1110可以控制一系列进程，使得服务器可以根据本公开的实施例进行操作。例如，处理器1110可以通过收发器1120接收控制信号、媒体数据和元数据，并处理所接收的控制信号、媒体数据和元数据。另外，处理器1110可以通过收发器1120传输所处理的控制信号、媒体数据和元数据。处理器1110可以包括多个处理器，并执行存储在存储器1130中的程序，以执行控制服务器的组件的操作。

图12是根据本公开实施例的示出由第一终端执行的方法的流程图。

参照图12，在操作1201中，第一终端可以识别连接至至少一个组件装置的第一终端的能力。例如，至少一个组件装置可以包括相机、扬声器、显示器和传感器中的至少一个。

在操作1203中，第一终端可以基于第一终端的能力经由服务器建立与增强现实(AR)服务相关联的会话。例如，第一终端可以与服务器通信以建立会话，并且AR服务可以包括在第一终端与第二终端之间的AR呼叫。在实施例中，基于第一终端的能力来识别会话的类型和会话的配置。在会话建立期间，与3D媒体数据相关联的格式被确定。

在操作1205中，第一终端可以对由至少一个组件装置获取的3D媒体数据执行预处理。例如，预处理可以包括格式转换。在实施例中，在将预处理的3D媒体数据传输至第二终端之前对其进行编码。

在操作1207中，第一终端可以向第二终端实时传输预处理的3D媒体数据。

参照图13，在操作1301中，第二终端可以识别连接至至少一个组件装置的第二终端的能力。例如，至少一个组件装置可以包括相机、传感器、显示器和扬声器中的至少一个。

在操作1303中，第二终端可以基于第二终端的能力经由服务器建立与增强现实(AR)服务相关联的会话。例如，第二终端可以与服务器通信以建立会话，并且AR服务可以包括在第一终端与第二终端之间的AR呼叫。在实施例中，基于第二终端的能力来识别会话的类型和会话的配置。在会话建立期间，与3D媒体数据相关联的格式被确定。

在操作1305中，第二终端可以从第一终端实时接收3D媒体数据。

在操作1307中，第二终端可以对3D媒体数据执行后处理。例如，后处理可以包括格式转换。

在操作1309中，第二终端可以在第二终端上渲染后处理的3D媒体数据。在实施例中，在渲染之前解码后处理的3D媒体数据。

根据本公开的实施例，由第一用户设备(UE)执行的向第二UE传输3DXR媒体数据的方法包括：从至少一个组件装置接收关于该至少一个组件装置的能力和状态报告；基于能力和状态报告向服务器传输关于XR服务的装置能力报告；从服务器接收用于XR服务的装置配置信息；基于装置配置信息建立XR服务会话；处理通过控制至少一个组件装置获得的与XR服务相关的3D媒体数据和元数据；以及经由服务器将所处理的3D媒体数据和元数据传输至第二UE。

该至少一个组件可以包括：一个或多个视觉相机装置，其被配置为获得关于第一UE的第一用户的周围环境的3D信息；一个或多个捕捉相机装置，其被配置为获得关于第一用户周围的对象的3D信息；渲染装置，其被配置为渲染与第二UE的XR服务相关的3D媒体数据；以及XR装置，显示渲染的3D媒体数据。

能力和状态报告可以包括至少一个组件装置的位置信息、朝向信息、和硬件能力信息中的至少一个。

装置能力报告可以包括用户空间集参数，并且用户空间集参数可以包括关于第一UE的第一用户周围的空间的信息以及关于周围空间内的至少一个组件装置的位置和朝向的信息。

用户空间集参数可以包括至少一个子空间集参数，并且该至少一个子空间集参数可以包括一个或多个视觉子空间集参数或一个或多个捕捉子空间集参数中的至少一个。

一个或多个视觉子空间集参数可以表示目标空间，其中来自至少一个组件装置之中的一个或多个视觉相机装置获得关于第一用户的周围环境的3D信息，并且一个或多个捕捉子空间集参数可以表示目标空间，其中来自至少一个组件装置之中的一个或多个捕捉相机装置获得关于第一用户周围的对象的3D信息。

该方法还可以包括：从服务器接收包括关于每个XR服务的要求信息的多个XR服务的列表；基于能力和状态报告，从多个XR服务的列表中选择一个或多个XR服务；以及向服务器传输关于所选择的一个或多个XR服务的装置能力报告。

该方法还可以包括基于能力和状态报告以及关于所选择的一个或多个XR服务的需求信息，向服务器传输对要由服务器执行的用于处理3D媒体数据的多个3D媒体进程中的至少一些的请求。

该方法还可以包括从服务器接收用于配置用于处理要由服务器处理的3D媒体数据的多个3D媒体进程中的至少一些的信息。

该方法还可以包括：从第二UE接收与第二UE的第二用户相关的3D媒体数据和与第二用户相关联的用户空间集参数；基于与第二用户相关联的用户空间集参数，通过处理与第二用户相关的3D媒体数据来生成3D媒体对象；以及控制第一UE或XR装置的显示器来显示3D媒体对象。

根据本公开的另一实施例，用于向第二UE传输3D XR媒体数据的第一UE包括：收发器；以及至少一个处理器，其被配置为：控制收发器从至少一个组件装置接收关于至少一个组件装置的能力和状态报告；基于能力和状态报告，控制收发器向服务器传输关于XR服务的装置能力报告；控制收发器从服务器接收用于XR服务的装置配置信息；基于装置配置信息建立XR服务会话；处理通过控制至少一个组件装置获得的与XR服务相关的3D媒体数据和元数据；以及控制收发器经由服务器将所处理的3D媒体数据和元数据传输至第二UE。

根据所附权利要求或其说明书中描述的本公开实施例的方法可以在硬件、软件或硬件和软件的组合中实现。

当方法在软件中实现时，可以提供存储一个或多个程序(软件模块)的计算机可读存储介质。存储在计算机可读存储介质中的一个或多个程序被配置为由电子装置内的一个或多个处理器执行。一个或多个程序可以包括使电子装置执行根据权利要求或其说明书中描述的本公开实施例的方法的指令。此外，可以提供存储一个或多个程序的计算机程序产品。

这些程序(软件模块或软件)可以存储在RAM、包括闪存的非易失性存储器、ROM、电可擦除可编程ROM(electrically erasable programmable ROM，EEPROM)、磁盘存储装置、CD-ROM、DVD或其他类型的光存储装置以及磁带中。可选地，程序可以存储在被配置为一些或所有存储器的组合的存储器中。此外，可以包括多个这样的存储器。

此外，程序可以存储在可附接的存储装置中，该可附接的存储装置可以通过诸如互联网、内联网、局域网(local area network，LAN)、广域网(wide LAN，WLAN)或存储区域网(storage areanetwork，SAN)的通信网络或者以其组合配置的通信网络来访问。存储装置可以经由外部端口访问用于执行根据本公开实施例的操作的装置。此外，通信网络上的独立存储装置也可以访问用于执行根据本公开实施例的操作的设备。

在本公开的上述具体实施例中，根据本公开呈现的实施例，本公开中包括的组件以单数或复数形式表达。然而，选择单数或复数表达以适合于为了描述方便而呈现的情形，并且本公开不限于单数或复数形式。以复数形式表达的元素可以被配置为单个元素，或者以单数形式表达的元素可以被配置为多个元素。

说明书和附图中呈现的本公开实施例仅作为特定示例提供，以便容易地描述根据本公开的技术细节并帮助理解本公开，并且不旨在限制本公开的范围。换句话说，对于本领域普通技术人员来说，基于本公开的技术精神，显然可以实现其他修改。此外，当需要时，本公开的实施例可以彼此组合用于操作。例如，本公开实施例的部分和本公开的其他实施例彼此组合，使得可以操作UE、组件装置、XR装置和服务器。此外，本公开的实施例也可适用于其他通信系统，并且基于本公开实施例的技术精神的其他修改也是可实现的。

虽然已经参照本公开的各种实施例显示和描述了本公开，但是本领域技术人员将理解，在不背离由所附权利要求及其等同限定的本公开的精神和范围的情况下，可以在形式和细节上进行各种变更。

Claims

1.一种由无线通信系统中的第一终端执行的方法，所述方法包括：

识别连接至至少一个组件装置的所述第一终端的能力；

基于所述第一终端的能力，经由服务器建立与增强现实(AR)服务相关联的会话；

对由所述至少一个组件装置获取的三维(3D)媒体数据执行预处理；以及

向第二终端传输所述预处理的3D媒体数据。

2.根据权利要求1所述的方法，其中，所述会话的类型和所述会话的配置是基于所述第一终端的能力识别的。

3.根据权利要求1所述的方法，其中，所述预处理包括格式转换。

4.根据权利要求1所述的方法，还包括：

与所述服务器通信以建立所述会话。

5.根据权利要求1所述的方法，其中，在所述会话建立期间与所述3D媒体数据相关联的格式被确定。

6.根据权利要求1所述的方法，其中，所述AR服务包括在所述第一终端与所述第二终端之间的AR呼叫。

7.根据权利要求1所述的方法，其中，在将所述预处理的3D媒体数据传输至所述第二终端之前对所述预处理的3D媒体数据进行编码。

8.根据权利要求1所述的方法，其中，所述至少一个组件装置包括相机。

9.根据权利要求1所述的方法，其中，所述3D媒体数据被实时传输。

10.一种由无线通信系统中的第二终端执行的方法，所述方法包括：

识别连接至至少一个组件装置的所述第二终端的能力；

基于所述第二终端的能力，经由服务器建立与增强现实(AR)服务相关联的会话；

从第一终端接收三维(3D)媒体数据；

对所述3D媒体数据执行后处理；以及

在所述第二终端上渲染所述后处理的3D媒体数据。

11.根据权利要求10所述的方法，其中，所述会话的类型和所述会话的配置是基于所述第二终端的能力识别的。

12.根据权利要求10所述的方法，其中，所述后处理包括格式转换。

13.根据权利要求10所述的方法，还包括：

与所述服务器通信以建立所述会话。

14.根据权利要求10所述的方法，其中，在所述会话建立期间与所述3D媒体数据相关联的格式被确定。

15.一种无线通信系统中的第一终端，所述第一终端包括：

收发器；以及

至少一个处理器，其被配置为：

识别连接至至少一个组件装置的所述第一终端的能力，

基于所述第一终端的能力，经由服务器建立与增强现实(AR)服务相关联的会话，

对经由所述至少一个组件装置获取的三维(3D)媒体数据执行预处理，以及

经由所述收发器向第二终端实时传输所述预处理的3D媒体数据。