CN116134474A - 在支持混合现实/增强现实的通信系统中相对于三维媒体数据使用延迟补偿姿势预测来执行渲染的方法和装置 - Google Patents

在支持混合现实/增强现实的通信系统中相对于三维媒体数据使用延迟补偿姿势预测来执行渲染的方法和装置 Download PDF

Info

Publication number
CN116134474A
CN116134474A CN202180061306.6A CN202180061306A CN116134474A CN 116134474 A CN116134474 A CN 116134474A CN 202180061306 A CN202180061306 A CN 202180061306A CN 116134474 A CN116134474 A CN 116134474A
Authority
CN
China
Prior art keywords
rendering
time
pose
glasses
prediction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202180061306.6A
Other languages
English (en)
Inventor
埃里克·伊普
梁贤九
宋在涓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung Electronics Co Ltd
Original Assignee
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung Electronics Co Ltd filed Critical Samsung Electronics Co Ltd
Publication of CN116134474A publication Critical patent/CN116134474A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • G06T9/001Model-based coding, e.g. wire frame
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • G06T19/006Mixed reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/012Head tracking input arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/10Geometric effects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2210/00Indexing scheme for image generation or computer graphics
    • G06T2210/56Particle system, point based geometry or rendering

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Graphics (AREA)
  • Human Computer Interaction (AREA)
  • Computer Hardware Design (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Geometry (AREA)
  • Processing Or Creating Images (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • User Interface Of Digital Computer (AREA)
  • Optics & Photonics (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)

Abstract

本公开涉及一种用于在支持混合现实(XR)/增强现实(AR)的通信系统中相对于三维(3D)媒体数据使用延迟补偿姿势预测来执行渲染的方法和装置。根据本公开的实施方式,一种用于在通信系统中由从媒体服务器接收3D媒体数据的第一装置执行渲染的方法包括以下步骤:从AR眼镜接收包括第一时间点的姿势信息的姿势预测相关信息;基于姿势预测相关信息,对要在AR眼镜中执行2维(2D)渲染的第二时间点执行姿势预测;基于第二时间点的一个或多个预测姿势信息,相对于所接收的3D媒体数据渲染一个或多个2D姿势预测渲染视图;以及向AR眼镜发送通过对一个或多个2D姿势预测渲染视图进行编码而得到的压缩2D媒体数据。

Description

在支持混合现实/增强现实的通信系统中相对于三维媒体数据使用延迟补偿姿势预测来执行渲染的方法和装置
技术领域
本公开涉及在支持混合现实(XR)/增强现实(AR)的通信系统中进行3D媒体数据渲染的方法和装置。
背景技术
为了满足自从4G通信系统市场化以来激增的无线数据业务需求,一直致力于开发增强的5G通信系统或准5G通信系统。为此,5G通信系统或准5G通信系统被称为超4G网络通信系统或后LTE系统。为了获得更高的数据传输速率,5G通信系统被认为是在例如60GHz的超高频带(毫米波)上实施。为了减轻超高频带上的路径损耗并且增加无线电波的到达范围,5G通信系统考虑了以下技术:波束形成、大规模多输入多输出(MIMO)、全维度MIMO(FD-MIMO)、阵列天线、模拟波束形成和大型天线。为了使5G通信系统具有增强的网络,还在开发诸如演进或高级小型小区、云无线电接入网络(云RAN)、超密度网络、装置对装置(D2D)通信、无线回传、移动网络、协作通信、协作多点(CoMP)以及接收干扰消除的各种技术。对于5G系统,还在开发各种其它方案,例如作为高级编码调制(ACM)方案的混合FSK和QAM调制(FQAM)、以及滑动窗口叠加编码(SWSC),以及作为高级接入方案的滤波器组多载波(FBMC)、非正交多址接入(NOMA)和稀疏码多址接入(SCMA)。
作为人类在其中产生和消费信息的以人类为中心的连接性网络的互联网现在正演变成物联网(IoT),在IoT中诸如事物等分布式实体在没有人类干预的情况下交换和处理信息。物联网(IoE)已经应运而生,其是通过与云服务器的连接使IoT技术和大数据处理技术相结合的产物。由于IoT具体实施需要诸如“传感技术”、“有线/无线通信和网络基础设施”、“服务接口技术”和“安全技术”等技术要素,因此最近已经研究了传感器网络、机器到机器(M2M)通信、机器类型通信(MTC)等。此类IoT环境可以提供智能互联网技术服务,这些服务通过收集并分析在连接事物之间生成的数据来为人类生活创造新的价值。通过现有信息技术(IT)与各种工业应用之间的融合和组合,IoT可以应用于多种领域,包括智能家居、智能建筑、智慧城市、智能汽车或联网汽车、智能电网、健康护理、智能家电和高级医疗服务。
因此,已经作出各种努力来将5G通信系统应用于IoT网络。例如,诸如传感器网络、机器类型通信(MTC)和机器到机器(M2M)通信等技术可以通过波束成形、MIMO和阵列天线来实施。如上文所述的大数据处理技术,云无线电接入网络(RAN)的应用也可以被视为5G技术与IoT技术之间相融合的示例。
发明内容
[技术问题]
本公开提供了用于在支持XR/AR的通信系统中高效渲染3D媒体数据的方法和装置。
本公开还提供了用于在支持XR/AR的通信系统中对3D媒体数据使用延迟补偿姿势预测(LCPP)来执行远程或分割渲染的方法和装置。
[技术方案]
根据本公开的实施方式,一种用于在通信系统中由从媒体服务器接收3D媒体数据的第一装置执行渲染的方法包括:从增强现实(AR)眼镜接收包括第一时间的姿势信息的姿势预测相关信息;基于所述姿势预测相关信息,对所述AR眼镜要执行2D渲染的第二时间执行姿势预测;基于所述第二时间的一个或多个预测姿势信息,针对所接收的3D媒体数据渲染一个或多个2D姿势预测渲染视图;以及向所述AR眼镜发送通过对所述一个或多个2D姿势预测渲染视图进行编码而得到的压缩2D媒体数据。
根据本公开的实施方式,一种用于在通信系统中由与第一装置可通信地连接的增强现实(AR)眼镜执行渲染的方法,所述第一装置从媒体服务器接收3D媒体数据,所述方法包括:向所述第一装置发送包括第一时间的姿势信息的姿势预测相关信息;基于所述第一时间的姿势信息,从所述第一装置接收压缩媒体数据,所述压缩媒体数据包括针对所述3D媒体数据的一个或多个2D姿势预测渲染视图;对从所述一个或多个2D姿势预测渲染视图中选择的渲染视图的媒体数据进行解码;以及基于所述AR眼镜要对所选择的渲染视图执行2D渲染的第二时间的姿势信息,补偿所选择的渲染视图的帧误差失配,其中,所述一个或多个2D姿势预测渲染视图是在所述AR眼镜要执行所述2D渲染的所述第二时间进行姿势预测而得到的。
根据本公开的实施方式,一种通信系统中的从媒体服务器接收3D媒体数据的第一装置,包括收发器和处理器。所述处理器被配置为:通过所述收发器从增强现实(AR)眼镜接收包括第一时间的姿势信息的姿势预测相关信息;基于所述姿势预测相关信息,对所述AR眼镜要执行2D渲染的第二时间执行姿势预测;基于所述第二时间的一个或多个预测姿势信息,针对所接收的3D媒体数据渲染一个或多个2D姿势预测渲染视图,以及通过所述收发器向所述AR眼镜发送通过对所述一个或多个2D姿势预测渲染视图进行编码而得到的压缩2D媒体数据。
根据本公开的实施方式,一种通信系统中的与第一装置可通信地连接的增强现实(AR)眼镜,所述第一装置从媒体服务器接收3D媒体数据,所述AR眼镜包括收发器以及处理器。所述处理器被配置为:通过所述收发器向所述第一装置发送包括第一时间的姿势信息的姿势预测相关信息;基于所述第一时间的姿势信息,通过所述收发器从所述第一装置接收压缩媒体数据,所述压缩媒体数据包括针对所述3D媒体数据的一个或多个2D姿势预测渲染视图;对从所述一个或多个2D姿势预测渲染视图中选择的渲染视图的媒体数据进行解码;以及基于所述AR眼镜要对所选择的渲染视图执行2D渲染的第二时间的姿势信息,补偿所选择的渲染视图的帧误差失配,其中,所述一个或多个2D姿势预测渲染视图是在所述AR眼镜要执行所述2D渲染的所述第二时间进行姿势预测而得到的。
[有益效果]
根据本公开,通过根据渲染时间预测用户的姿势以及渲染时间来减少渲染误差。此外,媒体系统配置中的延迟变化可以通过使用本公开提及的时间预测操作来动态补偿。
使用多个预测(不仅是渲染时间预测,还有在任何给定预测时间的多姿势预测)允许对多姿势预测视图的3D渲染。通过根据本公开的渲染、以及随后对最佳姿势预测视图的选择,具有减小或最小化的渲染误差(与背景技术相比)的低延迟分割/远程渲染是可能的。
附图说明
图1是示出在支持XR/AR的通信系统中进行远程/分割渲染的示例的视图;
图2是示出在支持XR/AR的通信系统中进行分割渲染的另一示例的视图;
图3是示出根据本公开实施方式的用于更新姿势信息的方法的视图;
图4是示出根据本公开实施方式的在支持XR/AR的通信系统中使用延迟补偿姿势预测(LCPP)进行分割渲染的视图;
图5是示出根据本公开实施方式的在支持XR/AR的通信系统中使用延迟补偿姿势预测(LCPP)进行远程渲染的视图;
图6是示出根据本公开实施方式的用于姿势预测的姿势预测装置的配置的示例的视图;
图7是示出根据本公开实施方式的用于预测视图选择的姿势预测视图选择装置的配置的示例的视图;
图8是示出根据本公开另一实施方式的在支持XR/AR的通信系统中使用延迟补偿姿势预测(LCPP)进行分割渲染的视图;
图9是示出根据本公开另一实施方式的在支持XR/AR的通信系统中使用延迟补偿姿势预测(LCPP)进行分割渲染的视图;
图10是示出根据本公开实施方式的在支持XR/AR的通信系统中使用延迟补偿姿势预测(LCPP)进行远程渲染的视图;
图11是示出根据本公开实施方式的AR眼镜的配置的视图;
图12是示出根据本公开实施方式的电子装置的结构的视图;以及
图13是示出根据本公开实施方式的远程渲染器的配置的视图。
具体实施方式
在下文中,以下参考附图来描述本公开的操作原理。当确定使本公开的主题不清楚时,可以略过已知功能或配置的细节。本文中使用的术语考虑到本公开中的功能来定义,并且根据用户或操作者的意图或实践,这些术语可以由其它术语来替换。因此,术语应基于整个公开来定义。出于相同原因,一些元件可以被夸大或示意性地示出。每个元件的大小不必反映元件的真实大小。在所有附图中,相同的附图标号或标记始终用于指代相同的元件。
通过下面结合附图描述的实施方式,可以理解本公开的优点和特征以及用于实现这些优点和特征的方法。然而,本发明不限于本文公开的实施方式,并且可以对其进行各种改变。提供本文所公开的实施方式仅用于告知本领域普通技术人员本公开的范畴。本发明仅由所附权利要求所限定。贯穿本说明书,相同的附图标记指示相同的元件。
应理解的是,每个流程图和流程图的组合中的框可以由计算机程序指令执行。由于计算机程序指令可以配备在通用计算机、专用计算机或其它可编程数据处理装置的处理器中,因此通过计算机或其它可编程数据处理装置的处理器执行的指令生成用于执行结合每个流程图的框描述的功能的装置。由于计算机程序指令可以存储在可面向计算机或其它可编程数据处理装置的计算机可用或计算机可读存储器中以便以指定方式实施功能,因此存储在计算机可用或计算机可读存储器中的指令可以产生包括用于执行结合每个流程图中的框描述的功能的指令装置的产品。由于计算机程序指令可以配备在计算机或其它可编程数据处理装置中,因此生成由计算机作为一系列操作步骤执行的过程的指令在计算机或其它可编程数据处理装置上执行并且操作计算机,或其它可编程数据处理装置可以提供用于执行结合每个流程图中的框描述的功能的步骤。此外,每个块可以表示模块、区段或代码的一部分,包括用于执行指定逻辑功能的一个或多个可执行指令。此外,还应注意的是,在一些替换执行示例中,框中提及的功能可以按不同顺序发生。例如,连续示出的两个框可以基本上同时执行或以相反顺序执行,这取决于相应的功能。如本文所使用的,术语“单元”是指软件元件或硬件元件,诸如现场可编程门阵列(FPGA)或专用集成电路(ASIC)。单元发挥特定的作用。然而,术语“单元”不限于表示软件或硬件元件。“单元”可以配置在可寻址的存储介质中,或者可以配置为再现一个或多个处理器。因此,作为示例,“单元”包括诸如软件元件、面向对象的软件元件、类元件和任务元件的元件、进程、函数、属性、过程、子例程、程序代码段、驱动程序、固件、微码、电路、数据、数据库、数据结构、表、阵列和变量。元件或“单元”中提供的功能可以与其它元件相组合,或者可以被分割成子元件或子单元。此外,元件或“单元”可以被实现为再现装置或安全多媒体卡中的一个或多个CPU。根据本公开的实施方式,“…单元”可以包括一个或多个处理器。
在下文中,以下参考附图来描述本公开的操作原理。当确定使本公开的主题不清楚时,可以略过已知功能或配置的细节。本文中使用的术语是考虑到本公开中的功能来定义,并且根据用户或操作者的意图或实践,这些术语可以由其它术语来替换。因此,术语应基于整个公开来定义。在下文中,仅出于说明目的而提供了表示广播信息的术语、表示控制信息的术语、通信覆盖相关的术语、表示状态变化的术语(例如,事件)、表示网络实体的术语、表示消息的术语或表示装置部件的术语。本公开不限于这些术语,并且也可以使用技术概念等同的其它术语。
如本文所使用,为了便于描述,提供了用于标识接入节点的术语、表示网络实体的术语、表示消息的术语、表示网络间实体接口的术语以及表示各条标识信息的术语作为示例。因此,本公开不限于这些术语,并且这些术语可以替换为表示等同技术含义的对象的其它术语。
2D媒体(图像)拍摄、转移和渲染所需的常规处理功能是通用的,并且基本上实施在诸如智能电话或电视的许多装置中。
相反地,针对混合现实(XR)和增强现实(AR)拍摄的3D媒体(例如,点云和网格)是基于真实对象和场景的3D表示,因此需要强大的处理能力来进行渲染以及拍摄、3D建模和转移。随着支持低延迟和高带宽数据信道的5G服务的扩展,3D内容渲染的处理要求是非常繁重的。因此,根据用户的姿势信息在云(云服务器或多接入边缘计算(MEC))中远程渲染3D媒体内容是用于卸载用户终端装置上的渲染功能的常见解决方案。随着AR眼镜的引入,在分割渲染中可以发现类似方法。3D媒体内容的渲染在AR眼镜装置和网络共享的手机之间进行分割。在硬件技术进一步发展以支持例如增强的电池寿命、处理能力和显示技术(这实现了AR眼镜的轻量型、独立的形状因素)之前,网络共享的装置和AR眼镜之间的分割渲染是使用AR眼镜来实现增强现实所必需的技术。
本公开涉及对多媒体内容(包括表示为点云和网格的3D媒体)的处理、转移、解码以及混合现实(XR)和增强现实(AR)内容渲染。本公开还涉及网络共享AR眼镜的分割渲染、网络共享AR眼镜的远程渲染和独立AR眼镜的远程渲染。本公开还涉及用于分割/远程渲染的姿势预测,以及基于针对AR/XR的延迟补偿姿势预测的远程/分割渲染。此外,尽管为了便于描述,对本公开的描述着眼于AR眼镜,但本公开同样可以应用于能够显示虚拟现实(VR)或3D媒体数据的各种装置。
图1是示出在支持XR/AR的通信系统中进行远程/分割渲染的示例的视图。
图1例示了如下配置:在从媒体服务器160提供作为多媒体内容的AR数据的通信环境中,在两个装置120和140之间执行远程渲染或分割渲染。在配置C1中,装置120可以是用户设备(UE),诸如智能电话或AR眼镜,并且装置140可以是基于云网络的MEC。在C1配置中,在装置120和140之间执行对AR数据的远程渲染。在配置C2中,装置120可以是AR眼镜,并且装置140可以是UE。在C2配置中,在装置120和140之间执行对AR数据的分割渲染。
图1的装置120包括视觉引擎121、渲染器和显示器122,以及2D解码器123,并且装置140包括姿势信息处理单元141、3D媒体解码器和渲染器142、以及2D编码器和打包器143。在本公开中,在图1的示例和下面要描述的其它示例中,高效视频编码(HEVC)被例示为2D编码器和2D解码器中的编码方案,但应注意的是,编码方案不限于HEVC。
在图1中,视觉引擎121获得用户的姿势信息,并将其提供给姿势信息处理单元141。3D媒体解码器和渲染器142基于由姿势信息处理单元141处理的姿势信息来解码和渲染从媒体服务器160接收到的作为3D媒体数据的AR媒体数据,并且将其输出到2D编码器和打包器143。2D解码器123对从2D编码器和打包器143接收到的压缩2D媒体数据进行解码,并且将其输出到渲染器和显示器122。渲染器和显示器122基于由视觉引擎121提供的姿势信息来渲染经解码的2D媒体数据并且将其输出以进行显示。图1示出了用于远程/分割渲染的配置的示例,其中需要相对高处理能力的对3D媒体数据的渲染由装置140执行,并且需要相对低处理能力的对2D媒体数据的渲染由装置120执行。
换句话说,图1的示例可以被理解为针对AR眼镜示出根据以下两个配置C1和C2的不同装置配置:
C1.通过在云上远程渲染(MEC)的独立AR眼镜,以及
C2.通过在AR眼镜和UE(诸如智能电话)之间进行分割渲染,使用与智能电话网络共享的AR眼镜。
在图1中,逻辑(功能)实体可以被分类为显示器实体和3D渲染器实体。在两个装置120和140的配置的情况下,由于1)在AR眼镜和远程渲染器之间、或2)在AR眼镜和UE之间存在无线数据通信信道,因此从3D渲染器142输出的经3D渲染的2D视图在通过数据信道发送到AR眼镜之前应被压缩。
存在两种服务用例(如结合装置配置2C2所述):
1.UE 140从媒体服务器160下载提供给AR眼镜的完整3D(AR)媒体数据。
2.媒体服务器160然后将AR眼镜上提供的媒体数据流传输到UE 140。3D媒体数据流可以如以下a、b和c被传输:
a.全3D媒体对象
b.对象的任何视角/视图
c.对象的定制视角/视图
图2是示出在支持XR/AR的通信系统中进行分割渲染的另一示例的视图。
图2例示了如下配置:在从媒体服务器260提供作为多媒体内容的AR数据的通信环境中,在两个装置220和240之间执行分割渲染。在图2中,装置220可以是AR眼镜,并且装置240可以是UE。在装置220和240之间执行对AR数据的分割渲染。图2的AR眼镜420包括视觉引擎221、渲染器和显示器222、以及2D解码器223,并且UE 240包括姿势信息解析器241、姿势更新器242、3D媒体解码器243、3D渲染器244、以及2D编码器和打包器245。图2示出了用于分割渲染的配置的示例,其中需要相对高处理能力的对3D媒体数据的渲染由UE 240执行,并且需要相对低处理能力的对2D媒体数据的渲染由AR眼镜220执行。AR眼镜220可以通过网络共享连接到UE 240以接收由UE 240分割渲染的媒体数据。
在图2的示例中,UE 240可以从眼镜媒体服务器260下载3D媒体数据并将其提供给AR眼镜220。分割渲染是在UE 240和AR眼镜220之间执行。
在图2的示例中,执行分割渲染的具体操作是以下操作201至209。
201.UE 240从媒体服务器260下载3D媒体数据。
202.AR眼镜220在时间t1向UE 240发送用户姿势信息@t1,并且姿势信息解析器241解析姿势信息。
203.UE 240对从媒体服务器260接收到的3D媒体数据进行解包和解码,然后基于根据时间t2更新的姿势信息来渲染所输出的2D视图视频帧。
204.UE 240对在操作203中(使用2D编解码器)渲染的视图进行编码和打包。
205.UE 240将压缩媒体包发送到AR眼镜220。
206.AR眼镜220对从UE 240接收到的渲染视图帧进行解包和解码。
207.AR眼镜220在时间t4使用最新姿势信息@t4来补偿从UE 240接收到的经渲染视图帧的误差失配(例如,可以使用图像处理领域中已知的时间扭曲和后期重投影)。
在图2的示例中,时间t1、t2和t4的姿势信息可以被定义为指定空间的位置和取向,如3GPP TR 26.928中(5G中的扩展现实(XR)):在本公开的实施方式中,姿势信息可以使用如3GPP TR 26.928中定义的方案、或能够定义空间中的位置和取向的各种已知方案。
1.位置(x,y,z):距空间原点的3D矢量或物理距离
2.方向(x,y,z,w):相对于相同空间的四元数
同时,在实施方式中,可以省略在图2的示例中描述的操作201至207中的一些,或者可以添加其它必要的动作。此外,每个操作可以以与上述过程中操作的执行顺序不同的顺序执行。
在支持AR眼镜的通信系统中,分割渲染或远程渲染需要如图2所示的媒体管线中的多个处理操作。由于时间t2和时间t4之间的延迟,各种处理操作会导致渲染误差。3D渲染是在时间t2使用在对应时间更新的姿势信息(例如,在时间t2更新的姿势信息)执行的,但是用户的AR眼镜上的真实渲染和显示时间是时间t4。此外,在时间t2和时间t4之间的延迟期间,用户可能已经移动。因此,需要用于有效地补偿由于在分割渲染或远程渲染期间发生延迟而引起的渲染误差的方法。
图3是示出根据本公开实施方式的用于更新姿势信息的方法的视图。在图3的(a)和(b)中,惯性测量单元(IMU)样本是通过经由传感器(诸如陀螺仪或加速度计)感测对象的运动(例如,头部运动)而获得的样本,并且相机样本是通过经由相机检测对象的运动而获得的样本。这些样本可以由跟踪器作为感测数据处理,从而获得包括关于对象的位置和取向信息的姿势信息。此后,基于姿势信息对媒体数据执行渲染,并且通过AR眼镜或UE显示渲染。
图3的(a)示出了如图2的示例中当使用为在时间t2进行3D渲染而在时间t2计算的估计姿势信息时的动显延迟。这里,动显延迟表示根据用户头部运动而改变的视图要被显示在屏幕上所耗的延迟。如果动显延迟延长,则用户会感到晕眩。
图3的(b)示出了根据本公开实施方式的当使用基于在t4'计算的预测姿势时的动显延迟,其中t4'是为在时间t2进行3D渲染而预测的未来显示(2D渲染)时间。假设用户的姿势信息是使用下面要描述的运动矢量预测器来精确预测,与图3的(a)相比,在本公开中提出的图3的(b)中,动显延迟可以进一步减少到有效补偿分割/远程渲染的渲染误差。
取决于i)用于配置的处理步骤的数量,以及ii),根据对每个特定3D媒体内容的处理任务的复杂性、每个步骤的处理延迟的差异(例如,解码具有一百万个点的云通常需要比解码具有500,000个点的云更长的时间),导致渲染误差的延迟可以不同。
作为示例,本公开的实施方式提出了用于预测要进行渲染的时间t4'并且根据所预测的渲染时间t4'来预测姿势信息P'(t4')的方案,而不是简单地在3D渲染时间t2更新姿势信息并且使用已更新的姿势信息P(t2)进行渲染。此外,在本公开中,可以预测用于用户的多个姿势并将其用于渲染3D媒体数据,然后可以在AR眼镜已知的真实渲染时间使用真实姿势以根据多个最小化误差函数来选择最准确的渲染视图。
图4是示出根据本公开实施方式的在支持XR/AR的通信系统中使用延迟补偿姿势预测(LCPP)进行分割渲染的视图。
图4例示了如下配置:在从媒体服务器460提供作为多媒体内容的AR数据的通信环境中,在两个装置420和440之间执行分割渲染。在图4中,装置420可以是AR眼镜,并且装置440可以是UE。在装置420和440之间执行对AR数据的分割渲染。图4的AR眼镜420包括视觉引擎421、渲染器和显示器422、2D解码器423、以及姿势预测视图选择器424,并且UE 440包括姿势信息解析器441、姿势预测器442、3D媒体解码器443、3D渲染器444、以及2D编码器和打包器445。图4示出了用于分割渲染的配置的示例,其中需要相对高处理能力的对3D媒体数据的渲染由UE 440执行,并且需要相对低处理能力的对2D媒体数据的渲染由AR眼镜420执行。AR眼镜420可以通过网络共享连接到UE 440以接收由UE 440分割渲染的媒体数据。
在图4的示例中,UE 440可以从媒体服务器460下载3D媒体数据并将其提供给AR眼镜420。在UE 440和AR眼镜220之间执行分割渲染,并且姿势预测由UE 420执行。
在图4的示例中,执行分割渲染的具体操作是以下操作401至409。
401.UE 420从媒体服务器460下载3D媒体数据。可通过流服务或下载服务提供3D媒体数据。
402.AR眼镜420向UE 440发送用户的姿势信息P(t1)(在时间t1的姿势信息)、PP_dataset(t1)(在时间t1的姿势预测数据集)和动显(MTP)延迟信息MTP_latency(例如,由先前(t4-t1)值给出的预测MTP延迟,使用例如先前MTP延迟的平均值计算的)。UE 440的姿势信息解析器441解析从AR眼镜420的视觉引擎421接收到的姿势信息、姿势预测数据集和MTP延迟信息中的至少一个。
403.UE 420的姿势预测器442使用P(t1)、PP_dataset(t1)和MTP_latency中的至少一个来执行姿势预测,从而输出例如多个预测姿势信息P'(t4')。下面描述了根据本公开的姿势预测的具体方案。
404.UE 440的3D媒体解码器443对从媒体服务器460接收到的3D媒体数据进行解包和解码,然后UE 440的3D渲染器444基于在操作403中预测的姿势信息来渲染多个2D视图视频帧。
405.UE 440的2D编码器和打包器445使用2D编解码器对在操作404中渲染的视图进行编码和打包。
406.UE 440将压缩媒体包和视图选择元数据发送到AR眼镜420。
407.AR眼镜420的姿势预测视图选择器424处理视图选择元数据以选择姿势预测视图(渲染视图帧)。下面描述了根据本公开的姿势预测视图选择的具体方案。
408.AR眼镜420的2D解码器423对在操作407中选择的渲染视图帧进行解包和解码。
409.AR眼镜420的渲染器和显示器422使用在时间t4的最新姿势信息@t4来补偿所有可能的或至少一些渲染视图帧误差失配(例如,可以使用图像处理领域中已知的时间扭曲和后期重投影)。
与使用姿势信息P'(t2)并使用在时间t2的估计姿势的图2的示例相比,与在时间t4的姿势信息P(t4)相比,图4的实施方式使用比P'(t2)更准确的预测姿势信息P'(t4')来渲染视图,从而减小了渲染误差。
同时,在实施方式中,可以省略在图4的示例中描述的操作401至409中的一些,或者可以添加其它必要的动作。此外,每个操作可以以与上述过程的操作的执行顺序不同的顺序执行。
图5是示出根据本公开实施方式的在支持XR/AR的通信系统中使用延迟补偿姿势预测(LCPP)进行远程渲染的视图。换句话说,图5示出了在独立AR眼镜和云处理实体(云服务器或MEC)之间进行基于延迟补偿姿势预测(LCPP)的远程渲染的流程和过程。
图5例示了如下配置:在从媒体服务器560提供作为3D多媒体数据的AR数据的通信环境中,在两个装置520和540之间执行远程渲染。在图5中,装置520可以是使用AR眼镜的UE、或AR眼镜,并且装置540可以是MEC。在装置520和540之间执行对AR数据的远程渲染。图5的AR眼镜520包括视觉引擎521、渲染器和显示器522、2D解码器523、以及姿势预测视图选择器524,并且MEC 540包括姿势信息解析器541、姿势预测器542、3D媒体解码器543、3D渲染器544、以及2D编码器和打包器545。图5示出了用于远程渲染的配置的示例,其中需要相对高处理能力的对3D媒体数据的渲染由MEC 440执行,并且需要相对低处理能力的对2D媒体数据的渲染由UE或AR眼镜520执行。使用AR眼镜的UE或AR眼镜520(在下文中,为方便起见称为AR眼镜520)可以可通信地连接到MEC 540以接收由MEC 540远程渲染的媒体数据。
在图5的示例中,MEC 540可以从媒体服务器560收集3D媒体数据并且远程渲染所收集的3D媒体数据,并且将其提供给AR眼镜520。在AR眼镜520和MEC 540之间执行远程渲染,并且由MEC 540执行姿势预测。
在图5的示例中,执行远程渲染的具体操作是以下操作501至509。
501.MEC 540从媒体服务器560收集3D媒体数据。
502.AR眼镜520向MEC 540发送用户的姿势信息P(t1)(在时间t1的姿势信息)、PP_dataset(t1)(在时间t1的姿势预测数据集)和MTP延迟信息MTP_latency(例如,由先前(t4-t1)值给出的预测MTP延迟,使用例如先前MTP延迟的平均值计算的)。MEC 540的姿势信息解析器541解析从AR眼镜520的视觉引擎521接收到的姿势信息、姿势预测数据集和MTP延迟信息中的至少一个。
503.MEC 540的姿势预测器542使用P(t1)、PP_dataset(t1)和MTP_latency中的至少一个来执行姿势预测,从而输出例如多个预测姿势信息P'(t4')。下面描述了根据本公开的姿势预测的具体方案。
504.MEC 540的3D媒体解码器543对从媒体服务器560接收到的3D媒体数据进行解包和解码,然后MEC 540的3D渲染器544基于在操作503中预测的姿势信息来渲染多个2D视图视频帧。
505.MEC 540的2D编码器和打包器545使用2D编解码器对在操作504中渲染的视图进行编码和打包。
506.MEC 540将压缩媒体包和视图选择元数据发送到AR眼镜520。
507.AR眼镜520的姿势预测视图选择器524处理视图选择元数据以选择姿势预测视图。下面描述了根据本公开的姿势预测视图选择的具体方案。
508.AR眼镜520的2D解码器523对在操作507中选择的渲染视图帧进行解包和解码。
509.AR眼镜520的渲染器和显示器522使用在时间t4的最新姿势信息@t4来补偿所有可能的或至少一些MEC渲染视图帧误差失配(例如,可以使用图像处理领域中已知的时间扭曲和后期重投影)。
与图4的实施方式中的AR眼镜和MEC之间的短程网络共享的无线信道(例如,在Wi-Fi 6E上传输)相比,对于AR眼镜和MEC之间的无线数据信道(通过例如,通过5G移动网络的传输),图5的实施方式中的远程渲染场景会具有更高的延迟。因此,在远程渲染场景中可能需要更准确且更好地补偿的姿势预测渲染视图。
同时,在实施方式中,可以省略在图5的示例中描述的操作501至509中的一些,或者可以添加其它必要的动作。此外,每个操作可以以与上述过程的操作的执行顺序不同的顺序执行。
图6是示出根据本公开实施方式的用于姿势预测的姿势预测装置的配置的示例的视图。
图6的姿势预测装置是图4的示例中的姿势预测器442的示例性配置,并且可以以相同/相似的方式应用于根据其它实施方式的姿势预测器、以及图5的示例。
图6的姿势预测器442包括t预测器442a和P(t)预测器442b,并且输入参数t1、P(t1)、PP_dataset(t1)和MTP_latency描述如下。在输入参数中,t1例如可以从P(t10)的时间戳中获得、或者可单独输入。在图6的示例中,由撇号标记t和P(t)的t'和P'(t')表示预测值。
输入参数
t1:AR眼镜向UE/MEC发送姿势信息的时间(UTC)
P(t1):在时间t1关于用户的姿势信息
位置(x,y,z)[矢量坐标]
取向(q,r,s,t)[四元数]
P(t1)=P(位置(t1),取向(t1))
MTP_latency:(a)由先前(t4-t1)给出的预测MTP延迟
PP_dataset(t1):基于在时间t1的用户运动的数据集,其用于预测特定时间的未来姿势
对于位置:单位转换取向[取向四元数],转换速度
对于取向:单位旋转取向[旋转四元数],旋转速度
图6示出了被描述为“姿势预测器442”处理实体的用于姿势预测的装置操作(执行操作的装置可以取决于与本公开实施方式相对应的附图中的场景而不同)。
下面描述了作为子块包括在图6的姿势预测器442中的t预测器442a和P(t)预测器442b的功能和操作。
t预测器
t预测器442a取t1和MTP_latency(以及任何其它变化因素)作为输入,以预测要由AR眼镜渲染的帧何时要被显示。由于t1和MTP_latency都是在真实3D渲染过程之前发送的数据,因此可以考虑执行姿势预测和3D渲染的装置(例如,UE或MEC)或处理负载状态的其它装置的附加处理延迟(可能存在UE/MEC处理延迟的差异,例如,由于3D渲染引起的可能因素变化,并且其延迟可以取决于媒体特性而不同)。
t预测器442a输出根据以下等式1预测的显示时间t4'。
[等式1]
t4'=(t1+MTP_latency+UE处理延迟差异,例如3D渲染)
P(t)预测器
P(t)预测器442b取t1、t4'、P(t1)和PP_dataset(t1)(在时间t1获取的姿势运动矢量)作为输入,以根据从t预测器442a输出的t4'预测要在AR眼镜上显示(渲染)的帧的姿势。
在图6中,P(t)预测器442b根据操作来输出如等式2所示的预测姿势信息P'(t4')。
[等式2]
Δ(位置)=(3D转换)=(转换速度×(t4'-t1))×单位转换取向
Δ(取向)=(3D旋转)=(旋转速度×(t4'-t1))×单位旋转取向
P'(t4')=P(位置(t1)+Δ(位置),取向(t1)+Δ(取向))
在等式2中,计算Δ(位置)和Δ(取向)的操作可以取决于实施方式而不同,并且可以包括其它变化因素,诸如用于预测姿势信息的保护体积或运动矢量漂移变化。另一方法可以包括使用自动回归方法而不使用运动矢量来估计姿势信息P'(t4')。作为另一示例,姿势预测可以基于媒体上下文,与对视图预测的方案相关,例如,由于用户的兴趣区域/取向/空间和/或3D(AR)对象的特征而处于特定取向的3D(AR)对象。
图7是示出根据本公开实施方式的用于预测视图选择的姿势预测视图选择装置的配置的示例的视图。
图7的姿势预测视图选择装置是图4的示例中的姿势预测视图选择器424的示例性配置,并且可以以相同/相似的方式应用于根据其它实施方式的姿势预测视图选择器、以及图5的示例。
图7的姿势预测视图选择器424包括min(Δ[t])424a、min(Δ[P])424b和帧选择器424c,并且相关输入参数描述如下。在图7的示例中,用撇号(')标记的帧(P'(t'))表示预测结果。
输入参数:
帧(P(t1)):根据在时间t1的姿势而渲染(压缩)的帧
帧(P'(t4')):根据在预测时间t2'的预测姿势而渲染(压缩)的帧P(t4):在时间t4的真实姿势
view_selection_metadata:包含姿势和时间信息的数据集,其用于渲染用于预测视图选择的可用帧。
帧(P(t1))的数据集:t1,P(t1)
帧(P'(t4'))的数据集:t4',P'(t4')
图7示出了被描述为“姿势预测视图选择器424”处理实体的用于预测视图选择的装置操作(执行操作的装置可以取决于与本公开实施方式相对应的附图中的场景而不同)。
下面描述了作为子块包括在图7的姿势预测视图选择器424中的min(Δ[t])424a、min(Δ[P])424b和帧选择器424c的功能和操作。
min(Δ[t])
min(Δ[t])424a使用以下等式3来最小化预测时间(例如,t4'或t4”)和真实显示时间t4之间的误差差异。
[等式3]
·min(|t4’-t4|,|t4”-t4|,...)
通过选择最小化等式3中的真实显示时间t4与预测显示时间之间的差值的预测时间t4'、t4”、t4”'、…,可以获得最准确的预测显示时间并且在帧选择期间将其用于时间敏感的应用程序。
min(Δ[P])
min(Δ[P])424b使用等式4来最小化在时间t4的真实姿势与在针对渲染帧的预测时间预测的姿势之间的误差差异。
[等式4]
Figure BDA0004113857470000171
作为另一示例,并非仅使用在预测显示时间预测的姿势信息,在最小化函数中还可以考虑在另一处理时间更新/估计/预测的姿势信息(诸如P(位置/取向(t2))。
帧选择器
帧选择器424c基于从(Δ[t])424a和min(Δ[P])424b输出的最小化误差的组合来选择最准确的渲染视图,并且将其作为姿势预测视图输出。帧选择器424c的输出用作姿势预测视图选择器424的输出如下。
输出:帧(P(t1))或帧(P'(t4'))或帧(P'(t4”))或帧(P'(t2))。
结合图6描述的姿势预测器442可以包括在如图4所示的UE中,或者包括在如图8所示的AR眼镜中。
图8是示出根据本公开另一实施方式的在支持XR/AR的通信系统中使用延迟补偿姿势预测(LCPP)进行分割渲染的视图。图8例示了UE渲染多个姿势预测视图的情况。
图8例示了如下配置:在从媒体服务器860提供作为3D多媒体数据的AR数据的通信环境中,在两个装置820和840之间执行分割渲染。在图8中,装置820可以是AR眼镜,并且装置840可以是UE。在装置820和840之间执行对AR数据的分割渲染。图8的AR眼镜820包括姿势预测器821、视觉引擎822、渲染器和显示器823、2D解码器824、以及姿势预测视图选择器825,并且UE 840包括姿势信息解析器841、3D媒体解码器842、3D渲染器843、以及2D编码器和打包器844。图4例示了姿势预测器442被包括在UE 440中的配置,并且图8例示了姿势预测器821被包括在AR眼镜820中的配置。
图8示出了用于分割渲染的配置的示例,其中需要相对高处理能力的对3D媒体数据的渲染由UE 840执行,并且需要相对低处理能力的对2D媒体数据的渲染由AR眼镜820执行。AR眼镜820可以通过网络共享连接到UE 840以接收由UE 840分割渲染的媒体数据。
在图8的示例中,UE 840可以从媒体服务器860下载3D媒体数据并将其提供给AR眼镜820。在UE 840和AR眼镜820之间执行分割渲染,姿势预测可以是对多个姿势的预测并且由AR眼镜820执行。UE 840可以通过对多个姿势的预测来渲染多个姿势预测视图。
在图8的示例中,执行分割渲染的具体操作是以下操作801至809。
801.UE 840从媒体服务器860下载3D媒体数据。可通过流服务或下载服务提供3D媒体数据。
802.AR眼镜820的姿势预测器821使用用户的姿势信息P(t1)、姿势预测数据集PP_dataset(t1)和MTP延迟信息MTP_latency中的至少一个来执行姿势预测,如结合图6所述。
803.AR眼镜820将用户的姿势信息P(t1)和多个预测姿势信息P'(t4')…发送到UE840,并且UE 840的姿势信息解析器841解析从AR眼镜820的姿势预测器821接收到的信息。
804.UE 840的3D媒体解码器842对从媒体服务器860接收到的3D媒体数据进行解包和解码,然后UE 840的3D渲染器843基于在操作803中接收、解析和预测的姿势信息来渲染多个2D视图视频帧。
805.UE 840的2D编码器和打包器844使用2D编解码器对在操作804中渲染的视图进行编码和打包。
806.UE 840将压缩媒体包和视图选择元数据发送到AR眼镜820。
807.AR眼镜820的姿势预测视图选择器825处理视图选择元数据以选择姿势预测视图(渲染视图帧),如结合图7所述。
808.AR眼镜820的2D解码器824对在操作807中选择的渲染视图帧进行解包和解码。
809.AR眼镜820的渲染器和显示器422使用最新姿势信息@t4来补偿所有可能的或至少一些渲染视图帧误差失配(例如,可以使用图像处理领域中已知的时间扭曲和后期重投影)。
同时,在实施方式中,可以省略在图8的示例中描述的操作801至809中的一些,或者可以添加其它必要的动作。此外,每个操作可以以与上述过程的操作的执行顺序不同的顺序执行。
结合图6描述的姿势预测器442可以被包括在如图4所示的UE中,或者被包括在如图9所示的AR眼镜中。
图9是示出根据本公开另一实施方式的在支持XR/AR的通信系统中使用延迟补偿姿势预测(LCPP)进行分割渲染的视图。图9例示了UE渲染单个姿势预测视图的情况。
图9例示了如下配置:在从媒体服务器960提供作为3D多媒体数据的AR数据的通信环境中,在两个装置920和940之间执行分割渲染。在图9中,装置920可以是AR眼镜,并且装置940可以是UE。在装置920和940之间执行对AR数据的分割渲染。图9的AR眼镜920包括姿势预测器921、视觉引擎922、渲染器和显示器923、以及2D解码器924,并且UE 940包括姿势信息解析器941、3D媒体解码器942、3D渲染器943、以及2D编码器和打包器944。在图9的示例中,由于单个姿势预测视图由UE 940进行渲染,因此AR眼镜920不需要如图8所示的姿势预测视图选择器825。
在图9的示例中,UE 940可以从媒体服务器960下载3D媒体数据并将其提供给AR眼镜920。在UE 940和AR眼镜920之间执行分割渲染,姿势预测可以是对单个姿势的预测并且由AR眼镜920执行。UE 940可以通过对单个姿势的预测来渲染单个姿势预测视图。
在图9的示例中,执行分割渲染的具体操作是以下操作901至909。
901.UE 920从媒体服务器960下载3D媒体数据。可通过流服务或下载服务提供3D媒体数据。
902.AR眼镜920的姿势预测器821使用用户的姿势信息P(t1)、姿势预测数据集PP_dataset(t1)和MTP延迟信息MTP_latency中的至少一个来执行姿势预测,如结合图6所述。
903.AR眼镜920将单个预测姿势信息P'(t4')发送到UE 940,并且UE 940的姿势信息解析器941解析从AR眼镜920的姿势预测器921接收到的信息。
904.UE 940的3D媒体解码器942对从媒体服务器960接收到的3D媒体数据进行解包和解码,然后UE 940的3D渲染器943基于在操作903中接收并解析的UE的预测姿势P'(t4')来渲染单个2D视图视频帧。
905.UE 940的2D编码器和打包器944使用2D编解码器对在操作804中渲染的单个视图进行编码和打包。
906.UE 940将压缩媒体包发送到AR眼镜。
907.AR眼镜920的2D解码器824对从UE 940接收到的单个渲染视图帧进行解包和解码。
908.AR眼镜920的渲染器和显示器422使用最新姿势信息@t4来补偿所有可能的或至少一些渲染视图帧误差失配(例如,可以使用图像处理领域中已知的时间扭曲和后期重投影)。
同时,在实施方式中,可以省略在图8的示例中描述的操作901至909中的一些,或者可以添加其它必要的动作。此外,每个操作可以以与上述过程的操作的执行顺序不同的顺序执行。
在本公开中,作为描述使用延迟补偿姿势预测(LCPP)来进行远程渲染的图5的示例的另一实施方式,在显示器和3D渲染实体(例如,图10中显示的AR眼镜和MEC)之间可以执行额外的往返请求,以避免用于发送多个预测视图的带宽相重叠(由于仅选择了一个最佳视图)。
图10是示出根据本公开实施方式的在支持XR/AR的通信系统中使用延迟补偿姿势预测(LCPP)进行远程渲染的视图。
图10例示了如下配置:在从媒体服务器1060提供作为3D多媒体数据的AR数据的通信环境中,在两个装置1020和1040之间执行远程渲染。在图10中,装置1020可以是使用AR眼镜的UE、或AR眼镜,并且装置1040可以是MEC。在装置1020和1040之间执行对AR数据的远程渲染。图10的AR眼镜1020包括视觉引擎1021、渲染器和显示器1022、2D解码器1023、以及姿势预测视图选择器1024,并且MEC 1040包括姿势信息解析器1041、姿势预测器1042、3D媒体解码器1043、3D渲染器1044、以及2D编码器和打包器1045。图10示出了用于远程渲染的配置的示例,其中需要相对高处理能力的对3D媒体数据的渲染由MEC 1040执行,并且需要相对低处理能力的对2D媒体数据的渲染由UE或AR眼镜1020执行。使用AR眼镜的UE或AR眼镜1020(在下文中,为方便起见称为AR眼镜1020)可以可通信地连接到MEC 1040以接收由MEC 1040远程渲染的媒体数据。
在图10的示例中,MEC 1040可以从媒体服务器1060收集3D媒体数据并且远程渲染所收集的3D媒体数据,并且将其提供给AR眼镜1020。在AR眼镜1020和MEC 1040之间执行远程渲染,并且由MEC 1040执行姿势预测。
在图10的示例中,执行远程渲染的具体操作是以下操作1001至1011。
1001.MEC 1040从媒体服务器1060收集媒体数据。
1002.AR眼镜1020向MEC 1040发送用户的姿势信息P(t1)(在时间t1的姿势信息)、PP_dataset(t1)(在时间t1的姿势预测数据集)和MTP延迟信息MTP_latency(例如,MTP延迟,使用例如先前MTP延迟的平均值计算的)。MEC 1040的姿势信息解析器1041解析从AR眼镜1020的视觉引擎1021接收到的姿势信息、姿势预测数据集和MTP延迟信息中的至少一个。
1003.MEC 1040的姿势预测器1042使用P(t1)、PP_dataset(t1)和MTP_latency中的至少一个来执行姿势预测,从而输出例如多个预测姿势信息。
1004.MEC 1040的3D媒体解码器1043对从媒体服务器1060接收到的3D媒体数据进行解包和解码,然后MEC 1040的3D渲染器1044基于在操作1003中预测的姿势信息来渲染多个2D视图视频帧。
1005.MEC 1040的2D编码器和打包器1045使用2D编解码器对在操作1004中渲染的视图进行编码和打包。
1006.MEC 1040将视图选择元数据建议发送到AR眼镜1020。
1007.AR眼镜1020的姿势预测视图选择器524处理从MEC 1040接收到的视图选择元数据以选择姿势预测视图。
1008.AR眼镜1020向MEC 1040发送包括对所选视图的请求的视图选择元数据响应。
1009.MEC 1040基于从AR眼镜1020接收到的视图选择元数据响应,将包括所选视图(渲染视图帧)的压缩媒体包发送到AR眼镜1020。
1010.AR眼镜1020的2D解码器1023对在操作1009中接收到的渲染视图帧进行解包和解码。
1011.AR眼镜1020的渲染器和显示器1022使用最新姿势信息来补偿所有可能的或至少一些MEC渲染视图帧误差失配(例如,可以使用图像处理领域中已知的时间扭曲和后期重投影)。
同时,在实施方式中,可以省略在图10的示例中描述的操作1001至1011中的一些,或者可以添加其它必要的动作。此外,每个操作可以以与上述过程的操作的执行顺序不同的顺序执行。
图11是示出根据本公开实施方式的AR眼镜的配置的视图。此外,图10的配置可以是VR装置或能够显示3D媒体数据的各种装置。
参考图11,AR眼镜可以包括收发器1110、控制器1120、存储单元1130和显示单元1140。在本公开中,控制器1120可以被定义为电路或专用集成电路或至少一个处理器。收发器1110可以经由有线/无线通信向其它网络实体发送信号,以及从所述其它网络实体接收信号。收发器1110可以向例如媒体服务器、另一电子装置和/或MEC发送XR/AR数据,或从其接收XR/AR数据。收发器1110可以被称为发送/接收单元。
根据本公开中提出的图1至图10的实施方式中的每个或其中至少一个实施方式的组合,控制器1120可以控制AR眼镜的整体操作。例如,控制器1120可以控制块之间的信号流以执行结合图1至图10的实施方式描述的操作。具体地,根据本公开的实施方式,控制器1120可以控制使用延迟补偿姿势预测(LCPP)来进行远程/分割渲染的操作。
存储单元1130可以存储经由收发器1110发送/接收的信息和经由控制器1120生成/处理的信息中的至少一个。例如,存储单元1130可以存储用于使用延迟补偿姿势预测(LCPP)进行远程/分割渲染的操作的信息。
显示单元1140可以显示经由收发器1110发送/接收的信息和经由控制器1120生成/处理的信息中的至少一个。例如,显示单元1140可以显示XR/AR数据。
图12是示出根据本公开实施方式的电子装置的结构的视图。在图11的实施方式中,电子装置可以是连接到AR/XR眼镜的UE(例如,智能电话、移动电话等)。
参考图12,电子装置可以包括收发器1210、控制器1220和存储单元1230。在本公开中,控制器1220可以被定义为电路或专用集成电路或至少一个处理器。
收发器1210可以向其它网络实体发送信号,或从其它网络实体接收信号。收发器1210可以向例如媒体服务器、另一电子装置和/或MEC发送XR/AR数据,或从其接收XR/AR数据。收发器1210可以被称为发送/接收单元。
根据本公开中提出的图1至图10的实施方式中的每个或其中至少一个实施方式的组合,控制器1220可以控制电子装置的整体操作。例如,控制器1220可以控制块之间的信号流以执行结合图1至图10的实施方式描述的操作。具体地,根据本公开的实施方式,控制器1220可以控制使用延迟补偿姿势预测(LCPP)来进行远程/分割渲染的操作。
存储单元1230可以存储经由收发器1210发送/接收的信息和经由控制器1220生成/处理的信息中的至少一个。例如,存储单元1230可以存储用于使用延迟补偿姿势预测(LCPP)进行远程/分割渲染的操作的信息。
图13是示出根据本公开实施方式的远程渲染器的配置的视图。在图13的实施方式中,远程渲染器可以是例如与AR/XR眼镜或UE可通信地连接的MEC。此外,图13的远程渲染器可以是例如连接到网络的服务器。
参考图13,远程渲染器可以包括收发器1310、控制器1320和存储单元1330。在本公开中,控制器1320可以被定义为电路或专用集成电路或至少一个处理器。
收发器1310可以向其它网络实体发送信号,或从其它网络实体接收信号。收发器1310可以向例如媒体服务器、另一电子装置和/或AR眼镜发送XR/AR数据,或从其接收XR/AR数据。收发器1110可以被称为发送/接收单元。
根据本公开中提出的图1至图10的实施方式中的每个或其中至少一个实施方式的组合,控制器1320可以控制远程渲染器的整体操作。例如,控制器1320可以控制块之间的信号流以执行结合图1至图10的实施方式描述的操作。具体地,根据本公开的实施方式,控制器1320可以控制使用延迟补偿姿势预测(LCPP)来进行远程渲染的操作。
存储单元1330可以存储经由收发器1310发送/接收的信息和经由控制器1320生成/处理的信息中的至少一个。例如,存储单元1330可以存储用于使用延迟补偿姿势预测(LCPP)来进行远程渲染的操作的信息。
此外,在本公开中,媒体服务器可以具有如图13的示例中的包括收发器、控制器和存储单元的装置配置,并且被实施为通过网络向UE或MEC提供诸如AR数据的3D媒体数据的服务器装置。
提供本文的实施方式仅是为了更好地理解本发明,并且本发明不应受限于此或因此而受到限制。换句话说,对于本领域的普通技术人员而言显而易见的是,在不脱离本发明范围的情况下,可以对其进行各种改变。进一步地,这些实施方式可以组合实践。

Claims (15)

1.一种用于在通信系统中由从媒体服务器接收3D媒体数据的第一装置执行渲染的方法,所述方法包括:
从增强现实AR眼镜接收包括第一时间的姿势信息的姿势预测相关信息;
基于所述姿势预测相关信息,对所述AR眼镜要执行2D渲染的第二时间执行姿势预测;
基于所述第二时间的一个或多个预测姿势信息,针对所接收的3D媒体数据渲染一个或多个2D姿势预测渲染视图;以及
向所述AR眼镜发送通过对所述一个或多个2D姿势预测渲染视图进行编码而得到的压缩2D媒体数据。
2.如权利要求1所述的方法,其中,所述姿势预测相关信息包括以下中的至少一个:所述第一时间的姿势信息、所述第一时间的姿势预测数据集、或动显MTP延迟信息。
3.如权利要求1所述的方法,其中,所述第一时间的姿势信息包括指示所述第一时间的用户位置和取向的信息,
其中,所述第一时间的姿势预测数据集包括用于预测所述第二时间的姿势的、指示基于所述第一时间的用户运动的单位转换取向和转换速度以及单位旋转取向和旋转速度的数据,并且
其中,所述MTP延迟信息指示根据所述第二时间和所述第一时间之间的时间差预测的MTP延迟,并且所述MTP延迟表示根据用户头部运动而改变的视图要被显示在所述AR眼镜的屏幕上所耗的延迟。
4.如权利要求1所述的方法,还包括:当在所述渲染中渲染所述多个2D姿势预测渲染视图时,向所述AR眼镜发送用于从所述多个2D姿势预测渲染视图中进行视图选择的元数据。
5.如权利要求1所述的方法,其中,当所述第一装置是通过网络共享与所述AR眼镜连接的UE时,在所述UE与所述AR眼镜之间执行对所述3D媒体数据的分割渲染,并且
其中,当所述第一装置是从云网络接收所述3D媒体数据的服务器装置时,在所述UE与所述服务器装置之间执行对所述3D媒体数据的远程渲染。
6.一种用于在通信系统中由与第一装置可通信地连接的增强现实AR眼镜执行渲染的方法,所述第一装置从媒体服务器接收3D媒体数据,所述方法包括:
向所述第一装置发送包括第一时间的姿势信息的姿势预测相关信息;
基于所述第一时间的姿势信息,从所述第一装置接收压缩媒体数据,所述压缩媒体数据包括针对所述3D媒体数据的一个或多个2D姿势预测渲染视图;
对从所述一个或多个2D姿势预测渲染视图中选择的渲染视图的媒体数据进行解码;以及
基于所述AR眼镜要对所选择的渲染视图执行2D渲染的第二时间的姿势信息,补偿所选择的渲染视图的帧误差失配,
其中,所述一个或多个2D姿势预测渲染视图是在所述AR眼镜要执行所述2D渲染的所述第二时间进行姿势预测而得到的。
7.如权利要求6所述的方法,其中,所述姿势预测相关信息包括以下中的至少一个:所述第一时间的姿势信息、所述第一时间的姿势预测数据集、或动显MTP延迟信息。
8.如权利要求6所述的方法,其中,所述第一时间的姿势信息包括指示所述第一时间的用户位置和取向的信息,
其中,所述第一时间的姿势预测数据集包括用于预测所述第二时间的姿势的、指示基于所述第一时间的用户运动的单位转换取向和转换速度以及单位旋转取向和旋转速度的数据,并且
其中,所述MTP延迟信息指示根据所述第二时间和所述第一时间之间的时间差预测的MTP延迟,并且所述MTP延迟表示根据用户头部运动而改变的视图要被显示在所述AR眼镜的屏幕上所耗的延迟。
9.如权利要求6所述的方法,还包括:当从所述第一装置接收所述多个2D姿势预测渲染视图时,从所述第一装置接收用于从所述多个2D姿势预测渲染视图中进行视图选择的元数据。
10.如权利要求9所述的方法,还包括:基于所接收的元数据,选择使所述第二时间的真实姿势和所述第二时间的预测姿势之间的误差失配最小化的渲染视图,
其中,所述元数据包括用于选择所述渲染视图的姿势信息和时间信息。
11.一种通信系统中的从媒体服务器接收3D媒体数据的第一装置,所述第一装置包括:
收发器;以及
处理器,被配置为:
通过所述收发器从增强现实AR眼镜接收包括第一时间的姿势信息的姿势预测相关信息,
基于所述姿势预测相关信息,对所述AR眼镜要执行2D渲染的第二时间执行姿势预测,
基于所述第二时间的一个或多个预测姿势信息,针对所接收的3D媒体数据渲染一个或多个2D姿势预测渲染视图,以及
通过所述收发器向所述AR眼镜发送通过对所述一个或多个2D姿势预测渲染视图进行编码而得到的压缩2D媒体数据。
12.如权利要求11所述的第一装置,其中,所述姿势预测相关信息包括以下中的至少一个:所述第一时间的姿势信息、所述第一时间的姿势预测数据集、或动显MTP延迟信息。
13.如权利要求11所述的第一装置,其中,所述处理器被进一步配置为:当渲染所述多个2D姿势预测渲染视图时,通过所述收发器向所述AR眼镜发送用于从所述多个2D姿势预测渲染视图中进行视图选择的元数据。
14.如权利要求11所述的第一装置,其中,当所述第一装置是通过网络共享与所述AR眼镜连接的UE时,在所述UE与所述AR眼镜之间执行对所述3D媒体数据的分割渲染,并且
当所述第一装置是从云网络接收所述3D媒体数据的服务器装置时,在所述UE与所述服务器装置之间执行对所述3D媒体数据的远程渲染。
15.一种通信系统中的与第一装置可通信地连接的增强现实AR眼镜,所述第一装置从媒体服务器接收3D媒体数据,所述AR眼镜包括:
收发器;以及
处理器,被配置为:
通过所述收发器向所述第一装置发送包括第一时间的姿势信息的姿势预测相关信息,
基于所述第一时间的姿势信息,通过所述收发器从所述第一装置接收压缩媒体数据,所述压缩媒体数据包括针对所述3D媒体数据的一个或多个2D姿势预测渲染视图,
对从所述一个或多个2D姿势预测渲染视图中选择的渲染视图的媒体数据进行解码,以及
基于所述AR眼镜要对所选择的渲染视图执行2D渲染的第二时间的姿势信息,补偿所选择的渲染视图的帧误差失配,
其中,所述一个或多个2D姿势预测渲染视图是在所述AR眼镜要执行所述2D渲染的所述第二时间进行姿势预测而得到的。
CN202180061306.6A 2020-07-13 2021-07-13 在支持混合现实/增强现实的通信系统中相对于三维媒体数据使用延迟补偿姿势预测来执行渲染的方法和装置 Pending CN116134474A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
KR10-2020-0086178 2020-07-13
KR20200086178 2020-07-13
PCT/KR2021/008978 WO2022015020A1 (ko) 2020-07-13 2021-07-13 혼합현실/증강현실을 지원하는 통신 시스템에서 3차원 미디어 데이터에 대해 지연 시간 보상 포즈 예측을 사용하는 렌더링을 수행하는 방법 및 장치

Publications (1)

Publication Number Publication Date
CN116134474A true CN116134474A (zh) 2023-05-16

Family

ID=79555635

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202180061306.6A Pending CN116134474A (zh) 2020-07-13 2021-07-13 在支持混合现实/增强现实的通信系统中相对于三维媒体数据使用延迟补偿姿势预测来执行渲染的方法和装置

Country Status (5)

Country Link
US (1) US12062215B2 (zh)
EP (1) EP4170598A4 (zh)
KR (1) KR20230041016A (zh)
CN (1) CN116134474A (zh)
WO (1) WO2022015020A1 (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20240094907A1 (en) * 2022-07-27 2024-03-21 Meta Platforms Technologies, Llc Lossless compression of large data sets for systems on a chip
KR20240048207A (ko) * 2022-10-06 2024-04-15 한국전자기술연구원 사용자의 상황 정보 예측 기반 확장현실 디바이스의 영상 스트리밍 방법 및 장치
WO2024102459A1 (en) * 2022-11-11 2024-05-16 Qualcomm Incorporated Communicating pre-rendered media
WO2024117452A1 (ko) * 2022-11-28 2024-06-06 삼성전자주식회사 사용자의 움직임에 대한 트래킹 정보에 기반하여 렌더링을 하기 위한 전자 장치 및 방법
KR20240125363A (ko) * 2023-02-10 2024-08-19 삼성전자주식회사 단말 예측 기반 스플릿 렌더링 방법 및 장치

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9192859B2 (en) 2002-12-10 2015-11-24 Sony Computer Entertainment America Llc System and method for compressing video based on latency measurements and other feedback
CN107430786A (zh) * 2015-06-12 2017-12-01 谷歌公司 用于头戴式显示器的电子显示稳定
US10962780B2 (en) 2015-10-26 2021-03-30 Microsoft Technology Licensing, Llc Remote rendering for virtual images
US10026212B2 (en) * 2015-11-20 2018-07-17 Google Llc Electronic display stabilization using pixel velocities
US20190088015A1 (en) * 2016-03-31 2019-03-21 Umbra Software Oy Virtual reality streaming
US10379611B2 (en) 2016-09-16 2019-08-13 Intel Corporation Virtual reality/augmented reality apparatus and method
KR101877406B1 (ko) 2016-11-08 2018-07-11 이상희 실내용품용 면진 받침대
US10504272B2 (en) 2017-06-13 2019-12-10 Intel Corporation Apparatus and method for optimizing time/space warp for virtual reality using dynamic tiling and dirty tile marking

Also Published As

Publication number Publication date
WO2022015020A1 (ko) 2022-01-20
US12062215B2 (en) 2024-08-13
EP4170598A1 (en) 2023-04-26
KR20230041016A (ko) 2023-03-23
US20230316583A1 (en) 2023-10-05
EP4170598A4 (en) 2023-11-15

Similar Documents

Publication Publication Date Title
CN116134474A (zh) 在支持混合现实/增强现实的通信系统中相对于三维媒体数据使用延迟补偿姿势预测来执行渲染的方法和装置
CN110915217B (zh) 360度视频译码方法、设备和可读介质
US20190373042A1 (en) Method and apparatus for transmitting and receiving image data for virtual-reality streaming service
JP6415414B2 (ja) 3dビデオエンコーダ、システム、プログラム、コンピュータ可読記録媒体
You et al. Fog computing as an enabler for immersive media: Service scenarios and research opportunities
US20230176915A1 (en) Method and device for providing split computing based on device capability
US20240259616A1 (en) System and method for multiplexed rendering of light fields
US20230351705A1 (en) Method and apparatus for performing anchor based rendering for augmented reality media objects
Nadir et al. Immersive services over 5G and beyond mobile systems
WO2019083943A1 (en) PROJECTION OF CUBEMAP CARD ANGLE HYBRID VIDEO CODING 360 DEGREES
CN114375583A (zh) 用于自适应小透镜光场传输和渲染的系统和方法
CN115379214A (zh) 图像处理方法、智能终端及存储介质
EP3646604A1 (en) Weighted to spherically uniform psnr for 360-degree video quality evaluation using cubemap-based projections
KR101832407B1 (ko) 입체 3차원 비디오 정보의 통신을 위한 방법 및 시스템
KR20220153381A (ko) 미디어 서비스를 제공하기 위한 방법 및 장치
Hu et al. Mobile edge assisted live streaming system for omnidirectional video
JP2022046467A (ja) 画像復号装置、画像復号方法、及び画像復号プログラム
CN113473180B (zh) 一种基于无线的Cloud XR数据传输方法以及装置、存储介质、电子装置
WO2024155441A1 (en) Learning-based predictive coding for dynamic point clouds
CN115953432A (zh) 基于图像的运动预测方法、装置、电子设备和存储介质
KR20220153437A (ko) 통신 시스템에서 ar 서비스를 제공하는 방법 및 장치
KR20230020253A (ko) 360도 비디오를 지원하는 방법 및 장치
WO2022096467A1 (en) Display control in cloud gaming applications
JP2021192513A (ja) 画像復号装置、画像復号方法、及び画像復号プログラム
JP2024511312A (ja) ポイントクラウドデータ送信方法、ポイントクラウドデータ送信装置、ポイントクラウドデータ受信方法及びポイントクラウドデータ受信装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination