CN117546460A - 3d图像数据流的交互式处理 - Google Patents
3d图像数据流的交互式处理 Download PDFInfo
- Publication number
- CN117546460A CN117546460A CN202180099758.3A CN202180099758A CN117546460A CN 117546460 A CN117546460 A CN 117546460A CN 202180099758 A CN202180099758 A CN 202180099758A CN 117546460 A CN117546460 A CN 117546460A
- Authority
- CN
- China
- Prior art keywords
- visual appearance
- person
- augmented reality
- reality device
- processing entity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012545 processing Methods 0.000 title claims abstract description 70
- 230000002452 interceptive effect Effects 0.000 title description 2
- 230000000007 visual effect Effects 0.000 claims abstract description 103
- 230000003190 augmentative effect Effects 0.000 claims abstract description 44
- 238000000034 method Methods 0.000 claims abstract description 35
- 238000004891 communication Methods 0.000 claims abstract description 16
- 238000009877 rendering Methods 0.000 claims description 17
- 230000008569 process Effects 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 6
- 230000007423 decrease Effects 0.000 claims description 4
- 238000013139 quantization Methods 0.000 claims description 4
- 238000003860 storage Methods 0.000 claims description 3
- 230000003287 optical effect Effects 0.000 claims description 2
- 239000011521 glass Substances 0.000 description 10
- 238000010586 diagram Methods 0.000 description 7
- 230000001413 cellular effect Effects 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 238000013507 mapping Methods 0.000 description 5
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 101150049278 US20 gene Proteins 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000001815 facial effect Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/14—Systems for two-way working
- H04N7/15—Conference systems
- H04N7/157—Conference systems defining a virtual conference space and using avatars or agents
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T19/00—Manipulating 3D models or images for computer graphics
- G06T19/006—Mixed reality
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T19/00—Manipulating 3D models or images for computer graphics
- G06T19/20—Editing of 3D images, e.g. changing shapes or colours, aligning objects or positioning parts
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2219/00—Indexing scheme for manipulating 3D models or images for computer graphics
- G06T2219/024—Multi-user, collaborative environment
Landscapes
- Engineering & Computer Science (AREA)
- Computer Graphics (AREA)
- Computer Hardware Design (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Architecture (AREA)
- Processing Or Creating Images (AREA)
Abstract
本申请涉及一种用于处理3D图像数据流的方法,该方法包括:在处理实体处,接收第一3D图像数据流,该第一3D图像数据流包括至少人的初步视觉外观,其中,该人的初步视觉外观将要被发送到扩展现实设备以用于显示,确定要被添加到该人的视觉外观的附加部分,其用于将初步视觉外观完成为将要在扩展现实设备处显示的最终视觉外观。从扩展现实设备接收影响在扩展现实设备处的该人的最终视觉外观的参数,基于所接收到的参数,将附加部分修改为经适配的附加部分,以及生成该人的最终视觉外观,包括将经适配的附加部分(82,83)添加到该人的初步视觉外观,‑通过通信网络将最终视觉外观发送到扩展现实设备。
Description
技术领域
本申请案例涉及一种用于处理3D图像数据流的方法以及被配置为处理3D图像数据流的对应实体。此外,提供了一种包括程序代码的计算机程序和一种包括计算机程序的载体。
背景技术
最近,远程会议和虚拟通信的重要性迅速增长。在这种背景下,点云或任何3D图像数据流从深度相机被流传输到XR(扩展现实)设备,诸如增强现实(AR)、混合现实(MR)或虚拟现实(VR)设备。点云(例如,3D图像帧)由深度相机(诸如Intel Realsense或MicrosoftKinect)捕获。最近的智能电话和平板电脑配备有可以捕获3D图像帧的激光雷达传感器。
网格、纹理和UV图通常被用于表示所捕获的3D内容。网格是一种定义AR/VR中的对象的形状的数据结构。存在不同的网状拓扑类型,例如,多边形、三角形、线或点网格。类型指示使用三角剖分、点或线来创建网格表面的方式,其中,每条线由两个顶点索引等组成。网格包含定义3D对象的形状的边和顶点。
UV映射是将2D图像投影到3D模型的表面以进行纹理映射的3D建模过程。利用UV映射,可以向构成3D对象的多边形添加颜色。UV映射过程涉及将图像中的像素分配到多边形上的表面映射。渲染计算使用UV纹理坐标来确定如何绘制三维表面。
纹理是对象的数字2D图片(也被称为RGB图像)。网格、纹理和UV的组合创建在3D图像流中表示的场景的3D表示。通过从网格和纹理提取人并应用UV,可以创建可从不同角度捕获的人的3D表示。可以考虑用于生成3D表示的其他格式,诸如几何点云、RGB加深度等。
3D媒体的渲染是已知的,其中,可以在XR设备上渲染3D图像流。可替代地,渲染发生在被连接到XR设备的移动设备或服务器上。在某些情况下,使用了基于来自XR设备的姿势估计的分割渲染方法。XR设备向例如位于XR设备附近的边缘云处的服务器提供6-DoF(自由度)头部姿势估计。边缘云仅渲染用户视图并将它编码为2D视频。经编码的视频流被发送到XR设备,该XR设备对该流进行解码并在眼镜上进行显示。
在图1中示出了使用实时捕获的3D流进行的XR的沉浸式通信。实时捕获的3D流可以被用于两个或更多个UE之间的实时会话服务。以3D表示(例如,点云、网格等)捕获的来自3D相机10的实时馈送与音频一起被提供给发送UE 20。在处理和编码之后,经压缩的3D视频和音频流通过数据网络30(例如,诸如5G网络之类的蜂窝网络)来发送。诸如5G电话之类的移动实体40对3D视频和音频流进行解码、处理和渲染,并将其提供给用户50的AR眼镜60以用于显示。可以通过在接收方侧添加3D相机和在发送方侧添加AR眼镜并应用类似的工作流程来将该用例扩展为双向。
图1中架构的问题在于,3D内容的渲染独立于AR眼镜使用情况和场景中的3D人的投影。另外,将实时捕获的3D流(诸如网格和点云)从相机发送到XR设备可能会对网络提出很高的带宽要求。
上面提到的分割渲染是一种基于来自XR设备的姿势估计来优化场景渲染的优化。然而,这对于实时会话服务来说是一个挑战,因为它需要将实时捕获的3D内容从捕获相机递送到边缘云。一种替代方法是将姿势信息提供给相机捕获侧。然而,这会增加2D视频的传输延时并影响用户体验。
因此,需要克服上面提及的问题并提供一种更灵活的方法以用于在XR设备中表示3D视觉外观,同时考虑到在XR设备的用户处的情况并满足用于XR会话服务的实时要求。
发明内容
这种需要通过独立权利要求的特征来满足。其他方面在从属权利要求中描述。
根据第一方面,提供了一种用于操作处理实体的方法。
根据第一方面,提供了一种用于处理3D图像数据流的方法,其中,该方法由处理实体执行,该处理实体接收第一3D图像数据流,该第一3D图像数据流包括至少一个人的初步视觉外观,其中,该至少一个人的初步视觉外观将要被发送到扩展现实设备以用于显示。例如,可以在带宽方面限制第一3D图像流以满足对网络的实时传输要求。此外,确定要被添加到该人的视觉外观的附加部分,其用于将初步视觉外观完成为将要在扩展现实设备处显示的最终视觉外观。该处理实体进一步从扩展现实设备接收影响在扩展现实设备处的该人的最终视觉外观的参数,并基于所接收到的参数,将附加部分修改为经适配的附加部分。生成该人的最终视觉外观,包括将经适配的附加部分添加到该人的初步视觉外观。最后,通过通信网络将最终视觉外观发送到扩展现实设备。
此外,提供了对应的处理实体,其被配置为如上面所讨论或如下面进一步详细讨论地进行操作。
该处理实体可以包括存储器和至少一个处理单元,其中,该存储器包含至少一个处理单元可执行的指令,这些指令在由至少一个处理单元执行时使至少一个处理单元执行如上面所讨论或如下面进一步详细说明的方法。
作为替代,该处理实体可以包括第一模块,其被配置为接收第一3D图像数据流,该第一3D图像数据流包括初步视觉外观。该处理实体的第二模块可以被配置为确定要被添加到人的视觉外观的附加部分,其用于将初步视觉外观完成为最终视觉外观。第三模块被配置为从扩展现实设备接收影响该人的最终视觉外观的参数,并且可以提供第四模块,其被配置为基于所接收到的参数,将附加部分修改为经适配的附加部分。第五模块被配置为生成具有所添加的经适配的附加部分的该人的最终视觉外观,并且第六模块被配置为通过通信网络将最终视觉外观发送到扩展现实设备。
利用上面讨论的方法和处理实体,可以使在扩展现实设备处显示的视觉外观适配在扩展现实设备处发生的情况。
此外,提供了一种包括程序代码的计算机程序,其中,该程序代码的执行使处理实体的至少一个处理单元执行如上面所讨论或如下面进一步详细说明的方法。
此外,还提供了一种包括计算机程序的载体,其中,该载体是电信号、光信号、无线电信号、或计算机可读存储介质之一。
应当理解,在不背离本发明的范围的情况下,上面所提及的特征和下面将要说明的特征不仅可以在所指示的各个组合中使用,而且还可以在其他组合中或单独地使用。除非另外明确提及,否则上面所提及的各方面和下面所描述的实施例的特征可以在其他实施例中彼此组合。
附图说明
当结合附图阅读时,本申请的上述及附加特征和效果将从以下详细描述中变得显而易见,在附图中相同的参考数字指代相同的元素。
图1示出用于如在本领域中已知的3D增强现实应用的端对端通信的示意图。
图2示出用于包括本发明的各方面的3D增强现实应用的端对端通信的示意图。
图3示出XR设备的用户与被添加到该XR设备的用户的视场中的人的视觉表示之间的可能交互。
图4示出通过向外观添加附加部分并使附加部分适配外观来将初步视觉外观修改为最终视觉外观。
图5示出作为距离的函数的恰可察觉差。
图6示出包括在处理实体处执行的用于生成要被添加到XR设备的视场中的人的最终视觉外观的步骤的流程图的示意图。
图7示出系统的第一实现以及XR设备与处理实体之间的通信的示意图。
图8示出系统的另一实现以及XR设备与在移动实体中实现的处理实体之间的通信的另一个示意图。
图9示出包括在处理实体处执行的用于生成要被添加到XR设备的视场中的人的最终视觉外观的步骤的流程图的示意图。
图10示出被配置为生成人的最终视觉外观的处理实体的第一示意图。
图11示出被配置为生成人的最终视觉外观的处理实体的另一个示意图。
具体实施方式
在下文中,将参考附图来详细描述本发明的实施例。应当理解,实施例的以下描述不应被视为具有限制性的意义。本发明的范围并不旨在由下文描述的实施例或由附图来限制,这些实施例或附图仅仅是说明性的。
附图应被视为示意性表示,并且在附图中图示的元素并非是按比例示出的。相反,各种元素被表示为使得它们的功能和一般目的对于本领域技术人员来说变得显而易见。在附图中示出并在下文中描述的功能块、设备、物理或功能单元的组件之间的任何连接或耦接可以由间接的连接或耦接来实现。功能块可以以硬件、软件、固件或其组合来实现。
在本申请的上下文中,术语移动实体或用户设备UE是指例如由个人、用户用于他或她的个人通信的设备。它可以是电话类型的设备、蜂窝电话、移动站、无绳电话或个人数字助理类型的设备,如配备有无线数据连接的膝上型计算机、笔记本、记事本或平板电脑。UE可以配备有订户身份模块SIM或电子SIM,其包括与使用该UE的用户相关联的唯一标识,诸如IMSI(国际移动订户标识)、TMSI(临时移动订户标识)或GUTI(全球唯一临时UE标识)。在UE内SIM卡的存在可以利用用户的订阅唯一地定制UE。
为了清楚起见,应当注意,在用户与订户之间存在差异,但也存在紧密联系。用户通过向网络获取订阅来接入网络,并由此成为该网络内的订户。进而,网络例如通过使用IMSI、TMSI或GUTI等来识别订户,并使用相关联的订阅来标识相关的订阅数据。用户可以是UE实体的实际用户,用户也可以是拥有订阅的用户,但用户和订阅的拥有者也可以不同。
在下文中公开了XR对话场景,其中,实时3D捕获的流被递送到XR设备。下面描述的一个方面是通过基于设备反馈对原始流中缺失的3D部分进行自适应增强来适配3D捕获的流。可以基于XR设备相对于场景中的投影3D人的距离和定向来调整增强部分的粒度。
图2描述了所考虑的场景,其中,3D相机10正在捕获人。所捕获的人(未示出)的视图被编码并经由US20发送到边缘云150,其中,流由在云中实现的处理实体进行修改(例如,填充流中的缺失部分)并且所得到的流被发送到佩戴XR设备200(AR眼镜)的用户50。缺失部分可以从存储在云中的该人的预生成的化身或预定义的全息图网格获得。修改补偿了实时捕获的流中的缺失部分(诸如颈部周围的区域)并能够适配于实际场景反馈。接收器可以可视化以3D形式所捕获的人并与场景进行交互。边缘云对应于位于运营商的域中具有到诸如5G网络之类的蜂窝网络的连接或者可替代地位于运营商的域以外的公共云中的计算平台。
图3a至3d示出了如在不考虑扩展现实设备200的用户的反馈的情况下由处理实体100生成的初步视觉外观的示例。
图3a描述了XR设备相对于被表示为初步视觉外观81的经渲染的3D人的原始位置。该附图示出了视场(FoV)90和在该视场内的3D初步视觉外观81的渲染。XR设备200与经3D渲染的人保持1到2米的距离。
图3b描述了XR设备200改变定向的情况,例如,左转。作为结果,经3D渲染的初步视觉外观81在视场之外。
图3c描述了XR设备靠近经3D渲染的人81的情况,例如,距离<1m。
图3d描述了XR设备200随着用户50在初步视觉外观81周围走动的情况。
图4描述了考虑到如从XR设备200接收到的反馈可以如何修改初步视觉外观81以便通过根据在XR设备200处发生的情况适配预定义的附加部分82、83来生成最终视觉外观80。在此处所讨论的情况下,基于距离和角度来适配附加部分82和83的粒度。这些部分的重要性是相对于场景而确定的。当用户50靠近经3D渲染的人时,期望更细粒度的面部边界。这可以被定义为作为XR设备200与经3D渲染的人81或其视觉外观之间的距离d的函数的经修改部分的质量Q。使用该人的初步视觉外观和经修改的部分82、83来生成最终视觉外观80。这可以通过将不同的质量水平(Q1、Q2等)定义为距离的函数并选择正确的质量来完成。可以适配渲染R,诸如根据角度theta来重新创建某些部分(例如,头后部),该角度theta被定义为XR设备200相对于经3D渲染的人81的初始位置与XR设备相对于经3D渲染的场景的当前位置(距离)之间的角度差。当该角度超过某个阈值时,头后部可以被插入到所生成的流中,例如,
θ=0°(不修改头后部),θ=45°(修改开始),θ=90°(修改完成))。
不同的质量水平可以包括以下参数:
-峰值信噪比,
-结构相似度,
-平均意见分数,
-视觉外观的编码量化参数。
可以考虑指示2个不同的质量水平之间的差异的恰可察觉差。在图4的实施例中,添加了2个附加部分,然而,应当理解,还添加单个附加部分以便生成最终视觉外观。
图5示出了根据距离和一些操作点的质量的恰可察觉差(JND)曲线。随着XR设备200与经渲染的3D人之间的距离减小,可以容易地观察到JND差异。可以选择经修改的部分的质量,以使得一定JND被容许。在更大的距离处,更大的容限是可能的,并且可以在不影响视觉质量的情况下选择更低的质量,即,比特率。
图6描述了用于在被连接到AR设备或在边缘云处的电话(分别为电话)上实现该方法的步骤。边缘云或进行处理的实体在步骤S61中接收被表示为网格或点云的3D实时捕获的媒体流。考虑到来自AR眼镜的场景反馈,边缘云可以处理该流以确定该流的各部分并插入缺失部分(S62)。在步骤S63中通过插入缺失部分来增强该流,并且对该3D流进行编码并将其递送到AR眼镜(S64)。
下面描述端到端呼叫流程。
-XR设备(200)启动实时会话服务(例如,启动电话或AR眼镜上的应用)。
-在相机10与XR设备200之间建立呼叫以用于会话服务。
·会话建立可以经由会话描述协议(例如,用于RTP流传输或WebRTC)来实现。会话建立可以包括诸如沉浸式内容(3D视频,例如,点云、三角形/多边形网格)、服务类型(例如,3D实时通信、具有XR眼镜反馈的3D实时通信)之类的参数。
·确切的会话类型和配置取决于XR设备和相机的能力。可以在会话开始之前向云信令传送这种能力。
·会话建立可以包括任何附加的QoS/QoE参数,诸如延时和吞吐量要求。
-相机10将3D流(具有音频信号)发送到边缘云150。可以在发送方UE或生产云处应用附加的数据处理和编码。
-边缘从XR设备200接收传感器信息,诸如XR设备与经渲染的3D对象之间的距离和角度。
-边缘云150基于来自XR设备的反馈,处理所接收到的3D流,并确定要被修改到所接收到的3D流的3D部分的粒度。
-边缘云150将最终组合的3D流递送到XR设备200:
·根据会话建立期间的配置,云可以将经渲染的3D流递送到XR设备。
·云可以将3D流或3D流的一部分投影到2D,然后将其作为常规2D编码的视频递送到XR设备。
-XR设备显示所接收到的3D流。
-XR设备在呼叫结束时终止服务。
图7示出了XR设备200与在图7的实施例中的边缘云150处实现的处理实体100之间的通信的更详细视图。设备200可以包括运动或位置传感器210、相机220、麦克风230、显示器240、扬声器250以及如XR设备已知的用户输入260。此外,提供了收集场景信息(诸如到视觉外观的距离和/或角度)的视觉引擎270。2D编码器(AV/传感器)280接收经编码的场景信息并将其提供给通信接口290,其可以被实现为包括Uu接口的5G调制解调器。进而,该信息被准许进入边缘或云150,其中,该信息被发送到解码器170,例如,2D解码器(AV/传感器)。此外,提供了增强现实(AR)/MR(混合现实)应用180,并且接口190被配置以用于与外部数据网络通信,并且其中,例如通过从3D相机30或用户实体UE接收3D捕获的流,提供了来自扩展现实设备200的场景反馈,其中,该场景反馈由处理实体100在处理被发送到AR眼镜的媒体流时使用。该处理实体可以包括(沉浸式)媒体渲染器101、(沉浸式)流处理102以及(沉浸式)媒体解码器103。上面详细讨论的处理可以在沉浸式流处理实体102中实现。
图8示出了另一了实现,其中,3D流的处理不是在边缘云中执行而是在移动实体300中实现。设备200对应于结合图7所讨论的设备200,并且不再详细说明。用户实体300包括接口310,其可以是无线或有线连接接口,诸如Wi-Fi连接、副链路连接或USB连接。接口390接收3D捕获的流,并且提供了增强现实应用380。处理实体100可以对应于结合图7所讨论的处理实体,并且在所示出的实施例中的移动实体300中实现。
图9示出了在上面讨论的操作中由处理实体执行的一些步骤。在一个步骤中,该处理实体接收包括人的初步视觉外观的数据流(S91)。该3D图像数据流可以从如结合图2所讨论的3D相机10接收。该处理实体在步骤S92中确定要被添加到该人的视觉外观的附加部分,以便将初步视觉外观完成为最终视觉外观。此外,在步骤S93中,从扩展现实设备接收影响该人的最终视觉外观的参数。基于所接收到的参数,附加部分被修改为经适配的附加部分(S94),并且在步骤S95中,通过将经适配的附加部分添加到该人的初步视觉外观来生成该人的最终视觉外观。在步骤S96中,最终视觉外观通过通信网络被发送到扩展现实设备。应当注意,上面讨论的步骤并不需要按照所指示的顺序来执行,例如,可以从扩展现实设备接收参数,并且可以基于该信息来确定要被添加的附加部分,并且可以确定应如何修改附加部分。
图10示出了可以如上所讨论地确定最终视觉外观的处理实体100的示意性架构视图。如上所指示的,该实体可以被并入作为蜂窝网络的边缘中的云实现,或者可以在移动实体中实现,或者可以在蜂窝网络中提供的单个应用或服务中实现。实体100包括接口110,其被配置为发送或接收数据流或其他控制消息或控制数据,诸如所接收到的3D图像数据流或来自XR设备的反馈(诸如距离或角度)。此外,该实体包括负责处理实体100的操作的处理单元120。处理单元120包括一个或多个处理器并且可以执行在存储器130上存储的指令,其中,该存储器可以包括只读存储器、随机存取存储器、大容量存储设备、硬盘等。此外,该存储器可以包括要由处理实体执行的合适的程序代码,以便实现上面描述的功能。
图11示出了处理实体500的另一个示意性架构视图,处理实体500包括被配置为接收3D图像数据流的第一模块510。另一模块520被配置为确定预定义的附加部分,并且第三模块530被配置为从XR设备接收参数。提供了模块540,其被配置为根据所接收到的参数来适配预定义的附加部分,模块550被配置为生成最终视觉外观,并且模块560被配置为将最终视觉外观发送到XR设备。
从以上所述中可以得出一些一般性结论(在此我们总结了从属权利要求)。
所接收到的参数可以包括从XR设备200的用户到如向该用户显示的最终视觉外观80的距离。作为替代或附加地,可以接收视角作为参数,经扩展的相关设备的用户正在该参数下观看最终视觉外观。
当附加部分82、83被修改时,可以修改附加部分的粒度。
在此,当从用户到最终视觉外观的距离减小时,该粒度可以被适配到更细的粒度。因此,用户越接近最终视觉外观,粒度将越细。
此外,可以使用附加部分的不同的表示质量水平,其中,根据距离,针对经适配的附加部分选择不同的表示质量水平之一。不同的表示质量水平可以包括诸如峰值信噪比、结构相似度、平均意见分数或视觉外观的编码量化参数之类的参数。
可以基于恰可察觉差来选择不同的表示质量水平之一,该恰可察觉差指示根据从用户到最终视觉外观的距离的两个不同的表示质量水平之间的差异。
当生成最终视觉外观时,可以渲染所接收并经修改的视觉外观,并且可以根据所接收到的视角来适配该外观的渲染。
当该视角随时间变化超过阈值时,可以适配该渲染。如结合图5所讨论的,当该视角相对于第一视角增大时,可以适配该渲染。
附加部分可以与人的头部、颈部或者与人的肩部有关。
附加部分可以包括人的预定义的网格的3D表示或者预生成的化身。预生成不应将实时生成网格或化身排除在外,而应意味着网格或化身不是从相机接收到的第一3D流的一部分。
最终外观可以作为被发送到扩展现实设备的最终3D图像数据流的一部分被发送到XR设备。
如上面所讨论的,可以适配XR设备上的3D渲染的流的质量,其中,可以获得针对场景的适配,其中,可以考虑佩戴XR设备的用户与XR设备上的经渲染的人之间的交互性。经修改的部分的质量针对场景而被灵活调整,从而提高了质量,同时减少了不必要的数据流传输。
Claims (27)
1.一种用于处理3D图像数据流的方法,所述方法包括:在处理实体(100)处:
-接收第一3D图像数据流,所述第一3D图像数据流包括至少人的初步视觉外观(81),其中,所述人的所述初步视觉外观(81)将要被发送到扩展现实设备(200)以用于显示,
-确定要被添加到所述人的所述视觉外观的附加部分,所述附加部分用于将所述初步视觉外观完成为将要在所述扩展现实设备处显示的最终视觉外观,
-从所述扩展现实设备接收影响在所述扩展现实设备处的所述人的所述最终视觉外观的参数,
-基于所接收到的参数,将所述附加部分修改为经适配的附加部分(82,83),
-生成所述人的所述最终视觉外观(80),包括将所述经适配的附加部分(82,83)添加到所述人的所述初步视觉外观,
-通过通信网络将所述最终视觉外观发送到所述扩展现实设备。
2.根据权利要求1所述的方法,其中,所述参数包括以下中的至少一项:从所述扩展现实设备的用户(20)到向所述用户显示的所述最终视觉外观(80)的距离,以及所述扩展现实设备的所述用户(20)正在观看所述最终视觉外观(80)的视角。
3.根据权利要求1或2所述的方法,其中,修改所述附加部分包括:适配所述附加部分的粒度。
4.根据权利要求2和3所述的方法,其中,随着从所述用户(20)到所述最终视觉外观(80)的距离减小,所述粒度被适配到更细的粒度。
5.根据权利要求2和3或4所述的方法,其中,所述附加部分的不同的表示质量水平是可用的,并且根据所述距离,针对所述经适配的附加部分(54,55)选择所述不同的表示质量水平之一。
6.根据权利要求5所述的方法,其中,所述不同的表示质量水平包括以下中的至少一项:
-峰值信噪比,
-结构相似度,
-平均意见分数,
-所述视觉外观的编码量化参数。
7.根据权利要求5或6所述的方法,其中,基于恰可察觉差来选择所述不同的表示质量水平之一,所述恰可察觉差指示根据从所述用户到所述最终视觉外观的距离的2个不同的表示质量水平之间的差异。
8.根据权利要求2至7中任一项所述的方法,其中,生成所述最终视觉外观(80)包括:渲染所接收并经修改的视觉外观,其中,根据所接收到的视角来适配经修改的视觉外观的渲染。
9.根据权利要求8所述的方法,其中,当所接收到的视角随时间变化超过阈值角度时,适配所述渲染。
10.根据前述权利要求中任一项所述的方法,其中,所述附加部分与所述人(50)的头部、颈部和肩部中的至少一项有关。
11.根据前述权利要求中任一项所述的方法,其中,所述附加部分包括以下中至少一项的3D表示:
-所述人的预定义的网格,
-预生成的化身。
12.根据前述权利要求中任一项所述的方法,其中,所述最终视觉外观(80)作为被发送到所述扩展现实设备的最终3D图像数据流的一部分被发送到所述扩展现实设备。
13.一种处理实体,被配置为处理3D图像数据流,其中,所述处理实体可操作以:
-接收第一3D图像数据流,所述第一3D图像数据流包括至少人的初步视觉外观(81),其中,所述人的所述初步视觉外观(81)将要被发送到扩展现实设备(200)以用于显示,
-确定要被添加到所述人的所述视觉外观的附加部分,所述附加部分用于将所述初步视觉外观完成为将要在所述扩展现实设备处显示的最终视觉外观,
-从所述扩展现实设备接收影响在所述扩展现实设备处的所述人的所述最终视觉外观的参数,
-基于所接收到的参数,将所述附加部分修改为经适配的附加部分(82,83),
-生成所述人的所述最终视觉外观(80),包括将所述经适配的附加部分(54,55)添加到所述人的所述初步视觉外观,
-通过通信网络将所述最终视觉外观发送到所述扩展现实设备。
14.根据权利要求13所述的处理实体,其中,所述参数包括以下中的至少一项:从所述扩展现实设备的用户(20)到向所述用户显示的所述最终视觉外观(80)的距离,以及所述扩展现实设备的所述用户(20)正在观看所述最终视觉外观(80)的视角。
15.根据权利要求13或14所述的处理实体,为了修改所述附加部分,进一步可操作以适配所述附加部分的粒度。
16.根据权利要求14和15所述的处理实体,进一步可操作以随着从所述用户(20)到所述最终视觉外观(80)的距离减小,将所述粒度适配到更细的粒度。
17.根据权利要求14和15或16所述的处理实体,其中,所述附加部分的不同的表示质量水平是可用的,并且根据所述距离,针对所述经适配的附加部分(54,55)选择所述不同的表示质量水平之一。
18.根据权利要求17所述的处理实体,其中,所述不同的表示质量水平包括以下中的至少一项:
-峰值信噪比,
-结构相似度,
-平均意见分数,
-所述视觉外观的编码量化参数。
19.根据权利要求17或18所述的处理实体,进一步可操作以基于恰可察觉差来选择所述不同的表示质量水平之一,所述恰可察觉差指示根据从所述用户到所述最终视觉外观的距离的2个不同的表示质量水平之间的差异。
20.根据权利要求14至19中任一项所述的处理实体,为了生成所述最终视觉外观(80),进一步可操作以渲染所接收并经修改的视觉外观,并根据所接收到的视角来适配经修改的视觉外观的渲染。
21.根据权利要求20所述的处理实体,进一步可操作以在所接收到的视角随时间变化超过阈值角度时,适配所述渲染。
22.根据权利要求13至21中任一项所述的处理实体,其中,所述附加部分与所述人(50)的头部、颈部和肩部中的至少一项有关。
23.根据权利要求13至22中任一项所述的处理实体,进一步可操作以将所述最终视觉外观(80)作为被发送到所述扩展现实设备的最终3D图像数据流的一部分发送到所述扩展现实设备。
24.根据权利要求13至23中任一项所述的处理实体,其中,所述附加部分包括以下中至少一项的3D表示:
-所述人的预定义的网格,
-预生成的化身。
25.根据权利要求中任一项所述的处理实体,进一步包括存储器和至少一个处理单元,所述存储器包含指令,所述指令在由所述至少一个处理实体执行时使所述至少一个处理单元执行根据权利要求1至13中任何一项所述的方法。
26.一种计算机程序,包括要由处理实体执行的程序代码,其中,所述程序代码的执行使所述至少一个处理单元执行根据权利要求1至13中任何一项所述的方法。
27.一种载体,包括根据权利要求26所述的计算机程序,其中,所述载体是电信号、光信号、无线电信号、以及计算机可读存储介质之一。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/EP2021/067530 WO2022268340A1 (en) | 2021-06-25 | 2021-06-25 | Interactive processing of 3d image data stream |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117546460A true CN117546460A (zh) | 2024-02-09 |
Family
ID=76765149
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202180099758.3A Pending CN117546460A (zh) | 2021-06-25 | 2021-06-25 | 3d图像数据流的交互式处理 |
Country Status (3)
Country | Link |
---|---|
EP (1) | EP4360309A1 (zh) |
CN (1) | CN117546460A (zh) |
WO (1) | WO2022268340A1 (zh) |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102015217226A1 (de) * | 2015-09-09 | 2017-03-09 | Bitmanagement Software GmbH | Vorrichtung und verfahren zur erzeugung eines modells von einem objekt mit überlagerungsbilddaten in einer virtuellen umgebung |
-
2021
- 2021-06-25 CN CN202180099758.3A patent/CN117546460A/zh active Pending
- 2021-06-25 WO PCT/EP2021/067530 patent/WO2022268340A1/en active Application Filing
- 2021-06-25 EP EP21737402.4A patent/EP4360309A1/en active Pending
Also Published As
Publication number | Publication date |
---|---|
WO2022268340A1 (en) | 2022-12-29 |
EP4360309A1 (en) | 2024-05-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107113396B (zh) | 视频通话期间在用户终端处实现的方法、用户终端及计算机可读存储介质 | |
CN107111427B (zh) | 修改视频通话数据 | |
JP5491517B2 (ja) | 3次元コンピュータ生成仮想環境のビデオ表現を提供する方法及び装置 | |
CN111064919A (zh) | 一种vr远程会议方法及装置 | |
EP3754993A1 (en) | Rendering video stream in sub-area of visible display area | |
CN113301342B (zh) | 视频编码方法、网络直播方法、装置和终端设备 | |
CN107211171A (zh) | 共享的场景网格数据同步 | |
CN114938408B (zh) | 一种云手机的数据传输方法、系统、设备及介质 | |
CN117546460A (zh) | 3d图像数据流的交互式处理 | |
JP2020115299A (ja) | 仮想空間情報処理装置、方法、プログラム | |
US20210360236A1 (en) | System and method for encoding a block-based volumetric video having a plurality of video frames of a 3d object into a 2d video format | |
US20240070958A1 (en) | 3d stream processing | |
CN113160342B (zh) | 基于反馈的编码方法及装置、存储介质、电子设备 | |
WO2021199128A1 (ja) | 画像データ転送装置、画像生成方法およびコンピュータプログラム | |
WO2024100028A1 (en) | Signalling for real-time 3d model generation | |
Lee et al. | Overview of 3GPP standardization for 5G AR/MR experiences using glasses-type devices | |
CN116868557A (zh) | 用于流传输视觉内容的客户端-服务器通信 | |
CN115190289A (zh) | 3d全息视屏通信方法、云端服务器、存储介质及电子设备 | |
WO2016202287A1 (zh) | 一种即时视频的传输方法和电子设备 | |
KR20000039529A (ko) | 동영상 통신 시스템에서의 동영상 통신 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |