CN117836815A - 点云数据发送设备、点云数据发送方法、点云数据接收设备以及点云数据接收方法 - Google Patents

点云数据发送设备、点云数据发送方法、点云数据接收设备以及点云数据接收方法 Download PDF

Info

Publication number
CN117836815A
CN117836815A CN202280057293.XA CN202280057293A CN117836815A CN 117836815 A CN117836815 A CN 117836815A CN 202280057293 A CN202280057293 A CN 202280057293A CN 117836815 A CN117836815 A CN 117836815A
Authority
CN
China
Prior art keywords
point cloud
data
cloud data
point
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202280057293.XA
Other languages
English (en)
Inventor
韩裁绅
徐琮烈
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
LG Electronics Inc
Original Assignee
LG Electronics Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by LG Electronics Inc filed Critical LG Electronics Inc
Priority claimed from PCT/KR2022/010606 external-priority patent/WO2023003349A1/ko
Publication of CN117836815A publication Critical patent/CN117836815A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Mobile Radio Communication Systems (AREA)

Abstract

根据实施例的点云数据发送方法可以包括以下步骤:对点云数据进行编码;以及发送包括点云数据的比特流。根据实施例的点云接收方法可以包括以下步骤:接收包括点云数据的比特流;以及对点云数据进行解码。

Description

点云数据发送设备、点云数据发送方法、点云数据接收设备以 及点云数据接收方法
技术领域
实施例涉及一种用于处理点云内容的方法和设备。
背景技术
点云内容是由点云表示的内容,其是属于表示三维空间的坐标系的点的集合。点云内容可以表达以三个维度配置的媒体,并且被用于提供诸如虚拟现实(VR)、增强现实(AR)、混合现实(MR)、以及自驾驶服务的各种服务。然而,需要几万到几十万的点数据来表示点云内容。因此,需要用于高效处理大量点数据的方法。
发明内容
技术问题
实施例提供了一种用于高效处理点云数据的设备和方法。实施例提供了一种用于解决时延和编码/解码复杂性的点云数据处理方法和设备。
实施例的技术范围不限于前述技术目标,并且可以扩展到本领域的技术人员基于本文公开的全部内容可以推断出的其他技术目标。
技术方案
根据实施例,一种发送点云数据的方法可以包括:对点云数据进行编码,以及发送包含点云数据的比特流。根据实施例,接收点云数据的方法可以包括:接收包含点云数据的比特流,以及对点云数据进行解码。
有益效果
根据实施例的设备和方法可以高效地处理点云数据。
根据实施例的设备和方法可以提供高质量的点云服务。
根据实施例的设备和方法可以提供用于提供诸如VR服务和自驾驶服务的通用服务的点云内容。
附图说明
附图被包括以提供对本公开的进一步理解并且并入本申请且构成本申请的一部分,图示本公开的实施例并与说明书一起用作解释本公开的原理。为了更好地理解下面描述的各种实施例,应当参考下面结合附图对实施例的描述。在整个附图中将使用相同的附图标记来指代相同或相似的部件。
图1是图示根据实施例的示例性通信系统1的框图。
图2是图示根据实施例的方法可适用于的无线通信系统的框图。
图3图示3GPP信号发送/接收方法的示例。
图4图示根据实施例的将物理信道映射到自包含时隙中的示例。
图5图示ACK/NACK传输过程和PUSCH传输过程的示例。
图6图示根据实施例的用于5GMS服务的媒体传输的下行链路结构。
图7图示用于上行链路服务的FLUS结构的示例。
图8图示根据实施例的点云数据处理系统。
图9图示根据实施例的点云数据处理设备的示例。
图10图示根据实施例的点云数据处理设备的示例。
图11图示根据实施例的点云数据处理设备的示例。
图12图示根据实施例的点云数据处理设备的示例。
图13图示根据实施例的点云数据处理设备的示例。
图14图示根据实施例的点云数据处理设备的示例。
图15图示根据实施例的用于拜访网络上的UE的传输结构。
图16图示根据实施例的UE之间的呼叫连接。
图17图示根据实施例的用于发送和接收点云数据的设备。
图18图示根据实施例的用于5G网络上的XR通信的结构。
图19图示根据实施例的用于XR通信的结构。
图20图示根据实施例的3GPP 5G网络上的XR交互服务的协议栈。
图21图示根据实施例的点对点XR视频会议。
图22图示根据实施例的XR视频会议的扩展。
图23图示根据实施例的XR视频会议的扩展。
图24图示根据实施例的点云编码器的示例。
图25图示根据实施例的点云解码器的示例。
图26图示根据实施例的发送设备的示例性操作流程图。
图27图示根据实施例的接收设备的示例性操作流程图。
图28图示根据实施例的对话式点云数据。
图29图示根据实施例的滤波的示例。
图30图示根据实施例的向量配置。
图31图示根据实施例的分区的示例。
图32图示根据实施例的生成用于交互式点云数据的对象的轴的示例。
图33图示根据实施例的轴选择、估计、变换、角度生成和旋转矩阵生成。
图34图示根据实施例的变换点云数据的方法。
图35图示根据实施例的相机点、图像点和图像平面。
图36图示根据实施例的点云数据的参考。
图37图示根据实施例的在点、相机和激光投影仪之间的关系。
图38图示根据实施例的距离和常数值。
图39图示根据实施例的掩蔽采样。
图40图示根据实施例的获取采样眼的方法。
图41图示根据实施例的用于邻近点的矩阵的法向量。
图42图示根据实施例的从与用户的肩部和脊柱相关的向量生成平面参考轴的示例。
图43图示根据实施例的面部点源和眼点源。
图44图示根据实施例的与源点(source point)相关的向量。
图45图示根据实施例的头脊柱特征点。
图46示出根据实施例的元数据。
图47示出根据实施例的元数据。
图48示出根据实施例的元数据。
图49示出根据实施例的元数据。
图50示出根据实施例的元数据。
图51图示根据实施例的点云数据发送方法。
图52图示根据实施例的点云数据接收方法。
具体实施方式
详细描述了实施例的优选实施例,其示例在附图中示出。下面参考附图的详细描述旨在说明本发明的优选实施例,而不是仅仅示出可以根据本发明的实施例来实现的实施例。以下详细描述包括提供对实施例的透彻理解的细节。然而,对于本领域的技术人员来说显而易见的是,在没有这些细节的情况下也可以实践实施例。
实施例中使用的大多数术语是选择本领域广泛使用的通用术语,但是一些术语是申请人任意选择的,并且它们的含义根据需要在下面的描述中被详细描述。因此,应当基于术语的预期含义而不是术语的简单名称或含义来理解实施例。
图1是图示根据实施例的通信系统1的示例的框图。
参考图1,通信系统1包括无线设备100a至100f、基站(BS)200和网络300。BS200可以被称为固定站、节点B、演进型节点b(enb)、下一代节点b(gnb)、基本收发器系统(BTS)、接入点(AP)、网络或第五代(5G)网络节点、人工智能(AI)系统、路侧单元(RSU)、机器人、增强现实(AR)/虚拟现实(VR)系统、服务器等。根据实施例,无线设备指的是使用无线接入技术(例如,5G新RAT(NR)或长期演进(LTE))与BS和/或另一无线设备执行通信的设备,并且可以被称为通信/无线/5G设备或用户设备(UE)。无线设备不限于上述实施例,并且可以包括机器人100a、车辆100b-1和100b-2、扩展现实(XR)设备100c、手持设备100d、家用电器100e、物联网(IoT)设备100f、以及AI设备/服务器400。XR设备100c表示提供XR内容(例如,增强现实(AR)/虚拟现实(VR)/混合现实(MR)内容等)的设备。根据实施例,XR设备可以被称为AR/VR/MR设备。根据实施例,XR设备100c可以以头戴式设备(HMD)、车辆中提供的平视显示器(HUD)、电视、智能手机、计算机、可穿戴设备、家用电器、数字标牌、车辆、机器人等的形式来实现。例如,车辆100b-1和100b-2可以包括具有无线通信功能的车辆、自主车辆、能够执行车辆到车辆通信的车辆以及无人驾驶飞行器(UAV)(例如,无人机)。手持设备100d可以包括智能手机、智能板、可穿戴设备(例如,智能手表、智能眼镜)和计算机(例如,膝上型计算机)。家用电器100e可以包括TV、冰箱和洗衣机。IoT设备100f可以包括传感器和智能仪表。无线设备100a到100f可以经由BS200连接到网络300。无线设备100a到100f可以通过网络300连接到AI服务器400。网络300可以使用3G网络、4G网络(例如,LTE网络)、5G网络(例如,NR网络)、6G网络等来配置。无线设备100a到100f可以通过BS200/网络300彼此通信。可替选地,无线设备100a到100f可以在不使用BS/网络的情况下执行直接通信(例如,侧链路通信)。
可以通过无线通信/连接150a、150b和150c在无线设备100a至100f与BS200之间或者在BS200之间发送和接收无线信号。根据实施例的无线通信/连接可以包括各种无线电接入技术(例如,5G、NR等),诸如作为无线设备和BS之间的通信的上行链路/下行链路通信150a、作为无线设备之间的通信的侧链路通信150b(或D2D通信)、以及BS之间的通信150c(例如,中继和集成接入回程(IAB))。无线设备100a到100f以及BS200可以在用于无线通信/连接150a、150b和150c的各种物理信道发送/接收信号。对于无线通信/连接150a、150b和150c,可以执行用于发送/接收无线信号的各种配置信息设置过程、各种信号处理过程(例如,信道编码/解码、调制/解调、资源映射/解映射等)和资源分配过程等中的至少一种。
根据实施例,UE(例如,XR设备(例如,图1的XR设备100c))可以通过网络向BS或另一UE发送包括用于提供诸如音频/视频数据、语音数据和周围信息数据的XR内容所必需的XR数据(或AR/VR数据)的特定信息。根据实施例,UE可以执行对网络的初始接入操作。在初始接入过程中,UE可以获取小区搜索和系统信息以获取下行链路(DL)同步。根据实施例的DL指的是从基站(例如,BS)或作为BS的一部分的发射器到UE或包括在UE中的接收器的通信。根据实施例,UE可以执行用于接入网络的随机接入操作。在随机接入操作中,UE可以发送前导以获取上行链路(UL)同步或者发送UL数据,并且可以执行随机接入响应接收操作。根据实施例的UL表示从UE或作为UE的一部分的发射器到BS或作为BS的一部分的接收器的通信。另外,UE可以执行UL许可接收操作以向BS发送特定信息。在实施例中,UL许可被配置为接收用于UL数据传输的时间/频率资源调度信息。UE可以基于UL许可通过5G网络向BS发送特定信息。根据实施例,BS可以执行XR内容处理。UE可以执行DL许可接收操作以通过5G网络接收对特定信息的响应。DL许可表示接收时间/频率资源调度信息以接收DL数据。UE可以基于DL许可通过网络接收对特定信息的响应。
图2是图示根据实施例的方法可适用于的无线通信系统的框图。
无线通信系统包括第一通信设备910和/或第二通信设备920。“A和/或B”可以被解释为具有与“A或B中的至少一个”相同的含义。第一通信设备可以表示BS,并且第二通信设备可以表示UE(或者第一通信设备可以表示UE并且第二通信设备可以表示BS)。
第一通信设备和第二通信设备包括处理器911、921、存储器914、924、一个或多个TX/RX RF模块915、925、TX处理器912、922、RX处理器913、923、以及天线916、926。Tx/Rx模块也称为收发器。处理器911可以执行物理层(例如,层2(L2))或更高的层的信号处理功能。例如,在下行链路或DL(从第一通信设备到第二通信设备的通信)中,来自核心网络的上层分组被提供给处理器911。在DL中,处理器911提供在逻辑信道与传送信道之间的复用并且将无线电资源分配提供给第二通信设备920,并且负责向第二通信设备用信号发送。第一通信设备910和第二通信设备920可以进一步包括处理器(例如,音频/视频编码器、音频/视频解码器等),其被配置为处理来自比由处理器911和921处理的上层分组更高的层的数据。根据实施例的处理器可以处理根据各种视频标准(例如,MPEG2、AVC、HEVC、VVC等)处理的视频数据和根据各种音频标准(例如,MPEG 1层2音频、AC3、HE-AAC、E-AC-3、HE-AAC、NGA等)处理的音频数据。另外,根据实施例,处理器可以处理通过基于视频的点云压缩(V-PCC)或基于几何的点云压缩(G-PCC)方案处理的XR数据或XR媒体数据。被配置为处理较高层数据的处理器可以耦合到处理器911和921以被实现为一个处理器或一个芯片。可替选地,被配置为处理较高层数据的处理器可以被实现为与处理器911和921分离的芯片或分离的处理器。TX处理器912实现用于层L1(即,物理层)的各种信号处理功能。物理层的信号处理功能可以促进第二通信设备中的前向纠错(FEC)。物理层的信号处理功能包括编译(coding)和交织。已经经历编码和交织的信号通过加扰和调制被调制成复值调制符号。在调制中,可以根据信道使用BPSK、QPSK、16QAM、64QAM、246QAM等。复值调制符号(下文中,调制符号)被划分为并行流。每个流被映射到OFDM子载波,与时域和/或频域中的参考信号复用,并且使用IFFT组合在一起以生成用于承载时域OFDM符号流的物理信道。OFDM符号流被空间预编译以生成多空间流。每个空间流可以经由单独的Tx/Rx模块(或收发器)915提供给不同的天线916。每个Tx/Rx模块可以将每个空间流频率上变频到RF子载波以用于传输。在第二通信设备中,每个Tx/Rx模块(或收发器)925通过每个Tx/Rx模块的每个天线926接收RF子载波的信号。每个Tx/Rx模块从RF子载波的信号重构基带信号并将其提供给RX处理器923。RX处理器实现L1(即,物理层)的各种信号处理功能。RX处理器可以对信息执行空间处理以恢复指向第二通信设备的任何空间流。如果多个空间流被指向第二通信设备,则它们可以由多个RX处理器组合成单个OFDMA符号流。RX处理器使用快速傅里叶变换(FFT)将作为时域信号的OFDM符号流转换为频域信号。频域信号包括用于OFDM信号的每个子载波的单独的OFDM符号流。通过确定由第一通信设备发送的最可能的星座点来恢复和解调每个子载波上的调制符号和参考信号。这些软决策可以基于信道估计值。对软决策进行解码和解交织,以恢复由第一通信设备在物理信道上最初发送的数据和控制信号。数据和控制信号被提供给处理器921。
由第一通信设备910以与结合第二通信设备920的接收器功能描述的方式类似的方式处理UL(从第二通信设备到第一通信设备的通信)。每个TX/RX模块925通过每个天线926接收信号。每个Tx/Rx模块向RX处理器923提供RF子载波和信息。处理器921可以与存储程序代码和数据的存储器924相关。存储器可以被称为计算机可读介质。
图3至图5图示用于层L1(即,物理层)的一种或多种信号处理方法和/或操作的示例。图3至图5中公开的示例可以与参考图2描述的由TX处理器912和/或TX处理器922执行的信号处理方法和/或操作的示例相同或相似。
图3图示3GPP信号发送/接收方法的示例。
根据实施例,当UE被接通或进入新小区时,UE可以执行初始小区搜索,诸如与BS同步(S201)。UE可以从BS接收主同步信道(P-SCH)和辅同步信道(S-SCH)以与BS同步并获取诸如小区ID的信息。在LTE系统和NR系统中,P-SCH和S-SCH可以分别被称为主同步信号(PSS)和辅同步信号(SSS)。在初始小区搜索之后,UE可以从BS接收物理广播信道(PBCH)以获取小区中的广播信息。在初始小区搜索操作中,UE可以接收DL参考信号(DL-RS)并检查DL信道的状态。
在初始小区搜索之后,UE可以通过根据在PDCCH和PDCCH上承载的信息接收PDSCH来获取更详细的系统信息(S202)。
当UE最初地接入BS或者不具有用于信号传输的无线电资源时,UE可以执行针对BS的随机接入过程(操作S203至S206)。为此,UE可以通过PRACH发送特定序列作为前导(S203和S205),并且通过PDCCH和相应的PDSCH接收针对前导的随机接入响应(RAR)消息(S204和S206)。在基于竞争的随机接入过程的情况下,可以另外地执行竞争解决过程。
在执行上述过程之后,UE可以执行PDCCH/PDSCH接收(S207)和PUSCH/PUCCH发送(S208)作为一般UL/DL信号传输过程。具体地,UE通过PDCCH接收DCI。UE根据相应的搜索空间配置,在服务小区上的一个或多个控制元素集(CORESET)中配置的监测时机上监测PDCCH候选的集合。可以在搜索空间集方面来定义要由UE监测的PDCCH候选的集合。根据实施例的搜索空间集可以是公共搜索空间集或者UE特定的搜索空间集。CORESET由具有时间持续时间为1到3个OFDM符号的(物理)资源块的集合组成。网络可以将UE配置为具有多个CORESET。UE监测在一个或多个搜索空间集中的PDCCH候选。这里,监测意指尝试对搜索空间中的PDCCH候选进行解码。当UE成功解码搜索空间中的PDCCH候选之一时,UE可以确定已经从相应的PDCCH候选中检测到PDCCH,并且基于在检测到的PDCCH内的DCI来执行PDSCH接收或PUSCH发送。根据实施例的PDCCH可以被用于调度PDSCH上的DL传输和PUSCH上的UL传输。PDCCH上的DCI可以包括:至少包括与DL共享信道相关的调制和编译格式和资源分配信息的DL指配(即,DL许可),或者包括与UL共享信道相关的调制和编译格式和资源分配信息的UL许可。
UE可以通过检测SSB来获取DL同步。UE可以基于检测到的SSB(时间)索引(SSBI)来标识SSB突发集的结构,从而检测符号/时隙/半帧边界。可以基于系统帧号(SFN)信息和半帧指示信息来标识指配给检测到的SSB所属的帧/半帧的编号。UE可以从PBCH获取PBCH所属的帧的10比特的SFN。UE可以获取1比特的半帧指示信息,并确定PBCH是否属于该帧的第一半帧或者第二半帧。例如,半帧指示比特等于0指示PBCH所属的SSB属于帧中的第一半帧。半帧指示比特等于1指示PBCH所属的SSB属于帧中的第二半帧。UE可以基于DMRS序列和由PBCH承载的PBCH有效载荷获取PBCH所属的SSB的SSBI。
下面的表G1表示UE的随机接入过程。
表G1
信号类型获取的操作/信息
步骤1UL上的PRACH前导*初始波束获取
*随机接入前导ID的随机选择
步骤2PDSCH上的随机接入响应*定时提前信息
*随机接入前导ID
*初始UL许可,临时C-RNTI
步骤3PUSCH上的UL传输*RRC连接请求
UE标识符
步骤4DL上的竞争解决用于初始接入的临时C-RNTI
用于处于RRC_CONNECTED的UE的PDCCH上的C-RNTI
随机接入过程被用于多种目的。例如,随机接入过程可以被用于网络初始接入、切换和UE触发的UL数据传输。UE可以通过随机接入过程获取UL同步和UL传输资源。随机接入过程被划分为基于竞争的随机接入过程和无竞争随机接入过程。
图4图示根据实施例的将物理信道映射到自包含时隙中的示例。
可以在DL控制区域中发送PDCCH,并且可以在DL数据区域中发送PDSCH。可以在UL控制区域中发送PUCCH,并且可以在UL数据区域中发送PUSCH。GP在其中BS和UE从发送模式切换到接收模式或者从接收模式切换到发送模式的过程中提供时间间隙。子帧中从DL切换到UL时的一些符号可以被设置为GP。
根据实施例的PDCCH承载下行链路控制信息(DCI)。例如,PCCCH(即,DCI)承载下行链路共享信道(DL-SCH)的传输格式和资源分配、关于上行链路共享信道(UL-SCH)的资源分配信息、关于寻呼信道(PCH)的寻呼信息、关于DL-SCH的系统信息、关于诸如在PDSCH上发送的随机接入响应的较高层控制消息的资源分配信息、发射功率控制命令以及配置调度(CS)的激活/释放。DCI包括循环冗余校验(CRC)。根据PDCCH的所有者或使用目的,利用各种标识符(例如,无线电网络临时标识符(RNTI))对CRC进行掩蔽/加扰。例如,当PDCCH用于特定UE时,利用UE标识符(例如,小区-RNTI(C-RNTI))对CRC进行掩蔽。当PDCCH用于寻呼时,利用寻呼RNTI(P-RNTI)对CRC进行掩蔽。当PDCCH与系统信息(例如,系统信息块(SIB))相关时,利用系统信息RNTI(SI-RNTI)对CRC进行掩蔽。当PDCCH用于随机接入响应时,利用随机接入RNTI(RA-RNTI)对CRC进行掩蔽。
PDCCH根据聚合等级(AL)由1、2、4、8或16个控制信道元素(CCE)组成。CCE是用于根据无线电信道状态提供具有预先确定的码率的PDCCH的逻辑分配单元。CCE由6个资源元素组(REG)组成。REG被定义为一个OFDM符号和一个(P)RB。PDCCH通过控制资源集(CORESET)来发送。CORESET被定义为具有给定参数集(例如,SCS CP长度等)的REG集。用于一个UE的多个CORESET可以在时域/频域中彼此重叠。CORESET可以通过系统信息(例如,主信息块(MIB))或UE特定的较高层(例如,无线电资源控制(RRC)层)信令来配置。具体地,构成CORESET的RB的数量和OFDM符号的数量(多达3个符号)可以通过较高层信令来配置。
对于PDCCH接收/检测,UE监测PDCCH候选。PDCCH候选表示要由UE监测以进行PDCCH检测的CCE。根据AL,每个PDCCH候选被定义为1、2、4、8和16个CCE。监测包括(盲)解码PDCCH候选。由UE监测的PDCCH候选的集合被定义为PDCCH搜索空间(SS)。该SS包括公共搜索空间(CSS)或UE特定搜索空间(USS)。UE可以通过监测由MIB或较高层信令配置的一个或多个SS中的PDCCH候选来获取DCI。每个CORESET与一个或多个SS相关联,并且每个SS与一个CORESET相关联。该SS可以基于以下参数来定义。
-controlResourceSetId:指示与SS相关的CORESET。
-monitoringSlotPeriodicityAndOffset:指示PDCCH监测周期(以时隙为单位)和PDCCH监测间隔偏移(以时隙为单位)
-monitoringSymbolsWithinSlot:指示时隙内的PDCCH监测符号(例如,CORESET的第一符号)
-nrofCandidates:指示对于AL={1,2,4,8,16}的PDCCH候选的数量(0、1、2、3、4、5、6和8之一)。
*应当监测PDCCH候选的时机(例如,时间/频率资源)被定义为PDCCH(监测)时机。可以在时隙内配置一个或多个PDCCH(监测)时机。
PUCCH承载上行链路控制信息(UCI)。该UCI包括以下。
-调度请求(SR):被用于请求UL-SCH资源的信息。
-混合自动重复请求(HARQ)-应答(ACK):对PDSCH上的DL数据分组(例如,码字)的响应。其指示DL数据分组是否已成功接收。响应于单个码字,可以发送1比特的HARQ-ACK。响应于两个码字,可以发送两个比特的HARQ-ACK。HARQ-ACK响应包括肯定ACK(简称ACK)、否定ACK(NACK)、DTX或NACK/DTX。HARQ-ACK、HARQ ACK/NACK和ACK/NACK可以互换地使用。
-信道状态信息(CSI):关于DL信道的反馈信息。多输入多输出(MIMO)相关的反馈信息包括秩指示符(RI)和预编译矩阵指示符(PMI)。
PUSCH承载UL数据(例如,UL-SCH传送块(UL-SCH TB))和/或上行链路控制信息(UCI),并且基于循环前缀正交频分复用(CP-OFDM)波形或离散傅里叶变换-扩展-正交频分复用(DFT-s-OFDM)波形来发送。当基于DFT-s-OFDM波形发送PUSCH时,UE通过应用变换预编译来发送PUSCH。例如,当变换预编译不可用时(例如,变换预编译被禁用),UE基于CP-OFDM波形发送PUSCH。当变换预编译可用时(例如,变换预编译被启用),UE可以基于CP-OFDM波形或DFT-s-OFDM波形来发送PUSCH。PUSCH传输可以通过DCI中的UL许可动态地调度,或者可以基于较高层(例如,RRC)信令(和/或层1(L1)信令(例如,PDCCH))半静态地调度。PUSCH传输可以基于码本或非码本来执行。
图5图示ACK/NACK传输过程和PUSCH传输过程的示例。
图5-(a)图示ACK/NACK传输过程的示例。
UE可以在时隙#n中检测PDCCH。这里,PDCCH包含DL调度信息(例如,DCI格式1_0和1_1),并且PDCCH指示DL指配到PDSCH的偏移(K0)和PDSCH-HARQ-ACK报告偏移(K1)。例如,DCI格式1_0和1_1可以包括以下信息。
-频域资源指配:指示分配给PDSCH的RB集
-时域资源指配:K0,指示时隙中PDSCH的起始位置(例如,OFDM符号索引)和长度(例如,OFDM符号的数量)
-PDSCH到HARQ_反馈定时指示符:指示K1。
-HARQ过程号(4个比特):指示用于数据(例如,PDSCH、TB)的HARQ过程标识(ID)
此后,UE可以根据时隙#n的调度信息在时隙#(n+K0)中接收PDSCH,并且然后在时隙#(n+K1)中通过PUCCH发送UCI。这里,UCI包括针对PDSCH的HARQ-ACK响应。当PDSCH被配置为发送直至1TB时,HARQ-ACK响应可以被配置为1个比特。在PDSCH被配置为发送直至两个TB的情况下,当没有配置空间捆绑时,HARQ-ACK响应可以被配置为2个比特,并且当配置了空间捆绑时,HARQ-ACK响应可以被配置为1个比特。当用于多个PDSCH的HARQ-ACK传输时间被指定为时隙#(n+K1)时,在时隙#(n+K1)中发送的UCI包括用于多个PDSCH的HARQ-ACK响应。BS/UE具有用于DL传输的多个并行DL HARQ过程。该多个并行HARQ过程允许连续执行DL传输,同时等待针对先前DL传输的成功或不成功接收的HARQ反馈。每个HARQ过程与媒体接入控制(MAC)层的HARQ缓冲区相关联。每个DL HARQ过程管理与缓冲区中的MAC物理数据块(PDU)的传输次数、针对缓冲区中的MAC PDU的HARQ反馈、当前冗余版本等相关的状态变量。每个HARQ过程通过HARQ过程ID来区分。
图5-(b)图示PUSCH传输过程的示例。
UE可以在时隙#n中检测PDCCH。这里,PDCCH包括UL调度信息(例如,DCI格式0_0和0_1)。DCI格式0_0和0_1可以包括以下信息。
-频域资源指配:指示分配给PUSCH的RB集
-时域资源指配:时隙偏移K2,指示时隙中的PUSCH的起始位置(例如,符号索引)和长度(例如,OFDM符号的数量)。起始符号和长度可以通过起始和长度指示符值(SLIV)来指示,或者可以单独指示。UE可以根据时隙#n的调度信息在时隙#(n+K2)中发送PUSCH。这里,PUSCH包括UL-SCH TB。
实施例可以被应用于基于5G的媒体流式传输(5GMS)系统。5GMS结构是支持移动网络运营商(MNO)和第三方的媒体DL流式服务的系统。5GMS结构支持相关网络或UE功能和API,并且无论MBMS和/或5G标准和EUTRAN安装的支持性如何,都提供后向兼容性。使用5G的媒体中使用的流式传输(streaming)是通过时间上连续的媒体的生成和传送来定义的,并且流式传输点的定义指示发射器和接收器直接发送和消费媒体。5GMS结构基本上在DL和UL环境中运行,并且具有双向性。它是一种根据在UE和服务器之间的期望场景和设备能力进行流式传输的方法,并且功能块在技术上被不同地配置和操作。当媒体在DL上递送时,网络是产生媒体的实体,并且UE被定义为消费媒体的消费者设备。5GMS服务可以使用诸如3G、4G或6G网络以及5G网络的网络,并且不限于上述实施例。实施例还可以提供根据服务类型的网络切片功能。
图6图示根据实施例的用于5GMS服务的媒体传输的DL结构。
图6图示用于4G、5G和6G网络中的至少一个的媒体传输层次结构以及用于在单向DL媒体流式传输环境中操作设备的方法。因为该系统是DL系统,所以媒体是从网络和可信媒体功能产生的。媒体被递送到UE。每个框图在概念上被配置为媒体发送和接收所必需的功能的集合。互连接口表示用于共享或调节每个媒体块的特定部分功能的链路,并且在不利用所有必要的元件技术时使用。例如,第3方外部应用和运营商应用可以执行独立的应用操作。然而,当需要诸如信息共享(用户数据、媒体轨道等)的功能时,它们可以通过互连接口可通信地连接。根据实施例,媒体可以包括诸如时间连续、时间不连续、图像、图片、视频、音频和文本的信息和媒介两者,并且另外可以包括用于发送媒体的格式以及格式的大小。
在图6中,宿(sink)表示UE、UE中包括的处理器(例如,用于参考图2描述的较高层的信号处理的处理器911等)、或者构成UE的硬件。根据实施例,该宿可以执行从向宿提供媒体的源以单播方式接收流式传输服务的接收操作。宿可以从源接收控制信息并且基于控制信息执行信号处理。宿可以从源接收媒体/元数据(例如,XR数据或扩展媒体数据)。宿可以包括第3方外部应用块、运营商应用块和/或5G媒体接收功能块。根据实施例,宿的第三方外部应用块和运营商应用块表示在宿级操作的UE应用。第三方外部应用块是由存在于4G、5G和6G网络之外的第三方操作的应用,并且可以驱动宿的API连接。第三方外部应用块可以通过4G、5G或6G网络或通过直接点对点通信接收信息。因此,宿的UE可以通过本机的或已下载安装的应用来接收附加服务。运营商应用块可以管理与包括媒体应用的媒体流式传输驱动环境相关联的应用(5G媒体播放器)。当安装应用时,宿的UE可以开始使用应用套接字(socket)通过API访问媒体服务并发送和接收相关数据信息。API允许通过使用套接字配置会话来将数据递送到特定的终端系统。套接字连接方法可以通过通用的基于TCP的互联网连接来递送。宿可以从云边缘接收控制/数据信息,并且可以执行卸载(offloading)以将控制/数据信息等发送到云边缘。尽管在图中未示出,但是宿可以包括卸载管理块。根据实施例的卸载管理可以控制运营商应用块和/或第3方应用块的操作以控制宿的卸载。
根据实施例,5G媒体接收块可以从卸载管理块接收与卸载相关的操作,获取可以通过4G、5G或6G网络接收的媒体,并且处理该媒体。根据实施例,5G媒体接收功能块可以包括通用媒体访问客户端块、DRM客户端块、媒体解码器、媒体渲染呈现块、XR渲染块和XR媒体处理块。这些块仅是示例,并且其名称和/或操作不限于实施例。
根据实施例,媒体访问客户端块可以通过4G、5G和6G网络中的至少之一接收数据,例如,媒体片段。根据实施例,媒体访问客户端块可以解格式化(或解封装)各种媒体传输格式,诸如DASH、CMAF和HLS。从媒体访问客户端块输出的数据可以根据每个解码特性进行处理和显示。DRM客户端块可以确定接收到的数据是否被使用。例如,DRM客户端块可以执行控制操作以允许经授权的用户在访问范围内使用媒体信息。媒体解码块是通用音频/视频解码器,并且可以对解格式化的数据当中的根据各种标准(包括诸如MPEG2、AVC、HEVC和VVC的视频标准,以及诸如MPEG 1层2音频、AC3、HE-AAC、E-AC-3、HE-AAC和NGA的音频标准)处理的音频/视频数据进行解码。媒体渲染呈现块可以渲染媒体使得适合于接收设备。媒体渲染呈现块可以被包括在媒体解码块中。XR媒体处理块和XR渲染块被配置为处理解格式化数据(或解封装数据)中的XR数据。XR媒体处理块(例如,参考图2描述的处理器911或用于处理较高层数据的处理器)可以使用从源接收到的XR数据或从卸载管理块接收到的信息(例如,对象信息、位置信息等)以处理XR媒体。XR渲染块可以渲染并显示接收到的媒体数据当中的XR媒体数据。XR媒体处理块和XR渲染块可以处理并渲染根据基于视频的点云压缩(V-PCC)或基于几何的点云压缩(G-PCC)方案处理的点云数据。下面参考图8至图14详细描述V-PCC或G-PCC方案。根据实施例的XR媒体处理块和XR渲染块可以被配置为单个XR解码器。
源表示能够使用4G、5G或6G网络中的至少之一提供媒体的媒体服务器或UE,并且可以执行控制功能和服务器功能的功能。服务器功能发起并托管4G、5G和6G媒体服务。第三方媒体服务器表示由存在于4G、5G和6G网络之外的第三方操作的各种媒体服务器,并且可以是网络外部媒体应用服务器。一般来说,由第三方服务操作的外部服务器可以在4G、5G、6G网络以外的地方以相同的方式执行媒体制作、编码、格式化等。控制功能表示基于网络的应用功能,并且可以包括宿和其他媒体服务器,以及在执行媒体认证时面向控制的信息递送功能。因此,源可以使用控制功能通过内部应用的API连接发起连接,并且可以建立媒体会话或请求附加信息。源还可以通过控制功能与其他网络功能交换PCF信息。通过控制功能,源可以使用NEF标识外部网络能力,并且通过暴露过程执行一般监测和供应。因此,NEF可以接收其他网络信息并使用特定的标准化接口将接收到的信息存储为结构化数据。所存储的信息可以由NEF暴露/重新暴露给其他网络和应用,并且可以收集在各种网络环境中暴露的信息并用于分析。如图6中所示,当服务配置连接被建立时,API控制面被形成。当会话连接被建立时,可以包括诸如安全(认证、授权等)的任务,并且形成允许发送媒体的环境。如果源中存在多个4G、5G、6G媒体功能,则可以创建多个API,或者可以使用一个API来创建控制面。类似地,可以从第三方媒体服务器创建API,并且媒体控制功能和UE的API可以形成媒体用户面API。源可以使用各种方法来生成和递送媒体,以执行下行链路媒体服务功能,并且可以包括从简单存储媒体到起到媒体中继作用的所有功能,以将媒体递送给与宿相对应的UE,这是最终的目的地。根据实施例的宿和源内的模块或块可以经由双向的互连链路和互连接口来递送和共享信息。
实施例描述了用于将5GMS系统中实时产生的媒体内容发送到社交媒体、用户、服务器等的UL结构和方法。上行链路基本上被定义为创建媒体并且从UE角度来看将其递送给媒体服务器,而不是以分发的形式将媒体递送给用户。与下行链路系统不同,上行链路系统以由个别用户直接内容供应的形式来配置,并且因此由UE处理的系统配置方法、要利用的用例以及系统结构可以与下行链路的不同。该FLUS系统由产生媒体的源实体和消费媒体的宿实体组成,并且通过1:1通信递送诸如语音、视频和文本的服务。因此,可以应用诸如信令、传送协议、分组丢失处理和自适应的技术,并且FLUS系统可以提供预期的媒体质量和灵活性。FLUS源可以是单个UE或多个分布式UE、捕获设备等。因为网络被假定是5G网络,所以可以支持3GPP IMS/MTSI服务,并且可以通过IMS控制面来支持IMS服务。此外,可以支持符合MTSI服务策略的服务。如果不支持IMS/MTSI服务,则可以通过网络辅助功能由各种用户面实例支持上行链路服务。
图7图示用于上行链路服务的FLUS结构的示例。
FLUS结构可以包括如参考图6所描述的源和宿。该源可以对应于UE。该宿可以对应于UE或网络。上行链路根据生成和递送媒体的目的可以包括源和宿,其中源可以是作为终端设备的UE,并且宿可以是另一个UE或网络。源可以从一个或多个捕获设备接收媒体内容。该捕获设备可以连接或不连接到UE的一部分。如果接收媒体的宿存在于UE中而不是网络中,则解码和渲染功能被包括在UE中,并且接收到的媒体将被递送到这些功能。相反,如果宿对应于网络,则接收到的媒体可以被递送到处理或分发子功能。如果宿被定位在网络中,则取决于其角色,它可能包括媒体网关功能或应用功能的角色。如图9中所示的F链路,用于连接源和宿,并且具体地使得能够通过此链路控制和建立FLUS会话。还可以包括在源和宿之间通过F链路的认证/授权。更具体地,该F链路可以被划分为媒体源和宿(F-U端点)、控制源和宿(F-C端点)、远程控制器和远程控制目标(F-RC端点)以及辅助发送器和接收器(F-A端点)。该源和宿通过逻辑功能来区分。因此,这些功能可以存在于同一物理设备中,或者可以是分离的并且不存在于同一设备中。每个功能也可以被分离为多个物理设备并通过不同的接口连接。单个FLUS源可能具有多个F-A和F-RC点。每个点独立于FLUS宿,并且可以根据提供的服务来生成。如前所述,该F链路点可以假定所有F点特有的子功能和链路的安全功能,并且可以包括相应的认证过程。
图8图示根据实施例的点云数据处理系统。
图8中图示的点云处理系统1500可以包括发送设备(例如,参考图1至图7描述的BS或UE),其获取、编码和发送点云数据;以及接收设备(例如,参考图1至7描述的UE),其接收并解码视频数据以获取点云数据。如图8所示,根据实施例的点云数据可以通过捕获、合成或生成点云数据的过程来获取。在获取操作中,可以生成关于点的3D位置(x、y、z)/属性(颜色、反射率、透明度等)数据(例如,多边形文件格式(PLY)(或斯坦福三角格式)文件等)。对于具有多帧的视频,可以获取一个或多个文件。在捕获操作中,可以生成与点云数据相关的元数据(例如,与捕获相关的元数据)。根据实施例的发送设备或编码器可以使用基于视频的点云压缩(V-PCC)或基于几何的点云压缩(G-PCC)方案对点云数据进行编码,并且输出一个或多个视频流(S1520)。V-PCC是一种基于诸如HEVC或VVC的2D视频编解码器压缩点云数据的方法,而G-PCC是一种通过将数据划分为两个流来编码点云数据的方法:几何(或几何信息)流和属性(或属性信息)流。几何流可以通过重构和编码关于点的位置信息来生成,而属性流可以通过重构和编码与每个点相关的属性信息(例如,颜色等)来生成。V-PCC与2D视频兼容,但可能需要比G-PCC更多的数据(例如,几何视频、属性视频、占用图(occupancymap)视频和辅助信息)来恢复V-PCC处理的数据,从而导致提供服务的更长的时延。一个或多个输出比特流连同相关元数据可以以文件等形式(例如,诸如ISOBMFF的文件格式)封装并通过网络或数字存储介质发送(S1530)。在一些实施例中,点云相关元数据本身可以被封装在文件中。
设备(UE)或处理器(例如,参考图2描述的处理器911或处理器921、较高层处理器、或者参考图6描述的宿或包括在宿中的XR媒体处理块)可以解封装接收到的视频数据以获取一个或多个比特流和相关元数据,并且根据V-PCC或G-PCC方案对获取的比特流进行解码以重构三维点云数据(S1540)。渲染器(例如,参考图6描述的宿或包括在宿中的XR渲染块)可以渲染经解码的点云数据并且经由显示器向用户提供适于VR/AR/MR/服务的内容(S1550)。如图8所示,根据实施例的设备或处理器可以执行将在渲染/显示过程期间获取的各种反馈信息递送到发送设备或解码过程的反馈过程(S1560)。该反馈信息可以包括头部定向信息和指示用户当前正在查看的区域的视口信息。因为在反馈过程中执行在用户和服务(或内容)提供者之间的交互,所以根据实施例的设备可以提供考虑更大的用户便利性的各种服务,并且可以使用上述V-PCC或G-PCC方案来提供更快的数据处理速度或者组织更清晰的视频。
图9图示根据实施例的点云数据处理设备的示例。
图9图示根据G-PCC方案执行点云数据处理的设备。图9所图示的点云数据处理设备可以被包括在参考图1至图7描述的UE中或者对应于参考图1至图7描述的UE(例如,参考图2描述的处理器911或处理器921、处理较高层数据的处理器、或者参考图6描述的宿或宿中包括的XR媒体处理块)或者BS。
根据实施例的点云数据处理设备包括点云获取器(点云获取)、点云编码器(点云编码)、文件/片段封装器(文件/片段封装)和/或递送器(递送)。该处理设备的每个元件可以是模块/单元/组件/硬件/软件/处理器等。该点云的几何、属性、辅助数据、网格数据等均可以被配置在单独的流中或存储在文件中的不同轨道上。此外,它们可以被包含在单独的片段中。
点云获取器获取点云。例如,可以通过经由一个或多个相机捕获、合成或生成点云的过程来获取点云数据。通过获取操作,可以获取包括每个点的3D位置(可以通过x、y、z位置值等表示,并且以下简称几何)和每个点的属性(颜色、反射率、透明度等)的点云数据并且生成为例如多边形文件格式(PLY)(或斯坦福三角格式)文件。在点云数据具有多帧的情况下,可以获取一个或多个文件。在该过程中,可以生成与点云相关的元数据(例如,与捕获相关的元数据等)。
点云编码器可以执行G-PCC过程,其包括预测、变换、量化和熵编译,并且以比特流的形式输出编码的数据(编码的视频/图像信息)。点云编码器可以将点云数据划分为要编码的几何(或几何信息)和属性(属性信息)。编码的几何信息和属性信息可以作为比特流输出。该输出比特流可以被复用到单个比特流中。点云编码器可以接收元数据。该元数据表示与用于点云的内容相关的元数据。例如,可能存在初始观看定向元数据。该元数据指示点云数据是表示前面或者后面。该点云编码器可以接收定向信息和/或视口信息。点云编码器可以基于元数据、定向信息和/或视口信息来执行编码。从点云编码器输出的比特流可以包含点云相关元数据。在一些实施例中,点云编码器可以执行几何压缩、属性压缩、辅助数据压缩和网格数据压缩。在几何压缩中,对关于点云数据的几何信息进行编码。几何(或几何信息)表示三维空间中的点(或每个点的位置)。在属性压缩中,对点云数据的属性进行编码。属性(或属性信息)表示每个点的特性(例如,颜色或反射率)。在属性压缩中,可以处理用于一个或多个点的一个或多个属性。在辅助数据压缩中,对与点云相关的辅助数据进行编码。该辅助数据表示关于点云的元数据。在网格数据压缩中,对网格数据进行编码。该网格数据表示关于点云之间连接的信息。该网格数据可以包括表示三角形形状的网格数据。
点云编码器对作为渲染该点所需的信息的关于点的几何、属性、辅助数据和网格数据进行编码。点云编码器可以对几何、属性、辅助数据和网格数据进行编码,并通过单个比特流来递送它们。可替选地,点云编码器可以分别对几何、属性、辅助数据和网格数据进行编码,并且分别输出携带编码的数据的一个或多个比特流,或者输出编码的数据(例如,几何比特流、属性比特流等)。该点云编码器的操作可以并行地执行。
文件/片段封装器可以执行媒体轨道封装和/或元数据轨道封装。文件/片段封装器创建轨道,用于以文件格式递送编码的几何(几何信息)、编码的属性、编码的辅助数据和编码的网格数据。包含编码的几何的比特流、包含编码的属性的比特流、包含编码的辅助数据的比特流以及包含编码的网格数据的比特流可以被包括在一个或多个轨道中。该文件/片段封装器将几何、属性、辅助数据和网格数据封装到一个或多个媒体轨道中。另外,文件/片段封装器将元数据添加到媒体轨道中或者将其封装到单独的元数据轨道中。该文件/片段封装器以文件和/或片段的形式封装点云流。当点云流以片段的形式封装和递送时,它们以DASH格式递送。当点云流以文件的形式封装时,文件/片段封装器递送该文件。
递送器可以通过数字存储介质或网络将点云比特流或包含比特流的文件/片段递送到接收设备的接收器。可以执行根据传送协议的处理以用于传输。一旦为了传输进行了处理,数据就可以通过广播网络和/或宽带来递送。数据可以以按需的方式递送到接收方。数字存储介质可以包括各种存储介质,诸如USB、SD、CD、DVD、蓝光、HDD和SSD。该递送器可以包括用于生成以预定文件格式的媒体文件的元件并且可以包括用于通过广播/通信网络进行传输的元件。递送器从接收器接收定向信息和/或视口信息。递送器可以将获取的定向信息和/或视口信息(或用户选择的信息)递送到文件/片段封装器和/或点云编码器。基于定向信息和/或视口信息,点云编码器可以对所有点云数据进行编码,或者可以对由定向信息和/或视口信息指示的点云数据进行编码。基于定向信息和/或视口信息,文件/片段封装器可以封装所有点云数据,或者可以封装由定向信息和/或视口信息指示的点云数据。基于定向信息和/或视口信息,递送器可以递送所有点云数据,或者可以递送由定向信息和/或视口信息指示的点云数据。
图10图示根据实施例的点云数据处理设备的示例。
图10图示被配置为接收和处理根据G-PCC方案处理的点云数据的设备的示例。图10的设备可以使用与参考图9描述的方法相对应的方法来处理数据。图10所图示的点云数据处理设备可以对应于参考图1至图10描述的UE或被包括在对应于参考图1至图10描述的UE中(例如,参考图2描述的处理器911或处理器921,或者参考图8描述的宿或包括在宿中的XR媒体处理块)。
根据实施例的点云数据处理设备包括递送客户端、感测/跟踪部件、文件/片段解封装器(文件/片段解封装)、点云解码器(点云解码)和/或点云渲染器(点云渲染)、以及显示器。接收设备的每个元件可以是模块/单元/组件/硬件/软件/处理器等。
递送客户端可以接收由参考图9描述的点云数据处理设备发送的点云数据、点云比特流、或包括比特流的文件/片段。图10的设备可以取决于被用于传输的信道通过广播网络或宽带接收点云数据。可替选地,它可以通过数字存储介质接收点云视频数据。图10的设备可以解码接收到的数据并且根据用户视口等来渲染该数据。图10的设备可以包括被配置为根据传输协议处理接收到的点云数据的接收处理器(例如,图2的处理器911等)。即,接收处理器可以根据发送方上的用于传输而执行的处理来执行与发送处理器的操作相反的处理。接收处理器可以将获取的点云数据递送到解封装处理器,并且将获取的点云相关元数据递送到元数据解析器。
感测/跟踪部件获取定向信息和/或视口信息。感测/跟踪部件可以将获取的定向信息和/或视口信息递送给递送客户端、文件/片段解封装器和点云解码器。
基于定向信息和/或视口信息,递送客户端可以接收所有点云数据或者由定向信息和/或视口信息指示的点云数据。基于定向信息和/或视口信息,文件/片段解封装器可以对所有点云数据或者由定向信息和/或视口信息指示的点云数据进行解封装。基于定向信息和/或视口信息,点云解码器可以对所有点云数据或者由定向信息和/或视口信息指示的点云数据进行解码。
文件/片段解封装器(文件/片段解封装)执行媒体轨道解封装和/或元数据轨道解封装。解封装处理器(文件/片段解封装)可以解封装从接收处理器接收的以文件格式的点云数据。该解封装处理器(文件/片段解封装)可以根据ISOBMFF等对文件或片段进行解封装,并获取点云比特流或点云相关元数据(或单独的元数据比特流)。获取的点云比特流可以被递送到点云解码器,并且获取的点云相关元数据(或元数据比特流)可以被递送到元数据处理器。该点云比特流可以包含元数据(或元数据比特流)。元数据处理器可以被包括在点云视频解码器中或者可以被配置为单独的组件/模块。由解封装处理器获取的点云相关元数据可以是文件格式中的盒(box)或轨道的形式。当必要时,解封装处理器可以从元数据处理器接收用于解封装所必需的元数据。点云相关元数据可以被递送到点云解码器并且在点云解码过程中使用,或者可以被递送到渲染器并且在点云渲染过程中使用。
点云解码器(点云解码)执行几何解压缩、属性解压缩、辅助数据解压缩和/或网格数据解压缩。该点云解码器可以接收比特流并且执行与点云编码器的操作相对应的操作以解码数据。在这种情况下,点云解码器可以通过将点云数据划分为几何和属性来对点云数据进行解码,如稍后将描述的。例如,点云解码器可以从包括在输入比特流中的几何比特流来重构(解码)几何,并且基于包括在输入比特流中的属性比特流和经重构的几何来重构属性值。可以基于包括在输入比特流中的网格比特流和经重构的几何来重构(解码)网格。可以通过基于根据经重构的几何的位置信息和根据经解码的属性值的(颜色)纹理属性来恢复每个3D点的位置和关于每个点的属性信息,来重构该点云。点云解码器的操作可以并行地执行。
在几何解压缩中,从点云流中解码几何数据。在属性解压缩中,从点云流中解码属性数据。在辅助数据解压缩中,从点云流中解码辅助数据。在网格数据解压缩中,从点云流中解码网格数据。
点云渲染器(点云渲染)基于经解码的几何、属性、辅助数据和网格数据重构点云中每个点的位置以及该点的属性,并渲染点云数据。该点云渲染器基于重构的几何、重构的属性、重构的辅助数据和/或重构的网格数据来生成并渲染在点云之间的网格(连接)数据。点云渲染器从文件/片段封装器和/或点云解码器接收元数据。点云渲染器可以根据定向或视口基于元数据来渲染点云数据。尽管图10中未示出,图10的设备可以包括显示器。该显示器可以显示经渲染的结果。
图11图示根据实施例的点云数据处理设备的示例。
图11图示根据V-PCC方案执行点云数据处理的设备。图11中图示的点云数据处理设备可以被包括在参考图1至图8描述的UE(例如,参考图2描述的处理器911或处理器921,或者参考图6描述的宿或包括在宿中的XR媒体处理块)或BS中或者对应于参考图1至图8描述的UE或BS。
根据实施例的点云数据处理设备可以包括点云获取器(点云获取)、分块(patch)生成器(分块生成)、几何图像生成器(几何图像生成)、属性图像生成器(属性图像生成)、占用图生成器(占用图生成)、辅助数据生成器(辅助数据生成)、网格数据生成器(网格数据生成)、视频编码器(视频编码)、图像编码器(图像编码)、文件/片段封装器(文件/片段封装)和递送器(递送)。根据实施例,分块生成、几何图像生成、属性图像生成、占用图生成、辅助数据生成和网格数据生成可以被称为点云预处理、预处理器或控制器。视频编码器包括几何视频压缩、属性视频压缩、占用图压缩、辅助数据压缩和网格数据压缩。图像编码器包括几何视频压缩、属性视频压缩、占用图压缩、辅助数据压缩和网格数据压缩。文件/片段封装器包括视频轨道封装、元数据轨道封装和图像封装。传输设备的每个元件可以是模块/单元/组件/硬件/软件/处理器等。
点云的几何、属性、辅助数据、网格数据等均可以配置在单独的流中或存储在文件中的不同轨道上。此外,它们可以包含在单独的片段中。
点云获取器(点云获取)获取点云。例如,可以通过经由一个或多个相机捕获、合成或生成点云的过程来获取点云数据。通过获取操作,可以获取包括每个点的3D位置(可以通过x、y、z位置值等表示,并且以下简称几何)和每个点的属性(颜色、反射率、透明度等)的点云数据,并且例如可以生成包含其的多边形文件格式(PLY)(或斯坦福三角格式)文件。在点云数据具有多帧的情况下,可以获取一个或多个文件。在此过程中,可以生成与点云相关的元数据(例如,与捕获相关的元数据等)。
分块生成或分块生成器从点云数据生成分块。该分块生成器从点云数据或点云视频生成一个或多个图片/帧。该图片/帧可以是通常表示在特定时间处的单个图像的单元。当将构成点云视频的点划分为一个或多个分块(构成点云的点的集合,其中属于同一分块的点在三维空间中彼此相邻,并且在映射到2D图像期间在六面边界框平面当中在相同方向上被映射)并且将其映射到2D平面时,可以生成占用图图片/帧,该占用图图片/帧用0或1的值指示数据是否存在于2D平面中的位置处。此外,可以生成几何图片/帧,几何图片/帧是在逐个分块基础上表示关于构成点云视频的每个点的位置信息(几何)的深度图类型的图片/帧。可以生成纹理图片/帧,纹理图片/帧是在逐个分块基础上表示关于构成点云视频的每个点的颜色信息的图片/帧。在此过程中,可以生成从个别分块重构点云所需的元数据。该元数据可以包括关于分块的信息,诸如每个分块在2D/3D空间中的位置及其大小。可以按时间顺序连续地生成这些图片/帧以配置视频流或元数据流。
另外,分块可以被用于2D图像映射。例如,点云数据可以被投影到立方体的每个面上。在分块生成之后,可以基于所生成的分块来生成几何图像、一个或多个属性图像、占用图、辅助数据和/或网格数据。
几何图像生成、属性图像生成、占用图生成、辅助数据生成和/或网格数据生成可以由预处理器或控制器执行。
在几何图像生成中,基于分块生成的输出来生成几何图像。几何表示3D空间中的点。基于分块,使用占用图、辅助数据(分块数据)和/或网格数据生成几何图像,其包含关于分块的2D图像打包的信息。几何图像与诸如分块生成之后的所生成的分块的深度(例如,近、远)的信息相关。
在属性图像生成中,生成属性图像。例如,属性可以表示纹理。纹理可以是与每个点匹配的颜色值。在一些实施例中,可以生成包括纹理的多个(N)属性(诸如颜色和反射率的属性)的图像。多个属性可以包括材料(关于材料的信息)和反射率。另外,根据实施例,属性可以进一步包括诸如颜色的信息,即使对于相同的纹理,该颜色也可以取决于视觉和光而变化。
在占用图生成中,从该分块生成占用图。该占用图包括指示相应几何或属性图像的像素中数据存在或不存在的信息。
在辅助数据生成中,生成包括关于分块的信息的辅助数据。换句话说,辅助数据表示关于点云对象的分块的元数据。例如,它可以指示用于分块的诸如法向量的信息。具体地,根据实施例,辅助数据可以包括从分块重构点云所必要的信息(例如,关于分块在2D/3D空间中的位置、大小等的信息、投影平面(法线)标识信息、分块映射信息等)。
在网格数据生成中,从该分块生成网格数据。网格表示关于在邻近点之间的连接的信息。例如,它可以表示三角形数据。例如,在一些实施例中,网格数据表示点之间的连接性。
点云预处理器或控制器生成与分块生成、几何图像生成、属性图像生成、占用图生成、辅助数据生成和网格数据生成相关的元数据。
点云传输设备响应于预处理器生成的输出来执行视频编码和/或图像编码。该点云传输设备可以生成点云视频数据以及点云图像数据。在一些实施例中,点云数据可以包括仅视频数据、仅图像数据、和/或视频数据和图像数据两者。
视频编码器执行几何视频压缩、属性视频压缩、占用图压缩、辅助数据压缩和/或网格数据压缩。视频编码器生成包含相应的编码的视频数据的视频流。
具体地,几何视频压缩对点云几何视频数据进行编码。属性视频压缩对点云属性视频数据进行编码。辅助数据压缩对与点云视频数据相关的辅助数据进行编码。网格数据压缩对点云视频数据的网格数据进行编码。点云视频编码器的操作可以并行地执行。
图像编码器执行几何图像压缩、属性图像压缩、占用图压缩、辅助数据压缩和/或网格数据压缩。图像编码器生成包含相应的编码图像数据的图像。
具体地,几何图像压缩对点云几何图像数据进行编码。属性图像压缩对点云的属性图像数据进行编码。辅助数据压缩对与点云图像数据相关的辅助数据进行编码。网格数据压缩对与点云图像数据相关的网格数据进行编码。点云图像编码器的操作可以并行地执行。
视频编码器和/或图像编码器可以从预处理器接收元数据。视频编码器和/或图像编码器可以基于元数据执行每个编码过程。
文件/片段封装器以文件和/或片段的形式封装视频流和/或图像。文件/片段封装器可以执行视频轨道封装、元数据轨道封装和/或图像封装。
在视频轨道封装中,可以将一个或多个视频流封装到一个或多个轨道中。
在元数据轨道封装中,与视频流和/或图像相关的元数据可以被封装到一个或多个轨道中。该元数据可以包括与点云数据的内容相关的数据。例如,元数据可以包括初始观看定向元数据。根据实施例,元数据可以被封装到元数据轨道中,或者可以被共同封装在视频轨道或图像轨道中。
在图像封装中,可以将一个或多个图像封装到一个或多个轨道或项目中。
例如,根据实施例,当四个视频流和两个图像被输入到封装器时,四个视频流和两个图像可以被封装在单个文件中。
文件/片段封装器可以从预处理器接收元数据。该文件/片段封装器可以基于元数据执行封装。
由文件/片段封装生成的文件和/或片段由点云传输设备或发射器发送。例如,可以根据基于DASH的协议来递送该片段。
递送器可以通过数字存储介质或网络将点云比特流或包含比特流的文件/片段递送到接收设备的接收器。可以执行根据传送协议的处理以用于传输。一旦为了传输进行了处理,数据就可以通过广播网络和/或宽带来递送。数据可以以按需的方式递送到接收方。数字存储介质可以包括各种存储介质,诸如USB、SD、CD、DVD、蓝光、HDD和SSD。递送器可以包括用于生成预先确定的文件格式的媒体文件的元素并且可以包括用于通过广播/通信网络进行传输的元素。递送器从接收器接收定向信息和/或视口信息。递送器可以将获取的定向信息和/或视口信息(或用户选择的信息)递送到预处理器、视频编码器、图像编码器、文件/片段封装器和/或点云编码器。基于定向信息和/或视口信息,点云编码器可以对所有点云数据进行编码,或者可以对由定向信息和/或视口信息指示的点云数据进行编码。基于定向信息和/或视口信息,文件/片段封装器可以封装所有点云数据,或者可以封装由定向信息和/或视口信息指示的点云数据。基于定向信息和/或视口信息,递送器可以递送所有点云数据,或者可以递送由定向信息和/或视口信息指示的点云数据。
例如,预处理器可以对所有点云数据或者对由定向信息和/或视口信息指示的点云数据执行上述操作。视频编码器和/或图像编码器可以对所有点云数据或者对由定向信息和/或视口信息指示的点云数据执行上述操作。文件/片段封装器可以对所有点云数据或者对由定向信息和/或视口信息指示的点云数据执行上述操作。发射器可以对所有点云数据或者对由定向信息和/或视口信息指示的点云数据执行上述操作。
图12图示根据实施例的点云数据处理设备的示例。
图12图示接收并处理根据V-PCC方案处理的点云数据的设备的示例。图12所图示的点云数据处理设备可以使用与参考图11描述的方法相对应的方法来处理数据。图12所图示的点云数据处理设备可以对应于参考图1至图8描述的UE或被包括在参考图1至图8描述的UE(例如,参考图2描述的处理器911或处理器921、参考图6描述的处理更高层数据的处理器、或者宿或包括在宿中的XR媒体处理块)中。
根据实施例的点云数据处理设备包括递送客户端、感测/跟踪部件、文件/片段解封装器(文件/片段解封装)、视频解码器(视频解码)、图像解码器(图像解码)、点云处理和/或点云渲染部件、以及显示器。视频解码器包括几何视频解压缩、属性视频解压缩、占用图解压缩、辅助数据解压缩和/或网格数据解压缩。图像解码器包括几何图像解压缩、属性图像解压缩、占用图解压缩、辅助数据解压缩和/或网格数据解压缩。点云处理包括几何重构和属性重构。
递送客户端可以接收由图13的点云数据处理设备发送的点云数据、点云比特流、或包含比特流的文件/片段。取决于用于传输的信道,图14的设备可以通过广播网络或宽带接收点云数据。可替选地,它可以通过数字存储介质接收点云视频数据。图14的设备可以解码接收到的数据并且根据用户的视口等来渲染该数据。尽管图中未示出,但是图14的设备可以包括未示出的接收处理器(例如,图2的处理器911等)。接收处理器可以根据传输协议对接收到的点云数据执行处理。接收处理器可以根据发送方上的为了传输而执行的处理来执行与发送处理器的上述操作相反的处理。接收处理器可以将获取的点云数据递送到解封装处理器,并将获取的点云相关元数据递送到元数据解析器。
感测/跟踪部件获取定向信息和/或视口信息。感测/跟踪部件可以将获取的定向信息和/或视口信息递送给递送客户端、文件/片段解封装器和点云解码器。
基于定向信息和/或视口信息,递送客户端可以接收所有点云数据或者由定向信息和/或视口信息指示的点云数据。基于定向信息和/或视口信息,文件/片段解封装器可以对所有点云数据或者由定向信息和/或视口信息指示的点云数据进行解封装。基于定向信息和/或视口信息,点云解码器(视频解码器和/或图像解码器)可以对所有点云数据或者定向信息和/或视口信息指示的点云数据进行解码。点云处理器可以处理所有点云数据或者由定向信息和/或视口信息指示的点云数据。
文件/片段解封装器(文件/片段解封装)执行视频轨道解封装、元数据轨道解封装和/或图像解封装。解封装处理器(文件/片段解封装)可以解封装从接收处理器接收的以文件格式的点云数据。解封装处理器(文件/片段解封装)可以根据ISOBMFF等对文件或片段进行解封装,并获取点云比特流或点云相关元数据(或单独的元数据比特流)。获取的点云比特流可以被递送到点云解码器,并且获取的点云相关元数据(或元数据比特流)可以被递送到元数据处理器。点云比特流可以包含元数据(或元数据比特流)。元数据处理器可以被包括在点云视频解码器中或者可以被配置为单独的组件/模块。由解封装处理器获取的点云相关元数据可以是文件格式中的盒或轨道的形式。当必要时,解封装处理器可以从元数据处理器接收解封装所必需的元数据。点云相关元数据可以被递送到点云解码器并在点云解码过程中使用,或者可以被递送到渲染器并在点云渲染过程中使用。文件/片段解封装器可以生成与点云数据相关的元数据。
在视频轨道解封装中,文件和/或片段中包含的视频轨道被解封装。包含几何视频、属性视频、占用图、辅助数据和/或网格数据的视频流被解封装。
在元数据轨道解封装中,对包含与点云数据相关的元数据和/或辅助数据的比特流进行解封装。
在图像解封装中,对包括几何图像、属性图像、占用图、辅助数据和/或网格数据的图像进行解封装。
视频解码器执行几何视频解压缩、属性视频解压缩、占用图解压缩、辅助数据解压缩和/或网格数据解压缩。视频解码器响应于由根据实施例的点云传输设备的视频编码器执行的过程来解码几何视频、属性视频、辅助数据和/或网格数据。
图像解码器执行几何图像解压缩、属性图像解压缩、占用图解压缩、辅助数据解压缩和/或网格数据解压缩。图像解码器响应于由根据实施例的点云传输设备的图像编码器执行的过程来解码几何图像、属性图像、辅助数据和/或网格数据。
视频解码器和/或图像解码器可以生成与视频数据和/或图像数据相关的元数据。
点云处理器(点云处理)可以执行几何重构和/或属性重构。
在几何重构中,基于占用图、辅助数据和/或网格数据从解码视频数据和/或解码图像数据重构几何视频和/或几何图像。
在属性重构中,基于占用图、辅助数据和/或网格数据从解码属性视频和/或解码属性图像来重构属性视频和/或属性图像。根据实施例,例如,属性可以是纹理。在一些实施例中,属性可以表示多条属性信息。当存在多个属性时,点云处理器执行多个属性重构。
点云处理器可以从视频解码器、图像解码器和/或文件/片段解封装器接收元数据,并且基于元数据处理点云。
点云渲染器(点云渲染)渲染重构的点云。点云渲染器可以从视频解码器、图像解码器和/或文件/片段解封装器接收元数据,并且基于元数据渲染点云。尽管图12中未示出,但图12的设备可以包括显示器。显示器可以显示所渲染的结果。
图13图示根据实施例的点云数据处理设备的示例。
图13图示根据参考图9描述的G-PCC方案执行点云数据处理的设备的示例。根据实施例的点云数据处理设备可以包括数据输入单元12000、量化处理器12001、体素化处理器12002、八叉树占用码生成器12003、表面模型处理器12004、帧内/帧间编译处理器12005、算术编码器12006、元数据处理器12007、颜色变换处理器12008、属性变换处理器12009、预测/提升/RAHT变换处理器12010、算术编码器12011和/或传输处理器12012。
根据实施例的数据输入单元12000接收或获取点云数据。数据输入单元12000可以对应于根据实施例的图1的点云获取器10001。
量化处理器12001对点云数据的几何进行量化,例如,关于点的位置值信息。
体素化处理器12002对关于经量化的点的位置值信息进行体素化。
八叉树占用码生成器12003可以基于八叉树占用码将关于点的体素化位置值信息表示为八叉树。
表面模型处理器12004可以基于表面模型方法来处理关于点云中的点的位置值信息的八叉树表示。
帧内/帧间编译处理器12005可以对点云数据进行帧内/帧间编译。
算术编码器12006可以基于算术编译方法对点云数据进行编码。
根据实施例的元数据处理器12007处理关于点云数据的元数据,例如,设定值,并且将其提供给必要的过程,诸如几何编码过程和/或属性编码过程。另外,根据实施例的元数据处理器12007可以生成和/或处理与几何编码和/或属性编码有关的信令信息。该信令信息可以与几何编码和/或属性编码分开编码。信令信息可以被交织。
颜色变换处理器12008可以基于点云数据的属性,例如,点的属性值和/或重构的位置值,来变换点云数据的颜色。
根据实施例,属性变换处理器12009可以变换点云数据的属性值。
预测/提升/RAHT变换处理器12010可以基于预测、提升和/或RAHT的组合对点云数据执行属性编译。
算术编码器12011可以基于算术编译对点云数据进行编码。
根据实施例的传输处理器12012可以发送包含编码的几何信息和/或编码的属性信息或元数据的每个比特流,或者发送配置有编码的几何信息和/或编码的属性信息和元数据的一个比特流。当根据实施例的编码的几何信息和/或编码的属性信息和元数据被配置在一个比特流中时,该比特流可以包括一个或多个子比特流。根据实施例的比特流可以包含包括用于序列级的信令的序列参数集(SPS)、用于几何信息编译的信令的几何参数集(GPS)、用于属性信息编译的信令的属性参数集(APS)、以及用于图块(tile)级的信令的图块参数集(TPS)的信令信息和切片(silce)数据。该切片数据可以包括关于一个或多个切片的信息。根据实施例的一个切片可以包括一个几何比特流Geom00和一个或多个属性比特流Attr00和Attr10。根据实施例的TPS可以包括关于用于一个或多个图块的每个图块的信息(例如,关于边界框的坐标信息和高度/大小信息)。几何比特流可以包含报头和有效载荷。根据实施例的几何比特流的报头可以包含GPS中包括的参数集标识符(geom_geom_parameter_set_id)、图块标识符(geom_tile_id)和切片标识符(geom_slice_id)、以及关于有效载荷中包含的数据的信息。如上所述,根据实施例的元数据处理器12007可以生成和/或处理信令信息并将其发送到传输处理器12012。根据实施例,用于点的位置值的过程和用于点的属性值的过程可以彼此共享数据/信息以执行每个操作。
图14图示根据实施例的点云数据处理设备的示例。
图14图示根据参考图10描述的G-PCC方案执行点云数据处理的设备的示例。图14所示的点云数据处理设备可以执行与参考图13描述的点云数据处理设备的操作相反的过程。
根据实施例的点云数据处理设备可以包括接收器13000、接收处理器13001、算术解码器13002、基于占用码的八叉树重构处理器13003、表面模型处理器(三角形重构、上采样、体素化)13004、逆量化处理器13005、元数据解析器13006、算术解码器13007、逆量化处理器13008、预测/提升/RAHT逆变换处理器13009、颜色逆变换处理器13010和/或渲染器13011。
接收器13000接收点云数据。接收处理器13001可以获取包括在接收到的点云数据中的几何比特流和/或属性比特流、包括信令信息的元数据等。
根据实施例的算术解码器13002可以基于算术方法对几何比特流进行解码。
基于占用码的八叉树重构处理器13003可以基于占用码从解码的几何来重构八叉树。
表面模型处理器(三角形重构、上采样、体素化)13004可以基于表面模型方法对点云数据执行三角形重构、上采样、体素化和/或其组合。
逆量化处理器13005可以对点云数据进行逆量化。
元数据解析器13006可以解析接收到的点云数据中包含的元数据,例如,设定值。元数据解析器13006可以将元数据传递到几何解码过程和/或属性解码过程。根据实施例的每个过程可以基于必要的元数据来执行。
算术解码器13007可以基于重构的位置值基于算术方法对点云数据的属性比特流进行解码。
逆量化处理器13008可以对点云数据进行逆量化。
预测/提升/RAHT逆变换处理器13009可以基于预测/提升/RAHT方法和/或其组合来处理点云数据。
颜色逆变换处理器13010可以对点云数据的颜色值进行逆变换。渲染器13011可以渲染点云数据。
图15图示根据实施例的用于随机拜访网络上的UE的传输结构。
在第三代合作伙伴计划(3GPP)中,多媒体部门通过定义与媒体编解码器相关的协议来建立和分发用于发送和接收媒体的标准。媒体和传输场景的定义涵盖面很广。这些场景包括个人计算机或便携式接收器提供移动/固定接收连同无线电接入和基于互联网的技术的情况。由3GPP执行的这种广泛的标准化使无处不在的多媒体服务能够覆盖各种用户和用例,允许用户随时随地快速体验高质量的媒体。特别地,在3GPP中,媒体服务根据其独特的特性进行分类,并且根据目标应用被划分为对话式、流式传输和其他服务。对话式服务扩展来自基于会话发起协议(SIP)的电话服务网络。用于IP多媒体子系统(MTSI)的多媒体电话服务旨在提供低时延的实时对话式服务。流式传输服务基于分组交换服务(PSS)以单播方式递送实时或重新获取的内容。在3GPP中,在PSS系统内的广播服务可以通过多媒体广播/多播服务(MBMS)在移动电视上可用。另外,3GPP提供消息传递或现实服务。上述三种基本服务不断修订或更新它们的标准以确保高质量的用户体验,并且提供可扩展性以确保它们与可用网络资源或现有标准兼容。媒体包括与每个服务相对应的视频编解码器、语音、音频、图像、图形,以及甚至文本。
在3GPP中,设计了用于移动多媒体接收的标准化平台以促进网络扩展或移动接收。设计了IP多媒体子系统(IMS)以满足这些要求并实现对各种技术或漫游服务的访问。该IMS基于互联网工程任务组(IETF)标准。IETF标准在互联网平台上运行,并且因此可以简单地扩展现有互联网协议的设置、建立和管理功能。该IMS使用SIP协议作为基础协议,并且通过此协议高效地管理多媒体会话。
在3GPP标准技术中,服务是基于移动平台的。因此,当用户连接到第三方或其他地区的移动网络或平台时,用户必须漫游到其他网络。在此场景下,需要一种用于客户端跨多个移动网络维持会话的方法。另外,随着基于IP的媒体服务要求增加,对大容量的基于IP的数据传输、对话和多媒体传输的需求也已经增加。因此,IP分组已经需要以可互换的形式跨3G、4G和5G网络发送,而不是使用一般的IP路由。为了在混合网络环境下维持QoS,在交换服务的过程中需要灵活的数据信息交换和平台。为了整合过去10年的互联网网络和无线移动网络,3GPP标准建立基于IP的IP多媒体子系统(IMS)标准,并且启动在PS域传输IP语音、视频、音频和文本。用于IMS的多媒体电话服务(MTSI)是基于IMS通过RTP/RTCP发送对话式语音、视频和文本的标准,被建立以通过灵活的数据信道处理为用户提供具有效率高于或等于现有的基于电路交换(CS)的对话式服务的服务。该MTSI包括信令、传送、抖动(jitter)缓冲区、管理、分组丢失处理、适配以及在呼叫期间添加/丢弃媒体,并且被形成为创建、传送和接收可预测媒体。因为MTSI使用3GPP网络,NR、LTE、HSPA等被连接到IMS,并且同时还扩展且连接到Wi-Fi、蓝牙等。该MTSI向现有IMS网络发送数据协商消息并从现有IMS网络接收数据协商消息。一旦发送和接收完成,数据就在用户之间传送。因此,可以同等地使用IMS网络,并且MTSI另外地定义仅音频编码器/解码器、视频编码器/解码器、文本、会话设置和控制以及数据信道。数据信道可能MTSI(DCMTSC)表示支持媒体传输的可能信道,并且使用通过数据报传输层安全(DTLS)和Web实时通信(WebRTC)的流控制传输协议(SCTP)。该SCTP被用于在TCP的网络层/传送层之间提供安全服务。因为它是从现有平台扩展的,所以它定义媒体控制和媒体编解码器以及用于管理媒体的媒体控制数据,并且通过SIP/SDP通过媒体流式传输设置来处理一般控制。因为设置/控制是在客户端之间递送的,所以还包括媒体的添加/丢弃。该MTSI还包括IMS消息传递,其是一种非对话式服务。为了通过3GPP层2传送媒体,使用分组数据汇聚协议(PDCP)。该PDCP将IP分组从客户端递送到基站,并且通常执行用户面数据、控制面数据、报头压缩和加密/保护。
图15示出用于当存在UE A/UE B时,在任何拜访网络中具有呼叫会话的两个UE之间的传输的传输结构。UE A/UE B可以存在于运营商A或B或相同网络中。为了描述整个MTSI系统,假定存在四个其他网络。为了执行呼叫,UE A和B执行会话建立以用于在IMS系统内的媒体传输。一旦建立会话,UE A和B就通过IP网络发送媒体。IMS的主要功能是呼叫状态控制功能(CSCF),其使用SIP管理多媒体会话。每个CSCF充当服务器或代理(proxy),并且取决于其目的执行不同类型的功能。代理CSCF(P-CSCF)充当SIP代理服务器。它首先接入IMS网络,并且是连接UE A和B的第一块。该P-CSCF用于内部分析和递送SIP消息,以便于接收所有SIP消息并将它们递送到目标UE。该P-CSCF可以执行资源管理并且紧密连接到网络网关。该网关被连接到通用分组无线电业务(GPRS),其是IP接入承载。虽然GPRS是第二代无线系统,但其连接到被配置为支持PS服务的基本功能。该P-CSCF和GPRS应处于同一网络。在此图中,UEA存在于随机拜访网络。UE A和P-CSCF存在于网络内。服务CSCF(S-CSCF)(其是SIP服务器)存在于订户的归属网络中并且为订户提供会话控制服务。如果不存在代理或拜访网络,则UE A或B可以存在于运营商A或B中,并且UE可以存在于归属网络中。在IMS系统中,该S-CSCF充当信令中的主要功能并且充当SIP注册器。因此,它可以创建用户的SIP IP地址或创建当前的IP地址。S-CSCF还可以通过归属订户服务器(HSS)认证用户或获取存在于HSS中的各种用户的简档。所有传入的SIP消息应通过S-CSCF传递。该S-CSCF可以接收消息并且与其他附近的CSCF或应用服务器(AS)连接以将SIP消息递送到其他AS。查询CSCF(I-CSCF)执行与P-CSCF相同的代理服务器功能,但是被连接到外部网络。它可以通过观察网络可用性、网络配置等来执行加密SIP消息的过程。HSS是中央数据服务器,其包含与用户相关的信息。订户位置功能(SLF)表示将用户的地址链接到相应的HSS的信息映射。多媒体资源功能(MRF)包含归属网络中的多媒体资源。MRF由多媒体资源功能控制器(MRFC)和多媒体资源功能处理器(MRFP)组成。该MRFC是MRC的控制面,并执行管理MRFP内的流资源的控制功能。出口网关控制功能(BGCF)是SIP服务器。它表示连接到公共交换电话网络(PSTN)或通信服务器(CS)以递送SIP消息的网关。媒体网关控制功能(MGWF)和媒体网关(MGW)充当向CS网络递送媒体并递送信令的接口。
图16图示根据实施例的UE之间的呼叫连接。
在基于IMS的网络中,需要启动IP连接的环境。IP连接在归属网络或拜访网络中执行。当IP连接被建立时,配置作为XR的详细元素的对话式环境,并且其中诸如360视频/基于几何的点云压缩(G-PCC)/基于视频的点云压缩(V-PCC)的虚拟现实数据被压缩的信息被交换并且数据被递送。要递送的XR数据可以被细分为两个区域。当基于MTSI标准发送时,AS使用CSCF机制通过路由控制面信令递送呼叫/保持/恢复方法,并执行第三方呼叫连接。当执行呼叫连接时,媒体在UE A/B之间简单地递送。当存在两个UE时,MTSI在IMS网络内操作,如图16所示。
图17图示根据实施例的用于发送和接收点云数据的设备。
视频编码器和音频编码器可以对应于XR设备100c、图8的编码S1520、图9、11和13的点云编码器等。
视频解码器和音频解码器可以对应于XR设备100c、图8的解码S1540、图10、12和14的点云解码器等。
MTSI在IMS网络内限制客户端终端的相关元素和连接点,并且因此其配置范围如图17所示定义。
在图17中,在MTSI中没有讨论与扬声器、显示器、用户接口、麦克风、相机和键盘相关的同步的物理交互的决策。框170中的部件确定控制媒体或控制相关媒体的方法的范围。一般来说,SIP的递送落入在IMS之下,并且因此对特定SIP的控制不被包括在MTSI中。因此,数据的结构和递送以及服务的定义可以确定MTSI和IMS的范围。如果它们在MTSI中被定义,则它们可以被定义为以下范围内的标准。
为了支持对话式XR服务,应使用基于RFC 4566的SDP和SDP能力协商以及相关的流式传输设置。
对于设置和控制,需要UE A/B的独立交互,并且媒体组件执行添加或丢弃操作。
用于发送媒体的传输介质应符合基于分组的网络接口以及编译的媒体(应用传送协议)。
为了发送数据,可以使用RFC 3550的RTP流,并且可以采用SCTP(RFC 4960)或WebRTC数据信道作为数据信道。
根据实施例的用于发送和接收点云数据的设备可以包括任何设备,诸如手机、台式机和AR眼镜。当假定设备是手机时,其可以具有扬声器、显示器、用户接口、麦克风、相机和键盘,并且输入信号可以被传送到编码/解码块。
根据实施例的方法/操作可以由图17的视频编码器处理。它可以可操作地连接到软件。
在根据实施例的方法/操作中,G-PCC结构呼叫流程可以被包括在会话设置和控制部件中。
图17的每个组件可以对应于硬件、软件、处理器和/或其组合。
IP连通性
根据实施例的点云数据发送/接收设备可以支持IP连通性。
在多媒体子系统的范围内,假定XR范围存在于诸如通用移动电信系统(UMTS)的无线电接入网络(RAN)和诸如服务SPRC支持节点(SGSN)或网关GPRS支持节点(GGSN)的拜访网络中,并且应考虑用于漫游服务和IP连通性的场景。当需要考虑IP连通性时,即使在IMS网络中不存在的地方也应该提供IP服务,并且通用分组无线电服务(GPRS)漫游也应该连接到归属网络。如果提供了基于IMS的网络,则应提供端到端服务质量(QoS)以维持IP连通性。QoS要求通常可以使用会话发起协议(SIP)来定义会话、改变会话或终止会话,并且可以传达以下信息:媒体类型、业务方向(上或下)、媒体比特率、分组大小、分组传送频率、RTP有效载荷和带宽自适应。
IP策略控制/安全通信
根据实施例的点云数据发送/接收设备可以执行IP策略控制/安全通信。
协商可以在应用级别执行。如果在UE之间的QoS被建立,则UE或要提供XR服务的实体压缩并打包该数据,并将其使用适当的传送协议(诸如RTP)通过使用诸如TCP或UDP的传送协议的IP网络来递送。另外,当使用IP网络时,应对承载业务进行控制和管理,并且在IMS会话内在接入网络和IMS之间可以执行以下任务。
策略控制元素可以通过SIP消息激活用于媒体业务的适当承载,并防止运营商误用承载资源。用于发送和接收的IP地址和带宽可以在相同的承载级别处进行调节。
策略控制元素可以被用于设置媒体业务的开始点或停止点并解决同步相关问题。
策略控制元素可以被用于通过IP网络递送应答消息并修改、挂起或终止承载的服务。
为了UE的安全,可以请求隐私。
与其他网络的互联(服务控制)。
根据实施例的点云数据发送/接收设备可以可操作地连接到其他网络。
因为由3GPP提供的IMS服务不是同时维持的,所以终端之间的网络订阅的连接和终止不能快速地进行通信。因此,对于任何类型的终端,IMS网络都需要连接尽可能多的不同用户和网络。这可能不仅包括PSTN或ISDN,还包括移动和互联网用户。在目前很少使用的2G网络的情况下,如果使用漫游,则访问拜访网络的实体为用户提供服务和控制信息以在互联网网络内执行注册/会话建立。当像这种情况那样在拜访网络中存在漫游时,可能存在服务控制约束,并且存在根据各种漫游模型场景需要考虑的点。另外,当提供服务时,其质量可能会由于拜访网络上的服务速度而退化。如果在中间添加诸如安全或计费的角色,则应考虑用于归属网络/拜访网络的服务控制和执行方法的区域。
面分离
3GPP标准定义IMS网络内的分层架构。因此,传送/承载是单独定义的。具体地,应用面一般可以被划分为应用服务器的范围,控制面可以被划分为HSS、CSCF、BGCF、MRFC、MRFP、SGW、SEG等,并且用户面可以被划分为SGSN、GGSN、IM-MGW等。
图18图示根据实施例的用于5G网络上的XR通信的结构。
根据实施例的点云数据发送/接收设备可以基于通信网络有效地执行XR通信,如图18所示。
使用5G网络的实时点云双向通信可以使用三种方法来实现:1)使用IMS电话网络交换点云数据、2)使用5GMS媒体网络流式传输点云数据,以及3)使用WebRTC的基于web的媒体传输。因此,需要定义XR对话式服务场景来传送数据。场景可以以各种形式递送,并且可以被划分为用于从获取数据的过程开始使用5G网络的所有端到端服务的过程和场景。
为了继续进行XR电话会议,应提前执行应用下载。为了使用5G网络交换数据,需要嵌入式或可下载的应用。此程序从1)电话网络、2)媒体网络、3)web网络当中选择通过5G发送的数据的传输类型。当安装程序时,可以通过检查设备的通用访问以及帐户和个人信息的权限来检查用于发送和接收数据的基本环境。包括用于从对方接收数据的接收设备和发送设备的点云设备,包括捕获设备、能够将维度数据转换为三维的转换器、或者能够将数据发送或转换360度的三维的任何视频输入设备。对于语音数据,设置内置麦克风或扬声器,并且还检查用于最低限度地处理点云数据的硬件能力。硬件包括能够执行预渲染或后渲染的GPU/CPU的功能,并且还可以包括执行处理的硬件的能力以及存储器的大小。个人信息包括用于访问应用的账户信息、IP、cookies以及其他可能额外承载关于用户的实时信息的事物,并事先获得同意以传送个人信息。
图19图示根据实施例的用于XR通信的结构。
在验证获得初始数据和设备状态的权限后,对用户进行认证并创建区分器以在用户之间区分。通常,电子邮件或者用户名和密码被用于标识用户,并自动形成经认证的用户的标签。另外,还可以为初始用户提供指引模式,以有效地交换点云数据或使用系统。用户设备的状态可以确定用于访问视场的方法。如果设备能够直接捕获或接收点云,则它可以按原样发送和接收数据。如果使用HMD接收点云,则应对其进行缩放或变换以适应360环境。如果接收显示器不是接收三维数据的设备,而是基于常用手机或显示器的2D显示器,则它应该能够在二维屏幕内忠实地表示三维数据。例如,可以通过用手指旋转或缩放屏幕上的图像来在二维显示器内实现或检查三维视图。可替选地,可以使用陀螺仪来检查二维屏幕上的三维空间。为了在三维空间中表示用户,应该创建化身(avatar)。该化身可以是来自图形的虚拟数据、直接获取为点云的人或对象的三维变换形式,或者可以是没有任何数据的音频。如果输入音频数据,则用户不存在并且可以以与语音会议相同的形式来组织数据。该化身的三维表示可以通过用户定义或选择来修改。例如,在人类的情况下,该化身可以改变其面部形状,可以穿戴表达人类个性的衣服、帽子、配饰等,并且可以变换成各种形式来表达个性。此外,情感可以通过人类与人类之间的对话来表达。该情感可以通过文本或图形中面部形状的变化来控制。
所创建的化身参与虚拟空间。在1:1对话的情况下,每个数据都被发送给对方,但是对方接收数据的空间应该是简单的。如果存在多个参与者,则应创建可以由多个参与者共享的空间。该空间可以是任何图形配置的空间或直接获取为点云的数据空间。取决于共享数据的大小和上下文,数据可以存储在单独设备上以进行快速处理,或者如果数据很大,则可以在云或中央服务器上存储和共享。该用户的化身可以使用库被预生成。因此可以使用默认的公共化身,从而消除为用户创建新化身或捕获和发送数据的需要。类似地,可以在来自用户的请求所添加的空间中使用的各种对象,并且数据可以是图形的或作为点云获取。假定典型的会议室,对象可能是会议室中容易接近或熟悉的对象,诸如文件、杯子和激光笔。当创建空间时,它可以由用户填充,每个用户都有他们自己的化身,并且用户可以通过将他们的化身移动到所创建的空间来加入会议。空间由组织会议的主持人确定,并且可以由主持人通过选择空间来改变。提前获得熟悉的会议地点可能会给出在家里加入公司会议室的效果,同时出国旅行或获得国外的著名古迹可能会给出从家中在该地点会面的效果。从虚拟、随机图形而不是点云生成的空间也经受为用户创建空间的空间组织者的想法和实现。当用户加入空间时,他们可以通过形成用户简档来进入该空间。用户简档被用于区分房间或空间中的参与者的列表。如果存在多个用户,可以检查是否对话是可能的以及用户的接收是否正常工作。此外,当化身存在时,应显示用户的姓名或昵称,并应指示用户当前是否忙碌或静音。空间限制可能会取决于构成主机或服务器的应用的利用率而变化。在自由移动被限制的环境中,应允许用户移动到他们想去的地方。除了用户的简档外,还需要确定空间的简档。为了在会议室中共享大量文件,应存在在房间中显示PPT的空间。因此,可以获得在虚拟房间中观看演示的效果,并且可以将屏幕图像替换为用于共享文档的屏幕图像,就像普通的音频会议一样。还需要提供用于聊天的场所。如果用户四处走动,则需要定义他们能够移动的距离和位置。
图20图示根据实施例的3GPP 5G网络上的XR交互式服务的协议栈。
5G XR媒体可以通过多种方式被发送,包括:1)使用IMS电话网络交换点云数据;2)使用5GMS媒体网络流式传输点云数据;3)使用WebRTC的基于Web的媒体传输。在WebRTC方法中,在应用级别处共享两个数据。另外,IMS和5GMS都具有他们自己的传输协议,并且发送和接收应根据标准执行。与现有的二维或360视频不同,应利用维度信息和用于监测添加的QoS的数据参数来递送XR对话式服务。当通过IMS网络递送服务时,可以实现快速数据处理和低时延对话式服务,因为数据是使用实时电话网络递送的。然而,存在的缺点在于对话应该依赖于连续的反馈信息,因为不存在用于在传输的中间从传输错误中恢复的协议。当利用5GMS执行XR对话服务时,可以纠正错误并且可以发送大量数据。然而,可能存在由控制错误的过程引起的延迟。这两种方法在当前的5G系统中在技术上都是可行的,并且使用哪一种方法可能取决于要实现服务的环境和上下文。
基于MTSI的XR对话式会议的用例的描述
基于点云的实时双向视频对话可以归类为两种类型:1:1对话式传输,诸如单个电话呼叫,以及参加多个视频会议。然而,这两种场景都需要处理媒体而不是直接递送数据的处理器,并且应该在允许虚拟会议的环境中提供。
图21图示根据实施例的点对点XR视频会议。
点对点XR电话会议。
用于对话的基本呼叫请求由网络功能驱动。当使用MTSI网络时,媒体源功能(MRF)或媒体控制单元(MCU)可以被用于发送和接收媒体。该MRF/MCU接收点云压缩的数据。在发送方打算发送除了经压缩的数据之外的辅助信息(视场的视图、相机信息、视场方向等)的情况下,也同样将该辅助信息发送至MRF/MCU。在使用MRF从多个发送方(sender)获取不同的点云数据之后,通过内部过程创建单个视频。该视频包括主视频和多个缩略图。然后,处理的视频被递送回各自的接收器,其中可能会发生诸如转码和调节大小的处理。如果MRF需要诸如转码的过程,则可能将最大时延增加了与处理时间一样多。另外,可以事先将缩略图数据发送到每个发射器和接收器以执行预处理。除了处理媒体之外,MRF执行音频和媒体分析、应用服务器和计费服务器的操作连接以及资源管理的功能。连接到MRF的应用服务器(AS)提供MRF连接和附加功能,其包括用于询问电话网络中的订户的状态的HSS互通功能。在实际电话上,附加功能包括密码呼叫服务、文字(lettering)服务、呼叫连接音服务和呼叫禁止服务。
一对一的点云对话服务要求每个用户具有三维点云捕获相机。该相机应包含与用户相关的颜色信息、位置信息和深度信息。如果未表示深度,则可以使用转换器将二维图像转换为三维图像。使用的捕获的信息可以包括基于几何的点云压缩(G-PCC)或基于视频的点云压缩(V-PCC)数据。发射器应该具有能够接收另一方的数据的设备。接收设备一般指的是任何能够表示所获取的点云的数据的设备。因此,它可以是基于2D的显示器,并且可以包括能够视觉地表示点云的图形的任何设备,诸如HMD或全息图。为了表示数据,接收器应从MRF/MCU接收数据,其中处理来自发射器和接收器的数据,并处理接收到的数据。经捕获的点云数据被递送到MRF/MCU,并且接收到的数据由内部过程生成以将数据递送给每个用户。可以递送关于对话的基本信息、其中需要对话的对话的虚拟空间、或从另一方想要的角度的视图信息,或者可以递送经压缩的数据。
1.Bonnie(B)和Clyde(C)使用会议呼叫进行访问。通过访问,彼此的面部可以呈现在平面或简单的虚拟空间中,并且虚拟空间A允许B和C从他们到达的地方看到彼此的面部。
在一对一的对话中,虚拟空间被简单地用作点云被投影和简化的空间。如果不使用投影空间,则由相机捕获的所有数据都将简单地发送给另一方。
2.B和C需要操作视频会议的应用。该应用检查以下基本服务操作。
检查接收设备:AR眼镜、VR HMD、2D显示器、手机扬声器等。
检查发送设备:AR眼镜、360相机、鱼眼相机、手机相机、Mic、Kinnect、LiDAR等。
检查硬件性能:GPU、CPU、存储器、存储能力
检查访问权限:相机、音频、存储等。
检查帐户和个人信息的权限:用户名、电子邮件帐户、IP、cookie以及同意个人信息跟踪
3.在参与对话之前,B和C使用点云捕获相机以获取要发送给另一方的点数据。该点数据通常是获取的关于B和C的面部或身体形状的数据,并且可以输出使用他们自己的设备获取的数据。
在上述场景中,可以在不知道媒体的环境中基于简单的电话网络来实现传输递送。在创建电话网络之前,需要通过MRF/MCU接收初步数据,该MRF/MCU接收来自B和C的所有传入数据。
用于点云的两个人之间的视频对话场景被划分为如下两种场景。
在场景(a)中,所有数据都在一对一对话中发送。所有B的点云信息可以直接递送给C,并且C可以基于从B递送的辅助信息处理B的全部数据或部分地处理。同样,B应该接收由C发送的所有点云数据并且基于从C发送的辅助信息处理一些数据。在场景(b)中,MRF/MCU位于电话网络之间,并且B和C将点云数据递送给位于其间的MRF/MCU。该MRF/MCU对接收到的数据进行处理,并根据B和C要求的特定条件将数据递送给B和C。因此,B和C可能没有接收到他们向彼此发送的所有点云。在场景(b)中,多方视频会议功能还可以扩展为包括额外的虚拟空间A,该虚拟空间A可以被递送到B或C。例如,代替接收直接点云,B和C可以被放置在虚拟会议空间并且整个虚拟空间可以以第三人称或第一人称的形式递送给B和C。David(D)也可以加入,并且因此B、C、D可以在空间A中自由交谈。
图22图示根据实施例的XR视频会议的扩展。
与两个人之间的对话相反,涉及三个或更多人的虚拟会议系统可能不允许直接数据传输。相反,MRF/MCU可以接收每条数据并处理单个数据,这在图22中示意性地示出。
B、C和D将获取的点云数据递送到MRF/MCU。接收到的每条数据被转码以形成单元帧并生成可以组织聚合的点的数据的场景。场景的配置被给予B、C和D当中请求主持的人。通常,可以形成各种场景来创建点空间。取决于用户的位置或他们希望观察的位置,不需要递送所有数据,并且MRF/MCU可以基于接收到的数据信息以及由B、C和D请求的相机视点和视口来递送全部或部分点云数据。
图23图示根据实施例的XR视频会议的扩展。
其次,具有主持人权限的B可以与会议参与者共享其自己的数据或屏幕。除了视频对话之外,可以共享的数据包括可以递送给第三方的媒体,诸如覆盖、独立屏幕或数据。如果使用共享功能,则B可以向MRF/MCU发送要共享的数据,并且C和D可以根据其请求接收共享的数据。为了共享数据,可以使用SDP来确定覆盖或叠加的数量。关于接收所有数据的能力以及接收要约/应答过程中要递送的所有数据的能力来测量能力。此过程可以在多个会议参与发起时确定。当基本上应提供数据共享功能时,可以在创建电话网络时检查每个用户的数据处理能力。共享数据通常被生成以通过演示文件、excel文件、桌面的屏幕等在对话中共享在主机中运行的应用的一些或部分或整个屏幕。通过转换压缩或分辨率,将生成的数据发送给希望接收该数据的用户。
图24图示根据实施例的示例性点云编码器。
图24详细地示出了图9的GPCC编码器。
点云编码器对点云数据(例如,点的位置和/或属性)进行重构和编码,以根据网络状况或应用调节点云内容的质量(例如,无损的、有损的、或者近无损的)。当点云内容的整体大小较大(例如,对于30fps给出60Gbps的点云内容)时,点云内容提供系统可能无法实时流式传输内容。因此,点云内容提供系统可以基于最大目标比特率重构点云内容,以根据网络环境等提供点云内容。
如所描述的,点云编码器可以执行几何编码和属性编码。几何编码在属性编码之前执行。
根据实施例的点云编码器包括坐标变换器(变换坐标)240000、量化器(量化和移除点(体素化))240001、八叉树分析器(分析八叉树)240002以及表面近似分析器(分析表面近似)240003、算术编码器(算术编码)240004、几何重构器(重构几何)240005、颜色变换器(变换颜色)240006、属性变换器(变换属性)240007、RAHT变换器(RAHT)240008、LOD生成器(生成LOD)240009、提升变换器(提升)240010、系数量化器(量化系数)240011和/或算术编码器(算术编码)240012。
坐标变换器240000、量化器240001、八叉树分析器240002、表面近似分析器240003、算术编码器240004和几何重构器240005可以执行几何编码。根据实施例的几何编码可以包括八叉树几何编译、直接编译、三元(trisoup)几何编码和熵编码。直接编译和三元几何编码可以选择性地或组合地应用。几何编码不限于上述示例。
如图所示,根据实施例的坐标变换器240000接收位置并将其变换为坐标。例如,位置可以被变换成三维空间(例如,由XYZ坐标系表示的三维空间)中的位置信息。根据实施例的三维空间中的位置信息可以被称为几何信息。
根据实施例的量化器240001对几何进行量化。例如,量化器240001可以基于所有点的最小位置值(例如,X、Y和Z轴中的每一个上的最小值)来量化点。量化器240001执行将在最小位置值与每个点的位置值之间的差乘以预设的量化尺度值并且然后通过对乘法获得的值进行舍入来找到最接近的整数值的量化操作。因此,一个或多个点可以具有相同的量化位置(或位置值)。根据实施例的量化器240001基于量化位置执行体素化以重构量化点。如在作为包含2D图像/视频信息的最小单位的像素的情况中,根据实施例的点云内容(或3D点云视频)的点可以被包括在一个或多个体素中。术语“体素(voxel)”是体积和像素的复合,指的是基于表示3D空间的轴(例如,X轴、Y轴和Z轴)将3D空间划分为单位(单位=1.0)时生成的3D立方空间。量化器240001可以将3D空间中的点的组与体素进行匹配。根据实施例,一个体素可以仅包括一个点。根据实施例,一个体素可以包括一个或多个点。为了将一个体素表达为一个点,可以基于该体素中包括的一个或者多个点的位置来设置该体素的中心的位置。在这种情况下,可以组合一个体素中包括的所有位置的属性并将其指配给该体素。
根据实施例的八叉树分析器240002执行八叉树几何编译(或八叉树编译)以呈现八叉树结构的体素。八叉树结构基于八元树结构表示与体素匹配的点。
根据实施例的表面近似分析器240003可以分析并近似八叉树。根据实施例的八叉树分析和近似是分析包含多个点的区域以有效地提供八叉树和体素化的过程。
根据实施例的算术编码器240004对八叉树和/或近似的八叉树执行熵编码。例如,编码方案包括算术编码。作为编码的结果,生成几何比特流。
颜色变换器240006、属性变换器240007、RAHT变换器240008、LOD生成器240009、提升变换器240010、系数量化器240011和/或算术编码器240012执行属性编码。如上所述,一个点可以具有一个或多个属性。根据实施例的属性编码等同地应用于一个点具有的属性。但是,当属性(例如颜色)包括一个或多个元素时,属性编码被独立地应用于每个元素。根据实施例的属性编码包括颜色变换编译、属性变换编译、区域自适应分层变换(RAHT)编译、基于插值的分层最近邻居预测(预测变换)编译、以及具有更新/提升步骤(提升变换)的基于插值的分层最近邻居预测(预测变换)编译。取决于点云内容,可以选择性地使用上述RAHT编译、预测变换编译和提升变换编译,或者可以使用一种或多种编译方案的组合。根据实施例的属性编码不限于上述示例。
根据实施例的颜色变换器240006执行对包括在属性中的颜色值(或纹理)进行变换的颜色变换编译。例如,颜色变换器240006可以变换颜色信息的格式(例如,从RGB到YCbCr)。可以根据包括在属性中的颜色值选择性地应用根据实施例的颜色变换器240006的操作。
根据实施例的几何重构器240005重构(解压缩)八叉树和/或近似的八叉树。几何重构器240005基于分析点的分布的结果来重构八叉树/体素。重构的八叉树/体素可以被称为重构的几何(恢复的几何)。
根据实施例的属性变换器240007执行属性变换以基于重构的几何和/或未执行几何编码的位置来变换属性。如上所述,因为属性依赖于几何,所以属性变换器240007可以基于重构的几何信息来变换属性。例如,基于体素中包括的点的位置值,属性变换器240007可以变换该位置处的点的属性。如上所述,当基于体素中包括的一个或多个点的位置来设置体素的中心位置时,属性变换器240007变换一个或多个点的属性。当执行三元几何编码时,属性变换器240007可以基于三元几何编码来变换属性。
属性变换器240007可以通过计算距每个体素的中心的位置(或位置值)的特定位置/半径内的邻近点的属性或属性值(例如,每个点的颜色或反射率)的平均来执行属性变换。属性变换器240007可以在计算平均中根据从中心到每个点的距离来应用权重。因此,每个体素具有位置和计算出的属性(或属性值)。
属性变换器240007可以基于K-D树或莫顿码来搜索存在于距每个体素的中心位置的特定位置/半径内的邻近点。K-D树是二叉搜索树,并且支持能够基于位置管理点的数据结构,使得能够快速地执行最近邻居搜索(NNS)。莫顿码是通过将表示所有点的3D位置的坐标(例如,(x,y,z))呈现为比特值并混合这些比特来生成的。例如,当表示点位置的坐标为(5,9,1)时,该坐标的比特值为(0101,1001,0001)。根据比特索引按z、y和x的顺序混合比特值,产生010001000111。此值被表达为1095的十进制数。即,具有坐标为(5,9,1)的点的莫顿码值是1095。属性变换器240007可以基于莫顿码值对点进行排序,并且通过深度优先遍历过程来执行NNS。在属性变换操作之后,当在用于属性编译的另一个变换过程中需要NNS时,使用K-D树或莫顿码。
如图所示,变换后的属性被输入到RAHT变换器240008和/或LOD生成器240009。
根据实施例的RAHT变换器240008执行RAHT编译,以用于基于重构的几何信息来预测属性信息。例如,RAHT变换器240008可以基于与八叉树中的较低级别的节点相关联的属性信息来预测八叉树中的较高级别处的节点的属性信息。
根据实施例的LOD生成器40009生成细节级别(LOD)以执行预测变换编译。根据实施例的LOD是点云内容的细节程度。随着LOD值的减小,其指示点云内容的细节被退化。随着LOD值的增加,其指示点云内容的细节被增强。该点可以通过LOD进行分类。
根据实施例的提升变换器240010执行基于权重对点云的属性进行变换的提升变换编译。如上所述,可以可选地应用提升变换编译。
根据实施例的系数量化器240011基于系数对属性编译的属性进行量化。
根据实施例的算术编码器240012基于算术编译对量化的属性进行编码。
尽管图中未示出,但是点云编码器的元素可以通过包括被配置为与点云提供设备中包括的一个或多个存储器通信的一个或多个处理器或集成电路的硬件、软件、固件、或其组合来实现。一个或多个处理器可以执行上述点云编码器的元件的操作和/或功能中的至少一个。另外,一个或多个处理器可以操作或执行用于执行图4的点云编码器的元件的操作和/或功能的一组软件程序和/或指令。根据实施例的一个或多个存储器可以包括高速随机存取存储器,或者包括非易失性存储器(例如,一个或多个磁盘存储设备、闪存设备或其他非易失性固态存储设备)。
图25图示根据实施例的点云解码器。
所图示的点云解码器是点云解码器的示例,并且可以执行解码操作,该解码操作是点云编码器的编码操作的逆过程。
点云解码器可以执行几何解码和属性解码。该几何解码在属性解码之前执行。
根据实施例的点云解码器包括算术解码器(算术解码)25000、八叉树合成器(合成八叉树)25001、表面近似合成器(合成表面近似)25002以及几何重构器(重构几何)25003、坐标逆变换器(逆变换坐标)25004、算术解码器(算术解码)25005、逆量化器(逆量化)25006、RAHT变换器25007、LOD生成器(生成LOD)25008、逆提升器(逆提升)25009、和/或颜色逆变换器(逆变换颜色)25010。
算术解码器25000、八叉树合成器25001、表面近似合成器25002、几何重构器25003以及坐标逆变换器25004可以执行几何解码。根据实施例的几何解码可以包括直接编译和三元几何解码。选择地应用直接编译和三元几何解码。几何解码不限于上述示例,并且作为几何编码的逆过程来执行。
根据实施例的算术解码器25000基于算术编译对接收到的几何比特流进行解码。算术解码器25000的操作对应于算术编码器240004的逆过程。
根据实施例的八叉树合成器25001可以通过从解码的几何比特流获取占用码(或者关于作为解码的结果而确保的几何的信息)来生成八叉树。占用码如参考图24详细描述的那样进行配置。
当应用三元几何编码时,根据实施例的表面近似合成器25002可以基于解码的几何和/或生成的八叉树来合成表面。
根据实施例的几何重构器25003可以基于表面和/或解码的几何来重新生成几何。如参考图24所描述的,选择性地应用直接编译和三元几何编码。因此,几何重构器25003直接导入并添加关于应用直接编译的点的位置信息。当应用三元几何编码时,几何重构器25003可以通过执行几何重构器40005的重构操作,例如三角形重构、上采样和体素化来重构几何。重构的几何结构可以包括不包含属性的点云图片或帧。
根据实施例的坐标逆变换器25004可以通过基于重构的几何变换坐标来获取点的位置。
算术解码器25005、逆量化器25006、RAHT变换器25007、LOD生成器25008、逆提升器25009和/或颜色逆变换器25010可以执行属性解码。根据实施例的属性解码包括区域自适应分层变换(RAHT)解码、基于插值的分层最近邻居预测(预测变换)解码、以及具有更新/提升步骤(提升变换)的基于插值的分层最近邻居预测解码。可以选择性地使用上述三种解码方案,或者可以使用一种或多种解码方案的组合。根据实施例的属性解码不限于上述示例。
根据实施例的算术解码器25005通过算术编译对属性比特流进行解码。
根据实施例的逆量化器25006对关于解码的属性比特流或作为解码的结果而确保的属性的信息进行逆量化,并且输出逆量化的属性(或属性值)。可以基于点云编码器的属性编码选择性地应用逆量化。
根据实施例,RAHT变换器25007、LOD生成器25008和/或逆提升器25009可以处理重构的几何和逆量化的属性。如上所述,RAHT变换器25007、LOD生成器25008和/或逆提升器25009可以选择性地执行与点云编码器的编码相对应的解码操作。
根据实施例的颜色逆变换器25010执行逆变换编译以对包括在解码的属性中的颜色值(或纹理)进行逆变换。可以基于点云编码器的颜色变换器240006的操作选择性地执行颜色逆变换器25010的操作。
尽管图中未示出,但是图25的点云解码器的元件可以由包括被配置为与点云提供设备中包括的一个或多个存储器通信的一个或多个处理器或集成电路的硬件、软件、固件或其组合来实现。一个或多个处理器可以执行上述图25的点云解码器的元件的至少一个或多个操作和/或功能。另外,一个或多个处理器可以操作或执行用于执行图25的点云解码器的元件的操作和/或功能的一组软件程序和/或指令。
图26是图示根据本公开的实施例的发送设备的操作的流程图。
图26表示图11的VPCC编码器,发送设备的每个组件可以对应于软件、硬件、处理器和/或它们的组合。
传输终端使用V-PCC压缩和传输点云数据的操作过程可以如图所示执行。
根据实施例的点云数据传输设备可以被称为发送设备。
关于分块生成器26000,生成用于点云的2D图像映射的分块。辅助分块信息是作为分块生成的结果而生成的。所生成的信息可以在几何图像生成、纹理图像生成和用于平滑的几何重构的过程中使用。
关于分块打包器26001,执行将生成的分块映射到2D图像中的分块打包过程。作为分块打包的结果,可以生成占用图。占用图可以在几何图像生成、纹理图像生成和用于平滑的几何重构的过程中使用。
几何图像生成器26002基于辅助分块信息和占用图来生成几何图像。生成的几何图像通过视频编码被编码成一个比特流。
编码预处理器26003可以包括图像填充过程。通过对生成的几何图像或编码的几何比特流进行解码而重新生成的几何图像可以被用于3D几何重构,并且然后经受平滑过程。
纹理图像生成器26004可以基于(经平滑的)3D几何、点云、辅助分块信息和占用图来生成纹理图像。所生成的纹理图像可以被编码到一个视频比特流中。
元数据编码器26005可以将辅助分块信息编码到一个元数据比特流中。
视频编码器26006可以将占用图编码到一个视频比特流中。
复用器26007可以将生成的几何图像、纹理图像和占用图的视频比特流以及辅助分块信息的元数据比特流复用到一个比特流中。
发射器26008可以将比特流发送到接收终端。可替选地,所生成的几何图像、纹理图像和占用图的视频比特流以及辅助分块信息的元数据比特流可以被处理成一个或多个轨道数据的文件或者被封装成片段并且可以通过发射器被发送到接收终端。
图27是图示根据实施例的接收设备的操作的流程图。
接收设备的每个组件可以对应于软件、硬件、处理器和/或其组合。
接收终端用于使用V-PCC接收和重构点云数据的操作可以如图所示来执行。V-PCC接收终端的操作可以遵循图26的V-PCC传输终端的操作的逆过程。
根据实施例的点云数据接收设备可以被称为接收设备。
在文件/片段解封装之后,接收到的点云的比特流由解复用器27000被解复用为压缩的几何图像、纹理图像、占用图的视频比特流和辅助分块信息的元数据比特流。视频解码器27001和元数据解码器27002对解复用的视频比特流和元数据比特流进行解码。3D几何由几何重构器27003基于解码的几何图像、占用图和辅助分块信息来重构,并且然后经受由平滑器27004执行的平滑过程。纹理重构器27005可以通过基于纹理图像将颜色值指配给平滑的3D几何来重构彩色点云图像/图片。此后,可以额外执行颜色平滑过程以改进客观/主观视觉质量,并且通过颜色平滑过程而导出的修改后的点云图像/图片通过渲染过程(例如,通过点云渲染器)被示出给用户。在一些情况下,可以跳过颜色平滑过程。
图28图示根据实施例的对话式点云数据。
图28图示由对应于XR设备100c、包括编码器/解码器的无线通信系统(图2)、连接到通信网络的点云数据处理系统(图8至图14)、点云数据发送/接收设备(图17以及图24至图27)等等的根据实施例的方法/设备处理的对话式点云数据的示例。
根据实施例的用于发送和接收点云数据的方法/设备可以如图28所示压缩和重构对话式点云数据。根据实施例的点云数据发送/接收方法/设备可以被称为根据实施例的方法/设备。
根据实施例的方法/设备可以包括并执行为实时虚拟对话和会议系统生成基于上身的旋转轴和参数的方法(用于XR对话式系统的肩颈参考轴的方法)。
该实施例包括一种用于写实的虚拟对话和会议系统的高效人类识别方法,其能够实时且双向地三维获取用户的面部并在虚拟环境中进行对话。为了实现用户之间的对话,使用能够识别多个人类的相机场、能够物理地获取用户的形状或面部的点相机、彩色相机以及能够表达深度的相机。在可识别人类的环境中对人类对象或事物进行识别和分类是非常重要的。大多数3D技术使用利用LIDAR的传感器识别方法,并使用将实时获取的点云数据识别为动物、人类或诸如车辆的对象的方法。
然而,在用户之间的对话实时发生的环境中,强加了基于相机的计算机识别或基于人工智能的对象学习功能,并且需要多次卷积运算来学习对象。此外,对象的实时识别和分类,而不是人工智能,需要在LiDAR硬件内识别对象的验证设备,而验证设备需要复杂的接收器处理以最小化延迟时间并减少LiDAR视图内图像质量的变化。现有的对象识别方法包括根据点的簇或密度,根据点的大小形成随机识别框,以及基于框的形状来区分对象的形状。在改进分辨率和检测方法的此方法中,检测由LiDAR传感器识别的对象的整个区域,并检查点的数量以移除或采用部分点的配置。另一方面,用户间对话式虚拟相机具有固定的预期用户的形状,其不会显著地改变。另外,LiDAR传感器和其他低分辨率或定位相机设备不可避免地限制用户可用的性能。因此,实施例可以包括基于固定屏幕的对象识别和可在确定运动的环境中快速获取点并获取特征的对象识别方法。
实施例包括来自3GPP TS26.114的MTSI的VR以及来自TR26.928的XR,并且包括3GPP TS26.223标准,其中讨论了基于IMS的远程呈现(telepresence)。该标准可能允许移动或可拆卸接收器参加虚拟会议以参与沉浸式会议。在对话式数据可以以媒体格式递送的情况下,实施例包括3GPP TS26.501、TS26.512和TS26.511的5G媒体架构。另外,为了指定服务,相关标准可以包括TS26.238、TS26.939、TS24.229、TS26.295、TS26.929和TS26.247。
在根据实施例的方法/设备中,通过编码器/解码器实时识别对象的现有方法,以鸟瞰图或前视图形式二维获取点云,并且在每个获取方法中形成深度图。使用形成的点和深度,RGP相机形成3D对象,并执行算法以基于获取的信息确定对象。基于点创建边界框,并识别框中的对象。因为点云中的点彼此不交换信息,所以基于框中识别的对象和现有数据库来跟踪对象形状的方法被广泛使用。然而,在实时对话式系统中,与实时自动化系统相比,需要较少的预处理过程以及学习和识别对象的过程。所识别的对象形状限于人或物,并且点云是以相对固定的形状而不是对象的可变形状构建的。
例如,人类识别基于人类的全身形状生成参考点。当相机识别出人类的前部时,根据骨盆脊柱以及点相对集中的腰、腹部和手来创建人类的旋转轴。一旦创建骨盆轴后,通过平均骨盆中心处的点以及头部、肩部、手、腿和脚的任意点的密度来形成骨架。然后将骨架值应用于3D图形的化身以表达图形图像的移动或运动,或者被用于识别游戏中对象的移动。
根据实施例的方法/设备被设计用于快速识别方法,其中基于主要用户是人类并且相机中包括的对象的变化相对较小,基于对话式相机的特性,不需要预处理功能。设计的方法使用作为对话式的使用头部、肩部、颈部的角度的初始识别方法,而不是基于人的腰和脊柱。使用点在2D屏幕上表达的向量的角度可以容易地获取角度,并且可以在3D对话式系统中容易地创建参考点,简化实时3D对话系统中的处理速度。
根据实施例的方法/设备基于二维平面中的颈和肩将在三个维度中识别的对象识别为人类,以用于对话式点云数据的低计算和低时延处理。然而,实际的点数据需要数据信息来识别输入点云的2D屏幕是否是人类或者对象。因为关于除了人类之外的对象的信息不通过3D实时对话被发送,所以可以基于以相机为中心的点的集合来粗略地确定中心对象的位置。下图示出当应用实际的3D识别相机时可以在2D屏幕上识别人类的各种情况。
参考图28,可以看出,取决于真实人类的肩和面部的形状,可以不同地表达在相机前面示出的对象的识别结构,并且屏幕是基于上半身来发送的,与全身点不同。为了区分人类对象,可以使用IR相机预获取关于2D空间的信息和3D深度信息。3D深度信息被用于表达对象的维度并且具有关于2D平面中的点的深度信息。因此,通过对点簇中对象最外层深度的数据的交集,可以事先移除周围对象的噪声,并且可以获取2D图片中的初级滤波的信息。该滤波过程分两步执行。
1.呈现与对应于颜色深度的信息和排除具有特定临界点的深度内的点的2D位置信息相交的点的2D图。
2.当在生成的2D点云图像中绘制的向量大小小于某个阈值时,排除与该向量相对应的点。
3.如有必要,在2D平面上沿着点簇的最外层部分创建直线轮廓。
图29图示根据实施例的滤波的示例。
图29图示参考图28描述的滤波过程。
由三种类型的滤波确定的图片可以如图29所示被示意化。
图30示出根据实施例的向量配置。
图30示出图29的数据以各种类型的向量配置生成。
参考图30,使用尚未标识的点云的2D屏幕的轮廓和点数据无法创建人类的脊柱和骨盆的参考点。假定将数据在基于非回归方法形成的点云框的范围内被固定划分为16个点,则可能会突出显示大于50%的点集中的区域。
图31图示根据实施例的分区的示例。
根据实施例的方法/设备可以创建如图30所示的点云数据的向量,将数据划分为如图31所示的点云框的范围内的16个部份,并且基于点的分布检测并呈现密集区域。
根据实施例的方法/设备可以根据事物的对象生成中心轴,如图31所示,并且可以生成头脊柱角和肩角。
图32图示根据实施例的生成用于对话式点云数据的对象的轴的示例。
通过上述过程,根据实施例的方法/设备可以获取对话式2D屏幕上的人类的中心轴和中心点,如图32所示。如果没有找到肩轴,可能会被识别为除了人类之外的对象,但基于点的中心位置仅定义旋转头脊柱轴。当创建两个轴时,它们可以被识别为头脊柱和肩轴,并形成中心坐标和肩部参考。如果在两个轴上仅识别出一个参考,则省略现有的数据处理方法或数据预处理,并且以对话式格式存储和递送所识别的数据。另外,如果任何数据未被识别,则可能不会应用用于识别人类行为的行为参数的变化。
以下操作由根据实施例的点云数据发送和接收设备(编码器/解码器)的变换系统(转换器或处理器)执行。基于结晶的中心坐标和变换系统被用于找到肩轴的角度。头部和肩部的角度被用于角度变换以校正用户屏幕的正面,或者作为用于2D倾斜和3D图形映射的自动变换的校正值。基于概率分布寻找最佳角度的方法表示与参考头部/肩部角度匹配的向量角度,并且可以从50%或更多的点被集中在基于非回归方法形成的该点云框范围内的地方提取所有向量角度。将参考下图详细描述相关方法。
图33图示根据实施例的轴选择、估计、变换、角度生成和旋转矩阵生成。
关于操作3300,Theta_k表示第k个框中存在的一个向量k_1和k_2之间的角度,并且每个向量由作为(x_k1,y_k1,z_k1)和(x_k2,y_k2,z_k2)的x轴、y轴和z轴位置值组成。基于使用操作3300变换的屏幕或识别的向量信息,对于由相机首先识别的点和头/肩轴的x、y、z轴上的变换的点的角度的选择可以如在操作3301中被估计。
在操作3301中预测的角度矩阵Ξ是用于估计对角矩阵Z的等式,该对角矩阵Z由包括固定可用变量集Ξ内的第k个元素的所有Theta值组成。例如,如果生成三个向量角,则Z=[θ_1,0,0;0,θ_2,0;0,0,θ_3]被配置。矩阵T是变换矩阵并且通常被配置为对角矩阵。然而,当创建变换偏差(bias)时,可以在零填充之后考虑变换常数。如果产生偏差,则变换矩阵T可以与操作3302中的相同。
在操作3302中,a_1、a_2和a_3表示与第一、第二和第三输入值相对应的权重值,并且t_1、t_2和t_3表示与第一、第二和第三输入值相对应的加法值。只有当在预测的ΞDiag[θθθ…θ]^(例如,θθ)的角度当中存在等于初始输入Theta值的角度时,才处理该变量,并且第i个2D帧的头部/肩部值、角度alpha_i^HS如操作3303中那样计算。
在操作3303中,旋转的角度被用作跟踪人类的前方时的初始视图校正值。取决于点的框位置和视图深度,旋转变换可以切换到(x,y)轴、(y,z)轴或(z,x)轴。头部/肩部角alpha_i^HS可以通过旋转来变换x、y、z点,如下所示,并且旋转矩阵如操作3304中定义。
在操作3304中,psi表示z轴的旋转值,theta表示y轴的旋转值,并且phi表示x轴的旋转值,并且可以通过为每个值代入alpha_i^HS来应用。
因此,根据实施例的发送设备和接收设备可以提供以下效果。
对于实时对话式XR传输,初始数据识别方法是基于点分布而不是数据库,并且因此可以快速、高效、且准确地识别人类形状。
因为对象不是基于身体的骨架创建的,所以可以基于面部、颈部、脊柱和双肩来快速形成中心轴,这些是适合双向通信的主要对话形式。
所形成的中心轴与数据学习识别相比是简单且快速的,并且可以容易地获取用于旋转校正的校正角度,从而减少计算的预处理并且获取更准确的初始旋转值。
根据实施例的分区方法(图28至图32等)可以容易地与基于几何的点云或基于视频的点云压缩方案中使用的几何信息互通,因为固定类型的框可以被相互单独区分。
基于对象的简化识别,可以容易地创建针对用户或对象的模式。
当切换到全局坐标时,用于整个屏幕的对象可以被划分并用作用于计算标准的固定参考信息。
如有必要,创建的简化对象可以用作用于跟踪基于事物跟踪的复杂对象的参考值。
图34图示根据实施例的变换点云数据的方法。
图34图示通过与XR设备100c、包括编码器/解码器的无线通信系统(图2)、连接到通信网络的点云数据处理系统(图8至图14)、点云数据发送/接收设备(图17和图24至图27)等相对应的根据实施例的方法/设备来变换点云数据以方便对话的方法。
根据实施例的方法/设备可以包括并执行用于实时XR对话式系统的眼睛和面部方向的跟踪方法。
实施例进一步包括一种通过沉浸式虚拟对话和会议系统有效地跟踪和识别人眼的方法,其能够实时且双向地获取用户在3D中的面部并在虚拟环境中进行对话。为了实现用户之间的对话,使用能够识别多个人类的相机场、能够物理地获取用户的形状或面部的点相机、彩色相机以及能够表达深度的相机。在可识别人类的环境中对人类的对象或事物进行识别和分类是非常重要的。大多数3D技术使用利用LIDAR的传感器识别方法,并使用将实时获取的点云数据识别为动物、人类或诸如车辆的对象的方法。
然而,在用户之间的对话实时发生的环境中,强加了基于相机的计算机识别或基于人工智能的对象学习功能,并且需要多次卷积运算来学习对象。此外,对象的实时识别和分类,而不是人工智能,需要在LiDAR硬件内识别对象的验证设备,并且该验证设备需要复杂的接收器处理以最小化延迟时间并减少LiDAR视图内图像质量的变化。
特别是,在对话式人类识别中,人类的眼睛和嘴巴是可以识别人类的心理或情绪的重要元素。在视频对话中,用户只需看着某个方向就可能感受到对话的真实感,并且这可能是无法用语言表达的行为元素的重要线索。眼睛追踪技术主要被设计用于通过看着驾驶员的眼睛并识别眼睛模式来防止自主驾驶汽车发生事故。另外,很多技术被设计以追踪眼睛方向,因为有必要事先预测眼睛的方向并且预防意外发生。实施例可以进一步包括一种通过综合提取作为对话标准的眼睛、面部方向和鼻子方向的特征来真实地表达与人类的对话以用于与人类的实时对话的方法。
为了跟踪人眼,2D和3D方法被广泛使用。现有的2D视频方法应用基于外表或特征的方法。基于特征的方法是要提取面部特征来识别人的面部。然而,当面部被旋转大于45度时,可能无法识别特征。基于外表的方法利用基于头部或个人的面部的预配置的数据信息的位置。在这种方法中,很容易识别人类,但当存在光或强烈的阴影时,就会出现识别误差。另外,基于外表的方法需要相当大的预配置的信息来学习数据。3D识别方法包括通过将数据库配置有分块的一部分进行跟踪的方法、对多个人面部进行平均并将其存储在显卡上进行比较的方法、以及对简化信息进行缩减并使用关于化身的简化信息的方法。另外,需要高质量分辨率的图像来跟踪眼睛。取决于相机的性能,可以跟踪向前指向的眼睛的椭圆形图像,但为了成像需要高分辨率3D信息。
在2D和3D方法中,当基于预配置的数据处理信息时,准确度会增加。然而,处理需要时间、数据和计算过程。在这方面,本公开针对一种在最小化预配置的信息的同时实时识别人面部并确定面部方向的方法。具体地,不是从所有数据中详细提取信息,而是可以跟踪在二维和三维中获取的人类的主要特征,并且可以确定从大方向视角的人类观看的方向。利用此方法,可以在实时对话中快速确定轴参考和方向角,并在人类与人类的对话中高效地创建参考轴。
实施例允许在固定范围内处理以3D识别的对象,以用于3D点云数据的低计算和低时延处理。下图示出当3D识别相机实际应用时在屏幕上识别的外表。作为相机,可以使用2D或红外相机来获取关于对象的表面区域的信息。红外相机可以与诸如能够测量深度的距离测量设备的附加设备一起使用。对象的初始识别被假定以根据[识别方法的简单性:在视场内的六面体的三维空间中的固定位置处形成框;并且基于固定形状计算对象的单位,不论对象或点的位置或图像的形状如何]和[省略预处理器:通过省略3D视频的预处理器基于输入数据生成人类的脊柱和肩轴,并且提取自动变换旋转角度:计算点密集区域中2D向量的角度。用于正面跟踪的自动旋转角度提取。用于获取正面数据的2D和3D变换器:用作当变换全局坐标时操作准则的初始值]的方法执行。因此,实施例假定已经事先获取数据并且已经执行所有一般图像预处理过程。另外,假定识别出人类并且在识别出的人类中形成头部、颈部、肩部和脊柱的参考点。因此,输入单元识别人类并形成人类的参考轴。具体地,可以创建初始变换矩阵来获取关于人类和眼睛的定向的数据。变换矩阵在图34中被定义为3400。
在方法3400中,T表示变换矩阵,RT表示3D旋转矩阵,t表示平移变换向量,并且0表示零向量。为了实时识别屏幕和方向而不是使用存储的数据值,T的值在找到收敛值时是最重要的,并且当人类直视前方时找到人类的鼻子的变换值和中值的方法是方法3401。
在方法3401中,u_n和v_n是在2D平面中获取的中值并且是用于预测中值的值。c_x、c_y、f_x和f_y是固有相机参数,并且表示针孔相机模型中的主点和焦距。图35中示出这些值的示意图。
图35图示根据实施例的相机点、图像点和图像平面。
o_x、o_y、o_z是距中心的偏移并且由变换系统或移位比特值确定为任意值。对于没有数据库确定的点,通常通过相机的中心针孔生成值,如上图所示。当根据[在视场内的六面体的三维空间中的固定位置处形成框,并且基于该固定形状计算对象的单位,不论对象或点的位置或图像的形状如何]以及[通过省略3D视频的预处理器基于输入数据生成人类的脊柱和肩轴,并提取自动变换旋转角度(计算点密集区域中的2D向量的角度。用于正面跟踪的自动旋转角度提取),当通过2D和3D变换器变换全局坐标以获取正面数据时用作操作标准的初始值]的方法从相机中获取图像时,以下信息可能被事先获取:
1.边界框内点的索引
2.关于点的深度信息
3.头部和肩部的参考轴
形成参考的数据可以如图36中所表达。
图36图示根据实施例的点云数据的参考。
图36图示当一个IR相机(左)和激光投影仪(右)相机测量三维中的点的深度时所提出的方法进行操作。线3600示意性示出从激光器发射并作为线3601获取的波的反射。假定从3D点获取3D矩形作为2D平面,该图示出点的到达和反射的虚拟创建。这里,假定基于[在视场内的六面体的三维空间中的固定位置处形成框,并基于固定形状计算对象的单位,不论对象或点的位置或图像的形状如何]的内容当前存在9个边界框。此外,假定头/肩轴是根据[通过省略3D视频的预处理器基于输入数据生成人类的脊柱和肩轴,并提取自动变换旋转角度(在点密集区域中计算2D向量的角度。用于正面跟踪的自动旋转角度提取),当通过2D和3D变换器变换全局坐标以获取正面数据时用作用于操作标准的初始值]来形成的。如果未形成轴,则基于当前广泛使用的中心主点创建初始点。如果形成轴,则基于头脊柱轴仅滤波与除了肩轴之外的点的设定的边界框相关的深度图信息(框3602)。
图37图示根据实施例的点、相机和激光投影仪之间的关系。
当仅参考图36描述的区域3602中的点、IR相机和激光投影仪被单独定义时,它们如图37所示被表示。
图38图示根据实施例的距离和常数值。
在图37中,投影仪中的z轴的值d(距离)可以被测量为上述值,并且用于获取d的等式如图38的方法3800被定义。
在方法3800中,u^d_n和v^d_n表示对应于d^n的向量u和v。d^n表示根据在物体平面和参考平面之间的反射距离的距离常数。d^n表示边界框3602中存在的字母D的集合内的最优值。常数z表示用于测量距离的相机和实际拍摄的屏幕之间的距离,并且z'表示具有实际测量的距离的损失的屏幕的距离。在所提出的方法中,现有点的图像没有被确定为相机的中值,而是由一个简单的等式确定。z轴的实际测量参考值如图38中的方法3801所示被确定。
在方法3801中,z_0是固定常数,f_z是焦距,并且d(距离)表示基于相机的在参考平面和物体平面之间的投影距离差。
利用根据实施例的方法,可以快速获取参考点和最佳人类定向。然而,它们不是基于人面部的数据,可能会出现以下误差。1)如果人戴着眼镜或化妆,则起始位置与中值相比可能会改变。2)如果观察对象的角度不是指向正面,则在初始数据获取中可能会出现误差。3)如果面部在诸如被放置在面部的前面的手指或吸管的指向对象的情况下被定位在相机的前面,则可能基于该指向对象开始起始点。
然而,对于如上所述产生的点,可以通过常规方法通过以下组合来校正或容易地补偿误差:[在视场内的六面体的三维空间中的固定位置处形成框,并基于固定形状计算对象的单位,不论对象或点的位置或图像的形状如何]以及[通过省略3D视频的预处理器基于输入数据生成人类的脊柱和肩轴,并提取自动变换旋转角度(计算点密集区域中2D向量的角度。自动旋转角度提取用于正面跟踪),用作当通过2D和3D变换器变换全局坐标时的操作准则的初始值以用于获取正面数据]。在问题1)的情况下,当配戴眼镜或化妆时,位置值可能会因化妆而改变。然而,由于误差引起的值的变化量很小,因为根据已改变的位置的向量的方向与前面相同。2)如果观看对象的角度不是正面,则头部和肩部的脊柱轴没有初始形成。因此,如果没有获取此值,则不应用本文公开的技术。数据是实时获取的。因此,如果获取相机上存在的人类观看前方或维持正确的角度以形成轴,则可以获取初始数据。3)如果人类在他或她的面部握持手指或吸管,则在确定数据方向时发生误差。然而,如果面部所握持对象的方向没有显著地偏离人类的中心点,则方向值将与中心点的值相似。如果方向显著地偏离,则可能会基于向量的45度出现误差。上述误差在获取初始数据并向最优方向收敛的过程中可能会出现,但收敛的速度与中值相差不显著。
人类更有可能用他们的眼睛在他们的面部方向进行对话。为了容易地详细跟踪眼睛,存储的点云的集的分辨率应该很高。然而,点簇的分辨率是由执行传输的相机的性能决定的,或者由于渲染方法而出现误差。因此,人类的一般注视是由面部和向量R确定的。另外,眼睛跟踪方法从跟踪眼睛的状态开始。与对象跟踪方法一样,可以在人面部的与左眼和右眼相对应的部分上形成矩形区域。
图39图示根据实施例的掩蔽采样。
对应于XR设备100c、包括编码器/解码器的无线通信系统(图2)、连接到通信网络的点云数据处理系统(图8至图14)、点云数据发送/接收设备(图17和图24至图27)等的根据实施例的方法/设备可以跟踪眼睛,如图39中所示。
参考图39,掩蔽采样滤波器被用于跟踪矩形眼平面中的3D采样眼。然而,掩蔽采样滤波器需要基于眼睛形状的数据。因此,获取在2D平面中接近圆形的样本。可以使用最小二乘法来执行获取,并且该方法可以如图40所示确定。
图40图示根据实施例的获取采样眼的方法。
在图40的方法4000中,a_l、b_l、a_r和b_r表示左眼和右眼的中心点,并且R表示可以替换眼睛瞳孔的拟合圆半径。X_i和y_i表示每只眼睛中存在的点字母E中存在的点。当假定人类的鼻子的方向向量为v_n并且双眼的方向向量为v_l和v_r时,如方法4001中最终计算关于人类所识别的方向的信息。
因此,根据实施例的发送设备和接收设备可以提供以下效果。
在与人类对话中识别人类的注视和情感的实时注视处理方法中,人类的眼睛和鼻子的方向是基于点的直观性而不是现有数据的信息来确定的。
因为没有使用现有的数据库,所以该方法对于实时改变的人类的形状或方向性的变化是鲁棒的。人类的定向可以被容易地标识并有效地在渲染过程或3D图形映射信息中使用。
因为使用简化的方法,所以可以缩短数据处理时间,并且该方法可以适当地用于需要低时延过程的实时对话式XR会议系统。
因为可以在没有捕获屏幕的辅助信息的帮助的情况下基于点云数据本身来确定,所以操作不限于点云或捕获设备的类型。
所提出的方法可以很容易地链接到一般基于几何的点云或基于视频的点云压缩方法中使用的几何信息。
根据实施例的方法/设备可以包括并执行使用5G网络在实时写实虚拟对话中合并多个相机点视图的方法(通过5G网络合并不同点云视图的方法)。
实施例涉及一种当5G网络在写实的虚拟对话和会议系统中使用时合成从数个地方接收到的3D数据的方法,该写实的虚拟对话和会议系统能够实时地在两个方向上三维地获取用户的面部并执行虚拟环境中的对话。为了实现用户之间的对话,使用能够识别多个人类的相机场、能够物理地获取用户的形状或面部的点相机、彩色相机以及能够表达深度的相机。在可识别人类的环境中对人类的对象或事物进行识别和分类是非常重要的。大多数3D技术使用利用LIDAR的传感器识别方法,并使用将实时获取的点云数据识别为动物、人类或诸如车辆的对象的方法。
为了实现实时点云对话式服务,服务网络是先决条件。使用5G网络的服务连接到互联网或无线网络以双向发送用户信息并获取初始数据。获取的数据包括获取关于用户身份和用户想要的服务的一般信息。为了获取实时点云服务,可以使用现有网络来递送服务。该服务可以作为媒体数据来发送,或者可以根据服务的流程使用电话网络来发送。
如果点数据是从两个或更多个相机或者两个或更多个资源分配的,则需要合成输入数据并将合成的数据发送给用户。点云组合方法可以是简单组合点的方法。然而,可能需要不是简单组合方法的修改方法来实时识别对象并发送更高质量的沉浸式数据。
实施例包括来自3GPP TS26.114的MTSI的VR和来自TR26.928的XR,并且包括3GPPTS26.223标准,其中讨论基于IMS的远程呈现。该标准可能允许移动或可拆卸的接收器参加虚拟会议以参与沉浸式会议。在对话式数据可以以媒体格式递送的情况下,实施例包括3GPP TS26.501、TS26.512和TS26.511的5G媒体架构。另外,对于指定服务,相关标准可以包括TS26.238、TS26.939、TS24.229、TS26.295、TS26.929和TS26.247。此外,数据处理相关技术包括ISO/IEC JTC 1/SC 29/WG3 NBMP。
目前,最广泛使用的组合两个点集的方法是迭代最近点(ICP)方法。如果存在两个数据集,则定义距离误差并找到最小化此值的变换。该ICP方法使用源和模型集合两者以形成模型的比较点。然而,此方法假定应存在预定义的模型,并且所有点应该1:1映射到部分或全部预定义的模型集合。数据不能通过一一链接到每个测试或参考值来定义。因此,当部分数据重叠时(例如,由一个相机捕获的整个数据的一部分与由另一个相机捕获的整个数据的其余部分被组合),存在关于选取哪个模型和哪些特征以提取和链接的实际实现问题。另外,如果不同地确定颜色值,则除了组合点的位置的方法之外,表达颜色值的方法也会出现问题。为了解决现有的通用方法,存在一种确定球形模型并将数据转换为存在于球体中的数据的方法。此方法还需要使用受限的维度对数据进行变换和比较,并且存在一一连接适合模型的特征的困难。
实施例提出了一种适合于XR对话式服务的点组合方法,该XR对话式服务需要在与上述相关的点被组合的限制环境中进行实时对话。所提出的方法包括实时获取点数据并且实时组合所获取的数据,并且该组合的数据可以通过5G网络作为双向数据进行交换。
实施例扩展到两种技术:部分面颈定向校准(calib)和眼鼻方向。
例如,可以实时获取以下信息。
根据实施例的方法/设备获取诸如1.边界框中存在的点的索引、2.点深度信息、以及3.头部和肩部的参考轴以及与face_neck_orientation相关的自动旋转角度(参见图28至图33)的信息,并获取诸如4.人类形象和5.与eye_nose_direction_calibration相关的人眼的方向(参见图34至图40)的信息。
这五个参数是可以使用点捕获相机来捕获以实时处理对话式虚拟现实点的信息。上述信息以其中与现有方法不同地快速获取数据并且可以快速识别人类的组件的方式被设计为适合于对话式虚拟环境。
为了表达用户在多个角度的写实状态,可以通过在大型会议厅中利用多个相机对用户进行多个角度拍摄来获取点数据,而不是从用户的第三人视角从单个方向拍摄。在这种情况下,可能会出现两个或多个点生成输入集,并且由于特定要求需要组合点集而不是1:1递送。
根据实施例的方法/设备基本上假定从正面或背面捕获用户的面部。当存在与用户的面部无关的大量变化时(例如,在其中包括捕获用户的正面的一个相机、从脚的底部捕获用户的面部的另一个相机、以及从头顶捕获用户的面部的另一个相机的不同相机之间存在较大差异的环境中),存在组合用户数据的困难。在上述组合方法中,使用广泛使用的现有方法,而不是用于点云的快速数据处理方法。为了组合可以采用通过参考多个模型来组合给定点集或者通过反复修改来调节组合的点的位置的方法。当相机从人类的头端执行拍摄时,在没有预配置信息的情况下,无法确认从正面获取的点是同一个数据值,并且因此应事先共享用于获取该值的元数据索引值。如果不存在这样的数据,则相机可以识别附近的对象,分析数据如何被组合,并通过匹配数据来连接两个点数据。可以存在于人类中心的参考对象可以是椅子、桌子、计算机、花盆、建筑物的窗户等。在基于关于对象的现有数据信息执行对象的识别过程之后,可以基于识别出的对象的参考点对人头部的点的数据和前方点的数据进行同等地修改以进行合成/组合。
当基于用户的数据模型组合数据时,形成数据的高斯图像并且基于累积数据的特性切换旋转/变换以组合数据。然而,由于累积的数据历史中的不平衡以及累积的数据中的噪声和干扰,信息中会出现误差。此方法通过使用点集中获得的特征数据作为参考来组合数据,而不是通过存储从[面颈定向:参见图28至图33]和[眼鼻方向校准:参见图34至图40]获得的信息,即,五个参数,作为随机点数据,来组合数据。
在由人类形象组成的场景环境中,相似的点在所获取的点的特征方面具有相似的值(几何或属性)。因此,由多个相机获取的点的集合中的待观察组可以形成点的法线值或对齐形状(球体或平面)。并且当发现相似性时,可以集中于具有相似性的部分来执行组合。每个点通常都具有法线值以及点,并且通过以下方式获取。
可以配置存在于距一个点p的半径r内、靠近特定球体或平面的邻近点的集合。一般来说,点可能具有关于每个法线值的信息。如果点P的法线值不存在,则可以通过分析邻居节点的法线值来预测法线向量,并预测和计算由邻近点组成的2x2矩阵A的法线向量,如图41所示。
图41图示根据实施例的用于邻居点的矩阵的法向量。
根据对应于XR设备100c、包括编码器/解码器的无线通信系统(图2)、连接到通信网络的点云数据处理系统(图8至图14)的实施例的方法/装置、点云数据发送/接收设备(图17和图24至图27)等可以生成用于组合具有相似特性的点的矩阵的法向向量,如图41所示。
在图41中,V表示特征向量并且sigma(西格玛)表示特征值。在邻居节点中生成的向量V被用作法线值。一旦确定了所有节点的法线值和方向,通过[面颈定向:参见图28至图33]和[眼鼻方向校准:参见图34到图40]基于诸如点位置和法线的基本数据形成主要参考特征。通过此过程,形成一个主要的参考特征。为了XR对话式,可以获得以人类为中心的特征。首先,生成用户肩部脊柱的向量结果值作为2D平面中的参考轴,并且其示例在图42中所示。
图42图示根据实施例的从与用户的肩部和脊柱相关的向量生成平面参考轴的示例。
对应于XR设备100c、包括编码器/解码器的无线通信系统(图2)、连接到通信网络的点云数据处理系统(图8至图14)、点云数据发送/接收设备(图17和图24至图27)等的根据实施例的方法/设备可以基于法线信息、根据实施例的五个参数、以及参考特征来生成与参与对话的人类对象的肩部和脊柱相关的轴,如图42所示。
在图42中,示出通过基于从随机用户获取的点云的外角信息对人类的轮廓进行成形来获得示出人类的轴的示例,并且基于该成形的2D数据来确定人类的肩部和头部的轴。[面颈定向:参见图28至33 1]。图42中的两个轴由人类轴形成,形成如同2D平面的x轴和y轴的基本轴。v_s表示肩部参考向量,并且w_h表示头脊柱参考向量。取决于人类的行为或倾斜类型,两个基向量的角度可能是直角,或者可能不是直角。
其次,确定在提取人类特征的过程中同时获得的面部点源和眼点源的值,如图43所示[眼鼻方向校准:图34至图40]。
图43图示根据实施例的面部点源和眼点源。
对应于XR设备100c、包括编码器/解码器的无线通信系统(图2)、连接到通信网络的点云数据处理系统(图8至图14)、点云数据发送/接收设备(图17和图24至图27)等的根据实施例的方法/设备可以生成与参与对话的人类对象的包括眼睛和鼻子的面部相关的源点,如图43中所示。
在图43中,(u_n,v_n)表示在根据对象平面和参考平面之间的反射距离计算距离常数的过程中获得的表示(或预测)人类的鼻子的最佳点位置值。(a_l,b_l)和(a_r,b_r)表示经预测的人类的左眼和右眼的中心点。对于二维,每个点位置被定义为n=(u_n,v_n)、el=(a_l,b_l)和er=(a_r,b_r)。图43中的圆圈可以是确定人类的眼睛和鼻子的源。
图44图示根据实施例的与源点相关的向量。
图44图示获取与图43中生成的点相关的向量的示例。
在图44中,作为w_h和v_s的相交而生成的中心点(x,y)与三个点的向量被定义为n_l、n_c和n_r,其中n_c=(u_n-x,v_n-y),n_l=(a_l-x,b_l-y),n_r=(a_r-x,b_r-y)。
基于方向的轴的配置具有两个优势。一是轴可以容易地旋转,并且因此可以基于人类的轴以各种方式容易地执行组合。因为轴是参考点,所以可以减少因细节移动而引起的误差。在基于点的集合的现有方法中,应考虑由于一些点的组合或误差而产生的误差。基于总共三个参考向量和两个主参考轴,可以基于头部和肩部来创建三个点参考特征参考。
特征参考通过组合基于2个主轴的3个向量方向而形成总共6个特征bin。该特征bin比较所创建点的重复或重叠的程度以组合两个或多个点集。首先,如图45所示计算头脊柱特征点(HSP)。
图45图示根据实施例的头脊柱特征点。
对应于XR设备100c、包括编码器/解码器的无线通信系统(图2)、连接到通信网络的点云数据处理系统(图8至图14)、点云数据发送/接收设备(图17和图24至图27)等的根据实施例的方法/设备可以基于图43和图44的方法生成头脊柱特征点(HSP),如图45中的方法4500所示。
在图45的方法4500中,‘·’表示两个向量的内积。在相同的等式中,HSP可以被计算为旋转角度,并且其值如图45中的方法4501来计算。
其次,根据图45中的方法4502计算肩部特征点(SP)。
在方法4502中,‘·’表示两个向量的内积。在同一等式中,SP可以被计算为旋转角度,并且如方法4503中那样计算其值。
可以以现有的众所周知的方式使用12个生成的特征值。1)通过使用基于直方图的数据积累形成特征图(map),可以存储和归类关于由阶跃函数组成的特征的信息。2)通过使用球体半径值,可以应用参数限制,诸如基于点内的相邻邻居来确定间隔,并且可以轻松地对特征分布执行数学变换。3)可以基于所有点的平均值和方差来提取基于平均值的统计值,并且可以使用偏差值找出独特的特征。4)可以使用Kullback-Leibler距离(散度)模型将生成的值与现有直方图或参考值进行比较以促进数据集一致性或分析。
即使通过测量实际数据形成6至12个特征参考,这些值也无法被准确地区分,并且可能会出现基于小数点或整数的误差。例如,参考点内的邻居节点具有相似性,并且它们各自距特定点p的距离是相似的。然而,并非所有这些都匹配。因此,可以定义允许区分参考的范围的阈值或详细范围,并且此值可以取决于实现方式而变化。
可以通过由两个或更多个相机获取的数据的点集p和q之间的九个特征参考来验证数据。如果两个特征是相似的,则可以将它们组合。在所有的组合方法中,所有点的分布和比较都是基于特征集内划分的点而执行的,并且用于最小化误差的方法是迭代最近点法,这是众所周知的,并且变换等式与方法4504中的相同。
在4504中,用于所有n个点索引i的点p_i执行满足误差常数的组合方法,该误差常数最小化与R的变换值和T的平移值组合的q_i的新值。
根据实施例的方法假定由多个相机获取相同类型的对象。如果假定存在两个人来组合点,则不能通过分离人的详细特征(人的分类、等)来组合组合点,并且因此可能会组合两个或更多人。为了防止此问题,可以通过添加一个或多个附加的众所周知的特征(形状、球体、平面、边缘、空白等)而不是基本特征来最小化误差。另外,存在人类被组合的情况。由于噪声或干扰,可能难以获取尚未形成基本人类特征(头脊柱轴、肩轴)的数据。然而,如果没有找到基本特征,则可以使用参考模型或重新获取方法来创建人类的基本轴线。如果未获取边界框中的两个或更多个点的值,则可以通过创建诸如“未检测到”的信号标志来检测数据误差信号。如果没有检测到标志信号,则形成轴并且可以提取特征值。第三,存在由于人类特征而获取基本特征值,但无法获取鼻子和眼睛值的情况。在这种环境下,图像的主点被确定为大点集,诸如人面部而不是人鼻子,并且可以在不获取眼睛的详细值的情况下发送数据。在这种情况下,需要用于在元数据内识别人类或非人类对象或动物的分类。因为XR对话式应该实时获取人类信息并处理数据,所以所需的误差元数据也要求最少,并且可用的识别信息如图46中所示。
图46示出根据实施例的元数据。
对应于XR设备100c、包括编码器/解码器的无线通信系统(图2)、连接到通信网络的点云数据处理系统(图8至图14)、点云数据发送/接收设备(图17和图24至图27)等的根据实施例的方法/设备可以生成并发送元数据,如图46中所示。当字段组合指示符等于0时,该字段指示未检测到(人类)。换句话说,其指示没有检测到人类。当该字段等于1时,其指示粗略检测(人类),即,其指示检测到人类。当该字段等于2时,其指示其他。
图47示出根据实施例的元数据。
与图46相关的元数据可以以如图47所示的形式创建和发送。
此外,通过创建关于属性的配置信息,可以使用电话网络来交换简单数据。
要连接的参数可以通过形成数据参考模板来发送,并且根据点云数据的类型要发送的分量可以与数据一起发送,如图48至图50所示。
图48示出根据实施例的元数据。
根据实施例的元数据可以包括如图48所示的媒体参数4800和特征参数4801,并且编码器可以将包含点云数据、媒体参数和特征参数的比特流发送到解码器。
媒体参数4800可以包括以下元素。
编解码器:指示诸如264/avc或h.265/hevc的编解码器类型,并且可以指示诸如PNG或JPG的图像压缩类型。
色度:指示色度子采样类型,诸如yuv420、yuv422或yuv444。
Fps:指示每秒的帧数,诸如30秒或60秒。
分辨率:指示分辨率,诸如3840x2160或7680x4320。
特征参数4801可以包括以下元素。
特征提取方法:指示特征提取方法,诸如SIFT、SURF、KAZE、AKAZE、ORB、BRISK、BRIEF或LoG。
特征点数:指示特征点的数量。
特征点位置:指示由X和Y坐标标识的特征点位置。
特征对应:指示针对每个特征点的对应点。
图49示出根据实施例的元数据。
根据实施例的元数据可以包括如图49所示的相机参数,并且编码器可以将包含点云数据和相机参数的比特流发送到解码器。
相机参数可以包括以下元素。
Camera_shutter_type:可以指示“滚动”或“全局”。
Camera_sync_skew:如果同步则为0;否则,对于不同步为-1(以毫秒为单位)。
Capturing_settings:指示场景类型,诸如室内或室外、环境光、曝光等。
Camera_extrinsics:指示被用于在3D空间中对齐图像的相机变换参数(全局到相机变换的平移和旋转)。
Camera_intrinsics:指示被用于在3D空间中对齐图像的相机固有参数(焦距、主点和偏斜系数)。
图50示出根据实施例的元数据。
根据实施例的元数据可以包括如图50所示的拼接参数,并且编码器可以将包含点云数据和拼接参数的比特流发送到解码器。
Seam_positions:指示影响最终拼接质量的插值区。区域结构能够被表示为一系列像素点(起始点、交叉点、终点)。
Seam_mask:可选地,插值区位置能够由掩蔽图像来表示,其仅具有1或0作为值,用于更复杂的拼接过程。掩蔽图像也可以通过URL或URI定位。
Stitching_method:指示用于部分或全部拼接方法的特定拼接算法。
Seam_extent_of_freedom:指示接缝区域能够被移动的自由度,例如,水平移动的自由度。
Convergence_selection:指示收敛选择准则。它可以指示在处理ROI相关的包括/排除/加权准则时决策的语义级别。
Camera_weighting:指示拼接过程中的权重。权重值越高,相机越重要。或者它可能是相机阵列的排序号。该值可以是动态的,例如,受用户观看偏好的影响。
因此,根据实施例的发送设备和接收设备可以提供以下效果。
可以有效地组合利用两个或更多个相机获取的人类的点云的数据。
在无需事先生成两个组合的数据的初始信息并比较点云的数据形状或类型的过程的情况下,实时提取特征。
提取的特征由点的轴组成,允许有效使用组合算法并且减少收敛速度。
不需要预配置的相机信息、相机的采样、相机参数和媒体的元数据,并且该数据可以被认为是独立的,并因此在实时快速信息交换时易于使用。
图51图示根据实施例的点云数据发送方法。
在S5100中,根据实施例的发送点云数据的方法可以包括对点云数据进行编码。
根据实施例的编码操作可以对应于或包括图1的XR设备100c、图2的UE、图8的获取/编码、图9至图14的编码器、图17的视频/音频编码器1700、图24的编码器、图26的发送设备、以及根据图28至图45的点云数据的编码。
在S5101中,根据实施例的发送点云数据的方法可以进一步包括发送包含点云数据的比特流。
根据实施例的发送操作可以对应于或包括图8的发送、图9和图11的发送、图13的发送、图17的发送和接收、图24和图26的比特流传输、以及包含图46至图50的元数据的比特流的传输。
图52图示根据实施例的点云数据接收方法。
在S5200中,根据实施例的接收点云数据的方法可以包括接收包含点云数据的比特流。
根据实施例的接收操作可以对应于或包括图8的接收、图10和图12的接收、图14的接收、图17的发送和接收、图25和图27的比特流接收、以及图46至图50的包含元数据的比特流的接收。
在S5201中,点云数据接收方法可以进一步包括对点云数据进行解码。
根据实施例的解码操作可以对应于或包括图1的XR设备100c、图2的UE、图8的解码、图9至图14的解码器、图17的视频/音频编码器1700、图25的解码器、图27的接收设备、根据图28至图45的点云数据的解码、以及基于图46至图50的元数据的解码。
参考图51,根据实施例的发送方法可以包括对点云数据进行编码,以及发送包含点云数据的比特流。
参考图28至图30,关于2D图像滤波/轮廓生成,点云数据的编码可以包括对点云数据进行滤波。该滤波可以包括基于关于点的属性数据的深度和关于点的位置信息来生成与点云数据的点相关的二维图像,基于用于二维图像的向量排除点,以及生成关于点云数据的对象的形状的信息。
点云数据的对象可以是参加会议的人类/人。因为对象包括包含面部和颈部的上半身区域,所以可以使用2D图像来有效地处理三维识别的对象。在根据实施例的滤波中,可以对2D图像上的点进行滤波,以感测关于对象的轮廓和重要点密集定位的区域的信息。可以创建与包含点的区域相对应的边界框,并且可以将2D图像的区域分区为多个边界框。基于被分区的区域,可以获取关于头脊柱轴、头脊柱角度、肩轴、肩角度等的信息。
参考图31和图32,关于框定位、密集点区域的指示以及肩部/脊柱轴的生成,点云数据的编码可以包括基于关于对象的形状的信息和二维图像,使用用于点云数据的框来分区二维图像;基于二维图像中包括的点的分布,呈现包含密集定位的点的区域、以及获取对象的中心点和两个轴。
这两个轴可以指的是头脊柱轴和肩轴。头脊柱轴和肩轴可以作为与人形相关的主要信息。人类行为可以通过这两个轴来识别。两个轴可以被称为第一轴、第二轴等。为了获取轴,基于点的向量,可以生成向量的角度(参见图33)。基于该向量,可以生成与该点的坐标相关的矩阵,并且可以基于该矩阵生成与轴相关的角度值等(参见图33)。
参考图34至图38,关于生成反射距离d,点云数据的编码可以包括基于两个轴中的第一轴对关于包含点的边界框的深度信息进行滤波,以及基于坐标轴的焦距生成与用于边界框的平面相关的反射距离的常数。
为了生成关于人类对对象的注视的信息,可以通过矩阵获取关于人类的定向和注视的数据(参见图34)。
主点可以存在于图像平面上,并且图像平面可以存在于焦距和坐标轴上。图像点和相机点可以被定位在同一直线上,并且可以使用关于主要点或图像中心的两条向量信息(参见图35)。
在肩轴和头/脊柱轴之间的头/脊柱轴可以具有对人类的注视的更大的影响。因此,可以在与头/脊柱轴相关的边界框或框区域上估计与对象平面和参考平面相关的距离(参见图36至图38)。此外,还可以校正人类的注视方向的误差。
参考图40,关于人类注视的识别,点云数据的编码可以包括生成关于与对象相关的左眼和右眼的中心点的注视信息,以及基于对象的鼻子的方向向量以及左眼和右眼的方向向量生成对象的注视方向。
因为人和他的或眼睛存在于3D空间中,采样滤波器可以被用于跟踪他们(参见图39)。可以生成用于眼睛和瞳孔两者的向量值,并且可以基于该向量获取由对象所识别的方向信息。
参考图41至图44,关于肩部/头部参考向量,点云数据的编码可以包括基于两个轴生成与对象相关的参考向量、基于参考向量生成与对象相关的点源、以及基于点源生成用于三个点的向量。
使用人类的头脊柱轴和肩轴作为主轴,可以估计轴上或轴附近存在的主要点。该主要点可能是左眼、右眼、鼻子等,这些都与人类的注视相关。基于关于主要点的向量信息,可以提取与人类的注视相关的特征点。
参考图41至图45,关于生成特征参考,点云数据的编码可以包括基于用于三个点的向量和参考向量来生成点参考特征参考。该点参考特征参考可以包括头脊柱特征点和肩部特征点。
参考图46,关于组合指示符,比特流可以包含指示与对象的感测相关的误差的信令信息。比特流进一步包含媒体参数、特征参数、相机参数和拼接参数。
例如,如果当使用5G网络时从多个源接收到3D数据,则可以合成该数据。为了实现用户之间的对话,可以使用能够识别多个人类的相机场、能够物理地获取用户的形状或面部的点相机、彩色相机以及能够表达深度的相机。在可识别人类的环境中,人类或事物的对象可以被识别和分类。实时获取的点云数据可以被识别为动物、人类或诸如车辆的对象。
另外,如果从两个或更多个相机或者两个或更多个资源分配点数据,则可以合成一种用于处理输入数据的结构。点云组合方法超出简单地组合点。它可能包括实时识别对象并发送更高质量、更真实的数据。因此,通过特征点和附加特征信息,可以对人类进行识别和分类,并且可以合成关于多个人类的点云数据以执行基于网络的通信。
根据实施例的点云数据发送方法可以由发送设备执行。发送设备可以包括编码器,其被配置为对点云数据进行编码;和发射器,其被配置为发送包含点云数据的比特流。
与发送方法相对应的接收方法可以包括与发送方法相对应的方法和/或逆过程。参考图52,根据实施例的接收方法可以包括接收包含点云数据的比特流;以及对点云数据进行解码。
点云数据的解码可以包括对点云数据进行滤波。该滤波可以包括:基于关于点的属性数据的深度和关于点的位置信息来生成与点云数据的点相关的二维图像、基于用于二维图像的向量来排除点、以及生成关于点云数据的对象的形状的信息。
点云数据的解码可以包括基于关于对象的形状的信息和二维图像使用用于点云数据的框来分区二维图像;基于包括在二维图像中的点的分布,呈现包含密集定位的点的区域;以及获取对象的中心点和两个轴。
根据实施例的接收点云数据的方法可以由接收设备执行。接收设备可以包括接收器,其被配置为接收包含点云数据的比特流;以及解码器,其被配置为对点云数据进行解码。
对点云数据进行解码的解码器可以执行对点云数据进行滤波的操作。该滤波可以包括,基于关于点的属性数据的深度和关于点的位置信息来生成与点云数据的点相关的二维图像、基于用于二维图像的向量来排除点、以及生成关于点云数据的对象的形状的信息。
对点云数据进行解码的解码器可以基于关于对象的形状的信息和二维图像使用用于点云数据的框来分区二维图像;基于二维图像中包括的点的分布,呈现包含密集定位的点的区域;以及获取对象的中心点和两个轴。
因此,根据实施例,可以在虚拟/视频会议中快速确定人类的注视方向,可以通过获取注视方向来实时执行反映人类的注视的渲染。
已经在方法和/或设备方面描述了实施例。对方法的描述和对设备的描述可以互补。
尽管为了简单起见已经参考每个附图描述了实施例,但是其能够通过合并附图中图示的实施例来设计新的实施例。如果本领域的技术人员设计了其中记录有用于执行前面描述中提到的实施例的程序的计算机可读的记录介质,则其也落入所附权利要求及其等同物的范围内。设备和方法可以不限于上述实施例的配置和方法。可以通过完全或部分选择性地彼此组合来配置上述实施例以实现各种修改。尽管已经参考附图描述了优选实施例,但是本领域的技术人员将领会到,在不脱离所附权利要求中描述的本公开的精神或范围的情况下,可以对实施例进行各种修改和变化。这些修改不应从实施例的技术思想或角度单独地理解。
实施例的设备的各种元件可以通过硬件、软件、固件或其组合来实现。该实施例中的各种元件可以通过单个芯片,例如,单个硬件电路来实现。根据实施例,根据实施例的组件可以分别实现为单独的芯片。根据实施例,根据实施例的设备的至少一个或多个组件可以包括能够执行一个或多个程序的一个或多个处理器。一个或多个程序可以执行根据实施例的操作/方法中的任何一种或多种,或者包括用于执行该操作/方法的指令。用于执行根据实施例的设备的方法/操作的可执行指令可以存储在非暂时性CRM或被配置为由一个或多个处理器执行的其他计算机程序产品中,或者可以存储在暂时性CRM或配置为由一个或多个处理器执行的其他计算机程序产品中。另外,根据实施例的存储器可以用作不仅涵盖易失性存储器(例如,RAM)而且涵盖非易失性存储器、闪存和PROM的概念。另外,还可以以载波的形式实现,诸如通过互联网传输。另外,处理器可读记录介质可以分布到通过网络连接的计算机系统,使得处理器可读代码可以以分布式方式存储和执行。
在本文件中,术语“/”和“,”应解释为指示“和/或”。例如,表述“A/B”可能意味着“A和/或B”。此外,“A,B”可以意指“A和/或B”。此外,“A/B/C”可以意指“A、B和/或C中的至少一个”。“A、B、C”还可以意指“A、B和/或C中的至少一个”。此外,在本文中,术语“或”应解释为“和/或”。例如,表述“A或B”可以意指1)仅A,2)仅B,和/或3)A和B两者。换句话说,本文档中的术语“或”应解释为“另外或可替选地”。
诸如第一和第二的术语可以被用于描述实施例的各种元件。然而,根据实施例的各种组件不应受到以上术语的限制。这些术语仅用于区分一个元件与另一个元件。例如,第一用户输入信号可以被称为第二用户输入信号。类似地,第二用户输入信号可以被称为第一用户输入信号。这些术语的使用应当被解释为不脱离各种实施例的范围。第一用户输入信号和第二用户输入信号都是用户输入信号,但是没有意指相同的用户输入信号,除非上下文明确另外指示。
被用于描述实施例的术语仅用于描述特殊实施例的目的并且不旨在限制实施例。如实施例的描述和权利要求中所使用的,单数形式“一(a)”、“一个(an)”、“该(the)”包括复数个指示物,除非上下文另外明确规定。表述“和/或”被用于包括所有可能的术语组合。诸如“包括”或“具有”的术语旨在指示图形、数字、步骤、元件和/或组件的存在,并且应当被理解为不排除图形、数字、步骤、元件和/或组件的另外存在的存在的可能性。如本文所使用的,诸如“如果”和“当”的条件表达式并不限于可选情况,而是旨在解释为当满足特定条件时,根据特定条件执行相关操作或解释相关定义。
根据本说明书中描述的实施例的操作可以由根据实施例的包括存储器和/或处理器的发送/接收设备来执行。存储器可以存储用于处理/控制根据实施例的操作的程序,并且处理器可以控制本说明书中描述的各种操作。处理器可以被称为控制器等。在实施例中,操作可以由固件、软件和/或其组合来执行。固件、软件和/或其组合可以存储在处理器或存储器中。
根据上述实施例的操作可以由根据实施例的发送设备和/或接收设备执行。发送/接收设备可以包括发射器/接收器,其被配置为发送和接收媒体数据;存储器,其被配置为存储用于根据实施例的处理的指令(程序代码、算法、流程图和/或数据);以及处理器,其被配置为控制发送/接收设备的操作。
处理器可以被称为控制器等,并且可以对应于例如硬件、软件和/或其组合。根据上述实施例的操作可以由处理器执行。另外,处理器可以被实现为用于上述实施例的操作的编码器/解码器。
【本公开的方式】
如上所述,已经以用于执行实施例的最佳方式描述了相关细节。
【工业适用性】
如上所述,实施例完全或部分适用于点云数据发送/接收设备和系统。
本领域的技术人员可以在实施例的范围内以各种方式改变或修改实施例。
实施例可以包括权利要求及其等效物的范围内的变化/修改。

Claims (15)

1.一种发送点云数据的方法,所述方法包括:
对点云数据进行编码;以及
发送包含所述点云数据的比特流。
2.根据权利要求1所述的方法,其中,所述点云数据的编码包括:
对所述点云数据滤波,
其中,所述滤波包括:
基于关于点的属性数据的深度和关于所述点的位置信息,生成与所述点云数据的点相关的二维图像;
基于用于所述二维图像的向量来排除点;以及
生成关于所述点云数据的对象的形状的信息。
3.根据权利要求2所述的方法,其中,所述点云数据的编码包括:
基于关于所述对象的形状的信息和所述二维图像,使用用于所述点云数据的框对所述二维图像进行分区;
基于所述二维图像中包括的所述点的分布,呈现包含密集定位的点的区域;以及
获取两个轴和所述对象的中心点。
4.根据权利要求3所述的方法,其中,所述点云数据的编码包括:
基于所述两个轴中的第一轴,对关于包含点的边界框的深度信息进行滤波;以及
基于坐标轴的焦距生成与用于所述边界框的平面相关的反射距离的常数。
5.根据权利要求4所述的方法,其中,所述点云数据的编码包括:
生成关于与所述对象相关的左眼和右眼的中心点的注视信息;以及
基于所述对象的鼻子的方向向量以及所述左眼和所述右眼的方向向量,生成所述对象的注视方向。
6.根据权利要求3所述的方法,其中,所述点云数据的编码包括:
基于所述两个轴生成与所述对象相关的参考向量;
基于所述参考向量生成与所述对象相关的点源;以及
基于所述点源生成用于三个点的向量。
7.根据权利要求6所述的方法,其中,所述点云数据的编码包括:
基于用于所述三个点的所述向量和所述参考向量,生成点参考特征参考,
其中,所述点参考特征参考包括头脊柱特征点和肩部特征点。
8.根据权利要求7所述的方法,其中,所述比特流包含指示与所述对象的感测相关的误差的信令信息,
其中,所述比特流进一步包含媒体参数、特征参数、相机参数以及拼接参数。
9.一种用于发送点云数据的设备,所述设备包括:
编码器,所述编码器被配置为对点云数据进行编码;以及
发射器,所述发射器被配置为发送包含所述点云数据的比特流。
10.一种接收点云数据的方法,所述方法包括:
接收包含点云数据的比特流;以及
对所述点云数据进行解码。
11.根据权利要求10所述的方法,其中,所述点云数据的解码包括对点云数据滤波,
其中,所述滤波包括:
基于关于点的属性数据的深度和关于所述点的位置信息,生成与所述点云数据中的点相关的二维图像;
基于用于所述二维图像的向量来排除点;以及
生成关于所述点云数据的对象的形状的信息。
12.根据权利要求11所述的方法,其中,所述点云数据的解码包括:
基于关于所述对象的形状的信息和所述二维图像,使用用于所述点云数据的框对所述二维图像进行分区;
基于所述二维图像中包括的所述点的分布,呈现包含密集定位的点的区域;以及
获取两个轴和所述对象的中心点。
13.一种用于接收点云数据的设备,所述设备包括:
接收器,所述接收器被配置为接收包含点云数据的比特流;以及
解码器,所述解码器被配置为对所述点云数据进行解码。
14.根据权利要求13所述的设备,其中,所述解码器执行对所述点云数据滤波的操作,
其中,所述滤波包括:
基于关于点的属性数据的深度和关于所述点的位置信息,生成与所述点云数据的点相关的二维图像;
基于用于所述二维图像的向量来排除点;以及
生成关于所述点云数据的对象的形状的信息。
15.根据权利要求14所述的设备,其中,所述解码器被配置为:
基于关于所述对象的形状的信息和所述二维图像,使用用于所述点云数据的框对所述二维图像进行分区;
基于所述二维图像中包括的所述点的分布,呈现包含密集定位的点的区域;并且
获取两个轴和所述对象的中心点。
CN202280057293.XA 2021-07-20 2022-07-20 点云数据发送设备、点云数据发送方法、点云数据接收设备以及点云数据接收方法 Pending CN117836815A (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
KR10-2021-0094548 2021-07-20
KR10-2021-0094544 2021-07-20
KR20210139835 2021-10-20
KR10-2021-0139835 2021-10-20
PCT/KR2022/010606 WO2023003349A1 (ko) 2021-07-20 2022-07-20 포인트 클라우드 데이터 송신 장치, 포인트 클라우드 데이터 송신 방법, 포인트 클라우드 데이터 수신 장치 및 포인트 클라우드 데이터 수신 방법

Publications (1)

Publication Number Publication Date
CN117836815A true CN117836815A (zh) 2024-04-05

Family

ID=90504524

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202280057293.XA Pending CN117836815A (zh) 2021-07-20 2022-07-20 点云数据发送设备、点云数据发送方法、点云数据接收设备以及点云数据接收方法

Country Status (1)

Country Link
CN (1) CN117836815A (zh)

Similar Documents

Publication Publication Date Title
US11057646B2 (en) Image processor and image processing method
US11303826B2 (en) Method and device for transmitting/receiving metadata of image in wireless communication system
EP4115591B1 (en) Offering media services through network edge
CN113273211B (zh) 用于对空间数据进行程序化着色的系统和方法
US11711550B2 (en) Method and apparatus for supporting teleconferencing and telepresence containing multiple 360 degree videos
WO2012139275A1 (en) Object of interest based image processing
WO2018200337A1 (en) System and method for simulating light transport between virtual and real objects in mixed reality
US20230176915A1 (en) Method and device for providing split computing based on device capability
CN106559636A (zh) 一种视频通信方法、装置及系统
KR20220004961A (ko) 라이트 필드의 다중화 렌더링을 위한 시스템 및 방법
CN114375583A (zh) 用于自适应小透镜光场传输和渲染的系统和方法
US20210320810A1 (en) Volumetric conversational services using network edge
CN106657977B (zh) 具有全景摄像功能的虚拟现实设备和全景视频通话方法
CN115989527A (zh) 用于对增强现实媒体对象执行基于锚点的渲染的方法和装置
CN110662119A (zh) 一种视频拼接方法及装置
CN109451293B (zh) 一种自适应立体视频传输系统和方法
EP4383735A1 (en) Point cloud data transmission device, point cloud data transmission method, point cloud data reception device, and point cloud data reception method
KR20240007142A (ko) 5g 네트워크들을 통한 확장 현실 데이터의 분할 렌더링
Hu et al. Mobile edge assisted live streaming system for omnidirectional video
EP4375947A1 (en) Point cloud data transmission device, point cloud data transmission method, point cloud data reception device, and point cloud data reception method
EP4375923A1 (en) Point cloud data transmission device, point cloud data transmission method, point cloud data reception device, and point cloud data reception method
KR20220001312A (ko) 무선 통신 시스템에서 데이터의 송수신을 제어하기 위한 방법 및 장치
CN117836815A (zh) 点云数据发送设备、点云数据发送方法、点云数据接收设备以及点云数据接收方法
US20250030878A1 (en) Point cloud data transmission device, point cloud data transmission method, point cloud data reception device, and point cloud data reception method
US11985181B2 (en) Orchestrating a multidevice video session

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination