CN113273211A - 用于对空间数据进行程序化着色的系统和方法 - Google Patents

用于对空间数据进行程序化着色的系统和方法 Download PDF

Info

Publication number
CN113273211A
CN113273211A CN201980087752.7A CN201980087752A CN113273211A CN 113273211 A CN113273211 A CN 113273211A CN 201980087752 A CN201980087752 A CN 201980087752A CN 113273211 A CN113273211 A CN 113273211A
Authority
CN
China
Prior art keywords
color
data
neural network
point cloud
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201980087752.7A
Other languages
English (en)
Inventor
塔图·V·J·哈尔维艾宁
路易斯·克伦斯基
拉鲁夫·奈夫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
InterDigital VC Holdings Inc
Original Assignee
PCMS Holdings Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by PCMS Holdings Inc filed Critical PCMS Holdings Inc
Publication of CN113273211A publication Critical patent/CN113273211A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/593Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving spatial prediction techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • G06T9/001Model-based coding, e.g. wire frame
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • G06T9/002Image coding using neural networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/186Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a colour or a chrominance component

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Signal Processing (AREA)
  • Evolutionary Computation (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

描述了用于压缩点云数据中的颜色信息的系统和方法。在一些实施方案中,点云数据包括用于多个点中的每个点的点位置信息和点颜色信息。将该点位置信息提供给神经网络,并且该神经网络针对点云中的相应点生成预测颜色信息(例如,预测的亮度和色度值)。生成预测残差以表示该预测颜色信息与输入点颜色位置之间的差值。在比特流中对点位置信息(其可以是压缩形式)和预测残差进行编码。在一些实施方案中,对颜色提示数据进行编码以改善颜色预测。

Description

用于对空间数据进行程序化着色的系统和方法
相关申请的交叉引用
本申请是于2018年12月14日提交的名称为“System and Method for ProcedallyColorizing Spatial Data”的美国临时专利申请序列号62/779,758的非临时归档,并且根据35 U.S.C.§119(e)要求该美国临时专利申请的权益,该美国临时专利申请全文以引用方式并入本文。
背景技术
随着虚拟现实(VR)和增强现实(AR)平台正朝着为消费者大规模采用做好准备的方向发展,对空间内容的需求正在增加,以实现每个查看器六自由度(DOF)自由视点检查。
对允许用户在内容内体验完整6-DOF导航的混合现实(MR)内容的需求可能需要新的内容捕获和产生方法。MR用户可能期望沉浸式体验,在该沉浸式体验中用户能够虚拟地访问远处物理场所。实现产生存在于另一个物理位置处的错觉的真实感水平可能需要具有高质量空间数据的使用内容。然而,高质量空间数据可能消耗过量的带宽或内存。优化方法(诸如减少需要发送的颜色信息)可能特别有用。此外,空间捕获传感器(诸如激光雷达)可仅产生没有颜色信息的点云数据。
3D内容的一个标准包括多边形3D图形,例如通过建模产生并且利用工具和技术(诸如用于创建实时3D游戏的那些技术)渲染的图形。然而,新兴的MR显示器和内容捕获技术(例如,VR HMD诸如Facebook Oculus和HTC Vive、AR HMD诸如HoloLens和Meta、RGB-D传感器、光场相机等)可能需要产生和分发沉浸式空间3D内容的新方法。
除了MR驱动现实捕获技术的发展之外,人机交互系统的进步可能需要一些此类系统实现更大的空间感知。能够实现对环境的结构理解的环境感测技术越来越多地在智能家居环境、汽车系统和移动设备中实现。这些空间感知系统可在收集空间数据以用作沉浸式体验的内容的过程中产生大量几何数据。然而,高质量空间数据可能消耗过量的内存、带宽和处理资源。此外,产生具有高准确度的点云的设备(诸如激光雷达)可仅捕获采样点在环境中的3D位置而没有颜色信息。其他空间捕获解决方案(诸如飞行时间(ToF)相机)通常仅产生原始几何形状。除了采样点的原始几何形状或3D位置之外,渲染所捕获场景的实际视图还可需要颜色信息。此外,即使在存在与空间数据相关联的颜色信息的情况下,使用空间数据作为内容也可能需要优化和/或改变颜色以遵循虚拟体验所需的特定外观和风格。
用于训练计算机视觉任务的神经网络的深度学习技术的最新发展已经为诸如从图像中检测对象和图像之间的样式转移等任务提供了高效的2D图像分析解决方案。用于2D图像处理任务的技术(其中神经网络已产生令人印象深刻的结果)包括在以下文章中描述的用于黑白照片自动着色的技术:Zhang等人的“Colorful image colorization”,发表在European Conference on Computer Vision,Springer International Publishing,2016.p.649-666中;以及Zhang等人的“Real-time user-guided image colorizationwith leamed deep prior”,发表在arXiv preprint arXiv:1705.02999,2017中。黑白照片着色的解决方案集中于单帧的处理。
针对每个捕获的场景数据点具有全色信息可将数据存储量增加到一定程度,使得数据量变得过大而无法经由网络通信进行分发。这可能需要进行数据优化,该数据优化可例如通过完全移除或减少包含颜色信息的空间数据中的数据点来实现。
发明内容
在一些实施方案中,提供了一种用于将压缩点云数据解压缩的方法。在示例中,解码器接收比特流,该比特流至少编码(i)用于点云的几何信息,(ii)神经网络参数数据,和(iii)残差颜色信号。解码器通过将几何信息作为输入供应给由所接收的神经网络参数数据表征的神经网络来产生用于点云的颜色预测数据。解码器将残差颜色信号添加到颜色预测数据以生成用于点云的重建颜色信号。
在一些实施方案中,可渲染具有其相关联的重建颜色信号的点云的表示。然后可使该表示显示给用户。该表示可以是2D表示或3D表示。
神经网络参数数据可包括神经网络权重集合,或者其可包括识别可由解码器在本地或通过网络检索的存储的神经网络权重集合的信息(例如链接或地址)。神经网络参数数据可包括差分权重信息,该差分权重信息识别待用于解码的权重与参考权重集合之间的差值。
在一些实施方案中,比特流还编码颜色提示数据。在颜色预测数据的产生中,颜色提示数据作为输入被供应给神经网络。颜色提示数据可包括具有点云中至少一个相应位置的至少一个颜色样本的局部颜色提示数据。此外或另选地,颜色提示数据可包括全局颜色提示数据,诸如颜色直方图数据或颜色饱和度数据。
在一些实施方案中,颜色预测数据的产生还包括将先前重建的点云的先前重建的颜色信号作为输入供应到神经网络中。
在一些实施方案中,针对点云产生的颜色预测数据包括用于点云中的多个点中的每个点的亮度和色度信息。在其他实施方案中,可使用其他类型的颜色坐标。
在一些实施方案中,点云几何信息以压缩形式被编码在比特流中。在此类实施方案中,解码方法还可包括将几何信息解压缩。
在一些实施方案中,用于点云的几何信息包括用于点云中的多个点中的每个点的位置信息(诸如x,y,z坐标)。
在一些实施方案中,提供了一种用于生成压缩点云数据的方法。在示例中,编码器接收点云几何信息以及对应的原始颜色信息(其可以是点云中的每个点的亮度和色度值)。编码器将至少几何信息供应给神经网络以产生用于点云的颜色预测数据。编码器生成表示颜色预测数据与原始颜色信息之间的差值的残差信号。编码器对比特流中的点云几何信息(例如,以压缩形式)和残差信号进行编码。
在一些此类实施方案中,编码器还将用于神经网络的参数数据编码到比特流中。神经网络参数数据使得解码器能够再现由编码器使用的神经网络。例如,神经网络参数数据可包括神经网络的链接、地址或其他标识符。神经网络参数数据可包括神经网络的权重。
在一些实施方案中,编码器根据点云几何信息和对应的原始颜色信息训练神经网络。
本文所描述的附加实施方案包括系统,该系统包括处理器和计算机可读介质(例如,非暂态计算机可读介质),该计算机可读介质存储操作用于执行本文所描述的方法中的任一方法(包括编码器方法和解码器方法)的指令。其他实施方案包括装置,该装置包括处理器,该处理器被配置为执行本文所描述的方法中的任一方法(包括编码器方法和解码器方法)。
其他实施方案包括计算机可读介质(例如,非暂态计算机可读介质),该计算机可读介质存储根据本文所描述的方法进行编码的点云信息。
附图说明
图1A是示出可在其中实现一个或多个所公开的实施方案的示例性通信系统的系统图。
图1B是示出根据实施方案可在图1A所示的通信系统内使用的示例性无线发射/接收单元(WTRU)的系统图。
图2是可在一些实施方案中使用的点云编码器的功能框图。
图3是根据一些实施方案的操作用于对空间数据进行程序化着色的系统的框图。
图4是根据一些实施方案的由空间数据查看器执行的对空间数据进行着色的方法的过程流程图。
图5是根据一些实施方案的针对所选视点对空间数据进行着色的方法的过程流程图。
图6是根据一些实施方案的对点云数据进行编码以递送到客户端的方法的过程流程图。
图7是在编码器发送几何代码流和颜色代码流两者的实施方案中点云编码器和对应的解码器的功能框图。
图8是在点云编码器执行颜色分析的实施方案中点云编码器和对应的解码器的功能框图。
图9是在编码回路内使用颜色内插器的实施方案中点云编码器和对应的解码器的功能框图。
图10A是示出根据一些实施方案的点云编码器的功能框图。
图10B是使用图10A的编码器生成的比特流的示意图。
图10C是示出对应于图10A的编码器并且可操作用于对图10B的比特流进行解码的点云解码器的功能框图。
图11A是示出根据一些实施方案的点云编码器的功能框图。
图11B是使用图10A的编码器生成的比特流的示意图。
图11C是示出对应于图11A的编码器并且可操作用于对图11B的比特流进行解码的点云解码器的功能框图。
用于实现实施方案的示例性网络
图1A是示出在其中一个或多个所公开的实施方案可得以实现的示例性通信系统100的示意图。通信系统100可为向多个无线用户提供诸如语音、数据、视频、消息、广播等内容的多址接入系统。通信系统100可使多个无线用户能够通过系统资源(包括无线带宽)的共享来访问此类内容。例如,通信系统100可采用一个或多个信道接入方法,诸如码分多址接入(CDMA)、时分多址接入(TDMA)、频分多址接入(FDMA)、正交FDMA(OFDMA)、单载波FDMA(SC-FDMA)、零尾唯一字DFT扩展OFDM(ZT UW DTS-s OFDM)、唯一字OFDM(UW-OFDM)、资源块滤波OFDM、滤波器组多载波(FBMC)等。
如图1A所示,通信系统100可包括无线发射/接收单元(WTRU)102a、102b、102c、102d、RAN 104/113、CN 106/115、公共交换电话网(PSTN)108、互联网110和其他网络112,但应当理解,所公开的实施方案设想了任何数量的WTRU、基站、网络和/或网络元件。WTRU102a、102b、102c、102d中的每一者可以是被配置为在无线环境中操作和/或通信的任何类型的设备。作为示例,WTRU 102a、102b、102c、102d(其中任何一个均可被称为“站”和/或“STA”)可被配置为传输和/或接收无线信号,并且可包括用户装备(UE)、移动站、固定或移动用户单元、基于订阅的单元、寻呼机、蜂窝电话、个人数字助理(PDA)、智能电话、膝上型电脑、上网本、个人计算机、无线传感器、热点或Mi-Fi设备、物联网(IoT)设备、手表或其他可穿戴设备、头戴式显示器(HMD)、车辆、无人机、医疗设备和应用(例如,远程手术)、工业设备和应用(例如,在工业和/或自动处理链环境中操作的机器人和/或其他无线设备)、消费电子设备、在商业和/或工业无线网络上操作的设备等。WTRU 102a、102b、102c和102d中的任一者可互换地称为UE。
通信系统100还可包括基站114a和/或基站114b。基站114a、114b中的每一者可为任何类型的设备,其被配置为与WTRU 102a、102b、102c、102d中的至少一者无线对接以促进对一个或多个通信网络(诸如CN 106/115、互联网110和/或其他网络112)的访问。作为示例,基站114a、114b可为基站收发台(BTS)、节点B、演进节点B、家庭节点B、家庭演进节点B、gNB、NR节点B、站点控制器、接入点(AP)、无线路由器等。虽然基站114a、114b各自被描绘为单个元件,但应当理解,基站114a、114b可包括任何数量的互连基站和/或网络元件。
基站114a可以是RAN 104/113的一部分,该RAN还可包括其他基站和/或网络元件(未示出),诸如基站控制器(BSC)、无线电网络控制器(RNC)、中继节点等。基站114a和/或基站114b可被配置为在一个或多个载波频率(其可被称为小区(未示出))上传输和/或接收无线信号。这些频率可在许可频谱、未许可频谱或许可和未许可频谱的组合中。小区可向特定地理区域提供无线服务的覆盖,该特定地理区域可为相对固定的或可随时间改变。小区可进一步被划分为小区扇区。例如,与基站114a相关联的小区可被划分为三个扇区。因此,在一个实施方案中,基站114a可包括三个收发器,即,小区的每个扇区一个收发器。在一个实施方案中,基站114a可采用多输入多输出(MIMO)技术并且可针对小区的每个扇区利用多个收发器。例如,可使用波束成形在所需的空间方向上传输和/或接收信号。
基站114a、114b可通过空中接口116与WTRU 102a、102b、102c、102d中的一者或多者通信,该空中接口可为任何合适的无线通信链路(例如,射频(RF)、微波、厘米波、微米波、红外(IR)、紫外(UV)、可见光等)。可使用任何合适的无线电接入技术(RAT)来建立空中接口116。
更具体地讲,如上所指出,通信系统100可为多址接入系统,并且可采用一个或多个信道接入方案,诸如CDMA、TDMA、FDMA、OFDMA、SC-FDMA等。例如,RAN104/113中的基站114a和WTRU 102a、102b、102c可实现诸如通用移动电信系统(UMTS)陆地无线电接入(UTRA)之类的无线电技术,其可使用宽带CDMA(WCDMA)来建立空中接口115/116/117。WCDMA可包括诸如高速分组接入(HSPA)和/或演进的HSPA(HSPA+)之类的通信协议。HSPA可包括高速下行链路(DL)分组接入(HSDPA)和/或高速UL分组接入(HSUPA)。
在一个实施方案中,基站114a和WTRU 102a、102b、102c可实现诸如演进的UMTS陆地无线电接入(E-UTRA)之类的无线电技术,其可使用长期演进(LTE)和/高级LTE(LTE-A)和/或高级LTE Pro(LTE-A Pro)来建立空中接口116。
在一个实施方案中,基站114a和WTRU 102a、102b、102c可实现诸如NR无线电接入之类的无线电技术,其可使用新无线电(NR)来建立空中接口116。
在一个实施方案中,基站114a和WTRU102a、102b、102c可实现多种无线电接入技术。例如,基站114a和WTRU 102a、102b、102c可例如使用双连接(DC)原理一起实现LTE无线电接入和NR无线电接入。因此,WTRU 102a、102b、102c所使用的空中接口可由多种类型的无线电接入技术和/或向/从多种类型的基站(例如,eNB和gNB)发送的传输来表征。
在其他实施方案中,基站114a和WTRU 102a、102b、102c可实现诸如IEEE 802.11(即,无线保真(WiFi))、IEEE 802.16(即,全球微波接入互操作性(WiMAX))、CDMA2000、CDMA2000 1X、CDMA2000EV-DO、暂行标准2000(IS-2000)、暂行标准95(IS-95)、暂行标准856(IS-856)、全球移动通信系统(GSM)、GSM增强数据率演进(EDGE)、GSM EDGE(GERAN)等无线电技术。
图1A中的基站114b可为例如无线路由器、家庭节点B、家庭演进节点B或接入点,并且可利用任何合适的RAT来促进诸如商业场所、家庭、车辆、校园、工业设施、空中走廊(例如,供无人机使用)、道路等局部区域中的无线连接。在一个实施方案中,基站114b和WTRU102c、102d可实现诸如IEEE 802.11之类的无线电技术以建立无线局域网(WLAN)。在一个实施方案中,基站114b和WTRU 102c、102d可实现诸如IEEE 802.15之类的无线电技术以建立无线个域网(WPAN)。在又一个实施方案中,基站114b和WTRU 102c、102d可利用基于蜂窝的RAT(例如,WCDMA、CDMA2000、GSM、LTE、LTE-A、LTE-A Pro、NR等)来建立微微小区或毫微微小区。如图1A所示,基站114b可具有与互联网110的直接连接。因此,基站114b可不需要经由CN 106/115访问互联网110。
RAN 104/113可与CN 106/115通信,该CN可以是被配置为向WTRU 102a、102b、102c、102d中的一者或多者提供语音、数据、应用和/或互联网协议语音技术(VoIP)服务的任何类型的网络。数据可具有不同的服务质量(QoS)要求,诸如不同的吞吐量要求、延迟要求、误差容限要求、可靠性要求、数据吞吐量要求、移动性要求等。CN 106/115可提供呼叫控制、账单服务、基于移动位置的服务、预付费呼叫、互联网连接、视频分发等,和/或执行高级安全功能,诸如用户认证。尽管未在图1A中示出,但是应当理解,RAN 104/113和/或CN 106/115可与采用与RAN 104/113相同的RAT或不同RAT的其他RAN进行直接或间接通信。例如,除了连接到可利用NR无线电技术的RAN 104/113之外,CN 106/115还可与采用GSM、UMTS、CDMA2000、WiMAX、E-UTRA或WiFi无线电技术的另一RAN(未示出)通信。
CN 106/115也可充当WTRU 102a、102b、102c、102d的网关,以访问PSTN 108、互联网110和/或其他网络112。PSTN 108可包括提供普通老式电话服务(POTS)的电路交换电话网络。互联网110可包括使用常见通信协议(诸如传输控制协议(TCP)、用户数据报协议(UDP)和/或TCP/IP互联网协议组中的互联网协议(IP))的互连计算机网络和设备的全球系统。网络112可包括由其他服务提供商拥有和/或操作的有线和/或无线通信网络。例如,网络112可包括连接到一个或多个RAN的另一个CN,其可采用与RAN 104/113相同的RAT或不同的RAT。
通信系统100中的一些或所有WTRU 102a、102b、102c、102d可包括多模式能力(例如,WTRU 102a、102b、102c、102d可包括用于通过不同无线链路与不同无线网络通信的多个收发器)。例如,图1A所示的WTRU 102c可被配置为与可采用基于蜂窝的无线电技术的基站114a通信,并且与可采用IEEE 802无线电技术的基站114b通信。
图1B是示出示例性WTRU 102的系统图。如图1B所示,WTRU 102可包括处理器118、收发器120、发射/接收元件122、扬声器/麦克风124、小键盘126、显示器/触摸板128、不可移动存储器130、可移动存储器132、电源134、全球定位系统(GPS)芯片组136和/或其他外围设备138等。应当理解,WTRU 102可包括前述元件的任何子组合,同时保持与实施方案一致。
处理器118可以是通用处理器、专用处理器、常规处理器、数字信号处理器(DSP)、多个微处理器、与DSP核心相关联的一个或多个微处理器、控制器、微控制器、专用集成电路(ASIC)、现场可编程门阵列(FPGA)电路、任何其他类型的集成电路(IC)、状态机等。处理器118可执行信号编码、数据处理、功率控制、输入/输出处理和/或任何其他功能,这些其他功能使WTRU 102能够在无线环境中工作。处理器118可耦合到收发器120,该收发器可耦合到发射/接收元件122。虽然图1B将处理器118和收发器120描绘为单独的部件,但是应当理解,处理器118和收发器120可在电子封装或芯片中集成在一起。
发射/接收元件122可被配置为通过空中接口116向基站(例如,基站114a)传输信号或从基站接收信号。例如,在一个实施方案中,发射/接收元件122可以是被配置为传输和/或接收RF信号的天线。在一个实施方案中,发射/接收元件122可以是被配置为传输和/或接收例如IR、UV或可见光信号的发射器/检测器。在又一个实施方案中,发射/接收元件122可被配置为传输和/或接收RF和光信号。应当理解,发射/接收元件122可被配置为传输和/或接收无线信号的任何组合。
尽管发射/接收元件122在图1B中被描绘为单个元件,但是WTRU 102可包括任何数量的发射/接收元件122。更具体地讲,WTRU 102可采用MIMO技术。因此,在一个实施方案中,WTRU 102可包括用于通过空中接口116传输和接收无线信号的两个或更多个发射/接收元件122(例如,多个天线)。
收发器120可被配置为调制将由发射/接收元件122传输的信号并且解调由发射/接收元件122接收的信号。如上所指出,WTRU 102可具有多模式能力。因此,收发器120可包括多个收发器,以便使WTRU 102能够经由多种RAT(诸如NR和IEEE 802.11)进行通信。
WTRU 102的处理器118可耦合到扬声器/麦克风124、小键盘126和/或显示器/触摸板128(例如,液晶显示器(LCD)显示单元或有机发光二极管(OLED)显示单元)并且可从其接收用户输入数据。处理器118还可将用户数据输出到扬声器/麦克风124、小键盘126和/或显示器/触摸板128。此外,处理器118可从任何类型的合适存储器(诸如不可移动存储器130和/或可移动存储器132)访问信息,并且将数据存储在任何类型的合适存储器中。不可移动存储器130可包括随机存取存储器(RAM)、只读存储器(ROM)、硬盘或任何其他类型的存储器存储设备。可移动存储器132可包括用户身份模块(SIM)卡、记忆棒、安全数字(SD)存储卡等。在其他实施方案中,处理器118可从未物理上定位在WTRU 102上(诸如,服务器或家用计算机(未示出)上)的存储器访问信息,并且将数据存储在该存储器中。
处理器118可从电源134接收电力,并且可被配置为向WTRU 102中的其他部件分配和/或控制电力。电源134可以是用于为WTRU 102供电的任何合适的设备。例如,电源134可包括一个或多个干电池组(例如,镍镉(NiCd)、镍锌(NiZn)、镍金属氢化物(NiMH)、锂离子(Li-ion)等)、太阳能电池、燃料电池等。
处理器118还可耦合到GPS芯片组136,该GPS芯片组可被配置为提供关于WTRU 102的当前位置的位置信息(例如,经度和纬度)。除了来自GPS芯片组136的信息之外或代替该信息,WTRU 102可通过空中接口116从基站(例如,基站114a、114b)接收位置信息和/或基于从两个或更多个附近基站接收到信号的定时来确定其位置。应当理解,在与实施方案保持一致的同时,该WTRU 102可通过任何合适的位置确定方法来获取位置信息。
处理器118还可耦合到其他外围设备138,该其他外围设备可包括提供附加特征、功能和/或有线或无线连接的一个或多个软件模块和/或硬件模块。例如,外围设备138可包括加速度计、电子指南针、卫星收发器、数字相机(用于照片和/或视频)、通用串行总线(USB)端口、振动设备、电视收发器、免提耳麦、
Figure BDA0003144053290000101
模块、调频(FM)无线电单元、数字音乐播放器、媒体播放器、视频游戏播放器模块、互联网浏览器、虚拟现实和/或增强现实(VR/AR)设备、活动跟踪器等。外围设备138可包括一个或多个传感器,该传感器可为以下一者或多者:陀螺仪、加速度计、霍尔效应传感器、磁力计、方位传感器、接近传感器、温度传感器、时间传感器;地理位置传感器;测高计、光传感器、触摸传感器、磁力计、气压计、手势传感器、生物识别传感器和/或湿度传感器。
WTRU 102可包括全双工无线电台,对于该全双工无线电台,一些或所有信号的传输和接收(例如,与用于UL(例如,用于传输)和下行链路(例如,用于接收)的特定子帧相关联)可为并发的和/或同时的。全双工无线电台可包括干扰管理单元,该干扰管理单元用于经由硬件(例如,扼流圈)或经由处理器(例如,单独的处理器(未示出)或经由处理器118)进行的信号处理来减少和/或基本上消除自干扰。在一个实施方案中,WTRU 102可包括半双工无线电台,对于该半双工无线电台,传输和接收一些或所有信号(例如,与用于UL(例如,用于传输)或下行链路(例如,用于接收)的特定子帧相关联)。
尽管WTRU被描述为无线终端,但是能够设想到,在某些代表性实施方案中,此类终端可(例如,临时或永久)使用与通信网络的有线通信接口。
鉴于图1A至图1B以及对应的描述,本文所描述的功能中的一个或多个功能或全部功能可由一个或多个仿真设备(未示出)来执行。仿真设备可以是被配置为模仿本文所述的一个或多个或所有功能的一个或多个设备。例如,仿真设备可用于测试其他设备和/或模拟网络和/或WTRU功能。
仿真设备可被设计为在实验室环境和/或运营商网络环境中实现其他设备的一个或多个测试。例如,该一个或多个仿真设备可执行一个或多个或所有功能,同时被完全或部分地实现和/或部署为有线和/或无线通信网络的一部分,以便测试通信网络内的其他设备。该一个或多个仿真设备可执行一个或多个功能或所有功能,同时临时被实现/部署为有线和/或无线通信网络的一部分。仿真设备可直接耦合到另一个设备以用于测试目的和/或可使用空中无线通信来执行测试。
该一个或多个仿真设备可执行一个或多个(包括所有)功能,同时不被实现/部署为有线和/或无线通信网络的一部分。例如,仿真设备可在测试实验室和/或非部署(例如,测试)有线和/或无线通信网络中的测试场景中使用,以便实现一个或多个部件的测试。该一个或多个仿真设备可为测试设备。经由RF电路(例如,其可包括一个或多个天线)进行的直接RF耦合和/或无线通信可由仿真设备用于传输和/或接收数据。
具体实施方式
描述了用于压缩点云数据中的颜色信息的系统和方法。在一些实施方案中,点云数据包括用于多个点中的每个点的点位置信息和点颜色信息。将点云的点位置信息提供给神经网络(例如,卷积神经网络),并且该神经网络针对点云中的相应点生成预测颜色信息(例如,预测的亮度和色度值)。生成预测残差以表示该预测颜色信息与输入点颜色位置之间的差值。在比特流中对点位置信息(其可以是压缩形式)和预测残差进行编码。在一些实施方案中,还将颜色提示数据(例如,点的子集的点颜色信息)提供给神经网络以改善颜色预测,并且在比特流中对颜色提示数据进行编码。
在一些实施方案中,还在比特流中对表征神经网络的连接权重或其他信息进行编码。表征神经网络的信息可包括从多个可用神经网络中识别出一个神经网络的信息。
在一些实施方案中,解码器接收比特流并且重建点云的点位置信息。将点位置信息提供给神经网络(例如,预定义神经网络或由比特流中编码的信息表征的神经网络)。如果颜色提示数据在比特流中被编码,则颜色提示数据也可被提供给神经网络。神经网络针对点云中的多个点中的每个点生成预测颜色信息。如果预测残差在比特流中被编码,则预测残差被添加到颜色信息以生成点云中的点的重建颜色信息。点云中的点连同它们各自的重建颜色信息可被渲染以显示给用户。
在一些实施方案中,方法包括程序化地生成和改变空间数据的颜色信息。可实现程序化着色数据以用于包括以下的目的:通过减少或移除空间数据内包含的颜色信息来优化数据传输。除了单帧着色之外,一些实施方案可操作用于解决时间一致性问题。在具有若干时间步骤的动态空间内容的情况下,可能有用的是利用着色过程来实现时间稳定,以便在整个体验中维持一致的内容外观。
一些实施方案可操作用于优化内容分发。例如,代替发送包含与每个数据点相关联的色值的空间数据,服务器可利用稀疏色值采样来流传输空间数据,或者经由参考图像(或全局直方图和饱和度值)提供色值。一些实施方案可操作用于解决跨内容的不同时间步骤的着色时间稳定性,以便在整个体验(例如,VR、AR或MR会话)中实现一致的外观。
在一些实施方案中,针对仅由几何形状组成的空间数据提供颜色信息的程序化生成。例如,从移动车辆捕获的激光雷达数据可从没有点颜色的普通点云数据变换成3D内容,该3D内容可被可视化为具有实际颜色的六自由度(6-DOF)内容。
在一些实施方案中,使用仅由原始几何信息组成而没有任何先前颜色信息的空间数据来执行着色,从而允许有效地压缩和使用此类数据作为虚拟体验的内容。一些实施方案操作用于使得能够利用现有颜色信息对空间数据进行重新着色,使得可将内容修改为适合于各种虚拟体验。
在一些实施方案中,对神经网络进行训练以基于每个视点推断空间数据的颜色信息,而不需要来自用户的输入或任何其他附加信息。在一些实施方案中,可引导由神经网络推断的着色,使得可为场景中的特定元素指定某些颜色,或者使得着色的总体视觉外观遵循给定示例。
在一些实施方案中,使用最初不包括此类信息的空间数据来执行颜色信息的程序化生成。此类实施方案可操作用于使得能够通过减少或完全移除空间数据中的颜色信息来减少在流传输空间数据时要传输的数据量。
在一些实施方案中,来自先前时间步骤的着色结果被包括作为当前时间步骤的输入,从而改善着色的时间稳定性。
过程概述
由查看客户端执行的示例性过程可包括以下步骤。客户端接收或加载表征用于推断颜色信息的神经网络的信息(例如,关于神经网络的连接性和权重的信息)。客户端接收点云的空间数据。客户端还可接收参考图像。可使用用户提供的参考图像,或者可从例如地图服务中搜索参考图像。确定空间数据的视点。可基于用户输入和显示设备跟踪来设置视点。针对从所选视点可见的区域,如果需要,客户端可执行对空间数据进行三角测量的操作。客户端使用单色和默认照明来渲染空间数据的2D视图。客户端可调整存储在着色过程的先前处理时间步骤上的先前着色结果与参考图像之间的加权。当在连续着色处理开始时使用参考图像时,该参考图像的权重大于先前着色结果。然而,随着处理的继续,用作全局提示的先前着色可被给予更多权重,以便在会话的不同时间步骤上维持着色结果的时间连续性。
客户端使用为该任务训练的神经网络来推断所渲染的2D视图的颜色。用于神经网络的输入可包括:空间数据的渲染2D视图;根据上述加权进行混合的全局提示,诸如先前着色结果和/或参考图像;和局部提示,该局部提示可以是已经与从当前视点可见的几何数据点相关联的色值。局部提示的色值可以是所接收的空间数据流的一部分,或者它们可以是与基于着色处理的先前时间步骤的几何形状相关联的色值。
客户端然后可将来自所产生的2D图像的推断颜色投影回到空间数据并且存储为与空间数据顶点或点相关联的值。客户端还可存储着色的2D视图以用作连续着色过程的下一时间步骤中的全局提示。
一些实施方案可操作用于实现从内容服务器到查看客户端的内容分发。由内容服务器执行的示例性过程可包括以下步骤。服务器等待来自查看客户端的内容请求。响应于对空间数据的客户端请求,估计可用的通信带宽。服务器选择要用于着色的神经网络,并且将表征该神经网络的数据(例如,连接性或权重信息,或与此类信息的链接)发送到客户端。
对于流传输到客户端的空间内容的每个时间步骤,对分发内容进行如下处理。通过完全移除颜色信息或通过将其例如从三分量RGB减少到仅单分量辐照度来减少颜色信息。然后,服务器使用与查看客户端相同的神经网络和相同的处理技术来对要发送的空间数据进行着色。服务器可迭代地添加要沿优化内容发送的提示。例如,服务器可将着色结果与原始数据进行比较,添加提示以在优化数据与原始数据之间提供更好的着色匹配,并且生成新的着色结果以与原始数据进行比较。只要满足任何带宽和每帧处理限制,就可以这种方式添加新提示,直到达到所需的质量水平。可通过从原始数据的2D视图提取全局直方图和饱和度信息来生成全局提示。可通过从原始数据添加颜色样本来生成局部提示。颜色减少的(或无色的)数据连同全局提示和/或局部提示一起被发送到客户端,并且可针对附加帧重复该过程。
虽然主要从空间数据分发的角度来讨论了内容分发优化的方法,但是本文所描述的用于内容分发优化的方法可用多种类型的顺序视觉数据(包括例如2D视频、360度视场视频、光场等)来实现。
示例性过程
图2示出了可在一些实施方案中使用的点云编码器。图2所编码的点云包括以常规方式编码颜色信息的能力。然而,在本文所描述的实施方案中,点云编码器(诸如图2的点云编码器)可用于仅编码点云几何信息,或者其可用于将点云几何信息与减少的颜色信息(例如,没有色度信息的亮度信息)一起进行编码。如图2所示,将点云输入提供给边界框归一化和滤波模块202。将模块202的输出提供给八叉树复合模块204。可将模块204的输出存储在点云缓冲器206中。在208处执行针对点云(或针对其部分,诸如八叉树内的块)是使用帧内编码还是帧间编码的确定。帧间预测编码模块210对使用帧间预测编码来编码的点云(或其部分)进行编码。帧内编码模块212对使用帧内编码来编码的点云(或其部分)进行编码。
帧内编码模块212可包括用于占用代码熵编码的模块214和用于颜色编码的模块216。在一些实施方案中,颜色编码模块216可被完全省略。帧间和帧内编码信息可由模块218熵编码成比特流。在以下文章中更详细地描述了用于对点云数据进行编码的示例性技术:Mekuria等人的“Overview of the MPEG Activity on Point Cloud Compression”,发表在Data Compression Conference(DCC),2016,IEEE中。
图3是根据一些实施方案的对空间数据进行程序化着色的客户端侧系统的框图。空间数据查看器302利用着色模块304来执行空间数据着色。空间数据查看器可例如从传感器诸如(例如,嵌入在汽车中的)激光雷达、从包含预先记录的空间数据的内容储存库、从通过网络连接来分发空间数据的内容服务器或者从其他源306接收原始空间数据。
在一些实施方案中,空间数据查看器基于用户输入来设置空间数据的视点。用户输入可包括由用户经由可用输入设备提供的导航命令。在一些实施方案中,使用设备跟踪模块308实现设备跟踪,以便提供查看设备(例如,头戴式显示器)的3D位置和/或取向。
在一些实施方案中,空间数据查看器基于空间数据、为空间数据设置的视点和参考图像来生成空间数据的颜色信息。可使用神经网络来生成颜色信息,该神经网络根据输入推断色值。空间数据查看器可使用3D渲染310来将空间数据处理成适用于神经网络模型输入的格式。一旦执行了着色,空间数据查看器就可产生空间数据的最终视图。通过对着色的空间数据进行3D渲染所产生的图像可被发送到显示器312。
图4是根据一些实施方案的由空间数据查看器执行的对空间数据进行着色的方法的过程流程图。该过程可包括在以下小节中详述的步骤。
加载或接收神经网络
在框402处,客户端设备加载或请求要用于着色的神经网络。在一些实施方案中,卷积神经网络用于对空间数据进行着色。卷积神经网络可被训练用于推断空间数据渲染的未着色2D图像的色值。神经网络的输入可包括例如空间数据渲染的单色图像、提供用于着色的全局提示的参考图像以及可提供局部着色提示的稀疏样本值。神经网络可基于输入图像、参考图像和稀疏局部提示来对输入图像进行着色。
在一些实施方案中,空间数据查看器从内容服务器接收空间数据。内容服务器可提供用于对空间数据进行着色的神经网络。内容服务器可从空间数据中移除颜色信息,以便减少要从服务器传输到空间数据查看器的数据量。例如,为了优化数据传输,减少数据量可能会有所帮助。在一些实施方案中,服务器可具有供空间数据查看器使用的专用神经网络模型。专用神经网络模型可被调优以充分匹配正在传输的内容的类型。在一些实施方案中,内容服务器提供参考图像以引导在客户端侧执行的着色。在一些实施方案中,内容服务器通过为其发送到客户端的空间数据中的少量点或顶点提供色值来包括局部颜色提示。
在一些实施方案中,空间数据查看器可加载现有神经网络。例如,空间数据查看器可在本地存储在当前会话之前已被训练或接收的神经网络。例如,当空间数据查看器用于对直接从产生空间数据的传感器接收的数据进行着色和可视化或者用于对本地存储的空间数据进行可视化时,可实现该方法。在其中从内容服务器接收空间数据的一些实施方案中,使用神经网络的预先存储的本地副本也可能是有帮助的。
神经网络模型可指神经网络架构,包括例如层连接的描述、每个层的卷积滤波器的大小、为任务组合的池化层和完全连接层以及各层之间的连接的权重。现有深度学习框架可用于训练、存储和加载用于着色任务的神经网络。合适的框架可包括例如Tensorflow、Keras、Caffe、CNTK和Torch。在下面标题为“处理用户输入和设备跟踪”的小节中进一步描述神经网络模型的操作。
接收或搜索参考图像
在框404处,客户端设备接收或搜索参考图像。在一些实施方案中,用于对空间数据进行着色的神经网络使用参考图像和相关联的捕获视点来引导着色。在一些实施方案中,可根据对场景几何形状和灰度图像投影的分析来估计捕获点。参考图像可提供对着色的全局提示,这可引导着色朝向产生类似于在参考图像中特征化的推断彩色图像的全局直方图和饱和度。参考图像和该推断彩色图像之间的颜色空间分布可能不需要匹配;相反,全局提示可为输出图像提供由网络再现的色彩设计。另选地,可从场景向神经网络提供所需的全局直方图,从而允许网络合成空间颜色变化。
在一些实施方案中,接收参考图像的方法可取决于特定会话的设置。接收参考图像的方法包括:例如,i)从提供空间数据的内容服务器接收参考图像,ii)接收由用户或应用程序提供的参考图像,iii)接收捕获的图像数据,以及iv)从使用可用图像数据源对合适的参考图像进行的搜索中接收参考图像。
在一些实施方案中,空间数据可与元数据相关联,该元数据提供捕获数据的地理位置。该地理位置信息对于搜索合适的参考图像可能特别有用。例如,空间数据查看器可使用地理位置信息来搜索与该位置匹配的参考图像。地图服务(诸如Google Street View)可用于图像搜索。根据地图服务接收的图像可用作参考图像。相机位置和取向可根据参考图像和几何数据来推断。
接收或加载空间数据
在框406处,客户端接收或加载空间数据。空间数据(例如,以场景几何形状为特征的3D数据)可被实现为无序点云或以顶点和顶点之间的连接性为特征的3D网格。空间数据可包括诸如点或顶点的颜色或标准定义等信息。如果空间数据已经包括颜色信息,则可能有用的是丢弃现有颜色信息或选择性地使用部分颜色信息作为局部着色提示以引导重新着色。
设置用于空间数据的照明
在框408处,可设置用于空间数据的照明。可实现空间数据的虚拟照明。例如,可使用虚拟照明设置来渲染来自所选视点的空间数据的单色2D图像。相同的虚拟照明设置可用于将最终着色视图渲染到显示器。在一些实施方案中,所使用的虚拟照明由用户手动设置。在一些实施方案中,虚拟照明由空间数据查看器确定。虚拟照明可例如基于与体验类型相关的启发法、基于默认值或基于与空间数据相关联的元数据的一部分来确定。在一些实施方案中,通过推断在参考图像中特征化的照明设置来确定照明。在一些实施方案中,场景的照明可基于来自空间数据的对象识别来构建。例如,场景中的对象(诸如灯、窗户或天空)可被识别和建模为用于虚拟照明的光源。
处理用户输入和设备跟踪
在框410处,客户端处理用户输入和设备跟踪信息。空间数据可在检查数据时实现导航自由度。为了实现空间内容的完整6-DOF查看,空间数据查看器可允许用户使用输入命令来导航数据。除了基于导航命令(例如,由用户使用显式输入命令提供)设置空间数据的视点之外,还可请求设备跟踪信息。通过使用设备跟踪信息,空间数据的导航可被配置为遵循设备的运动。此类方法可用于提供使用HMD的沉浸式数据检查。
推断空间数据的色值
在框414处,客户端推断空间数据的色值。推断空间数据的色值的子过程可包括准备神经网络的输入以及存储由神经网络产生的输出。在图5中示出了该子过程的更多细节。如图4所示,客户端还可存储空间数据的色值,渲染空间数据,并且存储着色的空间数据以供参考。
图5是根据一些实施方案的针对所选视点对空间数据进行着色的方法的过程流程图。如果空间数据由原始点云数据组成,则该方法可包括对点云数据进行三角测量(框502)。例如,可添加各点之间的连接,从而创建连接这些点的多边形。在一些情况下,诸如对于较大点云,根据所选视点将三角测量限制于点云的局部区域可能是有帮助的。
一旦空间数据呈由连接点生成的网格格式,就可将其剪辑(框504)。例如,可切割多边形以匹配当前视点,并且可移除落在该视点之外的数据。然后,可使用例如先前描述的虚拟照明设置并且针对整个几何形状使用单色来渲染所剪辑的几何形状(框506)。这产生了可由神经网络进行着色的单色图像。在将单色图像馈送到神经网络之前,该过程可包括准备局部提示和全局提示。这些提示可被馈送到神经网络以引导着色,如下所讨论的。
局部提示可包括空间数据中具有预先确定的色值的点。可收集局部提示并且将其变换成2D图像坐标,使得它们可馈送到神经网络。空间数据可包含已在先前时间执行步骤中创建的色值。可能有帮助的是使这些色值在每个执行时间步骤之间保持恒定。原始空间数据可包含期望维持的色值。例如,一些特定对象可被限定为具有特定颜色。具有现有色值的这些点可使用已用于渲染单色图像的相同投影通过投影(框508)从其原始3D空间变换成2D视图空间。局部提示可作为由2D图像位置和色值组成的矢量被馈送到神经网络。
全局提示可包括引导所推断的着色应以何种类型的全局直方图和饱和度为特征的图像。可使用神经网络中的特定输入分支从参考图像中提取全局直方图和饱和度值,使得全局提示可作为2D图像被馈送到网络。因为渲染过程可在用户交互地导航空间数据时连续地执行,所以提供不同执行时间步骤之间的着色的一致性可能是有帮助的。这可通过存储每个时间步骤的最终渲染图像并且将该图像馈送到网络中作为全局提示来实现。先前时间步骤的最终渲染图像可以类似于参考图像的方式(例如,使用特定输入分支)被馈送到网络。可通过调整影响每个图像对着色的影响程度的权重来将参考图像和先前渲染的最终图像进行组合(框510)。在一些实施方案中,参考图像的权重可随时间推移而减小,以便为先前渲染的图像给予更多权重。
当用于神经网络的输入已被收集并且被处理成可馈送到网络的格式时,该过程还可包括使用神经网络来推断所渲染的单色图像的色值。可通过将输入馈送到神经网络(框512)并且存储输出来执行推断色值。在一些实施方案中,神经网络是由四个输入分支组成的卷积神经网络:一个主分支用于单色图像处理,以及三个侧分支用于获取局部和全局着色提示。在一些实施方案中采用的神经网络架构可使用类似于在以下文章中描述的解决方案的解决方案来构建:Zhang、Richard等人的“Real-time user-guided imagecolorization with leamed deep priors”,发表在arXiv preprint arXiv:1705.02999,2017中。可通过使用用于原始黑白照片着色的权重并且利用以单色的和正确着色的空间数据渲染为特征的附加训练材料对它们进行调优来重新训练网络。由神经网络输出的着色图像可被存储(框514)。来自该图像的值可被投影回到空间数据并且按照顶点或点颜色被存储在原始空间数据上(框516)。
将视图渲染到显示器
返回参考图4,在框418处,在当前视点可见的空间数据已被着色之后,可将其渲染和发送到显示器。在渲染着色的空间数据时,待发送到显示器的2D图像可被渲染为显示器所需的任何分辨率。照明模型可用于例如考虑由各表面之间的照明能量的辐射引起的全局照明和渗色。
最终渲染图像可被存储,使得其可在接下来的执行时间步骤中用作参考。这可有助于在连续处理时间步骤之间创建空间数据的一般着色的一致性水平。
前进到处理下一时间步骤
一旦已经渲染并且显示了最终图像(图4,框418),该过程就可从接收参考图像(框404)和空间数据(框406)的新实例的步骤起进行重复。即使没有提供新的参考图像或空间数据,该过程也可迭代。例如,如果用户导航以从新视点查看数据,则对空间数据进行着色的过程可针对其中基于每个视点执行着色的实施方案进行重复。
由内容服务器执行的处理:使用着色进行内容分发
在一些实施方案中,可作出关于内容服务器或查看客户端是否执行着色的确定。利用该方法,客户端可执行如本文所描述的着色。为了减少要在服务器和客户端之间传输的数据量,服务器可执行与客户端相同的基于神经网络的着色,以估计和添加发送到客户端的局部提示。这样,可优化内容分发,同时维持所需的着色质量。
图6是用于使用程序化着色减少要从服务器发送到客户端的点云颜色数据量的方法的过程流程图。在框602处,服务器加载用于颜色预测的神经网络数据(例如,权重)。在框604中,服务器将神经网络数据发送到客户端。在框606处,服务器加载点云数据帧。在框608处,服务器从点云中移除(或减少)颜色信息。在框610处,服务器使用神经网络对点云进行重新着色。在步骤612中,服务器将重新着色的点云与原始点云进行比较。基于该比较,服务器确定是否提供局部和/或全局颜色提示。该确定可基于例如原始点云与重新着色的点云之间的误差水平(例如,绝对差之和)来作出。例如,如果误差水平低于阈值,则可确定不提供提示或者仅提供默认数量和类型的提示。如果要提供全局提示,则可在框614处确定全局提示,并且如果要提供局部提示,则可在框616处确定局部提示。在框618处,将点云帧数据发送到客户端。发送到客户端的数据可包括具有移除或减少的颜色信息的点云数据620、局部提示622(如果有的话)和全局提示624(如果有的话)。
除了空间数据之外,由内容服务器执行的过程也可与许多类型的顺序视觉数据(诸如2D视频、360度视场视频、光场等)一起使用。
示例性压缩应用
对空间数据进行着色的示例性方法可在压缩系统中采用。图7描绘了常规点云编码器和对应的解码器,其中编码器发送几何信息和颜色信息两者。几何信息可以是无损编码的或有损编码的。典型的颜色编码可对点云数据的投影使用常规的2D像素压缩方法。可使用自定义工具,诸如在以下文章中描述的区域自适应级联变换(Region-AdaptiveHierarchical Transform):de Queiroz、Ricardo L.和Philip A.Chou的“Compression of3d point clouds using a region-adaptive hierarchical transform”,发表在IEEETransactions on Image Processing 25.8(2016):3947-3956中。
在一些实施方案中,在压缩系统中使用对空间数据进行着色的方法。在此类实施方案中,颜色代码流可被消除或大大减少。颜色编码器可被分析代理取代,该分析代理确定着色器模型和可能的用于驱动着色器模型的示例性颜色集合。图8描绘了根据一些实施方案的包括具有颜色分析的点云编码器的点云编解码器。该系统可使用一系列参数化的着色器模型,并且通过该参数集合发信号通知该模型。
更一般地,该系统可提供用于产生着色的完整神经网络(例如,指示神经网络的结构和/或连接权重的参数)。传送模型的时间频率可发生变化。例如,可不频繁地发信号通知模型,例如,可在场景转换时发信号通知模型。作为另一示例,可例如在每个随机接入点处周期性地发信号通知模型。作为另一示例,可用每个帧发信号通知模型。编码器可例如确定何时需要更新的模型,并且可将信令添加到比特流中以指示要在解码时使用的更新的模型的参数。在单个已知模型(例如,解码器侧已知的单个模型)的情况下,可能永远不发信号通知该模型。类似地,颜色提示可与着色器模型相同的频率来提供,或者以比用信号通知着色器模型更高或更低的频率来提供。
如图8所示,由不同颜色提示驱动的着色器模型可赋予相同几何数据不同的字符。该系统可提供不同的颜色提示集合,并且解码器可选择一个集合来产生着色输出。所选择的组可基于解码器处的局部条件,例如一天中的时间、环境光和/或显示技术。
着色器模型可由神经网络来实现。可能有用的是实现仅编码器模式选择或运动搜索,其中神经网络用于控制常规视频编码器,以便降低搜索大量编码器模式、分区和运动决策的复杂性。在以下文章中描述了在一些实施方案中可采用的一些神经网络解决方案:Liu,Zhenyu等人的“CU partition mode decision for HEVC hardwired intra encoderusing convolution neural network”,发表在IEEE Transactions on Image Processing25.11(2016):5088-5103中;以及Xu,Mai等人的“Reducing Complexity of HEVC:A DeepLearning Approach”,发表在IEEE Transactions on Image Processing(2018):5044-5059中。
神经网络可被训练用于进行视频质量分析,这对例如监测编码器性能可能是有用的。在以下文章中描述了在一些实施方案中可实现的一些解决方案:Zhu,Kongfeng等人的“No-reference video quality assessment based on artifact measurement andstatistical analysis”,发表在IEEE Transactions on Circuits and Systems forVideo Technology 25.4(2015):533-546中。
图9描绘了根据一些实施方案的点云编码器902和对应的解码器904,该点云编码器和对应的解码器中的每一者在编码回路内使用相应颜色内插器(906,908)。着色模型可基于点、运动和模式决策的上下文来生成色值。着色结果可用作预测图像,其中传输了附加颜色残差。着色预测可减小颜色残差信息的大小,从而改善压缩。颜色内插器可单独由几何形状驱动,或者通过供应稀疏的颜色提示集合以及几何数据来驱动。着色器模型可以是预定义的或者可经由神经网络表示来发信号通知。
图10A示出了可访问原始点云数据1002的编码器,该原始点云数据由几何数据(例如,点云中的多个点中的每个点的x,y,z坐标)和任选地对应的亮度和色度信号(或一些其他格式的颜色信号)组成。该亮度和色度信号可对应于所扫描的对象或场景,或者对应于内容的合成表示。编码器可具有若干编码参数,诸如目标比特率、编解码器工具、配置文件和水平设置。在该示例中,编码器可处理原始点云数据以构建没有亮度和色度信息的点云的几何形状的表示。点云和亮度/色度信息可用于模块1004处的训练过程中,以产生描述神经网络的操作的权重集合。训练权重可用于配置神经网络1006。将几何形状作为输入供应给神经网络。神经网络的输出可包括对应于点云的合成的亮度和色度信息(或另一种格式的颜色信息)。在图10A的实施方案中,在1008处产生残差信号作为合成的亮度和色度信号与原始亮度和色度信号之间的差值。编码器将代表性几何形状、神经网络权重和亮度/色度残差写入比特流。点云的几何形状由模块1010编码,神经网络权重由模块1012编码,并且残差由模块1014编码到比特流中。
在图10A的编码器中,描述神经网络的参数经由比特流从编码器传送到解码器。原始点云数据和原始亮度和色度信号被输入到编码器。几何编码模块1010生成已编码点云数据几何形状的比特流表示。这可采用八叉树分解或其他手段来表示比特流中的点云几何形状。原始点云数据和原始亮度和色度信号作为输入被提供给神经网络训练模块1004。该模块确定描述网络的连接的参数集合,该网络被设计用于根据点云数据生成亮度和色度值。该网络是基于原始点云信号来设计。如果点云数据编码器过程是有损的,则可令人期望的是使用对点云数据进行本地解码的结果(在模块1013处)作为对训练模块1004和神经网络1006的输入。由训练过程输出的权重被编码和写入到比特流。权重的解码版本被用作对神经网络的输入。在权重的无损编码的情况下,可直接使用训练过程的输出,从而避免对编码和解码循环的需要。神经网络由权重配置并且被给予包括点云几何数据的输入。神经网络产生预测的亮度和色度信号。通过计算原始亮度和预测亮度信号之间的差值以及还有每个原始色度分量和对应的预测色度分量之间的差值来产生残差信号。然后将残差信号编码到比特流中。作为残差编码过程的一部分,可将诸如空间变换编码等技术应用于残差信号。
图10B是由诸如图10A的编码器生成的比特流的一部分的示意图。根据一些实施方案,比特流以编码形式包括几何信息、神经网络权重和颜色残差信息。该实施方案的部分比特流内容包括:已编码点云数据,其描述点云的几何形状;已编码权重,其表征用于预测亮度和色度信号的神经网络;以及附加已编码残差,其被计算为原始亮度和色度信号与预测亮度和色度信号之间的差值。
图10C示出了解码器,该解码器接收比特流1016并且提取几何形状(在模块1018处)、神经网络权重(在模块1020处)和残差(在模块1022处)。几何形状被输入到由所提取的权重配置的神经网络1024。神经网络根据几何信息合成亮度和色度信号。当比特流中存在残差信号时,解码器可提取该残差信号并且将其添加到合成的亮度和色度信号(在1026处),以便产生重建的亮度和色度信号。当比特流中不存在残差信号时,解码器可将合成的亮度和色度信号用作重建的亮度和色度信号。在解码器处,渲染模块1028接收几何信息和重建的亮度和色度信号。渲染器输出着色的点云。
图10C的解码器接收包含已编码点云数据、已编码权重和已编码残差的比特流。对已编码点云数据进行解码以产生表征点云几何形状的已解码点云数据。对已编码权重进行解码以产生用于配置神经网络1024的已解码权重。对已编码残差数据进行解码以产生用于亮度和色度信号分量的残差信号。已解码点云数据被供应给3D渲染过程并且作为输入被供应给神经网络。神经网络由已解码权重配置,并且使用已解码点云数据来产生预测的亮度和色度信号。预测的亮度和色度信号被添加到对应的亮度和色度残差以产生重建的亮度和色度信号。重建的亮度和色度信号被提供给3D渲染过程,并且连同已解码点云数据一起被渲染。
图11A至图11C示出了点云编码器、由此类编码器生成的比特流的一部分以及操作用于对此类比特流进行解码的解码器。图11A至图11C的实施方案利用对几何形状、着色提示和颜色残差信息进行编码的比特流。图11A所示的编码器包括经由权重描述的预先训练的神经网络1102,并且操作用于处理包括几何信息的原始点云数据1104,并且可包括对应的亮度和色度信号(或另一种格式的颜色信息,诸如RGB)。该亮度和色度信号可对应于所扫描的对象或场景或者对应于内容的合成表示。编码器可具有若干编码参数,诸如目标比特率、编解码器工具、配置文件和水平设置。
在图11A的示例中,编码器可处理原始点云数据以构建没有亮度和色度信息的点云的几何形状的表示。提示搜索过程(模块1106)产生着色提示集合,神经网络1102使用该着色提示集合来生成用于点云的亮度和色度数据。该提示搜索可以是基于对代表性颜色特征点的识别或是经由在生成亮度和色度信号之后使残差最小化。提示和几何形状被提供给神经网络。神经网络的输出可包括对应于点云的合成的亮度和色度信息。可(在模块1108处)产生残差信号作为合成的亮度和色度信号与原始亮度和色度信号之间的差值。在模块1110处对点云几何形状进行编码,在模块1112处对颜色提示进行编码,并且在模块1114处对残差进行编码。编码器将代表性几何形状、提示和任选的亮度/色度残差写入比特流1116。
图11A的编码器执行提示选择过程以生成亮度/色度提示。该过程可包括对原始亮度/色度信号进行二次采样以产生稀疏亮度/色度表示,该稀疏亮度/色度表示然后可用作对神经网络的输入。在一些实施方案中,编码器可改变作为输入提供给神经网络的亮度/色度信息的量,同时观察由神经网络产生的亮度/色度预测的准确度,以便提供足够的亮度/色度提示信息以在预测输出中产生给定准确度水平。例如,可通过提供亮度/色度提示或通过增加所提供的亮度/色度提示的密度来减少亮度/色度预测残差的能量。
图11B描绘了比特流1116的部分比特流内容,包括已编码几何信息、已编码颜色提示和已编码残差信息。用在亮度/色度提示上的比特与用于对残差进行编码的比特之间的权衡可由编码器分析和设置。
图11C所示的解码器接收比特流1116并且提取几何形状和提示。几何形状由模块1118解码并且被输入到预定义神经网络1120,该预定义神经网络可与编码器处使用的神经网络1102相同。颜色提示由模块1122根据比特流来解码并且被提供给神经网络。神经网络1120基于几何形状和提示信息的输入来输出亮度和色度信号。当比特流中存在残差信号时,解码器可在模块1124处提取残差信号并且将其添加到合成的亮度和色度信号,以在模块1126处产生重建的亮度和色度信号。当比特流中不存在残差信号时,解码器可将合成的亮度和色度信号用作重建的亮度和色度信号。在解码器处,渲染模块1128接收几何信息和重建的亮度和色度信号。渲染模块1128可输出着色的点云。
在图11C的解码器处,已解码点云数据和已解码亮度/色度提示作为输入被提供给神经网络,该神经网络使用在编码器处使用的相同神经网络权重来配置。因此,解码器处的神经网络产生与在编码器侧产生的那些预测亮度/色度信号相同的预测亮度/色度信号。解码器将该预测信号与已解码亮度/色度残差信号进行组合,以便重建亮度/色度以进行显示。然后将重建的亮度/色度信号和已解码点云数据提供给3D渲染过程以显示给用户。
在图11A至图11C的示例中,神经网络权重不需要被编码到比特流中。在该示例中,相同的神经网络可用于不同的点云,其中颜色提示用于提供特定于正被渲染的点云的信息。此类通用着色神经网络的训练可离线执行(例如,甚至在编码器和解码器软件或硬件被分发以供使用之前)。
在不同的实施方案中,点云几何数据可以不同的格式被输入到神经网络。例如,在一些实施方案中,具有n个点的点云可作为n×3个值的集合被输入到神经网络,其中每个值对应于相应点的x,y,z坐标中的一个坐标。此类格式的点云可由神经网络处理,如在以下文章中描述的:Qi等人的“Pointnet:Deep learning on point sets for 3dclassification and segmentation”,2017年7月发表在IEEE Conference on ComputerVision and Pattern Recognition(CVPR)中。在一些实施方案中,点云可被转换为体积表示,对于多个体素中的每个体素,该体积表示包括关于相应体素的占用的信息(例如,指示体素中是否存在任何点的信息)。神经网络可操作用于针对每个体素输出相应的颜色坐标集合。在一些实施方案中,神经网络可接受每个点的x,y,z坐标形式的输入,并且为体积表示中的相应体素提供颜色坐标形式的输出。
在一些实施方案中可实现的用于使用神经网络来处理点云数据的解决方案包括以下技术:诸如,Pointnet(在Qi等人的上述文章中描述)、Pointnet++(在Qi等人的“Pointnet++:Deep hierarchical feature learning on point sets in a metricspace”中描述,发表在arXiv preprint arXiv:1706.02413,2017中)、kd-Networks(在Roman Klokov和Victor Lempitsky的“Escape from cells:Deep kd-networks for therecognition of 3d point cloud models”中描述,发表在arXiv preprint arXiv:1704.01222,2017中)以及3D Modified Fisher Vectors(在Ben-Shabat、Yizhak、Lindenbaum,M.和Fischer,A.的“3D Point Cloud Classification and Segmentationusing 3D Modified Fisher Vector Representation for Convolutional NeuralNetworks”中描述,发表在arXiv preprint arXiv:1711.08241,2017中)。
在一些实施方案中,用于对n个点进行着色的神经网络包括n×3个输入和n×3个输出,其中输入包括每个点的x,y,z坐标,并且输出包括三个颜色分量,该三个颜色分量可以是例如亮度分量和两个色度分量或者是三个RGB分量。此类神经网络可通过使用反向传播算法在具有颜色信息的训练点云集合上进行训练。例如,点云的几何形状(例如,点的坐标)可被提供给神经网络作为输入,神经网络的输出可与点的颜色分量进行比较,并且神经网络的权重可基于该比较来更新。当以体积(例如,基于体素的)表示来表示点云时,可实现类似的训练技术。
在一些实施方案中,初始地使用多个训练点云来执行对神经网络的训练以生成初始神经网络权重集合。随后,为了提供表征特定点云的颜色信息的神经网络,将该特定点云作为训练数据提供给神经网络,并且相应地更新神经网络权重。
在一些实施方案中,神经网络权重以差分形式提供给解码器,表示要用于当前点云的颜色预测的权重与用于前一点云的颜色预测的权重之间的差值,或者与默认权重集合之间的差值。
在一些实施方案中,多组不同的神经网络权重可用于不同类型的点云数据。例如,一些神经网络可更有效地预测表示植被的点云的颜色数据,并且其他点云可更有效地预测表示建筑特征的点云的颜色数据。提供给解码器的神经网络参数可包括识别一个或多个此类神经网络权重集合(解码器可预先存储这些神经网络权重或可能够通过网络检索这些神经网络权重)的信息。神经网络参数还可包括识别此类预定权重集合的变化的差分信息。
在一些实施方案中,点云数据可被渲染到单色2D图像,并且该单色2D图像数据可被输入到神经网络以进行着色。在一些实施方案中,点云数据可被渲染成3D体素格式,并且体素数据可被输入到神经网络以进行着色。
在一些实施方案中,点云数据可被渲染成输入到神经网络的2D深度投影格式。类似于2D透视图,根据视点来表示点云数据;然而,像素包含深度值。在3D深度投影视图的情况下,可能不需要光模型。
在一些实施方案中,对神经网络的输入是准备点云数据以输入到神经网络的任何上述方法的区域变体。例如,场景的子区域可被输入到神经网络,并且输出可包括用于对应区域的颜色信息。这样,该过程可能不需要表示该场景的整个空间数据集合。相反,空间数据可被划分为更小的集合。在将空间数据划分为区域的情况下,在编码器和解码器之间传送所划分的区域的标识可能是有用的。无论格式如何,表示点云数据的输入都可与本文所描述的任何压缩场景一起使用。
局部提示和全局提示可影响着色的结果。在一些实施方案中,局部提示是空间数据中的特定位置(例如,点云中的特定点或特定体素)的色值(例如,RGB或YCBCR值等)。在一些实施方案中,全局提示是颜色直方图。在一些实施方案中,全局提示是输入图像,该输入图像可用于导出颜色直方图。不同的颜色提示可导致不同的着色结果。在一些实施方案中,在率失真优化过程中选择颜色提示,以便基本上最小化用于发送颜色提示和颜色残差数据的信息量,同时保留着色输出的质量。在不同的实施方案中,可供应不同数量的局部颜色提示。
其他实施方案
在一些实施方案中,在内容服务器上执行用于对空间数据进行程序化着色的方法。在此类实施方案中,查看客户端可向内容服务器发送其用于查看点云的视点的指示。内容服务器可使用先前描述的用于对空间数据进行着色的过程根据所指示的视点来对点云进行着色。
在一些实施方案中,作为离线过程,服务器可处理预先记录的空间数据。空间数据集合的色值可离线创建,并且着色版本可基于客户端请求而被分发给查看客户端。在此类实施方案中,内容服务器可使用如前所述的用于对空间数据进行着色的过程。然而,不是基于所选视点来对数据进行着色,该过程而是可包括以覆盖整个空间数据区域的不同视点遍历空间数据,以便处理每个数据点。
在一些实施方案中,实现一种在汽车平台上实时使用的方法。例如,车辆的嵌入式传感器系统可能缺少RGB传感器,或者其RGB传感器可能例如由于占主导地位的环境条件(低光、强背光等)而无法产生色值。在此类场景中,着色可用于对由车辆传感器捕获的空间数据推断颜色。然后可使用着色的数据来例如向车辆的乘员提供可视化(例如,以便增加他们的态势感知)。
在一些实施方案中,提供了一种用于对点云和相关联的颜色(例如,亮度和色度)信息进行编码的方法。该方法包括使用神经网络训练过程来训练神经网络以产生神经网络参数(例如,权重集合)。神经网络训练过程使用表示点云的点云数据作为输入。神经网络训练过程还使用原始颜色信号(诸如原始亮度信号和原始色度信号)作为参考输出。点云数据作为输入应用于由神经网络参数集合限定的神经网络以产生颜色预测数据(例如,亮度和色度预测数据)。计算残差信号,该残差信号表示亮度和色度预测数据与原始亮度和色度信号之间的差值。生成比特流,该比特流包括点云的表示、神经网络参数和残差信号。比特流可通过网络被传输到解码器设备。
在一些实施方案中,点云的表示是点云数据的压缩表示。
在一些实施方案中,比特流此外包括颜色提示数据(例如,亮度和色度提示数据)。
在一些实施方案中,神经网络参数包括限定用于产生颜色(例如,亮度和色度)预测数据的神经网络的权重。
在用于解码和渲染具有颜色信息的点云的压缩表示的示例性方法中,客户端接收比特流,该比特流包括点云的表示、神经网络参数集合和残差信号。客户端从点云的表示中恢复点云数据。点云数据作为输入应用于由神经网络参数集合限定的神经网络以产生颜色(例如,亮度和色度)预测数据。颜色(例如,亮度和色度)预测数据与残差信号进行组合以产生恢复的颜色信号。然后,客户端可基于点云数据和恢复的颜色信号来渲染点云的3D表示。
在一些实施方案中,点云的表示是压缩表示,并且恢复点云数据的步骤包括将压缩表示解压缩。
在一些实施方案中,比特流此外包括颜色提示数据(例如,亮度和色度提示数据),并且颜色提示数据用作对神经网络的附加输入以产生颜色(例如,亮度和色度)预测数据。
在一些实施方案中,神经网络参数包括表征用于产生颜色预测数据的神经网络的权重。
在一些实施方案中,神经网络参数通过编码器处的训练过程来生成,其中对训练过程的输入包括至少点云数据、原始亮度信号和原始色度信号。
在用于对点云以及相关联的亮度和色度信息进行编码的示例性方法中,将点云几何数据和颜色提示集合输入到神经网络。神经网络操作用于确定亮度和色度预测数据。计算残差信号,该残差信号表示亮度和色度信息与所确定的亮度和色度预测数据之间的差值。生成比特流,该比特流包括点云的表示。比特流还可包括颜色提示集合和残差信号。比特流可通过网络被传输到解码器设备。
在一些实施方案中,点云的表示是点云数据的压缩表示。
在一些实施方案中,神经网络由编码器可用的神经网络参数集合限定。
在一些实施方案中,神经网络参数不是所生成的比特流的一部分。
在一些实施方案中,神经网络由神经网络训练过程所产生的神经网络参数集合限定,该神经网络训练过程涉及除了从比特流中恢复的点云数据之外的附加点云数据。
在一些实施方案中,神经网络由神经网络训练过程所产生的神经网络参数集合限定,该神经网络训练过程不涉及点云数据。
在用于解码和渲染具有颜色信息的点云的压缩表示的示例性方法中,客户端接收比特流,该比特流包括点云的表示、颜色提示集合和残差信号。点云数据是从点云的表示中恢复的。点云数据和颜色提示作为输入应用于神经网络以产生颜色(例如,亮度和色度)预测数据。亮度和色度预测数据与残差信号进行组合以产生恢复的亮度和色度信号。基于点云数据以及所恢复的亮度和色度信号来渲染点云的表示。
在一些实施方案中,点云的表示是压缩表示,并且恢复点云数据的步骤包括将压缩表示解压缩。
在一些实施方案中,神经网络由解码器可用的神经网络参数集合限定。在此类实施方案中,神经网络参数不一定是所接收的比特流的一部分。
在一些实施方案中,神经网络由神经网络训练过程所产生的神经网络参数集合限定,该神经网络训练过程涉及除了从比特流中恢复的点云数据之外的附加点云数据。
在一些实施方案中,神经网络由神经网络训练过程所产生的神经网络参数集合限定,该神经网络训练过程不涉及从比特流中恢复的点云数据。
在一些实施方案中,神经网络由与比特流分开接收的神经网络参数集合定义。
一些实施方案包括一种系统,该系统包括处理器和非暂态计算机可读介质,该非暂态计算机可读介质存储操作用于执行本文所描述的任何方法的指令。
在示例性实施方案中,一种用于对空间数据进行着色的方法包括:接收神经网络参数集合;确定参考色值集合;确定空间数据的视点;基于所确定的视点来渲染空间数据的2D视图;将所渲染的2D视图和参考色值集合作为输入应用于由神经网络参数集合限定的神经网络以产生着色的2D视图;以及基于空间数据和着色的2D视图来生成着色的空间数据。
在一些此类实施方案中,确定参考色值集合包括确定与来自空间数据的数据点子集相关联的色值集合。
在一些实施方案中,生成着色的空间数据包括将色值从着色的2D视图投影到空间数据的相关联点上。
在一些实施方案中,该方法还包括:确定空间数据的第二视点;基于该第二视点来渲染空间数据的第二2D视图;获得局部颜色提示,该局部颜色提示包括与来自先前生成的着色的空间数据的数据点子集相关联的色值集合;将第二渲染的2D视图和局部颜色提示作为输入应用于神经网络以产生第二着色的2D视图;以及基于空间数据和第二着色的2D视图来生成着色的空间数据。
在一些实施方案中,确定参考色值集合包括接收参考图像。该参考图像可以是来自应用程序的用户选择图像。
在一些实施方案中,空间数据与指示位置的元数据相关联,并且其中接收参考图像包括基于所指示的位置来搜索数据库。
在一些实施方案中,参考图像具有全局直方图和饱和度,并且将所渲染的2D视图和参考色值集合作为输入应用于神经网络操作用于产生着色的2D视图,该着色的2D视图再现参考图像的色彩设计。
在一些实施方案中,一种方法还包括:确定全局颜色提示;确定空间数据的第二视点;基于该第二视点来渲染空间数据的第二2D视图;将第二渲染的2D视图和全局颜色提示作为输入应用于神经网络以产生第二着色的2D视图;以及基于空间数据和第二着色的2D视图来生成着色的空间数据。对全局颜色提示的确定可包括:识别过程持续时间;基于该过程持续时间来确定权重;以及基于所确定的权重通过将来自参考图像的色值与来自着色的2D视图的色值进行混合来生成加权参考色值集合。
在一些实施方案中,确定空间数据的视点包括跟踪用户设备的位置和取向。
需注意,所描述的实施方案中的一个或多个实施方案的各种硬件元件被称为进行(即,执行、实行等)本文结合相应模块所描述的各种功能的“模块”。如本文所用,模块包括相关领域的技术人员认为适合于给定具体实施的硬件(例如,一个或多个处理器、一个或多个微处理器、一个或多个微控制器、一个或多个微芯片、一个或多个专用集成电路(ASIC)、一个或多个现场可编程门阵列(FPGA)、一个或多个存储器设备)。每个所述的模块还可包括用于执行被描述为由相应模块执行的一个或多个功能的可执行指令,并且需注意,这些指令可采取以下指令的形式或包括以下指令:硬件(即,硬连线)指令、固件指令、软件指令等,并且可被存储在任何合适的一个或多个非暂态计算机可读介质(诸如通常称为RAM、ROM等)中。
尽管上文以特定组合描述了特征和元件,但是本领域的普通技术人员将理解,每个特征或元件可单独使用或以与其他特征和元件的任何组合来使用。另外,本文所述的方法可在结合于计算机可读介质中以供计算机或处理器执行的计算机程序、软件或固件中实现。计算机可读存储介质的示例包括但不限于只读存储器(ROM)、随机存取存储器(RAM)、寄存器、高速缓存存储器、半导体存储器设备、磁介质(诸如内置硬盘和可移动磁盘)、磁光介质和光介质(诸如CD-ROM磁盘和数字通用光盘(DVD))。与软件相关联的处理器可用于实现用于WTRU、UE、终端、基站、RNC或任何主计算机的射频收发器。

Claims (15)

1.一种方法,所述方法包括:
接收比特流,所述比特流至少编码(i)用于点云的几何信息,(ii)神经网络参数数据,和(iii)残差颜色信号;
通过将所述几何信息作为输入供应给由所接收的神经网络参数数据表征的神经网络来产生用于所述点云的颜色预测数据;以及
将所述残差颜色信号添加到所述颜色预测数据以生成用于所述点云的重建颜色信号。
2.根据权利要求1所述的方法,所述方法还包括使用所述重建颜色信号来渲染所述点云的表示。
3.根据权利要求1至2中任一项所述的方法,其中所述神经网络参数数据包括神经网络权重集合。
4.根据权利要求1至2中任一项所述的方法,其中所述神经网络参数数据包括识别存储的神经网络权重集合的信息。
5.根据权利要求1至4中任一项所述的方法,其中所述比特流还对颜色提示数据进行编码,并且其中产生颜色预测数据还包括将所述颜色提示数据作为输入供应给所述神经网络。
6.根据权利要求1至5中任一项所述的方法,其中所述比特流还对局部颜色提示数据进行编码,所述局部颜色提示数据包括所述点云中至少一个相应位置的至少一个颜色样本,并且其中产生颜色预测数据还包括将所述局部颜色提示数据作为输入供应给所述神经网络。
7.根据权利要求1至6中任一项所述的方法,其中所述比特流还对包括颜色直方图数据的全局颜色提示数据进行编码,并且其中产生颜色预测数据还包括将所述全局颜色提示数据作为输入供应给所述神经网络。
8.根据权利要求1至7中任一项所述的方法,其中所述比特流还对包括颜色饱和度数据的全局颜色提示数据进行编码,并且其中产生颜色预测数据还包括将所述全局颜色提示数据作为输入供应给所述神经网络。
9.根据权利要求1至8中任一项所述的方法,其中产生颜色预测数据还包括将先前重建的点云的先前重建的颜色信号作为输入供应到所述神经网络中。
10.根据权利要求1至9中任一项所述的方法,其中针对所述点云产生的所述颜色预测数据包括用于所述点云中的多个点中的每个点的亮度和色度信息。
11.根据权利要求1至10中任一项所述的方法,其中所述几何信息以压缩形式被编码在所述比特流中,并且其中所述方法还包括将所述几何信息解压缩。
12.根据权利要求1至11中任一项所述的方法,其中用于所述点云的所述几何信息包括用于所述点云中的多个点中的每个点的位置信息。
13.一种装置,所述装置包括:
处理器,所述处理器被配置为执行至少:
接收比特流,所述比特流至少编码(i)用于点云的几何信息,(ii)神经网络参数数据,和(iii)残差颜色信号;
通过将所述几何信息作为输入供应给由所接收的神经网络参数数据表征的神经网络来产生用于所述点云的颜色预测数据;以及
将所述残差颜色信号添加到所述颜色预测数据以生成用于所述点云的重建颜色信号。
14.根据权利要求13所述的装置,其中所述神经网络参数数据包括神经网络权重集合。
15.根据权利要求13至14中任一项所述的装置,其中所述比特流还对颜色提示数据进行编码,并且其中产生颜色预测数据还包括将所述颜色提示数据作为输入供应给所述神经网络。
CN201980087752.7A 2018-12-14 2019-12-11 用于对空间数据进行程序化着色的系统和方法 Pending CN113273211A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201862779758P 2018-12-14 2018-12-14
US62/779,758 2018-12-14
PCT/US2019/065771 WO2020123686A1 (en) 2018-12-14 2019-12-11 System and method for procedurally colorizing spatial data

Publications (1)

Publication Number Publication Date
CN113273211A true CN113273211A (zh) 2021-08-17

Family

ID=69160321

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201980087752.7A Pending CN113273211A (zh) 2018-12-14 2019-12-11 用于对空间数据进行程序化着色的系统和方法

Country Status (4)

Country Link
US (2) US11961264B2 (zh)
EP (1) EP3895431A1 (zh)
CN (1) CN113273211A (zh)
WO (1) WO2020123686A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113996956A (zh) * 2021-10-22 2022-02-01 中国科学院上海光学精密机械研究所 基于图像颜色识别与图像变换的激光着色方法
CN114937123A (zh) * 2022-07-19 2022-08-23 南京邮电大学 基于多源影像融合的建筑建模方法、装置
WO2023155045A1 (zh) * 2022-02-15 2023-08-24 上海交通大学 预测的方法和装置、编码器、解码器和编解码系统

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112020630B (zh) * 2018-04-27 2024-06-28 北京嘀嘀无限科技发展有限公司 用于更新建筑物的3d模型的系统和方法
US11816868B2 (en) * 2020-08-14 2023-11-14 Tencent America LLC Coding of multiple-component attributes for point cloud coding
GB2598345B (en) * 2020-08-27 2023-04-19 Extend Robotics Ltd Remote operation of robotic systems
US20220201295A1 (en) * 2020-12-21 2022-06-23 Electronics And Telecommunications Research Institute Method, apparatus and storage medium for image encoding/decoding using prediction
CN112991473B (zh) * 2021-03-19 2023-07-18 华南理工大学 一种基于立方体模板的神经网络编码解码方法及系统

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070014478A1 (en) * 2005-07-15 2007-01-18 Samsung Electronics Co., Ltd. Apparatus, method, and medium for encoding/decoding of color image and video using inter-color-component prediction according to coding modes
US20170214943A1 (en) * 2016-01-22 2017-07-27 Mitsubishi Electric Research Laboratories, Inc. Point Cloud Compression using Prediction and Shape-Adaptive Transforms
US20180053324A1 (en) * 2016-08-19 2018-02-22 Mitsubishi Electric Research Laboratories, Inc. Method for Predictive Coding of Point Cloud Geometries
CN107925762A (zh) * 2015-09-03 2018-04-17 联发科技股份有限公司 基于神经网络的视频编解码处理方法和装置
CN108038906A (zh) * 2017-12-26 2018-05-15 山东师范大学 一种基于图像的三维四边形网格模型重建方法
CN108090960A (zh) * 2017-12-25 2018-05-29 北京航空航天大学 一种基于几何约束的目标重建方法
CN108320330A (zh) * 2018-01-23 2018-07-24 河北中科恒运软件科技股份有限公司 基于深度视频流的实时三维模型重建方法及系统
US20180268570A1 (en) * 2017-03-16 2018-09-20 Samsung Electronics Co., Ltd. Point cloud and mesh compression using image/video codecs
GB201813752D0 (en) * 2018-08-23 2018-10-10 Sony Interactive Entertainment Inc Method and system for reconstructing colour and depth information of a scene
CN108833927A (zh) * 2018-05-03 2018-11-16 北京大学深圳研究生院 一种基于删除量化矩阵中0元素的点云属性压缩方法
US20180341836A1 (en) * 2017-05-24 2018-11-29 General Electric Company Neural network point cloud generation system

Family Cites Families (49)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6201546B1 (en) 1998-05-29 2001-03-13 Point Cloud, Inc. Systems and methods for generating three dimensional, textured models
US20070036467A1 (en) * 2004-07-26 2007-02-15 Coleman Christopher R System and method for creating a high resolution material image
US7583857B2 (en) 2005-08-24 2009-09-01 Siemens Medical Solutions Usa, Inc. System and method for salient region feature based 3D multi modality registration of medical images
JP2008311782A (ja) * 2007-06-12 2008-12-25 Fuji Xerox Co Ltd 色処理装置、色処理方法およびプログラム
US8314791B2 (en) 2007-11-19 2012-11-20 Rdv Systems Ltd. Method and apparatus for determining view impact
CA2737724A1 (en) 2008-09-19 2010-03-25 The University Of Sydney A method and system of data modelling
US8280161B2 (en) * 2009-01-23 2012-10-02 Xerox Corporation Spot color table compensation
US20110115812A1 (en) 2009-11-13 2011-05-19 Harris Corporation Method for colorization of point cloud data based on radiometric imagery
US8525848B2 (en) 2009-11-16 2013-09-03 Autodesk, Inc. Point cloud decimation engine
US8570320B2 (en) 2011-01-31 2013-10-29 Microsoft Corporation Using a three-dimensional environment model in gameplay
US8471849B1 (en) 2012-03-19 2013-06-25 Google Inc. Prioritization of display of portions of three-dimensional object models
EA201492098A1 (ru) 2012-05-14 2015-04-30 Лука Россато Кодирование и декодирование на основании смешивания последовательностей выборок с течением времени
US9256961B2 (en) 2012-06-28 2016-02-09 Here Global B.V. Alternate viewpoint image enhancement
US8848201B1 (en) 2012-10-20 2014-09-30 Google Inc. Multi-modal three-dimensional scanning of objects
US20140198097A1 (en) 2013-01-16 2014-07-17 Microsoft Corporation Continuous and dynamic level of detail for efficient point cloud object rendering
NL2010463C2 (nl) 2013-03-15 2014-09-16 Cyclomedia Technology B V Werkwijze voor het genereren van een panoramabeeld.
US10013507B2 (en) 2013-07-01 2018-07-03 Here Global B.V. Learning synthetic models for roof style classification using point clouds
US9286717B2 (en) 2013-07-30 2016-03-15 Hewlett-Packard Development Company, L.P. 3D modeling motion parameters
WO2015106799A1 (en) 2014-01-14 2015-07-23 Sandvik Mining And Construction Oy Mine vehicle, mine control system and mapping method
US9619691B2 (en) 2014-03-07 2017-04-11 University Of Southern California Multi-view 3D object recognition from a point cloud and change detection
CN104978549B (zh) 2014-04-03 2019-04-02 北京邮电大学 三维人脸图像特征提取方法和系统
WO2016040153A1 (en) 2014-09-08 2016-03-17 Intel Corporation Environmentally mapped virtualization mechanism
WO2016040473A1 (en) 2014-09-10 2016-03-17 Vangogh Imaging, Inc. Real-time dynamic three-dimensional adaptive object recognition and model reconstruction
US9412361B1 (en) 2014-09-30 2016-08-09 Amazon Technologies, Inc. Configuring system operation using image data
WO2016069496A1 (en) 2014-10-26 2016-05-06 Galileo Group, Inc. Swarm approach to consolidating and enhancing smartphone target imagery by virtually linking smartphone camera collectors across space and time using machine-to-machine networks
US9767381B2 (en) 2015-09-22 2017-09-19 Xerox Corporation Similarity-based detection of prominent objects using deep CNN pooling layers as features
US10373380B2 (en) 2016-02-18 2019-08-06 Intel Corporation 3-dimensional scene analysis for augmented reality operations
US9986177B2 (en) 2016-03-09 2018-05-29 Galileo Group, Inc. Spectral enhancements to mobile devices
US10026230B2 (en) 2016-03-30 2018-07-17 Daqri, Llc Augmented point cloud for a visualization system and method
GB2550567A (en) 2016-05-20 2017-11-29 Nokia Technologies Oy Point Cloud Matching Method
US10694210B2 (en) 2016-05-28 2020-06-23 Microsoft Technology Licensing, Llc Scalable point cloud compression with transform, and corresponding decompression
US10282918B2 (en) 2016-09-20 2019-05-07 Siemens Healthcare Gmbh Two-dimensional cinematic medical imaging in color based on deep learning
KR102383427B1 (ko) 2016-12-16 2022-04-07 현대자동차주식회사 자율주행 제어 장치 및 방법
US10699421B1 (en) 2017-03-29 2020-06-30 Amazon Technologies, Inc. Tracking objects in three-dimensional space using calibrated visual cameras and depth cameras
CN107194983B (zh) 2017-05-16 2018-03-09 华中科技大学 一种基于点云与影像数据的三维可视化方法和系统
US10776982B2 (en) * 2017-07-03 2020-09-15 Artomatix Ltd. Systems and methods for providing non-parametric texture synthesis of arbitrary shape and/or material data in a unified framework
US10362296B2 (en) 2017-08-17 2019-07-23 Microsoft Technology Licensing, Llc Localized depth map generation
CN107862293B (zh) 2017-09-14 2021-05-04 北京航空航天大学 基于对抗生成网络的雷达生成彩色语义图像系统及方法
US11113845B2 (en) * 2017-09-18 2021-09-07 Apple Inc. Point cloud compression using non-cubic projections and masks
US10482575B2 (en) 2017-09-28 2019-11-19 Intel Corporation Super-resolution apparatus and method for virtual and mixed reality
DE102017011562A1 (de) 2017-12-14 2018-05-30 Daimler Ag Verfahren zur Umwandlung eines Rohbilds in ein Farbbild
US10740876B1 (en) 2018-01-23 2020-08-11 Facebook Technologies, Llc Systems and methods for generating defocus blur effects
EP3518001B1 (en) 2018-01-25 2020-09-16 Aptiv Technologies Limited Method for increasing the reliability of determining the position of a vehicle on the basis of a plurality of detection points
CN110139109B (zh) * 2018-02-08 2023-01-10 北京三星通信技术研究有限公司 图像的编码方法及相应终端
CN111837144A (zh) 2018-03-13 2020-10-27 奇跃公司 使用机器学习的增强图像深度感测
US11328474B2 (en) 2018-03-20 2022-05-10 Interdigital Madison Patent Holdings, Sas System and method for dynamically adjusting level of details of point clouds
EP3846910A1 (en) * 2018-09-07 2021-07-14 Henkel AG & Co. KGaA Method for determining a correspondance between hair coloring agents and hair coloring results
GB202001839D0 (en) 2020-02-11 2020-03-25 V Nova Int Ltd Use of tiered hierarchical coding for point cloud compression
WO2021212886A1 (en) 2020-04-24 2021-10-28 Shanghai United Imaging Healthcare Co., Ltd. Systems and methods for object recognition

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070014478A1 (en) * 2005-07-15 2007-01-18 Samsung Electronics Co., Ltd. Apparatus, method, and medium for encoding/decoding of color image and video using inter-color-component prediction according to coding modes
CN107925762A (zh) * 2015-09-03 2018-04-17 联发科技股份有限公司 基于神经网络的视频编解码处理方法和装置
US20170214943A1 (en) * 2016-01-22 2017-07-27 Mitsubishi Electric Research Laboratories, Inc. Point Cloud Compression using Prediction and Shape-Adaptive Transforms
US20180053324A1 (en) * 2016-08-19 2018-02-22 Mitsubishi Electric Research Laboratories, Inc. Method for Predictive Coding of Point Cloud Geometries
US20180268570A1 (en) * 2017-03-16 2018-09-20 Samsung Electronics Co., Ltd. Point cloud and mesh compression using image/video codecs
US20180341836A1 (en) * 2017-05-24 2018-11-29 General Electric Company Neural network point cloud generation system
CN108090960A (zh) * 2017-12-25 2018-05-29 北京航空航天大学 一种基于几何约束的目标重建方法
CN108038906A (zh) * 2017-12-26 2018-05-15 山东师范大学 一种基于图像的三维四边形网格模型重建方法
CN108320330A (zh) * 2018-01-23 2018-07-24 河北中科恒运软件科技股份有限公司 基于深度视频流的实时三维模型重建方法及系统
CN108833927A (zh) * 2018-05-03 2018-11-16 北京大学深圳研究生院 一种基于删除量化矩阵中0元素的点云属性压缩方法
GB201813752D0 (en) * 2018-08-23 2018-10-10 Sony Interactive Entertainment Inc Method and system for reconstructing colour and depth information of a scene

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
XU CAO 等: "Point Cloud Colorization Based on Densely Annotated 3D Shape Dataset", 《ARXIV.ORG CORNELL UNIVERSITY LIBRARY》 *
YI XIAO 等: "INTERACTIVE DEEP COLORIZATION WITH SIMULTANEOUS GLOBAL AND LOCAL INPUTS", 《ARXIV.ORG CORNELL UNIVERSITY LIBRARY》 *
史魁洋;: "一种改进的点云局部几何特征匹配方法", 现代计算机(专业版), no. 08 *
张月;戴宁;刘浩;李大伟;: "动态生长的自组织神经网络点云重建技术", 计算机辅助设计与图形学学报, no. 09 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113996956A (zh) * 2021-10-22 2022-02-01 中国科学院上海光学精密机械研究所 基于图像颜色识别与图像变换的激光着色方法
WO2023155045A1 (zh) * 2022-02-15 2023-08-24 上海交通大学 预测的方法和装置、编码器、解码器和编解码系统
CN114937123A (zh) * 2022-07-19 2022-08-23 南京邮电大学 基于多源影像融合的建筑建模方法、装置

Also Published As

Publication number Publication date
US20240212220A1 (en) 2024-06-27
EP3895431A1 (en) 2021-10-20
US11961264B2 (en) 2024-04-16
US20220005232A1 (en) 2022-01-06
WO2020123686A1 (en) 2020-06-18

Similar Documents

Publication Publication Date Title
US11961264B2 (en) System and method for procedurally colorizing spatial data
US20220309689A1 (en) System and method for optimizing dynamic point clouds based on prioritized transformations
US20240121418A1 (en) Apparatus and method for processing point cloud data
CN112106063A (zh) 用于动态调整点云的细节级别系统及方法
US11202051B2 (en) System and method for distributing and rendering content as spherical video and 3D asset combination
US20220130075A1 (en) Device and method for processing point cloud data
US20200252657A1 (en) A method and apparatus for encoding/decoding the geometry of a point cloud representing a 3d object
CN114175100A (zh) 用于处理点云数据的方法和装置
US20210166435A1 (en) Method and apparatus for encoding/decoding the geometry of a point cloud representing a 3d object
CN115918092A (zh) 点云数据发送装置、点云数据发送方法、点云数据接收装置和点云数据接收方法
CN114073085A (zh) 点云数据处理方法和设备
EP4325852A1 (en) Point cloud data transmission method, point cloud data transmission device, point cloud data reception method, and point cloud data reception device
US20230290006A1 (en) Point cloud data transmission device, point cloud data transmission method, point cloud data reception device, and point cloud data reception method
CN114073086A (zh) 点云数据处理设备和方法
EP4007284A1 (en) Point cloud data processing device and method
US20230232042A1 (en) Point cloud data transmission device, point cloud data transmission method, point cloud data reception device, and point cloud data reception method
JP7425207B2 (ja) ポイントクラウドデータ送信装置、ポイントクラウドデータ送信方法、ポイントクラウドデータ受信装置及びポイントクラウドデータ受信方法
WO2024093215A1 (en) Encoding/decoding point cloud geometry data
US20240062428A1 (en) Point cloud data transmission method, point cloud data transmission device, point cloud data reception method, and point cloud data reception device
US20230056576A1 (en) 3d point cloud enhancement with multiple measurements
US20230345008A1 (en) Point cloud data transmission device, point cloud data transmission method, point cloud data reception device, and point cloud data reception method
US20240196012A1 (en) Point cloud data transmission device, point cloud data transmission method, point cloud data reception device, and point cloud data reception method
WO2023179277A1 (en) Encoding/decoding positions of points of a point cloud encompassed in a cuboid volume
EP4387230A1 (en) Point cloud data transmission method, point cloud data transmission device, point cloud data reception method, and point cloud data reception device
EP4373098A1 (en) Point cloud data transmission device, point cloud data transmission method, point cloud data reception device, and point cloud data reception method

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20230712

Address after: Delaware

Applicant after: Interactive Digital VC Holdings

Address before: Wilmington, Delaware, USA

Applicant before: PCMS HOLDINGS, Inc.