CN115918070A - 基于视频的点云编解码的非二进制占用图 - Google Patents

基于视频的点云编解码的非二进制占用图 Download PDF

Info

Publication number
CN115918070A
CN115918070A CN202180033308.4A CN202180033308A CN115918070A CN 115918070 A CN115918070 A CN 115918070A CN 202180033308 A CN202180033308 A CN 202180033308A CN 115918070 A CN115918070 A CN 115918070A
Authority
CN
China
Prior art keywords
occupancy
pixels
value
encoded
video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202180033308.4A
Other languages
English (en)
Inventor
张翔
封薇薇
高文
刘杉
简兵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent America LLC
Original Assignee
Tencent America LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent America LLC filed Critical Tencent America LLC
Publication of CN115918070A publication Critical patent/CN115918070A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • G06T9/001Model-based coding, e.g. wire frame
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/597Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • H04N19/105Selection of the reference unit for prediction within a chosen coding or prediction mode, e.g. adaptive choice of position and number of pixels used for prediction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/176Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/182Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a pixel
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/184Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being bits, e.g. of the compressed video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/70Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

对使用视频点云编码编码的视频码流进行编码的方法和装置包括:获取源点云;基于该源点云生成包括一个或多个像素的占用图,与每个像素相关联的占用值是非二进制值;对该占用图进行编码以生成已编码占用图,其中该已编码占用图的块对应于占用图的一个或多个像素;基于该一个或多个像素选择块的占用值;以及基于所选择的占用值生成已编码视频码流。

Description

基于视频的点云编解码的非二进制占用图
相关申请的交叉引用
本申请要求于2021年6月4日提交的美国临时申请第63/197,274号和于2021年10月7日提交的美国申请第17/496,270号的优先权,这两个申请的公开内容通过引用整体并入本文。
技术领域
本公开涉及一组高级视频编解码技术,更具体地涉及包括非二进制占用图表示的基于视频的点云压缩。
背景技术
世界的高级三维(3D)表示正在实现更多的沉浸式交互和通信形式。它们还允许机器理解、解释和遨游我们的世界。点云已经被广泛地用作世界的3D表示。例如,它们可以在自主驾驶车辆中用于对象检测和定位;在地理信息系统(GIS)中用于映射,以及在文化遗产中用于可视化和存档文化遗产对象和收藏品等。与点云数据相关联的若干使用情况已经被识别出来,并且已经开发了点云表示和压缩的一些对应条件。
点云包含一组高维点(例如,三维(3D)),每个点包括3D位置信息和诸如颜色、反射率等的附加属性。可以使用多个摄像头和深度传感器或各种设置的激光雷达来捕获点云,并且点云可以由数千到数十亿个点组成以真实地表示原始场景。
需要压缩技术来减少表示点云所需的数据量,以进行更快的传输或减少存储。ISO/IEC MPEG(JTC 1/SC 29/WG 11)已经创建了ad-hoc组(MPEG-PCC)来标准化用于静态或动态云的压缩技术。
发明内容
在实施例中,一种对使用视频点云编码编码的视频码流进行编码的方法由至少一个处理器执行并且包括:获取源点云;基于该源点云生成包括一个或多个像素的占用图,与每个像素相关联的占用值是非二进制值;对该占用图进行编码以生成已编码占用图,其中该已编码占用图的块对应于占用图的一个或多个像素;基于该一个或多个像素选择块的占用值;以及基于所选择的占用值生成已编码视频码流。
在实施例中,一种用于使用视频点云编码对视频码流进行编码的装置包括至少一个存储器,该至少一个存储器被配置为存储程序代码;以及至少一个处理器,该至少一个处理器被配置为读取程序代码并按照程序代码的指示进行操作,程序代码包括第一获取代码,该第一获取代码被配置为使至少一个处理器获取源点云;第一生成代码,该第一生成代码被配置为使至少一个处理器基于源点云生成包括一个或多个像素的占用图,与每个像素相关联的占用值是非二进制值;编码代码,该编码代码被配置为使至少一个处理器对占用图进行编码以生成已编码占用图,其中该已编码占用图的块对应于占用图的一个或多个像素;选择代码,该选择代码被配置为使至少一个处理器基于一个或多个像素选择块的占用值;以及第二生成代码,该第二生成代码被配置为使至少一个处理器基于所选择的占用值生成已编码视频码流。
在实施例中,一种存储使用视频点云编码对视频码流进行编码的计算机指令的非易失性计算机可读介质,该指令在由至少一个处理器执行时,使该至少一个处理器:获取源点云;基于该源点云生成包括一个或多个像素的占用图,与每个像素相关联的占用值是非二进制值,对该占用图进行编码以生成已编码占用图,其中该已编码占用图的块对应于占用图的一个或多个像素;基于该一个或多个像素选择块的占用值;以及基于所选择的占用值生成已编码视频码流。
附图说明
从以下详细描述和附图中,所公开的主题的进一步特征、性质及各种优点将更加明显,其中:
图1是根据实施例的通信系统的简化框图的示意图。
图2是根据实施例的流媒体系统的简化框图的示意图。
图3是根据实施例的视频编码器的简化框图的示意图。
图4是根据实施例的视频解码器的简化框图的示意图。
图5图示了根据实施例的B×B部分被占用块的示例。
图6图示了根据实施例的4×4块的16比特占用表示的示例。
图7图示了根据实施例的4×4块的8比特占用表示的示例。
图8图示了根据实施例的4×4块的4比特占用表示的示例。
图9是图示由实施例执行的过程的流程图。
图10是图示根据实施例的设备的图。
图11是适合于实施各实施例的计算机系统的图。
具体实施方式
基于视频的点云压缩(V-PCC)背后的考虑是利用现有视频编解码器来将动态点云的几何形状、占用情况和纹理压缩成三个单独的视频序列。可以分别压缩解释三个视频序列所需的额外元数据。整个码流的一小部分是元数据,其可以使用软件实施方案来有效地编码/解码。大量信息可以由视频编解码器处理。
本公开的实施例涉及退火迭代几何平滑,以避免迭代平滑框架中的过平滑。本公开的实施例涉及使用平均值和中值统计的组合来导出参考点,旨在降低使用纯中值的计算复杂度。
参考图1至图4,描述了用于实施本公开的编码和解码结构的本公开的实施例。本公开的编码和解码结构可以实施上述V-PCC的各方面。
图1图示了根据本公开的实施例的通信系统100的简化框图。系统100可以包括经由网络150互连的至少两个终端110、120。对于数据的单向传输,第一终端110可以对本地位置处的视频数据进行编码,以便经由网络150传输到另一终端120。第二终端120可以从网络150接收另一终端的已编码视频数据,对已编码数据进行解码并显示恢复的视频数据。单向数据传输在媒体服务应用等中可能是常见的。
图1图示了第二对终端130、140,其被提供用于支持例如在视频会议期间可能发生的已编码视频的双向传输。对于数据的双向传输,每个终端130、140可以对在本地位置处捕获的视频数据进行编码,以便经由网络150传输到另一终端。每个终端130、140还可以接收由另一终端传输的已编码视频数据,可以对该已编码数据进行解码,并且可以在本地显示设备处显示恢复的视频数据。
在图1中,终端110至140可以是例如服务器、个人计算机和智能电话和/或任何其它类型的终端。例如,终端(110至140)可以是膝上型计算机、平板计算机、媒体播放器和/或专用视频会议设备。网络150表示在终端110至140之间传送已编码视频数据的任意数目的网络,包括例如有线和/或无线通信网络。通信网络150可以在电路交换和/或分组交换信道中交换数据。代表性网络包括电信网络、局域网、广域网和/或因特网。为了本讨论的目的,网络150的体系结构和拓扑结构对于本公开的操作可以是不重要的,除非下面给出解释。
作为所公开的主题的应用示例,图2图示了视频编码器和解码器在流媒体环境中的放置。所公开的主题可以与其它能够实现视频的应用一起使用,包括例如视频会议、数字TV、在包括CD、DVD、记忆棒等的数字媒体上存储压缩的视频等。
如图2所图示,流媒体系统200可以包括捕获子系统213,该捕获子系统213包括视频源201和编码器203。流媒体系统200可以进一步包括至少一个流媒体服务器205和/或至少一个流媒体客户端206。
视频源201可以创建例如包括对应于3D视频的3D点云的码流202。视频源201可以包括例如3D传感器(例如,深度传感器)或3D成像技术(例如,一个或多个数字摄像头),以及被配置为使用从3D传感器或3D成像技术接收的数据来生成3D点云的计算设备。与已编码视频码流相比可能具有高数据量的样本码流202可以由耦合到视频源201的编码器203处理。编码器203可以包括硬件、软件或其组合,以实现或实施以下更详细描述的所公开的主题的各方面。编码器203还可以生成已编码视频码流204。与未压缩的码流202相比可能具有较低数据量的已编码视频码流204可以被存储在流媒体服务器205上以供将来使用。一个或多个流媒体客户端206可以访问流媒体服务器205以检索可以是已编码视频码流204的副本的视频码流209。
流媒体客户端206可以包括视频解码器210和显示器212。视频解码器210可以例如对作为已编码视频码流204的输入副本的视频码流209进行解码,并且创建可以在显示器212或另一渲染设备(未描绘)上渲染的输出视频样本码流211。在一些流媒体系统中,视频码流204、209可以根据某些视频编解码/压缩标准被编码。这种标准的示例包括但不限于ITU-T建议H.265、通用视频编解码(VVC),和MPEG/V-PCC。
参考图3至图4,下面描述可以由本公开的实施例执行的V-PCC的一些方面。
图3图示了根据本公开的实施例的视频编码器203的示例功能框图。
如图3所图示,视频编码器203可以接收一个或多个点云帧350,并基于点云帧350生成几何图像352、纹理图像356,和占用图334。视频编码器203可以将几何图像352压缩成压缩的几何图像362,将纹理图像356压缩成压缩的纹理图像364,以及将占用图334压缩成压缩的占用图372。视频编码器203的多路复用器328可以形成压缩的码流374,该压缩的码流374包括压缩的几何图像362、压缩的纹理图像364和压缩的占用图372。
更具体地,在实施例中,视频编码器203可以包括将点云帧350分割成图像块的图像块生成模块302。图像块是V-PCC的有用实体。图像块生成过程包括将点云帧350分解成具有平滑边界的最小数目的图像块,同时还使重建误差最小化。本公开的编码器可以实施各种方法来生成这种分解。
视频编码器203可以包括执行打包过程的图像块打包模块304。打包过程包括将提取的图像块映射到2D网格上,同时使未使用空间最小化并保证网格的每个M×M(例如,16×16)块与唯一图像块相关联。有效的图像块打包通过使未使用空间最小化或确保时间一致性来直接影响压缩效率。图像块打包模块304可以生成占用图334。
视频编码器203可以包括几何图像生成模块306和纹理图像生成模块308。为了更好地处理多个点被投影到相同样本的情况,每个图像块可以被投影到被称为层的两个图像上。例如,几何图像生成模块306和纹理图像生成模块308可以利用在图像块打包模块304的打包过程期间计算出的3D到2D映射来将点云的几何形状和纹理存储为图像(也称为层)。可以根据提供为参数的配置,将生成的图像/层存储为一个或多个视频帧,并使用视频编解码器(例如,HM视频编解码器)对其进行压缩。
在实施例中,基于输入点云帧350和占用图334,几何图像生成模块306生成几何图像352,纹理图像生成模块308生成纹理图像356。在实施例中,几何图像352可以由YUV420-8比特格式的单色WxH帧表示。在实施例中,占用图334图像由二进制图组成,该二进制图为网格的每个单元指示该单元属于空白空间还是属于点云。为了生成纹理图像356,纹理图像生成模块308可以利用重建/平滑的几何形状358来计算要与重新采样的点相关联的颜色。
视频编码器203还可以包括图像填充模块314和图像填充模块316,用于分别填充几何图像352和纹理图像356,以形成填充的几何图像354和填充的纹理图像360。图像填充(也称为“背景填充”)仅用冗余信息填充图像的未使用空间。良好的背景填充是一种最低限度地增加比特率而不在图像块边界周围引入显著编解码失真的填充。图像填充模块314和图像填充模块316可以使用占用图334来分别形成填充的几何图像354和填充的纹理图像360。在实施例中,视频编码器203可以包括群组扩张模块320以形成填充的纹理图像360。
视频编码器203可以包括视频压缩模块322和视频压缩模块324,用于将填充的几何图像354和填充的纹理图像360分别压缩成压缩的几何图像362和压缩的纹理图像364。
视频编码器203可以包括:用于占用图334的无损编码366的熵压缩模块318,以及用于占用图334的有损编码368的视频压缩模块326。
在实施例中,视频编码器203可以包括平滑模块310,用于通过使用由视频压缩模块322提供的重建的几何图像365以及图像块信息332来生成平滑的几何形状358。平滑模块310的平滑过程可以旨在减轻由于压缩伪像而在图像块边界处出现的潜在不连续性。平滑的几何形状358可以由纹理图像生成模块308用来生成纹理图像356。
视频编码器203还可以包括辅助图像块信息压缩模块312,用于形成由多路复用器328在压缩的码流374中提供的压缩的辅助图像块信息370。
图4图示了根据本公开的实施例的视频解码器210的示例功能框图。
如图4所图示,视频解码器210可以从视频编码器203接收已编码码流374,以获取压缩的纹理图像362、压缩的几何图像364、压缩的占用图372,和压缩的辅助图像块信息370。视频解码器210可以对压缩的纹理图像362、压缩的几何图像364、压缩的占用图372,和压缩的辅助图像块信息370进行解码,以分别获取解压缩的纹理图像460、解压缩的几何图像462、解压缩的占用图464,和解压缩的辅助图像块信息466。接下来,视频解码器210可以基于解压缩的纹理图像460、解压缩的几何图像462、解压缩的占用图464,和解压缩的辅助图像块信息466来生成重建的点云474。
在实施例中,视频解码器210可以包括解复用器402,该解复用器402从所接收的压缩的码流374分离出压缩的纹理图像362、压缩的几何图像364、压缩的占用图372,和压缩的辅助图像块信息370。
视频解码器210可以包括视频解压缩模块404、视频解压缩模块406、占用图解压缩模块408,和辅助图像块信息解压缩模块410,这些模块分别对压缩的纹理图像362、压缩的几何图像364、压缩的占用图372,和压缩的辅助图像块信息370进行解码。
视频解码器210可以包括几何形状重建模块412,该几何形状重建模块412基于解压缩的几何图像462、解压缩的占用图464,和解压缩的辅助图像块信息466获取重建的(三维)几何形状468。
视频解码器210可以包括平滑模块414,该平滑模块414对重建的几何形状468进行平滑以获取平滑的几何形状470。平滑过程可以旨在减轻由于压缩伪像而在图像块边界处出现的潜在不连续性。
视频解码器210可以包括纹理重建模块416,用于基于解压缩的纹理图像460和平滑的几何形状470获取重建的纹理472。
视频解码器210可以包括颜色平滑模块418,该颜色平滑模块418对重建的纹理472的颜色进行平滑以获取重建的点云474。3D空间中的非相邻图像块通常在2D视频中彼此相邻地被打包。这意味着来自非相邻图像块的像素值可能被基于块的视频编解码器混合。颜色平滑模块418的颜色平滑可以旨在减少出现在图像块边界处的可见伪像。
基于视频的点云压缩(V-PCC)中的占用图
在可以对应于V-PCC的MPEG PCC测试模型类别2(TMC2)模型中,占用图可以是二进制图像,其中图像中的每个二进制像素指示是否存在投影到其上的至少一个3D点。
可以以B×B块的精度对占用图进行编码。B是用户定义的参数。为了实现无损编码,B0应当被设置为1。实际上,B=2或B=4会带来视觉上可接受的结果,同时显著减少对占用图进行编码所需的比特数目。
当占用图块被占用时,即使仅部分被占用,块中的所有点也将在解码过程期间被重建—占用精度等于4,每个块的重建的点的数目为16。在最极端的情况下,单个被占用位置足以将对应占用图块标记为被占用。结果是,在解码过程期间,将生成16个点而不是仅生成1个点(假设占用精度等于4)。
在V-PCC中,占用图被约束为二进制。当占用精度B大于1时,这可能导致几何失真。例如在图5中,B=4,块被标记为“X”的像素部分占用。然而,重建的占用图中的所有16个像素均将被占用。
本文公开的实施例可以单独使用或以任何顺序组合使用。进一步地,实施例(例如,编码器和解码器)中的每一个可以由处理电路(例如,一个或多个处理器或者一个或多个集成电路)实施。在一个示例中,一个或多个处理器执行存储在非易失性计算机可读介质中的程序。
在实施例中,占用图可以是非二进制的,即,其像素值可以大于1。例如,如果占用图由8比特表示,则其值可以为0、1、2、……255。
非二进制占用图中的每个值可以表示对应B×B块的占用状态的特定模式。可以在码流的高阶语法中发信号通知占用图的比特深度。也可以在码流的高阶语法中发信号通知非二进制占用值到占用状态的映射策略。
在一个实施例中,B=4,并且16比特可以用于表示4×4块的占用模式的所有组合。作为示例,可以使用16比特的最高有效比特(MSB)来表示块中左上像素的占用状态;并且使用16比特的最低有效比特(LSB)来表示块中右下像素的占用状态;以及使用MSB与LSB之间的比特以光栅扫描顺序来表示其余像素的占用状态。如图6所示,可视化了16比特占用表示和对应模式的一些示例。然而,在实施例中,可以使用任何映射策略。
在另一实施例中,B=4,并且仅允许8比特来表示4×4块的占用模式。因此,它是所有占用模式的子集的表示。例如,可以使用每个比特来表示每两个像素的占用状态。例如,如果一个比特等于1,则这可以指示对应于该比特的两个像素均被占用;否则,两个像素均为空白。示例示于图7中。然而,在实施例中,可以使用任何映射策略。
在另一实施例中,B=4,并且仅允许4比特来表示4×4块的占用模式。因此,它是所有占用模式的子集的表示。例如,可以使用每个比特来表示每四个像素的占用状态。例如,如果一个比特等于1,则这可以指示四个像素均被占用;否则,四个像素均为空白。示例示于图8中。然而,在实施例中,可以使用任何映射策略。
在实施例中,可以通过有损或无损编解码来对非二进制占用图进行编码。
图9是方法900的流程图。在一些实施方案中,图9的一个或多个过程框可以由编码器203执行。在一些实施方案中,图9的一个或多个过程框可以由与编码器203分离或包括编码器203的另一设备或一组设备来执行,诸如解码器210。
如图9所示,在操作910中,方法900可以包括获取源点云。
在操作920中,方法900可以包括基于源点云生成包括一个或多个像素的占用图。在实施例中,与每个像素相关联的占用值可以是非二进制值。
在操作930中,方法900可以包括对占用图进行编码以生成已编码占用图,其中该已编码占用图的块对应于占用图的一个或多个像素。
在操作940中,方法900可以包括基于一个或多个像素选择块的占用值。
在操作950中,方法900可以包括基于所选择的占用值生成已编码视频码流。
在实施例中,一个或多个像素的数目可以为16,并且占用值可以为16比特的值。
在实施例中,16比特的值的每个比特可以用于发信号通知一个或多个像素中的对应像素的占用情况。
在实施例中,占用值的最高有效比特可以用于发信号通知一个或多个像素中的左上像素的占用情况,占用值的最低有效比特可以用于发信号通知一个或多个像素中的右下像素的占用情况,并且占用值的剩余比特可以用于以光栅扫描顺序发信号通知一个或多个像素中的剩余像素。
在实施例中,一个或多个像素的数目可以为16,并且占用值可以为8比特的值。
在实施例中,8比特的值的每个比特可以用于发信号通知一个或多个像素中的两个对应像素的占用情况。
在实施例中,一个或多个像素的数目可以为16,并且占用值可以为4比特的值。
在实施例中,4比特的值的每个比特可以用于发信号通知一个或多个像素中的四个对应像素的占用情况。
在实施例中,可以使用有损或无损编解码来对已编码占用图进行编码。
尽管图9示出了方法900的示例框,但是在一些实施方案中,方法900可以包括相比图9中描绘的那些框更多的框、更少的框、不同的框或不同布置的框。附加地或可选地,方法900的框中的两个或更多个可以并行地执行。
图10是根据实施例的用于使用视频点云编码对视频码流进行编码的装置1000的图。如图10所示,装置800包括第一获取代码1010、第一生成代码1020、编码代码1030、选择代码1040和第二生成代码1050。
第一获取代码1010可以被配置为使至少一个处理器获取源点云。
第一生成代码1020可以被配置为使至少一个处理器基于源点云生成包括一个或多个像素的占用图。在实施例中,与每个像素相关联的占用值可以是非二进制值。
编码代码1030可以被配置为使至少一个处理器对占用图进行编码以生成已编码占用图,其中该已编码占用图的块对应于占用图的一个或多个像素。
选择代码1040可以被配置为使至少一个处理器基于一个或多个像素选择块的占用值。
第二生成代码1050可以被配置为使至少一个处理器基于所选择的占用值生成已编码视频码流。
上述技术可以被实施为使用计算机可读指令并物理地存储在一个或多个计算机可读介质中的计算机软件。例如,图11示出了适合于实施本公开的某些实施例的计算机系统1100。
可以使用任何合适的机器代码或计算机语言对计算机软件进行编码,该机器代码或计算机语言可以通过汇编、编译、链接或类似机制来创建代码,该代码包括可以由计算机中央处理单元(CPU)、图形处理单元(GPU)等直接或通过解释、微代码执行等执行的指令。
指令可以在各种类型的计算机或其组件上执行,包括例如个人计算机、平板计算机、服务器、智能电话、游戏设备、物联网设备等。
图11所示的用于计算机系统1100的组件是示例,并且不旨在对实施本公开的实施例的计算机软件的使用范围或功能性提出任何限制。组件的配置也不应被解释为对计算机系统1100的非限制性实施例中所图示的任一个组件或其组合具有任何依赖性或要求。
计算机系统1100可以包括某些人机接口输入设备。这种人机接口输入设备可以响应于一个或多个人类用户通过例如触觉输入(诸如:击键、滑动、数据手套移动)、音频输入(诸如:语音、拍打)、视觉输入(诸如:手势)、嗅觉输入(未描绘)的输入。人机接口设备还可以用于捕获不一定与人的有意识输入直接相关的某些介质,诸如音频(诸如:语音、音乐、环境声音)、图像(诸如:扫描图像、从静止图像摄像头获取的摄影图像)、视频(诸如二维视频、包括立体视频的三维视频)。
输入人机接口设备可以包括以下各项中的一者或多者(每种仅描绘了一个):键盘1101、鼠标1102、触控板1103、触摸屏1110、数据手套、操纵杆1105、麦克风1106、扫描仪1107、摄像头1108。
计算机系统1100还可以包括某些人机接口输出设备。这种人机接口输出设备可以通过例如触觉输出、声音、光和嗅觉/味觉来刺激一个或多个人类用户的感觉。这种人机接口输出设备可以包括触觉输出设备(例如,通过触摸屏1110、数据手套,或操纵杆1105的触觉反馈,但是也可以有不用作输入设备的触觉反馈设备)。例如,这种设备可以是音频输出设备(诸如:扬声器1109、耳机(未描绘))、视觉输出设备(诸如屏幕1110,包括CRT屏幕、LCD屏幕、等离子屏幕、OLED屏幕,其各自具有或不具有触摸屏输入能力,各自具有或不具有触觉反馈能力—其中一些能够通过诸如立体输出的方式输出二维视觉输出或多于三维输出;虚拟现实眼镜(未描绘)、全息显示器和烟雾罐(未描绘)),以及打印机(未描绘)。
计算机系统1100还可以包括人类可访问的存储设备及其相关联的介质,诸如包括具有CD/DVD的CD/DVD ROM/RW 1120等介质的光学介质1121、拇指驱动器1122、可移动硬盘驱动器或固态驱动器1123、诸如磁带和软盘(未描绘)的传统磁性介质、诸如安全软件狗(未描绘)的基于专用ROM/ASIC/PLD的设备等。
本领域技术人员还应当理解,结合当前公开的主题使用的术语“计算机可读介质”不涵盖传输介质、载波或其它易失性信号。
计算机系统1100还可以包括到一个或多个通信网络的接口。网络可以是例如无线的、有线的、光学的。网络还可以是本地的、广域的、城域的、车载的和工业的、实时的、延迟容忍的等等。网络的示例包括诸如以太网的局域网、无线LAN、包括GSM、3G、4G、5G、LTE等的蜂窝网络、包括有线电视、卫星电视和地面广播电视的TV有线或无线广域网、包括CANBus的车辆和工业网络等。某些网络通常需要附接到某些通用数据端口或外围总线1149的外部网络接口适配器(例如,计算机系统1100的USB端口;其它网络通常通过附接到如下所述的系统总线而集成到计算机系统1100的核心中(例如,以太网接口集成到PC计算机系统中或蜂窝网络接口集成到智能电话计算机系统中)。使用这些网络中的任一者,计算机系统1100可以与其它实体进行通信。这种通信可以是单向的仅接收(例如,广播TV)、单向的仅发送(例如,CANbus到某些CANbus设备),或双向的,例如到使用局域或广域数字网络的其它计算机系统。这种通信可以包括到云计算环境1155的通信。可以在如上所述的那些网络和网络接口中的每一者上使用某些协议和协议栈。
上述人机接口设备、人类可访问的存储设备和网络接口1154可以附接到计算机系统1100的核心1140。
核心1140可以包括一个或多个中央处理单元(CPU)1141、图形处理单元(GPU)1142、现场可编程门阵列(FPGA)形式的专用可编程处理单元1143、用于某些任务的硬件加速器1144等。这些设备连同只读存储器(ROM)1145、随机存取存储器1146、诸如内部非用户可访问的硬盘驱动器、SSD等的内部大容量存储器1147可以通过系统总线1148连接。在一些计算机系统中,系统总线1148可以以一个或多个物理插头的形式访问,以使得能够通过附加CPU、GPU等进行扩展。外围设备可以直接或通过外围总线1149附接到核心的系统总线1148。外围总线的体系结构包括PCI、USB等。图形适配器1150可以包括在核心1140中。
CPU 1141、GPU 1142、FPGA 1143和加速器1144可以执行某些指令,这些指令的组合可以构成上述计算机代码。该计算机代码可以存储在ROM 1145或RAM 1146中。过渡数据也可以存储在RAM 1146中,而永久数据可以存储在例如内部大容量存储器1147中。可以通过使用高速缓存存储器来启用对存储器设备中的任一个的快速存储和检索,高速缓存存储器可以与一个或多个CPU 1141、GPU 1142、大容量存储器1147、ROM 1145、RAM 1146等紧密关联。
计算机可读介质可以在其上具有用于执行各种计算机实施的操作的计算机代码。介质和计算机代码可以是为了本公开的目的而专门设计和构建的那些,或者它们可以是计算机软件领域的技术人员公知和可用的类型。
作为示例而非限制,具有体系结构的计算机系统1100,并且特别是核心1140可以提供功能性以作为一个或多个处理器(包括CPU、GPU、FPGA、加速器等)执行体现在一个或多个有形的计算机可读介质中的软件的结果。这种计算机可读介质可以是与如上所介绍的用户可访问的大容量存储器相关联的介质,以及具有非易失性性质的核心1140的某些存储器,诸如核心内部大容量存储器1147或ROM 1145。实施本公开的各种实施例的软件可以存储在这种设备中并由核心1140执行。根据特定需要,计算机可读介质可以包括一个或多个存储器设备或芯片。软件可以使核心1140并且特别是其中的处理器(包括CPU、GPU、FPGA等)执行本文描述的特定过程或特定过程的特定部分,包括定义存储在RAM 1146中的数据结构并且根据由软件定义的过程修改这种数据结构。另外或作为替代,计算机系统可以提供功能性以作为逻辑硬连线或以其它方式体现在电路(例如:加速器1144)中的结果,该电路可以代替软件或与软件一起操作以执行本文描述的特定过程或特定过程的特定部分。在适当的情况下,对软件的引用可以涵盖逻辑,反之亦然。在适当的情况下,对计算机可读介质的引用可以涵盖存储用于执行的软件的电路(诸如集成电路(IC))、体现用于执行的逻辑的电路,或两者。本公开涵盖硬件和软件的任何合适的组合。
虽然本公开已经描述了若干非限制性实施例,但是存在属于本公开的范围内的改变、变换和各种替代等同物。因此应当理解,本领域技术人员将能够设计许多系统和方法,这些系统和方法尽管未在本文中明确示出或描述,但体现本公开的原理,并且因此在本公开的精神和范围内。

Claims (20)

1.一种对使用视频点云编码编码的视频码流进行编码的方法,其特征在于,所述方法由至少一个处理器执行并且包括:
获取源点云;
基于所述源点云生成包括一个或多个像素的占用图,与每个像素相关联的占用值是非二进制值;
对所述占用图进行编码以生成已编码占用图,其中所述已编码占用图的块对应于所述占用图的所述一个或多个像素;
基于所述一个或多个像素选择所述块的占用值;以及
基于所选择的占用值生成已编码视频码流。
2.根据权利要求1所述的方法,其特征在于,所述一个或多个像素的数目为16,并且其中所述占用值为16比特的值。
3.根据权利要求2所述的方法,其特征在于,所述16比特的值的每个比特用于发信号通知所述一个或多个像素中的对应像素的占用情况。
4.根据权利要求2所述的方法,其特征在于,所述占用值的最高有效比特用于发信号通知所述一个或多个像素中的左上像素的占用情况,
其中,所述占用值的最低有效比特用于发信号通知所述一个或多个像素中的右下像素的占用情况,并且
其中,所述占用值的剩余比特用于以光栅扫描顺序发信号通知所述一个或多个像素中的剩余像素。
5.根据权利要求1所述的方法,其特征在于,所述一个或多个像素的数目为16,并且其中所述占用值为8比特的值。
6.根据权利要求5所述的方法,其特征在于,所述8比特的值的每个比特用于发信号通知所述一个或多个像素中的两个对应像素的占用情况。
7.根据权利要求1所述的方法,其特征在于,所述一个或多个像素的数目为16,并且其中所述占用值为4比特的值。
8.根据权利要求7所述的方法,其特征在于,所述4比特的值的每个比特用于发信号通知所述一个或多个像素中的四个对应像素的占用情况。
9.根据权利要求1所述的方法,其特征在于,所述已编码占用图是使用有损编码进行编码的。
10.根据权利要求1所述的方法,其特征在于,所述已编码占用图是使用无损编码进行编码的。
11.一种用于使用视频点云编码对视频码流进行编码的装置,其特征在于,所述装置包括:
至少一个存储器,所述至少一个存储器被配置为存储程序代码;以及
至少一个处理器,所述至少一个处理器被配置为读取所述程序代码并按照所述程序代码的指示进行操作,所述程序代码包括:
第一获取代码,所述第一获取代码被配置为使所述至少一个处理器获取源点云;
第一生成代码,所述第一生成代码被配置为使所述至少一个处理器基于所述源点云生成包括一个或多个像素的占用图,与每个像素相关联的占用值是非二进制值;
编码代码,所述编码代码被配置为使所述至少一个处理器对所述占用图进行编码以生成已编码占用图,其中所述已编码占用图的块对应于所述占用图的所述一个或多个像素;
选择代码,所述选择代码被配置为使所述至少一个处理器基于所述一个或多个像素选择所述块的占用值;以及
第二生成代码,所述第二生成代码被配置为使所述至少一个处理器基于所选择的占用值生成已编码视频码流。
12.根据权利要求11所述的装置,其特征在于,所述一个或多个像素的数目为16,并且其中所述占用值为16比特的值。
13.根据权利要求12所述的装置,其特征在于,所述16比特值的每个比特用于发信号通知所述一个或多个像素中的对应像素的占用情况。
14.根据权利要求11所述的装置,其特征在于,所述一个或多个像素的数目为16,并且其中所述占用值为8比特的值。
15.根据权利要求14所述的装置,其特征在于,所述8比特值的每个比特用于发信号通知所述一个或多个像素中的两个对应像素的占用情况。
16.根据权利要求11所述的装置,其特征在于,所述一个或多个像素的数目为16,并且其中所述占用值为4比特的值。
17.根据权利要求16所述的装置,其特征在于,所述4比特值的每个比特用于发信号通知所述一个或多个像素中的四个对应像素的占用情况。
18.根据权利要求11所述的装置,其特征在于,使用有损编解码对所述已编码占用图进行编码。
19.根据权利要求11所述的装置,其特征在于,使用无损编解码对所述已编码占用图进行编码。
20.一种存储使用视频点云编码对视频码流进行编码的计算机指令的非易失性计算机可读介质,其特征在于,所述指令在由至少一个处理器执行时,使所述至少一个处理器:
获取源点云;
基于所述源点云生成包括一个或多个像素的占用图,与每个像素相关联的占用值是非二进制值;
对所述占用图进行编码以生成已编码占用图,其中所述已编码占用图的块对应于所述占用图的所述一个或多个像素;
基于所述一个或多个像素选择所述块的占用值;以及
基于所选择的占用值生成已编码视频码流。
CN202180033308.4A 2021-06-04 2021-10-12 基于视频的点云编解码的非二进制占用图 Pending CN115918070A (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US202163197274P 2021-06-04 2021-06-04
US63/197,274 2021-06-04
US17/496,270 US20220394294A1 (en) 2021-06-04 2021-10-07 Non-binary occupancy map for video based point cloud coding
US17/496,270 2021-10-07
PCT/US2021/054555 WO2022256031A1 (en) 2021-06-04 2021-10-12 Non binary occupancy map for video based point cloud coding

Publications (1)

Publication Number Publication Date
CN115918070A true CN115918070A (zh) 2023-04-04

Family

ID=84284498

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202180033308.4A Pending CN115918070A (zh) 2021-06-04 2021-10-12 基于视频的点云编解码的非二进制占用图

Country Status (6)

Country Link
US (1) US20220394294A1 (zh)
EP (1) EP4128749A4 (zh)
JP (1) JP2023533423A (zh)
KR (1) KR20230010258A (zh)
CN (1) CN115918070A (zh)
WO (1) WO2022256031A1 (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019158821A1 (en) * 2018-02-19 2019-08-22 Nokia Technologies Oy An apparatus, a method and a computer program for volumetric video
US20190311500A1 (en) * 2018-04-10 2019-10-10 Apple Inc. Point cloud compression
CN111726615A (zh) * 2019-03-19 2020-09-29 华为技术有限公司 点云编解码方法及编解码器
US20200314435A1 (en) * 2019-03-25 2020-10-01 Apple Inc. Video based point cloud compression-patch alignment and size determination in bounding box

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10535161B2 (en) * 2017-11-09 2020-01-14 Samsung Electronics Co., Ltd. Point cloud compression using non-orthogonal projection
US11259048B2 (en) * 2019-01-09 2022-02-22 Samsung Electronics Co., Ltd. Adaptive selection of occupancy map precision
EP3751857A1 (en) * 2019-06-14 2020-12-16 Nokia Technologies Oy A method, an apparatus and a computer program product for volumetric video encoding and decoding

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019158821A1 (en) * 2018-02-19 2019-08-22 Nokia Technologies Oy An apparatus, a method and a computer program for volumetric video
US20190311500A1 (en) * 2018-04-10 2019-10-10 Apple Inc. Point cloud compression
CN111726615A (zh) * 2019-03-19 2020-09-29 华为技术有限公司 点云编解码方法及编解码器
US20200314435A1 (en) * 2019-03-25 2020-10-01 Apple Inc. Video based point cloud compression-patch alignment and size determination in bounding box

Also Published As

Publication number Publication date
WO2022256031A1 (en) 2022-12-08
US20220394294A1 (en) 2022-12-08
JP2023533423A (ja) 2023-08-03
EP4128749A1 (en) 2023-02-08
KR20230010258A (ko) 2023-01-18
EP4128749A4 (en) 2023-07-05

Similar Documents

Publication Publication Date Title
CN112188209B (zh) 视频流解码方法、装置、计算机设备和存储介质
US11451836B2 (en) Techniques and apparatus for PCM patch creation using Morton codes
CN113557729A (zh) 已编码点云数据的划分
US11587263B2 (en) Method and apparatus for enhanced patch boundary identification for point cloud compression
CN113170154B (zh) 采用退火迭代几何平滑的点云编解码方法、装置和介质
JP7434667B2 (ja) ビデオベースの点群コーディングのためのグループオブピクチャベースのパッチパッキング
CN113170155A (zh) 通过局部几何投影进行几何平滑的方法和装置
CN112188201B (zh) 对视频流进行编码的方法、装置、电子设备及存储介质
US20220394294A1 (en) Non-binary occupancy map for video based point cloud coding
KR102677403B1 (ko) 비디오 기반 포인트 클라우드 코딩을 위한 고속 패치 생성
CN113228050B (zh) 使用视频点云编解码对视频流进行编码的方法和装置
US11979606B2 (en) Conditional recolor for video based point cloud coding
US20240007670A1 (en) Dynamic mesh vertex displacements coding
KR20230012558A (ko) 비디오 기반 포인트 클라우드 코딩을 위한 고속 재채색
CN116368523A (zh) Uv坐标编码

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40084472

Country of ref document: HK