CN112188209B - 视频流解码方法、装置、计算机设备和存储介质 - Google Patents
视频流解码方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN112188209B CN112188209B CN202010632446.1A CN202010632446A CN112188209B CN 112188209 B CN112188209 B CN 112188209B CN 202010632446 A CN202010632446 A CN 202010632446A CN 112188209 B CN112188209 B CN 112188209B
- Authority
- CN
- China
- Prior art keywords
- unit
- attribute values
- maximum
- video stream
- video
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 52
- 238000004364 calculation method Methods 0.000 claims description 3
- 230000006835 compression Effects 0.000 description 21
- 238000007906 compression Methods 0.000 description 21
- 230000008569 process Effects 0.000 description 19
- 238000009499 grossing Methods 0.000 description 18
- 238000010586 diagram Methods 0.000 description 14
- 238000001914 filtration Methods 0.000 description 12
- 230000005540 biological transmission Effects 0.000 description 8
- 238000004891 communication Methods 0.000 description 8
- 238000012545 processing Methods 0.000 description 8
- 230000006837 decompression Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 230000002093 peripheral effect Effects 0.000 description 4
- 238000013461 design Methods 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 230000000153 supplemental effect Effects 0.000 description 3
- 238000012546 transfer Methods 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 230000001413 cellular effect Effects 0.000 description 2
- 239000003086 colorant Substances 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000003384 imaging method Methods 0.000 description 2
- 230000033001 locomotion Effects 0.000 description 2
- 230000000116 mitigating effect Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000012856 packing Methods 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 238000010348 incorporation Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000004806 packaging method and process Methods 0.000 description 1
- 238000012858 packaging process Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000001012 protector Effects 0.000 description 1
- 238000002310 reflectometry Methods 0.000 description 1
- 230000035807 sensation Effects 0.000 description 1
- 239000000779 smoke Substances 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 210000003813 thumb Anatomy 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N13/00—Stereoscopic video systems; Multi-view video systems; Details thereof
- H04N13/10—Processing, recording or transmission of stereoscopic or multi-view image signals
- H04N13/106—Processing image signals
- H04N13/161—Encoding, multiplexing or demultiplexing different image signal components
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/50—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
- H04N19/597—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/169—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
- H04N19/186—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a colour or a chrominance component
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T9/00—Image coding
- G06T9/001—Model-based coding, e.g. wire frame
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/102—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
- H04N19/117—Filters, e.g. for pre-processing or post-processing
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/169—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
- H04N19/17—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
- H04N19/176—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/42—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by implementation details or hardware specially adapted for video compression or decompression, e.g. dedicated software implementation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/70—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/85—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10028—Range image; Depth image; 3D point clouds
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
本申请公开了一种视频流解码方法、装置、计算机设备和存储介质。该方法包括:接收视频流,所述视频流包括至少一个单元;对所述至少一个单元中的一个单元进行重建,包括:针对该单元的至少一组属性值中的每组属性值,获取该组属性值的最大差值;基于所述至少一组属性值中各组属性值的最大差值,确定是否对该单元使用滤波器。
Description
引用并入
本申请要求于2019年7月3日提交的、申请号为62/870,662、发明名称为“用于点云压缩中颜色平滑的方法和装置”的美国临时申请的优先权以及于2020年6月30日提交的美国申请第16/917,116号、发明名称为“用于点云压缩中颜色平滑的方法和系统”的优先权,其全部内容通过引用并入本申请中。
技术领域
本申请涉及视频编解码技术,尤其涉及一种视频流解码方法、装置、计算机设备和存储介质。
背景技术
世界的高级三维(3D)表示能够实现更加沉浸式的交互和通信。它们还允许机器理解、解释和导航我们的世界。点云已经被广泛地用作世界的3D表示。已经识别出与点云数据相关联的多个用例,并且已经开发了对点云表示和压缩的相应要求。
但是,目前的点云压缩技术中,在进行颜色平滑时,需要根据特定的公式计算得到熵值,由于计算复杂度高,对于硬件的运算和存储的要求很高。
发明内容
本申请的各实施例提供了一种视频流解码方法、装置、计算机设备和存储介质,可以应用于点云编解码技术。本申请实施例提供了几个颜色转移算法,用于任何点云压缩方法,包括视频点云压缩(V-PCC)标准和基于几何的点云压缩(G-PCC)标准。
本申请实施例提供了一种视频流解码方法,包括:
接收视频流,所述视频流包括至少一个单元;
对所述至少一个单元中的一个单元进行重建,包括:
针对该单元的至少一组属性值中的每组属性值,获取该组属性值的最大差值;
基于所述至少一组属性值中各组属性值的最大差值,确定是否对该单元使用滤波器。
本申请实施例还提供了一种视频流解码装置,包括:
接收模块,用于接收视频流,所述视频流包括至少一个单元;
重建模块,用于对所述至少一个单元中的一个单元进行重建;
其中,所述重建模块包括:
获取单元,用于针对该单元的至少一组属性值中的每组属性值,获取该组属性值的最大差值;
确定单元,用于基于所述至少一组属性值中各组属性值的最大差值,确定是否对该单元使用滤波器。
本申请实施例还提供一种计算机设备,包括处理器和存储器,所述存储器中存储有至少一条指令,所述至少一条指令由所述处理器加载并执行,以实现上所述的视频解码方法。
本申请实施例还提供一种非暂时性计算机可读介质,其上存储有指令,当所述指令由计算机执行时,使得所述计算机执行如上所述的视频解码方法。
由上述技术方案可见,本发明实施例提供的方法,通过属性值的最大差值来确定是否滤波,大大简化了判断待平滑的目标区域中的颜色是否同质的操作,可以跳过高可变性区域中的滤波处理,因此,具备低的计算复杂度,并且对存储器没有存储需求,从而提高了计算机设备的资源利用率。
附图说明
根据以下详细说明和附图,所公开的主题的进一步的特征、性质和各种优点将更加显而易见,其中:
图1是根据本申请一实施例的通信系统的简化框图的示意图;
图2是根据本申请一实施例的流式系统的简化框图的示意图;
图3是根据本申请一实施例的视频编码器的简化框图的示意图;
图4是根据本申请一实施例的视频解码器的简化框图的示意图;
图5是根据本申请一实施例的几何图像的示意图;
图6是根据本申请一实施例的纹理图像的示意图;
图7A示出了根据本申请一实施例的视频流解码方法的流程示意图;
图7B示出了根据本申请一实施例的视频流解码装置的示意图;以及
图8示出了根据本申请一实施例的计算机设备的示意图。
具体实施方式
点云是指在3D空间中的一组点,每个点具有相关联的属性,例如颜色、材料特性等。点云可以用于重构对象或场景作为此类点的组合。可以在各种设置中使用多个相机和深度传感器捕获所述点,并且所述点可以由数千到数十亿个点组成,以便真实地表示重构的场景。
需要压缩技术来减少表示点云所需的数据量。因此,在实时通信和六自由度(6DoF)虚拟现实中,需要使用点云的有损压缩技术。另外,在自动驾驶和文化遗产应用等的动态映射的环境中,寻求无损点云压缩技术。运动图像专家组(MPEG)开始研究解决几何形状和属性的压缩的标准,例如颜色和反射率、可缩放/渐进编码、随时间捕获的点云序列的编码以及对点云子集的随机访问。
根据本申请的一个实施例,V-PCC背后的主要理念是利用现有的视频编解码器,将动态点云的几何形状、占用率和纹理压缩为三个单独的视频序列。分别压缩解释这三个视频序列所需的额外元数据。整个比特流的一小部分是元数据,可以使用软件对所述元数据进行有效的编码/解码。大部分信息由视频编解码器处理。
参考图1-4,描述了用于实现本申请的编码和解码结构的本申请的一个实施例。本申请的编码和解码结构可以实现上述V-PCC的各方面。
图1示出了根据本申请的一个实施例的通信系统100的简化框图。系统100可以包括经由网络150互连的至少两个终端110、120。对于数据的单向传输,第一终端110可以对本地位置处的点云数据进行编码,以经由网络150传输到另一终端120。第二终端120可以从网络150接收另一终端的已编码点云数据,对已编码数据进行解码,并且显示已恢复的点云数据。单向数据传输在媒介服务应用等中可能是常见的。
图1示出了第二对终端130、140,用于支持例如在视频会议期间可能发生的已编码点云数据的双向传输。对于数据的双向传输,每个终端130、140可以对在本地位置处捕获到的点云数据进行编码,以经由网络150传输到另一终端。每个终端130、140还可以接收由另一终端传输的已编码点云数据,可以对已编码数据进行解码,并且可以在本地显示设备处显示已恢复的点云数据。
在图1中,终端110-140可以是例如服务器、个人计算机和智能电话和/或任何其它类型的终端。例如,终端110-140可以是膝上型计算机、平板计算机、媒体播放器和/或专用视频会议设备。网络150表示在终端110-140之间传送已编码点云数据的任意数量的网络,包括例如有线和/或无线通信网络。通信网络150可以在线路交换和/或分组交换信道中交换数据。代表性网络包括电信网络、局域网、广域网和/或因特网。出于当前讨论的目的,网络150的架构和拓扑结构对于本申请的操作可能是无关紧要的,除非在下文中解释。
图2示出了作为所公开的主题的应用的示例,视频编码器和视频解码器在流媒体环境中的放置。所公开的主题可以同样适用于其它支持视频的应用,包括例如视频会议、数字电视、将压缩视频存储在CD、DVD、记忆棒等数字媒体上等等。
如图2所示,流媒体系统200可以包括捕获子系统213,其包括视频源201和视频编码器203。流媒体系统200可以进一步包括至少一个流媒体服务器205和/或至少一个流媒体客户端206。
视频源201可以创建例如包括与3D视频相对应的3D点云的流202。视频源201可以包括例如3D传感器(例如深度传感器)或3D成像技术(例如数码相机),以及计算设备,该计算设备被配置为使用从3D传感器或3D成像技术接收的数据来生成3D点云。当采样流202,与已编码的视频比特流相比时可能具有高数据量,其可以由耦合到视频源201的视频编码器203进行处理。视频编码器203可以包括硬件、软件或其组合以启用或实施如下文更详细描述的所公开的主题的方面。视频编码器203还可以生成已编码视频比特流204。已编码视频比特流204与未压缩流202相比具有较低的数据量,可以存储在流媒体服务器205上以备将来使用。一个或多个流媒体客户端206可以访问流媒体服务器205以检索视频比特流209,其可以是已编码视频比特流204的拷贝。
流媒体客户端206可以包括视频解码器210和显示器212。视频解码器210可以例如对视频比特流209进行解码,比特流209是已编码视频比特流204的输入拷贝,并且视频解码器210还可以创建输出视频采样流211,其可以在显示器212或另一个呈现设备(未示出)上呈现。在一些流媒体系统中,可以根据某些视频编码/压缩标准对视频比特流204、209进行编码。此类标准的示例包括但不限于ITU-T建议H.265、通用视频编码(VVC)和MPEG/V-PCC。
参考图3-4,下面描述可以由本申请实施例执行的V-PCC的一些方面。
图3示出了根据本申请一个实施例的视频编码器203的示例功能框图。
如图3所示,视频编码器203可以接收点云帧350,并且基于点云帧350来生成几何图像352、纹理图像356和占用地图334。视频编码器203可以将几何图像352压缩成压缩的几何图像362,将纹理图像356压缩成压缩的纹理图像364,并且将占用地图334压缩成压缩的占用地图372。视频编码器203的复用器328可以形成压缩比特流374,其包括压缩的几何图像362、压缩的纹理图像364和压缩的占用地图372。
更具体地,在实施例中,视频编码器203可以包括补丁生成模块302,其将点云帧350分割成补丁。补丁是V-PCC的有用实体。补丁生成过程包括将点云帧350分解成具有平滑边界的最小数量的补丁,同时还最小化重建误差。本申请的编码器可以实施各种方法以生成此分解。
视频编码器203可以包括执行打包过程的补丁打包模块304。打包过程包括将所提取的补丁映射到2D网格上,同时最小化未使用的空间并保证网格的每个M×M(例如,16×16)块与唯一补丁相关联。有效的补丁打包通过最小化未使用的空间或确保时间一致性直接影响压缩效率。补丁打包模块304可以生成占用地图334。
视频编码器203可以包括几何图像生成模块306和纹理图像生成模块308。为了更好地处理多个点被投影到同一样本的情况,可以将每个补丁投影到两个图像上,被称为两个层。例如,几何图像生成模块306和纹理图像生成模块308,可以利用在补丁打包模块304的打包过程期间计算出的3D到2D映射,将点云的几何和纹理存储为图像(亦称,层)。所生成的图像/层可被存储为视频帧,并且可以使用视频编解码器(例如,HM视频编解码器)根据作为参数所提供的配置,对所生成的图像/层进行压缩。
在实施例中,基于输入点云帧350和占用地图334,几何图像生成模块306生成几何图像352,并且纹理图像生成模块308生成纹理图像356。图5中示出了几何图像352的示例,并且图6中示出了纹理图像356的示例。在一个实施例中,几何图像352可以以YUV420-8比特格式的WxH的单色帧表示。在一个实施例中,占用地图334图像由二进制地图组成,该二进制地图指示网格的每个单元是属于空白空间还是属于点云。为了生成纹理图像356,纹理图像生成模块308可以利用重建的/平滑的几何358来计算要与重新采样的点相关联的颜色。
视频编码器203还可以包括图像填充模块314和图像填充模块316,用于分别填充几何图像352和纹理图像356,以形成填充的几何图像354和填充的纹理图像360。图像填充(亦称背景填充)用冗余信息填充图像的未使用空间。背景填充的目的是最低限度地增加比特率而不在补丁边界周围引入显著编码失真。图像填充模块314和图像填充模块316可以使用占用地图334来分别形成填充的几何图像354和填充的纹理图像360。在一个实施例中,视频编码器203可以包括组扩张模块320以形成填充的纹理图像360。
视频编码器203可以包括视频压缩模块322和视频压缩模块324,用于将填充的几何图像354和填充的纹理图像360分别压缩为压缩的几何图像362和压缩的纹理图像364。
视频编码器203可以包括熵压缩模块318,用于对占用地图334进行无损编码366,以及视频压缩模块326,用于对占用地图334进行有损编码368。
在实施例中,视频编码器203可以包括平滑模块310,用于使用重建的几何图像365(由视频压缩模块322提供)和补丁信息332来生成平滑几何358。平滑模块310的平滑过程可以旨在减轻由于压缩伪像而可能在补丁边界处出现的潜在不连续性。纹理图像生成模块308可以使用平滑的几何358来生成纹理图像356。
视频编码器203还可以包括辅助补丁信息压缩模块312,用于形成压缩的辅助补丁信息370,然后,由复用器328提供在压缩比特流374中提供该压缩的辅助补丁信息370。
图4示出了根据本申请一个实施例的视频解码器210的示例功能框图。
如图4所示,视频解码器210可以从视频编码器203接收已编码比特流374以获取压缩的纹理图像362、压缩的几何图像364、压缩的占用地图372和压缩的辅助补丁信息370。视频解码器210可以对压缩的纹理图像362、压缩的几何图像364、压缩的占用地图372和压缩的辅助补丁信息370进行解码,以分别获取解压缩的纹理图像460、解压缩的几何图像462、解压缩的占用地图464和解压缩的辅助补丁信息466。接下来,视频解码器210可以基于解压缩的纹理图像460、解压缩的几何图像462、解压缩的占用地图464和解压缩的辅助补丁信息466来生成重建的点云474。
在实施例中,视频解码器210可以包括解复用器402,从接收的压缩比特流374中分离出压缩的纹理图像362、压缩的几何图像364、压缩的占用地图372和压缩的辅助补丁信息370。
视频解码器210可以包括视频解压缩模块404、视频解压缩模块406、占用地图解压缩模块408和辅助补丁信息解压缩模块510,它们分别对压缩的纹理图像362、压缩的几何图像364、压缩的占用地图372和压缩的辅助补丁信息370进行解码。
视频解码器210可以包括几何重建模块412,其基于解压缩的几何图像462、解压缩的占用地图464和解压缩的辅助补丁信息466来获取重建的(三维)几何468。
视频解码器210可以包括平滑模块414,其对重建的几何468进行平滑以获取平滑的几何470。平滑过程可以旨在减轻由于压缩伪像而可能在补丁边界处出现的潜在不连续性。
视频解码器210可以包括纹理重建模块416,用于基于解压缩的纹理图像460和平滑的几何470来获取重建纹理472。
视频解码器210可以包括颜色平滑模块418,其对重建纹理472的颜色进行平滑以获取重建的点云474。3D空间中的非相邻补丁,在2D视频中打包时通常彼此相邻。这意味着来自非相邻补丁的像素值可能被基于块的视频编解码器混合。颜色平滑模块418的颜色平滑可以旨在减少出现在补丁边界处的可见伪像。
如上所述,输入云可以被分割成几个补丁,并被打包成三个2D图像,例如占用地图、几何图像和纹理图像。然后,通过诸如HEVC的编码标准来压缩这些图像。
在传统的V-PCC设计中,当检查出平滑的目标区域中的颜色值是同质的这个条件被满足时,进行重建,然后执行颜色平滑。传统的V-PCC设计使用公式,计算要平滑的每个点的周围区域中颜色值的熵,这种方式在计算或存储需求方面,开销很大。
本申请实施例提供了一种改进的V-PCC设计。例如,本申请实施例可以提供一种以低计算复杂度和无(或低)存储器需求来执行上述同质检查的方法。
本申请实施例可以单独使用或以任何顺序组合使用。此外,可以通过处理电路(例如,一个或多个处理器或一个或多个集成电路)来实现本申请的每个实施例,包括方法、编码器和解码器。在实施例中,一个或多个处理器可以执行存储在非暂时性计算机可读介质中的程序,以执行本申请的方法、编码器和解码器的功能。
在V-PCC解码过程中,可以调用属性平滑过程,针对属于网格单元的点而重建的颜色值,进行三线性滤波,该网格单元可以是滤波单元。网格单元(或单元)可以是将三维几何坐标空间(例如点云)被划分成的多个单元中的一个。
属性平滑过程的输入可以包括,例如,(1)具有标称分辨率的当前点云帧的占用地图;(2)属性索引;(3)对应于属性索引的分量数量;(4)属性平滑控制参数集;(5)包含属性索引的重建属性值的阵列;(6)包含已重建(可能是已平滑)位置的阵列;以及(7)包含已重建(可能是已平滑)位置的阵列中每个点对应的补丁索引信息。属性平滑过程的输出可以包括阵列,例如,该阵列中包含针对属性索引进行重建、平滑后的属性值。
作为解码过程的步骤(例如最终步骤),本申请实施例可以基于两个准则(例如失真准则)来决定是否应用滤波器(例如三线性滤波器)。在失真准则都满足的情况下,可以将滤波器的输出添加到语法元素“recPCasmOut”,其可以是属性平滑过程的输出。这两个准则如下所述。
(第一准则)变量“distToCentroid2”,其可以被定义为:
abs(Ycell-Ycur)*10,大于阈值(例如“afp_attribute_smoothing_threshold_smoothing[aIdx]”)。
“Ycell”和“Ycur”可以分别是当前单元(“attrCentroid”)中各个点的质心的亮度值和当前点(“pointAttr”)中的亮度值。“aIdx”可以是属性索引。
(第二准则)包含来自“recPCAttrSmIn[aIdx][i][j]”的当前条目的单元中亮度值的熵小于阈值(例如,小于“afp_attribute_smoothing_threshold_local_entropy[aIdx]”)。
“recPCAttrSmIn[aIdx][i][j]”可以是包含属性索引“aIdx”的已重建属性值的阵列,其中0≤i≤“PointCnt”和0≤j≤“numComps”。“PointCnt”的值可以是已重建点云中的点数。“numComps”的值可以是对应于属性索引“aIdx”的分量的数量。
本申请实施例中,关于第二准则,单元中的点的亮度熵可以计算如下:
其中,符号pi表示亮度i的概率,h表示单元中的亮度熵。本申请实施例可以根据包含来自语法元素“recPCAttrSmIn[aIdx][i][j]”的当前条目的单元中0到255范围内的亮度值的分布来计算概率。
通过检查是否满足第二准则,上述过程可以测量单元中的属性值的同质性,从而可以避免同质区域的过度平滑。
上述过程可能需要使用每个网格单元的255个直方图格来直接计算熵(例如亮度熵),或者需要熵的某种近似。
除了上述第二准则,本申请实施例中,确定是否满足经修改的第二准则,以确定是否应用滤波器。例如,实施例中,经修改的第二准则可以为,单元中属性值的最大绝对差小于阈值。本申请实施例中,可以将语法元素“maxDiff”定义为单元中属性值的最大绝对差。下面的表1提供了本申请实施例中用于获取语法元素“maxDiff”的值的示例c++代码。
表1
在本申请另一实施例中,通过扩展上述“maxDiff”的定义,可以使用比亮度更多的通道。例如,可以为一个单元计算三个最大绝对差值(例如,“maxDiff”中的三个),其中,每个是该单元的相应颜色分量的最大绝对差值。在一个实施例中,三个颜色分量的三个最大绝对差值中的最大值,可以用作同质性检查的单个度量。例如,当三个最大绝对差值中的最大值小于阈值时,可以认为满足了经修改的第二准则。
在本申请另一实施例中,例如在V-PCC或G-PCC中,当使用局部窗口中的多个点属性值进行颜色转移时,检查“maxDiff”值可以决定滤波的类型。在此类情况下,本申请实施例中,当“maxDiff”大于阈值并且属性值的平均值等于或小于阈值时,确定单元邻域(例如,一组单元)属性值的中值。在一个实施例中,可以基于单元邻域的属性值的中值和/或平均值,从多个滤波器中选择滤波器。
在本申请另一实施例中,对“maxDiff”值进行检查,可用于后滤波过程,例如G-PCC中,对已重建属性值进行双向滤波。在这种情况下,本申请实施例中,可以跳过高可变性区域中的滤波,该区域是由大的“maxDiff”值所指示的区域,或者以自适应方式基于“maxDiff”值调整区域的滤波强度。例如,在一个实施例中,如果该区域的“maxDiff”值大于阈值,则可以不执行该区域的滤波。可替代地或另外,该实施例可以根据“maxDiff”的特定值提供该区域的不同滤波强度。
图7A示出了根据本申请一实施例的视频流解码方法的流程示意图,包括如下步骤:
步骤710,接收视频流,视频流包括至少一个单元;
步骤720,对至少一个单元中的一个单元进行重建,具体包括:
步骤721,针对该单元的至少一组属性值中的每组属性值,获取该组属性值的最大差值;
步骤722,基于至少一组属性值中各组属性值的最大差值,确定是否对该单元使用滤波器。
在实施例中,视频流解码装置500包括计算机程序代码,可以使得至少一个处理器执行上述解码器和编码器的功能。例如,参考图7B,视频流解码装置500可以包括:
接收模块510,用于接收视频流,所述视频流包括至少一个单元。
其中,将点云的三维几何坐标空间划分成至少一个单元,每个单元包括多个点,每个单元可以作为滤波单元。
重建模块520,用于对所述至少一个单元中的一个单元进行重建,例如进行颜色平滑过程。
重建模块520可以包括获取单元521和确定单元522。对所述至少一个单元中的一个单元进行重建时,获取单元521可以被配置为针对该单元的至少一组属性值中的每组属性值,获取该组属性值的最大差值;确定单元522可以被配置为,基于所述至少一组属性值中各组属性值的最大差值,确定是否对该单元使用滤波器。
其中,最大差值是指一组属性值中两两属性值之间绝对差的最大值。每组属性值具有一个最大差值,如上述“maxDiff”。基于所获得的一个或多个最大差值,来确定是否将滤波器应用于任意一个或多个单元时,可以包括仅应用于其一个或多个部分。所述滤波器可以是三线性(trilinear)滤波器。
根据本申请一实施例,当所述至少一组属性值是指一组属性值时,确定单元522可以被配置为,将所述一组属性值的最大差值与阈值进行比较,当所述一组属性值的最大差值小于阈值时,将滤波器应用于该单元。所述一组属性值是指该单元的亮度值。
根据本申请一实施例,当所述至少一组属性值是指至少两组属性值时,所述至少两组属性值中的每一组属性值对应于不同的颜色分量,例如,三个颜色分量。此时,获取单元521可以被配置为,分别获取所述至少两组属性值的至少两个最大差值;确定单元522可以被配置为,从至少两个最大差值中,确定最大差值的极大值,并且基于最大差值的极大值,确定是否应用滤波器。具体地,当所述最大差值的极大值小于阈值时,将所述滤波器应用于该单元。
根据本申请一实施例,重建模块520还包括滤波单元523,被配置为基于单元邻域的属性值的中值,从多个滤波器中选择要应用的滤波器,其中,所述单元邻域指包括该单元的一组单元。可选地,根据单元邻域的属性值的平均值,选择滤波器。可选地,当最大差值“maxDiff”大于阈值并且属性值的平均值等于或小于阈值时,确定单元邻域属性值的中值。
根据本申请一实施例,当所述至少一组属性值是指一组属性值时,滤波单元523,可以被配置为,当确定出对该单元使用所述滤波器时,基于所述最大差值,选择滤波器的滤波器强度。所述滤波器可以是双向(bilateral)滤波器。
根据本申请一实施例,当所述至少一组属性值是指一组属性值时,滤波单元523,还可以被配置为,当确定出对该单元使用所述滤波器时,若所述最大差值小于第一阈值、以及该单元中各个点的质心与该单元的当前点之间的绝对距离大于第二阈值,则将所述滤波器应用于所述当前点。
上述技术可以在适于点云压缩/解压缩的视频编码器和/或解码器中实现。编码器和/或解码器可以用硬件、软件或其任意组合来实现,并且软件(如果有的话)可以存储在一个或多个非暂时性计算机可读介质中。
上述技术可以通过计算机可读指令实现为计算机软件,并且物理地存储在一个或多个计算机可读介质中。例如,图8示出了计算机设备(900),其适于实现所公开主题的某些实施例。
所述计算机软件可通过任何合适的机器代码或计算机语言进行编码,通过汇编、编译、链接等机制创建包括指令的代码,所述指令可由一个或多个计算机中央处理单元(CPU),图形处理单元(GPU)等直接执行或通过译码、微代码等方式执行。
所述指令可以在各种类型的计算机或其组件上执行,包括例如个人计算机、平板电脑、服务器、智能手机、游戏设备、物联网设备等。
图8所示的用于计算机设备(900)的组件本质上是示例性的,并不用于对实现本申请实施例的计算机软件的使用范围或功能进行任何限制。也不应将组件的配置解释为与计算机设备(900)的示例性实施例中所示的任一组件或其组合具有任何依赖性或要求。
计算机设备(900)可以包括某些人机界面输入设备。这种人机界面输入设备可以通过触觉输入(如:键盘输入、滑动、数据手套移动)、音频输入(如:声音、掌声)、视觉输入(如:手势)、嗅觉输入(未示出),对一个或多个人类用户的输入做出响应。所述人机界面设备还可用于捕获某些媒体,气与人类有意识的输入不必直接相关,如音频(例如:语音、音乐、环境声音)、图像(例如:扫描图像、从静止影像相机获得的摄影图像)、视频(例如二维视频、包括立体视频的三维视频)。
人机界面输入设备可包括以下中的一个或多个(仅绘出其中一个):键盘(901)、鼠标(902)、触控板(903)、触摸屏(910)、数据手套(未示出)、操纵杆(905)、麦克风(906)、扫描仪(907)、照相机(908)。
计算机设备(900)还可以包括某些人机界面输出设备。这种人机界面输出设备可以通过例如触觉输出、声音、光和嗅觉/味觉来刺激一个或多个人类用户的感觉。这样的人机界面输出设备可包括触觉输出设备(例如通过触摸屏(910)、数据手套(未示出)或操纵杆(905)的触觉反馈,但也可以有不用作输入设备的触觉反馈设备)、音频输出设备(例如,扬声器(909)、耳机(未示出))、视觉输出设备(例如,包括阴极射线管屏幕、液晶屏幕、等离子屏幕、有机发光二极管屏的屏幕(910),其中每一个都具有或没有触摸屏输入功能、每一个都具有或没有触觉反馈功能——其中一些可通过诸如立体画面输出的手段输出二维视觉输出或三维以上的输出;虚拟现实眼镜(未示出)、全息显示器和放烟箱(未示出))以及打印机(未示出)。
计算机设备(900)还可以包括人可访问的存储设备及其相关介质,如包括具有CD/DVD的高密度只读/可重写式光盘(CD/DVD ROM/RW)(920)或类似介质(921)的光学介质、拇指驱动器(922)、可移动硬盘驱动器或固体状态驱动器(923),诸如磁带和软盘(未示出)的传统磁介质,诸如安全软件保护器(未示出)等的基于ROM/ASIC/PLD的专用设备,等等。
本领域技术人员还应当理解,结合所公开的主题使用的术语“计算机可读介质”不包括传输介质、载波或其它瞬时信号。
计算机设备(900)还可以包括通往一个或多个通信网络的接口。例如,网络可以是无线的、有线的、光学的。网络还可为局域网、广域网、城域网、车载网络和工业网络、实时网络、延迟容忍网络等等。网络还包括以太网、无线局域网、蜂窝网络(GSM、3G、4G、5G、LTE等)等局域网、电视有线或无线广域数字网络(包括有线电视、卫星电视、和地面广播电视)、车载和工业网络(包括CANBus)等等。某些网络通常需要外部网络接口适配器,用于连接到某些通用数据端口或外围总线(949)(例如,计算机设备(900)的USB端口);其它系统通常通过连接到如下所述的系统总线集成到计算机设备(900)的核心(例如,以太网接口集成到PC计算机设备或蜂窝网络接口集成到智能电话计算机设备)。通过使用这些网络中的任何一个,计算机设备(900)可以与其它实体进行通信。所述通信可以是单向的,仅用于接收(例如,无线电视),单向的仅用于发送(例如CAN总线到某些CAN总线设备),或双向的,例如通过局域或广域数字网络到其它计算机设备。上述的每个网络和网络接口可使用某些协议和协议栈。
上述的人机界面设备、人可访问的存储设备以及网络接口可以连接到计算机设备(900)的核心(940)。
核心(940)可包括一个或多个中央处理单元(CPU)(941)、图形处理单元(GPU)(942)、以现场可编程门阵列(FPGA)(943)形式的专用可编程处理单元、用于特定任务的硬件加速器(944)等。这些设备以及只读存储器(ROM)(945)、随机存取存储器(946)、内部大容量存储器(例如内部非用户可存取硬盘驱动器、固态硬盘等)(947)等可通过系统总线(948)进行连接。在某些计算机设备中,可以以一个或多个物理插头的形式访问系统总线(948),以便可通过额外的中央处理单元、图形处理单元等进行扩展。外围装置可直接附接到核心的系统总线(948),或通过外围总线(949)进行连接。外围总线的体系结构包括外部控制器接口PCI、通用串行总线USB等。
CPU(941)、GPU(942)、FPGA(943)和加速器(944)可以执行某些指令,这些指令组合起来可以构成上述计算机代码。该计算机代码可以存储在ROM(945)或RAM(946)中。过渡数据也可以存储在RAM(946)中,而永久数据可以存储在例如内部大容量存储器(947)中。通过使用高速缓冲存储器可实现对任何存储器设备的快速存储和检索,高速缓冲存储器可与一个或多个CPU(941)、GPU(942)、大容量存储器(947)、ROM(945)、RAM(946)等紧密关联。
所述计算机可读介质上可具有计算机代码,用于执行各种计算机实现的操作。介质和计算机代码可以是为本申请的目的而特别设计和构造的,也可以是计算机软件领域的技术人员所熟知和可用的介质和代码。
作为实施例而非限制,具有体系结构(900)的计算机设备,特别是核心(940),可以作为处理器(包括CPU、GPU、FPGA、加速器等)提供执行包含在一个或多个有形的计算机可读介质中的软件的功能。这种计算机可读介质可以是与上述的用户可访问的大容量存储器相关联的介质,以及具有非易失性的核心(940)的特定存储器,例如核心内部大容量存储器(947)或ROM(945)。实现本申请的各种实施例的软件可以存储在这种设备中并且由核心(940)执行。根据特定需要,计算机可读介质可包括一个或一个以上存储设备或芯片。该软件可以使得核心(940)特别是其中的处理器(包括CPU、GPU、FPGA等)执行本文所述的特定过程或特定过程的特定部分,包括定义存储在RAM(946)中的数据结构以及根据软件定义的过程来修改这种数据结构。另外或作为替代,计算机设备可以提供逻辑硬连线或以其它方式包含在电路(例如,加速器(944))中的功能,该电路可以代替软件或与软件一起运行以执行本文所述的特定过程或特定过程的特定部分。在适当的情况下,对软件的引用可以包括逻辑,反之亦然。在适当的情况下,对计算机可读介质的引用可包括存储执行软件的电路(如集成电路(IC)),包含执行逻辑的电路,或两者兼备。本申请包括任何合适的硬件和软件组合。
虽然本申请已对多个示例性实施例进行了描述,但实施例的各种变更、排列和各种等同替换均属于本申请的范围内。因此应理解,本领域技术人员能够设计多种系统和方法,所述系统和方法虽然未在本文中明确示出或描述,但其体现了本申请的原则,因此属于本申请的精神和范围之内。
Claims (7)
1.一种针对点云的视频流解码方法,其特征在于,包括:
接收视频流,所述视频流包括至少一个单元;
对所述至少一个单元中的一个单元进行重建,包括:
针对该单元的至少两组属性值,分别获取所述至少两组属性值的至少两个最大差值,其中,所述最大差值是指每组属性值中两两属性值中的最大差值;
从所述至少两个最大差值中,确定最大差值的极大值;
基于所述最大差值的极大值,确定是否将滤波器应用于该单元。
2.根据权利要求1所述的方法,其特征在于,所述基于所述最大差值的极大值,确定是否将滤波器应用于该单元,包括:
当所述最大差值的极大值小于阈值时,将所述滤波器应用于该单元。
3.根据权利要求1所述的方法,其特征在于,还包括:
基于单元邻域的属性值的中值,从多个滤波器中选择所述滤波器,其中,所述单元邻域指包括该单元的一组单元。
4.根据权利要求1所述的方法,其特征在于,所述滤波器是三线性滤波器。
5.一种针对点云的视频流解码装置,其特征在于,包括:
接收模块,用于接收视频流,所述视频流包括至少一个单元;
重建模块,用于对所述至少一个单元中的一个单元进行重建;
其中,所述重建模块包括:
获取单元,用于针对该单元的至少两组属性值,分别获取所述至少两组属性值的至少两个最大差值,其中,所述最大差值是指每组属性值中两两属性值中的最大差值;
确定单元,用于从所述至少两个最大差值中,确定最大差值的极大值;基于所述最大差值的极大值,确定是否将滤波器应用于该单元。
6.一种计算机设备,其特征在于,包括处理器和存储器,所述存储器中存储有至少一条指令,所述至少一条指令由所述处理器加载并执行,以实现如权利要求1至4中任一项所述的方法。
7.一种非易失性计算机可读存储介质,其特征在于,存储有计算机可读指令,使至少一个处理器执行如权利要求1至4中任一项所述的方法。
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201962870662P | 2019-07-03 | 2019-07-03 | |
US62/870,662 | 2019-07-03 | ||
US16/917,116 US11265528B2 (en) | 2019-07-03 | 2020-06-30 | Methods and systems for color smoothing for point cloud compression |
US16/917,116 | 2020-06-30 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112188209A CN112188209A (zh) | 2021-01-05 |
CN112188209B true CN112188209B (zh) | 2024-03-08 |
Family
ID=73919183
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010632446.1A Active CN112188209B (zh) | 2019-07-03 | 2020-07-02 | 视频流解码方法、装置、计算机设备和存储介质 |
Country Status (2)
Country | Link |
---|---|
US (1) | US11265528B2 (zh) |
CN (1) | CN112188209B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115086672B (zh) * | 2021-03-11 | 2024-08-23 | 鹏城实验室 | 点云属性编码方法、装置、解码方法、装置及相关设备 |
US11657578B2 (en) | 2021-03-11 | 2023-05-23 | Quintar, Inc. | Registration for augmented reality system for viewing an event |
US11645819B2 (en) | 2021-03-11 | 2023-05-09 | Quintar, Inc. | Augmented reality system for viewing an event with mode based on crowd sourced images |
US12028507B2 (en) | 2021-03-11 | 2024-07-02 | Quintar, Inc. | Augmented reality system with remote presentation including 3D graphics extending beyond frame |
US12003806B2 (en) * | 2021-03-11 | 2024-06-04 | Quintar, Inc. | Augmented reality system for viewing an event with multiple coordinate systems and automatically generated model |
US11527047B2 (en) | 2021-03-11 | 2022-12-13 | Quintar, Inc. | Augmented reality system for viewing an event with distributed computing |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017005508A (ja) * | 2015-06-10 | 2017-01-05 | 日本電信電話株式会社 | イントラ予測処理装置、イントラ予測処理方法、イントラ予測処理プログラム、画像符号化装置及び画像復号装置 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1359547A3 (fr) * | 2002-03-29 | 2006-05-24 | Koninklijke Philips Electronics N.V. | Procédé de traitement d'images numériques pour applications bas débit |
US20060029281A1 (en) * | 2002-04-23 | 2006-02-09 | Koninklijke Philips Electronics N.V. | Digital image processing method for low-rate applications |
US10607373B2 (en) * | 2017-11-22 | 2020-03-31 | Apple Inc. | Point cloud compression with closed-loop color conversion |
CN111788602B (zh) * | 2017-12-29 | 2024-05-28 | 泰立戴恩菲力尔有限责任公司 | 点云去噪系统和方法 |
US11039115B2 (en) * | 2018-12-21 | 2021-06-15 | Samsung Electronics Co., Ltd. | Low complexity color smoothing of reconstructed point clouds |
-
2020
- 2020-06-30 US US16/917,116 patent/US11265528B2/en active Active
- 2020-07-02 CN CN202010632446.1A patent/CN112188209B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017005508A (ja) * | 2015-06-10 | 2017-01-05 | 日本電信電話株式会社 | イントラ予測処理装置、イントラ予測処理方法、イントラ予測処理プログラム、画像符号化装置及び画像復号装置 |
Also Published As
Publication number | Publication date |
---|---|
US11265528B2 (en) | 2022-03-01 |
US20210006766A1 (en) | 2021-01-07 |
CN112188209A (zh) | 2021-01-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112188209B (zh) | 视频流解码方法、装置、计算机设备和存储介质 | |
US11451836B2 (en) | Techniques and apparatus for PCM patch creation using Morton codes | |
WO2020146571A1 (en) | Method and apparatus for dynamic point cloud partition packing | |
US11587263B2 (en) | Method and apparatus for enhanced patch boundary identification for point cloud compression | |
CN113170154A (zh) | 用于退火迭代几何平滑的方法和装置 | |
WO2020146223A1 (en) | Method and apparatus for geometry smoothing by local geometry projection | |
CN112188201B (zh) | 对视频流进行编码的方法、装置、电子设备及存储介质 | |
CN116648904B (zh) | 视频编码的方法、视频解码的方法、装置及存储介质 | |
US20220394294A1 (en) | Non-binary occupancy map for video based point cloud coding | |
CN113228050B (zh) | 使用视频点云编解码对视频流进行编码的方法和装置 | |
KR20230011406A (ko) | 비디오 기반 포인트 클라우드 코딩을 위한 조건적 재채색 | |
KR20230052923A (ko) | 비디오 기반 포인트 클라우드 코딩을 위한 고속 패치 생성 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |