JP7112600B2 - Method for point cloud decompression, method and apparatus for point cloud compression - Google Patents

Method for point cloud decompression, method and apparatus for point cloud compression Download PDF

Info

Publication number
JP7112600B2
JP7112600B2 JP2021534389A JP2021534389A JP7112600B2 JP 7112600 B2 JP7112600 B2 JP 7112600B2 JP 2021534389 A JP2021534389 A JP 2021534389A JP 2021534389 A JP2021534389 A JP 2021534389A JP 7112600 B2 JP7112600 B2 JP 7112600B2
Authority
JP
Japan
Prior art keywords
point cloud
geometry
block
cloud
processor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021534389A
Other languages
Japanese (ja)
Other versions
JP2022514548A (en
Inventor
ヴォソウギィ,アラシュ
イエア,セフーン
リィウ,シャン
Original Assignee
テンセント・アメリカ・エルエルシー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by テンセント・アメリカ・エルエルシー filed Critical テンセント・アメリカ・エルエルシー
Publication of JP2022514548A publication Critical patent/JP2022514548A/en
Application granted granted Critical
Publication of JP7112600B2 publication Critical patent/JP7112600B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/117Filters, e.g. for pre-processing or post-processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • G06T9/001Model-based coding, e.g. wire frame
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/136Incoming video signal characteristics or properties
    • H04N19/137Motion inside a coding unit, e.g. average field, frame or block difference
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/136Incoming video signal characteristics or properties
    • H04N19/14Coding unit complexity, e.g. amount of activity or edge presence estimation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/537Motion estimation other than block-based
    • H04N19/54Motion estimation other than block-based using feature points or meshes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/597Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/128Adjusting depth or disparity
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/161Encoding, multiplexing or demultiplexing different image signal components
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/172Processing image signals image signals comprising non-image signal components, e.g. headers or format information
    • H04N13/178Metadata, e.g. disparity information

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Description

本願は、2020年2月27日に提出された米国特許出願第16/803,619号「METHOD AND APPARATUS FOR POINT CLOUD COMPRESSION」の優先権を主張し、当該米国特許出願第16/803,619号は、2019年3月1日に提出された米国仮出願第62/812,964号「TECHNIQUES AND APPARATUS FOR SELECTIVE GEOMETRY SMOOTHING INSIDE PATCHES FOR POINT CLOUD COMPRESSION」の優先権を主張し、上記の各出願の全内容は本明細書に援用により組み込まれる。 This application claims priority from U.S. patent application Ser. claims priority to U.S. Provisional Application Serial No. 62/812,964, entitled "TECHNEQUES AND APPARATUS FOR SELECTIVE GEOMETRY SMOOTHING INSIDE PATCHES FOR POINT CLOUD COMPRESSION," filed March 1, 2019, and all of the above applications. The contents are incorporated herein by reference.

本開示は、総体的に点群圧縮に関連する実施形態を記載している。 This disclosure generally describes embodiments related to point cloud compression.

本明細書に記載された背景技術は、本開示の背景を総体的に体現することを目的とする。該背景技術部分に記載の作業程度から見れば、現在署名の発明者の作業、及び提出の際に別に従来技術の記載として限定されていない態様について、明確且つ暗黙的に本開示の内容に対する従来技術として認められない。 The background art provided herein is for the purpose of generally presenting the context of the present disclosure. In view of the extent of the work described in the background section, the work of the presently signed inventors, and aspects not otherwise qualified as prior art statements at the time of submission, clearly and implicitly precludes the subject matter of this disclosure. not recognized as technology.

様々な技術を開発して捉えて3次元(3-dimensional、3D)空間で、例えば世界のオブジェクトや世界の環境などの世界を表現する。世界の3D表現は、より没入型の相互作用とコミュニケーションを実現することができる。点群は、世界の3D表現として使用できる。点群は、3D空間内の1組の点であり、各点は関連付けられた属性、例えば、色、マテリアルプロパティ、テクスチャ情報、強度属性、反射率属性、動き関連属性、モダリティ属性、及びその他のさまざまな属性を有する。このような点群は大量のデータを含む可能性があり、保存と伝送にコストと時間がかかる可能性がある。 Various technologies are developed and grasped to express the world, such as world objects and world environments, in a three-dimensional (3D) space. A 3D representation of the world can enable more immersive interaction and communication. A point cloud can be used as a 3D representation of the world. A point cloud is a set of points in 3D space, each point having associated attributes such as color, material properties, texture information, intensity attributes, reflectance attributes, motion-related attributes, modality attributes, and others. It has various attributes. Such point clouds can contain large amounts of data and can be costly and time consuming to store and transmit.

本開示の各態様は、点群の圧縮及び解凍用方法及び装置を提供する。幾つかの例において、点群の圧縮/解凍用装置は処理回路を含む。 Aspects of the present disclosure provide methods and apparatus for point cloud compression and decompression. In some examples, the point cloud compression/decompression apparatus includes processing circuitry.

本開示の幾つかの態様によれば、点群解凍用装置は、処理回路を含む。処理回路は、符号化ビットストリームから点群の予測情報を復号化し、符号化ビットストリームから復号化された点群のジオメトリ画像に基づいてジオメトリ再構築クラウドを再構築する。また、平滑化されたジオメトリ再構築クラウドを生成するように、処理回路が、ジオメトリ再構築クラウドのブロックの境界サンプルに加えて、少なくともブロック内のジオメトリサンプルに対してフィルタを適用し、平滑化されたジオメトリ再構築クラウドに基づいて点群の点を再構築する。 According to some aspects of the present disclosure, an apparatus for point cloud decompression includes processing circuitry. The processing circuitry decodes the point cloud prediction information from the encoded bitstream and reconstructs a geometry reconstruction cloud based on the point cloud geometry image decoded from the encoded bitstream. The processing circuitry also filters and smoothes at least geometry samples within blocks in addition to boundary samples of blocks of the geometry reconstruction cloud to produce a smoothed geometry reconstruction cloud. Reconstruct the points of the point cloud based on the geometric reconstruction cloud.

幾つかの実施形態において、処理回路は、ブロック内の閾値レベルよりも高いレベルを有する高周波成分の領域を選択する。幾つかの例において、処理回路は、ジオメトリ再構築クラウドの深度値に基づいてブロック内のエッジを検出する。 In some embodiments, the processing circuitry selects regions of high frequency components having levels above the threshold level within the block. In some examples, the processing circuitry detects edges within the block based on depth values of the geometry reconstruction cloud.

幾つかの実施形態において、処理回路は、ブロック内の閾値レベルよりも高いレベルを有する動きコンテンツの領域を選択する。幾つかの例において、処理回路は、ジオメトリ画像内の対応する画素の動き情報に基づいてブロック内の点を選択する。 In some embodiments, the processing circuitry selects regions of motion content having levels higher than a threshold level within the block. In some examples, the processing circuitry selects points within the block based on motion information of corresponding pixels within the geometry image.

幾つかの実施形態において、予測情報は、点群のブロック内で選択的平滑化を適用することを指示するフラグを含む。幾つかの例において、予測情報は、ブロック内の点を選択するための特定のアルゴリズムを指示する。また、予測情報は、特定のアルゴリズムに用いるパラメータを含む。 In some embodiments, the prediction information includes flags that indicate to apply selective smoothing within blocks of the point cloud. In some examples, the prediction information dictates a particular algorithm for selecting points within the block. Predictive information also includes parameters for use in specific algorithms.

本開示の幾つかの態様によれば、点群圧縮用装置は処理回路を含む。処理回路は、点群に関連付けられたジオメトリ画像を圧縮し、圧縮された点群のジオメトリ画像に基づいてジオメトリ再構築クラウドを再構築する。そして、平滑化されたジオメトリ再構築クラウドを生成するように、処理回路が、ジオメトリ再構築クラウドのブロックの境界サンプルに加えて、少なくともブロック内のジオメトリサンプルに対してフィルタを適用し、平滑化されたジオメトリ再構築クラウドに基づいて点群のテクスチャ画像を生成する。 According to some aspects of the present disclosure, an apparatus for point cloud compression includes processing circuitry. Processing circuitry compresses the geometry image associated with the point cloud and reconstructs a geometry reconstruction cloud based on the compressed geometry image of the point cloud. Then, processing circuitry filters and smoothes at least the geometry samples within the blocks in addition to the boundary samples of the blocks of the geometry reconstruction cloud to produce a smoothed geometry reconstruction cloud. Generate a texture image of the point cloud based on the reconstructed geometry cloud.

幾つかの実施形態において、処理回路は、ブロック内の閾値レベルよりも高いレベルを有する高周波成分の領域を選択する。例えば、処理回路はジオメトリ再構築クラウドの深度値に基づいてブロック内のエッジを検出する In some embodiments, the processing circuitry selects regions of high frequency components having levels above the threshold level within the block. For example, the processing circuitry detects edges within blocks based on depth values in the geometry reconstruction cloud.

幾つかの実施形態において、処理回路は、ブロック内の閾値レベルよりも高いレベルを有する動きコンテンツの領域を選択する。例えば、処理回路はジオメトリ画像内の対応する画素の動き情報に基づいてブロック内の点を選択する。 In some embodiments, the processing circuitry selects regions of motion content having levels higher than a threshold level within the block. For example, the processing circuitry selects points within the block based on motion information for corresponding pixels within the geometry image.

幾つかの実施形態において、処理回路は、圧縮された点群の符号化ビットストリームには、点群のブロック内で選択的平滑化を適用することを指示するフラグを含む。幾つかの例において、処理回路は、圧縮された点群の符号化ビットストリームには、ブロック内の、選択的平滑化を適用する点を選択するための特定のアルゴリズムを指示するインジケーターを含む。 In some embodiments, the processing circuitry includes a flag in the encoded bitstream of the compressed point cloud that indicates to apply selective smoothing within blocks of the point cloud. In some examples, the processing circuitry includes in the compressed point cloud encoded bitstream an indicator that directs a particular algorithm for selecting points within the block to which to apply selective smoothing.

本開示の各態様は、命令が記憶されている非一時的なコンピュータ可読媒体をさらに提供し、当該命令は、点群圧縮/解凍動用コンピュータによって実行されると、点群圧縮/解凍用方法をコンピュータに実行させる。 Aspects of the present disclosure further provide a non-transitory computer-readable medium having stored thereon instructions that, when executed by a computer for point cloud compression/decompression, perform a method for point cloud compression/decompression. let the computer do it.

開示された主題のさらなる特徴、性質及び様々な利点は、以下の詳細な説明及び図面からより明確になる。図面において、
実施形態による通信システム(100)の簡略化ブロック図の模式図である。 実施形態によるストリーミングシステム (200)の簡略化ブロック図の模式図である。 幾つかの実施形態による点群フレームを符号化するエンコーダ(300)のブロック図を示す。 幾つかの実施形態による点群フレームに対応する圧縮ビットストリームを復号化するデコーダのブロック図を示す。 実施形態による動画デコーダの簡略化ブロック図の模式図である。 実施形態による動画エンコーダの簡略化ブロック図の模式図である。 本開示の幾つかの実施形態による点群のジオメトリ画像及びテクスチャ画像を示す。 本開示の幾つかの実施形態による構文の例を示す。 本開示の幾つかの実施形態による処理例を概説するフローチャートを示す。 本開示の幾つかの実施形態による処理例を概説するフローチャートを示す。 実施形態によるコンピュータシステムの模式図である。
Further features, properties and various advantages of the disclosed subject matter will become more apparent from the following detailed description and drawings. In the drawing:
1 is a schematic representation of a simplified block diagram of a communication system (100) according to an embodiment; FIG. 2 is a schematic representation of a simplified block diagram of a streaming system (200) according to an embodiment; FIG. FIG. 3 shows a block diagram of an encoder (300) for encoding point cloud frames according to some embodiments. FIG. 4 illustrates a block diagram of a decoder decoding a compressed bitstream corresponding to point cloud frames according to some embodiments; FIG. 3 is a schematic diagram of a simplified block diagram of a video decoder according to an embodiment; 2 is a schematic illustration of a simplified block diagram of a video encoder according to an embodiment; FIG. FIG. 4 illustrates geometry and texture images of point clouds according to some embodiments of the present disclosure; FIG. 4 illustrates example syntax according to some embodiments of the present disclosure. 4 depicts a flow chart outlining an example process according to some embodiments of the present disclosure. 4 depicts a flow chart outlining an example process according to some embodiments of the present disclosure. 1 is a schematic diagram of a computer system according to an embodiment; FIG.

本開示の各態様は、特に点群圧縮用動画符号化(video-coding for point cloud compression、V-PCC)を使用した点群符号化技術を提供する。V-PCCは、多用途動画コーデックを利用して点群圧縮を行うことができる。本開示における点群符号化技術は、V-PCCによる可逆圧縮と非可逆圧縮の両方を改善することができる。 Aspects of the present disclosure provide point cloud coding techniques, particularly using video-coding for point cloud compression (V-PCC). V-PCC can utilize a versatile video codec to perform point cloud compression. The point cloud coding technique in this disclosure can improve both lossless and lossy compression with V-PCC.

点群は、3D空間内の1組の点であり、各点は関連付けられた属性、例えば、色、マテリアルプロパティ、テクスチャ情報、強度属性、反射率属性、動き関連属性、モダリティ属性、及びその他のさまざまな属性を有する。点群は、オブジェクト又はシーンをそのような点の組み合わせとして再構築するために用いられる。これらの点は、さまざまな設置された複数のカメラと深度センサーを使用してキャプチャすることができ、再構築されたシーンをリアルに表現するように、数千から数十億の点から構成される。 A point cloud is a set of points in 3D space, each point having associated attributes such as color, material properties, texture information, intensity attributes, reflectance attributes, motion-related attributes, modality attributes, and others. It has various attributes. Point clouds are used to reconstruct an object or scene as a combination of such points. These points can be captured using multiple cameras and depth sensors in various installations and consist of thousands to billions of points to realistically represent the reconstructed scene. be.

点群を表すために必要なデータの量を減らすには、圧縮技術が必要である。 そのため、リアルタイム通信と6自由度(six Degrees of Freedom、6 DoF)の仮想現実で使用するための点群の非可逆圧縮には技術が必要である。また、自動運転や文化遺産の適用などのダイナミックマッピングの背景に、可逆点群圧縮用技術が求められてる。移動画像専門家グループ(moving picture experts group、MPEG)は、ジオメトリ形状(geometry)及び属性の圧縮に力を入れることを開始し、属性は、例えば、色と反射率、スケーラブル/プログレッシブ符号化、時間の経過とともにキャプチャされた点群のシーケンスの符号化、点群のサブセットへのランダムアクセスである。 Compression techniques are needed to reduce the amount of data needed to represent the point cloud. Techniques are therefore needed for lossy compression of point clouds for use in real-time communication and six Degrees of Freedom (6 DoF) virtual reality. In addition, technology for reversible point group compression is required in the background of dynamic mapping such as automatic driving and application of cultural heritage. The moving picture experts group (MPEG) has begun to focus on compression of geometry and attributes such as color and reflectance, scalable/progressive coding, time encoding a sequence of point clouds captured over the course of , random access to a subset of the point cloud.

本開示の一態様によれば、V-PCCの背後にある主な原理は、既存の動画コーデックを活用して、動的点群のジオメトリ形状、占有、及びテクスチャを3つの別個の動画シーケンスとして圧縮することである。 3つの動画シーケンスを解釈するために必要な追加のメタデータは、別々に圧縮される。ビットストリーム全体のごく一部はメタデータであり、ソフトウェア実現を使用して効率的に符号化/復号化できる。情報の大部分は動画コーデックによって処理される。 According to one aspect of the present disclosure, the main principle behind V-PCC is to leverage existing video codecs to capture dynamic point cloud geometry shape, occupancy, and texture as three separate video sequences. Compress. Additional metadata required to interpret the three video sequences are compressed separately. A small portion of the overall bitstream is metadata, which can be efficiently encoded/decoded using software implementations. Most of the information is processed by video codecs.

図1は、本開示の実施形態による通信システム(100)の簡略化ブロック図である。通信システム(100)は、例えばネットワーク(150)を介して互いに通信できる複数の端末デバイスを含む。例えば、通信システム(100)はネットワーク(150)を介して互いに接続された1対の端末デバイス(110)、(120)とを有する。図1の例において、第1対の端末デバイス(110)、(120)は点群データの単方向伝送を実行する。例えば、端末デバイス(110)は端末デバイス(110)に接続されたセンサー105によりキャプチャされた点群(例えば、構造を示す点)を圧縮することができる。圧縮された点群は、例えばビットストリームの形式で、ネットワーク(150)を介して他の端末デバイス(120)に伝送される。 端末デバイス(120)は、ネットワーク(150)から圧縮された点群を受信し、ビットストリームを解凍して点群を再構築し、再構築された点群に応じて適切に表示することができる。単方向データ伝送は、メディアサービングアプリケーションなどでよく見られているものである。 FIG. 1 is a simplified block diagram of a communication system (100) according to embodiments of the present disclosure. A communication system (100) includes a plurality of terminal devices that can communicate with each other, eg, via a network (150). For example, a communication system (100) comprises a pair of terminal devices (110), (120) connected together via a network (150). In the example of FIG. 1, a first pair of terminal devices (110), (120) perform unidirectional transmission of point cloud data. For example, the terminal device (110) can compress a cloud of points (eg, points representing structures) captured by the sensor 105 connected to the terminal device (110). The compressed point cloud is transmitted, for example in the form of a bitstream, over the network (150) to other terminal devices (120). The terminal device (120) can receive the compressed point cloud from the network (150), decompress the bitstream to reconstruct the point cloud, and appropriately display the reconstructed point cloud accordingly. . Unidirectional data transmission is common in media serving applications and the like.

図1の例において、端末装置(110)及び(120)は、サーバ、及びパーソナルコンピュータとして示され得るが、本開示の原理は、それに限定されない。本開示の実施形態は、ラップトップコンピュータ、タブレットコンピュータ、スマートフォン、ゲーム端末、メディアプレーヤー及び/又は専用の3次元(3D)機器に適用する。ネットワーク(150)は、端末デバイス(110)と(120)との間で圧縮された点群を伝送する任意の数のネットワークを表す。ネットワーク(150)は、例えば、有線(ケーブル)及び/又は無線通信ネットワークを含んでもよい。ネットワーク(150)は、回線交換及び/又はパケット交換チャネルでデータを交換することができる。代表的なネットワークは、電気通信ネットワーク、ローカルエリアネットワーク、ワイドエリアネットワーク、及び/又はインターネットを含む。本議論の目的のために、ネットワーク(150)のアーキテクチャ及びトポロジーは、本明細書で以下に説明されない限り、本開示の操作にとって重要ではない可能性がある。 In the example of FIG. 1, terminals 110 and 120 may be illustrated as servers and personal computers, but the principles of the present disclosure are not so limited. Embodiments of the present disclosure apply to laptop computers, tablet computers, smart phones, gaming consoles, media players and/or dedicated three-dimensional (3D) equipment. Network (150) represents any number of networks that transmit compressed point clouds between terminal devices (110) and (120). Network (150) may include, for example, wired (cable) and/or wireless communication networks. The network (150) may exchange data over circuit-switched and/or packet-switched channels. Typical networks include telecommunications networks, local area networks, wide area networks, and/or the Internet. For the purposes of this discussion, the architecture and topology of network (150) may not be critical to the operation of the present disclosure unless described herein below.

例として、図2は、点群について開示された主題の適用例を示す。 開示された主題は、3Dテレプレゼンスアプリケーション、仮想現実を含む他の点群をサポートするアプリケーションにも同様に適用できる。 By way of example, FIG. 2 shows an application of the disclosed subject matter for point clouds. The disclosed subject matter is equally applicable to other point cloud supporting applications, including 3D telepresence applications, virtual reality.

ストリーミングシステム200は、キャプチャサブシステム(213)を含んでもよい。 キャプチャサブシステム(213)は、点群ソース(201)、例えば、光検出及び測距(LIDAR)システム、3Dカメラ、3Dスキャナ、ソフトウェアで非圧縮点群を生成するグラフィックス生成コンポーネント、例えば圧縮されていない点群(202)を生成する類似グラフィックス生成コンポーネントを含んでもよい。一例において、点群(202)は、3Dカメラによってキャプチャされた点を含む。圧縮された点群(204)(圧縮された点群のビットストリーム)と比較して、点群(202)は、大量のデータを強調するために太線で描画される。圧縮された点群(204)は、点群ソース(201)に結合されたエンコーダ(203)を含む電子機器(220)によって生成されてもよい。 エンコーダ(203)は、以下でより詳細に説明されるように、開示された主題の各態様を実現又は実施するために、ハードウェア、ソフトウェア、又はそれらの組み合わせを含むことができる。点群のストリーム(202)と比較してデータ量が少ないことを強調するために細い線で描画される圧縮点群(204)(又は圧縮された点群(204)のビットストリーム(204))、将来の使用のために、ストリーミングサーバー(205)に記憶されてもよい。1つ又は複数のストリーミングクライアントサブシステム、例えば、図2のクライアントサブシステム(206)及び(208)は、ストリーミングサーバ(205)にアクセスして、圧縮された点群(204)のコピー(207)及び(209)を検索することができる。 クライアントサブシステム(206)は、例えば、電子機器(230)内のデコーダ(210)を含んでもよい。デコーダ(210)は、圧縮された点群の着信コピー(207)を復号化し、レンダリングデバイス(212)上でレンダリングできる再構築された点群(211)の発信ストリームを作成する。一部のストリーミングシステムでは、特定の規格に従って、圧縮された点群(204)、(207)、及び(209)(例えば、圧縮された点群のビットストリーム)を圧縮することができる。 いくつかの例において、動画符号化規格は点群の圧縮に使用される。それらの規格の例は、高効率動画符号化(HEVC)、多用途動画符号化(VVC)などを含む。 Streaming system 200 may include a capture subsystem (213). The capture subsystem (213) uses a point cloud source (201), such as a light detection and ranging (LIDAR) system, a 3D camera, a 3D scanner, a graphics generation component that generates an uncompressed point cloud in software, such as a compressed It may also include a similar graphics generation component that generates a point cloud (202) that does not exist. In one example, the point cloud (202) includes points captured by a 3D camera. Compared to the compressed point cloud (204) (compressed point cloud bitstream), the point cloud (202) is drawn with a thicker line to emphasize the large amount of data. The compressed point cloud (204) may be generated by electronics (220) including an encoder (203) coupled to the point cloud source (201). Encoder (203) may include hardware, software, or a combination thereof to implement or implement aspects of the disclosed subject matter, as described in more detail below. Compressed point cloud (204) (or bitstream (204) of compressed point cloud (204)) drawn with thin lines to emphasize the small amount of data compared to stream of point cloud (202) , may be stored on the streaming server (205) for future use. One or more streaming client subsystems, such as the client subsystems (206) and (208) of FIG. 2, access the streaming server (205) to generate a copy (207) of the compressed point cloud (204). and (209) can be retrieved. The client subsystem (206) may include, for example, a decoder (210) within the electronic device (230). The decoder (210) decodes the incoming copy (207) of the compressed point cloud and produces an outgoing stream of reconstructed point cloud (211) that can be rendered on the rendering device (212). Some streaming systems may compress the compressed point clouds (204), (207) and (209) (eg, compressed point cloud bitstreams) according to a particular standard. In some examples, video coding standards are used for point cloud compression. Examples of these standards include High Efficiency Video Coding (HEVC), Versatile Video Coding (VVC), and others.

電子機器(220)及び(230)は、他の構成要素(図示せず)を含んでもよいことに留意されたい。例えば、電子機器(220)は、デコーダ(図示せず)を含んでもよく、電子機器(230)は、エンコーダ(図示せず)を含んでもよい。 Note that electronics (220) and (230) may include other components (not shown). For example, electronics (220) may include a decoder (not shown) and electronics (230) may include an encoder (not shown).

図3は、いくつかの実施形態による点群フレームを符号化するためのV-PCCエンコーダ(300)のブロック図を示す。いくつかの実施形態において、V-PCCエンコーダ(300)は、通信システム(100)及びストリーミングシステム(200)で使用されてもよい。例えば、エンコーダ(203)は、V-PCCエンコーダ(300)と同様の方法で構成及び動作できる。 FIG. 3 shows a block diagram of a V-PCC encoder (300) for encoding point cloud frames according to some embodiments. In some embodiments, the V-PCC encoder (300) may be used in the communication system (100) and the streaming system (200). For example, the encoder (203) can be constructed and operated in a manner similar to the V-PCC encoder (300).

V-PCCエンコーダ(300)は、非圧縮入力である点群フレームを受信し、圧縮された点群フレームに対応するビットストリームを生成する。いくつかの実施形態では、V-PCCエンコーダ(300)は、例えば、点群ソース(201)などの点群ソースから点群フレームを受信することができる。 The V-PCC encoder (300) receives uncompressed input point cloud frames and produces a bitstream corresponding to the compressed point cloud frames. In some embodiments, the V-PCC encoder (300) may receive point cloud frames from a point cloud source, such as, for example, the point cloud source (201).

図3の例において、V-PCCエンコーダ(300)は、図3に示すように、一体に結合されているブロック生成モジュール306、ブロックパッキングモジュール308、ジオメトリ画像生成モジュール310、テクスチャ画像生成モジュール312、ブロック情報モジュール304、占有マップモジュール314、平滑化モジュール336、画像パディングモジュール316及び318、グループ拡張モジュール320、動画圧縮モジュール322、323及び332、補助ブロック情報圧縮モジュール338、エントロピー圧縮モジュール334、及びマルチプレクサ324を含む。 In the example of FIG. 3, the V-PCC encoder (300) includes block generation module 306, block packing module 308, geometry image generation module 310, texture image generation module 312, coupled together as shown in FIG. block information module 304, occupancy map module 314, smoothing module 336, image padding modules 316 and 318, group expansion module 320, video compression modules 322, 323 and 332, auxiliary block information compression module 338, entropy compression module 334, and a multiplexer. 324 included.

本開示の一態様によれば、V-PCCエンコーダ(300)は、3D点群フレームを画像に基づく表現、及び圧縮された点群を解凍された点群に戻すために必要ないくつかのメタデータ(例えば、占有マップ及びブロック情報)に変換する。いくつかの例では、V-PCCエンコーダ(300)は、3D点群フレームをジオメトリ画像、テクスチャ画像、及び占有マップに変換し、次に、動画符号化技術を使用して、ジオメトリ画像、テクスチャ画像、及び占有マップをビットストリームに符号化することができる。一般的に、ジオメトリ画像は、画素に投影された点に関連付けられたジオメトリ値でパディングされた画素を持つ2D画像であり、ジオメトリ値でパディングされた画素は、ジオメトリサンプルと呼ばれる。テクスチャ画像は、画素に投影された点に関連付けられたテクスチャ値でパディングされた画素を持つ2D画像であり、テクスチャ値でパディングされた画素はテクスチャサンプルと呼ばれる。占有マップは、ブロックによって占有されているかどうかを示す値でパディングされた画素を持つ2D画像である。 According to one aspect of the present disclosure, the V-PCC encoder (300) provides an image-based representation of the 3D point cloud frame, and some metadata necessary to convert the compressed point cloud back to the decompressed point cloud. Convert to data (eg, occupancy map and block information). In some examples, the V-PCC encoder (300) converts 3D point cloud frames into geometry images, texture images, and occupancy maps, and then uses video coding techniques to convert geometry images, texture images , and the occupancy map can be encoded into the bitstream. In general, a geometry image is a 2D image with pixels padded with geometry values associated with points projected onto the pixels, and the pixels padded with geometry values are called geometry samples. A texture image is a 2D image with pixels padded with texture values associated with points projected onto the pixels, and the pixels padded with texture values are called texture samples. An occupancy map is a 2D image with pixels padded with values that indicate whether they are occupied by a block.

ブロック生成モジュール(306)は、点群を1組のブロックに区分し(例えば、ブロックは、点群によって記述される表面の連続したサブセットとして定義される)、積層してもよく、積層しなくてもよいが、各ブロックは、 2D空間の平面に対する深度フィールドによって記述できるようにしている。いくつかの実施形態において、ブロック生成モジュール(306)は、点群を、滑らかな境界を有する最小数のブロックに分解しながら、再構築誤差を最小限にすることを目的とする。 The block generation module (306) partitions the point cloud into a set of blocks (eg, a block is defined as a contiguous subset of the surface described by the point cloud), which may or may not be stacked. Each block can be described by a depth field for a plane in 2D space. In some embodiments, the block generation module (306) aims to minimize reconstruction errors while decomposing the point cloud into a minimum number of blocks with smooth boundaries.

ブロック情報モジュール(304)はブロックのサイズ及び形状を示すブロック情報を収集することができる。いくつかの例において、ブロック情報を画像フレームにパッキングし、次に、補助ブロック情報圧縮モジュール338によって符号化して、圧縮された補助ブロック情報を生成することができる。 A block information module (304) can collect block information indicating the size and shape of the block. In some examples, the block information may be packed into image frames and then encoded by the auxiliary block information compression module 338 to generate compressed auxiliary block information.

ブロックパッキングモジュール308は、抽出されたブロックを2次元(2D)グリッドにマッピングしながら、未使用のスペースを最小化し、グリッドの各M X M(例えば、16x16)ブロックが一意のブロックに関連付けられることを確保するように配置されている。効率的なブロックパッキングは、未使用のスペースを最小限にするか、時間的な一貫性を確保することにより、圧縮効率に直接影響を与えてもよい。 A block packing module 308 maps the extracted blocks to a two-dimensional (2D) grid while minimizing unused space, ensuring that each M x M (e.g., 16x16) block of the grid is associated with a unique block. are arranged to ensure Efficient block packing may directly impact compression efficiency by minimizing unused space or ensuring temporal consistency.

ジオメトリ画像生成モジュール(310)は、所定のブロック位置での点群のジオメトリ形状に関連する2Dジオメトリ画像を生成することができる。 テクスチャ画像生成モジュール(312)は、所定のブロック位置での点群のテクスチャに関連する2Dテクスチャ画像を生成することができる。ジオメトリ画像生成モジュール310及びテクスチャ画像生成モジュール(312)は、パッキングプロセス中に算出された3Dから2Dへのマッピングを利用して、点群のジオメトリ形状及びテクスチャを画像として格納する。複数の点を同じサンプルに投影する場合をより良く処理するために、各ブロックをレイヤーと呼ばれる2つの画像に投影する。例では、ジオメトリ画像はYUV42Q-8ビットフォーマットのWxHの単色フレームで表される。テクスチャ画像を生成するために、テクスチャ生成処理は、再構築された/平滑化されたジオメトリ形状を利用して、再サンプリングされた点に関連付けられる色を算出する(色移りとも呼ばれる)。 A geometry image generation module (310) can generate a 2D geometry image associated with the geometric shape of the point cloud at a given block location. A texture image generation module (312) can generate a 2D texture image associated with the texture of the point cloud at a given block location. Geometry image generation module 310 and texture image generation module (312) utilize the 3D to 2D mapping computed during the packing process to store the geometry shape and texture of the point cloud as an image. To better handle the case of projecting multiple points onto the same sample, each block is projected onto two images called layers. In the example, the geometry image is represented by a WxH monochromatic frame in YUV42Q-8 bit format. To generate a texture image, the texture generation process utilizes the reconstructed/smoothed geometry shape to compute the colors associated with the resampled points (also called color transfer).

占有マップモジュール314は、各ユニットでのパディング情報を記述する占有マップを生成することができる。例えば、占有マップは、グリッドの各セルについて、このセルが空のスペースに属しているのか、点群に属しているのかを示すバイナリマップを含む。一例では、占有マップは、各画素についてこの画素がパディングされているかどうかを説明するバイナリ情報を使用する。 別の例では、占有マップは、画素のブロックごとに画素のブロックがパディングされているかどうかを説明するバイナリ情報を使用する。 Occupancy map module 314 can generate an occupancy map that describes padding information at each unit. For example, the occupancy map contains a binary map indicating for each cell of the grid whether this cell belongs to an empty space or to a point cloud. In one example, the occupancy map uses binary information for each pixel that describes whether this pixel is padded. In another example, the occupancy map uses binary information describing for each block of pixels whether the block of pixels is padded.

占有マップモジュール314によって生成された占有マップは、可逆符号化又は非可逆符号化を使用して圧縮することができる。可逆符号化を使用する場合、エントロピー圧縮モジュール334を使用して占有マップを圧縮する。非可逆符号化を使用する場合、動画圧縮モジュール332を使用して占有マップを圧縮する。 The occupancy map generated by the occupancy map module 314 can be compressed using lossless or lossy encoding. If lossless encoding is used, entropy compression module 334 is used to compress the occupancy map. If lossy encoding is used, the video compression module 332 is used to compress the occupancy map.

ブロックパッキングモジュール 308は、画像フレームにパックされた2Dブロックの間に多少の空のスペースを残すことができることに留意されたい。画像パディングモジュール316及び318は、2D動画及び画像コーデックに適し得る画像フレームを生成するように、空のスペース(パディングと呼ばれる)パディングすることができる。画像のパディングはバックグラウンドフィリングとも呼ばれ、冗長な情報によって未使用のスペースをパディングことができる。いくつかの例では、良いバックグラウンドフィリングはビットレートを最小限に増加させるが、ブロック境界の周りに明らかな符号化歪みを導入しない。 Note that the block packing module 308 may leave some empty space between 2D blocks packed into image frames. Image padding modules 316 and 318 can pad empty spaces (referred to as padding) to produce image frames that may be suitable for 2D video and image codecs. Image padding, also known as background filling, allows unused space to be padded with redundant information. In some instances, good background filling increases bitrate minimally, but does not introduce obvious coding distortion around block boundaries.

動画圧縮モジュール322、323及び332は、HEVC、VVCなどの適切な動画符号化規格に基づいて、パディングされたジオメトリ画像、パディングされたテクスチャ画像、及び占有マップなどの2D画像を符号化することができる。一例において、動画圧縮モジュール322、323、及び332は、別々に動作する個々のコンポーネントである 別の例において、動画圧縮モジュール322、323、及び332を単一のコンポーネントとして実現できることに留意されたい。 Video compression modules 322, 323 and 332 may encode 2D images such as padded geometry images, padded texture images, and occupancy maps based on a suitable video coding standard such as HEVC, VVC. can. In one example, the video compression modules 322, 323, and 332 are individual components that operate separately. Note that in another example, the video compression modules 322, 323, and 332 can be implemented as a single component.

いくつかの例において、平滑モジュール336は、再構築されたジオメトリ画像の平滑画像を生成するように配置されている。平滑化された画像情報をテクスチャ画像生成器312に提供することができる。次に、テクスチャ画像生成器312は、再構築されたジオメトリ画像に基づいてテクスチャ画像の生成を調整することができる。例えば、ブロック形状(例えば、ジオメトリ形状)が符号化及び復号化中にわずかに歪んでいる場合、テクスチャ画像を生成する際にブロック形状の歪みを補正するために歪みを考慮に入れることができる。 In some examples, smoothing module 336 is arranged to generate a smoothed image of the reconstructed geometry image. The smoothed image information can be provided to texture image generator 312 . The texture image generator 312 can then adjust the texture image generation based on the reconstructed geometry image. For example, if the block shape (eg, geometry shape) is slightly distorted during encoding and decoding, the distortion can be taken into account to correct for block shape distortion when generating the texture image.

いくつかの実施形態では、グループ拡張320は、符号化ゲイン及び再構築された点群の視覚的品質を改善するために、冗長な低周波数コンテンツで対象境界の周りの画素をパディングするように配置されている。 In some embodiments, group extension 320 is arranged to pad pixels around object boundaries with redundant low-frequency content to improve the coding gain and visual quality of the reconstructed point cloud. It is

マルチプレクサ324は、圧縮されたジオメトリ画像、圧縮されたテクスチャ画像、圧縮された占有マップ、圧縮された補助ブロック情報を圧縮されたビットストリームに多重化することができる。 A multiplexer 324 can multiplex the compressed geometry image, the compressed texture image, the compressed occupancy map, and the compressed auxiliary block information into the compressed bitstream.

図4は、幾つかの実施形態による点群フレームに対応する圧縮ビットストリームを復号化するためのV-PCCデコーダ(400)のブロック図を示す。幾つかの実施形態において、V-PCCデコーダ(400)は通信システム(100)及びストリーミングシステム (200)に使用されてもよい。例えば、デコーダ(210)は、V-PCCデコーダ(400)と同様に配置及び動作することができる。V-PCCデコーダ(400)は圧縮されたビットストリームを受信し、圧縮されたビットストリームに基づいて再構築された点群を生成する。 FIG. 4 shows a block diagram of a V-PCC decoder (400) for decoding compressed bitstreams corresponding to point cloud frames according to some embodiments. In some embodiments, the V-PCC decoder (400) may be used in the communication system (100) and the streaming system (200). For example, the decoder (210) may be arranged and operate similarly to the V-PCC decoder (400). The V-PCC decoder (400) receives the compressed bitstream and produces a reconstructed point cloud based on the compressed bitstream.

図4の例において、V-PCCデコーダ(400)は、図4に示すように、一体に結合されたデマルチプレクサ(432)、動画解凍モジュール(434)及び(436)、占有マップ解凍モジュール(438)、補助ブロック情報解凍モジュール(442)、ジオメトリ再構築モジュール(444)、平滑化モジュール(446)、テクスチャ再構築モジュール(448)及び色平滑化モジュール(452)を含む。 In the example of FIG. 4, the V-PCC decoder (400) includes, as shown in FIG. ), an auxiliary block information decompression module (442), a geometry reconstruction module (444), a smoothing module (446), a texture reconstruction module (448) and a color smoothing module (452).

デマルチプレクサ(432)は、圧縮されたビットストリームを受信し、圧縮されたテクスチャ画像、圧縮された形状画像、圧縮された占有マップ、及び圧縮された補助ブロック情報に区画することができる。 A demultiplexer (432) can receive the compressed bitstream and partition it into a compressed texture image, a compressed shape image, a compressed occupancy map, and compressed auxiliary block information.

動画解凍モジュール(434)及び(436)は、適切な規格(例えば、HEVC、VVCなど)に応じて圧縮されたイメージを復号化し、解凍されたイメージを出力することができる。例えば、動画解凍モジュール(434)は圧縮されたテクスチャ画像を復号化し、解凍されたテクスチャ画像を出力し、動画解凍モジュール(436)は圧縮されたジオメトリ画像を復号化し、解凍されたジオメトリ画像を出力することができる。 Video decompression modules (434) and (436) can decode compressed images according to a suitable standard (eg, HEVC, VVC, etc.) and output decompressed images. For example, the video decompression module (434) decodes compressed texture images and outputs decompressed texture images, and the video decompression module (436) decodes compressed geometry images and outputs decompressed geometry images. can do.

占有マップ解凍モジュール(438)は、適切な規格(例えば、HEVC、VVCなど)に応じて圧縮された占有マップを復号化し、解凍された占有マップを出力することができる。 The occupancy map decompression module (438) can decode the compressed occupancy map according to a suitable standard (eg, HEVC, VVC, etc.) and output the decompressed occupancy map.

補助ブロック情報解凍モジュール(442)は、適切な規格(例えば、HEVC、VVCなど)に応じて圧縮された補助ブロック情報を復号化し、解凍された補助ブロック情報を出力することができる。 Auxiliary block information decompression module (442) can decode auxiliary block information compressed according to a suitable standard (eg, HEVC, VVC, etc.) and output decompressed auxiliary block information.

ジオメトリ再構築モジュール(444)は解凍されたジオメトリ画像を受信し、解凍された占有マップ及び解凍された補助ブロック情報に基づいて再構築された点群ジオメトリ形状を生成することができる。 A geometry reconstruction module (444) can receive the decompressed geometry image and generate a reconstructed point cloud geometry shape based on the decompressed occupancy map and the decompressed auxiliary block information.

平滑化モジュール(446)はブロックのエッジでの不一致を平滑化することができる。 平滑化処理は、圧縮アーティファクトによってブロック境界で発生する可能性のある潜在的な不連続性を軽減することを目的とする。いくつかの実施形態では、平滑フィルタをブロック境界に位置する画素に適用して、圧縮/解凍によって引き起こされる可能性のある歪みを軽減することができる。 A smoothing module (446) can smooth discrepancies at the edges of blocks. The smoothing process aims to mitigate potential discontinuities that can occur at block boundaries due to compression artifacts. In some embodiments, a smoothing filter can be applied to pixels located at block boundaries to reduce distortion that can be caused by compression/decompression.

テクスチャ再構築モジュール(448)は、解凍されたテクスチャ画像及び平滑化されたジオメトリ形状に基づいて点群の点のテクスチャ情報を特定することができる。 A texture reconstruction module (448) can determine texture information for the points of the point cloud based on the decompressed texture image and the smoothed geometry shape.

色平滑モジュール(452)は、着色の不一致を平滑化することができる。3D空間内の隣接しないブロックは、多くの場合、2D動画で隣り合ってパッキングされる。いくつかの例では、隣接していないブロックからの画素値が、ブロックに基づく動画コーデックによって混同される可能性がある。色平滑化の目的は、ブロックの境界に出現する目に見えるアーティファクトを減らすことである。 A color smoothing module (452) can smooth out coloration discrepancies. Non-adjacent blocks in 3D space are often packed next to each other in 2D video. In some instances, pixel values from non-adjacent blocks can be confused by block-based video codecs. The purpose of color smoothing is to reduce visible artifacts that appear at block boundaries.

図5は、本開示の実施形態による動画デコーダ(510)のブロック図を示す。動画デコーダ(510)はV-PCCデコーダ(400)で使用することができる。例えば、動画解凍モジュール(434)及び(436)、占有マップ解凍モジュール(438)は同様に動画デコーダ(510)として配置されることができる。 FIG. 5 shows a block diagram of a video decoder (510) according to an embodiment of the disclosure. The video decoder (510) can be used with the V-PCC decoder (400). For example, the video decompression modules (434) and (436), the occupancy map decompression module (438) can be similarly arranged as the video decoder (510).

動画デコーダ(510)は、圧縮画像、例えば、符号化された動画シーケンスからシンボル(521)を再構築するためのパーサ(520)を含んでもよい。これらのシンボルのカテゴリには、動画デコーダ(510)の操作を管理するための情報が含まれる。パーサ(520)は、受信された符号化された動画シーケンスに対して解析/エントロピー復号化を行うことができる。符号化された動画シーケンスの符号化は、動画符号化技術又は規格に従うことができ、可変長符号化、ハフマン符号化、文脈依存の有無にかかわらない算術符号化などを含む様々な原理に従うことができる。パーサ(520)は、グループに対応する少なくとも1つのパラメーターに基づいて、符号化された動画シーケンスから、動画デコーダにおける画素のサブグループのうちの少なくとも1つに対するサブグループパラメータセットを抽出することができる。サブグループは、ピクチャのグループ(GOP)、ピクチャ、タイル、スライス、マクロブロック、符号化ユニット(CU)、ブロック、変換ユニット(TU)、予測ユニット(PU)などを含んでもよい。パーサ(520)は、また、符号化された動画シーケンスから、例えば、変換係数、量子化器パラメーター値、動きベクトルなどの情報を抽出してもよい。 The video decoder (510) may include a parser (520) for reconstructing symbols (521) from compressed images, eg, encoded video sequences. These symbol categories contain information for managing the operation of the video decoder (510). A parser (520) can perform parsing/entropy decoding on the received encoded video sequence. The encoding of the encoded video sequence can follow a video coding technique or standard and can follow various principles including variable length coding, Huffman coding, arithmetic coding with or without context dependence, etc. can. A parser (520) may extract a subgroup parameter set for at least one of the subgroups of pixels in the video decoder from the encoded video sequence based on at least one parameter corresponding to the group. . A subgroup may include a group of pictures (GOP), a picture, a tile, a slice, a macroblock, a coding unit (CU), a block, a transform unit (TU), a prediction unit (PU), and so on. The parser (520) may also extract information from the encoded video sequence, such as transform coefficients, quantizer parameter values, motion vectors, and the like.

パーサ(520)は、バッファメモリから受信された動画シーケンスに対してエントロピー復号化/解析操作を実行することで、シンボル(521)を構築することができる。 A parser (520) can build symbols (521) by performing entropy decoding/parsing operations on the video sequence received from the buffer memory.

シンボル(521)の再構築は、符号化された動画ピクチャ又は一部の符号化された動画ピクチャ(例えば、インターピクチャとイントラピクチャ、インターブロックとイントラブロック)のタイプ及び他の要因に依存し、複数の異なるユニットに関してもよい。どのユニットが関与し、どのように制御するかについて、パーサ(520)により符号化された動画シーケンスから解析したサブグループ制御情報によって制御されてもよい。簡潔のために、パーサ(520)と以下の複数のユニットとの間のそのようなサブグループ制御情報の流れについて説明しない。 The reconstruction of the symbols (521) depends on the type of coded video picture or some coded video pictures (e.g., inter-pictures and intra-pictures, inter-blocks and intra-blocks) and other factors, It may also relate to a plurality of different units. Which units are involved and how they are controlled may be controlled by subgroup control information parsed from the encoded video sequence by the parser (520). For the sake of brevity, we do not describe such subgroup control information flow between the parser (520) and the following units.

既に言及された機能ブロックに加えて、動画デコーダ(510)は概念的には、以下に説明する複数の機能ユニットに細分化することができる。商業的な制約の下で運行する実際の実現形態では、これらのユニットの多くは互いに密接に相互作用し、少なくとも部分的に互いに統合することができる。しかしながら、開示された主題を説明する目的のために、概念的には、以下の機能ユニットに細分化されることは適切である。 In addition to the functional blocks already mentioned, the video decoder (510) can be conceptually subdivided into multiple functional units described below. In a practical implementation operating under commercial constraints, many of these units will interact closely with each other and can be at least partially integrated with each other. However, for purposes of describing the disclosed subject matter, conceptually it is appropriate to break it down into the following functional units.

第1のユニットは、スケーラ/逆変換ユニット(551)である。当該スケーラ/逆変換ユニット(541)はパーサ(520)からシンボル(521)である量子化変換係数及び制御情報を受信し、使用する変換方法、ブロックサイズ、量子化係数、量子化スケーリングマトリックスなどを含む。スケーラ/逆変換ユニット(551)は、サンプル値を含むブロックを出力することができ、これらのブロックはアグリゲータ(555)に入力され得る。 The first unit is the scaler/inverse transform unit (551). The scaler/inverse transform unit (541) receives the quantized transform coefficients in symbols (521) and control information from the parser (520) and specifies the transform method to use, block size, quantized coefficients, quantized scaling matrix, etc. include. The scaler/inverse transform unit (551) may output blocks containing sample values, which may be input to the aggregator (555).

いくつかの場合に、スケーラ/逆変換ユニット(551)の出力サンプルは、イントラ符号化ブロック、即ち、先に再構築されたピクチャからの予測情報を使用しないが、現在のピクチャの先に再構築された部分からの予測情報を使用できるブロックに属してもよい。このような予測情報は、イントラピクチャ予測ユニット(552)によって提供され得る。いくつかの場合に、イントラピクチャ予測ユニット(552)は現在のピクチャバッファ(558)から抽出された、周囲が既に再構築された情報を使用して、再構築しているブロックと同じサイズ及び形状のブロックを生成する。現在のピクチャバッファ(558)は、例えば、部分的に再構築された現在のピクチャ及び/又は完全に再構築された現在のピクチャをバッファリングする。いくつかの場合に、アグリゲータ(555)は各サンプルに基づいて、イントラ予測ユニット(552)によって生成される予測情報を、スケーラ/逆変換ユニット(551)から提供される出力サンプル情報に追加する。 In some cases, the output samples of the scaler/inverse transform unit (551) are intra-coded blocks, i.e., they do not use prediction information from previously reconstructed pictures, but are reconstructed prior to the current picture. It may belong to a block that can use the prediction information from the predicted part. Such prediction information may be provided by an intra-picture prediction unit (552). In some cases, the intra-picture prediction unit (552) uses already-reconstructed surrounding information extracted from the current picture buffer (558) to predict the same size and shape as the block it is reconstructing. generates a block of A current picture buffer (558) buffers, for example, a partially reconstructed current picture and/or a fully reconstructed current picture. In some cases, the aggregator (555) adds the prediction information generated by the intra prediction unit (552) to the output sample information provided from the scaler/inverse transform unit (551) based on each sample.

他の場合に、スケーラ/逆変換ユニット(551)の出力サンプルはインター符号化され且つ潜在動き補償であり得るブロックに属してもよい。このような場合に、動き補償予測ユニット(553)は、参照ピクチャメモリ(557)にアクセスして、予測用サンプルを取得してもよい。当該ブロックに属するシンボル(521)に応じて、取得されたサンプルに対して動き補償を行った後に、これらのサンプルは、アグリゲータ(555)によってスケーラ/逆変換ユニット(551)の出力(この場合に、残差サンプル又は残差信号と呼ばれる)に追加されることで、出力サンプル情報を生成することができる。動き補償ユニット(553)が予測サンプルを抽出する参照ピクチャメモリ(457)におけるアドレスは、動きベクトルによって制御されてもよく、前記動きベクトルは、シンボル(521)の形で動き補償ユニット(553)に使用されることができ、シンボル(521)は、例えば、X、Y、及び参照ピクチャ成分を有してもよい。動き補償には、サブサンプルの正確な動きベクトルが使用されている際に参照ピクチャメモリ(557)から取得されたサンプル値の補間、動きベクトル予測メカニズムなどを含んでもよい。 In other cases, the output samples of the scaler/inverse transform unit (551) may belong to blocks that may be inter-coded and potentially motion compensated. In such cases, the motion compensated prediction unit (553) may access the reference picture memory (557) to obtain samples for prediction. After performing motion compensation on the obtained samples according to the symbols (521) belonging to the block, these samples are converted by an aggregator (555) to the output of the scaler/inverse transform unit (551) (in this case , called residual samples or residual signals) to produce output sample information. The address in the reference picture memory (457) from which the motion compensation unit (553) extracts the prediction samples may be controlled by a motion vector, said motion vector being sent to the motion compensation unit (553) in the form of symbols (521). A symbol (521) may, for example, comprise X, Y, and reference picture components. Motion compensation may include interpolation of sample values obtained from the reference picture memory (557) when sub-sample accurate motion vectors are used, motion vector prediction mechanisms, and the like.

アグリゲータ(555)の出力サンプルは、ループフィルタユニット(556)において様々なループフィルタリング技術にって処理され得る。動画圧縮技術は、ループ内フィルタ技術を含んでもよく、当該ループ内フィルタ技術は、符号化された動画シーケンス(符号化された動画ビットストリームとも呼ばれる)に含まれ且つパーサ(520)からのシンボル(521)としてループフィルタユニット(556)に使用可能なパラメータによって制御される。しかしながら、符号化されたピクチャ又は符号化された動画シーケンスの(復号化順序で)前の部分を復号化する期間に得られたメタ情報に応答してもよいし、先に再構築されループフィルタリング処理されたサンプル値に応答してもよい。 The output samples of the aggregator (555) may be processed with various loop filtering techniques in a loop filter unit (556). The video compression technique may include an in-loop filter technique that includes symbols ( 521) is controlled by parameters available to the loop filter unit (556). However, it may also respond to meta-information obtained during decoding of earlier parts (in decoding order) of the encoded picture or encoded video sequence, or may be reconstructed earlier and loop filtered. It may be responsive to processed sample values.

ループフィルタユニット(556)の出力はサンプルストリームであってもよく、将来のインターピクチャ予測で使用されるために、レンダリングデバイスに出力され、参照ピクチャメモリ(557)に記憶されることができる。 The output of the loop filter unit (556) may be a sample stream, which can be output to the rendering device and stored in the reference picture memory (557) for use in future inter-picture prediction.

完全に再構築されると、特定の符号化されたピクチャは、参照ピクチャとして将来の予測に使用することができる。例えば、現在のピクチャに対応する符号化されたピクチャは完全に再構築され、且つ符号化されたピクチャが参照ピクチャとして識別されると(例えば、パーサ(520)によって)、現在のピクチャバッファ(558)は参照ピクチャメモリ(557)の一部となることができ、そして、その後の符号化されたピクチャの再構築を開始する前に、新しい現在のピクチャバッファを再割り当てることができる。 Once fully reconstructed, a particular coded picture can be used as a reference picture for future prediction. For example, the encoded picture corresponding to the current picture is completely reconstructed, and once the encoded picture is identified as a reference picture (eg, by the parser (520)), the current picture buffer (558 ) can become part of the reference picture memory (557) and can reallocate a new current picture buffer before starting reconstruction of subsequent coded pictures.

動画デコーダ(510)は、例えばITU-T H.265提案書における所定のビデ圧縮技術のような規格に応じて復号化操作を実行してもよい。符号化された動画シーケンスが動画圧縮技術又は規格の構文及び動画圧縮技術又は規格に記録されているプロファイルの両方に準拠する意味で、符号化された動画シーケンスは、使用されている動画圧縮技術又は規格で指定される構文に準拠することができる。具体的に、プロファイルは、ビデ圧縮技術又は規格で利用可能な全てのツールから、あるツールをプロファイルのみで使用され得るツールとして選択してもよい。コンプライアンスについて、符号化された動画シーケンスの複雑さがビデ圧縮技術又は規格のレベルで限定される範囲内にあることも要求する。いくつかの場合に、レベルは、最大ピクチャのサイズ、最大フレームレート、最大再構築サンプルレート(例えば1秒あたりのメガサンプルを単位として測定する)、最大参照ピクチャサイズなどを制限する。いくつかの場合に、レベルによって設置される制限は、仮想参照デコーダ(HRD)の仕様及び符号化された動画シーケンスにおけるシグナリングされるHRDバッファの管理するメタデータによってさらに制限されてもよい。 The video decoder (510) is, for example, ITU-T H. The decoding operation may be performed according to a standard, such as certain video compression techniques in the H.265 proposal. An encoded video sequence conforms to both the syntax of the video compression technology or standard and the profile recorded in the video compression technology or standard, in the sense that the encoded video sequence conforms to the video compression technology or standard being used. It can conform to the syntax specified in the standard. Specifically, a profile may select a tool from all available tools for a video compression technology or standard as a tool that may only be used with the profile. Compliance also requires that the complexity of the encoded video sequences be within limits set at the level of the video compression technology or standard. In some cases, the level limits the maximum picture size, maximum frame rate, maximum reconstructed sample rate (eg, measured in megasamples per second), maximum reference picture size, and the like. In some cases, the limit placed by the level may be further constrained by the specification of the Hypothetical Reference Decoder (HRD) and metadata managed by the HRD buffer signaled in the encoded video sequence.

図6は、本開示の実施形態による動画エンコーダ(603)のブロック図を示す。動画エンコーダ(603)は、点群を圧縮するV-PCCエンコーダ(300)に使用することができる。例において、動画圧縮モジュール(322)と(323)及び動画圧縮モジュール(332)はエンコーダ(603)と同様に配置される。 FIG. 6 shows a block diagram of a video encoder (603) according to embodiments of the present disclosure. The video encoder (603) can be used for the V-PCC encoder (300) to compress the point cloud. In the example, video compression modules (322) and (323) and video compression module (332) are arranged similarly to encoder (603).

動画エンコーダ(603)は、パディングされたジオメトリ画像、パディングされたテクスチャ画像などの画像を受信し、圧縮された画像を生成することができる。 A video encoder (603) can receive images, such as padded geometry images, padded texture images, and produce compressed images.

実施形態によれば、動画エンコーダ(603)は、リアルタイムで、又はアプリケーションによって要求される他の任意の時間制約の下で、ソース動画シーケンスのピクチャを、符号化された動画シーケンス(圧縮された画像)に符号化して圧縮してもよい。適切な符号化速度で実行することはコントローラ(650)の機能の1つである。いくつかの実施形態において、コントローラ(650)は、以下で説明する他の機能ユニットを制御し、これらのユニットに機能的に結合される。明確のために、結合は説明されていない。コントローラ(650)によって設置されるパラメータは、レート制御関連パラメータ(ピクチャスキップ、量子化器、レート歪み最適化技術のλ値...)、ピクチャサイズ、ピクチャグループ(GOP)レイアウト、最大動きベクトル検索範囲などを含んでもよい。コントローラ(650)は、特定のシステム設計に対して最適化された動画エンコーダ(603)に属する他の適切な機能を有するように配置されてもよい。 According to an embodiment, the video encoder (603) converts the pictures of the source video sequence into an encoded video sequence (compressed image ) and compressed. Running at an appropriate encoding rate is one of the functions of the controller (650). In some embodiments, controller (650) controls and is operatively coupled to other functional units described below. Couplings are not illustrated for clarity. The parameters set by the controller (650) are rate control related parameters (picture skip, quantizer, λ value of rate-distortion optimization technique...), picture size, group of pictures (GOP) layout, maximum motion vector search. It may also include ranges and the like. Controller (650) may be arranged to have other suitable functions pertaining to video encoder (603) optimized for a particular system design.

幾つかの実施形態において、動画エンコーダ(603)は、符号化ループで動作するように配置されている。非常に簡略化した説明として、例において、符号化ループは、ソースエンコーダ(630)(例えば、符号化しようとする入力ピクチャ及び参照ピクチャに基づいてシンボルストリームのようなシンボルを作成することを担当する)、動画エンコーダ(603)に組み込まれた(ローカルの)デコーダ(533)を含んでもよい。デコーダ(633)は、(リモート)デコーダがサンプルデータを作成する方法と同様にサンプルを作成するために、シンボルを再構築する(シンボルと符号化された動画ビットストリームとの間の圧縮は開示された主題で考慮される動画圧縮技術では無損失であるため)。再構築されたサンプルストリーム(サンプルデータ)を参照ピクチャメモリ(634)に入力する。シンボルストリームの復号化によって、デコーダの位置(ローカル又はリモート)に関係がないビットが正確である結果が得られるため、参照ピクチャメモリ(634)のコンテンツもローカルエンコーダとリモートエンコーダとの間でビットが正確である。つまり、エンコーダの予測部分は、デコーダが復号化中に予測を使用するときに「見る」のとまったく同じサンプル値を参照ピクチャサンプルとして見なす。 このような参照ピクチャの同期性の基本原理(及び、例えばチャネル誤差のために同期性を維持できない場合は結果として生じるドリフト)は、一部の関連技術でも使用される。 In some embodiments, the video encoder (603) is arranged to operate in an encoding loop. As a very simplified explanation, in the example the encoding loop is responsible for creating a symbol like symbol stream based on the source encoder (630) (e.g. the input picture to be encoded and the reference picture ), which may include a (local) decoder (533) embedded in the video encoder (603). The decoder (633) reconstructs the symbols (compression between the symbols and the encoded video bitstream is not disclosed) to create samples similar to how the (remote) decoder creates sample data. (because it is lossless for the video compression techniques considered in the subject matter). Input the reconstructed sample stream (sample data) into the reference picture memory (634). The contents of the reference picture memory (634) are also bit-accurate between the local and remote encoders, since the decoding of the symbol stream results in bit-accurate regardless of the decoder's position (local or remote). Accurate. That is, the prediction part of the encoder sees as reference picture samples exactly the same sample values that the decoder "sees" when using prediction during decoding. This basic principle of reference picture synchrony (and the resulting drift if synchrony cannot be maintained, e.g. due to channel error) is also used in some related techniques.

「ローカル」デコーダ(633)の動作は、「リモート」デコーダ、例えば動画デコーダ(510)の動作と同じであってもよく、以上で図5を参照しながら詳細に説明した。しかし、さらに、簡単に図5を参照し、シンボルは、利用可能であり、且つ、エントロピーエンコーダ(645)及びパーサ(520)はシンボルを、符号化された動画シーケンスに無損失で符号化/復号化できる場合に、パーサ(520)を含める動画デコーダ(510)のエントロピー復号化部分は、ローカルデコーダ(633)で完全に実現されない場合がある。 The operation of the 'local' decoder (633) may be the same as that of a 'remote' decoder, such as the video decoder (510), and was described in detail above with reference to FIG. But also, referring briefly to FIG. 5, the symbols are available and the entropy encoder (645) and parser (520) losslessly encode/decode the symbols into an encoded video sequence. The entropy decoding portion of the video decoder (510), including the parser (520), may not be fully implemented in the local decoder (633) if it can be parsed.

この場合、デコーダに存在する解析/エントロピー復号化以外の任意のデコーダ技術も、必然的に基本的に同じ機能形式で対応するエンコーダに存在することが観察されることができる。そのため、開示された主題は、デコーダの動作に着目する。エンコーダ技術は包括的に説明されたデコーダ技術の逆であるため、エンコーダ技術の説明を簡略化することができる。より詳しい説明は、特定の領域のみで必要であり、以下で提供される。 In this case, it can be observed that any decoder technique other than analytic/entropy decoding present in the decoder is necessarily present in the corresponding encoder in essentially the same functional form. As such, the disclosed subject matter focuses on the operation of the decoder. The description of the encoder technique can be simplified because the encoder technique is the inverse of the generically described decoder technique. Further explanation is necessary only in certain areas and is provided below.

動作中に、いくつかの実施形態において、ソースエンコーダ(630)は、動き補償の予測的符号化を実行してもよく、動画シーケンスからの「参照ピクチャ」として指定された1つ又は複数の以前に符号化されたピクチャを参照することで入力ピクチャに対して予測的符号化を行う。このようにして、符号化エンジン(632)は入力ピクチャの画素ブロックと参照ピクチャの画素ブロックとの間の差異を符号化してもよく、当該参照ピクチャは、入力ピクチャへの予測参照として選択され得る。 In operation, in some embodiments, the source encoder (630) may perform motion-compensated predictive encoding, using one or more previous pictures designated as "reference pictures" from a video sequence. Predictive coding is performed on the input picture by referring to the previously coded picture. In this way, the encoding engine (632) may encode differences between pixel blocks of an input picture and pixel blocks of a reference picture, which reference picture may be selected as a predictive reference to the input picture. .

ローカル動画デコーダ(633)は、ソースエンコーダ(630)によって作成されるシンボルに基づいて、参照ピクチャとして指定され得るピクチャの符号化された動画データを復号化してもよい。符号化エンジン(632)の動作は、有利には、可逆処理であり得る。動画デコーダ(図5、図示せず)で符号化された動画データを復号化できる場合に、再構築された動画シーケンスは、通常、多少の誤差を伴うソース動画シーケンスのレプリカであり得る。ローカル動画デコーダ(633)は、参照ピクチャに対して動画デコーダによって実行され得る復号化処理をコピーし、再構築された参照ピクチャを参照ピクチャバッファ(634)に記憶してもよい。このようにして、エンコーダ(603)は、再構築された参照ピクチャの共通の内容を有するレプリカを、リモート動画デコーダによって得られる再構築された参照ピクチャとしてローカルに記憶することができる(伝送誤差がない)。 A local video decoder (633) may decode encoded video data for pictures that may be designated as reference pictures based on the symbols produced by the source encoder (630). The operation of the encoding engine (632) may advantageously be a lossless process. If the encoded video data can be decoded by a video decoder (FIG. 5, not shown), the reconstructed video sequence will typically be a replica of the source video sequence with some errors. The local video decoder (633) may copy the decoding process that may be performed by the video decoder on the reference pictures and store the reconstructed reference pictures in the reference picture buffer (634). In this way, the encoder (603) can locally store replicas with common content of reconstructed reference pictures as reconstructed reference pictures obtained by remote video decoders (where the transmission error is do not have).

予測器(635)は、符号化エンジン(632)に対して予測検索を実行することができる。つまり、符号化されようとする新しいピクチャについて、予測器(635)は、参照ピクチャメモリ(634)において、新しいピクチャの適切な予測参照として使用され得るサンプルデータ(候補参照画素ブロックとする)又は、例えば、参照ピクチャの動きベクトル、ブロック形状などの特定のメタデータを検索してもよい。予測器(635)は、適切な予測参照が見つけられるように、サンプルブロックに基づいて、画素ブロックごとに動作することができる。いくつかの場合に、例えば、予測器(635)によって得られた検索結果によって特定されるように、入力ピクチャは、参照ピクチャメモリ(634)に記憶された複数の参照ピクチャから得られた予測参照を有してもよい。 The predictor (635) can perform predictive searches for the encoding engine (632). That is, for a new picture to be encoded, the predictor (635) stores in the reference picture memory (634) sample data (referred to as candidate reference pixel blocks) that can be used as suitable prediction references for the new picture, or For example, specific metadata such as motion vectors of reference pictures, block shapes, etc. may be retrieved. The predictor (635) can operate pixel block by pixel block based on the sample block so that an appropriate prediction reference can be found. In some cases, the input picture is a prediction reference obtained from multiple reference pictures stored in the reference picture memory (634), e.g., as identified by the search results obtained by the predictor (635). may have

コントローラ(650)は、例えば、動画データを符号化するためのパラメータとサブグループパラメータの設置を含むソースエンコーダ(630)の符号化動作を管理することができる。 The controller (650) can manage encoding operations of the source encoder (630), including, for example, setting parameters and subgroup parameters for encoding video data.

上記の全ての機能ユニットの出力はエントロピーエンコーダ(645)においてエントロピー符号化されてもよい。エントロピーエンコーダ(645)は、例えばハフマン符号化、可変長符号化、算術符号化などの技術に基づいて、各機能ユニットによって生成されたシンボルに対して可逆圧縮を行うことによって、シンボルを、符号化された動画シーケンスに変換する。 The outputs of all the above functional units may be entropy encoded in an entropy encoder (645). An entropy encoder (645) encodes the symbols by performing lossless compression on the symbols generated by each functional unit, eg, based on techniques such as Huffman coding, variable length coding, arithmetic coding. converted to a coded video sequence.

コントローラ(650)は、動画エンコーダ(603)の動作を管理することができる。コントローラ(650)は、各符号化されたピクチャに、対応するピクチャに適用され得る符号化技術に影響する可能性がある特定の符号化されたピクチャタイプを指定することができる。例えば、通常、ピクチャを、以下のピクチャタイプのいずれかとして割り当てられ得る。 A controller (650) may manage the operation of the video encoder (603). The controller (650) may assign each coded picture a particular coded picture type that may affect the coding techniques that may be applied to the corresponding picture. For example, pictures can typically be assigned as one of the following picture types.

イントラピクチャ(Iピクチャ)は、シーケンス内の任意の他のピクチャを予測ソースとして使用せずに符号化及び復号化できるピクチャであってもよい。一部の動画動画コーデックは、例えば、独立デコーダリフレッシュ(「IDR」)ピクチャを含む異なるタイプのイントラピクチャを許容する。当業者は、Iピクチャのそれらの変形及び対応する適用と特徴を知っている。 Intra pictures (I pictures) may be pictures that can be encoded and decoded without using any other picture in the sequence as a prediction source. Some video video codecs allow different types of intra pictures, including independent decoder refresh (“IDR”) pictures, for example. Those skilled in the art are aware of these variations and corresponding applications and features of I-pictures.

予測ピクチャ(Pピクチャ)は、イントラ予測又はインター予測を使用して符号化及び復号化を行うピクチャであってもよく、当該イントラ予測又はインター予測は、多くとも1つの動きベクトル及び参照インデックスを使用して各ブロックのサンプル値を予測する。 Predicted pictures (P-pictures) may be pictures that are coded and decoded using intra- or inter-prediction, which uses at most one motion vector and reference index. to predict the sample values of each block.

双方向予測ピクチャ(Bピクチャ)は、イントラ予測又はインター予測を使用して符号化と復号化を行うピクチャであってもよく、当該イントラ予測又はインター予測は、多くとも2つの動きベクトルと参照インデックスを使用して各ブロックのサンプル値を予測する。同様に、複数の予測ピクチャは、2つを超える参照ピクチャと関連するメタデータを使用して単一のブロックを再構築することができる。 A bi-predictive picture (B-picture) may be a picture that is encoded and decoded using intra-prediction or inter-prediction, which uses at most two motion vectors and a reference index. , to predict the sample values for each block. Similarly, multiple predicted pictures can reconstruct a single block using more than two reference pictures and associated metadata.

ソースピクチャは、一般的に、空間的に複数のサンプルブロックに細分化され(例えば、それぞれ4×4、8×8、4×8又は16×16のサンプルブロックである)、ブロックごとに符号化されてもよい。ブロックは、ブロックに適用される相応するピクチャの符号化割り当てによって特定される他の(すでに符号化された)ブロックを参照して予測的に符号化されることができる。例えば、Iピクチャのブロックについて、非予測的に符号化してもよく、又は、同じピクチャの符号化されたブロックを参照して予測的に符号化してもよい(空間的予測又はイントラ予測)。Pピクチャの画素ブロックは、1つの以前に符号化された参照ピクチャを参照して空間的予測又は時間的予測を介して予測的に符号化されてもよい。Bピクチャのブロックは、1つ又は2つの以前に符号化された参照ピクチャを参照して空間的予測又は時間的予測を介して予測的に符号化されてもよい。 A source picture is typically spatially subdivided into multiple sample blocks (e.g., each being a 4x4, 8x8, 4x8 or 16x16 sample block) and coded block by block. may be A block can be predictively coded with reference to other (already coded) blocks specified by the corresponding picture coding assignments applied to the block. For example, blocks of an I picture may be coded non-predictively, or they may be coded predictively with reference to coded blocks of the same picture (spatial prediction or intra prediction). Pixel blocks of P pictures may be predictively coded via spatial prediction or temporal prediction with reference to one previously coded reference picture. Blocks of B pictures may be predictively coded via spatial prediction or temporal prediction with reference to one or two previously coded reference pictures.

動画エンコーダ(603)は、例えばITU-T H.265提案書の所定の動画符号化技術又は規格に従って、符号化操作を実行することができる。動画エンコーダ(603)は、その動作中に、入力動画シーケンスにおける時間的及び空間的冗長性を利用した予測符号化動作を含む様々な圧縮動作を実行することができる。従って、符号化された動画データは、使用されている動画符号化技術又は規格によって指定された構文に準拠し得る。 The video encoder (603) is, for example, ITU-T H. The encoding operations may be performed according to a predetermined video encoding technique or standard of the H.265 proposal. The video encoder (603) may perform various compression operations during its operation, including predictive encoding operations that take advantage of temporal and spatial redundancies in the input video sequence. The encoded video data may thus conform to the syntax specified by the video encoding technology or standard being used.

動画は、時系列での複数のソースピクチャ(動画)の形式であってもよい。イントラピクチャ予測(通常、イントラ予測と簡略化される)は、所定のピクチャにおける空間的関連性を利用し、インターピクチャ予測はピクチャ間の(時間的又は他の)関連性を利用する。例おいて、符号化/復号化中の現在のピクチャと呼ばれる特定のピクチャはブロックに区分される。現在のピクチャにおけるブロックは、動画における、以前に符号化されまだバッファリングされている参照ピクチャにおける参照ブロックと類似している場合に、動きベクトルと呼ばれるベクトルによって現在のピクチャにおけるブロックを符号化してもよい。動きベクトルは参照ピクチャにおける参照ブロックを指し、また、複数の参照ピクチャを使用する場合に、動きベクトルは、参照ピクチャを認識する第3の次元を有してもよい。 The video may be in the form of multiple source pictures (video) in chronological order. Intra-picture prediction (usually abbreviated to intra-prediction) exploits spatial relationships in a given picture, while inter-picture prediction exploits (temporal or other) relationships between pictures. In the example, a particular picture, called the current picture being encoded/decoded, is partitioned into blocks. A block in the current picture may be coded by a vector called a motion vector if the block in the current picture is similar to a reference block in a previously encoded and still buffered reference picture in the video. good. A motion vector points to a reference block in a reference picture, and when using multiple reference pictures, the motion vector may have a third dimension that identifies the reference picture.

幾つかの実施形態において、双方向予測技術は、インターピクチャ予測に使用されてもよい。双方向予測技術によれば、例えば、復号化順序で動画における現在のピクチャよりも先行する(ただし、それぞれ表示順序で過去及び将来にあり得る)第1の参照ピクチャ及び第2の参照ピクチャである2つの参照ピクチャを使用する。第1の参照ピクチャにおける第1の参照ブロックを指す第1の動きベクトル、第2の参照ピクチャにおける第2の参照ブロックを指す第2の動きベクトルによって、現在のピクチャにおけるブロックを符号化してもよい。第1の参照ブロックと第2の参照ブロックとの組み合わせによって当該ブロックを予測してもよい。 In some embodiments, bi-prediction techniques may be used for inter-picture prediction. According to bi-predictive techniques, for example, the first and second reference pictures that precede the current picture in the video in decoding order (but can be in the past and future in display order, respectively). Use two reference pictures. A block in a current picture may be coded with a first motion vector pointing to a first reference block in a first reference picture and a second motion vector pointing to a second reference block in a second reference picture. . The block may be predicted by a combination of the first reference block and the second reference block.

また、マージモード技術は、符号化の効率を向上させるために、インターピクチャ予測に使用することができる。 Merge mode techniques can also be used for inter-picture prediction to improve coding efficiency.

本開示の幾つかの実施形態によれば、例えば、インターピクチャ予測及びイントラピクチャ予測のような予測はブロックごとに実行される。例えば、HEVC規格に応じて、動画ピクチャシーケンスにおけるピクチャは、圧縮用符号化ツリーユニット(CTU)に区分され、ピクチャにおけるCTUは、例えば、64×64画素、32×32画素又は16×16画素などの同じサイズを持っている。一般に、CTUは、3つの符号化ツリーブロック(CTB)、即ち、1つの輝度CTBと2つの色度CTBを含む。各CTUは、1つ又は複数の符号化ユニット(CU)に再帰的に四分木で区分されてもよい。例えば、64×64画素のCTUを1つの64×64画素のCU、又は、4つの32×32画素のCU、又は16個の16×16画素のCUに区分してもよい。例において、各CUを分析して、当該CUに使用される予測タイプ、例えば、インター予測タイプ又はイントラ予測タイプを特定する。時間的及び/又は空間的予測可能性に依存し、CUは1つ又は複数の予測ユニット(PU)に区分される。通常、各PUは輝度予測ブロック(PB)及び2つの色度PBを含む。実施形態において、符号化(符号化/復号化)中の予測動作は予測ブロックごとに実行される。輝度予測ブロックを予測ブロックとして使用する例において、予測ブロックは画素値(例えば、輝度値)の行列、例えば、8×8画素、16×16画素、8×16画素、16×8画素などを含む。 According to some embodiments of the present disclosure, prediction, eg, inter-picture prediction and intra-picture prediction, is performed on a block-by-block basis. For example, depending on the HEVC standard, pictures in a video picture sequence are partitioned into compression coding tree units (CTUs), where a CTU in a picture is e.g. 64x64 pixels, 32x32 pixels or 16x16 pixels. have the same size of In general, a CTU contains three coding treeblocks (CTBs): one luma CTB and two chrominance CTBs. Each CTU may be recursively quadtree partitioned into one or more coding units (CUs). For example, a 64×64 pixel CTU may be partitioned into one 64×64 pixel CU, or four 32×32 pixel CUs, or 16 16×16 pixel CUs. In an example, each CU is analyzed to identify the prediction type used for that CU, eg, inter-prediction type or intra-prediction type. Depending on temporal and/or spatial predictability, a CU is partitioned into one or more prediction units (PUs). Each PU typically contains a luminance prediction block (PB) and two chrominance PBs. In an embodiment, prediction operations during encoding (encoding/decoding) are performed per prediction block. In examples where a luminance prediction block is used as the prediction block, the prediction block includes a matrix of pixel values (e.g., luminance values), e.g., 8x8 pixels, 16x16 pixels, 8x16 pixels, 16x8 pixels, etc. .

本開示のいくつかの態様によれば、ジオメトリ平滑化は、エンコーダ側(点群圧縮に用いられる)及びデコーダ側(点群再構築に用いる)の両方によって実行されてもよい。一例において、エンコーダ側で、ジオメトリ動画の圧縮後、圧縮されたジオメトリ動画及び対応する占有マップを使用して点群のジオメトリ部分が再構築され、再構築された点群(ジオメトリ部分)は、ジオメトリ再構築クラウドと呼ばれる。ジオメトリ再構築クラウドは、テクスチャ画像の生成に使用される。例えば、テクスチャ画像生成器312は、ジオメトリ再構築クラウド内の再サンプリングされた点に関連付けられる色を特定し(色移りとも呼ばれる)、それに応じてテクスチャ画像を生成することができる。 According to some aspects of this disclosure, geometry smoothing may be performed by both the encoder side (used for point cloud compression) and the decoder side (used for point cloud reconstruction). In one example, at the encoder side, after compressing the geometry video, the compressed geometry video and the corresponding occupancy map are used to reconstruct the geometry part of the point cloud, and the reconstructed point cloud (geometry part) is the geometry Called Rebuild Cloud. Geometry reconstruction clouds are used to generate texture images. For example, the texture image generator 312 can identify the colors associated with the resampled points in the geometry reconstruction cloud (also called color shift) and generate the texture image accordingly.

いくつかの例において、ジオメトリ平滑は、色移りの前にジオメトリ再構築クラウドに適用される。例えば、平滑モジュール336は、再構築されたジオメトリ画像に基づいて生成されたジオメトリ再構築クラウドに平滑(例えば、平滑フィルタ)を適用することができる。本開示のいくつかの実施形態において、平滑モジュール336は、ブロック境界での形状の歪みを回復するだけでなく、ブロック内の形状の歪みも回復するように配置されている。 In some examples, geometry smoothing is applied to the geometry reconstruction cloud before color transfer. For example, the smoothing module 336 can apply smoothing (eg, a smoothing filter) to the geometry reconstruction cloud generated based on the reconstructed geometry image. In some embodiments of the present disclosure, the smoothing module 336 is arranged to not only recover shape distortions at block boundaries, but also to recover shape distortions within blocks.

デコーダ側では、図4のV-PCCデコーダ400を使用して、 例として、平滑モジュール446は、ジオメトリ再構築クラウドに平滑化を適用し、平滑化されたジオメトリ再構築クラウドを生成することができる。次に、テクスチャ再構築モジュール448は、解凍されたテクスチャ画像及び平滑化されたジオメトリ再構築クラウドに基づいて、点群内の点のテクスチャ情報を特定することができる。 On the decoder side, using the V-PCC decoder 400 of FIG. 4, as an example, the smoothing module 446 can apply smoothing to the geometry reconstruction cloud to produce a smoothed geometry reconstruction cloud. . A texture reconstruction module 448 can then identify texture information for points within the point cloud based on the decompressed texture image and the smoothed geometry reconstruction cloud.

本開示のいくつかの態様によれば、歪みは、ジオメトリ圧縮中及び/又は高解像度占有マップから低解像度マップへの変換中の量子化誤差によって発生する可能性がある。 量子化誤差はブロックの境界に影響を与える可能性があり、ブロック内の再構築された深度値(点のジオメトリ情報)に影響を与える可能性があり、再構築された平面が滑らかではないことを招く可能性がある。本開示は、ブロック内の再構築された深度値を平滑化するための技術を提供する。 According to some aspects of this disclosure, distortion may be caused by quantization errors during geometry compression and/or during conversion from high resolution occupancy maps to low resolution maps. Quantization errors can affect block boundaries, which can affect reconstructed depth values (point geometry information) within blocks, and that reconstructed planes are not smooth may lead to This disclosure provides techniques for smoothing reconstructed depth values within blocks.

提案された方法は、別々に使用するか、任意の順序で組み合わせることができる。さらに、方法(又は実施形態)、エンコーダ及びデコーダのそれぞれは、処理回路(例えば、1つ又は複数のプロセッサ又は1つ又は複数の集積回路)によって実現され得、一例において、1つ又は複数のプロセッサは、非一時的なコンピュータ可読媒体に保存される。 The proposed methods can be used separately or combined in any order. Further, each of the methods (or embodiments), encoders and decoders may be implemented by processing circuitry (eg, one or more processors or one or more integrated circuits), in one example one or more processors is stored on a non-transitory computer-readable medium.

図7は点群に用いるジオメトリ画像710とテクスチャ画像750を示している。点群は、複数のブロックに分解されている。いくつかの関連する例では、平滑化は、図7の711によって示される境界のようなブロック境界にのみ適用される。本開示において、平滑化は、721によって示されるように、ブロック内の特定の場所に適用することができる。場所は、特定の基準に基づいて選択することができる。平滑化はブロック内で選択的に適用されるため、追加の算出の複雑さは最小化される。いくつかの実施形態では、再構築された深度値が非圧縮深度値と比較して最も異なる候補点を特定し、リストに追加することができる。当該リストには境界点を含めることもできる。次に、平滑モジュール336、平滑モジュール446などによって、平滑化をリスト内の点に適用することができる。 FIG. 7 shows a geometry image 710 and a texture image 750 used for the point cloud. The point cloud is decomposed into blocks. In some related examples, smoothing is applied only to block boundaries, such as the boundaries indicated by 711 in FIG. In this disclosure, smoothing can be applied at specific locations within a block, as indicated by 721 . Locations can be selected based on certain criteria. Additional computational complexity is minimized because smoothing is applied selectively within blocks. In some embodiments, the candidate points whose reconstructed depth values differ the most compared to the uncompressed depth values can be identified and added to the list. The list can also include boundary points. Smoothing can then be applied to the points in the list by smoothing module 336, smoothing module 446, or the like.

いくつかの実施形態では、平滑化フィルタによって平滑化されるブロック内の候補点のセットは、再構築された深度値に基づいて得られることができる。いくつかの実施形態では、エンコーダ側とデコーダ側の両方で適切なアルゴリズムを使用し、例えば推定に基づいて、再構築された深度値が元の非圧縮値と最も異なる候補点を選択し、元の未圧縮値はエンコーダ側で利用不可である。いくつかの例では、候補点は、再構築された深度値が比較的大きな量子化誤差を有すると考えられるものとして選択される。一例では、深度マップ(例えば、再構築されたジオメトリ画像)に高周波成分(高空間周波数成分)がある領域を選択してもよい。例えば、領域における高空間周波数成分の強度と低空間周波数成分の強度との比が閾値よりも高い場合、その領域は、比較的高レベルの高空間周波数成分を有する高周波数領域であり、平滑フィルターを適用するために選択されてもよい。別の例では、深度マップ(例えば、再構築されたジオメトリ画像)の高動きコンテンツを有する領域を選択することができる。例えば、動画コーデックで一般的に使用される動きベクトル情報に基づいて領域を選択できる。 In some embodiments, a set of candidate points within a block to be smoothed by a smoothing filter can be obtained based on reconstructed depth values. In some embodiments, suitable algorithms are used on both the encoder and decoder sides to select candidate points whose reconstructed depth values are most different from the original uncompressed values, e.g. The uncompressed value of is not available at the encoder side. In some examples, candidate points are selected for which the reconstructed depth values are believed to have relatively large quantization errors. In one example, regions with high frequency components (high spatial frequency components) in the depth map (eg, reconstructed geometry image) may be selected. For example, if the ratio of the intensity of high spatial frequency components to the intensity of low spatial frequency components in a region is higher than a threshold, then the region is a high frequency region with relatively high levels of high spatial frequency components, and the smoothing filter may be selected to apply the In another example, regions with high motion content of the depth map (eg, reconstructed geometry image) can be selected. For example, regions can be selected based on motion vector information commonly used in video codecs.

いくつかの実施形態では、エッジ検出を深度マップ(例えば、再構築されたジオメトリ画像)に適用して、ブロック内のエッジに対応する点を特定することができ、ブロック内にあるエッジに対応する点に平滑化を適用することができる。一般に、エッジ領域は比較的高い空間周波数成分を有する。 In some embodiments, edge detection can be applied to a depth map (e.g., a reconstructed geometry image) to identify points corresponding to edges within blocks, and points corresponding to edges within blocks. Smoothing can be applied to the points. In general, edge regions have relatively high spatial frequency content.

いくつかの実施形態では、候補点は、深度マップを圧縮/解凍するためにV-PCCによって使用される動画圧縮ツール(例えば、HEVC)によって暗黙的に提供される情報に基づいて得られることができる 一例では、大動きベクトルを有する画素を選択することができ、大動きベクトルを有する画素に対応する点を候補点として選択し、平滑化を適用するためのリストに追加することができる。別の例では、サンプル適応オフセット(SAO)に対する応答が比較的大きい画素を選択することができ、SAOに対して応答の大きい画素に対応する点を候補点として選択し、平滑化を適用するリストに追加することができる。 In some embodiments, candidate points may be obtained based on information implicitly provided by the video compression tool (eg, HEVC) used by V-PCC to compress/decompress the depth map. In one example, pixels with large motion vectors can be selected, and points corresponding to pixels with large motion vectors can be selected as candidate points and added to a list for applying smoothing. In another example, pixels with a relatively large response to sample adaptive offset (SAO) can be selected, points corresponding to pixels with a large response to SAO are selected as candidate points, and smoothing is applied to the list can be added to

本開示のいくつかの態様によれば、エンコーダ側及びデコーダ側は、同じアルゴリズムを使用して、ブロック内の平滑化を適用する点(又は領域)を特定する。いくつかの実施形態では、フラグ及びパラメータを符号化ビットストリームに含めることができ、したがって、デコーダ側は、にンコーダがブロック内の平滑化を適用する点を選択するためのアルゴリズム及びパラメータを特定することができ、次に、デコーダ側は同じアルゴリズムとパラメータを使用して、ブロック内の平滑化を適用する点を選択することができる。 According to some aspects of this disclosure, the encoder side and decoder side use the same algorithm to identify points (or regions) to apply smoothing within a block. In some embodiments, flags and parameters can be included in the encoded bitstream so that the decoder side specifies algorithms and parameters for selecting points within the block at which the encoder applies smoothing. , and then the decoder side can use the same algorithm and parameters to select points to apply smoothing within the block.

図8は、本開示の幾つかの実施形態による構文の例を示す。図8の例において、selective_smoothing_inside_patches_present_flagは、ブロック内で選択的平滑化が使用されているかどうかを指示するために用いる。例において、selective_smoothing_inside_patches_present_flagが真である場合、例えばalgorithm_to_find_candidates_inside_patchesによって示されるパラメータによりアルゴリズムを指示する。 FIG. 8 illustrates example syntax according to some embodiments of the present disclosure. In the example of FIG. 8, selective_smoothing_inside_patches_present_flag is used to indicate whether selective smoothing is used within the block. In the example, if selective_smoothing_inside_patches_present_flag is true, then direct the algorithm with the parameters indicated, for example, by algorithm_to_find_candidates_inside_patches.

また、例において、アルゴリズムがエッジ検出アルゴリズムである場合に、エッジ検出アルゴリズムに使用されるパラメータ、例えば、kernel_sizeによって示されるエッジ検出アルゴリズムのカーネルのサイズ、ラスタースキャン順序に対してkernel[i],i=0...kernel_size×kernel_sizeによって示されるカーネル内の値などを指示することができる。 Also in the example, if the algorithm is an edge detection algorithm, the parameters used for the edge detection algorithm, e.g., the size of the kernel of the edge detection algorithm indicated by kernel_size, kernel[i], i =0...kernel_size*kernel_size can indicate a value in the kernel, and so on.

図8において、XYZは、ブロック内の平滑化を適用する候補点を選択するための他の適切なアルゴリズムを示し、XYZ_parametersは、アルゴリズムXYZに使用されるパラメータの値を示す。 In FIG. 8, XYZ indicates another suitable algorithm for selecting candidate points to apply smoothing within the block, and XYZ_parameters indicates the parameter values used for algorithm XYZ.

図9は、本開示の実施形態によるプロセス(900)を概説するフローチャートを示す。符号化処理中にプロセス(900)を使用して点群を符号化することができる。様々な実施形態において、プロセス(900)は、処理回路、例えば、端末装置(110)における処理回路、エンコーダ(203)の機能を実行する処理回路、V-PCCエンコーダ(300)の機能を実行する処理回路などによって実行される。幾つかの実施形態において、プロセス(900)は、ソフトウェア命令によって実現されるため、処理回路がソフトウェア命令を実行する場合、処理回路はプロセス(900)を実行する。プロセスは(S901)から開始され、(S910)に進む。 FIG. 9 shows a flowchart outlining a process (900) according to an embodiment of the present disclosure. The process (900) can be used to encode the point cloud during the encoding process. In various embodiments, the process (900) performs the functions of the processing circuitry, e.g., the processing circuitry in the terminal device (110), the encoder (203), the V-PCC encoder (300). Executed by a processing circuit or the like. In some embodiments, the process (900) is implemented by software instructions such that when the processing circuitry executes the software instructions, the processing circuitry performs the process (900). The process starts at (S901) and proceeds to (S910).

(S910)において、点群に関連付けられたジオメトリ画像を圧縮する。例において、ブロック生成モジュール306は点群のブロックを生成することができる。また、ジオメトリ画像生成モジュール310は、ジオメトリ情報、例えば点の深度値をジオメトリ画像として記憶する。動画圧縮モジュール322は群に関連付けられたジオメトリ画像を圧縮することができる。 At (S910), the geometry image associated with the point cloud is compressed. In an example, block generation module 306 can generate blocks of point clouds. The geometry image generation module 310 also stores geometry information, such as depth values of points, as a geometry image. Video compression module 322 can compress the geometry image associated with the group.

(S920)において、圧縮されたジオメトリ画像に応じてジオメトリ再構築クラウドを生成する。例において、動画圧縮モジュール322は圧縮されたジオメトリ画像に応じて再構築されたジオメトリ画像を生成することができる。再構築されたジオメトリ画像はジオメトリ再構築クラウドの生成に使用することができる。 At (S920), generate a geometry reconstruction cloud according to the compressed geometry image. In an example, the video compression module 322 can generate a reconstructed geometry image in response to the compressed geometry image. A reconstructed geometry image can be used to generate a geometry reconstruction cloud.

(S930)において、ジオメトリ再構築クラウドのブロックの境界サンプルに加えて、少なくともブロック内のジオメトリサンプルに平滑フィルタを適用する。幾つかの例において、平滑モジュール336はブロックの境界点に平滑フィルタを適用することができる。また、平滑モジュール336はブロック内の幾つかの点に平滑フィルタを選択的に適用する。幾つかの実施形態において、推定に基づいて再構築された深度値が元の非圧縮値と最も異なる可能性がある点を選択することができる。例えば、領域内の高レベルの高空間周波数成分を有する点を選択することができる。別の例では、深度マップ内の高動きコンテンツを有する点(例えば、動画圧縮モジュール322によって提供される動きベクトル情報に基づいて特定される)を選択することができる。 At (S930), a smoothing filter is applied to at least the geometry samples within the blocks in addition to the boundary samples of the blocks of the geometry reconstruction cloud. In some examples, the smoothing module 336 can apply a smoothing filter to the boundary points of the blocks. A smoothing module 336 also selectively applies a smoothing filter to some points within the block. In some embodiments, the points at which the estimated reconstructed depth values are most likely to differ from the original uncompressed values can be selected. For example, points with high levels of high spatial frequency content within the region can be selected. In another example, points within the depth map that have high motion content (eg, identified based on motion vector information provided by video compression module 322) may be selected.

(S940)において、平滑化されたジオメトリ再構築クラウドに基づいてテクスチャ画像を生成する。例において、テクスチャ画像生成モジュール312は平滑化されたジオメトリ再構築クラウドにおける再サンプリングされた点に関連付けする色(色移りとも呼ばれる)を特定し、テクスチャ画像を対応して生成することができる。 At (S940), a texture image is generated based on the smoothed geometry reconstruction cloud. In an example, the texture image generation module 312 can identify colors (also called color shifts) to associate with resampled points in the smoothed geometry reconstruction cloud and generate texture images accordingly.

(S950)において、テクスチャ画像を圧縮する。例において、動画圧縮モジュール323は圧縮されたテクスチャ画像を生成することができる。次に、圧縮されたジオメトリ画像、圧縮されたテクスチャ画像及び他の適切な情報は多重化されて符号化されたビットストリームを生成する。幾つかの例において、ブロック内の選択的ジオメトリ平滑化に関連付けられたフラグ及びパラメータは、符号化ビットストリームに含まれることができる。次に、プロセスは(S999)に進み、終了する。 At (S950), the texture image is compressed. In an example, the video compression module 323 can generate compressed texture images. The compressed geometry image, compressed texture image and other appropriate information are then multiplexed to produce an encoded bitstream. In some examples, flags and parameters associated with selective geometry smoothing within blocks can be included in the encoded bitstream. The process then proceeds to (S999) and terminates.

図10は、本開示の実施形態によるプロセス(1000)を概説するフローチャートを示す。復号化処理中にプロセス(1000)を使用して点群を再構築することができる。様々な実施形態において、プロセス(1000)は、処理回路、例えば、端末装置(120)における処理回路、デコーダ(210)の機能を実行する処理回路、V-PCCデコーダ(400)の機能を実行する処理回路などによって実行される。幾つかの実施形態において、プロセス(1000)は、ソフトウェア命令によって実現されるため、処理回路がソフトウェア命令を実行する場合、処理回路はプロセス(1000)を実行する。プロセスは(S1001)から開始され、(S1010)に進む。 FIG. 10 shows a flowchart outlining a process (1000) according to an embodiment of the present disclosure. The point cloud can be reconstructed using the process (1000) during the decoding process. In various embodiments, the process (1000) performs the functions of the processing circuitry, e.g., the processing circuitry in the terminal device (120), the processing circuitry performing the functions of the decoder (210), the V-PCC decoder (400). Executed by a processing circuit or the like. In some embodiments, the process (1000) is implemented by software instructions, so that when the processing circuitry executes the software instructions, the processing circuitry performs the process (1000). The process starts at (S1001) and proceeds to (S1010).

(S1010)において、点群に対応する符号化ビットストリームから点群の予測情報を復号化する。幾つかの例において、予測情報はブロック内の選択的ジオメトリ平滑化に関連付けられたフラグ及びパラメータを含む。 In (S1010), the prediction information of the point cloud is decoded from the encoded bitstream corresponding to the point cloud. In some examples, the prediction information includes flags and parameters associated with selective geometry smoothing within blocks.

(S1020)において、符号化ビットストリームから復号化されたジオメトリ画像に基づいて、ジオメトリ再構築クラウドを生成する。例において、動画解凍モジュール436は、ジオメトリ情報を復号化して、解凍されたジオメトリ画像を生成することができる。ジオメトリ再構築モジュール444は解凍されたジオメトリ画像に基づいてジオメトリ再構築クラウドを生成することができる。 At (S1020), generate a geometry reconstruction cloud based on the geometry image decoded from the encoded bitstream. In an example, the video decompression module 436 can decode the geometry information to generate a decompressed geometry image. A geometry reconstruction module 444 can generate a geometry reconstruction cloud based on the decompressed geometry image.

(S1030)において、ジオメトリ再構築クラウドのブロックの境界サンプルに加えて、少なくともブロック内のジオメトリサンプルに対して平滑フィルタを適用する。幾つかの例において、平滑化モジュール446は、ブロックの境界点のジオメトリサンプルに対して平滑フィルタを適用することができる。また、平滑化モジュール446は、ブロック内の幾つかのジオメトリサンプルに対して平滑フィルタを選択的に適用する。幾つかの実施形態において、推定に基づいて再構築された深度値が元の非圧縮値と最も異なる可能性がある点を選択することができる。例えば、領域内の高レベルの高空間周波数成分を有する点を選択することができる。別の例では、深度マップ内の高動きコンテンツを有する点(例えば、動画解凍モジュール436によって提供される動きベクトル情報に基づいて特定される)を選択することができる。 At (S1030), a smoothing filter is applied to at least the geometry samples within the blocks in addition to the boundary samples of the blocks of the geometry reconstruction cloud. In some examples, the smoothing module 446 may apply a smoothing filter to the geometry samples of the boundary points of the block. A smoothing module 446 also selectively applies a smoothing filter to some geometry samples within the block. In some embodiments, the points at which the estimated reconstructed depth values are most likely to differ from the original uncompressed values can be selected. For example, points with high levels of high spatial frequency content within the region can be selected. In another example, points within the depth map that have high motion content (eg, identified based on motion vector information provided by the video decompression module 436) may be selected.

(S1040)において、平滑化されたジオメトリ再構築クラウドに基づいて点群の点を再構築する。例えば、テクスチャ再構築モジュール(448)は解凍されたテクスチャ画像及び平滑化されたジオメトリ再構築クラウドに基づいて点群の点のテクスチャ情報を特定することができる。次に、色平滑化モジュール(452)着色の不一致を平滑化することができる。次に、プロセスは(S1099)に進み、終了する。 At (S1040), the points of the point cloud are reconstructed based on the smoothed geometry reconstruction cloud. For example, the texture reconstruction module (448) can determine texture information for the points of the point cloud based on the decompressed texture image and the smoothed geometry reconstruction cloud. A color smoothing module (452) can then smooth the coloration discrepancies. The process then proceeds to (S1099) and terminates.

上記の技術は、コンピュータ可読命令によってコンピュータソフトウェアとして実現され、1つ又は複数のコンピュータ可読媒体に物理的に記憶される。例えば、図11は開示された主題のいくつかの実施形態を実現するのに適したコンピュータシステム(1100)を示す。 The techniques described above are implemented as computer software by computer readable instructions and physically stored on one or more computer readable media. For example, FIG. 11 illustrates a computer system (1100) suitable for implementing some embodiments of the disclosed subject matter.

コンピュータソフトウェアは任意の適切なマシンコード又はコンピュータ言語を使用して符号化することができ、機械コード又はコンピュータ言語がアセンブル、コンパイル、リンクなどのメカニズムを介して命令を含むコードを作成することができ、当該命令は、1つ又は複数のコンピュータ中央処理ユニット(CPU)、グラフィック処理ユニット(GPU)などによって直接的に実行されるか、又は解釈、マイクロコード実行などによって実行されることができる。 Computer software can be encoded using any suitable machine code or computer language, which can be assemble, compile, link, or otherwise produce code containing instructions. , such instructions may be executed directly by one or more computer central processing units (CPUs), graphics processing units (GPUs), etc., or by interpretation, microcode execution, or the like.

命令は、例えば、パーソナルコンピュータ、タブレットコンピュータ、サーバ、スマートフォン、ゲーム機器、モノのインターネット機器などを含む、様々なタイプのコンピュータ又はそのコンポーネントで実行されることができる。 The instructions may be executed on various types of computers or components thereof including, for example, personal computers, tablet computers, servers, smart phones, gaming devices, Internet of Things devices, and the like.

図11に示すコンピュータシステム(1100)に関するコンポーネントは本質的に例示であり、本開示の実施形態を実現するためのコンピュータソフトウェアの使用範囲又は機能に制限を加えることを意図するものではない。コンポーネントの配置はコンピュータシステム(1100)の例示的な実施例に示されるコンポーネントのいずれか又はそれらの組み合わせに関する依存性又は要件を有するものとして解釈されるべきではない。 The components associated with the computer system (1100) shown in FIG. 11 are exemplary in nature and are not intended to limit the scope of use or functionality of the computer software for implementing embodiments of the present disclosure. The arrangement of components should not be interpreted as having any dependency or requirement relating to any or combination of components illustrated in the exemplary embodiment of computer system (1100).

コンピュータシステム(1100)は、いくつかのヒューマンマシンインタフェース入力デバイスを含み得る。このようなヒューマンマシンインタフェース入力デバイスは、例えば、触覚入力(例えば、キーストローク、スワイプ、データグローブの移動)、オーディオ入力(例えば、音声、拍手)、視覚入力(例えば、姿勢)、嗅覚入力(図示せず)による1つ又は複数の人間のユーザの入力に応答してもよい。ヒューマンマシンインタフェースデバイスは、例えば、オーディオ(例えば、音声、音楽、環境音)、ピクチャ(例えば、スキャンした画像、静的画像撮影装置から取得された写真画像)、動画(例えば、2次元動画、ステレオ動画を含む3次元動画)などの、人間の意識的な入力に必ずしも直接関連しない特定のメディアをキャプチャするために使用されてもよい。 Computer system (1100) may include a number of human-machine interface input devices. Such human-machine interface input devices include, for example, tactile input (e.g. keystrokes, swipes, movement of data gloves), audio input (e.g. voice, clapping), visual input (e.g. posture), olfactory input (e.g. (not shown). Human-machine interface devices include, for example, audio (e.g., voice, music, ambient sounds), pictures (e.g., scanned images, photographic images obtained from static image capture devices), video (e.g., two-dimensional video, stereo It may also be used to capture certain media that are not necessarily directly related to human conscious input, such as 3D motion pictures (including motion pictures).

ヒューマンマシンインタフェース入力デバイスには、キーボード(1101)、マウス(1102)、トラックパッド(1103)、タッチスクリーン(1110)、データグローブ(図示せず)、ジョイスティック(1105)、マイク(1106)、スキャナー(1107)、カメラ(1108)のうちの1つ又は複数(それぞれが1つのみ図示される)を含んでもよい。 Human-machine interface input devices include keyboard (1101), mouse (1102), trackpad (1103), touch screen (1110), data glove (not shown), joystick (1105), microphone (1106), scanner ( 1107), may include one or more of the cameras (1108) (only one of each is shown).

コンピュータシステム(1100)はさらに、いくつかのヒューマンマシンインタフェース出力デバイスを含んでもよい。このようなヒューマンマシンインタフェース出力デバイスは、例えば、触覚出力、音、光、及び嗅覚/味覚を通じて、1つ又は複数の人間のユーザの感覚を刺激することができる。このようなヒューマンマシンインタフェース出力デバイスには、触覚出力デバイス(例えば、タッチパネル(1110)、データグローブ(図示せず)、又はジョイスティック(1105)による触覚フィードバックデバイスであり、入力デバイスとして機能しない触覚フィードバックデバイスであってもよい)、オーディオ出力デバイス(例えば、スピーカー(1109)、ヘッドフォン(図示せず))、視覚出力デバイス(例えば、スクリーン(1110)であり、CRTスクリーン、LCDスクリーン、プラズマスクリーン、OLEDスクリーンを含み、それぞれはタッチスクリーン入力機能がある場合とない場合、触覚フィードバック機能がある場合とない場合があり、そのうちのいくつかは、例えば、ステレオ画像出力、仮想現実眼鏡(図示せず)、ホログラフィックディスプレイとスモークタンク(図示せず)により2次元の視覚出力又は3次元以上の出力)、及びプリンター(図示せず)を出力できる場合がある。 Computer system (1100) may also include a number of human-machine interface output devices. Such human-machine interface output devices are capable of stimulating one or more of the human user's senses through, for example, haptic output, sound, light, and smell/taste. Such human-machine interface output devices include haptic output devices such as touch panel (1110), data glove (not shown), or joystick (1105) haptic feedback devices that do not function as input devices. ), audio output devices (e.g. speakers (1109), headphones (not shown)), visual output devices (e.g. screen (1110), CRT screens, LCD screens, plasma screens, OLED screens , each with or without touchscreen input capability and with or without haptic feedback capability, some of which are, for example, stereo image output, virtual reality glasses (not shown), Holo 2D visual output or 3D or higher dimensional output via a graphic display and smoke tank (not shown), and a printer (not shown).

コンピュータシステム1100は、さらに、人間がアクセス可能な記憶装置及びそれらの関連する媒体を含んでもよく、例えば、CD/DVDを有する又は媒体(1121)に類似するCD/DVD ROM/RW(1120)の光学媒体、サムドライブ(1122)、リムーバブルハードドライブ又はソリッドステートドライブ(1123)、レガシー磁気媒体(例えば、磁気テープやフロッピーディスク(図示せず))、専用ROM/ASIC/PLDに基づくデバイス(例えば、セキュリティドングル(図示せず))などを含んでもよい。 Computer system 1100 may further include human-accessible storage devices and their associated media, such as CD/DVD ROM/RW (1120) having or similar to media (1121). Optical media, thumb drives (1122), removable hard or solid state drives (1123), legacy magnetic media (e.g. magnetic tapes and floppy disks (not shown)), dedicated ROM/ASIC/PLD based devices (e.g. security dongle (not shown)) and the like.

当業者はまた、ここで開示される主題に関連して使用される「コンピュータ可読媒体」という用語は、伝送媒体、搬送波、又は他の一時的な信号が含まれていないことを理解すべきである。 Those skilled in the art should also understand that the term "computer-readable medium" as used in connection with the subject matter disclosed herein does not include transmission media, carrier waves, or other transitory signals. be.

コンピュータシステム(1100)は1つ又は複数の通信ネットワークへのネットワークインターフェースをさらに含むことができる。ネットワークは、例えば、無線、有線、光であり得る。ネットワークは、さらに、ローカルエリアネットワーク、広域ネットワーク、メトロポリタンネットワーク、車両及び工業ネットワーク、リアルタイムネットワーク、遅延耐性ネットワークなどであり得る。ネットワークの例には、例えば、ローカルエリアネットワーク(例えば、イーサネット、無線LAN)、GSM、3G、4G、5G、LTEなどを含むセルラーネットワーク、ケーブルテレビ、衛星TV、及び地上放送TVを含む有線又は無線広域デジタルネットワーク、CANBusを含む車両及び工業ネットワークなどであってもよい。特定のネットワークは、通常、特定の汎用データポート又はペリフェラルバス(1149)(例えば、コンピュータシステムのUSBポート)の外部ネットワークインターフェイスアダプタに接続された必要がある。他のネットワークは、通常、以下に説明するように(例えば、PCコンピュータシステムへのイーサネットインターフェース又はスマートフォンコンピュータシステムへのセルラーネットワークインターフェース)システムバスに接続することによってコンピュータシステム(1100)のコアに統合される。コンピュータシステム(1100)はこれらのネットワークのいずれかを使用して、他のエンティティと通信できる。このような通信は、単方向受信のみ(例えば、テレビ放送)、単方向の送信のみ(例えば、幾つかのCANバス装置へのCANバスへ)、又は双方向(例えば、ローカル又はワイドエリアデジタルネットワークを使用して他のコンピュータシステムまで)であってもよい。上記のようにこれらのネットワークとネットワークインターフェイスのそれぞれで特定のプロトコルとプロトコルスタックを使用できる。 Computer system (1100) may further include network interfaces to one or more communication networks. Networks can be, for example, wireless, wired, or optical. Networks may also be local area networks, wide area networks, metropolitan networks, vehicle and industrial networks, real-time networks, delay tolerant networks, and the like. Examples of networks include, for example, local area networks (e.g., Ethernet, wireless LAN), cellular networks including GSM, 3G, 4G, 5G, LTE, etc., wired or wireless including cable TV, satellite TV, and broadcast TV. Wide area digital networks, vehicle and industrial networks including CANBus, and the like. A specific network usually needs to be connected to a specific general purpose data port or an external network interface adapter on a peripheral bus (1149) (eg, a computer system's USB port). Other networks are typically integrated into the core of the computer system (1100) by connecting to the system bus as described below (e.g., an Ethernet interface to a PC computer system or a cellular network interface to a smartphone computer system). be. Computer system (1100) can use any of these networks to communicate with other entities. Such communication may be unidirectional receive only (e.g., television broadcast), unidirectional transmit only (e.g., onto a CAN bus to some CAN bus device), or bidirectional (e.g., local or wide area digital network). to other computer systems using ). Specific protocols and protocol stacks can be used on each of these networks and network interfaces as described above.

以上で言及されたヒューマンマシンインタフェースデバイス、ヒューマンアクセス可能な記憶装置、及びネットワークインタフェースは、コンピュータシステム(1100)のコア(1140)に取り付けることができる。 The human-machine interface devices, human-accessible storage devices, and network interfaces mentioned above can be attached to the core (1140) of the computer system (1100).

コア(1140)には、1つ又は複数の中央処理装置(CPU)(1141)、グラフィックス処理ユニット(GPU)(1142)、フィールドプログラマブルゲートアレイ(FPGA)(1143)の形の専用なプログラマブル処理ユニット、特定のタスクに使用されるハードウェアアクセラレータ(1144)などを含んでもよい。これらのデバイス、読み取り専用メモリ(ROM)(1145)、ランダムアクセスメモリ(RAM)(1146)、例えばユーザがアクセスできない内部ハードドライブ、SSDなどの内部大容量ストレージ(1147)はシステムバス(1148)を介して接続されてもよい。一部のコンピュータシステムにおいて、システムバス(1148)に1つ又は複数の物理プラグの形でアクセスして、追加のCPU、GPUなどにより拡張を実現することができる。周辺機器は、コアのシステムバス(1148)に直接的、又は周辺バス(1149)を介して接続することができる。周辺バスのアーキテクチャは、PCI、USBなどを含む。 The core (1140) contains dedicated programmable processing in the form of one or more Central Processing Units (CPUs) (1141), Graphics Processing Units (GPUs) (1142), Field Programmable Gate Arrays (FPGAs) (1143). Units, such as hardware accelerators (1144) used for specific tasks. These devices, read only memory (ROM) (1145), random access memory (RAM) (1146), e.g. internal hard drives that are not user accessible, internal mass storage such as SSDs (1147) connect to the system bus (1148). may be connected via In some computer systems, the system bus (1148) may be accessed in the form of one or more physical plugs to allow for expansion with additional CPUs, GPUs, and the like. Peripherals can be connected to the core's system bus (1148) either directly or through a peripheral bus (1149). Peripheral bus architectures include PCI, USB, and the like.

CPU(1141)、GPU(1142)、FPGA(1143)、及びアクセラレータ(1144)は、組み合わせて上記のコンピュータコードを構成することができる特定の命令を実行してもよい。当該コンピュータコードは、ROM(1145)又はRAM(1146)に記憶されてもよい。一時的なデータもRAM(1146)に記憶されてもよく、永続的なデータは、例えば内部大容量記憶装置(1147)に記憶されてもよい。バッファメモリにより、記憶装置のうちのいずれかへの高速ストレージと検索を実現することができ、当該バッファメモリは、1つ又は複数のCPU(1141)、GPU(1142)、大容量記憶装置(1147)、ROM(1145)、RAM(1146)などと密接に関連することができる。 CPU (1141), GPU (1142), FPGA (1143), and accelerator (1144) may execute specific instructions that, in combination, may constitute the computer code described above. The computer code may be stored in ROM (1145) or RAM (1146). Temporary data may also be stored in RAM (1146) and permanent data may be stored, for example, in internal mass storage (1147). A buffer memory can provide fast storage and retrieval to any of the storage devices, and may be used by one or more CPUs (1141), GPUs (1142), mass storage devices (1147). ), ROM (1145), RAM (1146), etc.

コンピュータ可読媒体は、コンピュータが実現する様々な動作を実行するためのコンピュータコードを有してもよい。媒体とコンピュータコードとは、本開示の目的のために、特別に設計及び構築される媒体とコンピュータコードであってもよいし、又はそれらは、コンピュータソフトウェアの当業者によって知られ且つ利用可能なタイプのものであってもよい。 The computer-readable medium may have computer code for performing various computer-implemented operations. The media and computer code may be media and computer code specially designed and constructed for the purposes of the present disclosure, or they may be of the type known and available to those skilled in the art of computer software. may be of

例として限定ではなく、アーキテクチャを有するコンピュータシステム(1100)、特にコア(1040)は、(1つ又は複数の)プロセッサ(CPU、GPU、FPGA、アクセラレータなどを含む)が1つ又は複数の有形コンピュータ可読媒体に実施されるソフトウェアを実行する結果として提供される機能を提供することができる。このようなコンピュータ可読媒体は、以上に前記したユーザがアクセス可能な大容量記憶装置、及びコア(1140)のいくつかの非一時的な性質を有するストレージ例えばコア内部大容量記憶装置(1147)又はROM(1145)に関連する媒体であってもよい。本開示の様々な実施形態を実現するソフトウェアはこのようなデバイスに記憶され、コア(1140)によって実行されてもよい。特定のニーズに応じて、コンピュータ可読媒体には1つ又は複数のメモリ又はチップが含まれてもよい。ソフトウェアは、コア(1140)、特にそのうちのプロセッサ(CPU、GPU、FPGAなどを含む)に、本明細書で説明される特定のプロセス又は特定のプロセスの特定の部分を実行させ、ソフトウェアによって定義されたプロセスによりRAM(1146)に記憶されるデータ構造を定義し、このようなデータ構造を修正することを含む。さらに又は代わりとして、コンピュータシステムは、ロジックハードワイヤードによって提供される、又は、他の方式で回路(例えば、アクセラレータ(1144)に具現化される機能を提供することができ、当該回路は、ソフトウェアの代わりとして、又はソフトウェアとともに運行することで、本明細書で説明される特定のプロセス又は特定のプロセスの特定部分を実行できる。適切な場合、ソフトウェアに対する言及にはロジックが含まれ、逆に、ロジックに対する言及にはソフトウェアが含まれてもよい。コンピュータ可読媒体への言及は、必要に応じて、実行用ソフトウェアを格納する回路(例えば、集積回路(IC)など)、実行用論理を実施する回路、又はその両方を包含することができる。本開示は、ハードウェアとソフトウェアとの任意の適切な組み合わせを包含する。
付録A:頭字語
JEM:共同探査モデル
VVC:多用途動画符号化
BMS:ベンチマークセット
MV:動きベクトル
HEVC:高効率動画符号化
SEI:補助拡張情報
VUI:動画ユーザビリティ情報
GOP:ピクチャグループ
TU:変換ユニット
PU:予測ユニット
CTU:符号化ツリーユニット
CTB:符号化ツリー領域
PB:予測ブロック
HRD:仮想参照デコーダ
SNR:信号対雑音比
CPU:中央処理ユニット
GPU:グラフィックス処理ユニット
CRT:陰極線管
LCD:液晶ディスプレイ
OLED:有機発光ダイオード
CD:コンパクトディスク
DVD:デジタル動画ディスク
ROM:読み取り専用メモリ
RAM:ランダムアクセスメモリ
ASIC:特定用途向け集積回路
PLD:プログラマブルロジックデバイス
LAN:ローカルネットワーク
GSM:モバイル通信のグローバルシステム
LTE:ロング・ターム・エヴォリューション
CANBus:コントローラエリアネットワークバス
USB:ユニバーサルシリアルバス
PCI:周辺コンポーネント相互接続
FPGA:フィールドプログラマブルゲートアレイ
SSD:ソリッドステートドライブ
IC:集積回路
CU:符号化ユニット
この開示は、いくつかの例示的な実施例を説明したが、本開示の範囲内に含まれる変更、置換、及び様々な代替均等物が存在する。従って、本明細書では明示的に示されていないか、又は記載されていないが、本開示の内容を具現化し、従って本開示の精神及び範囲内にある多数のシステム及び方法を当業者が考案できることが認識される。









By way of example and not limitation, a computer system (1100) having an architecture, particularly a core (1040), is a processor(s) (including CPUs, GPUs, FPGAs, accelerators, etc.) that is connected to one or more tangible computers. Functionality provided as a result of executing software embodied in a readable medium may be provided. Such computer-readable media may include user-accessible mass storage as described above, and storage having some non-transitory nature of core (1140), such as core internal mass storage (1147) or It may be a medium associated with ROM (1145). Software implementing various embodiments of the present disclosure may be stored in such devices and executed by core (1140). A computer-readable medium may include one or more memories or chips, depending on particular needs. The software causes the cores (1140), and in particular the processors therein (including CPUs, GPUs, FPGAs, etc.), to execute particular processes or particular portions of particular processes described herein, and defining data structures to be stored in RAM (1146) by the process, and modifying such data structures. Additionally or alternatively, the computer system may provide functionality provided by logic hardwired or otherwise embodied in circuitry (e.g., accelerator (1144)), where the circuitry is implemented in software. Alternatively, or in conjunction with software, certain processes or certain portions of certain processes described herein can be performed.Where appropriate, references to software include logic and, conversely, logic. References to may include software References to computer readable media may include circuits (e.g., integrated circuits (ICs), etc.) that store executable software, circuits that implement executable logic, as appropriate. This disclosure encompasses any suitable combination of hardware and software.
Appendix A: Acronyms JEM: Joint Exploration Model VVC: Versatile Video Coding BMS: Benchmark Set MV: Motion Vectors HEVC: High Efficiency Video Coding SEI: Auxiliary Extension Information VUI: Video Usability Information GOP: Group of Pictures TU: Transform Unit PU: prediction unit CTU: coding tree unit CTB: coding tree region PB: prediction block HRD: virtual reference decoder SNR: signal to noise ratio CPU: central processing unit GPU: graphics processing unit CRT: cathode ray tube LCD: liquid crystal display OLED: Organic Light Emitting Diode CD: Compact Disc DVD: Digital Video Disc ROM: Read Only Memory RAM: Random Access Memory ASIC: Application Specific Integrated Circuit PLD: Programmable Logic Device LAN: Local Network GSM: Global System of Mobile Communications LTE: Long Term Evolution CANBus: Controller Area Network Bus USB: Universal Serial Bus PCI: Peripheral Component Interconnect FPGA: Field Programmable Gate Array SSD: Solid State Drive IC: Integrated Circuit CU: Coding Unit Having described exemplary embodiments, there are alterations, permutations, and various alternative equivalents that fall within the scope of this disclosure. Accordingly, one skilled in the art could devise numerous systems and methods not expressly shown or described herein, but which embody the teachings of the present disclosure and thus fall within the spirit and scope of the present disclosure. recognized that it can be done.









Claims (17)

点群解凍用方法であって、
プロセッサが符号化ビットストリームから点群の予測情報を復号化するステップと、
前記プロセッサが前記符号化ビットストリームから復号化された前記点群のジオメトリ画像に基づいて、ジオメトリ再構築クラウドを再構築するステップと、
前記プロセッサが、平滑化されたジオメトリ再構築クラウドを生成するように、前記ジオメトリ再構築クラウドのブロックの境界サンプルに加えて、少なくとも前記ブロック内のジオメトリサンプルに対してフィルタを適用するステップと、
前記プロセッサが前記平滑化されたジオメトリ再構築クラウドに基づいて前記点群の点を再構築するステップとを含む方法。
A method for point cloud decompression, comprising:
a processor decoding the point cloud prediction information from the encoded bitstream;
the processor reconstructing a geometry reconstruction cloud based on a geometry image of the point cloud decoded from the encoded bitstream;
said processor applying a filter to at least geometry samples within said blocks in addition to block boundary samples of said geometry reconstruction cloud to produce a smoothed geometry reconstruction cloud;
said processor reconstructing points of said point cloud based on said smoothed geometry reconstruction cloud.
前記プロセッサが前記ブロック内の閾値レベルよりも高いレベルを有する高周波成分の領域を選択するステップをさらに含む請求項1に記載の方法。 2. The method of claim 1, further comprising the step of selecting regions of high frequency content within the block having levels higher than a threshold level. 前記プロセッサが前記ブロック内の閾値レベルよりも高いレベルを有する動きコンテンツの領域を選択するステップをさらに含む請求項1に記載の方法。 2. The method of claim 1, further comprising the processor selecting regions of motion content having a level higher than a threshold level within the block. 前記プロセッサが前記ジオメトリ再構築クラウドの深度値に基づいて前記ブロック内のエッジを検出するステップをさらに含む請求項2に記載の方法。 3. The method of claim 2, further comprising the processor detecting edges within the block based on depth values of the geometry reconstruction cloud. 前記プロセッサが前記ジオメトリ画像内の対応する画素の動き情報に基づいて、前記ブロック内の点を選択するステップをさらに含む請求項3に記載の方法。 4. The method of claim 3, further comprising the processor selecting points within the block based on motion information of corresponding pixels within the geometry image. 前記予測情報は、前記点群のブロック内で選択的平滑化を適用することを指示するフラグを含む請求項1~5のいずれか1項に記載の方法。 A method according to any one of claims 1 to 5, wherein said prediction information includes a flag indicating to apply selective smoothing within blocks of said point cloud. 前記予測情報は、前記ブロック内の点を選択するための特定のアルゴリズムを指示する請求項6に記載の方法。 7. The method of claim 6, wherein said prediction information dictates a particular algorithm for selecting points within said block. 前記予測情報は、前記特定のアルゴリズムに用いるパラメータを含む請求項7に記載の方法。 8. The method of claim 7, wherein the predictive information includes parameters for use in the particular algorithm. 点群圧縮用方法であって、
プロセッサが、点群に関連付けられたジオメトリ画像を圧縮するステップと、
前記プロセッサが、圧縮された点群のジオメトリ画像に基づいてジオメトリ再構築クラウドを再構築するステップと、
前記プロセッサが、平滑化されたジオメトリ再構築クラウドを生成するように、前記ジオメトリ再構築クラウドのブロックの境界サンプルに加えて、少なくとも前記ブロック内のジオメトリサンプルに対してフィルタを適用するステップと、
前記プロセッサが、前記平滑化されたジオメトリ再構築クラウドに基づいて前記点群のテクスチャ画像を生成するステップとを含む方法。
A method for point cloud compression, comprising:
a processor compressing the geometric image associated with the point cloud;
said processor reconstructing a geometry reconstruction cloud based on a compressed point cloud geometry image;
said processor applying a filter to at least geometry samples within said blocks in addition to block boundary samples of said geometry reconstruction cloud to produce a smoothed geometry reconstruction cloud;
said processor generating a texture image of said point cloud based on said smoothed geometry reconstruction cloud.
前記プロセッサが前記ブロック内の閾値レベルよりも高いレベルを有する高周波成分の領域を選択するステップをさらに含む請求項9に記載の方法。 10. The method of claim 9, further comprising the processor selecting regions of high frequency content having levels above a threshold level within the block. 前記プロセッサが前記ブロック内の閾値レベルよりも高いレベルを有する動きコンテンツの領域を選択するステップをさらに含む請求項9に記載の方法。 10. The method of claim 9, further comprising the processor selecting regions of motion content having a level higher than a threshold level within the block. 前記プロセッサが前記ジオメトリ再構築クラウドの深度値に基づいて前記ブロック内のエッジを検出するステップをさらに含む請求項10に記載の方法。 11. The method of claim 10, further comprising the processor detecting edges within the block based on depth values of the geometry reconstruction cloud. 前記プロセッサが前記ジオメトリ画像内の対応する画素の動き情報に基づいて前記ブロック内の点を選択するステップをさらに含む請求項11に記載の方法。 12. The method of claim 11, further comprising the processor selecting points within the block based on motion information of corresponding pixels within the geometry image. 前記圧縮された点群の符号化ビットストリームには、前記点群のブロック内で選択的平滑化を適用することを指示するフラグを含む請求項9~13の何れか1項に記載の方法。 A method according to any one of claims 9 to 13, wherein the compressed point cloud coded bitstream includes a flag indicating to apply selective smoothing within blocks of the point cloud. 前記圧縮された点群の符号化ビットストリームには、前記ブロック内の、前記選択的平滑化が適用される点を選択するための特定のアルゴリズムを指示するインジケーターを含む請求項14に記載の方法。 15. The method of claim 14, wherein the compressed point cloud coded bitstream includes an indicator that indicates a particular algorithm for selecting points within the block to which the selective smoothing is applied. . 請求項1~8のうちの何れか1項に記載の方法を実行する処理回路を有する装置。 Apparatus comprising processing circuitry for performing the method of any one of claims 1-8. 請求項9~15のうちの何れか1項に記載の方法を実行する処理回路を有する装置。
Apparatus comprising processing circuitry for performing the method of any one of claims 9-15.
JP2021534389A 2019-03-01 2020-02-28 Method for point cloud decompression, method and apparatus for point cloud compression Active JP7112600B2 (en)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201962812964P 2019-03-01 2019-03-01
US62/812,964 2019-03-01
US16/803,619 2020-02-27
US16/803,619 US11272158B2 (en) 2019-03-01 2020-02-27 Method and apparatus for point cloud compression
PCT/US2020/020474 WO2020180721A1 (en) 2019-03-01 2020-02-28 Method and apparatus for point cloud compression

Publications (2)

Publication Number Publication Date
JP2022514548A JP2022514548A (en) 2022-02-14
JP7112600B2 true JP7112600B2 (en) 2022-08-03

Family

ID=72236233

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021534389A Active JP7112600B2 (en) 2019-03-01 2020-02-28 Method for point cloud decompression, method and apparatus for point cloud compression

Country Status (5)

Country Link
US (2) US11272158B2 (en)
EP (1) EP3854097A4 (en)
JP (1) JP7112600B2 (en)
CN (1) CN113519163B (en)
WO (1) WO2020180721A1 (en)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018123801A1 (en) * 2016-12-28 2018-07-05 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ Three-dimensional model distribution method, three-dimensional model receiving method, three-dimensional model distribution device, and three-dimensional model receiving device
US11138694B2 (en) * 2018-12-05 2021-10-05 Tencent America LLC Method and apparatus for geometric smoothing
US11127166B2 (en) * 2019-03-01 2021-09-21 Tencent America LLC Method and apparatus for enhanced patch boundary identification for point cloud compression
US11334969B2 (en) * 2019-03-19 2022-05-17 Sony Group Corporation Point cloud geometry padding
WO2021138787A1 (en) * 2020-01-06 2021-07-15 Oppo广东移动通信有限公司 Intra prediction method, encoder, decoder, and storage medium
EP4224843A4 (en) * 2020-09-30 2023-11-22 Guangdong Oppo Mobile Telecommunications Corp., Ltd. Point cloud encoding and decoding method, encoder, decoder and codec system
CN112435343A (en) * 2020-11-24 2021-03-02 杭州唯实科技有限公司 Point cloud data processing method and device, electronic equipment and storage medium
US11949909B2 (en) 2020-12-29 2024-04-02 Qualcomm Incorporated Global motion estimation using road and ground object labels for geometry-based point cloud compression
US11804007B2 (en) * 2021-03-31 2023-10-31 Disney Enterprises, Inc. 3D digital model surface rendering and conversion
WO2023182764A1 (en) * 2022-03-21 2023-09-28 엘지전자 주식회사 Point cloud data transmission device, point cloud data transmission method, point cloud data reception device, and point cloud data reception method

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018034253A1 (en) 2016-08-19 2018-02-22 Mitsubishi Electric Corporation Method, encoder system and non-transitory computer readable recording medium storing thereon program for encoding point cloud of representing scene
US20180189982A1 (en) 2017-01-02 2018-07-05 Canon Kabushiki Kaisha Attribute mapping to encode and decode 3d models
JP2018534881A (en) 2016-01-22 2018-11-22 三菱電機株式会社 How to compress a point cloud
JP2022511871A (en) 2019-03-01 2022-02-01 テンセント・アメリカ・エルエルシー Methods, devices, media, and programs for decoding an encoded video stream using video point cloud coding.

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9161039B2 (en) * 2012-09-24 2015-10-13 Qualcomm Incorporated Bitstream properties in video coding
ITUB20153724A1 (en) 2015-09-18 2017-03-18 Sisvel Tech S R L METHODS AND EQUIPMENT TO CODIFY AND DECODE DIGITAL VIDEO IMAGES OR FLOWS
US11297346B2 (en) 2016-05-28 2022-04-05 Microsoft Technology Licensing, Llc Motion-compensated compression of dynamic voxelized point clouds
WO2018105579A1 (en) * 2016-12-09 2018-06-14 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ Encoding device, decoding device, encoding method, and decoding method
WO2019013430A1 (en) 2017-07-10 2019-01-17 Samsung Electronics Co., Ltd. Point cloud and mesh compression using image/video codecs
US11405643B2 (en) 2017-08-15 2022-08-02 Nokia Technologies Oy Sequential encoding and decoding of volumetric video
MX2020001712A (en) 2017-08-15 2020-07-13 Unilever Ip Holdings B V Apparatus and method for filtering aqueous liquid.
KR20200038944A (en) * 2017-08-22 2020-04-14 파나소닉 인텔렉츄얼 프로퍼티 코포레이션 오브 아메리카 Image encoder, image decoder, image encoding method and image decoding method
US10607373B2 (en) 2017-11-22 2020-03-31 Apple Inc. Point cloud compression with closed-loop color conversion
US10762592B2 (en) * 2018-07-31 2020-09-01 Intel Corporation Point-based rendering and removal of projection noise

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018534881A (en) 2016-01-22 2018-11-22 三菱電機株式会社 How to compress a point cloud
WO2018034253A1 (en) 2016-08-19 2018-02-22 Mitsubishi Electric Corporation Method, encoder system and non-transitory computer readable recording medium storing thereon program for encoding point cloud of representing scene
US20180189982A1 (en) 2017-01-02 2018-07-05 Canon Kabushiki Kaisha Attribute mapping to encode and decode 3d models
JP2022511871A (en) 2019-03-01 2022-02-01 テンセント・アメリカ・エルエルシー Methods, devices, media, and programs for decoding an encoded video stream using video point cloud coding.

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
GUIGANG SHI, et al.,"Research and Implementation for Scattered Point Cloud Data Denoising Method",International Journal of Earth Sciences and Engineering,[online],2016年10月,Vol.9, No.5,Pages 2273-2277,[令和4年6月23日検索], インターネット, <URL: https://www.academia.edu/31008254/Research_and_Implementation_for_Scattered_Point_Cloud_Data_Denoising_Method>,ISSN: 0974-5904.
Nahid Sheikhi-Pour, et al.,"Efficient 2D Video Coding of Volumetric Video Data",Proceedings of 2018 7th European Workshop on Visual Information Processing (EUVIP),2018年11月28日,Pages 1-5,ISBN: 978-1-5386-6897-9, <DOI: 10.1109/EUVIP.2018.8611742>.
Qualcomm Incorporated (Rapporteur),"FS_XR5G: Permanent document, v0.2",S4-181472,[online], 3GPP TSG-SA4 Meeting 101,2018年11月23日,Pages 1-3, 10 and 16-19,[令和4年6月21日検索], インターネット, <URL: https://www.3gpp.org/ftp/TSG_SA/WG4_CODEC/TSGS4_101_Busan/Docs/S4-181472.zip>.
XU Yiling, et al.,"Introduction to Point Cloud Compression",ZTE COMMUNICATIONS,[online],2018年08月24日,Vol.16, No.3,Pages 3-8,[令和4年6月22日検索], インターネット, <URL: https://res-www.zte.com.cn/mediares/magazine/publication/com_en/article/201803/XUYiling.pdf>,<DOI: 10.19729/j.cnki.1673-5188.2018.03.002>.
西尾 孝治(外4名),「点群データを対象とする情報変換の一手法」,情報処理学会第69回(平成19年)全国大会講演論文集(4),日本,社団法人 情報処理学会,2007年03月06日,第4-41~4-42頁.

Also Published As

Publication number Publication date
WO2020180721A1 (en) 2020-09-10
EP3854097A1 (en) 2021-07-28
US20200280710A1 (en) 2020-09-03
US20220070430A1 (en) 2022-03-03
JP2022514548A (en) 2022-02-14
EP3854097A4 (en) 2021-11-17
US11272158B2 (en) 2022-03-08
US11671577B2 (en) 2023-06-06
CN113519163B (en) 2024-02-20
CN113519163A (en) 2021-10-19

Similar Documents

Publication Publication Date Title
JP7112600B2 (en) Method for point cloud decompression, method and apparatus for point cloud compression
JP7027617B2 (en) Methods for video encoding and decoding, equipment, computer programs, and non-temporary computer-readable media.
JP7478816B2 (en) Method and apparatus for point cloud coding
US11120581B2 (en) Method and apparatus for point cloud compression
US11210813B2 (en) Method and apparatus for point cloud compression
US11113866B2 (en) Method and apparatus for point cloud compression
CN111641834B (en) Method and device for point cloud coding, computer equipment and storage medium
JP7325534B2 (en) Method and apparatus for point cloud encoding
CN112019845B (en) Method, device and storage medium for encoding point cloud
JP7141535B2 (en) Point cloud compression method and apparatus
JP7061680B2 (en) Inter-prediction methods and equipment that use the reduced previous line buffer in video coding
JP2021517394A5 (en)
RU2792020C1 (en) Method and device for encoding point cloud
JP7497443B2 (en) Method, apparatus and computer program for point cloud coding
US20230014820A1 (en) Methods and apparatuses for dynamic mesh compression
JP2023548237A (en) Method, apparatus and computer program for processing UV coordinates of three-dimensional (3D) meshes
JP2023513140A (en) Method, Apparatus, and Computer Program for Point Cloud Coding
JP2024516343A (en) Mesh Compression Using Estimated Texture Coordinates

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210615

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220705

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220722

R150 Certificate of patent or registration of utility model

Ref document number: 7112600

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150