JP7371691B2

JP7371691B2 - ホモグラフィ変換を使用した点群符号化

Info

Publication number: JP7371691B2
Application number: JP2021541522A
Authority: JP
Inventors: ダニーログラジオッシ
Original assignee: Sony Corp; Sony Group Corp
Current assignee: Sony Corp; Sony Group Corp
Priority date: 2019-01-18
Filing date: 2020-01-08
Publication date: 2023-10-31
Anticipated expiration: 2040-01-08
Also published as: US20200236401A1; CN113302940A; US11190803B2; JP2022519462A; WO2020148603A1; EP3891991A1; KR20210096234A

Description

本発明は、３次元グラフィックスに関する。より具体的には、本発明は、３次元グラフィックスの符号化に関する。

関連出願の相互参照
本出願は、米国特許法第１１９条（ｅ）に基づいて、「ＰＯＩＮＴＣＬＯＵＤＣＯＤＩＮＧＵＳＩＮＧＨＯＭＯＧＲＡＰＨＹＴＲＡＮＳＦＯＲＭ（ホモグラフィ変換を使用した点群符号化）」と題する２０１９年１月１８日出願の米国仮特許出願第６２／７９４，０９１号の優先権を主張するものであり、その開示内容全体は、全ての目的で引用により本明細書に組み込まれる。

点群は、３Ｄスキャナ、ＬＩＤＡＲセンサによって取り込まれるか、又は仮想現実／拡張現実（ＶＲ／ＡＲ）などの一般的なアプリケーションで使用される３Ｄデータの送信形式の候補とみなされてきた。点群は、３Ｄ空間内の点集合である。空間位置（Ｘ、Ｙ、Ｚ）に加えて、各点は、通常、色（Ｒ、Ｇ、Ｂ）、又は更に反射率及び時間タイムスタンプ（例えば、ＬＩＤＡＲ画像）などの関連属性を有する。ターゲットの３Ｄオブジェクトの高忠実度表現を得るために、デバイスは、数千又は更に数百万のオーダーの点で点群を取り込む。更に、ＶＲ／ＡＲアプリケーションで使用される動的な３Ｄシーンの場合、あらゆる単一のフレームが、固有の密な点群を有することが多く、その結果、毎秒数百万の点群が送信される。このような大量のデータの実行可能な送信のために、圧縮が適用されることが多い。

２０１７年、ＭＰＥＧは、点群の圧縮に関する提案募集（ＣｆＰ）を発表した。幾つかの提案の評価後、ＭＰＥＧは、点群圧縮のための２つの異なる技術、すなわち、３Ｄネイティブ符号化技術（八分木（ｏｃｔｒｅｅ）及び同様の符号化方法に基づく）、又は３Ｄから２Ｄへの投影、及びその後に続く従来型ビデオ符号化を検討している。動的３Ｄシーンの場合、ＭＰＥＧは、パッチサーフェスモデリング、３Ｄ画像から２Ｄ画像へのパッチ投影、及びＨＥＶＣなどのビデオエンコーダを用いた２Ｄ画像の符号化に基づくテストモデルソフトウェア（ＴＭＣ２）を使用している。この方法は、ネイティブ３Ｄ符号化よりも効率的であることが証明されており、許容可能な品質で競争力のあるビットレートを達成することができる。

点群を符号化する場合、ＴＭＣ２は、２Ｄキャンバス画像内のパッチ位置及びバウンディングボックスサイズなどの、パッチ投影に関連する補助情報を符号化する。補助情報の時間的符号化に関して、現在の点群からのパッチと、即座に復号された点群からのパッチとの間のパッチマッチングが予測に使用される。この手順は、直近のものに限定され、シーケンス内の全てのフレームに対してデルタ符号化を実行することを含む。

ホモグラフィ変換を使用して点群を符号化する方法は、明示的な投影値（バウンディングボックス及びパッチの向き、回転など）の代わりに、３Ｄパッチのホモグラフィ変換値を送る。本方法は、よりコンパクトな表記法を有しており、送信に関してより効率的であり、特に、３Ｄ点が再投影される場合に、より高速な復号を可能にする。

１つの態様において、デバイスの非一時メモリにプログラムされた方法は、３次元コンテンツを取得することと、ホモグラフィ変換を使用して該３次元コンテンツを符号化することと、を含む。ホモグラフィ変換を使用して３次元コンテンツを符号化することは、３次元コンテンツを２次元コンテンツに変換することを含む。ホモグラフィ変換を使用して３次元コンテンツを符号化することは、３次元から２次元への変換のホモグラフィ変換係数を送信することを含む。ホモグラフィ変換を使用して３次元コンテンツを符号化することは、ホモグラフィ行列を計算することを含む。ホモグラフィ行列は、３つの行列から計算される。該３つの行列は、ビューイング行列、投影行列、及びビューポート行列を含む。ビューイング行列は、カメラを表し、投影行列は、カメラのセンサ内の画素を表し、ビューポート行列は、カメラ内の画素から画像内の画素への変換を表す。

別の態様において、本装置は、３次元コンテンツを取得し、ホモグラフィ変換を使用して該３次元コンテンツを符号化するアプリケーションを格納する非一時的メモリと、該メモリに結合されており、該アプリケーションを処理するように構成されたプロセッサと、を備える。ホモグラフィ変換を使用して３次元コンテンツを符号化することは、３次元コンテンツを２次元コンテンツに変換することを含む。ホモグラフィ変換を使用して３次元コンテンツを符号化することは、３次元から２次元への変換のホモグラフィ変換係数を送信することを含む。ホモグラフィ変換を使用して３次元コンテンツを符号化することは、ホモグラフィ行列を計算することを含む。ホモグラフィ行列は、３つの行列から計算される。該３つの行列は、ビューイング行列、投影行列、及びビューポート行列を含む。ビューイング行列は、カメラを表し、投影行列は、カメラのセンサ内の画素を表し、ビューポート行列は、カメラ内の画素から画像内の画素への変換を表す。

別の態様において、本システムは、３次元コンテンツを取得するための１又は２以上のカメラと、ホモグラフィ変換を使用してこの３次元コンテンツを符号化するためのエンコーダと、を備える。ホモグラフィ変換を使用して３次元コンテンツを符号化することは、３次元コンテンツを２次元コンテンツに変換することを含む。ホモグラフィ変換を使用して３次元コンテンツを符号化することは、３次元から２次元への変換のホモグラフィ変換係数を送信することを含む。ホモグラフィ変換を使用して３次元コンテンツを符号化することは、ホモグラフィ行列を計算することを含む。ホモグラフィ行列は、３つの行列から計算される。該３つの行列は、ビューイング行列、投影行列、及びビューポート行列を含む。ビューイング行列は、カメラを表し、投影行列は、カメラのセンサ内の画素を表し、ビューポート行列は、カメラ内の画素から画像内の画素への変換を表す。

幾つかの実施形態による点群マッピングの方法のフローチャートを示す。幾つかの実施形態によるセグメンテーションに関する投影の図を示す。幾つかの実施形態によるデータを符号化するための表現を示す。幾つかの実施形態によるカメラ投影に基づくパッチ生成に関する図を示す。幾つかの実施形態による、ホモグラフィ変換がどのようにして構築されるかについての図を示す。幾つかの実施形態による、ホモグラフィ変換法を使用して点群符号化を実行するグラフィックスパイプラインのフローチャートを示す。幾つかの実施形態による例示的なＶ－ＰＣＣビットストリーム構造を示す。幾つかの実施形態による例示的なパッチフレーム層ユニット構文を示す。幾つかの実施形態による例示的なパッチフレームヘッダ構文を示す。幾つかの実施形態による例示的なパッチフレームデータユニット構文を示す。幾つかの実施形態による例示的なパッチ情報データ構文を示す。幾つかの実施形態による例示的なパッチデータユニット構文を示す。幾つかの実施形態によるデルタパッチデータユニット構文を示す。幾つかの実施形態による例示的なＰＣＭパッチデータユニット構文を示す。幾つかの実施形態による例示的なホモグラフィパッチデータユニット構文を示す。幾つかの実施形態による、ホモグラフィパッチから点群を再構築するための行列を示す。幾つかの実施形態による、ホモグラフィ変換を使用した点群符号化を実装するように構成された例示的なコンピューティングデバイスのブロック図を示す。

ビデオエンコーダを使用した最先端の点群圧縮は、点群を３Ｄパッチとして表し、ジオメトリ及び属性を２Ｄキャンバスに投影することによって形成された２Ｄ画像を符号化する。３Ｄ点から２Ｄ点へのマッピングは、方向平面及びパッチ向きなどの、幾つかの異なる選択肢を考慮して行われる。現在、点群圧縮標準は、これら全ての選択肢を補助データ構造に符号化してそれをデコーダに送り、デコーダは、３Ｄ点を再構築する。点は、レンダリングに使用されるため、別の変換が、点に適用されて、これらの点が再投影される。本明細書で説明する方法は、ホモグラフィ変換値を直接送信し、それによって、点群の高速レンダリングが可能になることができる。更に、本方法は、圧縮効率の観点からよりコンパクトである。

以前の点群圧縮機構と比較して、本明細書で説明する方法は、明示的な投影値（バウンディングボックス及びパッチの向き、回転など）の代わりに、３Ｄパッチのホモグラフィ変換値を送る。本方法は、よりコンパクトな表記法を有しており、送信に関してより効率的であり、特に、３Ｄ点が再投影される場合（例えば、携帯電話機でビデオを生成する場合）、より高速な復号を可能にする。

本明細書では、３Ｄ点群データを２Ｄサーフェスに符号化するための新規性のある方法について説明する。本方法は、３Ｄサーフェスパッチを利用して点群を表し、２Ｄパッチサーフェスへの３Ｄ点の一連のホモグラフィ変換値を送信する。

ビデオエンコーダを使用した３Ｄ点群符号化では、３Ｄから２Ｄへの投影が、点群を表すビデオを生成するのに使用される。これらのビデオを生成する最も効率的な方法は、３Ｄパッチを使用することであり、この方法は、オブジェクトのサーフェスをセグメント化し、正射影を使用して、セグメント化された奥行き画像を生成し、これらの画像は、一緒にバンドルされ、ビデオエンコーダの入力として使用される。しかしながら、投影された点をどのようにして３Ｄで再構築するかを示す幾つかの補助情報が、ビデオ画像と一緒に送信される。バウンディングボックス及びパッチの向き、ディスプレイスメントなどの値が、現在、ビットストリームで明示的に送られる。

本明細書で説明するように、点を２Ｄから３Ｄに再投影するための補助データは、ホモグラフィ変換として表される。ホモグラフィ変換は、３Ｄ点と２Ｄサーフェスとの間の投影を規定するために、射影幾何学で広範にわたって使用されている。投影行列を送ることにより、補助データ表現は、より効率的に符号化することができる。更に、ホモグラフィ変換は、他のホモグラフィ変換と組み合わせて使用されて、点を２Ｄパッチからビューイング投影に直接再投影でき、明示的な値を使用した現在の２Ｄから３Ｄへの投影に関連する費用のかかる演算が回避される。

図１は、幾つかの実施形態による点群マッピングの方法のフローチャートを示している。３Ｄ点群１００が取得される（例えば、カメラ／ビデオカメラによって取り込まれ、別のデバイスから受信され、ダウンロードされる）。ステップ１１０において、３Ｄ点群に関する法線が推定される。法線の推定は、ｋｄツリーの構築、ローカル近傍（例えば、ｋ近傍など）の調査、最適な近似接平面の計算（共分散分析を使用）、法線平滑化の実行、法線向きの決定（最小スパニングツリー伝搬）を含む。ステップ１１２において、初期セグメンテーションが実行される。初期セグメンテーションは、６つの向き（＋Ｘ、－Ｘ、＋Ｙ、－Ｙ、＋Ｚ、－Ｚ）に従って点を分類することを含む。初期セグメンテーションは、固定された向きに従って点を分類する。分類後、向きは、平面に投影される。点のクラスタが決定されると、これらの点は、同じ平面に投影される。点の投影は、点のバウンディングボックスを規定すること１１４において、セグメンテーションが精緻化される。セグメンテーションを精緻化することは、近傍法を使用して画素分類を平滑化することを含む（例えば、指定されたスコアを最大にするため）。ステップ１１６において、パッチがセグメント化される。パッチをセグメント化することは、隣接情報を計算すること、パッチを抽出すること、奥行きフィルタリングを実行すること、及び欠落点を特定することを含む。３Ｄ点群マッピングは、２Ｄ画像１０２をもたらす。幾つかの実施形態では、より少ない又は追加のステップが実行される。幾つかの実施形態では、ステップの順序が変更される。

図２は、幾つかの実施形態によるセグメンテーションに関する投影の図を示している。ｘ、ｙ、ｚ軸に平行なサーフェスへの投影のみを許可していた以前の実装と異なり、本明細書で説明する方法は、ホモグラフィ変換を使用して任意の位置で平面に投影することができる。ホモグラフィ変換（又は転換）は、３Ｄ点を２Ｄに（及びその逆に）マッピングする。

正投影に関する行列は、クリッピング平面を規定する６つのタプル（ｌｅｆｔ（左）、ｒｉｇｈｔ（右）、ｂｏｔｔｏｍ（下）、ｔｏｐ（上）、ｎｅａｒ（近く）、ｆａｒ（遠く））で規定することができる。これらの平面は、最小のコーナーが（ｌｅｆｔ（左）、ｂｏｔｔｏｍ（下）、－ｎｅａｒ（近く））にあり、最大のコーナーが（ｒｉｇｈｔ（右）、ｔｏｐ（上）、－ｆａｒ（遠く））にある状態でボックスを形成する。

図３は、幾つかの実施形態によるデータを符号化するための表現を示している。表現３００は、以前の実装が、各パッチに対してＵ₀、Ｖ₀、サイズＵ₀及びサイズＶ₀０などの情報を含む固定投影情報をどのように表現したかを示している。表現３０２は、各パッチに関するホモグラフィ変換情報（例えば、図２に示されている行列の係数）を含む現在の実装である。ホモグラフィ変換を使用することにより、本システムは、バウンディングボックスがどの平面に投影されているかに関与しない。

図４は、幾つかの実施形態によるカメラ投影に基づくパッチ生成に関する図を示している。３Ｄモデル／ターゲット４００の点群は、カメラ４０２を使用して取り込まれる。幾つかの実施形態では、カメラ４０２は、ｘ、ｙ、及びｚ軸に沿って位置決めされる。点群が取得され、パッチがセグメント化される。同様の特性を有する点が配置され（例えば、投影された画像４０４内のメッシュ４０６内の点の全て）、同じ平面に投影される。３Ｄ位置は、投影された画像４０４に符号化される、点からサーフェス又はメッシュ４０６までの距離である。バウンディングボックスの生成に使用される、どの平面が選択されているか（例えば、＋Ｘ平面）を示すインデックスが、送信される。情報の全ては、ホモグラフィ変換として表すことができる。

図５は、幾つかの実施形態による、ホモグラフィ変換がどのようにして構築されるかについての図である。ホモグラフィ変換は、３つの行列（例えば、ＶｉｅｗＭａｔ、ＰｒｏｊＭａｔ、及びＶｉｅｗｐｏｒｔＭａｔ）を乗算したものである。個々のカメラ行列に相関する行列が、カメラの回転（例えば、Ｒ_0、0）に基づいて生成される。演算（例えば、ＰｒｏｊＭａｔｒｉｘ）は、Ｕ₁、Ｖ₁、Ｄ₁などの値に従って投影をシフトすることができる。行列のうちの１つ（例えば、ＶｉｅｗｐｏｒｔＭａｔｒｉｘ（ビューポート行列））が、サーフェスを決定し、サーフェスを２Ｄキャンバスにマッピングする。

ビューイング行列（ＶｉｅｗＭａｔｒｉｘ）は、カメラを表し、投影行列（ＰｒｏｊＭａｔ）は、カメラセンサ内の画素を表し、ビューポート行列（ＶｉｅｗｐｏｒｔＭａｔ）は、カメラ内の画素から画像内の画素への変換を表す。ホモグラフィ変換が３Ｄ画素に適用されて、画素を２Ｄサーフェスにマッピングすることができる。スケーリング、せん断、透視投影などの演算も実行することができる。

図６は、幾つかの実施形態による、ホモグラフィ変換法を使用して点群符号化を実行するグラフィックスパイプラインのフローチャートを示している。ステップ６００において、モデル（ｘ、ｙ、ｚ）頂点が入力される。ステップ６０２において、モデルビュー変換が適用される。ステップ６０４において、投影変換が適用される。ステップ６０６において、正規化及びクリップ変換が適用される。ステップ６０８において、ビューポート変換が適用される。ステップ６１０において、ラスタライジングが実行される。ステップ６１２において、シェーディングが適用される。ステップ６１４において、合成が適用されて、２Ｄ表現が生成される。幾つかの実施形態では、より少ない又は追加のステップが実行される。幾つかの実施形態では、ステップの順序が変更される。

幾つかの実施形態では、ホモグラフィ変換値を符号化することは、算術エンコーダを使用して各係数（浮動小数）を別々に符号化することを含む。

図７は、幾つかの実施形態による例示的なＶ－ＰＣＣビットストリーム構造を示している。図８は、幾つかの実施形態による例示的なパッチフレーム層ユニット構文を示している。図９は、幾つかの実施形態による例示的なパッチフレームヘッダ構文を示している。

図１０は、幾つかの実施形態による例示的なパッチフレームデータユニット構文を示している。ｐｆｄｕ＿ｐａｔｃｈ＿ｍｏｄｅ［ｆｒｍＩｄｘ］［ｐ］は、インデックスｆｒｍＩｄｘを有するパッチフレーム内のインデックスｐを有するパッチに関するパッチモードを示す。ｐｆｄｕ＿ｐａｔｃｈ＿ｍｏｄｅ［ｆｒｍＩｄｘ］［ｐ］の許容値は、ｐｆｈ＿ｔｙｐｅ［ｆｒｍＩｄｘ］＝Ｉを有するパッチフレームの場合、１０００に指定され、［ｆｒｍＩｄｘ］＝Ｐを有するパッチフレームの場合、１００２に指定される。

図１１は、幾つかの実施形態による例示的なパッチ情報データ構文を示している。

図１２は、幾つかの実施形態による例示的なパッチデータユニット構文を示している。ｐｄｕ＿ｌｏｄ［ｆｒｍＩｄｘ］［ｐ］は、パッチフレームｆｒｍＩｄｘのインデックスｐを有するパッチに適用されるＬＯＤスケーリング係数を指定する。フレームｆｒｍＩｄｘ内のパッチｐに関する再構築された点３Ｄ位置は、それらの２Ｄからの投影後、及び、何らかの更なる変換が適用される前に、２^{pdu_lod[frmIdx][p]}によってスケーリングされることになる。ｐｄｕ＿ｌｏｄ［ｆｒｍＩｄｘ］［ｐ］が存在しない場合には、その値は、０に等しいと推測される必要がある。

０に等しいｐｄｕ＿ｐｒｏｊｅｃｔｉｏｎ＿ｍｏｄｅ［ｆｒｍＩｄｘ］［ｐ］は、パッチフレームｆｒｍＩｄｘのインデックスｐを有する持つパッチが近くの投影面に投影されることを指定する。１に等しいｐｄｕ＿ｐｒｏｊｅｃｔｉｏｎ＿ｍｏｄｅ［ｆｒｍＩｄｘ］［ｐ］は、パッチが遠方の投影面に投影されることを指定する。ｐｄｕ＿ｐｒｏｊｅｃｔｉｏｎ＿ｍｏｄｅ［ｆｒｍＩｄｘ］［ｐ］が存在しない場合に、その値は、０に等しいと推測される必要がある。

図１３は、幾つかの実施形態によるデルタパッチデータユニット構文を示している。

図１４は、幾つかの実施形態による例示的なＰＣＭパッチデータユニット構文を示している。ｐｐｄｕ＿ｐａｔｃｈ＿ｉｎ＿ｐｃｍ＿ｖｉｄｅｏ＿ｆｌａｇ［ｆｒｍＩｄｘ］［ｐ］は、インデックスｆｒｍＩｄｘを有するパッチフレーム内のＰＣＭ符号化パッチｐに関連するジオメトリ及び属性データが、イントラ及びインター符号化パッチのものと比較して異なるビデオに符号化されるか否かを指定する。ｐｐｄｕ＿ｐａｔｃｈ＿ｉｎ＿ｐｃｍ＿ｖｉｄｅｏ＿ｆｌａｇ［ｆｒｍＩｄｘ］［ｐ］が０に等しい場合には、インデックスｆｒｍＩｄｘを有するパッチフレーム内のＰＣＭ符号化パッチｐに関連するジオメトリ及び属性データは、イントラ及びインター符号化パッチのビデオと同じビデオに符号化される。ｐｐｄｕ＿ｐａｔｃｈ＿ｉｎ＿ｐｃｍ＿ｖｉｄｅｏ＿ｆｌａｇ［ｆｒｍＩｄｘ］［ｐ］が１に等しい場合には、インデックスｆｒｍＩｄｘを有するパッチフレーム内のＰＣＭ符号化パッチｐに関連するジオメトリ及び属性データは、イントラ及びインター符号化パッチのビデオと異なるビデオに符号化される。ｐｐｄｕ＿ｐｃｍ＿ｐｏｉｎｔｓ［ｆｒｍＩｄｘ］［ｐ］は、インデックスｆｒｍＩｄｘを有するパッチフレーム内のＰＣＭ符号化パッチｐに存在するｐｃｍ点の数を指定する。ｐｐｄｕ＿ｐｃｍ＿ｐｏｉｎｔｓ［ｆｒｍＩｄｘ］［ｐ］の値は、包括的な、０から（Ｐａｔｃｈ２ｄＳｉｚｅＵ［ｆｒｍＩｄｘ］［ｐ］＊Ｐａｔｃｈ２ｄＳｉｚｅＵ［ｆｒｍＩｄｘ］［ｐ］／３）の範囲内にあるべきである。

図１５は、幾つかの実施形態による例示的なホモグラフィパッチデータユニット構文を示している。ｈｐｄｕ＿２ｄ＿ｓｈｉｆｔ＿ｕ［ｆｒｍＩｄｘ］［ｐ］は、ｏｐｓ＿ｏｃｃｕｐａｎｃｙ＿ｐａｃｋｉｎｇ＿ｂｌｏｃｋ＿ｓｉｚｅの倍数として表される、インデックスｆｒｍＩｄｘを有するパッチフレーム内のパッチｐに関するパッチバウンディングボックスサイズの左上コーナーのｘ座標を指定する。ｈｐｄｕ＿２ｄ＿ｓｈｉｆｔ＿ｕ［ｆｒｍＩｄｘ］［ｐ］の値は、包括的な、０からＭｉｎ（２ｐｆｈ＿２ｄ＿ｓｈｉｆｔ＿ｕ＿ｂｉｔ＿ｃｏｕｎｔ＿ｍｉｎｕｓ１［ｆｒｍＩｄｘ］＋１－１、ｓｐｓ＿ｆｒａｍｅ＿ｗｉｄｔｈ／ｏｐｓ＿ｏｃｃｕｐａｎｃｙ＿ｐａｃｋｉｎｇ＿ｂｌｏｃｋ＿ｓｉｚｅ－１）の範囲内にあるべきである。ｈｐｄｕ＿２ｄ＿ｓｈｉｆｔ＿ｖ［ｆｒｍＩｄｘ］［ｐ］は、ｏｐｓ＿ｏｃｃｕｐａｎｃｙ＿ｐａｃｋｉｎｇ＿ｂｌｏｃｋ＿ｓｉｚｅの倍数として表される、インデックスｆｒｍＩｄｘを有するパッチフレーム内のパッチｐに関するパッチバウンディングボックスサイズの左コーナーのｙ座標を指定する。ｈｐｄｕ＿２ｄ＿ｓｈｉｆｔ＿ｖ［ｆｒｍＩｄｘ］［ｐ］の値は、包括的な、０からＭｉｎ（２ｐｆｈ＿２ｄ＿ｓｈｉｆｔ＿ｖ＿ｂｉｔ＿ｃｏｕｎｔ＿ｍｉｎｕｓ１［ｆｒｍＩｄｘ］＋１－１、ｓｐｓ＿ｆｒａｍｅ＿ｈｅｉｇｈｔ／ｏｐｓ＿ｏｃｃｕｐａｎｃｙ＿ｐａｃｋｉｎｇ＿ｂｌｏｃｋ＿ｓｉｚｅ－１）の範囲内にあるべきである。ｈｐｄｕ＿２ｄ＿ｄｅｌｔａ＿ｓｉｚｅ＿ｕ［ｆｒｍＩｄｘ］［ｐ］は、ｐが０に等しい場合に、インデックスｆｒｍＩｄｘを有するパッチフレーム内のインデックス０を有するパッチの幅値を指定する。ｐが０より大きい場合には、ｈｐｄｕ＿２ｄ＿ｄｅｌｔａ＿ｓｉｚｅ＿ｕ［ｆｒｍＩｄｘ］［ｐ］は、インデックスｐを有するパッチの幅値と、インデックス（ｐ－１）を有するパッチの幅値との差分を指定する。ｈｐｄｕ＿２ｄ＿ｄｅｌｔａ＿ｓｉｚｅ＿ｖ［ｆｒｍＩｄｘ］［ｐ］は、ｐが０に等しい場合に、インデックスｆｒｍＩｄｘを有するパッチフレーム内のインデックス０を有するパッチの高さ値を指定する。ｐが０より大きい場合に、ｈｐｄｕ＿２ｄ＿ｄｅｌｔａ＿ｓｉｚｅ＿ｖ［ｆｒｍＩｄｘ］［ｐ］は、インデックスｐを有するパッチの高さ値と、インデックス（ｐ－１）を有するパッチの高さ値との差分を指定する。ｈｐｄｕ＿ｏｒｉｅｎｔａｔｉｏｎ＿ｓｗａｐ＿ｆｌａｇ［ｆｒｍＩｄｘ］［ｐ］は、パッチフレームｆｒｍＩｄｘのインデックスｐを有するに関するパッチ向きがテーブルに従って使用されるか否かを示す。ｐｄｕ＿ｏｒｉｅｎｔａｔｉｏｎ＿ｓｗａｐ＿ｆｌａｇ［ｆｒｍＩｄｘ］［ｐ］が存在しない場合に、その値は、０に等しいと推測される必要がある。ｈｐｄｕ＿ｈｏｍｏｇｒａｐｈｙ＿ｔｒａｎｓｆｏｒｍ［ｆｒｍＩｄｘ］［ｐａｔｃｈＩｎｄｅｘ］［ｉ］［ｊ］は、４×４ホモグラフィ行列の係数［ｉ］［ｊ］を指定する。ホモグラフィ変換は、例えば、異なるパッチ向き、異なるカメラ方向などのパッチへの変換を可能にする。

ホモグラフィモードで符号化されたパッチユニットに対する復号処理が実装される。この処理への入力は、現在のパッチフレームインデックスｆｒｍＩｄｘ、及び現在のパッチインデックスｐである。以下のパッチ関連変数は、最初に、パッチデータユニット内の構文解析された要素を前提として割り当てられる。
Patch2dShiftU[frmIdx][p]=pdu_2d_shift_u[frmIdx][p]
*ops_occupancy_packing_block_size (8-6)
Patch2dShiftV[ frmIdx][p]=pdu_2d_shift_v[frmIdx][p]
*ops_occupancy_packing_block_size (8-7)
次に、変数Patch2dSizeU[frmIdx][p]及びPatch2dSizeV[frmIdx][p]が、次のように導出される。
If p is equal to 0, then:（ｐが０に等しい場合、）
Patch2dSizeU[frmIdx][p]=pdu_2d_delta_size_u[frmIdx][p]
*ops_occupancy_packing_block_size (8-8)
Patch2dSizeV[frmIdx][p]=pdu_2d_delta_size_v[frmIdx][p]
*ops_occupancy_packing_block_size (8-9)
Otherwise,if(p>0),then:（それ以外の場合、ｐが０より大きい場合、）
Patch2dSizeU[frmIdx][p]=Patch2dSizeU[frmIdx][p-1]+
pdu_2d_delta_size_u[frmIdx][p]*ops_occupancy_packing_block_size (8-10)
Patch2dSizeV[frmIdx][p]=Patch2dSizeV[frmIdx][p-1]+
pdu_2d_delta_size_v[frmIdx][p]*ops_occupancy_packing_block_size (8-11)
for(i=0;i<4;i++){
for(j=0;j<4;j++){
Homography[frmIdx][p][i][j]=hpdu_homography_transform[frmIdx][p
][i][j]
}
}

図１６は、幾つかの実施形態による、ホモグラフィパッチから点群を再構築するための行列を示している。出力点群は、キャンバス内の位置と奥行き値とによって形成される同次座標表記におけるベクトルにホモグラフィ変換値を乗算することによって簡単に生成される。

ホモグラフィ変換値を信号で伝える別の方法は、パッチデータユニットにフラグを追加して、より多くの情報、すなわち、ホモグラフィ変換係数が送られることを信号で伝えることである。

図１７は、幾つかの実施形態による、ホモグラフィ変換を使用した点群符号化を実装するように構成された例示的なコンピューティングデバイスのブロック図を示している。コンピューティングデバイス１７００は、３Ｄコンテンツを含む画像及びビデオなどの情報を取得、格納、計算、処理、伝達、及び／又は表示するのに使用することができる。コンピューティングデバイス７００は、点群符号化態様のいずれかを実装することができる。一般に、コンピューティングデバイス７００を実装するのに適したハードウェア構造は、ネットワークインタフェース１７０２、メモリ１７０４、プロセッサ１７０６、Ｉ／Ｏデバイス１７０８、バス１７１０、及びストレージデバイス１７１２を含む。プロセッサの選択は、十分な速度を有する好適なプロセッサが選択されている限り、重要でない。メモリ７０４は、当技術分野で公知の任意の従来型コンピュータメモリとすることができる。ストレージデバイス１７１２は、ハードドライブ、ＣＤＲＯＭ、ＣＤＲＷ、ＤＶＤ、ＤＶＤＲＷ、高精細ディスク／ドライブ、ウルトラＨＤドライブ、フラッシュメモリカード、又は他の任意のストレージデバイスを含むことができる。コンピューティングデバイス１７００は、１又は２以上のネットワークインタフェース１７０２を含むことができる。ネットワークインタフェースの例は、イーサネット（登録商標）又は他のタイプのＬＡＮに接続されたネットワークカードを含む。Ｉ／Ｏデバイス７０８は、以下のもの、すなわち、キーボード、マウス、モニタ、スクリーン、プリンタ、モデム、タッチスクリーン、ボタンインタフェース、及び他のデバイスのうちの１又は２以上を含むことができる。点群符号化を実装するのに使用される点群符号化アプリケーション１７３０は、ストレージデバイス１７１２及びメモリ１７０４に格納され、アプリケーションが通常処理されように処理される可能性が高い。図１７に示されるより多くの又はより少ないコンポーネントが、コンピューティングデバイス１７００に含めることができる。幾つかの実施形態では、点群符号化ハードウェア１７２０が含まれる。図１７におけるコンピューティングデバイス１７００は、点群符号化のためのアプリケーション１７３０及びハードウェア１７２０を含むが、点群符号化は、ハードウェア、ファームウェア、ソフトウェア、又はそれらの任意の組み合わせにおけるコンピューティングデバイス上に実装することができる。例えば、幾つかの実施形態では、点群符号化アプリケーション１７３０は、メモリ内にプログラムされ、プロセッサを使用して実行される。別の例では、幾つかの実施形態では、点群符号化ハードウェア１７２０は、点群符号化を実装するように特別に設計されたゲートを含むプログラムされたハードウェア論理回路である。

幾つかの実施形態では、点群符号化アプリケーション１７３０は、幾つかのアプリケーション及び／又はモジュールを含む。幾つかの実施形態では、モジュールは、１又は２以上のサブモジュールも含む。幾つかの実施形態では、より少ない又は追加のモジュールを含めることができる。

幾つかの実施形態では、点群符号化ハードウェア１７２０は、レンズ、画像センサ、及び／又は他の任意のカメラコンポーネントなどのカメラコンポーネントを含む。

好適なコンピューティングデバイスの例は、パーソナルコンピュータ、ラップトップコンピュータ、コンピュータワークステーション、サーバ、メインフレームコンピュータ、ハンドヘルドコンピュータ、携帯情報端末、セルラ／携帯電話機、スマート家電、ゲーム機、デジタルカメラ、デジタルカムコーダ、カメラ付き電話機、スマートフォン、ポータブル音楽プレーヤ、タブレットコンピュータ、モバイルデバイス、ビデオプレーヤ、ビデオディスクライタ／プレーヤ（例えば、ＤＶＤライタ／プレーヤ、高精細ディスクライタ／プレーヤ、超高精細ディスクライタ／プレーヤ）、テレビ、家庭用エンターテイメントシステム、拡張現実デバイス、仮想現実デバイス、スマートジュエリ（例えば、スマートウォッチ）、車両（例えば、自動運転車両）、又は他の任意の好適なコンピューティングデバイスを含む。

ホモグラフィ変換法を使用した点群符号化を利用するために、デバイスは、３Ｄコンテンツを取得又は受信して、最適な方法でこのコンテンツを処理及び／又は送信して、３Ｄコンテンツの適切で効率的な表示を可能にする。点群符号化は、ユーザの支援を受けて、又はユーザの関与なしに自動的に実行することができる。

動作中、ホモグラフィ変換法を使用した点群符号化は、明示的な投影値（バウンディングボックス及びパッチの向き、回転など）の代わりに、３Ｄパッチのホモグラフィ変換値を送る。本方法は、よりコンパクトな表記法を有しており、送信に関してより効率的であり、特に、３Ｄ点が再投影される場合（例えば、携帯電話機でビデオを生成する場合）、より高速な復号を可能にする。試験では、以前の実装と比較して、ホモグラフィ変換法を用いた点群符号化を使用すると性能が高まることが示されている。

ホモグラフィ変換（パッチ）を使用する他の利点は、任意の方向（６つの軸に位置合わせされた向き方向だけでなく）を利用する（例えば、１０個の投影がホモグラフィ変換を用いてモデル化できる）ことと、異なるタイプのカメラ（奥行き及びテクスチャで使用される正投影ｘ遠近法カメラ）を使用できることと、２Ｄテクスチャ（復号属性のみ）、２Ｄプラス奥行きテクスチャ（復号属性及びホモグラフィパッチ）、及び点群（全てを復号）と互換性のある後方互換ビットストリームを生成することと、ホモグラフィパッチが、現在のパッチ定義と互換性がある（例えば、現在の表記法を使用してホモグラフィ変換を得ることができる）ことと、イントラ／インター機能とを含む。

ホモグラフィ変換を使用した点群符号化の幾つかの実施形態
１．デバイスの非一時メモリにプログラムされた方法であって、
３次元コンテンツを取得することと、
ホモグラフィ変換を使用してこの３次元コンテンツを符号化することと、
を含む方法。
２．ホモグラフィ変換を使用して３次元コンテンツを符号化することは、３次元コンテンツを２次元コンテンツに変換することを含む、条項１に記載の方法。
３．ホモグラフィ変換を使用して３次元コンテンツを符号化することは、３次元から２次元への変換のホモグラフィ変換係数を送信することを含む、条項１に記載の方法。
４．ホモグラフィ変換を使用して３次元コンテンツを符号化することは、ホモグラフィ行列を計算することを含む、条項１に記載の方法。
５．ホモグラフィ行列は、３つの行列から計算される、条項４に記載の方法。
６．３つの行列は、ビューイング行列、投影行列、及びビューポート行列を含む、条項５に記載の方法。
７．ビューイング行列は、カメラを表し、投影行列は、カメラのセンサ内の画素を表し、ビューポート行列は、カメラ内の画素から画像内の画素への変換を表す、条項６に記載の方法。
８．３次元コンテンツを取得すること、及びホモグラフィ変換を使用してこの３次元コンテンツを符号化することのためのアプリケーションを格納するための非一時的メモリと、
このメモリに結合されており、このアプリケーションを処理するように構成されたプロセッサと、
を備える装置。
９．ホモグラフィ変換を使用して３次元コンテンツを符号化することは、３次元コンテンツを２次元コンテンツに変換することを含む、条項８に記載の装置。
１０．ホモグラフィ変換を使用して３次元コンテンツを符号化することは、３次元から２次元への変換のホモグラフィ変換係数を送信することを含む、条項８に記載の装置。
１１．ホモグラフィ変換を使用して３次元コンテンツを符号化することは、ホモグラフィ行列を計算することを含む、条項８に記載の装置。
１２．ホモグラフィ行列は、３つの行列から計算される、条項１１に記載の装置。
１３．３つの行列は、ビューイング行列、投影行列、及びビューポート行列を含む、条項１２に記載の装置。
１４．ビューイング行列は、カメラを表し、投影行列は、カメラのセンサ内の画素を表し、ビューポート行列は、カメラ内の画素から画像内の画素への変換を表す、条項１３に記載の装置。
１５．３次元コンテンツを取得するための１又は２以上のカメラと、
ホモグラフィ変換を使用してこの３次元コンテンツを符号化するためのエンコーダと、
を備えるシステム。
１６．ホモグラフィ変換を使用して３次元コンテンツを符号化することは、３次元コンテンツを２次元コンテンツに変換することを含む、条項１５に記載のシステム。
１７．ホモグラフィ変換を使用して３次元コンテンツを符号化することは、３次元から２次元への変換のホモグラフィ変換係数を送信することを含む、条項１５に記載のシステム。
１８．ホモグラフィ変換を使用して３次元コンテンツを符号化することは、ホモグラフィ行列を計算することを含む、条項１５に記載のシステム。
１９．ホモグラフィ行列は、３つの行列から計算される、条項１８に記載のシステム。
２０．３つの行列は、ビューイング行列、投影行列、及びビューポート行列を含む、条項１９に記載のシステム。
２１．ビューイング行列は、カメラを表し、投影行列は、カメラのセンサ内の画素を表し、ビューポート行列は、カメラ内の画素から画像内の画素への変換を表す、条項２０に記載のシステム。

本発明は、本発明の構成及び動作の原理の理解を容易にするための詳細が組み込まれた特定の実施形態に関して説明されている。特定の実施形態及びその詳細への本明細書におけるそのような言及は、本明細書に添付されている特許請求の範囲を限定することを意図するものではない。当業者であれば、特許請求の範囲によって規定される本発明の趣旨及び範囲から逸脱することなく、例示のために選択された実施形態において他の様々な修正を行うことができることは容易に明らかであろう。

Claims

デバイスの非一時メモリにプログラムされた方法であって、
３次元コンテンツを取得することであって、該３次元コンテンツを取得することは、前記３次元コンテンツのパッチをセグメント化することと、バウンディングボックスの生成のためにどの平面が選択されているかを示すインデックスを送信することとを含むものであり、ここで、前記３次元コンテンツの同様の特性を有する点は、同じ平面に投影され、３Ｄ位置は、点からサーフェスまでの距離であることと、
ホモグラフィ変換を使用して前記３次元コンテンツを符号化することであって、該ホモグラフィ変換を使用して前記３次元コンテンツを符号化することは、法線を推定することを含み、該法線を推定することは、ｋｄツリーを構築することと、ローカル近傍を調べることと、共分散分析を使用して最適な近似接平面を計算することと、法線平滑化を実行することと、法線向きを決定することとを含むものであることと、
を含む方法。
前記ホモグラフィ変換を使用して前記３次元コンテンツを符号化することは、前記３次元コンテンツを２次元コンテンツに変換することを含む、請求項１に記載の方法。
前記ホモグラフィ変換を使用して前記３次元コンテンツを符号化することは、３次元から２次元への変換のホモグラフィ変換係数を送信することを含む、請求項１に記載の方法。
前記ホモグラフィ変換を使用して前記３次元コンテンツを符号化することは、ホモグラフィ行列を計算することを含む、請求項１に記載の方法。
前記ホモグラフィ行列は、３つの行列から計算される、請求項４に記載の方法。
前記３つの行列は、ビューイング行列、投影行列、及びビューポート行列を含む、請求項５に記載の方法。
前記ビューイング行列は、カメラを表し、前記投影行列は、前記カメラのセンサ内の画素を表し、前記ビューポート行列は、前記カメラ内の前記画素から画像内の前記画素への変換を表す、請求項６に記載の方法。
３次元コンテンツを取得することであって、該３次元コンテンツを取得することは、前記３次元コンテンツのパッチをセグメント化することと、バウンディングボックスの生成のためにどの平面が選択されているかを示すインデックスを送信することとを含むものであり、ここで、前記３次元コンテンツの同様の特性を有する点は、同じ平面に投影され、３Ｄ位置は、点からサーフェスまでの距離であること、及びホモグラフィ変換を使用して前記３次元コンテンツを符号化することであって、該ホモグラフィ変換を使用して前記３次元コンテンツを符号化することは、法線を推定することを含み、該法線を推定することは、ｋｄツリーを構築することと、ローカル近傍を調べることと、共分散分析を使用して最適な近似接平面を計算することと、法線平滑化を実行することと、法線向きを決定することとを含むものであることのためのアプリケーションを格納するための非一時的メモリと、
前記メモリに結合されており、前記アプリケーションを処理するように構成されたプロセッサと、
を備える装置。
前記ホモグラフィ変換を使用して前記３次元コンテンツを符号化することは、前記３次元コンテンツを２次元コンテンツに変換することを含む、請求項８に記載の装置。
前記ホモグラフィ変換を使用して前記３次元コンテンツを符号化することは、３次元から２次元への変換のホモグラフィ変換係数を送信することを含む、請求項８に記載の装置。
前記ホモグラフィ変換を使用して前記３次元コンテンツを符号化することは、ホモグラフィ行列を計算することを含む、請求項８に記載の装置。
前記ホモグラフィ行列は、３つの行列から計算される、請求項１１に記載の装置。
前記３つの行列は、ビューイング行列、投影行列、及びビューポート行列を含む、請求項１２に記載の装置。
前記ビューイング行列は、カメラを表し、前記投影行列は、前記カメラのセンサ内の画素を表し、前記ビューポート行列は、前記カメラ内の前記画素から画像内の前記画素への変換を表す、請求項１３に記載の装置。
３次元コンテンツを取得するための１又は２以上のカメラと、
ホモグラフィ変換を使用して前記３次元コンテンツを符号化するためのエンコーダと、
を備え、
前記３次元コンテンツを取得することは、向きに従って点を分類することを含む、前記３次元コンテンツのパッチをセグメント化することと、バウンディングボックスの生成のためにどの平面が選択されているかを示すインデックスを送信することとを含むものであり、ここで、前記３次元コンテンツの同様の特性を有する点は、同じ平面に投影され、３Ｄ位置は、点からサーフェスまでの距離であり、
前記ホモグラフィ変換を使用して前記３次元コンテンツを符号化することは、法線を推定することを含み、該法線を推定することは、ｋｄツリーを構築することと、ローカル近傍を調べることと、共分散分析を使用して最適な近似接平面を計算することと、法線平滑化を実行することと、法線向きを決定することとを含むものであるシステム。
前記ホモグラフィ変換を使用して前記３次元コンテンツを符号化することは、前記３次元コンテンツを２次元コンテンツに変換することを含む、請求項１５に記載のシステム。
前記ホモグラフィ変換を使用して前記３次元コンテンツを符号化することは、３次元から２次元への変換のホモグラフィ変換係数を送信することを含む、請求項１５に記載のシステム。
前記ホモグラフィ変換を使用して前記３次元コンテンツを符号化することは、ホモグラフィ行列を計算することを含む、請求項１５に記載のシステム。
３次元コンテンツを取得するための１又は２以上のカメラと、
ホモグラフィ変換を使用して前記３次元コンテンツを符号化するためのエンコーダと、
を備え、
前記ホモグラフィ変換を使用して前記３次元コンテンツを符号化することは、ホモグラフィ行列を計算することを含み、
前記ホモグラフィ行列は、３つの行列から計算される、請求項１８に記載のシステム。
前記３つの行列は、ビューイング行列、投影行列、及びビューポート行列を含む、請求項１９に記載のシステム。
前記ビューイング行列は、カメラを表し、前記投影行列は、前記カメラのセンサ内の画素を表し、前記ビューポート行列は、前記カメラ内の前記画素から画像内の前記画素への変換を表す、請求項２０に記載のシステム。