JP2025071766A - 3d陰関数表現のための有向格子エンコーダ - Google Patents
3d陰関数表現のための有向格子エンコーダ Download PDFInfo
- Publication number
- JP2025071766A JP2025071766A JP2024105877A JP2024105877A JP2025071766A JP 2025071766 A JP2025071766 A JP 2025071766A JP 2024105877 A JP2024105877 A JP 2024105877A JP 2024105877 A JP2024105877 A JP 2024105877A JP 2025071766 A JP2025071766 A JP 2025071766A
- Authority
- JP
- Japan
- Prior art keywords
- points
- lattice
- encoder
- representation
- oriented
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4007—Scaling of whole images or parts thereof, e.g. expanding or contracting based on interpolation, e.g. bilinear interpolation
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T17/00—Three dimensional [3D] modelling, e.g. data description of 3D objects
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T17/00—Three dimensional [3D] modelling, e.g. data description of 3D objects
- G06T17/005—Tree description, e.g. octree, quadtree
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T17/00—Three dimensional [3D] modelling, e.g. data description of 3D objects
- G06T17/20—Finite element generation, e.g. wire-frame surface description, tesselation
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2210/00—Indexing scheme for image generation or computer graphics
- G06T2210/56—Particle system, point based geometry or rendering
Landscapes
- Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computer Graphics (AREA)
- Geometry (AREA)
- Software Systems (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
- Image Processing (AREA)
Abstract
【課題】ニューラルネットワークをトレーニングすることによって3次元(3D)オブジェクトを含む3Dシーンの陰関数表現を生成するための人工知能システムを提供する。
【解決手段】ニューラルネットワークは、オブジェクトの形状の3D点群を示すデータを、オブジェクトの複数の分解能を捕捉する格子ベースの特徴にエンコードするよう構成されるエンコーダと、デコーダとを含み、システムは、プロセッサと、命令が格納されたメモリとを備え、命令は、プロセッサに(i)3Dオブジェクトを含む3Dシーンの有向点群を示す入力データを受信させ、入力データは、3D点群の点の3D位置と、点の3D位置に近接する位置における3Dオブジェクトの表面に対する法線を定義する点の向きとを示し、命令は、さらに、プロセッサに、(ii)エンコーダおよびデコーダをトレーニングさせて、3Dオブジェクトの陰関数表現を生成させる。
【選択図】図1
【解決手段】ニューラルネットワークは、オブジェクトの形状の3D点群を示すデータを、オブジェクトの複数の分解能を捕捉する格子ベースの特徴にエンコードするよう構成されるエンコーダと、デコーダとを含み、システムは、プロセッサと、命令が格納されたメモリとを備え、命令は、プロセッサに(i)3Dオブジェクトを含む3Dシーンの有向点群を示す入力データを受信させ、入力データは、3D点群の点の3D位置と、点の3D位置に近接する位置における3Dオブジェクトの表面に対する法線を定義する点の向きとを示し、命令は、さらに、プロセッサに、(ii)エンコーダおよびデコーダをトレーニングさせて、3Dオブジェクトの陰関数表現を生成させる。
【選択図】図1
Description
本開示は、概して、3次元シーンの陰関数表現を生成するための方法およびシステムを対象とする。
3次元(3D)表面を表現するのには、多くの異なる方法がある。陰関数曲面表現では、座標x、y、およびzを有する点は、F(x,y,z)=0である場合に、あるオブジェクトに属し、関数F(.)はそのオブジェクトを定義する。このタイプの3D表現は、簡潔で連続性を保証するので有利である。大抵の学習ベースの3D陰関数表現は、3D点をエンコードすることから始まり、次いで、それらの特徴を選択された表現にデコードし、F (.)を定義する。
2種類のエンコーダ、すなわち、(1)ここでは位置エンコーダとして示される、各点の3D座標のみを、より高次元のベクトル空間にマッピングすること、および(2)格子ベースと呼ばれる、それらの近傍についての情報を収集する3D点、が通常並列に使用される。多層パーセプトロン(MLP)は、通常、デコーダのための好適な選択と見なされる。以前の、幾何学的エンコーダを使用する技法は、オブジェクトの基底の幾何学的特性の一部を考慮せず、その空間的局所化のみを利用し、したがって、不満足な3D表現を形成する。
したがって、陰関数曲面表現を生成するときにオブジェクトの基底の幾何学的特徴のすべてを考慮する方法およびシステムに対する、継続的な、まだ対処されていないニーズが存在する。様々な実施形態および実現形態は、ニューラルネットワークをトレーニングすることによって3次元(3D)オブジェクトを含む3Dシーンの陰関数表現を生成するための方法およびシステムを対象とし、当該ネットワークは、当該3Dオブジェクトの形状の3D点群を示すデータを、当該オブジェクトの複数の分解能を捕捉する格子ベースの特徴にエンコードするよう構成されるエンコーダと、当該格子ベースの特徴を、当該3Dシーンにおける任意の点から当該オブジェクトまでの距離にデコードするよう構成されるデコーダとを含む。
ある態様によれば、人工知能(AI)システムが提供される。本AIシステムは、ニューラルネットワークをトレーニングすることによって3次元(3D)オブジェクトを含む3Dシーンの陰関数表現を生成し、当該ニューラルネットワークは、当該オブジェクトの形状の3D点群を示すデータを、当該オブジェクトの複数の分解能を捕捉する格子ベースの特徴にエンコードするよう構成されるエンコーダと、当該格子ベースの特徴を、当該3Dシーンにおける任意の点から当該オブジェクトまでの距離にデコードするよう構成されるデコーダとを含み、当該AIシステムは、少なくとも1つのプロセッサと、命令を格納したメモリとを備え、当該命令は、当該AIシステムの当該少なくとも1つのプロセッサに、(i)3Dオブジェクトを含む3Dシーンの有向点群を示す入力データを受信させ、当該入力データは、当該3D点群の点の3D位置と、当該点の当該3D位置に近接する位置における当該3Dオブジェクトの表面に対する法線を定義する当該点の向きとを示し、当該命令は、さらに、当該AIシステムの当該少なくとも1つのプロセッサに、(ii)当該3Dオブジェクトの陰関数表現を生成するために、当該点の当該位置および当該点の当該向きの両方を使用して当該エンコーダおよび当該デコーダをトレーニングさせ、(iii)当該エンコーダおよび当該デコーダを含む当該3Dオブジェクトの当該陰関数表現を、有線または無線通信チャネルを介して送信させる。
この入力データは、3Dオブジェクトを含む3Dシーンの有向点群を示し、いくつかの方法で取得することができる。ある実施形態によれば、それは、点群を出力するRGB-Dセンサから取得される。3D点の向きは、いくつかの方法で取得することができ、例えば、近傍の点を平面によって局所的に近似することによって、またはニューラルネットワークを使用して、取得することができる。同じ種類の3D点群は、他の可能性の中でもとりわけ、ピクセル当たりの深度を予測するニューラルネットワークを有するステレオカメラまたは単眼カメラなどの他のタイプのセンサから得ることができる。
入力データを取得する別の方法は、拡張現実/仮想現実に関連する。この実施形態によれば、オブジェクトを定義する三角メッシュがあり、3D点群は三角メッシュの角部から直接得ることができる。それぞれの3D点の向きは、それぞれの3D点近傍三角形の法線の平均によって与えられる。
一実施形態によれば、当該エンコーダは、当該3D点群の当該点の位置および当該点の当該向きのうちの1つまたは組合せを、当該オブジェクトの複数の分解能を捕捉する当該格子ベースの特徴に変換するようトレーニングされ、当該デコーダは、当該デコーダによって生成される当該3Dシーン内の点から当該オブジェクトまでの距離とグラウンドトゥルース距離との間の誤差の損失関数を低減するよう、当該格子ベースの特徴の補間上でトレーニングされる。
ある実施形態によれば、当該エンコーダは、当該3D点群の当該点の位置を当該格子ベースの特徴に変換するようトレーニングされ、当該デコーダは、ネスト化された形状のセット内での当該補間上においてトレーニングされ、当該ネスト化された形状のセットは、当該格子ベースの特徴を囲み、対応するネスト化された形状の付近の当該点の当該向きに基づいて方向付けされる。
ある実施形態によれば、当該エンコーダは、当該点の当該位置を、当該オブジェクトの複数の分解能を捕捉する当該格子ベースの特徴としてエンコードするようトレーニングされ、当該デコーダは、ネスト化された形状のセット内で補間によって表される方向付けされた特徴に基づいてトレーニングされ、当該ネスト化された形状のセットは、当該格子ベースの特徴を囲み、対応するネスト化された形状の付近の当該点の当該向きに基づいて方向付けされる。
ある実施形態によれば、当該エンコーダおよび当該デコーダをトレーニングするために、当該プロセッサは、当該エンコーダを使用して、当該入力データを、当該3Dオブジェクトの形状の複数の分解能を捕捉する特徴の八分木表現にエンコードするよう構成され、当該八分木表現の各特徴を、軸周りに回転対称性を有する方向付けされた形状で囲むよう構成され、特徴を囲む方向付けされた形状の次元は、当該八分木表現上の囲まれた当該特徴のレベルによって支配され、当該方向付けされた形状の軸の向きは、囲まれた当該特徴の座標の近傍の点のサブセットの表面に対する法線によって支配され、当該プロセッサはさらに、ボリュメトリック補間を用いて各方向付けされた形状内の特徴を補間して、当該八分木表現の当該特徴を更新するよう構成され、当該デコーダを使用して、当該特徴の更新された当該八分木表現をデコードして、当該距離関数を生成するよう構成され、当該ニューラルネットワークのパラメータを更新して、当該デコーダによって生成される当該3Dシーン内の点から当該オブジェクトまでの距離とグラウンドトゥルース距離との間の誤差の損失関数を最小にするよう構成される。
一実施形態によれば、回転対称性を有する当該方向付けされた形状は、円筒および球体のうちの1つ以上を含む。
一実施形態によれば、回転対称性を有する当該方向付けされた形状の各々は円筒であり、当該円筒は、1つまたは複数の格子ベースの特徴を囲み、当該円筒の各々の軸が、当該円筒の次元および囲まれた当該特徴の位置によって支配される表面の領域に対する法線に整列するように方向付けされた円筒である。
一実施形態によれば、回転対称性を有する当該方向付けされた形状の各々は、1つまたは複数の格子ベースの特徴を囲む円筒であり、当該プロセッサは、当該円筒の次元および囲まれた当該特徴の位置によって支配される表面の領域に対する法線に当該円筒の軸を整列させるように当該円筒を方向付けるよう構成される。
一実施形態によれば、当該補間はボリュメトリック補間であり、当該プロセッサは、当該円筒形表現の末端に対する点の近接性を測定する円筒補間係数を求めるよう構成される。一実施形態によれば、当該円筒補間係数は、(i)当該円筒の頂面に対する当該点の距離と、当該円筒と当該円筒の対称軸に対する当該点の距離との体積における差とから計算される第1の係数と、(ii)当該円筒の底面に対する当該点の距離と、当該円筒と当該円筒の当該対称軸に対する当該点の距離との体積における差とから計算される第2の係数と、(iii)当該円筒の残りから計算される第3の係数とを含む。
一実施形態によれば、当該ニューラルネットワークの当該エンコーダのトレーニング中に、当該プロセッサは、入力点群の複数のサンプリングされた点ついて、当該円筒補間係数を求めるよう構成される。
一実施形態によれば、当該プロセッサは、当該3Dオブジェクトの当該陰関数表現を使用して、表示装置上に当該3Dオブジェクトの画像をレンダリングするよう構成される。
別の局面によれば、当該AIシステムに、当該有線または無線通信チャネルを介して、動作するよう接続される画像処理システムであって、当該画像処理システムは、当該3Dオブジェクトの当該陰関数表現を使用して、表示装置上に当該3Dオブジェクトの画像をレンダリングするよう構成される。
一実施形態によれば、当該3Dオブジェクトの当該画像は、変動する視野角に対してレンダリングされる。
ある実施形態によれば、当該3Dオブジェクトの当該画像は、仮想現実またはゲームアプリケーション内で、変動する視野角に対してレンダリングされる。
別の局面によれば、当該AIシステムに、当該有線または無線通信チャネルを介して、動作するよう接続されるロボットシステムであって、当該ロボットシステムは、当該3Dオブジェクトの当該陰関数表現を使用してタスクを実行するよう構成される。
別の局面によれば、当該AIシステムに、当該有線または無線通信チャネルを介して、動作するよう接続される表示装置であって、当該プロセッサは、当該3Dオブジェクトの当該陰関数表現を使用して、当該3Dオブジェクトの画像をレンダリングするよう構成され、当該表示装置は、当該3Dオブジェクトのレンダリングされた当該画像を表示するよう構成される。
別の局面によれば、3次元(3D)オブジェクトの画像を、当該3Dオブジェクトの陰関数表現を使用してディスプレイ上にレンダリングするよう構成される画像処理システムであって、トレーニングされたニューラルネットワークを備え、当該トレーニングされたニューラルネットワークは、当該3Dオブジェクトの形状の3D点群を示すデータを、当該オブジェクトの複数の分解能を捕捉する格子ベースの特徴にエンコードするよう構成されるエンコーダと、当該格子ベースの特徴を、当該3Dオブジェクトを含む3Dシーン内の任意の点から当該オブジェクトまでの距離にデコードするよう構成されるデコーダとを含み、当該画像処理システムはさらに、少なくとも1つのプロセッサと、命令を格納したメモリとを備え、当該命令は、当該少なくとも1つのプロセッサに、3Dオブジェクトを含む3Dシーンの有向点群を示す入力データを受信させ、当該入力データは、当該3D点群の点の3D位置と、当該点の当該3D位置に近接する位置における当該3Dオブジェクトの表面に対する法線を定義する当該点の向きとを示し、当該命令は、さらに、当該少なくとも1つのプロセッサに、当該エンコーダで、当該点の当該位置および当該点の当該向きの両方を使用して、当該3Dオブジェクトの陰関数表現を生成させ、当該エンコーダで、当該3Dオブジェクトの当該陰関数表現を使用して、当該3Dオブジェクトの画像をレンダリングさせ、レンダリングされた当該画像をディスプレイに表示させる。
様々な実施形態のこれらおよび他の曲面は、以下に記載される実施形態から明らかになり、それらを参照して解明されるであろう。
図面において、同様の参照符号は、異なる図を通して、概して、同じ部分を指す。様々な実施形態を実現する特徴および態様を示す図は、特許請求の範囲内に入る他の可能な実施形態に限定するものとして解釈されるべきではない。また、図面は、必ずしも縮尺通りではなく、代わりに、概して、種々の実施形態の原理を図示することに重点が置かれる。
本開示は、3次元(3D)シーンの陰関数表現を生成するよう構成されるシステムおよび方法の様々な実施形態を説明する。より一般的には、本出願人は、陰関数曲面表現を生成するときにオブジェクトの基底の幾何学的特徴のすべてを考慮する方法およびシステムを提供することが有益であろうことを認識し、理解した。したがって、ある陰関数表現生成システムは、ニューラルネットワークをトレーニングすることによって、3Dオブジェクトを含む3Dシーンの陰関数表現を生成する。ニューラルネットワークは、3Dオブジェクトの形状の3D点群を示すデータを、3Dオブジェクトの複数の分解能を捕捉する格子ベースの特徴にエンコードするよう構成されるエンコーダを含む。ニューラルネットワークはまた、格子ベースの特徴を、3Dシーン内の任意の点からオブジェクトまでの距離にデコードするよう構成されるデコーダを含む。
3D陰関数表現パイプラインでは、単一の3D点が、幾何学的エンコーダ、位置エンコーダ、またはそれら両方を通過する。次いで、特徴は、オブジェクトの表面をモデル化するデコーダに注入される。当該プロセスをすべての点群点について繰り返すことにより、モデル化された3D表面に関して、疎な出力表現が得られる。
図1を参照すると、一実施形態では、3Dオブジェクト表現生成方法およびシステムの概略図が示されている。図に関連して記載される方法は、例としてのみ提供され、本開示の範囲を限定しないと理解されるべきである。陰関数表現生成システム200は、本明細書において記載されるかまたは別様に想定されるシステムのうちのいずれかであることができる。本陰関数表現生成システムは、単一のシステムまたは複数の異なるシステムであり得る。
3Dオブジェクト表現生成システム200は、3Dオブジェクトを含む3Dシーンの陰関数表現を生成するための人工知能(AI)システムである。システム200は、(1)オブジェクト110の形状の3D点群120を示すデータを、オブジェクトの複数の分解能を捕捉する格子ベースの特徴にエンコードするよう構成されるエンコーダ233と、(2)格子ベースの特徴を3Dシーン内の任意の点からオブジェクトまでの距離にデコードするよう構成されるデコーダ234とを含むニューラルネットワーク232をトレーニングする。
システム200は、3Dオブジェクト110を含む3Dシーンの有向点群120を示す入力データを受信し、入力データは、3D点群の点の3D位置と、点の3D位置に近接する位置における3Dオブジェクトの表面に対する法線を定義する点の向き130とを示す。システム200は、3Dオブジェクトの陰関数表現を生成するために、点の位置および点の向きの両方を使用してエンコーダ233およびデコーダ234をトレーニングする。本システムは、次いで、通信インターフェース250などを介して、3Dオブジェクトの陰関数表現140(任意選択肢としてエンコーダおよびデコーダを含む)を、有線または無線通信チャネルを介して、送信することができる。
ある実施形態によれば、陰関数表現生成システム200が提供される。図1に描写されるような陰関数表現生成システム200の実施形態を参照すると、例えば、本システムは、1つまたは複数のシステムバス260を介して相互接続される、プロセッサ220、メモリ230、ユーザインターフェース240、および通信インターフェース250のうちの1つまたは複数を備える。図1は、いくつかの点において抽象概念を構成し、システム200の構成要素の実際の編成は、図示されるものとは異なる、より複雑であり得ることが理解されるであろう。加えて、陰関数表現生成システム200は、本明細書で記載されるかまたは別様に想定されるシステムのうちのいずれかであることができる。陰関数表現生成システム200の他の要素および構成要素は、本明細書の他の箇所で開示および/または想定される。
一実施形態によれば、システム200は、メモリ230に記憶される命令を実行するか、または他の方法でデータを処理して、例えば、本方法の1つまたは複数のステップを実行することができるプロセッサ220を備える。プロセッサ220は、1つまたは複数のモジュールから形成され得る。プロセッサ220は、マイクロプロセッサ、マイクロコントローラ、複数のマイクロコントローラ、回路系、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、単一のプロセッサ、または複数のプロセッサを含むがそれらに限定されはしない任意の好適な形態をとることができる。
メモリ230は、不揮発性メモリおよび/またはRAMを含む、任意の好適な形態をとることができる。メモリ230は、例えば、L1、L2もしくはL3キャッシュまたはシステムメモリなどの様々なメモリを含み得る。したがって、メモリ230は、スタティックランダムアクセスメモリ(SRAM)、ダイナミックRAM(DRAM)、フラッシュメモリ、読取り専用メモリ(ROM)、または他の同様のメモリデバイスを含み得る。メモリは、とりわけ、オペレーティングシステムを記憶することができる。RAMは、データの一時的な記憶のためにプロセッサによって使用される。一実施形態によれば、オペレーティングシステムは、プロセッサによって実行されると、システム200の1つまたは複数の構成要素の動作を制御するコードを含むことができる。プロセッサが本明細書で記載される機能のうちの1つまたは複数をハードウェアで実現する実施形態では、他の実施形態においてそのような機能に対応するものとして記載されるソフトウェアは省略され得ることは明らかであろう。メモリ230は、非一時的な機械可読媒体と見なされ得る。本明細書で使用するとき、非一時的という文言は、一時的な信号を除外するが、揮発性メモリおよび不揮発性メモリの両方を含むすべての形態のストレージを含むと理解される。一実施形態によれば、システム200のメモリ230は、1つもしくは複数のアルゴリズム、モジュール、および/または命令を記憶して、本明細書で記載または別様に想定される方法の1つもしくは複数の機能またはステップを実行することができる。
ユーザインターフェース240は、ユーザとの通信を可能にするための1つまたは複数のデバイスを含んでもよい。ユーザインターフェースは、情報が伝達および/または受信されることを可能にする任意のデバイスまたはシステムであり得、ユーザコマンドを受信するためのディスプレイ、マウス、および/またはキーボードを含み得る。いくつかの実施形態では、ユーザインターフェース240は、通信インターフェース250を介して遠隔端末に提示され得る、コマンドラインインターフェースまたはグラフィカルユーザインターフェースを含んでもよい。ユーザインターフェースは、本システムの1つまたは複数の他の構成要素とともに位置してもよく、または本システムから遠隔に位置し、有線および/もしくは無線通信ネットワークを介して通信してもよい。
通信インターフェース250は、他のハードウェアデバイスとの通信を可能にするための1つまたは複数のデバイスを含み得る。たとえば、通信インターフェース250は、イーサネット(登録商標)プロトコルに従って通信するよう構成されるネットワークインターフェースカード(NIC)を含み得る。加えて、通信インターフェース250は、TCP/IPプロトコルに従う通信のためにTCP/IPスタックを実現し得る。通信インターフェース250のための様々な代替もしくは追加のハードウェアまたは構成が明らかであろう。
システム200は、記載した各構成要素のうちの1つを含むものとして示されているが、様々な実施形態では、様々な構成要素が重複され得る。たとえば、プロセッサ220は、複数のプロセッサが協働して本明細書で記載する機能を達成するように、本明細書で記載する方法を独立して実行するよう構成されるか、または本明細書で記載する方法のステップもしくはサブルーチンを実行するよう構成される、複数のマイクロプロセッサを含み得る。さらに、システム200の1つまたは複数の構成要素がクラウドコンピューティングシステムに実現される場合、様々なハードウェア構成要素は、別々の物理システムに属し得る。たとえば、プロセッサ220は、第1のサーバ内の第1のプロセッサと、第2のサーバ内の第2のプロセッサとを含み得る。多くの他の変形および構成が可能である。
図2Aを参照すると、一実施形態では、3Dオブジェクト110を含む3Dシーンの陰関数表現を生成するように3Dオブジェクト表現生成システム200をトレーニングするための方法250のフローチャートである。トレーニング260中、本明細書で記載するように、本システムは、エンコーダ233およびデコーダ234を含むニューラルネットワークをトレーニングして、八分木表現を使用して、オブジェクトの形状の3D点群を示すデータを、オブジェクトの複数の分解能を捕捉する格子ベースの特徴にエンコードし、格子ベースの特徴を、3Dシーン内の任意の点からオブジェクトまでの距離にデコードし、それにより、オブジェクトの表面をモデル化する。
図2Bは、一実施形態による、3次元シーンの陰関数表現を生成し、その表現をデコードするための方法のフローチャートである。本システムのニューラルネットワーク232は、オブジェクト270の形状の3D点群を示すデータを、オブジェクトの複数の分解能を捕捉する格子ベースの特徴にエンコードするようトレーニングされるエンコーダ233を含む。ニューラルネットワークはまた、格子ベースの特徴を3Dシーン内の任意の点からオブジェクトまでの距離にデコードするようトレーニングされるデコーダ234を含み、それによって、3Dオブジェクトの陰関数表現140を介してオブジェクトの表面をモデル化する。3Dオブジェクトのこの陰関数表現は、直ちに使用することができ、通信することができ、および/または将来の使用のために記憶することができる。実行280中、トレーニングされたニューラルネットワークは、トレーニングされたデコーダ234を使用して、3Dオブジェクトのエンコードされた陰関数表現140をデコードするよう、使用される。
図3A~図3Cを参照すると、一実施形態では、一実施形態による、3Dオブジェクト表現を生成するときに向きを判断するためのプロセスの概略図が示されている。トレーニングデータを生成し、トレーニングされたエンコーダを使用して3Dオブジェクトをエンコードするために、本システムは、3Dオブジェクトを含む3Dシーンの有向点群を示す入力データを生成する。その入力データは、3D点群の点の3D位置と、点の3D位置に近接する位置における3Dオブジェクトの表面に対する法線を定義する点の向きとを示す。
例えば、図3Aを参照すると、幾何学的エンコーダは、異なる詳細レベルが明示的にモデル化されるときに、より良好に機能する。3Dデータ点は、310において格子セルに示されるように、異なる空間分解能で配置される。各分解能に対して、異なるサイズを有する異なるセルが存在する。これらの異なる格子分解能は、それぞれのセル内にあるすべてのデータ点を集約するために使用される。数字330および340は、2つの異なる分解能を示す。
ある実施形態によれば、本システムは、5つの異なる格子分解能を利用し、多分解能格子エンコーダを作成する。しかしながら、異なる格子分解能の数は、5より多くても少なくてもよい。例えば、異なる格子分解能の数は、オブジェクト/表面の粗さに依存してもよく、したがって、それに応じて調整することができる。一実施形態によれば、単一のデコーダを、異なる多分解能格子エンコーダに使用することができる。
図3Bおよび図3Cを参照すると、ツリー380は、単一の回転事例の玩具例について向きがどのように計算されるかを示す。実際には、3つの回転があり、ツリー分岐係数を6に増加させる。ツリーの深度の中に、より深く進むにつれて、向きは、380(図3B)および340(図3C)において異なるグレースケールとして図示される、正しい表面方向に、より近づくであろう。ツリーにおける深度の各レベルは、単一の分解能格子についての向きを設定する。
図3A~図3Cを参照すると、例えば、セル340および330は、380において計算される向き(すなわち、ツリーにおけるそれぞれのグレースケール/深度)に従って回転され、回転されたセル360および370(図3C)をそれぞれ得る。この手順は、異なる分解能を含んで、各すべてのセルについて繰り返される。
実施形態によれば、トレーニングのための入力3Dデータを生成するために、点の3D位置は、最初にオブジェクト表面により近くサンプリングし、次いで環境の周囲に、より分散して追加することによって、シーン全体にわたって射倖的に取得される。
図4Aを参照すると、構造格子をオブジェクトの法線方向とともに使用して八分木表現を拡張する多分解能有向格子を生成するためのプロセスの概略図が示されている。セル410は、方向ツリーおよびそれぞれの深度レベル(LOD)レベルに回転され、有向格子420を形成する。
図4Bを参照すると、オブジェクト430をエンコードする概略図が示されている。トレーニング中、例えば、(点群420内の)回転されたセル内のサンプリングされた点の特徴は、近傍のセル特徴が3DCNN疎カーネルで集約される、422で示される円筒補間方式に従って補間される。これらの特徴は、符号付き距離関数(SDF)および占有率といったオブジェクト表現のための現在の現状技術のデコーダにおいて使用され得る。図4Bに関して円筒補間方式が記載されるが、軸周りに回転対称性を有する任意の形状が好適であることに留意することが重要である。例えば、それは、軸周りに回転対称性を有する球体または他の体積形状であり得る。
図5を参照すると、一実施形態では、トレーニングされたニューラルネットワークのエンコーダを使用してオブジェクトをエンコードするための方法500が示されている。エンコーダは、入力510として受信された点群内の点の向きをエンコードする有向格子幾何学的エンコーダ520と、入力510として受信された点群データをエンコードする点エンコーダ530とを含む。各3D点は、幾何学的エンコーダ520、位置エンコーダ530、またはそれら両方を通過する。ある実施形態によれば、入力510は、ある点、およびオブジェクトに最もよく適合する事前初期化されたツリーである。出力540は、3D表現を形成する深度レベル(LOD)ツリー特徴のセットである。
点エンコーダ530は、位置エンコーダおよびアンカーの法線の両方を含む。有向格子幾何学的エンコーダ520は、550で有向格子構築から始まり、これは事前計算されたステップである。これは、有向格子の複数の分解能を含む。例えば、図5は、3つの分解能552を示すが、より少数の分解能およびより多数の分解能も可能である。各分解能について、(ツリーから抽出される)有向格子の特徴554が生成される。これらの特徴は、近傍情報を横断して局所的に集約される(すなわち、局所的特徴集約560)。集約された特徴562は、本明細書で記載されるかまたは別様に想定される円筒補間方式570において使用されて、最終的なLOD特徴580を生成する。LODツリー特徴580および点エンコーダ530からのエンコードされた点は、3D表現540をもたらす。図5の方法は円筒補間方式570を利用するが、軸周りに回転対称性を有する任意の形状が好適であることに留意されたい。例えば、それは、軸周りに回転対称性を有する球体または他の体積形状であり得る。
ある実施形態によれば、有向格子が構築される。3D表現をモデル化するために八分木表現が使用される。具体的には、本システムは、格子ベースの3Dエンコーダをモデル化するために八分木表現を使用する。しかしながら、ある格子を後続の深度レベルにおいて8つのより小さい格子に分割するための標準的な8つのアクションに加えて、本システムは、セルの向きをモデル化するための回転アクションを含み、より高いレベルでは、より小さい(より密な)格子およびより微細な整列が、オブジェクトをより良好に表す。後続のLODごとに56の分岐因子(格子位置について8×向きについて7)をもたらすであろう、各アクションの個々のモデル化の代わりに、そして、格子サイズおよび向きは独立しているので、それらは2つのツリー、すなわち、(i)ツリー1:格子のサイズをモデル化するための構造化された八分木と、(ii)ツリー2:セルの向きをモデル化するための方向ツリーとに分割される。
ツリー1における構造化された八分木について、その表現は、[-1,1]内に境界付けられる位置LOD(向きなし)からなる。典型的な八分木モデル化は、既存の研究から辿られる。
方向ツリー2について、オブジェクトの表面点群から取られる正規化された点xについて、法線が、nとして示されて、この照会に関連付けられる。目標は、表面に沿ってセルを整列させることである。LOD内の整合性を維持するために、レベルごとに有限の可能な向きのセットを表す法線アンカーのセットを構築した。次いで、z軸が、照会法線nに最も近いアンカーであるアンカーに一致するように、セルを回転させた。この検索ツリーをモデル化するために、i)ノード状態、ii)アクション、iii)状態遷移、およびiv)初期状態を定義する必要がある。
各セルについて状態δを計算するために、回転アンカーは、コサイン類似度を使用して、ある回転自由度まで、セルのz軸を表面法線と整列させることができる。
格子と照会点との関連付けに関して、ツリー1内の各セルは、ツリー2を検索することから計算される固定された向きを有する。トレーニングおよび評価中、照会点は、ツリー1(構造化されたツリー)内の特定のLOD上のセルに関連付けられる。次いで、対応する回転アンカーを用いてセルを回転させる。なお、点は、すべての八分木セルの外側にあってもよく;この場合、照会は破棄される。
トリリニア補間は、図3Aに示すように、構造(方向付けなし)格子についての特徴を得る典型的な方法であったが、有向格子に対しては、構造格子と同じ手法を使用することは適用できない。したがって、本システムは、図4Bに示されるように方向付けされた円筒(これは、図3Cにおける有向格子の3D表現である)を使用し、それは、本明細書で議論されるように、セルの整列を活用し、格子の向き(法線方向周りの不変性回転)を規定する際に不変性の欠如を軽減することができる。この回転不変性は、格子内の点に明示的な滑らかさの制約を加える。
したがって、図6を参照すると、ある実施形態による、円筒補間のための提案された方式がある。図6の方法は円筒補間方式を利用するが、軸周りの回転対称性を有する任意の形状が好適であることに留意されたい。例えば、それは、軸周りの回転対称性を有する球体または他の体積形状であり得る。
入力セル格子は、(LODごとに)有向格子から得られる対応するアンカー法線n610を有する。円筒620は、半径Rおよび高さHを伴って、格子法線アンカー610と整列される。補間方式は、ボリュメトリック補間タイプのものである。これは、円筒の高さ境界までの照会点xの距離h1およびh2、ならびにrとして示されるxと円筒対称軸との間の距離に依存する。
630において、第1の係数c0は、点の頂面までの距離h1と、Rおよび点の対称軸までの距離rを考慮した体積の差とから計算される。640において、係数c2は、底面までの距離h2と、Rおよび点の対称軸までの距離rを考慮した体積の差とから計算される。最後に、650において、c1は円筒の残りである。各係数は、k={0,1,2}について、付随する学習可能な特徴ekを有する。補間された特徴fは、ekの、ck重みとの加重平均である。660において、円筒補間特徴が、c0、c1、およびc2から生成される。
照会点が与えられると、目的は、円筒内の点の相対位置を考慮して、特徴係数について相対空間体積を計算することである。円筒補間係数は、図6に示すように、円筒セル表現の末端に対する点の近接度を測定する。円筒の頂部および境界線により近い点では、より小さい境界体積(図6の630における体積)を生成することになる。したがって、それの反対面からの距離は大きくなり、したがって、より大きい体積係数(図6の640における体積)となる。この例における最も高い係数は、中心軸に従って反対になる(図6の650における体積)。
実現形態において、本方法は、新たな格子ベースのエンコーダに焦点を当てているため、本システムは、現状技術のデコーダアーキテクチャおよび出力表現を使用して、本方法を評価する。損失関数およびトレーニング手順についても以下で説明する。
デコーダアーキテクチャでは、多層パーセプトロンが利用される。デコーダは、各レベルでトレーニングされ、すべてのLODにわたって共有される。入力される補間された特徴の他に、現状技術の位置エンコーダΦp(・)が点上においてLp個の周波数とともに追加され、Φn(・)がアンカーの法線上においてLn個の周波数とともに追加される。点および法線は各位置エンコーダに付され、サイズは、P=3×2×Lp+3およびN=3×2×Ln+3である。この方法は、SDFおよび占有率について出力表現として示される。
トレーニング段階の間、照会Nqが入力点群からサンプリングされ、それらがLODの各々についてどのボクセルにあるかが判断され、その特徴が選択されたボクセルに従って補間される。予測されるサンプルの二乗誤差の和またはクロスエントロピーは、それぞれSDFおよび占有率についてアクティブなLODから計算される。加えて、二重逆伝播を用いて法線を求める。次いで、計算された法線とアンカー法線との間でL2ノルムを正則化項として計算する。2つの項を加算(加重和)して最終損失を求める。
評価中、均一に分布した入力サンプルを、分解能Q=5123の単位立方体から得る。結果は、最後のLODについて示され、より細かいLODに対応する。入力照会は、既存の八分木セルとマッチしない場合、破棄される。最後に、マーチングキューブを用いた出力からのメッシュが得られる。
実施例
以下は、本明細書で記載されるかまたは別様に想定される方法およびシステムを使用する、例示的実現形態および分析を説明する。これらは例としてのみ提供され、本発明の範囲を限定しないことが理解されるであろう。
ある実施形態によれば、3D再構築品質が、各オブジェクトについて、Chamfer Distance(CD)、Normal Consistency(NC)、およびIntersection over Union(IoU)を使用して評価された。CDは、照会点およびそのグラウンドトゥルースマッチの逆数最小距離として計算された。CDは5回計算され、その平均が示された。NCは、照会法線(CD計算中に得られる照会点に対応する)とその対応するグラウンドトゥルース法線との間のコサイン類似度から計算される、対応する法線である。NCは、両方の法線間のコサイン類似度の残差として報告される。IoUは、2つの格子セット間の重複を定量化する。メッシュは、IoUについて、分解能Q=1283の立方体を使用してレンダリングされた。
本方法を、3つのデータセット、すなわちABC、Thingi10k、およびShapeNet上で評価した。合計32個のメッシュを、各々、Thingi10kおよびABCからサンプリングし、150個のメッシュをShapeNetからサンプリングした。ShapeNetメッシュは水密にされ、作業はPyTorchで実施した。
デコーダアーキテクチャは、ReLUを有する次元128の1つの隠れ層を有する。各ボクセル特徴は、F=32次元特徴ベクトルとして表される。照会点および法線についての位置エンコードは、Lp=Ln=6つの周波数で表わされる。スパース3D畳み込みは、局所的特徴集約について、カーネルサイズKk、Vl、k=5で、考慮される。円筒半径Rは、経験的に以下のように設定された:
Adamオプティマイザを使用して、モデルを、0.001の学習率およびαn=0.1で、100エポックまでトレーニングした。5×106点の初期サンプルサイズが、512のバッチサイズで、考慮される。再サンプリングは、各すべてのエポック後に行われる。点は、表面およびその近傍付近から等比率でサンプリングされる。各ボクセルが表面サンプリングの前に少なくとも32個のサンプルを有することも保証される。LODs£’={3,...,7}をすべてのデータセットについて考慮した。
ベースラインについて、この手法を、供給された設定でトレーニングされた現状技術の手法のBACON、SIREN、およびフーリエ特徴関数(FF)と比較した。構造格子直接手法もまた、有向格子に対する公平な比較のために、本方法に対して評価され、それはパイプラインにおいて、より小さい変更を必要とした。表面再構築設定は、上述のように、すべての方法について同じであった。
実験のために、アブレーションを下記のように利用した。構造格子対有向格子も比較され、本方法を、異なるエンコーダ戦略を使用する方法に対して評価した。これらは以下で論ずる。
アブレーション
各構成要素の関連性を分析するために、異なるパイプラインブロックに対して変更を徐々に加えた。ABCおよびThingi10kデータセットからの10個のメッシュを、トレーニングおよび試験のためにランダムにサンプリングする。図8は、エンコーダになされた変更に基づいて、図7にリストされた異なるケースを示す。トリリニア補間を伴う有向格子の使用は、多くの穴をもたらすことが注目された。セルはアンカー法線ごとに回転させるので、回転不変円筒表現を補間に使用した。依然として、より粗いが、これは、より適応した表現(CDの有意な改善)をもたらす。
したがって、図7を参照して、アブレーション研究の結果が示されている。この表は、最終エンコーダに至る異なる段階を示す。トリリニア補間を用いた有向格子から開始して、提案される円筒補間、そして最後に、3DCNNを用いた局所的特徴集約である。CDに10-5を乗算し、NCに10-4を乗算する。
図8を参照すると、レンダリングにおけるアブレーションの影響が示されており、図7の数値結果を反映している。パネル(a)は、トリリニア補間を用いた有向エンコーダを表し、(b)は、円筒補間を加え、(c)および(d)は、特徴集約のために、3×3×3および5×5×5の3DCNNカーネルをそれぞれ使用し、(e)は、(d)に法線正則化を加える。(f)はグラウンドトゥルースを示す。
3DCNNの追加(図8(c)および(d))によるメッシュ平滑性の有意な改善(NCに反映される)が見られ、局所的特徴集約ステップに効果的に寄与する。実験は、5×5×5のカーネルが、より良好な性能を達成し、その後の実験に好ましいことを示す。提案される法線正則化は、平滑性を強化するが、精度を犠牲にする。
構造格子対有向格子
図9を参照して、構造格子対有向格子の比較が、SDFおよび占有率デコーダについての結果とともに示されている。CDに10-5を乗算し、NCに10-4を乗算する。表は、本明細書に開示される方法の性能をSDFおよび占有率デコーダ上で構造格子と比較する。SDFおよび占有率デコーダは、上述のようにトレーニングされる。法線正則化は、両方の場合について同じままである。本明細書に開示される方法は、すべてのフロント上でSDFデコーダでの構造格子よりも性能が優れており、構造化された表面上で、より滑らかな結果をもたらす。占有率フレームワークの性能不足にもかかわらず、メッシュ上に観察される穴およびくぼみは、より少ない(後者はIoUに有意な影響を有する)。これらの結果は、異なるデコーダ出力表現への本方法の適応性を示す。
大規模シーン表現への本方法の可能な拡張を開くために、本方法のレンダリングが、図10に示されるように、Matterport3Dからのシーン上に示される。このシーンは、4×4クロップ(地面を含む)に分割され、あるモデルが、各クロップについて占有率デコーダを用いてトレーニングされる。推論中、メッシュクロップは、図10に示されるように、マーチングキューブを使用してレンダリングされ、最終的に融合されてシーンを生成する。薄い表面のため、構造格子は、より粗くぼんやりした3D表現をもたらす。本明細書に開示される方法は、薄い表面にうまく適応し、シーンを、より少ない粗さおよびより鮮明な品質で、レンダリングする。
有向格子の結果として、提案されるエンコーダは、より少ないトレーニングステップで、より効果的に、平面をレンダリングすることが観察される。特に、より構造的な規則的なオブジェクトでは、構造格子は苛性様効果(表面ノイズ)を生じる。有向格子の表面再構築において、最初のエポックからすぐに、ノイズ低減が観察される。
ベースライン
図11の表は、他のタイプの表現、すなわち、SIRENおよびBACONのような格子ベースのネットワークならびにBACONのようなマルチスケール表現に対する本方法(特徴ベースの幾何学的マルチスケール表現)の実験結果を詳述する。それはまた、非水密オブジェクトを考慮するべく、本方法を、符号なし出力表現を使用するNDFと比較する。NDFは、メッシュを得るためにball pivotingアルゴリズムを使用するが、多くのハンドチューニングを必要とする。それは計算的に高価であり、非常に不連続なメッシュ表現および不良な結果をもたらした。代わりに、このステップは、上記と同じ設定を使用して、点群をボクセル化し、マーチングキューブを使用して表面を得ることによって、置き換えられる。
したがって、格子ベースの方法は、すべてのフロントにおいて有意な改善を伴ってベースラインよりも性能が優れていることが示される。ABCのような、平面オブジェクトから構成される単純なデータセットでは、エンコーダは、有向格子の整列により、より滑らかな平面を再構築する。ホリスティックな詳細をレンダリングするものの、大部分のベースラインは、しばしば、過度に平滑化された表面を有する。本方法については、メッシュ内のより少ない穴および無視できるほどのスプラッティング(サンプリング領域の周囲の多数の小さいメッシュトレース)の結果として、より高いIoUも観察される。全体として、有向格子は、すべてのデータセットにわたって、より高い忠実度で、ロバストな3D表現を生成する。
メッシュをレンダリングするために必要なパラメータの数も提供される。多分解能格子表現の利点は、デコーダのサイズを、1つの隠れ層を有するMLPだけに低減できることである。この結果、この手法は、他の方法よりも速くメッシュを得る。
Thingi10kおよびShapeNetデータセットからの例を分析した。BACONおよびFFは、オブジェクトを妥当な精度でモデル化することができるが、多くのスプラッタを記録し、望ましくないノイズのある表面およびアーチファクトを生じさせる。SIRENおよびBACONは、過度に平滑化された表面を生成し、メッシュ上で複雑な詳細を失う。NDFは、多くの穴を生じさせるが、スプラッタなしにコンパクトなメッシュをどうにかして得る。BACON、SIREN、およびFFは、ShapeNetデータセット上で崩壊する。ShapeNetの水密版および非水密版の両方を試みたが、失敗したベースラインについて同様の結果が得られた。
小さな穴は、有向格子および構造格子の両方に影響を及ぼす非水密平面から生じ得る。しかしながら、有向格子は、構造格子の対応物よりも適切に穴を充填する。より一般的な多分解能格子表現の問題は、薄い表面をモデル化する困難さである。この制限にもかかわらず、本方法は、構造格子から実質的に改善する。
したがって、実施例および実験は、3D表現のための3D格子ベースのエンコーダのためのこの新規な手法が、現状技術の結果を、デコーダ表現変化に対してよりロバストかつ正確でありながら、もたらすことを実証する。エンコーダは、格子をオブジェクト表面法線と整列させ、整列によって引き起こされた問題を軽減する新たに開発された円筒補間技法および局所的集約方式からセル特徴を集約することによって、オブジェクトにおける本来の構造的規則性を考慮する。
加えて、実施例および実験は、本明細書に開示されるかまたは別様に想定されるシステムおよび方法が、改善されたコンピュータシステムをもたらすことを実証する。3Dオブジェクト表現生成システムは、先行技術のシステムよりも速く、より良好な3Dオブジェクト表現を生成することができる。したがって、トレーニングされたニューラルネットワークを含む本明細書に記載の3Dオブジェクト表現生成システムは、先行技術の3Dオブジェクト表現生成システムに対する改良である。
ある実施形態によると、本明細書で開示されるかまたは別様に想定されるシステムおよび方法は、ニューラルネットワークのトレーニング中、およびトレーニングされたニューラルネットワークを使用する実行中に、何千または何百万ものデータ点を処理するよう構成される。例えば、トレーニングデータのコーパスから、機能的かつ熟練した、トレーニングされたニューラルネットワークを生成することは、入力データおよび生成された特徴からの何百万個ものデータ点の処理を要求する。これは、新規のトレーニングされたニューラルネットワークを生成するために、何百万個または何十億個もの計算を必要とし得る。その結果、各トレーニングされたニューラルネットワークは、入力データおよびアルゴリズムのパラメータに基づいて新規かつ相異なり、したがって、本システムの機能を改善する。機能的で熟練した、トレーニングされたニューラルネットワークを生成することは、人間の脳が生涯において達成不可能な量の計算および分析を有するプロセスを含む。
本明細書で定義および使用されるすべての定義は、辞書の定義、参照により組み込まれる文書における定義、および/または定義された用語の通常の意味を支配すると理解されるべきである。
本明細書および特許請求の範囲において使用される不定冠詞「a」および「an」は、明確に反対の指示がない限り、「少なくとも1つ」を意味すると理解されるべきである。
本明細書および特許請求の範囲で使用される「および/または」という文言は、そのように結合された要素、すなわち、ある場合では接続的に存在し、他の場合では離接的に存在する要素、の「いずれかまたは両方」を意味すると理解されるべきである。「および/または」で列挙された複数の要素は、同じ態様で解釈されるべきであり、すなわち、そのように結合された要素の「1つまたは複数」である。「および/または」節によって具体的に識別される要素以外の他の要素が、具体的に識別されるそれらの要素に関連するかまたは関連しないかにかかわらず、選択肢として存在してもよい。
本明細書および特許請求の範囲で使用されるように、「または」は、上記で定義された「および/または」と同じ意味を有すると理解されるべきである。例えば、リスト中の項目を分離する場合、「または」または「および/または」は、包括的である、すなわち、いくつかの要素または要素のリストのうちの少なくとも1つであるが、1つより多く、および選択肢として、追加のリストされていない項目も含む包含であるとして解釈されるべきである。「~のうちの1つのみ」もしくは「~のうちの厳密に1つ」、または特許請求の範囲で使用される場合、「~からなる」などの、反対に明確に示される文言のみが、いくつかの要素または要素のリストのうちの厳密に1つの要素の包含を指すことになる。一般に、本明細書で使用する「または」という文言は、「いずれか」、「~の1つ」、「~の1つのみ」、または「~の厳密に1つ」といった、排他性の文言が先行するときに排他的な代替物(すなわち、「一方または他方であるが、両方ではない」)を示すものとしてのみ解釈されるべきである。
本明細書および特許請求の範囲において使用される場合、「少なくとも1つ」という文言は、1つまたは複数の要素のリストに関して、要素のリスト中の要素のうちの任意の1つまたは複数から選択される少なくとも1つの要素を意味すると理解されるべきであるが、必ずしも、要素のリスト内に具体的に列挙された各すべての要素の少なくとも1つを含むとは限らず、要素のリスト内の要素の任意の組合せを除外しない。この定義はまた、「少なくとも1つ」という文言が指す、要素のリスト内で具体的に識別される要素以外の要素が、具体的に識別される要素に関係するかまたは関係しないかにかかわらず、選択肢として存在し得ることを可能にする。
反対のことが明確に示されない限り、複数のステップまたは行為を含む、ここで特許請求される任意の方法において、本方法のステップまたは行為の順序は、本方法のステップまたは行為が記載される順序に必ずしも限定されないことも理解されたい。
特許請求の範囲ならびに上記明細書において、「備える」、「含む」、「持つ」、「有する」、「含有する」、「関与する」、「保持する」、「~から構成される」といったすべての移行句は、オープンエンドである、すなわち、含むが限定されないことを意味すると理解されるべきである。移行句「~からなる」および「本質的に~からなる」のみが、それぞれ、閉じた移行句または半ば閉じた移行句であるものとする。
いくつかの発明の実施形態が本明細書に記載および示されたが、当業者は、本明細書に記載される機能を実行する、ならびに/もしくは結果および/もしくは利点の1つ以上を得るための種々の他の手段ならびに/または構造を容易に想定し、そのような変形例および/または修正例の各々は、本明細書に記載される発明の実施形態の範囲内であると見なされる。より一般的には、当業者は、本明細書に記載されるすべてのパラメータ、寸法、材料、および構成は例示的であることを意味し、実際のパラメータ、寸法、材料、および/または構成は、本発明の教示が使用される特定の用途に依存することになることを容易に理解するであろう。当業者は、本明細書に記載される特定の発明の実施形態に対する多くの均等物を認識するか、または日常的な実験のみを用いて確認することができるであろう。したがって、前述の実施形態は、例としてのみ提示されており、特許請求の範囲およびその均等物の範囲内で、発明の実施形態は、具体的に記載および特許請求されるものとは別の態様で実施され得ることを理解されたい。本開示の発明の実施形態は、本明細書に記載される各個々の特徴、システム、物品、材料、キット、および/または方法を対象とする。加えて、2つ以上のそのような特徴、システム、物品、材料、キット、および/または方法の任意の組み合わせは、そのような特徴、システム、物品、材料、キット、および/または方法が相互に矛盾しない場合、本開示の発明の範囲内に含まれる。
Claims (20)
- ニューラルネットワークをトレーニングすることによって3次元(3D)オブジェクトを含む3Dシーンの陰関数表現を生成するための人工知能(AI)システムであって、前記ニューラルネットワークは、前記オブジェクトの形状の3D点群を示すデータを、前記オブジェクトの複数の分解能を捕捉する格子ベースの特徴にエンコードするよう構成されるエンコーダと、前記格子ベースの特徴を、前記3Dシーンにおける任意の点から前記オブジェクトまでの距離にデコードするよう構成されるデコーダとを含み、前記AIシステムは、
少なくとも1つのプロセッサと、命令を格納したメモリとを備え、前記命令は、前記AIシステムの前記少なくとも1つのプロセッサに、
3Dオブジェクトを含む3Dシーンの有向点群を示す入力データを受信させ、前記入力データは、前記3D点群の点の3D位置と、前記点の前記3D位置に近接する位置における前記3Dオブジェクトの表面に対する法線を定義する前記点の向きとを示し、前記命令は、さらに、前記AIシステムの前記少なくとも1つのプロセッサに、
前記3Dオブジェクトの陰関数表現を生成するために、前記点の前記位置および前記点の前記向きの両方を使用して前記エンコーダおよび前記デコーダをトレーニングさせ、
前記エンコーダおよび前記デコーダを含む前記3Dオブジェクトの前記陰関数表現を、有線または無線通信チャネルを介して送信させる、AIシステム。 - 前記エンコーダは、前記3D点群の前記点の位置および前記点の前記向きのうちの1つまたは組合せを、前記オブジェクトの複数の分解能を捕捉する前記格子ベースの特徴に変換するようトレーニングされ、前記デコーダは、前記デコーダによって生成される前記3Dシーン内の点から前記オブジェクトまでの距離とグラウンドトゥルース距離との間の誤差の損失関数を低減するよう、前記格子ベースの特徴の補間上でトレーニングされる、請求項1に記載のAIシステム。
- 前記エンコーダは、前記3D点群の前記点の位置を前記格子ベースの特徴に変換するようトレーニングされ、前記デコーダは、ネスト化された形状のセット内での前記補間上においてトレーニングされ、前記ネスト化された形状のセットは、前記格子ベースの特徴を囲み、対応するネスト化された形状の付近の前記点の前記向きに基づいて方向付けされる、請求項2に記載のAIシステム。
- 前記エンコーダは、前記点の前記位置を、前記オブジェクトの複数の分解能を捕捉する前記格子ベースの特徴としてエンコードするようトレーニングされ、前記デコーダは、ネスト化された形状のセット内で補間によって表される方向付けされた特徴に基づいてトレーニングされ、前記ネスト化された形状のセットは、前記格子ベースの特徴を囲み、対応するネスト化された形状の付近の前記点の前記向きに基づいて方向付けされる、請求項1に記載のAIシステム。
- 前記エンコーダおよび前記デコーダをトレーニングするために、前記プロセッサは、
前記エンコーダを使用して、前記入力データを、前記3Dオブジェクトの形状の複数の分解能を捕捉する特徴の八分木表現にエンコードするよう構成され、
前記八分木表現の各特徴を、軸周りに回転対称性を有する方向付けされた形状で囲むよう構成され、特徴を囲む方向付けされた形状の次元は、前記八分木表現上の囲まれた前記特徴のレベルによって支配され、前記方向付けされた形状の軸の向きは、囲まれた前記特徴の座標の近傍の点のサブセットの表面に対する法線によって支配され、前記プロセッサはさらに、
ボリュメトリック補間を用いて各方向付けされた形状内の特徴を補間して、前記八分木表現の前記特徴を更新するよう構成され、
前記デコーダを使用して、前記特徴の更新された前記八分木表現をデコードして、前記距離関数を生成するよう構成され、
前記ニューラルネットワークのパラメータを更新して、前記デコーダによって生成される前記3Dシーン内の点から前記オブジェクトまでの距離とグラウンドトゥルース距離との間の誤差の損失関数を最小にするよう構成される、請求項1に記載のAIシステム。 - 回転対称性を有する前記方向付けされた形状は、円筒および球体のうちの1つ以上を含む、請求項5に記載のAIシステム。
- 回転対称性を有する前記方向付けされた形状の各々は円筒であり、前記円筒は、1つまたは複数の格子ベースの特徴を囲み、前記円筒の各々の軸が、前記円筒の次元および囲まれた前記特徴の位置によって支配される表面の領域に対する法線に整列するように方向付けされた円筒である、請求項5に記載のAIシステム。
- 回転対称性を有する前記方向付けされた形状の各々は、1つまたは複数の格子ベースの特徴を囲む円筒であり、前記プロセッサは、前記円筒の次元および囲まれた前記特徴の位置によって支配される表面の領域に対する法線に前記円筒の軸を整列させるように前記円筒を方向付けるよう構成される、請求項7に記載のAIシステム。
- 前記補間はボリュメトリック補間であり、前記プロセッサは、前記円筒形表現の末端に対する点の近接性を測定する円筒補間係数を求めるよう構成される、請求項7に記載のAIシステム。
- 前記円筒補間係数は、(i)前記円筒の頂面に対する前記点の距離と、前記円筒と前記円筒の対称軸に対する前記点の距離との体積における差とから計算される第1の係数と、(ii)前記円筒の底面に対する前記点の距離と、前記円筒と前記円筒の前記対称軸に対する前記点の距離との体積における差とから計算される第2の係数と、(iii)前記円筒の残りから計算される第3の係数とを含む、請求項9に記載のAIシステム。
- 前記ニューラルネットワークの前記エンコーダのトレーニング中に、前記プロセッサは、入力点群の複数のサンプリングされた点ついて、前記円筒補間係数を求めるよう構成される、請求項10に記載のシステム。
- 前記プロセッサは、前記3Dオブジェクトの前記陰関数表現を使用して、表示装置上に前記3Dオブジェクトの画像をレンダリングするよう構成される、請求項1に記載のAIシステム。
- 請求項1に記載の前記AIシステムに、前記有線または無線通信チャネルを介して、動作するよう接続される画像処理システムであって、前記画像処理システムは、前記3Dオブジェクトの前記陰関数表現を使用して、表示装置上に前記3Dオブジェクトの画像をレンダリングするよう構成される、画像処理システム。
- 前記3Dオブジェクトの前記画像は、変動する視野角に対してレンダリングされる、請求項13に記載の画像処理システム。
- 前記3Dオブジェクトの前記画像は、仮想現実またはゲームアプリケーション内で、変動する視野角に対してレンダリングされる、請求項14に記載の画像処理システム。
- 請求項1に記載の前記AIシステムに、前記有線または無線通信チャネルを介して、動作するよう接続されるロボットシステムであって、前記ロボットシステムは、前記3Dオブジェクトの前記陰関数表現を使用してタスクを実行するよう構成される、ロボットシステム。
- 請求項1に記載の前記AIシステムに、前記有線または無線通信チャネルを介して、動作するよう接続される表示装置であって、前記プロセッサは、前記3Dオブジェクトの前記陰関数表現を使用して、前記3Dオブジェクトの画像をレンダリングするよう構成され、前記表示装置は、前記3Dオブジェクトのレンダリングされた前記画像を表示するよう構成される、表示装置。
- 3次元(3D)オブジェクトの画像を、前記3Dオブジェクトの陰関数表現を使用してディスプレイ上にレンダリングするよう構成される画像処理システムであって、
トレーニングされたニューラルネットワークを備え、前記トレーニングされたニューラルネットワークは、前記3Dオブジェクトの形状の3D点群を示すデータを、前記オブジェクトの複数の分解能を捕捉する格子ベースの特徴にエンコードするよう構成されるエンコーダと、前記格子ベースの特徴を、前記3Dオブジェクトを含む3Dシーン内の任意の点から前記オブジェクトまでの距離にデコードするよう構成されるデコーダとを含み、前記画像処理システムはさらに、
少なくとも1つのプロセッサと、命令を格納したメモリとを備え、前記命令は、前記少なくとも1つのプロセッサに、
3Dオブジェクトを含む3Dシーンの有向点群を示す入力データを受信させ、前記入力データは、前記3D点群の点の3D位置と、前記点の前記3D位置に近接する位置における前記3Dオブジェクトの表面に対する法線を定義する前記点の向きとを示し、前記命令は、さらに、前記少なくとも1つのプロセッサに、
前記エンコーダで、前記点の前記位置および前記点の前記向きの両方を使用して、前記3Dオブジェクトの陰関数表現を生成させ、
前記エンコーダで、前記3Dオブジェクトの前記陰関数表現を使用して、前記3Dオブジェクトの画像をレンダリングさせ、
レンダリングされた前記画像をディスプレイに表示させる、画像処理システム。 - 前記エンコーダは、前記3D点群の前記点の位置を前記格子ベースの特徴に変換するようトレーニングされ、前記デコーダは、ネスト化された形状のセット内での前記補間上においてトレーニングされ、前記ネスト化された形状のセットは、前記格子ベースの特徴を囲み、対応するネスト化された形状の付近の前記点の前記向きに基づいて方向付けされる、請求項18に記載の画像処理システム。
- 前記3Dオブジェクトの前記画像は、変動する視野角に対してレンダリングされる、請求項18に記載の画像処理システム。
Applications Claiming Priority (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| US18/491,934 US20250131651A1 (en) | 2023-10-23 | 2023-10-23 | Oriented-grid encoder for 3d implicit representation |
| US18/491,934 | 2023-10-23 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JP2025071766A true JP2025071766A (ja) | 2025-05-08 |
Family
ID=95401659
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2024105877A Pending JP2025071766A (ja) | 2023-10-23 | 2024-07-01 | 3d陰関数表現のための有向格子エンコーダ |
Country Status (2)
| Country | Link |
|---|---|
| US (1) | US20250131651A1 (ja) |
| JP (1) | JP2025071766A (ja) |
Families Citing this family (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN117409161A (zh) * | 2022-07-06 | 2024-01-16 | 戴尔产品有限公司 | 点云处理方法和电子设备 |
Family Cites Families (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US12217169B2 (en) * | 2021-03-11 | 2025-02-04 | Adobe Inc. | Local neural implicit functions with modulated periodic activations |
| US11810250B2 (en) * | 2021-06-30 | 2023-11-07 | Tencent America LLC | Systems and methods of hierarchical implicit representation in octree for 3D modeling |
| US12205292B2 (en) * | 2021-07-16 | 2025-01-21 | Huawei Technologies Co., Ltd. | Methods and systems for semantic segmentation of a point cloud |
| US12056821B2 (en) * | 2022-07-19 | 2024-08-06 | Huawei Technologies Co., Ltd. | Apparatus, method, and computer-readable medium for implicit representation of texture on 3D images |
| US20240331282A1 (en) * | 2023-03-31 | 2024-10-03 | Autodesk, Inc. | Machine learning techniques for sketch-to-3d shape generation |
-
2023
- 2023-10-23 US US18/491,934 patent/US20250131651A1/en active Pending
-
2024
- 2024-07-01 JP JP2024105877A patent/JP2025071766A/ja active Pending
Also Published As
| Publication number | Publication date |
|---|---|
| US20250131651A1 (en) | 2025-04-24 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| Han et al. | Image-based 3D object reconstruction: State-of-the-art and trends in the deep learning era | |
| US11514642B2 (en) | Method and apparatus for generating two-dimensional image data describing a three-dimensional image | |
| Hu et al. | Self-supervised 3d mesh reconstruction from single images | |
| CN117015806A (zh) | 高分辨率神经渲染 | |
| Rabby et al. | Beyondpixels: A comprehensive review of the evolution of neural radiance fields | |
| WO2022198684A1 (en) | Methods and systems for training quantized neural radiance field | |
| CN117036612A (zh) | 一种基于神经辐射场的三维重建方法 | |
| WO2023147163A1 (en) | Explicit radiance field reconstruction from scratch | |
| CN118279488B (zh) | 一种xr虚拟定位方法、介质及系统 | |
| CN118429526A (zh) | 一种基于神经辐射场NeRF的三维复杂场景精细化重建方法及装置 | |
| Singh et al. | Deep learning-based semantic segmentation of three-dimensional point cloud: a comprehensive review | |
| JP2025071766A (ja) | 3d陰関数表現のための有向格子エンコーダ | |
| CN114118181A (zh) | 一种高维回归点云配准方法、系统、计算机设备及应用 | |
| KR20210026542A (ko) | 기하학적 이미지를 이용한 인공신경망 기반 단백질 결합 화합물의 생물학적 활성 예측 시스템 | |
| CN113454678B (zh) | 三维面部扫描增强 | |
| CN113763539B (zh) | 一种基于图像和三维输入的隐式函数三维重建方法 | |
| CN116883524A (zh) | 图像生成模型训练、图像生成方法、装置和计算机设备 | |
| CN117934727B (zh) | 镜面物体的三维重建方法、装置、设备和存储介质 | |
| CN118781276A (zh) | 基于混合编码的相机追踪建图方法、装置及存储介质 | |
| US12327308B2 (en) | Learning neural light fields with ray-space embedding networks | |
| CN116704136A (zh) | 三维室内场景的重建方法、装置、计算机设备及存储介质 | |
| CN116758212A (zh) | 基于自适应去噪算法的3d重建方法、装置、设备及介质 | |
| Xu et al. | Dynamic voxel grid optimization for high-fidelity rgb-d supervised surface reconstruction | |
| Ajayi et al. | Three-dimensional shape generation via variational autoencoder generative adversarial network with signed distance function | |
| CN118521699B (zh) | 一种虚拟人三维头发丝发型的生成方法及系统 |


