JP2022540634A

JP2022540634A - 深層学習に基づく３ｄ点群の物体検出およびインスタンスセグメント化

Info

Publication number: JP2022540634A
Application number: JP2022501299A
Authority: JP
Inventors: ファルハード・ガズヴィニアン・ザンジャニ; テオ・ケリーチ; フランク・テオドルス・カタリーナ・クラーセン
Original assignee: プロマトン・ホールディング・ベー・フェー
Priority date: 2019-07-15
Filing date: 2020-07-15
Publication date: 2022-09-16
Anticipated expiration: 2040-07-15
Also published as: EP3999999A1; BR112022000616A2; IL289728A; KR20220034210A; CN114401666A; CA3146240A1; US20230186476A1; JP7605817B2; WO2021009258A1; EP3767521A1; CN114401666B

Abstract

点群、好ましくは、口腔内走査(IOS)点群などの3D光学スキャナによって生成された点群、の物体検出の方法であって、第1のタイプのディープニューラルネットワークによって、点群の点に関連する第1の特徴を決定するステップであって、点群が、点群の少なくとも3D空間内の1つまたは複数の物体を表す点を含み、第1の特徴が、点群の各点に関する幾何学的情報を定義し、第1のタイプのディープニューラルネットワークが、点群の点を入力として受信するように構成される、決定するステップと、第2のタイプのディープニューラルネットワークによって、第1の特徴に基づいて、第2の点群特徴を決定するステップであって、第2の特徴が、均一3Dグリッドのノードの位置における点群に関する局所的な幾何学的情報を定義し、ノードが、点群の3D空間内に均一に分布される、決定するステップと、第2の特徴に基づいて、1つまたは複数の物体プロポーザルを生成するステップであって、物体プロポーザルが、3Dグリッドのノードを中心に位置する3Dバウンディングボックスを定義し、3Dバウンディングボックスが、物体を定義し得る点群の点を含み、3Dバウンディングボックスが3Dアンカーを定義する、生成するステップと、第3のタイプのディープニューラルネットワークによって、前記3Dアンカーに対するスコアを決定するステップであって、スコアが、3Dアンカーが物体または物体の部分を定義する点を含む確率を示し、決定するステップが、3Dアンカー内に位置特定された第2の特徴に基づく、決定するステップとを含む方法を提供する。

Description

本発明は、深層学習に基づく3D点群の物体検出およびインスタンスセグメント化(segmentation)、詳細には、排他的ではないが、深層学習を使用した3D点群内の物体検出のための方法およびシステム、深層学習を使用した3D点群のインスタンスセグメント化のための方法およびシステム、3D点群内の物体検出のためのディープニューラルネットワークシステム、3D点群のインスタンスセグメント化のためのディープニューラルネットワークシステム、およびそのような方法を実行するためのコンピュータプログラム製品に関する。

画像処理においてインスタンスセグメント化は、物体検出のプロセスを指し、画像内の特定の物体は、(一般に、検出された物体の各々を含むバウンディングボックスを決定し、各識別された物体に対する画素マスク(pixel mask)を作成することによって)検出される。インスタンスセグメント化は、出力が単なるバウンディングボックスの代わりに画素マスクである物体検出であると考えることができる。したがって、画像内の各画素をカテゴリ化することを目的とするセマンティックセグメント化とは異なり、インスタンスセグメント化は、決定されたバウンディングボックス内の画素をラベル付けすることを目的とする。最近、いわゆるマスクR-CNN深層学習方式に基づく2Dカメラ画像用の高速かつ信頼性の高いインスタンスセグメント化は、現実世界の問題を解く際の適用を増大させようとしている。しかしながら、自律運転、ロボットおよび一定の医療的適用など、多くの適用において、分析が必要なセンサー情報は、2Dシーンではなく、3Dシーンを表す。これらの3D適用は、一般に、不均一な3Dボリュームデータ(volumetric data)を点群の形で生成する、光学スキャナ、たとえば、測量適用において使用されるLiDARなどのレーザースキャナおよび歯科学において使用される口腔内スキャナを利用する。これらのデータは、画素、または、非光学3Dスキャナ、たとえば、CTスキャナの場合、ボクセルなど、データの均等グリッド(homogenous grid)の形で構成されない。

光学スキャナに基づくデータ収集方式は、一般に、3Dボリュームデータを点群データセット、または短く点群の形で生成する。点群のデータポイントは、物体の表面を表し得る。一般に、点群は、3D空間内に不均一に分布された多数の点を含む。3D空間は、高密度に分布されたデータポイントのエリア、低密度に分布されたデータポイントのエリア、およびデータポイントをまったく有さないエリア、たとえば、物体「内部の」空所を含み得る。点群という用語は、各点が3D空間内にベクトルとして表され得る任意のタイプの3Dデータセットを指すことがある。これらの点は、さらなる属性、たとえば、色などに関連付けられ得る。特殊なタイプの点群は、三角形メッシュまたは多角形メッシュなど、3D表面定義を含む。

点群に基づく3D分析は急成長している技術分野であるが、3D物体検出およびインスタンスセグメント化の方式は、その2D相対物と比較したとき、依然として未熟な段階である。現在、3Dインスタンスセグメント化に対処することが知られているソースはわずかである。Qiらは、彼らの論文「Frustum pointnets for 3D object detection from RGB-D data」IEEE Conference on Computer Vision and Pattern Recognition.918～927頁(2018年)において、第1の段階で、2D画像内の物体の2Dバウンディングボックスが検出され、第2の段階で、3D探索空間内で3D点群が処理される、部分的に2Dバウンディングボックスによってバインドされている、2つの段階を必要とするハイグリッドフレームワークについて記述している。同様に、Houらは、彼らの論文「3D-SIS: 3D semantic instance segmentation of RGB-D scans」、arXiv preprint arXiv:1812.07003(2018年)において、第1の2D画像が2D畳み込みネットワークによって処理されるモデルについて記述している。その後、学習された特徴は、ボクセル化された点群データ上に逆投影され、ここで、物体プロポーザル(object proposals)およびボクセル単位のマスク予測を取得するために、抽出された2D特徴および幾何学的情報が組み合わされる。上述のモデルの2D画像およびボクセル化に対する依存性は、そのような手法の性能を制限する。

別の手法では、Yiらは、彼らの論文「Generative shape proposal network for 3D instance segmentation in point cloud」、arXiv preprint arXiv:1812.03320(2018年)において、点群内の物体バウンディングボックスを直接的に決定する代わりに、条件付き変分オートエンコーダ(CVAE:conditional variational auto-encoder)が使用される、合成による分析戦略について説明している。しかしながら、GSPNトレーニングは、CVAE部分および領域ベースのネットワーク(提案に対して分類、回帰、およびマスク生成を実行する)のかなり複雑な別個の2段階トレーニングを必要とする。

さらに別の手法では、物体プロポーザルは、クラスタリング方式に基づいて決定される。Wangらは、彼らの論文「Similarity group proposal network for 3d point cloud instance segmentation」、IEEE Conference on Computer Vision and Pattern Recognition. 2569～2578頁(2018年)において、点の所与の対が同じ物体インスタンスに属するか否かを示すための、埋め込まれた特徴空間内の点の各対の特徴間の類似性行列の使用について記述している。しかしながら、そのようなペアワイズ距離の計算は、大きな点群には非実用的である。同様に、Liuらは、彼らの論文「Masc:Multi-scale affinity with sparse convolution for 3D instance segmentation」、arXiv preprint arXiv:1902.04478(2019年)において、3D Uネットモデルと、トレーニングされたUネットのいくつかの隠れ層内のそれらの抽出された特徴を比較することによって点の各対間の類似性を見出すためのクラスタリング方式とによってボリュームデータを処理するための点群のボクセル化について記述している。大量の微細な(fine-detailed)点群に対するボクセル化および類似性計算は、そのような手法の性能を大幅に制限する。

「Frustum pointnets for 3D object detection from RGB-D data」IEEE Conference on Computer Vision and Pattern Recognition.918～927頁(2018年) 「3D-SIS: 3D semantic instance segmentation of RGB-D scans」、arXiv preprint arXiv:1812.07003(2018年) 「Generative shape proposal network for 3D instance segmentation in point cloud」、arXiv preprint arXiv:1812.03320(2018年) 「Similarity group proposal network for 3d point cloud instance segmentation」、IEEE Conference on Computer Vision and Pattern Recognition. 2569～2578頁(2018年) 「Masc:Multi-scale affinity with sparse convolution for 3D instance segmentation」、arXiv preprint arXiv:1902.04478(2019年) Liらによる論文「PointCNN: convolution on χ-transformed points」、2018年11月5日のarXiv:1801.07791v5 PointNet(Qi,C.R.ら:Pointnet:Deep learning on point sets for 3d classication and segmentation.Proc.Computer Vision and Pattern Recognition (CVPR)、IEEE1(2)、4(2017年)) Qi,Charles Ruizhongtaiら;PointNet++:Deep hierarchical feature learning on point sets in a metric space; Advances in Neural Information Processing Systems.2017年 PointGrid(Le,T.ら:Pointgrid: A deep network for 3d shape understanding. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.9204～9214頁(2018年)) MCCNet(Hermosilla,P.ら:Monte carlo convolution for learning on non-uniformly sampled point clouds. In: SIGGRAPH Asia 2018 Technical Papers.235頁 ACM(2018年)) PointCNN(Li,Y.ら:Pointcnn. arXiv preprint arXiv:1801.07791(2018年)) SpiderCNN(Xu,Yら、SpiderCNN:Deep learning on point sets with parameterized convolutional filters、ECCV 2018年) Hermosillaらによる論文、「Monte Carlo convolution for learning on non-uniformly sampled point clouds」、ACM Transactions on Graphics、第37巻、No.6、論文235、2018年11月 Shaoqing He,Kらによる論文、「Mask r-cnn」、IEEE international conference on computer visionの議事録、2961～2969頁(2017年)

したがって、上記から、3D点群の改善されたインスタンスセグメント化の必要性が当技術分野に存在することになる。具体的には、3D点群の正確、高速、かつ計算効率の良いインスタンスセグメント化を可能にする方法およびシステムの必要性が存在する。

当業者が諒解するように、本発明の態様は、システム、方法、またはコンピュータプログラム製品として具現化され得る。したがって、本発明の態様は、完全なハードウェア実施形態、完全なソフトウェア実施形態(ファームウェア、常駐ソフトウェア、マイクロコード、などを含めて)、またはすべて、概して、本明細書で、「回路」、「モジュール」、または「システム」と呼ばれることがある、ソフトウェア態様とハードウェア態様を組み合わせた実施形態の形をとってよい。本開示で説明する機能は、コンピュータのマイクロプロセッサによって実行されるアルゴリズムとして実装され得る。さらに、本発明の態様は、コンピュータ可読プログラムコードをその上で具現化した、たとえば、その上に記憶した、1つまたは複数のコンピュータ可読媒体で具現化されるコンピュータプログラム製品の形をとってよい。

1つまたは複数のコンピュータ可読媒体の任意の組合せが利用され得る。コンピュータ可読媒体は、コンピュータ可読信号媒体またはコンピュータ可読記憶媒体であってよい。コンピュータ可読記憶媒体は、たとえば、限定はしないが、電子、磁気、光、電磁、赤外線、または半導体のシステム、装置、もしくはデバイス、または前述の何らかの好適な組合せであってよい。コンピュータ可読記憶媒体のより具体的な例(非網羅的なリスト)は、以下を含むことになる:すなわち、1つまたは複数のワイヤを有する電気接続、ポータブルコンピュータディスケット、ハードディスク、ランダムアクセスメモリ(RAM)、読取り専用メモリ(ROM)、消去可能プログラマブル読取り専用メモリ(EPROMまたはフラッシュメモリ)、光ファイバ、ポータブルコンパクトディスク読取り専用メモリ(CD-ROM)、光記憶デバイス、磁気記憶デバイス、または前述の任意の好適な組合せ。本書の文脈で、コンピュータ可読記憶媒体は、命令実行システム、装置、またはデバイスによってまたはそれらと組み合わせて使用するためのプログラムを含み得るか、または記憶し得る任意の有形媒体であってよい。

コンピュータ可読信号媒体は、たとえば、ベースバンド内で、または搬送波の部分として、その中で具現化されるコンピュータ可読プログラムコードを備えた伝搬データ信号を含み得る。そのような伝搬信号は、限定はしないが、電磁、光、またはそれらの任意の好適な組合せを含む、様々な形態のうちのいずれの形をとってもよい。コンピュータ可読信号媒体は、コンピュータ可読記憶媒体ではなく、命令実行システム、装置、またはデバイスによってまたはそれらと組み合わせて使用するためのプログラムを通信、伝搬、または転送し得る、任意のコンピュータ可読媒体であってよい。

コンピュータ可読媒体上で具現化されるプログラムコードは、限定はしないが、ワイヤレス、ワイヤライン、光ファイバ、ケーブル、RF、など、または前述の任意の好適な組合せを含めて、任意の適切な媒体を使用して送信され得る。本発明の態様のための動作を実行するためのコンピュータプログラムコードは、Java(TM)、Scala、C++、Pythonなど、関数型プログラミング言語またはオブジェクト指向プログラミング言語を含めて、1つまたは複数のプログラミング言語、および「C」プログラミング言語または類似のプログラミング言語など、従来の手続き型プログラミング言語の任意の組合せで書き込まれてよい。プログラムコードは、ユーザのコンピュータ上で完全に、スタンドアロンソフトウェアパッケージとして、ユーザのコンピュータ上で部分的に、ユーザのコンピュータ上で部分的にかつリモートコンピュータ上で部分的に、もしくはリモートコンピュータ、サーバ、または仮想化サーバ上で完全に、実行し得る。後者のシナリオでは、リモートコンピュータは、ローカルエリアネットワーク(LAN)または広域ネットワーク(WAN)を含めて、任意のタイプのネットワークを通してユーザのコンピュータに接続され得るか、または接続は(たとえば、インターネットサービスプロバイダを使用してインターネットを通して)外部コンピュータに対して行われ得る。

本発明の態様は、本発明の実施形態による方法、装置(システム)、およびコンピュータプログラム製品のフローチャート図および/またはブロック図を参照しながら以下で説明される。フローチャート図および/またはブロック図の各ブロック、およびフローチャート図および/またはブロック図のブロックの組合せは、コンピュータプログラム命令によって実装され得ることを理解されよう。これらのコンピュータプログラム命令は、コンピュータ、他のプログラマブルデータ処理装置、または他のデバイスのプロセッサを介して実行する命令が、フローチャートおよび/またはブロック図の1つまたは複数のブロック内で指定された機能/働きを実装するための手段を生み出すように機械を生成するために、汎用コンピュータ、専用コンピュータ、または他のプログラマブルデータ処理装置のプロセッサ、具体的には、マイクロプロセッサもしくは中心処理装置(CPU)、またはグラフィックス処理ユニット(GPU)に提供され得る。たとえば、限定なしに、使用され得るハードウェア論理構成要素の例示的なタイプは、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、特定用途向け標準製品(ASSP)、システムオンチップシステム(SOC)、複合プログラマブル論理デバイス(CPLD)、などを含む。

これらのコンピュータプログラム命令は、コンピュータ可読媒体製品内に記憶された命令が、フローチャートおよび/またはブロック図の1つまたは複数のブロック内で指定された機能/働きを実装する命令を含む製造品を生成するように、コンピュータ、他のプログラマブルデータ処理装置、または他のデバイスに特定の様式で機能するように指示し得るコンピュータ可読媒体内に記憶されてもよい。コンピュータプログラム命令は、コンピュータまたは他のプログラマブル装置上で実行する命令が、フローチャートおよび/またはブロック図の1つまたは複数のブロック内で指定された機能/働きを実装するためのプロセスを提供するようにコンピュータ実装プロセスを生成するための一連の動作ステップをコンピュータ、他のプログラマブル装置、または他のデバイス上で実行させるために、コンピュータ、他のプログラマブルデータ処理装置、または他のデバイス上にロードされてもよい。

図の中のフローチャートおよびブロック図は、本発明の様々な実施形態に従って、システム、方法、およびコンピュータプログラム製品の考えられる実装形態のアーキテクチャ、機能性、および動作を示す。この点について、フローチャートまたはブロック図の各ブロックは、指定された論理機能を実装するための1つまたは複数の実行可能命令を備えた、モジュール、セグメント、またはコードの部分を表し得る。いくつかの代替実装形態では、ブロック内で言及する機能は、図において言及する順序から外れて生じ得ることにやはり留意されたい。たとえば、連続して示す2つのブロックは、実際に、関連する機能性に応じて、実質的に同時に実行されてよく、またはこれらのブロックは、時には、逆の順序で実行されてもよい。ブロック図および/またはフローチャート図の各ブロック、およびブロック図および/またはフローチャート図のブロックの組合せは、指定された機能または働きを実行する専用ハードウェアベースシステム、または専用ハードウェアとコンピュータ命令の組合せによって実装され得ることにやはり留意されよう。

本出願では、3D点群に対する物体検出およびインスタンスセグメント化方式のための方法およびシステムについて説明する。点群は、点群内の点の幾何学的位置(点のデカルト座標など)を少なくとも定義するデータセットを表す。加えて、いくつかの実施形態では、点は、他の属性、たとえば、色および法線ベクトルにも同様に関連付けられ得る。したがって、点群の点は、3D空間内の少なくとも位置を含めて、情報のベクトルを定義し得る。点群は、3D光学スキャナを使用して所定の物体を走査することによって生成され得る。そのような物体は、たとえば、歯-顎顔面構造であってよく、歯-顎顔面構造は、歯を含む歯列を含み得る。

一態様では、本発明は、点群、好ましくは、口腔内走査(IOS)点群などの3D光学スキャナによって生成された点群の中の物体検出の方法に関し、この方法は、第1のタイプのディープニューラルネットワークによって、点群の点に関連する第1の特徴を決定するステップであって、点群が、点群の少なくとも3D空間内の1つまたは複数の物体を表す点を含み、第1の特徴が、点群の各点に関する幾何学的情報を定義し、第1のタイプのディープニューラルネットワークが、点群の点を入力として受信するように構成される、決定するステップと、第2のタイプのディープニューラルネットワークによって、第1の特徴に基づいて、第2の特徴を決定するステップであって、第2の特徴が、均一3Dグリッドのノードの位置における点群に関する局所的な幾何学的情報を定義し、ノードが、点群の3D空間内に均一に分布される、決定するステップと、第2の特徴に基づいて、1つまたは複数の物体プロポーザルを生成するステップであって、物体プロポーザルが、3Dグリッドのノードを中心に位置する3Dバウンディングボックスを定義し、3Dバウンディングボックスが、物体を定義し得る点群の点を含み、3Dバウンディングボックスが3Dアンカーを定義する、生成するステップと、第3のタイプのディープニューラルネットワークによって、3Dアンカーに対するスコアを決定するステップであって、スコアが、3Dアンカーが物体または物体の部分を定義する点を含む確率を示し、決定するステップが、3Dアンカー内に位置特定された第2の特徴に基づく、決定するステップとを含み得る。

この方法は、点群内の物体を検出するための正確かつ効率的な方法を提供する。このプロセスは、点群内に埋め込まれたすべての幾何学的情報が物体検出のために使用され得るように、点群(入力データ)に直接的に適用される。さらに、このプロセスは、点群内の各点を分類する必要なしに、新しい領域、すなわち、グリッド領域(grid domain)の中の特徴の評価によって点群内の物体を決定する。このようにして、このプロセスは、所定の物体を表す点が点群内に存在するかどうかを検出する(予測する)非常に効率的な方法を提供する。

一実施形態では、第2のタイプのディープニューラルネットワークはまた、均一3Dグリッドのノードに対するスコアを決定するようにトレーニングされてもよく、スコアは、3Dアンカーが物体または物体の部分を定義する点を含む確率を示す。

一実施形態では、第1の点群特徴は第1の特徴ベクトルを含んでよく、各第1の特徴ベクトルは、点群の点に関連付けられ、かつ/または第2の点群特徴は第2の特徴ベクトルを含んでよく、各第2の特徴ベクトルは、均一3Dグリッドのノードに関連付けられる。

一実施形態では、第1の点群特徴は、第1のタイプのディープニューラルネットワークによって決定され得、第1のタイプのディープニューラルネットワークは、特徴抽出ネットワークを定義する。

一実施形態では、第1のタイプのディープニューラルネットワークは、点群の点を受信し、第1の特徴、好ましくは、点群の点に関連する第1の特徴ベクトルを生成するように構成され得る。

一実施形態では、第1のタイプのディープニューラルネットワークは、多層パーセプトロン(MLP)を含む複数の畳み込み層を含んでよく、特徴抽出ネットワークは、点群の点をその入力において受信し、点群の各点に対する特徴ベクトルをその出力において生成するように構成される。

一実施形態では、特徴抽出ネットワークは、1つまたは複数のχ-Conv層を含んでよく、各χ-Conv層は、χ-Conv層の入力に提供された点および対応する特徴を重み付けおよび置換し、その後、置換された点および特徴に畳み込みカーネルを施すように構成され、好ましくは、特徴抽出ネットワークは、χ-Conv層を含むPointCNNとして構成される。

一実施形態では、第2のタイプのディープニューラルネットワークは、物体プロポーザルネットワークを表すことができ、物体プロポーザルネットワークは複数の畳み込み層を含み、複数の畳み込み層の各々は、1つまたは複数の畳み込みカーネルを含む多層パーセプトロン(MLP)を含む。

一実施形態では、複数の畳み込み層のうちの少なくとも1つは、第1の特徴および均一3Dグリッドのノードを受信し、第1の特徴に基づいて、第2の特徴を決定するように構成され得る。

一実施形態では、均一3Dグリッドは、点群の3D空間内の点の空間分布に基づいて決定され得る。

一実施形態では、物体プロポーザルネットワークは、複数のモンテカルロ(MC)空間畳み込み層を含むモンテカルロ畳み込みネットワーク(MCCNet)として構成され、好ましくは、MC空間畳み込み層は、点群の3D空間内に位置特定されたノードxのロケーションにおける畳み込みを決定するように構成された畳み込みカーネルを含む。

一実施形態では、畳み込みを決定するステップは、受容野(receptive field)r内の近隣点yを決定するステップであって、受容野が、畳み込みカーネルの視野(FOV)を定義する、決定するステップと、各近隣点yに対して確率密度関数p(x,y)を決定するステップと、近隣点yおよび各近隣点に対する確率密度値p(x,y)を使用して、モンテカルロ推定に基づいて、ノードにおける畳み込みを決定するステップとを含む。

一実施形態では、第3のタイプのディープニューラルネットワークは、物体分類ネットワークを表すことができ、第3のタイプのディープニューラルネットワークは、複数の全結合(FC)多層パーセプトロン(MLP)層を含み、第2のタイプのディープニューラルネットワークは、3Dアンカーに関連する特徴を受信し、3Dアンカーに関連するスコアを決定するために、それらの特徴を使用するように構成され、スコアは、3Dアンカーが物体または物体の部分を定義する点を含む確率を示す。

一態様では、本発明は、点群、好ましくは、口腔内走査(IOS)点群などの3D光学スキャナによって生成された点群の中の物体検出のために適合されたコンピュータシステムであって、
前処理アルゴリズムおよび少なくともトレーニングされた第1の3Dディープニューラルネットワークを含むコンピュータ可読プログラムコードを具現化したコンピュータ可読記憶媒体と、コンピュータ可読プログラムコードと、コンピュータ可読記憶媒体に結合されたプロセッサ、好ましくは、マイクロプロセッサとを備え、第1のコンピュータ可読プログラムコードの実行に応答して、プロセッサが、第1のタイプのディープニューラルネットワークによって、点群の点に関連する第1の特徴を決定することであって、点群が、点群の3D空間内の1つまたは複数の物体を表す点を含み、第1の特徴が、点群の各点に関する幾何学的情報を定義し、第1のタイプのディープニューラルネットワークが、点群の点を入力として受信するように構成される、決定することと、第2のタイプのディープニューラルネットワークによって、第1の特徴に基づいて、第2の特徴を決定することであって、第2の特徴が、均一3Dグリッドのノードの位置における点群に関する局所的な幾何学的情報を定義し、ノードが、点群の3D空間内に均一に分布される、決定することと、第2の特徴に基づいて、1つまたは複数の物体プロポーザルを生成することであって、物体プロポーザルが、均一3Dグリッドのノードを中心に位置する3Dバウンディングボックスを定義し、3Dバウンディングボックスが、物体を定義し得る点群の点を含み、3Dバウンディングボックスが3Dアンカーを定義する、生成することと、第3のタイプのディープニューラルネットワークによって、3Dアンカーに対するスコアを決定することであって、スコアが、3Dアンカーが物体または物体の部分を定義する点を含む確率を示し、決定することが、3Dアンカー内に位置特定された第2の特徴に基づく、決定することとを含む実行可能動作を実行するように構成される、コンピュータシステムに関し得る。

一態様では、本発明は、点群、好ましくは、口腔内走査(IOS)点群などの3D光学スキャナによって生成された点群、のインスタンスセグメント化のために適合されたコンピュータシステムであって、前処理アルゴリズムおよび少なくともトレーニングされた第1の3Dディープニューラルネットワークを含むコンピュータ可読プログラムコードを具現化したコンピュータ可読記憶媒体と、コンピュータ可読プログラムコードと、コンピュータ可読記憶媒体に結合されたプロセッサ、好ましくは、マイクロプロセッサとを備え、第1のコンピュータ可読プログラムコードの実行に応答して、プロセッサが、第1のタイプのディープニューラルネットワークによって、点群の点に関連する第1の特徴を決定することであって、点群が、点群の3D空間内の1つまたは複数の物体を表す点を含み、第1の特徴が、点群の各点に関する幾何学的情報を定義し、第1のタイプのディープニューラルネットワークが、点群の点を入力として受信するように構成される、決定することと、第2のタイプのディープニューラルネットワークによって、第1の特徴に基づいて、第2の特徴を決定することであって、第2の特徴が、均一3Dグリッドのノードの位置における点群に関する局所定な幾何学的情報を定義し、ノードが、点群の3D空間内に均一に分布された、決定することと、第2の特徴に基づいて、物体プロポーザルを生成することであって、物体プロポーザルが、物体を定義し得る点を含む3Dボリュームを定義し、物体プロポーザルの3Dボリュームが、3Dグリッドのノードを中心に位置する3Dアンカーを定義する、生成することと、第3のタイプのディープニューラルネットワークによって、分類された3Dアンカーを決定することであって、決定することが、第2の特徴セットに基づき、第2の特徴セットが、3Dアンカー内に位置特定された第2の特徴のサブセットである、決定することと、第4のタイプのディープニューラルネットワーク(物体ロケーション予測器ネットワーク)によって、物体ボリューム(object volume)を決定することであって、物体ボリュームの中心位置が、物体インスタンスの中心ロケーションに一致し、物体ボリュームの次元(dimension)が物体インスタンスの外部次元(outer dimension)にマッチし、決定することが、第2の特
徴セットに基づく、決定することと、第5のタイプのディープニューラルネットワーク(マスク予測器ネットワーク)によって、点のセットおよび物体ボリューム内で位置特定された第1の点群特徴のセットに基づいて、物体インスタンスに属する第1の分類点および物体インスタンスに属さない第2の分類点を含む分類点を決定することとを含む実行可能動作を実行するように構成される、コンピュータシステムに関し得る。

別の態様では、本発明は、点群、好ましくは、口腔内走査(IOS)点群、の中の物体検出のためにディープニューラルネットワークシステムをトレーニングする方法であって、1つまたは複数のラベル付けされた物体インスタンスを含むトレーニング点群サンプルをディープニューラルネットワークシステムの入力に提供するステップであって、ディープニューラルネットワークシステムが、少なくとも特徴抽出ネットワーク、物体プロポーザルネットワーク、および物体分類ネットワークを含む、提供するステップと、第2の特徴に基づいて、物体プロポーザルを計算するステップであって、第2の特徴が、均一3Dグリッドのノードの位置における点群に関する局所的な幾何学的情報を定義し、ノードが、点群の3D空間内に均一に分布され、第2の特徴が、物体プロポーザルネットワークによって決定され、物体プロポーザルネットワークが、トレーニング点群サンプルをその入力において受信する特徴抽出ネットワークによって生成された第1の特徴に基づいて、第2の特徴を決定するように構成され、物体プロポーザルが、物体を定義する点を含み得る均一3Dグリッドのノードを中心とする3Dバウンディングボックスを定義し、3Dバウンディングボックスが3Dアンカーを定義する、計算するステップと、3Dアンカーとトレーニング点群サンプル内のラベル付けされた物体インスタンスの3Dバウンディングボックスとの間の重複を決定し、3Dアンカーを、重複が所定のしきい値を上回る場合、正とラベル付けし、重複が所定のしきい値を下回る場合、負とラベル付けするステップと、3Dアンカー内の点群特徴を使用して、物体分類ネットワークによって正および/または負にラベル付けされた3Dアンカーに対する1つまたは複数の物体予測を決定し、1つまたは複数の物体予測、正および/または負にラベル付けされた3Dアンカー、および第1の損失関数に基づいて、第1の損失値を決定するステップと、逆伝搬方法を使用して、特徴抽出ネットワーク、物体プロポーザルネットワーク、および物体分類ネットワークを同時にトレーニングするために、第1の損失値を使用するステップとを含む方法に関し得る。

さらに別の態様では、本発明は、点群、好ましくは、口腔内走査(IOS)点群などの3D光学スキャナによって生成された点群、のインスタンスセグメント化のためにディープニューラルネットワークシステムをトレーニングする方法であって、1つまたは複数のラベル付けされた物体インスタンスを含むトレーニング点群サンプルをディープニューラルネットワークシステムの入力に提供するステップであって、ディープニューラルネットワークシステムが、少なくとも特徴抽出ネットワーク、物体プロポーザルネットワーク、物体分類ネットワーク、物体ロケーション予測器ネットワーク、およびマスク予測器ネットワークを含む、提供するステップと、第2の特徴に基づいて、物体プロポーザルを計算するステップであって、第2の特徴が、均一3Dグリッドのノードの位置における点群に関する局所的な幾何学的情報を定義し、ノードが、点群の3D空間内で均一に分布され、第2の特徴が、物体プロポーザルネットワークによって決定され、物体プロポーザルネットワークが、トレーニング点群サンプルをその入力において受信する特徴抽出ネットワークによって生成された第1の特徴に基づいて、第2の特徴を決定するように構成され、物体プロポーザルが、3Dアンカーを定義する3Dバウンディングボックスを定義する、計算するステップと、3Dアンカーとトレーニング点群サンプル内のラベル付けされた物体インスタンスの3Dバウンディングボックスとの間の重複を決定し、重複が所定のしきい値を上回る場合、正の3Dアンカーを決定し、重複が所定のしきい値を下回る場合、負の3Dアンカーを決定するステップと、3Dアンカー内の点群特徴を使用して、物体分類ネットワークによって正および負にラベル付けされた3Dアンカーに対する1つまたは複数の物体予測を決定し、1つまたは複数の物体予測および第1の損失関数に基づいて、第1の損失値を決定するステップと、物体ロケーション予測器ネットワークによって、3Dアンカー内の特徴に基づいて、物体ボリュームのロケーションおよびサイズ予測を決定し、第2の損失寄与を決定するために、ロケーションおよびサイズ予測、および第2の損失関数を使用するステップと、マスク予測器ネットワークによって、物体ボリューム内の点群特徴に基づいて、物体インスタンスに属する第1の分類点および物体インスタンスに属さない第2の分類点を含む分類点を決定し、第3の損失寄与を決定するために、分類点および第3の損失関数を使用するステップと、逆伝搬方法を使用して、好ましくは、同時に使用して、特徴抽出ネットワーク、物体プロポーザルネットワーク、物体分類ネットワーク、物体ロケーション予測器ネットワーク、およびマスク予測器ネットワークをトレーニングするために、第1、第2、および第3の損失寄与を使用するステップとを含む方法に関し得る。第1の点群特徴および第2の3Dグリッド特徴は、ニューラルネットワークのシステムのトレーニングのプロセスを通して同時に暗示的に学習され得る。

本出願で説明する方法およびシステムは、Mask-MCNetと呼ばれることがある物体検出およびインスタンスセグメント化モデル(方式)に基づく。Mask-MCNetは、3D点群、たとえば、口腔内スキャナによって生成された口腔内走査(IOS)データの中の正確かつ効率的な物体検出およびインスタンスセグメント化を可能にする。既知の深層学習モデルとは対照的に、このモデルは、点群を処理するためのボクセル化ステップを必要としない。結果として、データは、詳細な構造の成功裏のセグメント化にとって重要な点群の微細な幾何学的情報を保存しながら処理され得る。さらに、第1の点群特徴を抽出し、均一3Dグリッド上で第2の点群特徴に変換することによって、Mask-MCNetは、非常に不均一な点群データの処理を効率的に処理することができ、点群内の物体プロポーザルを高速で生成させる。そのようなプロパティは、大型点群データ構造(たとえば、100,000個を超える点)に対する方式のスケーラビリティにとって重要である。実験結果は、Mask-MCNetがテストデータに対してIoU(intersection of union)スコアを98%達成し、それにより、点群セグメント化タスクにおける最先端ネットワークよりも優れていることを示す。Mask-MCNetの性能は、人間レベルに近く、完全な点群物体検出およびセグメント化は、人間にとって長く労働集約的なタスクである一方、単に数秒の処理時間で取得され得る。

いくつかの実施形態では、システムは、3個のモジュールを含んでよく、各モジュールは、1つまたは複数のサブネットワークを含み得る。第1のモジュール(特徴抽出)は、高次元特徴空間に設定された入力点の幾何学的位置を変換するようにトレーニングされたディープニューラルネットワークを含み得る。各点に対してそのように取得された高次元特徴ベクトルは、3D空間全体に広がる3Dグリッドに転写され得る。そのような変換は、モンテカルロ畳み込みネットワークまたは別の好適なネットワークアーキテクチャを含み得る第2のモジュール(物体プロポーザル)によって実行される。このネットワークは、(第1のモジュールから取得された)不規則な点群の各点の特徴ベクトル内に含まれた情報を規則的なグリッド領域に分布および変換するようにトレーニングされ得る。各候補バウンディングボックス(アンカーとも呼ばれる)内に物体(たとえば、歯)が存在するかどうかを検出するために、2つのサブネットワークを含み得る第3のモジュールが採用され得る。候補アンカーによって包含されるグリッドのノードに関するすべての特徴は、3D空間内の物体と高度の重複を有するアンカーを検出するために分類サブネットワークによって検査される。分類サブネットワークによって正に検出されたアンカーの場合、それらのグラウンドトゥルースと比較した、候補アンカーバウンディングボックスと候補アンカーバウンディングボックス内の物体の中心の差分値を推定するために、別のサブネット(物体ロケーション予測器ネットワーク)が使用される。各物体を位置特定した後、検出されたバウンディングボックス内部の入力点群からのすべての点のバイナリ分類のために、MLPベースのカスケードネットワークで構成され得るマスク生成器ネットワークが採用される。そのような分類タスクは、検出されたバウンディングボックスによって完全に包含される各物体に属する点を見出すことを目的とする。したがって、このモデルは、第1に、各物体の中心に集中する3Dバウンディングボックスをフィットさせることによって、入力点群内のすべての物体を検出し、第2に、各検出されたバウンディングボックス内部の各個々の歯に属するすべての点を示すことが可能である。

本出願の実施形態は、別個の深層学習ネットワークなど、(機能的に)別個のネットワーク構成要素を識別し、説明するが、代替として、他の実施形態では、これらの別個のネットワーク構成要素の組合せは、単一の結合ネットワークと見なされ得ることが提示される。本発明は、本発明による実施形態を概略的に示す、添付の図面を参照しながらさらに説明されることになる。本発明は、いかなる方法でも、これらの特定の実施形態に限定されないことを理解されよう。

本発明の一実施形態による、3D点群の物体検出およびインスタンスセグメント化のための深層学習システムの図である。本発明の一実施形態による、3D点群の物体検出およびインスタンスセグメント化のための方式を示す図である。本発明の一実施形態による、3D点群の物体検出およびインスタンスセグメント化のための方式を示す図である。本発明の一実施形態による、3D点群の物体検出およびインスタンスセグメント化のための方式を示す図である。本発明の一実施形態による、3D点群の物体検出およびインスタンスセグメント化のための方式を示す図である。本発明の別の実施形態による、3D点群の物体検出およびインスタンスセグメント化のための深層学習システムを示す図である。本発明の様々な実施形態による、点群の物体検出およびインスタンスセグメント化のためのプロセスの流れ図である。本発明の様々な実施形態による、点群の物体検出およびインスタンスセグメント化のためのプロセスの流れ図である。本発明の一実施形態による、特徴抽出ネットワークの部分の概略図である。本発明の別の実施形態による、特徴抽出ネットワークの部分の概略図である。本発明の一実施形態による、物体プロポーザルネットワークの概略図である。本発明の一実施形態による、モンテカルロ畳み込みネットワークの部分の概略図である。本発明の一実施形態による、モンテカルロ畳み込みネットワークの部分の概略図である。本発明の一実施形態による、物体分類ネットワークの概略図である。本発明の一実施形態による、物体ロケーション予測器ネットワークの概略図である。本発明の一実施形態による、マスク予測器ネットワークの概略図である。本発明の様々な実施形態による、深層学習システムをトレーニングする流れ図である。本発明の様々な実施形態による、深層学習システムをトレーニングする流れ図である。本発明の一実施形態による、Mask-MCNetによって決定される正に分類された3Dアンカーの可視化を示す図である。本発明の一実施形態による、深層学習システムによって生成されたセグメント化されたIOSデータの例を示す図である。本発明の一実施形態による、深層学習システムによって生成されたセグメント化されたIOSデータの例を示す図である。本発明の一実施形態による、深層学習システムによって生成されたセグメント化されたIOSデータの例を示す図である。本発明の一実施形態による、深層学習システムによって生成されたセグメント化されたIOSデータの例を示す図である。本発明の一実施形態による、深層学習システムによって生成されたセグメント化されたIOSデータの例を示す図である。本発明の一実施形態による、深層学習システムによって生成されたセグメント化されたIOSデータの例を示す図である。本発明の一実施形態による、深層学習システムによって生成されたセグメント化されたIOSデータの例を示す図である。本発明の一実施形態による、深層学習システムによって生成されたセグメント化されたIOSデータの例を示す図である。本発明の一実施形態による、セグメント化された点群を後処理する流れ図である。本出願で説明する方法およびソフトウェア製品を実行するために使用され得る例示的なデータ処理システムを示すブロック図である。

本開示で説明する実施形態は、1つまたは複数のディープニューラルネットワーク(DNN)に基づいて、不規則な(不均一な)3D点群の正確かつ効率的な物体検出およびインスタンスセグメント化のためのシステムおよびコンピュータ実装方法を含む。点群は、1つまたは複数の物体または1つまたは複数の物体を含むシーンの3D表現を定義するサンプリングポイントのセットを指すことがある。各サンプリングポイント(短く、点)は、ユニバーサルではない3Dデカルト座標系内のベクトルによって表され得る(すなわち、デカルト座標系は2つのIOSデータセット間で異なり得る)。点群は、3D表面メッシュとして構築されてよく、3D空間内の点は、集合的に3D空間内の表現メッシュを記述する、三角形メッシュまたは多角形メッシュを定義し得る。これらのメッシュに関連する法線ベクトルは、3D空間内の配向を定義し得る。点群内の各点に関連する法線ベクトルは、各点およびその近隣からなる表面に直角なベクトルを表し得る。画素およびボクセル表現など、ユークリッド2Dおよび3Dデータセットとは対照的に、点群は、不規則な、置換不変(permutation-invariant)であり、走査ごとに可変数の点を有し得る。本出願では、点群という用語は、3D空間内の点に基づいて3D空間内の物体を表すための任意の非ユークリッド3Dデータセットを指すために使用される。

図1は、本発明の一実施形態による、点群の物体検出およびインスタンスセグメント化のための深層学習システムの概略図を示す。具体的には、図1は、3D点群のインスタンスセグメント化のためのシステム100を示す。システムによる3D点群の物体検出およびインスタンスセグメント化のプロセスは、図2A～図2Dに概略的に示される。システムは、メモリ103に接続された、1つまたは複数の処理ユニット101を備える、1つまたは複数のコンピュータ上で実装され得る。システムは、点群(の部分)および、場合によっては、それらの入力における点群に関連する空間情報を受信し、トレーニングされたモデルに従ってデータを処理するようにトレーニングされ得る3Dディープニューラルネットワークを含めて、複数のユニットを実行するように構成され得る。システムは、1つまたは複数の記憶ユニット、たとえば、データベースを含む、データ記憶装置および検索システム、たとえば、データベースシステムなど、に接続されたスタンドアロンシステム(たとえば、サーバシステムまたはクラウドアプリケーションなどのネットワークアプリケーション)として実装され得る。

図1に示すように、深層学習システムは、少なくとも特徴抽出器104、物体検出器106、およびマスク生成器108を含めて、複数のユニットを含み得る。特徴抽出器は、不規則な3D点群102をその入力において受信するように構成された第1のディープニューラルネットワークを含み得る。点群表現の概略図が図2Aに示されている。点群は、1つまたは複数の(異なる)物体、たとえば、球体を表す第1の物体204_1～3および/または円柱を表す第2の物体206_1、2の表面の少なくとも部分を表す点の不規則なセットを含み得る。一般に、これらの点は、3D空間202内の座標、たとえば、デカルト座標x、y、zとして表され得る。第1のディープニューラルネットワークは、点群の各点に対する特徴ベクトルを決定するように構成され得る。一実施形態では、これらの特徴は、特徴ベクトル、すなわち、多要素ベクトル(この例では、256個の要素)としてフォーマットされ得る。ある点に関連する特徴ベクトルは、3D点群内のその点と他の点、一般に、その点から一定の距離内に位置特定される他の点、の間の空間相関を記述し得る。特徴ベクトルは、点群内の物体のインスタンスセグメント化を効率的に実行するために物体検出器およびマスク生成器によって使用され得る。

物体検出器106は、物体プロポーザルを生成するように構成されたディープニューラルネットワークシステムを含み得る。物体プロポーザルは、ある物体を表す高い確率を有する点のセットを含む点群の3D空間内のボリュームを含み得る。そのために、ディープニューラルネットワークシステムは、物体を表す点を含む高い可能性を有する点群の3D空間内の所定のサイズおよびロケーションの3Dバウンディングボックスを決定し得る。物体検出器のディープニューラルネットワークシステムは、点群(または、点群のサブセット(たとえば、パッチ))および3Dグリッド207をその入力において受信するように構成され得る。図2Bに示すように、3Dグリッドは、点群の3D空間内の一定の密度のノード207を定義し得る。3Dグリッドのノードは、3D空間内の物体プロポーザルに対する中心を定義し得る。このようにして、物体検出器のディープニューラルネットワークシステムは、3Dグリッドのノード上に位置特定される物体プロポーザル、たとえば、3Dバウンディングボックス、を決定するように構成された物体プロポーザルネットワークを定義し得、3Dグリッドは、点群の3D空間に広がる複数のノードを含む。3Dバウンディングボックス(アンカーと呼ばれることがある)の各々は、特徴抽出器によって計算された特徴ベクトルに基づいて決定された特徴に関連付けられる。したがって、図2Aに示すような点群および図2Bに示すようなノードの3Dグリッドを仮定すると、物体検出器のディープニューラルネットワークシステムは、各々が、3Dグリッドのノードのうちの1つの上に位置特定された中心を有し、各々が、3Dバウンディングボックス内の点に関連する特徴を含む、3Dバウンディングボックスを決定し得る。これは、図2Cに概略的に示されている。この図に示すように、物体検出器は、異なる物体に関連するアンカー、たとえば、第1の物体208_1～3に関連するアンカーおよび第2の物体210_1、2に関連するアンカーを生成する。

物体検出器は、アンカーの各々の中で位置特定された特徴を分類するように構成されたさらなるディープニューラルネットワークを含み得る。このネットワークは、アンカー内に位置特定された点に関連する特徴をその入力として受信し、そのアンカーが所定の物体を表す点を含むかどうかを決定するために、これらの特徴を使用するようにトレーニングされた物体分類ネットワークを定義し得る。

マスク生成器108は、所定の物体を含むとして物体分類ネットワークによって分類されているアンカー内の点を処理し得る。物体プロポーザルネットワーク内に入力されたアンカーの中心および次元は、3Dグリッドによって決定される。したがって、アンカーは、物体の中心の正確な位置およびその次元を必ずしも提供するとは限らない。物体の正確な位置を生成するために、マスク生成器は、所定の物体を表す点を含む3Dバウンディングボックスの中心および次元を決定するようにトレーニングされたディープニューラルネットワークを含み得る。このニューラルネットワークは、物体ロケーション予測器ネットワークと呼ばれることがある。

さらに、正確に位置決めされ次元決定された3Dバウンディングボックスに基づいて、マスク生成器は、3Dバウンディングボックス内に位置特定される点を選択し得る。

3Dバウンディングボックス内の点は、その物体および背景の部分である点を表す点を含み得る。点の分類は、マスク予測器ネットワークと呼ばれることがあるディープニューラルネットワークを使用して実行され得る。マスク予測器ネットワークは、たとえば、所定の物体、たとえば、1つまたは複数の異なる物体に属するとして点を分類し得る。いくつかの実施形態では、マスク予測器ネットワークは、3Dバウンディングボックス内部の未知の物体に属する点を背景として分類し得る。マスク生成器ネットワークによって各バウンディングボックス内部で正に分類された点は、「マスク」と呼ばれることがある。物体分類ネットワーク、物体ロケーション予測器ネットワーク、およびマスク予測器ネットワークについては、以下でより詳細に説明する。

図2Dは、点の各セットが第1の物体(たとえば、球状物体)のインスタンスを表す、点の3つにセグメント化されたセット212_1～3、および点の各セットが第2の物体(たとえば、円筒形物体)のインスタンスを表す、点の2つのセグメント化されたセット214_1～2を含む、このプロセスの結果を示す。

図1および図2を参照しながら説明する深層学習システムは、先行技術の解決策から知られているような点群のボクセル化を必要としないように、点群の点を直接的に処理することが可能なディープニューラルネットワークを使用することによって、3D点群の正確かつ効率的な物体検出およびインスタンスセグメント化が可能である。ディープニューラルネットワークは、ディープ多層パーセプトロン(MLP)ネットワークに基づき得る。

図3は、本発明の一実施形態による、3D点群の物体検出およびインスタンスセグメント化のための深層学習システムの概略図を示す。図3の深層学習システムは、3D光学スキャナによって生成された点群に対してインスタンスセグメント化を適用するように構成される。ここで、インスタンスセグメント化は、計算モデルを使用して、物体たとえば、歯、のインスタンスに属するすべての点に一意のラベルを割り当てるプロセスを指す。一般に、計算モデルは、1つまたは複数のトレーニングされたニューラルネットワークを含む。

一実施形態では、3D光学スキャナは、歯を走査するための口腔内スキャナ(IOS)であってよい。IOSによって生成される点群は、IOS点群と呼ばれることがある。個々の歯を表す点のセット内のIOS点群の自動インスタンスセグメント化は、歯科学、インプラント学、および歯科矯正学における多くの適用にとって非常に望ましい。IOS点群は、クラウンおよび歯茎(歯肉)の解剖学的構造に関する高解像度情報を含む、点の大きなセット、一般に、数十万以上の点を含み得る。いくつかの実施形態では、点群は、(たとえば、三角測量アルゴリズムを点に適用した後)メッシュデータ構造に変換されることも可能である。

図3に示すように、IOS点群またはIOS点群のパッチなど、入力データ302が特徴抽出器304に提供され得る。IOS点群のパッチは、n個の点を含んでよく、ここで、nは、異なるパッチ間で異なり得る。入力データは、点群の点を定義する座標312を含んでよく、座標は、デカルト座標系x、y、zに基づいて定義され得る。加えて、点が3D表面メッシュを定義する実施形態では、入力データはまた、いくつかの点によって定義された表面の法線ベクトル314を含み得る。メッシュは、点群の点によって定義されたロケーションにおけるいくつかの頂点を含むグラフを定義し得る。隣接する頂点は、三角測量アルゴリズムの結果として、エッジによって互いと接続され得る。各三角形は、表面(「面」と呼ばれることがある)を定義し得る3つの隣接する頂点をメッシュ内に含む。このようにして、そのような面に直角に配向された法線ベクトルを計算することが可能である。法線ベクトルを頂点(点)に割り当てるために、各頂点が寄与する面(すなわち、三角形)のすべての法線ベクトルの平均が計算され得る。したがって、3D表面メッシュのn個の点のパッチの場合、特徴抽出ネットワークに対する入力データは、n個の点座標およびn個の関連する法線ベクトルを含む、n×6行列として表され得る。さらに生成される入力データは、点の3D位置および1つまたは複数のさらなる属性(法線ベクトル、色、など)を含み得る。

特徴抽出器は、特徴抽出ネットワーク316(バックボーンネットワークと呼ばれることもある)を含み得る。特徴抽出ネットワークは、点群または点群のパッチをその入力において受信し、点群の点に対する特徴ベクトル324を決定するようにトレーニングされ得るディープニューラルネットワークである。一実施形態では、特徴抽出ネットワークは、点群の各点に対する特徴ベクトルを決定するようにトレーニングされ得る。特徴ベクトルは、点群の各点の周囲の幾何学的情報を記述する複数の特徴を定義し得る。たとえば、例示的な実装形態では、特徴抽出ネットワークは、n個の特徴ベクトルを生成し得(ここで、nは、入力点の数を示す)、各特徴ベクトルは、複数の特徴要素、たとえば、256個の要素を含み得る。

一実施形態では、特徴抽出ネットワークは、点群全体に適用されるネットワークに基づいて(または、ハードウェア制限-点群のパッチに応じて)、ディープ多層パーセプトロン(MLP)として実装され得る。一実施形態では、MLPベースのネットワークは、いわゆる、PointCNNネットワークとして構成され得る。PointCNNネットワークは、Neural Information Processing Systems (NIPS)2018年で発表される、Liらによる論文「PointCNN: convolution on χ-transformed points」、2018年11月5日のarXiv:1801.07791v5に記載されている。特徴抽出器ネットワーク(バックボーンネットワーク)に対して多くの選定を行うことが可能であるが、図5および図6を参照しながらより詳細に説明するPointCNNネットワークアーキテクチャの利点は、このアーキテクチャは、点群の細部の処理を可能にし、小型モデルサイズを有することである。特徴抽出ネットワークの出力は特徴のn×256行列であり得る(ここで、nは、入力点の数を示す)。点群の点に関連する特徴ベクトルは、その点の周囲のボリューム内に豊富な幾何学的情報を含み得る。他の実施形態では、限定はしないが、PointNet(Qi,C.R.ら:Pointnet:Deep learning on point sets for 3d classication and segmentation.Proc.Computer Vision and Pattern Recognition (CVPR)、IEEE1(2)、4(2017年))、Qi,Charles Ruizhongtaiら;PointNet++:Deep hierarchical feature learning on point sets in a metric space; Advances in Neural Information Processing Systems.2017年、PointGrid(Le,T.ら:Pointgrid: A deep network for 3d shape understanding. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.9204～9214頁(2018年))、MCCNet(Hermosilla,P.ら:Monte carlo convolution for learning on non-uniformly sampled point clouds. In: SIGGRAPH Asia 2018 Technical Papers.235頁 ACM(2018年))、PointCNN(Li,Y.ら:Pointcnn. arXiv preprint arXiv:1801.07791(2018年))、SpiderCNN(Xu,Yら、SpiderCNN:Deep learning on point sets with parameterized convolutional filters、ECCV 2018年)を含む点群データセットから特徴を抽出することが可能な他のディープニューラルネットワークが特徴抽出ネットワークのために使用され得る。

特徴抽出ネットワークによって決定される特徴ベクトルは、いわゆる、物体プロポーザルネットワーク318を含む物体検出器306の入力に提供され得る。物体プロポーザルネットワークは、特徴抽出ネットワークからの特徴ベクトル324、および点群(または、そのパッチ)の3D空間内の、いわゆる、アンカーを定義するノードの3Dグリッドを受信するようにトレーニングされ得る。3Dグリッドは、点群の3D空間に広がるノードの3D配列を定義する。アンカーは、中心位置[x_a,y_a,z_a]および次元[w,d,h]を有する3Dバウンディングボックスを定義し得る。アンカーの中心は、3Dグリッドのノードによって決定され得る。

点群の点は、一般に、「表面点」、すなわち、3D光学スキャナによって決定される物体の表面のサンプルを定義する。そのようなスキャナの例は、IOSスキャナである。特徴抽出ネットワークによって計算される特徴は、一般に、3D空間のマニフォールドに関する局所的な幾何学的情報を含む。言い換えれば、そのような豊富な幾何学的情報は、3D空間内の表面の局所曲率として物体の局所表面を符号化し得る。しかしながら、物体を包含する3Dバウンディングボックスの正確な位置特定などの回帰タスクの場合、モデルは、3D表面メッシュからの3D幾何学的情報を、物体内部の空所など、点群の3D空間の空所内にアグリゲートすることを必要とする。たとえば、正確な物体決定のために、モデルは、物体を表す点群の点の収集物の異なる部分(たとえば、側面)に関する3D空間情報を必要とする。点群のボクセル化、およびボクセル化されたボリュームデータを処理するための3D CNNの適用がこの問題を解決するための従来の手法であろう。しかしながら、前に説明したように、点群をボリュームデータに変換することによる量子化誤差は幾何学的情報の細部を劣化させるため、不均一点群のボクセル化は、ニューラルネットワークの性能をひどく制限することになる。

先行技術における欠点を解決するために、物体プロポーザルネットワークは、幾何学的な豊富な情報を(特徴抽出ネットワークによって決定された特徴ベクトル内で符号化された)物体の表面から3D空間全体内に(たとえば、歯などの物体の内部の空所内に)分布および転写するように構成され得る。一実施形態では、いわゆる、モンテカルロ畳み込みネットワーク(MCCNet)アーキテクチャが物体プロポーザルネットワーク318を実装するために使用され得る。図7および図8を参照しながらより詳細に説明するMCCNetアーキテクチャは、1つまたは複数の多層パーセプトロン(MLP)ベースのネットワークを含み得る。具体的には、MCCNetは、畳み込みカーネルのセットに似た関数を有する少なくとも2つの隠れ層を含む、いくつかのモジュラーMLPサブネットワークを含み得る。これらの層は、MCCNetの畳み込み層と呼ばれることがある。このようにして、MCCNetは、入力点のセット内のその存在にかかわらず、カーネルの視野(FOV)内の任意の(新しい)点セットに対する畳み込みを計算することが可能である。言い換えれば、ロケーションの新しい点セットは、畳み込み層の出力によって生成される。それらのロケーションは、点群内にサンプルが存在しないロケーション内ですら、点群上のいずれかの任意のロケーションであり得る。このようにして、MCCNetは、点の不均一分布の畳み込みの計算を可能にする。

MCCNetは、特徴抽出ネットワークによって計算された特徴を点群領域(点群の3D空間内の点に関連する特徴)から、点群の3D空間に広がる、ノードの3Dグリッドに基づく新しい領域に転写するように構成される。この新しい領域は、グリッド領域と呼ばれることがあり、特徴は、点群の3D空間(入力空間)に広がる3Dグリッドのノードに関連付けられる。一実施形態では、ノードの3Dグリッドは、入力データとしてネットワークに提供され得る。一実施形態では、グリッド生成器319は、一定のノード密度の3Dグリッド326を生成し、その3Dグリッドを物体プロポーザルネットワークの入力に提供し得る。グリッド生成器は、点群の点の情報に基づいて、3Dグリッドを生成するように構成され得る。たとえば、グリッド生成器は、図3のシステムの入力に提供された点群に基づいて、3Dグリッドのノードの密度を決定し得る。点群に基づいて、3Dグリッドのノードを決定することは、点群の点に関連する特徴ベクトルの十分な詳細がMCCNetによって3Dグリッド領域に転写されることを確実にする。

したがって、図3に示すように、物体プロポーザルネットワークは、特徴抽出ネットワークからの特徴ベクトル、および点群またはその少なくとも実質的な部分の3D空間全体に広がる3Dグリッド326を受信し得る。この入力に基づいて、物体プロポーザルネットワークは、物体プロポーザル、すなわち、物体を表す点を含む、ある形状、たとえば、3Dバウンディングボックス、のボリュームとして使用され得る3Dアンカーを決定するように構成され得る。3Dバウンディングボックスは、任意の好適な形状、たとえば、矩形、球状、円筒形、など、を有し得る。

物体プロポーザルネットワークは、3D空間内の物体の考えられる位置に関して何も仮定しない。一実施形態では、3Dグリッドは、点群の3D空間内に均一に分布されたノードを定義する均一グリッドであり得る。その場合、3Dグリッドの空間解像度は、精度および計算能力の点でモデルの性能を決定し得る。低解像度の3Dグリッドを選定することは、小さな物体内部に少なすぎるアンカー(たとえば、IOSデータの場合、切歯)を配置させることがあるのに対して、高解像度のグリッドは、計算を非効率にさせることがある。

モデルの精度および効率性を改善するために、一実施形態では、均一グリッドの代わりに、不均一グリッドがネットワークに提供され得る。不均一3Dグリッドは、物体の表面に近いノードの密な分布、および物体の表面からさらに離れた距離におけるノードの低密度な分布を含み得る。不均一3Dグリッドは、ネットワークの入力にフィードされる点群、および当初密な均一3Dグリッドに基づいて、グリッド生成器によって決定され得る。不均一3Dグリッドは、ノードとそのノードに最も近い点群内の点との間の距離を使用して、当初密な3Dグリッドのノードをフィルタで除去することによって取得され得る。さらに、グリッド解像度に対して事前定義された下限が使用され得る。しきい値と比較して、しきい値からさらに点群から最近隣点を有する3Dグリッドからのノードは、このグリッドにおいてに何らかの点が存在する場合、除去される。

物体プロポーザルネットワークの上述のプロパティは、点群領域からの特徴(クラウドの3D空間内の点の位置に関連する特徴)の上記のグリッド領域(点群の3D空間に広がる3Dグリッドのノードの位置に関連する特徴)への転写を可能にする。一実施形態では、物体プロポーザルネットワークは、各々が、物体プロポーザルネットワークの入力にフィードされた3Dグリッドのノードに一致する中心を有する、m個の3Dアンカー(たとえば、3Dグリッドのm個のノードに関連するm個の3Dバウンディングボックス)を生成し得る。さらに、3Dグリッドの各ノードに対して、物体プロポーザルネットワークは、このノードをその中心座標として有する3Dアンカーに属する幾何学的情報(特徴)を決定し得る。物体分類ネットワーク322は、アンカー内の特徴に基づいて、アンカーが物体を表す点を含むか否かを決定し得る。物体分類ネットワークによるアンカー内の特徴の評価は、分類された3Dアンカー、たとえば、3Dバウンディングボックスを生じさせることがあり、各分類された3Dアンカーは、ある物体に属する点を含む。分類され、物体を含まないアンカーは、廃棄される。

MCCNetの入力からの第1のMLPネットワークは、点群領域の特徴をグリッド領域に転写するための畳み込み層として機能し得る。データは、MCCNetの隠れ層によってさらに処理される。各畳み込みカーネルのFOVに基づいて、「表面点」の幾何学的情報は、3Dグリッドのノードにわたって分布されることになる。一実施形態では、3Dグリッドの各ノードは、1つのアンカー(k=1)の位置(たとえば、中心)を表し得る。別の実施形態では、3Dグリッドの各ノードは、複数のアンカー(k>1)の位置を表すことができ、ノードに関連するk個のアンカーは異なるアスペクト比を有し得る。したがって、物体プロポーザルネットワーク318によって生成される3Dアンカーの総数は、k×mであり得る。

各3Dアンカー内部の特徴に基づいて、物体分類ネットワーク322は、3Dアンカーが物体を含むか否かを予測し得る。そのために、物体分類ネットワークは、各3Dアンカーに対するスコアを決定することができ、スコアは、3Dアンカーが物体インスタンスを含むまたは含まない確率を表し得る。スコアが、3Dアンカーが物体を定義する点を含むことを示すかどうかを決定するために、しきい値が使用され得る。

物体分類ネットワーク322は、固定長入力を有する全結合MLPとして実装され得る。その場合、各アンカー内部の特徴セットは、固定長のものであることが必要である。したがって、物体プロポーザルネットワーク318と物体分類ネットワーク322との間の補間モジュール320が各3Dアンカーに対する特徴の固定セットを決定するために使用され得る。たとえば、一実施形態では、補間モジュールは、各3Dアンカーがs×s×sのノードを有すると決定(そのように補間)し得る。sの値は、2から12の間であってよい。このようにして、各3Dアンカーは、固定長の特徴セットを有し得る。たとえば、グリッドの最近隣ノード(たとえば、3個の最近隣)を使用した補間、および3D空間内の新しいノードまでのそれらの距離に基づく、それらの特徴ベクトルの重み付けが使用され得る。したがって、補間モジュールは、物体プロポーザルネットワークによって決定されるk×mの3Dアンカーに対して、k×m×s³の特徴の出力行列を決定し得る。

物体検出器が、点群が、物体を含む、1つまたは複数の3Dアンカーを含むと決定した場合、マスク生成器308は、1つまたは複数の3Dアンカーの各々の中の点を分類するようにトリガされ得る。分類プロセスは、3Dアンカー内のどの点が物体を表し得るかを決定し得る。その場合、物体ロケーション予測器ネットワークは、どの3Dアンカーが物体分類ネットワークによって物体を含むと分類されるかに関する情報340を受信し得る。分類された3Dアンカー332は、物体を正確に包含するボリュームを決定するように構成された物体ロケーション予測器ネットワーク334に提供され得る。このボリュームは、物体ボリュームと呼ばれることがある。物体ボリュームは、物体の中心位置に正確にマッチする中心位置を有し得る。さらに、物体ボリュームの次元は、物体の外部次元に正確にマッチし得る。一実施形態では、物体ロケーション予測器ネットワークは、分類された3Dアンカーを物体ボリューム内に再配置し再スケーリングするための情報を生成し得る。

物体ボリュームの位置および次元は、物体パッチを点群からクロッピングするために位置および次元を使用することができる3Dクロッピングモジュール336に提供され得る。各物体パッチは、物体ボリューム内に位置する点群の点を含み得る。このようにして、各物体パッチは、物体検出器306によって予測された(検出された)ように物体を表す点を含む点のセットを定義し得る。一実施形態では、3Dクロッピングモジュールは、p個の点を点群からクロッピングするために、m×kの物体ボリュームの各々を使用し得る。さらに、p個の点の各々は、特徴抽出ネットワークによって生成されるn個の特徴ベクトルのうちの1つに関連付けられ得る。

したがって、各物体ボリュームに対して、3Dクロッピングモジュールは、点群からp個の点を抽出することができ、各点は、mxkxpの特徴ベクトルをもたらす特徴ベクトル324に関連付けられ、各特徴ベクトルは、複数の、たとえば、256個の特徴要素を有し得る。

物体パッチおよび関連する特徴ベクトルは、物体パッチ内の点を分類点、すなわち、物体に属する点および物体に属さない点(たとえば、背景)に分類するように構成されたマスク予測器ネットワーク338に提供され得る。この分類プロセスは、物体を表す点のセグメント化されたインスタンス、たとえば、図3に示すようなIOSパッチ310内のセグメント化された歯のインスタンス、を生じさせることが可能である。

したがって、上記から、物体プロポーザルネットワークの出力を処理するために、3個の個々のMLPベースのネットワークが採用されることになる。第1のディープニューラルネットワーク(物体分類ネットワーク)は、グリッド領域内の各点が正であるかまたは負であるかを予測する役目を果たす。グリッド上のノードは、そのノードが少なくとも1つの正のアンカーに属する場合、正と見なされる。正のアンカーは、データ内に物体を有する高IoU(重複)を有するアンカーである。したがって、第1のディープニューラルネットワークは、グリッドノードの分類のために採用される。正のアンカー内のすべての点は、2つの他のネットワーク、すなわち、物体ロケーション予測器ネットワークおよびマスク予測器ネットワーク、によって処理される。これらのネットワークのうちの1つは、正のアンカー(候補)の中心とその割り当てられたグラウンドトゥルース中心との間の空間変位を推定するようにトレーニングされる。第2のディープニューラルネットワーク(物体ロケーション予測器ネットワーク)は、正のアンカーのサイズ(たとえば、3Dキューブの幅、高さ、および深さ)とグラウンドトゥルースのその同等値の差分値を予測する役目を果たす。全体で、ネットワークのうちの1つは、グリッドノードに対する分類を実行し、次の2個のネットワークは、回帰問題を解決するために採用されている。3Dボックスによって包含された物体に属するすべての点をセグメント化するために、サブネットワークが採用される。マスク予測器ネットワークと呼ばれる、このネットワークは、各3Dバウンディングボックス内部の点を分類する役目を果たす。

図4Aおよび図4Bは、本発明の様々な実施形態による、点群の検出およびインスタンスセグメント化のためのプロセスの流れ図を示す。これらのプロセスは、上記で図1～図3を参照しながら説明した深層学習システムのモジュールによって実行され得る。図4Aは、トレーニングされたニューラルネットワークのシステムによって点群内の物体を検出するためのプロセスの流れ図を示す。図に示すように、プロセスは、点群を受信する第1のステップ402を含んでよく、点群は、点群の3D空間内の1つまたは複数の物体を表す点を含む。次のステップ(ステップ404)において、点群の第1の点群特徴が決定され得る。一実施形態では、第1の点群特徴は、点群の点に基づいて、第1のタイプのディープニューラルネットワークによって決定され得る。第1の点群特徴は、点群の各点の位置における点群に関する局所的な幾何学的情報を定義し得る。一実施形態では、第1の点群特徴は、第1の特徴ベクトルを定義し得る。点に関連する各特徴ベクトルは、その点の周囲の空間に関する幾何学的情報、たとえば、その点の周囲の一定のボリューム内の点の存在または不在、それらの点とこれらの点によって定義される局所曲率との間の相対距離に関する幾何学的情報を定義し得る。

第3のステップ406は、物体プロポーザルネットワークによって、第1の点群特徴を第2の点群特徴に変換するステップを含み得る。ここで、第2の点群特徴は、点群の3D空間に広がる3Dグリッドのノードの位置における点群に関する局所的な幾何学的情報を定義し得る。さらなる第4のステップ(ステップ408)は、第2の特徴に基づいて、1つまたは複数の物体プロポーザルを生成するステップを含み得る。物体プロポーザルは、3Dグリッドのノードを中心に位置する1つの(または複数の)3Dバウンディングボックスを定義し得、3Dバウンディングボックスは、物体を定義し得る点群のいくつかの点を含み得る。物体プロポーザルネットワークによって生成されるそのような3Dバウンディングボックスは、3Dアンカーと呼ばれることもある。

3Dアンカーの各々は、3Dグリッドのノードを中心に位置し得、3Dアンカーの各々に関連する第2の特徴ベクトルは、3Dアンカーによって定義された空間内の幾何学的情報を定義し得る。第2の特徴ベクトルの決定は、第1の特徴ベクトルおよび3Dグリッドのノードを第2のディープニューラルネットワークの入力に提供するステップと、第2のディープニューラルネットワークが3Dアンカーの各々に対する第2の特徴ベクトルをその出力において提供するステップとを含み得る。

第5のステップ410は、3Dアンカー内に位置特定される第2の特徴から特徴セットを選択するステップと、物体分類ネットワークによって、この特徴セットに基づいて、3Dアンカーに対するスコアを決定するステップとを含み得る。スコアは、3Dアンカーが物体または物体の部分を定義する点を含む確率を示し得る。

図4Aに示すプロセスは、点群内の物体を予測する正確かつ効率的な方法を提供する。第1の特徴ベクトルの決定は、点群の点を第1のディープニューラルネットワークの入力に提供するステップと、第1のディープニューラルネットワークが点群の点に対する第1の特徴ベクトルをその出力において提供するステップとを含み得る。プロセスは、点群内に埋め込まれたすべての幾何学的情報が物体検出のために使用され得るように、ボクセル化などを必要とせずに、点群(入力データ)に直接的に適用される。さらに、プロセスは、点群内の各点を分類する必要なしに、新しい領域、すなわち、グリッド領域、の中の特徴の評価によって点群内の物体を決定する。このようにして、プロセスは、所定の物体を表す点が点群に存在するかどうかを検出する(予測する)非常に効率的な方法を提供する。

図4Bは、点群のインスタンスセグメント化のためのプロセスの流れ図を示す。このプロセスは、図4Aを参照しながら説明した物体検出プロセスの後に実行され得る。インスタンスセグメント化プロセスは、物体インスタンスを含めるために物体分類ネットワークによって正に分類された3Dアンカー内に含まれた特徴セットを受信するステップ412で開始し得る。さらなるステップ(ステップ414)は、物体ロケーション予測器ネットワークによって、物体ボリュームを決定するステップを含み得る。物体ロケーション予測器ネットワークは、物体インスタンスの中心ロケーションを生成し得る。代替として、物体ロケーション予測器ネットワークは、物体インスタンスの外部次元を生成し得る。一実施形態では、物体ボリュームの中心位置は、物体インスタンスの中心ロケーションに一致し得る。別の実施形態では、物体ボリュームの次元は、物体インスタンスの外部次元にマッチし得る。

物体ボリュームの位置および次元は、点のセットを点群からクロッピングし、点群特徴のセットを第1の点群特徴からクロッピングするために使用され得る(ステップ416)。分類点は、マスク予測器ネットワークによって決定され得る(ステップ418)。分類点は、第1の点群特徴のセットに基づいて決定され得、分類点は、物体インスタンスに属する第1の分類点および物体インスタンスに属さない第2の分類点を含み得る。点のクロッピングされたセットおよびマッチする点特徴は、物体インスタンスの部分であるとして、またはそうでない(背景)として、各点を分類するマスク予測器ネットワーク内に入力され得る(ステップ418)。

したがって、図4Bに示すプロセスステップは、物体を表す点を含む点群の3D空間内のボリュームを正確に決定することによって、点群の点の効率的なインスタンスセグメント化を可能にする。このようにして、プロセスは、従来のセマンティックセグメント化プロセスから知られているように点群の各点を分類する必要なしに、点のセグメント化を可能にする。

図5および図6は、本発明の一実施形態による特徴抽出ネットワークの部分の概略図を示す。具体的には、これらの図は、n個の点によって表され得る点群502の点を直接的に処理することが可能な特徴抽出ネットワーク504のディープニューラルネットワークアーキテクチャの図を示し、各点は、デカルト座標、また場合によっては、法線ベクトルによって表され得る。深層学習ネットワークは、MLPベースのネットワークとして構成され得る。一実施形態では、MLPベースのネットワークは、(図3の説明ですでに短く述べた)PointCNNネットワークアーキテクチャを有し得る。図5に示すように、MLPベースのネットワークモデル504は、いわゆる、χ-Conv層506_1～9のスタックを含み得る。各χ-Conv層は、畳み込み演算によって処理するのに先立って、入力点およびそれらの対応する特徴を重み付けおよび置換するように構成され得る。

χ-Conv層の構造は、図6でより詳細に説明される。χ-Conv層は、パラメータN、c、K、およびDによって特徴付けられる。各χ-Conv層は、c個のチャネルを用いてN個の代表点を戻し、代表点は、畳み込みが計算される(3D点群空間、すなわち、入力空間、内の位置を表す)点である。さらに、チャネルは、特徴ベクトルの次元を表す。たとえば、256次元の特徴ベクトルに関連する点は256個のチャネルを有する。定数Kは、各代表点の近隣点の数であり、Dは、χ-Conv層の拡張率(dilation rate)、すなわち、その層に対する入力である点と出力として生成された点との間の比率である。

各χ-Conv層の視野(FOV)は、K個の最近隣(KNN)点609、すなわち、畳み込みが計算される点のロケーションに最も近い点の固定セットを含み得る。加えて、χ-Conv層は、2個以上のMLPネットワーク610、612を含み得る。これらのMLPネットワークは、K個の入力点の座標に対するK×Kのχ変換を学習する。χ-Conv層の結果は、KNN点特徴の点の代表セットへのアグリゲーションおよび投影であり、その後、畳み込みが適用される。

図5および図6に示すPointCNNモデルは、点群内の点同士の間の局所的な幾何学的相関を学習することが可能である。このモデルは、点群に対する他の既知の深層学習モデルと比較して、かなり少量の学習パラメータを有する。小さなデータベースセットに著しく過剰適合する傾向が低いため、これは有益である。ネットワークに対する入力は、点群506の点であり得(たとえば、n個の点、法線ベクトルのx、y、z座標および(場合によっては)要素としての各点は、これにより、nx6行列を定義する)。ネットワーク510の出力は、特徴ベクトル(たとえば、n個のベクトル、各ベクトルは、複数の特徴要素、たとえば、256個の特徴要素を有する)のセットであり得、各特徴ベクトルは、点群の点に関連付けられ得る。特徴ベクトルは、多要素ベクトル(この例では、256個の要素)であり得、ベクトルの各要素は、クラス確率を表す。

図7は、本発明の一実施形態による物体プロポーザルネットワークの概略図を示す。図に示すように、物体プロポーザルネットワーク704のアーキテクチャは、MLP層の多層スタックを含む。ネットワークは、モンテカルロ畳み込みネットワーク(MCCNet)と呼ばれることがあり、モンテカルロ畳み込みネットワーク(MCCNet)は、モンテカルロ(MC)空間畳み込み層712_1～4、バッチ正規化(BN)層714_1～6、および1x1畳み込み層716_1～3を含む。物体プロポーザルネットワークは、点群領域702内で定義された特徴ベクトル(すなわち、点群に関連する特徴ベクトル、各特徴ベクトルは、点群の点の近隣内の幾何学的情報を定義する)およびノード707の3Dグリッドを受信するように構成され得る。一実施形態では、ノードの3Dグリッドは、3Dグリッド生成器708によって生成され得る。いくつかの実施形態では、不均一3Dグリッドが3Dグリッドとして使用され得る。その場合、3Dグリッド生成器は、密な均一3Dグリッド710からのノードをフィルタ処理することによって決定され得る。1×1畳み込み層は、C_in入力チャネルおよびC_out出力チャネルを有する。これらの層は、点特徴の数を低減または増大させるために使用され得る。

図に示すように、第1のMC空間畳み込み層712₁は、点群領域の特徴ベクトルおよび3Dグリッドのm個のノードを受信するように構成され得る。この入力に基づいて、畳み込み層は、点群領域の特徴ベクトルをグリッド領域の特徴ベクトルに変換する。入力データは、ネットワークの隠れ層によってさらに処理されることになる。各畳み込みカーネルのFOVに基づいて、「表面点」の幾何学的情報は、3Dグリッドのノードを介して分布され、グリッド領域706内にm個の特徴ベクトルをもたらすことになる。

モンテカルロ畳み込み層は、点群の点など、非構造化データに対する畳み込みを計算することが可能な畳み込み層である。MC畳み込み層は、Hermosillaらによる論文、「Monte Carlo convolution for learning on non-uniformly sampled point clouds」、ACM Transactions on Graphics、第37巻、No.6、論文235、2018年11月に記述されている。図に示すように、MC畳み込み層は、4つのパラメータによって特徴付けられてよく、表記A|B|C|Dは、その層が、Dに等しい視野(FOV)を使用して、レベルBからレベルCに点をマッピングするように構成されることを示す。定数Aは、その層の出力側における特徴ベクトルの次元を決定する。

図8は、特徴fを点群領域からグリッド領域に転送するように構成されたモンテカルロ畳み込み層の動作を概略的に示す。畳み込み演算は、2つの関数fおよびgの積の積分として定義され得る:

式中、関数fは、畳み込まれることになるR³に対するスカラー関数であり(この場合、特徴抽出ネットワークによって決定される特徴ベクトル)、関数gは、R³に対するスカラー関数である畳み込みカーネルである。具体的には、関数fは、ディスクリートサンプルxi∈SのセットSに対する特徴関数を定義する(所与のデータポイント)。各点の空間座標の他に何の情報も提供されない場合、fは、サンプル表面において値「1」を有し、さもなければ、点がその空間座標によって表される場合、値「0」を有するバイナリ関数を表し得る。他の変形体では、関数fは、たとえば、色、法線、など、他のタイプの入力情報を考慮に入れることも可能である。

階層ネットワーク構造(たとえば、多層ネットワーク)の場合、第1の畳み込み層からの出力は、後続の畳み込み層に対する入力を形成する特徴を表す。gの値は相対位置にのみ依存するため、畳み込み積分は並進不変(translation invariant)である。点群全体に対する畳み込み積分の評価は、大きなデータセットの場合、問題になる場合があり、したがって、gの領域は、0を中心とした半径1の球体に限定され得る。複数の半径をサポートするために、gの入力は、受容野r、すなわち、畳み込みカーネルの球状視野(FOV)の半径によってそれを分割することによって正規化され得る。具体的には、rは、シーンバウンディングボックス直径bの数分の1になるように選定され得る、たとえば、r=0.1・b。点群データは1に等しい分散を有するように正規化されるため、シーン境界の直径は、1(b=1)に等しくなると見なされる。これは、スケール不変性を生じさせることになる。そのような相対的なカーネルサイズは、異なるサイズ(直径)を用いた入力走査に対して処理を無効にすることになる。この構成は、評価が早いコンパクトにサポートされるカーネルを生じさせることがある。

多層パーセプトロン(MLP)ネットワークは、上記で引用したHermosillaらの著作と同様のカーネルgに対して使用され得る。一実施形態では、MLPネットワークは、3つの正規化座標を含み、それらを受容野rで除算して、空間オフセットδ=(x-y)/rを決定し得る。MLPネットワークの出力は、単一スカラーである。精度と性能のバランスをとるために、隠れ層の数、たとえば、2または3、が使用されてよく、各隠れ層は、複数のニューロンを含み得る。一実施形態では、隠れ層は、6個～12個のニューロン、好ましくは、8個のニューロンを含み得る。MLPカーネル内のパラメータの数は、入力ベクトルおよび出力ベクトルの次元に伴って増大する。したがって、一実施形態では、複数の出力(異なるg個のカーネルを表す)を有する1つのMLPは、トレーニング可能なパラメータの数を(たとえば、MLPの出力が8個の異なるgを生成する場合、8分の1に)低減させるために使用され得る。MLPネットワークの出力はその入力に対して区別可能であるため、逆伝搬アルゴリズムがカーネルのパラメータを更新するために使用され得る。一実施形態では、ネットワークをトレーニングするために、最急降下最適化方式が使用され得る。

各サンプリング点の畳み込みを計算するために、畳み込み積分が評価される必要がある。特徴関数fのサンプルの1つのセットのみが利用可能であるため、3D点群空間内の点xにおける畳み込みの推定を決定するために、いわゆる、モンテカルロ積分が使用され得る。モンテカルロ積分手法では、積分の値を計算するために、ランダムサンプルのセットが使用され得る。この手法に基づいて、点xに対する畳み込みの推定は、以下の式によって与えることができる:

式中、N(x)は、近隣インデックスのセット、すなわち、半径r(受容野)の球体内の近隣点に属するインデックスのセットであり、plxは、点xが固定である(すなわち、畳み込みが点xにおいて計算される)ときの点yiにおける確率密度関数(PDF)の値である。ここで、xは、入力点yiのセットの点に必ずしも一致するとは限らない点群の3D空間の任意の出力点である。一実施形態では、MCCNetの第1の畳み込み層の出力は、3Dグリッドの点であり得る(本出願では、3Dグリッドの点は、点群の点からそれらを区別するためのノードをやはり指す)。より深い層(第2以降の層)では、各層の出力点は、初期3Dグリッドの点のサブセットであり得る。これらの出力点は、代表点と呼ばれる。モンテカルロ畳み込みのこのプロパティは、他のレベルまたは他の正規領域(たとえば、ノードの均一3Dグリッド)または非正規領域(ノードの不均一3Dグリッド)に対する再サンプリングを可能にする。

3Dグリッドのノードが、各点yiに対して、不均一に分布される場合、plxの値は異なることになり、サンプル位置yiのみではなく、受容野、すなわち、FOV、の半径r、および受容野内の他の点の分布にも依存し得る。サンプル密度は所与の点群に対して知られていないため、サンプル密度は、カーネル密度推定と呼ばれる技法によって近似され得る。推定関数は、サンプルが密である場合、高値を有し、サンプルが低密度である場合、低値を有する。この関数は、以下の式に基づいて計算され得る:

式中δは、得られたサンプル密度関数の平滑化を決定する帯域幅であり、hは、密度推定カーネル、すなわち、その積分が1に等しい非負関数(たとえば、ガウス関数)であり、dは、R³の3つの次元のうちの1つであり、σは、ガウス窓の半径である。ガウスカーネル密度推定器の代わりに、限定はしないが、Epanechnikov、Quartic、またはトライキューブカーネル推定器を含めて、他のタイプの関数が使用されてもよい。

3Dグリッド808内のノード位置x800における点群サンプルに対するMC畳み込みの適用例が図8Aおよび図8Bに示されている。図8Aは、点群の3D入力空間(入力空間)内のノードの3Dグリッドを示す。明快のために、点群の点は示されていない。

図8Bは、ノードXの周囲のエリアのより詳細な図を示す。この図は、ノードxおよびノードxの周囲の点群の点yiを示す。明快のために、図8Bでは、ノードx以外の3Dグリッド808のノードは示されていない。畳み込みを計算するために、球状視野(FOV)802(rに等しい半径を有する)内の点yiに関連する特徴f(yi)はMLPカーネルによって処理される。FOV内の点群の各点yi804に対して、σに等しい半径を有するガウス窓806を有する点密度関数(PDF)が局所的に計算され得る。ノードの正規3Dグリッドの代わりに、たとえば、図7を参照しながら説明したような、ノードの不正規グリッドが使用され得ることに留意されたい。

所与のノードxに対する点yiのPDFは、常に、受容野内のすべての他の点に関係する。したがって、その値は、xおよび半径rによって定義される各受容野に対して異なることになるため、点yiに対して密度を事前に計算することはできない。均一サンプリング(たとえば、ボクセル化、または均一グリッドなど、点の均一分布)の場合、密度関数pは、すべての所与のyi点に対して一定値に設定され得る。MC畳み込み層によって計算される畳み込みの出力は、入力、およびカーネルの学習パラメータに対して区別可能である。

図9～図11は、物体分類ネットワーク、物体ロケーション予測器ネットワーク、およびマスク予測器ネットワークに対する例示的なネットワークアーキテクチャを示す。図9および図10に示すように、分類およびロケーション予測器ネットワークは両方とも、物体プロポーザルネットワークから特徴ベクトルを受信するように構成された全結合(FC)MLPネットワークとして実装される。各ネットワークは、各々が、バッチ正規化層904_1～3、1004_1～3によって分離されている、FC MLP層902_1～4、1002_1～4のスタックを含む。ここで、パラメータCは、全結合ネットワークの各層内のニューロンの数を示す。

図9の物体分類ネットワークは、物体プロポーザルネットワークから特徴セット900を受信することができ、各特徴セットは、3Dアンカー内の特徴を定義する。一実施形態では、特徴セットは特徴行列を表し得る。上記で説明したように、各特徴セットは、固定数の特徴を含み得る。特徴セットに基づいて、物体分類ネットワークは、各々が3Dグリッドのノードを中心とする、分類された3Dアンカー906、すなわち、3Dバウンディングボックスを決定し得る。分類された3Dアンカーは、3Dアンカーが物体インスタンスを含む確率または含まない確率を示すスコアに関連付けられ得る。一実施形態では、物体分類ネットワークは、バイナリ分類を実行するようにトレーニングされ得る。その場合、ネットワークは、3Dアンカーが、物体インスタンス(たとえば、歯)を定義する点を含むか否か(背景)を決定し得る。別の実施形態では、物体分類ネットワークは、異なるクラスの物体インスタンス、たとえば、切歯また奥歯を決定するようにトレーニングされ得る。

図10のロケーション予測器ネットワークは、正に分類された3Dアンカー(すなわち、物体を含む3Dアンカー)の物体プロポーザルネットワークから特徴セット900を受信し、3Dアンカーのノードに対する物体の中心位置を定義するオフセットおよび3Dアンカーの次元に対して物体を正確に含む3Dバウンディングボックスの次元を定義する次元オフセット(たとえば、スケーリング値)を生成し得る。したがって、ロケーション予測器ネットワークは、3Dアンカー次元と物体の次元との間の差異(デルタ)および3Dアンカーの中心位置と対応する物体の位置の中心との間の差異を決定し得る。別の実施形態では、ロケーション予測器ネットワークは、位置および次元の絶対値を決定し得る。

図11は、本発明の一実施形態によるマスク予測器ネットワークの概略図を示す。図3を参照しながら説明したように、物体ボリュームの各々の位置および次元は、3Dクロッピングモジュールによって、物体パッチを点群からクロッピングするために使用され、各物体パッチは、物体検出器によって予測される(検出される)物体を表す点を含む点のセットを定義し得る。3Dクロッピングモジュールは、mxkの物体ボリュームの各々を使用してp個の点を点群からクロッピングすることができ、各点は特徴ベクトルに関連付けられ、m×k×pの特徴ベクトルをもたらす(各特徴ベクトルは、複数の、たとえば、256個の、特徴要素を有する)。

図に示すように、検出されたバウンディングボックス内部のすべての点に1の値を割り当て、ボックス外部の点にゼロを割り当てることによって構築されている、mxkxqのマスクの各々は、マスク生成器に渡される。さらに、nx256のサイズを有するすべての点に対する第1の特徴ベクトルがマスク生成器に与えられる。ここで、qは、検出された物体(すなわち、歯)の数である。マスク生成器の出力は、各バウンディングボックス内部の点のバイナリ分類である。したがって、mxkxpx3の点1100およびmxkxpx256の関連特徴ベクトル1101の各々がネットワークの入力に提供され得る。マスク予測器ネットワークは、MLPベースのネットワークを含み得る。一実施形態では、MLPベースのネットワークは、(たとえば、図5および図6を参照しながら説明したような)PointCNNネットワークアーキテクチャを有し得る。代替として、MLPベースのネットワークは、(限定はしないが)PointNet、PointGrid、MCCNet、PointCNN、PointNet++、SpiderCNN、などを含む点群を処理することが可能な他のニューラルネットワークに基づき得る。図11に示すように、MLPベースのネットワークモデル1102は、χ-Conv層1104_1～3の(小さな)スタックを含んでよく、各χ-Conv層は、畳み込み演算子による処理に先立って、入力点およびそれらの対応する特徴を重み付けおよび置換するように構成され得る。

マスク予測器ネットワークは、各物体パッチ内部の点の分類を実行し得る。一実施形態では、マスク予測器ネットワークは、物体パッチの点を2つのクラスに分類するバイナリ分類を実行し得る。たとえば、IOSデータの場合、バイナリ分類は、点を第1の点、たとえば、歯のインスタンスに属し得る前景点、および第2の点、たとえば、他の歯または歯肉に属し得る背景点に分類し得る。

したがって、上記で図1～図11を参照しながら説明した、点群の物体検出およびインスタンスセグメント化のための深層学習システムは、ボクセル化の必要なしに、点群をセグメント化するための正確かつ高性能なシステムを提供し得る。高レベルで、深層学習システムは、Shaoqing He,Kらによる論文、「Mask r-cnn」、IEEE international conference on computer visionの議事録、2961～2969頁(2017年)に記述される2D画素ベースの画像のインスタンスセグメント化のための周知のマスクR-CNNシステムの3D点群アナログと考えることができる。したがって、本発明による深層学習システムは、バックボーンネットワークとして特徴抽出ネットワーク、領域提案ネットワーク(RPN)として物体プロポーザルネットワーク、および分類、回帰、およびマスク生成のための3つの予測器ネットワークを有する、マスクMCNetと呼ばれることがある。

図1～図11を参照しながら説明した深層学習システムのトレーニングは、エンドツーエンドトレーニング方式、たとえば、最急降下およびAdam学習適応技法を使用して実行され得る。たとえば、(正のアンカーと負のアンカーとの間で等しくバランスがとられた)32のバッチサイズを有する1000個のエポックが使用され得る。入力の前処理は、ゼロ平均および単位分散を取得するための点群の正規化を含み得る。

トレーニングセットは、ラベル付けされた点群サンプルのセットを含み得る。たとえば、IOSデータの場合、トレーニングセットは、各々が1つの上顎走査および(たとえば、図3に示したような)1つの下顎走査を含む、歯列の光学走査、たとえば、異なる成人被験者からの歯列の100以上の光学走査、を含み得る。IOSデータは、平均で([100,000、310,000]の範囲間隔の点で異なる)180,000個の点を含む、3Dスキャナ、たとえば、3Shape d500光学スキャナ(3Shape AS、Copenhagen、Denmark)、を使用して記録され得る。データセットは、被験者のうち様々な異常を伴う、健康な歯列からの走査を含み得る。

一実施形態では、光学走査は、手動でセグメント化されてよく、それらのそれぞれの点は、FDI標準に従って、歯科医療従事者により32のクラスのうちの1つにラベルおよび分類され、1人の歯科専門家(DAM)により検討および調整され得る。光学走査のセグメント化は、平均で45分かかることがあり、点群のセグメント化が人間にとって集約的で困難なタスクであることを示す。

損失関数は、本出願で説明する実施形態のネットワークをトレーニングするために使用され得る。Mask-MCNetの損失関数は、Mask-MCNetの異なるネットワークからの損失寄与を含み得る。一実施形態では、損失寄与は、物体分類ネットワークの出力に関連する第1の損失寄与、物体ロケーション予測器ネットワークに関連する第2の損失寄与、およびマスク予測器ネットワークに関連する第3の損失寄与を含み得る。一実施形態では、損失寄与は、3つの損失寄与の各々の等しい寄与を有する、3つの損失寄与が使用された、マスクR-CNNに対してShaoqing He,K.ら(上記)によって使用された損失関数と同様であり得る。

一実施形態では、第1の損失寄与(分類損失)は、その出力層、たとえば、softmax層など、の上の分類分岐(物体分類ネットワーク)に対するクロスエントロピー損失値を定義し得る。一実施形態では、第1の損失寄与は、以下のように計算され得る:

式中で、p_iは、3Dグリッドのノードが(高いIoUを有する)物体を有する3Dアンカーの中心である確率を定義し得、p_i ^*は、セット{0,1}から選択されたそのグラウンドトゥルースである。パラメータN_aは、3Dグリッドのノードの数を定義する。

一実施形態では、第2の損失寄与(回帰損失)は、回帰分岐(物体ロケーション予測器ネットワーク)の出力層(好ましくは、線形出力層)における平均2乗誤差を定義し得る。一実施形態では、第2の損失寄与は、以下のように計算され得る:

式中、t_iは、3Dアンカーの中心位置のデルタ値または次元を表す3つの要素のベクトルを定義し得、t_i ^*は、そのグラウンドトゥルースである。パラメータN_pは、入力IOS内の正のアンカーの数を定義し得る。

一実施形態では、第3の損失寄与(マスク損失)は、マスク分岐(マスク予測器ネットワーク)の出力層における正のアンカー(好ましくは、各正のアンカー)内の点(好ましくは、すべての点)の分類のためのバイナリクロスエントロピー損失を定義し得る。回帰損失およびマスク損失は、3Dアンカーが正とラベル付けされる場合、考慮に入れてよい。マスク損失は、以下の式に基づいて計算され得る:

式中、p_iは、点が、3Dアンカーによって包含される、対応する物体に属する確率である。ここで、p_i ^*は、{0,1}のセットからのグラウンドトゥルース値である。パラメータN_mは、第iの3Dアンカー内部の点の数を定義し得る。トレーニング中、回帰損失およびマスク損失は、物体ロケーション予測器ネットワークの重みおよびマスク予測器ネットワークの重みをそれぞれ変更するために使用され得る。

システムのトレーニングプロセスの例示的な実施形態では、3Dアンカーは、それが、第1のしきい値を上回る、ラベル付けされた点群パッチ内の任意の歯のインスタンスとの重複を有する場合、正とラベル付けされ得る。一実施形態では、第1のしきい値は、0.4IoUであってよく、IoUは、平均Jaccard Indexを定義する。別の実施形態では、3Dアンカーは、それが、第2のしきい値を下回る、ラベル付けされた点群パッチ内の任意の歯のインスタンスとの重複を有する場合、負とラベル付けされ得る。

一実施形態では、第2のしきい値は、0.2であってよい。正および負の3Dアンカーの数は非常にアンバランスであるため、各トレーニングバッチの約50%が正の3Dアンカーから選択され、25%が負の3Dアンカーから選択され得る。トレーニングバッチ内の25%のサンプリング3Dアンカーの残りは、負のサンプルとも見なされる限界3Dアンカーから選択され得る、たとえば、(0.2<IoU<0.4)である。

さらに、一実施形態では、トレーニングフェーズ中、Mask-MCNetに対する入力は、点群のランダムにクロッピングされたパッチであり得る。各クロッピングパッチは、いくつかの物体インスタンス、たとえば、2～4個の歯のインスタンスを含み得る。一実施形態では、均一グリッド領域が構築され得る。別の実施形態では、不均一グリッド領域は、各次元において0.04(下限)空間解像度を用いて密な正規グリッドのノードをフィルタで除去することによって構築され得る。グリッド解像度に対する上限は、0.12に等しくなるように設定され得る。3Dアンカーと、小型物体と大型物体(たとえば、それぞれ、切歯と奥歯)の両方との間に十分な重複を生じさせるために、異なる次元の3Dアンカーが使用され得る。たとえば、一実施形態では、([0.3,0.3,0.2]および[0.15,0.2,0.2]のサイズを有する)2つのタイプ(k=2)の3Dアンカーボックスが採用され得る。

図12Aおよび図12Bは、本発明の様々な実施形態によるトレーニング深層学習システムの流れ図を示す。図12Aは、点群内の物体検出のためのディープニューラルネットワークシステムをトレーニングする流れ図を示す。ディープニューラルネットワークは、本出願で説明する実施形態のうちのいずれかによる、特徴抽出ネットワーク、物体プロポーザルネットワーク、および物体分類ネットワークを含み得る。図に示すように、第1のステップ(ステップ1202)において、1つまたは複数のラベル付けされた物体インスタンスを含むトレーニング点群サンプルがディープニューラルネットワークシステムの入力に提供され得る。ディープニューラルネットワークシステムは、点群内の物体検出のために構成された、少なくとも特徴抽出ネットワーク、物体プロポーザルネットワーク、および物体分類ネットワークを含み得る。さらなるステップ(ステップ1204)は、物体プロポーザルネットワークによって、特徴抽出ネットワークによって決定された点群特徴に基づいて、物体プロポーザルを計算するステップを含み得る。ここで、物体プロポーザルは、物体を定義する点を含み得る3Dバウンディングボックスを定義し得る。そのような3Dバウンディングボックスは、3Dアンカーと呼ばれることがある。トレーニングプロセスは、3Dアンカーとトレーニング点群サンプル内のラベル付けされた物体インスタンスの3Dバウンディングボックスとの間の重複を決定するステップ(ステップ1206)をさらに含み得る。3Dアンカーは、重複が所定のしきい値を上回る場合、正とラベル付けされてよく、重複が所定のしきい値を下回る場合、負とラベル付けされてよい。次に、3Dアンカー内の特徴を使用して、物体分類ネットワークによって3Dアンカーに対する物体予測が決定され得る(ステップ1208)。

したがって、正とラベル付けされた3Dアンカーと負とラベル付けされた3Dアンカーの両方が物体分類ネットワークのトレーニングのために使用され得る。物体分類ネットワークは、3Dアンカーが正(positive)(物体を含む)とラベル付けされるべきかまたは負(negative)(物体を含まない)とラベル付けされるべきかを予測し得る。トレーニング中、いずれの場合も、寄与を決定するために第1の損失関数が使用される(すなわち、予測が正しかった場合、損失は値0のものになる(補正なし)が、予測が誤っていた(肯定的であったが否定的な予測、またはその逆)場合、損失値は、正になる(またネットワークの補正が行われることになる))。物体予測および損失関数は、損失値を取得するために使用され得る。最終的に、損失値は、逆伝搬方法を使用して、特徴抽出ネットワーク、物体プロポーザルネットワーク、および物体分類ネットワークをトレーニングするために使用され得る(ステップ1210)。

図12Bは、本発明の一実施形態による、点群のインスタンスセグメント化のためにディープニューラルネットワークシステムをトレーニングする流れ図を示す。ステップ1222において、1つまたは複数のラベル付けされた物体インスタンスを含むトレーニング点群サンプルがディープニューラルネットワークシステムの入力に提供され得る。ここで、ディープニューラルネットワークシステムは、点群のインスタンスセグメント化のために構成され得る。そのようなネットワークは、少なくとも特徴抽出ネットワーク、物体プロポーザルネットワーク、物体分類ネットワーク、物体ロケーション予測器ネットワーク、およびマスク予測器ネットワークを含み得る。

トレーニングプロセスは、特徴抽出ネットワークによって決定された点群特徴に基づいて、物体プロポーザルネットワークによって物体プロポーザルを計算するステップを含み得(ステップ1224)、物体プロポーザルは、物体を定義する点を含み得る3Dバウンディングボックスを定義し得る。そのような3Dバウンディングボックスは、3Dアンカーを定義し得る。さらなるステップ(ステップ1226)において、3Dアンカーとトレーニング点群サンプル内のラベル付けされた物体インスタンスの3Dバウンディングボックスとの間の重複が決定され得、3Dアンカーは、重複が所定のしきい値を上回る場合、正とラベル付けされ得、重複が所定のしきい値を下回る場合、負とラベル付けされ得る。

物体予測は、3Dアンカー内の特徴に基づいて、物体分類ネットワークによって、正または負とラベル付けされた3Dアンカーに対して決定され得る(ステップ1228)。物体分類ネットワークは、3Dアンカーが正(物体を含む)としてラベル付けされるべきか、または負((完全な)物体を含まない)としてラベル付けされるべきかを予測する。トレーニング中、いずれの場合も、寄与を決定するために第1の損失関数が使用される(すなわち、予測が正しかった場合、損失は値0のものになる(補正なし)が、予測が誤っていた(それは肯定的であったが負の予測、またはその逆である)場合、損失値は正になる(また、ネットワークの補正が行われることになる))。このようにして、第1の損失関数に基づいて第1の損失寄与を決定するために、物体予測とグラウンドトゥルース(ラベル付けされた物体)との間の差異が使用され得る。

物体ボリュームのロケーションおよびサイズ予測は、3Dアンカー内の特徴に基づいて、物体ロケーション予測器ネットワークによって決定され得る(ステップ1230)。ここで、物体ボリュームは、正に分類された3Dアンカーの中心に一致すべきである中心を有し、かつ物体インスタンスの次元に厳密に一致すべきである次元を有する3Dバウンディングボックスであり得る。予測されたロケーションおよびサイズとグラウンドトゥルース(ラベル付けされたロケーションおよびサイズ)との間の差異は、第2の損失関数に基づいて第2の損失寄与を決定するために使用され得る。差異が大きければ大きいほど、損失寄与も大きくなる。

分類点は、物体ボリューム内の第1の点群特徴に基づいて、マスク予測器ネットワークによって予測され得、分類点は、物体インスタンスに属する第1の分類点および物体インスタンスに属さない第2の分類点を含み得る(ステップ1232)。予測される点分類とグラウンドトゥルース(ラベル付けされる分類点)との間の差異は、第3の関数に基づいて、第3の損失寄与を決定するために使用され得る。第1、第2、および第3の損失寄与は、逆伝搬方法を使用して、特徴抽出ネットワーク、物体プロポーザルネットワーク、物体分類ネットワーク、物体ロケーション予測器ネットワーク、およびマスク予測器ネットワークをトレーニングするために使用され得る(ステップ1234)。

新しい点群、たとえば、新しいIOSデータセットに対する推論は、いくつかのクロッピングされた重複パッチにMask-MCNetを適用することによって実行され得る。3Dパッチを与え、最も高く規定された解像度(たとえば、0.04)を有するノードの均一3Dグリッドを適用して、3Dグリッドのノード上に位置する3Dアンカーは、分類分岐によって物体あり/物体なしに分類される。正に分類された3Dアンカー(すなわち、検出された物体)の次元および(中心)位置は、回帰分岐(すなわち、物体ロケーション予測器ネットワーク)による推定値に従って更新される。図13は、Mask-MCNetによって決定された、正に分類された3Dアンカー1302_1、2およびグラウンドトゥルースを表す3Dバウンディングボックス1302_1、2の可視化を示す。図に示すように、2つの3Dアンカーは、異なるスケールおよび中心位置を有する。正に分類された3Dアンカーは、3Dアンカーを正(すなわち、物体(の部分)を含む)とラベル付けするために第1のしきい値(IoUで)よりも高いグラウンドトゥルース3Dバウンディングボックスとの重複を有する。

高速RCNNと同様に、各物体に対して、複数の3Dアンカーが検出されることがあり、各3Dアンカーは、第1のしきい値よりも高い確率スコアに関連付けられる。したがって、(分類確率からの)最大客観性スコアに従って、非最大値抑制アルゴリズム(non-maximum suppression algorithm)が採用され得る。したがって、このアルゴリズムに基づいて、最高確率スコアを有する3Dアンカーが決定され得る。非最大値抑制は、入力パッチを重複させることによって、繰り返される点をやはり処理する。すべての歯のインスタンスのバウンディングボックスを予測した後、マスク生成分岐からバウンディングボックス内部のすべての点に対するマスクを検索することは簡単である。

Mask_MCNetによるIOSインスタンスセグメント化の例が、図14A～図14Hで視覚化されている。ここで、図14A、図14Bは、通常の歯列のセグメント化を示す。図14Cは、欠落したデータを有する、セグメント化された歯を含む、セグメント化された歯列を示す。図14D～図14Fは、異常および人工物を有する、セグメント化された歯を含む、セグメント化された歯列を示す。図14G、図14Hは、セグメント化が失敗した2つの例を示す。

5重相互検証(fivefold cross-validation)によって最先端分類ネットワークと比較したMask-MCNetの性能が評価される。平均Jaccard Index(IoUとも呼ばれる)がセグメント化メトリックとして使用される。IoUの他に、各クラスをバイナリ問題として個々に(1対全で)処理することによって、マルチクラスセグメント化問題に対する適合率および再現率が報告される。加えて、平均スコアが同様に報告される。Mask-MCNetの性能をTable 1(表1)に示す。Table 1(表1)に示すように、提案されるMask-MCNetは、点群データをセグメント化することが可能な最先端ネットワークよりもかなり優れている。

図15は、本発明の一実施形態による、セグメント化された点群の後処理の流れ図を示す。臨床目的で、歯のラベル割当ての一貫性のために、後処理方法は、Mask-MCNetによって予測されたインスタンスラベルをFDI標準ラベルに(ルックアップテーブルにより)変換するために使用され得る。トレーニングデータ内のFDI標準ラベルの平均中心位置およびサイズを測定することによって、組合せ探索アルゴリズム(combinatorial search algorithm)は、制約充足問題(CSP:constraint satisfaction problem)の文脈で事前定義された制約(トレーニングデータに対する事前測定)を満たす、最も可能性が高いラベル割当てを決定し得る。有限領域に対する制約充足問題は、一般に、探索の形で解決される。そのような探索の技法は、バックトラッキング、制約伝搬、または局所探索の変形体であり得る。

図16は、本開示で説明する実施形態において使用され得る例示的なデータ処理システムを示すブロック図である。データ処理システム1600は、システムバス1606を通じてメモリ要素1604に結合された、少なくとも1つのプロセッサ1602を含み得る。したがって、データ処理システムは、プログラムコードをメモリ要素1604内に記憶し得る。さらに、プロセッサ1602は、システムバス1606を介してメモリ要素1604からアクセスされるプログラムコードを実行し得る。一態様では、データ処理システムは、プログラムコードを記憶および/または実行するのに適したコンピュータとして実装され得る。しかしながら、データ処理システム1600は、本明細書内で説明する機能を実行することが可能なプロセッサおよびメモリを含む任意の形態のシステムの形で実装され得ることを諒解されたい。

メモリ要素1604は、たとえば、ローカルメモリ1608および1つまたは複数の大容量記憶デバイス1610など、1つまたは複数の物理メモリデバイスを含み得る。ローカルメモリは、ランダムアクセスメモリ、または概して、プログラムコードの実際の実行中に使用される他の非永続メモリデバイスを指すことがある。大容量記憶デバイスは、ハードドライブまたは他の永続データ記憶デバイスとして実装され得る。処理システム1600は、プログラムコードが実行中に大容量記憶デバイス1610から検索されなければならない回数を低減するために、少なくともいくつかのプログラムコードの一時的記憶を提供する、1つまたは複数のキャッシュメモリ(図示せず)を含んでもよい。

入力デバイス1612および出力デバイス1614として示される入出力(I/O)デバイスは、場合によっては、データ処理システムに結合され得る。入力デバイスの例は、限定はしないが、たとえば、キーボード、マウスなどのポインティングデバイスを含み得る。出力デバイスの例は、限定はしないが、たとえば、モニタまたはディスプレイ、スピーカなどを含み得る。入力デバイスおよび/または出力デバイスは、直接的にまたは介在するI/Oコントローラを通じてのいずれかで、データ処理システムに結合され得る。ネットワークアダプタ1616も、自らが介在するプライベートまたはパブリックネットワークを通して他のシステム、コンピュータシステム、リモートネットワークデバイス、および/またはリモート記憶デバイスに結合さることを可能にするために、データ処理システムに結合され得る。ネットワークアダプタは、前記システム、デバイス、および/またはネットワークによって送信されたデータを受信するためのデータ受信機、および前記システム、デバイス、および/またはネットワークにデータを送信するためのデータ送信機を備え得る。モデム、ケーブルモデム、およびEthernetカードは、データ処理システム1600とともに使用され得る異なるタイプのネットワークアダプタの例である。

図16に示すように、メモリ要素1604は、アプリケーション1618を記憶し得る。データ処理システム1600は、アプリケーションの実行を円滑にし得るオペレーティングシステム(図示せず)をさらに実行し得ることを諒解されたい。実行可能プログラムコードの形で実装されるアプリケーションは、データ処理システム1600によって、たとえば、プロセッサ1602によって、実行され得る。実行アプリケーションに応じて、データ処理システムは、本明細書でさらに詳細に説明されることになる1つまたは複数の動作を実行するように構成され得る。

一態様では、たとえば、データ処理システム1600は、クライアントデータ処理システムを表し得る。その場合、アプリケーション1618は、実行されると、本明細書で「クライアント」を参照しながら説明する様々な機能を実行するようにデータ処理システム1600を構成するクライアントアプリケーションを表し得る。クライアントの例は、限定はしないが、パーソナルコンピュータ、ポータブルコンピュータ、モバイルフォン、などを含み得る。別の態様では、データ処理システムは、サーバを表し得る。たとえば、データ処理システムは、サーバ、クラウドサーバまたは(クラウド)サーバのシステムを表し得る。

本明細書で使用する用語は、特定の実施形態を説明するためだけであり、本発明を限定することを意図しない。本明細書で使用する単数形「a」、「an」、および「the」は、文脈上、他の意味が明確に示される場合を除いて、複数形も同様に含むことを意図する。「備える(comprises)」および/または「備える(comprising)」という用語は、本明細書で使用するとき、述べた特徴、整数、ステップ、動作、要素、および/または構成要素の存在を指定するが、1つまたは複数の他の特徴、整数、ステップ、動作、要素、構成要素、および/またはそれらのグループの存在または追加を排除しないことをさらに理解されよう。

以下の請求項のすべてのミーンズまたはステッププラスファンクション要素の対応する構造、材料、活動、および均等物は、具体的に特許請求されるように他の特許請求される要素と組み合わせて機能を実行するための任意の構造、材料、または活動を含むことを意図する。本発明の説明は、例示および説明のために提示されているが、網羅的であることまたは本発明を開示する形に限定することを意図しない。本発明の範囲および趣旨から逸脱することなく、多くの修正および変形は当業者に明らかになろう。この実施形態は、本発明の原理および実際的な適用を最も良く説明するために、かつ他の当業者が、企図される特定の使用に適した様々な修正を用いて、様々な実施形態に関して本発明を理解することを可能にするために、選定および説明された。

100 システム
101 処理ユニット
102 不規則な3D点群
103 メモリ
104 特徴抽出器
106 物体検出器
108 マスク生成器
202 3D空間
204_1～3 第1の物体
206_1、2 第2の物体
207 3Dグリッド、ノード
208_1～3 第1の物体
210_1,2 第2の物体
212_1～3 点の3つにセグメント化されたセット
302 入力データ
306 物体検出器
308 マスク生成器
310 IOSパッチ
312 座標
314 法線ベクトル
316 特徴抽出ネットワーク
318 物体プロポーザルネットワーク
319 グリッド生成器
320 補間モジュール
322 物体分類ネットワーク
324 特徴ベクトル
326 3Dグリッド
332 分類された3Dアンカー
334 物体ロケーション予測器ネットワーク
336 3Dクロッピングモジュール
338 マスク予測器ネットワーク
340 情報
502 点群
504 特徴抽出ネットワーク、MLPベースのネットワークモデル
506_1～9 χ-Conv層
510 ネットワーク
609 K個の最近隣(KNN)点
610 MLPネットワーク
612 MLPネットワーク
702 点群領域
704 物体プロポーザルネットワーク
706 グリッド領域
707 ノード
708 3Dグリッド生成器
710 密な均一3Dグリッド
712_1～4 モンテカルロ(MC)空間畳み込み層
712₁ 第1のMC特殊畳み込み層
714_1～6 バッチ正規化(BN)層
716_1～3 1x1畳み込み層
800 ノード位置x
802 球状視野(FOV)
804 点yi
806 ガウス窓
808 3Dグリッド
900 特徴セット
902_1～4 FC MLP層
904_1～3 バッチ正規化層
906 3Dアンカー
1002_1～4 FC MLP層
1004_1～3 バッチ正規化層
1100 点
1101 関連特徴ベクトル
1102 MLPベースのネットワークモデル
1104_1～3 χ-Conv層
1600 データ処理システム
1602 プロセッサ
1604 メモリ要素
1606 システムバス
1608 ローカルメモリ
1610 大容量記憶デバイス
1612 入力デバイス
1614 出力デバイス
1616 ネットワークアダプタ
1618 アプリケーション

Claims

口腔内走査(IOS)点群を含む3D光学スキャナによって生成された点群の中の物体検出の方法であって、
第1のタイプのディープニューラルネットワークによって、点群の点に関連する第1の特徴を決定するステップであって、
前記点群が、前記点群の少なくとも3D空間内の1つまたは複数の物体を表す点を含み、前記第1の特徴が、前記点群の各点に関する幾何学的情報を定義し、前記第1のタイプのディープニューラルネットワークが、前記点群の点を入力として受信するように構成される、ステップと、
第2のタイプのディープニューラルネットワークによって、前記第1の特徴に基づいて、点群の第2の特徴を決定するステップであって、
前記第2の特徴が、均一3Dグリッドのノードの位置における前記点群に関する局所的な幾何学的情報を定義し、前記ノードが、前記点群の前記3D空間内に均一に分布される、ステップと、
前記第2の特徴に基づいて、1つまたは複数の物体プロポーザルを生成するステップであって、
物体プロポーザルが、前記均一3Dグリッドのノードを中心に位置する3Dバウンディングボックスを定義し、前記3Dバウンディングボックスが、物体を定義し得る前記点群の点を含み、前記3Dバウンディングボックスが3Dアンカーを定義する、ステップと、
第3のタイプのディープニューラルネットワークによって、前記3Dアンカーに対するスコアを決定するステップであって、
前記スコアが、前記3Dアンカーが物体または前記物体の部分を定義する点を含む確率を示し、前記決定するステップが、前記3Dアンカー内に位置特定された第2の特徴に基づく、ステップと
を含む、方法。
点群の前記第1の特徴が第1の特徴ベクトルを含み、各第1の特徴ベクトルが、前記点群の点に関連付けられ、かつ/または
点群の前記第2の特徴が第2の特徴ベクトルを含み、各第2の特徴ベクトルが、前記均一3Dグリッドの前記ノードに関連付けられる、請求項1に記載の方法。
前記第1のタイプのディープニューラルネットワークが、
前記点群の点を受信し、
前記第1の特徴、好ましくは、前記点群の前記点に関連する第1の特徴ベクトルを生成するように構成された特徴抽出ネットワークを定義する、請求項1または2に記載の方法。
前記第1のタイプのディープニューラルネットワークが、多層パーセプトロン(MLP)を含む複数の畳み込み層を含み、
前記特徴抽出ネットワークが、
点群の点をその入力において受信し、
前記点群の各点に対する特徴ベクトルをその出力において生成するように構成される、請求項3に記載の方法。
前記特徴抽出ネットワークが、1つまたは複数のχ-Conv層を含み、
各χ-Conv層が、
前記χ-Conv層の入力に提供された点および対応する特徴を重み付けおよび置換し、
その後、前記置換された点および特徴に畳み込みカーネルを施すように構成され、
好ましくは、前記特徴抽出ネットワークが、χ-Conv層を含むPointCNNとして構成される、請求項3または4に記載の方法。
前記第2のタイプのディープニューラルネットワークが、物体プロポーザルネットワークを表し、
前記物体プロポーザルネットワークが複数の畳み込み層を含み、
前記複数の畳み込み層の各々が、1つまたは複数の畳み込みカーネルを含む多層パーセプトロン(MLP)を含み、
好ましくは、前記複数の畳み込み層のうちの少なくとも1つが、
前記第1の特徴および前記均一3Dグリッドの前記ノードを受信し、
前記第1の特徴に基づいて、前記第2の特徴を決定するように構成される、請求項1から5のいずれか一項に記載の方法。
前記物体プロポーザルネットワークが、複数のモンテカルロ(MC)空間畳み込み層を含む、モンテカルロ畳み込みネットワーク(MCCNet)として構成され、
好ましくは、MC空間畳み込み層が、前記点群の前記3D空間内に位置特定されたノードxのロケーションにおける畳み込みを決定するように構成された畳み込みカーネルを含み、
好ましくは、畳み込みを前記決定するステップが、
- 受容野r内の近隣点yを決定するステップであって、前記受容野が、前記畳み込みカーネルの視野(FOV)を定義する、ステップと、
- 各近隣点yに対して、確率密度関数p(x,y)を決定するステップと、
- 各近隣点yに対して、前記近隣点yおよび各近隣点に対する確率密度値p(x,y)を使用して、モンテカルロ推定に基づいて、前記ノードにおける前記畳み込みを決定するステップと
を含む、請求項6に記載の方法。
前記第3のタイプのディープニューラルネットワークが、物体分類ネットワークを表し、
前記第3のタイプのディープニューラルネットワークが、複数の全結合(FC)多層パーセプトロン(MLP)層を含み、
前記第2のタイプのディープニューラルネットワークが、
前記3Dアンカーに関連する特徴を受信し、
前記3Dアンカーに関連するスコアを決定するために、前記特徴を使用するように構成され、
前記スコアが、前記3Dアンカーが物体または前記物体の部分を定義する点を含む確率を示す、請求項1から7のいずれか一項に記載の方法。
口腔内走査(IOS)点群を含む3D光学スキャナによって生成された点群のインスタンスセグメント化の方法であって、
第1のタイプのディープニューラルネットワークによって、点群の点に関連する第1の特徴を決定するステップであって、
前記点群が、前記点群の3D空間内の1つまたは複数の物体を表す点を含み、前記第1の特徴が、前記点群の各点に関する幾何学的情報を定義し、前記第1のタイプのディープニューラルネットワークが、前記点群の点を入力として受信するように構成される、ステップと、
第2のタイプのディープニューラルネットワークによって、前記第1の特徴に基づいて、第2の特徴を決定するステップであって、
前記第2の特徴が、均一3Dグリッドのノードの位置における前記点群に関する局所的な幾何学的情報を定義し、前記ノードが、前記点群の前記3D空間内に均一に分布される、ステップと、
前記第2の特徴に基づいて、物体プロポーザルを生成するステップであって、
物体プロポーザルが、物体を定義し得る点を含む3Dボリュームを定義し、前記物体プロポーザルの前記3Dボリュームが、前記均一3Dグリッドのノードを中心に位置する3Dアンカーを定義する、ステップと、
第3のタイプのディープニューラルネットワークによって、分類された3Dアンカーを決定するステップであって、
前記決定するステップが、第2の特徴セットに基づき、前記第2の特徴セットが、前記3Dアンカー内に位置特定された前記第2の特徴のサブセットである、ステップと、
第4のタイプのディープニューラルネットワークによって、物体ボリュームを決定するステップであって、
前記物体ボリュームの中心位置が、物体インスタンスの中心ロケーションに一致し、前記物体ボリュームの次元が、前記物体インスタンスの外部次元にマッチし、前記決定するステップが、前記第2の特徴セットに基づく、ステップと、
第5のタイプのディープニューラルネットワークによって、前記物体ボリューム内に位置特定される点のセットおよび第1の点群特徴のセットに基づいて、分類点を決定するステップであって、
前記分類点が、前記物体インスタンスに属する第1の分類点および前記物体インスタンスに属さない第2の分類点を含む、ステップと
を含む、方法。
前記第1のタイプのディープニューラルネットワークが、特徴抽出ネットワークを定義し、
前記特徴抽出ネットワークが、多層パーセプトロン(MLP)を含む複数の畳み込み層を含み、
前記特徴抽出ネットワークが、
点群の点をその入力において受信し、
前記点群の各点に対する特徴ベクトルをその出力において生成するように構成され、かつ/または、
前記第2のタイプのディープニューラルネットワークが、物体プロポーザルネットワークを表し、
前記物体プロポーザルネットワークが、複数のモンテカルロ(MC)空間畳み込み層を含むモンテカルロ畳み込みネットワーク(MCCNet)として構成され、
好ましくは、前記物体プロポーザルネットワークが、複数の畳み込み層を含み、
各層が1つまたは複数の畳み込みカーネルを含む多層パーセプトロン(MLP)を含み、
好ましくは、前記複数の畳み込み層の少なくとも1つが、
前記第1の点群特徴および前記均一3Dグリッドのノードを受信し、
前記第1の点群特徴を点群の前記第2の特徴に変換するように構成され、かつ/または、
前記第3のタイプのディープニューラルネットワークが、物体分類ネットワークを表し、
前記第3のタイプのディープニューラルネットワークが、複数の全結合(FC)多層パーセプトロン(MLP)層を含み、かつ/または、
前記第4のタイプのディープニューラルネットワークが、物体ロケーション予測器ネットワークを表し、
前記第4のタイプのディープニューラルネットワークが、複数の全結合(FC)多層パーセプトロン(MLP)層を含み、かつ/または、
前記第5のタイプのニューラルネットワークが、マスク予測器ネットワークを表し、
前記第5のタイプのディープニューラルネットワークが、1つまたは複数のχ-Conv層を含み、
各χ-Conv層が、
前記χ-Conv層の入力に提供された点および対応する特徴を重み付けおよび置換し、
その後、前記置換された点および特徴に畳み込みカーネルを施すように構成される
請求項9に記載の方法。
口腔内走査(IOS)点群を含む3D光学スキャナによって生成された点群の中の物体検出のためにディープニューラルネットワークシステムをトレーニングする方法であって、
1つまたは複数のラベル付けされた物体インスタンスを含むトレーニング点群サンプルを前記ディープニューラルネットワークシステムの入力に提供するステップであって、
前記ディープニューラルネットワークシステムが、少なくとも特徴抽出ネットワーク、物体プロポーザルネットワーク、および物体分類ネットワークを含む、ステップと、
第2の特徴に基づいて、物体プロポーザルを計算するステップであって、
前記第2の特徴が、均一3Dグリッドのノードの位置における前記点群に関する局所的な幾何学的情報を定義し、
前記ノードが、前記点群の3D空間内に均一に分布され、
前記第2の特徴が、前記物体プロポーザルネットワークによって決定され、
前記物体プロポーザルネットワークが、前記トレーニング点群サンプルをその入力において受信する前記特徴抽出ネットワークによって生成された第1の特徴に基づいて、前記第2の特徴を決定するように構成され、
前記物体プロポーザルが、物体を定義する点を含み得る前記均一3Dグリッドのノードを中心とする3Dバウンディングボックスを定義し、
前記3Dバウンディングボックスが3Dアンカーを定義する、ステップと、
前記3Dアンカーと前記トレーニング点群サンプル内のラベル付けされた物体インスタンスの3Dバウンディングボックスとの間の重複を決定し、前記3Dアンカーを、前記重複が所定のしきい値を上回る場合、正とラベル付けし、前記重複が所定のしきい値を下回る場合、負とラベル付けするステップと、
前記3Dアンカー内の点群特徴を使用して、前記物体分類ネットワークによって正および/または負にラベル付けされた3Dアンカーに対する1つまたは複数の物体予測を決定し、前記1つまたは複数の物体予測、前記正および/または負にラベル付けされた3Dアンカー、および第1の損失関数に基づいて、第1の損失値を決定するステップと、
逆伝搬方法を使用して、前記特徴抽出ネットワーク、前記物体プロポーザルネットワーク、および前記物体分類ネットワークをトレーニングするために、前記第1の損失値を使用するステップと
を含む、方法。
口腔内走査(IOS)点群を含む3D光学スキャナによって生成された点群のインスタンスセグメント化のためにディープニューラルネットワークシステムをトレーニングする方法であって、
1つまたは複数のラベル付けされた物体インスタンスを含むトレーニング点群サンプルを前記ディープニューラルネットワークシステムの入力に提供するステップであって、
前記ディープニューラルネットワークシステムが、少なくとも特徴抽出ネットワーク、物体プロポーザルネットワーク、物体分類ネットワーク、物体ロケーション予測器ネットワーク、およびマスク予測器ネットワークを含む、ステップと、
第2の特徴に基づいて、物体プロポーザルを計算するステップであって、
前記第2の特徴が、均一3Dグリッドのノードの位置における前記点群に関する局所的な幾何学的情報を定義し、
前記ノードが、前記点群の3D空間内に均一に分布され、
前記第2の特徴が、前記物体プロポーザルネットワークによって決定され、
前記物体プロポーザルネットワークが、前記トレーニング点群サンプルをその入力において受信する前記特徴抽出ネットワークによって生成された第1の特徴に基づいて、前記第2の特徴を決定するように構成され、
前記物体プロポーザルが、物体を定義する点を含み得る前記均一3Dグリッドのノードを中心とする3Dバウンディングボックスを定義し、
前記3Dバウンディングボックスが3Dアンカーを定義する、ステップと、
前記3Dアンカーと前記トレーニング点群サンプル内のラベル付けされた物体インスタンスの3Dバウンディングボックスとの間の重複を決定し、前記重複が所定のしきい値を上回る場合、正の3Dアンカーを決定し、前記重複が所定のしきい値を下回る場合、負の3Dアンカーを決定するステップと、
前記3Dアンカー内の点群特徴を使用して、前記物体分類ネットワークによって正にラベル付けされた3Dアンカーおよび負にラベル付けされた3Dアンカーに対する1つまたは複数の物体予測を決定し、前記1つまたは複数の物体予測および第1の損失関数に基づいて、第1の損失値を決定するステップと、
前記物体ロケーション予測器ネットワークによって、前記3Dアンカー内の特徴に基づいて、物体ボリュームのロケーションおよびサイズ予測を決定し、第2の損失寄与を決定するために、前記ロケーションおよびサイズ予測、および第2の損失関数を使用するステップと、
前記マスク予測器ネットワークによって、前記物体ボリューム内の点群特徴に基づいて、前記物体インスタンスに属する第1の分類点および前記物体インスタンスに属さない第2の分類点を含む分類点を決定し、第3の損失寄与を決定するために、前記分類点および第3の損失関数を使用するステップと、
逆伝搬方法を使用して、前記特徴抽出ネットワーク、前記物体プロポーザルネットワーク、前記物体分類ネットワーク、前記物体ロケーション予測器ネットワーク、および前記マスク予測器ネットワークをトレーニングするために、前記第1、第2、および第3の損失寄与を使用するステップと
を含む、方法。
口腔内走査(IOS)点群を含む3D光学スキャナによって生成された点群の中の物体検出のために適合されたコンピュータシステムであって、
前処理アルゴリズムおよび少なくともトレーニングされた第1の3Dディープニューラルネットワークを含むコンピュータ可読プログラムコードを具現化したコンピュータ可読記憶媒体と、前記コンピュータ可読プログラムコードと、前記コンピュータ可読記憶媒体に結合されたプロセッサ、好ましくは、マイクロプロセッサと
を備え、前記コンピュータ可読プログラムコードの実行に応答して、前記プロセッサが、
第1のタイプのディープニューラルネットワークによって、点群の点に関連する第1の特徴を決定することであって、
前記点群が、前記点群の3D空間内の1つまたは複数の物体を表す点を含み、前記第1の特徴が、前記点群の各点に関する幾何学的情報を定義し、前記第1のタイプのディープニューラルネットワークが、前記点群の点を入力として受信するように構成される、決定することと、
第2のタイプのディープニューラルネットワークによって、前記第1の特徴に基づいて、第2の特徴を決定することであって、
点群の前記第2の特徴が、均一3Dグリッドのノードの位置における前記点群に関する局所的な幾何学的情報を定義し、前記ノードが、前記点群の前記3D空間内に均一に分布される、決定することと、
前記第2の特徴に基づいて、1つまたは複数の物体プロポーザルを生成することであって、
物体プロポーザルが、前記均一3Dグリッドのノードを中心に位置する3Dバウンディングボックスを定義し、前記3Dバウンディングボックスが、物体を定義し得る前記点群の点を含み、前記3Dバウンディングボックスが、3Dアンカーを定義する、生成することと、
第3のタイプのディープニューラルネットワークによって、前記3Dアンカーに対するスコアを決定することであって、
前記スコアが、前記3Dアンカーが物体または前記物体の部分を定義する点を含む確率を示し、前記決定することが、前記3Dアンカー内に位置特定された第2の特徴に基づく、決定することと
を含む実行可能動作を実行するように構成される、コンピュータシステム。
口腔内走査(IOS)点群を含む3D光学スキャナによって生成された点群のインスタンスセグメント化のために適合されたコンピュータシステムであって、
前処理アルゴリズムおよび少なくともトレーニングされた第1の3Dディープニューラルネットワークを含むコンピュータ可読プログラムコードを具現化したコンピュータ可読記憶媒体と、前記コンピュータ可読プログラムコードと、前記コンピュータ可読記憶媒体に結合されたプロセッサ、好ましくは、マイクロプロセッサと
を備え、前記コンピュータ可読プログラムコードの実行に応答して、前記プロセッサが、
第1のタイプのディープニューラルネットワークによって、点群の点に関連する第1の特徴を決定することであって、
前記点群が、前記点群の3D空間内の1つまたは複数の物体を表す点を含み、前記第1の特徴が、前記点群の各点に関する幾何学的情報を定義する、決定することと、
第2のタイプのディープニューラルネットワークによって、前記第1の特徴に基づいて、第2の特徴を決定することであって、
前記第2の特徴が、前記点群の前記3D空間に広がる均一3Dグリッドのノードの位置における前記点群に関する局所的な幾何学的情報を定義し、前記第1のタイプのディープニューラルネットワークが、前記点群の点を入力として受信するように構成される、決定することと、
前記第2の特徴に基づいて、物体プロポーザルを生成することであって、
物体プロポーザルが、物体を定義し得る点を含む3Dボリュームを定義し、前記物体プロポーザルの前記3Dボリュームが、前記均一3Dグリッドのノードを中心に位置する3Dアンカーを定義し、前記ノードが、前記点群の前記3D空間内に均一に分散される、生成することと、
第3のタイプのディープニューラルネットワークによって、分類された3Dアンカーを決定することであって、
前記決定することが、第2の特徴セットに基づき、前記第2の特徴セットが、前記3Dアンカー内に位置特定された前記第2の特徴のサブセットである、決定することと、
第4のタイプのディープニューラルネットワークによって、物体ボリュームを決定することであって、
前記物体ボリュームの中心位置が、物体インスタンスの中央ロケーションに一致し、前記物体ボリュームの次元が、前記物体インスタンスの外部次元にマッチし、前記決定することが、前記第2の特徴セットに基づく、決定することと、
第5のタイプのディープニューラルネットワークによって、前記物体ボリューム内に位置特定された点のセットおよび第1の点群特徴のセットに基づいて、分類点を決定することであって、
前記分類点が、前記物体インスタンスに属する第1の分類点および前記物体インスタンスに属さない第2の分類点を含む、決定することと
を含む実行可能動作を実行するように構成される、コンピュータシステム。
コンピュータのメモリ内で実行されると、請求項1から12のいずれか一項に記載の方法を実行するように構成されたソフトウェアコード部分を備えた、コンピュータプログラム。