JP7493464B2

JP7493464B2 - ３ｄオブジェクトの正準ポーズの自動化判定、および深層学習を使った３ｄオブジェクトの重ね合わせ

Info

Publication number: JP7493464B2
Application number: JP2020572743A
Authority: JP
Inventors: フランク・テオドルス・カタリーナ・クラーセン; ダーフィット・アンサーリ・モイン; テオ・ケリーチ
Original assignee: プロマトン・ホールディング・ベー・フェー
Priority date: 2018-07-03
Filing date: 2019-07-03
Publication date: 2024-05-31
Anticipated expiration: 2039-07-03
Also published as: JP2021529051A; WO2020007941A1; IL279834A; EP3591616A1; US20210174543A1; CN112639880A; EP3818500A1; KR20210028226A; BR112020026687A2; CA3104592A1

Description

本発明は、3D歯科用構造物などの3Dオブジェクトの正準ポーズの自動化判定、および深層学習を使う3Dオブジェクトの重ね合わせに関し、詳細には、ただし排他的にではなく、3Dオブジェクトの正準ポーズの自動化判定のための方法およびシステム、3Dオブジェクトの自動化重ね合わせのための方法およびシステム、ならびにそのような方法をコンピュータシステムが実施することを可能にするコンピュータプログラム製品に関する。

患者の歯列および顎骨(上顎および下顎)の正確な3Dモデルが、3Dコンピュータ支援歯科アプリケーション(矯正治療計画、歯科インプラント計画、顎矯正手術計画(顎手術)など)にとって不可欠である。そのような3Dモデルの形成は、患者の3D画像データ、通常は、たとえば、歯顎顔面複合体または別の身体部分を表す3Dオブジェクトの3Dコンピュータ断層撮影(CT)データに基づく。CTスキャンが通常、3Dオブジェクト(の一部)を表すボクセル表現をもたらし、各ボクセルは、強度値、通常は走査ボリュームの放射線濃度に関連付けられる。歯科アプリケーションなどの医療アプリケーションでは、CTスキャンは一般に、円錐ビームCT(CBCT)を使って取得されるが、それは、患者に対する放射線量が比較的低く、機器の取得価格が比較的低く、ファンビームCTと比較して、大幅に使いやすいからである。

ただし、CBCT技法は、(特に、金属の存在下では)人工物に対して敏感であり、CBCTスキャナのセンサー出力から、走査ボリューム中の、ハウンズフィールド単位(HU)で放射線濃度を表す放射線値へのコンバージョンのための業界規模の規格がない。その上、低量使用は、比較的乏しいコントラストをもたらし、同様の濃度を有する、3Dオブジェクト、たとえば、歯顎顔面複合体中の構造を区別しにくくする。これらの問題は、そのようなボクセル表現から、たとえば、閾値化技法を使って導出される3Dモデルにおける相違点を生じ得る。したがって、CBCTデータのボクセル表現から導出された3Dモデルは、たとえば、矯正(クリアアライナー療法)、顎手術(顎矯正手術)、インプラント手術(インプラント学)、美容歯科(歯冠、ブリッジ)などにおいて使われるような、正確に適合する歯支持テンプレートを設計するのに適していないか、または少なくとも比較的適していない。

この問題に対処するために、CBCTデータセットのボクセル表現またはそのようなボクセル表現から導出された3Dモデルが、光学スキャンデータによって補われ、増補され、かつ/または(部分的に)置き換えられ得る。口内スキャン(IOS)データなどの光学スキャンデータが、患者の歯列の石膏モデル(もしくは印象)から導出された歯表面(概して歯冠および周辺歯肉表面)の(たとえば、レーザーもしくはストラクチャードライト)表面スキャンによって、または患者の歯列の口内スキャン(IOS)データを生成することによって生成される。利点は、(CB)CTデータと比較して、データ取得中に放射線がないこと、および空間解像度がより高いことである。光学(口外)スキャンおよびIOSの典型的な正確さは、それぞれ、5および10ミクロンの間、および、25および75ミクロンの間の範囲内と近似される。ただし、スキャン結果は、歯(歯冠)と歯肉領域との間で違わない。その上、どの情報も可視表面を超えて取り込むことはできず、特に歯根、顎骨、神経などについてのどの情報も取得されない。口内スキャンは、基底構造を推定するために、たとえば、対応する根形状をもつ歯冠形状のデータベースから導出された一般化モデルデータによって補われてよいが、したがって、一般化は、所望のボリュームの実際の3D形状を検討する情報を考慮に入れない。したがって、そのようなモデルベースの推定値は、本質的に不正確である。

より全般的には、たとえば、正確な3Dモデルを生成するため、3Dデータセット中の欠けているデータを回復するためだが、たとえば、(可能)治療効果/転帰を分析し、評価するためにも、または病気進行分析の目的で、3D画像データを処理するとき、異なるソースからの3D画像データのセットを組み合わせることが、有利または必要でさえある。これは、同じ3Dオブジェクト、たとえば、同じ歯科用構造物または骨構造の、CBCTデータセットなどの、1つもしくは複数のボクセル化3Dデータセット、および/または1つもしくは複数の点群もしくは3D表面メッシュデータセット、たとえば、IOSデータセットなど、を位置合わせし、位置合わせされたセットを、正確な3Dモデルを判定するため、または歯科用構造物の分析を実施するために使うことができる1つのデータセットに併合することを意味する場合がある。異なる画像データセットを位置合わせするプロセスは、画像重ね合わせまたは画像レジストレーションと呼ばれる。重ね合わせまたはレジストレーションの問題はしたがって、異なる座標系中のモデルの対応する特徴、たとえば、3D歯科用構造物が互いにマップされるような、1つまたは複数の座標系の間の1対1マッピングの発見に関する。位置合わせされたデータセットを、歯科用構造物を表す1つのデータセットに併合することは一般に、融合と呼ばれる。

CTおよびCBCT撮像では、知られている3D重ね合わせ技法は、点ベースまたはランドマークベースの重ね合わせ、表面ベースまたは輪郭ベースの重ね合わせおよびボクセルベースの重ね合わせを含む。そのような技法の例が、GKANTIDIS, Nらの論文「Evaluation of 3-dimensional superimposition techniques on various skeletal structures of the head using surface models」、PLoS One 2015, Vol.10, No.2およびJODA Tらによる論文「Systematic literature review of digital 3D superimposition techniques to create virtual dental patients」、Int J Oral Maxillofac Implants March-April 2015, Vol.30, No.2に記載されている。通常、これらの技法は、人間の介入、たとえば、人間入力を要求する。

点ベースおよび表面ベースの重ね合わせ技法の正確さは、それぞれ、ランドマーク識別および3D表面モデルの正確さに依存する。これは、人工物および低コントラスト領域の存在下では特に問題になり得る。異質のデータセットをマッチングするとき、十分に正確で、対応するランドマークを識別することが困難になる。反復最接近点(ICP:iterative closest point)などの点ベースのマッチングアルゴリズムは概して、すでに比較的接近して位置合わせされている初期状態を提供するのに、ユーザ対話を必要とする。ボクセルベースの重ね合わせは、ランドマークベースおよび表面ベースの重ね合わせ技法の制約のうちのいくつかを克服することができる。この技法は、ボクセル表現として記憶された3Dボリューム情報を利用する。重ね合わされた(そうされるべき)3Dデータの間の類似は、対応する基準構造中のボクセルのレベル強度から演繹され得る。この技法は、異なるソースの低コントラスト非規格化CBCTデータを組み合わせるとき、または異なる画像モダリティのデータ(たとえば、ボリュームを囲うか、もしくは囲わないかのいずれかである表面メッシュから導出され得るような、CTおよびMRI、もしくはCBCTおよびバイナリ3D画像データ)を組み合わせるとき、特に困難である。データセットが部分的に重複するだけであるとき、追加の問題点が生じ得る。現況技術によるボクセルベースの重ね合わせ方法はしばしば、計算コストが高い。

大きいサイズの3Dデータセット、および臨床実装が、正確さに対して非常に厳格な規格を要求するという事実により、高次元医療画像において、画像重ね合わせの従来の方法が使用しにくくなる。深層学習における最近の発展に伴い、深層学習を適用するために、画像レジストレーションの分野において、いくつかの努力が行われている。ある手法では、深層学習が、類似メトリックを推定するのに使われ、このメトリックは次いで、反復最適化方式を駆動するのに使われる。これは、たとえば、Simonovskyらによって、「A Deep Metric for Multimodal Registration」MICCAI 2016 (Springer, Cham)10～18ページで報告され、ここで、問題は、CNNが、2つの重ね合わされた画像パッチの位置合わせと位置合わせ不良との間を弁別するように設定される類別タスクとして提示されている。別の手法では、深層回帰(ニューラル)ネットワークが、画像の間の変換パラメータを予測するのに使われる。たとえば、EP3121789は、深層ニューラルネットワークが、3D CT画像と2D X線画像との間の変換のパラメータを直接予測するのに使われる方法について記載している。同様に、Liらによる、2017年9月3日の論文、「Non-rigid image registration using fully convolutional networks with deep self-supervision」があり、ここで、トレーニング済みニューラルネットワークが、2つのピクチャを受信し、一方のピクチャを他方に登録するのに使われる変形dx,dy,dxを、各ピクセルについて算出する。この方法は、すでに特定の類似を有する2つの入力画像を要求し、したがって、異なるモダリティの3Dデータセットを扱うことはできない。したがって、特定の3Dオブジェクトの(ポーズ、データタイプ、座標系などにおいて)異なるモダリティの3Dデータセットを登録するという問題は、従来技術では対処されない。

重ね合わせシステムが取り扱うことができるべき、これらの3Dデータセットにおける(3Dオブジェクトのデータフォーマット/モダリティ、座標系、位置および配向、画像データの品質、存在する構造の間の異なる量の重複などについての)大きい相違により、3Dオブジェクトの正確な自動化重ね合わせ(たとえば、いかなる人間の介入もない、3D歯科用構造物の重ね合わせ)の問題が、自明でない課題となる。知られている重ね合わせシステムは、これらの問題を、信頼できる、堅牢なやり方で取り扱うことが可能ではない。より全般的には、異なるモダリティの3Dデータセットにおける大きい相違は、深層ニューラルネットワークシステムによる正確な処理のための問題を課す。これは、正確なレジストレーションのためだけではなく、深層ニューラルネットワークによる正確なセグメント化および/または類別の問題でもある。

EP3121789 欧州特許出願第17179185.8号欧州特許出願第17194460.6号

GKANTIDIS, Nら、「Evaluation of 3-dimensional superimposition techniques on various skeletal structures of the head using surface models」、PLoS One 2015, Vol.10, No.2 JODA Tら、「Systematic literature review of digital 3D superimposition techniques to create virtual dental patients」、Int J Oral Maxillofac Implants March-April 2015, Vol.30, No.2 Simonovskyら、「A Deep Metric for Multimodal Registration」MICCAI 2016 (Springer, Cham)10～18ページ Liら、2017年9月3日、「Non-rigid image registration using fully convolutional networks with deep self-supervision」 WU Kら、「Tooth segmentation on dental meshes using morphologic skeleton」、Comput Graph Feb 2014 Vol. 38、199～211 Qi, C.R.ら、「Pointnet: Deep learning on point sets for 3d classication and segmentation」、Proc. Computer Vision and Pattern Recognition (CVPR), IEEE 1(2), 4 (2017) 2018年11月5日、Liら、「PointCNN: convolution on χ-transformed points」、arXiv:1801.07791v5、Neural Information Processing Systems (NIPS) 2018 JUNG Wら、「Combining volumetric dental CT and optical scan data for teeth modeling」、Comput Aided Des 2015年10月、Vol.67～68、24～37 TONIONI Aら、「Learning to detect good 3D keypoints」Int J Comput Vis. 2018 Vol.126、1～20ページ

したがって、当技術分野において、3D歯顎顔面構造、3Dデータセットなどの3Dオブジェクトを十分に自動的に、適時的および頑丈に重ね合わせることができる方法が必要である。より具体的には、当技術分野において、たとえば、歯科専門家が、追加知識の必要なく、または前記専門家に対して対話が要求されずに、結果の、知られている正確さおよび適時性を伴う、様々な目的のいずれかに要求される重ね合わせ結果を入手し得るソリューションが必要である。

当業者によって諒解されるように、本発明の態様は、システム、方法またはコンピュータプログラム製品として具現化され得る。したがって、本発明の態様は、本明細書ではすべてが「回路」、「モジュール」、もしくは「システム」と一般に呼ばれ得る、完全にハードウェアの実施形態、完全にソフトウェアの実施形態(ファームウェア、常駐ソフトウェア、マイクロコードなどを含む)、または、ソフトウェアの態様とハードウェアの態様を組み合わせた実施形態という形式をとり得る。本開示に記載する機能は、コンピュータのマイクロプロセッサによって実行されるアルゴリズムとして実装され得る。さらに、本発明の態様は、コンピュータ可読プログラムコードを具現化した、たとえば記憶した1つまたは複数のコンピュータ可読媒体で具現化されたコンピュータプログラム製品の形をとり得る。

1つまたは複数のコンピュータ可読媒体のどの組合せが使用されてもよい。コンピュータ可読媒体は、コンピュータ可読信号媒体またはコンピュータ可読記憶媒体であり得る。コンピュータ可読記憶媒体は、限定はされないが、たとえば、電子式、磁気式、光学式、電磁式、赤外線式、もしくは半導体の、システム、装置、もしくはデバイス、または上記のどの好適な組合せであってもよい。コンピュータ可読記憶媒体のより具体的な例(非網羅的なリスト)には、1つもしくは複数の配線を有する電気的接続、ポータブルコンピュータディスケット、ハードディスク、ランダムアクセスメモリ(RAM)、読取り専用メモリ(ROM)、消去可能プログラマブル読取り専用メモリ(EPROMもしくはフラッシュメモリ)、光ファイバ、携帯式コンパクトディスク読取り専用メモリ(CD-ROM)、光学記憶デバイス、磁気記憶デバイス、または上記のどの好適な組合せも含まれよう。本文書のコンテキストでは、コンピュータ可読記憶媒体は、命令実行システム、装置、またはデバイスによる使用のための、またはそれらと関連したプログラムを含むか、または記憶し得る、どの有形媒体であってもよい。

コンピュータ可読信号媒体は、伝搬されるデータ信号を、その中で、たとえば、ベースバンド中で、または搬送波の一部として具現化されたコンピュータ可読プログラムコードとともに含み得る。そのような伝搬される信号は、電磁気、光学、またはそれらの適切な組合せも含むが、それらに限定されない、様々な形のうちのいずれをもとり得る。コンピュータ可読信号媒体は、コンピュータ可読記憶媒体ではないとともに、命令実行システム、装置、またはデバイスによる使用のための、またはそれらと関連したプログラムを通信し、伝搬し、またはトランスポートすることができる、どのコンピュータ可読媒体であってもよい。

コンピュータ可読媒体上で実施されるプログラムコードは、ワイヤレス、ワイヤライン、光ファイバ、ケーブル、RFなど、または上記のどの好適な組合せも含むがこれに限定されない任意の適切な媒体を使用して送信され得る。本明細書の態様のための動作を実施するためのコンピュータプログラムコードは、Java(商標)、Scala、C++、Pythonなどの関数型またはオブジェクト指向プログラミング言語、および「C」プログラミング言語または同様のプログラミング言語などの従来の手続き型プログラミング言語を含む、1つまたは複数のプログラミング言語のいずれかの組合せで書かれることが可能である。プログラムコードは、完全にユーザのコンピュータで、一部をユーザのコンピュータで、スタンドアロンソフトウェアパッケージとして、一部をユーザのコンピュータで、および一部をリモートコンピュータで、または完全にリモートコンピュータ、サーバもしくは仮想サーバで、実行することができる。後者のシナリオでは、リモートコンピュータは、ローカルエリアネットワーク(LAN)、または、ワイドエリアネットワーク(WAN)を含む任意のタイプのネットワークを通してユーザのコンピュータに接続され得るか、または、外部コンピュータへの接続が(たとえば、インターネットサービスプロバイダを使用するインターネット通して)行われ得る。

本発明の態様を、本発明の実施形態による方法、装置(システム)、およびコンピュータプログラム製品のフローチャート図および/またはブロック図を参照して以下で説明する。フローチャート図および/またはブロック図の各ブロック、ならびにフローチャート図および/またはブロック図中のブロックの組合せは、コンピュータプログラム命令によって実装され得ることが理解されよう。これらのコンピュータプログラム命令は、汎用コンピュータ、専用コンピュータ、または他のプログラム可能データ処理装置のプロセッサ、特にマイクロプロセッサまたは中央処理ユニット(CPU)、もしくはグラフィックス処理ユニット(GPU)に与えられて、コンピュータ、他のプログラム可能データ処理装置、または他のデバイスのプロセッサにより実行する命令が、フローチャートおよび/またはブロック図の1つのブロックもしくは複数のブロック中で指定される機能/作用を実装するための手段を作成するような機械を生じることができる。

これらのコンピュータプログラム命令は、コンピュータ、他のプログラム可能データ処理装置、または他のデバイスに、コンピュータ可読媒体に記憶された命令が、フローチャートおよび/またはブロックの図の1つのブロックもしくは複数のブロック中で指定された機能/作用を実装する命令を含む製造品を生じるような特定のやり方で機能するよう命じることができるコンピュータ可読媒体に記憶されてもよい。

コンピュータプログラム命令は、コンピュータ、他のプログラム可能データ処理装置、または他のデバイス上にロードされて、コンピュータ、他のプログラム可能装置または他のデバイス上で一連の動作ステップを実施させて、コンピュータまたは他のプログラム可能装置上で実行する命令が、フローチャートおよび/またはブロックの図の1つのブロックもしくは複数のブロック中で指定された機能/作用を実装するためのプロセスを提供するようなコンピュータ実装プロセスを生じることもできる。

図面におけるフローチャートおよびブロック図は、本発明の様々な実施形態によるシステム、方法、およびコンピュータプログラム製品の可能実装形態のアーキテクチャ、機能性、および動作を示す。この点において、フローチャートまたはブロック図中の各ブロックは、モジュール、セグメント、またはコードの部分を表すことができ、これらは、指定された論理機能を実装するための1つまたは複数の実行可能命令を含む。いくつかの代替実装形態では、ブロック中に記される機能は、図中で記された順序にはよらずに起こる場合があることに留意されたい。たとえば、連続して示される2つのブロックは、実際には、実質的に同時に実行されてよく、またはブロックは、ときには、関係する機能性に応じて逆順に実行されてよい。ブロック図および/またはフローチャート図の各ブロック、ならびにブロック図および/またはフローチャート図中のブロックの組合せは、指定された機能もしくは作用を実施する、専用ハードウェアベースシステム、または専用ハードウェアとコンピュータ命令の組合せによって実装されることが可能であることにも留意されたい。

本出願では、「画像」は、2、3、またはより多くの空間次元での情報を含むデータセットを指し得る。「3D画像データ」は、データ、たとえば、ボクセル強度値、表面メッシュ定義などの、どの種類の3次元セットも指し得る。1つまたは複数の画像の座標系を、同じ構造(の部分)を含む別の基準画像のものと一致するように調節することは、データまたは画像レジストレーション、マッチング、重ね合わせ、または位置合わせとして様々に知られている。コンテキストが別段に示すときを除いて、これらの用語(およびこれらの用語から派生した他の用語)は互換的に使われる。「変換パラメータ(のセット)」は、このコンテキストでは、あるデータセットを、別のものの上に重ね合わせるため、またはデータセットを代替座標系中で表すためにどのように回転、平行移動および/またはスケーリングするかについての情報についての一般用語であり、単一行列によって、ただし、たとえば、行列、ベクトルおよび/またはスカラーの集合体によっても表され得る。

一態様では、本発明は、3Dデータセットにおける3Dオブジェクトの正準ポーズを自動的に判定するためのコンピュータ実装方法に関する。この方法は、コンピュータのプロセッサが、3Dデータセットの1つまたは複数のブロックデータ点を第1の3D深層ニューラルネットワークの入力に提供するステップであって、第1の3Dニューラルネットワークは、3Dオブジェクトの一部の位置に対して定義された正準座標系に関連付けられた正準ポーズ情報を生成するようにトレーニングされる、ステップと、プロセッサが、第1の3D深層ニューラルネットワークの出力から正準ポーズ情報を受信するステップであって、正準ポーズ情報は、1つまたは複数のブロックのデータ点の各々について、正準座標系中のデータ点の位置の予測を含み、位置は正準座標によって定義される、ステップと、プロセッサが、正準座標を使って、正準座標系の軸の配向、第1の3D座標系の軸および原点に対する正準座標系の原点の位置、ならびに/または正準座標系の軸のスケーリングを判定するステップと、配向および位置を使って、第1の座標系の座標を正準座標に変換するための変換パラメータを判定するステップと、プロセッサが、3Dオブジェクトの正準表現を判定するステップであって、判定することは、変換パラメータを、3Dデータセットのデータ点の座標に適用することを含む、ステップとを含み得る。

ある実施形態では、3Dオブジェクトは3D歯科用構造物であってよい。ある実施形態では、3Dデータセットのデータ点は、ボクセルを表し得る。別の実施形態では、3Dデータセットのデータ点は、点群の点または3D表面メッシュの点および法線を定義し得る。

ある実施形態では、第1の3D深層ニューラルネットワークは、ボクセル化3Dデータを処理するように構成される畳み込み深層ニューラルネットワークとして構成され得る。

別の実施形態では、第1の3D深層ニューラルネットワークは、3D点群または3D表面メッシュの点を処理することが可能な深層マルチレイヤパーセプトロン(MLP)ベースのネットワークとして実装され得る。

ある実施形態では、変換パラメータは、回転、平行移動および/またはスケーリングパラメータを含み得る。

ある実施形態では、3Dオブジェクトの正準表現は、3Dオブジェクトの正準ボクセル表現または正準3Dメッシュ表現であってよい。

ある実施形態では、正準ポーズ情報は、ボクセル表現のボクセルを、正準座標系中のボクセルの位置の予測と(に)関連付ける(リンクする)ための1つまたは複数のボクセルマップを含み得る。

ある実施形態では、1つまたは複数のボクセルマップは、正準座標系の第1の正準座標x'の予測と(に)ボクセルを関連付ける(リンクする)第1の3Dボクセルマップ、正準座標系の第2の正準座標y'の予測と(に)ボクセルを関連付ける(リンクする)第2のボクセル3Dマップ、および正準座標系の第3の正準座標z'の予測と(に)ボクセルを関連付ける(リンクする)第3の3Dボクセルマップを含み得る。

ある実施形態では、正準座標系の軸の配向を判定することは、ボクセル表現のボクセルについて、1つまたは複数の3Dボクセルマップのうちの1つの、正準座標における局所勾配を判定することをさらに含み、局所勾配は、第1の座標系によって定義された空間におけるベクトルを表し、ベクトルの配向は正準軸の配向の予測を表し、かつ/またはベクトルの長さは、正準軸に関連付けられたスケーリング係数を定義する。

したがって、本方法は、3D歯科用構造物などの3Dオブジェクトの正準表現の自動化判定を可能にする。この方法は、3Dオブジェクトの異なる3Dデータモダリティを3Dオブジェクトの正準ポーズに変換するのに使うことができ、正準ポーズは、異なる3Dデータセットの重ね合わせのプロセスにおいて使われ得る。代替および/または追加として、方法は、3Dオブジェクト、たとえば、3D歯科用構造物をセグメント化するように、および/またはセグメント化された3Dオブジェクト、たとえば、歯の分類を判定するように構成される1つまたは複数の3D深層ニューラルネットワークの3D入力に3Dデータセットが提供される前の前処理ステップとして使うことができる。そのような前処理ステップは、実質的に、3Dオブジェクトのセグメント化および類別の正確さを増すが、というのは、そのようなトレーニング済みニューラルネットワークの正確さは、システムに入力される3Dデータセットによって表される3Dオブジェクトのポーズが正規化ポーズからあまりにも(特に、配向に関して)逸脱する場合、影響され得るからである。

さらなる態様では、本発明は、(少なくとも)第1の3Dデータセットによって表される、第1の3D歯科用構造物などの第1の3Dオブジェクトと、第2の3Dデータセットによって表される、第2の3D歯科用構造物などの第2の3Dオブジェクトの自動化重ね合わせのためのコンピュータ実装方法に関し得る。ある実施形態では、第1および第2の3Dオブジェクトは、同じ人の3D歯科用構造物である。ある実施形態では、この方法は、コンピュータのプロセッサが、第1の座標系に関連付けられた第1の3Dオブジェクトの第1のボクセル表現のボクセルの1つまたは複数の第1のブロックおよび第2の座標系に関連付けられた第2の3Dオブジェクトの第2のボクセル表現のボクセルの1つまたは複数の第2のブロックを、第1の3D深層ニューラルネットワークの入力に提供するステップであって、第1の3D深層ニューラルネットワークは、3Dオブジェクトの一部の位置に対して定義された正準座標系に関連付けられた正準ポーズ情報を生成するようにトレーニングされる、ステップと、プロセッサが、3D深層ニューラルネットワークの出力から第1および第2の正準ポーズ情報を受信するステップであって、第1の正準ポーズ情報は、1つまたは複数の第1のブロックの各ボクセルについて、正準座標系中のボクセルの第1の位置の予測を含み、第2の正準ポーズ情報は、1つまたは複数の第2のブロックの各ボクセルについて、正準座標系中のボクセルの第2の位置の予測を含み、第1および第2の位置は、それぞれ、第1および第2の正準座標によって定義される、ステップと、プロセッサが、第1の正準ポーズ情報を使って、第1の座標系における、軸の第1の配向、および軸の原点の第1の位置を判定し、第2の正準ポーズ情報を使って、第2の座標系中における、正準座標系の軸の原点の第2の配向および第2の位置を判定するステップと、プロセッサが、第1の配向および第1の位置を使って、第1の変換パラメータ、好ましくは、第1の座標系の座標を正準座標系の座標に変換するための、第1の回転、平行移動および/またはスケーリングパラメータを判定し、第2の配向および第2の位置を使って、第2の変換パラメータ、好ましくは、第2の座標系の座標を正準座標に変換するための、第2の回転、平行移動および/またはスケーリングパラメータを判定する、ステップと、プロセッサが、第1の3Dオブジェクトと第2の3Dオブジェクトの重ね合わせを判定するステップであって、判定することは、第1および第2の変換パラメータを使って、それぞれ、第1および第2の3Dオブジェクトの第1および第2の正準表現を形成することを含む、ステップとを含み得る。

したがって、通常は同じ患者の(歯顎顔面複合体を表す)3D歯科用構造物などの3Dオブジェクトの2つ以上の異なる3Dデータセットが、3Dデータセットに関連付けられた座標を正準座標系の座標に変換することによって重ね合わされ得る。典型的な例では、異なる3Dデータセットは、患者の歯列(の一部)の異なるスキャンであり得る。一般に、異なる3Dデータセットは、少なくとも部分的に重複しており、すなわち、両方のデータセットが、オブジェクト要素(たとえば、3D歯科用構造物のケースでは、歯または歯冠)の少なくとも一部を共通して有する。3D深層ニューラルネットワーク、たとえば、3D畳み込みニューラルネットワークが、3Dオブジェクトの少なくともいくつかの部分の正準ポーズを判定し得る。いくつかの実施形態では、3D深層ニューラルネットワークは、計算上の制限を満たすために、座標をブロック単位で処理する。コンピュータが次いで、3D畳み込みネットワークに与えられる各ボクセルについて、正準原点および正準軸(方向およびスケール)の相対位置を演繹するための追加処理を適用し得る。続いて、2つの画像データセットを重ね合わせるか、または位置合わせするための変換パラメータが演繹されてよく、3D画像データセットが、前記変換パラメータを使って位置合わせされてよい。第1の3D画像データセットが、第2の3D画像データセットと位置が合うように変換されてよく、もしくは第2の3D画像データセットが、第1の3D画像データセットと位置が合うように変換されてよく、または両方の3D画像データセットが、いずれかの受信された配向とは異なる第3の配向で位置合わせされるように変換されてよい。

3D深層ニューラルネットワークは、3Dデータセットにおけるばらつきに対して非常に堅牢であるようにトレーニングされ得るが、それは、3D深層ニューラルネットワークは、多数の典型的な3D歯顎顔面構造に基づいてトレーニングされるからであり、構造は、大きい空間的ばらつき(平行移動、回転および/またはスケーリング)を呈する。3D深層ニューラルネットワークの(限られた)メモリサイズに関連した問題は、ボクセル表現のサブサンプル(ブロック)に基づいて深層ニューラルネットワークをトレーニングすることによって解決され得る。その目的のために、ボクセル表現が、3D深層ニューラルネットワークの入力に与えられる前に、所定のサイズのボクセルのブロックに区分されてよい。ブロックを使うことの追加利点は、ネットワークが、限られた量のデータ、たとえば、歯列全体ではなく、数本の歯の正準ポーズさえも判定し得ることである。正準座標系が、オブジェクト(たとえば、歯顎顔面構造)のための知られている(所定の)規格に対して定義されるという事実により、入手された第1および第2の正準3Dデータセットが位置合わせされ、正確さは、受信されたデータセットごとの、トレーニング時間、トレーニングサンプルばらつき、および/または利用可能ブロックに依存し得る。

本開示では、正準ポーズは、位置、配向、およびスケールを含むポーズを定義し、3Dオブジェクト、たとえば、3D歯科用構造物のケースでは、歯列弓の(好ましくは)確実および明確に識別可能な部分に所定の位置および/または配向を割り当てることによって定義されるポーズである。同様にして、正準座標系が、3Dオブジェクトの識別可能な部分に対する、確実および明確に識別可能な位置に原点を割り当てることによって、また、座標軸を一貫した方法で、たとえば、歯列弓の最大曲率の点の接線に沿ってx軸を定義するために定義され得る。そのような正準座標系は、特定のタイプの3Dオブジェクトデータにわたって一貫している、規格化された、明確な、所定の座標系を定義することができる(たとえば、すべての歯顎顔面画像データが、確実に識別可能な歯顎顔面構造の典型的な位置、配向およびスケールに関して定義され得る)。その機能は、異なる画像データセットにおける3Dオブジェクトが、同じ相対的な位置、配向、およびスケールに確実にあるようにすることである。そのような機能は、ボクセル表現、点群または3Dメッシュなどの3Dデータが、トレーニング済みニューラルネットワークによって処理される多数のアプリケーションにおいて使われ得る。本開示における実施形態は、2つ以上の3Dオブジェクトが正準座標系に変換される場合、3Dオブジェクトも互いと位置合わせされるという見識を用いる。さらに、歯顎顔面構造の正準ポーズが、3D深層ニューラルネットワーク、好ましくは3D畳み込みニューラルネットワークを使用することによって自動的に判定され、人間対話の必要性を防ぎ得るという見識を用いる。

ある実施形態では、第1および第2の3Dオブジェクトの第1および第2の正準表現、好ましくは第1および第2の3D表面メッシュは、3D表面メッシュであってよく、重ね合わせを判定することは、第1の3Dオブジェクトの第1の正準表現を、第1の3Dオブジェクトの、3Dオブジェクト要素、たとえば、第1の3D歯科オブジェクト要素の少なくとも1つの3D表面メッシュにセグメント化し、第2の3Dオブジェクトの第2の正準表現を、第2の3Dオブジェクトの、第2の3Dオブジェクト要素、たとえば、第2の3D歯科要素の少なくとも1つの3D表面メッシュにセグメント化することと、第1および第2の3D表面メッシュの少なくとも3つの第1および第2の非同一線上キー点、キー点(3D表面メッシュの表面上の関心点)を選択することと、第1および第2の非同一線上キー点に基づいて、第1および第2の3D歯科要素を位置合わせすることとをさらに含む。ある実施形態では、キー点は、第1の表面メッシュの表面曲率における局所的および/または大域的最大値または最小値を定義し得る。

ある実施形態では、第1および第2の3Dオブジェクトの第1および第2の正準表現はボクセル表現であってよい。ある実施形態では、重ね合わせを判定することは、第1の3Dオブジェクトの第1の正準ボクセル表現の少なくとも一部および第2の3Dオブジェクトの第2の正準ボクセル表現の少なくとも一部を、第2の3D深層ニューラルネットワークの入力に提供することであって、第2の3D深層ニューラルネットワークは、第1および第2の正準ボクセル表現を位置合わせするための変換パラメータ、好ましくは、回転、平行移動および/またはスケーリングパラメータを判定するようにトレーニングされる、ことと、第2の3D深層ニューラルネットワークの出力によって与えられた変換パラメータに基づいて、第1および第2の3Dオブジェクトの第1および第2の正準表現を位置合わせすることとをさらに含み得る。

ある実施形態では、重ね合わせを判定することは、プロセッサが、第1の3Dオブジェクトの正準表現と第2の3Dオブジェクトの正準表現との間の重複のボリュームを判定することをさらに含み得る。

ある実施形態では、重ね合わせを判定することは、プロセッサが、重複のボリュームにおける第1の正準表現の第1のボクセルを含む第1の関心ボリュームを判定することと、重複のボリュームにおける第2の正準表現の第2のボクセルを含む第2の関心ボリュームを判定することとをさらに含み得る。

ある実施形態では、方法は、プロセッサが、第1の関心ボリューム(VOI)に含まれる第1のボクセルを、第3の3D深層ニューラルネットワークの入力に提供するステップであって、第3の3D深層ニューラルネットワークは、ボクセルを類別し、セグメント化するようにトレーニングされる、ステップと、プロセッサが、第1の関心ボリューム中の第1のボクセルの各々についての、および/または第2の関心ボリューム中の第2のボクセルの各々についてのアクティブ化値を、第3の3D深層ニューラルネットワークの出力から受信するステップであって、ボクセルのアクティブ化値は、所定の3Dオブジェクト要素、たとえば、3D歯科用構造物の3D歯科要素(歯など)にボクセルが属す確率を表す、ステップと、プロセッサが、それぞれ、第1および第2のVOI中の第1および第2の3Dオブジェクト要素の第1および第2のボクセル表現を判定するために、アクティブ化値を使うステップとをさらに含み得る。

ある実施形態では、プロセッサは、第1および第2の3Dオブジェクト要素の第1および第2のボクセル表現を、第1および第2の3Dオブジェクト要素の第1および第2の3D表面メッシュを判定するのに使うことができる。

ある実施形態では、方法は、プロセッサが、第1および第2の3D表面メッシュの少なくとも3つの第1および第2の非同一線上キー点を選択するステップであって、キー点は、好ましくは、第1の表面メッシュの表面曲率における局所的および/または大域的最大値または最小値を定義する、ステップと、プロセッサが、第1および第2の非同一線上キー点に基づいて、好ましくは、反復最接近点アルゴリズムを使って、第1および第2の3Dオブジェクト要素を位置合わせするステップとをさらに含み得る。

ある実施形態では、方法は、プロセッサが、第1の3D歯科要素の第1のボクセル表現および第2の3D歯科要素の第2のボクセル表現を、第4の3D深層ニューラルネットワークに提供するステップであって、第4の3D深層ニューラルネットワークは、複数の候補構造ラベルの各々についてのアクティブ化値を生成するようにトレーニングされ、アクティブ化値は、第4の3D深層ニューラルネットワークの入力によって受信されたボクセル表現が、候補構造ラベルによって示される構造タイプを表す確率を表す候補ラベルに関連付けられる、ステップと、プロセッサの第4の3D深層ニューラルネットワークの出力から、複数の第1および第2のアクティブ化値を受信し、第1の複数のアクティブ化値のうちの最も高いアクティブ化値をもつ第1の構造ラベルを選択し、第2の複数のアクティブ化値のうちの最も高いアクティブ化値をもつ第2の構造ラベルを選択し、第1および第2の構造ラベルを、それぞれ、第1および第2の3D表面メッシュに割り当てるステップとをさらに含み得る。

ある実施形態では、方法は、プロセッサが、第1および第2の3D表面メッシュの少なくとも3つの第1および第2の非同一線上キー点を選択するステップであって、キー点は、好ましくは、第1の表面メッシュの表面曲率における局所的および/または大域的最大値または最小値を定義する、ステップと、プロセッサが、第1および第2のキー点を、それぞれ、第1の3D表面メッシュに割り当てられた第1の構造ラベルおよび第2の3D表面メッシュに割り当てられた第2の構造ラベルに基づいてラベル付けするステップと、プロセッサが、第1および第2の3D歯科要素を、それぞれ、第1および第2のキー点ならびに第1および第2の3D表面メッシュの第1および第2の構造ラベルに基づいて、好ましくは、反復最接近点アルゴリズムを使って位置合わせするステップとをさらに含み得る。

さらなる態様では、本発明は、3Dデータセットによって表される、3D歯科用構造物などの3Dオブジェクトの正準ポーズを自動的に判定するように、3D深層ニューラルネットワークをトレーニングするためのコンピュータ実装方法に関し得る。ある実施形態では、この方法は、トレーニングデータおよび関連付けられたターゲットデータを受信するステップであって、トレーニングデータは、3Dオブジェクトのボクセル表現を含み、ターゲットデータは、ボクセル表現の各ボクセルについての、正準座標系の正準座標値を含み、正準座標系は、3D歯科用構造物の一部の位置に対して定義された所定の座標系である、ステップと、所定のサイズのボクセル表現のボクセル(1つまたは複数のサブサンプル)の1つまたは複数のブロックを選択し、サブサンプルにランダム3D回転を適用し、同じ回転をターゲットデータに適用するステップと、1つまたは複数のブロックを3D深層ニューラルネットワークの入力に提供し、3D深層ニューラルネットワークが、1つまたは複数のブロックの各ボクセルについて、正準座標系の正準座標を予測するステップと、3D深層ニューラルネットワークによって予測される座標値と、ターゲットデータに関連付けられた(適切に変換された)正準座標との間の偏差を表す損失関数を最小限にすることによって、3D深層ニューラルネットワークのネットワークパラメータの値を最適化するステップとを含み得る。

別の態様では、本発明は、3Dデータセットによって表される、3D歯科用構造物などの3Dオブジェクトの正準ポーズを自動的に判定するために適応されたコンピュータシステムに関する場合があり、このシステムは、コンピュータ可読プログラムコードを具現化したコンピュータ可読記憶媒体であって、プログラムコードは、少なくとも1つのトレーニングされた3D深層ニューラルネットワークを含む、コンピュータ可読媒体と、コンピュータ可読記憶媒体に結合された少なくとも1つのプロセッサ、好ましくはマイクロプロセッサとを備え、コンピュータ可読プログラムコードを実行したことに応答して、少なくとも1つのプロセッサは、第1の座標系に関連付けられた、3Dオブジェクトのボクセル表現のボクセルの1つまたは複数のブロックを、第1の3D深層ニューラルネットワークの入力に提供することであって、第1の3Dニューラルネットワークは、3Dオブジェクトの一部の位置に対して定義された正準座標系に関連付けられた正準ポーズ情報を生成するようにトレーニングされる、ことと、第1の3D深層ニューラルネットワークの出力から正準ポーズ情報を受信することであって、正準ポーズ情報は、1つまたは複数のブロックの各ボクセルについて、正準座標系中のボクセルの位置の予測を含み、位置は、正準座標によって定義される、ことと、正準座標を使って、正準座標系の軸の配向、および正準座標系の原点の位置を、第1の3D座標系の軸および原点に対して判定し、配向および位置を使って、第1の座標系の座標を正準座標に変換するための変換パラメータ、好ましくは回転、平行移動および/またはスケーリングパラメータを判定することと、3Dオブジェクトの正準表現、好ましくは正準ボクセル表現または正準3Dメッシュ表現を判定することであって、判定することは、ボクセル表現のボクセルの座標、またはボクセル表現を判定するために使われる3Dデータセットに変換パラメータを適用することを含む、こととを含む実行可能動作を実施するように構成される。

さらに別の態様では、本発明は、第1の3Dデータセットによって表される、第1の3D歯科用構造物などの第1の3Dオブジェクトと、第2の3Dデータセットによって表される第2の3Dオブジェクト、すなわち第2の3D歯科用構造物の自動化重ね合わせに適応されたコンピュータシステムに関する場合があり、このシステムは、コンピュータ可読プログラムコードを具現化したコンピュータ可読記憶媒体であって、プログラムコードは、少なくとも1つのトレーニングされた3D深層ニューラルネットワークを含む、コンピュータ可読記憶媒体と、コンピュータ可読記憶媒体に結合された少なくとも1つのプロセッサ、好ましくはマイクロプロセッサとを備え、コンピュータ可読プログラムコードを実行したことに応答して、少なくとも1つのプロセッサは、第1の座標系に関連付けられた第1の3Dオブジェクトの第1のボクセル表現のボクセルの1つまたは複数の第1のブロック、および第2の座標系に関連付けられた第2の3Dオブジェクトの第2のボクセル表現のボクセルの1つまたは複数の第2のブロックを、3D深層ニューラルネットワークの入力に提供することであって、3D深層ニューラルネットワークは、3Dオブジェクトの一部の位置に対して定義された正準座標系に関連付けられた正準ポーズ情報を生成するようにトレーニングされる、ことと、3D深層ニューラルネットワークの出力から第1および第2の正準ポーズ情報を受信することであって、第1の正準ポーズ情報は、1つまたは複数の第1のブロックの各ボクセルについて、正準座標系中のボクセルの第1の位置の予測を含み、第2の正準ポーズ情報は、1つまたは複数の第2のブロックの各ボクセルについて、正準座標系中のボクセルの第2の位置の予測を含み、第1および第2の位置は、それぞれ、第1および第2の正準座標によって定義される、ことと、第1の正準ポーズ情報を使って、第1の座標系中で、軸の第1の配向、および軸の原点の第1の位置を判定し、第2の正準ポーズ情報を使って、第2の座標系中で、正準座標系の軸の原点の第2の配向および第2の位置を判定することと、第1の配向および第1の位置を使って、第1の変換パラメータ、好ましくは、第1の座標系の座標を正準座標系の座標に変換するための、第1の回転、平行移動および/またはスケーリングパラメータを判定することと、第2の配向および第2の位置を使って、第2の変換パラメータ、好ましくは、第2の座標系の座標を正準座標に変換するための、第2の回転、平行移動および/またはスケーリングパラメータを判定することと、第1の3Dオブジェクトと第2の3Dオブジェクトの重ね合わせを判定することであって、判定することは、第1および第2の変換パラメータを使って、それぞれ、第1および第2の3Dオブジェクトの第1および第2の正準表現を形成することを含む、こととを含む実行可能動作を実施するように構成される。

ある実施形態では、第1および第2のボクセル表現のうちの少なくとも1つは(CB)CTデータを含んでよく、ボクセル値は放射線濃度を表す。

ある実施形態では、第1および第2のボクセル表現のうちの少なくとも1つが、ボクセル化表面データ、または表面から入手されたボリュームデータ、好ましくは構造化された光もしくはレーザー表面スキャンデータ、より好ましくは口内スキャナ(IOS)データを含み得る。

さらなる態様では、本発明は、コンピュータのメモリ中で実行されると、上述したプロセスステップのいずれかに従って方法ステップを実行するために構成されたソフトウェアコード部分を含むコンピュータプログラム製品にも関し得る。

本発明を、本発明による実施形態を概略的に示す添付の図面を参照してさらに示す。本発明は、いかなる形でもこれらの具体的な実施形態に限定されないことが理解されよう。

本発明の一実施形態による、深層学習を使った、歯顎顔面3D画像データの重ね合わせのためのコンピュータシステムの概観を示す図である。本発明の一実施形態による、3D歯科用構造物の正準ポーズを判定するためのシステムの概略を示す図である。本発明の一実施形態による、3D歯科用構造物の正準ポーズを判定する方法を示す概略を示す図である。本発明の一実施形態による、3D歯科用構造物の正準ポーズを判定する方法を示す概略を示す図である。本発明の一実施形態による、3D歯科用構造物の正準ポーズを判定する方法を示す概略を示す図である。本発明の一実施形態による、3D歯科用構造物の正準ポーズを判定する方法を示す概略を示す図である。本発明の一実施形態による、システム構成要素によって利用されるトレーニングおよび予測データを示す図である。本発明の一実施形態による、システム構成要素によって利用されるトレーニングおよび予測データを示す図である。本発明の一実施形態による、システム構成要素によって利用されるトレーニングおよび予測データを示す図である。本発明の一実施形態による、正準座標を生成するための3D深層ニューラルネットワークアーキテクチャの例を示す図である。本発明の一実施形態による、歯顎顔面3D画像データのセグメント化のためのシステム構成要素の概観を示す図である。本発明の一実施形態による、歯顎顔面3D画像データのセグメント化のための3D深層ニューラルネットワークアーキテクチャの例を示す図である。本発明の一実施形態による、歯顎顔面3D画像データのセグメント化のための3D深層ニューラルネットワークアーキテクチャの例を示す図である。本発明の一実施形態による、歯顎顔面3D画像データの分類のためのシステム構成要素の概観を示す図である。本発明の一実施形態による、歯顎顔面3D画像データの分類のための3D深層ニューラルネットワークアーキテクチャの例を示す図である。生成されたキー点の例を示す図である。生成されたキー点の例を示す図である。本発明の一実施形態による、ボクセル表現の重ね合わせのための変換パラメータの直接判定のためのシステム構成要素の概観を示す図である。本発明の一実施形態による、変換パラメータの直接生成のために、システム構成要素内で利用され、そこから生じる、受信および変換されたデータを示す図である。本発明の一実施形態による、変換パラメータの直接生成のために、システム構成要素内で利用され、そこから生じる、受信および変換されたデータを示す図である。本発明の一実施形態による、変換パラメータの直接演繹のためのシステム構成要素のための3D深層ニューラルネットワークアーキテクチャの例を示す図である。本発明の一実施形態による、適用されるべき変換パラメータの選択/判定のためのシステム論理のフローチャートを示す図である。本発明の様々な実施形態による、個々の方法から得られる例示的な3D歯顎顔面画像データセットに対する変換結果を示す図である。本発明の様々な実施形態による、個々の方法から得られる例示的な3D歯顎顔面画像データセットに対する変換結果を示す図である。本開示に記載する方法およびソフトウェア製品を実行するために使うことができる例示的なデータ処理システムを示すブロック図である。

本開示では、歯顎顔面複合体に由来する3D歯顎顔面構造などの3Dオブジェクトを表す異なる3Dデータセットの、十分に自動化された、適時の、正確および堅牢な重ね合わせのために3D深層ニューラルネットワークを使うコンピュータシステムおよびコンピュータ実装方法の実施形態について記載する。これらの方法およびシステムは、2つの3Dデータセットの各々についての正準ポーズを判定するようにトレーニングされる3D深層ニューラルネットワークを使った、少なくとも2つの3Dデータセットの重ね合わせを可能にする。トレーニングされたニューラルネットワークの出力は、重ね合わされた正準3Dデータセットを判定するのに使われる変換パラメータを判定するのに使われ、正準3Dデータセットは、歯顎顔面構造などの3Dオブジェクトの正準表現を表す。さらなる3D深層学習ネットワークおよび/または重ね合わせ方式が、重ね合わせの正確さをさらに向上するのに使われてよい。システムおよび方法について、これ以降でより詳しく記載する。

図1は、本発明の一実施形態による、深層学習を使った、3Dオブジェクト、この例では、3D歯顎顔面複合体を表す画像データの自動化重ね合わせのためのコンピュータシステムの高レベル概略を示す。コンピュータシステム102は、少なくとも2つの3Dデータセット、たとえば、第1の座標系に関連付けられた、第1の3D歯科用構造物など、第1の3Dオブジェクトを含む第1のデータセット106と、第2の座標系に関連付けられた、第2の3D歯科用構造物など、第2の3Dオブジェクトを含む第2のデータセット108とを受信するための少なくとも2つの入力を含み得る。3Dデータセットは、好ましくは同じ患者からの、3D歯顎顔面複合体104に由来する、第1の3D歯科用構造物および第2の3D歯科用構造物を表し得る。第1および第2の3Dオブジェクトは、少なくとも一部を共通して、たとえば、3D歯科用構造物のケースでは共通歯科部品を有し得る。3Dデータセットは、異なるスキャナ、たとえば、異なる(CB)CTスキャナおよび/または異なる光学スキャナによって生成され得る。そのような走査デバイスは、円錐ビームCTスキャナ、ファンビームCTスキャナ、口内スキャナなどのような、光学スキャナを含み得る。

CBCTスキャナのケースでは、3Dデータセットは、CBCTスキャナによって生成されたX線データのボクセル表現を含み得る。ボクセル表現は、所定のフォーマット、たとえば、DICOMフォーマットまたはその派生物を有し得る。ボクセル表現は、所定のサイズの3Dボクセル空間、たとえば、400×400×400ボクセル空間を定義し、各ボクセルは特定のボリュームに関連付けられ、ボクセル空間中のボクセルの位置は、所定の座標系に基づいて定義され得る。

代替として、光学スキャナのケースでは、3Dデータセットは、表面メッシュデータ、たとえば、面のセットを定義する辺によって接続された3D空間中の点または頂点のセットを含むことができ、面のセットは、3D空間中の表面を定義する。3Dデータセットは、3D座標系によって定義された3D空間中の点を表す点群データも含み得る。ある実施形態では、表面メッシュを表す3Dデータセットは、口内スキャナを使って生成することができ、3Dデータセットは、所定のフォーマット、たとえば、STLフォーマットまたはその派生物を有し得る。また、この場合、3D表面メッシュ表現は、所定のサイズの3D空間を定義し、点および/または頂点の位置は、所定の座標系(他の3Dデータセット用に使われる座標系とは異なる)に基づく。

いくつかの実施形態では、3D歯科用構造物の3D表面メッシュは、個々のセグメント化された(すなわち、分離された)3D歯科要素、たとえば、歯冠と、歯肉に属す表面とにセグメント化され得る。3D表面メッシュを個々の3D表面メッシュにセグメント化することは、たとえば、WU Kら、「Tooth segmentation on dental meshes using morphologic skeleton」、Comput Graph Feb 2014 Vol. 38、199～211によって記載されているように、当技術分野におけるよく知られている技術である。

3Dデータセットは、(ほぼ)同じときに、または異なる時点において生成されてよく(同じまたは異なる走査システムを使う術前および術後スキャン)、3D歯顎顔面複合体の表現は、画像処理ソフトウェアによって定義される3D座標系に基づいて定義されてよく、そうすることによって、異なる3Dセットの3D歯顎顔面複合体における3D歯顎顔面構造の配向および/またはスケールが実質的に変わる場合がある。3D歯顎顔面複合体は、3D歯顎顔面構造、すなわち、顎、歯、歯茎などのような3D歯科用構造物を含み得る。

コンピュータシステムの入力に提供され得る3Dデータセットにおける大きいばらつき(データフォーマット/モダリティ、座標系、3D構造の位置および配向、画像データの品質、存在する構造の間の異なる量の重複などに関する)は、3D歯科用構造物の正確な自動化重ね合わせ(すなわち、いかなる人間の介入もない、3D歯科用構造物の重ね合わせ)の問題を、些細でない課題にする。知られている重ね合わせシステムは、これらの問題を、信頼でき、堅牢なやり方で取り扱うことが可能でない。

この問題を取り扱うために、図1のシステムは、好ましくは、ある患者の3D歯顎顔面複合体に由来する、異なる3Dデータセットのボクセル表現を受信するように構成されている、第1のトレーニングされた3D深層ニューラルネットワーク112を含み得る。3D深層ニューラルネットワークは、3D歯顎顔面複合体中の3D歯科用構造物の、正準座標系における正準ポーズを判定するようにトレーニングされ、正準座標系は、共通の歯顎顔面構造上での位置、たとえば、歯列弓上の位置に対する座標系を定義する。3D深層ニューラルネットワークは、3D深層ニューラルネットワークのメモリ中で符号化される、3Dデータセットのボクセル表現用の第1の変換パラメータ114を(平行移動、回転および/またはスケーリングに関して)判定するように構成され得る。第1の変換パラメータは、3D深層ニューラルネットワーク中で符号化される、典型的な歯顎顔面特徴の平行移動、配向および/またはスケーリング情報に基づいて判定され、第1の3Dデータセットの第1の座標系に基づく座標と、第2の3Dデータセットに基づく第2の座標系の座標とを、正準座標系に基づく座標に変換するのに使われ得る。このように入手された第1および第2の3Dデータセットは、正準座標系における、重ね合わされた第1および第2の3D歯科用構造物を表す。

第1および/または第2の3Dデータセットが光学スキャンデータであるケースでは、これらのデータは、第1の3D深層ニューラルネットワークの入力に提供される前に前処理され得る。ここで、前処理は、3D走査データ、たとえば、3Dメッシュを、3D深層ニューラルネットワークによって処理され得るようにボクセル表現に変換することを含み得る。たとえば、3D表面メッシュは、たとえば、3Dボクセル空間が少なくとも、3D表面メッシュデータ内に含まれるのと同じ現実世界ボリュームを表すようにボクセル化され得る。たとえば、そのようなボクセル化3D表面メッシュは、メッシュデータのどの表面も代表的ボクセルと一致しない第1の値(たとえば、「0」)のデフォルトボクセル値と、メッシュデータが実際に一致する第2の値(たとえば、「1」)のボクセル値とを有するバイナリボクセル表現を有し得る。受信された3D表面メッシュが「開放」3D表面構造を定義するとき、構造は追加表面で「閉じられ」得る。ボクセル化は上記のように実現されてよく、閉鎖ボリューム内に位置するボクセルも第2の値(たとえば、「1」)を有し得る。このようにして、ボリュームのボクセル表現が形成される。解像度(ボクセルのサイズ)は、システムを通して正確な結果を出すために適切に選択され得るが、同時に、たとえば、利用可能メモリおよび処理を検討する要件を依然として遵守する。

ある実施形態では、点群データに直接基づいて、光学スキャンデータ(3D点群)の正準ポーズを判定することが可能な3D深層ニューラルネットワークが使われてよい。そのようなネットワークの例が、マルチレイヤパーセプトロン(MLP)ベースの深層ニューラルネットワークである。MPL深層ニューラルネットワークアーキテクチャは、PointNet(Qi, C.R.ら、「Pointnet: Deep learning on point sets for 3d classication and segmentation」、Proc. Computer Vision and Pattern Recognition (CVPR), IEEE 1(2), 4 (2017))またはPointCNN(Neural Information Processing Systems (NIPS) 2018において公開される、2018年11月5日の、Liら、「PointCNN: convolution on χ-transformed points」、arXiv:1801.07791v5)を含む。これらのMLP深層ニューラルネットワークは、点群の点を直接処理することが可能である。そのようなニューラルネットワークは、本出願に記載されるように、光学スキャンデータに基づいて正準ポーズ情報を判定するようにトレーニングされ得る。実際、これは、前処理ステップとしてのそのようなボクセル化ステップを省くことができることにつながり、より速い処理と、点群データの粒度によっては、より正確さの高い結果が可能であることとにつながる。

さらなる前処理ステップは、第1および第2の3Dデータセットを所定のサイズのブロックに区分することを含み得る。ブロックサイズは、第1の3D深層ニューラルネットワークの3D入力空間のサイズに、および3D深層ニューラルネットワークのメモリ空間に依存し得る。

ある実施形態では、コンピュータは、第1の3Dデータセット用の第1の変換パラメータと第2の3Dデータセット用の第1の変換パラメータとを判定することによって、ならびにこのように判定された変換パラメータを第1および第2の3Dデータセットに適用することによって、重ね合わされた正準の第1および第2のデータセットを判定することができる。3D深層ニューラルネットワークは、3Dデータセットにおける大きいばらつきに対して非常に堅牢であるようにトレーニングされ得るが、それは、3D深層ニューラルネットワークは、多数の典型的な3D歯顎顔面構造に基づいてトレーニングされるからであり、構造は、大きい空間的ばらつき(平行移動、回転および/またはスケーリング)を呈する。3D深層ニューラルネットワークの(限られた)メモリサイズに関連した問題は、ボクセル表現のサブサンプル(ブロック)に基づいて深層ニューラルネットワークをトレーニングすることによって解決され得る。その目的のために、ボクセル表現が、3D深層ニューラルネットワークの入力に提供される前に、最初に所定のサイズのブロックに区分される。正準座標系が、歯顎顔面構造のための知られている(所定の)規格に対して定義されるという事実により、入手された第1および第2の正準3Dデータセットが位置合わせされ、正確さは、受信されたデータセットごとの、トレーニング時間、トレーニングサンプルばらつき、および/または利用可能ブロックに依存し得る。さらに、以下でより詳細に説明するように、特定のネットワークアーキテクチャが、空間的ばらつきを検討して大量の3D画像情報を符号化するのに使われてよい。

いくつかのケースでは、正準3Dデータセットの重ね合わせの正確さをさらに向上させることが有利であり得る。したがって、いくつかの実施形態では、重ね合わせのさらなる改善は、第1および第2の3Dデータセットの(部分的に重複する)正準ボクセル表現118を使って、かつ、さらなる第2の3D深層学習ネットワークを使う、正準ボクセル表現の重ね合わせを評価して、得ることができる。これらの実施形態では、コンピュータは、重ね合わされた正準の第1および第2のデータセットによって表される3D歯科用構造物によって定義されたボリュームの間の重複を判定し得る。ここで、重複は、第1および第2のデータセットからなる3D歯科用構造物に共通する正準座標系によって定義された空間内のボリュームとして定義され得る。重複は、第1および第2の3Dデータセットからなる正準ボクセル表現における関心ボリューム(VOI)を選択するのに使われ得る。このようにして、第1の3Dデータセットの正準ボクセル表現の第1のVOIおよび第2の3Dデータセットの正準ボクセル表現の第2のVOIが、第2の変換パラメータ122を判定するように構成されている第2の3D深層ニューラルネットワーク120への入力のために選択され得る。この3D深層ニューラルネットワークは、ニューラルネットワークが、ニューラルネットワークの入力への正準ボクセル表現の提供に応答して変換パラメータを生成するので、直接変換深層ニューラルネットワークと呼ばれ得る。第2の変換パラメータを第1および第2の正準3Dデータセットの各々(第1の変換パラメータに基づいて入手される)に適用すると、重ね合わせの正確さをさらに向上させることができる116。

代替および/または追加として、いくつかの実施形態では、重ね合わせのさらなる改善は、第1および第2の3Dデータセットの正準ボクセル表現を使って、かつ、分析重ね合わせアルゴリズムに基づいて正準ボクセル表現の重ね合わせを評価して、得ることができる。特に、本実施形態では、第1および第2の3Dデータの正準ボクセル表現124が判定され得る。また、この場合、重ね合わされた正準の第1および第2のデータセットによって表される3D歯科用構造物によって定義されたボリュームの間の重複が、第1の3Dデータセットの正準ボクセル表現の1つまたは複数の第1のVOIおよび第2の3Dデータセットの正準ボクセル表現の1つまたは複数の第2のVOIを判定するのに使われてよく、これらは、第3の3D深層ニューラルネットワーク126の入力に与えられ得る。この深層ニューラルネットワークは、3D歯科用構造物のボクセル表現のVOIのボクセルを類別し、異なるセグメント化された3D歯科要素、たとえば、歯、顎骨、歯茎などのボクセル表現を形成するように構成される。さらに、いくつかの実施形態では、後処理ステップが適用されてよく、ここで、セグメント化された3D歯科要素のセグメント化された3Dモデルが、セグメント化された3D歯科用構造物の類別されたボクセルに基づいて生成される。さらに、いくつかの実施形態では、さらなる第4の3D深層ニューラルネットワークが、たとえば、個々の歯を一意に、および一貫して識別する、知られている分類方式に従って、セグメント化された3D歯科要素のボクセル表現をラベル付けするのに使われ得る。

セグメント化および分類プロセスは、第1の3D深層ニューラルネットワークから導出された情報から恩恵を受け得る。特に、第1の3D深層ニューラルネットワークによる、変換パラメータの初期の第1のセットの判定および適用により、3Dデータセットの正準ボクセル表現を生じることができ、これにより、より正確なセグメント化および/または分類結果が可能になるが、というのは、セグメント化および/または分類に使われる3D深層ニューラルネットワークの正確さは、3D入力データの大きい回転のばらつきに対して比較的敏感だからである。

さらに、上で説明したように、重複の量は、正準座標系によって定義された空間のどのボリュームに、同一である、第1および第2の3Dデータセットの重複構造(たとえば、3D歯科要素)が存在するかを、第3の3D深層ニューラルネットワークによって判定するのに使われ得る。第1および第2の3Dデータセット中に重複構造を含むボリューム(VOI)の識別は、いわゆるキー点を判定するのに使われ得る。キー点は、2つの異なるデータセット内の同じ(重複)構造に印付けするのに使われる。したがって、キー点のセットが、第1の3Dデータセット中の複数の点の正確な3D位置を識別し、これらの点は、第2の3Dデータセット中のキー点の関連付けられたセットにリンクされる。距離最小化アルゴリズムは、キー点を使って、第1および第2の3Dデータセットの正確な重ね合わせのための適切な第3の変換パラメータ130を算出することができる。

ある実施形態では、コンピュータは、重ね合わされた正準の第1および第2の3Dデータセット(第1の変換パラメータと、任意選択で、第2および/または第3の変換パラメータとに基づいて判定される)を使って、単一の融合された3Dデータセット132を所定のデータフォーマットで作成することができる。3Dデータセットの融合は当該分野において知られており、たとえば、JUNG Wら、「Combining volumetric dental CT and optical scan data for teeth modeling」、Comput Aided Des 2015年10月、Vol.67～68、24～37の論文に対して参照が行われる。

図2は、本発明の一実施形態による、正準座標系における3D歯科用構造物の正準ポーズを判定するためのシステムの概略を示す。システム200は、入力および出力を有する少なくとも1つの3D深層ニューラルネットワーク222を備える。システムは、トレーニングセット212に基づいて3D深層ニューラルネットワークをトレーニングするためのトレーニングモジュール201を含み得る。さらに、システムは、特定の座標系における3Dオブジェクトを表す3Dデータセットを受信するように、および3Dデータセットのボクセルの座標を、トレーニング中に、3Dニューラルネットワークにおいて符号化されている、正準座標系の正準座標に変換するための変換パラメータを判定するように構成されている推論モジュール203を含み得る。

ネットワークは、3D画像サンプルと、3D画像サンプルについての関連付けられた正準座標とを含むトレーニングセット212に基づいてトレーニングされ得る。トレーニングデータは、3Dデータセット(たとえば、ボクセル強度値、たとえば、(CB)CTデータのケースでは放射濃度、または、たとえば、ボクセル化表面スキャンデータのケースではバイナリ値)を含み得る。入力ボクセルごとの(x,y,z)ベクトルとして表され得る正準座標データが、ターゲットデータとして使われ得る。

3Dオブジェクト、たとえば、3D歯科用構造物のクラスに適した正準座標系が選択されてよい。ある実施形態では、3D歯科用構造物のケースにおいて、一貫した点(患者間および患者内)における原点(0,0,0)を有するように、正準座標系が判定され得る。今後、「現実世界座標」を参照するとき、それは、患者が直立したときの、患者視点に関連した軸方向を有する、つまり「最低-最高」が患者視点の「上下」を意味し、「前後」が患者視点からの「前後」を意味し、「左右」が患者視点の「左右」を意味する、と見なされる。「現実世界」は、3Dデータセットなどの情報が、そこから供給される状況を指すことを意図している。そのような一貫した点は、たとえば、両方の最も前に位置する歯(FDIシステムインデックス11および21)が依然として接触しているか、または接触するはずだった(たとえば、歯のうちのいずれかが欠けている場合)(現実世界座標における)最低点であってよい。軸の方向を検討して、現実世界方向(患者として閲覧される)の上下、左右および前後がそれぞれ、低い値から高い値に及ぶx、yおよびz値として定義され、符号化され得る。現実世界寸法にスケーリングするために、これがすべてのトレーニングデータにわたって一貫して行われる限り、同じスケーリングが3D深層学習ネットワークの出力となるので、様々な方法が利用されてよい。たとえば、1mmの現実世界平行移動ごとの1座標単位の値が利用されてよい。

データのばらつきおよび/またはデータモダリティに対して堅牢な3D深層ニューラルネットワークを達成するために、3Dデータセット、たとえば、3D歯科用構造物のボクセル表現および関連付けられた正準座標データを含む初期トレーニングセット202に基づいて、多様なトレーニングサンプル212が生成され得る。その目的のために、トレーニングモジュールは、トレーニングデータを前処理するための1つまたは複数のモジュールを含み得る。ある実施形態では、3D深層ニューラルネットワーク222の処理およびメモリ要件を遵守するために、ダウンスケーリングモジュール204が、3Dデータセットを、ダウンスケーリングされた3Dデータセットと、所定の解像度の関連付けられた正準座標とにダウンスケーリングするのに使われ得る。そのようなダウンスケーリング操作は、より小さい3D画像データセットを生じ、たとえば、ボクセル解像度を各方向において1mmまでダウンスケーリングする。別の実施形態では、変換モジュール206が、(ダウンスケーリングされた)3Dデータおよび関連付けられた正準座標にランダム回転を適用することによって、1つの3Dデータセットの異なる変形を生成するのに使われ得る。これは、どの対応可能患者にも行われてよく、多数の患者データセットおよびデータセットごとに多数の回転を有する可能トレーニングサンプルをそこから引き出すためのデータのプールを事実上供給することに留意されたい。

さらに別の実施形態では、トレーニングモジュールは、(ダウンスケーリングされた)3Dデータセットと、関連付けられた正準座標とをブロック(3D画像サンプル)に区分するための区分モジュール208を含むことができ、各ブロックは、所定のサイズを有し、3Dデータセットの総ボリュームのサブセットである。たとえば、トレーニングモジュールの入力に与えられる3Dデータセットは、400×400×400ボクセルのボリュームを含んでよく、各ボクセルは、あらゆる直交方向において0.2mmの寸法を有する。この3Dデータセットは、たとえば、あらゆる方向において1mmの80×80×80ボクセルのボリュームを有する、ダウンスケーリングされた3Dデータセットにダウンスケーリングされてよい。次いで、区分モジュールは、ダウンスケーリングされた3Dデータセットを、所定のサイズ(たとえば、あらゆる方向において1mmの24×24×24ボクセル)の3Dデータブロックに分割すればよい。これらのブロックは、正準座標をターゲットとして使って3D深層ニューラルネットワークをトレーニングするのに使うことができる。ある実施形態では、区分モジュールは、3D深層ニューラルネットワーク222向けのトレーニングセット212を形成するブロックをランダムに選択するためのランダムセレクタを含み得る。

そのような3D深層学習ネットワークは、変化する回転(206から)と平行移動(ランダム選択208から)の両方で本質的にトレーニングすることに留意されたい。任意選択で、別の実施形態では、204から生成され得るように多数のスケールでサンプルが提示され得る。

適切にトレーニングされた3D深層学習ネットワーク222を用いて、新たな3D画像データ214(任意の位置および配向を有する)が、システムへの入力として提示され、トレーニング3D画像データと似たように、より具体的には、216における所定のスケーリングを利用して、ダウンスケーリングされたデータセットを、218において所定のサイズの画像ブロックに区分し、および3D深層ニューラルネットワークによって要求されるように3D画像ブロック220を提示して、適切に前処理されてよい。受信された3D画像データの空間全体を覆う画像ブロックを少なくとも一度提示することによって、正準座標が、3D深層ニューラルネットワークによって、3D画像データセット中のあらゆる(ダウンサンプリングされた)ボクセルについて予測され得る。

そのような予測データは、受信されたデータが、その正準ポーズに可能な限り近く位置合わせされるためにどのように変換され得るかを定義する変換パラメータの1つの一般セットを生成するために、224においてさらに処理されてよい。この処理については、これ以降でより詳しく記載し、示す。比較的大きい現実世界3D空間からの十分なトレーニングサンプルがあれば、より小さいボリューム(トレーニングデータ内に代表的に含まれるならば)からの受信されたデータについて正準ポーズが判定され得ることに留意されたい。事実上、入力データの解像度は、1.25mm前後であり得ることに留意されたい。3D深層ニューラルネットワーク222による予測は、浮動小数点値で算出され得る。

図3A～図3Dは、本発明の一実施形態による、3D歯科用構造物などの3Dオブジェクトの正準ポーズを判定する方法を示す概略を示す。図3Aは、3Dオブジェクト、たとえば、歯などの歯科オブジェクトのボクセル表現300を概略的に示す。ボクセルは、強度値、たとえば、(CB)CTスキャンから入手された放射濃度に関連付けられ得る。代替として、ボクセルはバイナリ値に関連付けられ得る。その場合、ボクセル表現は、構造化光スキャンまたはレーザー表面スキャンから入手された、ボクセル化表面またはボクセル化表面導出ボリュームのバイナリボクセル表現であってよい。3Dオブジェクトは、上部分(たとえば、歯冠)、下部分(たとえば、根)、前部分、後部分ならびに左および右部分を識別する特定の特徴を有し得る。ボクセル表現は、第1の(直交)座標系(x,y,z)302、たとえば、走査ソフトウェアによって、3D空間中の走査データを表すのに使われる座標系に関連付けられる。これらの座標は、たとえば、DICOM画像ファイル中の(メタ)データとして与えられ得る。3Dオブジェクトは、第1の座標系によって定義された3D空間中の、特定の配向、位置およびサイズを有し得る。ただし、そのような座標系は、ここでは「左」、「右」、「前」、「後」、「下」および「上」によって示されるオブジェクトに対して定義され得る系にはまだ対応し得ないことに留意されたい。トレーニングされた3D深層ニューラルネットワークを使って、3Dオブジェクトは、308において、(空間的に)「正規化され」(すなわち、配向し直され、位置決めし直され、スケーリングされ)、(直交)正準座標系に基づいて定義され得る。正準座標系(x',y',z')306において、正規化3Dオブジェクト305は正準ポーズを有することができ、ここで、3Dオブジェクトの特定の特徴は、正準座標系の軸と位置合わせされてよい。したがって、システムは、走査システムによって定義された座標系によって定義された3D空間中で、特定の配向、位置およびサイズを有する3D歯科用構造物のボクセル表現を受信し、3Dオブジェクトの正準ボクセル表現を判定することができ、ここで、3Dオブジェクトは正準座標系において定義され、オブジェクトのサイズはスケーリングされ、3D歯科用構造物の特定の特徴は、正準座標系の軸と位置合わせされる。

図3Bは、3Dオブジェクトのボクセル表現310のボクセルを受信するようにトレーニングされ得る3D深層ニューラルネットワーク318を示し、ここで、ボクセルは、座標系302(x,y,z)によって定義された特定の位置を有し得る。3D深層ニューラルネットワークは、ボクセル表現に関連付けられた、いわゆる正準ポーズ情報303を生成するように構成されてよい。正準ポーズ情報は、ボクセル表現の各ボクセル304(x,y,z)について、正準座標系によって定義された空間における座標(x',y',z')の予測を含み得る。正準座標系は、確実に識別可能な歯顎顔面構造、たとえば、歯列弓の特徴の典型的な位置、配向およびスケールに関して定義され得る。そのような正準座標系を導出するのに要求される情報は、ネットワークのトレーニングフェーズ中に、3D深層ニューラルネットワーク中で符号化されてよい。このようにして、正準ポーズ情報は、同じ相対的な位置、配向、およびスケールでの同じ歯顎顔面構造を表す3Dデータの異なる多様性および/またはモダリティを配置するのに使われ得る。

したがって、各入力ボクセル304について、正準座標系における、入力ボクセルのx'、y'、およびz'座標の値についての予測を含む3つの対応する出力値314、324、334が、それぞれ、3D深層ニューラルネットワークによって生成される。ある実施形態では、正準ポーズ情報は、3つの3Dボクセルマップ312、322、332を含んでよく、各3Dボクセルマップは、3Dニューラルネットワークの入力におけるボクセル表現のボクセルを正準座標にリンクする。

3D深層ニューラルネットワークの入力にボクセル表現を提供する前に、ボクセル表現は、ボクセルブロック(ここでは316によって示され、これ以降、略して「ブロック」)のセットに区分されてよく、ボクセルブロックの寸法は、3D深層ニューラルネットワークの入力空間の寸法と一致する。ブロックサイズは、3D深層ニューラルネットワークのデータ記憶能力に依存し得る。したがって、3D深層ニューラルネットワークは、ボクセル表現のブロックの各々の中のボクセルを処理し、各ブロックのボクセルについての正準ポーズ情報、すなわち、ブロック中の各ボクセルについての正準座標系の座標(x',y',z')の予測を生じることができる。ある実施形態では、3D深層ニューラルネットワークは、3つのボクセルマップ312、322、332を生成することができ、第1のボクセルマップ312は、3D深層ニューラルネットワークの入力に提供されるブロック中の各ボクセルについて、対応するx'座標を含み、第2のボクセルマップ322は、ブロック中の各ボクセルについてy'座標を含み、第3のボクセルマップ332は、ブロック中の各ボクセルについてz'座標を含む。

図3Cは、3D深層ニューラルネットワークの入力に提供され、第1の座標系(x,y,z)302、たとえば、3D画像を生じるのに使われたスキャナの画像処理ソフトウェアによって使われる座標系に基づいて定義される3Dオブジェクト300のボクセル表現を概略的に示す。これらの座標またはこれらの座標を判定するための情報は、データファイル、たとえば、DICOMファイルに、メタデータとして含まれてよい。3D深層ニューラルネットワークによって生成された正準ポーズ情報に基づいて、正準座標系中の3Dオブジェクトの正準ポーズの予測が生成され得る。したがって、正準ポーズ情報350は、第1の座標系中の各ボクセルの位置(x,y,z)を、正準座標系中の位置(x',y',z')にリンクし得る。この情報は、システムが、第1の座標系中で定義された3Dオブジェクトを、正準座標系中で定義されたその正準ポーズ362に変換できるようにする変換360を判定するのに使われ得る。

ポーズ情報は、正準座標系の軸(正準軸)に関連付けられた、配向およびスケーリング係数を判定するのに使われ得る。ここで、配向は、第1の座標系によって定義された空間中の正準軸の配向であってよい。ポーズ情報は、正準座標系の原点の位置を判定するのにも使われ得る。

正準軸の配向は、3D深層ニューラルネットワークによって判定される、3Dボクセルマップ中の1つまたは複数のボクセルにおける(局所的)勾配に基づいて判定され得る。たとえば、正準座標のx'構成要素に関連付けられた、第1の3Dボクセルマップの各々または少なくともいくつかのボクセルについて、局所勾配が判定され得る。局所勾配は、第1の座標系によって定義されたx,y,z空間中の3Dベクトルとして表され得る。ベクトルの方向は、ボクセルの位置における、正準x'軸の配向の予測を表す。さらに、ベクトルの長さは、正準x'軸に関連付けられたスケーリング係数の予測を表す。ある実施形態では、正準x'軸に関連付けられた配向およびスケーリング係数についての予測は、第1の3Dボクセルマップのx'値に基づいて判定され得る。たとえば、第1の3Dボクセルマップのボクセルについての予測の統計的に代表的な測度、たとえば、中央値または平均勾配が判定され得る。ある実施形態では、第1の3Dボクセルマップのx'値が前処理され、たとえば、平滑化および/またはフィルタリングされ得る。たとえば、ある実施形態では、中央値フィルタが、(局所的)線外値を取り除くのに使われ得る。同じやり方で、正準y'軸についての配向およびスケーリング係数の予測は、第2の3Dボクセルマップにおけるy'値に基づいて判定されてよく、正準z'軸についての配向およびスケーリング係数の予測は、第3の3Dボクセルマップにおけるz'値に基づいて判定されてよい。正準x'、y'、z'軸の予測される配向は、軸が直交するか、または正規直交さえもすることを保証するように後処理され得る。様々な知られている方式、たとえば、グラムシュミットプロセスが、これを達成するのに使われ得る。受信された座標系302と、予測から導出された座標系とを比較することによって、回転およびスケーリングパラメータが入手され得る。

正準座標系の原点の位置(第1の座標系の空間中の平行移動ベクトルに関して)は、3D深層学習ネットワークの入力に提供されるボクセル表現の中心の正準座標の予測を判定することによって入手され得る。これらの座標は、たとえば、予測される第1の3Dボクセルマップのx'値、第2の3Dボクセルマップのy'値および第3の3Dボクセルマップのz'値の平均または中央値に基づいて判定され得る。平行移動ベクトルが、ブロックの中心の予測正準座標(x_o',y_o',z_o')と、第1の座標系に基づくブロックの中心の座標とに基づいて、たとえば、単純減算を使って判定され得る。代替として、正準座標系の原点は、そのようなブロックの複数の予測の集約によって判定することができ、後者は、受信されたボクセル表現の同じサイズの空間について判定される正準座標を事実上処理する。上述したプロセスは、3Dデータセットのブロックの各々または少なくとも大部分に対して繰り返されてよい。各ブロックについて判定された情報(正準座標系の配向、スケールおよび原点)は、正確な予測を与える平均値を入手するのに使うことができる。

したがって、図2および図3に示すシステムおよび方法は、3D歯科用構造物の正準ポーズを判定する効率的やり方を提供する。図3Dに示すように、これらの方法は、第1の座標系に関連付けられた3D歯科用構造物のボクセル表現を3D深層ニューラルネットワークの入力に与える、コンピュータのプロセッサの第1のステップ380を含み、ニューラルネットワークは、第2の正準座標系に関連付けられた正準ポーズ情報を生成するように構成される。その後、ステップ382において、プロセッサは、3D深層ニューラルネットワークの出力から正準ポーズ情報を受信することができ、ボクセル表現の各ボクセルについて、正準ポーズ情報はボクセルの正準座標の予測を含む。プロセッサは続いて、処理ステップ384を実行すればよく、ここで、正準ポーズ情報は、正準座標系の軸の配向(および、適用可能な場合はスケーリング)を(たとえば、ボクセルの位置の局所勾配を表すベクトルを判定することによって)ならびに正準座標系の原点の位置を(たとえば、平均(x',y',z')値、したがって正準原点までの平均3D距離を表すベクトルを判定することによって)判定するのに使われ、配向および位置(および、適用可能な場合はスケーリング)は続いて、第1の3D座標系の座標を第2の正準座標系の座標に変換するための変換パラメータを判定するのに使われる。その後、ステップ386において、プロセッサは、受信された3Dデータセットに変換パラメータを適用することによって、第2の正準座標系によって表される空間中での3D歯科用構造物の正準ポーズを判定する。3Dデータセットがボクセル表現であるケースでは、パラメータはボクセルに適用されてよい。代替として、3Dデータセットがメッシュ表現であるケースでは、パラメータはメッシュの座標に適用されてよい。

このようにして、3D歯科用構造物などの3Dオブジェクトの正準表現が実現され得る。この方法は、3Dオブジェクトに関連付けられた異なる3Dデータモダリティを3Dオブジェクトの正準ポーズに変換するのに使うことができ、正準ポーズは、異なる3Dデータセットの重ね合わせのプロセスにおいて使われ得る。代替および/または追加として、方法は、3Dオブジェクトをセグメント化するように、および(任意選択で)3Dオブジェクトのセグメント化された部分の分類を判定するように構成される1つまたは複数の3D深層ニューラルネットワークの3D入力に3Dデータセットが提供される前の前処理ステップとして使うことができる。そのような前処理ステップは、実質的に、3Dオブジェクトのセグメント化および類別の正確さを増す(かつ/またはそのような3D深層ニューラルネットワークについての同じ正確さに対して、トレーニング時間もしくはメモリ要件を削減する)が、というのは、そのようなトレーニング済みニューラルネットワークの正確さは、システムに入力される3Dデータセットによって表される3Dオブジェクトのポーズが正規化ポーズからあまりにも(特に、配向に関して)逸脱する場合、影響され得るからである。

図4A～図4Cは、図3A～図3Dを参照して記載した方法によって使われ得るトレーニングターゲットおよび結果の図解を示す。図4Aは、3Dデータセットの3つのスライス400_1～3、この例では、3D歯科用構造物のCBCTスキャン、ならびに3D深層ニューラルネットワークをトレーニングするのに使うことができるx'、y'およびz'座標についての3Dボクセルマップの関連付けられたスライスを示す。これらの3Dボクセルマップは、正準x'座標402₁、正準y'座標402₂および正準z'座標402₃の所望の予測を含む。グレースケール値は、正準座標系に従って、座標についての(符号化された)値の勾配を可視化する。座標(x,y,z)は、CBCTスキャンに関連付けられた座標系に基づく、3D歯科用構造物のボクセルの位置を示す。方向を含む、可視化された軸が、ピクチャごとに左上に記されている。また、表示される勾配のグレースケール値は、図4A～図4Cすべてにわたる同じ値について、同じグレースケール値を有するように適切にスケーリングされているごとに注目すべきである。これにより、符号化(トレーニング用)または予測される、事実上は正準座標系への平行移動であるものの、より良好な目視比較ができる。最終的に、すべての可視化は、図解ごとに左上に見えるスライス番号によって記すように、実際に利用される3Dデータセットおよび関連付けられたボクセルマップからスライスされる、単一の中央「スライス」(事実上、2D画像データのピクセル)の2D表現であることに留意されたい。

システムをトレーニングする目的のために、3D歯科用構造物を表す3Dデータセットは、図4Bによって示すように、正準座標系をもっていると考えられ得る。これらの図解のケースでは、勾配を示す図解のために、黒色のための値は-40.0mmであり、白色のための値は+40mmであり、事実上、この患者スキャンの中心を原点(0,0,0)として有する。このデータ(3D画像データと正準系の表現の両方)はすでに、204においてプロセッサによって起こるように、適切にダウンスケーリングされている。これらのデータは次いで、回転されてよく(たとえば、線形または他の補間方法を利用して)、406の図解に示すように3Dデータをもたらす。この回転を実施する方法によっては、画像空間のサイズも、受信された3D画像データセットのすべてのボクセルを含むように拡大され得るが、これらの図解には当てはまらない。

図4Bは、ランダムに回転された入力ボクセル表現406からの、適切にサイズ決めされたブロック412、この場合、24×24×24ボクセルの寸法を有するサブサンプルの、(208においてプロセッサによって実施され得るような)ランダム選択から生じ得るトレーニングデータ408を示す。正準座標系のすべての3つの符号化された方向を、408において行われるのと同じy-zビュー(ボクセルの3D立方体の中央y-zスライス)において可視化するとき、正準座標系の軸の方向を符号化する3D方向ベクトルの(y-z面における)2D構成要素の方向を(この2D可視化のケースでは)事実上符号化する勾配方向を見ることができることに留意されたい。同様に、ボクセルごとの値は事実上、ボクセルx'、y'およびz'座標を正準座標系に従って符号化する。たとえば、データの3D予測セット全体を処理するとき、各軸の3Dベクトルは、正準座標系に従うように判定され得ることに留意されたい。トレーニング用のサブサンプルの選択は、選択された、より小さいサイズのサンプルが、受信された3D画像データセットの一部であったボクセルのみを含む(すなわち、適用された回転から生じる、図解において見られ得るような、辺沿いのボクセルの「空」パッチを含まない)ように行われてよい。

図4Cは、(216においてプロセッサから生じ得るような)サイズ変更の後の新たな入力416を示す。この入力は、この図解の目的のために、任意に回転されている。図解418および420の目的のために、x-yビュー(スライス)のみが可視化されている。セット418は、予測正準座標x'、y'およびz'のスライスを示す。受信された画像データは、ブロック(またはサブサンプル)に区分されており、ブロックに対して座標予測が実施され、これらの予測ブロックは、全受信3D画像セット空間(ブロックの寸法を示す、画像中に見られる正方形のような構造から見ることができる)へ元に戻されたことがわかり得る。これは事実上、正準座標系への変換のための回転、平行移動および任意選択でスケーリングパラメータの両方についての予測が、30×30×30mmのサイズの3D画像データに対して実施され得ることを示すことに留意されたい。図は、トレーニングされたネットワークが、この可視化のために利用される回転から生じるような「空」データのパッチに対して比較的堅牢であることも示す。(すなわち、これらの図解の目的のためにトレーニングされたネットワークのケースでは、「空」データには、0という一定の値が与えられる)

420によって示されるのは、416がトレーニングデータであった場合にそうである、符号化された座標値であるか、または3D深層ニューラルネットワークから生じるはずの所望の「ターゲット」値である。勾配の一般的値(ボクセルごとの、原点までの距離を示す)および一般的方向は非常に類似していることがわかり得る。現実世界データが回転されるケースでは、図解において見られるような「空」パッチは存在しない。システムは、224においてプロセッサ内で、たとえば、予測される座標データ418に対する3D平均化フィルタ、線外値の除去、および/または得られた値を平滑化するための他の方法を実施し得る。予測される座標値の、代表的測度、たとえば、平均または中央値が、正準座標系に対する、ボクセル表現416の中心の位置を判定するのに使われてよい。受信された座標系に対する、および正準座標系に対する、ボクセル表現416の中心の位置の間の差に基づいて、平行移動が判定され得る。

3D勾配導出アルゴリズムは、比較的計算的に安価であり、「値の軸立方(axis cube)」ごとに値の3つの追加立方を生じることができ、事実上、軸の方向を記述するベクトルの3つの成分を、「軸立方」ごとに生じる。これにより、ボクセルごとに、x、yおよびz軸方向すべてについて、方向3Dベクトルがもたらされ得る。代表的測度、たとえば、平均または中央値が、所望の座標軸に対するこれらのベクトルについて判定され得る。適用可能な場合、軸ごとのこれらのベクトルが、それらの単位ベクトル等価物にコンバートされ得る。さらに、システムは、これらの3つのベクトルが、3つの、それらの最も近い完全正規直交セットにコンバートされることを保証し、予測される軸ごとのベクトルの第1のセットと、得られる直交セットとの間の角度距離の合計を最小限にする。

正準軸のこれらの3つの(事実上)予測される方向から、正準配向への、受信された3D画像データセットの回転を検討する適切な変換パラメータが、正準ポーズの一部として、算出され得る。続いて、システムは、正準原点までの平均距離が、軸ごとに、受信された3D画像データセットについてどうなるかを判定し得る。このことから、受信された3D画像データセットの平行移動についての変換パラメータを算出することができ、事実上、受信された3D画像データセット内の(またはそれに対して)どこに正準原点があるべきかを、または逆に、座標系中のどこに正準位置があるべきかを判定する。

別の実施形態では、3D深層ニューラルネットワークは、変化するスケールについてトレーニングされてよく、得られる予測値の勾配の大きさが、受信された3D画像データセットのスケールを判定するのに利用されてよい。これは、受信されたデータの所望のスケーリングへの変換パラメータを算出するのに使うことができる。

図5は、本発明の一実施形態による、正準座標の判定のための3D深層ニューラルネットワークアーキテクチャの例を示す。3D深層ニューラルネットワークは、事実上、当該分野においてよく知られているような2D U-netの3D実装形態である、3D U-netと同様のアーキテクチャを有し得る。

ネットワークは、(拡張)畳み込みレイヤ(3D CNN)、3D最大プーリングレイヤ、3D逆畳み込みレイヤ(3D逆CNN)、および密接続レイヤなど、様々な3Dニューラルネットワークレイヤを使って実装されてよい。レイヤは、線形、tanh、ReLU、PreLU、シグモイドなどのような、様々なアクティブ化関数を使うことができる。3D CNNおよび逆CNNレイヤは、フィルタ、フィルタサイズおよびサブサンプリングパラメータの量が変わり得る。3D CNNおよび逆CNNレイヤ、ならびに密接続レイヤは、パラメータ初期化方法が変わり得る。アーキテクチャを通して、ドロップアウトレイヤおよび/またはバッチ正規化が利用されてよい。

3D U-netアーキテクチャに続いて、トレーニング中、3D CNNおよび3D逆CNNレイヤ内の様々なフィルタは、正確な予測の作業を助けることになるように、有意な特徴を符号化することを学習する。トレーニング中、3D画像データ502の一致するセットおよび符号化された一致する正準座標540が、前者から後者の予測へ最適化するのに使われる。損失関数が、最小化されるべき測度として利用されてよい。この最適化作業は、SGD、Adamなどのようなオプティマイザを利用することによって支援され得る。

そのようなアーキテクチャは、様々な解像度スケール、すなわち、事実上、ダウンスケーリング506、510、514を、最大プーリングまたは(拡張および/もしくはサブサンプリング)畳み込みレイヤを通した、3D CNNレイヤ504、508、512の以前のセットからの結果として利用することができる。「有意な特徴」という用語は、ターゲット出力値を判定することに関連した情報の(連続)導出を指すが、3D逆CNNレイヤを通しても符号化され、これらのレイヤは、事実上、フィルタを利用しながらアップスケーリングを実施する。そのような3D逆CNNレイヤ518、524、534から生じる520、526、532のデータを、同じ解像度に対して作用する「最終」3D CNNレイヤからのデータ(512から520、508から526および504から532)と組み合わせることによって、かなり正確な予測が遂行され得る。アップスケーリング経路を通して、追加3D CNNレイヤが522、528、534において使われてよい。たとえば、入来3D CNNレイヤ534のフィルタの結果に基づいてボクセルごとに論理をろ過する密接続レイヤを利用することによって、ネットワークのパラメータ内に、追加論理が符号化され得る。

推論のために使用されるとき、検証が十分に正確な結果を出すように内部パラメータを符号化するようにトレーニングされて、入力サンプルが提示されてよく、3D深層学習ネットワークは、542においてボクセルごとに予測正準座標を生じ得る。

図6は、本発明の一実施形態による、歯顎顔面3D画像データのセグメント化のためのシステム構成要素の概観を示す。深層学習に基づく自動セグメント化のための方法およびシステムが、参照により本出願に組み込まれている、「Classification and 3D modelling of 3D dento-maxillofacial structures using deep learning methods」と題する欧州特許出願第17179185.8号に記載されている。

特に、コンピュータシステム602は、歯顎顔面構造の3D画像データスタック604を受信するように構成され得る。構造は、たとえば、顎、歯および神経構造を含み得る。3D画像データは、ボクセル、すなわち、ボクセル値、たとえば、放射線強度または濃度値を表す、グレースケール値または色値に関連付けられた3D空間要素を含み得る。好ましくは、3D画像データスタックは、所定のフォーマット、たとえば、DICOMフォーマットまたはその派生物によるCBCT画像データを含み得る。

特に、CBCTスキャンでは、放射濃度(ハウンズフィールド単位(HU)で測定される)は不正確であり、というのは、走査における異なるエリアは、スキャンされる器官中のそれらの相対的位置に依存して、異なるグレースケール値で現れるからである。CBCTおよび医療水準CTスキャナの両方を用いて同じ解剖エリアから測定されるHUは、同一ではなく、したがって、場所固有の、X線写真で識別された骨密度の判定用には信頼できない。

その上、歯科CBCTシステムは、再構築された濃度値を表すグレーレベルをスケーリングするための規格化システムを利用しない。これらの値は、したがって任意であり、骨質の評価を可能にさせない。そのような規格化がない場合、グレーレベルを解釈するのが難しいか、または異なる機械から生じた値を比較することが不可能である。

歯および顎骨構造は、同様の濃度を有し、これにより、コンピュータは、歯に属すボクセルと、顎に属すボクセルとを区別することが難しい。さらに、CBCTシステムは、2つの高減衰オブジェクト(金属または骨など)の間に暗い筋(streak)を生じ、周辺に明るい筋がある、いわゆるビーム硬化に対して非常に敏感である。

上で言及した理由により、また、これ以降でより詳しく記載するように、重ね合わせシステムが、図6を参照してここで記載するシステム構成要素を利用することが特に有益である。

システム構成要素は、3D画像データを、第1の3D深層ニューラルネットワーク612の入力にフィードされる前に前処理するためのセグメント化プリプロセッサ606を含んでよく、ネットワーク612は、類別されたボクセルの3Dセットを出力614として生じるようにトレーニングされる。そのような前処理は、たとえば、ボクセル値を、ニューラルネットワークにとってより有益な範囲に正規化することを含み得る。これ以降でより詳しく記載するように、3D深層ニューラルネットワークは、所定のトレーニング方式に従ってトレーニングされてよく、そうすることによって、トレーニングされたニューラルネットワークは、3D画像データスタック中のボクセルを、異なるクラスのボクセル(たとえば、歯、顎骨および/または神経組織に関連付けられたボクセル)に正確に類別することが可能である。3D深層ニューラルネットワークは、複数の接続された3D畳み込みニューラルネットワーク(3D CNN)レイヤを備え得る。

コンピュータシステムは、3D深層ニューラルネットワークによって類別されたボクセルを使って、歯顎顔面構造の異なる部分(たとえば、歯、顎および神経)の3Dモデルを正確に再構築するためのセグメント化ポストプロセッサ616をさらに備え得る。類別されたボクセル614は、たとえば、歯、顎または神経構造に属すものとして類別されたものすべてを表すボクセルのセットを含み得る。こうしたタイプの構造の3Dデータを、個々の歯および/または顎(たとえば、上、下)が別個の3Dモデルによって表されるように作成することが有益であり得る。これは、ボリューム再構築620によって遂行され得る。個々の歯に属すボクセルの分離セットのケースのために、これは、3Dバイナリ浸食、3Dマーカー作成および3D撥水(それらの組合せ)によって遂行され得る。下および上顎部分への分離の組合せのために、上下(現実世界座標系)軸に沿った原点からの距離は、この方向に垂直な面におけるボクセルの合計が、同じ軸に沿う他の交差面と比較して最少であるところに見ることができる。上および下顎部分への分解は、この距離を利用して行うことができる。別の実施形態では、顎は、対応するボクセルを別個の顎クラスとして類別することによって、深層ネットワークによって自動的に分解され得る。類別されたボクセルの他の部分、たとえば、3D深層ニューラルネットワークによって、神経に属すものとして類別されたボクセルが、補間関数618を使うことによって後処理され、3D神経データ622として記憶され得る。セグメント化の後、歯顎顔面構造の様々な部分の3Dデータを後処理し、神経、顎および歯データ622～626は、組み合わされ、コンピュータシステムの入力にフィードされた3D画像データで歯顎顔面構造を正確に表す別個の3Dモデル628にフォーマットされ得る。類別されたボクセル614ならびに3Dモデル628の両方が、入力データ604と同じ座標系において定義されることに留意されたい。

3D深層ニューラルネットワークを、たとえば、今日のCBCTスキャンデータに存在する変動性に対して堅牢にするために、3D深層ニューラルネットワークは、3D画像データによって表される歯顎顔面構造の部分の3Dモデルを利用するように、モジュール638を使ってトレーニングされ得る。3Dトレーニングデータ630は、関連付けられたターゲット出力がそれについて知られている、604において提示されるCBCT画像(たとえば、歯顎顔面構造の3D CT画像データ、および歯顎顔面構造の関連付けられた3Dセグメント化表現)に正しく位置合わせされ得る。従来の3Dトレーニングデータが、多大な量の作業を表し得る入力データを手動でセグメント化することによって入手され得る。さらに、手動セグメント化により、低い再生産性および一貫性の入力データが使われるようになる。

この問題に対抗するために、ある実施形態では、光学生成トレーニングデータ630、すなわち、歯顎顔面構造(の部分)の正確な3Dモデルが、手動でセグメント化されたトレーニングデータの代わりに、またはそれに加えて使われ得る。トレーニングデータを生産するために使われる歯顎顔面構造が、3D光学スキャナを使ってスキャンされ得る。そのような光学3Dスキャナは、当該分野において知られており、高品質3D顎および歯表面データを生じるのに使うことができる。3D表面データは、充填され(どの特定のボクセルが、メッシュによって包含されるボリュームの一部であるかを判定する)、ボクセル類別器634によって使われ得る3D表面メッシュ632を含み得る。このようにして、ボクセル類別器は、かなり正確な類別されたボクセル636をトレーニング用に生成することができる。さらに、上述したように、手動で類別されたトレーニングボクセルも、トレーニングモジュールによって、ネットワークをトレーニングするのに使われ得る。トレーニングモジュールは、類別されたトレーニングボクセルをターゲットとして、および関連付けられたCTトレーニングデータを入力として使えばよい。

図7Aは、本発明の様々な実施形態による、歯顎顔面3D画像データのセグメント化のための3D深層ニューラルネットワークアーキテクチャの例を示す。図7Aに示すように、ネットワークは、3D畳み込みニューラルネットワーク(3D CNN)を使って実装され得る。畳み込みレイヤは、シグモイド関数、tanh関数、relu関数、softmax関数などのような、レイヤ中のニューロンに関連付けられたアクティブ化関数を利用し得る。複数の3D畳み込みレイヤが使われてよく、レイヤの数およびそれらが定義するパラメータにおける些細な変形、たとえば、異なるアクティブ化関数、カーネル量およびサイズ、ならびにドロップアウトレイヤなどの追加の機能レイヤおよび/またはバッチ正規化が、3D深層ニューラルネットワークの設計の本質を失うことなく、実装形態において使われてよい。

ネットワークは、複数の畳み込み経路、この例では3つの畳み込み経路、すなわち、3D畳み込みレイヤ704の第1のセットに関連付けられた第1の畳み込み経路、3D畳み込みレイヤ706の第2のセットに関連付けられた第2の畳み込み経路、および3D畳み込みレイヤ708の第3のセットに関連付けられた第3の畳み込み経路を含み得る。データ処理を実行するコンピュータが、3Dデータセット702、たとえば、CT画像データを、畳み込み経路の入力に提供し得る。3Dデータセットは、3D歯科用構造物のボクセル表現であってよい。

異なる経路の機能が、図7Bに、より詳しく示される。この図に示すように、ボクセル表現のボクセルが、3D深層ニューラルネットワークの入力に与えられ得る。ボクセル表現のボクセルは所定のボリュームを定義することができ、これは、画像ボリューム701₄と呼ばれ得る。コンピュータは、画像ボリュームをボクセルの第1のブロックに分割し、第1のブロックを第1の経路の入力に提供し得る。第1の経路703₁の3D畳み込みレイヤは、ボクセル701₁の第1のブロックに対して3D畳み込み演算を実施し得る。処理中、第1の経路の1つの3D畳み込みレイヤの出力は、第1の経路中の後続3D畳み込みレイヤの入力である。このようにして、各3D畳み込みレイヤが、第1の経路の入力に与えられる、ピクセルの第1のブロックの部分を表す3D特徴マップを生成し得る。そのような特徴マップを生成するように構成される3D畳み込みレイヤは、したがって、3D CNN特徴レイヤと呼ばれ得る。

図7Bに示すように、第2の経路703₂の畳み込みレイヤは、ボクセル表現のボクセル701₂の第2のブロックを処理するように構成されてよく、ボクセルの第2のブロックは、ボクセルの関連付けられた第1のブロックのダウンサンプリングされたバージョンを表し、ボクセルの第1および第2のブロックは、同じ中心をもつ原点を有する。第2のブロックの表されるボリュームは、第1のブロックのボリュームよりも大きい。その上、ボクセルの第2のブロックは、ボクセルの関連付けられた第1のブロックの、ダウンサンプリングされたバージョンを表す。ダウンサンプリング係数は、任意の適切な値であってよい。ある実施形態では、ダウンサンプリング係数は、20と2との間、好ましくは5と3との間で選択され得る。

第1の経路703₁は、3D CNN特徴レイヤ(たとえば、5～20レイヤ)の第1のセットを定義することができ、セットは、入力データ(たとえば、画像ボリューム中の所定の位置にある、ボクセルの第1のブロック)をターゲット(すなわち、類別される、画像ボリュームのボクセル)のボクセル解像度で処理するように構成される。第2の経路は、3D CNN特徴レイヤ(5～20レイヤ)の第2のセットを定義することができ、これらは、ボクセルの第2のブロックを処理するように構成され、ボクセル701₂の第2のブロックの各ブロックは、ボクセル701₁の第1のブロックからの、それに関連付けられたブロックと同じ中心点を有する。その上、第2のブロックのボクセルは、701₁の解像度よりも低い解像度で処理される。したがって、ボクセルの第2のブロックは、第1のブロックよりも大きい、現実世界寸法でのボリュームを表す。このようにして、第2の3D CNN特徴レイヤは、第1の3D CNN特徴レイヤによって処理される、関連付けられたボクセルの直近についての情報を含む3D特徴マップを生成するために、ボクセルを処理する。このようにして、第2の経路は、3D深層ニューラルネットワークが、コンテキスト情報、すなわち、3D深層ニューラルネットワークの入力に提示される3D画像データのボクセルのコンテキスト(たとえば、その周辺)についての情報を判定することを可能にする。

同様にして、第3の経路703₃が、ボクセル701₃の第1のブロックのさらなるコンテキスト情報を判定するのに使用され得る。したがって、第3の経路は、3D CNN特徴レイヤ(5～20レイヤ)の第3のセットを含むことができ、これらは、ボクセルの第3のブロックを処理するように構成され、ボクセル701₃の第3のブロックの各ブロックは、ボクセル701₁の第1のブロックおよびボクセル701₃の第2のブロックからの、それに関連付けられたブロックと同じ中心点を有する。その上、第3のブロックのボクセルは、ボクセルの第1および第2のブロックの解像度よりも低い解像度で処理される。このダウンサンプリング係数は、適切な値に再度設定されてよい。ある実施形態では、ダウンサンプリング係数は、20と3との間、好ましくは16と9との間で選択され得る。

3つの経路またはより多くの経路を使うことによって、3D画像データ(入力データ)と3D画像データのボクセルについてのコンテキスト情報の両方が並行して処理され得る。コンテキスト情報は、区別するのが難しい、密に詰まった歯科用構造物を通常は含む歯顎顔面構造を類別するのに重要である。

3D CNN特徴レイヤのセットの出力は次いで、併合され、完全接続3D CNNレイヤ710のセットの入力にフィードされ、レイヤ710は、ニューラルネットワークの入力において提供されるとともに3D CNN特徴レイヤによって処理されるボクセル712の意図された類別を導出するようにトレーニングされる。

3D CNN特徴レイヤのセットは、それらの特定の入力から判定され得る最適に有用な情報を導出し、伝えるように(それらの学習可能パラメータを通して)トレーニングされてよく、完全接続レイヤは、最適な類別されたボクセル712を提供するために、3つの以前の経路からの情報が組み合わされるべきやり方を判定するパラメータを符号化する。ここで、完全接続レイヤの出力(最終レイヤ)は、各ボクセル向けの複数のアクティブ化を提供し得る。そのようなボクセルアクティブ化は、複数のクラス、たとえば、歯科用構造物クラスのうちの1つ、たとえば、歯、顎および/または神経構造にボクセルが属す確率を定義する確率測度(予測)を表し得る。各ボクセル用に、異なる歯科用構造物に関連付けられたボクセルアクティブ化が、類別されたボクセルを入手するために閾値化されてよい。その後、異なる歯科用構造物クラスに属す類別されたボクセルが、画像空間714中で提示され得る。したがって、3D深層ニューラルネットワークの出力は、入力におけるボクセルの画像空間に対応する、画像空間中の類別されたボクセルである。

図6および図7に関して記載するセグメント化3D深層ニューラルネットワークが、3D画像データ空間にわたる平行移動に対して本質的に不変であり得るが、114におけるプロセッサからの情報を、正準ポーズを入手するように、少なくとも回転を(比較的大まかにではあるが)調節するための初期事前位置合わせステップ124を適用するのに利用することが有益であり得ることに留意されたい。現実世界直交方向(たとえば、患者上下、左右および前後)が、あらかじめ定義された正準方向(たとえば、それぞれ内部(3Dデータセット)表現z方向の上下、x方向の左右およびy方向の前後)で使われる3D画像データ中に存在する場合、セグメント化3D深層ニューラルネットワークのための要求されるメモリ帯域幅が削減されてよく、トレーニング時間が削減されてよく、セグメント化の正確さが向上されてよい。これは、前記正準回転までの回転を検討して前記3Dデータセットが、あらかじめ位置合わせされたデータに対する推論(非トレーニングサンプルに対する予測)を具体的にトレーニングし、実施することによって行われ得る。

図8は、本発明の一実施形態による、3D歯顎顔面3D画像データの分類のためのシステム構成要素の概観を示す。深層学習に基づく自動分類のための方法およびシステムが、参照により本出願に組み込まれている、「Automated classification and taxonomy of 3D teeth data using deep learning methods」と題する欧州特許出願第17194460.6号に記載されている。システム800は、2つの異なるプロセッサ、すなわち、3D深層ニューラルネットワーク826をトレーニングするためのプロセスを実行するための第1のトレーニングモジュール802と、新たな入力データ816に基づいて類別プロセスを実行するための第2の類別モジュール814とを含み得る。

図8に示すように、トレーニングモジュールは、トレーニングに向けられたデータソースの1つまたは複数のリポジトリまたはデータベース806、812を備え得る。そのようなリポジトリは、入力データ、たとえば、歯列を含む3D画像データを受信するように構成された入力804により供給を受けることができ、データは、それぞれの所望のラベルと一緒に、様々なフォーマットで記憶されてよい。より具体的には、少なくとも第1のリポジトリまたはデータベース806が、歯列の3D画像データと、この歯列における歯の関連付けられたラベルとを記憶するのに使われてよく、これらは、トレーニングに使うことができる個々の歯を表す関心ボリューム810をセグメント化し、抽出するように構成されているコンピュータシステム808によって使われ得る。そのようなシステムは、ボクセル(たとえば、(CB)CT)データのケースでは、図6および図7に関して記載したように実装されてよく、または、たとえば、歯および歯肉(たとえば、IOSデータ)を含む3D表面メッシュからセグメント化され得るような、個々の歯冠の3D表面メッシュであってよい。同様に、第2のリポジトリまたはデータベース812が、他のフォーマットの3Dデータ、たとえば、光学走査によって生成された3D表面メッシュと、ネットワークのトレーニング中に利用することができる個々の歯のラベルとを記憶するために使われてよい。

3Dトレーニングデータは、826において、3D深層ニューラルネットワーク828用に最適化される3Dボクセル表現(ボクセル化)に前処理され得る。トレーニングプロセスは、この段階で終わってよく、というのは、3D深層ニューラルネットワークプロセッサ826は、個々の歯のサンプルに対するトレーニングを要求し得るだけだからである。ある実施形態では、3D表面メッシュなどの3D歯データも、適切にラベル付けされている、完全な歯列スキャン(808～812)に由来する、セグメント化された3D画像データに基づいて判定することができる。

新たな歯列(の部分)816を分類する(taxonomize)ための分類モジュール800を使うとき、やはり、複数のデータフォーマットが、物理的歯列を、3D深層ニューラルネットワーク828用に最適化される3D表現に変換するときに利用され得る。上述したように、分類システムは、たとえば、歯列106、108の3D画像データを利用し、個々の歯822(626である)を含む関心ボリュームを、トレーニングプロセッサ808と似たようにセグメント化し、抽出するように構成されているコンピュータシステム820(602である)を使うことができる。代替として、光学スキャンから生じる、歯824ごとの表面メッシュなど、別の表現が使われ得る。完全な歯列データが、関心ボリューム(820～824)ではない他の3D表現を抽出するのに使われ得ることに再度留意されたい。

3D深層ニューラルネットワーク828向けに要求されるようなフォーマットへの前処理826が行われ得る。重ね合わせシステム全体のコンテキストにおいて、受信された3D画像データセットが、たとえば、(CB)CTデータであるケースでは、ネットワーク828による、セグメント化されたデータの分類が、ボリューム再構築620において直接生成されたデータ(のサブセット)を使用して行われ得ることに留意されたい。受信された3D画像データセットが、たとえば、IOSデータであるケースでは、828による分類は、歯冠の3D表面メッシュセグメント化およびボクセル化から得られるデータ(のサブセット)に対して直接実施され得る。

3D深層ニューラルネットワークの出力は、歯列を検討する知識(たとえば、各個々の歯インデックスが、単一の歯列中で一度だけ現れ得るという事実)を、歯列の歯に適用されるラベルのセットにわたる分類の正確さを保証するために、利用するように設計された分類後処理ステップ830にフィードされ得る。これは、システムが、識別された個々の歯オブジェクトごとに歯ラベルを出力することにつながり得る。ある実施形態では、正しいラベルが、3D深層ニューラルネットワークの追加トレーニングの後で今後の正確さを増す目的で、トレーニングデータにフィードバックされ得る。

図9は、本発明の一実施形態による、歯顎顔面3D画像データの分類のための3D深層ニューラルネットワークアーキテクチャの例を示す。ネットワークは、3D畳み込みレイヤ(3D CNN)を使って実装され得る。畳み込みは、アクティブ化関数を使うことができる。複数の3D畳み込みレイヤ、すなわち904～908が使われてよく、レイヤの数およびそれらが定義するパラメータにおける些細な変形、たとえば、異なるアクティブ化関数、カーネル量、およびサブサンプリングとサイズの使用、ならびにドロップアウトおよび/またはバッチ正規化レイヤなどの追加機能的レイヤが、3D深層ニューラルネットワークの設計の本質を失うことなく、実装形態において使われてよい。

3D深層ニューラルネットワーク内のデータの内部表現の次元数を一部削減するために、3D最大プーリングレイヤ910が利用されてよい。ネットワーク中のこの点において、内部表現は、3D空間中の表現を、可能ラベル、特に歯タイプラベルのアクティブ化に変換することための媒介であることを目指す、密接続レイヤ912に渡されてよい。

最終または出力レイヤ914は、所望の数の符号化ラベルと同じ次元数を有することができ、可能ラベル918ごとに(予測と似たように)アクティブ化値を判定するのに使うことができる。

ネットワークは、3D CNNレイヤ向けの入力として、3Dデータ902、すなわち、歯の3Dボクセル表現の前処理されたデータセットをもつデータセットを利用してトレーニングされ得る。各サンプル(単一の歯の3D表現である)について、正しいラベル916の一致する表現が、所望および実際の出力914の間の損失を判定するのに使われ得る。この損失は、トレーニング中に、3D深層ニューラルネットワークのレイヤ内でパラメータを調節するための測度として使うことができる。オプティマイザ機能が、トレーニング中に、トレーニング作業の効率性を助けるのに使われ得る。ネットワークは、内部パラメータが所望の正確さの結果につながるまで、任意の反復数だけトレーニングされ得る。適切にトレーニングされると、ラベルなしサンプルが入力として提示されてよく、3D深層ニューラルネットワークは、各可能ラベルについての予測を導出するのに使われてよい。

したがって、3D深層ニューラルネットワークが、歯の3Dデータサンプルを、複数の歯タイプ、たとえば、大人の健康な歯列のケースであれば32個の歯タイプのうちの1つに分類するようにトレーニングされると、ニューラルネットワークの出力は、アクティブ化値および関連付けられた可能歯タイプラベルになる。最も高いアクティブ化値をもつ可能歯タイプラベルは、歯の3Dデータサンプルが、ラベルによって示されるタイプの歯を表す見込みが最も高いことを、分類システムに対して示し得る。最低または比較的低いアクティブ化値をもつ可能歯タイプラベルは、歯の3Dデータセットが、そのようなラベルによって示されるタイプの歯を表す見込みが最もないことを、分類システムに対して示し得る。

入力ボリューム、たとえば、完全な歯ボリュームである入力ボクセル表現、または歯冠を表すだけである入力ボクセル表現のタイプに基づいて、別個の特定のネットワークモデル(特定のトレーニング後に、異なるendパラメータを有する同じアーキテクチャ)をトレーニングすることが要求され得ることに留意されたい。

図8および図9に関して(セグメント化3D深層ニューラルネットワークにおいてそうであったように)記載する分類3D深層ニューラルネットワークが、3D画像データ空間にわたる平行移動に対して本質的に不変であり得るが、114におけるプロセッサからの情報を、正準ポーズを入手するように、少なくとも回転を(比較的大まかにではあるが)調節するための初期事前位置合わせステップ124を適用するのに利用することが有益であり得ることにも留意されたい。現実世界直交方向(たとえば、患者上下、左右および前後)が、あらかじめ定義された正準方向(たとえば、それぞれ内部(3Dデータセット)表現z方向の上下、x方向の左右およびy方向の前後)で使われる3D画像データ中に存在する場合、分類3D深層ニューラルネットワークのための要求されるメモリ帯域幅が削減されてよく、トレーニング時間が削減されてよく、分類の正確さが向上されてよい。これは、前記正準座標系までの回転を検討して前記3Dデータセットが事前位置合わせされたデータに対する推論を具体的にトレーニングし、実施することによって行われ得る。

図10Aおよび図10Bは、それぞれ、分類情報を含むものと、含まない、2つの例示的な3D歯顎顔面データセットの中の、生成されたキー点の例を示す。少なくとも、別個の歯、もしくは歯冠を表す構造を定義する3D画像データ(表面ボリューム)に続いて、および、たとえば、(CB)CTデータのケースでの、図6および図7に関して記載したような処理に続いて、または、たとえば、IOSデータのケースでの、個々の歯冠の表面メッシュのより一般的な判定を利用することによって、表面を特徴づけるキー点が判定され得る。実際、これは、表面メッシュ内でのすべての利用可能点を、最も関連する(最も顕著な)点のセットに削減するための削減ステップと見なすことができる。この削減は、処理時間およびメモリ要件を削減するので、有益である。さらに、生成のための入力が、わずかに異なる3D表面メッシュ(のセット)(依然として、同じ構造を表す)である場合であっても、点の大まかに同じセットをもたらすことが期待される、そのような点の判定のための方法が選択されてよい。表面メッシュからキー点を判定するための、当技術分野におけるよく知られている方法は一般に、たとえば、TONIONI Aら、「Learning to detect good 3D keypoints」Int J Comput Vis. 2018 Vol.126、1～20ページによって教示されるように、(わずかに変化する)入力表面メッシュにわたる再現性のために手作りされ(手動で工作され)かつ/または機械学習され、最適化され得るとともに、性能(顕著さまたはキー点を判定する速度)のために最適化され得る局所または大域表面記述子(または特徴)の判定を含む。そのような特徴の例が、表面曲率における局所および大域最小値または最大値である。

図10Aおよび図10Bに示すのは、サーフェス面のメッシュを定義する辺および頂点を含む、したがって表面を定義する点を示す、2つの受信された3D画像データセットのコンピュータレンダリングである。上の4つのオブジェクトは、口内スキャンから導出された、個々に処理され、セグメント化された歯冠である。下の4つのオブジェクトは、図6および図7を参照した方法に従って、CBCTスキャンから導出された個々の歯である。4本の歯の、これらの2つのセットは、ほぼ同じ瞬間に同じ患者から供給される。これらは、上で図3、図4および図5を参照してより詳しく記載したように、正準ポーズを先に記載したように114において判定するプロセッサであるプロセッサで大まかに事前位置合わせされている。続く情報114から、重複ボリュームが判定され、3D構造が、個々の歯を表す別個の表面メッシュにセグメント化された。図10Bのケースでは、さらに、個々の歯3D画像データの分類が、図8および図9を参照して記載した方法に従って実施された。

特に、図10Aでは、点が、P[受信されたデータセットの番号]-[点の番号]というフォーマットに従ったラベルで可視化されており、点の番号は、可視化目的で削減されている。見るとわかるように、キー点生成後の3D画像データの各受信されたセットは、ボリュームの顕著な特徴から得られた、キー点の独自のセットを有し、表面に沿った同じ点は、(任意に番号付けられてはいるが)キー点で印付けされる。そのような点を、発生元3Dデータセット内に個々の歯ごとにサブグループ化することが可能となるが、これは、(同じ)個々の歯が異なる3Dデータセットにわたって識別可能にならないので、追加利益をもたらさないことに留意されたい。

図10Bでは、追加分類ステップから得られる情報を利用して、ラベルのフォーマットが、P[受信されたデータセットの番号]-[識別された歯のインデックス]-[点の番号]として可視化されている。識別された歯のこのインデックスは、同じ現実世界歯についての両方の受信されたデータセットにわたって同じインデックスである。各個々の歯サブグループ内で、キー点の番号付けは依然として任意であることに留意されたい。

3D表面メッシュデータ(および点群データまたはキー点の集合体)は概して、浮動小数点数を用いて直交x、yおよびz座標のフォーマットで保存されることに注目すべきである。これは、キー点のかなり正確な判定ロケーションの可能性を広げ、したがって、かなり正確な位置合わせ結果により、たとえば、反復最接近点方法を利用するときにそうであり得るように、そのようなキー点群の間の計算された距離を最小限にする方法にたとえば基づいて変換パラメータが判定された。

どのキー点がどの歯(および、他の受信された3D画像データセット中の一致する同じ歯表現)に属すかを検討する、追加された情報は、図10Bに示すように、具体的には、位置合わせ変換パラメータのより正確な判定を遂行するのに利用され得る。たとえば、初期事前位置合わせが実施されていないケースでは、歯ごとの平均座標が、一方の受信3D画像データセットの、他方への事前位置合わせを判定するのに利用され得る(実際、一致する歯を、互いに可能な限り近く、大まかに配向する)。他のケースでは、変換パラメータのセットを最初に判定する(2つの受信された3D画像データセットの間で、一致する歯ごとに1つ)こと、およびそのようなセットの平均に基づいて最終変換パラメータを判定することが有益な場合がある。これは、両方の受信された3D画像データセットの間の重複ボリュームが(十分適切に)判定されていないケースでは特に有益であり得る。

位置合わせ変換パラメータの判定のために、少なくとも3つの非同一線上点が判定される必要があることに留意されたい。

図11は、本発明の一実施形態による、ボクセル表現の重ね合わせのための変換パラメータの直接判定のためのシステム構成要素の概観を示す。システム1100は、変換パラメータ、たとえば、一方の受信3D画像データセットがどのように他方に位置合わせされ得るかを定義する適用可能3D回転、3D平行移動および3Dスケーリングを直接予測するのに利用され得る。トレーニングデータ1102および推論データ1116は、3D画像データ、たとえば、ボクセル強度値、たとえば、(CB)CTデータのケースでは放射線濃度、または、たとえば、ボクセル化表面スキャンデータケースではバイナリ値からなり得る。強度値は、閾値化を用いて2値化されてよく、たとえば、(CB)CTデータのケースでは、たとえば、500HUの値よりも高いすべてのボクセル値を1に、および残りのボクセルを0に設定する。特に、トレーニングデータを生成する目的のために、この閾は、生成されるべきサンプルにわたって、たとえば、400～800HUの範囲でランダムに選ばれてよい。

システムは、2つの受信された3D画像データセットの間で異なるモダリティを有する3D画像データからパラメータを予測するのに利用され得る。異なる構造を検討する情報を含む異なるソースが、同じネットワークによってトレーニングされ得る。たとえば、(CB)CT情報をIOS情報とマッチングするケースでは、歯冠の表面は、両方の受信されたデータセットで区別可能であり得るが、たとえば、歯肉は、IOSデータにおいてのみ区別可能であることが期待され、たとえば、歯根は、(CB)CTデータ中でのみ区別可能になる。

トレーニング作業中、3D深層ニューラルネットワーク1114の内部パラメータは、ネットワークが、十分に高い正確さの結果を提供するように最適化され得る。これは、変化するモダリティからなり得るが、現実世界構造の少なくとも部分的ボリューム重複を実際に含む3D画像データセット1102の集合体を利用することによって遂行され得る。そのようなネットワークをトレーニングする目的ために、これらの2つの入力セットは、1104において、互いに位置合わせされるか、または重ね合わされることが望ましい。それでも、これがデータ1102に当てはまらない場合、たとえば、図6～図10に関して記載した方法に従う情報によっては、手動または自動のいずれかで行えばよい。トレーニングデータの重ね合わせの正確さは、出力データの正確さに影響し得る。

トレーニングのためにネットワーク1114に提示されるデータは、同じ現実世界構造を含み、3D深層ニューラルネットワーク1114に与えられるボクセル表現における同じ現実世界解像度へスケーリングされることが(正確さ、メモリ帯域幅要件および可能処理速度を検討すると)有益である。十分な重複が、受信されたデータセット内にまだ存在しない場合、これは、正準座標系において判定された重複の領域によっては、1106において手動または自動のいずれかで、たとえば、図3に関して記載した方法に従って行えばよい。受信されたデータ内のメタデータからわかるか、またはたとえば、図3に関して記載した方法によって導出され得るように、入力データセットが異なる解像度を有する場合、1108における、高解像度データから低解像度データの解像度への再スケーリングが有益であり得る。

3D画像データセットの同じ受信されたセットからの多数のトレーニングサンプルの生成の目的のために、重複する領域の選択1106は、最大重複関心ボリューム(VOI)だけではなく、そのような最大重複ボリューム内のより小さいボリュームも選択されるように使用されてよく、事実上、3Dで、一致する構造データのサブセットに「ズーム」インすることに留意されたい。

多数のトレーニングサンプルを生成する目的のために、ランダム平行移動、回転および/またはスケーリング変換が、1110において適用されてよく、事実上、プロセッサに届くまでに処理されるデータ中に存在する位置合わせを1110において位置合わせ不良にする。このもち込まれた位置合わせ不良は、適用可能変換パラメータの形で、予測される変換のためのトレーニングターゲットとして働く目的のために、3D深層ニューラルネットワーク1114に伝えられてよい。前処理されたデータセットサンプル、または任意選択で両方のサンプルのいずれかのボクセル表現の回転および/または平行移動が、たとえば、当該分野において知られているように、線形(または他の)補間を利用する回転方法によって実施され得る。

同様の構造を含む3D画像データセットの様々なセットの前処理から生じる多数のサンプルが、データベース(またはメモリ)1112に保存されてよく、ネットワーク1114のトレーニングがしたがって、多数のサンプルに対して実施され得る。

別の実施形態では、同様のアーキテクチャを有する別個の3D深層ニューラルネットワークが、特定の条件、たとえば、現実世界構造を含む、特定の画像モダリティのマッチング、および/またはボクセル表現の特定のサイズスケーリングのためにトレーニングされ得る。これにより、利用可能システムメモリ、処理速度などのようなハードウェア要件を依然として遵守したまま、特定のケースに対して、より高い可能な正確さの結果がもたらされ得る。

ネットワーク1114が十分にトレーニングされて、「新たなデータ」1116が予測または推論のために提示され得る。この新たなデータは、潜在的に異なる画像モダリティのボクセル表現であることなどを検討して上述したのと同じタイプであってよい。入力データセットの中の歯科用構造物の正準ポーズは、第1の3D深層ニューラルネットワーク1118によって判定されてよく、続いて、正準座標系において重複するVOIを表すデータのサブセットが、たとえば、図3を参照して記載した方法によって1120において選択される。受信されたデータ内のメタデータからわかるか、またはたとえば、図3を参照して記載した方法によって導出され得るように、入力データセットが異なる解像度を有する場合、1122における、高解像度データから低解像度データの解像度への再スケーリングが実施され得る。この結果、両方のデータセットが、3D深層学習ネットワーク1114による受信のために前処理される。重複VOIの事前位置合わせおよび選択は、本明細書に記載する方法よりも精密でないことが期待され、この点では、この方法は、たとえば、図3に関して記載した方法に対するかなり正確な改善であると見なされ得ることに留意されたい。

トレーニングされた3D深層ニューラルネットワークは続いて、前処理されたデータを1114において処理し、サンプル1とサンプル2の重ね合わせのための変換パラメータ1126を、予測として出力し得る。パラメータのそのようなセットは、たとえば、6つの値のベクトルを含んでよく、第1の3つの符号化適用可能回転は、データサンプルが変換されるために、受信された座標系の3直交軸に沿って順番に実行され(たとえば、サンプル2)、最後の3つの値は、たとえば、サンプル2をサンプル1に位置合わせし、または重ね合わせるための、正および/または負の適用可能平行移動である。

別の実施形態では、これらのパラメータは、たとえば、同じ所望の位置合わせまたは重ね合わせ結果を遂行する、回転および/もしくは平行移動行列ならびに/または変換行列の形であるものとしてトレーニングされ得る。

1118、1120および/または1122を利用したケースでは、受信されたサンプル向けに予測される変換パラメータは、当初受信された3D画像データセットの位置合わせまたは重ね合わせのためのパラメータをまだもたらすことはできないことに留意されたい。そのようなケースでは、プロセッサは、1128において、これらの3つのプリプロセッサから得られる、どの前処理された変換も検討する情報を考慮に入れて、すなわち、どの先行する変換も、サンプル向けの予測される変換と一緒に「スタックして」使用されてよく、システム1100は、1128の出力として、受信された3D画像データセットに適用可能であり得るような変換パラメータを出す。

このシステムの推論使用は、比較的非計算集約的であり、したがって比較的速いと見なされ得ることに留意されたい。このシステムの正確さは、事前位置合わせおよび選択ステップ1118および1120を利用するとき、はるかに高くなり得る。このシステムは、異なる画像モダリティに対して高度に堅牢であってよく、構造の間の重複の量に依存する、0.5～1mmのボクセル解像度を利用して、複数の解像度(受信されたボクセル表現におけるボクセルサイズ)に機能することができる。ただし、不十分な重複のケースでは、十分に正確でない場合がある。変換パラメータの様々なセットを作り上げる要素は、浮動小数点値の形であってよい。

図12Aおよび図12Bは、本発明の一実施形態による、変換パラメータの直接演繹のために、システム構成要素内で利用され、そこから生じる、受信および変換されたデータの図解を示す。より具体的には、2つの受信された3D画像データセットの可視化(1202および1204)である。可視化は、3D画像データセットの、ボクセル表現でのコンピュータレンダリングである。

これらの特定の可視化では、いずれかの直交方向において1mmである、使われるボクセルサイズを見ることができる。システム構成要素によって受信された1202は、CBCTデータに由来するが、この可視化の目的のために、500ハウンズフィールド単位を超えてCBCTデータを閾値化したことから生じた3Dボリュームとして示されている。1204は、同じ患者のIOSのボクセル化表現であり、両方の受信3D画像データセットは、ほぼ同じ瞬間にとられた。

図12Bから、システム構成要素から得られた変換パラメータの適用を用いて、1204が、3D回転および3D平行移動を用いて位置合わせされ、または重ね合わされていることがわかり得る。受信された3D画像データセットはすでに、この例のケースでは、同じスケーリングを有していた。

図13は、本発明の一実施形態による、変換パラメータの直接演繹のためのシステム構成要素のための3D深層ニューラルネットワークアーキテクチャの例を示す。受信された(前処理された)3D画像データ、すなわち、3D深層ニューラルネットワークの入力のボクセル空間と合致する2つのボクセル表現1302、1304が、ネットワーク中の様々なレイヤ1306～1320を通され、それらによって処理され得る。ネットワークの第1のレイヤは、複数の3D畳み込みレイヤ1306～1314を含み得る。

データが畳み込みレイヤを通ったとき、内部表現は、一連の密接続レイヤ1316～1318に渡されてよく、これらのレイヤは、3Dデータの間の回転および平行移動距離を推論する。

レイヤの数およびそれらが定義するパラメータにおける変動、たとえば、異なるアクティブ化関数、カーネル量、およびサブサンプリングとサイズの使用、ならびにドロップアウトおよび/またはバッチ正規化レイヤなどの追加機能的レイヤが、3D深層ニューラルネットワーク上での設計の本質を失うことなく、実装形態において使われてよい。

最終または出力レイヤ1320は、受信された3D画像データセットの正しい重ね合わせを入手するためにデータに適用されるべきである、3つの軸にわたる平行移動と、3つの軸に沿った回転との予測を表し得る。

トレーニングデータは、2つのボクセル表現のセットを、平行移動および回転が知られている入力1302、1304として含み得る。ボクセル表現の各データセットが処理されるために、ランダム化平行移動および回転が、いずれか1つに適用されてよく、総平行移動および回転差が、所望の出力1322と実際の出力1320との間の損失を判定するのに使われてよいであろう。この損失は、トレーニング中に、3D深層ニューラルネットワークのレイヤ内でパラメータを調節するための測度として使うことができる。そのような損失は、3D深層学習ネットワークから最適に正確な予測が生じるように算出され得る。オプティマイザ機能が、トレーニング中に、トレーニング作業の効率性を助けるのに使われ得る。ネットワークは、内部パラメータが所望の正確さの結果につながるまで、任意の反復数だけトレーニングされ得る。適切にトレーニングされると、たとえば、顎顔面構造の2つの異なるボクセル表現が入力として提示されてよく、3D深層ニューラルネットワークは、入力のセットを正確に重ね合わせるのに必要な平行移動および回転の予測1324を導出するのに使われてよい。

レイヤは、線形、tanh、ReLU、PreLU、シグモイドなどのような、様々なアクティブ化関数を使うことができる。3D CNNレイヤは、フィルタの量、フィルタサイズおよびサブサンプリングパラメータなどが変わり得る。それら、ならびに密接続レイヤは、パラメータ初期化方法が変わり得る。

図14は、本発明の一実施形態による、適用されるべき変換パラメータの選択/判定のためのシステム論理のフローチャートを示す。これは、上述したように、本発明の様々な実施形態によるシステム論理の例示的なセットアップであることに留意されたい。2つの入力データセットは、すでに適切にボクセル化されているものとして述べたフローチャートの目的のためである。2つの入力データセットは、ステップ1402において受信されてよく、この時点で、正準ポーズへの変換パラメータの第1のセットが判定され得る。例示的な実施形態では、このステップは、位置合わせまたは重ね合わせの目的のために適用されるべき変換パラメータにおける大きいばらつきに対して堅牢であってよい。正確さは比較的低くてよく、受信された画像データのボクセル表現の解像度は、いずれかの直交方向においてほぼ1mmであってよい。

1402からの情報に従って、事前位置合わせ1404および十分な重複の判定1406が実施され得る。ある実施形態では、このステップは、十分な重複の2つの判定、すなわち、実施されるべき各任意選択の後続方法(それぞれ1410および1416において始まる)のために1つを実施し得ることに留意されたい。重複の量が、実験的に判定され得るとともに、続いてプログラムでチェックされ得る1つの閾または複数の閾によるように、不十分である場合、システムは、1410、1416において始まる方法のいずれかまたは両方を実施しないことを選べばよい。すなわち、これは、1426から生じる変換パラメータは、これらの追加方法のいずれかまたは両方からの非実現可能な結果により向上しないとシステムが判定したと見なされ得る。

十分な重複のケースでは、ステップ1410において始まる直接演繹方法が実施され得るが、これは、特に事前位置合わせ1404およびVOI選択1408を実施したケースでは、受信された3D画像データセット内の異なる画像モダリティに対して堅牢であると同時に、より正確な結果を出すことを期待される。1404および1408から潜在的に得ることができる、先行する変換に続く適用可能情報は、直接演繹方法に続く、変換パラメータの判定1412における使用のために中継されてよいことに留意されたい。この方法において利用される前処理1410は、0.5～1.0mmのボクセル解像度でボクセル表現を生じると期待され得る。

結果の実現可能性は依然として、1414においてサニティチェックされてよい。これは、1402から生じたパラメータと、1414および/または1424から生じたものの比較を用いて行われ得る。偏差があまりにも大きい程度である場合、システムは、たとえば、パラメータを1426に中継しないことを選んでよく、または1426は、得られた変換パラメータに0の重みをもたせ得る。

適用可能重複の判定に続いて、システムは、ステップ1416において始まるセグメント化ベースの方法を利用し得る。セグメント化1416は、両方の受信された3D画像データセットに対して自動的に、上述したような3D深層ニューラルネットワークベースの方法、またはIOSデータに当てはまるような当該分野において知られている他の方法を利用して行われ得る。後者のケースでは、歯冠のそのようなセグメント化は、表面メッシュデータの形の、受信された3D画像データに対して実施され得ることに留意されたい。

分類1418は、(セグメント化された)構造データに対して実施されてよく、得られた情報は、キー点生成ステップ1420に中継されてよい。同じ歯の識別を異なる受信されたデータセットに含めることができることにより、受信されたデータセットの重複の量およびデータ品質の起こり得るばらつきに対するさらなる堅牢性をもたらすことが期待される。

選択された(疎な、厳密に一致する)キー点の生成された群は、ステップ1422において、位置合わせまたは重ね合わせのための適用可能変換パラメータを判定するのに利用され得る。やはり、1404、1408から潜在的に得られる、どの先行する変換も、1422によって、セットからセットへの変換パラメータを判定するために考慮に入れられてよいことに留意されたい。

この方法のためのサニティチェック1424が、たとえば、1414および/または1402から生じたパラメータに対する逸脱をチェックすることによって、再度実施されてよい。大きい矛盾のケースでは、システムは、パラメータを1426に中継しないことを選んでよい。代替として、1426は、得られた変換パラメータのセットに、0の重みを割り当て得る。非実現可能な結果は、たとえば、CBCTデータ中に存在する人工物、IOSデータからの不正表面表現などのような、不正確なデータが受信された結果であり得る。

表面メッシュについての点データが、浮動小数点精度とともに保存され、潜在的にかなり正確な結果を出す。この方法は、このシステム内では最も正確であると見なすことができるが、同時に、最も堅牢でない。ただし、個々の構造の事前位置合わせ、重複ならびにセグメント化および分類の判定を含むことにより、当技術分野における現在の方法よりもはるかに堅牢であると見なすことができる。

変換パラメータは、様々なやり方で内部的に表すことができ、たとえば、それぞれ順番に回転を記述する、3つの値の3つのベクトル、原点への3つの平行移動値、および/または適用可能スケーリングを判定する3つの値であって、すべて、直交3D座標系における特定の軸に属す、正および/または負の大きさの値を有する。代替として、線形代数において知られている行列のどの組合せ、より具体的には、(アフィン)変換行列において判定され得るように、回転、変換、スケーリングおよび/または組合せのいずれかが利用されてもよい。

正確さ、堅牢性などを検討する事前知識が、たとえば、1426によって受信された、いずれか/すべての変換パラメータの重要性の重み付けを判定するのに利用されてよい。ステップ1426はしたがって、様々な方法から受信されたパラメータをプログラムで組み合わせて、位置合わせまたは重ね合わせのための最も正確な所望の変換パラメータをもたらすことができる。

変換パラメータは、そのようなシステムからの所望の結果に依存して、セット2をセット1に、セット1をセット2にマッチングするパラメータのいずれかであってよく、かつ/または両方が代替(所望の)座標系において重ね合わされることに留意されたい。

図15Aおよび図15Bは、本発明の様々な実施形態から得られる、2つの例示的な受信されたデータセットに対する変換結果を示す。より具体的には、図15Aおよび図15Bは、2つの3D画像データセット1502および1504のコンピュータレンダリングを示す。これらの3D画像データセットは、それぞれ、CBCTスキャナおよび口内スキャナから供給された。図14に関して記載したシステムセットアップに従って、十分な重複がシステムによって判定され、変換パラメータの生成のためのすべての3つの方法が、正準ポーズ方法による事前位置合わせを利用して実施された。

この可視化の目的のために、3D CBCT画像データが、セグメント化方法から生じる歯構造ごとに生成された表面メッシュを用いてレンダリングされる。図15Aでは、画像データは、受信された通りに配向されて示されており、両方の3D画像データセットの間のスケーリングが同じ(たとえば、現実世界寸法での1mmは、両方の受信されたデータセットについての各直交軸上での1つの単位値に相当する)だったことがわかり得る。1502と1504は、多大な程度まで、回転と平行移動の両方を検討して位置合わせ不良にされていることもわかり得る。

変換パラメータの最も正確なセットは、セグメント化および分類方法、識別された両方のセグメント化された(かつ、ラベル付けされた)歯(IOSデータのケースでは、歯冠)について生成されたキー点の間の距離をマッチングおよび最小限にしたことから生じたものであると判定されており、したがって、この例のケースでは、適用された変換のどの部分も、他の2つの方法の直接の結果ではなかった。正準ポーズ方法からの変換パラメータが、ただし、セグメント化および分類ベースの方法のための前処理を実施する間に利用された。

図15Bは、IOSデータである1504に適用される、システムによって判定される変換パラメータを示し、システムは、一方の受信3D画像データセットを他方に位置合わせする変換パラメータを判定し、適用するように構成されている。歯インデックス41、31、32、33、34、35および36(FDI記法に従って判定され得る)を定義する画像ボリュームに対して重複が存在するだけであるにもかかわらず、判定された変換パラメータに基づいて適用される最終位置合わせまたは重ね合わせステップが、はるかに高い正確さまで自動的に実施されたことに留意されたい。

図に示される、位置合わせされ、または重ね合わされたデータは、たとえば、(図1の132を参照して)表面データ中で重複を有する歯について、さらに融合または併合されてよい。CBCTデータ、およびIOSデータからの歯冠を検討する、より正確な情報との組合せからの正確な根を含む完全な歯をもたらすセグメント化ステップの結果を具体的に示す、可視化されるデータのケースでは、CBCT歯根に融合されたIOS歯冠をもたらす表面の併合が、たとえば、前に記載したように、インプラント学または矯正の分野では非常に有益であろう。そのような併合方法は、当該分野において知られており、記載したシステムから生じ得るような正確な位置合わせから大きく利益を得ることができる。

上述した方法は、利用可能な重ね合わせについての最も正確な結果を提供することができるとともに、入力データを検討する条件の多大な変動性に対して堅牢である。この変動性は、受信された3D画像データセットの間の、変化するが潜在的に大きい規模の「位置合わせ不良」、異なる画像モダリティ、潜在的に低いデータ品質(たとえば、誤解釈された表面、CBCTデータ中の人工物など)に対する堅牢性を検討する。システムは、全自動で実施することができ、最も正確な位置合わせまたは重ね合わせ結果を適時に届け得る。3D深層学習ネットワークのどの実装形態についても、結果および堅牢性は、より長い期間のトレーニング/より多くの(変化のある)トレーニングデータの使用に続いて、増すことが期待されることに留意されたい。

図面における例は、3D歯科用構造物を参照して記載されているが、本出願における実施形態は概して、異なるモダリティの3Dデータセットにおける3Dオブジェクトについての正準ポーズを自動的に(したがって、いかなる人間の介入もなく)判定するために使われ得ることが明らかである。その上、本出願における実施形態は、第1の3Dオブジェクトと第2の3Dオブジェクトの自動重ね合わせに使われてよく、第1および第2の3Dオブジェクトは、異なるモダリティの3Dデータセットによって表され得る。

図16は、本開示に記載されるように使うことができる例示的なデータ処理システムを示すブロック図である。データ処理システム1600は、システムバス1606を通してメモリ要素1604に結合された少なくとも1つのプロセッサ1602を含み得る。したがって、データ処理システムは、メモリ要素1604内にプログラムコードを記憶し得る。さらに、プロセッサ1602は、システムバス1606を介してメモリ要素1604からアクセスされるプログラムコードを実行することができる。一態様では、データ処理システムは、プログラムコードを記憶および/または実行するのに適したコンピュータとして実装され得る。ただし、データ処理システム1600は、本明細書において記載される機能を実施することが可能なプロセッサおよびメモリを含む、どのシステムの形で実装されてもよいことを諒解されたい。

メモリ要素1604は、たとえば、ローカルメモリ1608および1つまたは複数のバルク記憶デバイス1610など、1つまたは複数の物理的メモリデバイスを含み得る。ローカルメモリは、ランダムアクセスメモリ、または概してプログラムコードの実際の実行中に使われる、他の非永続型メモリデバイスを指し得る。バルク記憶デバイスが、ハードドライブまたは他の永続データ記憶デバイスとして実装され得る。処理システム1600は、実行中にプログラムコードがバルク記憶デバイス1610から取り出されなければならない回数を削減するために、少なくとも何らかのプログラムコードの一時記憶を提供する1つまたは複数のキャッシュメモリ(図示せず)も含み得る。

任意選択で、入力デバイス1612および出力デバイス1614として示される入力/出力(I/O)デバイスが、データ処理システムに結合され得る。入力デバイスの例は、たとえば、キーボード、マウスなどのポインティングデバイスなどを含み得るが、それらに限定されない。出力デバイスの例は、たとえば、モニタまたはディスプレイ、スピーカーなどを含み得るが、それらに限定されない。入力デバイスおよび/または出力デバイスは、直接または介入I/Oコントローラを介してのいずれかで、データ処理システムに結合することができる。ネットワークアダプタ1616も、データ処理システムに結合されて、介在私設または公衆ネットワークを通して、他のシステム、コンピュータシステム、リモートネットワークデバイス、および/またはリモート記憶デバイスに結合されることを可能にし得る。ネットワークアダプタは、データ受信機であって、前記システム、デバイスおよび/またはネットワークによって前記データ受信機へ送信されるデータを受信するためのデータ受信機と、前記システム、デバイスおよび/またはネットワークへデータを送信するためのデータ送信機とを備え得る。モデム、ケーブルモデム、およびイーサネットカードは、データ処理システム1600とともに使われ得る、異なるタイプのネットワークアダプタの例である。

図16に描かれるように、メモリ要素1604は、アプリケーション1618を記憶し得る。データ処理システム1600は、アプリケーションの実行を容易にすることができるオペレーティングシステム(図示せず)をさらに実行してよいことを諒解されたい。アプリケーションは、実行可能プログラムコードの形で実装され、データ処理システム1600によって、たとえば、プロセッサ1602によって実行することができる。アプリケーションを実行したことに応答して、データ処理システムは、本明細書においてさらに詳しく記載される1つまたは複数の動作を実施するように構成されてよい。

一態様では、たとえば、データ処理システム1600は、クライアントデータ処理システムを表し得る。その場合、アプリケーション1618は、実行されると、「クライアント」を参照して本明細書に記載した様々な機能を実施するようにデータ処理システム1600を構成するクライアントアプリケーションを表し得る。クライアントの例は、パーソナルコンピュータ、可搬型コンピュータ、モバイルフォンなどを含み得るが、それらに限定されない。

本明細書で使用される用語は、特定の実施形態のみを説明する目的のためのものであり、本発明を限定するものであることは意図されない。本明細書で使用する単数形「a」、「an」、および「the」は、文脈が別段に明確に示すのでなければ、複数形をも含むものとする。さらに、「備える(comprises)」および/または「備えている(comprising)」という用語は、本明細書で使用されるとき、述べられた特徴、整数、ステップ、動作、要素、および/または構成要素の存在を明示するが、1つまたは複数の他の特徴、整数、ステップ、動作、要素、構成要素、および/またはそれらのグループの存在または追加を排除しないことが理解されよう。

以下の請求項における機能要素を加えた、すべての手段またはステップの、対応する構造、物品、作用、および等価物は、具体的に特許請求される他の特許請求要素との組合せで機能を実施するための、どの構造、物質、または作用も含むことが意図される。本発明の記述は、例示および説明の目的で提示されているが、網羅的であることも、開示した形での本発明に限定されることも意図していない。多くの修正および変形が、本発明の範囲および趣旨から逸脱することなく、当業者には明らかであろう。本発明の原理およびその実際の適用について最もよく説明するために、また、企図される特定の用途に合わせて様々な修正を加えた様々な実施形態のために本発明を他の当業者が理解できるように、実施形態が選択され、説明されている。

102 コンピュータシステム
104 3D歯顎顔面複合体
106 第1のデータセット
108 第2のデータセット
112 3D深層ニューラルネットワーク
120 第2の3D深層ニューラルネットワーク
126 第3の3D深層ニューラルネットワーク
200 システム
201 トレーニングモジュール
203 推論モジュール
204 ダウンスケーリングモジュール
206 変換モジュール
208 区分モジュール
222 3D深層ニューラルネットワーク、3D深層学習ネットワーク
318 3D深層ニューラルネットワーク
602 コンピュータシステム
606 セグメント化プリプロセッサ
612 第1の3D深層ニューラルネットワーク
616 セグメント化ポストプロセッサ
634 ボクセル類別器
638 モジュール
704,706,708 3D畳み込みレイヤ
800 システム、分類モジュール
802 第1のトレーニングモジュール
806 リポジトリ、データベース
808 コンピュータシステム、トレーニングプロセッサ
812 リポジトリ、データベース
814 第2の類別モジュール
820 コンピュータシステム
826 3D深層ニューラルネットワーク、3D深層ニューラルネットワークプロセッサ
828 3D深層ニューラルネットワーク、ネットワーク
1100 システム
1112 データベース、メモリ
1114 3D深層ニューラルネットワーク、ネットワーク、3D深層学習ネットワーク
1118 第1の3D深層ニューラルネットワーク
1600 データ処理システム、処理システム
1602 プロセッサ
1604 メモリ要素
1606 システムバス
1608 ローカルメモリ
1610 バルク記憶デバイス
1612 入力デバイス
1614 出力デバイス
1616 ネットワークアダプタ
1618 アプリケーション

Claims

3Dデータセットのデータ点によって表される、3D歯科用構造物の正準表現を自動的に決定するためのコンピュータ実装方法であって、
第1の3D座標系に関連付けられた前記3Dデータセットのデータ点の1つまたは複数のブロックを、第1の3D深層ニューラルネットワークの入力に提供するステップであって、前記3Dデータセットは、前記第1の3D座標系の軸によって定義される3D空間における第1の配向を有する１つまたは複数の歯科特徴を含む3D歯科用構造物を表し、前記第1の3Dニューラルネットワークは、3D正準座標系の軸によって定義される3D空間に関連付けられた正準ポーズ情報を生成するようにトレーニングされ、前記3D正準座標系の前記3D空間における前記１つまたは複数の歯科特徴の前記配向は、前記3D正準座標系の前記軸と位置合わせされている、ステップと、
前記第1の3D深層ニューラルネットワークの出力から正準ポーズ情報を受信するステップであって、前記正準ポーズ情報は、前記第1の3D座標系の前記1つまたは複数のブロックのデータ点の位置について、前記3D正準座標系中の前記データ点の位置の予測を含み、前記3D正準座標系中の前記データ点の前記位置は、正準座標を定義する、ステップと、
前記正準ポーズ情報を使って、前記第1の3D座標系の軸および原点に対して、前記3D正準座標系の軸の配向およびスケーリング、ならびに前記3D正準座標系の原点の位置を決定し、前記配向、前記スケーリングおよび前記位置を使って、前記第1の3D座標系の座標を前記3D正準座標系の正準座標に変換するための変換パラメータを決定する、ステップと、
前記3D歯科用構造物の前記１つまたは複数の歯科特徴が前記3D正準座標系の前記軸と位置合わせされている、前記3D歯科用構造物の正準表現を決定するステップであって、前記決定することは、前記変換パラメータに基づいて、前記第1の3D座標系中の前記3D歯科用構造物を表す前記3Dデータセットの前記データ点の座標を前記3D正準座標系の正準座標に変換することを含む、ステップとを含む方法。
前記3Dデータセットは、前記3D歯科用構造物のボクセル表現を表し、前記正準ポーズ情報は、前記第1の3D座標系中の前記ボクセル表現のボクセルの位置を、前記3D正準座標系中の前記ボクセルの位置の予測にリンクするための1つまたは複数のボクセルマップを含む、請求項1に記載の方法。
前記1つまたは複数のボクセルマップは、前記第1の3D座標系中の前記ボクセルの第1の座標を、前記3D正準座標系中の前記ボクセルの第1の座標の予測にリンクする第1のボクセルマップと、前記第1の3D座標系中の前記ボクセルの第2の座標を、前記3D正準座標系中の前記ボクセルの第2の座標の予測にリンクする第2のボクセルマップと、前記第1の3D座標系中の前記ボクセルの第3の座標を、前記3D正準座標系中の前記ボクセルの第3の座標の予測にリンクする第3のボクセルマップとを含む、請求項2に記載の方法。
前記3D正準座標系の軸の配向を決定することは、
前記ボクセル表現のボクセルについて、前記1つまたは複数の3Dボクセルマップのうちの1つの、正準座標における局所勾配を決定することであって、前記局所勾配は、前記第1の3D座標系によって定義された前記3D空間におけるベクトルを表し、前記ベクトルの前記配向は正準軸の前記配向の予測を表し、または前記ベクトルの長さは、前記正準軸に関連付けられたスケーリング係数を定義する、ことをさらに含む、請求項2に記載の方法。
第1の3Dデータセットによって表される、第1の3D歯科用構造物と、第2の3Dデータセットによって表される、第2の3D歯科用構造物の自動化重ね合わせのためのコンピュータ実装方法であって、前記方法は、
第1の3D座標系に関連付けられた前記第1の3Dデータセットのデータ点の1つまたは複数の第1のブロックおよび第2の3D座標系に関連付けられた前記第2の3Dデータセットのデータ点の1つまたは複数の第2のブロックを、第1の3D深層ニューラルネットワークの入力に提供するステップであって、前記第1および第2の3D歯科用構造物は、１つまたは複数の歯科特徴を含み、前記第1の3D歯科用構造物の前記１つまたは複数の歯科特徴は、前記第1の3D座標系の軸によって定義される3D空間において第1の配向を有し、前記第2の3D歯科用構造物の前記１つまたは複数の歯科特徴は、前記第2の3D座標系の軸によって定義される3D空間において第2の配向を有し、前記第1の3D深層ニューラルネットワークは、3D正準座標系の軸によって定義される3D空間に関連付けられた正準ポーズ情報を生成するようにトレーニングされ、前記3D正準座標系の前記3D空間における前記１つまたは複数の歯科特徴の前記配向は、前記3D正準座標系の前記軸と位置合わせされているステップと、
前記3D深層ニューラルネットワークの出力から第1および第2の正準ポーズ情報を受信するステップであって、前記第1の正準ポーズ情報は、前記第1の3D座標系中の前記1つまたは複数の第1のブロックのデータ点の位置について、前記3D正準座標系中の前記データ点の第1の位置の予測を含み、前記第2の正準ポーズ情報は、前記1つまたは複数の第2のブロックのデータ点の位置について、前記3D正準座標系中の前記データ点の第2の位置の予測を含み、前記第1および第2の位置は、それぞれ、第1および第2の正準座標を定義する、ステップと、
前記第1の正準ポーズ情報を使って、前記3D正準座標系の前記軸の第1の配向およびスケーリング、ならびに前記第1の3D座標系の前記軸および原点に対する前記3D正準座標系の原点の第1の位置を決定し、前記第2の正準ポーズ情報を使って、前記3D正準座標系の前記軸の第2の配向およびスケーリング、ならびに前記第2の3D座標系の前記軸および原点に対する前記3D正準座標系の前記原点の第2の位置を決定するステップと、
前記第1の配向、およびスケーリングおよび前記第1の位置を使って、前記第1の3D座標系の座標を前記3D正準座標系の座標に変換するための、第1の変換パラメータを決定し、前記第2の配向、およびスケーリング、および前記第2の位置を使って、前記第2の3D座標系の座標を前記3D正準座標系の正準座標に変換するための、第2の変換パラメータを決定するステップと、
前記第1の3D歯科用構造物と前記第2の3D歯科用構造物の重ね合わせを決定するステップであって、前記決定することは、前記第1および第2の変換パラメータを使って、それぞれ、前記第1の3D歯科用構造物の前記１つまたは複数の歯科特徴と前記第2の3D歯科用構造物の前記１つまたは複数の歯科特徴が前記3D正準座標系の前記軸と位置合わせされている前記第1および第2の3D歯科用構造物の第1および第2の正準表現を形成することを含む、ステップとを含む、方法。
前記第1および第2の3D歯科用構造物の前記第1および第2の正準表現は、それぞれ、第1および第2の3D表面メッシュであり、重ね合わせを前記決定することは、
前記第1の3D歯科用構造物の前記第1の正準表現を、前記第1の3D歯科用構造物の少なくとも1つの第1の3D歯科要素の少なくとも1つの3D表面メッシュにセグメント化し、前記第2の3D歯科用構造物の前記第2の正準表現を、前記第2の3D歯科用構造物の少なくとも1つの第2の3D歯科要素の少なくとも1つの3D表面メッシュにセグメント化することと、
前記第1および第2の3D表面メッシュの少なくとも3つの第1および第2の非同一線上キー点を選択することであって、キー点は、前記第1の3D表面メッシュの表面曲率における局所的および/または大域的最大値または最小値を定義する、ことと、
前記第1および第2の非同一線上キー点に基づいて、前記第1および第2の3Dオブジェクト要素を位置合わせすることとをさらに含む、請求項5に記載の方法。
前記第1および第2の3D歯科用構造物の前記第1および第2の正準表現はボクセル表現であり、重ね合わせを前記決定することは、
前記第1の3D歯科用構造物の第1の正準ボクセル表現の少なくとも一部および前記第2の3D歯科用構造物の第2の正準ボクセル表現の少なくとも一部を、第2の3D深層ニューラルネットワークの入力に提供することであって、前記第2の3D深層ニューラルネットワークは、前記第1および第2の正準ボクセル表現を位置合わせするための変換パラメータを決定するようにトレーニングされる、ことと、
前記第2の3D深層ニューラルネットワークの出力によって与えられた前記変換パラメータに基づいて、前記第1および第2の3D歯科用構造物の第1および第2の正準表現を位置合わせすることとをさらに含む、請求項5に記載の方法。
重ね合わせを決定することは、
前記第1の3D歯科用構造物の正準表現と、前記第2の歯科用構造物の正準表現との間の重複のボリュームを決定することと、
重複の前記ボリュームにおける前記第1の正準表現の第1のボクセルを含む第1の関心ボリュームを決定し、重複の前記ボリュームにおける前記第2の正準表現の第2のボクセルを含む第2の関心ボリュームを決定することとをさらに含む、請求項5に記載の方法。
前記第1の関心ボリューム、すなわちVOIに含まれる第1のボクセルを、第3の3D深層ニューラルネットワークの入力に提供するステップであって、前記第3の3D深層ニューラルネットワークは、ボクセルを類別し、セグメント化するようにトレーニングされる、ステップと、
前記第1の関心ボリューム中の前記第1のボクセルの各々についての、および/または前記第2の関心ボリューム中の前記第2のボクセルの各々についてのアクティブ化値を、前記第3の3D深層ニューラルネットワークの出力から受信するステップであって、ボクセルのアクティブ化値は、前記ボクセルが所定の3Dオブジェクトクラスに属す確率を表す、ステップと、
それぞれ、第1および第2のVOI中の第1および第2の3D歯科要素の第1および第2のボクセル表現を決定するために、前記アクティブ化値を使い、任意選択で、前記第1および第2の3D歯科要素の前記第1および第2のボクセル表現を使って、前記第1および第2の3D歯科要素の第1および第2の3D表面メッシュを決定するステップとをさらに含む、請求項8に記載の方法。
前記第1および第2の3D表面メッシュの少なくとも3つの第1および第2の非同一線上キー点を選択するステップであって、キー点は、前記第1の表面メッシュの表面曲率における局所的および/または大域的最大値または最小値を定義する、ステップと、
前記第1および第2の非同一線上キー点に基づいて、反復最接近点アルゴリズムを使って、前記第1および第2の3D歯科要素を位置合わせするステップとをさらに含む、請求項9に記載の方法。
第1の3D歯科要素の第1のボクセル表現および第2の3D歯科要素の第2のボクセル表現を、第4の3D深層ニューラルネットワークに提供するステップであって、前記第4の3D深層ニューラルネットワークは、複数の候補構造ラベルの各々についてのアクティブ化値を生成するようにトレーニングされ、候補ラベルに関連付けられるアクティブ化値は、前記第4の3D深層ニューラルネットワークの入力によって受信されたボクセル表現が、前記候補構造ラベルによって示される構造タイプを表す確率を表す、ステップと、
前記第4の3D深層ニューラルネットワークの出力から、複数の第1および第2のアクティブ化値を受信し、第1の複数のアクティブ化値のうちの最も高いアクティブ化値をもつ第1の構造ラベルを選択し、第2の複数のアクティブ化値のうちの最も高いアクティブ化値をもつ第2の構造ラベルを選択し、および、前記第1および第2の構造ラベルを、それぞれ、前記第1および第2の3D表面メッシュに割り当てるステップとをさらに含む、請求項9に記載の方法。
前記第1および第2の3D表面メッシュの少なくとも3つの第1および第2の非同一線上キー点を選択するステップであって、キー点は、前記第1の表面メッシュの表面曲率における局所的および/または大域的最大値または最小値を定義する、ステップと、
前記第1および第2のキー点を、それぞれ、前記第1の3D表面メッシュに割り当てられた前記第1の構造ラベルおよび前記第2の3D表面メッシュに割り当てられた前記第2の構造ラベルに基づいてラベル付けするステップと、
前記第1および第2の3D歯科要素を、それぞれ、前記第1および第2のキー点ならびに前記第1および第2の3D表面メッシュの前記第1および第2の構造ラベルに基づいて、反復最接近点アルゴリズムを使って位置合わせするステップとをさらに含む、請求項11に記載の方法。
3Dデータセットによって表される3D歯科用構造物の正準表現を自動的に決定するために適応されたコンピュータシステムであって、
コンピュータ可読プログラムコードを具現化したコンピュータ可読記憶媒体であって、前記プログラムコードは、少なくとも1つのトレーニングされた3D深層ニューラルネットワークを含む、コンピュータ可読記憶媒体と、前記コンピュータ可読記憶媒体に結合された少なくとも1つのプロセッサとを備え、前記コンピュータ可読プログラムコードを実行したことに応答して、前記少なくとも1つのプロセッサは、
第1の3D座標系に関連付けられた前記3Dデータセットのデータ点の1つまたは複数のブロックを、第1の3D深層ニューラルネットワークの入力に提供することであって、前記3Dデータセットは、前記第1の3D座標系の軸によって定義される3D空間における第1の配向を有する１つまたは複数の歯科特徴を含む3D歯科用構造物を表し、前記第1の3Dニューラルネットワークは、前記3D歯科用構造物の部分の一部に対して定義される3D正準座標系の軸によって定義される3D空間に関連付けられた正準ポーズ情報を生成するようにトレーニングされ、前記3D正準座標系の前記3D空間における前記１つまたは複数の歯科特徴の前記配向は、前記3D正準座標系の前記軸と位置合わせされている、ことと、
前記第1の3D深層ニューラルネットワークの出力から正準ポーズ情報を受信することであって、前記正準ポーズ情報は、前記第1の3D座標系の前記1つまたは複数のブロックのデータ点の位置について、前記3D正準座標系中の前記データ点の位置の予測を含み、前記3D正準座標系中の前記データ点の前記位置は、正準座標を定義する、ことと、
前記正準ポーズ情報を使って、前記第1の3D座標系の軸および原点に対して、前記3D正準座標系の軸の配向およびスケーリング、ならびに前記3D正準座標系の原点の位置を決定し、前記配向、前記スケーリングおよび前記位置を使って、前記第1の座標系の座標を前記3D正準座標系の正準座標に変換するための変換パラメータを決定する、ことと、
前記3D歯科用構造物の前記１つまたは複数の歯科特徴が前記3D正準座標系の前記軸と位置合わせされている、前記3D歯科用構造物の正準表現を決定することであって、前記決定することは、前記変換パラメータに基づいて、前記第1の3D座標系中の前記3D歯科用構造物を表す前記3Dデータセットの前記データ点の座標を前記3D正準座標系の正準座標に変換することを含む、こととを含む実行可能動作を実施するように構成される、コンピュータシステム。
第1の3Dデータセットによって表される、第1の3D歯科用構造物と、第2の3Dデータセットによって表される第2の3D歯科用構造物の自動化重ね合わせのために適応されたコンピュータシステムであって、
コンピュータ可読プログラムコードを具現化したコンピュータ可読記憶媒体であって、前記プログラムコードは、少なくとも1つのトレーニングされた3D深層ニューラルネットワークを含む、コンピュータ可読記憶媒体と、前記コンピュータ可読記憶媒体に結合された少なくとも1つのプロセッサとを備え、前記コンピュータ可読プログラムコードを実行したことに応答して、前記少なくとも1つのプロセッサは、
第1の3D座標系に関連付けられた前記第1の3Dデータセットのデータ点の1つまたは複数の第1のブロックおよび第2の3D座標系に関連付けられた前記第2の3Dデータセットのデータ点の1つまたは複数の第2のブロックを、第1の3D深層ニューラルネットワークの入力に提供することであって、前記第1および第2の歯科用構造物は、１つまたは複数の歯科特徴を含み、前記第1の3D歯科用構造物の前記１つまたは複数の歯科特徴は、前記第1の3D座標系の軸によって定義される3D空間において第1の配向を有し、前記第2の3D歯科用構造物の前記１つまたは複数の歯科特徴は、前記第2の3D座標系の軸によって定義される3D空間において第2の配向を有し、前記第1の3D深層ニューラルネットワークは、3D正準座標系の軸によって定義される3D空間に関連付けられた正準ポーズ情報を生成するようにトレーニングされ、前記3D正準座標系の前記3D空間における前記１つまたは複数の歯科特徴の前記配向は、前記3D正準座標系の前記軸と位置合わせされていることと、
前記3D深層ニューラルネットワークの出力から第1および第2の正準ポーズ情報を受信することであって、前記第1の正準ポーズ情報は、前記第1の3D座標系中の前記1つまたは複数の第1のブロックのデータ点の位置について、前記3D正準座標系中の前記データ点の第1の位置の予測を含み、前記第2の正準ポーズ情報は、前記1つまたは複数の第2のブロックのデータ点の位置について、前記3D正準座標系中の前記データ点の第2の位置の予測を含み、前記第1および第2の位置は、それぞれ、第1および第2の正準座標を定義する、ことと、
前記第1の正準ポーズ情報を使って、前記3D正準座標系の前記軸の第1の配向およびスケーリング、ならびに前記第1の3D座標系の前記軸および原点に対する前記3D正準座標系の原点の第1の位置を決定し、前記第2の正準ポーズ情報を使って、前記3D正準座標系の前記軸の第2の配向およびスケーリング、ならびに前記第2の3D座標系の前記軸および原点に対する前記3D正準座標系の前記原点の第2の位置を決定することと、
前記第1の配向、およびスケーリングおよび前記第1の位置を使って、前記第1の3D座標系の座標を前記3D正準座標系の座標に変換するための、第1の変換パラメータを決定し、前記第2の配向、およびスケーリング、および前記第2の位置を使って、前記第2の3D座標系の座標を前記3D正準座標系の正準座標に変換するための、第2の変換パラメータを決定することと、
前記第1の3D歯科用構造物と前記第2の3D歯科用構造物の重ね合わせを決定することであって、前記決定することは、前記第1および第2の変換パラメータを使って、それぞれ、前記第1の3D歯科用構造物の前記１つまたは複数の歯科特徴と前記第2の3D歯科用構造物の前記１つまたは複数の歯科特徴が前記3D正準座標系の前記軸と位置合わせされている前記第1および第2の3D歯科用構造物の第1および第2の正準表現を形成することを含む、実行可能動作を実施するように構成される、コンピュータシステム。