JP7376729B2

JP7376729B2 - 符号付き距離マップの予測による形状認識臓器セグメンテーション

Info

Publication number: JP7376729B2
Application number: JP2022554304A
Authority: JP
Inventors: タン，フイ; ホアン，チャオ; リン，シーヤオ; チャン，ツェン; ファン，ウェイ
Original assignee: テンセント・アメリカ・エルエルシー
Priority date: 2020-05-07
Filing date: 2021-03-04
Publication date: 2023-11-08
Anticipated expiration: 2041-03-04
Also published as: WO2021225680A1; EP4097679A4; US20210350528A1; KR20220162153A; CN115552464A; EP4097679A1; JP2023517216A; US11301999B2

Description

［関連出願の相互参照］
本出願は、２０２０年５月７日に出願された米国特許出願第１６／８６９，０１２号に対する優先権を主張するものであり、これは、参照によりその全体が本出願に明確に組み込まれる。

[技術分野］
本開示は、コンピュータビジョン（例えば、オブジェクト検出（画像およびビデオ中のオブジェクトを識別する））および人工知能に関する。特に、本開示は、コンピュータ断層撮影（ＣＴ）スキャン（患者の一部（例えば、臓器）に向けられたＸ線ビームを使用してデジタルＸ線画像を生成する）などの医療撮像技術において使用するための臓器セグメンテーションを実行するためにＡＩニューラルネットワークを使用することに関する。生成されるデジタルＸ線画像は、身体（または身体の臓器）の断面画像であり得、スライスと呼ばれ得る。

手術（例えば、臓器移植手術）の場合、臓器セグメンテーションは、形状認識ニューラルネットワーク（セグメンテーションで使用される統計的形状モデルを介して１つまたは複数の臓器の形状知識を組み込む）を使用して実行され得る。

Scher, A. I.; Xu, Y.; Korf, E.; White, L. R.; Scheltens, P.; Toga, A. W.; Thompson, P. M.; Hartley, S.; Witter, M.; Valentino, D. J.ら; March 12, 2007. "Hippocampal Shape Analysis in Alzheimers Disease: A Population-Based Study." Neuroimage; 2007 May 15; 36(1):8-18. Epub 2007 Mar 12. Moore, K. L.; Brame, R. S.; Low, D. A.; and Mutic, S.; 2011. "Experience-Based Quality Control of Clinical Intensity Modulated Radiotherapy Planning." International Journal of Radiation Oncology* Biology* Physics 81(2):545-551. Kass, M.; Witkin, A.; and Terzopoulos, D. 1988. "Snakes: Active Contour Models." IJCV 1(4):321-331. Osher, S., and Sethian, J. A.; 1988. "Fronts Propagating with Curvature-Dependent speed: Algorithms based on Hamilton-Jacobi formulations." Journal of computational physics 79(1):12-49. Cerrolaza, J. J.; Summers, R. M.; Gonz´alez Ballester, M. A´.; and Linguraru, M. G.; 2015 "Automatic Multi-Resolution Shape Modeling." Aljabar, P.; Heckemann, R. A.; Hammers, A.; Hajnal, J. V.; and Rueckert, D; 2009; "Multi-Atlas Based Segmentation of Brain Images: Atlas Selection and Its Effect On Accuracy"; Neuroimage 46(3):726-738. Ronneberger, O.; Fischer, P.; and Brox, T.; 2015; U-Net: Convolutional Networks for Biomedical Image Segmentation; Medical Image Computing and Computer Assisted Intervention (In MICCAI, 234-241; Springer). Cicek, O.（ただしＣとｃはセディーユ付き）; Abdulkadir, A.; Lienkamp, S. S.; Brox, T.; and Ronneberger, O.; 2016. "3d U-Net: Learning Dense Volumetric Segmentation from Sparse Annotation"; (In MICCAI, 424-432; Springer). Kamnitsas, K.; Ledig, C.; Newcombe, V. F.; Simpson, J. P.; Kane, A. D.; Menon, D. K.; Rueckert, D.; and Glocker, B.; 2017; "Efficient Multi-Scale 3d CNN With Fully Connected CRF For Accurate Brain Lesion Segmentation"; MedIA 36:61-78. Kohlberger, T.; Sofka, M.; Zhang, J.; Birkbeck, N.; Wetzl, J.; Kaftan, J.; Declerck, J.; and Zhou, S. K.; 2011; "Automatic Multi-Organ Segmentation Using Learning-Based Segmentation And Level Set Optimization"; (In MICCAI, 338-345; Springer). Perera, S.; Barnes, N.; He, X.; Izadi, S.; Kohli, P.; and Glocker, B.; 2015; "Motion Segmentation Of Truncated Ssigned Distance Function Based Volumetric Surfaces"; (In WACV, 1046-1053. IEEE). Hu, P.; Shuai, B.; Liu, J.; and Wang, G.; 2017; "Deep Level Sets for Salient Object Detection"; (In CVPR, 2300-2309). Park, J. J.; Florence, P.; Straub, J.; Newcombe, R.; and Lovegrove, S.; 2019; "Deepsdf: Learning Continuous Signed Distance Functions For Shape Representation"; arXiv preprint arXiv:1901.05103. Al Arif, S. M. R.; Knapp, K.; and Slabaugh, G.; 2018; "Spnet: Shape Prediction Using a Fully Convolutional Neural Network"; (In MICCAI, 430-439; Springer). Dangi, S.; Yaniv, Z.; and Linte, C.; 2019; "A Distance Map Regularized CNN For Cardiac Cine MR Image Segmentation"; arXiv preprint arXiv: 1901.01238. Navarro, F.; Shit, S.; Ezhov, I.; Paetzold, J.; Gafita, A.; Peeken, J. C.; Combs, S. E.; and Menze, B. H.; 2019; "Shape-Aware Complementary-Task Learning For Multi-Organ Segmentation"; (In MIDL, 620-627; Springer). Wu, Y., and He, K.; 2018; "Group Normalization"; (In ECCV, 3-19).

関連技術の説明
臓器セグメンテーション
医用画像セグメンテーションでは、臓器セグメンテーションは、疾患診断および手術計画において非常に重要である。例えば、臓器（例えば、海馬）のセグメント化された形状は、アルツハイマー病（ＡＤ）を含む神経変性疾患のバイオマーカーとして有用であり得る。非特許文献１を参照されたい。

放射線治療計画において、リスク臓器（ＯＡＲ）の正確なセグメンテーション結果は、腫瘍専門医が、周囲の健康な臓器への線量を最小限に抑えながら放射線を腫瘍領域に集中させることができるような適切なビーム経路など、より良い放射線治療計画を設計するのに役立ち得る。非特許文献２を参照されたい。

病変セグメンテーションなどの一般的なセグメンテーション問題とは異なり、臓器は、比較的安定した位置、形状、およびサイズを有する。現在の最先端の臓器セグメンテーションシステムは、深層学習ベースの方法（Roth et al．２０１５）が多数を占めているが、それらは、実現可能な形状の認識が不足していることが多く、特に３次元（３Ｄ）シナリオにおいて、医師によってラベル付けされたトレーニンググラウンドトゥルースの非平滑性に悩まされる。例えば、図５Ａを参照されたい。

臓器セグメンテーションについて、従来の方法には、統計モデル（非特許文献５）、アトラスベースの方法（非特許文献６）、動的輪郭モデル（非特許文献３）、およびレベルセット（非特許文献４）が含まれる。

アトラスベースの方法のセグメンテーション性能は、多くの場合、レジストレーションアルゴリズムおよびラベル融合アルゴリズムの精度に依存する。スネークおよびレベルセットでは、推論中に勾配降下による反復的な最適化が必要とされる。逆に、深層学習ベースの２Ｄセグメンテーション方法（非特許文献７）および３Ｄセグメンテーション方法（非特許文献８）の進歩は、より効率的かつ正確な臓器セグメンテーションを可能にした。

学習ベースの方法は、従来の方法よりも推論速度が速く精度が高いが、多くの場合、対象の臓器の解剖学的形状の認識が不足している。

ネットワークアーキテクチャおよびトレーニング損失にかかわらず、関連技術におけるセグメンテーション出力は、一貫性のない領域を含む場合があり、臓器の解剖学的形状を保護しない可能性がある。

結果として、ＣＲＦ（非特許文献９）またはレベルセット（非特許文献１０）などのセグメンテーション結果を精緻化してセグメンテーション表面の平滑性を高めるために、誤差補正のための後処理が必要となる。

本開示の一態様によれば、臓器セグメンテーションのためにニューラルネットワークをトレーニングするコンピュータ実装方法は、データベースからデジタルサンプル画像のセットを収集するステップと、収集されたデジタル画像のセットをニューラルネットワーク認識モデルに入力するステップと、第１のデジタル画像中の第１のオブジェクトが第２のデジタル画像中の第２のオブジェクトに類似していることに基づいて、第１のオブジェクトを特定のオブジェクトとして認識するようにニューラルネットワーク認識モデルをトレーニングするステップとを含み得る。

コンピュータ実装方法は、セグメンテーションマップと併せて符号付き距離マップ（ＳＤＭ）を予測するステップを含み得る。

臓器セグメンテーションの予測は、表面が滑らかなものであり得、後処理なしで直接ノイズセグメンテーションを除去し得る。

方法は、セグメンテーションマップとＳＤＭとを、微分可能な近似ヘビサイド関数によって接続するステップと、セグメンテーションマップ全体と導通するＳＤＭを予測するステップとをさらに含み得る。

トレーニングするステップは、ニューラルネットワーク認識モデルの２つの出力を、微分可能な近似ヘビサイド関数によって接続するステップと、一緒にトレーニングするステップとを含み得る。

方法は、実世界の撮像画像を取得するステップと、トレーニングされたニューラルネットワーク認識モデルに入力として撮像画像を入力するステップと、トレーニングされたニューラルネットワーク認識モデルから、出力として、少なくとも１つのセグメント化された臓器を含むセグメンテーション予測データを出力するステップとをさらに含み得、ここにおいて、トレーニングされたニューラルネットワーク認識モデルが対象の実世界臓器を認識する。

ニューラルネットワーク認識モデルは、ディープ３次元（３Ｄ）Ｕ－ｎｅｔであり得る。

コンピュータ実装方法は、（Ａ）デコーダにおいてダウンサンプリングを使用し、デコーダにおいて対応するアップサンプリングを使用すること、（Ｂ）バッチ正規化の代わりにグループ正規化を使用すること、および（Ｃ）活性化関数としてＲｅＬＵ（Rectified Linear Unit）の代わりにＬｅａｋｙＲｅＬＵを使用すること、のうちの少なくとも１つを実行することによって、３ＤＵ－ｎｅｔを修正するステップをさらに含み得る。

修正するステップは、上に列挙した（Ａ）～（Ｃ）の各々を含み得る。

グラフィックス処理ユニット（ＧＰＵ）が、ニューラルネットワーク認識モデルの処理を実行するために使用され得る。

コンピュータ実装方法は、３ＤＵｎｅｔによって、臓器マスクのＳＤＭを予測するステップをさらに含み得る。

コンピュータ実装方法は、３ＤＵｎｅｔが臓器マスクのＳＤＭを予測した後に、ヘビサイド関数を使用して臓器マスクのＳＤＭをセグメンテーションマスクに変換するステップをさらに含み得る。

トレーニングするステップは、セグメンテーションマスクおよびＳＤＦを一緒に最適化することによってニューラルネットワークをトレーニングするステップを含み得る。

ＳＤＭの予測のための回帰損失は２つの部分を有し得る。損失の第１の部分は、予測されたＳＤＦとグラウンドトゥルースＳＤＦとの間の差を最小化し得る。第２の部分は、予測されたマスクとグラウンドトゥルースマスクとの間のＤｉｃｅ類似度係数を最大化し得る。セグメンテーションマップおよび距離マップは、同じブランチにおいて予測され得、それによって、セグメンテーションとＳＤＭブランチとの間の対応を保証する。

損失の第１の部分は、回帰タスクにおいて使用される共通損失を、グラウンドトゥルースＳＤＭおよび予測されたＳＤＭを使用する式に基づいて定義される積に基づく回帰損失と組み合わせることによって決定され得る。

損失の第２の部分は、定数からＤｉｃｅ類似度係数を引いたものとして定義され得る。

一実施形態によれば、装置は、コンピュータプログラムコードを記憶するように構成された少なくとも１つのメモリと、少なくとも１つのメモリにアクセスし、コンピュータプログラムコードにしたがって動作するように構成された少なくとも１つのプロセッサとを備え得る。

コンピュータプログラムコードは、少なくとも１つのプロセッサに、データベースからデジタルサンプル画像のセットを収集させるように構成された収集コードと、少なくとも１つのプロセッサに、収集されたデジタル画像のセットをニューラルネットワーク認識モデルに入力させるように構成された入力コードと、少なくとも１つのプロセッサに、第１のデジタル画像中の第１のオブジェクトが第２のデジタル画像中の第２のオブジェクトに類似していることに基づいて、第１のオブジェクトを特定のオブジェクトとして認識するようにニューラルネットワーク認識モデルをトレーニングさせるように構成されたトレーニングコードであって、セグメンテーションマップと併せて符号付き距離マップ（ＳＤＭ）を予測することを含む、トレーニングコードとを含み得る。

収集することは、実世界の撮像画像を取得することを含み得る。

入力することは、トレーニングされたニューラルネットワーク認識モデルに入力として撮像画像を入力することを含み得る。

コンピュータプログラムコードは、少なくとも１つのプロセッサに、トレーニングされたニューラルネットワーク認識モデルから、出力として、少なくとも１つのセグメント化された臓器を含むセグメンテーション予測データを出力させるように構成された出力コードをさらに含み得る。

トレーニングされたニューラルネットワーク認識モデルは、対象の実世界臓器を認識し得る。

トレーニングすることは、（Ａ）デコーダにおいてダウンサンプリングを使用し、デコーダにおいて対応するアップサンプリングを使用すること、（Ｂ）バッチ正規化の代わりにグループ正規化を使用すること、および（Ｃ）活性化関数としてＲｅＬＵ（Rectified Linear Unit）の代わりにＬｅａｋｙＲｅＬＵを使用すること、のうちの少なくとも１つを実行することによって、３ＤＵ－ｎｅｔを修正することを含み得る。

出力することは、３ＤＵｎｅｔによって、臓器マスクのＳＤＭを予測することと、３ＤＵｎｅｔが臓器マスクのＳＤＭを予測した後に、ヘビサイド関数を使用して臓器マスクのＳＤＭをセグメンテーションマスクに変換することとを含み得る。

トレーニングすることは、セグメンテーションマスクおよびＳＤＦを一緒に最適化することによってニューラルネットワークをトレーニングすることを含み得る。

ＳＤＭの予測のための回帰損失は２つの部分を有し得、損失の第１の部分は、予測されたＳＤＦとグラウンドトゥルースＳＤＦとの間の差を最小化し、第２の部分は、予測されたマスクとグラウンドトゥルースマスクとの間のＤｉｃｅ類似度係数を最大化し、ここにおいて、セグメンテーションマップおよび距離マップは、同じブランチにおいて予測され、それによって、セグメンテーションとＳＤＭブランチとの間の対応を保証する。

一実施形態によれば、命令を記憶する非一時的コンピュータ可読記憶媒体が提供され得る。命令は、１つまたは複数のプロセッサに、データベースからデジタルサンプル画像のセットを収集することと、収集されたデジタル画像のセットをニューラルネットワーク認識モデルに入力することと、第１のデジタル画像中の第１のオブジェクトが第２のデジタル画像中の第２のオブジェクトに類似していることに基づいて、第１のオブジェクトを特定のオブジェクトとして認識するようにニューラルネットワーク認識モデルをトレーニングすることであって、セグメンテーションマップと併せて符号付き距離マップ（ＳＤＭ）を予測することを含む、トレーニングすることとを行わせ得る。

開示される主題のさらなる特徴、性質、および様々な利点は、以下の詳細な説明および添付の図面からより明らかになるであろう。
一実施形態による臓器セグメンテーションのためのＳＤＭ学習モデルを含むネットワークシステムアーキテクチャの概略図である。一実施形態による、ＳＤＭの予測のための提案された回帰損失を示す。一実施形態による、損失値のプロットを示す。本開示の一態様による、臓器セグメンテーションのためにニューラルネットワークをトレーニングするコンピュータ実装方法を含む、図７のコンピュータシステムによって実行され得るフローチャートを示す。一実施形態による回帰損失を計算するための式を示す。一実施形態によるＤｉｃｅ損失部分を計算するための式を示す。図５Ａ～図５Ｃは、（図５Ａ）グラウンドトゥルースアノテーション、（図５Ｂ）符号付き距離マップを予測しない場合のモデルからのセグメンテーション結果、および（図５Ｃ）符号付き距離マップを予測する場合のモデルからのセグメンテーション結果の例示的な海馬セグメンテーション比較を示す。図６Ａ～図６Ｅは、それぞれ、ＧＴ、ＤＩＣＥ、ＳＤＭ、Ｌ１ＳＤＭ＋Ｄｉｃｅ、および本開示の実施形態（「本発明」）を使用した出力画像（臓器）セグメンテーションの例を示す。一実施形態によるコンピュータシステムの概略図である。

臓器セグメンテーションのための技法は、１つまたは複数のコンピュータ可読媒体（例えば、ハードディスクドライブ）に物理的に記憶され得るコンピュータ可読命令（コード）を有するコンピュータソフトウェアを実行し得る１つまたは複数のプロセッサによって実装され得る。例えば、以下で詳細に説明される図７は、開示される主題の特定の実施形態を実装するのに適したコンピュータシステム７００を示す。

従来の医用画像セグメンテーション方法では、例えば、スネーク（非特許文献３）およびレベルセット（非特許文献４）にあるように、物理的意味を持つ正則化項を追加することによって平滑性の問題を緩和することができる。

従来の方法の形状認識を活用するために、一実施形態にしたがって、本発明者らは、３Ｄ畳み込みニューラルネットワークを通して入力画像から直接、符号付き距離関数（ＳＤＦ）を回帰させることを提案する。

符号付き距離マップ
いくつかの研究により、コンピュータビジョンおよびグラフィックス技術分野における符号付き距離マップ（ＳＤＭ）または符号付き距離関数（ＳＤＦ）の適用が検討されてきた。例えば、切り捨てられたＳＤＦを使用してＲＧＢ－Ｄ画像上の体積表面をより良好に再構成する非特許文献１１を参照されたい。非特許文献１２は、線形シフトされた顕著性マップをＳＤＦとして扱い、レベルセット平滑化項を用いた複数のトレーニング段階において、予測された顕著性マップを精緻化する。

非特許文献１３は、一連の全結合層およびＬ１回帰損失を含むネットワークによって、点サンプルから直接連続３ＤＳＤＦを学習する。

学習されたＳＤＦは、最先端の形状表現および完了結果を取得するために使用され得る。医用画像は点サンプルよりも豊富なコンテキスト情報を含むので、臓器セグメンテーションタスクにＳＤＭ学習を適用するとき、より洗練されたネットワークアーキテクチャおよびトレーニング戦略を考慮する必要がある。

非特許文献１４は、２Ｄ臓器形状予測タスクのための中間ステップとして距離マップ（符号なし）を使用することを提案している。距離マップから形状パラメータベクトルへの変換は、ＰＣＡによって行われ、セグメンテーションマップは関与しない。

しかしながら、２Ｄの場合よりもはるかに高次元の３Ｄ臓器セグメンテーションの場合、非特許文献１４の方法を直接適用しても、小さな臓器ではうまく機能しないことがある。

より最近では、非特許文献１５および１６は、臓器セグメンテーションのためのトレーニング中に距離マップ予測を正則化項（regularizer）として使用する。

非特許文献１５および１６では、セグメンテーションマップおよび距離マップが異なるブランチにおいて予測されるので、セグメンテーションとＳＤＭブランチとの間の対応が保証されない。

従来技術に伴う問題に鑑みて、一実施形態にしたがって、臓器セグメンテーションを学習するための新しいセグメンテーション深層学習方式および新しい損失が提供される。一実施形態によれば、セグメンテーション方式により、滑らかな表面を持ち、後処理なしで直接ノイズセグメンテーションを減らした臓器セグメンテーションを予測することができる。

図１に示されているように、一実施形態によれば、（ＳＤＦ予測を介した）ＳＤＭは、臓器セグメンテーションタスクにおける正則化項であるのではなく、セグメンテーションマップと併せて予測され得る。

一実施形態によれば、２つの出力は、微分可能なヘビサイド関数を通して接続され、一緒にトレーニングされ得る。一実施形態によれば、不正確な予測に対する勾配の大きさがより大きくなり、アブレーション研究におけるＬ１回帰損失と比較してより良好な性能を示す新しい回帰損失が利用され得る。

したがって、一実施形態による方法は、非特許文献１４および１５の方法とは異なり得る。例えば、一実施形態によれば、セグメンテーションマップおよびＳＤＭは、微分可能なヘビサイド関数によって接続され得、全体として予測され得る。

図１は、一実施形態による臓器セグメンテーションのためのＳＤＭ学習モデルを含むネットワークシステムアーキテクチャを示す。

図１に示されるように、一実施形態によれば、画像（例えば、３Ｄ医用画像）が、ディープ３ＤＵｎｅｔ（またはＵ－ｎｅｔ）ニューラルネットワークのための入力として使用され得、臓器などの検出されたオブジェクトを含み得るセグメンテーション予測が出力され得る。

図１に示される実施形態によれば、トレーニング中に、ＳＤＭ損失およびセグメンテーション損失によって提案されたバックボーンディープ３ＤＵＮｅｔをトレーニングするために微分可能な近似ヘビサイド関数が使用され得る。

一実施形態によれば、３ＤＵｎｅｔ（またはＵ－ｎｅｔ）が修正され得る。例えば、図１に示されるように、修正は、（１）デコーダにおいて６つのダウンサンプリングを使用し、デコーダにおいて６つの対応するアップサンプリングを使用すること、（２）一実施形態によれば、バッチサイズがＧＰＵメモリのサイズの制限により１つに制限され得るので、バッチ正規化の代わりにグループ正規化（例えば、非特許文献１７と同様のグループ正規化）を使用すること、および（３）活性化関数としてＲｅＬＵ（Rectified Linear Unit）の代わりにＬｅａｋｙＲｅＬＵを使用すること、のうちの１つまたは複数を含み得る。

一実施形態によれば、３ＤＵＮｅｔは、臓器マスクのＳＤＭを予測し得る。一実施形態によれば、３ＤＵｎｅｔは、限られたメモリを有し得るＧＰＵなどの専用プロセッサによって実行されるモデルであり得る。

一実施形態によれば、３ＤＵｎｉｔが臓器マスクのＳＤＭを予測した後、ＳＤＭをセグメンテーションマスクに変換するために、（例えば、非特許文献４と同様の）ヘビサイド関数が使用され得る。

図７のコンピュータシステムによって実行され得るフローチャートである図３に示されるように、本開示の一態様によれば、臓器セグメンテーションのためにニューラルネットワークをトレーニングするコンピュータ実装方法は、データベースからデジタルサンプル画像のセットを収集するステップ（ステップ３０１）と、収集されたデジタル画像のセットをニューラルネットワーク認識モデルに入力するステップ（ステップ３０１）と、ニューラルネットワーク認識モデルをトレーニングするステップ（ステップ３０３）とを含み得る。

一実施形態によれば、ステップ３０３は、第１のデジタル画像中の第１のオブジェクトが第２のデジタル画像中の第２のオブジェクトに類似していることに基づいて、第１のオブジェクトを特定のオブジェクトとして認識するようにニューラルネットワーク認識モデルをトレーニングするステップを含み得る。

一実施形態によれば、ニューラルネットワークは、セグメンテーションマスクおよびＳＤＦを一緒に最適化することによってトレーニングされ得る。

一実施形態によれば、損失は２つの部分を有し得る。一実施形態によれば、損失の第１の部分は、予測されたＳＤＦとグラウンドトゥルースＳＤＦとの間の差を最小化し得、第２の部分は、予測されたマスクとグラウンドトゥルースマスクとの間のＤｉｃｅ（係数）を最大化し得る。

図２Ａは、一実施形態による、ＳＤＭの予測のための提案された回帰損失を示す。一実施形態によれば、すべてのＳＤＭ値が正規化され得る。

図２Ｂは、一実施形態による、０：５のグラウンドトゥルースＳＤＭ値を与えられた損失値のプロットを示す。図２Ｂにおいて、線Ｌ１’は、本開示の実施形態による提案された損失とＬ１損失との組合せを表し得る。

本開示の一実施形態によれば、ＳＤＭ損失部分は、回帰問題として定式化され得る。一実施形態によれば、Ｌ１損失は、回帰タスクで使用される共通損失である。しかしながら、多臓器セグメンテーションタスクの場合、Ｌ１損失によるトレーニングは、不安定なトレーニングプロセスにつながることがある。

Ｌ１損失の欠点を克服するために、一実施形態によれば、Ｌ１’損失は、Ｌ１損失を、式に基づいて定義される積に基づく提案された回帰損失と組み合わせることによって決定され得る。例えば、一実施形態によれば、回帰損失は、図４Ａの式に基づいて計算され得、ここで、ｙ_ｔはグラウンドトゥルースＳＤＭを表し、ｐ_ｔは予測されたＳＤＭを表す。

一実施形態によれば、予測とグラウンドトゥルースとの積を取ることで、誤った符号を有することに関して出力ＳＤＭにペナルティが与えられ得る。

一実施形態によれば、Ｄｉｃｅ損失部分に関して、損失は、定数からＤｉｃｅ類似度係数を引いたものとして定義され得る。例えば、Ｄｉｃｅ損失部分は、図４Ｂの式に基づいて計算され得、ここで、Ｎはクラスの数であり、ｔは第ｔの臓器クラスを示す。ｙ_ｔおよびｐ_ｔは、それぞれ、グラウンドトゥルースアノテーションおよびモデル予測を表す（εは、数値問題を回避するために小さい値を有する項であり得る）。

現在の最先端の臓器セグメンテーションシステムは、深層学習ベースの方法（Roth et al．２０１５）が多数を占めているが、それらは、実現可能な形状の認識が不足していることが多く、特に３次元（３Ｄ）シナリオにおいて、医師によってラベル付けされたトレーニンググラウンドトゥルースの非平滑性に悩まされる。一例として、海馬のグラウンドトゥルースラベルは、３Ｄ表面ではなく２次元（２Ｄ）スライスにおいて輪郭によってアノテーション付与されるので、一貫した連続的な形状を維持しない場合がある。例えば、図５Ａを参照されたい。

図５Ａ～図５Ｃは、（図５Ａ）２Ｄにおけるアノテーションの不一致により３Ｄビューにおいて平滑性を欠くグラウンドトゥルースアノテーション、（図５Ｂ）符号付き距離マップを予測しない場合のモデルからのセグメンテーション結果、および（図５Ｃ）全体形状を保ちながら図５Ａおよび図５Ｂよりも明らかに平滑である、符号付き距離マップを予測する場合のモデルからのセグメンテーション結果の例示的な海馬セグメンテーション比較を示す。

図１は、本開示による実施形態の例示的なフローを示す。

一実施形態によれば、ニューラルネットワークは、画像（例えば、３Ｄ医用画像）を入力として受信し得る。一実施形態によれば、ニューラルネットワークは、ＳＤＦ予測を出力し得る。一実施形態によれば、ニューラルネットワークは、図１に示されるように、１つまたは複数のスキップ接続（例えば、非線形処理の１つまたは複数の層をスキップするニューラルネットワークの異なる層におけるノード間の１つまたは複数の余分な接続）を含み得る。

一実施形態によれば、損失は、２つの部分を有し得る。一実施形態によれば、損失の２つの部分は、予測されたＳＤＦとグラウンドトゥルースＳＤＦとの間の差を最小化する第１の部分と、予測されたマスクとグラウンドトゥルースマスクとの間のダイスを最大化する第２の部分とを含み得る。

図４Ａおよび図４Ｂは、一実施形態による、損失を示す。

一実施形態によれば、ＳＤＭ損失部分は、回帰問題として定式化され得る。一実施形態によれば、Ｌ１損失は、回帰タスクで使用される共通損失である。しかしながら、Ｌ１損失によるトレーニングは、不安定なトレーニングプロセスにつながることがある（例えば、多臓器セグメンテーションタスクのためにトレーニングするとき）。Ｌ１損失の欠点を克服するために、一実施形態によれば、Ｌ１損失は、回帰損失Ｌ’と組み合わされる。一実施形態によれば、回帰損失Ｌ’は、図４Ａの式に基づく積に基づき得る。

一実施形態によれば、予測とグラウンドトゥルースとの積を取ることの背後にある直感は、誤った符号を有することに関して出力ＳＤＭにペナルティを与えることである。

図６Ａ～６Ｅは、ＧＴ、ＤＩＣＥ、ＳＤＭ、Ｌ１ＳＤＭ＋Ｄｉｃｅおよび本開示の一実施形態（「本発明」）を使用した出力画像（臓器）セグメンテーションの例を示す。具体的には、図６ＡはＧＴを示し、図６ＢはＤｉｃｅを示し、図６ＣはＳＤＭを示し、図６ＤはＬ１ＳＤＭ＋Ｄｉｃｅを示し、図６Ｅは本開示の実施形態（「本発明」）を示す。

図７に示されるように、コンピュータソフトウェアは、コンピュータ中央処理装置（ＣＰＵ）、グラフィックス処理ユニット（ＧＰＵ）などによって直接実行可能であるか、または解釈やマイクロコード実行などを介して実行可能な命令を含むコードを作成するために、アセンブリ、コンパイル、リンク、または同様の機構に従い得る任意の適切な機械コードまたはコンピュータ言語を使用してコーディングされ得る。

命令は、例えば、パーソナルコンピュータ、タブレットコンピュータ、サーバ、スマートフォン、ゲームデバイス、モノのインターネットデバイスなどを含む、様々なタイプのコンピュータまたはその構成要素上で実行され得る。

コンピュータシステム７００について図７に示される構成要素は、本質的に例示的なものであり、本開示の実施形態を実装するコンピュータソフトウェアの使用または機能の範囲に関していかなる限定も示唆することを意図していない。構成要素の構成は、コンピュータシステム７００の例示的な実施形態に示された構成要素のいずれか１つまたは組合せに関して何らかの依存関係または要件を有するものと解釈されるべきでもない。

コンピュータシステム７００は、特定のヒューマンインターフェース入力デバイスを含み得る。そのようなヒューマンインターフェース入力デバイスは、例えば、触覚入力（キーストローク、スワイプ、データグローブの動きなど）、オーディオ入力（声、拍手など）、視覚入力（ジェスチャなど）、嗅覚入力などを用いた、１人または複数の人間のユーザによる入力に応答し得る。ヒューマンインターフェースデバイスはまた、オーディオ（スピーチ、音楽、周囲音など）、画像（ＣＴ画像、スキャン画像、静止画像カメラから得られる写真画像など）、ビデオ（２次元ビデオ、立体ビデオを含む３次元ビデオなど）など、必ずしも人間による意識的な入力に直接関連しない特定のメディアをキャプチャするために使用され得る。

入力ヒューマンインターフェースデバイスは、キーボード７０１、マウス７０２、トラックパッド７０３、タッチスクリーン７１０、データグローブ７０４、ジョイスティック７０５、マイクロフォン７０６、スキャナ７０７、カメラ７０８などのうちの１つまたは複数（それぞれ１つのみ図示）を含み得る。一実施形態によれば、カメラ７０８はＣＴスキャナであってもよい。一実施形態によれば、カメラ７０８は医療用撮像デバイスであってもよい。

コンピュータシステム７００はまた、特定のヒューマンインターフェース出力デバイスを含み得る。そのようなヒューマンインターフェース出力デバイスは、例えば、触知出力、音、光、および匂い／味を通して、１人または複数の人間のユーザの感覚を刺激し得る。そのようなヒューマンインターフェース出力デバイスは、触覚出力デバイス（例えば、タッチスクリーン７１０、データグローブ７０４、またはジョイスティック７０５による触覚フィードバックであるが、入力デバイスとして機能しない触覚フィードバックデバイスもあり得る）、オーディオ出力デバイス（スピーカ７０９、ヘッドフォン（図示せず）など）、視覚出力デバイス（ＣＲＴスクリーン、ＬＣＤスクリーン、プラズマスクリーン、ＯＬＥＤスクリーンを含むスクリーン７１０などであって、各々がタッチスクリーン入力機能を有するかまたは有さず、各々が触覚フィードバック機能を有するかまたは有さず、そのうちのいくつかは、ステレオグラフィック出力などの手段により２次元視覚出力または３次元以上の出力を出力することが可能であり得る）、仮想現実メガネ、ホログラフィックディスプレイおよびスモークタンク、ならびにプリンタを含み得る。

コンピュータシステム７００はまた、人間がアクセス可能な記憶デバイスと、ＣＤ／ＤＶＤまたは同様の媒体７２１を有するＣＤ／ＤＶＤＲＯＭ／ＲＷ７２０を含む光媒体、サムドライブ７２２、リムーバブルハードドライブまたはソリッドステートドライブ７２３、テープおよびフロッピー（登録商標）ディスクなどのレガシー磁気媒体（図示せず）、セキュリティドングルなどの専用ＲＯＭ／ＡＳＩＣ／ＰＬＤベースのデバイス（図示せず）などの関連媒体とを含むことができる。

当業者はまた、本明細書で開示される主題に関連して使用される「コンピュータ可読媒体（computer readable media）」または「コンピュータ可読媒体（computer readable medium）」という用語が、非一時的コンピュータ可読媒体に対応し、伝送媒体、搬送波、または他の一時的信号を包含しないことを理解すべきである。

コンピュータシステム７００はまた、１つまたは複数の通信ネットワークへのインターフェースを含むことができる。ネットワークは、例えば、ワイヤレス、ワイヤーライン、光であり得る。ネットワークはさらに、ローカル、ワイドエリア、メトロポリタン、車両および産業用、リアルタイム、遅延耐性などであり得る。ネットワークの例には、イーサネット（登録商標）などのローカルエリアネットワーク、ワイヤレスＬＡＮ、ＧＳＭ（登録商標）、３Ｇ、４Ｇ、５Ｇ、ＬＴＥなどを含むセルラーネットワーク、ケーブルＴＶ、衛星ＴＶ、および地上波放送ＴＶを含むＴＶワイヤーラインまたはワイヤレス広域デジタルネットワーク、ＣＡＮＢｕｓを含む車両用および産業用ネットワークなどが含まれる。特定のネットワークは、一般に、特定の汎用データポートまたは周辺バス（７４９）（例えば、コンピュータシステム７００のＵＳＢポートなど）に取り付けられる外部ネットワークインターフェースアダプタを必要とし、他のものは、一般に、以下で説明するように、システムバスに取り付けることによってコンピュータシステム７００のコアに統合される（例えば、ＰＣコンピュータシステムへのイーサネットインターフェースまたはスマートフォンコンピュータシステムへのセルラーネットワークインターフェース）。これらのネットワークのいずれかを使用して、コンピュータシステム７００は、他のエンティティと通信することができる。そのような通信は、単方向、受信専用（例えば、放送ＴＶ）、単方向送信専用（例えば、特定のＣＡＮＢｕｓデバイスへのＣＡＮＢｕｓ）、または例えば、ローカルまたは広域デジタルネットワークを使用して他のコンピュータシステムへの双方向であり得る。特定のプロトコルおよびプロトコルスタックは、上述したように、それらのネットワークおよびネットワークインターフェースの各々において使用され得る。

前述のヒューマンインターフェースデバイス、人間がアクセス可能な記憶デバイス、およびネットワークインターフェースは、コンピュータシステム７００のコア７４０に取り付けられ得る。

コア７４０は、１つまたは複数の中央処理装置（ＣＰＵ）７４１、グラフィックス処理ユニット（ＧＰＵ）７４２、フィールドプログラマブルゲートエリア（ＦＰＧＡ）の形態の専用プログラマブル処理ユニット７４３、特定のタスクのためのハードウェアアクセラレータ７４４などを含むことができる。これらのデバイスは、読み出し専用メモリ（ＲＯＭ）７４５、ランダムアクセスメモリ７４６、内部非ユーザアクセスハードドライブ、ＳＳＤなどの内部大容量記憶装置７４７とともに、システムバス７４８を通して接続され得る。いくつかのコンピュータシステムでは、システムバス７４８は、追加のＣＰＵ、ＧＰＵなどによる拡張を可能にするために、１つまたは複数の物理プラグの形態でアクセス可能であり得る。周辺デバイスは、コアのシステムバス７４８に直接取り付けられ得るか、または周辺バス７４９を通して取り付けられ得る。周辺バスのアーキテクチャには、ＰＣＩ、ＵＳＢなどが含まれる。

ＣＰＵ７４１、ＧＰＵ７４２、ＦＰＧＡ７４３、およびアクセラレータ７４４は、組み合わせて、前述のコンピュータコードを構成することができる特定の命令を実行することができる。このコンピュータコードは、ＲＯＭ７４５またはＲＡＭ７４６に記憶され得る。遷移データもＲＡＭ７４６に記憶され得るのに対して、永久データは、例えば、内部大容量記憶装置７４７に記憶され得る。メモリデバイスのいずれかへの高速記録および取り出しは、１つまたは複数のＣＰＵ７４１、ＧＰＵ７４２、大容量記憶装置７４７、ＲＯＭ７４５、ＲＡＭ７４６などに密接に関連付けることができるキャッシュメモリの使用により可能になる。

一実施形態によれば、ＣＰＵは、ニューラルネットワーク処理を実行するために、ＧＰＵ、ＦＰＧＡ、またはアクセラレータのうちの１つまたは複数を使用し得る。

コンピュータ可読媒体は、様々なコンピュータ実装動作を実行するためのコンピュータコードを有することができる。媒体およびコンピュータコードは、本開示の目的のために特別に設計および構築されたものであってもよく、またはコンピュータソフトウェア分野の当業者に周知であり、かつ当業者が利用可能な種類のものであってもよい。

限定ではなく例として、アーキテクチャ７００、具体的にはコア７４０を有するコンピュータシステムは、プロセッサ（複数可）（ＣＰＵ、ＧＰＵ、ＦＰＧＡ、アクセラレータなどを含む）が１つまたは複数の有形のコンピュータ可読媒体において具現化されたソフトウェアを実行した結果として機能を提供することができる。そのようなコンピュータ可読媒体は、上で紹介したようなユーザアクセス可能な大容量記憶装置、およびコア内部大容量記憶装置７４７またはＲＯＭ７４５などの非一時的な性質のコア７４０の特定の記憶装置に関連付けられた媒体であり得る。本開示の様々な実施形態を実装するソフトウェアは、そのようなデバイス内に記憶され、コア７４０によって実行され得る。コンピュータ可読媒体は、特定の必要性に応じて、１つまたは複数のメモリデバイスまたはチップを含むことができる。ソフトウェアは、コア７４０および具体的にはその中のプロセッサ（ＣＰＵ、ＧＰＵ、ＦＰＧＡなどを含む）に、ＲＡＭ７４６に記憶されたデータ構造を定義すること、およびソフトウェアによって定義されたプロセスにしたがってそのようなデータ構造を修正することを含む、本明細書で説明される特定のプロセスまたは特定のプロセスの特定の部分を実行させることができる。加えて、または代替として、コンピュータシステムは、回路（例えば、アクセラレータ７４４）内に配設接続または別様に具現化された論理の結果として、機能を提供することができ、これは、本明細書に説明される特定のプロセスまたは特定のプロセスの特定の部分を実行するために、ソフトウェアの代わりにまたはそれと一緒に動作することができる。ソフトウェアへの言及は、適切な場合、論理を包含することができ、逆もまた同様である。コンピュータ可読媒体への言及は、適切な場合、実行のためのソフトウェアを記憶する回路（集積回路（ＩＣ）など）、実行のための論理を具現化する回路、またはその両方を包含することができる。本開示は、ハードウェアおよびソフトウェアの任意の適切な組み合わせを包含する。

利点
１）ネットワークの直接出力が滑らかなままであり、小さなスパークルがないので、後処理を必要としない。

２）任意の既存の３Ｄセグメンテーションネットワークは、追加のオーバーヘッドをほとんど伴わずにＳＤＭ予測モデルを組み込むように容易に適合され得る。

本開示は、いくつかの例示的な実施形態を説明してきたが、本開示の範囲内に入る変更、置換、および様々な代替の同等物が存在する。したがって、当業者であれば、本明細書で明示的に図示または説明されていないが、本開示の原理を具現化し、したがって本開示の趣旨および範囲内にある多数のシステムおよび方法を考案することができることが理解されよう。

Claims

臓器セグメンテーションのためにニューラルネットワークをトレーニングするコンピュータ実装方法であって、
データベースからデジタルサンプル画像のセットを収集するステップと、
前記収集されたデジタルサンプル画像のセットをニューラルネットワーク認識モデルに入力するステップと、
第１のデジタルサンプル画像中の第１のオブジェクトが第２のデジタルサンプル画像中の第２のオブジェクトに類似していることに基づいて、前記第１のオブジェクトを特定のオブジェクトとして認識するように前記ニューラルネットワーク認識モデルをトレーニングするステップであって、当該コンピュータ実装方法が、セグメンテーションマップと併せて符号付き距離マップ（ＳＤＭ）を予測するステップを含む、ステップと、
を含み、
前記ニューラルネットワーク認識モデルは、ディープ３次元（３Ｄ）Ｕｎｅｔであり、
当該コンピュータ実装方法は、
前記３ＤＵｎｅｔによって、臓器マスクの前記ＳＤＭを予測するステップと、
前記３ＤＵｎｅｔが前記臓器マスクの前記ＳＤＭを予測した後に、ヘビサイド関数を使用して前記臓器マスクの前記ＳＤＭをセグメンテーションマスクに変換するステップと、をさらに含み、
前記トレーニングするステップは、前記セグメンテーションマスクおよび符号付き距離関数（ＳＤＦ）を一緒に最適化することによって前記ニューラルネットワークをトレーニングすることを含み、
前記ＳＤＭの予測のための回帰損失は２つの部分を有し、前記回帰損失の第１の部分は、前記予測されたＳＤＦとグラウンドトゥルースＳＤＦとの間の差を最小化し、前記回帰損失の第２の部分は、予測されたマスクとグラウンドトゥルースマスクとの間のＤｉｃｅ類似度係数を最大化する、
コンピュータ実装方法。
滑らかな表面を持つ臓器セグメンテーションを予測するステップと、
後処理なしで直接ノイズセグメンテーションを除去するステップと、
をさらに含む、請求項１に記載のコンピュータ実装方法。
前記セグメンテーションマップと前記ＳＤＭとを、微分可能な近似ヘビサイド関数によって接続するステップと、
前記セグメンテーションマップ全体と導通する前記ＳＤＭを予測するステップと、
をさらに含み、前記トレーニングするステップは、前記ニューラルネットワーク認識モデルの２つの出力を、前記微分可能な近似ヘビサイド関数によって接続して一緒にトレーニングするステップを含む、
請求項１に記載のコンピュータ実装方法。
実世界の撮像画像を取得するステップと、
前記トレーニングされたニューラルネットワーク認識モデルに入力として前記撮像画像を入力するステップと、
前記トレーニングされたニューラルネットワーク認識モデルから、出力として、少なくとも１つのセグメント化された臓器を含むセグメンテーション予測データを出力するステップと
をさらに含み、ここにおいて、前記トレーニングされたニューラルネットワーク認識モデルが対象の実世界臓器を認識する、
請求項１に記載のコンピュータ実装方法。
（Ａ）デコーダにおいてダウンサンプリングを使用し、前記デコーダにおいて対応するアップサンプリングを使用すること、（Ｂ）バッチ正規化の代わりにグループ正規化を使用すること、および（Ｃ）活性化関数としてＲｅＬＵ（Rectified Linear Unit）の代わりにＬｅａｋｙＲｅＬＵを使用すること、のうちの少なくとも１つを実行することによって、前記３ＤＵ－ｎｅｔを修正するステップをさらに含む、
請求項１に記載のコンピュータ実装方法。
グラフィックス処理ユニット（ＧＰＵ）が、前記ニューラルネットワーク認識モデルの処理を実行するために使用される、
請求項１に記載のコンピュータ実装方法。
前記セグメンテーションマップおよび距離マップは、同じブランチにおいて予測され、それによって、セグメンテーションとＳＤＭブランチとの間の対応を保証する、
請求項１に記載のコンピュータ実装方法。
前記回帰損失の前記第１の部分は、回帰タスクにおいて使用される共通損失を、グラウンドトゥルースＳＤＭおよび前記予測されたＳＤＭを使用する式に基づいて定義される積に基づく回帰損失と組み合わせることによって決定される、
請求項１に記載のコンピュータ実装方法。
前記回帰損失の前記第２の部分は、定数から前記Ｄｉｃｅ類似度係数を引いたものとして定義される、
請求項１に記載のコンピュータ実装方法。
コンピュータプログラムコードを記憶するように構成された少なくとも１つのメモリと、
前記少なくとも１つのメモリにアクセスし、前記コンピュータプログラムコードにしたがって動作するように構成された少なくとも１つのプロセッサと
を備える装置であって、前記コンピュータプログラムコードが、前記少なくとも１つのプロセッサに、請求項１乃至９のいずれか一項に記載の方法を実行させる、装置。
コンピュータに、請求項１乃至９のいずれか一項に記載の方法を実行させるコンピュータプログラム。