JP6884853B2

JP6884853B2 - ニューラルネットワーク法を用いた画像セグメンテーション

Info

Publication number: JP6884853B2
Application number: JP2019511600A
Authority: JP
Inventors: ジャオホウシュ; シャオハン
Original assignee: Elekta Inc
Current assignee: Elekta Inc
Priority date: 2016-08-26
Filing date: 2017-08-23
Publication date: 2021-06-09
Anticipated expiration: 2037-08-23
Also published as: CN109906470A; RU2720440C1; CN109906470B; JP2019526863A; AU2017315674B2; AU2017315674A1; US9947102B2; EP3504681A1; WO2018039368A1; EP3504681B1; US20180061058A1

Description

［００１］
本開示は、一般に画像セグメンテーションに関する。より具体的には、本開示は、ニューラルネットワークに基づく自動画像セグメンテーションのためのシステムおよび方法に関する。

［００２］
放射線治療または放射線外科手術では、治療計画は通常、患者の医用画像に基づいて実行され、医用画像内の標的体積および正常な重要臓器の描写を必要とする。したがって、医用画像における解剖学的構造のセグメンテーションは、放射線治療計画のための前提条件かつ重要なステップである。解剖学的構造の正確かつ自動的なコンピュータベースのセグメンテーションまたは輪郭形成は、最適な治療計画の設計および／または適応を容易にすることができる。しかしながら、医療画像の正確かつ自動的なセグメンテーションは、異なる患者における標的容積および重要臓器の形状、サイズ、位置などの変形および可変性のために、現在も挑戦的な課題である。

［００３］
図１は、典型的な前立腺癌患者からの例示的な三次元（３Ｄ）コンピュータ断層撮影（ＣＴ）画像を示す図である。図１（Ａ）は、患者の膀胱、前立腺、および直腸を含む患者の骨盤領域の３Ｄビューを示す図である。図１（Ｂ）、（Ｃ）、（Ｄ）は、この骨盤領域の３ＤＣＴ画像からのアキシャルビュー（axial view）、サジタルビュー（sagittal view)、コロナルビュー（coronal view）を示す図である。図１（Ｂ）、（Ｃ）、（Ｄ）に示すように、患者の前立腺境界の大部分は見えない。すなわち、前立腺を他の解剖学的構造と容易に区別することも、前立腺の輪郭を決定することもできない。比較としての図１（Ｅ）、（Ｆ）、（Ｇ）は、同じ３ＤＣＴ画像上の予想される前立腺輪郭を示す図である。図１に示すように、画像内に提示されたコントラストおよびテクスチャのみに基づく従来の画像セグメンテーション方法は、この例示的な三次元ＣＴ画像をセグメント化するために使用されると失敗する可能性が高い。したがって、医用画像の自動セグメンテーションの精度を向上させるために様々な手法が提案されている。

［００４］
例えば、アトラスベースの自動セグメンテーション（ＡＢＡＳ：atlas-based auto-segmentation）方法は、放射線療法治療計画において解剖学的構造を輪郭付ける課題に取り組むために使用されてきた。ＡＢＡＳ法は、基準画像、すなわちアトラス内の以前に定義された解剖学的構造に基づいて新しい画像内に輪郭をマッピングする。ＡＢＡＳ法の精度は、アトラス登録法のパフォーマンスに大きく依存する。上述のように、いくつかの臓器の形状およびサイズは患者によって異なり、同じ患者に対する異なる段階で大規模に変形することがあり、これは位置合わせ精度を低下させ、ＡＢＡＳ法によって実行される自動セグメンテーションに影響を及ぼす可能性がある。

［００５］
機械学習技術における最近の進歩では、画像内の低コントラスト部分やより低品質の画像ののより正確なセグメンテーションのように改善された画像セグメンテーションを行う。例えば、様々な機械学習アルゴリズムでは、医用画像の各ピクセルまたはボクセルが表す解剖学的構造を（例えば、その可能性を推定することによって）予測するために、機械、コンピュータ、またはコンピュータプログラムを「トレーニング（トレーニング）」することができる。そのような予測または推定は通常、入力として医用画像の１つまたは複数の特徴を使用する。したがって、セグメンテーションのパフォーマンスは利用可能な特徴の種類に大きく依存する。例えば、ランダムフォレスト（ＲＦ：Random Forest）法が画像セグメンテーションの目的に使用されており、ある程度成功している。ＲＦモデルは、トレーニングサンプルのセットから異なる特徴を抽出することに基づいて構築することができる。しかしながら、ＲＦ法で使用される特徴は手動で設計される必要があり、ある種類の器官の輪郭を描くことに特有のものである。さまざまなセグメンテーション応用に最適な特徴の組み合わせを設計するのは面倒で時間がかかる。

［００６］
したがって、放射線療法または関連分野における医用画像上のセグメンテーション性能を改善するための新しい自動セグメンテーション方法が必要とされている。

［００７］
本開示のある実施形態は、三次元画像をセグメント化するためのコンピュータ実施方法に関する。本方法は、撮像装置によって取得された三次元画像を受け取ること、三次元画像から隣接する二次元画像の複数のスタックを選択することを含むことができる。本方法は、ニューラルネットワークモデルを使用して、プロセッサによって、隣接する二次元画像の各スタックをセグメント化することをさらに含むことができる。本方法は、また、プロセッサによって、複数のスタックからのセグメンテーション結果を集約することによって三次元画像のラベルマップを決定することを含むことができる。

［００８］
本開示のある実施形態は、三次元画像をセグメント化するための装置に関する。本装置は、撮像装置によって取得された三次元画像を受け取る入力インターフェースを含むことができる。本装置は、三次元画像を記憶するように構成された少なくとも１つの記憶装置をさらに含むことができる。本装置は、また、三次元画像から隣接する二次元画像の複数のスタックを選択するように構成された画像プロセッサを含むことができる。本画像プロセッサは、さらに、ニューラルネットワークモデルを使用して隣接する二次元画像の各スタックをセグメント化するように構成することができる。本画像プロセッサは、また、複数のスタックからのセグメンテーション結果を集約することによって三次元画像のラベルマップを決定するように構成することができる。

［００９］
本開示のある実施形態は、コンピュータ実行可能命令を記憶する非一時的コンピュータ可読媒体に関する。本コンピュータ実行可能命令は、少なくとも１つのプロセッサによって実行されると、少なくとも１つのプロセッサに三次元画像をセグメント化するための方法を実行させることができる。本方法は、撮像装置によって取得された三次元画像を受け取ること、三次元画像から隣接する二次元画像の複数のスタックを選択することを含むことができる。本方法は、さらに、ニューラルネットワークモデルを使用して隣接する二次元画像の各スタックをセグメント化することを含むことができる。本方法は、また、複数のスタックからのセグメンテーション結果を集約することによって三次元画像のラベルマップを決定することを含むことができる。

［０１０］
本開示の目的および利点は、部分的に以下の詳細な説明に記載され、そして部分的にその説明から明らかになり、または本開示の実施によって理解されることができる。本開示の目的および利点は、添付の特許請求の範囲において特に指摘されているエレメントおよびその組み合わせによって実現され達成されるであろう。

［０１１］
前述した一般的な説明および以下の詳細な説明は例示的かつ説明的なものにすぎず、特許請求の範囲に記載の本発明を限定するものではないことを理解されたい。

［０１２］
本明細書の一部を構成する添付の図面は、いくつかの実施形態を例示し、その説明と共に、開示された原理を説明するのに役立つ。

［０１３］
図１は、典型的な前立腺癌患者からの例示的な三次元ＣＴ画像を示す図である。

［０１４］
図２は、本開示のいくつかの実施形態による、例示的な画像誘導放射線治療装置を示す図である。

［０１５］
図３は、本開示のいくつかの実施形態による、画像セグメンテーションのための例示的な畳み込みニューラルネットワーク（ＣＮＮ：convolutional neural network）モデルを示す図である。

［０１６］
図４は、本開示のいくつかの実施形態による、３Ｄ画像をセグメント化するための例示的な画像セグメント化システムを示す図である。

［０１７］
図５は、本開示のいくつかの実施形態による、３Ｄ画像をセグメント化するための例示的な画像処理装置を示す図である。

［０１８］
図６は、本開示のいくつかの実施形態による、ＣＮＮモデルをトレーニングするための例示的なトレーニング処理を示すフローチャートである。

［０１９］
図７Ａは、本開示のいくつかの実施形態による図６の処理により得られた１つのトレーニング済みＣＮＮモデルを使用した例示的な画像セグメンテーション処理を示すフローチャートである。

［０２０］
図７Ｂは、本開示のいくつかの実施形態による図６の処理により得られた少なくとも１つのトレーニングされたＣＮＮモデルを使用して別の例示的な画像セグメンテーション処理を示すフローチャートである。

［０２１］
図８Ａは、本開示のいくつかの実施形態による、三次元医用画像の第１の例示的な画像セグメンテーション処理を示す図である。

［０２２］
図８Ｂは、本開示のいくつかの実施形態による、三次元医用画像の第２の例示的な画像セグメンテーション処理を示す図である。

［０２３］
本開示によるシステム、方法、装置、およびプロセスは、機械学習アルゴリズムに基づく画像セグメンテーション方法を使用して３Ｄ画像をセグメント化することに関する。特別に、例示的な実施形態は、３Ｄ画像から得られた隣接する２Ｄ画像のスタックの依存構造情報を使用して、３Ｄ画像をセグメント化することの精度およびロバストネスを改善することを可能にする。

［０２４］
本明細書で使用されるとき、セグメント化されるかまたはトレーニングデータとして使用されることになる「３Ｄ医用画像」又は「３Ｄ画像」は、ＣＴ、磁気共鳴イメージング（ＭＲＩ）機能的ＭＲＩ（例えば、ｆＭＲＩ、ＤＣＥ−ＭＲＩ、および拡散ＭＲＩ）、コーンビームコンピュータ断層撮影（ＣＢＣＴ）、スパイラルＣＴ、陽電子放出断層撮影（ＰＥＴ）、単光子放出型コンピュータ断層撮影（ＳＰＥＣＴ）、Ｘ線、光断層撮影、蛍光イメージング、超音波イメージング、放射線治療ポータルイメージング、等のような、任意の種類の画像診断法によって取得された３Ｄ画像データセットを指す。さらに、本明細書では、「機械学習アルゴリズム」とは、既存の情報または知識に基づいてモデルまたはパターンを学習し、新しい情報または知識の入力を使用して出力を予測または推定することができる任意のアルゴリズムを指す。

［０２５］
教師あり学習は、一連のトレーニングデータを与えられた予測モデルを推論する機械学習の一分野である。トレーニングデータの各個々のサンプルは、データセット（例えば、画像）と所望の出力値またはデータセットとを含む対である。教師あり学習アルゴリズムは、トレーニングデータを分析し、予測関数を生成する。予測関数は、いったんトレーニングによって導出されると、有効な入力に対する正しい出力値またはデータセットを合理的に予測または推定することができる。予測関数は、様々な機械学習モデル、アルゴリズム、および／またはプロセスに基づいて定式化することができる。

［０２６］
畳み込みニューラルネットワーク（ＣＮＮ）は、教師あり学習によってトレーニングすることができる一種の機械学習アルゴリズムである。ＣＮＮモデルのアーキテクチャには、入力を出力に変換する個別の層のスタックが含まれている。異なる層の例は、１つまたは複数のコンボリューション層、非線形演算子層（整流線形単位（ＲｅＬｕ）関数、シグモイド関数、または双曲線正接関数など）、プーリングまたはサブサンプリング層、完全接続層、および／または最終損失層を含むことができる。各層は、１つの上流層と１つの下流層を接続してもよい。入力は入力層と見なすことができ、出力は最終出力層と考えることができる。

［０２７］
ＣＮＮモデルの性能および学習能力を高めるために、異なる層の数を選択的に増やすことができる。入力層から出力層までの中間の別個の層の数は非常に多くなる可能性があり、それによってＣＮＮモデルのアーキテクチャの複雑さが増す。多数の中間層を持つＣＮＮモデルは、深層ＣＮＮモデル（deep convolutional neural network model）と呼ばれる。例えば、いくつかの深層ＣＮＮモデルは２０から３０を超える層を含むことができ、他の深層ＣＮＮモデルは数百を超える層を含むことさえできる。深層ＣＮＮモデルの例には、ＡｌｅｘＮｅｔ、ＶＧＧＮｅｔ、ＧｏｏｇＬｅＮｅｔ、ＲｅｓＮｅｔなどがある。

［０２８］
本開示は、３Ｄ画像の解剖学的構造をセグメント化するために、ＣＮＮモデル、特に深層ＣＮＮモデルの強力な学習機能を利用する。開示された実施形態による３Ｄ画像のセグメンテーションは、トレーニングされたＣＮＮモデルを使用して実行されて、入力３Ｄ画像の各ボクセルを解剖学的構造でラベル付けする。特に、本開示の実施形態における画像セグメンテーションのためのＣＮＮモデルは、手動の特徴抽出を必要とせずに解剖学的構造の自動セグメンテーションを可能にする。

［０２９］
本明細書で使用されるとき、開示されたセグメンテーション方法によって使用されるＣＮＮモデルは、畳み込みニューラルネットワークのフレームワークに基づいて定式化、適合、または修正された任意のニューラルネットワークモデルを指す。例えば、本開示の実施形態においてセグメンテーションに使用されるＣＮＮモデルは、１つまたは複数のデコンボリューション層、アップサンプリング層またはアッププーリング層、ピクセル単位の予測層、および／またはコピーおよびクロップオペレータ層のような、入力層と出力層との間の中間層を選択的に含み得る。

［０３０］
開示された画像セグメンテーション方法、システム、デバイス、およびプロセスは、一般に、ボクセルごとに異なる解剖学的構造でラベル付けされた３Ｄ画像を含むトレーニングデータセットを使用してＣＮＮモデルを「トレーニング」または「学習」するトレーニングステージと、トレーニングされたＣＮＮモデルを使用して入力３Ｄ画像の各ボクセルの解剖学的構造を予測し、および／または入力３Ｄ画像の各ボクセルを解剖学的構造にラベル付けするステージという、２つのステージを含む。

［０３１］
本明細書で使用されるように、ＣＮＮモデルを「トレーニングする」とは、ＣＮＮモデル内の少なくとも１つの層の１つまたは複数のパラメータを決定することを指す。例えば、ＣＮＮモデルのコンボリューション層は、少なくとも１つのフィルタまたはカーネルを含み得る。少なくとも１つのフィルタのカーネル重み、サイズ、形状、および構造などの１つまたは複数のパラメータは、例えば、逆伝播ベースのトレーニング処理によって決定され得る。

［０３２］
開示された実施形態によれば、ＣＮＮモデルをトレーニングするために、トレーニング処理は少なくとも１組のトレーニング画像を使用する。トレーニング画像の各セットは、解剖学的構造を３Ｄ画像のボクセルの各々に関連付ける３Ｄ画像およびその対応する３Ｄグラウンドトルースラベルマップ（3D ground truth label map）を含み得る。限定されない実施例として、３Ｄ画像は、隣接する２Ｄ画像の順次スタックと、隣接する２Ｄ画像の順次スタックにそれぞれ対応する順次２Ｄグラウンドトルースラベルマップからなる３Ｄグラウンドトルースラベルマップに分割することができる。本明細書で使用されるように、トレーニング画像は既にセグメント化された画像であり、グラウンドトゥルースラベルマップはトレーニング画像の代表的な画像スライスの各ピクセルについて既知の解剖学的構造ラベルを提供する。言い換えれば、グラウンドトゥルースラベルマップのピクセルは、既知の解剖学的構造と関連している。隣接する２Ｄ画像のスタックが奇数個の画像を含む場合、グラウンドトルースラベルマップは、スタックの中央の画像の構造ラベルを提供する。あるいは、隣接する２Ｄ画像のスタックが偶数の画像を含む場合、グラウンドトルースラベルマップは、スタックの２つの中央画像のうちの一方の構造ラベルを提供する。

［０３３］
開示された実施形態によれば、隣接する２Ｄ画像のスタックは、軸平面、矢状面、または冠状面などの選択された解剖学的平面に沿った隣接する２Ｄ画像スライスである。したがって、隣接する２Ｄ画像内の解剖学的構造は、空間的に依存しているか、相関しているか、または解剖学的平面に直交する軸に沿って連続的である。特には、隣接する２Ｄ画像間のこのような依存構造情報は、開示された画像セグメンテーション方法によって使用され、３Ｄ医用画像のセグメンテーション結果の頑強さ（robustness）および精度を向上させる。

［０３４］
開示された実施形態によれば、異なる解剖学的平面に沿った隣接する２Ｄ画像のスタックは異なるＣＮＮモデルをトレーニングするために使用される。限定されない実施例として、軸平面、矢状面、および冠状面などの解剖学的平面に沿った隣接する２Ｄ画像のスタックのセットを含む３つの異なるセットのトレーニング画像が、それぞれ３つのＣＮＮモデルをトレーニングするために使用される。各トレーニングされたＣＮＮモデルは、対応する解剖学的平面に沿って３Ｄ画像から得られた隣接する２Ｄ画像のスタックを使用して３Ｄ画像をセグメント化するために使用することができる。あるいは、３つの異なる解剖学的平面に沿った隣接する２Ｄ画像のスタックは、１つのＣＮＮモデルをトレーニングするために組み合わされる。トレーニングされたＣＮＮモデルは、３つの解剖学的平面のいずれかに沿って３Ｄ画像から得られた隣接する２Ｄ画像のスタックを使用して３Ｄ画像をセグメント化するために使用され得る。

［０３５］
開示された実施形態によれば、少なくとも１つのトレーニングされたＣＮＮモデルが３Ｄ画像をセグメント化するために使用される。限定されない実施例として、３Ｄ画像は、複数の隣接する２Ｄ画像の形態にセグメンテーションされてもよい、複数の隣接する２Ｄ画像に形態で提供されてもよい。例えば、解剖学的平面に沿った一連の隣接する２Ｄ画像のスタックは、セグメント化されるべき３Ｄ画像から取得され得る。隣接する２Ｄ画像の一連のスタックは連続していて、スタックの中間画像が一緒になって実質的に全体の３Ｄ画像を構成するように１つ以上の重なり合う画像を有していてもよい。シリーズの各スタックはトレーニングされたＣＮＮモデルに入力されて、スタックの中央の画像の２Ｄ出力ラベルマップを決定する。２Ｄ隣接画像のスタックの中間画像の２Ｄラベルマップに基づいて、３Ｄラベルマップを決定することができる。限定されない実施例として、３Ｄラベルマップは、隣接する２Ｄ画像のスタックの解剖学的平面に直交する軸に沿って中間画像のシーケンスに従って中間画像の２Ｄラベルマップを集約することによって得られてもよい。

［０３６］
上述のように、軸平面、矢状面、および冠状面などの解剖学的平面に沿った一連の隣接する２Ｄ画像のスタックは、３Ｄ画像から取得することができる。そのような場合、３つの３Ｄラベルマップは、それぞれ３つの解剖学的平面の隣接する２Ｄ画像の３つの一連のスタックに基づいて決定されることができる。限定されない実施例として、３つの異なる解剖学的平面の隣接する２Ｄ画像の３つの一連のスタックをそれぞれ使用して３つの異なるトレーニングされたＣＮＮモデルによって３つの３Ｄラベルマップを決定することができる。別の限定されない実施例として、３つの異なる解剖学的平面の隣接する２Ｄ画像の３つの一連のスタックをそれぞれ使用して、１つのトレーニングされたＣＮＮモデルによって３つの３Ｄラベルマップを決定することができる。３つの決定された３Ｄラベルマップは、３Ｄ画像の最終的な３Ｄラベルマップを決定するために融合することができる。

［０３７］
開示された実施形態によれば、決定された３Ｄラベルマップは解剖学的構造を３Ｄ画像の各ボクセルに関連付ける。限定されない実施例として、３Ｄラベルマップは、３Ｄ画像の各ボクセルが表す解剖学的構造を予測する。

［０３８］
開示された画像セグメンテーションシステム、方法、装置、およびプロセスは、任意の種類の画像診断様式から得られる３Ｄ画像のセグメンテーションに適用できる。任意の種類の画像診断様式は、Ｘ線、ＣＴ、ＣＢＣＴ、スパイラルＣＴ、ＭＲＩ、機能的ＭＲＩ（例えば、ｆＭＲＩ、ＤＣＥ−ＭＲＩおよび拡散ＭＲＩ）、ＰＥＴ、ＳＰＥＣＴ、光断層撮影、蛍光イメージング、超音波イメージング、放射線治療ポータルイメージング、等を含むが、これらに限定されない。さらに、開示された画像セグメンテーションシステム、方法、装置、およびプロセスは、２Ｄ画像と３Ｄ画像の両方をセグメント化するために使用することができる。

［０３９］
いくつかの実施形態による、開示された画像セグメンテーションシステムは、図２を参照して説明されるような放射線治療装置の一部であり得る。図２は、本開示のいくつかの実施形態による、例示的な画像誘導型放射線治療装置１５０を示す図である。装置１５０は、治療台２１０と、画像取得装置１４０に対応する画像取得部と、放射線治療装置１３０に対応する放射線送達部とを含む。

［０４０］
治療台２１０は、治療セッション中に患者（図示せず）を支持するために使用することができ、また患者支持システムと呼ぶこともできる。治療台２１０は、治療台２１０の上に横たわっている患者が装置１５０の内外に移動できるように、水平の並進軸（「Ｉ」）に沿って移動可能であってもよい。いくつかの実施形態では、治療台２１０は、並進軸を横切る中心垂直回転軸を中心に回転可能である。治療台２１０は、治療計画に従って患者を適切に位置決めするために様々な方向に移動し、様々な軸に沿って回転するように電動化されてもよい。

［０４１］
画像取得装置１４０は、治療セッションの前、最中、および／または後に患者の２Ｄまたは３ＤのＭＲＩ画像を取得するために使用されるＭＲＩ装置を含むことができる。画像取得装置１４０は、磁気共鳴イメージング用の一次磁場を発生させるための磁石１４６を含むことができる。磁石１４６の動作によって発生した磁力線は、中心並進軸Ｉと実質的に平行に延びる。磁石１４６は、並進軸Ｉと平行に延びる軸を有する１つ以上のコイルを含むことができる。いくつかの実施形態では、磁石１４６内の１つまたは複数のコイルは、磁石１４６の中央窓１４７がコイルを含まないように離間されてもよい。他の実施形態では、磁石１４６内のコイルは、それらが放射線治療装置１３０によって生成された波長の放射線に対して実質的に透明であるように十分に薄いか、または密度が低くてもよい。画像取得装置１４０は、磁石１４６の外側の磁界を打ち消すためにほぼ等しい大きさで反対の極性の磁石１４６の外側の磁界を発生させることができる１つまたは複数の能動遮蔽コイルも含むことができる。放射線治療装置１３０の放射線源１３４は、磁場が相殺される領域に、少なくとも一次的に配置することができる。

［０４２］
画像取得装置１４０は、また、２つの傾斜磁場コイル１４８、１４９を含むことができ、これらは１次磁場に重ね合わされる傾斜磁場を発生させる。傾斜磁場コイル１４８、１４９は、プロトンの位置を決定することができるようにプロトンの空間的符号化を可能にする合成磁場内に勾配を生成する。傾斜磁場コイル１４８、１４９は、磁石１４６と共通の中心軸の周りに配置され、その中心軸に沿って他の中心軸から変位されてもよい。その変位は、傾斜磁場コイル１４８、１４９との間にギャップまたは窓を作り出す。磁石１４６が傾斜磁場コイル間の中央窓１４７を含む実施形態では、２つの窓は互いに整列していてもよい。

［０４３］
画像取得装置１４０は、Ｘ線、ＣＴ、ＣＢＣＴ、スパイラルＣＴ、ＰＥＴ、ＳＰＥＣＴ、光断層撮影、蛍光撮像、超音波撮像、および放射線治療ポータル撮像装置などのようなＭＲＩ以外の撮像装置であってもよいとされている。

［０４４］
放射線治療装置１３０は、Ｘ線源または線形加速器のような放射線源１３４と、マルチリーフコリメータ（ＭＬＣ）１３２とを含むことができる。放射線治療装置１３０はシャーシ１３８上に取り付けることができる。シャーシ１３８は、治療領域に挿入されたときに治療台２１０の周りを連続的に回転可能であり、１つまたは複数のシャーシモータによって駆動される。放射線検出器もシャーシ１３８に取り付けられ、必要に応じて好ましくは放射線源１３４の反対側に取り付けられ、シャーシ１３８の回転軸が放射線源１３４と検出器との間に配置される。放射線治療装置１３０の制御回路は、装置１５０内に統合されてもよく、または装置１５０外に設けられてもよい。

［０４５］
放射線療法治療セッションの間、患者は治療台２１０上に配置され、それは磁気コイル１４６、１４８、１４９とシャーシ１３８によって画定された治療領域内に挿入される。制御コンソール１１０は、放射線源１３４、ＭＬＣ１３２、シャーシモータを制御して、傾斜磁場コイル１４８、１４９の間の窓を通して放射線を患者に送達することができる。

［３Ｄ画像セグメンテーションのためのＣＮＮモデル］
［０４６］
図３は、本開示のいくつかの実施形態による、画像セグメンテーションのための例示的なＣＮＮモデルを示す図である。図３に示すように、画像セグメンテーション用のＣＮＮモデルは、入力として隣接する２Ｄ画像のスタックを受け取り、そのスタックの中央にある画像のうちの１つの予測２Ｄラベルマップを出力することができる。上述のように、隣接する２Ｄ画像のスタックが奇数個の画像を含む場合、２Ｄラベルマップはスタックの中間画像の構造ラベルを提供する。あるいは、隣接する２Ｄ画像のスタックが偶数の画像を含む場合、２Ｄラベルマップはスタックの２つの中間画像のうちの一方の構造ラベルを提供する。

［０４７］
図３に示すように、ＣＮＮモデル１０は、一般に、２つの部分、すなわち第１の特徴抽出部２０と第２のピクセル単位ラベリング部３０とを含むことができる。特徴抽出部２０は、隣接する２Ｄ画像２２の入力スタックの１つまたは複数の特徴を抽出することができる。特徴抽出部は、畳み込みニューラルネットワーク２４を使用して、隣接する２Ｄ画像２２の入力スタックを受け取り、その入力スタックの特徴を表す少なくとも１つの特徴ベクトルまたは行列を出力する。ピクセル単位ラベリング部３０は、特徴抽出部２０の出力を用いて、隣接する２Ｄ画像２２の入力スタックの中間画像２６の２Ｄラベルマップ３２を予測する。ピクセル単位ラベリング部分３０は、以下でさらに詳細に説明されるように、パッチベースのアプローチおよび完全マッピングアプローチのような任意の適切なアプローチを使用して実行することができる。

［０４８］
特には、トレーニングのためおよびＣＮＮモデル１０の入力として両方の依存構造情報を含む隣接する２Ｄ画像のスタックの使用は、ＣＮＮモデル１０による出力２Ｄラベルマップ３２の予測の精度を向上させる。これにより、３Ｄ画像の各画像スライスについて予測された２Ｄラベルマップから構築された３Ｄ画像の予測３Ｄラベルマップの精度がさらに向上する。

［０４９］
本明細書で使用されるとき、依存構造情報は、２Ｄ画像の解剖学的平面に直交する軸に沿って隣接する２Ｄ画像のスタックに示される解剖学的構造の間の空間的に依存する関係を指す。限定されない実施例として、スタックの第１の画像内の第１のセットのピクセルによって表される解剖学的構造の形状および種類はまた、第１の画像に隣接する第２の画像内の第２のセットのピクセルによって表されてもよい。これは、解剖学的平面に直交する軸に沿った第１および第２の画像の空間的な隣接がこれらの画像に示される解剖学的構造のある程度の依存性または連続性を可能にするためである。したがって、１つの画像内の解剖学的構造の形状、サイズ、および／またはタイプは、同じ平面に沿って別の隣接する画像内の解剖学的構造の形状、サイズ、および／またはタイプの情報を提供することができる。

［０５０］
別の限定されない実施例として、隣接する２Ｄ画像のスタックが３つの連続画像、例えば順に積み重ねられた第１、第２、および第３の画像スライスを含むとき、解剖学的構造は、スタックの第１の画像スライス内の第１のセットのピクセルとスタックの第３の画像スライス内の第３のセットのピクセルとの両方の中に示されるが、第１の画像スライスと第３の画像スライスの間であって隣接する第２の画像スライスの対応する第２のセットのピクセル（例えば、第１および／または第３のセットのピクセルと同様の空間位置を有するピクセル）の中に示されない。そのような場合、第２の画像スライス内の対応するピクセルは誤ってラベル付けされることがある。３つの隣接する２Ｄ画像スライスのスタックにおける解剖学的構造のそのような不連続性は、ＣＮＮモデル１０をトレーニングするための依存構造情報として使用することができる。

［０５１］
別の限定されない実施例として、３つの隣接する２Ｄ画像、例えば、順番に積み重ねられた第１、第２、第３の画像スライスのスタックにおいて、スタックの第１の画像スライス内の第１のセットのピクセルと第３の画像スライスの第３のセットのピクセルの両方はバックグラウンドを示すが、第１の画像スライスと第３の画像スライスの間であって隣接する第２の画像スライスの対応する第２のセットのピクセルは解剖学的構造を示すことができる。第２の画像スライス内の対応するピクセルは、偽陽性信号を生成するノイズを受ける可能性がある。３つの隣接する２Ｄ画像スライスのスタックにおけるバックグラウンドのこのような不連続性は、またＣＮＮモデル１０をトレーニングするための依存構造情報として使用されてもよい。

［０５２］
異なるタイプの依存構造情報を、スタック内の隣接画像の数、セグメント化される解剖学的構造のタイプ、形状、サイズ、位置、および／または数、および／または、画像を取得するために使用されるイメージングモダリティのような、さまざまな要因に基づいて選択的に使用することができる。上述のように、３Ｄ画像から得られる隣接する２Ｄ画像のスタックのこのような依存構造情報を使用することにより、３Ｄ画像をセグメント化すること、または３Ｄラベルマップを生成することの精度が向上する。

［０５３］
本開示の実施形態において使用されるＣＮＮモデル１０の様々な構成要素および特徴について、以下、詳細に説明する。

（特徴抽出のための畳み込みニューラルネットワーク）
［０５４］
いくつかの実施形態では、ＣＮＮモデル１０の畳み込みニューラルネットワーク２４は入力層、例えば隣接する２Ｄ画像２２のスタックを含む。隣接する２Ｄ画像のスタックが入力として使用されるので、入力層はボリュームを有し、その空間的寸法は２Ｄ画像の幅および高さによって決定され、その深さはスタック内の画像の数によって決定される。本明細書に記載されるように、ＣＮＮモデル１０の入力層の深さは、望ましくは、隣接する２Ｄ画像２２の入力スタック内の画像の数と一致するように調整される。

［０５５］
いくつかの実施形態では、ＣＮＮモデル１０の畳み込みニューラルネットワーク２４は、１つまたは複数のコンボリューション層２８を含む。各コンボリューション層２８は、上側入力層（例えば、コンボリューション層２８の入力のサイズ）によって決定される幅（「Ｗ」）および高さ（「Ｈ」）、層内のフィルタまたはカーネルの数（「Ｎ」）とそれらのサイズのような、複数のパラメータを有することができる。フィルタの数は、コンボリューション層の深さと呼ばれることがある。したがって、各コンボリューション層２８は、図３に示すように３Ｄボリュームの面で説明することができる。各コンボリューション層２８の入力は、その幅と高さにわたって１つのフィルタと畳み込まれ、そのフィルタに対応する２Ｄ活性化マップまたは特徴マップを生成する。畳み込みは、各コンボリューション層のすべてのフィルタに対して実行され、結果として得られる活性化マップまたは特徴マップは深度次元に沿って積み重ねられ、３Ｄ出力を生成する。先行するコンボリューション層の出力は、次のコンボリューション層への入力として使用できる。

［０５６］
いくつかの実施形態では、ＣＮＮモデル１０の畳み込みニューラルネットワーク２４は、１つまたは複数のプーリング層（図示せず）を含む。ＣＮＮモデル１０内の２つの連続したコンボリューション層２８の間にプーリング層を追加することができる。プーリング層は、入力のあらゆる深さスライス（例えば、先行するコンボリューション層からの活性化マップまたは特徴マップ）に対して独立して動作し、ある形式の非線形ダウンサンプリングを実行することによってその空間的次元を縮小する。図３に示すように、プーリング層の機能は、抽出された活性化マップまたは特徴マップの空間次元を漸進的に減少させて、ネットワーク内のパラメータおよび計算の量を減少させ、したがって過適合も制御することである。プーリング層の数および配置は、畳み込みネットワークアーキテクチャの設計、入力のサイズ、コンボリューション層２８のサイズおよび／またはＣＮＮモデル１０の適用などの様々な要因に基づいて決定することができる。

［０５７］
プーリング層を実装するために様々な非線形関数を使用することができる。例えば、最大のプーリングが使用されてもよい。最大プーリングは、入力の画像スライスを、所定のストライドを有する一組の重複または非重複サブ領域に分割することができる。各サブ領域に対して、最大プーリングは最大値を出力する。これは、幅と高さの両方に沿って入力の各スライスをダウンサンプリングしながら、奥行きの寸法は変更しないままにする。平均プーリング、またはＬ２ノルムプーリングのような他の適切な機能がプーリング層を実施するために使用されてもよい。

［０５８］
様々な実施形態において、ＣＮＮモデル１０は、その畳み込みニューラルネットワーク２４内に１つまたは複数の追加の層を選択的に含むことができる。限定されない実施例として、ＲｅＬｕ層（図示せず）をコンボリューション層の後に選択的に追加して中間活性化マップまたは特徴マップを生成することができる。ＲｅＬｕ層は、コンボリューション層２８のそれぞれの大きさに影響を与えることなく、予測関数及びＣＮＮモデル１０の全体の非線形特性を増加させることができる。さらに、ＲｅＬｕ層は、バックプロパゲーショントレーニング処理中の飽和を低減または回避することができる。

［０５９］
別の限定されない実施例として、コンボリューション層および／またはプーリング層の後に、１つまたは複数の完全に接続された層２９を追加することができる。完全に接続された層は、前の層のすべてのアクティベーションマップまたは機能マップと完全に接続されている。例えば、完全に接続された層は、最後のコンボリューション層または最後のプーリング層の出力をベクトル形式の入力として取り、高レベルの決定を実行し、深さ次元に沿って配置された特徴ベクトルを出力することができる。出力ベクトルは、出力層と呼ばれることがある。ベクトルは、ＣＮＮモデル１０の画像２２の入力スタック内の解剖学的構造の情報を含むことができる。

［０６０］
更なる限定されない実施例として、損失層（図示せず）をＣＮＮモデル１０に含めることができる。損失層は、畳み込みニューラルネットワーク２４またはＣＮＮモデル１０の最後の層であり得る。ＣＮＮモデル１０のトレーニング中に、損失層は、ネットワークトレーニングが予測された２Ｄラベルマップと２Ｄグラウンドトゥルースラベルマップとの間の偏差をどのように不利にするかを決定することができる。損失層は、様々な適切な損失関数によって実施することができる。例えば、ソフトマックス関数をＣＮＮモデル１０の最終損失層として使用することができる。

（ピクセル単位のラベリングアプローチ）
［０６１］
上述のように、ＣＮＮモデル１０の第２の部分では、畳み込みニューラルネットワーク２４によって抽出された１つまたは複数の特徴を入力として使用してピクセル単位のラベリングが行われ、予測２Ｄラベルマップ３２が生成される。２Ｄラベルマップは、隣接する２Ｄ画像のスタックの中間画像の構造ラベル提供することができる。

［０６２］
いくつかの実施形態では、パッチベースのアプローチが、隣接する２Ｄ画像２２の入力スタックの中間画像２６の２Ｄラベルマップ３２を予測するために使用される。隣接する２Ｄ画像のスタック内の各画像は、それぞれが中心ピクセルを有する、重なり合ったまたは重ならない長方形パッチに同じように分割される。これにより、隣接する２Ｄ画像パッチのスタックが生成される。２Ｄ画像パッチのスタックは、トレーニングデータとＣＮＮモデル１０の入力の両方として使用することができる。パッチは、パッチの中心ピクセルが一緒になって実質的に全体の２Ｄ画像を構成するように設計することができる。ＣＮＮモデル１０は、例えば中央ピクセルによって表される解剖学的構造を予測するなど、パッチの各スタックの中央パッチの中央ピクセルを分類することができる。例えば、ＣＮＮモデル１０は、スタック内の中央パッチの中心ピクセルの特徴ベクトルを予測することができ、それによって中心ピクセルの解剖学的構造を分類することを可能にする。このような分類は、隣接する２Ｄ画像パッチの全てのスタックの中央パッチの全ての中心ピクセルが分類又はラベル付けされるまで繰り返し実行され、それにより隣接する２Ｄ画像のスタックの中央画像のセグメンテーションが達成される。

［０６３］
上述したパッチベースのアプローチでは、隣接する２Ｄ画像２２の入力スタックの中央画像２６のピクセル単位のラベリングは、中央画像２６全体を構成する全ての中央ピクセルが分類されるときに実行される。

［０６４］
他の実施形態では、隣接する２Ｄ画像２２の入力スタックの中間画像２６の２Ｄラベルマップ３２を予測するためにフルマップアプローチが使用される。そのような場合、中間画像２６の２Ｄラベルマップ３２は、隣接する２Ｄ画像２２の入力スタックに基づいてＣＮＮモデル１０の出力として生成される。ＣＮＮモデル１０内の畳み込みニューラルネットワーク２４は、活性化マップまたは特徴マップを出力として抽出するために使用され、これは、２Ｄラベルマップを予測するために１つまたは複数の演算層を含むピクセル単位のラベリング構造によって受信される。そのような場合、畳み込みニューラルネットワーク２４の最終層は、活性化マップまたは特徴マップを出力するコンボリューション層であり得る。

［０６５］
限定されない実施例として、ピクセル単位予測層（図示せず）をＣＮＮモデル１０に追加して、ピクセル単位のラベリングを実行することができる。ピクセル単位予測層は、畳み込みニューラルネットワーク２４の粗い出力特徴マップ（例えば、特徴ベクトル）を、隣接する２Ｄ画像２２の入力スタックの中間画像２６の（例えば、各ピクセルのより多くの情報を提供する）高密度の予測ピクセル単位２Ｄラベルマップ３２に変換する。逆方向アップサンプリングまたはアンプーリング（例えば、双一次または非線形補間）、および逆方向畳み込み（デコンボリューション）などの様々な機能を使用して、ピクセル単位の予測層を実装することができる。

［０６６］
他の限定されない実施例として、デコンボリューションネットワーク３４がＣＮＮモデル１０に追加されて、ピクセル単位のラベリングが行われる。図３に示すように、デコンボリューションネットワーク３４は、ＣＮＮモデル１０の畳み込みニューラルネットワーク２４のミラーバージョンであり得る。抽出された活性化マップまたは特徴マップの空間寸法を漸進的に減少させる畳み込みニューラルネットワーク２４とは反対に、デコンボリューションネットワーク３４は、デコンボリューション層３６および／またはアンプーリング層（図示せず）の選択を用いることによって中間活性化マップまたは特徴マップを拡大する。アンプーリング層（例えば、アップサンプリング層）は、特徴マップのピクセルをそれらの前または元のプールの位置に戻し、それによって拡大されたが希薄な活性化マップまたは特徴マップを生成するのに用いることができる。デコンボリューション層を使用して、入力活性化マップまたは特徴マップの単一のピクセルを複数の出力ピクセルに関連付け、それによって活性化マップまたは特徴マップの密度を拡大および増大させることができる。したがって、デコンボリューションネットワーク３４は、２Ｄラベルマップを予測するために畳み込みニューラルネットワーク２４と共にトレーニングされて使用される。

［０６７］
当業者には理解されるように、ピクセル単位のラベリングを実行するための他の適切な方法は、本開示の実施形態において適合され、修正され、および／または使用されることができる。

［０６８］
本開示の実施形態による、上述のＣＮＮモデルに基づく画像セグメンテーション方法、システム、デバイス、および／またはプロセスは、２つの段階、すなわち、各ボクセルの異なる解剖学的構造でラベル付けされた３Ｄ画像を含むトレーニングデータセットを使用してＣＮＮモデルを「トレーニング」または「学習」するトレーニング段階と、トレーニングされたＣＮＮモデルを使用して入力３Ｄ画像の各ボクセルの解剖学的構造を予測するおよび／または入力３Ｄ医用画像の各ボクセルにラベル付けするセグメンテーション段階とを含む。上述のＣＮＮモデルに基づく画像セグメンテーション方法、システム、装置、および／またはプロセスは、以下詳細に説明される。

［ＣＮＮモデルに基づく画像セグメンテーションシステム］
［０６９］
図４は、本開示のいくつかの実施形態による、少なくとも１つのＣＮＮモデルに基づいて３Ｄ画像をセグメント化するための例示的な画像セグメント化システム１００を示す図である。図４に示すように、画像セグメンテーションシステム１００は、２つの段階、トレーニング段階およびセグメンテーション段階を実行するための構成要素を含むことができる。トレーニング段階を実行するために、画像セグメンテーションシステム１００は、トレーニング画像データベース１０１およびＣＮＮモデルトレーニングユニット１０２を含むことができる。セグメンテーション段階を実行するために、画像セグメンテーションシステム１００は、ＣＮＮモデルベースの画像セグメンテーションユニット１０３および医用画像データベース１０４を含むことができる。いくつかの実施形態では、画像セグメンテーションシステム１００は、図４に示される構成要素のうちのより多くのまたはより少ない構成要素を含むことができる。例えば、画像セグメンテーションのためのＣＮＮモデルが予めトレーニングされ提供されている場合、画像セグメンテーションシステム１００はセグメンテーションユニット１０３および医用画像データベース１０４を含むだけでもよい。画像セグメンテーションシステム１００は任意選択でネットワーク１０５を含むことができる。いくつかの実施形態では、ネットワーク１０５は有線データ通信システムまたは装置によって置き換えられることができる。

［０７０］
いくつかの実施形態では、画像セグメンテーションシステム１００の様々な構成要素は、互いに離れてまたは異なる空間に配置されてもよく、図４に示されるようにネットワーク１０５を介して接続されてもよい。いくつかの代替可能な実施形態では、画像セグメンテーションシステム１００の特定の構成要素は、同じ場所に配置してもよいし、１つの装置の内部に配置してもよい。例えば、トレーニング画像データベース１０１は、ＣＮＮモデルトレーニングユニット１０２の場所に配置されてもよく、またはＣＮＮモデルトレーニングユニット１０２の一部であってもよい。他の例として、ＣＮＮモデルトレーニングユニット１０２およびセグメンテーションユニット１０３は同じコンピュータまたは処理装置の内部にあってもよい。

［０７１］
図４に示すように、ＣＮＮモデルトレーニングユニット１０２は、トレーニング画像データベース１０１と通信して、トレーニング画像の１つまたは複数の組を受け取ることができる。トレーニング画像データベース１０１に格納されたトレーニング画像のセットは、医療画像データベース、例えば、放射線治療セッション中に以前に取得された医療画像を含む医療画像データベースから取得されてもよい。トレーニング画像の各セットは、解剖学的構造を３Ｄ画像のボクセルの各々に関連付ける３Ｄ画像およびその対応する３Ｄグラウンドトゥルースラベルマップを含むことができる。３Ｄ画像は、隣接する２Ｄ画像の１つまたは複数の順次スタックに選択的に分割されてもよい。３Ｄグラウンドトルースラベルマップは、隣接する２Ｄ画像の順次スタックにそれぞれ対応する順次２Ｄグラウンドトルースラベルマップに分割することができ、２Ｄグラウンドトルースラベルマップのピクセルは、既知の解剖学的構造と関連付けられる。各スタック内の隣接する２Ｄ画像の数は、３Ｄ画像のサイズ、ＣＮＮモデルの特定の枠組み、２Ｄ画像に垂直な軸に沿った隣接する２Ｄ画像内の解剖学的構造間の関係、および／またはセグメントのアプリケーションのような、さまざまな要因に基づいて決定される。

［０７２］
いくつかの実施形態では、隣接する２Ｄ画像のスタックは、３、５、７、または任意の適切な奇数のような、奇数の画像を含む。そのような場合、グラウンドトゥルースラベルマップは、スタックの中央画像の各ピクセルに対して既知の解剖学的構造ラベルを提供する。他の実施形態では、隣接する２Ｄ画像のスタックは、２、４、６、または任意の適切な偶数のような、偶数の画像を含む。そのような場合、グラウンドトゥルースラベルマップは、スタックの２つの中央画像のうちの１つの各ピクセルについて既知の解剖学的構造ラベルを提供する。

［０７３］
開示された実施形態によれば、トレーニング画像は、ＭＲＩ、機能的ＭＲＩ（例えば、ｆＭＲＩ、ＤＣＥ−ＭＲＩ、拡散ＭＲＩ）、ＣＴ、ＣＢＣＴ、スパイラルＣＴ、ＰＥＴ、ＳＰＥＣＴ、Ｘ線、光トモグラフィ、蛍光イメージング、超音波イメージング、放射線治療ポータルイメージングなどを含む様々な画像診断様式を用いて取得されることができる。いくつかの実施形態では、トレーニングデータは、腫瘍学情報システムから収集することができる。例えば、トレーニング画像は、画像取得装置１４０によって取得されてもよい。

［０７４］
ＣＮＮモデルトレーニングユニット１０２は、トレーニング画像データベース１０１から受信したトレーニング画像を使用して、新しい３Ｄ画像の画像セグメンテーションを実行するためにＣＮＮモデルをトレーニングすることができる。ＣＮＮモデルトレーニングユニット１０２は、プロセッサおよび非一時的コンピュータ可読媒体（図５で詳細に説明される）を含むことができる。プロセッサは、コンピュータ可読媒体に格納されているトレーニング処理の命令を実行することによってトレーニングを実施することができる。ＣＮＮモデルトレーニングユニット１０２は、入力および出力インターフェース（図５で詳細に説明される）をさらに含み、トレーニング画像データベース１０１、ネットワーク１０５、および／またはユーザインターフェース（図示せず）と通信することができる。ユーザインターフェースは、トレーニング画像のセットを選択すること、トレーニング処理の１つまたは複数のパラメータ（例えば、各スタック内の隣接画像スライスの数）を調整すること、ＣＮＮモデルのフレームワークを選択または修正すること、および／またはトレーニングのために画像を手動または半自動でセグメント化することに使用される。トレーニング処理の例は、図６を参照して詳細に説明される。

［０７５］
いくつかの実施形態によれば、ＣＮＮモデルトレーニングユニット１０２は、トレーニング処理（例えば、図６に開示されるような）を実行するソフトウェアによって特別にプログラムされたハードウェア（例えば、図５に開示されるような）により実施されてもよい。

［０７６］
セグメンテーションユニット１０３は、ＣＮＮモデルトレーニングユニット１０２から少なくとも１つのトレーニングされたＣＮＮモデルを受け取ることができる。セグメンテーションユニット１０３は、プロセッサおよび非一時的コンピュータ可読媒体（図５で詳細に説明される）を含み得る。プロセッサは、媒体に格納されている画像セグメンテーション処理の命令を実行することによって３Ｄ画像のセグメンテーションを実行することができる。セグメンテーションユニット１０３はさらに、入力および出力インターフェース（図５で詳細に説明される）を含み、医用画像データベース１０４、ネットワーク１０５、および／またはユーザインターフェース（図示せず）と通信することができる。ユーザインターフェースは、セグメント化される３Ｄ画像を選択すること、セグメンテーション処理を開始すること、セグメント化された３Ｄ画像または３Ｄラベルマップを表示すること、および／またはセグメント化された画像または３Ｄラベルマップに基づいてさらなる分析を実行することのために使用することができる。画像セグメンテーション処理の例については、図７Ａ〜図８Ｂを参照して詳細に説明する。

［０７７］
いくつかの実施形態によれば、セグメンテーションユニット１０３は、画像セグメンテーション処理（例えば、図７Ａ、７Ｂに開示されるような）を実行するソフトウェアによって特別にプログラムされたハードウェア（例えば、図５に開示されるような）により実施されてもよい。

［０７８］
セグメンテーションユニット１０３は、医用画像データベース１０４と通信して、１つまたは複数の３Ｄ画像を受け取ることができる。医用画像データベース１０４に格納された３Ｄ画像は、例えば、放射線療法治療セッションの２Ｄおよび／または３Ｄ画像を含む医用画像データベースから取得することができる。本明細書で説明されるように、３Ｄ画像は、画像取得装置１４０のような医用撮像装置によって取得された２Ｄ投影画像から再構成することができる。これらの３Ｄ画像は通常、まだセグメント化されていない。

［０７９］
セグメンテーションユニット１０３は、ＣＮＮモデルトレーニングユニット１０２から受信した少なくとも１つのトレーニングされたＣＮＮモデルを使用して、３Ｄ画像の各ボクセルが表す解剖学的構造を予測することができる。画像セグメンテーションが完了すると、セグメンテーションユニット１０３は、３Ｄ画像の各ボクセルを解剖学的構造に関連付ける３Ｄラベルマップを出力することができる。３Ｄラベルマップは、ユーザインターフェースに表示されてもよく、および／または治療計画におけるさらなる使用のために医用画像データベース１０４に格納されてもよい。いくつかの実施形態では、セグメント化された画像はトレーニング画像データベース１０１に自動的に格納されてトレーニング画像となることができる。

［０８０］
開示された実施形態によれば、セグメント化されるべき３Ｄ画像は、ＭＲＩ、機能的ＭＲＩ（例えば、ｆＭＲＩ、ＤＣＥ−ＭＲＩ、拡散ＭＲＩ）、ＣＴ、ＣＢＣＴ、スパイラルＣＴ、ＰＥＴ、ＳＰＥＣＴ、Ｘ線、光トモグラフィ、蛍光イメージング、超音波イメージング、および放射線療法ポータルイメージングなどのような、様々な画像診断様式を用いて取得することができる。いくつかの実施形態では、医用画像データベース１０４は、セグメンテーションユニット１０３の統合された部分であるか、または、放射線療法治療室のようなセグメンテーションユニット１０３と同じ場所に配置され得る。

［０８１］
ネットワーク１０５は、画像セグメンテーションシステム１００内の上述の構成要素のうちのいずれかの間の接続を提供することができる。例えば、ネットワーク１０５は、ローカルエリアネットワーク（ＬＡＮ）、無線ネットワーク、クラウドコンピューティング環境（例えば、サービスとしてのソフトウェア、サービスとしてのプラットフォーム、サービスとしてのインフラストラクチャ）、クライアントサーバ、広域ネットワーク（ＷＡＮ）などであり得る。

［ＣＮＮモデルベース画像処理装置］
［０８２］
図５は、本開示のいくつかの実施形態による、例示的な画像処理装置２００を示す図である。画像処理装置２００は、ＣＮＮモデルトレーニングユニット１０２、セグメンテーションユニット１０３、またはその２つの組み合わせの実施形態であり得る当業者には理解されるように、いくつかの実施形態では、画像処理装置２００は特殊用途のコンピュータまたは汎用のコンピュータであり得る。例えば、画像処理装置２００は、画像取得および画像処理タスクを実行するために病院用の特注のコンピュータとすることができる。

［０８３］
図３に示すように、画像処理装置２００は、画像処理部２２１、メモリ２２２、医用画像データベース２２５、画像データ記憶装置２２６、入出力インターフェース２２７、ネットワークインターフェース２２８、および画像ディスプレイ２２９を含む。

［０８４］
画像プロセッサ２２１は、マイクロプロセッサ、中央処理装置（ＣＰＵ）、グラフィック処理装置（ＧＰＵ）のような１つまたは複数の汎用処理装置とすることができる。画像プロセッサ２２１は、特定用途向け集積回路（ＡＳＩＣ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、デジタル信号プロセッサ（ＤＳＰ）、システムオンチップ（ＳｏＣ）などのような１つまたは複数の専用処理装置とすることもできる。

［０８５］
画像プロセッサ２２１は、メモリ２２２に通信可能に接続され、その上に格納されているコンピュータ実行可能命令を実行するように構成されてもよい。メモリ２２２は、読み出し専用メモリ（ＲＯＭ）、ランダムアクセスメモリ（ＲＡＭ）、相変化ランダムアクセスメモリ（ＰＲＡＭ）、スタティックランダムアクセスメモリ（ＳＲＡＭ）、ダイナミックランダムアクセスメモリ（ＤＲＡＭ）、電気的消去可能プログラマブル読出し専用メモリ（ＥＥＰＲＯＭ）、他の種類のランダムアクセスメモリ（ＲＡＭ）、フラッシュディスクまたは他の形態のフラッシュメモリ、キャッシュ、レジスタ、静的メモリ、コンパクトディスク読み取り専用メモリ（ＣＤ−ＲＯＭ）、デジタル多用途ディスク（ＤＶＤ）または他の光学的記憶デバイス、カセットテープまたは他の磁気記憶デバイス、または、コンピュータ装置などによってアクセスされることができる情報または命令を格納するために使用される他の任意の非一時的媒体のような、非一時的コンピュータ可読媒体であり得る。

［０８６］
いくつかの実施形態では、メモリ２２２は、１つまたは複数の画像処理プログラム２２３のようなコンピュータ実行可能命令、ならびに医用画像データ２２４のようなコンピュータプログラムの実行中に使用または生成されるデータを格納することができる。画像プロセッサ２２１は、画像処理プログラム２２３を実行して、ＣＮＮモデルトレーニングユニット１０２および／またはセグメンテーションユニット１０３の機能を実施することができる。画像プロセッサ２２１は、またメモリ２２２から医用画像データ２２４を送信および／または受け取ることができる。例えば、画像プロセッサ２２１は、メモリ２２２に格納されているトレーニング画像データまたは医用画像データを受け取ることができる。画像プロセッサ２２１は、またＣＮＮモデルの更新されたパラメータ、および／または中間の２Ｄおよび／もしくは３Ｄのセグメント化画像もしくはラベルマップなどの中間データを生成し、それらをメモリ２２２に送信することができる。

［０８７］
画像処理装置２００は、トレーニング画像データベース１０１および医用画像データベース１０４の一方または両方を含む医用画像データベース２２５を任意に含んでもよい。当業者であれば、医用画像データベース２２５が集中的または分散的に配置された複数の装置を含むことができることを理解するであろう。画像プロセッサ２２１は、医用画像データベース２２５と通信して、画像をメモリ２２２に読み込む、またはセグメント化された画像をメモリ２２２から医用画像データベース２２５に格納することができる。

［０８８］
画像データ記憶装置２２６は、画像プロセッサ２２１によって実行される画像処理タスクに関連するデータを記憶するのに利用可能な追加の記憶装置である。いくつかの実施形態では、画像データ記憶装置２２６は、非一時的機械可読またはコンピュータ可読記憶媒体を含むことができる。一実施形態における機械可読記憶媒体またはコンピュータ可読記憶媒体は単一の媒体とすることができ、「機械可読記憶媒体」または「コンピュータ可読記憶媒体」という用語は、１つまたは複数のコンピュータ実行可能命令またはデータのセットを格納する、単一の媒体または複数の媒体（例えば、集中型または分散型データベースおよび／または関連するキャッシュおよびサーバ）を含むものとして理解されるべきである。用語「機械可読記憶媒体」または「コンピュータ可読記憶媒体」は、機械またはコンピュータによる実行のための一組の命令を記憶またはエンコードすることができ、任意の１つまたは複数の本開示の方法を実行することを機械またはコンピュータに引き起こす任意の媒体を含むと理解されるべきである。したがって、「機械可読記憶媒体」または「コンピュータ可読記憶媒体」という用語は、それだけに限定されないが、固体メモリ、光媒体、および磁気媒体を含むと解釈されるものである。

［０８９］
入出力インターフェース２２７は、データが画像処理装置２００によって受信および／または送信されることを可能にするように構成されることができる。入出力インターフェース２２７は、画像処理装置２００がユーザまたは他の機械および装置と通信することを可能にする１つまたは複数のデジタルおよび／またはアナログ通信装置を含むことができる。例えば、入出力インターフェース２２７は、ユーザが画像処理装置２００に入力するためのキーボードおよびマウスを含むことができる。

［０９０］
ネットワークインターフェース２２８は、ネットワークアダプタ、ケーブルコネクタ、シリアルコネクタ、ＵＳＢコネクタ、パラレルコネクタ、ファイバ、ＵＳＢ３．０、サンダーボルトなどのような高速データ伝送アダプター、ＷｉＦｉアダプター、電気通信（３Ｇ、４Ｇ／ＬＴＥなど）アダプターなどのような無線ネットワークアダプタを含むことができる。画像処理装置２００は、ネットワークインターフェース２２８を介してネットワーク１０５に接続することができる。画像ディスプレイ２２９は、医用画像を表示するのに適した任意の表示装置であることができる。例えば、画像ディスプレイ２２９は、ＬＣＤ、ＣＲＴ、またはＬＥＤディスプレイで歩ことができる。

［例示的なＣＮＮモデルトレーニング処理］
［０９１］
本開示の画像セグメンテーション方法、システム、およびデバイスによって実行される例示的なトレーニング処理を、図６を参照しながら以下詳細に説明する。

［０９２］
図６は、本開示のいくつかの実施形態による、ＣＮＮモデルをトレーニングするための例示的なトレーニング処理４００を示すフローチャートである。いくつかの実施形態では、トレーニング処理４００は、ＣＮＮモデルトレーニングユニット１０２によって実行される。

［０９３］
トレーニング処理４００は、ＣＮＮモデルトレーニングユニット１０２が一組のトレーニング画像を受信したときに開始する（ステップ４１０）。上記のように、トレーニング画像のセットは、３Ｄトレーニング画像とそれに対応する３Ｄグラウンドトゥルースラベルマップとを含むことができる。例えば、３Ｄトレーニング画像は、患者の骨盤領域、頭部領域、心臓領域、肝臓領域、または他の解剖学的領域を示す。いくつかの実施形態では、トレーニング画像は、セグメント化される画像と同じまたは類似の関心領域である。

［０９４］
図６に示すように、ＣＮＮモデルをトレーニングするための反復の開始点を設定するために、ステップ４１２において、反復回数を追跡するためのインデックスが例えばゼロに設定される。ステップ４１４において、ＣＮＮモデルトレーニングユニット１０２は、３Ｄトレーニング画像および対応する２Ｄグラウンドトゥルースラベルマップから隣接する２Ｄ画像の１つ以上のスタックを例えばランダムに選択し、ＣＮＮモデルをトレーニングするためのひとつのバッチとして選択された画像およびマップを集約して使用する。例えば、解剖学的平面に沿った隣接する２Ｄ画像の一連の順次スタックは、３Ｄトレーニング画像から得られてもよい。一連のスタックの中間画像が実質的に全体の３Ｄトレーニング画像を構成することができるように、順次スタックは１つまたは複数の重なり合う画像を有することができる。加えて、ＣＮＮモデルトレーニングユニット１０２は、隣接する２Ｄ画像の選択されたスタックのそれぞれの中間画像の対応する２Ｄグラウンドトルースラベルマップを受け取ることができる。例えば、上述のように、３Ｄグランドトゥルースラベルマップは、隣接する２Ｄ画像の順次スタックにそれぞれ対応する一連の順次２Ｄグランドトゥルースラベルマップに分割されてもよい。２Ｄラベルマップは、隣接する２Ｄ画像の選択されたスタックの中間画像の各ピクセルに対する既知の解剖学的構造のラベルを提供する。したがって、２Ｄラベルマップの各ピクセルは、背景、または隣接する２Ｄ画像の選択されたスタックに含まれる既知の解剖学的構造のうちの１つのいずれかと関連付けられる。上述のように、隣接する２Ｄ画像のスタックは、解剖学的平面に直交する軸に沿ってそれらの間の依存構造情報を含む。

［０９５］
いくつかの実施形態では、ステップ４１４において選択された隣接する２Ｄ画像の１つまたは複数のスタックは、軸平面、矢状面、冠状面のような３つの解剖学的平面から選択された平面に沿っている。そのような場合、処理４００は、例えば、この選択された平面に沿ってスライスされた３Ｄ画像をセグメント化するために、この選択された平面に対するＣＮＮモデルを出力することができる。いくつかの実施形態では、処理４００を繰り返して、３つの解剖学的平面に沿ってそれぞれ３Ｄ画像スライスをセグメント化するためにトレーニングされた３つの異なるＣＮＮモデルを出力することができる。

［０９６］
他の実施形態では、ステップ４１４で選択された隣接する２Ｄ画像の１つまたは複数のスタックは、２つ以上の選択された解剖学的平面に沿っていてもよい。処理４００は、２つ以上の選択された解剖学的平面のうちの任意の１つに沿って画像をセグメント化するために使用され得る１つのトレーニングされたＣＮＮモデルを出力するために実行される。他の実施形態では、ステップ４１４で選択された隣接する２Ｄ画像の１つまたは複数のスタックは、３つの解剖学的平面のうちのいずれかに沿っていてもよく、例えば、隣接する２Ｄ画像の少なくとも１つのスタックが各解剖学的平面に対して選択される。処理４００は、３つの解剖学的平面のうちのいずれかに沿って画像をセグメント化するために使用される１つのトレーニングされたＣＮＮモデルを得るために実行される。そのような場合、出力ＣＮＮモデルは、３つすべての解剖学的平面に沿って隣接する２Ｄ画像の組合せスタックを使用してトレーニングされる。

［０９７］
ステップ４１４からステップ４２２までを複数回繰り返して実行して、ＣＮＮモデルが、満足できる推定２Ｄおよび／または３Ｄラベルマップを出力するまで、ＣＮＮモデルをトレーニングする。反復回数は様々な停止基準によって決定される。いくつかの実施形態では、最大の反復回数が使用され得る。各反復において、最大反復回数に達するまで、トレーニングデータの新しいバッチがランダムに選択され、ＣＮＮモデルをトレーニングするために使用することができる。追加的または代替的に、期待される精度は、ＣＮＮモデルをトレーニングする前に予め決定してもよい。ＣＮＮモデルパラメータのバッチ選択および更新は、出力の２Ｄおよび／または３Ｄラベルマップの精度が予想される精度を満たすまで繰り返し実行される。

［０９８］
ステップ４１２において、ＣＮＮモデルをトレーニングするための反復の開始点を設定するために、図６に示すように、反復回数を追跡するための指標は、例えば０に設定されている。ステップ４１４において、トレーニングデータのバッチが、上述のように、例えば、ランダムに選択される。ステップ４１６において、ＣＮＮモデルトレーニングユニット１０２は、トレーニング用のＣＮＮモデルにトレーニングデータの選択されたバッチを入力する。ステップ４１８において、ＣＮＮモデルトレーニングユニット１０２は、ＣＮＮモデルをその現在のパラメータ、例えばフィルタの重みと共に用いて、隣接する２Ｄ画像の入力スタックに対応する推定２Ｄラベルマップを得る。

［０９９］
ステップ４２０において、ＣＮＮモデルトレーニングユニット１０２は、推定された２Ｄラベルマップをステップ４１２において選択された２Ｄグラウンドトゥルースラベルマップと比較し、そして対応するエラーマップを計算する。ステップ４２２において、ＣＮＮモデルトレーニングユニット１０２は、得られたエラーマップに基づいてＣＮＮモデルの１つまたは複数の層のパラメータを決定または更新する。例えば、バックプロパゲーション法を使用して、２Ｄグラウンドトゥルースラベルマップと出力された推定２Ｄラベルマップとの間の差に基づいて、ＣＮＮモデルの１つまたは複数の層のパラメータを決定または更新することができる。バックプロパゲーション法は、例えば、ＣＮＮモデル内のすべてのパラメータに関して損失関数を最小化することによってパラメータを最適化することができる。

［０１００］
ステップ４２４において、ＣＮＮモデルトレーニングユニット１０２は、反復回数を追跡するためのインデックスを１つ増加させる。ステップ４２６において、ＣＮＮモデルトレーニングユニット１０２は、反復を停止するための基準が満たされているかどうかを判定する。上述のように、いくつかの実施形態では、ＣＮＮモデルトレーニングユニット１０２は、インデックスが所定の最大インデックス数以上であるかどうかを判定する。追加的または代替的に、ＣＮＮモデルトレーニングユニット１０２は、例えば、損失関数がしきい値より小さいかどうかを判定することによって、推定された２Ｄラベルマップの正確さが期待される正確さを満たすまたは拡張するかどうかを判定することができる。ＣＮＮモデルトレーニングユニット１０２が、反復を停止するための基準が満たされていないと判断した場合（ステップ４２６：Ｎｏ）、ＣＮＮモデルをトレーニングするためにトレーニングデータの新しいバッチをもう一度選択するためにステップ４１４に戻る。ＣＮＮモデルトレーニングユニット１０２が、反復を停止するための基準が満たされたと判断した場合（ステップ４２６：Ｙｅｓ）、トレーニング処理４００はステップ４２８に進み、ＣＮＮモデルを更新されたパラメータと共に保存し、および／またはトレーニングされたＣＮＮモデルを出力する。

［０１０１］
いくつかの実施形態では、ＣＮＮモデルをトレーニングするために、２つ以上のトレーニング画像データセット（例えば、２つ以上の３Ｄトレーニング画像および対応する３Ｄグラウンドトゥルースラベルマップ）が使用される。そのような場合、ステップ４１４においてトレーニングデータのバッチを選択するとき、最初に１つまたは複数の３Ｄトレーニング画像データセットをランダムに選択し、次に、選択された３Ｄ画像データセットから、隣接する２Ｄ画像の１つまたは複数のスタックおよび対応する２Ｄグラウンドトルースラベルマップをランダムに選択する。その後、ステップ４１４からステップ４２６は上記と同様に進行する。

［例示的なＣＮＮモデルに基づく画像セグメンテーション処理］
［０１０２］
本開示の画像セグメンテーション方法、システム、およびデバイスによって実行される例示的な画像セグメンテーション処理は、図７Ａから図８Ｂを参照して、以下詳細に説明する。

［０１０３］
図７Ａは、本開示のいくつかの実施形態による図６の処理を通じて得られたトレーニング済みＣＮＮモデルを使用した例示的な画像セグメンテーション処理５００Ａを示すフローチャートである。画像セグメンテーション処理５００Ａは、セグメンテーションユニット１０３によって実行される。図７Ａに示されるように、画像セグメンテーション処理５００Ａは、セグメンテーションユニット１０３がセグメンテーションされるべき３Ｄ画像を受信したときに開始する（ステップ５１２）。３Ｄ画像は、３Ｄ医用画像、例えば、患者の骨盤領域、頭部領域、心臓領域、肝臓領域、または他の解剖学的領域を示す３Ｄ医用画像であり得る。ステップ５１４において、セグメンテーションユニット１０３はトレーニングされたＣＮＮモデルを受け取る。

［０１０４］
ステップ５１６において、セグメンテーションユニット１０３は、３Ｄ画像から生成された隣接する２Ｄ画像の一連のスタックから隣接する２Ｄ画像のスタックを選択する。上述のように、隣接する２Ｄ画像の一連のスタックは連続していてもよく、スタックの中間画像が一緒になって全体の３Ｄ画像を実質的に構成するように、１つまたは複数の重なり合う画像を有してもよい。ステップ５１８において、シリーズ内のスタックがトレーニング済みＣＮＮモデルに入力される。ステップ５２０において、セグメンテーションユニット１０３は、スタック内の中間画像の２Ｄ出力ラベルマップを決定する。ステップ５２２において、セグメンテーションユニット１０３は、隣接する２Ｄ画像の全てのスタックがトレーニングされたＣＮＮモデルに入力されたかどうかを判定する。３Ｄ画像から生成された隣接する２Ｄ画像の全てのスタックが使用されていないとセグメンテーションユニット１０３が判定した場合（ステップ５２２：Ｎｏ）、画像セグメンテーション処理５００Ａはステップ５１６に戻る。３Ｄ画像から生成された隣接する２Ｄ画像のすべてのスタックが使用されているとセグメンテーションユニット１０３が判定した場合（ステップ５２２：Ｙｅｓ）、画像セグメンテーション処理５００Ａはステップ５２４に進む。

［０１０５］
ステップ５２４において、３Ｄラベルマップは、隣接する２Ｄ画像のスタックの中間画像の２Ｄラベルマップに基づいて決定される。例えば、３Ｄラベルマップは、２Ｄ画像のスタックの解剖学的平面に直交する軸に沿って中間画像のシーケンスに従って中間画像の２Ｄラベルマップを集約することによって得ることができる。任意であるが、画像セグメンテーション処理５００Ａはステップ５２６を含んでもよい。ステップ５２６において、セグメンテーションユニット１０３はセグメンテーション３Ｄ画像を出力する。例えば、セグメンテーションユニット１０３は、さらなる分析または観察のためにセグメント化された３Ｄ画像または３Ｄラベルマップを表示する。

［０１０６］
図７Ｂは、本開示のいくつかの実施形態による図６の処理を通じて得られた１つまたは複数のトレーニングされたＣＮＮモデルを使用した別の例示的な画像セグメンテーション処理５００Ｂを示すフローチャートである。画像セグメンテーション処理５００Ｂは、セグメンテーションユニット１０３によって実行される。画像セグメンテーション処理５００Ｂは、画像セグメンテーション処理５００Ａにおけるものと同様のステップを含む。画像セグメンテーション処理５００Ｂは、セグメンテーションユニット１０３がセグメンテーションされるべき３Ｄ画像を受信したときに開始する（ステップ５２８）。３Ｄ画像は、３Ｄ医用画像、例えば患者の骨盤領域、頭部領域、心臓領域、肝臓領域、または他の解剖学的領域を示す３Ｄ医用画像であり得る。

［０１０７］
ステップ５３０において、セグメンテーションユニット１０３は、隣接する２Ｄ画像のスタックを取得するために、ステップ５２８において受信された３Ｄ画像の平面を選択する。例えば、３Ｄ画像が３Ｄ医用画像である場合、ステップ５３０は、軸面、矢状面、および冠状面などの３つの解剖学的面のうちの１つを選択する。ステップ５３２において、セグメンテーションユニット１０３は、選択された解剖学的平面に沿って３Ｄ画像から一連の隣接する２Ｄ画像のスタックを生成する。

［０１０８］
ステップ５３４において、セグメンテーションユニット１０３は、１つまたは複数のトレーニングされたＣＮＮモデルを受信する。いくつかの実施形態では、受信したトレーニングされたＣＮＮモデルは、ステップ５３０で選択されたものと同じ解剖学的平面に沿って隣接する２Ｄ画像のスタックを用いてトレーニングされていてもよい。そのような場合、ステップ５３０で選択された平面が変更されると、解剖学的平面に対応する別のトレーニングされたＣＮＮモデルが受信され、画像セグメンテーションを実行するために使用される。他の実施形態では、トレーニングされたＣＮＮモデルは、３Ｄ画像の３つ全ての解剖学的平面に沿って隣接する２Ｄ画像のスタックを用いてトレーニングされる。そのような場合、同じトレーニングされたＣＮＮモデルは、任意の選択された解剖学的平面に沿って隣接する２Ｄ画像のスタック、または３つの解剖学的平面から組み合わされた隣接する２Ｄ画像の任意のスタックの画像セグメンテーションを実行するために使用できる。

［０１０９］
ステップ５３６からステップ５４２は、画像セグメンテーション処理５００Ａのステップ５１６からステップ５２２と同様である。ステップ５３６において、セグメンテーションユニット１０３は、ステップ５３２において生成された一連の隣接する２Ｄ画像のスタックから、隣接する２Ｄ画像のスタックを選択する。ステップ５３８において、シリーズ内のスタックがトレーニング済みＣＮＮモデルに入力される。ステップ５４０において、セグメンテーションユニット１０３は、スタック内の中間画像の２Ｄ出力ラベルマップを決定する。ステップ５４２において、セグメンテーションユニット１０３は、隣接する２Ｄ画像の全てのスタックがトレーニングされたＣＮＮモデルに入力されたかどうかを判定する。選択された解剖学的平面に沿って３Ｄ画像から生成された隣接する２Ｄ画像の全てのスタックが使用されていないとセグメンテーションユニット１０３が判定した場合（ステップ５４２：Ｎｏ）、画像セグメンテーション処理５００Ｂはステップ５３６に戻る。選択された解剖学的平面に沿って３Ｄ画像から生成された隣接する２Ｄ画像のすべてのスタックが使用されているとセグメンテーションユニット１０３が判定した場合（ステップ５４２：Ｙｅｓ）、画像セグメンテーション処理５００Ｂはステップ５４４に進む。

［０１１０］
ステップ５４４において、３Ｄラベルマップは、２Ｄ隣接画像のスタックの中間画像の２Ｄラベルマップに基づいて決定される。例えば、３Ｄラベルマップは、２Ｄ画像のスタックの解剖学的平面に直交する軸に沿って中間画像のシーケンスに従って中間画像の２Ｄラベルマップを集約することによって得ることができる。また、画像セグメンテーション処理５００Ｂはステップ５４６を含んでもよい。ステップ５４６において、セグメンテーションユニット１０３は、３つすべての平面（例えば、軸平面、矢状面、冠状面）に沿った３つの一連の隣接する２Ｄ画像のスタックすべてが３Ｄ画像のセグメント化に使用されたかどうかを判定する。３つ全ての平面に対応する２Ｄ画像の３つのシリーズのスタックの全てが使用されていないとセグメンテーションユニット１０３が判定した場合（ステップ５４６：Ｎｏ）、別の解剖学的平面を選択するために画像セグメンテーション処理５００Ｂはステップ５３０に戻る。セグメンテーションユニット１０３が、３つすべての平面に対応する２つの一連の２Ｄ画像スタックすべてが使用されたと判断した場合（ステップ５４６：Ｙｅｓ）、画像セグメンテーション処理５００Ｂはステップ５４８に進む。

［０１１１］
ステップ５４８において、セグメンテーションユニット１０３は最終３Ｄラベルマップを決定する。３つの解剖学的平面について決定された３つの３Ｄラベルマップを融合することによって最終的な３Ｄラベルマップを決定することができる。いくつかの実施形態では、融合された３Ｄラベルマップのボクセルの値は多数決によって決定されてもよい。例えば、３つの３Ｄラベルマップのうち２つが解剖学的構造として３Ｄ画像のボクセルをラベル付けする場合、融合された３Ｄラベルマップの対応するボクセルは同じ解剖学的構造に関連付けられていると決定される。他の実施形態では、融合３Ｄラベルマップのボクセルは、３つの３Ｄラベルマップ内の対応するボクセルについて推定された最大尤度または確率に基づいて決定される。例えば、第１の３Ｄラベルマップが、ボクセルは０．５の確率で膀胱を表すと決定し、第２の３Ｄラベルマップが、ボクセルは０．４の確率で前立腺を表すと決定し、第３の３Ｄラベルマップが、ボクセルは０．２の確率で直腸を表すと決定したならば、そのボクセルは融合された３Ｄラベルマップでは膀胱を表すものとしてラベル付けされる。本明細書に記載されるように、画像セグメンテーション処理５００Ｂにおいて決定された３つの３Ｄラベルマップを融合するために任意の適切な方法が使用されてもよい。

［０１１２］
上述のように、ＣＮＮモデルは、３つの解剖学的平面に沿って隣接する２Ｄ画像のスタックを使用してトレーニングすることができる。そのような場合、画像セグメンテーション処理５００Ｂが第２の解剖学的平面を選択するためにステップ５３０を実行し、選択された解剖学的平面に沿って隣接する２Ｄ画像の一連のスタックを生成するためにステップ５３２を実行するとき、画像セグメンテーション処理５００Ｂはステップ５３４をスキップしてステップ５３６に進む。３Ｄ医用画像をセグメント化するための画像セグメンテーション処理５００Ｂは、さらに図８Ａおよび図８Ｂに示されている。

［０１１３］
図８Ａに示すように、セグメンテーションユニット１０３は、１つより多い解剖学的平面（例えば、軸平面、矢状平面、冠状平面）に沿って隣接する２Ｄ画像のスタックを使用してトレーニングされたＣＮＮモデルを受信する。３つの解剖学的平面に沿ってセグメント化されるべき３Ｄ医用画像から生成された隣接する２Ｄ画像の３つの一連のスタックは、２Ｄラベルマップを得るためにトレーニングされたＣＮＮモデルに独立して入力する。あるいは、３つの解剖学的平面に沿った３つの一連の隣接する２Ｄ画像のスタックを組み合わせ、例えば１つずつ積み重ね、そして同じトレーニングされたＣＮＮモデルに入力してもよい。上述したように、各解剖学的平面に沿った一連の隣接する２Ｄ画像のスタックの中間画像の２Ｄラベルマップは、３Ｄラベルマップを得るために、例えば、解剖学的平面に直交する軸に沿って積み重ねることができる。したがって、図８Ａに示すように、３つの異なる解剖学的平面に対応する隣接する画像の３つの一連のスタックに基づいて、３Ｄ画像の３つの３Ｄラベルマップを得る。上述したように、３つの３Ｄラベルマップを融合して３Ｄ医用画像の最終的な３Ｄラベルマップを生成する。

［０１１４］
あるいは、図８Ｂに示すように、セグメンテーションユニット１０３は、３つの解剖学的平面（例えば、軸平面、冠状平面、矢状面）のうちの１つに沿った隣接する２Ｄ画像のスタックをそれぞれ使用してトレーニングされた３つのＣＮＮモデルを受信する。そのような場合、セグメンテーションユニット１０３は各解剖学的平面を選択し、各解剖学的平面に沿って３Ｄ医用画像から一連の隣接する２Ｄ画像のスタックを生成する。３つの解剖学的平面のうちの１つに沿って生成された一連の隣接する２Ｄ画像のスタックのそれぞれは、対応する解剖学的平面の２Ｄ画像のスタックでトレーニングされた別個のＣＮＮモデルに独立して入力されて２Ｄラベルマップを得る。例えば、図８Ｂに示すように、３つのＣＮＮモデル、ＣＮＮモデル１、ＣＮＮモデル２、ＣＮＮモデル３は、それぞれ、軸平面、矢状平面、冠状平面に沿って得られた隣接する２Ｄ画像のスタックを処理するために別々に使用される。同様に、各解剖学的平面に沿った隣接する２Ｄ画像のスタックの中間画像の２Ｄラベルマップは、３Ｄラベルマップを得るために、例えば、解剖学的平面に直交する軸に沿って積み重ねることによって集約することができる。したがって、３つの異なる解剖学的平面の隣接する画像の３つの一連のスタックに基づいて３つの３Ｄラベルマップを得る。上述のように、３つの３Ｄラベルマップを融合して３Ｄ医用画像の最終的な３Ｄラベルマップを生成する。

［０１１５］
本明細書で説明するように、いくつかの実施形態では、セグメンテーションユニット１０３は、３つの解剖学的平面のうちの１つに沿って隣接する２Ｄ画像のスタックを使用してそれぞれトレーニングされた２つまたは３つのＣＮＮモデルを受信し得る。そのような場合、選択された２つまたは３つの異なる解剖学的平面に沿って３Ｄ医用画像から得られる隣接する２Ｄ画像の２つまたは３つの一連のスタックに基づいて２つまたは３つの３Ｄラベルマップを得ることができる。同様に、２つまたは３つの３Ｄラベルマップを融合して３Ｄ医用画像の最終的な３Ｄラベルマップを生成することができる。

［０１１６］
本明細書では、ソフトウェアコードまたは命令として実施または定義することができる様々な動作または機能を説明する。そのようなコンテンツは、直接実行可能（「オブジェクト」または「実行可能」形式）、ソースコード、または差分コード（「デルタ」または「パッチ」コード）であり得る。本明細書に記載された実施形態のソフトウェアの実装は、コードまたは命令を格納した製品を介して、または通信インターフェースを介してデータを送信するように通信インターフェースを動作させる方法を介して提供することができる。機械またはコンピュータ可読記憶媒体は、説明された機能または動作を機械（例えば、コンピューティングデバイス、電子システムなど）に実行させることができ、記録可能／記録不可能媒体（例えば、リードオンリーメモリ（ＲＯＭ）、ランダムアクセスメモリ（ＲＡＭ）、磁気ディスク記憶媒体、光記憶媒体、フラッシュメモリデバイスなど）のような機械によってアクセス可能な形式で情報を記憶する任意の機構を含む。通信インターフェースは、メモリバスインターフェース、プロセッサバスインターフェース、インターネット接続、ディスクコントローラ、およびディスクコントローラなどのような、有線、無線、光学など、他の装置への通信する媒体のいずれかにインターフェースする任意の機構を含む。通信インターフェースは、構成パラメータを提供すること、および／またはソフトウェアコンテンツを記述するデータ信号を提供するために通信インターフェースを準備するために信号を送信することによって構成することができる。通信インターフェースは、通信インターフェースに送信された１つまたは複数のコマンドまたは信号を介してアクセスすることができる。

［０１１７］
本発明はまた、本明細書の動作を実行するためのシステムに関する。このシステムは、要求される目的のために特別に構築されてもよく、あるいはコンピュータに格納されたコンピュータプログラムによって選択的に起動または再構成された汎用コンピュータを含んでもよい。そのようなコンピュータプログラムは、これらに限定されないが、フロッピーディスク、光ディスク、ＣＤ−ＲＯＭ、および光磁気ディスクを含む任意の種類のディスク、読み取り専用メモリ（ＲＯＭ）、ランダムアクセスメモリ（ＲＡＭ）、ＥＰＲＯＭ、ＥＥＰＲＯＭ、磁気または光学カード、または電子命令を格納するのに適した任意の種類の媒体であって、それぞれコンピュータシステムバスに結合されているような、コンピュータ可読記憶媒体に記憶することができる。

［０１１８］
本明細書に図示および記載された本発明の実施形態における動作の実行または実行の順序は、他に特定されない限り必須ではない。すなわち、動作は、他に特定されない限り、任意の順序で実行されてもよく、本発明の実施形態は、本明細書に開示されたものよりも追加の動作を含んでもよく、またはより少ない動作でもよい。例えば、特定の動作を他の動作の前、それと同時に、またはその後に実行することは、本発明の態様の範囲内であると考えられる。

［０１１９］
本発明の実施形態は、コンピュータ実行可能命令を用いて実施することができる。コンピュータ実行可能命令は、１つまたは複数のコンピュータ実行可能コンポーネントまたはモジュールに編成することができる。本発明の態様は、任意の数および構成のそのような構成要素またはモジュールを用いて実施することができる。例えば、本発明の態様は、図に示され本明細書に記載された特定のコンピュータ実行可能命令または特定の構成要素もしくはモジュールに限定されない。本発明の他の実施形態は、本明細書に図示および説明されたものよりも多いまたは少ない機能を有する異なるコンピュータ実行可能命令または構成要素を含み得る。

［０１２０］
開示された原理の例および特徴が本明細書に記載されているが、開示された実施形態の精神および範囲から逸脱することなく、修正、適応、および他の実装が可能である。また、「含む」、「有する」、「含む」、「含んでいる」という用語、および他の同様の形態は、意味において同等であり、これらの単語のいずれかに続く単数または複数の項目は、単数または複数の項目の網羅的なリストであることを意味するのではなく、またはリストされた単数または複数の項目のみに限定されることを意味するように、オープンエンドとして解釈されるように意図されている。そして、単数形「ａ」、「ａｎ」、「ｔｈｅ」は、文脈が明らかにそうでないことを示さない限り、複数の言及を含むことを意図している。

［０１２３］
本発明の態様を詳細に説明してきたが、添付の特許請求の範囲に規定されるような本発明の態様の範囲から逸脱することなく修正および変形が可能であることは明らかであろう。本発明の態様の範囲から逸脱することなく上記の構成、製品、および方法に様々な変更を加えることができるので、上記の説明に含まれ添付の図面に示されるすべての事項は例示として解釈されるべきであり、限定的な意味ではない。

Claims

三次元医用画像をセグメンテーションするためのコンピュータ実施方法であって、
前記方法は、
撮像装置により取得された前記三次元医用画像を受け取ることと、
プロセッサにより、前記三次元医用画像の軸平面、矢状平面、冠状平面に対するラベルマップを決定することと、
前記プロセッサにより、前記三次元医用画像の前記軸平面、矢状平面、冠状平面に対する前記決定された各ラベルマップを融合して、前記三次元医用画像の融合されたラベルマップを決定することと
を有し、
前記三次元医用画像の軸平面に対するラベルマップを決定することは、
前記三次元医用画像の前記軸平面から隣接する二次元画像の複数のスタックを選択すること
前記プロセッサにより、第１の畳み込みニューラルネットワークモデルを使用して前記軸平面から前記隣接する二次元画像の各スタックをセグメンテーションすることであって、前記各スタックをセグメンテーションすることは、各スタックにおける少なくとも１つの二次元中間画像に対するラベルマップを決定することを含み、
前記プロセッサにより、前記複数のスタックからの前記セグメンテーション結果を集約することによって前記三次元医用画像の前記軸平面に対するラベルマップを決定することとを含み、
前記三次元医用画像の矢状平面に対するラベルマップを決定することは、
前記三次元医用画像の前記矢状平面から隣接する二次元画像の複数のスタックを選択することと、
前記プロセッサにより、第２の畳み込みニューラルネットワークモデルを使用して前記矢状平面から前記隣接する二次元画像の各スタックをセグメンテーションすることであって、前記各スタックをセグメンテーションすることは、各スタックにおける少なくとも１つの二次元中間画像に対するラベルマップを決定することを含み、
前記プロセッサにより、前記複数のスタックからの前記セグメンテーション結果を集約することによって前記三次元医用画像の前記矢状平面に対するラベルマップを決定することとを含み、
前記三次元医用画像の冠状平面に対するラベルマップを決定することは、
前記三次元医用画像の前記冠状平面から隣接する二次元画像の複数のスタックを選択することと、
前記プロセッサにより、第３の畳み込みニューラルネットワークモデルを使用して前記矢状平面から前記隣接する二次元画像の各スタックをセグメンテーションすることであって、前記各スタックをセグメンテーションすることは、各スタックにおける少なくとも１つの二次元中間画像に対するラベルマップを決定することを含み、
前記プロセッサにより、前記複数のスタックからの前記セグメンテーション結果を集約することによって前記三次元医用画像の前記冠状平面に対するラベルマップを決定することとを含む
ことを特徴とする方法。
請求項１記載の方法において、
少なくとも１つの三次元医用トレーニング画像を用いて前記ニューラルネットワークモデルをトレーニングすることを更に有する
ことを特徴とする方法。
請求項２記載の方法において、
前記ニューラルネットワークモデルをトレーニングすることは、前記ニューラルネットワークモデルで使用される少なくとも１つの畳み込みフィルタのパラメータを決定することを含む
ことを特徴とする方法。
請求項１記載の方法において、
前記各スタックは奇数個の二次元画像を含み、
前記少なくとも１つの二次元中間画像は、前記スタックの中央にある前記２つの二次元画像のうちの１つである
ことを特徴とする方法。
請求項１記載の方法において、
前記各スタックは偶数個の二次元画像を含み、
前記少なくとも１つの二次元中間画像は、前記スタックの中央にある前記２つの二次元画像のうちの１つである
ことを特徴とする方法。
請求項１記載の方法において、
前記隣接する二次元画像は、同じ平面内にあり、前記平面に直交する軸内に依存構造情報を持つ
ことを特徴とする方法。
請求項１記載の方法において、
前記三次元医用画像は、患者の解剖学的構造を示す医用画像であり、
前記ラベルマップは、前記三次元医用画像の各ボクセルに解剖学的構造を関連付ける
ことを特徴とする方法。
三次元医用画像をセグメンテーションするための装置であって、
前記装置は、
撮像装置によって取得された前記三次元医用画像を受け取る入力インターフェースと、
前記三次元医用画像を記憶するように構成された少なくとも１つの記憶装置と、
前記三次元医用画像の軸平面、矢状平面、冠状平面に対するラベルマップを決定し、
前記三次元医用画像の前記軸平面、矢状平面、冠状平面に対する前記決定された各ラベルマップを融合して、前記三次元医用画像の融合されたラベルマップを決定する
ように構成されている画像プロセッサと
を有し、
前記三次元医用画像の軸平面に対するラベルマップを決定することは、
前記三次元医用画像の前記軸平面から隣接する二次元画像の複数のスタックを選択することと、
前記プロセッサにより、第１の畳み込みニューラルネットワークモデルを使用して前記軸平面から前記隣接する二次元画像の各スタックをセグメンテーションすることであって、前記各スタックをセグメンテーションすることは、各スタックにおける少なくとも１つの二次元中間画像に対するラベルマップを決定することを含み、
前記プロセッサにより、前記複数のスタックからの前記セグメンテーション結果を集約することによって前記三次元医用画像の前記軸平面に対するラベルマップを決定することとを含み、
前記三次元医用画像の矢状平面に対するラベルマップを決定することは、
前記三次元医用画像の前記矢状平面から隣接する二次元画像の複数のスタックを選択することと、
前記プロセッサにより、第２の畳み込みニューラルネットワークモデルを使用して前記矢状平面から前記隣接する二次元画像の各スタックをセグメンテーションすることであって、前記各スタックをセグメンテーションすることは、各スタックにおける少なくとも１つの二次元中間画像に対するラベルマップを決定することを含み、
前記プロセッサにより、前記複数のスタックからの前記セグメンテーション結果を集約することによって前記三次元医用画像の前記矢状平面に対するラベルマップを決定することとを含み、
前記三次元医用画像の冠状平面に対するラベルマップを決定することは、
前記三次元医用画像の前記冠状平面から隣接する二次元画像の複数のスタックを選択することと、
前記プロセッサにより、第３の畳み込みニューラルネットワークモデルを使用して前記矢状平面から前記隣接する二次元画像の各スタックをセグメンテーションすることであって、前記各スタックをセグメンテーションすることは、各スタックにおける少なくとも１つの二次元中間画像に対するラベルマップを決定することを含み、
前記プロセッサにより、前記複数のスタックからの前記セグメンテーション結果を集約することによって前記三次元医用画像の前記冠状平面に対するラベルマップを決定することとを含む
ことを特徴とする装置。
請求項８記載の装置において、
前記画像プロセッサは、更に、少なくとも１つの三次元医用トレーニング画像を使用して前記ニューラルネットワークモデルをトレーニングするように構成されている
ことを特徴とする装置。
請求項８記載の装置において、
前記画像プロセッサは、更に、前記ニューラルネットワークモデルで使用される少なくとも１つの畳み込みフィルタのパラメータを決定するように構成されている
ことを特徴とする装置。
請求項８記載の装置において、
前記各スタックは奇数個の二次元画像を含み、
前記少なくとも１つの二次元中間画像は、前記スタックの中央にある前記２つの二次元画像のうちの１つである
ことを特徴とする装置。
請求項８記載の装置において、
前記各スタックは偶数個の二次元画像を含み、
前記少なくとも１つの二次元中間画像は、前記スタックの中央にある前記２つの二次元画像のうちの１つである
ことを特徴とする装置。
請求項８記載の装置において、
前記隣接する二次元画像は同一平面内にあり、前記平面に直交する軸内に依存構造情報を持つ
ことを特徴とする装置。
請求項８記載の装置において、
前記三次元医用画像は、患者の解剖学的構造を示す医用画像であり、
前記ラベルマップは、前記三次元医用画像の各ボクセルに解剖学的構造を関連付ける
ことを特徴とする装置。
少なくとも１つのプロセッサにより実行されたときに、前記少なくとも１つのプロセッサが、請求項１乃至７のいずれか１項に記載の三次元医用画像をセグメンテーションする方法を実行するような命令を含む非一時的コンピュータ可読媒体。