JP2023517216A - 符号付き距離マップの予測による形状認識臓器セグメンテーション - Google Patents

符号付き距離マップの予測による形状認識臓器セグメンテーション Download PDF

Info

Publication number
JP2023517216A
JP2023517216A JP2022554304A JP2022554304A JP2023517216A JP 2023517216 A JP2023517216 A JP 2023517216A JP 2022554304 A JP2022554304 A JP 2022554304A JP 2022554304 A JP2022554304 A JP 2022554304A JP 2023517216 A JP2023517216 A JP 2023517216A
Authority
JP
Japan
Prior art keywords
computer
segmentation
sdm
neural network
implemented method
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2022554304A
Other languages
English (en)
Other versions
JP7376729B2 (ja
Inventor
タン,フイ
ホアン,チャオ
リン,シーヤオ
チャン,ツェン
ファン,ウェイ
Original Assignee
テンセント・アメリカ・エルエルシー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by テンセント・アメリカ・エルエルシー filed Critical テンセント・アメリカ・エルエルシー
Publication of JP2023517216A publication Critical patent/JP2023517216A/ja
Application granted granted Critical
Publication of JP7376729B2 publication Critical patent/JP7376729B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • G06T7/0012Biomedical image inspection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration using two or more images, e.g. averaging or subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/70Denoising; Smoothing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/174Segmentation; Edge detection involving the use of two or more images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/751Comparing pixel values or logical combinations thereof, or feature values having positional relevance, e.g. template matching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H30/00ICT specially adapted for the handling or processing of medical images
    • G16H30/40ICT specially adapted for the handling or processing of medical images for processing medical images, e.g. editing
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/17Function evaluation by approximation methods, e.g. inter- or extrapolation, smoothing, least mean square method
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10072Tomographic images
    • G06T2207/10081Computed x-ray tomography [CT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20172Image enhancement details
    • G06T2207/20182Noise reduction or smoothing in the temporal domain; Spatio-temporal filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30004Biomedical image processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/03Recognition of patterns in medical or anatomical images
    • G06V2201/031Recognition of patterns in medical or anatomical images of internal organs

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Medical Informatics (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Radiology & Medical Imaging (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Public Health (AREA)
  • Quality & Reliability (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Algebra (AREA)
  • Pathology (AREA)
  • Image Analysis (AREA)
  • Apparatus For Radiation Diagnosis (AREA)

Abstract

臓器セグメンテーションのためにニューラルネットワークをトレーニングするコンピュータ実装方法が提供され得る。方法は、データベースからデジタルサンプル画像のセットを収集するステップと、収集されたデジタル画像のセットをニューラルネットワーク認識モデルに入力するステップと、第1のデジタル画像中の第1のオブジェクトが第2のデジタル画像中の第2のオブジェクトに類似していることに基づいて、第1のオブジェクトを特定のオブジェクトとして認識するようにニューラルネットワーク認識モデルをトレーニングするステップとを含み得る。方法は、セグメンテーションマップと併せて符号付き距離マップ(SDM)を予測するステップを含み得る。

Description

[関連出願の相互参照]
本出願は、2020年5月7日に出願された米国特許出願第16/869,012号に対する優先権を主張するものであり、これは、参照によりその全体が本出願に明確に組み込まれる。
[技術分野]
本開示は、コンピュータビジョン(例えば、オブジェクト検出(画像およびビデオ中のオブジェクトを識別する))および人工知能に関する。特に、本開示は、コンピュータ断層撮影(CT)スキャン(患者の一部(例えば、臓器)に向けられたX線ビームを使用してデジタルX線画像を生成する)などの医療撮像技術において使用するための臓器セグメンテーションを実行するためにAIニューラルネットワークを使用することに関する。生成されるデジタルX線画像は、身体(または身体の臓器)の断面画像であり得、スライスと呼ばれ得る。
手術(例えば、臓器移植手術)の場合、臓器セグメンテーションは、形状認識ニューラルネットワーク(セグメンテーションで使用される統計的形状モデルを介して1つまたは複数の臓器の形状知識を組み込む)を使用して実行され得る。
Scher, A. I.; Xu, Y.; Korf, E.; White, L. R.; Scheltens, P.; Toga, A. W.; Thompson, P. M.; Hartley, S.; Witter, M.; Valentino, D. J.ら; March 12, 2007. "Hippocampal Shape Analysis in Alzheimers Disease: A Population-Based Study." Neuroimage; 2007 May 15; 36(1):8-18. Epub 2007 Mar 12. Moore, K. L.; Brame, R. S.; Low, D. A.; and Mutic, S.; 2011. "Experience-Based Quality Control of Clinical Intensity Modulated Radiotherapy Planning." International Journal of Radiation Oncology* Biology* Physics 81(2):545-551. Kass, M.; Witkin, A.; and Terzopoulos, D. 1988. "Snakes: Active Contour Models." IJCV 1(4):321-331. Osher, S., and Sethian, J. A.; 1988. "Fronts Propagating with Curvature-Dependent speed: Algorithms based on Hamilton-Jacobi formulations." Journal of computational physics 79(1):12-49. Cerrolaza, J. J.; Summers, R. M.; Gonz´alez Ballester, M. A´.; and Linguraru, M. G.; 2015 "Automatic Multi-Resolution Shape Modeling." Aljabar, P.; Heckemann, R. A.; Hammers, A.; Hajnal, J. V.; and Rueckert, D; 2009; "Multi-Atlas Based Segmentation of Brain Images: Atlas Selection and Its Effect On Accuracy"; Neuroimage 46(3):726-738. Ronneberger, O.; Fischer, P.; and Brox, T.; 2015; U-Net: Convolutional Networks for Biomedical Image Segmentation; Medical Image Computing and Computer Assisted Intervention (In MICCAI, 234-241; Springer). Cicek, O.(ただしCとcはセディーユ付き); Abdulkadir, A.; Lienkamp, S. S.; Brox, T.; and Ronneberger, O.; 2016. "3d U-Net: Learning Dense Volumetric Segmentation from Sparse Annotation"; (In MICCAI, 424-432; Springer). Kamnitsas, K.; Ledig, C.; Newcombe, V. F.; Simpson, J. P.; Kane, A. D.; Menon, D. K.; Rueckert, D.; and Glocker, B.; 2017; "Efficient Multi-Scale 3d CNN With Fully Connected CRF For Accurate Brain Lesion Segmentation"; MedIA 36:61-78. Kohlberger, T.; Sofka, M.; Zhang, J.; Birkbeck, N.; Wetzl, J.; Kaftan, J.; Declerck, J.; and Zhou, S. K.; 2011; "Automatic Multi-Organ Segmentation Using Learning-Based Segmentation And Level Set Optimization"; (In MICCAI, 338-345; Springer). Perera, S.; Barnes, N.; He, X.; Izadi, S.; Kohli, P.; and Glocker, B.; 2015; "Motion Segmentation Of Truncated Ssigned Distance Function Based Volumetric Surfaces"; (In WACV, 1046-1053. IEEE). Hu, P.; Shuai, B.; Liu, J.; and Wang, G.; 2017; "Deep Level Sets for Salient Object Detection"; (In CVPR, 2300-2309). Park, J. J.; Florence, P.; Straub, J.; Newcombe, R.; and Lovegrove, S.; 2019; "Deepsdf: Learning Continuous Signed Distance Functions For Shape Representation"; arXiv preprint arXiv:1901.05103. Al Arif, S. M. R.; Knapp, K.; and Slabaugh, G.; 2018; "Spnet: Shape Prediction Using a Fully Convolutional Neural Network"; (In MICCAI, 430-439; Springer). Dangi, S.; Yaniv, Z.; and Linte, C.; 2019; "A Distance Map Regularized CNN For Cardiac Cine MR Image Segmentation"; arXiv preprint arXiv: 1901.01238. Navarro, F.; Shit, S.; Ezhov, I.; Paetzold, J.; Gafita, A.; Peeken, J. C.; Combs, S. E.; and Menze, B. H.; 2019; "Shape-Aware Complementary-Task Learning For Multi-Organ Segmentation"; (In MIDL, 620-627; Springer). Wu, Y., and He, K.; 2018; "Group Normalization"; (In ECCV, 3-19).
関連技術の説明
臓器セグメンテーション
医用画像セグメンテーションでは、臓器セグメンテーションは、疾患診断および手術計画において非常に重要である。例えば、臓器(例えば、海馬)のセグメント化された形状は、アルツハイマー病(AD)を含む神経変性疾患のバイオマーカーとして有用であり得る。非特許文献1を参照されたい。
放射線治療計画において、リスク臓器(OAR)の正確なセグメンテーション結果は、腫瘍専門医が、周囲の健康な臓器への線量を最小限に抑えながら放射線を腫瘍領域に集中させることができるような適切なビーム経路など、より良い放射線治療計画を設計するのに役立ち得る。非特許文献2を参照されたい。
病変セグメンテーションなどの一般的なセグメンテーション問題とは異なり、臓器は、比較的安定した位置、形状、およびサイズを有する。現在の最先端の臓器セグメンテーションシステムは、深層学習ベースの方法(Roth et al.2015)が多数を占めているが、それらは、実現可能な形状の認識が不足していることが多く、特に3次元(3D)シナリオにおいて、医師によってラベル付けされたトレーニンググラウンドトゥルースの非平滑性に悩まされる。例えば、図5Aを参照されたい。
臓器セグメンテーションについて、従来の方法には、統計モデル(非特許文献5)、アトラスベースの方法(非特許文献6)、動的輪郭モデル(非特許文献3)、およびレベルセット(非特許文献4)が含まれる。
アトラスベースの方法のセグメンテーション性能は、多くの場合、レジストレーションアルゴリズムおよびラベル融合アルゴリズムの精度に依存する。スネークおよびレベルセットでは、推論中に勾配降下による反復的な最適化が必要とされる。逆に、深層学習ベースの2Dセグメンテーション方法(非特許文献7)および3Dセグメンテーション方法(非特許文献8)の進歩は、より効率的かつ正確な臓器セグメンテーションを可能にした。
学習ベースの方法は、従来の方法よりも推論速度が速く精度が高いが、多くの場合、対象の臓器の解剖学的形状の認識が不足している。
ネットワークアーキテクチャおよびトレーニング損失にかかわらず、関連技術におけるセグメンテーション出力は、一貫性のない領域を含む場合があり、臓器の解剖学的形状を保護しない可能性がある。
結果として、CRF(非特許文献9)またはレベルセット(非特許文献10)などのセグメンテーション結果を精緻化してセグメンテーション表面の平滑性を高めるために、誤差補正のための後処理が必要となる。
本開示の一態様によれば、臓器セグメンテーションのためにニューラルネットワークをトレーニングするコンピュータ実装方法は、データベースからデジタルサンプル画像のセットを収集するステップと、収集されたデジタル画像のセットをニューラルネットワーク認識モデルに入力するステップと、第1のデジタル画像中の第1のオブジェクトが第2のデジタル画像中の第2のオブジェクトに類似していることに基づいて、第1のオブジェクトを特定のオブジェクトとして認識するようにニューラルネットワーク認識モデルをトレーニングするステップとを含み得る。
コンピュータ実装方法は、セグメンテーションマップと併せて符号付き距離マップ(SDM)を予測するステップを含み得る。
臓器セグメンテーションの予測は、表面が滑らかなものであり得、後処理なしで直接ノイズセグメンテーションを除去し得る。
方法は、セグメンテーションマップとSDMとを、微分可能な近似ヘビサイド関数によって接続するステップと、セグメンテーションマップ全体と導通するSDMを予測するステップとをさらに含み得る。
トレーニングするステップは、ニューラルネットワーク認識モデルの2つの出力を、微分可能な近似ヘビサイド関数によって接続するステップと、一緒にトレーニングするステップとを含み得る。
方法は、実世界の撮像画像を取得するステップと、トレーニングされたニューラルネットワーク認識モデルに入力として撮像画像を入力するステップと、トレーニングされたニューラルネットワーク認識モデルから、出力として、少なくとも1つのセグメント化された臓器を含むセグメンテーション予測データを出力するステップとをさらに含み得、ここにおいて、トレーニングされたニューラルネットワーク認識モデルが対象の実世界臓器を認識する。
ニューラルネットワーク認識モデルは、ディープ3次元(3D)U-netであり得る。
コンピュータ実装方法は、(A)デコーダにおいてダウンサンプリングを使用し、デコーダにおいて対応するアップサンプリングを使用すること、(B)バッチ正規化の代わりにグループ正規化を使用すること、および(C)活性化関数としてReLU(Rectified Linear Unit)の代わりにLeaky ReLUを使用すること、のうちの少なくとも1つを実行することによって、3D U-netを修正するステップをさらに含み得る。
修正するステップは、上に列挙した(A)~(C)の各々を含み得る。
グラフィックス処理ユニット(GPU)が、ニューラルネットワーク認識モデルの処理を実行するために使用され得る。
コンピュータ実装方法は、3D Unetによって、臓器マスクのSDMを予測するステップをさらに含み得る。
コンピュータ実装方法は、3D Unetが臓器マスクのSDMを予測した後に、ヘビサイド関数を使用して臓器マスクのSDMをセグメンテーションマスクに変換するステップをさらに含み得る。
トレーニングするステップは、セグメンテーションマスクおよびSDFを一緒に最適化することによってニューラルネットワークをトレーニングするステップを含み得る。
SDMの予測のための回帰損失は2つの部分を有し得る。損失の第1の部分は、予測されたSDFとグラウンドトゥルースSDFとの間の差を最小化し得る。第2の部分は、予測されたマスクとグラウンドトゥルースマスクとの間のDice類似度係数を最大化し得る。セグメンテーションマップおよび距離マップは、同じブランチにおいて予測され得、それによって、セグメンテーションとSDMブランチとの間の対応を保証する。
損失の第1の部分は、回帰タスクにおいて使用される共通損失を、グラウンドトゥルースSDMおよび予測されたSDMを使用する式に基づいて定義される積に基づく回帰損失と組み合わせることによって決定され得る。
損失の第2の部分は、定数からDice類似度係数を引いたものとして定義され得る。
一実施形態によれば、装置は、コンピュータプログラムコードを記憶するように構成された少なくとも1つのメモリと、少なくとも1つのメモリにアクセスし、コンピュータプログラムコードにしたがって動作するように構成された少なくとも1つのプロセッサとを備え得る。
コンピュータプログラムコードは、少なくとも1つのプロセッサに、データベースからデジタルサンプル画像のセットを収集させるように構成された収集コードと、少なくとも1つのプロセッサに、収集されたデジタル画像のセットをニューラルネットワーク認識モデルに入力させるように構成された入力コードと、少なくとも1つのプロセッサに、第1のデジタル画像中の第1のオブジェクトが第2のデジタル画像中の第2のオブジェクトに類似していることに基づいて、第1のオブジェクトを特定のオブジェクトとして認識するようにニューラルネットワーク認識モデルをトレーニングさせるように構成されたトレーニングコードであって、セグメンテーションマップと併せて符号付き距離マップ(SDM)を予測することを含む、トレーニングコードとを含み得る。
収集することは、実世界の撮像画像を取得することを含み得る。
入力することは、トレーニングされたニューラルネットワーク認識モデルに入力として撮像画像を入力することを含み得る。
コンピュータプログラムコードは、少なくとも1つのプロセッサに、トレーニングされたニューラルネットワーク認識モデルから、出力として、少なくとも1つのセグメント化された臓器を含むセグメンテーション予測データを出力させるように構成された出力コードをさらに含み得る。
トレーニングされたニューラルネットワーク認識モデルは、対象の実世界臓器を認識し得る。
ニューラルネットワーク認識モデルは、ディープ3次元(3D)U-netであり得る。
トレーニングすることは、(A)デコーダにおいてダウンサンプリングを使用し、デコーダにおいて対応するアップサンプリングを使用すること、(B)バッチ正規化の代わりにグループ正規化を使用すること、および(C)活性化関数としてReLU(Rectified Linear Unit)の代わりにLeaky ReLUを使用すること、のうちの少なくとも1つを実行することによって、3D U-netを修正することを含み得る。
出力することは、3D Unetによって、臓器マスクのSDMを予測することと、3D Unetが臓器マスクのSDMを予測した後に、ヘビサイド関数を使用して臓器マスクのSDMをセグメンテーションマスクに変換することとを含み得る。
トレーニングすることは、セグメンテーションマスクおよびSDFを一緒に最適化することによってニューラルネットワークをトレーニングすることを含み得る。
SDMの予測のための回帰損失は2つの部分を有し得、損失の第1の部分は、予測されたSDFとグラウンドトゥルースSDFとの間の差を最小化し、第2の部分は、予測されたマスクとグラウンドトゥルースマスクとの間のDice類似度係数を最大化し、ここにおいて、セグメンテーションマップおよび距離マップは、同じブランチにおいて予測され、それによって、セグメンテーションとSDMブランチとの間の対応を保証する。
一実施形態によれば、命令を記憶する非一時的コンピュータ可読記憶媒体が提供され得る。命令は、1つまたは複数のプロセッサに、データベースからデジタルサンプル画像のセットを収集することと、収集されたデジタル画像のセットをニューラルネットワーク認識モデルに入力することと、第1のデジタル画像中の第1のオブジェクトが第2のデジタル画像中の第2のオブジェクトに類似していることに基づいて、第1のオブジェクトを特定のオブジェクトとして認識するようにニューラルネットワーク認識モデルをトレーニングすることであって、セグメンテーションマップと併せて符号付き距離マップ(SDM)を予測することを含む、トレーニングすることとを行わせ得る。
開示される主題のさらなる特徴、性質、および様々な利点は、以下の詳細な説明および添付の図面からより明らかになるであろう。
一実施形態による臓器セグメンテーションのためのSDM学習モデルを含むネットワークシステムアーキテクチャの概略図である。 一実施形態による、SDMの予測のための提案された回帰損失を示す。 一実施形態による、損失値のプロットを示す。 本開示の一態様による、臓器セグメンテーションのためにニューラルネットワークをトレーニングするコンピュータ実装方法を含む、図7のコンピュータシステムによって実行され得るフローチャートを示す。 一実施形態による回帰損失を計算するための式を示す。 一実施形態によるDice損失部分を計算するための式を示す。 図5A~図5Cは、(図5A)グラウンドトゥルースアノテーション、(図5B)符号付き距離マップを予測しない場合のモデルからのセグメンテーション結果、および(図5C)符号付き距離マップを予測する場合のモデルからのセグメンテーション結果の例示的な海馬セグメンテーション比較を示す。 図6A~図6Eは、それぞれ、GT、DICE、SDM、L1 SDM+Dice、および本開示の実施形態(「本発明」)を使用した出力画像(臓器)セグメンテーションの例を示す。 一実施形態によるコンピュータシステムの概略図である。
臓器セグメンテーションのための技法は、1つまたは複数のコンピュータ可読媒体(例えば、ハードディスクドライブ)に物理的に記憶され得るコンピュータ可読命令(コード)を有するコンピュータソフトウェアを実行し得る1つまたは複数のプロセッサによって実装され得る。例えば、以下で詳細に説明される図7は、開示される主題の特定の実施形態を実装するのに適したコンピュータシステム700を示す。
従来の医用画像セグメンテーション方法では、例えば、スネーク(非特許文献3)およびレベルセット(非特許文献4)にあるように、物理的意味を持つ正則化項を追加することによって平滑性の問題を緩和することができる。
従来の方法の形状認識を活用するために、一実施形態にしたがって、本発明者らは、3D畳み込みニューラルネットワークを通して入力画像から直接、符号付き距離関数(SDF)を回帰させることを提案する。
符号付き距離マップ
いくつかの研究により、コンピュータビジョンおよびグラフィックス技術分野における符号付き距離マップ(SDM)または符号付き距離関数(SDF)の適用が検討されてきた。例えば、切り捨てられたSDFを使用してRGB-D画像上の体積表面をより良好に再構成する非特許文献11を参照されたい。非特許文献12は、線形シフトされた顕著性マップをSDFとして扱い、レベルセット平滑化項を用いた複数のトレーニング段階において、予測された顕著性マップを精緻化する。
非特許文献13は、一連の全結合層およびL1回帰損失を含むネットワークによって、点サンプルから直接連続3D SDFを学習する。
学習されたSDFは、最先端の形状表現および完了結果を取得するために使用され得る。医用画像は点サンプルよりも豊富なコンテキスト情報を含むので、臓器セグメンテーションタスクにSDM学習を適用するとき、より洗練されたネットワークアーキテクチャおよびトレーニング戦略を考慮する必要がある。
非特許文献14は、2D臓器形状予測タスクのための中間ステップとして距離マップ(符号なし)を使用することを提案している。距離マップから形状パラメータベクトルへの変換は、PCAによって行われ、セグメンテーションマップは関与しない。
しかしながら、2Dの場合よりもはるかに高次元の3D臓器セグメンテーションの場合、非特許文献14の方法を直接適用しても、小さな臓器ではうまく機能しないことがある。
より最近では、非特許文献15および16は、臓器セグメンテーションのためのトレーニング中に距離マップ予測を正則化項(regularizer)として使用する。
非特許文献15および16では、セグメンテーションマップおよび距離マップが異なるブランチにおいて予測されるので、セグメンテーションとSDMブランチとの間の対応が保証されない。
従来技術に伴う問題に鑑みて、一実施形態にしたがって、臓器セグメンテーションを学習するための新しいセグメンテーション深層学習方式および新しい損失が提供される。一実施形態によれば、セグメンテーション方式により、滑らかな表面を持ち、後処理なしで直接ノイズセグメンテーションを減らした臓器セグメンテーションを予測することができる。
図1に示されているように、一実施形態によれば、(SDF予測を介した)SDMは、臓器セグメンテーションタスクにおける正則化項であるのではなく、セグメンテーションマップと併せて予測され得る。
一実施形態によれば、2つの出力は、微分可能なヘビサイド関数を通して接続され、一緒にトレーニングされ得る。一実施形態によれば、不正確な予測に対する勾配の大きさがより大きくなり、アブレーション研究におけるL1回帰損失と比較してより良好な性能を示す新しい回帰損失が利用され得る。
したがって、一実施形態による方法は、非特許文献14および15の方法とは異なり得る。例えば、一実施形態によれば、セグメンテーションマップおよびSDMは、微分可能なヘビサイド関数によって接続され得、全体として予測され得る。
図1は、一実施形態による臓器セグメンテーションのためのSDM学習モデルを含むネットワークシステムアーキテクチャを示す。
図1に示されるように、一実施形態によれば、画像(例えば、3D医用画像)が、ディープ3D Unet(またはU-net)ニューラルネットワークのための入力として使用され得、臓器などの検出されたオブジェクトを含み得るセグメンテーション予測が出力され得る。
図1に示される実施形態によれば、トレーニング中に、SDM損失およびセグメンテーション損失によって提案されたバックボーンディープ3D UNetをトレーニングするために微分可能な近似ヘビサイド関数が使用され得る。
一実施形態によれば、3D Unet(またはU-net)が修正され得る。例えば、図1に示されるように、修正は、(1)デコーダにおいて6つのダウンサンプリングを使用し、デコーダにおいて6つの対応するアップサンプリングを使用すること、(2)一実施形態によれば、バッチサイズがGPUメモリのサイズの制限により1つに制限され得るので、バッチ正規化の代わりにグループ正規化(例えば、非特許文献17と同様のグループ正規化)を使用すること、および(3)活性化関数としてReLU(Rectified Linear Unit)の代わりにLeaky ReLUを使用すること、のうちの1つまたは複数を含み得る。
一実施形態によれば、3D UNetは、臓器マスクのSDMを予測し得る。一実施形態によれば、3D Unetは、限られたメモリを有し得るGPUなどの専用プロセッサによって実行されるモデルであり得る。
一実施形態によれば、3D Unitが臓器マスクのSDMを予測した後、SDMをセグメンテーションマスクに変換するために、(例えば、非特許文献4と同様の)ヘビサイド関数が使用され得る。
図7のコンピュータシステムによって実行され得るフローチャートである図3に示されるように、本開示の一態様によれば、臓器セグメンテーションのためにニューラルネットワークをトレーニングするコンピュータ実装方法は、データベースからデジタルサンプル画像のセットを収集するステップ(ステップ301)と、収集されたデジタル画像のセットをニューラルネットワーク認識モデルに入力するステップ(ステップ301)と、ニューラルネットワーク認識モデルをトレーニングするステップ(ステップ303)とを含み得る。
一実施形態によれば、ステップ303は、第1のデジタル画像中の第1のオブジェクトが第2のデジタル画像中の第2のオブジェクトに類似していることに基づいて、第1のオブジェクトを特定のオブジェクトとして認識するようにニューラルネットワーク認識モデルをトレーニングするステップを含み得る。
コンピュータ実装方法は、セグメンテーションマップと併せて符号付き距離マップ(SDM)を予測するステップを含み得る。
臓器セグメンテーションの予測は、表面が滑らかなものであり得、後処理なしで直接ノイズセグメンテーションを除去し得る。
方法は、セグメンテーションマップとSDMとを、微分可能な近似ヘビサイド関数によって接続するステップと、セグメンテーションマップ全体と導通するSDMを予測するステップとをさらに含み得る。
トレーニングするステップは、ニューラルネットワーク認識モデルの2つの出力を、微分可能な近似ヘビサイド関数によって接続するステップと、一緒にトレーニングするステップとを含み得る。
方法は、実世界の撮像画像を取得するステップと、トレーニングされたニューラルネットワーク認識モデルに入力として撮像画像を入力するステップと、トレーニングされたニューラルネットワーク認識モデルから、出力として、少なくとも1つのセグメント化された臓器を含むセグメンテーション予測データを出力するステップとをさらに含み得、ここにおいて、トレーニングされたニューラルネットワーク認識モデルが対象の実世界臓器を認識する。
ニューラルネットワーク認識モデルは、ディープ3次元(3D)U-netであり得る。
コンピュータ実装方法は、(A)デコーダにおいてダウンサンプリングを使用し、デコーダにおいて対応するアップサンプリングを使用すること、(B)バッチ正規化の代わりにグループ正規化を使用すること、および(C)活性化関数としてReLU(Rectified Linear Unit)の代わりにLeaky ReLUを使用すること、のうちの少なくとも1つを実行することによって、3D U-netを修正するステップをさらに含み得る。
修正するステップは、上に列挙した(A)~(C)の各々を含み得る。
グラフィックス処理ユニット(GPU)が、ニューラルネットワーク認識モデルの処理を実行するために使用され得る。
コンピュータ実装方法は、3D Unetによって、臓器マスクのSDMを予測するステップをさらに含み得る。
コンピュータ実装方法は、3D Unetが臓器マスクのSDMを予測した後に、ヘビサイド関数を使用して臓器マスクのSDMをセグメンテーションマスクに変換するステップをさらに含み得る。
トレーニングするステップは、セグメンテーションマスクおよびSDFを一緒に最適化することによってニューラルネットワークをトレーニングするステップを含み得る。
SDMの予測のための回帰損失は2つの部分を有し得る。損失の第1の部分は、予測されたSDFとグラウンドトゥルースSDFとの間の差を最小化し得る。第2の部分は、予測されたマスクとグラウンドトゥルースマスクとの間のDice類似度係数を最大化し得る。セグメンテーションマップおよび距離マップは、同じブランチにおいて予測され得、それによって、セグメンテーションとSDMブランチとの間の対応を保証する。
損失の第1の部分は、回帰タスクにおいて使用される共通損失を、グラウンドトゥルースSDMおよび予測されたSDMを使用する式に基づいて定義される積に基づく回帰損失と組み合わせることによって決定され得る。
損失の第2の部分は、定数からDice類似度係数を引いたものとして定義され得る。
一実施形態によれば、装置は、コンピュータプログラムコードを記憶するように構成された少なくとも1つのメモリと、少なくとも1つのメモリにアクセスし、コンピュータプログラムコードにしたがって動作するように構成された少なくとも1つのプロセッサとを備え得る。
コンピュータプログラムコードは、少なくとも1つのプロセッサに、データベースからデジタルサンプル画像のセットを収集させるように構成された収集コードと、少なくとも1つのプロセッサに、収集されたデジタル画像のセットをニューラルネットワーク認識モデルに入力させるように構成された入力コードと、少なくとも1つのプロセッサに、第1のデジタル画像中の第1のオブジェクトが第2のデジタル画像中の第2のオブジェクトに類似していることに基づいて、第1のオブジェクトを特定のオブジェクトとして認識するようにニューラルネットワーク認識モデルをトレーニングさせるように構成されたトレーニングコードであって、セグメンテーションマップと併せて符号付き距離マップ(SDM)を予測することを含む、トレーニングコードとを含み得る。
収集することは、実世界の撮像画像を取得することを含み得る。
入力することは、トレーニングされたニューラルネットワーク認識モデルに入力として撮像画像を入力することを含み得る。
コンピュータプログラムコードは、少なくとも1つのプロセッサに、トレーニングされたニューラルネットワーク認識モデルから、出力として、少なくとも1つのセグメント化された臓器を含むセグメンテーション予測データを出力させるように構成された出力コードをさらに含み得る。
トレーニングされたニューラルネットワーク認識モデルは、対象の実世界臓器を認識し得る。
ニューラルネットワーク認識モデルは、ディープ3次元(3D)U-netであり得る。
トレーニングすることは、(A)デコーダにおいてダウンサンプリングを使用し、デコーダにおいて対応するアップサンプリングを使用すること、(B)バッチ正規化の代わりにグループ正規化を使用すること、および(C)活性化関数としてReLU(Rectified Linear Unit)の代わりにLeaky ReLUを使用すること、のうちの少なくとも1つを実行することによって、3D U-netを修正することを含み得る。
出力することは、3D Unetによって、臓器マスクのSDMを予測することと、3D Unetが臓器マスクのSDMを予測した後に、ヘビサイド関数を使用して臓器マスクのSDMをセグメンテーションマスクに変換することとを含み得る。
トレーニングすることは、セグメンテーションマスクおよびSDFを一緒に最適化することによってニューラルネットワークをトレーニングすることを含み得る。
SDMの予測のための回帰損失は2つの部分を有し得、損失の第1の部分は、予測されたSDFとグラウンドトゥルースSDFとの間の差を最小化し、第2の部分は、予測されたマスクとグラウンドトゥルースマスクとの間のDice類似度係数を最大化し、ここにおいて、セグメンテーションマップおよび距離マップは、同じブランチにおいて予測され、それによって、セグメンテーションとSDMブランチとの間の対応を保証する。
一実施形態によれば、命令を記憶する非一時的コンピュータ可読記憶媒体が提供され得る。命令は、1つまたは複数のプロセッサに、データベースからデジタルサンプル画像のセットを収集することと、収集されたデジタル画像のセットをニューラルネットワーク認識モデルに入力することと、第1のデジタル画像中の第1のオブジェクトが第2のデジタル画像中の第2のオブジェクトに類似していることに基づいて、第1のオブジェクトを特定のオブジェクトとして認識するようにニューラルネットワーク認識モデルをトレーニングすることであって、セグメンテーションマップと併せて符号付き距離マップ(SDM)を予測することを含む、トレーニングすることとを行わせ得る。
一実施形態によれば、ニューラルネットワークは、セグメンテーションマスクおよびSDFを一緒に最適化することによってトレーニングされ得る。
一実施形態によれば、損失は2つの部分を有し得る。一実施形態によれば、損失の第1の部分は、予測されたSDFとグラウンドトゥルースSDFとの間の差を最小化し得、第2の部分は、予測されたマスクとグラウンドトゥルースマスクとの間のDice(係数)を最大化し得る。
図2Aは、一実施形態による、SDMの予測のための提案された回帰損失を示す。一実施形態によれば、すべてのSDM値が正規化され得る。
図2Bは、一実施形態による、0:5のグラウンドトゥルースSDM値を与えられた損失値のプロットを示す。図2Bにおいて、線L1’は、本開示の実施形態による提案された損失とL1損失との組合せを表し得る。
本開示の一実施形態によれば、SDM損失部分は、回帰問題として定式化され得る。一実施形態によれば、L1損失は、回帰タスクで使用される共通損失である。しかしながら、多臓器セグメンテーションタスクの場合、L1損失によるトレーニングは、不安定なトレーニングプロセスにつながることがある。
L1損失の欠点を克服するために、一実施形態によれば、L1’損失は、L1損失を、式に基づいて定義される積に基づく提案された回帰損失と組み合わせることによって決定され得る。例えば、一実施形態によれば、回帰損失は、図4Aの式に基づいて計算され得、ここで、yはグラウンドトゥルースSDMを表し、pは予測されたSDMを表す。
一実施形態によれば、予測とグラウンドトゥルースとの積を取ることで、誤った符号を有することに関して出力SDMにペナルティが与えられ得る。
一実施形態によれば、Dice損失部分に関して、損失は、定数からDice類似度係数を引いたものとして定義され得る。例えば、Dice損失部分は、図4Bの式に基づいて計算され得、ここで、Nはクラスの数であり、tは第tの臓器クラスを示す。yおよびpは、それぞれ、グラウンドトゥルースアノテーションおよびモデル予測を表す(εは、数値問題を回避するために小さい値を有する項であり得る)。
現在の最先端の臓器セグメンテーションシステムは、深層学習ベースの方法(Roth et al.2015)が多数を占めているが、それらは、実現可能な形状の認識が不足していることが多く、特に3次元(3D)シナリオにおいて、医師によってラベル付けされたトレーニンググラウンドトゥルースの非平滑性に悩まされる。一例として、海馬のグラウンドトゥルースラベルは、3D表面ではなく2次元(2D)スライスにおいて輪郭によってアノテーション付与されるので、一貫した連続的な形状を維持しない場合がある。例えば、図5Aを参照されたい。
図5A~図5Cは、(図5A)2Dにおけるアノテーションの不一致により3Dビューにおいて平滑性を欠くグラウンドトゥルースアノテーション、(図5B)符号付き距離マップを予測しない場合のモデルからのセグメンテーション結果、および(図5C)全体形状を保ちながら図5Aおよび図5Bよりも明らかに平滑である、符号付き距離マップを予測する場合のモデルからのセグメンテーション結果の例示的な海馬セグメンテーション比較を示す。
図1は、本開示による実施形態の例示的なフローを示す。
一実施形態によれば、ニューラルネットワークは、画像(例えば、3D医用画像)を入力として受信し得る。一実施形態によれば、ニューラルネットワークは、SDF予測を出力し得る。一実施形態によれば、ニューラルネットワークは、図1に示されるように、1つまたは複数のスキップ接続(例えば、非線形処理の1つまたは複数の層をスキップするニューラルネットワークの異なる層におけるノード間の1つまたは複数の余分な接続)を含み得る。
一実施形態によれば、損失は、2つの部分を有し得る。一実施形態によれば、損失の2つの部分は、予測されたSDFとグラウンドトゥルースSDFとの間の差を最小化する第1の部分と、予測されたマスクとグラウンドトゥルースマスクとの間のダイスを最大化する第2の部分とを含み得る。
図8Aおよび8Bは、一実施形態による、損失を示す。
一実施形態によれば、SDM損失部分は、回帰問題として定式化され得る。一実施形態によれば、L1損失は、回帰タスクで使用される共通損失である。しかしながら、L1損失によるトレーニングは、不安定なトレーニングプロセスにつながることがある(例えば、多臓器セグメンテーションタスクのためにトレーニングするとき)。L1損失の欠点を克服するために、一実施形態によれば、L1損失は、回帰損失L’と組み合わされる。一実施形態によれば、回帰損失L’は、図4Aの式に基づく積に基づき得る。
一実施形態によれば、予測とグラウンドトゥルースとの積を取ることの背後にある直感は、誤った符号を有することに関して出力SDMにペナルティを与えることである。
図6A~6Eは、GT、DICE、SDM、L1 SDM+Diceおよび本開示の一実施形態(「本発明」)を使用した出力画像(臓器)セグメンテーションの例を示す。具体的には、図6AはGTを示し、図6BはDiceを示し、図6CはSDMを示し、図6DはL1 SDM+Diceを示し、図6Eは本開示の実施形態(「本発明」)を示す。
図7に示されるように、コンピュータソフトウェアは、コンピュータ中央処理装置(CPU)、グラフィックス処理ユニット(GPU)などによって直接実行可能であるか、または解釈やマイクロコード実行などを介して実行可能な命令を含むコードを作成するために、アセンブリ、コンパイル、リンク、または同様の機構に従い得る任意の適切な機械コードまたはコンピュータ言語を使用してコーディングされ得る。
命令は、例えば、パーソナルコンピュータ、タブレットコンピュータ、サーバ、スマートフォン、ゲームデバイス、モノのインターネットデバイスなどを含む、様々なタイプのコンピュータまたはその構成要素上で実行され得る。
コンピュータシステム700について図7に示される構成要素は、本質的に例示的なものであり、本開示の実施形態を実装するコンピュータソフトウェアの使用または機能の範囲に関していかなる限定も示唆することを意図していない。構成要素の構成は、コンピュータシステム700の例示的な実施形態に示された構成要素のいずれか1つまたは組合せに関して何らかの依存関係または要件を有するものと解釈されるべきでもない。
コンピュータシステム700は、特定のヒューマンインターフェース入力デバイスを含み得る。そのようなヒューマンインターフェース入力デバイスは、例えば、触覚入力(キーストローク、スワイプ、データグローブの動きなど)、オーディオ入力(声、拍手など)、視覚入力(ジェスチャなど)、嗅覚入力などを用いた、1人または複数の人間のユーザによる入力に応答し得る。ヒューマンインターフェースデバイスはまた、オーディオ(スピーチ、音楽、周囲音など)、画像(CT画像、スキャン画像、静止画像カメラから得られる写真画像など)、ビデオ(2次元ビデオ、立体ビデオを含む3次元ビデオなど)など、必ずしも人間による意識的な入力に直接関連しない特定のメディアをキャプチャするために使用され得る。
入力ヒューマンインターフェースデバイスは、キーボード701、マウス702、トラックパッド703、タッチスクリーン710、データグローブ704、ジョイスティック705、マイクロフォン706、スキャナ707、カメラ708などのうちの1つまたは複数(それぞれ1つのみ図示)を含み得る。一実施形態によれば、カメラ708はCTスキャナであってもよい。一実施形態によれば、カメラ708は医療用撮像デバイスであってもよい。
コンピュータシステム700はまた、特定のヒューマンインターフェース出力デバイスを含み得る。そのようなヒューマンインターフェース出力デバイスは、例えば、触知出力、音、光、および匂い/味を通して、1人または複数の人間のユーザの感覚を刺激し得る。そのようなヒューマンインターフェース出力デバイスは、触覚出力デバイス(例えば、タッチスクリーン710、データグローブ704、またはジョイスティック705による触覚フィードバックであるが、入力デバイスとして機能しない触覚フィードバックデバイスもあり得る)、オーディオ出力デバイス(スピーカ709、ヘッドフォン(図示せず)など)、視覚出力デバイス(CRTスクリーン、LCDスクリーン、プラズマスクリーン、OLEDスクリーンを含むスクリーン710などであって、各々がタッチスクリーン入力機能を有するかまたは有さず、各々が触覚フィードバック機能を有するかまたは有さず、そのうちのいくつかは、ステレオグラフィック出力などの手段により2次元視覚出力または3次元以上の出力を出力することが可能であり得る)、仮想現実メガネ、ホログラフィックディスプレイおよびスモークタンク、ならびにプリンタを含み得る。
コンピュータシステム700はまた、人間がアクセス可能な記憶デバイスと、CD/DVDまたは同様の媒体721を有するCD/DVD ROM/RW720を含む光媒体、サムドライブ722、リムーバブルハードドライブまたはソリッドステートドライブ723、テープおよびフロッピー(登録商標)ディスクなどのレガシー磁気媒体(図示せず)、セキュリティドングルなどの専用ROM/ASIC/PLDベースのデバイス(図示せず)などの関連媒体とを含むことができる。
当業者はまた、本明細書で開示される主題に関連して使用される「コンピュータ可読媒体(computer readable media)」または「コンピュータ可読媒体(computer readable medium)」という用語が、非一時的コンピュータ可読媒体に対応し、伝送媒体、搬送波、または他の一時的信号を包含しないことを理解すべきである。
コンピュータシステム700はまた、1つまたは複数の通信ネットワークへのインターフェースを含むことができる。ネットワークは、例えば、ワイヤレス、ワイヤーライン、光であり得る。ネットワークはさらに、ローカル、ワイドエリア、メトロポリタン、車両および産業用、リアルタイム、遅延耐性などであり得る。ネットワークの例には、イーサネット(登録商標)などのローカルエリアネットワーク、ワイヤレスLAN、GSM(登録商標)、3G、4G、5G、LTEなどを含むセルラーネットワーク、ケーブルTV、衛星TV、および地上波放送TVを含むTVワイヤーラインまたはワイヤレス広域デジタルネットワーク、CANBusを含む車両用および産業用ネットワークなどが含まれる。特定のネットワークは、一般に、特定の汎用データポートまたは周辺バス(749)(例えば、コンピュータシステム700のUSBポートなど)に取り付けられる外部ネットワークインターフェースアダプタを必要とし、他のものは、一般に、以下で説明するように、システムバスに取り付けることによってコンピュータシステム700のコアに統合される(例えば、PCコンピュータシステムへのイーサネットインターフェースまたはスマートフォンコンピュータシステムへのセルラーネットワークインターフェース)。これらのネットワークのいずれかを使用して、コンピュータシステム700は、他のエンティティと通信することができる。そのような通信は、単方向、受信専用(例えば、放送TV)、単方向送信専用(例えば、特定のCANBusデバイスへのCANBus)、または例えば、ローカルまたは広域デジタルネットワークを使用して他のコンピュータシステムへの双方向であり得る。特定のプロトコルおよびプロトコルスタックは、上述したように、それらのネットワークおよびネットワークインターフェースの各々において使用され得る。
前述のヒューマンインターフェースデバイス、人間がアクセス可能な記憶デバイス、およびネットワークインターフェースは、コンピュータシステム700のコア740に取り付けられ得る。
コア740は、1つまたは複数の中央処理装置(CPU)741、グラフィックス処理ユニット(GPU)742、フィールドプログラマブルゲートエリア(FPGA)の形態の専用プログラマブル処理ユニット743、特定のタスクのためのハードウェアアクセラレータ744などを含むことができる。これらのデバイスは、読み出し専用メモリ(ROM)745、ランダムアクセスメモリ746、内部非ユーザアクセスハードドライブ、SSDなどの内部大容量記憶装置747とともに、システムバス748を通して接続され得る。いくつかのコンピュータシステムでは、システムバス748は、追加のCPU、GPUなどによる拡張を可能にするために、1つまたは複数の物理プラグの形態でアクセス可能であり得る。周辺デバイスは、コアのシステムバス748に直接取り付けられ得るか、または周辺バス749を通して取り付けられ得る。周辺バスのアーキテクチャには、PCI、USBなどが含まれる。
CPU741、GPU742、FPGA743、およびアクセラレータ744は、組み合わせて、前述のコンピュータコードを構成することができる特定の命令を実行することができる。このコンピュータコードは、ROM745またはRAM746に記憶され得る。遷移データもRAM746に記憶され得るのに対して、永久データは、例えば、内部大容量記憶装置747に記憶され得る。メモリデバイスのいずれかへの高速記録および取り出しは、1つまたは複数のCPU741、GPU742、大容量記憶装置747、ROM745、RAM746などに密接に関連付けることができるキャッシュメモリの使用により可能になる。
一実施形態によれば、CPUは、ニューラルネットワーク処理を実行するために、GPU、FPGA、またはアクセラレータのうちの1つまたは複数を使用し得る。
コンピュータ可読媒体は、様々なコンピュータ実装動作を実行するためのコンピュータコードを有することができる。媒体およびコンピュータコードは、本開示の目的のために特別に設計および構築されたものであってもよく、またはコンピュータソフトウェア分野の当業者に周知であり、かつ当業者が利用可能な種類のものであってもよい。
限定ではなく例として、アーキテクチャ700、具体的にはコア740を有するコンピュータシステムは、プロセッサ(複数可)(CPU、GPU、FPGA、アクセラレータなどを含む)が1つまたは複数の有形のコンピュータ可読媒体において具現化されたソフトウェアを実行した結果として機能を提供することができる。そのようなコンピュータ可読媒体は、上で紹介したようなユーザアクセス可能な大容量記憶装置、およびコア内部大容量記憶装置747またはROM745などの非一時的な性質のコア740の特定の記憶装置に関連付けられた媒体であり得る。本開示の様々な実施形態を実装するソフトウェアは、そのようなデバイス内に記憶され、コア740によって実行され得る。コンピュータ可読媒体は、特定の必要性に応じて、1つまたは複数のメモリデバイスまたはチップを含むことができる。ソフトウェアは、コア740および具体的にはその中のプロセッサ(CPU、GPU、FPGAなどを含む)に、RAM746に記憶されたデータ構造を定義すること、およびソフトウェアによって定義されたプロセスにしたがってそのようなデータ構造を修正することを含む、本明細書で説明される特定のプロセスまたは特定のプロセスの特定の部分を実行させることができる。加えて、または代替として、コンピュータシステムは、回路(例えば、アクセラレータ744)内に配設接続または別様に具現化された論理の結果として、機能を提供することができ、これは、本明細書に説明される特定のプロセスまたは特定のプロセスの特定の部分を実行するために、ソフトウェアの代わりにまたはそれと一緒に動作することができる。ソフトウェアへの言及は、適切な場合、論理を包含することができ、逆もまた同様である。コンピュータ可読媒体への言及は、適切な場合、実行のためのソフトウェアを記憶する回路(集積回路(IC)など)、実行のための論理を具現化する回路、またはその両方を包含することができる。本開示は、ハードウェアおよびソフトウェアの任意の適切な組み合わせを包含する。
利点
1)ネットワークの直接出力が滑らかなままであり、小さなスパークルがないので、後処理を必要としない。
2)任意の既存の3Dセグメンテーションネットワークは、追加のオーバーヘッドをほとんど伴わずにSDM予測モデルを組み込むように容易に適合され得る。
本開示は、いくつかの例示的な実施形態を説明してきたが、本開示の範囲内に入る変更、置換、および様々な代替の同等物が存在する。したがって、当業者であれば、本明細書で明示的に図示または説明されていないが、本開示の原理を具現化し、したがって本開示の趣旨および範囲内にある多数のシステムおよび方法を考案することができることが理解されよう。

Claims (15)

  1. 臓器セグメンテーションのためにニューラルネットワークをトレーニングするコンピュータ実装方法であって、
    データベースからデジタルサンプル画像のセットを収集するステップと、
    前記収集されたデジタルサンプル画像のセットをニューラルネットワーク認識モデルに入力するステップと、
    第1のデジタルサンプル画像中の第1のオブジェクトが第2のデジタルサンプル画像中の第2のオブジェクトに類似していることに基づいて、前記第1のオブジェクトを特定のオブジェクトとして認識するように前記ニューラルネットワーク認識モデルをトレーニングするステップであって、前記コンピュータ実装方法が、セグメンテーションマップと併せて符号付き距離マップ(SDM)を予測するステップを含む、ステップと
    を含む、コンピュータ実装方法。
  2. 滑らかな表面を持つ臓器セグメンテーションを予測するステップと、後処理なしで直接ノイズセグメンテーションを除去するステップとをさらに含む、請求項1に記載のコンピュータ実装方法。
  3. 前記セグメンテーションマップと前記SDMとを、微分可能な近似ヘビサイド関数によって接続するステップと、前記セグメンテーションマップ全体と導通する前記SDMを予測するステップとをさらに含み、前記トレーニングするステップは、前記ニューラルネットワーク認識モデルの2つの出力を、前記微分可能な近似ヘビサイド関数によって接続するステップと、一緒にトレーニングするステップとを含む、請求項1に記載のコンピュータ実装方法。
  4. 実世界の撮像画像を取得するステップと、
    前記トレーニングされたニューラルネットワーク認識モデルに入力として前記撮像画像を入力するステップと、
    前記トレーニングされたニューラルネットワーク認識モデルから、出力として、少なくとも1つのセグメント化された臓器を含むセグメンテーション予測データを出力するステップと
    をさらに含み、ここにおいて、前記トレーニングされたニューラルネットワーク認識モデルが対象の実世界臓器を認識する、請求項1に記載のコンピュータ実装方法。
  5. 前記ニューラルネットワーク認識モデルは、ディープ3次元(3D)U-netである、請求項1に記載のコンピュータ実装方法。
  6. (A)デコーダにおいてダウンサンプリングを使用し、前記デコーダにおいて対応するアップサンプリングを使用すること、(B)バッチ正規化の代わりにグループ正規化を使用すること、および(C)活性化関数としてReLU(Rectified Linear Unit)の代わりにLeaky ReLUを使用すること、のうちの少なくとも1つを実行することによって、前記3D U-netを修正するステップをさらに含む、請求項5に記載のコンピュータ実装方法。
  7. グラフィックス処理ユニット(GPU)が、前記ニューラルネットワーク認識モデルの処理を実行するために使用される、請求項1に記載のコンピュータ実装方法。
  8. 前記3D Unetによって、臓器マスクの前記SDMを予測するステップをさらに含む、請求項5に記載のコンピュータ実装方法。
  9. 前記3D Unetが前記臓器マスクの前記SDMを予測した後に、ヘビサイド関数を使用して前記臓器マスクの前記SDMをセグメンテーションマスクに変換するステップをさらに含む、請求項8に記載のコンピュータ実装方法。
  10. 前記トレーニングするステップは、前記セグメンテーションマスクおよび符号付き距離関数(SDF)を一緒に最適化することによって前記ニューラルネットワークをトレーニングするステップを含む、請求項9に記載のコンピュータ実装方法。
  11. 前記SDMの予測のための回帰損失は2つの部分を有し、前記回帰損失の第1の部分は、前記予測されたSDFとグラウンドトゥルースSDFとの間の差を最小化し、前記回帰損失の第2の部分は、予測されたマスクとグラウンドトゥルースマスクとの間のDice類似度係数を最大化し、ここにおいて、前記セグメンテーションマップおよび距離マップは、同じブランチにおいて予測され、それによって、前記セグメンテーションとSDMブランチとの間の対応を保証する、請求項10に記載のコンピュータ実装方法。
  12. 前記回帰損失の前記第1の部分は、回帰タスクにおいて使用される共通損失を、グラウンドトゥルースSDMおよび前記予測されたSDMを使用する式に基づいて定義される積に基づく回帰損失と組み合わせることによって決定される、請求項11に記載のコンピュータ実装方法。
  13. 前記回帰損失の前記第2の部分は、定数から前記Dice類似度係数を引いたものとして定義される、請求項11に記載のコンピュータ実装方法。
  14. コンピュータプログラムコードを記憶するように構成された少なくとも1つのメモリと、
    前記少なくとも1つのメモリにアクセスし、前記コンピュータプログラムコードにしたがって動作するように構成された少なくとも1つのプロセッサと
    を備える装置であって、前記コンピュータプログラムコードが、前記少なくとも1つのプロセッサに、請求項1乃至13のいずれか一項に記載の方法を実行させる、装置。
  15. コンピュータに、請求項1乃至13のいずれか一項に記載の方法を実行させるコンピュータプログラム。
JP2022554304A 2020-05-07 2021-03-04 符号付き距離マップの予測による形状認識臓器セグメンテーション Active JP7376729B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US16/869,012 US11301999B2 (en) 2020-05-07 2020-05-07 Shape-aware organ segmentation by predicting signed distance maps
US16/869,012 2020-05-07
PCT/US2021/020836 WO2021225680A1 (en) 2020-05-07 2021-03-04 Shape-aware organ segmentation by predicting signed distance maps

Publications (2)

Publication Number Publication Date
JP2023517216A true JP2023517216A (ja) 2023-04-24
JP7376729B2 JP7376729B2 (ja) 2023-11-08

Family

ID=78412916

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022554304A Active JP7376729B2 (ja) 2020-05-07 2021-03-04 符号付き距離マップの予測による形状認識臓器セグメンテーション

Country Status (6)

Country Link
US (1) US11301999B2 (ja)
EP (1) EP4097679A4 (ja)
JP (1) JP7376729B2 (ja)
KR (1) KR20220162153A (ja)
CN (1) CN115552464A (ja)
WO (1) WO2021225680A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115330590B (zh) * 2022-08-24 2023-07-11 苏州大学 一种图像风格迁移方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009502354A (ja) * 2005-07-28 2009-01-29 ベラソン インコーポレイテッド 心臓の画像化のシステムと方法
US20190192880A1 (en) * 2016-09-07 2019-06-27 Elekta, Inc. System and method for learning models of radiotherapy treatment plans to predict radiotherapy dose distributions

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8073252B2 (en) * 2006-06-09 2011-12-06 Siemens Corporation Sparse volume segmentation for 3D scans
US10420523B2 (en) * 2016-03-21 2019-09-24 The Board Of Trustees Of The Leland Stanford Junior University Adaptive local window-based methods for characterizing features of interest in digital images and systems for practicing same
EP3432263B1 (en) * 2017-07-17 2020-09-16 Siemens Healthcare GmbH Semantic segmentation for cancer detection in digital breast tomosynthesis
US11517768B2 (en) * 2017-07-25 2022-12-06 Elekta, Inc. Systems and methods for determining radiation therapy machine parameter settings
US11756160B2 (en) * 2018-07-27 2023-09-12 Washington University ML-based methods for pseudo-CT and HR MR image estimation
CN109949321B (zh) 2019-03-26 2019-12-10 电子科技大学 基于三维Unet网络的脑部核磁共振图像组织分割方法
US10943353B1 (en) * 2019-09-11 2021-03-09 International Business Machines Corporation Handling untrainable conditions in a network architecture search
US10984530B1 (en) * 2019-12-11 2021-04-20 Ping An Technology (Shenzhen) Co., Ltd. Enhanced medical images processing method and computing device
US11030747B1 (en) * 2020-03-04 2021-06-08 Xue Feng System and method for automatic thoracic organ segmentation from CT using a deep learning framework

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009502354A (ja) * 2005-07-28 2009-01-29 ベラソン インコーポレイテッド 心臓の画像化のシステムと方法
US20190192880A1 (en) * 2016-09-07 2019-06-27 Elekta, Inc. System and method for learning models of radiotherapy treatment plans to predict radiotherapy dose distributions

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
YUAN XUE ET AL.: "Shape-Aware Organ Segmentation by Predicting Signed Distance Maps", ARXIV.ORG [ONLINE], JPN7023002313, 9 December 2019 (2019-12-09), US, ISSN: 0005087966 *

Also Published As

Publication number Publication date
US11301999B2 (en) 2022-04-12
KR20220162153A (ko) 2022-12-07
US20210350528A1 (en) 2021-11-11
WO2021225680A1 (en) 2021-11-11
EP4097679A1 (en) 2022-12-07
JP7376729B2 (ja) 2023-11-08
CN115552464A (zh) 2022-12-30
EP4097679A4 (en) 2023-05-24

Similar Documents

Publication Publication Date Title
Chlap et al. A review of medical image data augmentation techniques for deep learning applications
Zhao et al. Knowledge-aided convolutional neural network for small organ segmentation
Zhu et al. How can we make GAN perform better in single medical image super-resolution? A lesion focused multi-scale approach
Sun et al. Anatomical attention guided deep networks for ROI segmentation of brain MR images
EP3735176A1 (en) Systems and methods for the segmentation of multi-modal image data
McKinley et al. Nabla-net: A deep dag-like convolutional architecture for biomedical image segmentation
Poudel et al. Evaluation of commonly used algorithms for thyroid ultrasound images segmentation and improvement using machine learning approaches
Le et al. Overview of machine learning: part 2: deep learning for medical image analysis
Benčević et al. Training on polar image transformations improves biomedical image segmentation
Jung et al. Deep learning for medical image analysis: Applications to computed tomography and magnetic resonance imaging
EP3555850A1 (en) System and method for image segmentation using a joint deep learning model
Zeng et al. Liver segmentation in magnetic resonance imaging via mean shape fitting with fully convolutional neural networks
Maity et al. Automatic lung parenchyma segmentation using a deep convolutional neural network from chest X-rays
Hammon et al. Model-based pancreas segmentation in portal venous phase contrast-enhanced CT images
La Rosa A deep learning approach to bone segmentation in CT scans
JP7376729B2 (ja) 符号付き距離マップの予測による形状認識臓器セグメンテーション
Yamasaki et al. GrowCut-based fast tumor segmentation for 3D magnetic resonance images
Hossain et al. Residual semantic segmentation of the prostate from magnetic resonance images
Mortazi et al. Weakly supervised segmentation by a deep geodesic prior
Ammari et al. Deep-active-learning approach towards accurate right ventricular segmentation using a two-level uncertainty estimation
Bhatt et al. A study on deep learning models for medical image segmentation
Geethanjali et al. Semantic segmentation of tumors in kidneys using attention U-Net models
Srivastava et al. Analytical study of the encoder-decoder models for ultrasound image segmentation
Goyal Shallow SegNet with bilinear interpolation and weighted cross-entropy loss for Semantic segmentation of brain tissue
Farsana et al. Dilated multi-scale-link net with merged self attention based fetal head segmentation using 2d ultra sound image

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220908

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230620

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230915

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20231003

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20231026

R150 Certificate of patent or registration of utility model

Ref document number: 7376729

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150