JP7203978B2 - 学習装置、方法およびプログラム、関心領域抽出装置、方法およびプログラム、並びに学習済み抽出モデル - Google Patents

学習装置、方法およびプログラム、関心領域抽出装置、方法およびプログラム、並びに学習済み抽出モデル Download PDF

Info

Publication number
JP7203978B2
JP7203978B2 JP2021534066A JP2021534066A JP7203978B2 JP 7203978 B2 JP7203978 B2 JP 7203978B2 JP 2021534066 A JP2021534066 A JP 2021534066A JP 2021534066 A JP2021534066 A JP 2021534066A JP 7203978 B2 JP7203978 B2 JP 7203978B2
Authority
JP
Japan
Prior art keywords
image
decoder
learning
discriminator
encoder
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021534066A
Other languages
English (en)
Other versions
JPWO2021015231A5 (ja
JPWO2021015231A1 (ja
Inventor
彰 工藤
嘉郎 北村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Corp
Original Assignee
Fujifilm Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujifilm Corp filed Critical Fujifilm Corp
Publication of JPWO2021015231A1 publication Critical patent/JPWO2021015231A1/ja
Publication of JPWO2021015231A5 publication Critical patent/JPWO2021015231A5/ja
Application granted granted Critical
Publication of JP7203978B2 publication Critical patent/JP7203978B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B6/00Apparatus or devices for radiation diagnosis; Apparatus or devices for radiation diagnosis combined with radiation therapy equipment
    • A61B6/52Devices using data or image processing specially adapted for radiation diagnosis
    • A61B6/5211Devices using data or image processing specially adapted for radiation diagnosis involving processing of medical diagnostic data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B6/00Apparatus or devices for radiation diagnosis; Apparatus or devices for radiation diagnosis combined with radiation therapy equipment
    • A61B6/52Devices using data or image processing specially adapted for radiation diagnosis
    • A61B6/5211Devices using data or image processing specially adapted for radiation diagnosis involving processing of medical diagnostic data
    • A61B6/5229Devices using data or image processing specially adapted for radiation diagnosis involving processing of medical diagnostic data combining image data of a patient, e.g. combining a functional image with an anatomical image
    • A61B6/5247Devices using data or image processing specially adapted for radiation diagnosis involving processing of medical diagnostic data combining image data of a patient, e.g. combining a functional image with an anatomical image combining images from an ionising-radiation diagnostic technique and a non-ionising radiation diagnostic technique, e.g. X-ray and ultrasound
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/7715Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B6/00Apparatus or devices for radiation diagnosis; Apparatus or devices for radiation diagnosis combined with radiation therapy equipment
    • A61B6/02Arrangements for diagnosis sequentially in different planes; Stereoscopic radiation diagnosis
    • A61B6/03Computed tomography [CT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/03Recognition of patterns in medical or anatomical images

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Pathology (AREA)
  • Heart & Thoracic Surgery (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Optics & Photonics (AREA)
  • Biophysics (AREA)
  • Radiology & Medical Imaging (AREA)
  • Biomedical Technology (AREA)
  • High Energy & Nuclear Physics (AREA)
  • Molecular Biology (AREA)
  • Surgery (AREA)
  • Animal Behavior & Ethology (AREA)
  • Public Health (AREA)
  • Veterinary Medicine (AREA)
  • Image Analysis (AREA)
  • Apparatus For Radiation Diagnosis (AREA)

Description

本開示は、画像から関心領域を抽出する抽出モデルを学習する学習装置、方法およびプログラム、画像から関心領域を抽出する関心領域抽出装置、方法およびプログラム、並びに学習済み抽出モデルに関するものである。
データを作り出す「Generator」(ジェネレータ)と、データを識別する「Discriminator」(ディスクリミネータ)とを交互に学習する敵対的生成ネットワーク(Generative Adversarial Networks:GAN)が提案されている。例えば、下記の非特許文献1には、GANに関する研究が記載されている。GANによれば、学習データの特徴に沿った精度の高いデータを生成する生成モデルを学習することができる。
また、下記の非特許文献2には、ソースおよびターゲットという2つの異なるドメイン間において、ドメイン適応を行う技術も提案されている。非特許文献2に記載された手法は、ソース画像とターゲット画像の特徴量空間を近づけるように学習をするアイデアに基づくものであり、非特許文献2に記載の手法により、十分な教師ラベルを持つソースドメインを利用して、教師ラベルがないかまたは少ないターゲットドメインを、高い精度で学習することができる。
また、下記の非特許文献3には、単一のジェネレータとディスクリミネータとを用いて、マルチモーダルなドメイン変換を実現するネットワークが提案されている。非特許文献3に記載された手法は、ジェネレータの入力に変換対象の画像(例えば人物の顔画像)の各種表情(例えば、金髪、黒髪、笑顔および怒り顔等)をドメインラベルとして同時に与え、ディスクリミネータにおいては、入力された画像の真偽のみならず、ドメインすなわち表情の判定も行って、ジェネレータおよびディスクリミネータを学習している。
一方、医療分野においては、CT(Computed Tomography)装置およびMRI(Magnetic Resonance Imaging)装置等の各種モダリティの進歩により、より質の高い医用画像を用いての画像診断が可能となってきている。このような医用画像に含まれる臓器および病変等の関心領域を自動で抽出することも行われている。例えば、ニューラルネットワーク等の機械学習モデルを、学習用画像と関心領域の正解マスクとを用いて学習することにより、入力画像から関心領域を抽出する技術が提案されている。
非特許文献1:Ian J. Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu,David Warde-Farley, Sherjil Ozair, Aaron Courville, Yoshua Bengio "GenerativeAdversarial Nets", arXiv:1406.2661
非特許文献2:Judy Hoffman, Eric Tzeng, Taesung Park, Jun-Yan Zhu, Phillip Isola, Kate Saenko, Alexei A. Efros, Trevor Darrell "CyCADA: Cycle-Consistent Adversarial Domain Adaptation", arXiv:1711.03213
非特許文献3:Yunjey Choi, Minje Choi, Munyoung Kim, Jung-Woo Ha, Sunghun Kim, Jaegul Choo "StarGAN: Unified Generative Adversarial Networks for Multi-Domain Image-to-Image Translation",arXiv:1711.09020
ところで、医用画像はCT装置およびMRI装置のように画像を生成するモダリティが異なると、画像の表現形式が異なる。例えば、画像に含まれる人体の組織が同じであっても、CT画像とMRI画像とでは濃度が異なるものとなる。また、MRI画像には、T1強調画像、T2強調画像、脂肪抑制画像および拡散強調画像等の多様な撮影条件があり、撮影条件に応じて表現形式がそれぞれ異なる。例えば、T1強調画像では、主に脂肪組織が白く見え、水、液性成分および嚢胞は黒く見え、腫瘍はやや黒く見える。また、T2強調画像では、脂肪組織だけでなく、水、液性成分および嚢胞も白く見える。このため、各種表現形式の医用画像に対応させた関心領域の抽出を行うためには、医用画像の表現形式毎、すなわちドメイン毎に正解マスクを用意して機械学習モデルを学習させる必要がある。しかしながら、ドメイン毎に正解マスクを用意すると、正解マスクの作成、画像の収集および学習時における機械学習モデルのパラメータの調整等に多大なコストが必要となる。この場合、上記非特許文献2および非特許文献3に記載された手法を、医用画像からの関心領域の抽出に適用することが考えられる。
しかしながら、上記非特許文献2に記載された手法は、1つのソースおよび1つのターゲットという1対1のドメイン変換のみにしか対応していない。このため、多様な表現形式を有する医用画像に対応させるためには、ドメイン、すなわち表現形式の組み合わせ毎にモデルを用意する必要がある。また、非特許文献3に記載された手法では、非特許文献3に記載された手法は、画像を変換する処理のみにしか適用することができない。さらに、非特許文献3に記載された手法は、判別時において、ジェネレータの入力に、ドメインラベルが必要となる。
本開示は上記事情に鑑みなされたものであり、対象画像の表現形式に拘わらず、対象画像に含まれる関心領域を抽出できるようにすることを目的とする。
本開示による第1の学習装置は、複数の異なる表現形式を有する画像から関心領域を抽出する抽出モデルの学習装置であって、
抽出モデルは、
第1の表現形式の第1画像の特徴量を抽出することにより、第1画像の特徴マップを導出するエンコーダ、
特徴マップに基づいて、第1画像の表現形式とは異なる第2の表現形式の第2仮想画像を導出する第1デコーダ、
入力された画像の表現形式および入力された画像が実画像であるか第1デコーダにより生成された仮想画像であるかを判別して第1判別結果を出力する第1ディスクリミネータ、
特徴マップに基づいて、第1画像の関心領域を抽出する第2デコーダ、および
第2デコーダによる関心領域の抽出結果が、正解マスク有りの第1画像の抽出結果であるか、正解マスク無しの第1画像の抽出結果であるかを判別して、第2判別結果を出力する第2ディスクリミネータを有し、
第1判別結果に基づいて、エンコーダ、第1デコーダおよび第1ディスクリミネータを学習し、第2判別結果に基づいて、エンコーダ、第2デコーダおよび第2ディスクリミネータを学習する学習部を備える。
なお、本開示による第1の学習装置においては、学習部は、エンコーダに第2仮想画像を入力して第2仮想画像の特徴マップを導出させ、
第1デコーダに、第2仮想画像の特徴マップに基づいて、第1の表現形式の第1仮想画像を導出させ、
第1画像および第1仮想画像との相違にも基づいて、エンコーダ、第1デコーダおよび第1ディスクリミネータを学習するものであってもよい。
また、本開示による第1の学習装置においては、第1画像が関心領域についての正解マスクを有する場合、学習部は、関心領域の抽出結果および正解マスクに基づいて、第2デコーダを学習するものであってもよい。
また、本開示による第1の学習装置においては、抽出モデルは、特徴マップに基づいて、エンコーダに入力された第1画像の表現形式を判別して第3判別結果を出力する第3ディスクリミネータをさらに有し、
学習部は、第3判別結果に基づいて、エンコーダおよび第3ディスクリミネータを学習するものであってもよい。
本開示による第2の学習装置は、複数の異なる表現形式を有する画像から関心領域を抽出する抽出モデルの学習装置であって、
抽出モデルは、
第1の表現形式の第1画像の特徴量を抽出することにより、第1画像の特徴マップを導出するエンコーダ、
特徴マップに基づいて、第1画像の表現形式とは異なる第2の表現形式の第2仮想画像を導出する第1デコーダ、
入力された画像の表現形式および入力された画像が実画像であるか第1デコーダにより生成された仮想画像であるかを判別して第1判別結果を出力する第1ディスクリミネータ、
特徴マップに基づいて、第1画像の関心領域を抽出する第2デコーダ、および
特徴マップに基づいて、エンコーダに入力された第1画像の表現形式を判別して第3判別結果を出力する第3ディスクリミネータを有し、
第1判別結果に基づいて、エンコーダ、第1デコーダおよび第1ディスクリミネータを学習し、第3判別結果に基づいて、エンコーダおよび第3ディスクリミネータを学習する学習部を備える。
なお、本開示による第1および第2の学習装置においては、画像は3次元の医用画像であり、表現形式は、CT画像およびMRI画像の表現形式を含むものであってもよい。
また、本開示による第1および第2の学習装置においては、表現形式は、MRI画像における、T1強調画像、T2強調画像、拡散強調画像、FLAIR画像、造影前T1強調画像、および造影後T1強調画像の少なくとも1つの表現形式を含むものであってもよい。
本開示による関心領域抽出装置は、本開示による第1または第2の学習装置により学習された抽出モデルにおけるエンコーダおよび第2デコーダを有し、任意の表現形式の画像から画像の関心領域を抽出する抽出部を備える。
本開示による学習済み抽出モデルは、本開示による第1または第2の学習装置により学習された抽出モデルにおけるエンコーダおよび第2デコーダを備える。
本開示による第1の学習方法は、複数の異なる表現形式を有する画像から関心領域を抽出する抽出モデルの学習方法であって、
抽出モデルは、
第1の表現形式の第1画像の特徴量を抽出することにより、第1画像の特徴マップを導出するエンコーダ、
特徴マップに基づいて、第1画像の表現形式とは異なる第2の表現形式の第2仮想画像を導出する第1デコーダ、
入力された画像の表現形式および入力された画像が実画像であるか第1デコーダにより生成された仮想画像であるかを判別して第1判別結果を出力する第1ディスクリミネータ、
特徴マップに基づいて、第1画像の関心領域を抽出する第2デコーダ、および
第2デコーダによる関心領域の抽出結果が、正解マスク有りの第1画像の抽出結果であるか、正解マスク無しの第1画像の抽出結果であるかを判別して、第2判別結果を出力する第2ディスクリミネータを有し、
第1判別結果に基づいて、エンコーダ、第1デコーダおよび第1ディスクリミネータを学習し、
第2判別結果に基づいて、エンコーダ、第2デコーダおよび第2ディスクリミネータを学習する。
本開示による第2の学習方法は、複数の異なる表現形式を有する画像から関心領域を抽出する抽出モデルの学習方法であって、
抽出モデルは、
第1の表現形式の第1画像の特徴量を抽出することにより、第1画像の特徴マップを導出するエンコーダ、
特徴マップに基づいて、第1画像の表現形式とは異なる第2の表現形式の第2仮想画像を導出する第1デコーダ、
入力された画像の表現形式および入力された画像が実画像であるか第1デコーダにより生成された仮想画像であるかを判別して第1判別結果を出力する第1ディスクリミネータ、
特徴マップに基づいて、第1画像の関心領域を抽出する第2デコーダ、および
特徴マップに基づいて、エンコーダに入力された第1画像の表現形式を判別して第3判別結果を出力する第3ディスクリミネータを有し、
第1判別結果に基づいて、エンコーダ、第1デコーダおよび第1ディスクリミネータを学習し、
第3判別結果に基づいて、エンコーダおよび第3ディスクリミネータを学習する。
本開示による関心領域抽出方法は、本開示による第1または第2の学習方法により学習された抽出モデルにおけるエンコーダおよび第2デコーダを有し、任意の表現形式の画像から画像の関心領域を抽出する。
なお、本開示による第1および第2の学習方法、並びに関心領域抽出方法をコンピュータに実行させるためのプログラムとして提供してもよい。
本開示による第3の学習装置は、複数の異なる表現形式を有する画像から関心領域を抽出する抽出モデルの学習装置であって、
コンピュータに実行させるための命令を記憶するメモリと、
記憶された命令を実行するよう構成されたプロセッサとを備え、
抽出モデルは、
第1の表現形式の第1画像の特徴量を抽出することにより、第1画像の特徴マップを導出するエンコーダ、
特徴マップに基づいて、第1画像の表現形式とは異なる第2の表現形式の第2仮想画像を導出する第1デコーダ、
入力された画像の表現形式および入力された画像が実画像であるか第1デコーダにより生成された仮想画像であるかを判別して第1判別結果を出力する第1ディスクリミネータ、
特徴マップに基づいて、第1画像の関心領域を抽出する第2デコーダ、および
第2デコーダによる関心領域の抽出結果が、正解マスク有りの第1画像の抽出結果であるか、正解マスク無しの第1画像の抽出結果であるかを判別して、第2判別結果を出力する第2ディスクリミネータを有し、
プロセッサは、
第1判別結果に基づいて、エンコーダ、第1デコーダおよび第1ディスクリミネータを学習し、第2判別結果に基づいて、エンコーダ、第2デコーダおよび第2ディスクリミネータを学習する処理を実行する。
本開示による第4の学習装置は、複数の異なる表現形式を有する画像から関心領域を抽出する抽出モデルの学習装置であって、
コンピュータに実行させるための命令を記憶するメモリと、
記憶された命令を実行するよう構成されたプロセッサとを備え、
抽出モデルは、
第1の表現形式の第1画像の特徴量を抽出することにより、第1画像の特徴マップを導出するエンコーダ、
特徴マップに基づいて、第1画像の表現形式とは異なる第2の表現形式の第2仮想画像を導出する第1デコーダ、
入力された画像の表現形式および入力された画像が実画像であるか第1デコーダにより生成された仮想画像であるかを判別して第1判別結果を出力する第1ディスクリミネータ、
特徴マップに基づいて、第1画像の関心領域を抽出する第2デコーダ、および
特徴マップに基づいて、エンコーダに入力された第1画像の表現形式を判別して第3判別結果を出力する第3ディスクリミネータを有し、
プロセッサは、
第1判別結果に基づいて、エンコーダ、第1デコーダおよび第1ディスクリミネータを学習し、第3判別結果に基づいて、エンコーダおよび第3ディスクリミネータを学習する処理を実行する。
本開示による他の関心領域抽出装置は、コンピュータに実行させるための命令を記憶するメモリと、
記憶された命令を実行するよう構成されたプロセッサとを備え、プロセッサは、
本開示による第1または第2の学習方法により学習された抽出モデルにおけるエンコーダおよび第2デコーダとして機能し、任意の表現形式の画像から画像の関心領域を抽出する処理を実行する。
本開示によれば、対象画像の表現形式に拘わらず、対象画像に含まれる関心領域を抽出できる。
本開示の第1の実施形態による学習装置および関心領域抽出装置を適用した、診断支援システムの概要を示すハードウェア構成図 本開示の第1の実施形態による関心領域抽出装置の概略構成を示す図 第1の実施形態における抽出モデルの構成を示す概略ブロック図 第1の実施形態における抽出モデルの構成を示す概略ブロック図 正解マスクを有する第1画像の例を示す図 正解マスクを有さない第1画像の例を示す図 入力される実画像の表現形式および変換された仮想画像の表現形式を示す図 ラベリングされた対象画像を示す図 第1の実施形態において行われる学習処理を示すフローチャート の実施形態において行われる関心領域抽出処理を示すフローチャート 第2の実施形態における抽出モデルの構成を示す概略ブロック図 第3の実施形態における抽出モデルの構成を示す概略ブロック図
以下、図面を参照して本開示の実施形態について説明する。図1は、本開示の第1の実施形態による学習装置および関心領域抽出装置を適用した、診断支援システムの概要を示すハードウェア構成図である。図1に示すように、診断支援システムでは、第1の実施形態による学習装置および関心領域抽出装置(以下、関心領域抽出装置で代表させる)1、複数の3次元画像撮影装置2A,2B、および画像保管サーバ3が、ネットワーク4を経由して通信可能な状態で接続されている。
3次元画像撮影装置2A,2Bは、被写体の診断対象となる部位を撮影することにより、その部位を表す3次元画像を生成する装置であり、具体的には、CT装置、MRI装置、およびPET(Positron Emission Tomography)装置等である。3次元画像撮影装置2A,2Bにより生成された3次元画像は画像保管サーバ3に送信され、保存される。なお、本実施形態においては、3次元画像撮影装置2AはCT装置、3次元画像撮影装置2BはMRI装置であり、被写体の診断対象となる部位を含むCT画像およびMRI画像をそれぞれ3次元画像として生成する。また、本実施形態においては、3次元画像撮影装置2Bは、MRI画像としてT1強調画像およびT2強調画像をそれぞれ生成するものとする。3次元画像は複数の断層画像からなる。また、本実施形態においては、3次元画像は被写体の腹部を撮影することにより取得されたものであり、腹部に含まれる肝臓を抽出対象の関心領域とするものとする。
ここで、医用画像はCT装置およびMRI装置のように取得されるモダリティが異なると、画像の表現形式が異なる。例えば、画像に含まれる人体の組織が同じであっても、CT画像とMRI画像とでは濃度が異なるものとなる。また、同じMRI画像であっても、T1強調画像とT2強調画像とでは、それぞれ表現形式が異なる。具体的には、T1強調画像では、主に脂肪組織が白く見え、水、液性成分および嚢胞は黒く見え、腫瘍はやや黒く見える。また、T2強調画像では、脂肪組織だけでなく、水、液性成分および嚢胞も白く見える。このため、CT画像、T1強調画像およびT2強調画像はそれぞれ表現形式が異なる画像となる。本実施形態においては、表現形式がドメインに対応し、表現形式が異なることとドメインが異なることとは同義である。
画像保管サーバ3は、各種データを保存して管理するコンピュータであり、大容量外部記憶装置およびデータベース管理用ソフトウェアを備えている。画像保管サーバ3は、有線あるいは無線のネットワーク4を介して他の装置と通信を行い、画像データ等を送受信する。具体的には3次元画像撮影装置2で生成された3次元画像の画像データを含む各種データをネットワーク経由で取得し、大容量外部記憶装置等の記録媒体に保存して管理する。なお、画像データの格納形式およびネットワーク4経由での各装置間の通信は、DICOM(Digital Imaging and Communication in Medicine)等のプロトコルに基づいている。また、本実施形態においては、画像保管サーバ3は、後述する抽出モデルの学習のための学習用の画像も保管して管理している。
本実施形態の学習装置を含む関心領域抽出装置1は、1台のコンピュータに、第1の実施形態の学習プログラムおよび関心領域抽出プログラムをインストールしたものである。コンピュータは、診断を行う医師が直接操作するワークステーションまたはパーソナルコンピュータでもよいし、それらとネットワークを介して接続されたサーバコンピュータでもよい。学習プログラムおよび関心領域抽出プログラムは、ネットワークに接続されたサーバコンピュータの記憶装置、もしくはネットワークストレージに、外部からアクセス可能な状態で記憶され、要求に応じて医師が使用するコンピュータにダウンロードされ、インストールされる。または、DVD(Digital Versatile Disc)あるいはCD-ROM(Compact Disc Read Only Memory)等の記録媒体に記録されて配布され、その記録媒体からコンピュータにインストールされる。
図2は、コンピュータに学習プログラムおよび関心領域抽出プログラムをインストールすることにより実現される関心領域抽出装置の概略構成を示す図である。図2に示すように、関心領域抽出装置1は、標準的なワークステーションの構成として、CPU(Central Processing Unit)11、メモリ12およびストレージ13を備えている。また、関心領域抽出装置1には、液晶ディスプレイ等の表示部14、並びにキーボードおよびマウス等の入力部15が接続されている。
ストレージ13はハードディスクドライブ等からなり、ネットワーク4を経由して画像保管サーバ3から取得した関心領域抽出の対象となる対象画像、後述するように抽出モデル30の学習を行うための学習用の画像、および処理に必要な情報を含む各種情報が記憶されている。
また、メモリ12には、学習プログラムおよび関心領域抽出プログラムが記憶されている。学習プログラムは、CPU11に実行させる処理として、抽出モデルを学習するための学習用の画像および関心領域を抽出する対象となる対象画像、並びに学習のためおよび関心領域を抽出するための各種情報を取得する情報取得処理、並びに抽出モデルを学習する学習処理を規定する。
関心領域抽出プログラムは、CPU11に実行させる処理として、情報取得処理により取得した関心領域抽出の対象となる対象画像に含まれる関心領域を抽出する抽出処理、関心領域抽出結果に応じて、対象画像に含まれる関心領域にラベリングを行うラベリング処理、およびラベリングされた対象画像を表示部14に表示する表示制御処理を規定する。
そして、CPU11が学習プログラムおよび関心領域抽出プログラムに従いこれらの処理を実行することで、コンピュータは、情報取得部21、学習部22、抽出部23、ラベリング部24および表示制御部25として機能する。
情報取得部21は、ネットワークに接続されたインターフェース(不図示)を介して、画像保管サーバ3から、被写体の腹部の3次元画像を対象画像として取得する。また、学習用の画像および後述する正解マスクを取得する。さらに、学習部22による学習のための各種情報を取得する。学習のための情報としては、例えば後述する学習用の画像の変換後の表現形式(すなわちターゲット)の情報等である。
学習部22は、複数の異なる表現形式を有する画像から関心領域を抽出する抽出モデルを学習する。図3および図4は第1の実施形態における抽出モデルの構成を示す概略ブロック図である。図3,4に示すように、抽出モデル30は、エンコーダ31、第1デコーダ32、第1ディスクリミネータ33、第2デコーダ34および第2ディスクリミネータ35を有する。抽出モデル30に含まれるエンコーダ31、第1デコーダ32および第1ディスクリミネータ33が、入力された画像の表現形式を変換するための、すなわちドメインを変換するためのドメイン変換ネットワークを構成する。また、抽出モデル30に含まれるエンコーダ31、第2デコーダ34および第2ディスクリミネータ35が、入力された画像から関心領域を抽出するための領域抽出ネットワークを構成する。本実施形態においては、ドメイン変換ネットワークおよび領域抽出ネットワークにおいて、エンコーダ31が共有されてなる。
本実施形態においては、ドメイン変換ネットワークは敵対的生成ネットワーク(Generative Adversarial Networks:GAN)を構成している。GANは、データを作り出す「Generator」(ジェネレータ)と、データを識別する「Discriminator」(ディスクリミネータ)とを備える。本実施形態においては、エンコーダ31および第1デコーダ32の組み合わせがジェネレータに、第1ディスクリミネータ33がディスクリミネータに相当する。
また、本実施形態においては、領域抽出ネットワークも敵対的生成ネットワークを構成しており、エンコーダ31および第2デコーダ34の組み合わせがジェネレータに、第2ディスクリミネータ35がディスクリミネータに相当する。
エンコーダ31は、複数の処理層が階層的に接続された多層ニューラルネットワークの1つである、畳み込みニューラルネットワーク(CNN(Convolutional Neural Network))からなり、入力された画像の特徴量を表す特徴マップを導出する。具体的には、図3に示すように、エンコーダ31は、第1の表現形式の第1画像GR1が入力されると、第1画像GR1の特徴量を表す特徴マップF1を導出する。なお、本実施形態においては、第1画像GR1は、3次元画像撮影装置2A,2Bにより生成された実際の画像(実画像)である。
畳み込みニューラルネットワークは、複数の畳み込み層からなる。畳み込み層は、入力される画像に対して各種カーネルを用いた畳み込み処理を行い、畳み込み処理により得られた特徴量データからなる特徴マップを出力する。なお、本実施形態においては最初の畳み込み層(すなわち入力層)のチャンネル数は48以上とするが、これに限定されるものではない。カーネルは、n×n画素サイズ(例えばn=3)を有し、各要素に重みが設定されている。具体的には入力された画像のエッジを強調する微分フィルタのような重みが設定されている。畳み込み層は、カーネルの注目画素をずらしながら、入力された画像または前段の処理層から出力された特徴マップの全体にカーネルを適用する。さらに、畳み込み層は、畳み込みされた値に対して、シグモイド関数等の活性化関数を適用し、特徴マップF1を出力する。なお、本実施形態においては、畳み込みニューラルネットワークはプーリング層を有さないため、畳み込み処理時にはカーネルは2以上のストライドによりずらされながら、入力された画像または特徴マップに適用される。
ここで、本実施形態においては、CT画像、T1強調画像およびT2強調画像のように表現形式が異なる、すなわちドメインが異なる複数種類の画像が抽出モデル30の学習に使用される。学習時には、入力される画像にはその表現形式を表すラベルが、クラスラベルとして付与される。例えば、図3に示す第1画像GR1には、第1画像GR1の表現形式のクラスを表すクラスラベルが付与される。また、学習時に使用する画像は、正解マスクを有するものと有さないものが用意される。図5は、正解マスクM1を有する第1画像GR1の例を示す図、図6は正解マスクを有さない第1画像GR1の例を示す図である。図5および図6に示す第1画像GR1には、クラスラベルCL1が付与されている。
本実施形態において、クラスラベルCL1は3つの表現形式のクラスを識別するための3つの要素を有するベクトルであり、1が付与された要素がその画像の表現形式を表すものとなっている。図5,6においては、3つの要素は上からCT画像、T1強調画像およびT2強調画像となっている。図5に示す第1画像GR1は、クラスラベルCL1の一番上の要素に1が付与されているため、表現形式はCT画像である。また、図6に示す第1画像GR1は、クラスラベルの3番目の要素に1が付与されているため、表現形式はT2強調画像である。本実施形態においては、入力される画像に付与された表現形式を第1の表現形式とする。
第1デコーダ32は、特徴マップに基づいて、入力された画像の第1の表現形式を第1の表現形式とは異なる第2の表現形式に変換することにより、仮想画像を導出する。すなわち、図3に示すように、第1デコーダ32は、第1画像GR1の特徴マップF1が入力されると、第1画像GR1の第1の表現形式を、第1の表現形式とは異なる第2の表現形式に変換することにより、第2仮想画像GV2を導出する。なお、第1の表現形式が変換元となるソースドメイン、第2の表現形式が変換先となるターゲットドメインにそれぞれ対応する。このために、第1デコーダ32には第2の表現形式であるターゲットドメインの情報TD2が入力される。第2の表現形式は、例えば入力部15から入力される。第2の表現形式の情報TD2は、第2の表現形式のクラスラベルを表すベクトルであり、クラスラベルCL1と同様に3つの要素を有する。
第1デコーダ32は、複数の逆畳み込み層を有する。逆畳み込み層はエンコーダ31の畳み込み層と同様の処理を行うが、入力された特徴マップをアップサンプリングしつつ、逆畳み込みの演算のためのカーネルを特徴マップに適用する。具体的には、図3に示すように、第1デコーダ32は、エンコーダ31が出力した特徴マップF1を、第1画像GR1の解像度となるように高解像度化しつつ、第1画像GR1の表現形式を第2の表現形式に変換する処理を行い、第2の表現形式の第2仮想画像GV2を導出する。
第1ディスクリミネータ33は、例えば畳み込みニューラルネットワークからなり、入力された画像の表現形式および入力された画像が実画像であるか第1デコーダ32により生成された仮想画像であるかを判別して、第1判別結果を出力する。第1判別結果は、入力された画像が実画像であるか仮想画像であるかの判別結果RF1を含む。また、第1判別結果は入力された画像の表現形式の判別結果DC1を含む。ここで、実画像とは、第1デコーダ32が生成した画像ではなく、3次元画像撮影装置2A,2Bにより生成された画像、いわば本物の画像である。
このため、第1ディスクリミネータ33が、入力された実画像を実画像であると判別した場合には、判別結果RF1は正解であり、仮想画像と判別した場合には、判別結果RF1は不正解である。また、第1ディスクリミネータ33が、入力された仮想画像を実画像であると判別した場合には、判別結果RF1は不正解であり、仮想画像と判別した場合には、判別結果RF1は正解である。本実施形態においては、図3に示すように、学習時において第1ディスクリミネータ33に第2仮想画像GV2が入力された場合、判別結果RF1が仮想画像であれば判別結果RF1は正解であり、判別結果が実画像であれば不正解となる。また、図3に示すように、学習時において第1ディスクリミネータ33に実画像である第2画像GR2が入力された場合、判別結果RF1が実画像であれば判別結果RF1は正解であり、判別結果が仮想画像であれば不正解となる。
学習部22は、第1ディスクリミネータ33が出力した判別結果RF1に基づいて損失を導出する。この損失は、adversarial lossと称される。本実施形態においては、第1ディスクリミネータ33におけるadversarial lossを第1損失L1とする。
また、入力された画像の表現形式がCT画像である場合に、第1ディスクリミネータ33が、表現形式をCT画像と判別した場合には、判別結果DC1は正解であり、CT画像以外と判別した場合には判別結果DC1は不正解である。また、入力された画像の表現形式がT2強調画像である場合に、第1ディスクリミネータ33が、表現形式をT2強調画像と判別した場合には、判別結果DC1は正解であり、T2強調画像以外と判別した場合には判別結果DC1は不正解である。なお、本実施形態においては、判別結果DC1を出力させるための第1ディスクリミネータ33の学習時においては、第1ディスクリミネータ33には実画像である第2画像GR2が入力される。
一方、本実施形態においては、後述するようにエンコーダ31および第1デコーダ32を学習させるために、第1デコーダ32が導出した仮想画像が第1ディスクリミネータ33に入力されて、判別結果DC1が出力される。例えば、本実施形態においては、T2強調画像を第2の表現形式として第2仮想画像GV2が生成されている。このため、T2強調画像である第2仮想画像GV2が第1ディスクリミネータ33に入力された場合において、判別結果DC1がT2強調画像である場合、判別結果DC1は正解であり、T2強調画像以外のCT画像またはT1強調画像の場合、判別結果DC1は不正解である。なお、以降の説明においては、第1ディスクリミネータ33の学習のために、第1ディスクリミネータ33から出力した判別結果DC1を判別結果DC1dとし、エンコーダ31および第1デコーダ32の学習のために、第1ディスクリミネータ33から出力した判別結果DC1を判別結果DC1gと称する。
学習部22は、第1ディスクリミネータ33が出力した判別結果DC1d,DC1gに基づいて損失を導出する。この損失は、classification lossと称される。本実施形態においては、判別結果DC1d,DC1gに基づいて導出されたclassification lossをそれぞれ第2損失L2d,L2gとする。なお、以降の説明において、判別結果DC1d,DC1gを判別結果DC1で代表させ、第2損失L2d,L2gを第2損失L2で代表させることがあるものとする。
一方、本実施形態においては、図4に示すように、第2仮想画像GV2がエンコーダ31に入力され、エンコーダ31が導出した特徴マップF1が第1デコーダ32に入力され、さらに第1デコーダ32に対して第1画像GR1の第1の表現形式の情報TD1が入力される。これにより、第1デコーダ32が、第1仮想画像GV1を導出する。このように導出された第1仮想画像GV1は、第1画像GR1と完全に一致することが望ましいが、エンコーダ31および第1デコーダ32による処理を経たものであるため、第1仮想画像GV1と第1画像GR1との間に相違が生じる。本実施形態においては、学習部22は、第1仮想画像GV1と第1画像GR1との相違を損失として導出する。この損失は、cycle lossと称される。本実施形態においては、cycle lossを第3損失L3とする。
本実施形態においては、学習部22は、入力された画像が実画像であるか、第1デコーダ32により生成された仮想画像であるかの判別結果RF1を正解し、かつ入力された画像の表現形式の判別結果DC1dを正解するように、第1ディスクリミネータ33を学習する。すなわち、第1損失L1を最大にし、かつ第2損失L2dを最小にするように、第1ディスクリミネータ33を学習する。具体的には、-L1+L2dが予め定められたしきい値以下となるように、第1ディスクリミネータ33を学習する。
また、学習部22は、入力された画像から指定された表現形式の仮想画像を導出し、第1ディスクリミネータ33が判別結果RF1を不正解とし、判別結果DC1gを正解するように、第1デコーダ32を学習する。また、学習部22は、第1ディスクリミネータ33が判別結果RF1を不正解とし、判別結果DC1を正解する仮想画像を生成できるような特徴マップF1を導出するように、エンコーダ31を学習する。すなわち、第1損失L1および第2損失L2gを最小とするように、エンコーダ31および第1デコーダ32を学習する。具体的には、L1+L2gが予め定められたしきい値以下となるように、エンコーダ31および第1デコーダ32を学習する。
また、学習部22は、第2仮想画像GV2から生成された第1仮想画像GV1が第1画像GR1と一致するように、第1デコーダ32を学習する。また、学習部22は、第1画像GR1と一致する第1仮想画像GV1を第1デコーダ32が導出できる特徴マップF1を導出するように、エンコーダ31を学習する。すなわち、第3損失L3を最小とするように、エンコーダ31および第1デコーダ32を学習する。具体的には、L3が予め定められたしきい値以下となるように、エンコーダ31および第1デコーダ32を学習する。
学習が進行すると、エンコーダ31および第1デコーダ32と第1ディスクリミネータ33とが精度を高めあい、第1ディスクリミネータ33は、どのような表現形式の画像が入力されても実画像か仮想画像かをより高精度に判別できるようになる。一方、エンコーダ31および第1デコーダ32は、第1ディスクリミネータ33により判別されない、より本物の表現形式の画像に近い仮想画像を生成できるようになる。
図7は入力される実画像の表現形式および変換された仮想画像の表現形式を示す図である。なお、図7においては、左側の列が入力される実画像であり、表現形式が左側2列目から順にCT画像、T1強調画像およびT強調画像となっている。また、左側から2列目から4列目が変換された表現形式の仮想画像を示している。表現形式は、左側2列目から順に、それぞれCT画像、T1強調画像およびT2強調画像である。本実施形態によれば、図7に示すように、入力される実画像の表現形式に拘わらず、指示された表現形式に近い仮想画像が生成されるようになる。
一方、第2デコーダ34は、エンコーダ31が導出した特徴マップを用いて、エンコーダ31に入力された画像の関心領域を抽出する。具体的には、図3に示すように、第1画像GR1の特徴マップF1を用いて、第1画像GR1の関心領域を抽出する。第2デコーダ34は、複数の逆畳み込み層を有する畳み込みニューラルネットワークからなる。第2デコーダ34は、エンコーダ31が出力した特徴マップF1を、第1画像GR1の解像度となるように高解像度化しつつ、第1画像GR1に含まれる関心領域(本実施形態においては肝臓)であることの確率を導出し、確率がしきい値以上の画素を関心領域として抽出する処理を行う。これにより、図3に示すように、第2デコーダ34からは、第1画像GR1における肝臓の抽出結果PM1が出力される。
なお、第1画像GR1が正解マスクM1を有する場合、学習部22は、図3に示すように、第2デコーダ34が出力した関心領域の抽出結果PM1と正解マスクM1との相違を損失として導出する。この損失は、task lossと称される。本実施形態においては、task lossを第4損失L4とする。
第2ディスクリミネータ35は、例えば畳み込みニューラルネットワークからなり、第2デコーダ34による関心領域の抽出結果PM1が、図5に示すような正解マスクM1有りの第1画像GR1の抽出結果であるか、図6に示すような正解マスク無しの第1画像GR1の抽出結果であるかを判別して、第2判別結果RF2を出力する。ここで、図3に示すように、正解マスクM1を有する第1画像GR1についての抽出結果PM1が入力された場合に、第2ディスクリミネータ35が正解マスク有りと判別した場合には、第2判別結果RF2は正解であり、正解マスク無しと判別した場合には第2判別結果RF2は不正解である。一方、正解マスクM1がない第1画像GR1についての抽出結果PM1が入力された場合に、第2ディスクリミネータ35が正解マスク有りと判別した場合には、第2判別結果RF2は不正解であり、正解マスク無しと判別した場合には第2判別結果RF2は正解である。学習部22は、第2判別結果RF2に関する第2ディスクリミネータ35の出力に基づいて損失を導出する。この損失は、adversarial lossと称される。本実施形態においては、第2ディスクリミネータ35におけるadversarial lossを第5損失L5とする。
本実施形態においては、学習部22は、正解マスク有りの第1画像GR1の抽出結果であるか正解マスク無しの第1像GR1の抽出結果であるかの第2判別結果RF2を正解するように、第2ディスクリミネータ35を学習する。すなわち、第5損失L5を最大とするように、第2ディスクリミネータ35を学習する。具体的には、-L5が予め定められたしきい値以下となるように、第2ディスクリミネータ35を学習する。
なお、本実施形態においては、学習時には、正解マスク有りの第1画像GR1と正解マスク無しの第1画像GR1とを交互に用いて学習を行う。
また、学習部22は、正解マスクM1有りの第1画像GR1の特徴マップF1が入力された場合に、抽出結果PM1と正解マスクM1とが一致するように、第2デコーダ34を学習する。また、学習部22は、正解マスクM1と一致する抽出結果PM1が得られる特徴マップF1を導出するように、エンコーダ31を学習する。すなわち、第4損失L4を最小とするようにエンコーダ31および第2デコーダ34を学習する。具体的には、L4が予め定められたしきい値以下となるように、エンコーダ31および第2デコーダ34を学習する。
また、学習部22は、第2ディスクリミネータ35が、第2判別結果RF2を不正解とする抽出結果PM1を出力するように、第2デコーダ34を学習する。また、学習部22は、第2ディスクリミネータ35が第2判別結果RF2を不正解とする抽出結果PM1を出力する特徴マップF1を導出するように、エンコーダ31を学習する。すなわち、第5損失L5を最小とするように、エンコーダ31および第1デコーダ32を学習する。具体的には、L5が予め定められたしきい値以下となるように、エンコーダ31および第1デコーダ32を学習する。
学習が進行すると、エンコーダ31および第1デコーダ32と第1ディスクリミネータ33とが精度を高めあい、第2ディスクリミネータ35は、入力された画像が正解マスク有りか、正解マスク無しかをより高精度に判別できるようになる。一方、エンコーダ31および第2デコーダ34は、正解マスク有りの画像であっても正解マスク無しの画像であっても、第2ディスクリミネータ35により正解マスクの有無が判別されない、より精度のよい関心領域の抽出結果を出力できるようになる。
上記のように学習部22が抽出モデル30の学習を行うことにより、関心領域抽出の対象となる対象画像が入力されると、対象画像の表現形式に拘わらず、対象画像に含まれる関心領域を抽出する抽出モデル30が構築される。本実施形態においては、学習済みの抽出モデル30におけるエンコーダ31および第2デコーダ34が、学習済み抽出モデル40として抽出部23に適用される。
抽出部23は、対象画像が入力されると、学習済み抽出モデル40により、対象画像に含まれる関心領域を抽出して、抽出結果を出力する。
ラベリング部24は、抽出部23が出力した関心領域の抽出結果に基づいて、対象画像に含まれる関心領域のラベリングを行う。
表示制御部25は、ラベリングされた対象画像を表示部14に表示する。図8はラベリングされた対象画像の表示画面を示す図である。図8に示すように、表示画面60には、対象画像51が表示され、対象画像51に関心領域にラベリング52がなされている。なお、図8においてはラベリング52をハッチングにて示しているが、色を変更するまたは線で囲む等によりラベリングを行うようにしてもよい。
次いで、第1の実施形態において行われる処理について説明する。図9は第1の実施形態において行われる学習処理を示すフローチャートである。なお、学習用の第1画像GR1および正解マスク有りの場合の正解マスクM1は、情報取得部21により画像保管サーバ3から取得されて、ストレージ13に保存されているものとする。まず、学習部22がストレージ13に保存された学習用の第1画像GR1を取得する(ステップST1)。学習部22は、エンコーダ31に第1画像GR1を入力して特徴マップF1を導出させる(ステップST2)。また、学習部22は、第1デコーダ32に特徴マップF1および第2の表現形式の情報TD2を入力し、第2仮想画像GV2を導出させる(ステップST3)。そして、学習部22は、第1ディスクリミネータ33に第2画像GR2または第2仮想画像GV2を入力し、第1判別結果である判別結果RF1および判別結果DC1を出力させる(第1判別結果出力、ステップST4)。
次いで、学習部22は、第1判別結果に基づいて第1損失L1および第2損失L2を導出する。また、学習部22は、エンコーダ31に第2仮想画像GV2を入力して第2仮想画像GV2の特徴マップを導出させ、第2仮想画像GV2の特徴マップを第1デコーダ32に入力して、第1仮想画像GV1を出力させる。そして、学習部22は、第1画像GR1および第1仮想画像GV1から第3損失L3を導出する(損失導出;ステップST5)。
さらに、学習部22は、第1損失L1、第2損失L2および第3損失L3に基づいて、エンコーダ31、第1デコーダ32および第1ディスクリミネータ33を学習する(第1学習、ステップST6)。
一方、学習部22は第2デコーダ34に特徴マップF1を入力し、関心領域の抽出結果PM1を出力させる(ステップST7)。また、学習部22は、第2ディスクリミネータ35に抽出結果PM1を入力し、第2判別結果RF2を出力させる(ステップST8)。そして、学習部22は、第2判別結果RF2に基づいて、第5損失L5を導出する。なお、学習部22は、第1画像GR1が正解マスクM1を有する場合、第4損失L4を導出する(損失導出;ステップST9)。
さらに、学習部22は、第4損失L4(有れば)および第5損失L5に基づいて、エンコーダ31、第2デコーダ34および第2ディスクリミネータ35を学習する(第2学習、ステップST10)。そして、ステップST1にリターンし、次の学習用の第1画像GR1をストレージ13から取得して、ステップST1~ステップST10の処理を繰り返す。これにより、学習済みの抽出モデル30が構築される。なお、ステップST3~ステップST6の処理とステップST7~ステップST10の処理を並列に行ってもよく、ステップST7~ステップST10の処理をステップST3~ステップST6の処理よりも先に行ってもよい。
なお、学習部22は、各種損失L1~L5が予め定められたしきい値以下となるまで学習を繰り返すものとしているが、予め定められた回数の学習を繰り返すものであってもよい。
次いで、第1の実施形態において行われる関心領域抽出処理について説明する。図10は第1の実施形態において行われる関心領域抽出処理のフローチャートである。情報取得部21が対象画像を取得し(ステップST11)、抽出部23が対象画像に含まれる関心領域抽出結果を出力する(ステップST12)。次いで、ラベリング部24が、関心領域抽出結果に基づいて対象画像51に含まれる関心領域のラベリング52を行う(ステップST13)。そして、表示制御部25がラベリングされた対象画像を表示部14に表示し(ステップST14)、処理を終了する。
このように、本実施形態においては、入力された画像の表現形式および入力された画像が実画像であるか第1デコーダ32により生成された仮想画像であるかを判別して、第1判別結果を出力するようにした。また、第2デコーダ34による関心領域の抽出結果PM1が、正解マスク有りの第1画像の抽出結果であるか、正解マスク無しの第1画像の抽出結果であるかを判別して、第2判別結果を出力するようにした。そして、第1判別結果に基づいて、エンコーダ31、第1デコーダ32および第1ディスクリミネータ33を学習し、第2判別結果に基づいて、エンコーダ31、第2デコーダ34および第2ディスクリミネータ35を学習するようにした。
このため、上述したように学習が進行すると、エンコーダ31および第1デコーダ32と第1ディスクリミネータ33とが精度を高めあい、第1ディスクリミネータ33は、どのような表現形式の画像が入力されても実画像か仮想画像かをより高精度に判別できるようになる。また、エンコーダ31および第1デコーダ32は、第1ディスクリミネータ33により判別されない、より本物の表現形式の画像に近い仮想画像を生成できるようになる。また、エンコーダ31および第1デコーダ32と第1ディスクリミネータ33とが精度を高めあい、第2ディスクリミネータ35は、入力された画像が正解マスク有りか、正解マスク無しかをより高精度に判別できるようになる。さらに、エンコーダ31および第2デコーダ34は、正解マスク有りの画像であっても正解マスク無しの画像であっても、第2ディスクリミネータ35により正解マスクの有無が判別されない、より精度のよい関心領域の抽出結果を出力できるようになる。
したがって、学習されたエンコーダ31および第2デコーダ34を有する学習済み抽出モデル40を用いることにより、非特許文献2に記載された手法のように、表現形式毎にモデルを用意することなく、非特許文献3に記載された手法のように、抽出時にドメインラベルを入力することなく、対象画像の表現形式に拘わらず、対象画像に含まれる関心領域を抽出できる。
次いで、本開示の第2の実施形態について説明する。図11は第2の実施形態による抽出モデルの構成を示す概略ブロック図である。なお、図11において図3と同一の構成については同一の参照番号を付与し、詳細な説明は省略する。第2の実施形態における抽出モデル30Aは、第2ディスクリミネータ35に代えて、第3ディスクリミネータ36を備えた点が第1の実施形態と異なる。第2の実施形態においては、エンコーダ31と第3ディスクリミネータ36とがGANを構成している。なお、第1デコーダ32、第1ディスクリミネータ33および第2デコーダ34の学習については、上記第1の実施形態と同様であるため、ここでは詳細な説明は省略する。
第3ディスクリミネータ36は、例えば畳み込みニューラルネットワークからなり、エンコーダ31が出力した特徴マップに基づいて、入力された画像の表現形式を判別して、第3判別結果DC2を出力する。すなわち、図11に示すように、第3ディスクリミネータ36は、エンコーダ31が導出した第1画像GR1の特徴マップF1がいずれの表現形式の画像から導出したものであるかを判別して第3判別結果DC2を出力する。例えば、入力された画像の表現形式がCT画像である場合に、第3ディスクリミネータ36がCT画像と判別した場合には、第3判別結果DC2は正解であり、CT画像以外と判別した場合には第3判別結果DC2は不正解である。また、入力された画像の表現形式がT2強調画像である場合、第3判別結果DC2がT2強調画像である場合、第3判別結果DC2は正解であり、T2強調画像以外のCT画像またはT1強調画像の場合、第3判別結果DC2は不正解である。学習部22は、第3判別結果DC2に関する第3ディスクリミネータ36の出力に基づいて損失を導出する。この損失は、classification lossと称される。本実施形態においては、classification lossを第6損失L6とする。
第2の実施形態においては、第3ディスクリミネータ36に関して、学習部22は、入力された画像の表現形式の第3判別結果DC2を正解するように、第3ディスクリミネータ36を学習する。また、学習部22は、第3ディスクリミネータ36が第3判別結果DC2を不正解とする特徴マップF1を導出するように、エンコーダ31を学習する。すなわち、第1損失L1および第6損失L6を最小とするように、エンコーダ31および第3ディスクリミネータ36を学習する。具体的には、L1+L6が予め定められたしきい値以下となるように、エンコーダ31および第3ディスクリミネータ36を学習する。
学習が進行すると、エンコーダ31と第3ディスクリミネータ36とが精度を高めあい、第3ディスクリミネータ36は、どのような画像が入力されてもその表現形式をより高精度に判別できるようになる。一方、エンコーダ31は、どのような画像が入力されても第3ディスクリミネータ36により判別されない、表現形式に拘わらず同様の特徴マップF1を生成できるようになる。また、これにより、第2デコーダ34は、抽出モデル30Aにどのような表現形式の画像が入力されても、関心領域を抽出できることとなる。
このように、第2の実施形態においては、入力された画像の表現形式および入力された画像が実画像であるか第1デコーダ32により生成された仮想画像であるかを判別して第1判別結果を出力し、エンコーダ31が導出した特徴マップF1に基づいて入力された画像の表現形式を判別して、第3判別結果を出力するようにした。そして、第1判別結果に基づいて、エンコーダ31、第1デコーダ32および第1ディスクリミネータ33を学習し、第3判別結果に基づいて、エンコーダ31および第3ディスクリミネータ36を学習するようにした。このため、上記第1の実施形態と同様に、対象画像の表現形式に拘わらず、対象画像に含まれる関心領域を抽出できる。
なお、上記第1の実施形態において、図12に示す抽出モデル30Bのように、第2ディスクリミネータ35を省略することなく、第3ディスクリミネータ36を設けるようにしてもよい。
ここで、第2の実施形態においても、学習済みの抽出モデル30A,30Bに含まれるエンコーダ31および第2デコーダ34が学習済み抽出モデル40として使用される。
また、上記各実施形態においては、人体の腹部の3次元画像から関心領域を抽出しているが、これに限定されるものではない。CT画像およびMRI画像等の3次元画像の他、単純X線画像および超音波画像等からの関心領域の抽出にも、本開示の技術を適用することが可能である。
また、上記各実施形態においては、MRI画像としてT1強調画像およびT2強調画像を用いているが、これに限定されるものではない。MRI画像としては、T1強調画像およびT2強調画像の他、拡散強調画像、FLAIR画像、造影前T1強調画像、造影後T1強調画像の少なくとも1つの表現形式を含むものであってもよい。
また、上記各実施形態においては、関心領域として肝臓を抽出しているが、これに限定されるものではない。肝臓の他、肺、心臓、腎臓および脳等の人体内の各種構造物の領域を関心領域として抽出する場合にも、本開示の技術を適用することができる。
また、上記各実施形態において、例えば、情報取得部21、学習部22、抽出部23、ラベリング部24および表示制御部25といった各種の処理を実行する処理部(Processing Unit)のハードウェア的な構造としては、次に示す各種のプロセッサ(Processor)を用いることができる。上記各種のプロセッサには、上述したように、ソフトウェア(プログラム)を実行して各種の処理部として機能する汎用的なプロセッサであるCPUに加えて、FPGA(Field Programmable Gate Array)等の製造後に回路構成を変更可能なプロセッサであるプログラマブルロジックデバイス(Programmable Logic Device :PLD)、ASIC(Application Specific Integrated Circuit)等の特定の処理を実行させるために専用に設計された回路構成を有するプロセッサである専用電気回路等が含まれる。
1つの処理部は、これらの各種のプロセッサのうちの1つで構成されてもよいし、同種または異種の2つ以上のプロセッサの組み合わせ(例えば、複数のFPGAの組み合わせまたはCPUとFPGAとの組み合わせ)で構成されてもよい。また、複数の処理部を1つのプロセッサで構成してもよい。
複数の処理部を1つのプロセッサで構成する例としては、第1に、クライアントおよびサーバ等のコンピュータに代表されるように、1つ以上のCPUとソフトウェアとの組み合わせで1つのプロセッサを構成し、このプロセッサが複数の処理部として機能する形態がある。第2に、システムオンチップ(System On Chip:SoC)等に代表されるように、複数の処理部を含むシステム全体の機能を1つのIC(Integrated Circuit)チップで実現するプロセッサを使用する形態がある。このように、各種の処理部は、ハードウェア的な構造として、上記各種のプロセッサの1つ以上を用いて構成される。
さらに、これらの各種のプロセッサのハードウェア的な構造としては、より具体的には、半導体素子等の回路素子を組み合わせた電気回路(Circuitry)を用いることができる。
1 関心領域抽出装置
2 3次元画像撮影装置
3 画像保管サーバ
4 ネットワーク
11 CPU
12 メモリ
13 ストレージ
14 ディスプレイ
15 入力部
21 情報取得部
22 学習部
23 抽出部
24 ラベリング部
25 表示制御部
30,30A,30B 抽出モデル
31 エンコーダ
32 第1デコーダ
33 第1ディスクリミネータ
34 第2デコーダ
35 第2ディスクリミネータ
36 第3ディスクリミネータ
40 学習済み抽出モデル
51 対象画像
52 ラベリング
60 表示画面
DC1,DC2d,DC2g,DC3,RF1,RF2 判別結果
F1 特徴マップ
GR1 第1画像
GR2 第2画像
GV1 第1仮想画像
GV2 第2仮想画像
L1~L6 損失
M1 正解マスク
PM1 抽出結果

Claims (15)

  1. 複数の異なる表現形式を有する画像から関心領域を抽出する抽出モデルの学習装置であって、
    前記抽出モデルは、
    第1の表現形式の第1画像の特徴量を抽出することにより、前記第1画像の特徴マップを導出するエンコーダ、
    前記特徴マップに基づいて、前記第1画像の表現形式とは異なる第2の表現形式の第2仮想画像を導出する第1デコーダ、
    入力された画像の表現形式および前記入力された画像が実画像であるか前記第1デコーダにより生成された仮想画像であるかを判別して第1判別結果を出力する第1ディスクリミネータ、
    前記特徴マップに基づいて、前記第1画像の関心領域を抽出する第2デコーダ、および
    前記第2デコーダによる前記関心領域の抽出結果が、正解マスク有りの第1画像の抽出結果であるか、正解マスク無しの第1画像の抽出結果であるかを判別して、第2判別結果を出力する第2ディスクリミネータを有し、
    前記第1判別結果に基づいて、前記エンコーダ、前記第1デコーダおよび前記第1ディスクリミネータを学習し、前記第2判別結果に基づいて、前記エンコーダ、第2デコーダおよび前記第2ディスクリミネータを学習する学習部を備えた学習装置。
  2. 前記学習部は、前記エンコーダに前記第2仮想画像を入力して該第2仮想画像の特徴マップを導出させ、
    前記第1デコーダに、前記第2仮想画像の特徴マップに基づいて、前記第1の表現形式の第1仮想画像を導出させ、
    前記第1画像および前記第1仮想画像との相違にも基づいて、前記エンコーダ、前記第1デコーダおよび前記第1ディスクリミネータを学習する請求項1に記載の学習装置。
  3. 前記第1画像が前記関心領域についての正解マスクを有する場合、前記学習部は、前記関心領域の抽出結果および前記正解マスクに基づいて、前記第2デコーダを学習する請求項1または2に記載の学習装置。
  4. 前記抽出モデルは、前記特徴マップに基づいて、前記エンコーダに入力された前記第1画像の表現形式を判別して第3判別結果を出力する第3ディスクリミネータをさらに有し、
    前記学習部は、前記第3判別結果に基づいて、前記エンコーダおよび前記第3ディスクリミネータを学習する請求項1から3のいずれか1項に記載の学習装置。
  5. 複数の異なる表現形式を有する画像から関心領域を抽出する抽出モデルの学習装置であって、
    前記抽出モデルは、
    第1の表現形式の第1画像の特徴量を抽出することにより、前記第1画像の特徴マップを導出するエンコーダ、
    前記特徴マップに基づいて、前記第1画像の表現形式とは異なる第2の表現形式の第2仮想画像を導出する第1デコーダ、
    入力された画像の表現形式および前記入力された画像が実画像であるか前記第1デコーダにより生成された仮想画像であるかを判別して第1判別結果を出力する第1ディスクリミネータ、
    前記特徴マップに基づいて、前記第1画像の関心領域を抽出する第2デコーダ、および
    前記特徴マップに基づいて、前記エンコーダに入力された前記第1画像の表現形式を判別して第3判別結果を出力する第3ディスクリミネータを有し、
    前記第1判別結果に基づいて、前記エンコーダ、前記第1デコーダおよび前記第1ディスクリミネータを学習し、前記第3判別結果に基づいて、前記エンコーダおよび前記第3ディスクリミネータを学習する学習部を備えた学習装置。
  6. 前記画像は3次元の医用画像であり、前記表現形式は、CT画像およびMRI画像の表現形式を含む請求項1から5のいずれか1項に記載の学習装置。
  7. 前記表現形式は、MRI画像における、T1強調画像、T2強調画像、拡散強調画像、FLAIR画像、造影前T1強調画像、および造影後T1強調画像の少なくとも1つの表現形式を含む請求項6に記載の学習装置。
  8. 請求項1から7のいずれか1項に記載の学習装置により学習された抽出モデルにおけるエンコーダおよび第2デコーダを有し、任意の表現形式の画像から該画像の関心領域を抽出する抽出部を備えた関心領域抽出装置。
  9. 請求項1から7のいずれか1項に記載の学習装置により学習された抽出モデルにおけるエンコーダおよび第2デコーダを備えた学習済み抽出モデル。
  10. 複数の異なる表現形式を有する画像から関心領域を抽出する抽出モデルの学習方法であって、
    前記抽出モデルは、
    第1の表現形式の第1画像の特徴量を抽出することにより、前記第1画像の特徴マップを導出するエンコーダ、
    前記特徴マップに基づいて、前記第1画像の表現形式とは異なる第2の表現形式の第2仮想画像を導出する第1デコーダ、
    入力された画像の表現形式および前記入力された画像が実画像であるか前記第1デコーダにより生成された仮想画像であるかを判別して第1判別結果を出力する第1ディスクリミネータ、
    前記特徴マップに基づいて、前記第1画像の関心領域を抽出する第2デコーダ、および
    前記第2デコーダによる前記関心領域の抽出結果が、正解マスク有りの第1画像の抽出結果であるか、正解マスク無しの第1画像の抽出結果であるかを判別して、第2判別結果を出力する第2ディスクリミネータを有し、
    前記第1判別結果に基づいて、前記エンコーダ、前記第1デコーダおよび前記第1ディスクリミネータを学習し、
    前記第2判別結果に基づいて、前記エンコーダ、第2デコーダおよび前記第2ディスクリミネータを学習する学習方法。
  11. 複数の異なる表現形式を有する画像から関心領域を抽出する抽出モデルの学習方法であって、
    前記抽出モデルは、
    第1の表現形式の第1画像の特徴量を抽出することにより、前記第1画像の特徴マップを導出するエンコーダ、
    前記特徴マップに基づいて、前記第1画像の表現形式とは異なる第2の表現形式の第2仮想画像を導出する第1デコーダ、
    入力された画像の表現形式および前記入力された画像が実画像であるか前記第1デコーダにより生成された仮想画像であるかを判別して第1判別結果を出力する第1ディスクリミネータ、
    前記特徴マップに基づいて、前記第1画像の関心領域を抽出する第2デコーダ、および
    前記特徴マップに基づいて、前記エンコーダに入力された前記第1画像の表現形式を判別して第3判別結果を出力する第3ディスクリミネータを有し、
    前記第1判別結果に基づいて、前記エンコーダ、前記第1デコーダおよび前記第1ディスクリミネータを学習し、
    前記第3判別結果に基づいて、前記エンコーダおよび前記第3ディスクリミネータを学習する学習方法。
  12. 請求項10または11に記載の学習方法により学習された抽出モデルにおけるエンコーダおよび第2デコーダにより、任意の表現形式の画像から該画像の関心領域を抽出する関心領域抽出方法。
  13. 複数の異なる表現形式を有する画像から関心領域を抽出する抽出モデルの学習方法をコンピュータに実行させる学習プログラムであって、
    前記抽出モデルは、
    第1の表現形式の第1画像の特徴量を抽出することにより、前記第1画像の特徴マップを導出するエンコーダ、
    前記特徴マップに基づいて、前記第1画像の表現形式とは異なる第2の表現形式の第2仮想画像を導出する第1デコーダ、
    入力された画像の表現形式および前記入力された画像が実画像であるか前記第1デコーダにより生成された仮想画像であるかを判別して第1判別結果を出力する第1ディスクリミネータ、
    前記特徴マップに基づいて、前記第1画像の関心領域を抽出する第2デコーダ、および
    前記第2デコーダによる前記関心領域の抽出結果が、正解マスク有りの第1画像の抽出結果であるか、正解マスク無しの第1画像の抽出結果であるかを判別して、第2判別結果を出力する第2ディスクリミネータを有し、
    前記第1判別結果に基づいて、前記エンコーダ、前記第1デコーダおよび前記第1ディスクリミネータを学習する手順と、
    前記第2判別結果に基づいて、前記エンコーダ、第2デコーダおよび前記第2ディスクリミネータを学習する手順とをコンピュータに実行させる学習プログラム。
  14. 複数の異なる表現形式を有する画像から関心領域を抽出する抽出モデルの学習方法をコンピュータに実行させる学習プログラムであって、
    前記抽出モデルは、
    第1の表現形式の第1画像の特徴量を抽出することにより、前記第1画像の特徴マップを導出するエンコーダ、
    前記特徴マップに基づいて、前記第1画像の表現形式とは異なる第2の表現形式の第2仮想画像を導出する第1デコーダ、
    入力された画像の表現形式および前記入力された画像が実画像であるか前記第1デコーダにより生成された仮想画像であるかを判別して第1判別結果を出力する第1ディスクリミネータ、
    前記特徴マップに基づいて、前記第1画像の関心領域を抽出する第2デコーダ、および
    前記特徴マップに基づいて、前記エンコーダに入力された前記第1画像の表現形式を判別して第3判別結果を出力する第3ディスクリミネータを有し、
    前記第1判別結果に基づいて、前記エンコーダ、前記第1デコーダおよび前記第1ディスクリミネータを学習する手順と、
    前記第3判別結果に基づいて、前記エンコーダおよび前記第3ディスクリミネータを学習する手順とをコンピュータに実行させる学習プログラム。
  15. 請求項10または11に記載の学習方法により学習された抽出モデルにおけるエンコーダおよび第2デコーダにより、任意の表現形式の画像から該画像の関心領域を抽出する手順をコンピュータに実行させる関心領域抽出プログラム。
JP2021534066A 2019-07-25 2020-07-22 学習装置、方法およびプログラム、関心領域抽出装置、方法およびプログラム、並びに学習済み抽出モデル Active JP7203978B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2019137033 2019-07-25
JP2019137033 2019-07-25
PCT/JP2020/028415 WO2021015231A1 (ja) 2019-07-25 2020-07-22 学習装置、方法およびプログラム、関心領域抽出装置、方法およびプログラム、並びに学習済み抽出モデル

Publications (3)

Publication Number Publication Date
JPWO2021015231A1 JPWO2021015231A1 (ja) 2021-01-28
JPWO2021015231A5 JPWO2021015231A5 (ja) 2022-04-06
JP7203978B2 true JP7203978B2 (ja) 2023-01-13

Family

ID=74194213

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021534066A Active JP7203978B2 (ja) 2019-07-25 2020-07-22 学習装置、方法およびプログラム、関心領域抽出装置、方法およびプログラム、並びに学習済み抽出モデル

Country Status (4)

Country Link
US (1) US20220139062A1 (ja)
EP (1) EP4006830A4 (ja)
JP (1) JP7203978B2 (ja)
WO (1) WO2021015231A1 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3767536A1 (en) * 2019-07-17 2021-01-20 Naver Corporation Latent code for unsupervised domain adaptation
KR102159052B1 (ko) * 2020-05-12 2020-09-23 주식회사 폴라리스쓰리디 영상 분류 방법 및 장치
CN113077491B (zh) * 2021-04-02 2023-05-02 安徽大学 基于跨模态共享和特定表示形式的rgbt目标跟踪方法
CN114581558B (zh) * 2022-02-25 2023-07-07 北京百度网讯科技有限公司 图像处理方法、装置、设备以及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018192264A (ja) 2017-05-18 2018-12-06 キヤノンメディカルシステムズ株式会社 医用画像処理装置
US20190220977A1 (en) 2018-01-16 2019-07-18 Siemens Healthcare Gmbh Cross-Domain Image Analysis and Cross-Domain Image Synthesis Using Deep Image-to-Image Networks and Adversarial Networks

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018192264A (ja) 2017-05-18 2018-12-06 キヤノンメディカルシステムズ株式会社 医用画像処理装置
US20190220977A1 (en) 2018-01-16 2019-07-18 Siemens Healthcare Gmbh Cross-Domain Image Analysis and Cross-Domain Image Synthesis Using Deep Image-to-Image Networks and Adversarial Networks

Also Published As

Publication number Publication date
WO2021015231A1 (ja) 2021-01-28
EP4006830A4 (en) 2022-09-28
US20220139062A1 (en) 2022-05-05
JPWO2021015231A1 (ja) 2021-01-28
EP4006830A1 (en) 2022-06-01

Similar Documents

Publication Publication Date Title
JP7203978B2 (ja) 学習装置、方法およびプログラム、関心領域抽出装置、方法およびプログラム、並びに学習済み抽出モデル
Faragallah et al. A comprehensive survey analysis for present solutions of medical image fusion and future directions
US11132792B2 (en) Cross domain medical image segmentation
Dangi et al. A distance map regularized CNN for cardiac cine MR image segmentation
US20190311228A1 (en) Cross-modality image synthesis
Abbasi-Sureshjani et al. 4D semantic cardiac magnetic resonance image synthesis on XCAT anatomical model
Kim et al. Automatic segmentation of the left ventricle in echocardiographic images using convolutional neural networks
US20230214664A1 (en) Learning apparatus, method, and program, image generation apparatus, method, and program, trained model, virtual image, and recording medium
US11580673B1 (en) Methods, systems, and computer readable media for mask embedding for realistic high-resolution image synthesis
JP2022077991A (ja) 医用画像処理装置、医用画像処理方法、医用画像処理プログラム、モデルトレーニング装置、およびトレーニング方法
JP2021140769A (ja) 医用情報処理装置、医用情報処理方法及び医用情報処理プログラム
US11348242B2 (en) Prediction apparatus, prediction method, prediction program
US20240005498A1 (en) Method of generating trained model, machine learning system, program, and medical image processing apparatus
CN110852993B (zh) 一种造影剂作用下的成像方法与设备
US20220198734A1 (en) Learning device, learning method, learning program, image generation device, image generation method, image generation program, and image generation model
WO2020175445A1 (ja) 学習方法、学習装置、生成モデル及びプログラム
CN115965785A (zh) 图像分割方法、装置、设备、程序产品及介质
KR102556646B1 (ko) 의료 영상 생성 방법 및 장치
Amara et al. Augmented reality for medical practice: a comparative study of deep learning models for ct-scan segmentation
Gaasedelen et al. Automated multiclass cardiac volume segmentation and model generation
Athreya et al. Ultrasound Image Enhancement using CycleGAN and Perceptual Loss
JP7170868B2 (ja) 学習装置、方法およびプログラム、医用画像処理装置、方法およびプログラム、並びに判別器
Hu et al. Anatomy-Aware Self-Supervised Learning for Aligned Multi-Modal Medical Data.
Raza et al. CycleGAN with mutual information loss constraint generates structurally aligned CT images from functional EIT images
JP7462925B2 (ja) 血流場推定装置、学習装置、血流場推定方法及びプログラム

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220118

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220118

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20221206

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20221227

R150 Certificate of patent or registration of utility model

Ref document number: 7203978

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150