JP2023131287A - 情報処理装置および学習方法 - Google Patents
情報処理装置および学習方法 Download PDFInfo
- Publication number
- JP2023131287A JP2023131287A JP2022035944A JP2022035944A JP2023131287A JP 2023131287 A JP2023131287 A JP 2023131287A JP 2022035944 A JP2022035944 A JP 2022035944A JP 2022035944 A JP2022035944 A JP 2022035944A JP 2023131287 A JP2023131287 A JP 2023131287A
- Authority
- JP
- Japan
- Prior art keywords
- image data
- learning
- data
- region
- correct
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 70
- 230000010365 information processing Effects 0.000 title claims abstract description 67
- 238000012549 training Methods 0.000 claims description 35
- 238000012545 processing Methods 0.000 claims description 30
- 238000011156 evaluation Methods 0.000 claims description 2
- 238000010801 machine learning Methods 0.000 abstract description 7
- 210000000496 pancreas Anatomy 0.000 description 98
- 206010061902 Pancreatic neoplasm Diseases 0.000 description 88
- 201000002528 pancreatic cancer Diseases 0.000 description 87
- 230000003187 abdominal effect Effects 0.000 description 80
- 238000013527 convolutional neural network Methods 0.000 description 70
- 230000011218 segmentation Effects 0.000 description 58
- 230000006870 function Effects 0.000 description 14
- 230000007423 decrease Effects 0.000 description 10
- 238000010586 diagram Methods 0.000 description 8
- 230000000694 effects Effects 0.000 description 6
- 238000005457 optimization Methods 0.000 description 4
- 206010028980 Neoplasm Diseases 0.000 description 3
- 230000003247 decreasing effect Effects 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 208000015486 malignant pancreatic neoplasm Diseases 0.000 description 3
- 208000008443 pancreatic carcinoma Diseases 0.000 description 3
- 238000002591 computed tomography Methods 0.000 description 2
- 238000009499 grossing Methods 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 230000005856 abnormality Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000002595 magnetic resonance imaging Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000013421 nuclear magnetic resonance imaging Methods 0.000 description 1
- 210000000056 organ Anatomy 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000002600 positron emission tomography Methods 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 238000007670 refining Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000012285 ultrasound imaging Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Computation (AREA)
- Multimedia (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Image Analysis (AREA)
Abstract
【課題】機械学習に基づく認識器(学習モデル)の学習において当該認識器による認識精度の低下を抑制することのできる技術を提供する。
【解決手段】本発明に係る情報処理装置は、学習画像データと、前記学習画像データに含まれる第1の領域の正解領域を表す正解領域画像データと、学習モデルが行う所定の認識に関する正解データとを取得する第1の取得部と、前記学習画像データに対する前記第1の領域の推定領域を表す推定領域画像データを取得する第2の取得部と、前記学習画像データと、前記正解領域画像データと、前記正解データとを含み構成される第1の教師データセットと、前記学習画像データと、前記推定領域画像データと、前記正解データとを含み構成される第2の教師データセットとを用いて、前記学習モデルを学習させる学習部とを有する。
【選択図】図1
【解決手段】本発明に係る情報処理装置は、学習画像データと、前記学習画像データに含まれる第1の領域の正解領域を表す正解領域画像データと、学習モデルが行う所定の認識に関する正解データとを取得する第1の取得部と、前記学習画像データに対する前記第1の領域の推定領域を表す推定領域画像データを取得する第2の取得部と、前記学習画像データと、前記正解領域画像データと、前記正解データとを含み構成される第1の教師データセットと、前記学習画像データと、前記推定領域画像データと、前記正解データとを含み構成される第2の教師データセットとを用いて、前記学習モデルを学習させる学習部とを有する。
【選択図】図1
Description
本明細書の開示は、情報処理装置および学習方法に関する。
機械学習による画像認識では、対象画像データと、対象画像データ中に描出される物体の領域を表す画像データとを認識器に入力し、対象画像データに対して認識する場合がある。この対象画像データ中に描出される物体の領域を表す画像データには、しばしば、別の認識器による認識結果が用いられる。非特許文献1には、機械学習に基づく認識器に対して、対象画像データであるCT画像データと、別の認識器によってセグメンテーションされた膵臓の領域を表す画像データとを入力し、膵がんの領域を認識できるように学習する技術が開示されている。
Fengze Liu et al., "FusionNet: Incorporating Shape and Texture for Abnormality Detection in 3D Abdominal CT Scans", arXiv:1908.07654 [cs.CV], 2019.
しかしながら、別の認識器によってセグメンテーションされた領域の精度が低い場合に、機械学習に基づく認識器の学習が堅調に進まず、認識器による認識精度が低下することがあった。
本明細書の開示は、機械学習に基づく認識器(学習モデル)の学習において当該認識器による認識精度の低下を抑制することのできる技術を提供することを目的とする。
本発明に係る情報処理装置は、画像データと、当該画像データに含まれる第1の領域に関する領域画像データとを入力して、当該画像データに関する所定の認識を行う学習モデルの学習を行う情報処理装置であって、学習画像データと、前記学習画像データに含まれる前記第1の領域の正解領域を表す正解領域画像データと、前記認識に関する正解データとを取得する第1の取得部と、前記学習画像データに対する前記第1の領域の推定領域を表す推定領域画像データを取得する第2の取得部と、前記学習画像データと、前記正解領域画像データと、前記正解データとを含み構成される第1の教師データセットと、前記学習画像データと、前記推定領域画像データと、前記正解データとを含み構成される第2の教師データセットとを用いて、前記学習モデルを学習させる学習部とを有する。
本明細書の開示によれば、機械学習に基づく認識器(学習モデル)の学習において当該認識器による認識精度の低下を抑制することができる。
以下、図面を参照して本明細書に開示の情報処理装置の実施形態について説明する。各図面に示される同一または同等の構成要素、部材、処理には、同一の符号を付するものとし、適宜重複した説明は省略する。また、各図面では適宜、構成要素、部材、処理の一部は省略して表示する。
以下では、X線コンピュータ断層撮像(X線CT)装置で撮影された腹部CT画像データ中に描出されている腹部組織を例に挙げて、本発明について説明する。しかしながら、本発明は腹部組織のみならず、あらゆる構造物に対して適用可能である。また、核磁気共鳴画像撮像(MRI)装置、ポジトロン断層撮像(PET)装置、超音波撮像装置で撮像された断層画像や、カメラで撮影された通常の画像に対しても適用可能である。また、入力となる画像は2次元画像であっても、3次元画像であっても適用可能である。さらに、本発明は一般物体を撮影した画像に対しても適用可能である。なお、本発明の実施形態は以下の実施形態に限定されるものではない。
<第1の実施形態>
(概要)
本実施形態では、対象物が描出されている画像データである腹部CT画像データと、第1の領域の領域画像データである膵臓の領域画像データとを入力として、第2の領域である膵腫瘍の領域をセグメンテーションするための学習モデルの学習方法について説明する。以下、学習モデルを認識器と呼称する。
(概要)
本実施形態では、対象物が描出されている画像データである腹部CT画像データと、第1の領域の領域画像データである膵臓の領域画像データとを入力として、第2の領域である膵腫瘍の領域をセグメンテーションするための学習モデルの学習方法について説明する。以下、学習モデルを認識器と呼称する。
本実施形態に係る情報処理装置は、まず、腹部CT画像データと、腹部CT画像データ中の真の膵臓の領域を表す膵臓の正解領域画像データと、真の膵腫瘍の領域を表す膵腫瘍の正解領域画像データとを含む第1の教師データセットを用いて、認識器を学習させる。続いて、情報処理装置は、腹部CT画像データと、腹部CT画像データ中の膵臓の領域の推定結果を表す膵臓の推定領域画像データと、膵腫瘍の正解領域画像データとを含む第2の教師データセットを用いて、認識器を追加学習させる。ここで、腹部CT画像データ、膵臓の正解領域画像データ、膵臓の推定領域画像データ、膵腫瘍の正解領域画像データは、夫々、学習画像データ、第1の領域の正解領域画像データ、第1の領域の推定領域画像データ、学習画像データに対する正解データの一例である。
本実施形態では、畳込みニューラルネットワーク(CNN)を認識器として用いる例を説明する。本実施形態におけるCNNは、例えば、U-Netのような画像データから対象物体の領域をセグメンテーションするものである。
(機能構成)
以下、図1を参照して本実施形態に係る情報処理装置100の機能構成について説明する。同図に示すように、情報処理装置100は、第1の取得部110、推定部120、第2の取得部130、および学習部140によって構成されている。また、本実施形態に係る情報処理装置100は、外部に記憶装置70を具備する。
以下、図1を参照して本実施形態に係る情報処理装置100の機能構成について説明する。同図に示すように、情報処理装置100は、第1の取得部110、推定部120、第2の取得部130、および学習部140によって構成されている。また、本実施形態に係る情報処理装置100は、外部に記憶装置70を具備する。
記憶装置70はコンピュータが読み取り可能な記憶媒体の一例であり、ハードディスクドライブ(HDD)やソリッドステイトドライブ(SSD)に代表される大容量記憶装置
である。記憶装置70は、腹部CT画像データ、膵臓の正解領域画像データ、膵腫瘍の正解領域画像データを保持している。また、記憶装置70は、腹部CT画像データから膵臓の領域をセグメンテーションするように学習されたCNNを保持する。以降では、腹部CT画像データから膵臓の領域をセグメンテーションするように学習されたCNNを膵臓セグメンテーションCNNと呼称する。記憶装置70で保持されている膵臓セグメンテーションCNNは、例えば、CNNのレイヤー構成およびパラメータ(重みやバイアス等)を保持したデータであってもよいし、パラメータのみを保持したデータであってもよい。
である。記憶装置70は、腹部CT画像データ、膵臓の正解領域画像データ、膵腫瘍の正解領域画像データを保持している。また、記憶装置70は、腹部CT画像データから膵臓の領域をセグメンテーションするように学習されたCNNを保持する。以降では、腹部CT画像データから膵臓の領域をセグメンテーションするように学習されたCNNを膵臓セグメンテーションCNNと呼称する。記憶装置70で保持されている膵臓セグメンテーションCNNは、例えば、CNNのレイヤー構成およびパラメータ(重みやバイアス等)を保持したデータであってもよいし、パラメータのみを保持したデータであってもよい。
正解領域画像データとは、腹部CT画像に描出されている対象組織の領域を表す画像データであり、例えば、医師や放射線技師によってアノテーションされたものである。また、正解領域画像データでは、例えば、対象組織の領域に含まれるボクセルの値が1、それ以外のボクセルの値が0で表現されている。
なお、記憶装置70は、情報処理装置100の一機能として構成されてもよい。
第1の取得部110は、記憶装置70から複数の腹部CT画像データと、複数の腹部CT画像データの夫々に対応する複数の膵臓の正解領域画像データおよび複数の膵腫瘍の正解領域画像データとを取得する。そして、第1の取得部110は、推定部120に腹部CT画像データを送信し、学習部140に腹部CT画像データ、膵臓の正解領域画像データ、および膵腫瘍の正解領域画像データを送信する。
推定部120は、まず、第1の取得部110から腹部CT画像データを受信し、記憶装置70から膵臓セグメンテーションCNNを取得する。推定部120は、取得した膵臓セグメンテーションCNNに関するデータをもとに、CNNによる推定処理(後述)ができるようにCNNを構築する。そして、推定部120は、腹部CT画像データを膵臓セグメンテーションCNNに入力し、処理結果として膵臓の推定領域画像データを生成する。
推定領域画像データとは、腹部CT画像データに描出されている対象組織の領域を表す画像データである。推定領域画像データでは、例えば、対象組織の領域に含まれるボクセルの値が1、それ以外のボクセルの値が0で表現されている。
第2の取得部130は、推定部120から膵臓の推定領域画像データを取得し、学習部140に送信する。
学習部140は、第1の取得部110から複数の腹部CT画像データと、複数の腹部CT画像データの夫々に対応する複数の膵臓の正解領域画像データおよび複数の膵腫瘍の正解領域画像データとを受信する。また、第2の取得部130から複数の腹部CT画像データの夫々に対応する膵臓の推定領域画像データを受信する。次に、学習部140は、複数の腹部CT画像データと、それらの夫々に対応する膵臓の正解領域画像データと膵腫瘍の正解領域画像データとを含み構成される第1の教師データセットを用いて、認識器を学習させる。当該認識器は、腹部CT画像データと膵臓の領域画像データとを入力とするCNNであり、膵腫瘍の領域をセグメンテーションするように学習される。すなわち、学習部140は、腹部CT画像データと、膵臓の領域画像データと、膵腫瘍の領域画像データとを一組の教師データとしてCNNを学習させる。続いて、学習部140は、複数の腹部CT画像データと、それらの夫々に対応する膵臓の推定領域画像データと膵腫瘍の正解領域画像データとを含み構成される第2の教師データセットを用いて、第1の教師データセットによって学習されたCNNを追加学習させる。追加学習とは、第1の教師データセットを用いて学習させることで得られた認識器(CNN)のパラメータを初期値として、認識器のパラメータを再度更新することを指す。このとき、一部のパラメータを固定にして、残りのパラメータのみが更新されるようにしてもよい。そして、一連の学習処理を終えた
後、学習部140は、第2の教師データセットを用いて学習させたCNNを記憶装置70に保存する。以降では、学習部140によって膵腫瘍の領域をセグメンテーションするように学習されるCNNを、膵腫瘍セグメンテーションCNNと呼称する。
後、学習部140は、第2の教師データセットを用いて学習させたCNNを記憶装置70に保存する。以降では、学習部140によって膵腫瘍の領域をセグメンテーションするように学習されるCNNを、膵腫瘍セグメンテーションCNNと呼称する。
ここで、図5を用いて、本実施形態に係る画像データについて説明する。図5(a)は、腹部CT画像データ510を表している。本実施形態において、腹部CT画像データ510は、膵臓の領域512が含まれるようにクロップされた3次元画像である。腹部CT画像データ510中には、例えば、膵臓の領域512および膵腫瘍の領域511が描出されている。図5(b)は、膵腫瘍の正解領域画像データ520を表しており、正解領域画像データ520は、腹部CT画像データ510中の真の膵腫瘍の領域である膵腫瘍の正解領域521を表している。また、図5(c)は、腹部CT画像データ510中の真の膵臓の正解領域画像データ530を表し、図5(d)は、推定部120によって生成される膵臓の推定領域画像データ540を表している。膵臓の正解領域画像データ530および膵臓の推定領域画像データ540は、それぞれ膵臓の正解領域532および膵臓の推定領域542を表している。膵臓の推定領域542は、腹部CT画像データ510中の膵臓の領域512を推定(セグメンテーション)した結果である。ここで、膵臓の正解領域532と膵臓の推定領域542は必ずしも一致せず、両者の間には差異が生ずることがある。図に示した例では、膵腫瘍の領域511が存在する付近で、膵臓の正解領域532との差異が生じている。このように真の膵臓の領域とは異なる推定領域画像データが含まれる第2の教師データセットのみを用いて認識器を学習させると、膵臓の推定領域画像データの誤りが学習の停滞等の悪影響を及ぼし、認識器の精度を低下させる可能性がある。一方で、腹部CT画像データからの完全自動な膵がんセグメンテーションを実現する場合には、膵がんセグメンテーションCNNの推論時に、膵臓の領域画像データとして膵臓の推定領域画像データが入力される。そのため、膵臓の正解領域画像データが含まれる第1の教師データセットのみを用いて認識器を学習させると、学習時と推論時の領域画像データの違いから、認識器の精度が低下する可能性がある。そこで、本実施形態では、第1の教師データセットと第2の教師データセットとを用いることで、膵臓の領域画像データの特徴を効率良く認識器に学習させ、認識器の精度の低下を抑制する。
(ハードウェア構成)
続いて、図2を用いて、情報処理装置100のハードウェア構成について説明する。情報処理装置100は、公知のコンピュータ(情報処理装置)の構成を有する。情報処理装置100は、そのハードウェア構成として、CPU201、主メモリ202、磁気ディスク203、表示メモリ204、モニタ205、マウス206、キーボード207を含む。
続いて、図2を用いて、情報処理装置100のハードウェア構成について説明する。情報処理装置100は、公知のコンピュータ(情報処理装置)の構成を有する。情報処理装置100は、そのハードウェア構成として、CPU201、主メモリ202、磁気ディスク203、表示メモリ204、モニタ205、マウス206、キーボード207を含む。
CPU(Central Processing Unit)201は、主として各構成要素の動作を制御する。主メモリ202は、CPU201が実行する制御プログラムを格納したり、CPU201によるプログラム実行時の作業領域を提供したりする。磁気ディスク203は、OS(Operating System)、周辺機器のデバイスドライバ、後述する処理等を行うためのプログラムを含む各種アプリケーションソフトを実現するためのプログラムを格納する。CPU201が主メモリ202、磁気ディスク203等に格納されているプログラムを実行することにより、図1に示した情報処理装置100の機能(ソフトウェア)及び後述するフローチャートにおける処理が実現される。
表示メモリ204は、表示用データを一時記憶する。モニタ205は、例えばCRTモニタや液晶モニタ等であり、表示メモリ204からのデータに基づいて画像やテキスト等の表示を行う。マウス206及びキーボード207は、ユーザによるポインティング入力及び文字等の入力を夫々行う。上記各構成要素は、共通バス208により互いに通信可能に接続されている。
CPU201はプロセッサまたは制御部の一例に相当する。情報処理装置100は、CPU201に加えて、GPU(Graphics Processing Unit)やFPGA(Field-Programmable Gate Array)の少なくともいずれかを有していてもよい。また、CPU201に代えて、GPUやFPGAの少なくともいずれかを有していてもよい。主メモリ202および磁気ディスク203はメモリまたは記憶装置の一例に相当する。
(処理手順)
次に、本実施形態に係る情報処理装置100の処理手順について、図3を用いて説明する。
次に、本実施形態に係る情報処理装置100の処理手順について、図3を用いて説明する。
(ステップS300)
ステップS300において、第1の取得部110は、記憶装置70から複数の腹部CT画像データと、複数の腹部CT画像データの夫々に対応する複数の膵臓の正解領域画像データおよび複数の膵腫瘍の正解領域画像データとを取得する。そして、第1の取得部110は、推定部120に複数の腹部CT画像データを送信し、学習部140に複数の腹部CT画像データと、複数の膵臓の正解領域画像データと、複数の膵腫瘍の正解領域画像データとを送信する。
ステップS300において、第1の取得部110は、記憶装置70から複数の腹部CT画像データと、複数の腹部CT画像データの夫々に対応する複数の膵臓の正解領域画像データおよび複数の膵腫瘍の正解領域画像データとを取得する。そして、第1の取得部110は、推定部120に複数の腹部CT画像データを送信し、学習部140に複数の腹部CT画像データと、複数の膵臓の正解領域画像データと、複数の膵腫瘍の正解領域画像データとを送信する。
(ステップS310)
ステップS310において、推定部120は、記憶装置70から腹部CT画像データから膵臓の領域をセグメンテーションするように学習された膵臓セグメンテーションCNNを取得する。次に、推定部120は、第1の取得部110から受信した腹部CT画像データを膵臓セグメンテーションCNNに入力し、腹部CT画像データ中に描出されている膵臓の領域を推定し、膵臓の推定領域画像データを生成する。このとき、推定部120は、膵臓の推定領域画像データに対して、任意の画像処理による後処理を実行してもよい。任意の画像処理とは、セグメンテーションされた膵臓の領域をリファインする処理であり、例えば、2値化処理、最大連結成分取得、モルフォロジー処理、グラフカット・セグメンテーションである。その他にも、解像度変換などを行ってもよい。そして、第2の取得部130は、推定部120から膵臓の推定領域画像データを取得し、それを学習部140に送信する。
ステップS310において、推定部120は、記憶装置70から腹部CT画像データから膵臓の領域をセグメンテーションするように学習された膵臓セグメンテーションCNNを取得する。次に、推定部120は、第1の取得部110から受信した腹部CT画像データを膵臓セグメンテーションCNNに入力し、腹部CT画像データ中に描出されている膵臓の領域を推定し、膵臓の推定領域画像データを生成する。このとき、推定部120は、膵臓の推定領域画像データに対して、任意の画像処理による後処理を実行してもよい。任意の画像処理とは、セグメンテーションされた膵臓の領域をリファインする処理であり、例えば、2値化処理、最大連結成分取得、モルフォロジー処理、グラフカット・セグメンテーションである。その他にも、解像度変換などを行ってもよい。そして、第2の取得部130は、推定部120から膵臓の推定領域画像データを取得し、それを学習部140に送信する。
(ステップS320)
ステップS320において、学習部140は、第1の取得部110から複数の腹部CT画像データと、複数の腹部CT画像データの夫々に対応する複数の膵臓の正解領域画像データおよび複数の膵腫瘍の正解領域画像データとを受信する。また、学習部140は、第2の取得部130から複数の腹部CT画像データの夫々に対応する複数の膵臓の推定領域画像データを受信する。本実施形態では、複数の腹部CT画像データと、複数の膵臓の正解領域画像データと、複数の膵腫瘍の正解領域画像データとを含む教示データセットを第1の教示データセットとして定義する。また、複数の腹部CT画像データと、複数の膵臓の推定領域画像データと、複数の膵腫瘍の正解領域画像データとを含む教示データセットを第2の教示データセットとして定義する。学習部140は、第1の教示データセットおよび第2の教示データセットを用いて、膵腫瘍セグメンテーションCNNを学習させ、記憶装置70に学習済みの膵腫瘍セグメンテーションCNNを保存する。以下では、図4を用いて、ステップS320の処理手順を詳しく説明する。
ステップS320において、学習部140は、第1の取得部110から複数の腹部CT画像データと、複数の腹部CT画像データの夫々に対応する複数の膵臓の正解領域画像データおよび複数の膵腫瘍の正解領域画像データとを受信する。また、学習部140は、第2の取得部130から複数の腹部CT画像データの夫々に対応する複数の膵臓の推定領域画像データを受信する。本実施形態では、複数の腹部CT画像データと、複数の膵臓の正解領域画像データと、複数の膵腫瘍の正解領域画像データとを含む教示データセットを第1の教示データセットとして定義する。また、複数の腹部CT画像データと、複数の膵臓の推定領域画像データと、複数の膵腫瘍の正解領域画像データとを含む教示データセットを第2の教示データセットとして定義する。学習部140は、第1の教示データセットおよび第2の教示データセットを用いて、膵腫瘍セグメンテーションCNNを学習させ、記憶装置70に学習済みの膵腫瘍セグメンテーションCNNを保存する。以下では、図4を用いて、ステップS320の処理手順を詳しく説明する。
(ステップS421)
ステップS421において、学習部140は、膵臓の正解領域画像データを含む第1の教師データセットを用いて、膵腫瘍セグメンテーションCNNに対する学習処理を実行し、CNNが有するパラメータを更新する。CNNが有するパラメータとは、典型的には、
畳込み層のカーネルの重みやバイアス、バッチ正規化層のオフセットやスケール係数である。本実施形態において、膵腫瘍セグメンテーションCNNは、腹部CT画像データと該腹部CT画像データに対応する膵臓の正解領域画像データとを入力として受け取り、膵腫瘍の領域をセグメンテーションするように学習される。そのため、学習部140は、腹部CT画像データと、膵臓の正解領域画像データと、膵腫瘍の正解領域画像データとを一組の教師データとして扱い、膵腫瘍セグメンテーションCNNが有するパラメータを更新する。
ステップS421において、学習部140は、膵臓の正解領域画像データを含む第1の教師データセットを用いて、膵腫瘍セグメンテーションCNNに対する学習処理を実行し、CNNが有するパラメータを更新する。CNNが有するパラメータとは、典型的には、
畳込み層のカーネルの重みやバイアス、バッチ正規化層のオフセットやスケール係数である。本実施形態において、膵腫瘍セグメンテーションCNNは、腹部CT画像データと該腹部CT画像データに対応する膵臓の正解領域画像データとを入力として受け取り、膵腫瘍の領域をセグメンテーションするように学習される。そのため、学習部140は、腹部CT画像データと、膵臓の正解領域画像データと、膵腫瘍の正解領域画像データとを一組の教師データとして扱い、膵腫瘍セグメンテーションCNNが有するパラメータを更新する。
本ステップでは、第1の教師データセットから、複数の教師データ(バッチ)を選択し、誤差逆伝播法などの公知の方法を用いて、膵腫瘍のセグメンテーションCNNが有するパラメータを更新する。このとき、損失関数は、Mean Squared Error(MSE)や、Dice Coefficient Lossなど、公知のものを利用すればよい。また、最適化手法も同様に、Stochastic Gradient Descent(SGD)法やAdam法のような公知の方法を利用すればよい。その他、学習率やバッチサイズなどのハイパーパラメータについても、適当な値を設定すればよい。
(ステップS422)
ステップS422において、学習部140は、第1の教師データセットを用いた膵腫瘍セグメンテーションCNNの学習の終了条件を満たしているか否かを判定し、次のステップを決定する。学習の終了条件は、典型的には、学習開始からの経過エポック数が所定の数に達することや、損失関数の値が所定の値に達すること等であるが、それらに限定されない。例えば、第1の教師データセットとは別のデータセット(検証データセット)の精度が所定値に達することであってもよい。また、複数の終了条件を組み合わせてもよい。本実施形態では、学習開始からの経過エポック数が、予め設定したエポック数の上限値(最大エポック数)に達することを学習の終了条件とする。学習部140は、学習の終了条件を満たす場合にはステップS423に進み、それ以外の場合にはステップS421に戻る。
ステップS422において、学習部140は、第1の教師データセットを用いた膵腫瘍セグメンテーションCNNの学習の終了条件を満たしているか否かを判定し、次のステップを決定する。学習の終了条件は、典型的には、学習開始からの経過エポック数が所定の数に達することや、損失関数の値が所定の値に達すること等であるが、それらに限定されない。例えば、第1の教師データセットとは別のデータセット(検証データセット)の精度が所定値に達することであってもよい。また、複数の終了条件を組み合わせてもよい。本実施形態では、学習開始からの経過エポック数が、予め設定したエポック数の上限値(最大エポック数)に達することを学習の終了条件とする。学習部140は、学習の終了条件を満たす場合にはステップS423に進み、それ以外の場合にはステップS421に戻る。
(ステップS423)
ステップS423において、学習部140は、第1の教師データセットを用いて学習させた膵腫瘍セグメンテーションCNNに対して、膵臓の推定領域画像データを含む第2の教師データセットを用いて追加の学習処理を実行する。学習処理は、ステップS421と同様に、公知の方法を用いて実行される。このとき、損失関数、最適化手法、学習率、バッチサイズなどのハイパーパラメータは、第1の教師データセットを用いて膵腫瘍セグメンテーションCNNを学習させる際のものと同一であってもよいし、一部を変更してもよい。
ステップS423において、学習部140は、第1の教師データセットを用いて学習させた膵腫瘍セグメンテーションCNNに対して、膵臓の推定領域画像データを含む第2の教師データセットを用いて追加の学習処理を実行する。学習処理は、ステップS421と同様に、公知の方法を用いて実行される。このとき、損失関数、最適化手法、学習率、バッチサイズなどのハイパーパラメータは、第1の教師データセットを用いて膵腫瘍セグメンテーションCNNを学習させる際のものと同一であってもよいし、一部を変更してもよい。
(ステップS424)
ステップS424において、学習部140は、第2の教師データセットを用いた膵腫瘍セグメンテーションCNNの学習の終了条件を満たしているか否かを判定し、次のステップを決定する。学習の終了条件は、ステップS422に例示したような公知のものを用いる。なお、ステップS422と同一の終了条件を用いてもよいし、異なる終了条件を用いてもよい。学習部140は、学習の終了条件を満たす場合には、上記の学習処理により学習された膵腫瘍セグメンテーションCNNを記憶装置70に保存してステップS320を終了し、それ以外の場合にはステップS423に戻る。
ステップS424において、学習部140は、第2の教師データセットを用いた膵腫瘍セグメンテーションCNNの学習の終了条件を満たしているか否かを判定し、次のステップを決定する。学習の終了条件は、ステップS422に例示したような公知のものを用いる。なお、ステップS422と同一の終了条件を用いてもよいし、異なる終了条件を用いてもよい。学習部140は、学習の終了条件を満たす場合には、上記の学習処理により学習された膵腫瘍セグメンテーションCNNを記憶装置70に保存してステップS320を終了し、それ以外の場合にはステップS423に戻る。
以上に示した学習方法により、腹部CT画像データと、該腹部CT画像に含まれる膵臓の領域画像データとを入力として、膵腫瘍の領域をセグメンテーションする膵腫瘍セグメンテーションCNNを生成できる。このように学習された膵腫瘍セグメンテーションCNN(認識器)は、認識処理(推論処理)に用いることができる。認識処理の一例として、
図1に不図示の認識部により、膵腫瘍の領域をセグメンテーションし、膵腫瘍の推定領域画像データを生成する方法を説明する。情報処理装置100における認識部は、まず記憶装置70から膵臓セグメンテーションCNNを取得する。次に、認識部は、第1の取得部110から認識対象である腹部CT画像データを受信し、第2の取得部130から該腹部CT画像データに含まれる膵臓の領域画像データを受信する。続いて、認識部は、該腹部CT画像データと該膵臓の領域画像データとを膵腫瘍セグメンテーションCNNに入力し、膵腫瘍の領域をセグメンテーションする。そして、認識部は、膵腫瘍の領域のセグメンテーション結果として、膵腫瘍の推定領域画像データを生成し、記憶部70に保存する。なお、認識部は、情報処理装置100に構成されていてもよいし、別の装置の機能として実現されていてもよい。
図1に不図示の認識部により、膵腫瘍の領域をセグメンテーションし、膵腫瘍の推定領域画像データを生成する方法を説明する。情報処理装置100における認識部は、まず記憶装置70から膵臓セグメンテーションCNNを取得する。次に、認識部は、第1の取得部110から認識対象である腹部CT画像データを受信し、第2の取得部130から該腹部CT画像データに含まれる膵臓の領域画像データを受信する。続いて、認識部は、該腹部CT画像データと該膵臓の領域画像データとを膵腫瘍セグメンテーションCNNに入力し、膵腫瘍の領域をセグメンテーションする。そして、認識部は、膵腫瘍の領域のセグメンテーション結果として、膵腫瘍の推定領域画像データを生成し、記憶部70に保存する。なお、認識部は、情報処理装置100に構成されていてもよいし、別の装置の機能として実現されていてもよい。
(効果)
以上に示したように、本実施形態に係る情報処理装置100は、膵臓の正解領域画像データを含む第1の教師データセットで認識器を学習させ、該認識器に対して、膵臓の推定領域画像データを含む第2の教師データセットを用いて追加学習させる。このように段階的に学習させることで、膵臓の推定領域画像データが保持する膵臓の領域に誤りが存在する場合であっても、膵臓の領域画像データからの特徴を効率良く学習できるため、膵腫瘍セグメンテーションCNNの精度低下を抑制できる。
以上に示したように、本実施形態に係る情報処理装置100は、膵臓の正解領域画像データを含む第1の教師データセットで認識器を学習させ、該認識器に対して、膵臓の推定領域画像データを含む第2の教師データセットを用いて追加学習させる。このように段階的に学習させることで、膵臓の推定領域画像データが保持する膵臓の領域に誤りが存在する場合であっても、膵臓の領域画像データからの特徴を効率良く学習できるため、膵腫瘍セグメンテーションCNNの精度低下を抑制できる。
(バリエーション)
上述の説明では、腹部CT画像データ中の膵臓や膵腫瘍を例に挙げたが、本発明は任意の画像データ中の任意の物体に対して適用可能である。すなわち、CT以外の医用画像データやカメラで撮影された画像データに対しても適用可能である。
上述の説明では、腹部CT画像データ中の膵臓や膵腫瘍を例に挙げたが、本発明は任意の画像データ中の任意の物体に対して適用可能である。すなわち、CT以外の医用画像データやカメラで撮影された画像データに対しても適用可能である。
上述の説明では、対象画像データ(腹部CT画像データ)と第1の領域(膵臓)の領域画像データを入力として、第2の領域(膵腫瘍)をセグメンテーションする画像認識タスクを例に挙げたが、適用可能な画像認識タスクはこれに限らない。例えば、対象画像データに対する画像分類や、第1の領域または第2の領域に対するクラス分類であってもよい。この場合、情報処理装置は、対象画像データと第1の領域の正解領域画像データとに対応する正解データとして、分類対象に対応するラベル(対象画像データ、第1の領域、または第2の領域が属するクラスを示すデータ)を取得し、認識器を学習させる。また、第1の領域または第2の領域の位置を特定するような画像認識タスクであってもよい。第1の領域または第2の領域のセグメンテーションであれば、対象画像データと第1の領域の正解領域画像データとに対応する正解データとして、分類対象である第1の領域または第2の領域に対応する正解領域画像データを取得し、認識器を学習させる。バウンディングボックス検出やランドマーク検出であれば、正解データとして、分類対象である第1の領域または第2の領域に対応する正解座標データを取得し、認識器を学習させる。その他、対象画像データと第1の領域の領域画像データとを入力とする構成であれば、いかなる画像認識タスクに対しても適用可能である。また、第1の領域や第2の領域は複数存在していてもよい。
上述の説明では、推定部120は、情報処理装置100の一機能として構成されていたが、外部装置の一機能として構成されていてもよい。この場合、情報処理装置100は、ステップS310において、第2の取得部130よって、推定部120の機能を有する外部装置、または膵臓の推定領域画像データが記憶されている外部記憶装置から膵臓の推定領域画像データを取得する。
上述の説明では、正解領域画像データおよび推定領域画像データは、ボクセル値が0または1で表現される2値画像データであったが、この表現形式は一例であり、対象組織の領域を表現可能な任意の形式でよい。例えば、対象組織の領域らしさを連続値で表す画像
データであってもよいし、複数の対象組織を多値で表現した画像データであってもよい。また、正解領域画像データと推定領域画像データの表現形式は同一であってもよいし、夫々異なっていてもよい。
データであってもよいし、複数の対象組織を多値で表現した画像データであってもよい。また、正解領域画像データと推定領域画像データの表現形式は同一であってもよいし、夫々異なっていてもよい。
上述の説明では、認識器としてCNNのような深層学習に基づく認識器を例示したが、これに限らない。例えば、Support Vector Machine(SVM)やRandom Forestなどの分類木を認識器として利用してもよい。この場合、学習方法は、認識器によって適切な方法を用いる。また、推定部120における認識器は、上述の機械学習に基づく手法に限らず、画像処理に基づく手法であれば何れの方法でもよい。例えば、臓器の存在確率アトラスとの位置合わせに基づく手法や、しきい値処理をベースとした手法であってもよい。
上述の説明では、正解領域画像データとして、医師や放射線技師によってアノテーションされたデータを用いる場合を例として説明したが、正解領域画像データはこれに限らず、推定領域画像データよりも信頼度が高い任意のデータを利用できる。例えば、正解領域画像データは、高精度な領域推定が期待できる第1の認識器によって生成し、推定領域画像データは、第1の認識器と比較して計算が簡易な第2の認識器によって生成されたものでもよい。これによれば、医師などによってアノテーションされた領域画像データがなくても、本明細書に開示の効果を享受できる。なお、膵臓の領域のセグメンテーションから膵腫瘍の領域のセグメンテーションまでの一連の推論処理を実行する際に、計算コスト(計算時間や計算リソース)の制約により、高精度な領域推定を期待できる認識器を用いることが困難な場合がある。このような場合において、本明細書に開示の学習方法を適用することで、簡易な認識器で生成された領域画像データの精度の低さによる悪影響を低減することが可能になる。
上述の説明では、推定部120における膵臓セグメンテーションCNNと、学習部140における膵腫瘍セグメンテーションCNNの入力として、同一の腹部CT画像データを用いる場合を例として説明したが、異なる画像データを用いてもよい。例えば、夫々の入力に異なる平滑化フィルタを適用したり、何れか一方だけに平滑化フィルタを適用したりしてもよい。他にも、夫々の入力として互いに解像度が異なる腹部CT画像データを用いてもよい。また、夫々の入力として、位置合わせ済みの造影状態が異なる画像データを用いてもよいし、異なるモダリティの画像データを用いてもよい。
<第2の実施形態>
(概要)
第1の実施形態では、膵臓の正解領域画像データを含む第1の教師データセットと、膵臓の推定領域画像データを含む第2の教師データセットとを用いて、認識器(学習モデル)を段階的に学習させた。第2の実施形態では、第1の教師データセットと第2の教師データセットに基づいて第3の教師データセットを構築し、第3の教師データセットを用いて認識器を学習させる方法について説明する。このとき、本実施形態に係る情報処理装置は、所定の条件を満たした場合に、第1の教師データセットに含まれる教師データと、第2の教師データセットに含まれる教師データとの比率を変更しながら第3の教師データセットを構築する。より具体的には、各学習のステップであるエポックの開始時(所定の条件の一例)に、学習開始時からのエポックの回数(エポック数)に応じて第1の教師データセットからサンプリングする教師データの数を徐々に減少するように、第3の教師データセットを構築する。逆説的に言うと、エポック数の増加に伴って、徐々に第3の教師データセット中の第2の教師データセットに含まれる教師データの占める割合が増えるように、第3の教師データセットを構築する。
(概要)
第1の実施形態では、膵臓の正解領域画像データを含む第1の教師データセットと、膵臓の推定領域画像データを含む第2の教師データセットとを用いて、認識器(学習モデル)を段階的に学習させた。第2の実施形態では、第1の教師データセットと第2の教師データセットに基づいて第3の教師データセットを構築し、第3の教師データセットを用いて認識器を学習させる方法について説明する。このとき、本実施形態に係る情報処理装置は、所定の条件を満たした場合に、第1の教師データセットに含まれる教師データと、第2の教師データセットに含まれる教師データとの比率を変更しながら第3の教師データセットを構築する。より具体的には、各学習のステップであるエポックの開始時(所定の条件の一例)に、学習開始時からのエポックの回数(エポック数)に応じて第1の教師データセットからサンプリングする教師データの数を徐々に減少するように、第3の教師データセットを構築する。逆説的に言うと、エポック数の増加に伴って、徐々に第3の教師データセット中の第2の教師データセットに含まれる教師データの占める割合が増えるように、第3の教師データセットを構築する。
(機能構成)
本実施形態に係る情報処理装置の構成は、第1の実施形態に係る情報処理装置100と同じである。以下では、図1を参照して、本実施形態に係る情報処理装置の機能構成について、第1の実施形態に係る情報処理装置との重複部分を省略して説明する。記憶装置70、第1の取得部110、推定部120、および第2の取得部130は第1の実施形態と同様であるため、説明を省略する。
本実施形態に係る情報処理装置の構成は、第1の実施形態に係る情報処理装置100と同じである。以下では、図1を参照して、本実施形態に係る情報処理装置の機能構成について、第1の実施形態に係る情報処理装置との重複部分を省略して説明する。記憶装置70、第1の取得部110、推定部120、および第2の取得部130は第1の実施形態と同様であるため、説明を省略する。
学習部140は、第1の実施形態と同様に、複数の腹部CT画像データと、複数の腹部CT画像データの夫々に対応する複数の膵臓の正解領域画像データ、複数の膵腫瘍の正解領域画像データ、および複数の膵臓の推定領域画像データを受信する。次に、学習部140は、膵臓の正解領域画像データを含む第1の教師データセットと、膵臓の推定領域画像データを含む第2の教師データセットとに基づいて第3の教師データセットを構築し、膵腫瘍セグメンテーションCNNに対する学習処理を実行する。本実施形態では、学習部140は、エポックの開始時に、エポック数に応じて第1の教師データセットからサンプリングする教師データの数が徐々に減少するように、第3の教師データセットを構築する。そして、一連の学習処理を終えた後、学習部140は、学習させた膵腫瘍セグメンテーションCNNを記憶装置70に保存する。
(ハードウェア構成)
本実施形態に係る情報処理装置100のハードウェア構成は、第1の実施形態と同一であるため、説明を省略する。
本実施形態に係る情報処理装置100のハードウェア構成は、第1の実施形態と同一であるため、説明を省略する。
(処理手順)
次に、図3を用いて、本実施形態における情報処理装置100の処理手順について説明する。以下では、第1の実施形態に係る情報処理装置100の説明との重複部分を省略して説明する。
次に、図3を用いて、本実施形態における情報処理装置100の処理手順について説明する。以下では、第1の実施形態に係る情報処理装置100の説明との重複部分を省略して説明する。
(ステップS300,S310)
ステップS300,S310は、第1の実施形態におけるステップS300,S310と同一のため、説明を省略する。
ステップS300,S310は、第1の実施形態におけるステップS300,S310と同一のため、説明を省略する。
(ステップS320)
ステップS320において、学習部140は、第1の取得部110から複数の腹部CT画像データと、複数の腹部CT画像データの夫々に対応する複数の膵臓の正解領域画像データおよび複数の膵腫瘍の正解領域画像データとを受信する。また、学習部140は、第2の取得部130から複数の腹部CT画像データの夫々に対応する複数の膵臓の推定領域画像データを受信する。本実施形態において、第1の実施形態と同様に、複数の腹部CT画像データと、複数の膵臓の正解領域画像データと、複数の膵腫瘍の正解領域画像データとを含む教示データセットを第1の教示データセットとして定義する。また、複数の腹部CT画像データと、複数の膵臓の推定領域画像データと、複数の膵腫瘍の正解領域画像データとを含む教示データセットを第2の教示データセットとして定義する。学習部140は、第1の教示データセットおよび第2の教示データセットに基づいて第3の教師データセットを構築する。そして、学習部140は、第3の教師データセットを逐次更新しながら膵腫瘍セグメンテーションCNNを学習させ、記憶装置70に学習済みの膵腫瘍セグメンテーションCNNを保存する。図6を用いて、ステップS320の処理手順を説明する。
ステップS320において、学習部140は、第1の取得部110から複数の腹部CT画像データと、複数の腹部CT画像データの夫々に対応する複数の膵臓の正解領域画像データおよび複数の膵腫瘍の正解領域画像データとを受信する。また、学習部140は、第2の取得部130から複数の腹部CT画像データの夫々に対応する複数の膵臓の推定領域画像データを受信する。本実施形態において、第1の実施形態と同様に、複数の腹部CT画像データと、複数の膵臓の正解領域画像データと、複数の膵腫瘍の正解領域画像データとを含む教示データセットを第1の教示データセットとして定義する。また、複数の腹部CT画像データと、複数の膵臓の推定領域画像データと、複数の膵腫瘍の正解領域画像データとを含む教示データセットを第2の教示データセットとして定義する。学習部140は、第1の教示データセットおよび第2の教示データセットに基づいて第3の教師データセットを構築する。そして、学習部140は、第3の教師データセットを逐次更新しながら膵腫瘍セグメンテーションCNNを学習させ、記憶装置70に学習済みの膵腫瘍セグメンテーションCNNを保存する。図6を用いて、ステップS320の処理手順を説明する。
(ステップS621)
ステップS621において、学習部140は、膵臓の正解領域画像データを含む第1の教師データセットと、膵臓の推定領域画像データを含む第2の教師データセットに基づいて、第3の教師データセットを構築する。本実施形態では、エポック開始時に、第3の教
師データセットに占める第1の教師データセットに含まれる教師データの数が、学習開始からのエポック数に応じて徐々に減少するように、第3の教師データセットを構築する。例えば、第1の教師データセットに含まれる教師データの総数をm1として、第3の教師データセットを構築する際に第1の教師データセットからサンプリングする教師データの数m1’を以下の式で決定する。
m1’=m1×(1-ncurrent/nmaximum)
ステップS621において、学習部140は、膵臓の正解領域画像データを含む第1の教師データセットと、膵臓の推定領域画像データを含む第2の教師データセットに基づいて、第3の教師データセットを構築する。本実施形態では、エポック開始時に、第3の教
師データセットに占める第1の教師データセットに含まれる教師データの数が、学習開始からのエポック数に応じて徐々に減少するように、第3の教師データセットを構築する。例えば、第1の教師データセットに含まれる教師データの総数をm1として、第3の教師データセットを構築する際に第1の教師データセットからサンプリングする教師データの数m1’を以下の式で決定する。
m1’=m1×(1-ncurrent/nmaximum)
ここで、ncurrentとnmaximumは、それぞれ学習開始からのエポック数とエポック数の上限値を表す。エポック数の上限値とは、後述するステップS623における学習の終了条件の一例である。つまり、エポック数が増加するにつれて、第1の教師データセットからサンプリングする教師データの数は徐々に減少し、最終エポック(エポック数の上限値に到達したエポック)ではm1’=0になる。一方で、第3の教師データセットを構築する際の第2の教師データセットから選択される教師データの数は、エポックに応じて変化させない。すなわち、第2の教師データセットに含まれる教師データの総数をm2として、第3の教師データセットを構築する際に第2の教師データセットからサンプリングする教師データの数を常にm2’=m2とする。これにより、第3の教師データセットを構成する第1の教師データセットおよび第2の教師データセットの夫々に含まれる教師データの割合は、m1×(1-ncurrent/nmaximum):m2となる。このように、エポック開始時(所定の条件の一例)に、第1の教師データセットに含まれる教師データと、第2の教師データセットに含まれる教師データとの比率を変更しながら第3の教師データセットを構築する。
(ステップS622)
ステップS622において、学習部140は、第3の教師データセットを用いて、膵腫瘍セグメンテーションCNNに対する学習処理を実行し、CNNが有するパラメータを更新する。学習処理は、第1の実施形態におけるステップS421と同様に、公知の方法を用いて実行される。このとき、損失関数、最適化手法、学習率、バッチサイズなどのハイパーパラメータは、適切な値を任意に設定するものとする。
ステップS622において、学習部140は、第3の教師データセットを用いて、膵腫瘍セグメンテーションCNNに対する学習処理を実行し、CNNが有するパラメータを更新する。学習処理は、第1の実施形態におけるステップS421と同様に、公知の方法を用いて実行される。このとき、損失関数、最適化手法、学習率、バッチサイズなどのハイパーパラメータは、適切な値を任意に設定するものとする。
(ステップS623)
ステップS623において、学習部140は、第3の教師データセットを用いた膵腫瘍セグメンテーションCNNの学習の終了条件を満たしているか否かを判定し、次のステップを決定する。学習の終了条件は、第1の実施形態におけるステップS422に例示したような公知のものを用いる。学習部140は、学習の終了条件を満たす場合には、上記の学習処理により学習された膵腫瘍セグメンテーションCNNを記憶装置70に保存してステップS320を終了し、それ以外の場合にはステップS621に戻る。
ステップS623において、学習部140は、第3の教師データセットを用いた膵腫瘍セグメンテーションCNNの学習の終了条件を満たしているか否かを判定し、次のステップを決定する。学習の終了条件は、第1の実施形態におけるステップS422に例示したような公知のものを用いる。学習部140は、学習の終了条件を満たす場合には、上記の学習処理により学習された膵腫瘍セグメンテーションCNNを記憶装置70に保存してステップS320を終了し、それ以外の場合にはステップS621に戻る。
(効果)
以上に示したように、本実施形態に係る情報処理装置100は、膵臓の正解領域画像データを含む第1の教師データセットと、膵臓の推定領域画像データを含む第2の教師データセットとに基づいて第3の教師データセットを構築し、認識器を学習させる。このように認識器を学習させることで、膵臓の推定領域画像データが保持する膵臓の領域に誤りが存在する場合であっても、膵臓の領域画像データからの特徴を効率良く学習できるため、膵腫瘍セグメンテーションCNNの精度低下を抑制できる。
以上に示したように、本実施形態に係る情報処理装置100は、膵臓の正解領域画像データを含む第1の教師データセットと、膵臓の推定領域画像データを含む第2の教師データセットとに基づいて第3の教師データセットを構築し、認識器を学習させる。このように認識器を学習させることで、膵臓の推定領域画像データが保持する膵臓の領域に誤りが存在する場合であっても、膵臓の領域画像データからの特徴を効率良く学習できるため、膵腫瘍セグメンテーションCNNの精度低下を抑制できる。
(バリエーション)
上述の説明では、各学習のステップであるエポックの開始時に第1の教師データセットに含まれる教師データと、第2の教師データセットに含まれる教師データとの比率を変更する例を示したが、これに限らない。例えば、学習におけるエポック内の所定のステージ(エポックの開始時や終了時など)に達することを条件として比率を変更してもよいし、
学習の評価指標(損失関数や、その他の指標)が所定の値に達することを条件として比率を変更してもよい。例えば、損失関数の値が所定の値に達することを所定の条件として用いる場合、学習の開始時にm1’:m2’=1:1、第1の所定の値に達した場合にm1’:m2’=1:2、第2の所定の値に達した場合にm1’:m2’=1:3となるように第3の教師データセットを構築する。また、上述の説明では、第3の教師データセットを構築する際に、第1の教師データセットからサンプリングする教師データの数を徐々に減少させることで、第2の教師データセットに含まれる教師データの数との比率を変更したが、これに限らない。例えば、第1の教師データセットからサンプリングする教師データの数は所定の数に固定し、第2の教師データセットからサンプリングする教師データの数を、学習開始からのエポック数に応じて徐々に増やすようにしてもよい。また、第1の教師データセットまたは第2の教師データセットからサンプリングする教師データの数を単調に増加/減少しなくてもよく、学習の途中でサンプリングする数を増加または減少するようにしてもよい。また、上記の方法に限らず、学習の途中で第1の教師データセットと第2の教師データセットの夫々に含まれる教師データの比率を変更するように、第3の教師データセットを構築するための条件や比率を変更する任意の方法を用いてもよい。
上述の説明では、各学習のステップであるエポックの開始時に第1の教師データセットに含まれる教師データと、第2の教師データセットに含まれる教師データとの比率を変更する例を示したが、これに限らない。例えば、学習におけるエポック内の所定のステージ(エポックの開始時や終了時など)に達することを条件として比率を変更してもよいし、
学習の評価指標(損失関数や、その他の指標)が所定の値に達することを条件として比率を変更してもよい。例えば、損失関数の値が所定の値に達することを所定の条件として用いる場合、学習の開始時にm1’:m2’=1:1、第1の所定の値に達した場合にm1’:m2’=1:2、第2の所定の値に達した場合にm1’:m2’=1:3となるように第3の教師データセットを構築する。また、上述の説明では、第3の教師データセットを構築する際に、第1の教師データセットからサンプリングする教師データの数を徐々に減少させることで、第2の教師データセットに含まれる教師データの数との比率を変更したが、これに限らない。例えば、第1の教師データセットからサンプリングする教師データの数は所定の数に固定し、第2の教師データセットからサンプリングする教師データの数を、学習開始からのエポック数に応じて徐々に増やすようにしてもよい。また、第1の教師データセットまたは第2の教師データセットからサンプリングする教師データの数を単調に増加/減少しなくてもよく、学習の途中でサンプリングする数を増加または減少するようにしてもよい。また、上記の方法に限らず、学習の途中で第1の教師データセットと第2の教師データセットの夫々に含まれる教師データの比率を変更するように、第3の教師データセットを構築するための条件や比率を変更する任意の方法を用いてもよい。
上述の説明では、所定の条件を満たした場合に、第3の教師データセットを構成する第1の教師データセットと第2の教師データセットの夫々に含まれる教師データの数の比率を変更したが、比率を変更しなくてもよい。すなわち、一連の学習において、第1の教師データセットと第2の教師データセットの夫々に含まれるすべての教師データを用いて第3の教師データセットを構築してもよい。また、一定の比率で各々のデータセットからランダムにサンプリングして第3の教師データセットを構築してもよい。
<第3の実施形態>
(概要)
第1の実施形態では、膵臓の正解領域画像データを含む第1の教師データセットを用いて膵腫瘍セグメンテーションCNNを学習させ、膵臓の推定領域画像データを含む第2の教師データセットを用いて膵腫瘍セグメンテーションCNNを追加で学習させる方法について説明した。本実施形態では、膵臓の正解領域画像データを含む第1の教師データセットを用いて学習された膵腫瘍セグメンテーションCNNを外部から取得し、これに対して第2の教師データセットを用いて追加で学習させる例を説明する。
(概要)
第1の実施形態では、膵臓の正解領域画像データを含む第1の教師データセットを用いて膵腫瘍セグメンテーションCNNを学習させ、膵臓の推定領域画像データを含む第2の教師データセットを用いて膵腫瘍セグメンテーションCNNを追加で学習させる方法について説明した。本実施形態では、膵臓の正解領域画像データを含む第1の教師データセットを用いて学習された膵腫瘍セグメンテーションCNNを外部から取得し、これに対して第2の教師データセットを用いて追加で学習させる例を説明する。
(機能構成)
以下、図7を参照して本実施形態に係る情報処理装置700の機能構成について説明する。同図に示すように、情報処理装置700は、教師データ取得部710、学習モデル取得部720、および学習部730によって構成されている。また、本実施形態に係る情報処理装置700は、外部に記憶装置70を具備する。
以下、図7を参照して本実施形態に係る情報処理装置700の機能構成について説明する。同図に示すように、情報処理装置700は、教師データ取得部710、学習モデル取得部720、および学習部730によって構成されている。また、本実施形態に係る情報処理装置700は、外部に記憶装置70を具備する。
記憶装置70は、腹部CT画像データ、膵臓の推定領域画像データ、膵腫瘍の正解領域画像データを保持している。また、記憶装置70は、腹部CT画像データと、膵臓の正解領域画像データと、膵腫瘍の正解領域画像データとを含む第1の教師データセットによって学習された膵腫瘍セグメンテーションCNNを保持している。
教師データ取得部710は、記憶装置70から複数の腹部CT画像データと、複数の腹部CT画像データの夫々に対応する複数の膵臓の推定領域画像データおよび複数の膵腫瘍の正解領域画像データとを取得し、それらを学習部730に送信する。
学習モデル取得部720は、記憶装置70から、膵臓の正解領域画像データを含む第1の教師データセットを用いて学習された膵腫瘍セグメンテーションCNNを取得し、それを学習部730に送信する。
学習部730は、教師データ取得部710から複数の腹部CT画像データと、複数の腹部CT画像データの夫々に対応する複数の膵臓の推定領域画像データおよび複数の膵腫瘍の正解領域画像データとを受信する。これらの画像データのセットを第2の教師データセットと呼称する。また、学習部730は、学習モデル取得部720から、第1の教師データセットによって学習された膵腫瘍セグメンテーションCNNを取得する。次に、学習部730は、膵臓の推定領域画像データを含む第2の教師データセットを用いて、第1の教師データセットによって学習された膵腫瘍セグメンテーションCNNを追加学習させる。そして、学習処理を終えた後、学習部730は、第2の教師データセットを用いて学習させた膵腫瘍セグメンテーションCNNを記憶装置70に保存する。
(ハードウェア構成)
本実施形態に係る情報処理装置700のハードウェア構成は、第1の実施形態と同一であるため、説明を省略する。
本実施形態に係る情報処理装置700のハードウェア構成は、第1の実施形態と同一であるため、説明を省略する。
(処理手順)
次に、図8を用いて、本実施形態に係る情報処理装置700の処理手順について説明する。
次に、図8を用いて、本実施形態に係る情報処理装置700の処理手順について説明する。
(ステップS800)
ステップS800において、教師データ取得部710は、記憶装置70から複数の腹部CT画像データと、複数の膵臓の推定領域画像データと、複数の膵腫瘍の正解領域画像データとを取得し、それらを学習部730に送信する。
ステップS800において、教師データ取得部710は、記憶装置70から複数の腹部CT画像データと、複数の膵臓の推定領域画像データと、複数の膵腫瘍の正解領域画像データとを取得し、それらを学習部730に送信する。
(ステップS810)
ステップS810において、学習モデル取得部720は、記憶装置70から、膵臓の正解領域画像データを含む第1の教師データセットを用いて学習された膵腫瘍セグメンテーションCNNを取得し、それを学習部730に送信する。
ステップS810において、学習モデル取得部720は、記憶装置70から、膵臓の正解領域画像データを含む第1の教師データセットを用いて学習された膵腫瘍セグメンテーションCNNを取得し、それを学習部730に送信する。
(ステップS820)
ステップS820において、学習部730は、教師データ取得部710から複数の腹部CT画像データと、複数の腹部CT画像データの夫々に対応する複数の膵臓の推定領域画像データおよび複数の膵腫瘍の正解領域画像データとを受信する。これらの画像データのセットを第2の教師データセットと呼称する。また、学習部730は、学習モデル取得部720から、第1の教師データセットによって学習された膵腫瘍セグメンテーションCNNを取得する。続いて、学習部730は、複数の腹部CT画像データと、複数の腹部CT画像に対応する複数の膵臓の推定領域画像データと、複数の膵腫瘍の正解領域画像データとを含む第2の教師データセットを用いて、膵腫瘍セグメンテーションCNNを追加学習させる。学習処理は、第1の実施形態におけるステップS421と同様に、公知の方法を用いて実行される。このとき、損失関数、最適化手法、学習率、バッチサイズなどのハイパーパラメータは、適当な値を用いればよい。
ステップS820において、学習部730は、教師データ取得部710から複数の腹部CT画像データと、複数の腹部CT画像データの夫々に対応する複数の膵臓の推定領域画像データおよび複数の膵腫瘍の正解領域画像データとを受信する。これらの画像データのセットを第2の教師データセットと呼称する。また、学習部730は、学習モデル取得部720から、第1の教師データセットによって学習された膵腫瘍セグメンテーションCNNを取得する。続いて、学習部730は、複数の腹部CT画像データと、複数の腹部CT画像に対応する複数の膵臓の推定領域画像データと、複数の膵腫瘍の正解領域画像データとを含む第2の教師データセットを用いて、膵腫瘍セグメンテーションCNNを追加学習させる。学習処理は、第1の実施形態におけるステップS421と同様に、公知の方法を用いて実行される。このとき、損失関数、最適化手法、学習率、バッチサイズなどのハイパーパラメータは、適当な値を用いればよい。
(ステップS830)
ステップS830において、学習部730は、第2の教師データセットを用いた膵腫瘍セグメンテーションCNNの学習の終了条件を満たしているか否かを判定し、次のステップを決定する。学習の終了条件は、第1の実施形態におけるステップS422に例示したような公知のものを用いる。学習部730は、学習の終了条件を満たす場合には、上記の学習処理により学習された膵腫瘍セグメンテーションCNNを記憶装置70に保存して、一連の処理を終了し、それ以外の場合にはステップS820に戻る。
ステップS830において、学習部730は、第2の教師データセットを用いた膵腫瘍セグメンテーションCNNの学習の終了条件を満たしているか否かを判定し、次のステップを決定する。学習の終了条件は、第1の実施形態におけるステップS422に例示したような公知のものを用いる。学習部730は、学習の終了条件を満たす場合には、上記の学習処理により学習された膵腫瘍セグメンテーションCNNを記憶装置70に保存して、一連の処理を終了し、それ以外の場合にはステップS820に戻る。
(効果)
以上に示したように、本実施形態に係る情報処理装置700は、膵臓の正解領域画像データを含む第1の教師データセットを用いて学習された認識器に対して、膵臓の推定領域画像データを含む第2の教師データセットを用いて追加学習させる。このように学習させることで、膵臓の推定領域画像データが保持する膵臓の領域に誤りが存在する場合であっても、膵臓の領域画像データからの特徴を効率良く学習できるため、膵腫瘍セグメンテーションCNNの精度低下を抑制できる。
以上に示したように、本実施形態に係る情報処理装置700は、膵臓の正解領域画像データを含む第1の教師データセットを用いて学習された認識器に対して、膵臓の推定領域画像データを含む第2の教師データセットを用いて追加学習させる。このように学習させることで、膵臓の推定領域画像データが保持する膵臓の領域に誤りが存在する場合であっても、膵臓の領域画像データからの特徴を効率良く学習できるため、膵腫瘍セグメンテーションCNNの精度低下を抑制できる。
100:情報処理装置
110:第1の取得部 120:推定部 130:第2の取得部 140:学習部
700:情報処理装置
710:教師データ取得部 720:学習モデル取得部 730:学習部
110:第1の取得部 120:推定部 130:第2の取得部 140:学習部
700:情報処理装置
710:教師データ取得部 720:学習モデル取得部 730:学習部
Claims (16)
- 画像データと、当該画像データに含まれる第1の領域に関する領域画像データとを入力して、当該画像データに関する所定の認識を行う学習モデルの学習を行う情報処理装置であって、
学習画像データと、前記学習画像データに含まれる前記第1の領域の正解領域を表す正解領域画像データと、前記認識に関する正解データとを取得する第1の取得部と、
前記学習画像データに対する前記第1の領域の推定領域を表す推定領域画像データを取得する第2の取得部と、
前記学習画像データと、前記正解領域画像データと、前記正解データとを含み構成される第1の教師データセットと、前記学習画像データと、前記推定領域画像データと、前記正解データとを含み構成される第2の教師データセットとを用いて、前記学習モデルを学習させる学習部と
を有することを特徴とする情報処理装置。 - 前記正解データは、前記学習画像データが属するクラス、前記第1の領域が属するクラス、または前記学習画像データに対する第2の領域が属するクラスを示すデータであることを特徴とする請求項1に記載の情報処理装置。
- 前記正解データは、前記第1の領域の正解領域画像データ、または前記学習画像データに対する第2の領域の正解領域画像データであることを特徴とする請求項1に記載の情報処理装置。
- 前記正解データは、前記第1の領域に関する位置を表す正解座標データ、または前記学習画像データに対する第2の領域に関する位置を表す正解座標データであることを特徴とする請求項1に記載の情報処理装置。
- 前記学習画像データに対して、第1の領域を推定する第1の領域の推定部をさらに有し、前記第2の取得部は、前記推定部による推定に基づいて前記第1の領域の推定領域画像データを取得することを特徴とする請求項1乃至請求項4のいずれか1項に記載の情報処理装置。
- 前記推定部は、画像データを入力して、当該画像データに含まれる第1の領域の推定領域を表す推定領域画像データを生成することを特徴とする請求項5に記載の情報処理装置。
- 前記学習部は、前記第1の教師データセットを用いて、前記学習モデルを学習させて更新された学習モデルを生成し、さらに、前記第2の教師データセットを用いて、当該更新された学習済みモデルを更に学習させることを特徴とする請求項1乃至請求項6のいずれか1項に記載の情報処理装置。
- 前記学習部は、前記第1の教師データセットに含まれる教師データと、前記第2の教師データセットに含まれる教師データとから第3の教師データセットを構築し、前記第3の教師データセットを用いて、前記学習モデルを学習させることを特徴とする請求項1乃至請求項6のいずれか1項に記載の情報処理装置。
- 前記学習部は、所定の条件を満たした場合に、前記第1の教師データセットに含まれる教師データの数と、前記第2の教師データセットに含まれる教師データの数との比率を変更して第3の教師データセットを構築することを特徴とする請求項8に記載の情報処理装置。
- 前記所定の条件は、学習における所定のステージに達すること、または学習の評価指標が所定の値に達することであることを特徴とする請求項9に記載の情報処理装置。
- 画像データと、当該画像データに含まれる第1の領域に関する領域画像データとを入力して、当該画像データに関する所定の認識を行う学習済みモデルである学習モデルを取得する学習モデル取得部と、
学習画像データと、前記認識に関する正解データとを取得するデータ取得部と、
前記学習画像データに基づいて、第1の領域を推定した推定領域画像データを生成する推定部と、
前記学習画像データと、前記推定領域画像データと、前記正解データとを含み構成される教師データセットを用いて、前記学習モデルを追加学習させる学習部と、
を有することを特徴とする情報処理装置。 - 前記学習部による学習処理によって、学習された学習済みモデルを用いて、対象の画像データに対して、所定の認識処理を行う認識部をさらに有することを特徴とする請求項1乃至11のいずれか1項に記載の情報処理装置。
- 画像データと、当該画像データに含まれる第1の領域に関する領域画像データとを入力して、当該画像データに関する所定の認識を行う学習モデルの学習方法であって、
学習画像データと、前記学習画像データに含まれる前記第1の領域の正解領域を表す正解領域画像データと、前記認識に関する正解データとを取得する第1の取得ステップと、
前記学習画像データに対する前記第1の領域の推定領域を表す推定領域画像データを取得する第2の取得ステップと、
前記学習画像データと、前記正解領域画像データと、前記正解データとを含み構成される第1の教師データセットと、前記学習画像データと、前記推定領域画像データと、前記正解データとを含み構成される第2の教師データセットとを用いて、前記学習モデルを学習させる学習ステップと
を有することを特徴とする学習方法。 - 画像データと、当該画像データに含まれる第1の領域に関する領域画像データとを入力して、当該画像データに関する所定の認識を行う学習済みモデルである学習モデルを取得する学習モデル取得ステップと、
学習画像データと、前記認識に関する正解データとを取得するデータ取得ステップと、
前記学習画像データに基づいて、第1の領域を推定した推定領域画像データを生成する推定ステップと、
前記学習画像データと、前記推定領域画像データと、前記正解データとを含み構成される教師データセットを用いて、前記学習モデルを追加学習させる学習ステップと
を有することを特徴とする学習方法。 - 請求項13または請求項14に記載の学習方法によって、学習された学習済みモデルを用いて、所定の認識処理を行う認識方法であって、
認識対象のデータを取得する取得ステップと、
前記認識対象のデータに対して、所定の認識処理を行う認識ステップと、
を有することを特徴とする認識方法。 - 請求項13または14に記載の学習方法もしくは、請求項15に記載の認識方法をコンピュータで実行するためのプログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022035944A JP2023131287A (ja) | 2022-03-09 | 2022-03-09 | 情報処理装置および学習方法 |
US18/178,589 US20230290119A1 (en) | 2022-03-09 | 2023-03-06 | Information processing apparatus, learning method, recognition method, and non-transitory computer readable medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022035944A JP2023131287A (ja) | 2022-03-09 | 2022-03-09 | 情報処理装置および学習方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2023131287A true JP2023131287A (ja) | 2023-09-22 |
Family
ID=87932136
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022035944A Pending JP2023131287A (ja) | 2022-03-09 | 2022-03-09 | 情報処理装置および学習方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US20230290119A1 (ja) |
JP (1) | JP2023131287A (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117576622A (zh) * | 2023-11-07 | 2024-02-20 | 广东省科学院广州地理研究所 | 一种融合热红外的稀土矿开采区识别方法、系统和介质 |
-
2022
- 2022-03-09 JP JP2022035944A patent/JP2023131287A/ja active Pending
-
2023
- 2023-03-06 US US18/178,589 patent/US20230290119A1/en active Pending
Also Published As
Publication number | Publication date |
---|---|
US20230290119A1 (en) | 2023-09-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3511942B1 (en) | Cross-domain image analysis using deep image-to-image networks and adversarial networks | |
CN110475505B (zh) | 利用全卷积网络的自动分割 | |
JP7102531B2 (ja) | コンピュータ断層撮影血管造影における解剖学的構造のセグメンテーションのための方法、コンピュータ・プログラム、コンピュータ可読記憶媒体、および装置 | |
US9968257B1 (en) | Volumetric quantification of cardiovascular structures from medical imaging | |
JP6993334B2 (ja) | 自動化された心臓ボリュームセグメンテーション | |
EP3295374B1 (en) | Method and system for landmark detection in medical images using deep neural networks | |
EP3117771B1 (en) | Direct computation of image-derived biomarkers | |
US10147185B2 (en) | Interactive segmentation | |
US10258304B1 (en) | Method and system for accurate boundary delineation of tubular structures in medical images using infinitely recurrent neural networks | |
CN110546685B (zh) | 图像分割和分割预测 | |
Wang et al. | Uncertainty-guided efficient interactive refinement of fetal brain segmentation from stacks of MRI slices | |
US20190378291A1 (en) | Adaptive nonlinear optimization of shape parameters for object localization in 3d medical images | |
US11430123B2 (en) | Sampling latent variables to generate multiple segmentations of an image | |
CN113362272A (zh) | 具有不确定性估计的医学图像分割 | |
CN113870284A (zh) | 用于对医学影像进行分割的方法、设备和介质 | |
JP2023131287A (ja) | 情報処理装置および学習方法 | |
CN114387317A (zh) | Ct图像和mri三维图像的配准方法、装置 | |
US11403761B2 (en) | Probabilistic motion model for generating medical images or medical image sequences | |
CN115482261A (zh) | 血管配准方法、装置、电子设备及存储介质 | |
EP4057292A1 (en) | On-site training of a machine-learning algorithm for generating synthetic imaging data | |
JP2022546303A (ja) | 管状フィーチャのセグメント化 | |
KR20220121141A (ko) | 혈액을 전달하는 신체 구성요소를 분할하는 방법 및 장치 | |
Meng et al. | Multi-granularity learning of explicit geometric constraint and contrast for label-efficient medical image segmentation and differentiable clinical function assessment | |
US11996198B2 (en) | Determination of a growth rate of an object in 3D data sets using deep learning | |
US20230178240A1 (en) | Information processing apparatus, information processing method and storage medium |