JP7019815B2 - 学習装置 - Google Patents
学習装置 Download PDFInfo
- Publication number
- JP7019815B2 JP7019815B2 JP2020532265A JP2020532265A JP7019815B2 JP 7019815 B2 JP7019815 B2 JP 7019815B2 JP 2020532265 A JP2020532265 A JP 2020532265A JP 2020532265 A JP2020532265 A JP 2020532265A JP 7019815 B2 JP7019815 B2 JP 7019815B2
- Authority
- JP
- Japan
- Prior art keywords
- feature amount
- input layer
- layer
- input
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 claims description 101
- 238000004364 calculation method Methods 0.000 claims description 88
- 238000012545 processing Methods 0.000 claims description 50
- 238000013527 convolutional neural network Methods 0.000 claims description 20
- 238000010606 normalization Methods 0.000 claims description 8
- 238000011176 pooling Methods 0.000 claims description 8
- 230000003287 optical effect Effects 0.000 description 24
- 238000000605 extraction Methods 0.000 description 17
- 238000010586 diagram Methods 0.000 description 16
- 230000006870 function Effects 0.000 description 9
- 230000001613 neoplastic effect Effects 0.000 description 5
- 238000010801 machine learning Methods 0.000 description 4
- 230000015654 memory Effects 0.000 description 4
- 238000012790 confirmation Methods 0.000 description 2
- 238000003384 imaging method Methods 0.000 description 2
- 230000003902 lesion Effects 0.000 description 2
- 238000002595 magnetic resonance imaging Methods 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000002591 computed tomography Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B1/00—Instruments for performing medical examinations of the interior of cavities or tubes of the body by visual or photographical inspection, e.g. endoscopes; Illuminating arrangements therefor
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B1/00—Instruments for performing medical examinations of the interior of cavities or tubes of the body by visual or photographical inspection, e.g. endoscopes; Illuminating arrangements therefor
- A61B1/04—Instruments for performing medical examinations of the interior of cavities or tubes of the body by visual or photographical inspection, e.g. endoscopes; Illuminating arrangements therefor combined with photographic or television appliances
- A61B1/045—Control thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
- G06T7/0012—Biomedical image inspection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/10—Image acquisition
- G06V10/12—Details of acquisition arrangements; Constructional details thereof
- G06V10/14—Optical characteristics of the device performing the acquisition or on the illumination arrangements
- G06V10/143—Sensing or illuminating at different wavelengths
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/32—Normalisation of the pattern dimensions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/60—Extraction of image or video features relating to illumination properties, e.g. using a reflectance or lighting model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/776—Validation; Performance evaluation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H30/00—ICT specially adapted for the handling or processing of medical images
- G16H30/40—ICT specially adapted for the handling or processing of medical images for processing medical images, e.g. editing
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/20—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/03—Recognition of patterns in medical or anatomical images
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Public Health (AREA)
- Molecular Biology (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
- Radiology & Medical Imaging (AREA)
- Pathology (AREA)
- Surgery (AREA)
- Computational Linguistics (AREA)
- Primary Health Care (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Epidemiology (AREA)
- Optics & Photonics (AREA)
- Animal Behavior & Ethology (AREA)
- Veterinary Medicine (AREA)
- Heart & Thoracic Surgery (AREA)
- Biodiversity & Conservation Biology (AREA)
- Quality & Reliability (AREA)
- Image Analysis (AREA)
Description
<学習システムの構成>
図1は、第1の実施形態に係る学習システム10(学習装置)の構成を示すブロック図である。学習システム10は、被検体内に挿入される内視鏡で撮像された画像に基づく学習処理、認識処理を行う学習認識装置100(学習装置)と、通常光(白色光)を観察光として取得した複数の内視鏡画像を記録する第1の画像データベース201と、特殊光(狭帯域光)を観察光として取得した複数の内視鏡画像を記録する第2の画像データベース202とを備える。なお、以下の説明では通常光(白色光)を観察光として得られた画像を「通常光画像」(または「白色光画像」)といい、特殊光(狭帯域光)を観察光として得られた画像を「特殊光画像」(または「狭帯域光画像」)という。第1の画像データベース201,第2の画像データベース202に記録される内視鏡画像は、医用画像(医療画像ともいう)の一例である。
<通常光画像及び特殊光画像>
第1の画像データベース201及び第2の画像データベース202は、ハードディスク等の記録媒体により構成される。第1の画像データベース201には通常光を観察光(第1の観察光)として撮影された複数の通常光画像(第1のデータ群、第1のデータ、第1の画像データ、第1の医用画像)が記録され、第2の画像データベース202には特殊光を観察光(第2の観察光)として撮影された複数の特殊光画像(第2のデータ群、第2のデータ、第2の画像データ、第2の医用画像)が記録される。すなわち、第1の画像データベース201に記録された複数の通常光画像は本発明における「第1の条件で取得された複数のデータ」の一態様であり、第2の画像データベース202に記録された複数の特殊光画像は本発明における「第1の条件とは異なる第2の条件で取得された複数のデータ」の一態様である。特殊光画像を撮影する特殊光(狭帯域光)は例えば青色狭帯域光とすることができるが、赤色狭帯域光等他の波長でもよい。また、上述の例では第1,第2の観察光が白色光と狭帯域光である場合について説明しているが、波長帯域及び/または強度が異なる第1,第2の狭帯域光を観察光として取得された内視鏡画像等の医用画像を用いてもよい。
内視鏡を用いた観察や検査を行う場合、ユーザは通常光(白色光)を観察光として取得された画像をモニタに表示させて確認するケースが多い。観察や検査の目的、状況(例えば、通常光では病変の構造が観察しづらい)により狭帯域光等の特殊光を観察光として画像をケースもあるが、通常光と比較すると観察光としての使用頻度が低く、そのため特殊光画像は通常光画像よりも著しく数が少ない場合が多い。機械学習により画像の学習及び/または認識を行う場合、特殊光画像についても学習及び/または認識を行う必要があるが、データ数が少ないと通常光画像と比較して学習及び/または認識の精度が低下するおそれがある。このような状況に鑑み、第1の実施形態では後述する階層型ネットワークの構成及び中間特徴量算出処理を採用してデータ数に差がある状況でも適切に学習及び/または認識できるようにしている。
第1の画像データベース201及び第2の画像データベース202は、上述した内視鏡画像に加え、注目領域(ROI:Region of Interest)を識別するための「正解データ」を画像と対応させて記憶する。具体的には、第1の画像データベース201は複数の通常光画像にそれぞれ対応する複数の正解データを記憶し、第2の画像データベース202は複数の特殊光画像にそれぞれ対応する複数の正解データを記憶する。正解データは、内視鏡画像に対して医師が指定した注目領域や鑑別結果であることが好ましい。
画像取得部110は、外部サーバ、データベース等とネットワークを介して通信する装置等により構成され、学習や認識に用いる内視鏡画像や正解データを第1の画像データベース201、第2の画像データベース202から取得する。画像取得部110は、図示せぬネットワークで学習システム10と接続された内視鏡システム、病院内サーバ等からも内視鏡画像を取得することができる。操作部120は図示せぬキーボード、マウス等の入力デバイスを備え、ユーザはこれらデバイスを介して画像取得、学習や認識等の処理に必要な操作を行うことができる。制御部130は記録部150に記録された各種プログラムを読み込み、操作部120から入力される指令に従って、学習システム10全体の動作を制御する。また制御部130は、後述する誤差算出部164が算出した誤差(損失)をCNN162(CNN:Convolutional Neural Network、畳み込みニューラルネットワーク)に逆伝搬することにより、CNN162の重みパラメータを更新する。
図2はCNN162の層構成の例を示す図である。図2の例において、CNN162は第1の入力層301(第1の入力層)と、第2の入力層302(第2の入力層)と、2つの中間層303(中間層)と、認識処理層304とを含む。第1の入力層301は第1の画像データベース201に記憶された通常光画像(第1のデータ群)から選出された画像(第1のデータ)を入力して特徴量を出力する。第2の入力層302は第1の入力層301とは独立した入力層であり、第2の画像データベース202に記憶された特殊光画像(第2のデータ群)から選出された画像(第2のデータ)を入力して特徴量を出力する。中間層303は第1の入力層301及び第2の入力層302に対して共通の中間層であり、第1の入力層301が出力する特徴量または第2の入力層が出力する特徴量を入力して他の特徴量(第1,第2の中間特徴量)を算出する。これらの層は複数の「ノード」が「エッジ」で結ばれた構造となっており、複数の重みパラメータを保持している。重みパラメータの値は、学習が進むにつれて変化していく。
第1の入力層301、第2の入力層302、及び中間層303は、畳み込み演算、プーリング処理、及びバッチノーマライゼーション処理によって特徴量を算出する。畳み込み演算はフィルタを使用した畳み込み演算により特徴マップを取得する処理であり、画像からのエッジ抽出等の特徴抽出の役割を担う。このフィルタを用いた畳み込み演算により、1つのフィルタに対して1チャンネル(1枚)の「特徴マップ」が生成される。「特徴マップ」のサイズは、畳み込みによりダウンスケーリングされ、各層で畳み込みが行われるにつれて小さくなって行く。最終的には、入力した画像と同じサイズの1枚の「特徴マップ」が得られる。プーリング処理は畳み込み演算により出力された特徴マップを縮小(または拡大)して新たな特徴マップとする処理であり、抽出された特徴が、平行移動などによる影響を受けないようにロバスト性を与える役割を担う。バッチノーマライゼーション処理は学習を行う際のミニバッチを単位としてデータの分布を正規化する処理であり、学習を速く進行させる、初期値への依存性を下げる、過学習を抑制する等の役割を担う。第1の入力層301、第2の入力層302、及び中間層303は、これらの処理を行う1または複数の層により構成することができる。なお、層の構成は畳み込み演算、プーリング処理、バッチノーマライゼーション処理を行う層を1つずつ含む場合に限らず、いずれかの層(例えば、畳み込み演算を行う層)が複数含まれていてもよい。
認識処理層304は、中間層303から出力された特徴量に基づき、入力された画像(通常光画像、特殊光画像)に映っている注目領域の位置検出を行ってその結果を出力する層である。認識処理層304は、中間層303から得られる「特徴マップ」により、画像に写っている注目領域の位置を画素レベルで把握する。即ち、内視鏡画像の画素ごとに注目領域に属するか否かを検出し、その検出結果を出力することができる。
図3はCNN162の層構成の他の例を示す図である。図3の例では、CNN162は第1の入力層301(第1の入力層)を2つと、第2の入力層302(第2の入力層)を2つと、中間層303(中間層)を2つと、認識処理層304とを含んでいる。このように、第1の入力層301、第2の入力層302、中間層303が複数含まれていてもよい。
上述した画像取得部110、制御部130、処理部160(CNN162、誤差算出部164)の機能は、各種のプロセッサ(processor)を用いて実現できる。各種のプロセッサには、例えばソフトウェア(プログラム)を実行して各種の機能を実現する汎用的なプロセッサであるCPU(Central Processing Unit)が含まれる。また、上述した各種のプロセッサには、画像処理に特化したプロセッサであるGPU(Graphics Processing Unit)、FPGA(Field Programmable Gate Array)などの製造後に回路構成を変更可能なプロセッサであるプログラマブルロジックデバイス(Programmable Logic Device:PLD)も含まれる。さらに、ASIC(Application Specific Integrated Circuit)などの特定の処理を実行させるために専用に設計された回路構成を有するプロセッサである専用電気回路なども上述した各種のプロセッサに含まれる。
上述した構成の学習システム10では、第1の入力層301から出力される特徴量に基づく第1の特徴量を中間層303に入力し中間層303で第1の中間特徴量を算出する第1の中間特徴量算出処理と、第2の入力層302から出力される特徴量に基づく第2の特徴量を中間層303に入力し中間層303で第2の中間特徴量を算出する第2の中間特徴量算出処理と、をそれぞれ少なくとも1回実行する。
第1の中間特徴量算出処理では、第1の画像データベース201に記録されている複数の通常光画像から選出された複数の画像(第1のデータ)でミニバッチを構成し、第1の入力層301に入力する。中間層303には上述のように第1の入力層301及び第2の入力層302が接続されているので、学習の際には第1の入力層301の出力と第2の入力層302の出力とを切り替えて入力する。図5は出力を切り替える様子を示す図であり、同図の(a)部分は第1の入力層301からの出力を中間層303へ入力する状態を示している。なお、図5において下向き矢印は第1の入力層301、第2の入力層302から中間層303を経て認識処理層304に至る方向に情報が伝達されること(学習方向)を意味し、学習方向とは逆の上向き矢印は認識処理層304から中間層303を経て第1の入力層301、第2の入力層302に情報が伝達されること(後述する誤差逆伝搬)を意味する。
中間層303で算出した第1の中間特徴量を認識処理層304に入力し、認識処理層304は認識結果を出力する。
誤差算出部164は認識処理層304が出力する認識結果と第1のデータに対する正解とを比較して損失(誤差)を計算し、損失が小さくなるように、図5の(a)部分に示すように、第1の入力層301及び中間層303における重みパラメータを出力側の層から入力側の層に向けて更新していく(誤差逆伝搬)。
第2の中間特徴量算出処理(第2の中間特徴量算出工程)は、第1の中間特徴量算出処理と同様に行うことができるので、第1の中間特徴量算出処理との相違を中心に説明する。第2の中間特徴量算出処理では、第2の画像データベース202に記録されている複数の特殊光画像から選出された複数の画像(第2のデータ)でミニバッチを構成し、第2の入力層302に入力する。この際、図5の(b)部分に示すように出力を切り替え、第2の入力層302からの出力を中間層303へ入力する。図6の(b)部分は、第2の特徴量を中間層303へ入力する様子(第2の入力層302を構成するノード302Aからの出力を、中間層303を構成するノード303Aに入力)を示す図である。図5の(b)部分に示す状態で、第2の入力層302から出力される特徴量に基づく第2の特徴量を中間層303へ入力して、中間層303で第2の中間特徴量を算出する(第2の中間特徴量算出処理、第2の中間特徴量算出工程)。図6の(b)部分は第2の特徴量を中間層303へ入力する状態を示している。
学習システム10では、第1、第2の中間特徴量算出処理(中間特徴量算出工程)をそれぞれ少なくとも1回実行する。以下、処理の回数及び順番の例について説明する。
第1の例では、第1の入力層301における特徴量抽出処理及びこれに続く第1の中間特徴量算出処理(第1の中間特徴量算出工程)を少なくとも2回実行し、第1の中間特徴量算出処理が1回終了してから他の第1の中間特徴量算出処理が始まるまでの期間に第2の入力層302における特徴量抽出処理及びこれに続く第2の中間特徴量算出処理(第2の中間特徴量算出工程)を実行する。例えば、図8の(a)部分に示す順番で処理を繰り返す。図中「第1」、「第2」とあるのはそれぞれ「第1の入力層301における特徴量抽出処理及びこれに続く第1の中間特徴量算出処理」、「第2の入力層302における特徴量抽出処理及びこれに続く第2の中間特徴量算出処理」を意味し、ミニバッチ単位で1回、2回…と数える。
第2の例では、第1の入力層301における特徴量抽出処理及びこれに続く第1の中間特徴量算出処理を少なくとも2回実行し、少なくとも2回の第1の中間特徴量算出処理が終了してから第2の入力層302における特徴量抽出処理及びこれに続く第2の中間特徴量算出処理を実行する。例えば、図8の(b)部分に示す順番で処理を繰り返す。図8の(b)部分中、「第1」、「第2」とあるのは同図の(a)部分と同じ意味である。この場合、図8の(c)部分に示すように第2の中間特徴量算出処理を2回続けて行ってもよい。また、第1の入力層301における特徴量抽出処理及びこれに続く第1の中間特徴量算出処理を複数回継続して行い、第1の中間特徴量算出処理が終了してから第2の入力層302における特徴量抽出処理及びこれに続く第2の中間特徴量算出処理を行ってもよい(図9を参照)。なお、図8,9に示すパターンは例示であり、他にも様々なパターンで学習を行うことができる。
第1の実施形態に係る学習システム10では、第1の入力層301及びこれと独立した第2の入力層302に第1,第2のデータをそれぞれ入力し、各入力層でそれぞれ特徴量を算出することで、一方の入力層における特徴量算出が他方の入力層における特徴量算出の影響を受けないようにしている。また学習システム10では、入力層での特徴抽出に加えて、第1の入力層301及び第2の入力層302に共通な中間層303において第1の中間特徴量算出処理と第2の中間特徴量算出処理とをそれぞれ少なくとも1回実行するので、入力層で算出した特徴量を中間層303における中間特徴量算出に反映することができる。また、階層型ネットワークはパラメータが多いため過学習になりがちであるが、第1の実施形態に係る学習システム10では、中間層303は第1,第2のデータを合わせた大量のデータで学習できるため過学習になりにくく、一方、入力層は第1,第2の入力層に独立しておりそれぞれの入力層のパラメータは少なくなるため、少量のデータでも過学習になりにくい。これにより学習システム10では、同一のカテゴリに属し異なる条件で取得されたデータ(通常光画像と特殊光画像等)を適切に学習することができる。
なお、上述した学習パターンでは第1,第2のデータについてミニバッチ単位で別個に特徴量算出を行っているが、中間層303への入力直前に第1,第2のミニバッチを1つのミニバッチに合成してもよい。具体的には、第1の画像データベース201に記録されている複数の通常光画像から選出された複数の画像(第1のデータ)でミニバッチ(第1のミニバッチ)を構成し、第1の入力層301に入力して特徴量を算出する。また、第2の画像データベース202に記録されている複数の特殊光画像から選出された複数の画像(第2のデータ)でミニバッチ(第2のミニバッチ)を構成し、第2の入力層302に入力して特徴量を算出する。これらの特徴量について中間層303への入力直前に第1,第2のミニバッチを1つのミニバッチに合成して中間層303に入力してもよい。
認識(推論)処理においては、第1の入力層301または第2の入力層302を取り外した構成にして認識を行ってもよい。例えば、図5の(a)部分のように第2の入力層302を取り外して第1の入力層301のみが接続されている状態で、第1,第2のデータに対して認識を行うことができる(この場合、第1、第2のデータはいずれも第1の入力層301に入力する)。また、図5の(b)部分のように第1の入力層301を取り外して第2の入力層302のみが接続されている状態で、第1,第2のデータに対して認識を行うことができる(この場合、第1、第2のデータはいずれも第2の入力層302に入力する)。
上述した例では、通常光画像(白色光画像)及び特殊光画像(例えば、青色特殊光画像)を用いた学習について説明したが、観察光の波長バランスが異なる複数の狭帯域光画像を用いて学習を行ってもよい。第1の入力層は第1の狭帯域光を第1の観察光として取得された第1の医用画像のデータを第1の画像データとして入力し、第2の入力層は第1の狭帯域光とは異なる第2の狭帯域光を第2の観察光として取得された第2の医用画像のデータを第2の画像データとして入力してもよい。この場合、狭帯域光の組み合わせとしては複数の青色狭帯域光、青色狭帯域光と紫色狭帯域光、複数の赤色狭帯域光等を用いることができる。
第1の実施形態では異なる観察光で取得された内視鏡画像を用いた学習について説明したが、本発明に係る学習装置及び学習方法ではCT装置(Computed Tomography)、MRI(Magnetic Resonance Imaging)装置等の内視鏡画像以外の他の医用画像を用いる場合でも同様に学習することができる。また、医用画像以外の画像(例えば、人物、動物、風景等他の画像)を用いる場合でも同様に学習することができる。さらに、入力するデータが画像でなく文章、音声等の場合も同様に学習することができる。
100 学習認識装置
110 画像取得部
120 操作部
130 制御部
140 表示部
142 モニタ
150 記録部
160 処理部
162 CNN
164 誤差算出部
201 第1の画像データベース
202 第2の画像データベース
301 第1の入力層
301A ノード
302 第2の入力層
302A ノード
303 中間層
303A ノード
304 認識処理層
W 11 重みパラメータ
W 12 重みパラメータ
W 13 重みパラメータ
W 21 重みパラメータ
W 22 重みパラメータ
W 23 重みパラメータ
X 10 ノード
X 11 ノード
X 12 ノード
X 13 ノード
X 20 ノード
X 21 ノード
X 22 ノード
X 23 ノード
Y 10 ノード
Y 11 ノード
Y 12 ノード
Y 13 ノード
Claims (13)
- 第1の条件で取得された複数のデータで構成される第1のデータ群から選出された第1のデータを入力して特徴量を出力する第1の入力層と、
前記第1の入力層とは独立した第2の入力層であって、前記第1のデータ群を構成するデータと同一のカテゴリに属し前記第1の条件とは異なる第2の条件で取得された複数のデータで構成される第2のデータ群から選出された第2のデータを入力して特徴量を出力する第2の入力層と、
前記第1の入力層及び前記第2の入力層に対して共通の中間層であって、前記第1の入力層が出力する前記特徴量または前記第2の入力層が出力する前記特徴量を入力して他の特徴量を算出する中間層と、
を含む階層型ネットワークを備える学習装置であって、
前記第1の入力層から出力される前記特徴量に基づく第1の特徴量を前記中間層に入力し前記中間層で第1の中間特徴量を算出する第1の中間特徴量算出処理と、前記第2の入力層から出力される前記特徴量に基づく第2の特徴量を前記中間層に入力し前記中間層で第2の中間特徴量を算出する第2の中間特徴量算出処理と、をそれぞれ少なくとも1回実行し、
前記第1の中間特徴量算出処理を少なくとも2回実行し、前記第1の中間特徴量算出処理が終了してから他の前記第1の中間特徴量算出処理が始まるまでの期間に前記第2の中間特徴量算出処理を実行する学習装置。 - 第1の条件で取得された複数のデータで構成される第1のデータ群から選出された第1のデータを入力して特徴量を出力する第1の入力層と、
前記第1の入力層とは独立した第2の入力層であって、前記第1のデータ群を構成するデータと同一のカテゴリに属し前記第1の条件とは異なる第2の条件で取得された複数のデータで構成される第2のデータ群から選出された第2のデータを入力して特徴量を出力する第2の入力層と、
前記第1の入力層及び前記第2の入力層に対して共通の中間層であって、前記第1の入力層が出力する前記特徴量または前記第2の入力層が出力する前記特徴量を入力して他の特徴量を算出する中間層と、
を含む階層型ネットワークを備える学習装置であって、
前記第1の入力層から出力される前記特徴量に基づく第1の特徴量を前記中間層に入力し前記中間層で第1の中間特徴量を算出する第1の中間特徴量算出処理と、前記第2の入力層から出力される前記特徴量に基づく第2の特徴量を前記中間層に入力し前記中間層で第2の中間特徴量を算出する第2の中間特徴量算出処理と、をそれぞれ少なくとも1回実行し、
前記第1の中間特徴量算出処理を少なくとも2回実行し、前記少なくとも2回の前記第1の中間特徴量算出処理が終了してから前記第2の中間特徴量算出処理を実行する学習装置。 - 前記階層型ネットワークは畳み込みニューラルネットワークである請求項1または2に記載の学習装置。
- 前記第1の入力層及び/または前記第2の入力層は畳み込み演算によって前記特徴量を算出する請求項1から3のいずれか1項に記載の学習装置。
- 前記第1の入力層及び/または前記第2の入力層はプーリング処理によって前記特徴量を算出する請求項1から3のいずれか1項に記載の学習装置。
- 前記第1の入力層及び/または前記第2の入力層はバッチノーマライゼーション処理によって前記特徴量を算出する請求項1から3のいずれか1項に記載の学習装置。
- 前記中間層は畳み込み演算によって前記特徴量を算出する請求項1から6のいずれか1項に記載の学習装置。
- 前記中間層はプーリング処理によって前記特徴量を算出する請求項1から6のいずれか1項に記載の学習装置。
- 前記中間層はバッチノーマライゼーション処理によって前記特徴量を算出する請求項1から6のいずれか1項に記載の学習装置。
- 前記第1の入力層は前記第1の条件で取得された第1の画像データを前記第1のデータとして入力し、
前記第2の入力層は前記第1の条件とは異なる前記第2の条件で取得された第2の画像データを前記第2のデータとして入力する請求項1から9のいずれか1項に記載の学習装置。 - 第1の条件で取得された複数のデータで構成される第1のデータ群から選出された第1のデータを入力して特徴量を出力する第1の入力層と、
前記第1の入力層とは独立した第2の入力層であって、前記第1のデータ群を構成するデータと同一のカテゴリに属し前記第1の条件とは異なる第2の条件で取得された複数のデータで構成される第2のデータ群から選出された第2のデータを入力して特徴量を出力する第2の入力層と、
前記第1の入力層及び前記第2の入力層に対して共通の中間層であって、前記第1の入力層が出力する前記特徴量または前記第2の入力層が出力する前記特徴量を入力して他の特徴量を算出する中間層と、
を含む階層型ネットワークを備える学習装置であって、
前記第1の入力層から出力される前記特徴量に基づく第1の特徴量を前記中間層に入力し前記中間層で第1の中間特徴量を算出する第1の中間特徴量算出処理と、前記第2の入力層から出力される前記特徴量に基づく第2の特徴量を前記中間層に入力し前記中間層で第2の中間特徴量を算出する第2の中間特徴量算出処理と、をそれぞれ少なくとも1回実行し、
前記第1の入力層は前記第1の条件で取得された第1の画像データを前記第1のデータとして入力し、
前記第2の入力層は前記第1の条件とは異なる前記第2の条件で取得された第2の画像データを前記第2のデータとして入力し、
前記第1の条件と前記第2の条件とでは、撮像装置、観察光の波長バランス、解像度、及び画像に施す画像処理のうち少なくとも1つが異なり、
前記第1の入力層は第1の観察光により取得された第1の医用画像のデータを前記第1の画像データとして入力し、
前記第2の入力層は前記第1の観察光と波長バランスが異なる第2の観察光により取得された第2の医用画像のデータを前記第2の画像データとして入力する学習装置。 - 前記第1の入力層は白色光を前記第1の観察光として取得された前記第1の医用画像のデータを前記第1の画像データとして入力し、
前記第2の入力層は狭帯域光を前記第2の観察光として取得された前記第2の医用画像のデータを前記第2の画像データとして入力する請求項11に記載の学習装置。 - 前記第1の入力層は第1の狭帯域光を前記第1の観察光として取得された前記第1の医用画像のデータを前記第1の画像データとして入力し、
前記第2の入力層は前記第1の狭帯域光とは異なる第2の狭帯域光を前記第2の観察光として取得された前記第2の医用画像のデータを前記第2の画像データとして入力する請求項11に記載の学習装置。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018140434 | 2018-07-26 | ||
JP2018140434 | 2018-07-26 | ||
PCT/JP2019/026688 WO2020022027A1 (ja) | 2018-07-26 | 2019-07-04 | 学習装置及び学習方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2020022027A1 JPWO2020022027A1 (ja) | 2021-08-05 |
JP7019815B2 true JP7019815B2 (ja) | 2022-02-15 |
Family
ID=69181632
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020532265A Active JP7019815B2 (ja) | 2018-07-26 | 2019-07-04 | 学習装置 |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP7019815B2 (ja) |
WO (1) | WO2020022027A1 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115087386A (zh) | 2020-02-18 | 2022-09-20 | 索尼奥林巴斯医疗解决方案公司 | 学习装置和医疗图像处理装置 |
JP7256765B2 (ja) * | 2020-02-28 | 2023-04-12 | 株式会社日立製作所 | 医用撮像装置、医用画像処理装置、及び、画像処理プログラム |
WO2022044425A1 (ja) * | 2020-08-28 | 2022-03-03 | 富士フイルム株式会社 | 学習装置、学習方法、プログラム、学習済みモデル、及び内視鏡システム |
US20240249827A1 (en) * | 2021-05-26 | 2024-07-25 | Sony Group Corporation | Image processing device, image processing method, and recording medium |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016067780A (ja) | 2014-09-30 | 2016-05-09 | 富士フイルム株式会社 | 内視鏡システム、プロセッサ装置、内視鏡システムの作動方法、及びプロセッサ装置の作動方法 |
WO2017158575A1 (en) | 2016-03-17 | 2017-09-21 | Imagia Cybernetics Inc. | Method and system for processing a task with robustness to missing input information |
-
2019
- 2019-07-04 WO PCT/JP2019/026688 patent/WO2020022027A1/ja active Application Filing
- 2019-07-04 JP JP2020532265A patent/JP7019815B2/ja active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016067780A (ja) | 2014-09-30 | 2016-05-09 | 富士フイルム株式会社 | 内視鏡システム、プロセッサ装置、内視鏡システムの作動方法、及びプロセッサ装置の作動方法 |
WO2017158575A1 (en) | 2016-03-17 | 2017-09-21 | Imagia Cybernetics Inc. | Method and system for processing a task with robustness to missing input information |
Non-Patent Citations (1)
Title |
---|
伊東隼人、森 悠一、三澤将史、小田昌宏、工藤進英、森 健策,畳み込みニューラルネットワークを利用した超拡大大腸内視鏡画像における腫瘍・非腫瘍の分類,電子情報通信学会技術研究報告,日本,一般社団法人電子情報通信学会,2017年09月18日,Vol.117,No.220,pp.17-21,ISSN 0913-5685 |
Also Published As
Publication number | Publication date |
---|---|
WO2020022027A1 (ja) | 2020-01-30 |
US20210133473A1 (en) | 2021-05-06 |
JPWO2020022027A1 (ja) | 2021-08-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7019815B2 (ja) | 学習装置 | |
Chan et al. | Texture-map-based branch-collaborative network for oral cancer detection | |
JP7278202B2 (ja) | 画像学習装置、画像学習方法、ニューラルネットワーク、及び画像分類装置 | |
EP2357612A2 (en) | Method for quantifying and imaging features of a tumor | |
Odstrcilik et al. | Thickness related textural properties of retinal nerve fiber layer in color fundus images | |
JP7083037B2 (ja) | 学習装置及び学習方法 | |
CN113450305B (zh) | 医疗图像的处理方法、系统、设备及可读存储介质 | |
JPWO2020031851A1 (ja) | 画像処理方法及び画像処理装置 | |
JPWO2020003991A1 (ja) | 医療画像学習装置、方法及びプログラム | |
CN115004222A (zh) | Oct数据的神经网络处理以生成对地图状萎缩生长率的预测 | |
JP6345332B1 (ja) | 分類装置、分類方法、プログラム、ならびに、情報記録媒体 | |
Javidi et al. | Retinal image assessment using bi-level adaptive morphological component analysis | |
KR102288727B1 (ko) | 딥러닝 기반의 아밀로이드 양성 반응을 나타내는 퇴행성 뇌질환 이미지 분류 장치 및 방법 | |
US20230180999A1 (en) | Learning apparatus, learning method, program, trained model, and endoscope system | |
Chen et al. | Detection of various dental conditions on dental panoramic radiography using Faster R-CNN | |
EP4287926A1 (en) | System and method of using right and left eardrum otoscopy images for automated otoscopy image analysis to diagnose ear pathology | |
Syed et al. | A diagnosis model for detection and classification of diabetic retinopathy using deep learning | |
Auzine et al. | Endoscopic image analysis using deep convolutional gan and traditional data augmentation | |
Alsaih et al. | Retinal fluids segmentation using volumetric deep neural networks on optical coherence tomography scans | |
Singh et al. | Preprocessing of Medical Images using Deep Learning: A Comprehensive Review | |
WO2022115777A2 (en) | System and methods of predicting parkinson's disease based on retinal images using machine learning | |
US12124960B2 (en) | Learning apparatus and learning method | |
Shourie et al. | Multi-class Classification of Skin Diseases using Pre-trained DenseNet Architecture on Dermoscopy Images | |
CN112598603A (zh) | 一种基于卷积神经网络的口腔龋病图像智能识别方法 | |
US20240104731A1 (en) | System for Integrated Analysis of Multi-Spectral Imaging and Optical Coherence Tomography Imaging |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210127 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210127 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20211119 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220113 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220125 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220202 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7019815 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |