JP7382930B2 - 医療画像処理装置 - Google Patents

医療画像処理装置 Download PDF

Info

Publication number
JP7382930B2
JP7382930B2 JP2020527359A JP2020527359A JP7382930B2 JP 7382930 B2 JP7382930 B2 JP 7382930B2 JP 2020527359 A JP2020527359 A JP 2020527359A JP 2020527359 A JP2020527359 A JP 2020527359A JP 7382930 B2 JP7382930 B2 JP 7382930B2
Authority
JP
Japan
Prior art keywords
learning
model
image
images
medical
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020527359A
Other languages
English (en)
Other versions
JPWO2020003992A1 (ja
Inventor
麻依子 遠藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Corp
Original Assignee
Fujifilm Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujifilm Corp filed Critical Fujifilm Corp
Publication of JPWO2020003992A1 publication Critical patent/JPWO2020003992A1/ja
Application granted granted Critical
Publication of JP7382930B2 publication Critical patent/JP7382930B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B1/00Instruments for performing medical examinations of the interior of cavities or tubes of the body by visual or photographical inspection, e.g. endoscopes; Illuminating arrangements therefor
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B1/00Instruments for performing medical examinations of the interior of cavities or tubes of the body by visual or photographical inspection, e.g. endoscopes; Illuminating arrangements therefor
    • A61B1/04Instruments for performing medical examinations of the interior of cavities or tubes of the body by visual or photographical inspection, e.g. endoscopes; Illuminating arrangements therefor combined with photographic or television appliances
    • A61B1/045Control thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis

Landscapes

  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Surgery (AREA)
  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Pathology (AREA)
  • Biophysics (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Optics & Photonics (AREA)
  • Heart & Thoracic Surgery (AREA)
  • Radiology & Medical Imaging (AREA)
  • Biomedical Technology (AREA)
  • Veterinary Medicine (AREA)
  • Public Health (AREA)
  • Medical Informatics (AREA)
  • Molecular Biology (AREA)
  • Animal Behavior & Ethology (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Theoretical Computer Science (AREA)
  • Endoscopes (AREA)
  • Image Analysis (AREA)
  • Measuring And Recording Apparatus For Diagnosis (AREA)

Description

本発明は、学習装置及び学習方法、並びに、医療画像処理装置に係り、特に、医療画像に対して画像認識を行うモデルを生成するための学習装置及び学習方法、並びに、そのモデルを使用した医療画像処理装置に関する。
機械学習により生成した画像認識モデルを用いて、医療画像から病変を自動的に検出したり、病変を種類ごとに分類したりする技術が知られている。機械学習では、問題に応じた画像を大量に学習させることで、検出、分類といった画像認識が可能となる。
特許文献1には、学習用の画像の数が少ない場合であっても、精度の高い画像認識モデルを生成する方法として、学習対象の画像群の特性と類似する画像群によって事前学習し、その後、学習対象の画像群で本学習する方法が提案されている。具体的には、被写体の形状が類似している画像群、生体ファントムを撮像した画像群、被写体の組織構造が類似した画像群、同一の撮像系によって模倣臓器を撮像した画像群等によって事前学習し、その後、学習対象の画像群で本学習する方法が提案されている。
また、特許文献2には、第1フレームレートによって撮像された第1画像群によって第1の学習を行い、その後、第1フレームレートよりも低い第2フレームレートで撮像された第2画像群によって第2の学習を行う方法が提案されている。
国際公開第2017/221412号 国際公開第2017/175282号
ところで、機械学習では、学習に用意した画像の画質に偏りがあると、その画質の偏りも学習してしまう。このため、学習した画像群の画質の偏りから外れた画質の画像を画像認識させると、認識の精度が低下するという問題がある。特許文献1、2の学習方法では、画質を考慮した学習が行われていないため、学習した画像群の画質と異なる画質の画像を認識させると、認識精度が低下するという欠点がある。
一方、内視鏡等の医療画像を撮影する機器では、機種ごとに画質差が存在する場合がある。したがって、精度の高い画像認識モデルを生成するには、機種ごとに学習を最適化する必要がある。
しかしながら、機種ごとにゼロベースで画像認識モデルを生成することは、多大な手間及びコストがかかるという問題がある。
本発明は、このような事情に鑑みてなされたもので、特定の画質を有する医療画像に対して画像認識を行うモデルを効率よく生成できる学習装置及び学習方法、並びに、医療画像処理装置を提供することを目的とする。
上記課題を解決するための手段は、次のとおりである。
(1)第1画質の医療画像で構成される第1医療画像群を用いて学習することにより、第1画質の医療画像に対して画像認識を行う第1モデルを生成する第1学習部と、第1モデルを元に、第1画質と異なる第2画質の医療画像で構成される第2医療画像群を用いて学習することにより、第2画質の医療画像に対して画像認識を行う第2モデルを生成する第2学習部と、を備えた学習装置。
本態様によれば、まず、第1画質の第1医療画像群で第1の学習を行うことにより、第1モデルが生成される。その後、第1モデルを元に、第2画質の第2医療画像群で第2の学習を行うことにより、第2モデルが生成される。第2の学習は、第1の学習結果をベースに行われるので、学習用の画像の数が少ない場合であっても、精度のよいモデルを生成できる。したがって、特定の画質を有する医療画像に対して画像認識を行うモデルを生成する場合は、学習用の画像が豊富な第1医療画像群で第1の学習を行った後、目的の画質の医療画像群(第2医療画像群)で第2の学習を行うことにより、目的の画質の医療画像に対して画像認識を行うモデルを効率よく生成できる。
なお、医療画像を構成する画像には、動画及び静止画の双方が含まれる。動画は、複数のフレームを含む時系列の画像群と捉えることができる。また、ここでの画質は、動画においては、1フレームを構成する画像の画質を意味する。
(2)第1医療画像群が第1解像度の医療画像で構成され、第2医療画像群が第1解像度と異なる第2解像度の医療画像で構成される、上記(1)の学習装置。
本態様によれば、第1医療画像群が第1解像度の医療画像で構成され、第2医療画像群が第1解像度と異なる第2解像度の医療画像で構成される。これにより、特定の解像度を有する医療画像に対して画像認識を行うモデルを生成する場合に、対応する解像度の学習用画像の数が少ない場合であっても、精度のよいモデルを効率よく生成できる。
(3)第2解像度が、第1解像度よりも低い解像度である、上記(2)の学習装置。
本態様によれば、第2医療画像群が、第1医療画像群を構成する医療画像の解像度(第1解像度)よりも低い解像度(第2解像度)の医療画像で構成される。これにより、特定の解像度の医療画像に対して画像認識を行うモデルを生成する場合に、対応する解像度の学習用画像の数が少ない場合であっても、精度のよいモデルを効率よく生成できる。
(4)第1医療画像群が4K以上の解像度の医療画像で構成され、第2医療画像群が4K未満の解像度の医療画像で構成される、上記(3)の学習装置。
本態様によれば、第1医療画像群が、4K以上の解像度の医療画像で構成され、第2医療画像群が、4K未満の解像度の医療画像で構成される。これにより、4K未満の特定の解像度の医療画像に対して画像認識を行うモデルを生成する場合に、対応する解像度の学習用画像の数が少ない場合であっても、精度のよいモデルを効率よく生成できる。
なお、4Kの画像とは、長辺の画素数が4000程度の高精細画像をいう。特に、横×縦の画素数が4000×2000程度の画像をいう。一般に知られている「4K UHDTV(Ultra High Definition Television:超高精細度テレビジョン)」及び「DCI 4K」は、本明細書における「4K」に含まれる。「4K UHDTV」は、国際電気通信連合(International Telecommunication Union 、ITU)が定める4Kであり、横3840×縦2160画素の4Kである。「DCI 4K」は、映画会社などが加盟する Digital Cinema Initiatives(DCI)の定める4Kであり、横4096×縦2160画素の画像である。
(5)第1医療画像群が8K以上の解像度の医療画像で構成され、第2医療画像群が8K未満の解像度の医療画像で構成される、上記(3)の学習装置。
本態様によれば、第1医療画像群が、8K以上の解像度の医療画像で構成され、第2医療画像群が、8K未満の解像度の医療画像で構成される。これにより、8K未満の特定の解像度の医療画像に対して画像認識を行うモデルを生成する場合に、対応する解像度の学習用画像の数が少ない場合であっても、精度のよいモデルを効率よく生成できる。
なお、8Kの画像とは、長辺の画素数が8000程度の高精細画像をいう。特に、横×縦の画素数が8000×4000程度の画像をいう。一般に知られている「8K UHDTV」(8K Ultra-high-definition television、 8K Ultra HDTV、8K UHDTV、8K UHD、スーパーハイビジョン8Kなどとも称される)は、本明細書における「8K」に含まれる。「8K UHDTV」は、国際電気通信連合が定める8Kであり、横7680×縦4320画素の画像である。
(6)第2解像度が、第1解像度よりも高い解像度である、上記(2)の学習装置。
本態様によれば、第2医療画像群が、第1医療画像群を構成する医療画像の解像度(第1解像度)よりも高い解像度(第2解像度)の医療画像で構成される。これにより、特定の解像度の医療画像に対して画像認識を行うモデルを生成する場合に、対応する解像度の学習用画像の数が少ない場合であっても、精度のよいモデルを効率よく生成できる。
(7)第1医療画像群が4K未満の解像度の医療画像で構成され、第2医療画像群が4K以上の解像度の医療画像で構成される、上記(6)の学習装置。
本態様によれば、第1医療画像群が、4K未満の解像度の医療画像で構成され、第2医療画像群が、4K以上の解像度の医療画像で構成される。これにより、4K以上の特定の解像度の医療画像に対して画像認識を行うモデルを生成する場合に、対応する解像度の学習用画像の数が少ない場合であっても、精度のよいモデルを効率よく生成できる。
(8)第1医療画像群が8K未満の解像度の医療画像で構成され、第2医療画像群が8K以上の解像度の医療画像で構成される、上記(6)の学習装置。
本態様によれば、第1医療画像群が、8K未満の解像度の医療画像で構成され、第2医療画像群が、8K以上の解像度の医療画像で構成される。これにより、8K以上の特定の解像度の医療画像に対して画像認識を行うモデルを生成する場合に、対応する解像度の学習用画像の数が少ない場合であっても、精度のよいモデルを効率よく生成できる。
(9)第1医療画像群が、第2医療画像群を構成する医療画像よりもノイズ量の少ない医療画像で構成される、上記(1)の学習装置。
本態様によれば、第1医療画像群が、第2医療画像群を構成する医療画像よりもノイズ量の少ない医療画像で構成される。これにより、特定のノイズ量の医療画像に対して画像認識を行うモデルを生成する場合に、対応するノイズ量の学習用画像の数が少ない場合であっても、精度のよいモデルを効率よく生成できる。
(10)第1医療画像群が、第2医療画像群を構成する医療画像よりもノイズ量の多い医療画像で構成される、上記(1)の学習装置。
本態様によれば、第1医療画像群が、第2医療画像群を構成する医療画像よりもノイズ量の多い医療画像で構成される。これにより、特定のノイズ量の医療画像に対して画像認識を行うモデルを生成する場合に、対応するノイズ量の学習用画像の数が少ない場合であっても、精度のよいモデルを効率よく生成できる。
(11)第1医療画像群が、第2医療画像群を構成する医療画像よりも広い画角の医療画像で構成される、上記(1)の学習装置。
本態様によれば、第1医療画像群が、第2医療画像群を構成する医療画像よりも広い画角の医療画像で構成される。これにより、切り出し等を行った画像で学習することなく、特定の画角の医療画像に対して画像認識を行うモデルを生成できる。
(12)第1医療画像群が内視鏡で撮影された医療画像で構成され、第2医療画像群が第1医療画像群を撮影した内視鏡と異なる内視鏡で撮影された医療画像で構成される、上記(1)の学習装置。
本態様によれば、第1医療画像群が、内視鏡で撮影された医療画像で構成され、第2医療画像群が、第1医療画像群を撮影した内視鏡と異なる内視鏡で撮影された医療画像で構成される。これにより、特定の内視鏡で撮影された医療画像に対して画像認識を行うモデルを生成する場合に、当該内視鏡で撮影された学習用画像の数が少ない場合であっても、精度のよいモデルを効率よく生成できる。
(13)第2医療画像群が第1医療画像群を構成する医療画像を撮影した内視鏡と異なる仕様の内視鏡で撮影された医療画像で構成される、上記(12)の学習装置。
本態様によれば、第2医療画像群が、第1医療画像群を構成する医療画像を撮影した内視鏡と異なる仕様の内視鏡で撮影された医療画像で構成される。たとえば、搭載されているイメージセンサのサイズ、画素数等が異なる内視鏡、搭載されている光学系の焦点距離が異なる内視鏡、発生するノイズ量が異なる内視鏡等で撮影された医療画像で構成される。
(14)第1モデル及び第2モデルが、畳み込みニューラルネットワークで構成される、上記(1)から(13)のいずれか一の学習装置。
本態様によれば、第1モデル及び第2モデルが、畳み込みニューラルネットワークで構成される。
(15)医療画像を取得する医療画像取得部と、上記(1)から(14)のいずれか一の学習装置で生成された第2モデルで構成され、医療画像に対して画像認識を行うモデルと、を備えた医療画像処理装置。
本態様によれば、医療画像に対して画像認識を行うモデルが、上記(1)から(14)のいずれか一の学習装置で生成された第2モデルで構成される。これにより、特定の画質を有する医療画像に対して精度よく画像認識を行うことができる。
(16)複数のモデルと、使用するモデルを切り替えるモデル切替部と、を更に備えた上記(15)の医療画像処理装置。
本態様によれば、画像認識を行うモデルが複数備えられ、切り替えて使用される。これにより、画質に応じて適切なモデルを用いて、画像認識できる。
(17)医療画像を撮影した内視鏡の情報を取得する内視鏡情報取得部を更に備え、複数のモデルは、互いに異なる内視鏡で撮影された第2医療画像群を用いて第2学習部で学習することにより生成され、モデル切替部は、内視鏡情報取得部で取得される内視鏡の情報に基づいて、使用するモデルを切り替える上記(16)の医療画像処理装置。
本態様によれば、画像認識を行うモデルが複数備えられる。各モデルは、互いに異なる内視鏡で撮影された第2医療画像群を用いて第2学習部で学習することにより生成され、認識対象とする医療画像を撮影した内視鏡に応じて、使用するモデルが自動的に切り替えられる。
(18)複数のモデルは、互いに仕様の異なる内視鏡で撮影された第2医療画像群を用いて第2学習部で学習することにより生成される、上記(17)の医療画像処理装置。
本態様によれば、複数のモデルが、互いに仕様の異なる内視鏡で撮影された第2医療画像群を用いて第2学習部で学習することにより生成される。
(19)複数のモデルは、互いに解像度又はノイズ量の異なる内視鏡で撮影された第2医療画像群を用いて第2学習部で学習することにより生成される、上記(18)の医療画像処理装置。
本態様によれば、複数のモデルが、互いに解像度又はノイズ量の異なる内視鏡で撮影された第2医療画像群を用いて第2学習部で学習することにより生成される。
(20)第1画質の医療画像で構成される第1医療画像群を用いて学習することにより、第1画質の医療画像に対して画像認識を行う第1モデルを生成するステップと、第1モデルを元に、第1画質と異なる第2画質の医療画像で構成される第2医療画像群を用いて学習することにより、第2画質の医療画像に対して画像認識を行う第2モデルを生成するステップと、を備えた学習方法。
本態様によれば、まず、第1画質の第1医療画像群で第1の学習を行うことにより、第1モデルが生成される。その後、第1モデルを元に、第2画質の第2医療画像群で第2の学習を行うことにより、第2モデルが生成される。第2の学習は、第1の学習結果をベースに行われるので、学習用の画像の数が少ない場合であっても、精度のよいモデルを生成できる。したがって、特定の画質を有する医療画像に対して画像認識を行うモデルを生成する場合は、学習用の画像が豊富な第1医療画像群で第1の学習を行った後、目的の画質の医療画像群(第2医療画像群)で第2の学習を行うことにより、目的の画質の医療画像に対して画像認識を行うモデルを効率よく生成できる。
本発明によれば、特定の画質を有する医療画像に対して画像認識を行うモデルを効率よく生成できる。
学習装置の構成の一実施形態を示すブロック図 CNNの構成の一例を示す模式図 第1モデル及び第2モデルを構成するCNNの設定の概念図 学習装置のハードウェア構成の一例を示す図 学習装置で行われる学習の手順を示すフローチャート 高解像度の学習用画像群による学習結果をベースにした学習の手順を示すフローチャート 低解像度の学習用画像群による学習結果をベースにした学習の手順を示すフローチャート 低ノイズの学習用画像群による学習結果をベースにした学習の手順を示すフローチャート 高ノイズの学習用画像群による学習結果をベースにした学習の手順を示すフローチャート 広角の学習用画像群による学習結果をベースにした学習の手順を示すフローチャート 異なる内視鏡で撮影された学習用画像群による学習結果をベースにした学習の手順を示すフローチャート 内視鏡画像処理装置の構成の一実施形態を示すブロック図 内視鏡画像処理装置のハードウェア構成の一例を示す図 内視鏡画像処理装置の変形例を示すブロック図 内視鏡画像処理装置の他の変形例を示すブロック図
以下、添付図面に従って本発明の好ましい実施形態について詳説する。
[学習装置の構成]
図1は、学習装置の構成の一実施形態を示すブロック図である。
本実施の形態の学習装置1は、内視鏡検査で得られる内視鏡画像に対して画像認識を行うモデルを機械学習により生成する装置として構成される。内視鏡画像は、医療画像の一例である。特に、本実施の形態の学習装置1は、特定の画質を有する内視鏡画像に対して画像認識を行うモデルを機械学習により生成する装置として構成される。ここで行われる画像認識は、たとえば、画像に含まれる病変の検出、病変の種類ごとの分類等である。
図1に示すように、本実施の形態の学習装置1は、第1画質の内視鏡画像に対して画像認識を行う第1モデルM1を機械学習により生成する第1学習部10と、第1学習部10で生成された第1モデルM1を元に、第2画質の内視鏡画像に対して画像認識を行う第2モデルM2を生成する第2学習部20と、学習装置1における全体の動作を統括制御する学習制御部30と、を備える。また、第1学習部10で学習するための第1学習用データセット12及び第2学習部20で学習するための第2学習用データセット22を備える。
第1学習部10は、第1学習用データセット12を用いて学習することにより、第1画質の内視鏡画像に対して画像認識を行う第1モデルM1を生成する。第1モデルM1は、たとえば、畳み込みニューラルネットワーク(Convolutional Neural Network;CNN)で構成される。第1学習部10は、学習により第1モデルM1を構成するCNNの各層の重みパラメータを最適化する。
第1学習用データセット12は、学習用画像群である第1内視鏡画像群で構成される。第1内視鏡画像群は、第1医療画像群の一例であり、第1画質の内視鏡画像で構成される。
なお、内視鏡画像を構成する画像には、静止画及び動画の双方が含まれる。動画は、複数のフレームを含む時系列の画像群と捉えることができる。画像を構成するデータは、画素単位で、赤(Red,R)、緑(Green,G)及び青(Blue,B)の各強度値(輝度値)を有するデータである。また、画質は、動画の場合、1フレームを構成する画像の画質を意味する。
第2学習部20は、第1学習部10で生成された第1モデルM1を元に、第2学習用データセット22を用いて学習することにより、第2画質の内視鏡画像に対して画像認識を行う第2モデルM2を生成する。第2モデルM2は、たとえば、CNNで構成される。この第2学習部20で生成される第2モデルM2が、特定の画質を有する内視鏡画像に対して画像認識を行うモデルとなる。すなわち、この第2モデルM2を学習済みモデルとして使用して、画像認識の処理が行われる。第2学習部20は、学習により第2モデルM2を構成するCNNの各層の重みパラメータを最適化する。
第2学習用データセット22は、学習用画像群である第2内視鏡画像群で構成される。第2内視鏡画像群は、第2医療画像群の一例であり、第1画質とは異なる第2画質の内視鏡画像で構成される。この第2内視鏡画像群を構成する内視鏡画像の画質(第2画質)は、画像認識を行う対象と同じ画質(同程度の画質を含む)とされる。
一方、第1学習用データセット12は、第2画質とは異なる画質(第1画質)の内視鏡画像で構成される。したがって、画像認識を行う内視鏡画像の画質とは、異なる画質の内視鏡画像で構成される。具体的には、より高画質又はより低画質の内視鏡画像で構成される。
学習制御部30は、第1学習部10及び第2学習部20の動作を制御して、学習装置1における全体の動作を統括制御する。また、学習制御部30は、第1モデルM1及び第2モデルM2を構成するCNNを設定する。
図2は、CNNの構成の一例を示す模式図である。
同図に示すように、CNNは、畳み込み層、正規化層、プーリング層などを積み重ねて構成された多層のニューラルネットワークで構成される。
図3は、第1モデル及び第2モデルを構成するCNNの設定の概念図である。同図において、(A)は、第1モデルM1を構成するCNNの一例を示す図であり、(B)は、第2モデルM2を構成するCNNの一例を示す図である。
学習制御部30は、第1モデルM1を構成するCNNを設定し、その学習済みの第1モデルM1を元に、第2モデルM2を構成するCNNを設定する。本実施の形態では、学習済みの第1モデルM1を構成するCNNの一部の層の重みパラメータをリセットしたものを第2モデルM2のCNNとして設定する。重みパラメータをリセットする層は、出力に近い一部の層である。図3に示す例では、破線BLで囲った最終の3つの層(全結合層、全結合層及びSoftmax層)の重みパラメータをリセットして、第2モデルM2のCNNを設定している。この場合、実線SLで囲われた残りの層は、学習済みの第1モデルM1の重みパラメータが初期値として設定される。
[学習装置のハードウェア構成]
図4は、学習装置のハードウェア構成の一例を示す図である。
学習装置1は、サーバコンピュータ、クライアントコンピュータなどのコンピュータで構成され、CPU(Central Processing Unit)51、ROM(Read Only Memory)52、RAM(Random Access Memory)53、HDD(Hard Disk Drive)54、通信インターフェイス55及び入出力インターフェイス56等を備える。また、学習装置1は、入力装置57及び表示装置58等を備える。
CPU51は、プログラムを実行することにより、学習装置1の各部を制御し、学習装置1の各機能を実現する。ROM52は、CPU51が実行する各種プログラム及び各種データ等を記憶する。RAM53は、CPU51に作業領域を提供する。HDD54は、CPU51が実行する各種プログラム及び各種データを記憶する。通信インターフェイス55は、学習装置1をLAN(Local Area Network)等のネットワーク59に接続するためのインターフェイス(interface;I/F)である。学習装置1は、通信インターフェイス55を介して外部装置と通信する。入出力インターフェイス56は、学習装置1に入力装置57、表示装置58等の外部機器を接続するためのインターフェイスである。入力装置57は、ユーザによる操作に応じた情報を学習装置1に入力する。入力装置57は、たとえば、キーボード、マウス等で構成される。表示装置58は、各種情報を表示する。表示装置58は、たとえば、液晶ディスプレイ、有機EL(Electro Luminescence)ディスプレイ等で構成される。
学習装置1を構成する第1学習部10、第2学習部20及び学習制御部30の各機能は、CPU51が所定のプログラムを実行することにより実現される。また、第1学習用データセット12及び第2学習用データセット22は、HDD54に格納される。
[学習方法]
《学習の基本手順》
図5は、学習装置で行われる学習の手順を示すフローチャートである。
まず、第1モデルM1を構成するCNNが設定される(ステップS1)。
次に、設定されたCNNに対して、第1学習用データセット12を用いて第1の学習が行われる(ステップS2)。すなわち、第1画質の内視鏡画像で構成された第1内視鏡画像群で学習が行われる。これにより、第1画質の内視鏡画像に対して画像認識を行う第1モデルM1が生成される。
次に、学習済みの第1モデルM1を元に、第2モデルM2を構成するCNNが設定される(ステップS3)。上記のように、本実施の形態では、学習済みの第1モデルM1の出力に近い一部の層の重みパラメータをリセットして、第2モデルM2のCNNを設定する(図3参照)。
次に、設定されたCNNに対して、第2学習用データセット22を用いて第2の学習が行われる(ステップS4)。すなわち、第2画質の内視鏡画像で構成された第2内視鏡画像群で学習が行われる。これにより、第2画質の内視鏡画像に対して画像認識を行う第2モデルM2が生成される。
ここで、第2の学習で用いられる第2内視鏡画像群は、画像認識の対象とされる内視鏡画像(特定の画質を有する内視鏡画像)の画質と同じ画質(同程度の画質を含む)の内視鏡画像で構成される。この結果、第2の学習で生成される第2モデルM2は、画像認識の対象とされる内視鏡画像と同じ画質の内視鏡画像に対して画像認識が可能なモデルとなる。
このように、本実施の形態の学習装置1では、第1画質の内視鏡画像群で第1の学習を行った後、その第1の学習結果をベースに、第2画質の内視鏡画像群で第2の学習を行う。第2の学習は、第1の学習結果をベースに行われるので、学習用の画像の数が少ない場合であっても、精度のよいモデルを生成できる。したがって、たとえば、特定の画質を有する医療画像に対して画像認識を行うモデルを生成する場合は、学習用の画像が豊富な画質で第1の学習を行った後、目的の画質の医療画像群で第2の学習を行う。これにより、目的とするモデルを効率よく生成できる。
《実施例》
〈解像度の異なる学習用画像群での学習〉
特定の解像度を有する内視鏡画像に対して画像認識を行うモデルを生成する場合において、画像認識を行う内視鏡画像と異なる解像度(第1解像度)の内視鏡画像群を用いて第1の学習を行い、その結果をベースに、画像認識を行う内視鏡画像と同じ解像度(第2解像度)の内視鏡画像群で第2の学習を行う。この場合、(1)画像認識を行う内視鏡画像よりも高い解像度(第1解像度)の内視鏡画像群を用いて第1の学習を行い、その結果をベースに、画像認識を行う内視鏡画像と同じ解像度(第2解像度)の内視鏡画像群で第2の学習を行う方法と、(2)画像認識を行う内視鏡画像よりも低い解像度(第1解像度)の内視鏡画像群を用いて第1の学習を行い、その結果をベースに、画像認識を行う内視鏡画像と同じ解像度(第2解像度)の内視鏡画像群で第2の学習を行う方法と、がある。以下、(1)及び(2)の場合に分けて説明する。
(1)高解像度の学習用画像群による学習結果をベースにした学習
特定の解像度を有する内視鏡画像に対して画像認識を行うモデルを生成する場合において、画像認識を行う内視鏡画像の解像度よりも高い解像度の内視鏡画像群を用いて第1の学習を行い、その結果をベースに、画像認識を行う内視鏡画像の解像度と同じ解像度(同程度の解像度を含む)の内視鏡画像群で第2の学習を行う。
図6は、高解像度の学習用画像群による学習結果をベースにした学習の手順を示すフローチャートである。
まず、第1モデルM1を構成するCNNを設定する(ステップS11)。
次に、設定されたCNNに対して、第1学習用データセット12を用いて、第1の学習を行う(ステップS12)。この第1学習用データセット12は、画像認識の対象とされる内視鏡画像の解像度よりも相対的に高い解像度を有する内視鏡画像で構成される。この第1の学習により、相対的に高い解像度の内視鏡画像に対して画像認識を行う第1モデルM1が生成される。
次に、学習済みの第1モデルM1を元に、第2モデルM2を構成するCNNを設定する(ステップS13)。
次に、設定されたCNNに対して、第2学習用データセット22を用いて、第2の学習を行う(ステップS14)。この第2学習用データセット22は、画像認識の対象とされる内視鏡画像の解像度と同じ解像度(同程度の解像度を含む)の内視鏡画像で構成される。この第2の学習により、目的とする解像度の内視鏡画像に対して画像認識が可能なモデル(第2モデルM2)が生成される。
たとえば、4K未満の解像度の内視鏡画像に対して画像認識を行うモデルを生成する場合、4K以上の解像度の内視鏡画像群(たとえば、4K解像度又は8K解像度の内視鏡画像群等)で第1の学習を行い、その後、第1の学習結果をベースに、目的とする解像度(たとえば、2K解像度等)の内視鏡画像群で第2の学習を行うことが考えられる。たとえば、2K解像度の内視鏡画像に対して画像認識を行うモデルを生成する場合、4K解像度の内視鏡画像群で第1の学習を行い、その後、第1の学習結果をベースに、2K解像度の内視鏡画像群で第2の学習を行う。これにより、たとえば、2K解像度の学習用の内視鏡画像が不足する場合であっても、コストをかけずに効率よく目的とするモデルを生成できる。
なお、2Kの画像とは、長辺の画素数が2000程度の高精細画像をいう。特に、横×縦の画素数が2000×1000程度の画像をいう。したがって、一般的なフルハイビジョン(横1920×縦1080)などは、ここでの2Kに含まれる。
また、たとえば、8K未満の解像度の内視鏡画像に対して画像認識を行うモデルを生成する場合、8K以上の解像度の内視鏡画像群(たとえば、8K解像度の内視鏡画像群)で第1の学習を行い、その後、第1の学習結果をベースに、目的とする解像度(たとえば、2K解像度又は4K解像度等)の内視鏡画像群で第2の学習を行うことが考えられる。たとえば、4K解像度の内視鏡画像に対して画像認識を行うモデルを生成する場合、8K解像度の内視鏡画像群で第1の学習を行い、その後、第1の学習結果をベースに、4K解像度の内視鏡画像群で第2の学習を行う。これにより、たとえば、4K解像度の学習用の内視鏡画像が不足する場合であっても、コストをかけずに効率よく目的とするモデルを生成できる。
一般に、大学病院などの大規模な病院は、比較的解像度の高い内視鏡(たとえば、経口内視鏡)が使用され、クリニックなどの小規模な病院では、比較的解像度の低い内視鏡(たとえば、経鼻内視鏡)が使用される。そして、小規模な病院では、大規模な病院に比べて検査数が少ないことから、学習用の画像を収集しにくいという問題がある。このため、目的とする解像度の学習用画像が不足する場合がある。
本態様の学習方法によれば、小規模な病院などで使用される解像度の低い内視鏡で撮影された内視鏡画像に対して画像認識を行うモデルを生成する場合であっても、少ないコストでモデルを最適化できる。
(2)低解像度の学習用画像群による学習結果をベースにした学習
特定の解像度を有する内視鏡画像に対して画像認識を行うモデルを生成する場合において、画像認識を行う内視鏡画像の解像度よりも低い解像度の内視鏡画像群を用いて第1の学習を行い、その結果をベースに、画像認識を行う内視鏡画像の解像度と同じ解像度(同程度の解像度を含む)の内視鏡画像群で第2の学習を行う。
図7は、低解像度の学習用画像群による学習結果をベースにした学習の手順を示すフローチャートである。
まず、第1モデルM1を構成するCNNを設定する(ステップS21)。
次に、設定されたCNNに対して、第1学習用データセット12を用いて、第1の学習を行う(ステップS22)。この第1学習用データセット12は、画像認識の対象とされる内視鏡画像の解像度よりも相対的に低い解像度を有する内視鏡画像で構成される。この第1の学習により、相対的に低い解像度の内視鏡画像に対して画像認識を行う第1モデルM1が生成される。
次に、学習済みの第1モデルM1を元に、第2モデルM2を構成するCNNを設定する(ステップS23)。
次に、設定されたCNNに対して、第2学習用データセット22を用いて、第2の学習を行う(ステップS24)。この第2学習用データセット22は、画像認識の対象とされる内視鏡画像の解像度と同じ解像度(同程度の解像度を含む)の内視鏡画像で構成される。この第2の学習により、目的とする解像度の内視鏡画像に対して画像認識が可能なモデル(第2モデルM2)が生成される。
たとえば、4K以上の解像度の内視鏡画像に対して画像認識を行うモデルを生成する場合、4K未満の解像度の内視鏡画像群(たとえば、2K解像度の内視鏡画像群等)で第1の学習を行い、その後、第1の学習結果をベースに、目的とする解像度(たとえば、4K解像度等)の内視鏡画像群で第2の学習を行うことが考えられる。たとえば、4K解像度の内視鏡画像に対して画像認識を行うモデルを生成する場合、2K解像度の内視鏡画像群で第1の学習を行い、その後、第1の学習結果をベースに、4K解像度の内視鏡画像群で第2の学習を行う。これにより、たとえば、4K解像度の学習用の内視鏡画像が不足する場合であっても、コストをかけずに効率よく目的とするモデルを生成できる。
また、たとえば、8K以上の解像度の内視鏡画像に対して画像認識を行うモデルを生成する場合、8K未満の解像度の内視鏡画像群(たとえば、4K解像度又は2K解像度の内視鏡画像群)で第1の学習を行い、その後、第1の学習結果をベースに、目的とする解像度(たとえば、8K解像度等)の内視鏡画像群で第2の学習を行うことが考えられる。たとえば、8K解像度の内視鏡画像に対して画像認識を行うモデルを生成する場合、4K解像度の内視鏡画像群で第1の学習を行い、その後、第1の学習結果をベースに、8K解像度の内視鏡画像群で第2の学習を行う。これにより、たとえば、8K解像度の学習用の内視鏡画像が不足する場合であっても、コストをかけずに効率よく目的とするモデルを生成できる。
内視鏡の発展により、今後、更に画像の高解像度化が進むことが予想される。その場合、学習に使用するための高解像度な画像が不足することが考えられる。
本態様の学習方法によれば、目的とする解像度の学習用画像が不足する場合であっても、既存の学習用の画像群を利用して、目的とする解像度のモデルを効率よく生成できる。
〈ノイズ量の異なる学習用画像群での学習〉
特定のノイズ量の内視鏡画像に対して画像認識を行うモデルを生成する場合において、画像認識を行う内視鏡画像と異なるノイズ量の内視鏡画像群を用いて第1の学習を行い、その結果をベースに、画像認識を行う内視鏡画像のノイズ量と同じノイズ量(同程度のノイズ量を含む)の内視鏡画像群で第2の学習を行う。この場合、(1)画像認識を行う内視鏡画像よりもノイズ量の少ない内視鏡画像群を用いて第1の学習を行い、その結果をベースに、画像認識を行う内視鏡画像のノイズ量と同じノイズ量(同程度のノイズ量を含む)の内視鏡画像群で第2の学習を行う方法と、(2)画像認識を行う内視鏡画像よりもノイズ量の多い内視鏡画像群を用いて第1の学習を行い、その結果をベースに、画像認識を行う内視鏡画像のノイズ量と同じノイズ量(同程度のノイズ量を含む)の内視鏡画像群で第2の学習を行う方法と、がある。以下、(1)及び(2)の場合に分けて説明する。
(1)低ノイズの学習用画像群による学習結果をベースにした学習
特定のノイズ量の内視鏡画像に対して画像認識を行うモデルを生成する場合において、画像認識を行う内視鏡画像よりも低ノイズの内視鏡画像群を用いて第1の学習を行い、その結果をベースに、画像認識を行う内視鏡画像のノイズ量と同じノイズ量(同程度のノイズ量を含む)の内視鏡画像群で第2の学習を行う。
図8は、低ノイズの学習用画像群による学習結果をベースにした学習の手順を示すフローチャートである。
まず、第1モデルM1を構成するCNNを設定する(ステップS31)。
次に、設定されたCNNに対して、第1学習用データセット12を用いて、第1の学習を行う(ステップS32)。この第1学習用データセット12は、画像認識の対象とされる内視鏡画像のノイズ量よりも相対的にノイズ量の少ない内視鏡画像で構成される。たとえば、ローエンドの内視鏡で撮影された内視鏡画像に対して画像認識を行うモデルを生成する場合、より低ノイズのハイエンドの内視鏡で撮影された内視鏡画像で第1学習用データセット12を構成する。この第1の学習により、相対的に低ノイズの内視鏡画像に対して画像認識を行う第1モデルM1が生成される。
次に、学習済みの第1モデルM1を元に、第2モデルM2を構成するCNNを設定する(ステップS33)。
次に、設定されたCNNに対して、第2学習用データセット22を用いて、第2の学習を行う(ステップS34)。この第2学習用データセット22は、画像認識の対象とされる内視鏡画像のノイズ量と同じノイズ量(同程度のノイズ量を含む)のノイズ量の内視鏡画像で構成される。たとえば、ローエンドの内視鏡で撮影された内視鏡画像に対して画像認識を行うモデルを生成する場合、当該ローエンドの内視鏡で撮影された内視鏡画像で第2学習用データセット22を構成する。この第2の学習により、目的とするノイズ量の内視鏡画像に対して画像認識が可能なモデル(第2モデルM2)が生成される。
一般に、大学病院などの大規模な病院は、比較的ノイズ量の少ない内視鏡(いわゆるハイエンドの内視鏡)が使用され、クリニックなどの小規模な病院では、それに比してノイズ量の多い内視鏡が使用される。そして、小規模な病院では、大規模な病院に比べて検査数が少ないことから、学習用の画像を収集しにくいという問題がある。このため、目的とするノイズ量の学習用画像が不足する場合がある。
本態様の学習方法によれば、小規模な病院などで使用される内視鏡(比較的ノイズ量の多い内視鏡)で撮影された内視鏡画像に対して画像認識を行うモデルを生成する場合であっても、少ないコストでモデルを最適化できる。
(2)高ノイズの学習用画像群による学習結果をベースにした学習
特定のノイズ量の内視鏡画像に対して画像認識を行うモデルを生成する場合において、画像認識を行う内視鏡画像よりも高ノイズの内視鏡画像群を用いて第1の学習を行い、その結果をベースに、画像認識を行う内視鏡画像のノイズ量と同じノイズ量(同程度のノイズ量を含む)の内視鏡画像群で第2の学習を行う。
図9は、高ノイズの学習用画像群による学習結果をベースにした学習の手順を示すフローチャートである。
まず、第1モデルM1を構成するCNNを設定する(ステップS41)。
次に、設定されたCNNに対して、第1学習用データセット12を用いて、第1の学習を行う(ステップS42)。この第1学習用データセット12は、画像認識の対象とされる内視鏡画像のノイズ量よりも相対的にノイズ量の多い内視鏡画像で構成される。この第1の学習により、相対的に高ノイズの内視鏡画像に対して画像認識を行う第1モデルM1が生成される。
次に、学習済みの第1モデルM1を元に、第2モデルM2を構成するCNNを設定する(ステップS43)。
次に、設定されたCNNに対して、第2学習用データセット22を用いて、第2の学習を行う(ステップS44)。この第2学習用データセット22は、画像認識の対象とされる内視鏡画像のノイズ量と同じノイズ量(同程度のノイズ量を含む)の内視鏡画像で構成される。この第2の学習により、目的とするノイズ量の内視鏡画像に対して画像認識が可能なモデル(第2モデルM2)が生成される。
内視鏡の発展により、今後、更に画像の低ノイズ化が進むことが予想される。その場合、学習に使用するための低ノイズの画像が不足することが考えられる。
本態様の学習方法によれば、目的とするノイズ量の学習用画像が不足する場合であっても、既存の学習用の画像群を利用して、目的とするノイズ量のモデルを効率よく生成できる。
〈広角の学習用画像群による学習結果をベースにした学習〉
特定の画角の内視鏡画像に対して画像認識を行うモデルを生成する場合において、画像認識を行う内視鏡画像よりも広い画角の内視鏡画像群を用いて第1の学習を行い、その結果をベースに、画像認識を行う内視鏡画像の画角と同じ画角(略同じ画角を含む)の内視鏡画像群で第2の学習を行う。
図10は、広角の学習用画像群による学習結果をベースにした学習の手順を示すフローチャートである。
まず、第1モデルM1を構成するCNNを設定する(ステップS51)。
次に、設定されたCNNに対して、第1学習用データセット12を用いて、第1の学習を行う(ステップS52)。この第1学習用データセット12は、画像認識の対象とされる内視鏡画像の画角よりも相対的に広い画角の内視鏡画像で構成される。この第1の学習により、目的の内視鏡画像よりも広角の内視鏡画像に対して画像認識を行う第1モデルM1が生成される。
次に、学習済みの第1モデルM1を元に、第2モデルM2を構成するCNNを設定する(ステップS53)。
次に、設定されたCNNに対して、第2学習用データセット22を用いて、第2の学習を行う(ステップS54)。この第2学習用データセット22は、画像認識の対象とされる内視鏡画像の画角と同じ画角(略同じ画角を含む)の内視鏡画像で構成される。この第2の学習により、特定の内視鏡での使用に最適化された画像認識のモデル(第2モデルM2)が生成される。
このように、広角の学習用画像群による学習の結果をベースに、目的とする画角の学習用画像群で学習することにより、切り出し等を行った画像で再学習を行う必要がなく、より少ないコストで学習を行うことができる。
〈他の内視鏡で撮影された学習用画像群による学習結果をベースにした学習〉
特定の内視鏡で撮影された内視鏡画像に対して画像認識を行うモデルを生成する場合において、他の内視鏡で撮影された内視鏡画像群を用いて第1の学習を行い、その結果をベースに、画像認識を行う内視鏡で撮影された内視鏡画像群で第2の学習を行う。
図11は、異なる内視鏡で撮影された学習用画像群による学習結果をベースにした学習の手順を示すフローチャートである。
まず、第1モデルM1を構成するCNNを設定する(ステップS61)。
次に、設定されたCNNに対して、第1学習用データセット12を用いて、第1の学習を行う(ステップS62)。この第1学習用データセット12は、画像認識を行う内視鏡とは異なる内視鏡(他の内視鏡)で撮影された内視鏡画像で構成される。たとえば、画像認識を行う内視鏡とは仕様(イメージセンサのサイズ、イメージセンサの解像度、イメージセンサの種類、撮影光学系の構成、光源種等)の異なる内視鏡で撮影された内視鏡で構成される。この第1の学習により、当該他の内視鏡で撮影された内視鏡画像に対して画像認識を行う第1モデルM1が生成される。
次に、学習済みの第1モデルM1を元に、第2モデルM2を構成するCNNを設定する(ステップS63)。
次に、設定されたCNNに対して、第2学習用データセット22を用いて、第2の学習を行う(ステップS64)。この第2学習用データセット22は、画像認識を行う内視鏡と同じ内視鏡(同じ機種及び同じ仕様の内視鏡を含む)で撮影された内視鏡画像で構成される。この第2の学習により、目的とする内視鏡画像に対して画像認識が可能なモデル(第2モデルM2)が生成される。
本態様の学習方法によれば、画像認識の対象となる内視鏡の学習用画像が不足する場合であっても、豊富に存在する他の内視鏡の学習用画像群を利用して、特定の内視鏡で撮影された内視鏡画像の画像認識を行うモデルを効率よく生成できる。
また、内視鏡は、同じ機種であっても個体差が存在する場合がある。本態様の学習方法によれば、個体差がある場合であっても、特定の内視鏡の画像認識モデルを効率よく生成できる。
[学習装置の変形例]
《学習装置のハードウェア構成の変形例》
上記実施の形態では、第1学習部10及び第2学習部20の機能を同一のコンピュータで実現する構成としているが、複数のコンピュータで実現する構成とすることもできる。たとえば、第1学習部10及び第2学習部20の機能を別々のコンピュータで実現することもできる。
《第1モデル及び第2モデルの構成》
上記実施の形態では、画像認識を行うモデルをCNNで構成しているが、画像認識を行うモデルの構成は、これに限定されるものではない。機械学習で生成されるモデルであればよい。
《第2モデルの設定》
上記実施の形態では、学習済みの第1モデルM1を構成するCNNの一部の層の重みパラメータをリセットしたものを第2モデルM2のCNNとして設定しているが、第2モデルM2を設定する手法は、これに限定されるものではない。たとえば、学習済みの第1モデルM1の重みパラメータを初期値として、CNN全体で学習し直す手法、学習済みの第1モデルM1の入力層及び出力層を置換して、第2の学習を行う手法、学習済みの第1モデルM1の一部の層(たとえば、特徴抽出を行う層)の重みパラメータを固定し、他の層(たとえば、認識を行う層)だけを学習する手法など、種々の手法を採用できる。
また、上記実施の形態のように、学習済みの第1モデルM1の一部の層の重みパラメータをリセットして、第2の学習を行う場合、各層で学習係数を変えてもよい。たとえば、重みパラメータをリセットした層では、学習が速く進むように、他の層に比べて学習係数を大きく設定して第2の学習を行うようにしてもよい。
この第2モデルの設定を含む第2の学習には、いわゆる転移学習(ファインチューニングなどとも称される)の手法を採用できる。
[内視鏡画像処理装置]
図12は、内視鏡画像処理装置の構成の一実施形態を示すブロック図である。
内視鏡画像処理装置100は、医療画像処理装置の一例である。内視鏡画像処理装置100は、特定の画質を有する内視鏡画像を取得し、取得した内視鏡画像に対して画像認識(画像に含まれる病変の検出、病変の種類ごとの分類等)を行い、その結果を出力する。画像認識には、上記学習装置1で生成された画像認識のモデルが使用される。
図12に示すように、内視鏡画像処理装置100は、認識対象の内視鏡画像を取得する内視鏡画像取得部110、取得した内視鏡画像に対して画像認識を行う画像認識部112、認識結果を出力する認識結果出力部114、及び、全体を制御する画像処理制御部116を備える。
内視鏡画像取得部110は、医療画像取得部の一例であり、認識対象の内視鏡画像(医療画像)を取得する。この内視鏡画像は、特定の画質を有する内視鏡画像である。
画像認識部112は、内視鏡画像取得部110で取得された内視鏡画像に対して、画像認識(画像に含まれる病変の検出、病変の種類ごとの分類等)の処理を行う。画像認識部112は、上記学習装置1で生成された画像認識のモデル(学習済みモデル)で構成される。したがって、目的とする画質と異なる画質の学習用画像群(第1内視鏡画像群)で第1の学習を行い、その学習結果をベースに、目的とする画質の学習用画像群(第2内視鏡画像群)で学習して生成されたモデル(第2モデル)で構成される。
認識結果出力部114は、画像認識部112による認識結果を所定のフォーマットで出力する。たとえば、モニタに所定の表示フォーマットで出力する。
画像処理制御部116は、各部の動作を統括制御する。
[内視鏡画像処理装置のハードウェア構成]
図13は、内視鏡画像処理装置のハードウェア構成の一例を示す図である。
内視鏡画像処理装置100は、サーバコンピュータ、クライアントコンピュータなどのコンピュータで構成され、CPU121、ROM122、RAM123、HDD124、通信インターフェイス125及び入出力インターフェイス126等を備える。また、学習装置1は、入力装置127及び表示装置128等を備える。
CPU121は、プログラムを実行することにより、内視鏡画像処理装置100の各部を制御し、内視鏡画像処理装置100の各機能を実現する。ROM122は、CPU121が実行する各種プログラム及び各種データ等を記憶する。RAM123は、CPU121に作業領域を提供する。HDD124は、CPU121が実行する各種プログラム及び各種データを記憶する。通信インターフェイス125は、内視鏡画像処理装置100をLAN等のネットワーク59に接続するためのインターフェイスである。内視鏡画像処理装置100は、通信インターフェイス125を介して外部装置と通信する。入出力インターフェイス126は、内視鏡画像処理装置100に入力装置127、表示装置128等の外部機器を接続するためのインターフェイスである。入力装置127は、ユーザによる操作に応じた情報を内視鏡画像処理装置100に入力する。入力装置127は、たとえば、キーボード、マウス等で構成される。表示装置128は、各種情報を表示する。表示装置128は、たとえば、液晶ディスプレイ、有機ELディスプレイ等で構成される。
内視鏡画像取得部110、画像認識部112及び認識結果出力部114の各機能は、CPU121が所定のプログラムを実行することにより実現される。
認識対象の内視鏡画像は、たとえば、HDD124に格納され、HDD124から取得される。あるいは、ネットワーク59を介して接続された外部の記憶装置に格納され、その外部の記憶装置からネットワーク59を介して取得される。あるいは、ネットワーク59を介して接続された内視鏡装置からネットワーク59を介して取得される。内視鏡画像取得部110は、画像処理制御部116による制御の下、指定された取得先から認識対象の内視鏡画像を取得する。
認識結果は、たとえば、表示装置128に所定の表示フォーマットで表示される。認識結果出力部114は、画像処理制御部116による制御の下、画像認識部112の認識結果を所定のフォーマットで表示装置128に出力する。
[画像処理方法]
まず、内視鏡画像取得部110によって、認識対象の内視鏡画像が取得される。この内視鏡画像は、特定の画質の内視鏡画像である。次に、画像認識部112において、取得された内視鏡画像に対して画像認識が行われる。次に、認識結果出力部114によって、認識結果が出力される。
本実施の形態の内視鏡画像処理装置100では、特定の画質に最適化されたモデルで画像認識が行われるため、精度の高い画像認識を行うことができる。
[内視鏡画像処理装置の変形例]
《内視鏡画像処理装置の変形例1》
図14は、内視鏡画像処理装置の変形例を示すブロック図である。
同図に示すように、本例の内視鏡画像処理装置100Aは、画像認識に使用するモデルを切り替えるモデル切替部130を更に備える点で上記実施の形態の内視鏡画像処理装置100と相違する。
画像認識部112は、内視鏡画像に対して画像認識を行うモデルが複数備えてられており、使用するモデルが、モデル切替部130によって切り替えられる。このモデルは、第2の学習を行うことにより、最適化されたモデルである。用意された複数のモデルは、たとえば、ROM122又はHDD124に格納される。
モデル切替部130は、画像処理制御部116からの指示に応じて、使用するモデルを切り替える。画像処理制御部116は、ユーザからの指示に応じて、使用するモデルを切り替える。
たとえば、仕様の異なる複数の内視鏡を使い分けて検査する場合において、内視鏡ごとに最適化されたモデルを用意する。そして、検査に使用した内視鏡に応じて、画像認識に使用するモデルを切り替える。これにより、精度の高い画像認識が可能になる。
また、内視鏡は、同じ機種でも個体差が存在する場合があるので、内視鏡ごとに最適化されたモデルを用意し、検査に使用した内視鏡に応じて、画像認識に使用するモデルを切り替える。これにより、より精度の高い画像認識が可能になる。
また、一般に、内視鏡は、異なる機種であっても、プロセッサ装置(内視鏡から出力される撮像信号を処理し、画像データを生成する装置)は共用されることが多い。機種ごとに最適化されたモデルを用意し、検査に使用した内視鏡に応じて、画像認識に使用するモデルを切り替えることにより、より精度の高い画像認識が可能になる。
《内視鏡画像処理装置の変形例2》
図15は、内視鏡画像処理装置の他の変形例を示すブロック図である。
本例の内視鏡画像処理装置100Bは、認識対象の内視鏡画像を撮影した内視鏡の情報を取得する内視鏡情報取得部140を更に備える点で上記変形例1の内視鏡画像処理装置100Aと相違する。画像認識部112が、画像認識に使用するモデルは、検査に使用される内視鏡ごとに最適化されたものが複数用意される。
内視鏡情報取得部140は、認識対象の内視鏡画像を撮影した内視鏡の情報を取得し、画像処理制御部116に出力する。画像処理制御部116は、取得した内視鏡の情報に基づいて、対応するモデルが使用されるように、モデル切替部130に切り替えを指示する。モデル切替部130は、画像処理制御部116からの指示に応じて、使用するモデルを切り替える。たとえば、内視鏡の種類(機種)と、対応するモデルとが関連付けられたテーブルが用意され、そのテーブルを参照して、モデルの切り替えが行われる。
本例の内視鏡画像処理装置100Bによれば、画像認識に適したモデルが自動的に切り替えられるので、常に高精度な画像認識が可能になる。
なお、切り替えて使用する複数のモデルは、内視鏡の仕様に応じたものが複数用意される態様の他、互いに解像度の異なる学習用画像群で第2の学習が行われて生成されたモデル、互いにノイズ量の異なる学習用画像群で第2の学習が行われて生成されたモデル、その組み合わせが異なる学習用画像群で第2の学習が行われて生成されたモデル等が用意される。そして、用途に応じて、適切なモデルが選択される。
[その他の実施の形態]
《医療画像》
上記実施の形態では、医療画像として内視鏡画像を対象に画像認識する場合を例に説明したが、本発明が適用可能な医療画像は、これに限定されるものではない。
本発明が適用可能な「医療画像」には、内視鏡画像の他、CT(Computerized Tomography)画像、X線画像、超音波診断画像、MRI(Magnetic Resonance Imaging)画像、PET(Positron Emission Tomography)画像、SPECT(Single Photon Emission Computed Tomography)画像、又は、眼底画像など、様々な種類の画像が含まれる。
本開示の医療画像処理装置は、医師等による診察、治療、又は診断などを支援する診断支援装置として用いることができる。「診断支援」という用語は、診察支援及び/又は治療支援の概念を含む。
《ハードウェア構成について》
学習装置及び医療画像処理装置を実現するハードウェアは、次に示すような各種のプロセッサ(processor)で構成できる。
各種のプロセッサには、プログラムを実行して各種の処理部として機能する汎用的なプロセッサであるCPU(Central Processing Unit)、FPGA(Field Programmable Gate Array)などの製造後に回路構成を変更可能なプロセッサであるプログラマブルロジックデバイス(Programmable Logic Device:PLD)、ASIC(Application Specific Integrated Circuit)などの特定の処理を実行させるために専用に設計された回路構成を有するプロセッサである専用電気回路などが含まれる。
1つの処理部は、これら各種のプロセッサのうちの1つで構成されていてもよいし、同種又は異種の2つ以上のプロセッサで構成されてもよい。たとえば、1つの処理部は、複数のFPGA、あるいは、CPUとFPGAの組み合わせによって構成されてもよい。また、複数の処理部を1つのプロセッサで構成してもよい。複数の処理部を1つのプロセッサで構成する例としては、第一に、クライアントやサーバなどのコンピュータに代表されるように、1つ以上のCPUとソフトウェアの組み合わせで1つのプロセッサを構成し、このプロセッサが複数の処理部として機能する形態がある。第二に、システムオンチップ(System On Chip:SoC)などに代表されるように、複数の処理部を含むシステム全体の機能を1つのIC(Integrated Circuit)チップで実現するプロセッサを使用する形態がある。このように、各種の処理部は、ハードウェア的な構造として、上記各種のプロセッサを1つ以上用いて構成される。
更に、これらの各種のプロセッサのハードウェア的な構造は、より具体的には、半導体素子などの回路素子を組み合わせた電気回路(circuitry)である。
《内視鏡》
内視鏡は、軟性内視鏡に限らず、硬性内視鏡であってもよいし、カプセル内視鏡であってもよい。
《内視鏡の観察光について》
内視鏡の観察光(照明光)は、白色光、あるいは1又は複数の特定の波長帯域の光、あるいはこれらの組み合わせなど観察目的に応じた各種波長帯域の光が選択される。白色光は、白色の波長帯域の光又は複数の波長帯域の光である。「特定の波長帯域」は、白色の波長帯域よりも狭い帯域である。特定の波長帯域に関する具体例を以下に示す。
〈第1例〉
特定の波長帯域の第1例は、たとえば、可視域の青色帯域又は緑色帯域である。この第1例の波長帯域は、390nm以上450nm以下の波長帯域又は530nm以上550nm以下の波長帯域を含み、かつ、第1例の光は、390nm以上450nm以下の波長帯域内又は530nm以上550nm以下の波長帯域内にピーク波長を有する。
〈第2例〉
特定の波長帯域の第2例は、たとえば、可視域の赤色帯域である。この第2例の波長帯域は、585nm以上615nm以下の波長帯域又は610nm以上730nm以下の波長帯 域を含み、かつ、第2例の光は、585nm以上615nmの波長帯域内以下又は610nm以上730nm以下の波長帯域内にピーク波長を有する。
〈第3例〉
特定の波長帯域の第3例は、酸化ヘモグロビンと還元ヘモグロビンとで吸光係数が異なる波長帯域を含み、かつ、第3例の光は、酸化ヘモグロビンと還元ヘモグロビンとで吸光係数が異なる波長帯域にピーク波長を有する。この第3例の波長帯域は、400±10nm、440±10nmの波長帯域、470±10nmの波長帯域、又は600nm以上750nm以下の波長帯域を含み、かつ、第3例の光は、上記400±10nm、440±10nm、470±10nm、又は600nm以上750nm以下の波長帯域内にピーク波長を有する。
〈第4例〉
特定の波長帯域の第4例は、生体内の蛍光物質が発する蛍光の観察(蛍光観察)に用いられ、かつ、この蛍光物質を励起させる励起光の波長帯域、たとえば、390nmから470nmである。
〈第5例〉
特定の波長帯域の第5例は、赤外光の波長帯域である。この第5例の波長帯域は、790nm以上820nm以下の波長帯域又は905nm以上970nm以下の波長帯域を含み、かつ、第5例の光は、790nm以上820nm以下の波長帯域内又は905nm以上970nm以下の波長帯域内にピーク波長を有する。
《内視鏡の観察光の切り替えについて》
光源の種類は、レーザ光源、キセノン光源、若しくは、LED光源(LED:Light-Emitting Diode)又はこれらの適宜の組み合わせを採用できる。光源の種類、波長、フィルタの有無等は被写体の種類、観察の目的等に応じて構成することが好ましく、また、観察の際は、被写体の種類、観察の目的等に応じて照明光の波長を組み合わせ、及び/又は、切り替えることが好ましい。波長を切り替える場合、たとえば、光源の前方に配置され特定波長の光を透過又は遮光するフィルタが設けられた円板状のフィルタ(ロータリカラーフィルタ)を回転させることにより、照射する光の波長を切り替えてもよい。
内視鏡に用いるイメージセンサは、各画素に対しカラーフィルタが配設されたカラー撮像素子に限定されるものではなく、モノクロ撮像素子でもよい。モノクロ撮像素子を用いる場合、照明光の波長を順次切り替えて面順次(色順次)で撮像することができる。たとえば、出射する照明光の波長を、紫色、青色、緑色、及び赤色の間で順次切り替えてもよいし、広帯域光(白色光)を照射してロータリカラーフィルタ(赤色、緑色、青色等)により出射する照明光の波長を切り替えてもよい。また、1又は複数の狭帯域光を照射してロータリカラーフィルタにより出射する照明光の波長を切り替えてもよい。狭帯域光は波長の異なる2波長以上の赤外光でもよい。
《特殊光画像の生成例》
内視鏡の画像を処理するプロセッサ装置は、白色光を用いて撮像して得られた通常光画像に基づいて、特定の波長帯域の情報を有する特殊光画像を生成してもよい。なお、ここでいう生成には「取得」の概念が含まれる。プロセッサ装置16は、特定の波長帯域の信号を、通常光画像に含まれる赤(R)、緑(G)、及び、青(B)、あるいは、シアン(Cyan,C)、マゼンタ(Magenta,M)、イエロ(Yellow,Y)の色情報に基づく演算を行うことで得ることができる。
《コンピュータに学習装置及び医療画像処理装置の機能を実現させるプログラムについて》
上述の実施形態で説明した学習装置及び医療画像処理装置の機能をコンピュータに実現させるプログラムを光ディスク、磁気ディスク、若しくは、半導体メモリその他の有体物たる非一時的な情報記憶媒体であるコンピュータ可読媒体に記録し、この情報記憶媒体を通じてプログラムを提供することが可能である。またこのような有体物たる非一時的な情報記憶媒体にプログラムを記憶させて提供する態様に代えて、インターネットなどの電気通信回線を利用してプログラム信号をダウンロードサービスとして提供することも可能である。
また、上述の実施形態で説明した学習装置及び医療画像処理装置の機能の一部又は全部をアプリケーションサーバとして提供し、電気通信回線を通じて処理機能を提供するサービスを行うことも可能である。
1 学習装置
10 第1学習部
12 第1学習用データセット
16 プロセッサ装置
20 第2学習部
22 第2学習用データセット
30 学習制御部
51 CPU
52 ROM
53 RAM
54 HDD
55 通信インターフェイス
56 入出力インターフェイス
57 入力装置
58 表示装置
59 ネットワーク
100 内視鏡画像処理装置
100A 内視鏡画像処理装置
100B 内視鏡画像処理装置
110 内視鏡画像取得部
112 画像認識部
114 認識結果出力部
116 画像処理制御部
121 CPU
122 ROM
123 RAM
124 HDD
125 通信インターフェイス
126 入出力インターフェイス
127 入力装置
128 表示装置
130 モデル切替部
140 内視鏡情報取得部
M1 第1モデル
M2 第2モデル
S1からS4 学習の手順
S11からS14 高解像度の学習用画像群による学習結果をベースにした学習の手順
S21からS24 低解像度の学習用画像群による学習結果をベースにした学習の手順
S31からS34 低ノイズの学習用画像群による学習結果をベースにした学習の手順
S41からS44 高ノイズの学習用画像群による学習結果をベースにした学習の手順
S51からS54 広角の学習用画像群による学習結果をベースにした学習の手順
S61からS64 異なる内視鏡で撮影された学習用画像群による学習結果をベースにした学習の手順

Claims (7)

  1. 内視鏡で撮影された医療画像を取得する医療画像取得部と、
    記医療画像に対して画像認識を行う複数のモデルと、
    前記医療画像を撮影した前記内視鏡の機種の情報を取得する内視鏡情報取得部と、
    前記内視鏡の機種と対応する前記モデルとが関連付けられたテーブルを参照し、前記内視鏡情報取得部で取得される前記内視鏡の機種の情報に基づいて、画像認識に使用する前記モデルを切り替えるモデル切替部と、
    を備え、複数の前記モデルは、畳み込みニューラルネットワークで構成されるモデルを、第1画質の医療画像で構成される第1医療画像群を用いて学習することにより、前記第1画質の医療画像に対して画像認識を行う第1モデルを生成する第1学習部と、前記第1モデルの一部の層の重みパラメータをリセットしたモデルを、前記第1画質と少なくともノイズ量の異なる第2画質の医療画像で構成される第2医療画像群を用いて学習することにより、前記第2画質の医療画像に対して画像認識を行う第2モデルを生成する第2学習部と、を備えた学習装置で生成された前記第2モデルで構成され、かつ、それぞれ機種の異なる前記内視鏡で撮影された前記第2画質の医療画像で構成される前記第2医療画像群を用いて学習することにより生成された前記第2モデルで構成される、
    医療画像処理装置。
  2. 前記内視鏡情報取得部は、更に、前記医療画像を撮影した前記内視鏡の仕様の情報を取得し、
    複数の前記モデルは、それぞれ機種及び仕様の異なる前記内視鏡で撮影された前記第2画質の医療画像で構成される前記第2医療画像群を用いて学習することにより生成された前記第2モデルで構成され、
    前記モデル切替部は、前記内視鏡情報取得部で取得される前記内視鏡の機種及び仕様の情報に基づいて、画像認識に使用する前記モデルを切り替える、
    請求項1に記載の医療画像処理装置。
  3. 前記内視鏡情報取得部は、更に、前記医療画像を撮影した前記内視鏡の解像度の情報を取得し、
    複数の前記モデルは、それぞれ機種、仕様及び解像度の異なる前記内視鏡で撮影された前記第2画質の医療画像で構成される前記第2医療画像群を用いて学習することにより生成された前記第2モデルで構成され、
    前記モデル切替部は、前記内視鏡情報取得部で取得される前記内視鏡の機種、仕様及び解像度の情報に基づいて、画像認識に使用する前記モデルを切り替える、
    請求項2に記載の医療画像処理装置。
  4. 前記学習装置において、前記重みパラメータをリセットする層が、出力に近い層である、
    請求項1から3のいずれか1項に記載の医療画像処理装置。
  5. 前記学習装置において、前記重みパラメータをリセットする層が、終端の複数の層である、
    請求項4に記載の医療画像処理装置。
  6. 前記学習装置において、前記第2学習部は、少なくとも一部の層の学習係数を変えて学習する、
    請求項1から5のいずれか1項に記載の医療画像処理装置。
  7. 前記学習装置において、前記重みパラメータをリセットした層の学習係数を他の層よりも大きく設定する、
    請求項6に記載の医療画像処理装置。
JP2020527359A 2018-06-28 2019-06-10 医療画像処理装置 Active JP7382930B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2018123443 2018-06-28
JP2018123443 2018-06-28
PCT/JP2019/022910 WO2020003992A1 (ja) 2018-06-28 2019-06-10 学習装置及び学習方法、並びに、医療画像処理装置

Publications (2)

Publication Number Publication Date
JPWO2020003992A1 JPWO2020003992A1 (ja) 2021-06-24
JP7382930B2 true JP7382930B2 (ja) 2023-11-17

Family

ID=68986461

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020527359A Active JP7382930B2 (ja) 2018-06-28 2019-06-10 医療画像処理装置

Country Status (2)

Country Link
JP (1) JP7382930B2 (ja)
WO (1) WO2020003992A1 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021156974A1 (ja) * 2020-02-05 2021-08-12 オリンパス株式会社 画像処理装置、画像処理方法、画像処理プログラム、表示制御装置及び内視鏡装置
US20230230364A1 (en) * 2020-05-26 2023-07-20 Nec Corporation Image processing device, control method and storage medium
JP2022054916A (ja) * 2020-09-28 2022-04-07 LeapMind株式会社 認識処理実行プログラム及び認識処理実行装置
EP4298986A4 (en) 2021-02-26 2024-03-13 Nec Corp IMAGE PROCESSING DEVICE AND METHOD, AND STORAGE MEDIUM
WO2023042273A1 (ja) * 2021-09-14 2023-03-23 日本電気株式会社 画像処理装置、画像処理方法及び記憶媒体

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008302075A (ja) 2007-06-08 2008-12-18 Olympus Corp 画像処理装置並びにスコープおよびこれらを備える内視鏡装置
JP2017130196A (ja) 2016-01-14 2017-07-27 キヤノン株式会社 認識学習装置、認識学習方法及びプログラム
WO2017175282A1 (ja) 2016-04-04 2017-10-12 オリンパス株式会社 学習方法、画像認識装置およびプログラム
JP2017211799A (ja) 2016-05-25 2017-11-30 キヤノン株式会社 情報処理装置および情報処理方法
JP2017221486A (ja) 2016-06-16 2017-12-21 ソニー株式会社 情報処理装置、情報処理方法、プログラム及び医療用観察システム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008302075A (ja) 2007-06-08 2008-12-18 Olympus Corp 画像処理装置並びにスコープおよびこれらを備える内視鏡装置
JP2017130196A (ja) 2016-01-14 2017-07-27 キヤノン株式会社 認識学習装置、認識学習方法及びプログラム
WO2017175282A1 (ja) 2016-04-04 2017-10-12 オリンパス株式会社 学習方法、画像認識装置およびプログラム
JP2017211799A (ja) 2016-05-25 2017-11-30 キヤノン株式会社 情報処理装置および情報処理方法
JP2017221486A (ja) 2016-06-16 2017-12-21 ソニー株式会社 情報処理装置、情報処理方法、プログラム及び医療用観察システム

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Masood Sarfaraz,Identification of diabetic retinopathy in eye images using transfer learning,2017 International Conference on Computing, Communication and Automation (ICCCA),2017年12月21日,Vol.2017 No.ICCCA,Page.1183-1187
上野洋典,画像認識における効率的な転移学習のための学習モデル選択手法の検討,情報処理学会 研究報告 システム・アーキテクチャ(ARC) 2017-ARC-228 [online] ,日本,情報処理学会
園山昌司,大腸内視鏡画像認識のための転移学習手法,電子情報通信学会技術研究報告 Vol.115 No.401 IEICE Technical Report,日本,一般社団法人電子情報通信学会 The Institute of Ele,2016年01月,第115巻,pp.223-227

Also Published As

Publication number Publication date
JPWO2020003992A1 (ja) 2021-06-24
WO2020003992A1 (ja) 2020-01-02

Similar Documents

Publication Publication Date Title
JP7382930B2 (ja) 医療画像処理装置
US11900623B2 (en) Hyperspectral imaging with tool tracking in a light deficient environment
US11600385B2 (en) Medical image processing device, endoscope system, diagnosis support method, and program
JP7383105B2 (ja) 医療画像処理装置及び内視鏡システム
JP7289373B2 (ja) 医療画像処理装置、内視鏡システム、診断支援方法及びプログラム
CN103857335A (zh) 激光散斑图像的各向异性处理
WO2020017213A1 (ja) 内視鏡画像認識装置、内視鏡画像学習装置、内視鏡画像学習方法及びプログラム
JP7335399B2 (ja) 医用画像処理装置及び内視鏡システム並びに医用画像処理装置の作動方法
WO2019235195A1 (ja) 画像処理装置、内視鏡システム、及び画像処理方法
JPWO2020031851A1 (ja) 画像処理方法及び画像処理装置
JP7350954B2 (ja) 内視鏡画像処理装置、内視鏡システム、内視鏡画像処理装置の作動方法、内視鏡画像処理プログラム及び記憶媒体
WO2020054543A1 (ja) 医療画像処理装置及び方法、内視鏡システム、プロセッサ装置、診断支援装置並びにプログラム
WO2020170809A1 (ja) 医療画像処理装置、内視鏡システム、及び医療画像処理方法
WO2020184257A1 (ja) 医用画像処理装置及び方法
WO2021132023A1 (ja) 医用画像処理装置、医用画像処理方法及びプログラム
JP7387859B2 (ja) 医用画像処理装置、プロセッサ装置、内視鏡システム、医用画像処理装置の作動方法及びプログラム
WO2022228396A1 (zh) 内窥镜多光谱图像处理系统及处理和训练方法
US20220222840A1 (en) Control device, image processing method, and storage medium
CN116322465A (zh) 图像处理装置、内窥镜系统、图像处理装置的工作方法及图像处理装置用程序
CN114376491A (zh) 内窥镜成像装置及其方法、系统以及电子设备
CN214231268U (zh) 内窥镜成像装置和电子设备
JP6866497B2 (ja) 医療画像処理装置、及び、内視鏡装置
KR101281802B1 (ko) 감량 영상 구성장치
WO2022249572A1 (ja) 画像処理装置、画像処理方法及び記録媒体
WO2024009631A1 (ja) 画像処理装置及び画像処理装置の作動方法

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201127

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20201127

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20211210

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220203

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220613

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220808

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20221118

C60 Trial request (containing other claim documents, opposition documents)

Free format text: JAPANESE INTERMEDIATE CODE: C60

Effective date: 20230120

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20231107

R150 Certificate of patent or registration of utility model

Ref document number: 7382930

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150