JP7467595B2 - 画像処理システム、画像処理装置、内視鏡システム、画像処理方法及びプログラム - Google Patents

画像処理システム、画像処理装置、内視鏡システム、画像処理方法及びプログラム Download PDF

Info

Publication number
JP7467595B2
JP7467595B2 JP2022507045A JP2022507045A JP7467595B2 JP 7467595 B2 JP7467595 B2 JP 7467595B2 JP 2022507045 A JP2022507045 A JP 2022507045A JP 2022507045 A JP2022507045 A JP 2022507045A JP 7467595 B2 JP7467595 B2 JP 7467595B2
Authority
JP
Japan
Prior art keywords
image
information
annotation
reliability
learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022507045A
Other languages
English (en)
Other versions
JPWO2021181520A5 (ja
JPWO2021181520A1 (ja
Inventor
秀和 岩城
泰成 近藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Olympus Corp
Original Assignee
Olympus Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Olympus Corp filed Critical Olympus Corp
Publication of JPWO2021181520A1 publication Critical patent/JPWO2021181520A1/ja
Publication of JPWO2021181520A5 publication Critical patent/JPWO2021181520A5/ja
Application granted granted Critical
Publication of JP7467595B2 publication Critical patent/JP7467595B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/55Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • G06T7/0012Biomedical image inspection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/194Segmentation; Edge detection involving foreground-background segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/778Active pattern-learning, e.g. online learning of image or video features
    • G06V10/7784Active pattern-learning, e.g. online learning of image or video features based on feedback from supervisors
    • G06V10/7792Active pattern-learning, e.g. online learning of image or video features based on feedback from supervisors the supervisor being an automated module, e.g. "intelligent oracle"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10068Endoscopic image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20016Hierarchical, coarse-to-fine, multiscale or multiresolution image processing; Pyramid transform
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20092Interactive image processing based on input by user
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30004Biomedical image processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/03Recognition of patterns in medical or anatomical images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/03Recognition of patterns in medical or anatomical images
    • G06V2201/032Recognition of patterns in medical or anatomical images of protuberances, polyps nodules, etc.
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/10Recognition assisted with metadata

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Radiology & Medical Imaging (AREA)
  • Quality & Reliability (AREA)
  • Mathematical Physics (AREA)
  • Endoscopes (AREA)
  • Image Analysis (AREA)

Description

本発明は、画像処理システム、画像処理装置、内視鏡システム、画像処理方法及びプログラム等に関係する。
従来、生体画像を対象とした画像処理に深層学習を適用する手法が知られている。深層学習においては、正しいアノテーションが行われた教師データが必要となる。正確にアノテーションを行うためには、データがとられたドメインに関する知識や経験などが不可欠である。
特許文献1では、非エキスパートが作成したアノテーションデータに信頼度を付与し、当該信頼度を学習に用いることによって、精度の良い分類モデルの学習を行う手法が提案されている。特許文献1の手法は、エキスパートによるアノテーションデータを基にして、非エキスパートが作成したアノテーションに信頼度を付与する。
特開2009-282686号公報
生体画像は一般画像に比べ特徴の差に乏しい。また生体画像は、個体差が大きく正常のバリエーションが多い。そのため、エキスパートである医師が見ても、アノテーションが医師によってばらついてしまう。即ち、生体画像を対象とする場合、エキスパートによる良質なアノテーションデータの生成が難しいため、従来手法を適用できない。
本開示のいくつかの態様によれば、生体画像を対象とする場合に、精度の高い推論処理を実行するための画像処理システム、画像処理装置、内視鏡システム、インターフェース及び画像処理方法等を提供できる。
本開示の一態様は、生体を撮像した学習画像に対するアノテーション結果が入力されるインターフェースと、処理部と、を含み、前記処理部は、前記学習画像に対してアノテーションを行う難易度を表す難易度情報を含むメタデータを取得し、前記メタデータに基づいて、前記アノテーション結果の信頼度を表す信頼度情報を決定し、生体を撮像した推論対象画像に対して深層学習を用いた推論を行う学習済モデルの生成に用いられるデータとして、前記学習画像、前記アノテーション結果、及び前記信頼度情報を対応付けたデータセットを出力する画像処理システムに関係する。
本開示の他の態様は、生体を撮像した学習画像に対するアノテーション結果が入力されるインターフェースと、前記学習画像に対してアノテーションを行う難易度を表す難易度情報を含むメタデータを取得し、取得した前記メタデータを、前記アノテーション結果の信頼度を求めるための情報として、前記学習画像に対応付けて出力する処理部と、を含み、前記学習画像及び前記アノテーション結果は、生体を撮像した推論対象画像に対して深層学習を用いた推論を行う学習済モデルの生成に用いられ、前記信頼度は、前記深層学習における目的関数の重み情報として用いられる画像処理装置に関係する。
本開示のさらに他の態様は、生体を撮像することによって推論対象画像を出力する撮像部と、深層学習によって学習された学習済モデルに基づいて、前記推論対象画像に対する推論処理を行う処理部と、を含み、前記学習済モデルは、生体を撮像した学習画像と、前記学習画像に対するアノテーション結果と、前記学習画像に付与されたメタデータに基づいて決定された前記アノテーション結果の信頼度を表す信頼度情報と、を対応付けたデータセットに基づいて学習されており、前記メタデータは、前記学習画像に対してアノテーションを行う難易度を表す難易度情報を含み、前記学習画像及び前記アノテーション結果は、前記深層学習における教師データであり、前記信頼度情報は、前記深層学習における目的関数の重み情報である内視鏡システムに関係する。
本開示のさらに他の態様は、生体を撮像した学習画像に対するアノテーション結果が入力される入力部を含むインターフェースであって、前記インターフェースは、処理部と接続され、前記インターフェースは、前記処理部に、前記学習画像に対してアノテーションを行う難易度を表す難易度情報を含むメタデータを入力し、前記処理部は、前記メタデータに基づいて、前記アノテーション結果の信頼度を表す信頼度情報を決定し、前記処理部は、生体を撮像した推論対象画像に対して深層学習を用いた推論を行う学習済モデルの生成に用いられるデータとして、前記学習画像、前記アノテーション結果、及び前記信頼度情報を対応付けたデータセットを出力するインターフェースに関係する。
本開示のさらに他の態様は、生体を撮像した学習画像に対するアノテーション結果を取得し、前記学習画像に対してアノテーションを行う難易度を表す難易度情報を含むメタデータを取得し、前記メタデータに基づいて、前記アノテーション結果の信頼度を表す信頼度情報を決定し、生体を撮像した推論対象画像に対して深層学習を用いた推論を行う学習済モデルの生成に用いられるデータとして、前記学習画像、前記アノテーション結果、及び前記信頼度情報を対応付けたデータセットを出力する画像処理方法に関係する。
画像処理システムを含むシステムの構成例。 画像処理システムの構成例。 内視鏡システムの構成例。 画像処理システムを含むシステムにおける処理を説明するフローチャート。 アノテーション結果及びメタデータの取得処理を説明するフローチャート。 アノテーションを行うための表示画像の例。 アノテーションを行うための表示画像の例。 アノテーションを行うための表示画像の例。 図9(A)、図9(B)は熟練度を求める関数の例。 信頼度を決定する処理を説明するフローチャート。 図11(A)、図11(B)はニューラルネットワークの説明図。 信頼度と重み情報の関係を説明する図。
以下、本実施形態について説明する。なお、以下に説明する本実施形態は、請求の範囲に記載された内容を不当に限定するものではない。また本実施形態で説明される構成の全てが、本開示の必須構成要件であるとは限らない。
1.本実施形態の手法
深層学習は分類問題、回帰問題に用いられる機械学習手法であり、分類問題においては予めアノテーションされた教師データを学習することによって、分類モデルが構築される。この学習手法は一般的に教師あり学習と呼ばれる。アノテーションとは、あるデータに関して、関連するタグを付与することを意味する。
教師あり学習を行うには、計算機に学習させるための教師データが必要である。教師データには計算機に学習させるデータに対応した正しいアノテーションが必要となる。つまり、計算機は教師データを基に、どのように入力データを分類すべきかを学習することによって、未知の入力データに対して、分類結果を推論することが可能になる。
ここで、教師データの作成におけるアノテーションが問題となってくる。所与のデータを教師データとして学習を行うためには、正しいアノテーションが必要であるが、正確にアノテーションを行うためには、データがとられたドメインに関する知識や経験などが不可欠である。例えば内視鏡システムによって撮像された生体画像にアノテーションを行う場合、内視鏡システムを用いた診断、治療の経験や、生体画像を対象としてアノテーションを行った経験が重要となる。また、教師データの作成において、正確なアノテーションが行えることに加え、アノテーションを行うユーザによって差が生じないことが重要である。
しかし、生体画像は一般画像に比べ特徴の差に乏しいことや、個体差が大きく正常のバリエーションが多いことなどから、エキスパートである医師が見ても、アノテーションが医師によってばらついてしまう。そのため、ばらつきのあるアノテーションデータを含む教師データが蓄積されてしまうことが考えられる。
例えば、内視鏡システムによって生体を撮像した医療画像を分類する分類器、或いは、医療画像から所定被写体を検出する検出器を生成するための機械学習を考える。ここでの分類器は学習済モデルであり、例えば医療画像を、病変を撮像した「病変画像」と病変を撮像していない「正常画像」に分類する処理を行う。また検出器は学習済モデルであり、例えば医療画像から病変を検出する処理を行う。これらの学習済モデルを生成するための教師データを作成するとき、医師は医療画像のアノテーションを行う。しかし、医療画像においては、正常領域と病変領域の間に「よくわからない領域」がしばしば存在するため、専門家が見てもアノテーション結果がばらついてしまう。生体画像では、経年変化や個体差が大きく正常のバリエーションが大きいことなどが、上記「よくわからない領域」を大きくする原因のひとつとなっている。
一般的な深層学習においては、教師データの信頼度や取得方法に関する情報は学習に用いられないため、誤っているアノテーションや正しいアノテーションが混在する状況においても、全ての教師データを同列に扱い、等しく学習に使用する。生体画像を対象とした学習を行う場合において、教師データを従来通り同列とみなして学習した場合、誤ったアノテーションデータが学習に影響し、精度が良い学習済モデルを構築できないケースが考えられる。或いは、医療画像において上記「よくわからない領域」のアノテーションデータが破棄され、学習に利用されない場合がある。
特許文献1では、非エキスパートが作成したアノテーションデータに信頼度を付与し、学習に用いることによって、精度の良い分類モデルの学習を行う手法が提案されている。この手法は、エキスパートによるアノテーションデータを基にして、非エキスパートが作成したアノテーションに信頼度を付与し、分類モデルの学習にその信頼度を反映することで分類モデルを学習するものである。この信頼度は、選択した非エキスパートデータから近傍範囲内にあるエキスパートデータを探索して同ラベル確率を算出し、信頼度関数に当てはめることによって求められている。
しかし特許文献1等の従来手法は、アノテーションの精度が高いエキスパートデータが取得できることを前提としている。そのため生体画像のように、エキスパートである医師がアノテーションを行ってもアノテーション結果にばらつきが生じてしまう場合、従来手法を適用できない。結果として、生体画像を対象として、推論精度の良い学習済モデルを構築することが難しかった。
よって本実施形態の手法では、生体画像に対してアノテーションを行う難易度を表す難易度情報を含むメタデータを取得し、当該メタデータに基づいて、アノテーション結果の信頼度を表す信頼度情報を決定する。なお、アノテーション結果も広義には学習画像に付与されるメタデータであるが、本実施形態におけるメタデータは、アノテーション結果の信頼度を決定するためのデータを表す。即ち、学習画像に対して、アノテーション結果と、当該アノテーション結果とは異なるメタデータと、が対応付けられる。
本実施形態の手法によれば、精度が高いエキスパートデータの取得が難しい生体画像を対象とする場合であっても、適切な信頼度が対応付けられた教師データを生成できるため、推論精度の良い学習済モデルを構築することが可能になる。換言すれば、ユーザ間の比較を行うことによって相対的な信頼度を算出せずとも、単一のユーザを対象とした絶対的な信頼度を決定できるため、精度が十分に高いエキスパートデータが存在しない場合にも適切な信頼度を決定可能である。また本実施形態の手法によれば、正常と病変の間の領域がアノテーションされたデータを用いた精度の高い学習処理が可能になる。正常と病変の間の領域とは、例えば病変の境界領域を含むため、病変検出等に有用な領域であり、当該領域を学習処理に利用する利点が大きい。
2.システム構成例
まず画像処理システム100を含む全体システムの構成について説明し、その後、画像処理システム100の詳細構成、及び内視鏡システム200の構成について説明する。
2.1 全体構成例
図1は、本実施形態にかかる画像処理システム100を含むシステムの構成例である。図1に示すように、システムは、内視鏡システム200と、データベースサーバ300と、アノテーション装置400と、信頼度決定装置500と、学習装置600と、推論装置700と、画像収集用内視鏡システム800を含む。画像処理システム100は、例えばアノテーション装置400及び信頼度決定装置500に対応する。ただし、システムは図1の構成に限定されず、これらの一部の構成要素を省略したり、他の構成要素を追加するなどの種々の変形実施が可能である。
画像収集用内視鏡システム800は、学習済モデルを作成するための複数の生体画像を撮像する。これに対して、内視鏡システム200は、学習済モデルを用いた推論処理の対象となる推論対象画像を撮像する。内視鏡システム200は、狭義には患者に対する診断や処置を実行中のシステムであるが、これには限定されない。なお、内視鏡システム200が撮像した推論対象画像は、学習済モデルの更新における教師データの一部として用いることが可能である。即ち、内視鏡システム200が他のタイミングにおいて画像収集用内視鏡システム800として機能してもよい。また画像収集用内視鏡システム800が、他のタイミングにおいて推論対象画像を撮像する内視鏡システム200として機能してもよい。
データベースサーバ300は、イントラネット等のプライベートネットワークに設けられるサーバであってもよいし、インターネット等の公衆通信網に設けられるサーバであってもよい。なおデータベースサーバ300は、クラウドコンピューティングによって実現されてもよく、具体的な態様は種々の変形実施が可能である。例えば、データベースサーバ300は、1つの物理サーバであってもよいし、複数の物理サーバの分散処理によって実現されてもよい。データベースサーバ300は、まず画像収集用内視鏡システム800から過去の診断、処置において撮像された生体画像である学習画像を収集する。
アノテーション装置400は、データベースサーバ300から学習画像を取得し、当該学習画像にアノテーション結果を対応付ける。具体的には、アノテーション装置400はユーザによるアノテーションを受け付けるインターフェースを含む。またアノテーション装置400は、アノテーション結果の信頼度算出に用いられるメタデータを取得する。アノテーション装置400は、学習画像にアノテーション結果及びメタデータを対応付けたデータをデータベースサーバ300に送信する。
信頼度決定装置500は、上記メタデータを取得し、当該メタデータに基づいて、アノテーション結果の信頼度を表す信頼度情報を決定する。データベースサーバ300は、学習画像に対して、アノテーション結果と、信頼度情報とが対応付けられたデータを記憶する。
学習装置600は、学習画像、アノテーション結果及び信頼度情報に基づく機械学習を行うことによって、学習済モデルを生成する。学習済モデルは、具体的には深層学習に従った推論処理を行うモデルである。学習装置600は、生成した学習済モデルをデータベースサーバ300に送信する。
推論装置700は、学習装置600によって生成された学習済モデルを取得する。また推論装置700は、内視鏡システム200の撮像部において撮像された生体画像を、推論対象画像として取得する。撮像部とは,具体的には後述する撮像素子212に対応する。推論装置700は、学習済モデルからの指示に従って動作することによって、推論対象画像に対する推論処理を行う。例えば、推論装置700は推論対象画像を分類する処理や、推論対象画像から注目領域を検出する処理を行う。
なお、図1においてはアノテーション装置400、信頼度決定装置500は、データベースサーバ300に記憶された情報を取得し、取得した情報に対する処理を行い、処理結果をデータベースサーバ300に送信するインターフェースとして機能する例を示した。ただしデータベースサーバ300を省略してもよい。例えば、アノテーション装置400は、データベースサーバ300を経由せずに、学習画像、アノテーション結果及びメタデータを信頼度決定装置500に送信してもよい。信頼度決定装置500は、データベースサーバ300を経由せずに、学習画像、アノテーション結果及び信頼度情報を学習装置600に送信してもよい。
また図1に示す各装置は別体として設けられるものに限定されず、複数の装置が一体として構成されてもよい。例えば、アノテーション装置400と信頼度決定装置500が一体として構成されてもよい。この場合、アノテーション装置400(信頼度決定装置500)は、学習画像に対するアノテーション結果及びメタデータの取得と、当該メタデータに基づく信頼度情報の算出の両方の処理を行う装置である。
また、信頼度決定装置500と学習装置600が一体として構成されてもよい。この場合、信頼度決定装置500(学習装置600)は、信頼度情報を算出することによって機械学習に用いるデータを生成する処理と、当該データに基づいて機械学習を実行する処理の両方の処理を行う装置である。
また、学習装置600と推論装置700が一体として構成されてもよい。この場合、学習装置600(推論装置700)は、機械学習を行うことによって学習済モデルを生成する処理と、当該学習済モデルに基づく推論処理の両方の処理を行う装置である。
また推論装置700と内視鏡システム200が一体として構成されてもよい。例えば図3を用いて後述する内視鏡システム200のシステム制御装置230が、推論装置700を含む。この場合、内視鏡システム200は、推論対象画像を撮像する制御を含む内視鏡システム200の各部の制御と、学習済モデルを用いた推論処理の両方を行う。
また、図1における3以上の装置が一体として構成されることも妨げられない。例えば、アノテーション装置400と信頼度決定装置500と学習装置600とが一体として構成されてもよい。この場合、アノテーション結果や信頼度情報を含む学習用のデータを生成する処理と、当該データを用いた学習処理とが1つの装置において実行される。また、図1における各装置は、1つの装置として構成されるものに限定されず、複数の装置の分散処理によって実現されてもよい。
本開示に関連するシステムは、内視鏡システム、サーバシステム、アノテーション作業用ユーザインターフェース、推論作業用ユーザインターフェース等が、無線または有線で互いに通信するように構成することができる。そしてデータ蓄積機能、アノテーション機能、学習機能、推論機能は、これらの装置のいずれかに実装されてもよいし、複数の機器に分割して実装されてもよい。これらの機器に含まれる単一または複数の情報処理装置を、本開示ではプロセッサとよぶ。また本開示の特徴となる機能、構成が実装された機器と通信する機器は、適切に通信データを扱えるような機能、構成を備えている。例えば、通信データを扱うことができるアルゴリズムを備えていてもよいし、通信用や情報処理のためのハードウェアを備えていてもよい。また図1に示した装置のいずれか1つが、これらの機器のネットワークを操作し、ネットワークから提供される利益、効果を得るように構成することができる。
以上のように、図1はシステム構成の一例であり、画像処理システム100を含むシステムの構成は種々の変形実施が可能である。
2.2 画像処理システム
図2は、画像処理システム100の詳細な構成例を示す図である。画像処理システム100は、インターフェース110と、処理部120と、記憶部130を含む。インターフェース110は、画像取得インターフェース111と、アノテーションインターフェース112と、アウトプットインターフェース115を含む。処理部120は、アノテーション処理部121と、メタデータ取得部123と、信頼度決定部125を含む。ただし画像処理システム100は図2の構成に限定されず、これらの一部の構成要素を省略したり、他の構成要素を追加するなどの種々の変形実施が可能である。
インターフェース110は、データの入出力を行う。画像取得インターフェース111は、画像収集用内視鏡システム800によって撮像された生体画像を、学習画像として取得するインターフェースである。画像取得インターフェース111は、例えば画像収集用内視鏡システム800又はデータベースサーバ300からネットワークを介して生体画像を受信する通信インターフェースとして実現される。ここでのネットワークは、イントラネット等のプライベートネットワークであってもよいし、インターネット等の公衆通信網であってもよい。またネットワークは、有線、無線を問わない。また画像取得インターフェース111は、1フレームごとに生体内を撮像した画像を取得してもよいし、複数フレームに対応する複数の画像をまとめて取得してもよい。
アノテーションインターフェース112は、ユーザによるアノテーションを受け付けるインターフェースである。アノテーションインターフェース112は、例えばアノテーション対象である学習画像を表示する表示部113と、ユーザが入力操作を行うための操作部114を含む。表示部113は、例えば液晶ディスプレイ又は有機EL(Electro-Luminescence)ディスプレイ等の表示装置である。操作部114は、マウスやキーボードである。或いは、表示部113及び操作部114は、タッチパネルにより一体的に構成してもよい。具体的な表示画像については、図6等を用いて後述する。
アウトプットインターフェース115は、処理部120における処理結果を出力するインターフェースである。例えばアウトプットインターフェース115は、アノテーション結果及びメタデータを学習画像に対応付けて出力する第1アウトプットインターフェースと、メタデータに基づいて決定された信頼度情報を出力する第2アウトプットインターフェースを含む。第1アウトプットインターフェースは、例えば図1のアノテーション装置400に含まれ、第2アウトプットインターフェースは信頼度決定装置500に含まれる。ただし上述したように、画像処理システム100は、種々の構成を用いて実現が可能であり、例えばメタデータが外部に出力されない態様であってもよい。
処理部120は、アノテーション結果及びメタデータの取得と、信頼度決定の各処理を実行する。アノテーション処理部121は、表示部113の表示制御と、操作部114からの操作情報の取得処理を行う。具体的にはアノテーション処理部121は、ユーザにアノテーションを行わせるため、学習画像及びアノテーション結果の表示領域を含む表示画像の生成処理、及び表示制御処理を行う。そしてアノテーション処理部121は、表示画像に対してユーザが操作部114を操作することによって入力したアノテーション結果を取得する処理を行う。
メタデータ取得部123は、アノテーション結果の信頼度を決定するためのメタデータを取得する。メタデータは、後述するように画像処理によって取得されてもよいし、タイマー等を用いて作業時間をカウントすることによって取得されてもよいし、操作部114におけるユーザ操作に基づいて取得されてもよい。即ち、メタデータ取得部123における処理は、画像処理、時間に関する情報の取得処理、操作情報の取得処理等、種々の処理を含む。
信頼度決定部125は、メタデータに基づいて、アノテーション結果の信頼度を表す信頼度情報を決定する。信頼度情報は、例えば学習画像におけるアノテーションの難易度と、アノテーションを行うユーザの能力とに基づいて決定される。具体的な処理については後述する。
記憶部130は、処理部120等のワーク領域となるもので、その機能は半導体メモリ、レジスタ、磁気記憶装置などにより実現できる。なお、記憶部130は、データベースサーバ300に記憶される多数の学習画像のうち、アノテーション結果及び信頼度情報を対応付ける対象となる学習画像を記憶してもよい。或いはデータベースサーバ300が省略される構成の場合、記憶部130は、画像収集用内視鏡システム800から送信される多数の学習画像を蓄積可能な記憶装置であってもよい。
なお処理部120は、下記のハードウェアにより構成される。ハードウェアは、デジタル信号を処理する回路及びアナログ信号を処理する回路の少なくとも一方を含むことができる。例えば、ハードウェアは、回路基板に実装された1又は複数の回路装置や、1又は複数の回路素子で構成することができる。1又は複数の回路装置は例えばIC(Integrated Circuit)、FPGA(field-programmable gate array)等である。1又は複数の回路素子は例えば抵抗、キャパシター等である。
また処理部120は、下記のプロセッサにより実現されてもよい。画像処理システム100は、情報を記憶するメモリと、メモリに記憶された情報に基づいて動作するプロセッサと、を含む。ここでのメモリは、記憶部130であってもよいし、異なるメモリであってもよい。情報は、例えばプログラムと各種のデータ等である。プロセッサは、ハードウェアを含む。プロセッサは、CPU(Central Processing Unit)、GPU(Graphics Processing Unit)、DSP(Digital Signal Processor)等、各種のプロセッサを用いることが可能である。メモリは、SRAM(Static Random Access Memory)、DRAM(Dynamic Random Access Memory)などの半導体メモリであってもよいし、レジスタであってもよいし、HDD(Hard Disk Drive)等の磁気記憶装置であってもよいし、光学ディスク装置等の光学式記憶装置であってもよい。例えば、メモリはコンピュータにより読み取り可能な命令を格納しており、当該命令がプロセッサにより実行されることで、処理部120の各部の機能が処理として実現されることになる。処理部120の各部とは、具体的にはアノテーション処理部121と、メタデータ取得部123と、信頼度決定部125である。ここでの命令は、プログラムを構成する命令セットの命令でもよいし、プロセッサのハードウェア回路に対して動作を指示する命令であってもよい。さらに、処理部120の各部の全部または一部をクラウドコンピューティングで実現し、後述する各処理をクラウドコンピューティング上で行うこともできる。
また、本実施形態の処理部120の各部は、プロセッサ上で動作するプログラムのモジュールとして実現されてもよい。例えば、アノテーション処理部121は、表示画像を生成する画像処理モジュール、表示部113を制御する制御モジュール、操作部114に基づく操作情報を取得する操作情報取得モジュール等として実現される。メタデータ取得部123は、画像処理モジュール、作業時間やユーザ操作に関する情報を取得する情報取得モジュール等として実現される。信頼度決定部125は、信頼度情報の決定処理モジュールとして実現される。
また、本実施形態の処理部120の各部が行う処理を実現するプログラムは、例えばコンピュータによって読み取り可能な媒体である情報記憶装置に格納できる。情報記憶装置は、例えば光ディスク、メモリカード、HDD、或いは半導体メモリなどによって実現できる。半導体メモリは例えばROMである。処理部120は、情報記憶装置に格納されるプログラムに基づいて本実施形態の種々の処理を行う。即ち情報記憶装置は、処理部120の各部としてコンピュータを機能させるためのプログラムを記憶する。コンピュータは、入力装置、処理部、記憶部、出力部を備える装置である。具体的には本実施形態に係るプログラムは、図5等を用いて後述する各ステップを、コンピュータに実行させるためのプログラムである。
以上のように、本実施形態の画像処理システム100は、生体を撮像した学習画像に対するアノテーション結果が入力されるインターフェース110と、処理部120を含む。処理部120は、学習画像に対してアノテーションを行う難易度を表す難易度情報を含むメタデータを取得し、メタデータに基づいて、アノテーション結果の信頼度を表す信頼度情報を決定する。そして処理部120は、生体を撮像した推論対象画像に対して深層学習を用いた推論を行う学習済モデルの生成に用いられるデータとして、学習画像、アノテーション結果、及び信頼度情報を対応付けたデータセットを出力する。
生体を撮像した画像とは、病変領域を撮像した画像、注目領域(ROI:Region of Interest)を撮像した画像、所与の細胞を撮像した画像、医療画像、病理画像等、種々の画像を含む。本実施形態における注目領域とは、ユーザにとって観察の優先順位が他の領域よりも相対的に高い領域である。ユーザが診断や治療を行う医者である場合、注目領域は、例えば病変部を写した領域に対応する。ただし、医者が観察したいと欲した対象が泡や残渣であれば、注目領域は、その泡部分や残渣部分を写した領域であってもよい。即ち、ユーザが注目すべき対象は観察目的によって異なるが、その観察に際し、ユーザにとって観察の優先順位が他の領域よりも相対的に高い領域が注目領域となる。
アノテーション結果とは、ユーザが実行するアノテーションによって付与される情報である。学習済モデルが分類処理を行うモデルである場合、アノテーション結果とは分類結果を表すラベル情報である。分類結果とは、例えば病変であるか正常であるかを分類した結果であってもよいし、ポリープの悪性度を所定段階で分類した結果であってもよいし、他の分類を行った結果であってもよい。また学習済モデルが注目領域の位置を検出する検出処理を行うモデルである場合、アノテーション結果とは注目領域の位置を特定可能な情報を含む。例えばアノテーション結果は、検出枠と、当該検出枠に含まれる被写体を特定するラベル情報とを含む。
本実施形態の難易度は、学習画像に対してアノテーションを行う難しさを表す。難易度情報とは、難易度を特定可能な情報である。難易度情報は、例えばアノテーションが難しいほど大きく、簡単なほど小さくなる数値データである。ただし難易度情報は数値データに限定されず、低、中、高といった所定段階のうちのいずれかを特定する情報であってもよい。また難易度情報は、上記数値データ又は段階そのものであってもよいし、それらを特定可能な他の情報であってもよい。例えば本実施形態の難易度情報は、後述する識別度、画質、遮蔽度、作業時間等を特定する情報であってもよいし、それらに基づいて算出される情報であってもよい。
また本実施形態の信頼度は、アノテーション結果の確からしさを表す。信頼度情報とは、信頼度を特定可能な情報である。信頼度情報は、例えばアノテーション結果が確からしいほど大きく、そうでないほど小さくなる数値データである。ただし信頼度情報は、所定段階のいずれかを特定する情報であってもよい。
本実施形態の手法によれば、学習画像自体のアノテーションの難易度を考慮して信頼度を決定することが可能になる。そのため、精度が高いエキスパートデータの取得が難しい生体画像を対象とする場合であっても、アノテーション結果に対して適切な信頼度を対応付けること、及び推論精度の良い学習済モデルを構築することが可能になる。
また本実施形態の手法は、生体を撮像した学習画像に対するアノテーション結果が入力されるインターフェースと、学習画像に対してアノテーションを行う難易度を表す難易度情報を含むメタデータを取得し、取得したメタデータを、アノテーション結果の信頼度を求めるための情報として、学習画像に対応付けて出力する処理部と、を含む画像処理装置に適用できる。学習画像及びアノテーション結果は、生体を撮像した推論対象画像に対して深層学習を用いた推論を行う学習済モデルの生成に用いられる。信頼度は、深層学習における目的関数の重み情報として用いられる。
画像処理装置のインターフェースとは、具体的にはアノテーションインターフェース112である。画像処理装置の処理部とは、具体的にはアノテーション処理部121と、メタデータ取得部123である。即ち、ここでの画像処理装置は図1のアノテーション装置400に対応する。換言すれば、本実施形態の手法はアノテーション装置400に適用できる。アノテーション装置400からアノテーション結果とともにメタデータが出力されることによって、適切な信頼度情報の決定、及び、当該信頼度情報を用いた推論精度の良い学習済モデルの構築が可能になる。
また本実施形態の手法は、インターフェースに適用できる。ここでのインターフェースは、図2のインターフェース110であり、狭義にはアノテーションインターフェース112である。インターフェースは、生体を撮像した学習画像に対するアノテーション結果が入力される入力部を含む。入力部は、例えば操作部114であるが、具体的な態様は種々の変形実施が可能である。インターフェースは、処理部120と接続され、処理部120に、学習画像に対してアノテーションを行う難易度を表す難易度情報を含むメタデータを入力する。処理部120は、メタデータに基づいて、アノテーション結果の信頼度を表す信頼度情報を決定する。また処理部120は、生体を撮像した推論対象画像に対して深層学習を用いた推論を行う学習済モデルの生成に用いられるデータとして、学習画像、アノテーション結果、及び信頼度情報を対応付けたデータセットを出力する。
また、本実施形態の画像処理システム100が行う処理は、画像処理方法として実現されてもよい。本実施形態の画像処理方法は、生体を撮像した学習画像に対するアノテーション結果を取得し、学習画像に対してアノテーションを行う難易度を表す難易度情報を含むメタデータを取得し、メタデータに基づいてアノテーション結果の信頼度を表す信頼度情報を決定し、生体を撮像した推論対象画像に対して深層学習を用いた推論を行う学習済モデルの生成に用いられるデータとして、学習画像、アノテーション結果、及び信頼度情報を対応付けたデータセットを出力する。
2.3 内視鏡システム
図3は、内視鏡システム200の構成例である。内視鏡システム200は、挿入部210と、外部I/F部220と、システム制御装置230と、表示部240と、光源装置250を含む。
挿入部210は、その先端側が体内へ挿入される部分である。挿入部210は、対物光学系211、撮像素子212、アクチュエータ213、照明レンズ214、ライトガイド215、AF(Auto Focus)開始/終了ボタン216を含む。挿入部210は、内視鏡スコープと言い換えてもよい。
ライトガイド215は、光源252からの照明光を、挿入部210の先端まで導光する。照明レンズ214は、ライトガイド215によって導光された照明光を被写体に照射する。対物光学系211は、被写体から反射した反射光を、被写体像として結像する。対物光学系211は、フォーカスレンズを含み、フォーカスレンズの位置に応じて被写体像が結像する位置を変更可能である。アクチュエータ213は、AF制御部236からの指示に基づいて、フォーカスレンズを駆動する。なお、AFは必須ではなく、内視鏡システム200はAF制御部236を含まない構成であってもよい。
撮像素子212は、対物光学系211を経由した被写体からの光を受光する。撮像素子212はモノクロセンサであってもよいし、カラーフィルタを備えた素子であってもよい。カラーフィルタは、広く知られたベイヤフィルタであってもよいし、補色フィルタであってもよいし、他のフィルタであってもよい。補色フィルタとは、シアン、マゼンタ及びイエローの各色フィルタを含むフィルタである。
AF開始/終了ボタン216は、ユーザがAFの開始/終了を操作するための操作インターフェースである。外部I/F部220は、内視鏡システム200に対するユーザからの入力を行うためのインターフェースである。外部I/F部220は、例えばAF制御モードの設定ボタン、AF領域の設定ボタン、画像処理パラメータの調整ボタンなどを含む。
システム制御装置230は、画像処理やシステム全体の制御を行う。システム制御装置230は、A/D変換部231、前処理部232、検出処理部233、後処理部234、システム制御部235、AF制御部236、記憶部237を含む。なお、ここでは推論対象画像に対する処理が注目領域の検出処理である例を想定し、検出処理部233を含むシステム制御装置230について説明する。検出処理部233は、分類処理等の他の処理を行う構成に置き換えが可能である。
A/D変換部231は、撮像素子212から順次出力されるアナログ信号をデジタルの画像に変換し、前処理部232に順次出力する。前処理部232は、A/D変換部231から順次出力される生体画像に対して、各種補正処理を行い、検出処理部233、AF制御部236に順次出力する。補正処理とは、例えばホワイトバランス処理、ノイズ低減処理等を含む。
検出処理部233は、例えば前処理部232から取得した補正処理後の画像を、内視鏡システム200の外部に設けられる推論装置700に送信する処理を行う。内視鏡システム200は不図示の通信部を含み、検出処理部233は、通信部の通信制御を行う。ここでの通信部は、所与のネットワークを介して、生体画像を推論装置700に送信するための通信インターフェースである。また検出処理部233は、通信部の通信制御を行うことによって、推論装置700から検出結果を受信する処理を行う。
或いは、システム制御装置230は、推論装置700を含んでもよい。この場合、検出処理部233は、記憶部237に記憶される学習済モデルの情報に従って動作することによって、推論対象画像である生体画像を対象として、推論処理を行う。学習済モデルがニューラルネットワークである場合、検出処理部233は、入力である推論対象画像に対して、学習によって決定された重みを用いて順方向の演算処理を行う。そして、出力層の出力に基づいて、検出結果を出力する。
後処理部234は、検出処理部233における検出結果に基づく後処理を行い、後処理後の画像を表示部240に出力する。ここでの後処理は、画像における検出対象の強調、検出結果を表す情報の付加等、種々の処理が考えられる。例えば後処理部234は、前処理部232から出力された画像に対して、検出処理部233において検出された検出枠を重畳することによって、表示画像を生成する後処理を行う。
システム制御部235は、撮像素子212、AF開始/終了ボタン216、外部I/F部220、AF制御部236と互いに接続され、各部を制御する。具体的には、システム制御部235は、各種制御信号の入出力を行う。AF制御部236は、前処理部232から順次出力される画像を用いてAF制御を行う。
表示部240は、後処理部234から出力される画像を順次表示する。表示部240は、例えば液晶ディスプレイやELディスプレイ等である。光源装置250は、照明光を発光する光源252を含む。光源252は、キセノン光源であってもよいし、LEDであってもよいし、レーザー光源であってもよい。また光源252は他の光源であってもよく、発光方式は限定されない。
本実施形態の手法は、生体画像である推論対象画像を撮像する撮像部と、深層学習によって学習された学習済モデルに基づいて、推論対象画像に対する推論処理を行う処理部と、を含む内視鏡システム200に適用できる。学習済モデルは、生体を撮像した学習画像と、学習画像に対するアノテーション結果と、学習画像に付与されたメタデータに基づいて決定されたアノテーション結果の信頼度を表す信頼度情報と、を対応付けたデータセットに基づいて学習されている。メタデータは、学習画像に対してアノテーションを行う難易度を表す難易度情報を含む。学習画像及びアノテーション結果は、深層学習における教師データであり、信頼度情報は、深層学習における目的関数の重み情報である。
ここでの撮像部は、例えば上述した挿入部210に含まれる撮像装置であり、具体的には、対物光学系211を介して、被写体からの反射光を受光する撮像素子212である。またここでの処理部は、例えば図3のシステム制御装置230に対応し、狭義には検出処理部233に対応する。学習済モデルは、例えば記憶部237に記憶される。
本実施形態の手法によれば、内視鏡システム200において撮像された生体画像を対象とした推論処理を、精度良く行うことが可能になる。例えば注目領域の検出処理を行う場合、画像内の注目領域の見落としを抑制することや、注目領域以外の領域を誤って注目領域として検出することを抑制可能である。例えば推論対象画像の撮像と、学習済モデルを用いた推論処理を平行して行う場合、検出した注目領域を内視鏡システム200の表示部240に表示することによって、医師による診断や処置を適切にサポートすることが可能になる。ただし、学習済モデルを用いた推論処理はリアルタイムに行われるものに限定されない。例えば内視鏡システム200によって撮像された画像列をデータベースに一旦蓄積し、診断等の終了後に、当該画像列を対象として学習済モデルを用いた推論処理が実行されてもよい。
3.処理の詳細
次に本実施形態の画像処理システム100を含むシステムにおいて実行される処理の流れを説明する。まず全体処理について説明した後、各処理について詳細に説明する。
3.1 全体処理
図4は、画像処理システム100を含むシステムにおいて実行される処理を説明するフローチャートである。まずステップS101において、画像処理システム100は、生体画像を学習画像として取得する。ステップS101の処理は、例えば画像取得インターフェース111によって、データベースサーバ300に蓄積された生体画像を取得する処理である。
ステップS102において、画像処理システム100は、学習画像に対してユーザが付与したアノテーション結果と、当該アノテーション結果の信頼度を決定するためのメタデータを取得する。ステップS102における処理の詳細については、図5~図8を用いて後述する。
ステップS103において、画像処理システム100は、メタデータに基づいて信頼度情報を決定する。ステップS103における処理の詳細については、図9(A)~図10を用いて後述する。画像処理システム100は、学習画像と、アノテーション結果と、信頼度情報を対応付けて出力する。
ステップS104において、学習装置600は、画像処理システム100によって出力された学習画像、アノテーション結果及び信頼度情報に基づいて学習処理を行う。学習装置600は、学習結果である学習済モデルを出力する。
ステップS105において、推論装置700は、推論対象画像を取得する。ステップS105の処理は、内視鏡システム200において撮像された生体画像をリアルタイムに取得する処理であってもよいし、あらかじめ推論対象データベースに蓄積された生体画像を読み出す処理であってもよい。
ステップS106において、推論装置700は、推論対象画像に対する推論処理を行う。ステップS106の処理は、具体的には推論対象画像を学習済モデルに入力することによって、推論対象画像の分類結果、或いは注目領域の検出結果等を演算する処理である。
ステップS107において、推論装置700は、推論結果を出力する。ステップS107の処理は、内視鏡システム200の表示部240に推論結果を表す画像を表示する処理であってもよいし、推論結果をデータベース等に蓄積する処理であってもよい。
なお、アノテーションは複数のユーザによって行われることが想定される。その場合、ステップS102の処理は、ユーザごとに実行され、且つ、その実行タイミングは任意である。例えば、データベースサーバ300にある程度の枚数の学習画像が蓄積された場合に、各ユーザにアノテーションの実行依頼が行われ、各ユーザは自身の都合に合わせたタイミングでアノテーションを実行する。
また本実施形態における信頼度情報は、複数ユーザ間の関係を考慮することなく、単一ユーザのアノテーション結果及びメタデータに基づいて決定することが可能である。そのためステップS103の処理は、ステップS102の処理の後、即座に実行することも可能である。ただし図10を用いて後述するように、複数ユーザによって付与されたアノテーション結果の信頼度情報に基づいて、アノテーション結果に対応付けられる信頼度情報が更新されてもよい。この場合、ステップS103の処理は、メタデータ付きのアノテーション結果が所定数蓄積されたことを条件に実行されてもよい。
またステップS104の学習処理は、学習画像、アノテーション結果及び信頼度情報が対応付けられたデータセットが所定数以上取得された場合に実行される。ただし、継続的に学習画像の取得及びアノテーションが行われる場合、上記データセットは時間経過とともに増加していく。この場合、ステップS104の学習処理が繰り返し実行されてもよい。例えば、すでに作成された学習済モデルを初期値として、新規追加されたデータセットを用いた学習処理を行うことによって、当該学習済モデルを更新することが可能である。
ステップS105~S107については上述したとおりであり、学習済モデルを用いた推論処理は、内視鏡システム200を用いた診断中に行われてもよいし、診断終了後に行われてもよい。また学習済モデルが随時更新される場合、推論装置700は最新の学習済モデルを用いた推論処理を行ってもよいし、過去のバージョンの学習済モデルを用いた推論処理を行ってもよい。換言すれば、推論装置700が学習装置600において生成された学習済モデルを取得するタイミングは任意である。
以上のように、図4に示したフローチャートは画像処理システム100を含むシステムにおける処理の一例であり、具体的な処理の流れは種々の変形実施が可能である。また本実施形態の手法は、図4に不図示の他の処理を追加可能である。
3.2 アノテーション結果及びメタデータの取得
図5は、アノテーション結果及びメタデータを取得する処理を説明するフローチャートである。この処理が開始されると、ステップS201において、画像処理システム100は、表示画像を生成し、ステップS202において当該表示画像の表示制御を行う。具体的には、アノテーション処理部121は、画像取得インターフェース111によって取得した学習画像を含むアノテーション用の表示画像を生成し、当該表示画像を表示部113に表示させる制御を行う。
図6は、表示画像の例である。図6に示すように、表示画像は、A1~A5に示す各表示領域を含む。A1は、アノテーションの対象となる学習画像に関する情報の表示領域である。A1には、例えば学習画像を特定する情報が表示される。或いはA1には、例えば撮像対象となった患者の情報や、撮像日時の情報、撮像者の情報等が表示される。患者の情報とは、例えば年齢、性別等の情報を含む。
A2は、アノテーションが行われる学習画像を表示する領域である。A3は、アノテーションを行うユーザの情報を表示する領域である。なおユーザの情報は、図6に示す画面においてユーザ自身が入力してもよいし、アノテーション装置400へのログイン情報等を用いて取得されていてもよい。
A4は、ユーザがアノテーション結果を入力するための領域である。A4は、例えばテキストボックス等の入力領域であってもよい。例えばユーザは、マウス等のポインティングデバイスを用いてA4に示す表示領域の選択操作を行った後、キーボード等を用いてアノテーション結果を表す文字列を入力する。図6においては、画像の分類タスク用の学習済モデルを生成するためのアノテーションを想定しており、A4に入力されるアノテーション結果とは画像の分類結果を表す。分類結果は、例えば「正常」「病変」等のラベル情報である。また分類結果は、病変の種類や悪性度に関するラベル情報であってもよい。またA4に示す領域は、ラジオボタンやセレクトボックス等の入力フォームが用いられてもよい。
A5は、アノテーション結果に対するユーザの自己評価を表す自己評価情報を入力するための領域である。自己評価情報は、A4に入力されるアノテーション結果が、ユーザにとってどの程度確からしいと思えるかを表す情報である。自己評価情報は、低、中、高等の段階で表現される情報であってもよいし、数値データであってもよい。A5は、A4と同様に、テキストボックス、ラジオボタン、セレクトボックス等の種々の入力フォームによって実現が可能である。
図7は、表示画像の他の例である。図7に示すように、表示画像は、B1~B3に示す各表示領域を含む。B1は、図6のA2と同様に学習画像を表示する領域である。ただし、図7においては、注目領域を検出する検出タスク用の学習済モデルを生成するためのアノテーションを想定している。アノテーション結果は、画像中の注目領域の位置を特定する情報を含む。そのため、B1はユーザにより注目領域の位置を特定するための操作を受け付け可能な領域である。例えばユーザは、ポインティングデバイスを用いてB4に示すポインタを操作することによって、注目領域を囲む領域を指定する。ユーザ入力は、例えば矩形状の枠領域の1つの端点をクリックした後、対角線上の端点までドラッグする操作により実現可能であるが、他の操作により行われてもよい。たとえば、領域指定を矩形に限定せず、不定形の境界線で注目領域を取り囲んでもよいし、注目領域を塗りつぶしてもよい。
B2は、ユーザにアノテーションを促すテキストを表示する領域である。B3は、図6のA5と同様に、アノテーション結果に対するユーザの自己評価を入力するための領域である。図7のB3に示すように、自己評価の高低を濃淡によって表現したヒートマップを用いて自己評価が入力されてもよい。図7の例であれば、ユーザは4つの矩形領域のうち、いずれか1つをポインティングデバイス等を用いて選択することによって、自己評価を入力できる。B3のように自己評価をユーザに示さず、作業時間に応じて自動的に設定してもよい。
図7では省略されているが、図6のA1、A3に相当する表示領域が設けられてもよい。また図6、図7において、一部の表示領域を省略したり、不図示の表示領域が追加されてもよく、表示画像は種々の変形実施が可能である。例えば後述するように、画素単位で被写体を分類する領域分割(セグメンテーション)タスク向けの学習済モデルを生成するためのアノテーションが行われてもよい。この場合の操作部114は、注目領域が撮像された領域を塗りつぶすユーザ操作を受け付ける。アノテーション処理部121は、当該ユーザ操作に基づいて、アノテーション結果を取得する。アノテーション結果は、例えばユーザが指定した注目領域の画素値が第1の値となり、他の領域の画素値が第2の値となるマスクデータである。
図5に戻って説明を続ける。表示画像の表示を開始したら、ステップS203において、画像処理システム100のメタデータ取得部123は、作業時間のカウントを開始する。ここでの作業時間はメタデータの1つであり、ユーザが対象の学習画像にアノテーションを付すために要した時間を表す。
ステップS204において、画像処理システム100は、ユーザによるアノテーション入力を受け付けたか否かを判定する。例えば図6のA4において分類結果であるラベル情報が入力され且つ、A5において自己評価情報が入力されたか否かの判定である。或いは、表示画像が不図示の決定ボタンを含んでもよい。この場合、画像処理システム100は、ラベル情報及び自己評価情報が入力済であり、且つ決定ボタンが押下された場合に、アノテーション入力を受け付けたと判定してもよい。ステップS204においてNoと判定された場合、画像処理システム100は、作業時間をカウントしつつ、ユーザによるアノテーション入力を待機する。
ステップS204においてYesと判定された場合、ステップS205において、アノテーション処理部121は、表示画像を用いて入力されたアノテーション結果を取得する。またステップS205において、メタデータ取得部123は、表示画像を用いて入力された自己評価を表す自己評価情報をメタデータとして取得する。即ち、アノテーションを入力するためのインターフェースを用いて、メタデータの一部が入力されてもよい。
ステップS206において、メタデータ取得部123は、作業時間を表す作業時間情報を、難易度を表すメタデータとして取得する。例えばメタデータ取得部123は、ステップS204においてYesと判定されたタイミングにおいて作業時間のカウントをストップし、当該タイミングにおけるカウント結果を作業時間情報として取得する。或いはメタデータ取得部123は、ステップS202の表示制御の開始タイミングを始点とし、ステップS204においてYesと判定されたタイミングを終点とする期間を特定する情報を作業時間情報として取得してもよい。
ステップS207において、メタデータ取得部123は、学習画像における注目領域の識別度を表す識別度情報、学習画像の画質を表す画質情報、学習画像における遮蔽物の撮像状態を表す遮蔽度情報を、難易度を表すメタデータとして取得する。
注目領域の識別度とは、注目領域と他の領域との識別がどの程度容易であるかを表す情報である。識別度が低いほど、難易度が高いと判定される。例えばアノテーション結果として注目領域の位置を表す検出枠が入力される例において、メタデータ取得部123は、当該検出枠の識別度を取得する。識別度情報は、例えば検出枠内部の画素値と検出枠外部の画素値の差を表す情報である。ここでの画素値は、例えば複数の画素における画素値のヒストグラム等である。或いは識別度情報は、検出枠の内部と外部の間の明度や色相の差を表す情報であってもよいし、内部と外部の境界を表すエッジが明瞭であるか否かを表す情報であってもよい。
学習画像の画質とは、画像の明るさ、コントラスト、鮮鋭度、ノイズ等によって表される画像の状態である。明るさ、コントラスト、鮮鋭度についてはその値が大きいほど画質が高く、ノイズについてはノイズ量が少ないほど画質が高い。画質が低いほど、難易度が高いと判定される。画質情報は、明るさ、コントラスト、鮮鋭度、ノイズのいずれか1つを特定する情報であってもよいし、これらの2以上の組み合わせに相当する情報であってもよい。画質情報は学習画像全体から演算されてもよいし、一部から算出されてもよい。ここでの一部とは、注目領域が撮像される蓋然性が高いと考えられる領域であり、例えば学習画像の中央領域である。
学習画像における遮蔽物とは、注目領域と内視鏡システム200の撮像部との間に存在し、注目領域の観察を妨げるおそれのある物体である。遮蔽度とは遮蔽物によって注目領域が遮蔽される度合いを表し、遮蔽度が高いほど難易度が高いと判定される。遮蔽物は、例えば泡、炎症、残渣、処置具等が考えられる。泡、残渣、処置具等は、生体とは色味が異なるため、画像処理によって検出することが可能である。また炎症は、発赤等の特徴を有するため、画像処理によって検出することが可能である。メタデータ取得部123は、学習画像から遮蔽物を検出する処理を行い、検出結果に基づいて遮蔽度情報をメタデータとして算出する。遮蔽度情報は、例えば遮蔽物の有無によって判定されてもよいし、学習画像の面積に対する遮蔽物の面積の割合に基づいて判定されてもよい。またアノテーション結果として注目領域の位置が入力される場合、遮蔽物と注目領域の距離や重複度合いに応じて遮蔽度情報が決定されてもよい。注目領域が遮蔽物によって遮蔽される蓋然性が高いほど、遮蔽度情報によって表される遮蔽度は高く設定される。
ステップS208において、メタデータ取得部123は、アノテーションを行ったユーザの能力を表すメタデータとして、当該ユーザの疲労度を表す疲労度情報と、熟練度を表す熟練度情報を取得する。
疲労度情報は、アノテーション実行時におけるユーザの疲労度合いを表す情報である。メタデータ取得部123は、例えばユーザが複数の学習画像を対象として連続してアノテーションを行った場合の累計作業時間に基づいて疲労度情報を算出する。累計作業時間は、各学習画像のアノテーションに要した作業時間の合計である。例えばメタデータ取得部123は、所与の学習画像へのアノテーションが完了してから、次の学習画像が表示されるまでの間隔が所定時間未満の場合に、アノテーションが連続すると判定する。或いはメタデータ取得部123は、アノテーション装置400にユーザがログインしてからログアウトするまでに行われたアノテーションを連続するアノテーションと判定してもよい。
また疲労度情報は他の情報から求められてもよい。例えばメタデータ取得部123は、撮像装置やユーザによって装着される種々のセンサーから、ユーザの生体活動を表す生体情報を取得し、当該生体情報に基づいて疲労度情報を求めてもよい。生体情報は、例えばユーザの瞼の開き度合い、発汗、心拍数、脳波等の情報である。或いはメタデータ取得部123は、ユーザの睡眠時間に関する情報に基づいて疲労度情報を算出してもよい。睡眠時間はユーザによって入力されてもよいし、就寝中に計測された心拍数や脳波に基づいて自動的に演算されてもよい。
熟練度情報は、ユーザがアノテーションにどれだけ熟練しているかを表す情報である。メタデータ取得部123は、ユーザが内視鏡システムを用いた診断、観察等を実行した回数である内視鏡使用回数に基づいて熟練度情報を求めてもよいし、ユーザのアノテーション実行回数に基づいて熟練度情報を求めてもよいし、この両方を用いて熟練度情報を求めてもよい。アノテーション実行回数とは、アノテーションを行った学習画像の枚数であってもよいし、上述した連続したアノテーション全体を1回のアノテーション実行回数とカウントした結果であってもよい。内視鏡使用回数やアノテーション実行回数は、ユーザによって入力されてもよい。ユーザ入力は、例えば図6のA3に示す表示領域を用いて行われる。或いはユーザと、当該ユーザの内視鏡使用回数、アノテーション実行回数を対応付けたデータベースを用意しておき、メタデータ取得部123は当該データベースを参照することによって熟練度情報を求めるための情報を取得してもよい。
なお内視鏡使用回数は、アノテーション対象となる学習画像と同様の被写体を対象とした診断等の実行回数であることが望ましい。例えば、下部内視鏡を用いて撮像された大腸画像に対してポリープを特定するためのアノテーションを付すケースであれば、下部内視鏡を用いた診断等の実行回数に基づいて熟練度情報が算出される。同様に、大腸画像にアノテーションを付すケースにおける熟練度情報は、大腸画像を対象としたアノテーション実行回数に基づいて算出されることが望ましい。
図5に示したように、例えばステップS206~S208の処理は並列に実行される。また、ステップS206~S208の処理は、全てが実行されるものに限定されず、一部の処理が省略されてもよい。
以上のように、本実施形態の処理部120は、学習画像に対する画像処理を行うことによって、難易度情報を取得する。エキスパートであっても画像に応じてアノテーションが容易であるか困難であるかが異なるが、特許文献1等の従来手法ではその点が考慮されない。本実施形態の手法によれば、学習画像の特性に基づいて、アノテーション結果の信頼度を求めるためのメタデータを取得できる。そのため、画像ごとにアノテーション結果の信頼性を判断することが可能になる。
画像処理に基づいて取得される難易度情報は、学習画像におけるアノテーション対象の識別度を表す情報、学習画像の画質を表す情報、学習画像におけるアノテーション対象の遮蔽度を表す情報、の少なくとも1つを含む。
識別度、画質、遮蔽度についてはそれぞれ上述したとおりであり、各情報は種々の画像処理に基づいて求めることができる。このようにすれば、アノテーション対象と他の被写体との識別が容易であるか、画像における被写体の視認性が高いか、アノテーション対象が遮蔽物に遮蔽されていないか、といった観点から難易度を判定することが可能になる。なお、アノテーション対象を撮像した領域が注目領域であり、上述したとおり具体的なアノテーション対象は種々の変形実施が可能である。例えば病変をアノテーション対象とする例において泡や残渣が遮蔽物であるとの説明をしたが、泡や残渣がアノテーション対象となってもよい。
また難易度情報は、学習画像に対してアノテーション結果が付与されるまでの時間を表す作業時間情報を含んでもよい。作業時間情報は、作業時間そのものであってもよいし、作業時間を特定可能な他の情報であってもよい。例えば、作業時間情報は、作業開始タイミングを特定する時刻情報と、アノテーションの完了タイミングを特定する時刻情報との組み合わせであってもよい。
このようにすれば、ユーザがアノテーションに要した時間に基づいて、アノテーションを行う難易度を求めること可能になる。作業時間が短い場合に難易度が低いと判定され、作業時間が長い場合に難易度が高いと判定される。
以上のように、難易度情報は識別度、画質、遮蔽度、作業時間等の種々の情報を含むことが可能である。難易度情報は、これらの情報のうちのいずれか1つであってもよいし、2以上の組み合わせであってもよい。
難易度情報のうち、作業時間情報は、ユーザによるアノテーションの実行状況を考慮した上で決定される必要がある。具体的には、メタデータ取得部123は、アノテーションの開始及び終了のタイミングを特定することによって作業時間情報を取得する。
画像処理によって求められる難易度情報は、種々のタイミングにおいて演算が可能であり、図5のステップS207に限定されない。画質情報は、学習画像が取得された後であれば任意のタイミングにおいて演算が可能である。例えば、学習画像の取得後、アノテーションの実行前に画質情報が演算されてもよい。また遮蔽度情報が遮蔽物の有無、サイズ等、注目領域の位置を考慮しない情報である場合、当該遮蔽度情報も学習画像が取得された後であれば任意のタイミングにおいて演算が可能である。
一方、識別度情報については、注目領域とそれ以外の領域とを特定する必要があり、ユーザによるアノテーション結果の取得後、例えば図5のステップS204でYesと判定された後に演算されることが望ましい。また遮蔽物と注目領域の位置関係に基づいて遮蔽度情報を算出する場合、当該遮蔽度情報もユーザのアノテーション結果の取得後に演算されることが望ましい。ただし、注目領域の位置を例えば画像中央部と仮定して処理を行うことも可能である。この場合、メタデータ取得部123は、識別度情報や遮蔽度情報をアノテーション実行前に演算してもよい。
また本実施形態のメタデータは、インターフェース110を用いてアノテーション結果を入力するユーザの能力を表す能力情報を含んでもよい。後述するように、処理部120は、難易度情報と能力情報に基づいて、信頼度情報を決定する。
このようにすれば、学習画像側に起因する指標である難易度情報と、ユーザ側に起因する指標である能力情報の両方を考慮した信頼度算出が可能になる。そのため、同じ難易度の学習画像であっても、ユーザの能力に応じた適切な信頼度を求めることが可能になる。
本実施形態の能力情報は、ユーザの疲労度を表す疲労度情報を含んでもよい。疲労度情報は上述したとおり、種々の情報に基づいて求めることが可能である。
上述したように、ユーザは、ある程度まとまった枚数の学習画像を対象としてアノテーションを実行することが想定される。そのため、アノテーションを継続することによって疲労が蓄積し、アノテーションの精度が低下していくと考えられる。本実施形態の手法によれば、同じユーザであっても疲労度合いに応じてアノテーション結果の信頼度を異ならせることが可能になる。また本実施形態の疲労度情報によって表される疲労度は、一連のアノテーションを継続することによる疲労度合いに限定されない。例えば生体情報を用いて疲労度情報を演算することによって、ユーザの実際の生体活動の状態を考慮した疲労度算出が可能になる。例えば、ユーザが睡眠不足や体調不良である場合、或いは一日の勤務の最後にアノテーションを行う場合等には、一連のアノテーションの開始時であってもすでに疲労が蓄積されていることが考えられる。生体情報を用いることによって、アノテーションに起因しない疲労度合いを考慮することが可能になる。
また能力情報は、ユーザの熟練度を表す熟練度情報を含んでもよい。このようにすれば、ユーザ本来の熟練度と、疲労による能力の低下との両方を考慮した能力情報の演算が可能になる。即ち、単にエキスパートであるか否かのみを考慮する従来手法に比べて、ユーザのアノテーション能力を精度よく評価することが可能になる。
また画像処理システム100のインターフェース110は、アノテーション結果を入力したユーザによる自己評価を表す自己評価情報をメタデータとして受け付けてもよい。処理部120は、自己評価情報を含むメタデータに基づいて、信頼度情報を決定する。
ここでのインターフェース110は、例えばアノテーションインターフェース112である。即ち、アノテーション結果の受付と、メタデータである自己評価情報の受付を同じインターフェースで実現することが可能である。ただし、アノテーションインターフェース112とは別に、自己評価情報受け付け用のインターフェースが設けられてもよい。
上述したように、難易度情報や能力情報は、画像処理システム100において演算、取得が可能であり、ユーザが直接的にメタデータの入力を行うことが必須とならないという利点がある。一方、自己評価情報は、ユーザ自身の考えが直接的に反映された情報である。そのため、自己評価情報を用いることによって、難易度情報や能力情報とは異なる観点の情報を用いて信頼度を算出することが可能になる。
またインターフェース110は、学習画像を含む表示画像を表示する表示部113を含む。処理部120は、表示画像において、メタデータを表示する処理を行ってもよい。ここで表示されるメタデータとは、例えば図6のA5及び図7のB3に示す自己評価情報である。自己評価情報はユーザによって入力が行われる必要がある。学習画像を表示する表示画像において自己評価情報の入力も可能とすることによってユーザの利便性向上が可能である。ただし、アノテーション用の表示画像を用いて表示されるメタデータは、自己評価情報に限定されない。
図8は、アノテーションを行うための表示画像の他の例である。図8に示すように、表示画像は、C1~C6に示す各表示領域を含む。C1~C4は、図6のA1~A4と同様であり、それぞれ学習画像に関する情報、学習画像、ユーザの情報、アノテーション結果を入力するための領域である。
C5は、メタデータ取得部123によって取得された難易度情報を表示する表示画像である。なお作業時間情報についてはアノテーションが完了するまで不明であるため、ここでの難易度情報は例えば画質に基づいて求められる情報である。ただし表示画像は、カウント途中の作業時間情報を表示する領域を含んでもよい。
C6は、メタデータ取得部123によって取得された疲労度情報を表示する表示画像である。ここでの疲労度情報は、例えば生体情報に基づいて求められる情報であってもよいし、累計作業時間に基づいて求められる情報であってもよい。累計作業時間は、1つ前の学習画像に対するアノテーションまでの作業時間の合計であってもよいし、当該合計に対し、カウント途中の作業時間を加算した値であってもよい。またここでは能力情報として疲労度情報を例示したが、表示画像は熟練度情報を表示対象として含んでもよいし、熟練度情報と疲労度情報の両方を含んでもよい。
このようにすれば、バックグラウンドで取得可能な難易度情報や能力情報を、ユーザに提示することが可能になる。またこれらのメタデータを表示することによって、学習画像の難易度又はユーザ能力の少なくとも一方に起因して、アノテーションを誤りやすい状況にあることをユーザに報知することも可能である。これにより、不適切なアノテーション結果が付与されることを抑制できる。
3.3 信頼度の算出
次に、信頼度決定部125における信頼度決定処理について説明する。信頼度決定部125は、上述したメタデータに基づいて、アノテーション結果の信頼度を表す信頼度情報を求める。
メタデータは、例えば難易度情報と能力情報を含む。まず説明を簡略化するために、難易度情報が作業時間情報であり、能力情報が熟練度情報であり、当該熟練度情報がアノテーション回数に基づいて求められる例について説明する。
図9(A)、図9(B)は、アノテーション回数に基づいて熟練度を算出する関数を説明する図である。本実施形態においては、あらかじめ複数のユーザによるアノテーション回数の平均、分散、標準偏差等が算出されている。そして信頼度決定部125は、メタデータとして取得されたアノテーション回数に基づいて、平均アノテーション回数からの偏差を算出する。図9(A)、図9(B)における横軸は、平均アノテーション回数からの偏差を表し、縦軸は熟練度を表す。図9(A)に示すように、信頼度決定部125は、シグモイド関数を用いて熟練度を算出してもよい。つまり、アノテーション回数が平均アノテーション回数に比べ多いほど熟練度が高くなり、回数が少ないほど熟練度が低くなる。また信頼度決定部125は、図9(B)に示すようにステップ関数を用いて熟練度を算出してもよい。この場合、アノテーション回数が一定数を超えない場合、熟練度を低く設定することが可能である。
難易度情報についても同様であり、あらかじめ複数のユーザによるアノテーション作業時間の平均、分散、標準偏差等が算出されている。そして信頼度決定部125は、メタデータとして取得された作業時間情報に基づいて、平均作業時間からの偏差を算出する。平均作業時間からの偏差から難易度を求める関数も例えばシグモイド関数を利用可能である。即ち、作業時間が平均作業時間よりも長いほど難易度が高くなり、作業時間が短いほど難易度が低くなる。また作業時間から難易度を求める関数として、ステップ関数等の他の関数が用いられてもよい。
信頼度決定部125は、例えば下式(1)に基づいて信頼度を算出する。f1は能力を変数とする関数であって、0以上1以下の単調増加関数である。ここでの単調増加とは、広義の単調増加であり、所与の値xにおいてf1’(x)=0となることは許容される。f1’はf1の微分を表す。f2は難易度を変数とする関数であって、0以上1以下の単調減少関数である。aとbは、例えばa+b=1を満たす正の数である。
信頼度=a×f1(能力)+b×f2(難易度)…(1)
図9(A)、図9(B)を用いて上述したように、能力及び難易度が0から1に正規化された値である場合、例えばf1(x)=xであり、f2(x)=1-xである。或いは、難易度を0から1で正規化し、且つ、難易度が高いほど値が小さくなるように設定した場合、f2についてもf2(x)=xを用いることが可能である。この場合、信頼度は0以上1以下の値となり、能力が高いほど、また、難易度が低いほど信頼度の値は大きくなる。例えばa=b=1/2であるが、係数a、bの値は種々の変形実施が可能である。
或いは信頼度決定部125は、下式(2)に基づいて信頼度を算出してもよい。下式(2)におけるf3は能力を変数とする関数であり、例えばf3は値が0以上1以下となる単調増加関数である。f4は難易度を変数とする関数であり、例えば値が1以上となる単調増加関数である。この場合も、信頼度は0以上1以下の値となり、能力が高いほど、また、難易度が低いほど信頼度の値は大きくなる。
信頼度=f3(能力)/f4(難易度) …(2)
ただし信頼度を求める式や、信頼度の取り得る値の範囲は上式(1)や(2)に限定されず、種々の変形実施が可能である。広義には、信頼度決定部125は、下式(3)に基づいて信頼度を算出してもよい。下式(3)におけるf0は、能力及び難易度を変数とする多変数関数である。例えばf0は、能力に関する偏微分が0以上、且つ、難易度に関する偏微分が0以下となる任意の関数である。
信頼度=f0(能力,難易度) …(3)
またメタデータは、自己評価情報を含んでもよい。この場合、信頼度決定部125は、例えば下式(4)を用いることによって信頼度を算出してもよいし、下式(5)を用いることによって信頼度を算出してもよい。例えば、下式(4)のf5(自己評価)は、0以上1以下となる単調増加関数である。自己評価が0から1に正規化される場合、例えばf5=xである。cは、例えばa+b+c=1を満たす正の数である。また下式(5)のf6(自己評価)は、0以上1以下となる単調増加関数である。換言すれば、上式(3)は、下式(6)のように拡張可能である。
信頼度=a×f1(能力)+b×f2(難易度)+c×f5(自己評価)…(4)
信頼度={f3(能力)×f6(自己評価)}/f4(難易度) …(5)
信頼度=f0(能力,難易度,自己評価) …(6)
また上述したように、難易度情報が識別度、画質、遮蔽度、作業時間といった複数の情報を含んでもよい。信頼度決定部125は、識別度、画質及び遮蔽度に基づいて標準作業時間を特定し、当該標準作業時間と作業時間の比較処理に基づいて難易度を算出してもよい。信頼度決定部125は、作業時間が標準作業時間よりも長いほど難易度を高く設定し、作業時間が標準作業時間よりも短いほど難易度を低く設定する。また、難易度が識別度、画質、遮蔽度、作業時間のそれぞれを変数とする関数f7によって、下式(7)によって求められてもよい。f7は、識別度が低いほど、画質が悪いほど、遮蔽度が高いほど、作業時間が長いほど、値が大きくなる関数である。換言すれば、上式(6)を下式(8)のように拡張可能である。さらに、画質を画像の明るさ、コントラスト、鮮鋭度、ノイズのそれぞれを変数とする関数によって求められる情報と考えてもよい。
難易度=f7(識別度,画質,遮蔽度,作業時間)…(7)
信頼度=f0(能力,識別度,画質,遮蔽度,作業時間,自己評価)…(8)
同様に、能力情報は熟練度情報と疲労度情報を含んでもよい。能力情報は、例えば熟練度情報と疲労度情報のそれぞれを変数とする関数f8によって、下式(9)によって求められてもよい。f8は、熟練度が高いほど、疲労度が低いほど、値が大きくなる関数である。換言すれば、上式(6)を下式(10)のように拡張可能である。また、上式(8)と下式(10)を組み合わせてもよい。この場合、信頼度は、熟練度、疲労度、識別度、画質、遮蔽度、作業時間、及び自己評価の関数となる。
能力=f8(熟練度,疲労度)…(9)
信頼度=f0(熟練度,疲労度,難易度,自己評価)…(10)
図10は、信頼度決定処理を説明するフローチャートである。この処理が開始されると、ステップS301において、信頼度決定部125は、上述したように各学習画像に対応付けられたメタデータに基づいて、当該学習画像に付与されたアノテーション結果の信頼度を算出する。本実施形態の手法は、メタデータに基づいて信頼度を算出可能であり、複数ユーザ間の比較は必須とならない。
本実施形態における学習画像である生体画像は、上述したようにエキスパートであってもアノテーション結果がばらつく。そのため、1つの学習画像に対して複数のユーザによるアノテーション結果が存在する場合、学習精度の向上に寄与するアノテーション結果と、学習精度をかえって低下させるアノテーション結果が混在する場合がある。本実施形態の手法によれば、ステップS301において、前者の信頼度が高く、後者の信頼度が低く算出されるため、すべての学習画像及びアノテーション結果を学習処理に用いることは妨げられない。しかし1枚の学習画像に複数のユーザによるアノテーション結果が存在する場合、当該学習画像に付与されるアノテーション結果を統合するとともに、信頼度を更新することによって統合後のアノテーション結果に対する信頼度を決定してもよい。このようにすれば、1つの学習画像に対してより適切なアノテーション結果と信頼度を付与できるため、各アノテーション結果をそのまま学習に用いる場合に比べて推論精度の高い学習済モデルの構築が可能になる。
ステップS302以降は、アノテーション結果の統合、及び信頼度の更新処理に対応する。まずステップS302において、信頼度決定部125は、1枚の学習画像に複数のユーザによるアノテーション結果が存在するか否かを判断する。
複数のユーザによるアノテーション結果が存在している場合(ステップS302でYes)、信頼度決定部125は、ステップS303において、複数のアノテーション結果が一致しているか否か判断する。アノテーション結果が学習画像の分類結果を表す場合、ステップS303の処理は分類結果が全て一致するか否かの判定である。
複数のアノテーション結果が一致する場合(ステップS303でYes)、ステップS304において、信頼度決定部125は、複数のユーザによるアノテーション結果の信頼度の平均値を信頼度として採用する。なおステップS304において、信頼度決定部125は複数のユーザによるアノテーション結果の信頼度の最大値を信頼度として採用してもよい。いずれにせよ、1つの学習画像について、1つのアノテーション結果と、1つの信頼度を特定することが可能である。
複数のアノテーション結果が一致しない場合(ステップS303でNo)、ステップS305において、信頼度決定部125は、多数決原理によって新しいアノテーション結果を決定する。具体的には信頼度決定部125は、対象となる学習画像に付与された複数のアノテーション結果を対象として、分類結果ごとにその数をカウントする処理を行う。例えば分類結果を表すラベルとしてラベルA、ラベルBが存在する場合、ラベルAの数とラベルBの数をカウントする。そして、カウント数が最大となる分類結果を特定するラベルを、アノテーション結果として採用する。
そしてステップS306において、信頼度決定部125は、信頼度の更新処理を行う。例えばステップS305においてラベルAが選択された場合、ラベルAと予測したユーザの信頼度を平均し、平均結果からそれ以外のラベルと予測したユーザの信頼度に基づく値を減算することによって、更新後の信頼度を求める。具体的には、信頼度決定部125は、下式(11)によって信頼度を更新する。下式(11)において、Conf_newは更新後の信頼度を表す。Conf_truthは、ラベルAと予測したユーザの信頼度の平均値である。ΣConf_otherは、ラベルA以外と予測したユーザの信頼度の合計値であり、nは対象となる学習画像にアノテーションを行った全ユーザ数を表す。このようにアノテーション結果がばらついた場合に、信頼度を低下させる処理が行われる。
Figure 0007467595000001
ステップS304の処理後、又はステップS306の処理後、ステップS307において、信頼度決定部125は、算出された信頼度によってアノテーション結果の信頼度を更新する。一方、学習画像に1名のユーザによるアノテーション結果のみ存在する場合(ステップS302でNo)、信頼度は更新されず、ステップS301において算出された信頼度が採用される。
以上のように所与の学習画像に対して、複数のユーザによって入力された第1~第N(Nは2以上の整数)のアノテーション結果が対応付けられている場合に、まず処理部120は、第1~第Nのアノテーション結果のそれぞれに付与されたメタデータに基づいて、第1~第Nの信頼度情報を決定する(ステップS301)。その後、第1~第Nのアノテーション結果に基づいて、学習画像に対応付けるアノテーション結果を決定し(ステップS303、S305)、第1~第Nの信頼度情報に基づいて、決定されたアノテーション結果の信頼度情報を決定する(ステップS304、S306)。
このようにすれば、1枚の学習画像に対して複数のユーザによるアノテーション結果が存在する場合であっても、学習画像に1対1で対応したアノテーション結果及び信頼度を決定することが可能になる。
また処理部120は、信頼度情報によって表される信頼度が所与の基準値よりも低い場合、アノテーション結果の再入力を求める処理を行ってもよい。アノテーション結果の再入力を求める処理は、ステップS301において算出される個別の信頼度に基づいて行われてもよいし、ステップS307における更新後の信頼度に基づいて行われてもよい。
ステップS301の信頼度は、ユーザによるアノテーションの完了後、即座に行うことも可能である。よって処理部120は、ユーザによるアノテーション入力の完了後、当該ユーザがアノテーション装置400の操作を継続している間に、再度、図6等の表示画像を表示することによってアノテーション結果の再入力を求めてもよい。或いは、アノテーションと信頼度決定が異なるタイミングにおいて実行される場合、アノテーション結果の再入力は、例えば電子メール等を用いて行われてもよい。この場合、アノテーション結果の再入力を求める処理とは、不図示のメールサーバに対してメール送信を指示する処理である。
ステップS307の信頼度については、複数ユーザによるアノテーション結果を用いる必要があるため、アノテーションと信頼度決定が異なるタイミングにおいて実行されることが想定される。よってアノテーション結果の再入力を求める処理は、メール送信を指示する処理等によって実現される。
3.4 信頼度を用いた学習
まず一般的な機械学習の概要について説明する。以下では、ニューラルネットワークを用いた機械学習について説明する。即ち、以下で説明する注目領域検出器及び環境分類器は、例えばニューラルネットワークを用いた学習済モデルである。ただし、本実施形態の手法はこれに限定されない。本実施形態においては、例えばSVM(support vector machine)等の他のモデルを用いた機械学習が行われてもよいし、ニューラルネットワークやSVM等の種々の手法を発展させた手法を用いた機械学習が行われてもよい。
図11(A)は、ニューラルネットワークを説明する模式図である。ニューラルネットワークは、データが入力される入力層と、入力層からの出力に基づいて演算を行う中間層と、中間層からの出力に基づいてデータを出力する出力層を有する。図11(A)においては、中間層が2層であるネットワークを例示するが、中間層は1層であってもよいし、3層以上であってもよい。また各層に含まれるノードの数は図11(A)の例に限定されず、種々の変形実施が可能である。なお精度を考慮すれば、本実施形態の学習は多層のニューラルネットワークを用いたディープラーニングを用いることが望ましい。ここでの多層とは、狭義には4層以上である。
図11(A)に示すように、所与の層に含まれるノードは、隣接する層のノードと結合される。各結合には重み付け係数が設定されている。各ノードは、前段のノードの出力と重み付け係数を乗算し、乗算結果の合計値を求める。さらに各ノードは、合計値に対してバイアスを加算し、加算結果に活性化関数を適用することによって当該ノードの出力を求める。この処理を、入力層から出力層へ向けて順次実行することによって、ニューラルネットワークの出力が求められる。なお活性化関数としては、シグモイド関数やReLU関数等の種々の関数が知られており、本実施形態ではそれらを広く適用可能である。
ニューラルネットワークにおける学習は、適切な重み付け係数を決定する処理である。ここでの重み付け係数は、バイアスを含む。具体的には、学習装置600は、教師データのうちの入力データをニューラルネットワークに入力し、そのときの重み付け係数を用いた順方向の演算を行うことによって出力を求める。学習装置600は、当該出力と、教師データのうちの正解データとの誤差を表す目的関数を演算する。そして目的関数を最小化するように、重み付け係数を更新する。重み付け係数の更新では、例えば出力層から入力層に向かって重み付け係数を更新していく誤差逆伝播法を利用可能である。
またニューラルネットワークは例えばCNN(Convolutional Neural Network)であってもよい。図11(B)は、CNNを説明する模式図である。CNNは、畳み込み演算を行う畳み込み層とプーリング層を含む。畳み込み層は、フィルタ処理を行う層である。プーリング層は、縦方向、横方向のサイズを縮小するプーリング演算を行う層である。図11(B)に示す例は、畳み込み層及びプーリング層による演算を複数回行った後、全結合層による演算を行うことによって出力を求めるネットワークである。全結合層とは、所与の層のノードに対して前の層の全てのノードが結合される場合の演算処理を行う層であり、図11(A)を用いて上述した各層の演算に対応する。なお、図11(B)では記載を省略しているが、CNNでは活性化関数による演算処理も行われる。CNNは種々の構成が知られており、本実施形態においてはそれらを広く適用可能である。
CNNを用いる場合も、処理の手順は図11(A)と同様である。即ち、学習装置600は、教師データのうちの入力データをCNNに入力し、そのときのフィルタ特性を用いたフィルタ処理やプーリング演算を行うことによって出力を求める。当該出力と、正解データとの誤差を表す目的関数が算出され、当該目的関数を最小化するように、フィルタ特性を含む重み付け係数の更新が行われる。CNNの重み付け係数を更新する際にも、例えば誤差逆伝播法を利用可能である。
深層学習における目的関数は、一般的に下式(12)によって表される。下式(12)におけるyは教師データにおける正解ラベルを表し、f(x)は識別器であるニューラルネットワークの出力を表す。
min(x, y) = || y - f(x) || …(12)
画像に対する分類処理として、当該画像をM個のクラスのいずれかのクラスに分類する処理を考える。ここでMは2以上の整数である。例えばCNNの出力層が公知のソフトマックス層である場合、当該ソフトマックス層の出力であるf(x)は、分類結果がクラス1である確率、クラス2である確率、…、クラスMである確率のM個の確率データである。これに対して、アノテーション結果がクラスiを表すラベル情報である場合、正解データは、クラスiの確率が1となり、他のクラスの確率が0となるデータとなる。学習装置600は、例えばM個のクラスの確率データについてそれぞれ差分絶対値を算出し、その和を最小とする関数を目的関数として求める。
本実施形態においては、生体画像が複雑であることに起因して正解値にばらつきが生じることを考慮し、信頼度に基づく学習処理が行われる。例えば、学習装置600は、下式(13)に示すように、目的関数の重みとして、信頼度に基づく重みであるw_confを用いて、学習を行う。
min(x, y) = w_conf * ||y - f(x)||…(13)
信頼度が最大の1である場合、上式(13)は上式(12)と同様となる。即ち、対象となる教師データは、重み付け係数の更新において通常の機械学習と同程度に寄与する。これに対して、信頼度が低下した場合、上式(13)の目的関数は上式(12)に比べて小さくなる。即ち、信頼度の低い教師データの影響が小さくなる。これにより、正しいデータを効率的に学習することができる。なお、ここではw_confを信頼度そのものとしたがこれには限定されず、w_confは信頼度に基づいて求められる他の値であってもよい。例えばw_confは1より大きい値となってもよい。
図12は、信頼度と、当該信頼度に基づく重みであるw_confの関係を示す図である。上述したように、w_confを信頼度そのものとしてもよい。また処理部120は、重み情報として、信頼度情報と非線形な値を出力してもよい。例えば図12に示すように、w_confは信頼度の累乗であってもよい。図12では、w_confが信頼度の二乗である例を示しているが、指数については種々の変形実施が可能である。また、図12に示すように、w_confはステップ関数に基づいて決定されてもよい。例えばw_confは、信頼度が所与の閾値以下の場合に0となり、信頼度が閾値より大きい場合に1となる。所与の閾値は、例えば0.5であるが、これには限定されない。その他、w_confは信頼度に基づいて決定される値であればよく、具体的な関係は種々の変形実施が可能である。
また学習装置600は、w_confとは異なる重みを考慮した学習処理を行ってもよい。例えば、学習装置600は、下式(14)に基づいて重み付け係数を更新する。w_balanceはクラスのばらつき具合を考慮した重みを表す。クラスのばらつきとは、例えばクラス1に分類される学習画像の枚数と、クラス2に分類される学習画像の枚数の比率を表す。クラスが3以上の場合も同様であり、クラスのばらつきとは、クラス間の学習画像の枚数のばらつきを表す。
min(x, y) = w_balance * w_conf * ||y - f(x)||…(14)
ポリープを含む画像である「ポリープ」と、ポリープを含まない画像である「正常」のいずれかのクラスに、入力画像を識別する識別器を生成する学習処理を考える。例えば、「正常」である学習画像が、「ポリープ」である学習画像に比べて非常に多い場合、入力された画像を「正常」と判断することによって目的関数が小さくなりやすい。そのため、ポリープを撮像した画像についても「正常」と判断されやすくなってしまい、識別器を用いた分類精度が低下してしまう。この場合、「ポリープ」というラベルが付与された学習画像の重みを相対的に大きくし、「正常」というラベルが付与された学習画像の重みを相対的に小さくすることによって、クラスのばらつきによる影響を抑制できる。即ち、信頼度に基づく重みに加えて、クラス間のばらつきを考慮した重みを用いることによって、学習の精度をより向上させることが可能になる。
また学習装置600は、下式(15)に基づいて重み付け係数を更新してもよい。w_objectは、学習画像が撮像された撮像環境と、注目領域に撮像される被写体との組み合わせに基づく重みを表す。
min(x, y) = w_object * w_conf * ||y - f(x)||…(15)
例えば、「上部消化器を特殊光を照明光として用いて撮像した内視鏡画像において、腫瘍をアノテーションする」という場合、症例が多く蓄積されているため、ユーザはアノテーションの判断に迷いにくい。したがって、撮像環境及び注目領域に応じて決まる重みw_objectは、信頼度に基づく重みw_confの影響が小さくなるように設定される。
一方、「下部消化器を未染色且つ通常光を照明光として用いて撮像した内視鏡画像において、ポリープをアノテーションする」という場合、状況の多様さや病変部分の見づらさのために、専門家であっても判断に迷う可能性がある。このような場合は、撮像環境及び注目領域に応じて決まる重みw_objectは、信頼度に基づく重みw_confの影響が大きくなるように設定される。
また上式(14)と(15)を組み合わせてもよい。即ち学習装置600は、信頼度に基づく重みw_confと、クラスのばらつきによる重みw_balanceと、撮像環境と注目領域に撮像される被写体との組み合わせに基づく重みw_objectと、を考慮した学習を行ってもよい。
以上のように、処理部120は、学習画像及びアノテーション結果を、深層学習における教師データとして出力する。そして処理部120は、信頼度情報を、深層学習における目的関数の重み情報として出力する。このようにすれば、信頼度を考慮して教師データの学習への寄与度を調整できるため、推論精度の高い学習済モデルを生成することが可能になる。
3.5 推論
学習処理によって学習済モデルが生成された後の推論装置700における処理については図4のステップS105~S107の通りであり、信頼度を用いない場合と同様である。即ち、推論装置700は、学習装置600によって生成された学習済モデルを記憶する。また推論装置700は、内視鏡システム200又は推論対象データベースから推論対象画像を取得し、当該推論対象画像を学習済モデルに入力する。推論装置700に含まれるプロセッサは、学習済モデルからの指示に従って動作することによって、推論対象画像に対する推論結果を出力する。分類処理を行う場合、推論装置700は推論対象画像に対して分類結果を表すラベル付けを行う。また推論装置700は、推論結果を出力する。ここでの出力は、例えば表示部を用いた表示処理である。
なお、学習済モデルに従った推論装置700のプロセッサにおける演算、即ち、入力データに基づいて出力データを出力するための演算は、ソフトウェアによって実行されてもよいし、ハードウェアによって実行されてもよい。換言すれば、図11(A)の各ノードにおいて実行される積和演算や、CNNの畳み込み層において実行されるフィルタ処理等は、ソフトウェア的に実行されてもよい。或いは上記演算は、FPGA等の回路装置によって実行されてもよい。また、上記演算は、ソフトウェアとハードウェアの組み合わせによって実行されてもよい。このように、学習済モデルからの指令に従ったプロセッサの動作は、種々の態様によって実現可能である。例えば学習済モデルは、推論アルゴリズムと、当該推論アルゴリズムにおいて用いられるパラメータとを含む。推論アルゴリズムとは、入力データに基づいて、フィルタ演算等を行うアルゴリズムである。パラメータとは、学習処理によって取得されるパラメータであって、例えば重み付け係数である。この場合、推論アルゴリズムとパラメータの両方が推論装置700のメモリに記憶され、プロセッサは、当該推論アルゴリズムとパラメータを読み出すことによってソフトウェア的に推論処理を行ってもよい。或いは、推論アルゴリズムはFPGA等によって実現され、メモリはパラメータを記憶してもよい。或いは、パラメータを含む推論アルゴリズムがFPGA等によって実現されてもよい。この場合、学習済モデルの情報を記憶するメモリは、例えばFPGAの内蔵メモリである。
3.6 変形例
以上では学習済モデルが学習画像の分類処理を行う分類器である例について主に説明した。しかし学習済モデルは検出タスク向けの学習済モデルであってもよいし、領域分割タスク向けの学習済モデルであってもよい。検出タスクとは、注目領域の位置と、その確からしさを出力する処理である。例えばポリープを検出する検出タスクであれば、学習済モデルは、推論対象画像におけるポリープの位置を表す情報と、当該位置の被写体がポリープである確からしさと、を出力する。領域分割タスクとは、画素単位で当該画素に撮像された被写体を分類することによって、学習画像を複数の領域に分割する処理である。例えば推論対象画像をポリープ領域とそれ以外の領域とに分割する場合、学習済モデルは、各画素について当該画素がポリープである確からしさを出力する。
検出タスクを行う学習済モデルを生成する場合、信頼度決定部125は、検出対象単位で信頼度を決定する。例えば、1つの学習画像中に複数の注目領域が存在する場合、ユーザは、それぞれの注目領域を特定可能なアノテーション結果を付与する。即ちアノテーション処理部121は、1つの学習画像について、検出対象となる注目領域の数だけのアノテーション結果を取得する。
メタデータ取得部123は、各アノテーション結果の信頼度を決定するためのメタデータを取得する。例えばメタデータ取得部123は、識別度情報及び遮蔽度情報を、アノテーション結果ごとに算出する。またメタデータ取得部123は、複数のアノテーション結果に共通の画質情報を求めてもよいし。検出枠を含む所与の領域を対象として画質情報を求めることによって、アノテーション結果ごとに画質情報を求めてもよい。
またメタデータ取得部123は、学習画像の表示から第1アノテーション結果の入力までの時間を当該第1アノテーション結果の作業時間情報とし、第1アノテーション結果の入力から第2アノテーション結果の入力までの時間を第2アノテーション結果の作業時間情報とすることによって、アノテーション結果ごとに作業時間情報を算出する。ただしメタデータ取得部123は、複数のアノテーション結果に共通の作業時間情報を求めてもよい。
またメタデータ取得部123は、複数のアノテーション結果に共通の疲労度情報、熟練度情報を求めることが想定される。ただし、生体情報を逐次測定する等、アノテーション結果ごとに能力情報が求められてもよい。
信頼度決定部125は、メタデータに基づいて検出対象ごとに信頼度を決定する。なお、図10のステップS302~S307に示した処理についても、検出対象ごとに実行される。例えば、ステップS303において信頼度決定部125は、複数の検出枠が十分に近いか否かを判定することによって、複数のユーザによるアノテーション結果が同一の検出対象に対するアノテーション結果であるか否かを判定する。例えば信頼度決定部125は、複数の検出枠の重なり度合いを求め、当該重なり度合いが所定閾値以上である場合、複数のアノテーション結果が一致すると判定する。これにより、1つの検出対象に付与された複数のアノテーション結果及び信頼度を統合することが可能になる。画像処理システム100は、1枚の学習画像について、当該学習画像に含まれる検出対象数に対応するアノテーション結果と、各アノテーション結果の信頼度を表す信頼度情報を出力する。
検出タスク向けの学習における目的関数は、物体の位置を表す項と、物体の確からしさを表す項の和によって表現される。学習装置600は、各検出対象における信頼度情報に基づく重みをw_j_confとした場合に、当該重みw_j_confを目的関数の重み情報として用いる。具体的には、学習装置600は、下式(16)に基づいて重み付け係数を更新する。下式(16)の第1項は、検出枠の位置についてのモデル出力と正解データの差分絶対値に、重みw_j_confを乗算した情報に対応する。下式(16)の第2項は、検出枠に撮像された物体の確からしさについてのモデル出力と正解データの差分絶対値に、重みw_j_confを乗算した情報に対応する。
Figure 0007467595000002
また領域分割タスクを行う学習済モデルを生成する場合、メタデータは、画素単位で算出可能なメタデータと、画像全体で共通化されるメタデータとを含んでもよい。例えば画質情報は、処理対象画素を含む所与の領域を設定し、当該領域ごとに処理を行うことによって画素単位での画質情報を演算可能である。
信頼度決定部125は、メタデータに基づいて画素ごとに信頼度を決定する。なお、図10のステップS302~S307に示した処理についても、画素対象ごとに実行される。
学習装置600は、pixel(i,j)における信頼度情報に基づく重みをw_ij_confとした場合に、当該重みw_ij_confを目的関数の重み情報とする。pixel(i,j)とは、推論対象画像の基準点に対して、横方向にi番目、且つ、縦方向にj番目の画素を表す。具体的には、学習装置600は、下式(17)に基づいて重み付け係数を更新する。下式(17)のyijがpixel(i,j)における正解データを表し、f(xij)がpixel(i,j)におけるモデル出力を表す。
Figure 0007467595000003
なお、上記のように本実施形態について詳細に説明したが、本実施形態の新規事項および効果から実体的に逸脱しない多くの変形が可能であることは当業者には容易に理解できるであろう。従って、このような変形例はすべて本開示の範囲に含まれるものとする。例えば、明細書又は図面において、少なくとも一度、より広義または同義な異なる用語と共に記載された用語は、明細書又は図面のいかなる箇所においても、その異なる用語に置き換えることができる。また本実施形態及び変形例の全ての組み合わせも、本開示の範囲に含まれる。また画像処理システム、画像処理装置、内視鏡システム等の構成及び動作等も、本実施形態で説明したものに限定されず、種々の変形実施が可能である。
100…画像処理システム、110…インターフェース、111…画像取得インターフェース、112…アノテーションインターフェース、113…表示部、114…操作部、115…アウトプットインターフェース、120…処理部、121…アノテーション処理部、123…メタデータ取得部、125…信頼度決定部、130…記憶部、200…内視鏡システム、210…挿入部、211…対物光学系、212…撮像素子、213…アクチュエータ、214…照明レンズ、215…ライトガイド、216…AF開始/終了ボタン、220…外部I/F部、230…システム制御装置、231…A/D変換部、232…前処理部、233…検出処理部、234…後処理部、235…システム制御部、236…AF制御部、237…記憶部、240…表示部、250…光源装置、252…光源、300…データベースサーバ、400…アノテーション装置、500…信頼度決定装置、600…学習装置、700…推論装置、800…画像収集用内視鏡システム

Claims (19)

  1. 生体を撮像した学習画像に対するアノテーション結果が入力されるインターフェースと、
    処理部と、
    を含み、
    前記処理部は、
    前記学習画像自体のアノテーションの難易度を表す難易度情報を含むメタデータを取得し、
    前記メタデータに基づいて、前記アノテーション結果の信頼度を表す信頼度情報を決定し、
    生体を撮像した推論対象画像に対して深層学習を用いた推論を行う学習済モデルの生成に用いられるデータとして、前記学習画像、前記アノテーション結果、及び前記信頼度情報を対応付けたデータセットを出力し、
    前記難易度情報は、
    前記学習画像に対して前記アノテーション結果が付与されるまでの時間を表す作業時間情報を含み、
    前記処理部は、
    前記作業時間情報が示す作業時間が所定時間よりも長い場合、前記難易度が高いと判定することを特徴とする画像処理システム。
  2. 請求項1において、
    前記処理部は、
    前記学習画像に対する画像処理を行うことによって、前記難易度情報を取得することを特徴とする画像処理システム。
  3. 請求項2において、
    前記難易度情報は、前記学習画像におけるアノテーション対象の識別度を表す情報、前記学習画像の画質を表す情報、前記学習画像における前記アノテーション対象の遮蔽度を表す情報、の少なくとも1つを含むことを特徴とする画像処理システム。
  4. 請求項3において、
    前記処理部は、
    前記識別度が低いほど、前記難易度が高いと判定することを特徴とする画像処理システム。
  5. 請求項3において、
    前記処理部は、
    前記画質が低いほど、前記難易度が高いと判定することを特徴とする画像処理システム。
  6. 請求項3において、
    前記処理部は、
    前記遮蔽度が高いほど、前記難易度が高いと判定することを特徴とする画像処理システム。
  7. 請求項1において、
    前記メタデータは、
    前記インターフェースを用いて前記アノテーション結果を入力するユーザの能力を表す能力情報を含み、
    前記処理部は、
    前記難易度情報と前記能力情報に基づいて、前記信頼度情報を決定することを特徴とする画像処理システム。
  8. 請求項7において、
    前記能力情報は、
    前記ユーザの疲労度を表す疲労度情報を含むことを特徴とする画像処理システム。
  9. 請求項7において、
    前記能力情報は、
    前記ユーザの熟練度を表す熟練度情報を含むことを特徴とする画像処理システム。
  10. 請求項1において、
    前記インターフェースは、
    前記アノテーション結果を入力したユーザによる自己評価を表す自己評価情報を前記メタデータとして受け付け、
    前記処理部は、
    前記自己評価情報を含む前記メタデータに基づいて、前記信頼度情報を決定することを特徴とする画像処理システム。
  11. 請求項1において、
    所与の前記学習画像に対して、複数のユーザによって入力された第1~第N(Nは2以上の整数)のアノテーション結果が対応付けられている場合に、
    前記処理部は、
    前記第1~第Nのアノテーション結果のそれぞれに付与された前記メタデータに基づいて、第1~第Nの信頼度情報を決定し、
    前記第1~第Nのアノテーション結果に基づいて、前記学習画像に対応付ける前記アノテーション結果を決定し、前記第1~第Nの信頼度情報に基づいて、決定された前記アノテーション結果の前記信頼度情報を決定することを特徴とする画像処理システム。
  12. 請求項1において、
    前記インターフェースは、
    前記学習画像を含む表示画像を表示する表示部を含み、
    前記処理部は、
    前記表示画像において、前記メタデータを表示する処理を行うことを特徴とする画像処理システム。
  13. 請求項1において、
    前記処理部は、
    前記学習画像及び前記アノテーション結果を、前記深層学習における教師データとして出力し、
    前記信頼度情報を、前記深層学習における目的関数の重み情報として出力することを特徴とする画像処理システム。
  14. 請求項1において、
    前記処理部は、
    前記学習画像及び前記アノテーション結果を、前記深層学習における教師データとして出力し、
    前記深層学習における目的関数の重み情報として、前記信頼度情報と非線形な値を出力することを特徴とする画像処理システム。
  15. 請求項1において、
    前記処理部は、
    前記信頼度情報によって表される前記信頼度が所与の基準値よりも低い場合、前記アノテーション結果の再入力を求める処理を行うことを特徴とする画像処理システム。
  16. 生体を撮像した学習画像に対するアノテーション結果が入力されるインターフェースと、
    前記学習画像自体のアノテーションの難易度を表す難易度情報を含むメタデータを取得し、取得した前記メタデータを、前記アノテーション結果の信頼度を求めるための情報として、前記学習画像に対応付けて出力する処理部と、
    を含み、
    前記学習画像及び前記アノテーション結果は、生体を撮像した推論対象画像に対して深層学習を用いた推論を行う学習済モデルの生成に用いられ、前記信頼度は、前記深層学習における目的関数の重み情報として用いられ、
    前記難易度情報は、
    前記学習画像に対して前記アノテーション結果が付与されるまでの時間を表す作業時間情報を含み、
    前記処理部は、
    前記作業時間情報が示す作業時間が所定時間よりも長い場合、前記難易度が高いと判定することを特徴とする画像処理装置。
  17. 生体を撮像することによって推論対象画像を出力する撮像部と、
    深層学習によって学習された学習済モデルに基づいて、前記推論対象画像に対する推論処理を行う処理部と、
    を含み、
    前記学習済モデルは、
    生体を撮像した学習画像と、前記学習画像に対するアノテーション結果と、前記学習画像に付与されたメタデータに基づいて決定された前記アノテーション結果の信頼度を表す信頼度情報と、を対応付けたデータセットに基づいて学習されており、
    前記メタデータは、前記学習画像自体のアノテーションの難易度を表す難易度情報を含み、前記学習画像及び前記アノテーション結果は、前記深層学習における教師データであり、前記信頼度情報は、前記深層学習における目的関数の重み情報であり、
    前記難易度情報は、
    前記学習画像に対して前記アノテーション結果が付与されるまでの時間を表す作業時間情報を含み、
    前記メタデータは、
    前記作業時間情報が示す作業時間が所定時間よりも長い場合に前記難易度が高いと判定された前記難易度情報を含むことを特徴とする内視鏡システム。
  18. 生体を撮像した学習画像に対するアノテーション結果を取得し、
    前記学習画像自体のアノテーションの難易度を表す難易度情報であって前記学習画像に対して前記アノテーション結果が付与されるまでの時間を表す作業時間情報を含む前記難易度情報を含むメタデータを取得し、
    前記作業時間情報が示す作業時間が所定時間よりも長い場合、前記難易度が高いと判定し、
    前記メタデータに基づいて、前記アノテーション結果の信頼度を表す信頼度情報を決定し、
    生体を撮像した推論対象画像に対して深層学習を用いた推論を行う学習済モデルの生成に用いられるデータとして、前記学習画像、前記アノテーション結果、及び前記信頼度情報を対応付けたデータセットを出力する、
    ことをコンピュータが実行することを特徴とする画像処理方法。
  19. 生体を撮像した学習画像に対するアノテーション結果を取得し、
    前記学習画像自体のアノテーションの難易度を表す難易度情報であって前記学習画像に対して前記アノテーション結果が付与されるまでの時間を表す作業時間情報を含む前記難易度情報を含むメタデータを取得し、
    前記作業時間情報が示す作業時間が所定時間よりも長い場合、前記難易度が高いと判定し、
    前記メタデータに基づいて、前記アノテーション結果の信頼度を表す信頼度情報を決定し、
    生体を撮像した推論対象画像に対して深層学習を用いた推論を行う学習済モデルの生成に用いられるデータとして、前記学習画像、前記アノテーション結果、及び前記信頼度情
    報を対応付けたデータセットを出力する、
    ステップをコンピュータに実行させることを特徴とするプログラム。
JP2022507045A 2020-03-10 2020-03-10 画像処理システム、画像処理装置、内視鏡システム、画像処理方法及びプログラム Active JP7467595B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2020/010293 WO2021181520A1 (ja) 2020-03-10 2020-03-10 画像処理システム、画像処理装置、内視鏡システム、インターフェース及び画像処理方法

Publications (3)

Publication Number Publication Date
JPWO2021181520A1 JPWO2021181520A1 (ja) 2021-09-16
JPWO2021181520A5 JPWO2021181520A5 (ja) 2022-08-30
JP7467595B2 true JP7467595B2 (ja) 2024-04-15

Family

ID=77670513

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022507045A Active JP7467595B2 (ja) 2020-03-10 2020-03-10 画像処理システム、画像処理装置、内視鏡システム、画像処理方法及びプログラム

Country Status (4)

Country Link
US (1) US20220319153A1 (ja)
JP (1) JP7467595B2 (ja)
CN (1) CN114830107A (ja)
WO (1) WO2021181520A1 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220058369A1 (en) * 2020-08-07 2022-02-24 University Of South Florida Automated stereology for determining tissue characteristics
US20230056923A1 (en) * 2021-08-20 2023-02-23 GE Precision Healthcare LLC Automatically detecting characteristics of a medical image series
JP7399998B2 (ja) * 2022-03-29 2023-12-18 本田技研工業株式会社 教師データ収集装置
CN116363762B (zh) * 2022-12-23 2024-09-03 南京羽丰视讯科技有限公司 活体检测方法、深度学习模型的训练方法及装置
JP7334920B1 (ja) * 2023-03-02 2023-08-29 FastLabel株式会社 情報処理システム、情報処理方法及びプログラム
CN117238018B (zh) * 2023-09-20 2024-06-21 华南理工大学 基于多粒度的可增量深宽网络活体检测方法、介质及设备

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009110064A (ja) 2007-10-26 2009-05-21 Toshiba Corp 分類モデル学習装置および分類モデル学習方法
JP2018106662A (ja) 2016-12-22 2018-07-05 キヤノン株式会社 情報処理装置、情報処理方法、プログラム
JP2018163554A (ja) 2017-03-27 2018-10-18 富士通株式会社 画像処理装置、画像処理方法、画像処理プログラム、及び教師データ生成方法
JP2019046058A (ja) 2017-08-31 2019-03-22 キヤノン株式会社 情報処理装置、情報処理方法、及びプログラム
JP2019101559A (ja) 2017-11-29 2019-06-24 キヤノンマーケティングジャパン株式会社 情報処理装置、情報処理方法、プログラム
JP2019144767A (ja) 2018-02-19 2019-08-29 富士通株式会社 学習プログラム、学習方法および学習装置
WO2019211706A1 (en) 2018-05-03 2019-11-07 International Business Machines Corporation Layered stochastic anonymization of data
JP2020035095A (ja) 2018-08-28 2020-03-05 オリンパス株式会社 アノテーション装置およびアノテーション方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017211689A (ja) * 2016-05-23 2017-11-30 株式会社ツクタ技研 分類モデル装置、分類モデル学習方法、および分類モデル学習プログラム

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009110064A (ja) 2007-10-26 2009-05-21 Toshiba Corp 分類モデル学習装置および分類モデル学習方法
JP2018106662A (ja) 2016-12-22 2018-07-05 キヤノン株式会社 情報処理装置、情報処理方法、プログラム
JP2018163554A (ja) 2017-03-27 2018-10-18 富士通株式会社 画像処理装置、画像処理方法、画像処理プログラム、及び教師データ生成方法
JP2019046058A (ja) 2017-08-31 2019-03-22 キヤノン株式会社 情報処理装置、情報処理方法、及びプログラム
JP2019101559A (ja) 2017-11-29 2019-06-24 キヤノンマーケティングジャパン株式会社 情報処理装置、情報処理方法、プログラム
JP2019144767A (ja) 2018-02-19 2019-08-29 富士通株式会社 学習プログラム、学習方法および学習装置
WO2019211706A1 (en) 2018-05-03 2019-11-07 International Business Machines Corporation Layered stochastic anonymization of data
JP2020035095A (ja) 2018-08-28 2020-03-05 オリンパス株式会社 アノテーション装置およびアノテーション方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
安孫子智樹、岸野泰恵、白井良成,識別モデルの漸次的更新に向けたインタラクションに基づくラベリング確信度推定手法の検討,情報処理学会研究報告 [online],日本,一般社団法人情報処理学会,2020年01月08日,Vol.2020-HCI-186, No.8,pp.1-8,ISSN 2188-8760
小山 聡,ヒューマンコンピュテーションの品質管理,人工知能,日本,一般社団法人人工知能学会,2014年01月01日,第29巻,第1号(通巻163号),pp.27-33,ISSN 2188-2266

Also Published As

Publication number Publication date
US20220319153A1 (en) 2022-10-06
CN114830107A (zh) 2022-07-29
WO2021181520A1 (ja) 2021-09-16
JPWO2021181520A1 (ja) 2021-09-16

Similar Documents

Publication Publication Date Title
JP7467595B2 (ja) 画像処理システム、画像処理装置、内視鏡システム、画像処理方法及びプログラム
US11553874B2 (en) Dental image feature detection
US11954902B2 (en) Generalizable medical image analysis using segmentation and classification neural networks
US11721086B2 (en) Image processing system and image processing method
WO2018143180A1 (ja) 画像処理装置、および画像処理プログラム
JP2023021440A (ja) 眼の画像内における病変の検知
JP2024045234A (ja) 腸の病理学のための画像スコアリング
JP6818424B2 (ja) 診断支援装置、情報処理方法、診断支援システム及びプログラム
JP6878923B2 (ja) 画像処理装置、画像処理システム、および画像処理プログラム
Shanthini et al. Threshold segmentation based multi-layer analysis for detecting diabetic retinopathy using convolution neural network
Estrada et al. Exploratory Dijkstra forest based automatic vessel segmentation: applications in video indirect ophthalmoscopy (VIO)
JP2018121886A (ja) 画像処理装置、および画像処理プログラム
US20220405927A1 (en) Assessment of image quality for a medical diagnostics device
US20220361739A1 (en) Image processing apparatus, image processing method, and endoscope apparatus
US20230100147A1 (en) Diagnosis support system, diagnosis support method, and storage medium
JP7443929B2 (ja) 医療診断支援装置、医療診断支援プログラム、および医療診断支援方法
KR102726514B1 (ko) 의료 영상 전송 방법 및 그에 따른 의료 영상 장치
US20240265540A1 (en) Medical image processing apparatus, method for operating medical image processing apparatus, and non-transitory computer readable medium
Yao Machine Learning and Image Processing for Clinical Outcome Prediction: Applications in Medical Data from Patients with Traumatic Brain Injury, Ulcerative Colitis, and Heart Failure
WO2022157838A1 (ja) 画像処理方法、プログラム、画像処理装置、眼科システム
US20230410339A1 (en) Generating views of skin lesions for improved remote evaluation
Lei et al. Clinicians’ Guide to Artificial Intelligence in Colon Capsule Endoscopy—Technology Made Simple. Diagnostics 2023, 13, 1038
WO2023107001A2 (en) Methods and systems for dental treatment planning
TW202422489A (zh) 多標籤分類方法及多標籤分類系統
CN118490252A (zh) 用于x射线成像系统的自适应用户界面覆盖图系统和方法

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220615

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220615

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230822

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231013

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20240116

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240215

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20240227

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240319

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240403

R150 Certificate of patent or registration of utility model

Ref document number: 7467595

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150