JP7231709B2

JP7231709B2 - 情報処理システム、内視鏡システム、情報処理方法及び学習済みモデルの製造方法

Info

Publication number: JP7231709B2
Application number: JP2021508598A
Authority: JP
Inventors: 都士也上山
Original assignee: Olympus Corp
Current assignee: Olympus Corp
Priority date: 2019-03-28
Filing date: 2019-03-28
Publication date: 2023-03-01
Anticipated expiration: 2039-03-28
Also published as: US20210272284A1; WO2020194662A1; US11869655B2; JPWO2020194662A1

Description

本発明は、情報処理システム、内視鏡システム、情報処理方法及び学習済みモデルの製造方法等に関する。

機械学習を用いて画像から認識対象の検出処理を行う手法が知られている。例えば特許文献１には、学習結果から好適な教師データを選択する技術が開示されている。特許文献１では、教師データを、複数の異なるデータである第１ラベリングモデルと第２ラベリングモデルに分類し、その各々について学習モデルに学習させ、その学習結果に基づいて好適な教師データを選択する。

特許第６１８２２４２号公報

医療用画像においては、境界があいまいな対象物が存在する。従来技術では、このような対象物について、その境界の曖昧性を考慮した学習を行うことができなかった。例えば上記特許文献１では、複数の異なる教師データによって学習を行っているが、最終的に好適な１つ教師データを選択している。即ち、特許文献１は、同一の対象物に複数のアノテーションデータを与えて境界があいまいな対象物について精度よく学習する技術ではない。

本発明の一態様は、学習済みモデルの情報を記憶する記憶部と、検出用画像から対象物の位置情報を検出する検出処理を、前記学習済みモデルの情報に基づいて行い、前記検出処理により検出した前記位置情報を出力する処理部と、を含み、前記学習済みモデルは、学習用画像における対象物に対して複数のアノテーションが付された教師データに基づいて学習され、前記複数のアノテーションの重複関係に基づいて前記学習用画像における前記対象物の位置情報を出力するように学習された情報処理システムに関係する。

また本発明の他の態様は、上記の情報処理システムを有するプロセッサユニットと、前記プロセッサユニットに接続され、前記検出用画像を撮像して前記プロセッサユニットに送信する内視鏡スコープと、前記プロセッサユニットに接続され、前記情報処理システムにより前記検出用画像から検出された前記対象物の位置情報に基づいて、前記対象物の位置を示す表示情報が重畳された前記検出用画像を表示する表示部と、を含む内視鏡システムに関係する。

また本発明の更に他の態様は、ニューラルネットワークに検出用画像の入力を受け付けて対象物を検出する検出処理を行い、前記検出処理により検出した前記位置情報を出力するように、コンピュータを機能させる学習済みモデルであって、前記ニューラルネットワークは、データを入力する入力層と、前記入力層を通じて入力されたデータに対し演算処理を行う中間層と、記中間層から出力される演算結果に基づき、データを出力する出力層と、を備え、前記学習済みモデルは、学習用画像における対象物に対して複数のアノテーションが付された教師データに基づいて学習され、前記複数のアノテーションの重複関係に基づいて前記学習用画像における前記対象物の位置情報を出力するように学習された学習済みモデルに関係する。

また本発明の更に他の態様は、上記の学習済みモデルを記憶した情報記憶媒体に関係する。

また本発明の更に他の態様は、学習済みモデルに基づく検出処理を行う情報処理方法であって、前記学習済みモデルは、学習用画像における対象物に対して複数のアノテーションが付された教師データに基づいて学習され、前記複数のアノテーションの重複関係に基づいて前記学習用画像における前記対象物の位置情報を出力するように学習された学習済みモデルであり、検出用画像から対象物の位置情報を検出する前記検出処理を行い、前記検出処理により検出した前記位置情報を出力する情報処理方法に関係する。

また本発明の更に他の態様は、学習用画像における対象物に対して複数のアノテーションが付された教師データを受け付ける工程と、ニューラルネットワークの入力層において、前記学習用画像を受け付ける工程と、前記ニューラルネットワークの中間層において、前記入力層を通じて入力された前記学習用画像に対して演算処理を行う工程と、前記ニューラルネットワークの出力層において、前記学習用画像における前記対象物の位置情報を出力する工程と、前記出力層において出力される前記位置情報と前記教師データとに基づいて前記ニューラルネットワークに対して学習処理を行うことで、前記複数のアノテーションの重複関係に基づく前記位置情報が前記出力層において出力されるように前記ニューラルネットワークを学習させる工程と、を含む学習済みモデルの製造方法に関係する。

情報処理システム及び内視鏡システムの構成例。第１実施形態における学習処理を説明する図。第１実施形態における検出処理を説明する図。第１実施形態における表示処理を説明する図。第２実施形態における学習処理を説明する図。第２実施形態における検出処理を説明する図。第２実施形態における表示処理を説明する図。第３実施形態における学習処理を説明する図。第４実施形態における検出処理及び表示処理を説明する図。第５実施形態における学習処理を説明する図。第６実施形態における検出処理及び表示処理を説明する図。第７実施形態における学習処理を説明する図。第７実施形態における検出処理及び表示処理を説明する図。アノテーションの例。アノテーションにより生成された教師データの例。学習装置の構成例。学習の手順を示すフローチャート。

以下、本発明の実施形態（以下、「本実施形態」という。）について説明する。なお、以下に説明する本実施形態は、請求の範囲に記載された本発明の内容を不当に限定するものではない。また本実施形態で説明される構成の全てが、本発明の必須構成要件であるとは限らない。

１．情報処理システム、内視鏡システム
図１は、本実施形態の情報処理システム１０、及び情報処理システム１０を含む内視鏡システム１００の構成例である。内視鏡システム１００は、プロセッサユニット１と、内視鏡スコープ２と、表示部３と、を含む。また内視鏡システム１００は操作部９を更に含んでもよい。

内視鏡スコープ２の先端部には撮像装置が設けられ、その先端部が腹腔内に挿入される。撮像装置が腹腔内の画像を撮影し、その撮像データが内視鏡スコープ２からプロセッサユニット１へ送信される。

プロセッサユニット１は、内視鏡システム１００における種々の処理を行う装置である。例えばプロセッサユニット１は、内視鏡システム１００の制御、及び画像処理等を行う。プロセッサユニット１は、内視鏡スコープ２からの撮像データを受信する撮像データ受信部８と、学習済みモデルにより撮像データから対象物を検出する情報処理システム１０と、を含む。

撮像データ受信部８は、例えば内視鏡スコープ２のケーブルが接続されるコネクター、又は、撮像データを受信するインターフェース回路等である。

情報処理システム１０は、学習済みモデルを記憶する記憶部７と、記憶部７に記憶された学習済みモデルに基づいて画像から対象物を検出する処理部４と、を含む。以下では、対象物の検出に用いられる画像を検出用画像と呼ぶ。図１の構成例では、撮像データ受信部８が処理部４に出力する撮像データが、検出用画像に対応する。

記憶部７は、例えば半導体メモリ、又はハードディスクドライブ、光学ディスクドライブ等の記憶装置である。記憶部７には、予め学習済みモデルが記憶されている。或いは、サーバ等の外部装置からネットワークを介して学習済みモデルが情報処理システム１０に入力され、その学習済みモデルを記憶部７が記憶してもよい。

処理部４は、学習済みモデルによる推論を行うことで画像から対象物を検出する検出部５と、その検出結果に基づいて表示情報を画像に重畳して表示部３に表示させる出力部６と、を含む。表示情報は対象物の位置を示す情報である。学習済みモデルによる推論を実行するハードウェアとしては、種々想定できる。例えば、検出部５はＣＰＵ等の汎用プロセッサである。この場合、記憶部７は、推論アルゴリズムが記述されたプログラムと、その推論アルゴリズムに用いられるパラメータと、を学習済みモデルとして記憶する。或いは、検出部５は、推論アルゴリズムがハードウェア化された専用プロセッサであってもよい。専用プロセッサは例えばＡＳＩＣ（Application Specific Integrated Circuit）又はＦＰＧＡ（Field Programmable Gate Array）等である。この場合、記憶部７は、推論アルゴリズムに用いられるパラメータを学習済みモデルとして記憶する。推論アルゴリズムはニューラルネットワークを適用することができる。この場合、ニューラルネットワークにおけるノード間接続の重み係数がパラメータである。

表示部３は、出力部６から出力された画像を表示するモニタであり、例えば液晶ディスプレイ又は有機ＥＬディスプレイ等の表示装置である。

操作部９は、作業者が内視鏡システム１００を操作するための装置である。例えば、操作部９は、ボタン、又はダイヤル、フットスイッチ、タッチパネル等である。

なお、上記では情報処理システム１０がプロセッサユニット１に含まれるが、情報処理システム１０の一部又は全部がプロセッサユニット１の外部に設けられてもよい。例えば、記憶部７と検出部５は、ＰＣ又はサーバ等の外部処理装置により実現されてもよい。或いは、記憶部７と検出部５は、ネットワークを介して接続された複数のＰＣ又は複数のサーバ等が並列処理を行うクラウドシステムにより、実現されてもよい。撮像データ受信部８は、撮像データを、ネットワーク等を介して外部処理装置又はクラウドシステムに送信する。外部処理装置又はクラウドシステムは、検出した対象物を示す情報を、ネットワーク等を介して出力部６に送信する。出力部６は、受信した情報を画像に重畳して表示部３に表示させる。

一般的な物体を撮影した画像では、その物体の境界は明瞭である。このような物体の位置検出を機械学習により実現する場合、例えば境界内を塗りつぶしたデータを作成し、そのデータと画像を教師データとして機械学習を行う。境界は明瞭であるため、誰が見ても境界は１つであり、曖昧さがない。また学習済みモデルにより物体を検出する際にも、その検出対象となる物体の境界は明瞭であり、曖昧に境界を検出する必要がない。

一方、内視鏡により撮像される体内画像には、境界があいまいな対象物が存在する。例えば、対象物が画角内に存在するが、その対象物が他の組織又は臓器によって隠れている場合、或いは、対象物が画像内に写っているが、その境界が不明瞭な場合などである。これらの対象物の位置検出を機械学習により実現する場合、教師データを作成する作業者が異なると、境界の判定が異なる可能性がある。また学習済みモデルにより物体を検出する際にも、その検出対象となる物体の境界を、曖昧さを許容して検出できることが望ましい。なお、教師データを作成する作業者は、例えば内視鏡システム１００を用いた診断又は処置を行う医師等である。

以下、医療用画像における境界があいまいな対象物について、複数のアノテーションを与えることで、境界のあいまい性を考慮した位置検出が可能な本実施形態の手法を説明する。

２．第１実施形態
図２は、第１実施形態における学習処理を説明する図である。以下、学習処理に用いられる画像を学習用画像と呼ぶ。学習用画像は、例えば内視鏡システムにより撮影された動画のフレーム画像である。

学習用画像ＩＭＧＴの画角内には、境界が不明瞭な対象物ＯＢＪＴが含まれる。図２では、不明瞭な境界を点線で示している。なお対象物ＯＢＪＴが他の組織又は臓器に覆われている場合には、学習用画像ＩＭＧＴにおいて対象物ＯＢＪＴそのものを視認できないが、その場合も、境界が不明瞭な対象物ＯＢＪＴに含む。

教師データは、学習用画像ＩＭＧＴと複数のアノテーションＴＧ１～ＴＧ３を含む。アノテーションＴＧ１～ＴＧ３は、同一の学習用画像ＩＭＧＴにおける同一の対象物ＯＢＪＴに対して付される。なお、同一画像の同一対象物にたいして第１～第ｎアノテーションが付されていればよい。ｎは２以上の整数である。以下ではｎ＝３とする。

アノテーションＴＧ１～ＴＧ３は、それぞれ異なる作業者によって付されたものである。対象物ＯＢＪＴの境界が曖昧であるため、作業者によって境界の判定にばらつきがあり、アノテーションＴＧ１～ＴＧ３の位置形状が異なっている。図１４、図１５等で後述するように、アノテーションＴＧ１～ＴＧ３は、各画素にフラグが付されたマップデータである。作業者が対象物ＯＢＪＴと判断した領域の各画素に、フラグが付される。以下、このマップデータをフラグデータとも呼ぶ。

学習装置５０は、教師データを用いて学習モデル２０に対する学習処理を行う。即ち、学習装置５０は、学習用画像ＩＭＧＴを学習モデル２０に入力し、学習モデル２０が検出した対象物ＯＢＪＴの位置情報とアノテーションＴＧ１とを比較し、その誤差に基づくフィードバックを学習モデル２０に対して行う。この手順を、アノテーションＴＧ２、ＴＧ３についても順次に行う。

なお、学習手法は上記に限定されない。例えば、学習装置５０は、アノテーションＴＧ１～ＴＧ３を合成することで合成アノテーションを生成し、その合成アノテーションと学習用画像ＩＭＧＴとに基づいて学習モデル２０に対する学習処理を行ってもよい。例えば、アノテーションＴＧ１～ＴＧ３のマップデータを加算平均して合成アノテーションとしてもよい。例えば、アノテーションＴＧ１～ＴＧ３の各画素に付されるフラグを「１」とする。例えば、アノテーションＴＧ１～ＴＧ３の全てにおいてフラグが付された画素では、そのフラグの平均値は１であり、アノテーションＴＧ１～ＴＧ３のうち１つだけにフラグが付された画素では、そのフラグの平均値は１／３である。この平均値が各画素に付されたマップデータが合成アノテーションである。

図２の学習が行われることで、学習モデル２０は、複数のアノテーションＴＧ１～ＴＧ３の重複関係に基づいて学習用画像ＩＭＧＴにおける対象物ＯＢＪＴの位置情報を出力するように、学習される。具体的には、対象物ＯＢＪＴの位置情報は、対象物ＯＢＪＴの位置の確からしさを連続的又は段階的に示す情報である。学習後の学習モデル２０は、アノテーションＴＧ１～ＴＧ３が重複した領域では位置の確からしさが高く、且つアノテーションＴＧ１～ＴＧ３が重複しない領域では位置の確からしさが低い位置情報を、出力する。以下では、学習後の学習モデル２０を学習済みモデルと呼ぶ。

図３は、第１実施形態における検出処理を説明する図である。検出用画像ＩＭＧＤは、例えば内視鏡システム１００により撮影された動画のフレーム画像である。

検出用画像ＩＭＧＤの画角内には、境界が不明瞭な対象物ＯＢＪＤが含まれる。図３では、不明瞭な境界を点線で示している。なお対象物ＯＢＪＤが他の組織又は臓器に覆われている場合には、検出用画像ＩＭＧＤにおいて対象物ＯＢＪＤそのものを視認できないが、その場合も、境界が不明瞭な対象物ＯＢＪＤに含む。図３には、対象物ＯＢＪＤの位置形状が、学習用画像ＩＭＧＴにおける対象物ＯＢＪＴの位置形状と同じ場合を図示している。但し、通常は、検出用画像ＩＭＧＤは学習用画像ＩＭＧＴとは異なる画像であり、対象物ＯＢＪＤの位置形状は対象物ＯＢＪＴの位置形状とは異なる。

検出部５は、検出用画像ＩＭＧＤから対象物ＯＢＪＤの位置情報を検出する。即ち、検出部５は、検出用画像ＩＭＧＤを学習済みモデル３０に入力し、学習済みモデル３０が検出した対象物ＯＢＪＤの位置情報ＨＴＭを出力する。位置情報ＨＴＭは、対象物ＯＢＪＤの位置の確からしさを連続的又は段階的に示す情報である。具体的には、位置情報ＨＴＭは、位置の確からしさを示す値が各画素に割り当てられたマップデータである。図３では、位置情報ＨＴＭにおける位置の確からしさを斜線ハッチングで表している。斜線の密度が濃いほど、位置の確からしさが高いことを示す。図３では３段階の確からしさで位置情報を図示しているが、確からしさの段階数は３に限定されず、また確からしさは連続的な値であってもよい。

図４は、第１実施形態における表示処理を説明する図である。

出力部６は、検出用画像ＩＭＧＤと位置情報ＨＴＭに基づいて表示画像ＩＭＧＨを生成し、その表示画像ＩＭＧＨを表示部３に出力する。具体的には、出力部６は、位置情報ＨＴＭに基づいて表示情報ＭＫＨを生成し、その表示情報ＭＫＨを検出用画像ＩＭＧＤに重畳することで表示画像ＩＭＧＨを生成する。表示情報ＭＫＨは、対象物ＯＢＪＤの位置の確からしさを連続的又は段階的に表示する情報である。例えば、表示情報ＭＫＨは、確からしさの値を色の変化で視覚化したヒートマップである。或いは、表示情報ＭＫＨは、単一色であるが、確からしさの値に応じて透過率が変化する情報であってもよい。

本実施形態によれば、学習用画像ＩＭＧＴにおける対象物ＯＢＪＴに対して複数のアノテーションＴＧ１～ＴＧ３が付された教師データに基づいて学習モデル２０が学習されることで、学習済みモデル３０が生成される。これにより、学習済みモデル３０が、複数のアノテーションＴＧ１～ＴＧ３の重複関係に基づいて対象物ＯＢＪＴの位置情報を出力できるようになる。このようにすれば、複数の作業者が個別に同一の対象物について個別にアノテーションを付したものを教師データとすることができる。また、複数のアノテーションＴＧ１～ＴＧ３の重複関係に基づいて学習が行われることで、対象物ＯＢＪＴの境界の曖昧さを考慮した学習を行うことができる。

また本実施形態によれば、複数のアノテーションＴＧ１～ＴＧ３の重複関係に基づいて学習が行われた学習済みモデル３０を用いることで、検出部５が、検出用画像ＩＭＧＤにおける対象物ＯＢＪＤの位置の確からしさを連続的又は段階的に示す位置情報ＨＴＭを、検出できる。そして、出力部６が、位置情報ＨＴＭに基づいて、検出用画像ＩＭＧＤにおける対象物ＯＢＪＤの位置の確からしさを連続的又は段階的に示す表示情報ＭＫＨを表示部３に表示させることができる。このようにすれば、対象物ＯＢＪＤの境界の曖昧さを考慮した位置情報の表示を行うことができる。

３．第２実施形態
第２実施形態では、境界の曖昧さを考慮された位置情報を検出することは第１実施形態と同様であるが、その境界の曖昧さを考慮した処理を出力側で行う。

図５は、第２実施形態における学習処理を説明する図である。教師データは第１実施形態と同様に、学習用画像ＩＭＧＴと複数のアノテーションＴＧ１～ＴＧ３とを含む。

学習モデル２０は、第１～第３学習モデル２１～２３を含む。学習モデル２１～２３は、例えば同一の推論アルゴリズムを用いるが、これに限定されるものではない。学習装置５０は、教師データを用いて学習モデル２１～２３に対する学習処理を行う。即ち、学習装置５０は、学習用画像ＩＭＧＴを学習モデル２１に入力し、学習モデル２１が検出した対象物ＯＢＪＴの第１位置情報とアノテーションＴＧ１とを比較し、その誤差に基づくフィードバックを学習モデル２１に対して行う。同様に、学習装置５０は、学習用画像ＩＭＧＴを学習モデル２２、２３に入力し、学習モデル２２、２３が検出した対象物ＯＢＪＴの第２、第３位置情報とアノテーションＴＧ２、ＴＧ３とを比較し、その誤差に基づくフィードバックを学習モデル２２、２３に対して行う。

上記学習によって、学習モデル２１は、アノテーションＴＧ１と同様な第１位置情報を出力するように学習される。即ち、学習モデル２１は、アノテーションＴＧ１のフラグデータと同様なフラグデータを第１位置情報として出力するように、学習される。同様に、学習モデル２２、２３は、アノテーションＴＧ２、ＴＧ３のフラグデータと同様なフラグデータを第２、第３位置情報として出力するように、学習される。

学習モデル２１～２３の各々が出力する位置情報は、フラグデータであるため、それ自体は境界が明瞭である。一方、学習モデル２０全体として見れば、アノテーションＴＧ１～ＴＧ３に対応した３つのフラグデータが得られるので、対象物ＯＢＪＴの境界の曖昧さが考慮された位置情報となっている。

図６は、第２実施形態における検出処理を説明する図である。学習済みモデル３０は、第１～第３学習済みモデル３１～３３を含む。学習済みモデル３１～３３は、それぞれ学習後の学習モデル２１～２３である。

検出部５は、検出用画像ＩＭＧＤから対象物ＯＢＪＤの第１～第３位置情報ＭＫ１～ＭＫ３を検出する。即ち、検出部５は、検出用画像ＩＭＧＤを学習済みモデル３１に入力し、学習済みモデル３１が検出した位置情報ＭＫ１を出力する。同様に、検出部５は、検出用画像ＩＭＧＤを学習済みモデル３２、３３に入力し、学習済みモデル３２、３３が検出した位置情報ＭＫ２、ＭＫ３を出力する。位置情報ＭＫ１～ＭＫ３は、各画素にフラグが付されたマップデータ、即ちフラグデータである。

図７は、第２実施形態における表示処理を説明する図である。

出力部６は、位置情報ＭＫ１～ＭＫ３に基づいて対象物ＯＢＪＤの位置情報ＨＴＭを出力する。位置情報ＨＴＭは、対象物ＯＢＪＤの位置の確からしさを連続的又は段階的に示す情報である。即ち、出力部６は、位置の確からしさを示す値が各画素に割り当てられたマップデータを位置情報ＨＴＭとして生成する。例えば、出力部６は、位置情報ＭＫ１～ＭＫ３を加算平均することでマップデータを生成する。

出力部６は、検出用画像ＩＭＧＤと位置情報ＨＴＭに基づいて表示画像ＩＭＧＨを生成し、その表示画像ＩＭＧＨを表示部３に出力する。表示画像ＩＭＧＨの生成手法は第１実施形態と同様である。

本実施形態によれば、学習済みモデル３１～３３が検出した位置情報ＭＫ１～ＭＫ３の各々は、フラグデータであるため、それ自体は境界が明瞭である。一方、出力部６が位置情報ＭＫ１～ＭＫ３を合成した位置情報ＨＴＭは、位置の確からしさを連続的又は段階的に示す情報となっている。この位置情報ＨＴＭを用いることで、対象物ＯＢＪＤの境界の曖昧さを考慮した位置情報の表示を行うことができる。

４．第３実施形態
第３実施形態では、アノテーションＴＧ１～ＴＧ３に対して重み付けを行い、その重み付けされたアノテーションＴＧ１～ＴＧ３を用いて学習を行う。

図８は、第３実施形態における学習処理を説明する図である。教師データは第１実施形態と同様に、学習用画像ＩＭＧＴと複数のアノテーションＴＧ１～ＴＧ３とを含む。

学習装置５０は、アノテーションＴＧ１～ＴＧ３に対して重み付けを行うことでアノテーションＴＧ１’～ＴＧ３’を生成する。アノテーションＴＧ１～ＴＧ３のうち最も重視すべきアノテーションに対して、より大きな重み付けを行う。例えば、アノテーションＴＧ１～ＴＧ３を作成した３人の作業者のうち、最も熟練度が高い作業者が作成したアノテーションに対して、より大きな重み付けを行う。具体的な重み付け処理としては、種々の処理を想定できるが、例えば以下の第１例、第２例を想定できる。

第１例では、学習装置５０は、アノテーションＴＧ１～ＴＧ３のフラグデータに重み係数ＷＧ１～ＷＧ３を乗算することでアノテーションＴＧ１’～ＴＧ３’を生成する。例えばＴＧ１においてフラグ「１」の画素には、ＴＧ１’において値「ＷＧ１」が割り当てられることになる。例えばアノテーションＴＧ１を重視する場合、ＷＧ１＞ＷＧ２、ＷＧ１＞ＷＧ３とする。

第２例では、学習装置５０は、最も重視するアノテーションの位置形状に近づけるようにアノテーションＴＧ１～ＴＧ３の位置形状を加工することでアノテーションＴＧ１’～ＴＧ３’を生成する。例えばアノテーションＴＧ１を重視する場合、学習装置５０は、アノテーションＴＧ２、ＴＧ３の位置形状をアノテーションＴＧ１の位置形状に近づける。例えば、学習装置５０は、アノテーションＴＧ１のフラグデータを重み係数としてアノテーションＴＧ２、ＴＧ３のフラグデータに乗算することでアノテーションＴＧ２’、ＴＧ３’を生成する。これにより、アノテーションＴＧ２、ＴＧ３のうちアノテーションＴＧ１に重なる部分のみが残り、それがアノテーションＴＧ２’、ＴＧ３’となる。アノテーションＴＧ１’はアノテーションＴＧ１と同じである。

学習装置５０は、図２で説明した第１実施形態における学習処理と同様にして、アノテーションＴＧ１’～ＴＧ３’を用いた学習処理を行う。

また検出部５は、図３で説明した第１実施形態における検出処理と同様にして、検出用画像ＩＭＧＤから対象物ＯＢＪＤの位置情報ＨＴＭを検出する。また出力部６は、図４で説明した第１実施形態における表示処理と同様にして、対象物ＯＢＪＤの位置情報ＨＴＭと検出用画像ＩＭＧＤとに基づいて表示画像ＩＭＧＨを生成する。

本実施形態によれば、複数のアノテーションＴＧ１～ＴＧ３の重複関係が重み付けされた教師データに基づいた学習が行われる。これにより、例えば熟練作業者が作成したアノテーションを重視した学習を行うことができる。そして、その学習により作成された学習済みモデル３０を用いて検出用画像ＩＭＧＤから対象物ＯＢＪＤの位置情報を検出することで、熟練作業者の知見をより大きく反映した検出結果を得ることができる。

なお、「重複関係が重み付けされる」とは、複数のアノテーションのうち、いずれのアノテーションとの重複関係を重視するかが重み付けされている、ということである。上記第１例では、アノテーションＴＧ１の重みが最も大きいので、アノテーションＴＧ２、ＴＧ３のうちアノテーションＴＧ１に重ならない部分が学習に与える影響度が相対的に小さくなる。上記第２例では、アノテーションＴＧ２、ＴＧ３のうちアノテーションＴＧ１に重なる部分のみが残る。即ち、アノテーションＴＧ１に重複する部分が重視されている。

５．第４実施形態
第４実施形態では、第３実施形態と同様に重み付けを行うが、学習済みモデル３０が検出した複数の位置情報に対して重み付けを行う。

図９は、第４実施形態における検出処理及び表示処理を説明する図である。第２実施形態と同様に、学習済みモデル３０は、第１～第３学習済みモデル３１～３３を含む。検出部５は、検出用画像ＩＭＧＤを学習済みモデル３１～３３に入力し、学習済みモデル３１～３３が検出した位置情報ＭＫ１～ＭＫ３を出力する。

出力部６は、位置情報ＭＫ１～ＭＫ３に対して重み付けを行うことで位置情報ＭＫ１’～ＭＫ３’を生成する。出力部６は、第３実施形態におけるアノテーションＴＧ１～ＴＧ３に対する重み付けと同様にして、位置情報ＭＫ１～ＭＫ３に対する重み付けを行う。即ち、重視したいアノテーションに対応した位置情報に対して、より大きな重み付けを行う。出力部６は、重み付け後の位置情報ＭＫ１’～ＭＫ３’から位置情報ＨＴＭを生成する。例えば、出力部６は、重み付け後の位置情報ＭＫ１’～ＭＫ３’を加算平均することでマップデータを生成する。出力部６は、図４で説明した第１実施形態における表示処理と同様にして、対象物ＯＢＪＤの位置情報ＨＴＭと検出用画像ＩＭＧＤとに基づいて表示画像ＩＭＧＨを生成する。

本実施形態によれば、学習済みモデル３１～３３が検出した位置情報ＭＫ１～ＭＫ３に対して重み付けされることで、位置情報ＨＴＭが生成される。これにより、例えば熟練作業者が作成したアノテーションを重視した位置情報ＨＴＭを生成できる。これにより、熟練作業者の知見をより大きく反映した検出結果を得ることができる。

６．第５実施形態
第５実施形態では、アノテーションＴＧ１～ＴＧ３の重複関係に基づくボケ処理を行い、ボケ処理後のアノテーションを用いて学習を行う。

図１０は、第５実施形態における学習処理を説明する図である。学習装置５０は、アノテーションＴＧ１～ＴＧ３に対してボケ処理を行うことでアノテーションＴＧＢＲを生成する。学習装置５０は、ボケ処理後のアノテーションＴＧＢＲと学習用画像ＩＭＧＴとを用いて学習モデル２０に対して学習処理を行う。ボケ処理として種々の処理を想定できるが、以下に一例を示す。

学習装置５０は、アノテーションＴＧ１～ＴＧ３の論理積と論理和を求める。論理積と論理和はフラグデータの各画素について実行され、論理積と論理和の結果は各々フラグデータとして出力される。アノテーションＴＧ１～ＴＧ３の論理積に対応した領域をＡＡＮＤとし、アノテーションＴＧ１～ＴＧ３の論理和に対応した領域をＡＯＲとする。学習装置５０は、領域ＡＡＮＤに属する画素には値「１」を割り当てると共に、領域ＡＯＲに対してボケ処理を行う。領域ＡＯＲはボケ処理によりグラデーションが施される。即ち、領域ＡＯＲでは、領域ＡＡＮＤから離れた画素ほど小さい値が割り当てられる。

なおボケ処理は上記に限定されない。例えば、学習装置５０は、アノテーションＴＧ１～ＴＧ３の各々に対してボケ処理を行うことで、アノテーションＴＧ１”～ＴＧ３”を生成し、そのアノテーションＴＧ１”～ＴＧ３”を用いて学習モデル２０に対する学習処理を行ってもよい。例えば、学習装置５０は、アノテーションＴＧ１～ＴＧ３の各々において、領域ＡＯＲに対するボケ処理を行うことで、アノテーションＴＧ１”～ＴＧ３”を生成してもよい。或いは、学習装置５０は、アノテーションＴＧ１～ＴＧ３の各々において、境界をぼかすボケ処理を行うことで、アノテーションＴＧ１”～ＴＧ３”を生成してもよい。

領域ＡＯＲに対するボケ処理、或いは境界に対するボケ処理は、例えばローパスフィルター処理により実現される。例えば、ボケ処理を施したい領域を指定するマスクを用いることで、特定の領域に対してローパスフィルター処理を行うことができる。

検出処理及び表示処理は第１実施形態と同様である。即ち、検出部５は、図３で説明した第１実施形態における検出処理と同様にして、検出用画像ＩＭＧＤから対象物ＯＢＪＤの位置情報ＨＴＭを検出する。また出力部６は、図４で説明した第１実施形態における表示処理と同様にして、対象物ＯＢＪＤの位置情報ＨＴＭと検出用画像ＩＭＧＤとに基づいて表示画像ＩＭＧＨを生成する。

本実施形態によれば、複数のアノテーションＴＧ１～ＴＧ３が重複しない領域に対してボケ処理された教師データに基づいて学習モデル２０が学習されることで、学習済みモデル３０が生成される。そして、その学習により作成された学習済みモデル３０を用いて検出用画像ＩＭＧＤから対象物ＯＢＪＤの位置情報を検出することで、対象物ＯＢＪＤの境界の曖昧さを考慮した位置情報の表示を行うことができる。なお、「アノテーションＴＧ１～ＴＧ３が重複しない領域」とは、アノテーションＴＧ１～ＴＧ３のうち少なくとも１つが重複していない領域であり、領域ＡＯＲから領域ＡＡＮＤを除いた領域である。

７．第６実施形態
第６実施形態では、第５実施形態と同様にボケ処理を行うが、学習済みモデル３０が検出した複数の位置情報に対してボケ処理を行う。

図１１は、第６実施形態における検出処理及び表示処理を説明する図である。第２実施形態と同様に、学習済みモデル３０は、第１～第３学習済みモデル３１～３３を含む。検出部５は、検出用画像ＩＭＧＤを学習済みモデル３１～３３に入力し、学習済みモデル３１～３３が検出した位置情報ＭＫ１～ＭＫ３を出力する。

出力部６は、位置情報ＭＫ１～ＭＫ３に対してボケ処理を行うことで位置情報ＨＴＭを生成する。ボケ処理として種々の処理を想定できるが、以下に一例を示す。

出力部６は、位置情報ＭＫ１～ＭＫ３の論理積と論理和を求める。論理積と論理和はフラグデータの各画素について実行され、論理積と論理和の結果は各々フラグデータとして出力される。位置情報ＭＫ１～ＭＫ３の論理積に対応した領域をＭＡＮＤとし、位置情報ＭＫ１～ＭＫ３の論理和に対応した領域をＭＯＲとする。出力部６は、領域ＭＡＮＤに属する画素には値「１」を割り当てると共に、領域ＭＯＲに対してボケ処理を行う。領域ＭＯＲはボケ処理によりグラデーションが施される。即ち、領域ＭＯＲでは、領域ＭＡＮＤから離れた画素ほど小さい値が割り当てられる。

なおボケ処理は上記に限定されない。例えば、出力部６は、位置情報ＭＫ１～ＭＫ３の各々に対してボケ処理を行うことで、位置情報ＭＫ１”～ＭＫ３”を生成し、その位置情報ＭＫ１”～ＭＫ３”を用いて位置情報ＨＴＭを生成してもよい。例えば、出力部６は、位置情報ＭＫ１～ＭＫ３の各々において、領域ＭＯＲに対するボケ処理を行うことで、位置情報ＭＫ１”～ＭＫ３”を生成してもよい。或いは、出力部６は、位置情報ＭＫ１～ＭＫ３の各々において、境界をぼかすボケ処理を行うことで、位置情報ＭＫ１”～ＭＫ３”を生成してもよい。例えば、出力部６は、位置情報ＭＫ１”～ＭＫ３”を加算平均することで位置情報ＨＴＭを生成してもよい。

本実施形態によれば、学習済みモデル３１～３３により位置情報ＭＫ１～ＭＫ３が検出され、その位置情報ＭＫ１～ＭＫ３が重複しない領域に対してボケ処理されることで、対象物ＯＢＪＤの位置情報ＨＴＭが生成される。この位置情報ＨＴＭを用いることで、対象物ＯＢＪＤの境界の曖昧さを考慮した位置情報の表示を行うことができる。なお、「位置情報ＭＫ１～ＭＫ３が重複しない領域」とは、位置情報ＭＫ１～ＭＫ３のうち少なくとも１つが重複していない領域であり、領域ＭＯＲから領域ＭＡＮＤを除いた領域である。

８．第７実施形態
第７実施形態では、複数のアノテーションから求めた論理積と論理和の各々に対して学習を行うことで、論理積に対応する位置情報と、論理和に対応する位置情報とを検出及び表示できるようにする。

図１２は、第７実施形態における学習処理を説明する図である。学習装置５０は、アノテーションＴＧ１～ＴＧ３の論理積に対応したフラグデータＴＧＡＮＤと、アノテーションＴＧ１～ＴＧ３の論理和に対応したフラグデータＴＧＯＲと、を求める。領域ＡＡＮＤは、アノテーションＴＧ１～ＴＧ３の論理積に対応し、フラグデータＴＧＡＮＤは、領域ＡＡＮＤに属する画素にフラグが付されたデータである。領域ＡＯＲは、アノテーションＴＧ１～ＴＧ３の論理和に対応し、フラグデータＴＧＯＲは、領域ＡＯＲに属する画素にフラグが付されたデータである。

学習モデル２０は、第１学習モデル２１と第２学習モデル２２とを含む。学習装置５０は、学習用画像ＩＭＧＴを学習モデル２１に入力し、学習モデル２１が検出した対象物ＯＢＪＴの第１位置情報とフラグデータＴＧＡＮＤとを比較し、その誤差に基づくフィードバックを学習モデル２１に対して行う。また、学習装置５０は、学習用画像ＩＭＧＴを学習モデル２２に入力し、学習モデル２２が検出した対象物ＯＢＪＴの第２位置情報とフラグデータＴＧＯＲとを比較し、その誤差に基づくフィードバックを学習モデル２２に対して行う。

学習モデル２１は、例えば領域検出（セマンティックセグメンテーション）を行う推論アルゴリズムを用いる。学習モデル２２は、例えば存在検出（ディテクション）を行う推論アルゴリズムを用いる。存在検出を行う学習モデル２２は、例えば対象物を内包する矩形を位置情報として検出する。なお学習モデル２１、２２が用いる推論アルゴリズムは、これに限定されない。例えば学習モデル２１、２２ともに領域検出を行ってもよい。この場合、学習モデル２２が検出した領域を内包する矩形を、位置情報としてもよい。

図１３は、第７実施形態における検出処理及び表示処理を説明する図である。学習済みモデル３０は、第１学習済みモデル３１と第２学習済みモデル３２とを含む。学習済みモデル３１、３２は、それぞれ学習後の学習モデル２１、２２である。

検出部５は、検出用画像ＩＭＧＤを学習済みモデル３１に入力し、学習済みモデル３１が検出した第１位置情報ＭＫＡＲを出力する。位置情報ＭＫＡＲは、対象物ＯＢＪＤが検出された領域に属する画素にフラグが付されたフラグデータである。また検出部５は、検出用画像ＩＭＧＤを学習済みモデル３２に入力し、学習済みモデル３２が検出した第２位置情報ＭＫＤＴを出力する。位置情報ＭＫＤＴは、点線で示す論理和領域を内包する矩形である。但し、学習済みモデル３２が存在検出を行う場合には論理和領域は検出されず、矩形の位置情報ＭＫＤＴが直接に検出される。

出力部６は、位置情報ＭＫＡＲに基づく第１表示情報ＨＹＡＲと、位置情報ＭＫＤＴに基づく第２表示情報ＨＹＤＴとを生成し、表示情報ＨＹＡＲ、ＨＹＤＴを区別して検出用画像ＩＭＧＤに合成することで表示画像ＩＭＧＨを生成する。例えば、表示情報ＨＹＡＲは、位置情報ＭＫＡＲの領域に特定色を付したものである。表示情報ＨＹＤＴは、位置情報ＭＫＤＴの矩形を表示するものである。

本実施形態によれば、対象物ＯＢＪＤの境界の曖昧さを考慮した位置情報の表示を行うことができる。具体的には、アノテーションＴＧ１～ＴＧ３の重複領域に相当する位置情報ＭＫＡＲと、アノテーションＴＧ１～ＴＧ３が重複しない領域に相当する位置情報ＭＫＤＴとを、生成できる。これらの位置情報ＭＫＡＲ、ＭＫＤＴを用いることで、対象物ＯＢＪＤの位置の確からしさに応じた表示が可能となる。即ち、位置の確からしさが高い領域を表示情報ＨＹＡＲで示すと共に、対象物ＯＢＪＤの可能性があるが相対的に確からしさが低い領域を矩形の表示情報ＨＹＤＴで示すことができる。

９．アノテーション、対象物
学習用画像に対するアノテーションの例と、アノテーション対象である対象物の例と、を説明する。なお以下では腹腔鏡下胆のう摘出手術を例に説明するが、上述した実施形態の適用対象は腹腔鏡下胆のう摘出手術に限定されない。即ち、同一画像の同一対象物に複数のアノテーションが付された教師データに基づいて機械学習が行われ、その学習済みモデルにより画像から対象物が検出される場合に、上述した実施形態を適用可能である。

図１４に、アノテーションの例を示す。アノテーション前の学習用画像には、肝臓ＫＺと、胆のうＴＮＮと、処置具ＴＬ１、ＴＬ２とが撮像されている。この学習用画像の画角内には、総胆管、胆のう管、ルビエレ溝及びＳ４下縁が含まれている。図１４において、肝臓右葉の実線部分は、ルビエレ溝の開始部分（比較的明瞭な部分）を示し、点線部分は溝の終了部分に向かって徐々に溝が消失していく状態を示す。また、肝臓左葉内側の下縁付近の点線は、画像で視認できるが境界が曖昧な対象物であるＳ４下縁の領域を示す。

アノテーションを行う作業者は、学習用画像から総胆管及び胆のう管、ルビエレ溝、Ｓ４下縁を識別し、各々に対してタグ付けを行う。アノテーション後の学習用画像には、総胆管を示すタグＴＧＡと、胆のう管を示すタグＴＧＢと、ルビエレ溝を示すタグＴＧＣと、Ｓ４下縁を示すタグＴＧＤが付されている。例えば、作業者は、マウス又はタッチパネル等のポインティングデバイスを用いて、総胆管等の領域を指定する。学習装置は、作業者によって指定された学習用画像上の領域にタグを付す。

総胆管と胆のう管は、臓器又は組織に覆われている対象物の例である。このような対象物は、カメラの画角内に入っていたとしても、対象物そのものは画像上では見えない。このため、対象物の位置形状は明確でない。腹腔鏡下胆のう摘出手術の内視鏡画像において、総胆管は肝臓に覆われており、総胆管そのものは画像に表示されない。ルビエレ溝とＳ４下縁は、画像中に露出して視認できるが、境界が曖昧な対象物の例である。腹腔鏡下胆のう摘出手術の内視鏡画像において、ルビエレ溝は視認可能であり、その溝の開始部分は比較的明瞭である。しかし、溝の終了部分に向かって徐々に溝が消失していくため、ルビエレ溝の境界が曖昧となっている。Ｓ４下縁は、肝臓左葉内側の下縁であり視認できるが、境界が曖昧である。

図１５に、アノテーションにより生成された教師データの例を示す。図１５に示すように、タグ付けされた領域の画素に、フラグが付される。この各画素にフラグが付されたマップデータを、フラグデータと呼ぶ。フラグデータは、タグＴＧＡ～ＴＧＤの各々について生成される。即ち、教師データは、学習用画像と、その学習用画像にタグ付けすることで生成された４層のフラグデータと、で構成されている。

なお図１５には、１人の作業者が付したアノテーションを図示している。複数の作業者がアノテーションを付す場合、同一の学習用画像に対して、４層のフラグデータのセットが、作業者の人数分だけ付されることになる。即ち、総胆管、胆のう管、ルビエレ溝及びＳ４下縁の各々に対して、作業者の人数分だけアノテーションが付される。

１０．学習装置
図１６は、学習装置５０の構成例である。学習装置５０は、処理部５１と記憶部５２と操作部５３と表示部５４とを含む。例えば、学習装置５０はＰＣ等の情報処理装置である。処理部５１はＣＰＵ等のプロセッサである。処理部５１は、学習モデルに対する機械学習を行って学習済みモデルを生成する。記憶部５２は半導体メモリ又はハードディスクドライブ等の記憶装置である。操作部５３はマウス又はタッチパネル、キーボード等の種々の操作入力装置である。表示部５４は液晶ディスプレイ等の表示装置である。なお学習装置５０は、ネットワークで接続された複数の情報処理装置が並列処理を行うクラウドシステムであってもよい。

なお、図１の情報処理システム１０が学習装置を兼ねてもよい。この場合、処理部４、記憶部７、操作部９、表示部３が、それぞれ学習装置５０の処理部５１、記憶部５２、操作部５３、表示部５４に対応する。

図１７は、学習の手順を示すフローチャートである。

教師データは記憶部５２に記憶されている。ステップＳ１１において、処理部５１は記憶部５２から教師データを読み出す。例えば１回の推論に対して１つの学習用画像と、それに対応したフラグデータとが読み出される。なお、１回の推論に複数の学習用画像と、それに対応したフラグデータとが用いられてもよい。

ステップＳ１２において、処理部５１は対象物の位置情報を推定し、その結果を出力する。即ち、処理部５１は、ニューラルネットワークに学習用画像を入力する。処理部５１は、ニューラルネットワークによる推論処理を実行し、対象物の位置情報を出力する。

ステップＳ１３において、処理部５１は、ニューラルネットワークが推定した位置情報と、教師データのアノテーションが示す位置情報を比較し、その結果に基づいて誤差を計算する。

ステップＳ１４において、処理部５１は、誤差が減少するように学習モデルのモデルパラメータを調整する。即ち、処理部５１は、ステップＳ１３で求めた誤差に基づいて、ニューラルネットワークにおけるノード間の重み係数等を調整する。

ステップＳ１５において、処理部５１は、パラメータ調整を規定回数終了したか否かを判断する。パラメータ調整が規定回数終了していない場合、処理部５１はステップＳ１１～Ｓ１５を再び実行する。パラメータ調整が規定回数終了した場合、ステップＳ１６に示すように処理部５１は学習処理を終了する。又は、処理部５１は、ステップＳ１３で求めた誤差が規定値以下になったか否かを判断する。誤差が規定値以下になっていない場合、処理部５１はステップＳ１１～Ｓ１５を再び実行する。誤差が規定値以下になった場合、ステップＳ１６に示すように処理部５１は学習処理を終了する。学習処理後の学習モデルが学習済みモデルである。

学習モデル及び学習済みモデルは、ニューラルネットワークを含むことができる。ニューラルネットワークは、データを入力する入力層と、入力層を通じて入力されたデータに対し演算処理を行う中間層と、中間層から出力される演算結果に基づいてデータを出力する出力層と、を含む。本実施形態において、入力層に入力されるデータは、学習用画像又は検出用画像である。また出力層から出力されるデータは、対象物の位置形状を示す位置情報である。なお、ニューラルネットワークとして、公知の様々なＡＩ（Artificial Intelligence）技術を採用できる。ニューラルネットワークを利用するためには、学習や推論アルゴリズムを実行するためのソフトウェア開発を行う必要があるが、市販化、無償公開されたソフトウェアパッケージも現在複数入手可能であり、それらを利用することもできる。また、ニューラルネットワークにおける機械学習のアルゴリズムとして、公知の種々な学習アルゴリズムを採用でき、例えば、誤差逆伝播法を用いた教師有り学習アルゴリズムを採用できる。

また、学習済みモデルは、コンピュータにより読み取り可能な媒体である情報記憶媒体に、格納されてもよい。情報記憶媒体は、例えば光ディスク、メモリカード、ＨＤＤ、或いは半導体メモリなどにより実現できる。半導体メモリは例えばＲＯＭである。図１の情報処理システム１０は、情報記憶媒体に格納されるプログラムとデータに基づいて本実施形態の種々の処理を行う。即ち情報記憶媒体には、本実施形態の学習済みモデルをコンピュータに実行させるためのプログラムとパラメータが記憶される。コンピュータは、入力装置、及び処理部、記憶部、出力部を備える装置である。プログラムは、学習済みモデルの推論アルゴリズムをコンピュータに実行させるためのプログラムである。パラメータは、推論アルゴリズムに用いられるパラメータであり、例えばニューラルネットワークにおけるノード間接続の重み係数である。情報記録媒体としては、ＤＶＤやＣＤ等の光ディスク、光磁気ディスク、ハードディスク、不揮発性メモリやＲＡＭ等のメモリなど、コンピュータによって読み取り可能な種々の記録媒体を想定できる。

以上、本発明を適用した実施形態およびその変形例について説明したが、本発明は、各実施形態やその変形例そのままに限定されるものではなく、実施段階では、発明の要旨を逸脱しない範囲内で構成要素を変形して具体化することができる。また、上記した各実施形態や変形例に開示されている複数の構成要素を適宜組み合わせることによって、種々の発明を形成することができる。例えば、各実施形態や変形例に記載した全構成要素からいくつかの構成要素を削除してもよい。さらに、異なる実施の形態や変形例で説明した構成要素を適宜組み合わせてもよい。このように、発明の主旨を逸脱しない範囲内において種々の変形や応用が可能である。また、明細書又は図面において、少なくとも一度、より広義または同義な異なる用語と共に記載された用語は、明細書又は図面のいかなる箇所においても、その異なる用語に置き換えることができる。

１プロセッサユニット、２内視鏡スコープ、３表示部、４処理部、５検出部、６出力部、７記憶部、８撮像データ受信部、９操作部、１０情報処理システム、２０学習モデル、２１第１学習モデル、２２第２学習モデル、２３第３学習モデル、５０学習装置、５１処理部、５２記憶部、５３操作部、５４表示部、１００内視鏡システム、ＨＴＭ位置情報、ＨＹＡＲ，ＨＹＤＴ表示情報、ＩＭＧＤ検出用画像、ＩＭＧＨ表示画像、ＩＭＧＴ学習用画像、ＭＫ１～ＭＫ３位置情報、ＭＫＡＲ，ＭＫＤＴ位置情報、ＭＫＨ表示情報、ＯＢＪＤ，ＯＢＪＴ対象物、ＴＧ１～ＴＧ３アノテーション

Claims

学習済みモデルの情報を記憶する記憶部と、
検出用画像から対象物の位置情報を検出する検出処理を、前記学習済みモデルの情報に基づいて行い、前記検出処理により検出した前記位置情報を出力する処理部と、
を含み、
前記学習済みモデルは、
学習用画像における対象物に対して複数のアノテーションが付された教師データに基づいて学習され、前記複数のアノテーションの重複関係に基づいて前記学習用画像における前記対象物の位置情報を出力するように学習されたことを特徴とする情報処理システム。
請求項１において、
前記学習済みモデルは、
前記複数のアノテーションの重複関係に基づいて前記学習用画像における前記対象物の確からしさを連続的又は段階的に示す前記位置情報を出力するように学習され、
前記処理部は、
前記検出処理において、前記対象物の位置の確からしさを連続的又は段階的に示す前記位置情報を前記検出用画像から検出し、
前記位置情報に基づいて、前記対象物の位置の確からしさを連続的又は段階的に示す表示情報を前記検出用画像に合成することで、表示画像を生成することを特徴とする情報処理システム。
請求項１において、
前記学習済みモデルは、
前記複数のアノテーションが重複する領域に基づいて学習された第１学習済みモデルと、
前記複数のアノテーションが重複しない領域に基づいて学習された第２学習済みモデルと、
を含み、
前記処理部は、
前記検出処理において、前記第１学習済みモデルに基づいて前記検出用画像から前記対象物の第１位置情報を検出し、前記第２学習済みモデルに基づいて前記検出用画像から前記対象物の第２位置情報を検出し、
前記第１位置情報に基づく第１表示情報と、前記第２位置情報に基づく第２表示情報とを区別して、前記検出用画像に合成することで、表示画像を生成することを特徴とする情報処理システム。
請求項１において、
前記学習済みモデルは、
前記複数のアノテーションの前記重複関係が重み付けされた前記教師データに基づいて学習されることで、前記重み付けされた前記重複関係に基づいて前記学習用画像における前記対象物の位置情報を出力するように学習され、
前記処理部は、
前記重み付けされた前記重複関係に基づいて学習された前記学習済みモデルを用いて、前記対象物の位置の確からしさを連続的又は段階的に示す前記位置情報を前記検出用画像から検出し、
前記位置情報に基づいて、前記対象物の位置の確からしさを連続的又は段階的に示す表示情報を前記検出用画像に合成することで、表示画像を生成することを特徴とする情報処理システム。
複数の学習済みモデルである第１～第ｎ（ｎは２以上の整数）学習済みモデルの情報を記憶する記憶部と、
検出用画像から対象物の第１～第ｎ位置情報をそれぞれ検出する検出処理を、前記第１～第ｎ学習済みモデルの情報に基づいてそれぞれ行い、前記検出処理により検出した前記第１～第ｎ位置情報を出力する処理部と、
を含み、
前記第１～第ｎ学習済みモデルはそれぞれ、学習用画像における対象物に対して付された第１～第ｎアノテーションに基づいて、前記学習用画像における前記対象物の第１～第ｎ位置情報をそれぞれ出力するようにそれぞれ学習され、
前記処理部は、
前記検出処理において、前記第１～第ｎ学習済みモデルのそれぞれに基づいて前記検出用画像から前記対象物の第１～第ｎ位置情報をそれぞれ検出し、
前記第１～第ｎ位置情報の重複関係を重み付けすることで、前記対象物の位置の確からしさを連続的又は段階的に示す表示情報を生成し、前記表示情報を前記検出用画像に合成することで表示画像を生成することを特徴とする情報処理システム。
請求項１において、
前記学習済みモデルは、
前記複数のアノテーションが重複しない領域に対してボケ処理された前記教師データに基づいて学習され、
前記処理部は、
前記ボケ処理された前記教師データに基づいて学習された前記学習済みモデルを用いて、前記対象物の位置の確からしさを連続的又は段階的に示す前記位置情報を前記検出用画像から検出し、
前記位置情報に基づいて、前記対象物の位置の確からしさを連続的又は段階的に示す表示情報を前記検出用画像に合成することで、表示画像を生成することを特徴とする情報処理システム。
複数の学習済みモデルである第１～第ｎ（ｎは２以上の整数）学習済みモデルの情報を記憶する記憶部と、
検出用画像から対象物の第１～第ｎ位置情報をそれぞれ検出する検出処理を、前記第１～第ｎ学習済みモデルの情報に基づいてそれぞれ行い、前記検出処理により検出した前記第１～第ｎ位置情報を出力する処理部と、
を含み、
前記第１～第ｎ学習済みモデルはそれぞれ、学習用画像における対象物に対して付された第１～第ｎアノテーションに基づいて、前記学習用画像における前記対象物の第１～第ｎ位置情報をそれぞれ出力するようにそれぞれ学習され、
前記処理部は、
前記検出処理において、前記第１～第ｎ学習済みモデルのそれぞれに基づいて前記検出用画像から前記対象物の第１～第ｎ位置情報をそれぞれ検出し、
前記第１～第ｎ位置情報の重複しない領域に対してボケ処理を行い、前記ボケ処理後の位置情報に基づいて、前記対象物の位置の確からしさを連続的又は段階的に示す表示情報を生成し、前記表示情報を前記検出用画像に合成することで表示画像を生成することを特徴とする情報処理システム。
複数の学習済みモデルである第１～第ｎ（ｎは２以上の整数）学習済みモデルの情報を記憶する記憶部と、
検出用画像から対象物の第１～第ｎ位置情報をそれぞれ検出する検出処理を、前記第１～第ｎ学習済みモデルの情報に基づいてそれぞれ行い、前記検出処理により検出した前記第１～第ｎ位置情報を出力する処理部と、
を含み、
前記第１～第ｎ学習済みモデルはそれぞれ、学習用画像における対象物に対して付された第１～第ｎアノテーションに基づいて、前記学習用画像における前記対象物の第１～第ｎ位置情報をそれぞれ出力するようにそれぞれ学習され、
前記処理部は、
前記検出処理において、前記第１～第ｎ学習済みモデルのそれぞれに基づいて前記検出用画像から前記対象物の第１～第ｎ位置情報をそれぞれ検出し、前記第１～第ｎ位置情報の重複関係に基づいて前記対象物の位置情報を出力することを特徴とする情報処理システム。
請求項１乃至８のいずれか一項に記載の情報処理システムを有するプロセッサユニットと、
前記プロセッサユニットに接続され、前記検出用画像を撮像して前記プロセッサユニットに送信する内視鏡スコープと、
前記プロセッサユニットに接続され、前記情報処理システムにより前記検出用画像から検出された前記対象物の位置情報に基づいて、前記対象物の位置を示す表示情報が重畳された前記検出用画像を表示する表示部と、
を含むことを特徴とする内視鏡システム。
学習済みモデルに基づく検出処理を行う情報処理方法であって、
前記学習済みモデルは、
学習用画像における対象物に対して複数のアノテーションが付された教師データに基づいて学習され、前記複数のアノテーションの重複関係に基づいて前記学習用画像における前記対象物の位置情報を出力するように学習された学習済みモデルであり、
検出用画像から対象物の位置情報を検出する前記検出処理を行い、
前記検出処理により検出した前記位置情報を出力することを特徴とする情報処理方法。
学習用画像における対象物に対して複数のアノテーションが付された教師データを受け付ける工程と、
ニューラルネットワークの入力層において、前記学習用画像を受け付ける工程と、
前記ニューラルネットワークの中間層において、前記入力層を通じて入力された前記学習用画像に対して演算処理を行う工程と、
前記ニューラルネットワークの出力層において、前記学習用画像における前記対象物の位置情報を出力する工程と、
前記出力層において出力される前記位置情報と前記教師データとに基づいて前記ニューラルネットワークに対して学習処理を行うことで、前記複数のアノテーションの重複関係に基づく前記位置情報が前記出力層において出力されるように前記ニューラルネットワークを学習させる工程と、
を含むことを特徴とする学習済みモデルの製造方法。