JP2022182149A

JP2022182149A - 情報処理装置、画像処理方法

Info

Publication number: JP2022182149A
Application number: JP2021089523A
Authority: JP
Inventors: 嵩豊辰巳; Takato Tatsumi; 清弘小原; Kiyohiro Obara; 圭介稲田; Keisuke Inada
Original assignee: Hitachi High Tech Corp
Current assignee: Hitachi High Tech Corp
Priority date: 2021-05-27
Filing date: 2021-05-27
Publication date: 2022-12-08
Also published as: US20220383616A1

Abstract

【課題】機械学習で学習済みのモデルを用いた画像認識により分類された画像について、その画像全体での分類の根拠を示すことが可能な情報処理装置を提供する。【解決手段】情報処理装置１００は、解析対象取得部１０１と、画像加工部１０２と、推論部１０３と、推論結果抽出部１０４と、根拠生成部１０５とを備える。画像加工部１０２は、複数のマスクを用いて画像をそれぞれマスクすることで複数のマスク済み画像を生成する。推論結果抽出部１０４は、各マスク済み画像の推論結果から、画像内で指定された対象座標における推論結果を抽出する。根拠生成部１０５は、推論結果抽出部１０４により抽出された対象座標における推論結果および複数のマスクに基づいて、モデルによる画像の分類結果に対する判断根拠を可視化した根拠マップを生成する。【選択図】図１

Description

本発明は、情報処理装置および画像処理方法に関する。

近年、機械学習を用いて画像認識等の画像処理を行う情報処理装置が広く利用されている。機械学習を用いた情報処理装置では、認識の精度の向上に加えて、その認識の信頼性の向上が求められる。

機械学習による画像認識の信頼性の向上に関して、例えば特許文献１の技術が知られている。特許文献１では、学習済みの第１のニューラルネットワークと、重みパラメータに初期値が設定された第２のニューラルネットワークとを有し、第２のニューラルネットワークに基づいてマスクを生成するとともに、入力データとマスクを合成した合成データと第１のニューラルネットワークとに基づく推論値の評価結果に基づいて、第１のニューラルネットワークまたは第２のニューラルネットワークのいずれかを更新する情報処理装置が開示されている。これにより、ニューラルネットワークによる出力の精度劣化を抑制しつつ、ニューラルネットワークの説明性を向上させるようにしている。

特許第６８０１７５１号公報

特許文献１では、第１ニューラルネットワークは、マスク領域外から推論を行うモデルとなるため、このモデルの注目領域を可視化することによって、その注目領域を推論に利用された領域として把握することができると説明されている。すなわち、特許文献１の技術を適用することで、入力画像のどの部分に基づいてニューラルネットワークによる画像分類が行われたかを示すことができる。

しかしながら、特許文献１の技術では、推論のモデルの注目領域を可視化することは可能であるが、画像全体での画像分類の根拠を示すことができない。

本発明は、上記課題に鑑みてなされたものであり、その主な目的は、機械学習で学習済みのモデルを用いた画像認識により分類された画像について、その画像全体での分類の根拠を示すことが可能な情報処理装置および画像処理方法を提供することにある。

本発明による情報処理装置は、解析対象とする画像を取得する解析対象取得部と、前記画像に対して複数のマスクを設定し、前記複数のマスクを用いて前記画像をそれぞれマスクすることで複数のマスク済み画像を生成する画像加工部と、前記複数のマスク済み画像に対して、機械学習による学習済みのモデルを用いた推論をそれぞれ行い、前記複数のマスク済み画像の各々について、前記画像の分類に関する推論結果を取得する推論部と、前記推論部により取得された各マスク済み画像の推論結果から、前記画像内で指定された対象座標における推論結果を抽出する推論結果抽出部と、前記推論結果抽出部により抽出された前記対象座標における推論結果および前記複数のマスクに基づいて、前記モデルによる前記画像の分類結果に対する判断根拠を可視化した根拠マップを生成する根拠生成部と、を備える。
本発明による画像処理方法は、情報処理装置を用いたものであって、解析対象とする画像を取得し、前記画像に対して複数のマスクを設定し、前記複数のマスクを用いて前記画像をそれぞれマスクすることで複数のマスク済み画像を生成し、前記複数のマスク済み画像に対して、機械学習による学習済みのモデルを用いた推論をそれぞれ行うことで、前記複数のマスク済み画像の各々について、前記画像の分類に関する推論結果を取得し、取得した各マスク済み画像の推論結果から、前記画像内で指定された対象座標における推論結果を抽出し、抽出した前記対象座標における推論結果および前記複数のマスクに基づいて、前記モデルによる前記画像の分類結果に対する判断根拠を可視化した根拠マップを生成する。

本発明によれば、機械学習で学習済みのモデルを用いた画像認識により分類された画像について、その画像全体での分類の根拠を示すことが可能な情報処理装置および画像処理方法を提供することができる。

本発明の第１の実施形態に係る情報処理装置の構成例を示すブロック図である。本発明の第１の実施形態に係る情報処理装置の処理内容の一例を示すフローチャートである。マスク加工の例を説明する図である。推論結果の抽出例を説明する図である。根拠マップ生成の例を説明する図である。本発明の第２の実施形態に係る情報処理装置の処理内容の一例を示すフローチャートである。根拠マップ生成の例を説明する図である。本発明の第３の実施形態に係る情報処理装置の処理内容の一例を示すフローチャートである。本発明の第４の実施形態に係る情報処理装置の構成例を示すブロック図である。本発明の第４の実施形態に係る情報処理装置の処理内容の一例を示すフローチャートである。学習画像が生成される画像の例を示す図である。テンプレート領域決定の例を説明する図である。学習画像生成の例を説明する図である。

以下、図面を参照して本発明の実施形態を説明する。以下の記載および図面は、本発明を説明するための例示であって、説明の明確化のため、適宜、省略および簡略化がなされている。本発明は、他の種々の形態でも実施する事が可能である。特に限定しない限り、各構成要素は単数でも複数でも構わない。

以下の各実施形態で説明される本発明の情報処理装置の一例は、機械学習が適用される解析装置の学習を支援する用途に用いられるものである。機械学習としては、学習データ（教師データ）を用いてニューラルネットワークを学習するものがあげられる。このような情報処理装置は、例えばＰＣ（パーソナルコンピュータ）やサーバ等の一般的な計算機を用いて構成可能である。すなわち、本発明にかかる情報処理装置は、一般的なＰＣやサーバと同様に、ＣＰＵ、ＲＯＭ、ＲＡＭ等を用いて構成される演算処理装置と、ＨＤＤ（Hard Disk Drive）やＳＳＤ（Solid State Drive）等を用いて構成される記憶装置と、各種周辺機器とを備えている。この情報処理装置で実行されるプログラムは、記憶装置に予め組み込んでおくものとする。以下の説明では、情報処理装置が当然備えるこれらの構成要素を敢えて図示することはなく、各実施形態の情報処理装置で実現される機能に着目して説明する。

具体的には、各実施形態の情報処理装置が有する機能は、記憶装置に記憶されて演算処理装置で実行されるプログラムによって実現される。すなわち、各実施形態で説明される計算や制御等の機能は、記憶装置に格納されたプログラムが演算処理装置によって実行されることで、ソフトウェアとハードウェアが協働して実現される。以下の説明では、計算機などが実行するプログラム、その機能、あるいはその機能を実現する手段を、「機能」、「手段」、「部」、「ユニット」、「モジュール」等と呼ぶ場合がある。

なお、各実施形態の情報処理装置の構成は、単体のコンピュータで構成してもよいし、あるいは、ネットワークで相互に接続された複数のコンピュータで構成されてもよい。発明の思想としては等価であり、変わるところがない。

また、各実施形態の情報処理装置では、ソフトウェアにより実現される機能で本発明を説明しているが、これと同等の機能は、ＦＰＧＡ（Field Programmable Gate Array）、ＡＳＩＣ（Application Specific Integrated Circuit）などのハードウェアでも実現できる。また、各種ソフトウェアとハードウェアを組み合わせて実現してもよい。これらの態様も本発明の範囲に含まれる。

［第１の実施形態］
図１は、本発明の第１の実施形態に係る情報処理装置１００の構成例を示すブロック図である。図１に示すように、本実施形態に係る情報処理装置１００は、解析対象取得部１０１、画像加工部１０２、推論部１０３、推論結果抽出部１０４、根拠生成部１０５、入力インターフェース１０６、出力インターフェース１０７、および外部インターフェース１０８の各機能ブロックを備える。これらの機能ブロックは、バス１０９を介して相互に接続されている。バス１０９は、各機能ブロックで扱われるデータ、制御情報、解析情報等を保持するとともに、各機能ブロック間での情報伝送を仲介する。

なお、冒頭で述べたように、図１の各機能ブロックは、ソフトウェアまたはハードウェア、あるいはこれらの組み合わせにより実現される。情報処理装置１００は、図１で示したもの以外に、コンピュータが通常備える各種ハードウェアやインターフェース等を備えていてもよい。

情報処理装置１００は、入力装置１１０、表示装置１１１および情報機器１１２に接続されている。情報処理装置１００は、これらと有線接続されてもよいし、無線接続されてもよい。なお、図１では、入力装置１１０および表示装置１１１を情報処理装置１００の外部に設けた例で示したが、これらを情報処理装置１００に内蔵してもよい。

解析対象取得部１０１は、情報処理装置１００が解析対象とする画像を取得する。この画像は、例えば不図示の記憶装置に格納された画像のうち、入力装置１１０から入力インターフェース１０６を介して入力されるユーザの入力操作によって選択された画像であってもよいし、外部の情報機器１１２から外部インターフェース１０８を介して入力された画像であってもよい。機械学習による学習済みのモデルによって分類可能な画像であり、不図示の解析装置において解析対象とされる画像であれば、任意の画像を解析対象取得部１０１により取得することができる。

画像加工部１０２は、解析対象取得部１０１が取得した画像にマスクを用いた画像処理を行うことでマスク済み画像を生成する。画像加工部１０２は、１つの画像に対して複数のマスクを設定し、マスクごとに画像をそれぞれマスクすることで、複数のマスク済み画像を生成することができる。

推論部１０３は、画像加工部１０２が１つの画像から生成した複数のマスク済み画像に対して、機械学習による学習済みのモデルを用いた推論をそれぞれ行う。これにより、複数のマスク済み画像の各々について、その画像内に写っている物体が何であるかを判断し、その判断結果を元のマスク前の画像の分類に関する推論結果として取得することができる。なお、推論部１０３が行う推論によって得られる画像の分類を、以下では「クラス」と称する。すなわち、推論部１０３は、マスク済み画像に写っている様々な物体の種類を判断することで、各物体の分類を表すクラスを、マスク前の画像に関する推論結果として取得することができる。マスク済み画像内に複数種類の物体が存在する場合や、マスク済み画像内に物体以外の背景部分が存在する場合などは、これらに対応する画像領域のそれぞれに対応するクラスが、マスク前の画像に関する推論結果として画像領域ごとに取得される。

推論結果抽出部１０４は、推論部１０３により取得された各マスク済み画像の推論結果から、元のマスク前の画像内で指定された対象座標における推論結果を抽出する。なお、対象座標の指定は、例えば入力装置１１０から入力インターフェース１０６を介して入力されるユーザの入力操作によって行われる。

根拠生成部１０５は、推論結果抽出部１０４により抽出された対象座標における推論結果と、画像加工部１０２がマスク済み画像を生成する際に設定した複数のマスクとに基づいて、根拠マップを生成する。この根拠マップは、不図示の解析装置において学習済みのモデルを用いて実行される画像の分類結果に対する判断根拠を可視化したものである。なお、根拠生成部１０５が生成する根拠マップの具体例については後述する。

入力インターフェース１０６は、入力装置１１０と接続されており、入力装置１１０を用いて行われるユーザの入力操作を受け付ける。入力装置１１０は、例えばマウスやキーボード等を用いて構成される。ユーザが入力装置１１０を用いて情報処理装置１００に対する各種の指示操作や選択操作を入力すると、その入力操作内容が入力インターフェース１０６を介して、情報処理装置１００内の各機能ブロックに伝達される。これにより、各機能ブロックにおいて、ユーザの入力操作に応じた処理を行うことができる。例えば解析対象取得部１０１では、入力インターフェース１０６を介して行われたユーザの入力操作に基づいて、解析対象とする画像や、その画像内で指定された対象座標などを取得することができる。

出力インターフェース１０７は、表示装置１１１と接続されており、表示装置１１１に各種画像や情報を出力してその内容を表示装置１１１に表示させる。表示装置１１１は、例えば液晶ディスプレイ等を用いて構成される。情報処理装置１００は、出力インターフェース１０７を介して、例えば根拠生成部１０５により生成された根拠マップなどを表示装置１１１に表示させることで、ユーザに対する情報提供を行うことができる。このとき出力インターフェース１０７は、根拠マップをそのまま表示させてもよいし、解析対象とした画像に根拠マップを重畳した画面を表示させてもよい。

外部インターフェース１０８は、外部の情報機器１１２と接続されており、情報処理装置１００と情報機器１１２の間で送受信される通信データの中継を行う。情報機器１１２は、例えば情報処理装置１００と同一ネットワーク内に存在するＰＣまたはサーバや、クラウド上に存在するサーバなどが該当する。情報処理装置１００は、情報機器１１２から外部インターフェース１０８を介して通信データを受信することで、情報処理装置１００内の各機能ブロックで用いられる様々な情報やデータを取得することができる。例えば解析対象取得部１０１では、情報機器１１２から外部インターフェース１０８を介して、解析対象とする画像や、その画像内で指定された対象座標などを取得することができる。

次に、本実施形態の情報処理装置１００における根拠マップの生成方法について説明する。図２は、本発明の第１の実施形態に係る情報処理装置１００の処理内容の一例を示すフローチャートである。

まず、解析対象取得部１０１は、解析対象とする画像を取得するとともに、その対象画像における対象座標および対象クラスを取得する（ステップＳ２０１）。ここでは、例えば前述のように、入力装置１１０や外部の情報機器１１２から入力される情報に基づき、解析対象とする画像と対象座標を取得するとともに、対象クラスを取得する。対象クラスとは、推論部１０３によってマスク済み画像の画像領域ごとに取得される前述のクラスのうち、根拠マップの生成対象に指定するクラスのことである。対象クラスも対象座標と同様に、入力装置１１０から入力インターフェース１０６を介して入力されるユーザの入力操作や、情報機器１１２から外部インターフェース１０８を介して入力される情報などにより、指定することができる。ユーザの入力操作によって対象座標や対象クラスを指定する場合には、例えば対象画像を表示装置１１１に表示してその中の座標をユーザに選択させるグラフィカルな入力操作であってもよいし、文字ベースの入力操作であってもよい。これ以外にも、任意の入力操作方法を採用することができる。

なお、ステップＳ２０１の処理において、対象画像の情報や、対象画像に対する推論部１０３の推論結果などに基づいて、対象座標や対象クラスを取得してもよい。例えば、対象画像に写っている物体と背景のコントラスト差が少ない場合に、その境界付近の座標を対象座標として取得してもよい。また、対象画像に対して推論部１０３による推論を事前に行い、その推論結果をユーザに提示して誤りと判断された部分の座標や、他の解析方法によって得られた推論結果との間に差異がある部分の座標などを、対象座標として取得してもよい。さらに、これらの対象座標に対応する画像領域のクラスを対象クラスとして取得してもよいし、対象画像内の全ての画像領域に対応するクラスを対象クラスとして取得してもよい。これ以外にも、任意の方法で対象座標や対象クラスを取得することが可能である。

次に、画像加工部１０２は、ステップＳ２０１で取得された対象画像をマスク加工し、マスク済み画像を生成する（ステップＳ２０２）。ここでは、例えば対象画像を複製して複数のコピー画像を生成するとともに、各コピー画像に対して別々のマスクを設定し、コピー画像ごとに設定したマスクを適用したマスク加工を行うことにより、複数のマスク済み画像を生成する。なお、各マスクは処理部分（マスク部分）と未処理部分（非マスク部分）に分かれており、ステップＳ２０２の処理では、各コピー画像のうち処理部分に対応する部分がマスクされる。すなわち、各コピー画像でマスクの処理部分に対応する部分は当該部分に所定の画像処理を行い、マスクの未処理部分に対応する部分は当該部分をそのまま用いて、マスク済み画像が生成される。

図３を用いて、ステップＳ２０２で行われるマスク加工の例を説明する。例えばステップＳ２０１で解析対象とする画像として対象画像３０１が取得され、この対象画像３０１を複製した画像に対してステップＳ２０２でマスク３０２を適用するマスク加工を行うことで、マスク済み画像３０３が生成される。対象画像３０１には２匹の魚３１１，３１２が写っており、マスク３０２は未処理部分３０２ａと処理部分３０２ｂを有する。この場合、マスク済み画像３０３では、対象画像３０１のうち処理部分３０２ｂにあたる領域にはマスク加工が施され、未処理部分３０２ａにあたる領域に存在する魚３１１の一部分のみが残る。

なお、ステップＳ２０２の処理において、対象画像をコピーした画像のうちマスクの処理部分と重なる領域は、例えば対象画像の背景色で塗りつぶしてもよいし、白色や黒色等の単色で塗りつぶしてもよい。あるいは、例えばぼかしフィルタなど所定の画像フィルタを適用してもよい。これ以外にも、任意の画像処理を用いてマスク加工を行うことができる。また、マスク加工時に設定するマスクの形状や個数には制限がなく、例えば丸や四角などの様々な形状のマスクを用いることが可能である。このとき、複数種類のマスクの形状が混在していてもよい。

さらに、ステップＳ２０２ではマスクの位置をランダムに決定してもよいし、偏りを生じさせてもよい。マスクの位置に偏りを設ける例としては、対象座標の付近にマスクの処理部分と未処理部分の境界が来るように、対象座標の位置を基準として数多くのマスクを配置することで、マスクの配置密度に差異を設ける方法が挙げられる。あるいは、別の解析手法によって得られた推論結果との間に差異がある部分の付近に数多くのマスクを生成するなど、任意の手法によってマスクの位置に偏りを生じさせることが可能である。

以上説明したように、ステップＳ２０２の処理において画像加工部１０２は、対象画像内で指定された対象座標または他の座標に基づいて、対象画像に対して設定する複数のマスクの位置、形状および密度の少なくともいずれか一つを調整することができる。

図２の説明に戻ると、推論部１０３は、ステップＳ２０２で生成された複数のマスク済み画像のそれぞれに対して推論を行う（ステップＳ２０３）。ここでは、各マスク済み画像に対して、機械学習による学習済みのモデルを用いた推論をそれぞれ行うことにより、各マスク済み画像内に写っている物体のクラスを判断する。

ステップＳ２０３では、以上説明したような処理により、ステップＳ２０２で生成された複数のマスク済み画像の各々について、機械学習による学習済みのモデルを用いて判断された物体の分類を表すクラスが、推論部１０３の推論結果として、各マスク済み画像内の物体や背景にそれぞれ対応する画像領域ごとに取得される。なお、各画像領域に対する推論結果は、画像領域内のピクセル単位で取得してもよいし、任意のピクセル数を間引いて取得してもよい。あるいは、画像領域ごとに１つの推論結果を取得してもよい。

続いて、推論結果抽出部１０４は、ステップＳ２０３で取得された各マスク済み画像の推論結果から、ステップＳ２０１で取得された対象座標における推論結果をそれぞれ抽出する（ステップＳ２０４）。ここでは、各マスク済み画像について画像領域ごとに得られたクラスのうち、対象座標に対応する画像領域のクラスを抽出することで、対象座標における推論結果を抽出することができる。

図４を用いて、ステップＳ２０４で行われる推論結果の抽出例を説明する。例えばステップＳ２０２において、図３の対象画像３０１に対して３つのマスク４０１，４１１，４２１がそれぞれ適用されることで、マスク済み画像４０２，４１２，４２２が生成されたとする。これらのマスク済み画像４０２，４１２，４２２に対して、ステップＳ２０３で推論部１０３がそれぞれ推論を行うことにより、画像領域ごとにクラスが取得されたとする。なお、以下では説明を簡単にするため、ステップＳ２０３では、各マスク済み画像上のそれぞれのピクセルを、「魚クラス」、「背景クラス」、「犬クラス」の３種類のクラスに分類するセマンティックセグメンテーションタスクを、推論部１０３が行う場合について説明する。ここで、一般的にクラスの分類判定では、それぞれのクラスに対して０から１までの範囲で、その分類判定結果の確からしさを表す信頼度（スコア値）が求められ、最大のスコア値をとるクラスが分類判定の結果として取得される。

図４の推論結果４０３，４１３，４２３は、マスク済み画像４０２，４１２，４２２に対してそれぞれ行われた推論の結果を表している。推論結果４０３，４１３，４２３において、画像領域４０３ａ，４１３ａ，４２３ａは、マスク済み画像４０２，４１２，４２２において背景クラスのスコア値が最も高く、そのため背景クラスと判定された領域をそれぞれ表している。画像領域４０３ｂ，４１３ｂは、マスク済み画像４０２，４１２において魚クラスのスコア値が最も高く、そのため魚クラスと判定された領域をそれぞれ表している。画像領域４０３ｃ，４１３ｃは、マスク済み画像４０２，４１２において犬クラスのスコア値が最も高く、そのため犬クラスと判定された領域をそれぞれ表している。

また、推論結果４０３，４１３，４２３において、符号４０３ｄ，４１３ｄ，４２３ｄにそれぞれ示した座標は、解析対象取得部１０１で取得された対象座標を示す。対象座標４０３ｄ，４１３ｄは、上記のように魚クラスと判定された画像領域４０３ｂ，４１３ｂにそれぞれ属している。そのため、ステップＳ２０４の処理では、対象座標４０３ｄ，４１３ｄにおける推論結果として、魚クラスがそれぞれ抽出される。一方、対象座標４２３ｄは、背景クラスと判定された画像領域４２３ａに属している。そのため、ステップＳ２０４の処理では、対象座標４２３ｄにおける推論結果として背景クラスが抽出される。

図２の説明に戻ると、根拠生成部１０５は、ステップＳ２０２で生成された複数のマスク済み画像のうちいずれかを選択する（ステップＳ２０５）。

次に、根拠生成部１０５は、ステップＳ２０５で選択したマスク済み画像に対してステップＳ２０４で抽出された対象座標における推論結果、すなわち対象座標におけるクラスが、ステップＳ２０１で取得された対象クラスと一致するか否かを判定する（ステップＳ２０６）。選択したマスク済み画像の対象座標におけるクラスが対象クラスと一致する場合、根拠生成部１０５は、ステップＳ２０２において当該マスク済み画像の生成に用いられたマスクを合成対象マスクとして抽出し、不図示の記憶装置内に一時的に保存する（ステップＳ２０７）。ステップＳ２０７の処理を実施したら、根拠生成部１０５は次のステップＳ２０８へ進む。一方、選択したマスク済み画像の対象座標におけるクラスが対象クラスと一致しない場合、根拠生成部１０５は、ステップＳ２０７の処理を実施せずにステップＳ２０８へ進む。

続いて、根拠生成部１０５は、ステップＳ２０５で全てのマスク済み画像を選択済みであるか否かを判定する（ステップＳ２０８）。ステップＳ２０２で生成されたマスク済み画像を全て選択済みである場合はステップＳ２０９へ進み、未選択のマスク済み画像が残っている場合はステップＳ２０５に戻る。これにより、各マスク済み画像に対してステップＳ２０６，Ｓ２０７の処理が実施され、対象座標におけるクラスが対象クラスと一致するマスクが合成対象マスクとして保存される。

前述の図４の例では、ステップＳ２０５～Ｓ２０８の処理により、対象クラスに応じて以下の各マスクが合成対象マスクとして保存される。すなわち、対象クラスが魚クラスの場合には、対象座標４０３ｄ，４１３ｄにおける推論結果が魚クラスである推論結果４０３，４１３が得られたマスク済み画像４０２，４１２を生成する際に使用されたマスク４０１，４１１が、合成対象マスクとして保存される。対象クラスが背景クラスの場合には、対象座標４２３ｄにおける推論結果が背景クラスである推論結果４２３が得られたマスク済み画像４２２を生成する際に使用されたマスク４２１が、合成対象マスクとして保存される。対象クラスが犬クラスの場合には、対象座標における推論結果が犬クラスであるものが推論結果４０３，４１３，４２３の中には存在しないため、どのマスクも合成対象マスクとして保存されない。

図２の説明に戻ると、根拠生成部１０５は、ステップＳ２０７で保存された各合成対象マスクを重ね合わせて合成することで、合成マスク画像を生成し、この合成画像マスクに基づいて根拠マップを生成する（ステップＳ２０９）。ここでは、例えば全ての合成対象マスクを重ね合わせたときに、その合計数に対する未処理部分（非マスク部分）の重ね合わせ数の割合を求めることで、領域ごとの根拠率を計算する。そして、求められた各領域の根拠率を可視化することで、根拠マップを生成する。

図５を用いて、ステップＳ２０９で行われる根拠マップ生成の例を説明する。例えばステップＳ２０７で２つのマスク５０１，５０２が合成対象マスクとして保存された場合、これら２つのマスクを重ね合わせることで根拠マップ５０３を生成する。

根拠マップ５０３は、領域５０３ａ，５０３ｂ，５０３ｃ，５０３ｄを有する。領域５０３ａでは、マスク５０１，５０２の処理部分（マスク部分）が重ね合わされており、この領域５０３ａにおける根拠率は、０／２＝０％と計算される。領域５０３ｂでは、マスク５０１，５０２の未処理部分が重ね合わされており、この領域５０３ｂにおける根拠率は、２／２＝１００％と計算される。領域５０３ｃおよび領域５０３ｄでは、マスク５０１，５０２の一方の処理部分と他方の未処理部分が重ね合わされており、この領域５０３ｃ，５０３ｄにおける根拠率は、１／２＝５０％と計算される。

ステップＳ２０９で根拠マップの生成を終えたら、本実施形態の情報処理装置１００は図２のフローチャートを完了する。

なお、生成された根拠マップは、例えば出力インターフェース１０７を介して表示装置１１１に表示されることで、ユーザに提示される。このとき表示装置１１１は、例えば前述の根拠率の値に応じて、根拠マップの表示形態（例えば色や明るさ等）を領域ごとに変化させる。これにより、機械学習で学習済みのモデルを用いた画像認識により分類された対象画像について、対象画像全体での分類の根拠をユーザに示すことができる。なお、このとき対象画像との比較が容易となるように、対象画像上に根拠マップを重畳して表示するようにしてもよい。また、根拠マップ上に対象座標を示すようにしてもよい。

以上説明した本発明の第１の実施形態によれば、以下の作用効果を奏する。

（１）情報処理装置１００は、解析対象とする画像を取得する解析対象取得部１０１と、画像に対して複数のマスクを設定し、複数のマスクを用いて画像をそれぞれマスクすることで複数のマスク済み画像を生成する画像加工部１０２と、複数のマスク済み画像に対して、機械学習による学習済みのモデルを用いた推論をそれぞれ行い、複数のマスク済み画像の各々について、画像の分類に関する推論結果を取得する推論部１０３と、推論部１０３により取得された各マスク済み画像の推論結果から、画像内で指定された対象座標における推論結果を抽出する推論結果抽出部１０４と、推論結果抽出部１０４により抽出された対象座標における推論結果および複数のマスクに基づいて、モデルによる画像の分類結果に対する判断根拠を可視化した根拠マップを生成する根拠生成部１０５と、を備える。このようにしたので、機械学習で学習済みのモデルを用いた画像認識により分類された画像について、その画像全体での分類の根拠を示すことが可能な情報処理装置１００を提供することができる。

（２）推論部１０３は、複数のマスク済み画像の各々について、推論により判断された画像の分類を表すクラスを、推論結果として画像領域ごとに取得する（ステップＳ２０３）。推論結果抽出部１０４は、推論部１０３により取得された各マスク済み画像の画像領域ごとのクラスのうち、対象座標に対応する画像領域のクラスを抽出する（ステップＳ２０４）。根拠生成部１０５は、複数のマスク済み画像のうち、推論結果抽出部１０４により抽出されたクラスと、画像に対して指定された対象クラスとが一致する各マスク済み画像について、当該マスク済み画像の生成に用いられたマスクを合成対象マスクとして抽出し（ステップＳ２０６，Ｓ２０７）、抽出した各合成対象マスクを重ね合わせて合成することで合成マスク画像を生成し、生成した合成マスク画像に基づいて根拠マップを生成する（ステップＳ２０９）。このようにしたので、任意の対象クラスについて、その対象クラスが画像の分類結果として得られた根拠を示す根拠マップを生成することができる。

（３）情報処理装置１００は、ユーザの入力操作を受け付ける入力インターフェース１０６を備える。解析対象取得部１０１は、入力インターフェース１０６を介して行われたユーザの入力操作に基づいて対象座標を取得することができる（ステップＳ２０１）。このようにすれば、ユーザが指定した任意の対象座標について根拠マップを生成することが可能となる。

（４）情報処理装置１００は、表示装置１１１と接続され、表示装置１１１に根拠マップを表示させることでユーザへの情報提供を行う出力インターフェース１０７を備える。このようにしたので、画像の分類根拠に関する情報提供を、根拠マップを用いてユーザに分かりやすく提供することができる。

（５）出力インターフェース１０７は、解析対象とする画像に根拠マップを重畳した画面を表示装置１１１に表示させることもできる。このようにすれば、解析対象とする画像と根拠マップとを容易に比較可能な形態で、ユーザへの情報提供を行うことが可能となる。

（６）情報処理装置１００は、外部の情報機器１１２と接続される外部インターフェース１０８を備える。解析対象取得部１０１は、外部インターフェース１０８を介して対象座標を取得することもできる（ステップＳ２０１）。このようにすれば、他の解析方法によって得られた推論結果などを利用して指定された対象座標について、根拠マップを生成することが可能となる。

（７）画像加工部１０２は、対象座標または画像内で指定された他の座標に基づいて、画像に対して設定する複数のマスクの位置、形状および密度の少なくともいずれか一つを調整することができる（ステップＳ２０２）。このようにすれば、解析対象の画像に対して根拠マップを生成する際に必要な複数のマスクを、適切な態様で自動的に取得することが可能となる。

（８）画像加工部１０２は、画像のうちマスクされていない部分は当該部分をそのまま用いてマスク済み画像を生成し、画像のうちマスクされた部分は当該部分に所定の画像処理を行ってマスク済み画像を生成する（ステップＳ２０２）。このようにしたので、解析対象の画像から容易にマスク済み画像を生成することができる。

［第２の実施形態］
次に、本発明の第２の実施形態に係る情報処理装置について、図６、図７を参照して説明する。なお、本実施形態の情報処理装置は、第１の実施形態で説明した図１の情報処理装置１００と同様の構成を有している。そのため以下では、図１の情報処理装置１００の構成を用いて本実施形態の説明を行う。

以下では、本実施形態の情報処理装置１００における根拠マップの生成方法について説明する。図６は、本発明の第２の実施形態に係る情報処理装置１００の処理内容の一例を示すフローチャートである。なお、図６のフローチャートにおいて、第１の実施形態で説明した図２のフローチャートと同様の処理を行う部分には、図２と同一のステップ番号を付している。以下では、この同一ステップ番号の処理については説明を省略する。

解析対象取得部１０１は、解析対象とする画像を取得するとともに、その対象画像における対象座標を取得する（ステップＳ２０１Ａ）。なお、本実施形態では第１の実施形態とは異なり、対象画像と対象座標を取得するが、対象クラスについては取得する必要がない。

画像加工部１０２によりステップＳ２０２の処理が実行された後、推論部１０３は、ステップＳ２０２で生成された複数のマスク済み画像のそれぞれに対して推論を行う（ステップＳ２０３Ａ）。ここでは第１の実施形態と同様に、各マスク済み画像に対して、機械学習による学習済みのモデルを用いた推論をそれぞれ行うことにより、各マスク済み画像内に写っている物体のクラスを判断する。さらに本実施形態では、各マスク済み画像について物体ごとに判断されたクラスに対する信頼度を表すスコア値を算出する。このスコア値は、推論部１０３が推論において使用するモデルの学習度合いに応じて変化し、一般的にはモデルの学習が進んでいるほど高いスコア値となる。

次に、推論結果抽出部１０４は、ステップＳ２０３Ａで取得された各マスク済み画像の推論結果から、ステップＳ２０１Ａで取得された対象座標における推論結果をそれぞれ抽出する（ステップＳ２０４Ａ）。ここでは、各マスク済み画像について画像領域ごとに得られたスコア値のうち、対象座標に対応する画像領域のスコア値を抽出することで、対象座標における推論結果を抽出することができる。

続いて、根拠生成部１０５は、ステップＳ２０２でマスク済み画像の生成に用いられた各マスクを合成対象マスクに設定し、ステップＳ２０４Ａで抽出された対象座標における推論結果、すなわち対象座標におけるスコア値と組み合わせて、不図示の記憶装置内に一時的に保存する（ステップＳ２０７Ａ）。

その後、根拠生成部１０５は、ステップＳ２０７Ａで保存された各合成対象マスクをスコア値に応じた割合で重み付けし、これらを重ね合わせて合成することで、合成マスク画像を生成する。こうして生成した合成画像マスクに基づいて根拠マップを生成する（ステップＳ２０９Ａ）。すなわち、全てのマスクにおける未処理部分（非マスク部分）に対して、スコア値に応じた重み付け値を設定し、各マスクを重ね合わせたときに互いに重複する未処理部分同士の重み付け値を合計してマスク数で割ることで、領域ごとの根拠係数を計算する。そして、求められた各領域の根拠係数を可視化することで、根拠マップを生成する。

図７を用いて、ステップＳ２０９Ａで行われる根拠マップ生成の例を説明する。例えばステップＳ２０７Ａで２つのマスク６０１，６０２が合成対象マスクとして保存された場合、これら２つのマスクを重ね合わせることで根拠マップ６０３を生成する。マスク６０１の未処理部分には、例えばステップＳ２０４Ａで抽出されたスコア値０．９が重み付け値として設定され、マスク６０２の未処理部分には、ステップＳ２０４Ａで抽出されたスコア値０．８が重み付け値として設定される。

根拠マップ６０３は、領域６０３ａ，６０３ｂ，６０３ｃ，６０３ｄを有する。領域６０３ａでは、マスク６０１，６０２の処理部分（マスク部分）が重ね合わされており、この領域６０３ａにおける根拠係数は、（０×０．９＋０×０．８）／２＝０％と計算される。領域６０３ｂでは、マスク６０１，６０２の未処理部分が重ね合わされており、この領域６０３ｂにおける根拠係数は、（１×０．９＋１×０．８）／２＝８５％と計算される。領域６０３ｃでは、マスク６０１の未処理部分とマスク６０２の処理部分が重ね合わされており、この領域６０３ｃにおける根拠係数は、（１×０．９＋０×０．８）／２＝４５％と計算される。領域６０３ｄでは、マスク６０１の処理部分とマスク６０２の未処理部分が重ね合わされており、この領域６０３ｄにおける根拠係数は、（０×０．９＋１×０．８）／２＝４０％と計算される。

ステップＳ２０９Ａで根拠マップの生成を終えたら、本実施形態の情報処理装置１００は図６のフローチャートを完了する。

以上説明した本発明の第２の実施形態によれば、推論部１０３は、複数のマスク済み画像の各々について、対象画像の分類に対する推論の信頼度を表すスコア値を、推論結果として画像領域ごとに取得する（ステップＳ２０３Ａ）。推論結果抽出部１０４は、推論部１０３により取得された各マスク済み画像の画像領域ごとのスコア値のうち、対象座標に対応する画像領域のスコア値を抽出する（ステップＳ２０４Ａ）。根拠生成部１０５は、推論結果抽出部１０４により抽出されたスコア値に応じた割合で複数のマスクを重ね合わせて合成することで合成マスク画像を生成し、生成した合成マスク画像に基づいて根拠マップを生成する（ステップＳ２０９Ａ）。このようにしたので、全てのクラスについて、画像の分類結果として得られた根拠を示す根拠マップを生成することができる。

［第３の実施形態］
次に、本発明の第３の実施形態に係る情報処理装置について、図８を参照して説明する。なお、本実施形態の情報処理装置も、前述の第２の実施形態と同様に、第１の実施形態で説明した図１の情報処理装置１００と同様の構成を有している。そのため以下では、図１の情報処理装置１００の構成を用いて本実施形態の説明を行う。

以下では、本実施形態の情報処理装置１００における根拠マップの生成方法について説明する。図８は、本発明の第３の実施形態に係る情報処理装置１００の処理内容の一例を示すフローチャートである。なお、図８のフローチャートにおいて、第１、第２の実施形態でそれぞれ説明した図２、図６のフローチャートと同様の処理を行う部分には、図２、図６と同一のステップ番号を付している。

まず、解析対象取得部１０１は、第１の実施形態と同様に、解析対象とする画像を取得するとともに、その対象画像における対象座標および対象クラスを取得する（ステップＳ２０１）。次に、画像加工部１０２は、第１の実施形態と同様に、ステップＳ２０１で取得された対象画像をマスク加工し、マスク済み画像を生成する（ステップＳ２０２）。その後、推論部１０３は、ステップＳ２０２で生成された複数のマスク済み画像のそれぞれに対して推論を行う（ステップＳ２０３Ａ）。ここでは、第２の実施形態と同様に、各マスク済み画像内に写っている物体のクラスを判断するとともに、スコア値を算出する。

次に、推論結果抽出部１０４は、ステップＳ２０３Ａで取得された各マスク済み画像の推論結果から、ステップＳ２０１で取得された対象座標における推論結果をそれぞれ抽出する（ステップＳ２０４Ｂ）。ここでは、各マスク済み画像について画像領域ごとに得られたクラスとスコア値のうち、対象座標に対応する画像領域のクラスとスコア値を抽出することで、対象座標における推論結果を抽出することができる。

続いて、根拠生成部１０５は、第１の実施形態と同様に、ステップＳ２０２で生成された複数のマスク済み画像のうちいずれかを選択し（ステップＳ２０５）、選択したマスク済み画像に対してステップＳ２０４Ｂで抽出された対象座標におけるクラスが、ステップＳ２０１で取得された対象クラスと一致するか否かを判定する（ステップＳ２０６）。その結果、選択したマスク済み画像の対象座標におけるクラスが対象クラスと一致する場合、根拠生成部１０５は、ステップＳ２０２において当該マスク済み画像の生成に用いられたマスクを合成対象マスクとして抽出し、ステップＳ２０４Ｂで抽出された対象座標におけるスコア値と組み合わせて、不図示の記憶装置内に一時的に保存する（ステップＳ２０７Ｂ）。ステップＳ２０７Ｂの処理を実施したら、根拠生成部１０５は次のステップＳ２０８へ進む。一方、選択したマスク済み画像の対象座標におけるクラスが対象クラスと一致しない場合、根拠生成部１０５は、ステップＳ２０７Ｂの処理を実施せずにステップＳ２０８へ進む。

続いて、根拠生成部１０５は、ステップＳ２０５で全てのマスク済み画像を選択済みであるか否かを判定する（ステップＳ２０８）。ステップＳ２０２で生成されたマスク済み画像を全て選択済みである場合はステップＳ２０９Ａへ進み、未選択のマスク済み画像が残っている場合はステップＳ２０５に戻る。これにより、各マスク済み画像に対してステップＳ２０６，Ｓ２０７Ｂの処理が実施され、対象座標におけるクラスが対象クラスと一致するマスクが合成対象マスクとして、スコア値とともに保存される。

根拠生成部１０５は、ステップＳ２０７Ｂで保存された各合成対象マスクを重ね合わせて合成することで、合成マスク画像を生成し、この合成画像マスクに基づいて根拠マップを生成する（ステップＳ２０９Ａ）。ここでは、第２の実施形態と同様に、ステップＳ２０７Ｂで保存された各合成対象マスクをスコア値に応じた割合で重み付けし、これらを重ね合わせて合成することで、合成マスク画像を生成する。こうして生成した合成画像マスクに基づいて根拠マップを生成する。

ステップＳ２０９Ａで根拠マップの生成を終えたら、本実施形態の情報処理装置１００は図８のフローチャートを完了する。

以上説明した本発明の第３の実施形態によれば、推論部１０３は、複数のマスク済み画像の各々について、対象画像の分類に対する推論の信頼度を表すスコア値を、推論結果としてクラスごとにさらに取得する（ステップＳ２０３Ａ）。推論結果抽出部１０４は、推論部１０３により取得された各マスク済み画像の対象座標に対応するクラスおよびスコア値を抽出する（ステップＳ２０４Ｂ）。根拠生成部１０５は、推論結果抽出部１０４により抽出されたスコア値に応じた割合で各合成対象マスクを重ね合わせて合成し、合成マスク画像を生成する（ステップＳ２０９Ａ）。このようにしたので、任意の対象クラスについて、さらに詳細な根拠を示す根拠マップを生成することができる。

なお、以上説明した第１～第３の各実施形態は、情報処理装置１００において予め設定されていてもよいし、入力装置１１０から入力インターフェース１０６を介して入力される入力操作により、ユーザが任意に選択可能としてもよい。例えば、図２、図８のステップＳ２０１または図６のステップＳ２０１Ａにおいて、対象画像や対象座標、対象クラスをユーザの入力操作に応じて取得する際に、根拠マップの生成方法をユーザに選択させることにより、どの実施形態を適用するかを決定することができる。

［第４の実施形態］
次に、本発明の第４の実施形態に係る情報処理装置について、図９～図１３を参照して説明する。

図９は、本発明の第４の実施形態に係る情報処理装置１００Ａの構成例を示すブロック図である。図９に示すように、本実施形態に係る情報処理装置１００Ａは、図１で示した第１の実施形態に係る情報処理装置１００の各要素に加えて、学習画像生成部１２１および追加候補画像格納部１２２をさらに備える。学習画像生成部１２１は、例えばＣＰＵで所定のプログラムが実行されることにより実現され、追加候補画像格納部１２２は、例えばＨＤＤやＳＳＤ等の記憶装置を用いて構成される。

学習画像生成部１２１は、モデルの機械学習に用いられる学習画像を生成する。このモデルは、不図示の解析装置において画像の分類に使用されるものであり、推論部１０３が行う推論にも利用される。学習画像生成部１２１が生成した学習画像は、例えば不図示の学習装置に入力され、学習装置が行うモデルの機械学習において利用される。なお、情報処理装置１００Ａ内に機械学習部を設け、この機械学習部においてモデルの機械学習を行うようにしてもよい。

追加候補画像格納部１２２は、予め登録された１つまたは複数の追加候補画像を格納する。追加候補画像格納部１２２に格納される各追加候補画像は、例えば解析装置が解析対象とする物体と同一または類似の物体が写っている画像であり、学習画像生成部１２１が学習画像の生成を行う際に利用される。すなわち、学習画像生成部１２１は、追加候補画像格納部１２２に格納された追加候補画像に基づいて、機械学習用の学習画像を生成することができる。

図１０は、本発明の第４の実施形態に係る情報処理装置１００Ａの処理内容の一例を示すフローチャートである。

ステップＳ２００では、根拠マップ生成処理が実行される。ここでは、第１～第３の各実施形態で説明した図２、図６、図８のフローチャートのいずれかにより、対象画像に対して根拠マップが生成される。本実施形態の情報処理装置１００Ａでは、この根拠マップを用いて、学習画像の生成が行われる。

図１１は、本実施形態の情報処理装置１００Ａにおいて学習画像が生成される画像の例を示す図である。本実施形態では、不図示の解析装置において行われる解析処理の精度を向上するために、学習画像を生成する例を説明する。

図１１の画像７０１，７１１は、半導体検査の過程において、電子顕微鏡で撮影された画像の例である。解析装置では、これらの画像に写っているニードル７０１ａ，７１１ａの先端部分を、セマンティックセグメンテーションを用いて認識するタスクを実行する。ここで、画像７０１には検出対象であるニードル７０１ａのみが写っている一方で、画像７１１には検出対象のニードル７１１ａに加えて、検出対象ではないゴミ７１１ｂが写っている。なお、解析装置では既に所定の学習データを用いて事前にセマンティックセグメンテーションモデルが学習されているとする。

画像７０１，７１１に対して解析装置によるタスクの実行結果をそれぞれ重畳すると、例えば推論結果７０２，７１２が得られる。推論結果７０２，７１２では、認識されたニードル７０１ａ，７１１ａの先端部分を中心に円７０２ａ，７１２ａがそれぞれ描画されている。また、推論結果７１２では、さらにゴミ７１１ｂの先端部分もニードルの先端部分と誤認識されることで、円７１２ｂが描画されている。

ここで、画像７０１，７１１に対して実行されるタスクでは、ニードルの先端部分を認識するとともに、その他の部分は背景クラスと判定することを目的としている。ただし、図１１の推論結果７０２，７１２では、ニードルの先端部分と認識された部分のみを円で示しており、背景クラスについては範囲が広いため、明示的には示していない。図１１の例において、推論結果７０２は、ニードル７０１ａの先端を中心に円７０２ａが正しく描画され、その他の部分は背景クラスと判定できているため、理想的である。一方、推論結果７１２は、ニードル７１１ａの先端を中心に円７１２ａが正しく描画されているが、ゴミ７１１ｂに対しても円７１２ｂが誤って描画されているため、好ましくない。

本実施形態の情報処理装置１００Ａでは、例えばこのようなゴミ７１１ｂに対する誤認識を抑制する効果が高いと推測される画像を選出し、その画像を用いて学習画像を生成する。生成した学習画像は、情報処理装置１００Ａから不図示の学習装置に提供され、学習装置が行うモデルの機械学習において利用される。

図１０の説明に戻ると、学習画像生成部１２１は、ステップＳ２００の根拠マップ生成処理によって生成された根拠マップに基づいて、テンプレート領域を決定する（ステップＳ３０１）。ここでは、例えば根拠マップが表す対象画像上での分類結果に対する根拠度（根拠率または根拠係数）の分布に基づき、その根拠マップの生成に用いられた対象画像の一部をテンプレート領域として抽出する。具体的には、例えば根拠マップに対して根拠度の閾値を設定し、その閾値よりも根拠度の値が大きい根拠マップの領域に対応する対象画像の領域を、テンプレート領域として抽出する。

図１２を用いて、ステップＳ３０１で行われるテンプレート領域決定の例を説明する。図１２に示す画像７１１は、図１１において例示した画像７１１と同じものである。この画像７１１を対象画像とし、ゴミ７１１ｂの先端部分を対象座標８０１ｂに指定してステップＳ２０９の根拠マップ生成処理を実行すると、例えばマスク８０２，８０３が設定され、これらのマスクを重ね合わせて根拠マップ８０４が生成される。ステップＳ３０１の処理では、根拠マップ８０４に対して例えば閾値を８０％に設定すると、根拠度がこの閾値８０％を超える領域８０４ａが選択され、領域８０４ａに対応する画像７１１の領域８０５がテンプレート領域として抽出される。こうして抽出されたテンプレート領域８０５には、対象座標８０１ｂが指定されたゴミ７１１ｂが含まれている。

なお、ステップＳ３０１でテンプレート領域を決定する際の閾値は、例えば入力装置１１０から入力インターフェース１０６を介して入力されるユーザの入力操作に応じて指定してもよいし、あるいは根拠マップ全体における根拠度の四分位数や平均値などを参考にして、情報処理装置１００Ａが自動的に指定してもよい。また、テンプレート領域の大きさや形状は、それぞれ任意に設定することが可能である。例えば根拠マップで根拠度が閾値を満たす部分をピクセル単位でテンプレート領域としてもよいし、それらのピクセルを含むのに十分な大きさを有する矩形や円形等の領域をテンプレート領域としてもよい。

図１０の説明に戻ると、学習画像生成部１２１は、追加候補画像格納部１２２に格納されている追加候補画像のいずれかを選択する（ステップＳ３０２）。続いて、学習画像生成部１２１は、ステップＳ３０１で決定したテンプレート領域を用いて、ステップＳ３０２で選択した追加候補画像に対するテンプレートマッチングを行う（ステップＳ３０３）。ここでは、例えば当該追加候補画像の中でテンプレート領域との類似度が最も高い部分を判定し、その部分の類似度をマッチング結果として抽出する。

なお、ステップＳ３０３のテンプレートマッチングでは、ステップＳ３０１で決定したテンプレート領域に対して、大きさや角度の変更、反転、２値化などの画像変換を行ったものを用いてもよい。このとき、タスクの対象とされる物体の種類に応じて、テンプレート領域に対する画像変換の適用の有無を選択してもよい。例えば第１～第３の各実施形態で説明したように、魚を対象とするタスクの場合には、画像内でその大きさや向きが変化することが考えられる。そのため、上記の画像変換を適用したテンプレート領域を用いてテンプレートマッチングを行うことで、当該テンプレート領域に対して適切に類似度が求まることが想定できる。一方で、本実施形態で説明した図１１や図１２の例は、顕微鏡で撮影した画像内の人工物を対象とするタスクである。このようなタスクでは、画像内での大きさや向きの変化が少ないと考えられるため、上記のような画像変換を適用すると、想定とは異なる場所において高い類似度が誤って取得されてしまう可能性がある。したがって、これらの例では、テンプレート領域に対して画像変換を適用せずにテンプレートマッチングを行う必要があると考えられる。このように、ステップＳ３０３でテンプレートマッチングを行う際には、テンプレート領域と比較対象の画像との特徴を考慮して、画像変換を適用するか否かを選択することが好ましい。このとき、適用する画像変換の種類を選択してもよい。

テンプレートマッチングを実行したら、学習画像生成部１２１は、ステップＳ３０２で全ての追加候補画像を選択済みであるか否かを判定する（ステップＳ３０４）。追加候補画像格納部１２２に格納されている追加候補画像を全て選択済みである場合はステップＳ３０５へ進み、未選択の追加候補画像が残っている場合はステップＳ３０２に戻る。これにより、各追加候補画像に対してステップＳ３０３のテンプレートマッチングが実施され、その結果、各追加候補画像におけるマッチング結果が抽出される。

最後に、学習画像生成部１２１は、ステップＳ３０３でテンプレートマッチングが実行された各追加候補画像に基づいて、学習画像を生成する（ステップＳ３０５）。ここでは、例えば各追加候補画像におけるマッチング結果のうち、テンプレート領域との類似度が最も高いマッチング結果が得られた追加候補画像を選択し、学習画像として設定する。これにより、根拠マップに基づいて決定されたテンプレート領域に基づき、機械学習での精度改善効果が高いと推測される学習画像を生成することが可能となる。なお、このとき選択した追加候補画像をそのまま用いて学習画像を生成してもよいし、選択した追加候補画像に対して所定の画像処理を行うことにより、学習画像を生成してもよい。

図１３を用いて、ステップＳ３０５で行われる学習画像生成の例を説明する。ここでは、追加候補画像格納部１２２において追加候補画像９０１，９１１が格納されており、これらの追加候補画像９０１，９１１に対して図１２のテンプレート領域８０５を用いたテンプレートマッチングを行うことにより、追加候補画像９０１，９１１内でテンプレート領域８０５との類似度が最も高い領域９０１ａ，９１１ａがそれぞれ抽出されたとする。追加候補画像９０１の領域９０１ａには、テンプレート領域８０５が抽出された図１２の画像７１１におけるゴミ７１１ｂと類似した形状のゴミが写っているため、類似度が比較的高い値で求められる。一方、追加候補画像９１１にはゴミが写っておらず、その中でテンプレート領域８０５との類似度が最も高い領域９１１ａが抽出されるが、この領域９１１ａの類似度の値は、追加候補画像９０１の領域９０１ａと比べて小さい。

上記のような状況において、学習画像生成部１２１によりステップＳ３０５の処理が実行されると、領域９０１ａが得られた追加候補画像９０１が選択され、これに基づいて学習画像９０２が設定される。学習画像９０２は、追加候補画像９０１に写っているニードルの先端部分に対して、教師データとしてのアノテーションを表す円９０２ａが重畳されることで生成される。なお、学習画像９０２のうちアノテーション用の円９０２ａ以外の部分には、背景クラスが設定されている。

以上説明したように、学習画像９０２では、ゴミが写っている領域９０１ａに対応する部分が背景クラスに設定されている。そのため、学習画像９０２を教師データに用いて機械学習をさらに行い、その学習結果を反映したモデルを用いて画像解析を行うと、ゴミが誤ってニードルの先端部分と判断されてしまうことを抑制できる。すなわち、図１１の推論結果７１２において、ゴミ７１１ｂの先端部分に対して円７１２ｂが誤って描画されるのを抑制することが可能となる。

なお、ステップＳ３０５の処理では、テンプレート領域との類似度が最も高いマッチング結果が得られた追加候補画像だけでなく、マッチング結果に対する閾値を設定し、テンプレート領域との類似度がこの閾値を上回る追加候補画像を全て選択し、これらを用いて学習画像を生成してもよい。また、他の条件を満たす追加候補画像に基づいて学習画像を生成してもよい。例えば、テンプレート領域との類似度の値が他の追加候補画像と比べて大幅に外れているなど、特異的な特徴を示す追加候補画像を用いて学習画像を生成することができる。さらに、テンプレートマッチングの結果に基づいて選択した追加候補画像を出力インターフェース１０７を介して表示装置１１１に表示することでユーザに提示し、その中でユーザが許可または指定した追加候補画像を用いて、学習画像を生成するようにしてもよい。

ステップＳ３０５で学習画像の生成を終えたら、本実施形態の情報処理装置１００Ａは図１０のフローチャートを完了する。

以上説明した本発明の第４の実施形態によれば、情報処理装置１００Ａは、根拠生成部１０５により生成された根拠マップに基づいて、対象画像の一部をテンプレート領域として抽出し、抽出したテンプレート領域に基づいて機械学習に用いられる学習画像を生成する学習画像生成部１２１を備える。このようにしたので、機械学習されたモデルを用いて行われる画像の解析処理について、根拠マップを利用した精度向上を図ることができる。

また、以上説明した本発明の第４の実施形態によれば、根拠マップは、対象画像上での分類結果に対する根拠度の分布を表している。学習画像生成部１２１は、根拠マップに対して指定された根拠度の閾値に基づいてテンプレート領域を抽出する（ステップＳ３０１）。このようにしたので、根拠マップを利用して対象画像の適切な部分をテンプレート領域として抽出することができる。

さらに、以上説明した本発明の第４の実施形態によれば、学習画像生成部１２１は、予め取得した追加候補画像からテンプレート領域との類似度が所定の条件を満たす部分を抽出することで学習画像を生成する（ステップＳ３０３，Ｓ３０５）。このようにしたので、テンプレート領域に基づいて適切な学習画像を容易に生成することができる。

なお、本発明は上述の実施の形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で種々の変更が可能である。また、個々の実施形態は単独で実施してもよいし、任意の実施形態を複数組み合わせて適用することも可能である。

１００，１００Ａ：情報処理装置、１０１：解析対象取得部、１０２：画像加工部、１０３：推論部、１０４：推論結果抽出部、１０５：根拠生成部、１０６：入力インターフェース、１０７：出力インターフェース、１０８：外部インターフェース、１０９：バス、１１０：入力装置、１１１：表示装置、１１２：情報機器、１２１：学習画像生成部、１２２：追加候補画像格納部

Claims

解析対象とする画像を取得する解析対象取得部と、
前記画像に対して複数のマスクを設定し、前記複数のマスクを用いて前記画像をそれぞれマスクすることで複数のマスク済み画像を生成する画像加工部と、
前記複数のマスク済み画像に対して、機械学習による学習済みのモデルを用いた推論をそれぞれ行い、前記複数のマスク済み画像の各々について、前記画像の分類に関する推論結果を取得する推論部と、
前記推論部により取得された各マスク済み画像の推論結果から、前記画像内で指定された対象座標における推論結果を抽出する推論結果抽出部と、
前記推論結果抽出部により抽出された前記対象座標における推論結果および前記複数のマスクに基づいて、前記モデルによる前記画像の分類結果に対する判断根拠を可視化した根拠マップを生成する根拠生成部と、を備える、情報処理装置。
請求項１に記載の情報処理装置において、
前記推論部は、前記複数のマスク済み画像の各々について、前記推論により判断された前記画像の分類を表すクラスを、前記推論結果として画像領域ごとに取得し、
前記推論結果抽出部は、前記推論部により取得された各マスク済み画像の画像領域ごとのクラスのうち、前記対象座標に対応する画像領域のクラスを抽出し、
前記根拠生成部は、前記複数のマスク済み画像のうち、前記推論結果抽出部により抽出された前記クラスと、前記画像に対して指定された対象クラスとが一致する各マスク済み画像について、当該マスク済み画像の生成に用いられたマスクを合成対象マスクとして抽出し、抽出した各合成対象マスクを重ね合わせて合成することで合成マスク画像を生成し、生成した前記合成マスク画像に基づいて前記根拠マップを生成する、情報処理装置。
請求項２に記載の情報処理装置において、
前記推論部は、前記複数のマスク済み画像の各々について、前記画像の分類に対する前記推論の信頼度を表すスコア値を、前記推論結果として前記クラスごとにさらに取得し、
前記推論結果抽出部は、各マスク済み画像の前記対象座標における前記クラスおよび前記スコア値を抽出し、
前記根拠生成部は、前記推論結果抽出部により抽出された前記スコア値に応じた割合で各合成対象マスクを重ね合わせて合成し、前記合成マスク画像を生成する、情報処理装置。
請求項１に記載の情報処理装置において、
前記推論部は、前記複数のマスク済み画像の各々について、前記画像の分類に対する前記推論の信頼度を表すスコア値を、前記推論結果として画像領域ごとに取得し、
前記推論結果抽出部は、前記推論部により取得された各マスク済み画像の画像領域ごとのスコア値のうち、前記対象座標に対応する画像領域のスコア値を抽出し、
前記根拠生成部は、前記推論結果抽出部により抽出された前記スコア値に応じた割合で前記複数のマスクを重ね合わせて合成することで合成マスク画像を生成し、生成した前記合成マスク画像に基づいて前記根拠マップを生成する、情報処理装置。
請求項１に記載の情報処理装置において、
前記根拠マップに基づいて前記画像の一部をテンプレート領域として抽出し、抽出した前記テンプレート領域に基づいて前記機械学習に用いられる学習画像を生成する学習画像生成部を備える、情報処理装置。
請求項５に記載の情報処理装置において、
前記根拠マップは、前記画像上での前記分類結果に対する根拠度の分布を表し、
前記学習画像生成部は、前記根拠マップに対して指定された前記根拠度の閾値に基づいて前記テンプレート領域を抽出する、情報処理装置。
請求項５に記載の情報処理装置において、
前記学習画像生成部は、予め取得した追加候補画像から前記テンプレート領域との類似度が所定の条件を満たす部分を抽出することで前記学習画像を生成する、情報処理装置。
請求項１に記載の情報処理装置において、
ユーザの入力操作を受け付ける入力インターフェースを備え、
前記解析対象取得部は、前記入力インターフェースを介して行われた前記ユーザの入力操作に基づいて前記対象座標を取得する、情報処理装置。
請求項１に記載の情報処理装置において、
表示装置と接続され、前記表示装置に前記根拠マップを表示させることでユーザへの情報提供を行う出力インターフェースを備える、情報処理装置。
請求項９に記載の情報処理装置において、
前記出力インターフェースは、前記画像に前記根拠マップを重畳した画面を前記表示装置に表示させる、情報処理装置。
請求項１に記載の情報処理装置において、
外部の情報機器と接続される外部インターフェースを備え、
前記解析対象取得部は、前記外部インターフェースを介して前記対象座標を取得する、情報処理装置。
請求項１に記載の情報処理装置において、
前記画像加工部は、前記対象座標または前記画像内で指定された他の座標に基づいて、前記画像に対して設定する前記複数のマスクの位置、形状および密度の少なくともいずれか一つを調整する、情報処理装置。
請求項１に記載の情報処理装置において、
前記画像加工部は、前記画像のうちマスクされていない部分は当該部分をそのまま用いて前記マスク済み画像を生成し、前記画像のうちマスクされた部分は当該部分に所定の画像処理を行って前記マスク済み画像を生成する、情報処理装置。
請求項１に記載の情報処理装置において、
前記解析対象取得部は、電子顕微鏡によって撮影された画像を解析対象とする前記画像として取得する、情報処理装置。
情報処理装置を用いた画像処理方法であって、
解析対象とする画像を取得し、
前記画像に対して複数のマスクを設定し、
前記複数のマスクを用いて前記画像をそれぞれマスクすることで複数のマスク済み画像を生成し、
前記複数のマスク済み画像に対して、機械学習による学習済みのモデルを用いた推論をそれぞれ行うことで、前記複数のマスク済み画像の各々について、前記画像の分類に関する推論結果を取得し、
取得した各マスク済み画像の推論結果から、前記画像内で指定された対象座標における推論結果を抽出し、
抽出した前記対象座標における推論結果および前記複数のマスクに基づいて、前記モデルによる前記画像の分類結果に対する判断根拠を可視化した根拠マップを生成する、画像処理方法。