JP2022182149A - 情報処理装置、画像処理方法 - Google Patents
情報処理装置、画像処理方法 Download PDFInfo
- Publication number
- JP2022182149A JP2022182149A JP2021089523A JP2021089523A JP2022182149A JP 2022182149 A JP2022182149 A JP 2022182149A JP 2021089523 A JP2021089523 A JP 2021089523A JP 2021089523 A JP2021089523 A JP 2021089523A JP 2022182149 A JP2022182149 A JP 2022182149A
- Authority
- JP
- Japan
- Prior art keywords
- image
- information processing
- inference
- masked
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 105
- 238000003672 processing method Methods 0.000 title claims description 7
- 238000012545 processing Methods 0.000 claims abstract description 51
- 238000004458 analytical method Methods 0.000 claims abstract description 33
- 238000000605 extraction Methods 0.000 claims abstract description 26
- 239000000284 extract Substances 0.000 claims abstract description 21
- 238000010801 machine learning Methods 0.000 claims abstract description 19
- 230000000873 masking effect Effects 0.000 claims abstract description 8
- 238000000034 method Methods 0.000 claims description 38
- 230000008569 process Effects 0.000 claims description 27
- 230000015572 biosynthetic process Effects 0.000 claims description 18
- 238000003786 synthesis reaction Methods 0.000 claims description 18
- 230000002194 synthesizing effect Effects 0.000 claims description 5
- 239000002131 composite material Substances 0.000 claims description 3
- 239000000428 dust Substances 0.000 description 12
- 241000251468 Actinopterygii Species 0.000 description 11
- 238000013528 artificial neural network Methods 0.000 description 11
- 230000006870 function Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 230000008859 change Effects 0.000 description 4
- 230000009466 transformation Effects 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000010191 image analysis Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000003362 replicative effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000008685 targeting Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/22—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
Abstract
【課題】機械学習で学習済みのモデルを用いた画像認識により分類された画像について、その画像全体での分類の根拠を示すことが可能な情報処理装置を提供する。【解決手段】情報処理装置100は、解析対象取得部101と、画像加工部102と、推論部103と、推論結果抽出部104と、根拠生成部105とを備える。画像加工部102は、複数のマスクを用いて画像をそれぞれマスクすることで複数のマスク済み画像を生成する。推論結果抽出部104は、各マスク済み画像の推論結果から、画像内で指定された対象座標における推論結果を抽出する。根拠生成部105は、推論結果抽出部104により抽出された対象座標における推論結果および複数のマスクに基づいて、モデルによる画像の分類結果に対する判断根拠を可視化した根拠マップを生成する。【選択図】図1
Description
本発明は、情報処理装置および画像処理方法に関する。
近年、機械学習を用いて画像認識等の画像処理を行う情報処理装置が広く利用されている。機械学習を用いた情報処理装置では、認識の精度の向上に加えて、その認識の信頼性の向上が求められる。
機械学習による画像認識の信頼性の向上に関して、例えば特許文献1の技術が知られている。特許文献1では、学習済みの第1のニューラルネットワークと、重みパラメータに初期値が設定された第2のニューラルネットワークとを有し、第2のニューラルネットワークに基づいてマスクを生成するとともに、入力データとマスクを合成した合成データと第1のニューラルネットワークとに基づく推論値の評価結果に基づいて、第1のニューラルネットワークまたは第2のニューラルネットワークのいずれかを更新する情報処理装置が開示されている。これにより、ニューラルネットワークによる出力の精度劣化を抑制しつつ、ニューラルネットワークの説明性を向上させるようにしている。
特許文献1では、第1ニューラルネットワークは、マスク領域外から推論を行うモデルとなるため、このモデルの注目領域を可視化することによって、その注目領域を推論に利用された領域として把握することができると説明されている。すなわち、特許文献1の技術を適用することで、入力画像のどの部分に基づいてニューラルネットワークによる画像分類が行われたかを示すことができる。
しかしながら、特許文献1の技術では、推論のモデルの注目領域を可視化することは可能であるが、画像全体での画像分類の根拠を示すことができない。
本発明は、上記課題に鑑みてなされたものであり、その主な目的は、機械学習で学習済みのモデルを用いた画像認識により分類された画像について、その画像全体での分類の根拠を示すことが可能な情報処理装置および画像処理方法を提供することにある。
本発明による情報処理装置は、解析対象とする画像を取得する解析対象取得部と、前記画像に対して複数のマスクを設定し、前記複数のマスクを用いて前記画像をそれぞれマスクすることで複数のマスク済み画像を生成する画像加工部と、前記複数のマスク済み画像に対して、機械学習による学習済みのモデルを用いた推論をそれぞれ行い、前記複数のマスク済み画像の各々について、前記画像の分類に関する推論結果を取得する推論部と、前記推論部により取得された各マスク済み画像の推論結果から、前記画像内で指定された対象座標における推論結果を抽出する推論結果抽出部と、前記推論結果抽出部により抽出された前記対象座標における推論結果および前記複数のマスクに基づいて、前記モデルによる前記画像の分類結果に対する判断根拠を可視化した根拠マップを生成する根拠生成部と、を備える。
本発明による画像処理方法は、情報処理装置を用いたものであって、解析対象とする画像を取得し、前記画像に対して複数のマスクを設定し、前記複数のマスクを用いて前記画像をそれぞれマスクすることで複数のマスク済み画像を生成し、前記複数のマスク済み画像に対して、機械学習による学習済みのモデルを用いた推論をそれぞれ行うことで、前記複数のマスク済み画像の各々について、前記画像の分類に関する推論結果を取得し、取得した各マスク済み画像の推論結果から、前記画像内で指定された対象座標における推論結果を抽出し、抽出した前記対象座標における推論結果および前記複数のマスクに基づいて、前記モデルによる前記画像の分類結果に対する判断根拠を可視化した根拠マップを生成する。
本発明による画像処理方法は、情報処理装置を用いたものであって、解析対象とする画像を取得し、前記画像に対して複数のマスクを設定し、前記複数のマスクを用いて前記画像をそれぞれマスクすることで複数のマスク済み画像を生成し、前記複数のマスク済み画像に対して、機械学習による学習済みのモデルを用いた推論をそれぞれ行うことで、前記複数のマスク済み画像の各々について、前記画像の分類に関する推論結果を取得し、取得した各マスク済み画像の推論結果から、前記画像内で指定された対象座標における推論結果を抽出し、抽出した前記対象座標における推論結果および前記複数のマスクに基づいて、前記モデルによる前記画像の分類結果に対する判断根拠を可視化した根拠マップを生成する。
本発明によれば、機械学習で学習済みのモデルを用いた画像認識により分類された画像について、その画像全体での分類の根拠を示すことが可能な情報処理装置および画像処理方法を提供することができる。
以下、図面を参照して本発明の実施形態を説明する。以下の記載および図面は、本発明を説明するための例示であって、説明の明確化のため、適宜、省略および簡略化がなされている。本発明は、他の種々の形態でも実施する事が可能である。特に限定しない限り、各構成要素は単数でも複数でも構わない。
以下の各実施形態で説明される本発明の情報処理装置の一例は、機械学習が適用される解析装置の学習を支援する用途に用いられるものである。機械学習としては、学習データ(教師データ)を用いてニューラルネットワークを学習するものがあげられる。このような情報処理装置は、例えばPC(パーソナルコンピュータ)やサーバ等の一般的な計算機を用いて構成可能である。すなわち、本発明にかかる情報処理装置は、一般的なPCやサーバと同様に、CPU、ROM、RAM等を用いて構成される演算処理装置と、HDD(Hard Disk Drive)やSSD(Solid State Drive)等を用いて構成される記憶装置と、各種周辺機器とを備えている。この情報処理装置で実行されるプログラムは、記憶装置に予め組み込んでおくものとする。以下の説明では、情報処理装置が当然備えるこれらの構成要素を敢えて図示することはなく、各実施形態の情報処理装置で実現される機能に着目して説明する。
具体的には、各実施形態の情報処理装置が有する機能は、記憶装置に記憶されて演算処理装置で実行されるプログラムによって実現される。すなわち、各実施形態で説明される計算や制御等の機能は、記憶装置に格納されたプログラムが演算処理装置によって実行されることで、ソフトウェアとハードウェアが協働して実現される。以下の説明では、計算機などが実行するプログラム、その機能、あるいはその機能を実現する手段を、「機能」、「手段」、「部」、「ユニット」、「モジュール」等と呼ぶ場合がある。
なお、各実施形態の情報処理装置の構成は、単体のコンピュータで構成してもよいし、あるいは、ネットワークで相互に接続された複数のコンピュータで構成されてもよい。発明の思想としては等価であり、変わるところがない。
また、各実施形態の情報処理装置では、ソフトウェアにより実現される機能で本発明を説明しているが、これと同等の機能は、FPGA(Field Programmable Gate Array)、ASIC(Application Specific Integrated Circuit)などのハードウェアでも実現できる。また、各種ソフトウェアとハードウェアを組み合わせて実現してもよい。これらの態様も本発明の範囲に含まれる。
[第1の実施形態]
図1は、本発明の第1の実施形態に係る情報処理装置100の構成例を示すブロック図である。図1に示すように、本実施形態に係る情報処理装置100は、解析対象取得部101、画像加工部102、推論部103、推論結果抽出部104、根拠生成部105、入力インターフェース106、出力インターフェース107、および外部インターフェース108の各機能ブロックを備える。これらの機能ブロックは、バス109を介して相互に接続されている。バス109は、各機能ブロックで扱われるデータ、制御情報、解析情報等を保持するとともに、各機能ブロック間での情報伝送を仲介する。
図1は、本発明の第1の実施形態に係る情報処理装置100の構成例を示すブロック図である。図1に示すように、本実施形態に係る情報処理装置100は、解析対象取得部101、画像加工部102、推論部103、推論結果抽出部104、根拠生成部105、入力インターフェース106、出力インターフェース107、および外部インターフェース108の各機能ブロックを備える。これらの機能ブロックは、バス109を介して相互に接続されている。バス109は、各機能ブロックで扱われるデータ、制御情報、解析情報等を保持するとともに、各機能ブロック間での情報伝送を仲介する。
なお、冒頭で述べたように、図1の各機能ブロックは、ソフトウェアまたはハードウェア、あるいはこれらの組み合わせにより実現される。情報処理装置100は、図1で示したもの以外に、コンピュータが通常備える各種ハードウェアやインターフェース等を備えていてもよい。
情報処理装置100は、入力装置110、表示装置111および情報機器112に接続されている。情報処理装置100は、これらと有線接続されてもよいし、無線接続されてもよい。なお、図1では、入力装置110および表示装置111を情報処理装置100の外部に設けた例で示したが、これらを情報処理装置100に内蔵してもよい。
解析対象取得部101は、情報処理装置100が解析対象とする画像を取得する。この画像は、例えば不図示の記憶装置に格納された画像のうち、入力装置110から入力インターフェース106を介して入力されるユーザの入力操作によって選択された画像であってもよいし、外部の情報機器112から外部インターフェース108を介して入力された画像であってもよい。機械学習による学習済みのモデルによって分類可能な画像であり、不図示の解析装置において解析対象とされる画像であれば、任意の画像を解析対象取得部101により取得することができる。
画像加工部102は、解析対象取得部101が取得した画像にマスクを用いた画像処理を行うことでマスク済み画像を生成する。画像加工部102は、1つの画像に対して複数のマスクを設定し、マスクごとに画像をそれぞれマスクすることで、複数のマスク済み画像を生成することができる。
推論部103は、画像加工部102が1つの画像から生成した複数のマスク済み画像に対して、機械学習による学習済みのモデルを用いた推論をそれぞれ行う。これにより、複数のマスク済み画像の各々について、その画像内に写っている物体が何であるかを判断し、その判断結果を元のマスク前の画像の分類に関する推論結果として取得することができる。なお、推論部103が行う推論によって得られる画像の分類を、以下では「クラス」と称する。すなわち、推論部103は、マスク済み画像に写っている様々な物体の種類を判断することで、各物体の分類を表すクラスを、マスク前の画像に関する推論結果として取得することができる。マスク済み画像内に複数種類の物体が存在する場合や、マスク済み画像内に物体以外の背景部分が存在する場合などは、これらに対応する画像領域のそれぞれに対応するクラスが、マスク前の画像に関する推論結果として画像領域ごとに取得される。
推論結果抽出部104は、推論部103により取得された各マスク済み画像の推論結果から、元のマスク前の画像内で指定された対象座標における推論結果を抽出する。なお、対象座標の指定は、例えば入力装置110から入力インターフェース106を介して入力されるユーザの入力操作によって行われる。
根拠生成部105は、推論結果抽出部104により抽出された対象座標における推論結果と、画像加工部102がマスク済み画像を生成する際に設定した複数のマスクとに基づいて、根拠マップを生成する。この根拠マップは、不図示の解析装置において学習済みのモデルを用いて実行される画像の分類結果に対する判断根拠を可視化したものである。なお、根拠生成部105が生成する根拠マップの具体例については後述する。
入力インターフェース106は、入力装置110と接続されており、入力装置110を用いて行われるユーザの入力操作を受け付ける。入力装置110は、例えばマウスやキーボード等を用いて構成される。ユーザが入力装置110を用いて情報処理装置100に対する各種の指示操作や選択操作を入力すると、その入力操作内容が入力インターフェース106を介して、情報処理装置100内の各機能ブロックに伝達される。これにより、各機能ブロックにおいて、ユーザの入力操作に応じた処理を行うことができる。例えば解析対象取得部101では、入力インターフェース106を介して行われたユーザの入力操作に基づいて、解析対象とする画像や、その画像内で指定された対象座標などを取得することができる。
出力インターフェース107は、表示装置111と接続されており、表示装置111に各種画像や情報を出力してその内容を表示装置111に表示させる。表示装置111は、例えば液晶ディスプレイ等を用いて構成される。情報処理装置100は、出力インターフェース107を介して、例えば根拠生成部105により生成された根拠マップなどを表示装置111に表示させることで、ユーザに対する情報提供を行うことができる。このとき出力インターフェース107は、根拠マップをそのまま表示させてもよいし、解析対象とした画像に根拠マップを重畳した画面を表示させてもよい。
外部インターフェース108は、外部の情報機器112と接続されており、情報処理装置100と情報機器112の間で送受信される通信データの中継を行う。情報機器112は、例えば情報処理装置100と同一ネットワーク内に存在するPCまたはサーバや、クラウド上に存在するサーバなどが該当する。情報処理装置100は、情報機器112から外部インターフェース108を介して通信データを受信することで、情報処理装置100内の各機能ブロックで用いられる様々な情報やデータを取得することができる。例えば解析対象取得部101では、情報機器112から外部インターフェース108を介して、解析対象とする画像や、その画像内で指定された対象座標などを取得することができる。
次に、本実施形態の情報処理装置100における根拠マップの生成方法について説明する。図2は、本発明の第1の実施形態に係る情報処理装置100の処理内容の一例を示すフローチャートである。
まず、解析対象取得部101は、解析対象とする画像を取得するとともに、その対象画像における対象座標および対象クラスを取得する(ステップS201)。ここでは、例えば前述のように、入力装置110や外部の情報機器112から入力される情報に基づき、解析対象とする画像と対象座標を取得するとともに、対象クラスを取得する。対象クラスとは、推論部103によってマスク済み画像の画像領域ごとに取得される前述のクラスのうち、根拠マップの生成対象に指定するクラスのことである。対象クラスも対象座標と同様に、入力装置110から入力インターフェース106を介して入力されるユーザの入力操作や、情報機器112から外部インターフェース108を介して入力される情報などにより、指定することができる。ユーザの入力操作によって対象座標や対象クラスを指定する場合には、例えば対象画像を表示装置111に表示してその中の座標をユーザに選択させるグラフィカルな入力操作であってもよいし、文字ベースの入力操作であってもよい。これ以外にも、任意の入力操作方法を採用することができる。
なお、ステップS201の処理において、対象画像の情報や、対象画像に対する推論部103の推論結果などに基づいて、対象座標や対象クラスを取得してもよい。例えば、対象画像に写っている物体と背景のコントラスト差が少ない場合に、その境界付近の座標を対象座標として取得してもよい。また、対象画像に対して推論部103による推論を事前に行い、その推論結果をユーザに提示して誤りと判断された部分の座標や、他の解析方法によって得られた推論結果との間に差異がある部分の座標などを、対象座標として取得してもよい。さらに、これらの対象座標に対応する画像領域のクラスを対象クラスとして取得してもよいし、対象画像内の全ての画像領域に対応するクラスを対象クラスとして取得してもよい。これ以外にも、任意の方法で対象座標や対象クラスを取得することが可能である。
次に、画像加工部102は、ステップS201で取得された対象画像をマスク加工し、マスク済み画像を生成する(ステップS202)。ここでは、例えば対象画像を複製して複数のコピー画像を生成するとともに、各コピー画像に対して別々のマスクを設定し、コピー画像ごとに設定したマスクを適用したマスク加工を行うことにより、複数のマスク済み画像を生成する。なお、各マスクは処理部分(マスク部分)と未処理部分(非マスク部分)に分かれており、ステップS202の処理では、各コピー画像のうち処理部分に対応する部分がマスクされる。すなわち、各コピー画像でマスクの処理部分に対応する部分は当該部分に所定の画像処理を行い、マスクの未処理部分に対応する部分は当該部分をそのまま用いて、マスク済み画像が生成される。
図3を用いて、ステップS202で行われるマスク加工の例を説明する。例えばステップS201で解析対象とする画像として対象画像301が取得され、この対象画像301を複製した画像に対してステップS202でマスク302を適用するマスク加工を行うことで、マスク済み画像303が生成される。対象画像301には2匹の魚311,312が写っており、マスク302は未処理部分302aと処理部分302bを有する。この場合、マスク済み画像303では、対象画像301のうち処理部分302bにあたる領域にはマスク加工が施され、未処理部分302aにあたる領域に存在する魚311の一部分のみが残る。
なお、ステップS202の処理において、対象画像をコピーした画像のうちマスクの処理部分と重なる領域は、例えば対象画像の背景色で塗りつぶしてもよいし、白色や黒色等の単色で塗りつぶしてもよい。あるいは、例えばぼかしフィルタなど所定の画像フィルタを適用してもよい。これ以外にも、任意の画像処理を用いてマスク加工を行うことができる。また、マスク加工時に設定するマスクの形状や個数には制限がなく、例えば丸や四角などの様々な形状のマスクを用いることが可能である。このとき、複数種類のマスクの形状が混在していてもよい。
さらに、ステップS202ではマスクの位置をランダムに決定してもよいし、偏りを生じさせてもよい。マスクの位置に偏りを設ける例としては、対象座標の付近にマスクの処理部分と未処理部分の境界が来るように、対象座標の位置を基準として数多くのマスクを配置することで、マスクの配置密度に差異を設ける方法が挙げられる。あるいは、別の解析手法によって得られた推論結果との間に差異がある部分の付近に数多くのマスクを生成するなど、任意の手法によってマスクの位置に偏りを生じさせることが可能である。
以上説明したように、ステップS202の処理において画像加工部102は、対象画像内で指定された対象座標または他の座標に基づいて、対象画像に対して設定する複数のマスクの位置、形状および密度の少なくともいずれか一つを調整することができる。
図2の説明に戻ると、推論部103は、ステップS202で生成された複数のマスク済み画像のそれぞれに対して推論を行う(ステップS203)。ここでは、各マスク済み画像に対して、機械学習による学習済みのモデルを用いた推論をそれぞれ行うことにより、各マスク済み画像内に写っている物体のクラスを判断する。
ステップS203では、以上説明したような処理により、ステップS202で生成された複数のマスク済み画像の各々について、機械学習による学習済みのモデルを用いて判断された物体の分類を表すクラスが、推論部103の推論結果として、各マスク済み画像内の物体や背景にそれぞれ対応する画像領域ごとに取得される。なお、各画像領域に対する推論結果は、画像領域内のピクセル単位で取得してもよいし、任意のピクセル数を間引いて取得してもよい。あるいは、画像領域ごとに1つの推論結果を取得してもよい。
続いて、推論結果抽出部104は、ステップS203で取得された各マスク済み画像の推論結果から、ステップS201で取得された対象座標における推論結果をそれぞれ抽出する(ステップS204)。ここでは、各マスク済み画像について画像領域ごとに得られたクラスのうち、対象座標に対応する画像領域のクラスを抽出することで、対象座標における推論結果を抽出することができる。
図4を用いて、ステップS204で行われる推論結果の抽出例を説明する。例えばステップS202において、図3の対象画像301に対して3つのマスク401,411,421がそれぞれ適用されることで、マスク済み画像402,412,422が生成されたとする。これらのマスク済み画像402,412,422に対して、ステップS203で推論部103がそれぞれ推論を行うことにより、画像領域ごとにクラスが取得されたとする。なお、以下では説明を簡単にするため、ステップS203では、各マスク済み画像上のそれぞれのピクセルを、「魚クラス」、「背景クラス」、「犬クラス」の3種類のクラスに分類するセマンティックセグメンテーションタスクを、推論部103が行う場合について説明する。ここで、一般的にクラスの分類判定では、それぞれのクラスに対して0から1までの範囲で、その分類判定結果の確からしさを表す信頼度(スコア値)が求められ、最大のスコア値をとるクラスが分類判定の結果として取得される。
図4の推論結果403,413,423は、マスク済み画像402,412,422に対してそれぞれ行われた推論の結果を表している。推論結果403,413,423において、画像領域403a,413a,423aは、マスク済み画像402,412,422において背景クラスのスコア値が最も高く、そのため背景クラスと判定された領域をそれぞれ表している。画像領域403b,413bは、マスク済み画像402,412において魚クラスのスコア値が最も高く、そのため魚クラスと判定された領域をそれぞれ表している。画像領域403c,413cは、マスク済み画像402,412において犬クラスのスコア値が最も高く、そのため犬クラスと判定された領域をそれぞれ表している。
また、推論結果403,413,423において、符号403d,413d,423dにそれぞれ示した座標は、解析対象取得部101で取得された対象座標を示す。対象座標403d,413dは、上記のように魚クラスと判定された画像領域403b,413bにそれぞれ属している。そのため、ステップS204の処理では、対象座標403d,413dにおける推論結果として、魚クラスがそれぞれ抽出される。一方、対象座標423dは、背景クラスと判定された画像領域423aに属している。そのため、ステップS204の処理では、対象座標423dにおける推論結果として背景クラスが抽出される。
図2の説明に戻ると、根拠生成部105は、ステップS202で生成された複数のマスク済み画像のうちいずれかを選択する(ステップS205)。
次に、根拠生成部105は、ステップS205で選択したマスク済み画像に対してステップS204で抽出された対象座標における推論結果、すなわち対象座標におけるクラスが、ステップS201で取得された対象クラスと一致するか否かを判定する(ステップS206)。選択したマスク済み画像の対象座標におけるクラスが対象クラスと一致する場合、根拠生成部105は、ステップS202において当該マスク済み画像の生成に用いられたマスクを合成対象マスクとして抽出し、不図示の記憶装置内に一時的に保存する(ステップS207)。ステップS207の処理を実施したら、根拠生成部105は次のステップS208へ進む。一方、選択したマスク済み画像の対象座標におけるクラスが対象クラスと一致しない場合、根拠生成部105は、ステップS207の処理を実施せずにステップS208へ進む。
続いて、根拠生成部105は、ステップS205で全てのマスク済み画像を選択済みであるか否かを判定する(ステップS208)。ステップS202で生成されたマスク済み画像を全て選択済みである場合はステップS209へ進み、未選択のマスク済み画像が残っている場合はステップS205に戻る。これにより、各マスク済み画像に対してステップS206,S207の処理が実施され、対象座標におけるクラスが対象クラスと一致するマスクが合成対象マスクとして保存される。
前述の図4の例では、ステップS205~S208の処理により、対象クラスに応じて以下の各マスクが合成対象マスクとして保存される。すなわち、対象クラスが魚クラスの場合には、対象座標403d,413dにおける推論結果が魚クラスである推論結果403,413が得られたマスク済み画像402,412を生成する際に使用されたマスク401,411が、合成対象マスクとして保存される。対象クラスが背景クラスの場合には、対象座標423dにおける推論結果が背景クラスである推論結果423が得られたマスク済み画像422を生成する際に使用されたマスク421が、合成対象マスクとして保存される。対象クラスが犬クラスの場合には、対象座標における推論結果が犬クラスであるものが推論結果403,413,423の中には存在しないため、どのマスクも合成対象マスクとして保存されない。
図2の説明に戻ると、根拠生成部105は、ステップS207で保存された各合成対象マスクを重ね合わせて合成することで、合成マスク画像を生成し、この合成画像マスクに基づいて根拠マップを生成する(ステップS209)。ここでは、例えば全ての合成対象マスクを重ね合わせたときに、その合計数に対する未処理部分(非マスク部分)の重ね合わせ数の割合を求めることで、領域ごとの根拠率を計算する。そして、求められた各領域の根拠率を可視化することで、根拠マップを生成する。
図5を用いて、ステップS209で行われる根拠マップ生成の例を説明する。例えばステップS207で2つのマスク501,502が合成対象マスクとして保存された場合、これら2つのマスクを重ね合わせることで根拠マップ503を生成する。
根拠マップ503は、領域503a,503b,503c,503dを有する。領域503aでは、マスク501,502の処理部分(マスク部分)が重ね合わされており、この領域503aにおける根拠率は、0/2=0%と計算される。領域503bでは、マスク501,502の未処理部分が重ね合わされており、この領域503bにおける根拠率は、2/2=100%と計算される。領域503cおよび領域503dでは、マスク501,502の一方の処理部分と他方の未処理部分が重ね合わされており、この領域503c,503dにおける根拠率は、1/2=50%と計算される。
ステップS209で根拠マップの生成を終えたら、本実施形態の情報処理装置100は図2のフローチャートを完了する。
なお、生成された根拠マップは、例えば出力インターフェース107を介して表示装置111に表示されることで、ユーザに提示される。このとき表示装置111は、例えば前述の根拠率の値に応じて、根拠マップの表示形態(例えば色や明るさ等)を領域ごとに変化させる。これにより、機械学習で学習済みのモデルを用いた画像認識により分類された対象画像について、対象画像全体での分類の根拠をユーザに示すことができる。なお、このとき対象画像との比較が容易となるように、対象画像上に根拠マップを重畳して表示するようにしてもよい。また、根拠マップ上に対象座標を示すようにしてもよい。
以上説明した本発明の第1の実施形態によれば、以下の作用効果を奏する。
(1)情報処理装置100は、解析対象とする画像を取得する解析対象取得部101と、画像に対して複数のマスクを設定し、複数のマスクを用いて画像をそれぞれマスクすることで複数のマスク済み画像を生成する画像加工部102と、複数のマスク済み画像に対して、機械学習による学習済みのモデルを用いた推論をそれぞれ行い、複数のマスク済み画像の各々について、画像の分類に関する推論結果を取得する推論部103と、推論部103により取得された各マスク済み画像の推論結果から、画像内で指定された対象座標における推論結果を抽出する推論結果抽出部104と、推論結果抽出部104により抽出された対象座標における推論結果および複数のマスクに基づいて、モデルによる画像の分類結果に対する判断根拠を可視化した根拠マップを生成する根拠生成部105と、を備える。このようにしたので、機械学習で学習済みのモデルを用いた画像認識により分類された画像について、その画像全体での分類の根拠を示すことが可能な情報処理装置100を提供することができる。
(2)推論部103は、複数のマスク済み画像の各々について、推論により判断された画像の分類を表すクラスを、推論結果として画像領域ごとに取得する(ステップS203)。推論結果抽出部104は、推論部103により取得された各マスク済み画像の画像領域ごとのクラスのうち、対象座標に対応する画像領域のクラスを抽出する(ステップS204)。根拠生成部105は、複数のマスク済み画像のうち、推論結果抽出部104により抽出されたクラスと、画像に対して指定された対象クラスとが一致する各マスク済み画像について、当該マスク済み画像の生成に用いられたマスクを合成対象マスクとして抽出し(ステップS206,S207)、抽出した各合成対象マスクを重ね合わせて合成することで合成マスク画像を生成し、生成した合成マスク画像に基づいて根拠マップを生成する(ステップS209)。このようにしたので、任意の対象クラスについて、その対象クラスが画像の分類結果として得られた根拠を示す根拠マップを生成することができる。
(3)情報処理装置100は、ユーザの入力操作を受け付ける入力インターフェース106を備える。解析対象取得部101は、入力インターフェース106を介して行われたユーザの入力操作に基づいて対象座標を取得することができる(ステップS201)。このようにすれば、ユーザが指定した任意の対象座標について根拠マップを生成することが可能となる。
(4)情報処理装置100は、表示装置111と接続され、表示装置111に根拠マップを表示させることでユーザへの情報提供を行う出力インターフェース107を備える。このようにしたので、画像の分類根拠に関する情報提供を、根拠マップを用いてユーザに分かりやすく提供することができる。
(5)出力インターフェース107は、解析対象とする画像に根拠マップを重畳した画面を表示装置111に表示させることもできる。このようにすれば、解析対象とする画像と根拠マップとを容易に比較可能な形態で、ユーザへの情報提供を行うことが可能となる。
(6)情報処理装置100は、外部の情報機器112と接続される外部インターフェース108を備える。解析対象取得部101は、外部インターフェース108を介して対象座標を取得することもできる(ステップS201)。このようにすれば、他の解析方法によって得られた推論結果などを利用して指定された対象座標について、根拠マップを生成することが可能となる。
(7)画像加工部102は、対象座標または画像内で指定された他の座標に基づいて、画像に対して設定する複数のマスクの位置、形状および密度の少なくともいずれか一つを調整することができる(ステップS202)。このようにすれば、解析対象の画像に対して根拠マップを生成する際に必要な複数のマスクを、適切な態様で自動的に取得することが可能となる。
(8)画像加工部102は、画像のうちマスクされていない部分は当該部分をそのまま用いてマスク済み画像を生成し、画像のうちマスクされた部分は当該部分に所定の画像処理を行ってマスク済み画像を生成する(ステップS202)。このようにしたので、解析対象の画像から容易にマスク済み画像を生成することができる。
[第2の実施形態]
次に、本発明の第2の実施形態に係る情報処理装置について、図6、図7を参照して説明する。なお、本実施形態の情報処理装置は、第1の実施形態で説明した図1の情報処理装置100と同様の構成を有している。そのため以下では、図1の情報処理装置100の構成を用いて本実施形態の説明を行う。
次に、本発明の第2の実施形態に係る情報処理装置について、図6、図7を参照して説明する。なお、本実施形態の情報処理装置は、第1の実施形態で説明した図1の情報処理装置100と同様の構成を有している。そのため以下では、図1の情報処理装置100の構成を用いて本実施形態の説明を行う。
以下では、本実施形態の情報処理装置100における根拠マップの生成方法について説明する。図6は、本発明の第2の実施形態に係る情報処理装置100の処理内容の一例を示すフローチャートである。なお、図6のフローチャートにおいて、第1の実施形態で説明した図2のフローチャートと同様の処理を行う部分には、図2と同一のステップ番号を付している。以下では、この同一ステップ番号の処理については説明を省略する。
解析対象取得部101は、解析対象とする画像を取得するとともに、その対象画像における対象座標を取得する(ステップS201A)。なお、本実施形態では第1の実施形態とは異なり、対象画像と対象座標を取得するが、対象クラスについては取得する必要がない。
画像加工部102によりステップS202の処理が実行された後、推論部103は、ステップS202で生成された複数のマスク済み画像のそれぞれに対して推論を行う(ステップS203A)。ここでは第1の実施形態と同様に、各マスク済み画像に対して、機械学習による学習済みのモデルを用いた推論をそれぞれ行うことにより、各マスク済み画像内に写っている物体のクラスを判断する。さらに本実施形態では、各マスク済み画像について物体ごとに判断されたクラスに対する信頼度を表すスコア値を算出する。このスコア値は、推論部103が推論において使用するモデルの学習度合いに応じて変化し、一般的にはモデルの学習が進んでいるほど高いスコア値となる。
次に、推論結果抽出部104は、ステップS203Aで取得された各マスク済み画像の推論結果から、ステップS201Aで取得された対象座標における推論結果をそれぞれ抽出する(ステップS204A)。ここでは、各マスク済み画像について画像領域ごとに得られたスコア値のうち、対象座標に対応する画像領域のスコア値を抽出することで、対象座標における推論結果を抽出することができる。
続いて、根拠生成部105は、ステップS202でマスク済み画像の生成に用いられた各マスクを合成対象マスクに設定し、ステップS204Aで抽出された対象座標における推論結果、すなわち対象座標におけるスコア値と組み合わせて、不図示の記憶装置内に一時的に保存する(ステップS207A)。
その後、根拠生成部105は、ステップS207Aで保存された各合成対象マスクをスコア値に応じた割合で重み付けし、これらを重ね合わせて合成することで、合成マスク画像を生成する。こうして生成した合成画像マスクに基づいて根拠マップを生成する(ステップS209A)。すなわち、全てのマスクにおける未処理部分(非マスク部分)に対して、スコア値に応じた重み付け値を設定し、各マスクを重ね合わせたときに互いに重複する未処理部分同士の重み付け値を合計してマスク数で割ることで、領域ごとの根拠係数を計算する。そして、求められた各領域の根拠係数を可視化することで、根拠マップを生成する。
図7を用いて、ステップS209Aで行われる根拠マップ生成の例を説明する。例えばステップS207Aで2つのマスク601,602が合成対象マスクとして保存された場合、これら2つのマスクを重ね合わせることで根拠マップ603を生成する。マスク601の未処理部分には、例えばステップS204Aで抽出されたスコア値0.9が重み付け値として設定され、マスク602の未処理部分には、ステップS204Aで抽出されたスコア値0.8が重み付け値として設定される。
根拠マップ603は、領域603a,603b,603c,603dを有する。領域603aでは、マスク601,602の処理部分(マスク部分)が重ね合わされており、この領域603aにおける根拠係数は、(0×0.9+0×0.8)/2=0%と計算される。領域603bでは、マスク601,602の未処理部分が重ね合わされており、この領域603bにおける根拠係数は、(1×0.9+1×0.8)/2=85%と計算される。領域603cでは、マスク601の未処理部分とマスク602の処理部分が重ね合わされており、この領域603cにおける根拠係数は、(1×0.9+0×0.8)/2=45%と計算される。領域603dでは、マスク601の処理部分とマスク602の未処理部分が重ね合わされており、この領域603dにおける根拠係数は、(0×0.9+1×0.8)/2=40%と計算される。
ステップS209Aで根拠マップの生成を終えたら、本実施形態の情報処理装置100は図6のフローチャートを完了する。
以上説明した本発明の第2の実施形態によれば、推論部103は、複数のマスク済み画像の各々について、対象画像の分類に対する推論の信頼度を表すスコア値を、推論結果として画像領域ごとに取得する(ステップS203A)。推論結果抽出部104は、推論部103により取得された各マスク済み画像の画像領域ごとのスコア値のうち、対象座標に対応する画像領域のスコア値を抽出する(ステップS204A)。根拠生成部105は、推論結果抽出部104により抽出されたスコア値に応じた割合で複数のマスクを重ね合わせて合成することで合成マスク画像を生成し、生成した合成マスク画像に基づいて根拠マップを生成する(ステップS209A)。このようにしたので、全てのクラスについて、画像の分類結果として得られた根拠を示す根拠マップを生成することができる。
[第3の実施形態]
次に、本発明の第3の実施形態に係る情報処理装置について、図8を参照して説明する。なお、本実施形態の情報処理装置も、前述の第2の実施形態と同様に、第1の実施形態で説明した図1の情報処理装置100と同様の構成を有している。そのため以下では、図1の情報処理装置100の構成を用いて本実施形態の説明を行う。
次に、本発明の第3の実施形態に係る情報処理装置について、図8を参照して説明する。なお、本実施形態の情報処理装置も、前述の第2の実施形態と同様に、第1の実施形態で説明した図1の情報処理装置100と同様の構成を有している。そのため以下では、図1の情報処理装置100の構成を用いて本実施形態の説明を行う。
以下では、本実施形態の情報処理装置100における根拠マップの生成方法について説明する。図8は、本発明の第3の実施形態に係る情報処理装置100の処理内容の一例を示すフローチャートである。なお、図8のフローチャートにおいて、第1、第2の実施形態でそれぞれ説明した図2、図6のフローチャートと同様の処理を行う部分には、図2、図6と同一のステップ番号を付している。
まず、解析対象取得部101は、第1の実施形態と同様に、解析対象とする画像を取得するとともに、その対象画像における対象座標および対象クラスを取得する(ステップS201)。次に、画像加工部102は、第1の実施形態と同様に、ステップS201で取得された対象画像をマスク加工し、マスク済み画像を生成する(ステップS202)。その後、推論部103は、ステップS202で生成された複数のマスク済み画像のそれぞれに対して推論を行う(ステップS203A)。ここでは、第2の実施形態と同様に、各マスク済み画像内に写っている物体のクラスを判断するとともに、スコア値を算出する。
次に、推論結果抽出部104は、ステップS203Aで取得された各マスク済み画像の推論結果から、ステップS201で取得された対象座標における推論結果をそれぞれ抽出する(ステップS204B)。ここでは、各マスク済み画像について画像領域ごとに得られたクラスとスコア値のうち、対象座標に対応する画像領域のクラスとスコア値を抽出することで、対象座標における推論結果を抽出することができる。
続いて、根拠生成部105は、第1の実施形態と同様に、ステップS202で生成された複数のマスク済み画像のうちいずれかを選択し(ステップS205)、選択したマスク済み画像に対してステップS204Bで抽出された対象座標におけるクラスが、ステップS201で取得された対象クラスと一致するか否かを判定する(ステップS206)。その結果、選択したマスク済み画像の対象座標におけるクラスが対象クラスと一致する場合、根拠生成部105は、ステップS202において当該マスク済み画像の生成に用いられたマスクを合成対象マスクとして抽出し、ステップS204Bで抽出された対象座標におけるスコア値と組み合わせて、不図示の記憶装置内に一時的に保存する(ステップS207B)。ステップS207Bの処理を実施したら、根拠生成部105は次のステップS208へ進む。一方、選択したマスク済み画像の対象座標におけるクラスが対象クラスと一致しない場合、根拠生成部105は、ステップS207Bの処理を実施せずにステップS208へ進む。
続いて、根拠生成部105は、ステップS205で全てのマスク済み画像を選択済みであるか否かを判定する(ステップS208)。ステップS202で生成されたマスク済み画像を全て選択済みである場合はステップS209Aへ進み、未選択のマスク済み画像が残っている場合はステップS205に戻る。これにより、各マスク済み画像に対してステップS206,S207Bの処理が実施され、対象座標におけるクラスが対象クラスと一致するマスクが合成対象マスクとして、スコア値とともに保存される。
根拠生成部105は、ステップS207Bで保存された各合成対象マスクを重ね合わせて合成することで、合成マスク画像を生成し、この合成画像マスクに基づいて根拠マップを生成する(ステップS209A)。ここでは、第2の実施形態と同様に、ステップS207Bで保存された各合成対象マスクをスコア値に応じた割合で重み付けし、これらを重ね合わせて合成することで、合成マスク画像を生成する。こうして生成した合成画像マスクに基づいて根拠マップを生成する。
ステップS209Aで根拠マップの生成を終えたら、本実施形態の情報処理装置100は図8のフローチャートを完了する。
以上説明した本発明の第3の実施形態によれば、推論部103は、複数のマスク済み画像の各々について、対象画像の分類に対する推論の信頼度を表すスコア値を、推論結果としてクラスごとにさらに取得する(ステップS203A)。推論結果抽出部104は、推論部103により取得された各マスク済み画像の対象座標に対応するクラスおよびスコア値を抽出する(ステップS204B)。根拠生成部105は、推論結果抽出部104により抽出されたスコア値に応じた割合で各合成対象マスクを重ね合わせて合成し、合成マスク画像を生成する(ステップS209A)。このようにしたので、任意の対象クラスについて、さらに詳細な根拠を示す根拠マップを生成することができる。
なお、以上説明した第1~第3の各実施形態は、情報処理装置100において予め設定されていてもよいし、入力装置110から入力インターフェース106を介して入力される入力操作により、ユーザが任意に選択可能としてもよい。例えば、図2、図8のステップS201または図6のステップS201Aにおいて、対象画像や対象座標、対象クラスをユーザの入力操作に応じて取得する際に、根拠マップの生成方法をユーザに選択させることにより、どの実施形態を適用するかを決定することができる。
[第4の実施形態]
次に、本発明の第4の実施形態に係る情報処理装置について、図9~図13を参照して説明する。
次に、本発明の第4の実施形態に係る情報処理装置について、図9~図13を参照して説明する。
図9は、本発明の第4の実施形態に係る情報処理装置100Aの構成例を示すブロック図である。図9に示すように、本実施形態に係る情報処理装置100Aは、図1で示した第1の実施形態に係る情報処理装置100の各要素に加えて、学習画像生成部121および追加候補画像格納部122をさらに備える。学習画像生成部121は、例えばCPUで所定のプログラムが実行されることにより実現され、追加候補画像格納部122は、例えばHDDやSSD等の記憶装置を用いて構成される。
学習画像生成部121は、モデルの機械学習に用いられる学習画像を生成する。このモデルは、不図示の解析装置において画像の分類に使用されるものであり、推論部103が行う推論にも利用される。学習画像生成部121が生成した学習画像は、例えば不図示の学習装置に入力され、学習装置が行うモデルの機械学習において利用される。なお、情報処理装置100A内に機械学習部を設け、この機械学習部においてモデルの機械学習を行うようにしてもよい。
追加候補画像格納部122は、予め登録された1つまたは複数の追加候補画像を格納する。追加候補画像格納部122に格納される各追加候補画像は、例えば解析装置が解析対象とする物体と同一または類似の物体が写っている画像であり、学習画像生成部121が学習画像の生成を行う際に利用される。すなわち、学習画像生成部121は、追加候補画像格納部122に格納された追加候補画像に基づいて、機械学習用の学習画像を生成することができる。
図10は、本発明の第4の実施形態に係る情報処理装置100Aの処理内容の一例を示すフローチャートである。
ステップS200では、根拠マップ生成処理が実行される。ここでは、第1~第3の各実施形態で説明した図2、図6、図8のフローチャートのいずれかにより、対象画像に対して根拠マップが生成される。本実施形態の情報処理装置100Aでは、この根拠マップを用いて、学習画像の生成が行われる。
図11は、本実施形態の情報処理装置100Aにおいて学習画像が生成される画像の例を示す図である。本実施形態では、不図示の解析装置において行われる解析処理の精度を向上するために、学習画像を生成する例を説明する。
図11の画像701,711は、半導体検査の過程において、電子顕微鏡で撮影された画像の例である。解析装置では、これらの画像に写っているニードル701a,711aの先端部分を、セマンティックセグメンテーションを用いて認識するタスクを実行する。ここで、画像701には検出対象であるニードル701aのみが写っている一方で、画像711には検出対象のニードル711aに加えて、検出対象ではないゴミ711bが写っている。なお、解析装置では既に所定の学習データを用いて事前にセマンティックセグメンテーションモデルが学習されているとする。
画像701,711に対して解析装置によるタスクの実行結果をそれぞれ重畳すると、例えば推論結果702,712が得られる。推論結果702,712では、認識されたニードル701a,711aの先端部分を中心に円702a,712aがそれぞれ描画されている。また、推論結果712では、さらにゴミ711bの先端部分もニードルの先端部分と誤認識されることで、円712bが描画されている。
ここで、画像701,711に対して実行されるタスクでは、ニードルの先端部分を認識するとともに、その他の部分は背景クラスと判定することを目的としている。ただし、図11の推論結果702,712では、ニードルの先端部分と認識された部分のみを円で示しており、背景クラスについては範囲が広いため、明示的には示していない。図11の例において、推論結果702は、ニードル701aの先端を中心に円702aが正しく描画され、その他の部分は背景クラスと判定できているため、理想的である。一方、推論結果712は、ニードル711aの先端を中心に円712aが正しく描画されているが、ゴミ711bに対しても円712bが誤って描画されているため、好ましくない。
本実施形態の情報処理装置100Aでは、例えばこのようなゴミ711bに対する誤認識を抑制する効果が高いと推測される画像を選出し、その画像を用いて学習画像を生成する。生成した学習画像は、情報処理装置100Aから不図示の学習装置に提供され、学習装置が行うモデルの機械学習において利用される。
図10の説明に戻ると、学習画像生成部121は、ステップS200の根拠マップ生成処理によって生成された根拠マップに基づいて、テンプレート領域を決定する(ステップS301)。ここでは、例えば根拠マップが表す対象画像上での分類結果に対する根拠度(根拠率または根拠係数)の分布に基づき、その根拠マップの生成に用いられた対象画像の一部をテンプレート領域として抽出する。具体的には、例えば根拠マップに対して根拠度の閾値を設定し、その閾値よりも根拠度の値が大きい根拠マップの領域に対応する対象画像の領域を、テンプレート領域として抽出する。
図12を用いて、ステップS301で行われるテンプレート領域決定の例を説明する。図12に示す画像711は、図11において例示した画像711と同じものである。この画像711を対象画像とし、ゴミ711bの先端部分を対象座標801bに指定してステップS209の根拠マップ生成処理を実行すると、例えばマスク802,803が設定され、これらのマスクを重ね合わせて根拠マップ804が生成される。ステップS301の処理では、根拠マップ804に対して例えば閾値を80%に設定すると、根拠度がこの閾値80%を超える領域804aが選択され、領域804aに対応する画像711の領域805がテンプレート領域として抽出される。こうして抽出されたテンプレート領域805には、対象座標801bが指定されたゴミ711bが含まれている。
なお、ステップS301でテンプレート領域を決定する際の閾値は、例えば入力装置110から入力インターフェース106を介して入力されるユーザの入力操作に応じて指定してもよいし、あるいは根拠マップ全体における根拠度の四分位数や平均値などを参考にして、情報処理装置100Aが自動的に指定してもよい。また、テンプレート領域の大きさや形状は、それぞれ任意に設定することが可能である。例えば根拠マップで根拠度が閾値を満たす部分をピクセル単位でテンプレート領域としてもよいし、それらのピクセルを含むのに十分な大きさを有する矩形や円形等の領域をテンプレート領域としてもよい。
図10の説明に戻ると、学習画像生成部121は、追加候補画像格納部122に格納されている追加候補画像のいずれかを選択する(ステップS302)。続いて、学習画像生成部121は、ステップS301で決定したテンプレート領域を用いて、ステップS302で選択した追加候補画像に対するテンプレートマッチングを行う(ステップS303)。ここでは、例えば当該追加候補画像の中でテンプレート領域との類似度が最も高い部分を判定し、その部分の類似度をマッチング結果として抽出する。
なお、ステップS303のテンプレートマッチングでは、ステップS301で決定したテンプレート領域に対して、大きさや角度の変更、反転、2値化などの画像変換を行ったものを用いてもよい。このとき、タスクの対象とされる物体の種類に応じて、テンプレート領域に対する画像変換の適用の有無を選択してもよい。例えば第1~第3の各実施形態で説明したように、魚を対象とするタスクの場合には、画像内でその大きさや向きが変化することが考えられる。そのため、上記の画像変換を適用したテンプレート領域を用いてテンプレートマッチングを行うことで、当該テンプレート領域に対して適切に類似度が求まることが想定できる。一方で、本実施形態で説明した図11や図12の例は、顕微鏡で撮影した画像内の人工物を対象とするタスクである。このようなタスクでは、画像内での大きさや向きの変化が少ないと考えられるため、上記のような画像変換を適用すると、想定とは異なる場所において高い類似度が誤って取得されてしまう可能性がある。したがって、これらの例では、テンプレート領域に対して画像変換を適用せずにテンプレートマッチングを行う必要があると考えられる。このように、ステップS303でテンプレートマッチングを行う際には、テンプレート領域と比較対象の画像との特徴を考慮して、画像変換を適用するか否かを選択することが好ましい。このとき、適用する画像変換の種類を選択してもよい。
テンプレートマッチングを実行したら、学習画像生成部121は、ステップS302で全ての追加候補画像を選択済みであるか否かを判定する(ステップS304)。追加候補画像格納部122に格納されている追加候補画像を全て選択済みである場合はステップS305へ進み、未選択の追加候補画像が残っている場合はステップS302に戻る。これにより、各追加候補画像に対してステップS303のテンプレートマッチングが実施され、その結果、各追加候補画像におけるマッチング結果が抽出される。
最後に、学習画像生成部121は、ステップS303でテンプレートマッチングが実行された各追加候補画像に基づいて、学習画像を生成する(ステップS305)。ここでは、例えば各追加候補画像におけるマッチング結果のうち、テンプレート領域との類似度が最も高いマッチング結果が得られた追加候補画像を選択し、学習画像として設定する。これにより、根拠マップに基づいて決定されたテンプレート領域に基づき、機械学習での精度改善効果が高いと推測される学習画像を生成することが可能となる。なお、このとき選択した追加候補画像をそのまま用いて学習画像を生成してもよいし、選択した追加候補画像に対して所定の画像処理を行うことにより、学習画像を生成してもよい。
図13を用いて、ステップS305で行われる学習画像生成の例を説明する。ここでは、追加候補画像格納部122において追加候補画像901,911が格納されており、これらの追加候補画像901,911に対して図12のテンプレート領域805を用いたテンプレートマッチングを行うことにより、追加候補画像901,911内でテンプレート領域805との類似度が最も高い領域901a,911aがそれぞれ抽出されたとする。追加候補画像901の領域901aには、テンプレート領域805が抽出された図12の画像711におけるゴミ711bと類似した形状のゴミが写っているため、類似度が比較的高い値で求められる。一方、追加候補画像911にはゴミが写っておらず、その中でテンプレート領域805との類似度が最も高い領域911aが抽出されるが、この領域911aの類似度の値は、追加候補画像901の領域901aと比べて小さい。
上記のような状況において、学習画像生成部121によりステップS305の処理が実行されると、領域901aが得られた追加候補画像901が選択され、これに基づいて学習画像902が設定される。学習画像902は、追加候補画像901に写っているニードルの先端部分に対して、教師データとしてのアノテーションを表す円902aが重畳されることで生成される。なお、学習画像902のうちアノテーション用の円902a以外の部分には、背景クラスが設定されている。
以上説明したように、学習画像902では、ゴミが写っている領域901aに対応する部分が背景クラスに設定されている。そのため、学習画像902を教師データに用いて機械学習をさらに行い、その学習結果を反映したモデルを用いて画像解析を行うと、ゴミが誤ってニードルの先端部分と判断されてしまうことを抑制できる。すなわち、図11の推論結果712において、ゴミ711bの先端部分に対して円712bが誤って描画されるのを抑制することが可能となる。
なお、ステップS305の処理では、テンプレート領域との類似度が最も高いマッチング結果が得られた追加候補画像だけでなく、マッチング結果に対する閾値を設定し、テンプレート領域との類似度がこの閾値を上回る追加候補画像を全て選択し、これらを用いて学習画像を生成してもよい。また、他の条件を満たす追加候補画像に基づいて学習画像を生成してもよい。例えば、テンプレート領域との類似度の値が他の追加候補画像と比べて大幅に外れているなど、特異的な特徴を示す追加候補画像を用いて学習画像を生成することができる。さらに、テンプレートマッチングの結果に基づいて選択した追加候補画像を出力インターフェース107を介して表示装置111に表示することでユーザに提示し、その中でユーザが許可または指定した追加候補画像を用いて、学習画像を生成するようにしてもよい。
ステップS305で学習画像の生成を終えたら、本実施形態の情報処理装置100Aは図10のフローチャートを完了する。
以上説明した本発明の第4の実施形態によれば、情報処理装置100Aは、根拠生成部105により生成された根拠マップに基づいて、対象画像の一部をテンプレート領域として抽出し、抽出したテンプレート領域に基づいて機械学習に用いられる学習画像を生成する学習画像生成部121を備える。このようにしたので、機械学習されたモデルを用いて行われる画像の解析処理について、根拠マップを利用した精度向上を図ることができる。
また、以上説明した本発明の第4の実施形態によれば、根拠マップは、対象画像上での分類結果に対する根拠度の分布を表している。学習画像生成部121は、根拠マップに対して指定された根拠度の閾値に基づいてテンプレート領域を抽出する(ステップS301)。このようにしたので、根拠マップを利用して対象画像の適切な部分をテンプレート領域として抽出することができる。
さらに、以上説明した本発明の第4の実施形態によれば、学習画像生成部121は、予め取得した追加候補画像からテンプレート領域との類似度が所定の条件を満たす部分を抽出することで学習画像を生成する(ステップS303,S305)。このようにしたので、テンプレート領域に基づいて適切な学習画像を容易に生成することができる。
なお、本発明は上述の実施の形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で種々の変更が可能である。また、個々の実施形態は単独で実施してもよいし、任意の実施形態を複数組み合わせて適用することも可能である。
100,100A:情報処理装置、101:解析対象取得部、102:画像加工部、103:推論部、104:推論結果抽出部、105:根拠生成部、106:入力インターフェース、107:出力インターフェース、108:外部インターフェース、109:バス、110:入力装置、111:表示装置、112:情報機器、121:学習画像生成部、122:追加候補画像格納部
Claims (15)
- 解析対象とする画像を取得する解析対象取得部と、
前記画像に対して複数のマスクを設定し、前記複数のマスクを用いて前記画像をそれぞれマスクすることで複数のマスク済み画像を生成する画像加工部と、
前記複数のマスク済み画像に対して、機械学習による学習済みのモデルを用いた推論をそれぞれ行い、前記複数のマスク済み画像の各々について、前記画像の分類に関する推論結果を取得する推論部と、
前記推論部により取得された各マスク済み画像の推論結果から、前記画像内で指定された対象座標における推論結果を抽出する推論結果抽出部と、
前記推論結果抽出部により抽出された前記対象座標における推論結果および前記複数のマスクに基づいて、前記モデルによる前記画像の分類結果に対する判断根拠を可視化した根拠マップを生成する根拠生成部と、を備える、情報処理装置。 - 請求項1に記載の情報処理装置において、
前記推論部は、前記複数のマスク済み画像の各々について、前記推論により判断された前記画像の分類を表すクラスを、前記推論結果として画像領域ごとに取得し、
前記推論結果抽出部は、前記推論部により取得された各マスク済み画像の画像領域ごとのクラスのうち、前記対象座標に対応する画像領域のクラスを抽出し、
前記根拠生成部は、前記複数のマスク済み画像のうち、前記推論結果抽出部により抽出された前記クラスと、前記画像に対して指定された対象クラスとが一致する各マスク済み画像について、当該マスク済み画像の生成に用いられたマスクを合成対象マスクとして抽出し、抽出した各合成対象マスクを重ね合わせて合成することで合成マスク画像を生成し、生成した前記合成マスク画像に基づいて前記根拠マップを生成する、情報処理装置。 - 請求項2に記載の情報処理装置において、
前記推論部は、前記複数のマスク済み画像の各々について、前記画像の分類に対する前記推論の信頼度を表すスコア値を、前記推論結果として前記クラスごとにさらに取得し、
前記推論結果抽出部は、各マスク済み画像の前記対象座標における前記クラスおよび前記スコア値を抽出し、
前記根拠生成部は、前記推論結果抽出部により抽出された前記スコア値に応じた割合で各合成対象マスクを重ね合わせて合成し、前記合成マスク画像を生成する、情報処理装置。 - 請求項1に記載の情報処理装置において、
前記推論部は、前記複数のマスク済み画像の各々について、前記画像の分類に対する前記推論の信頼度を表すスコア値を、前記推論結果として画像領域ごとに取得し、
前記推論結果抽出部は、前記推論部により取得された各マスク済み画像の画像領域ごとのスコア値のうち、前記対象座標に対応する画像領域のスコア値を抽出し、
前記根拠生成部は、前記推論結果抽出部により抽出された前記スコア値に応じた割合で前記複数のマスクを重ね合わせて合成することで合成マスク画像を生成し、生成した前記合成マスク画像に基づいて前記根拠マップを生成する、情報処理装置。 - 請求項1に記載の情報処理装置において、
前記根拠マップに基づいて前記画像の一部をテンプレート領域として抽出し、抽出した前記テンプレート領域に基づいて前記機械学習に用いられる学習画像を生成する学習画像生成部を備える、情報処理装置。 - 請求項5に記載の情報処理装置において、
前記根拠マップは、前記画像上での前記分類結果に対する根拠度の分布を表し、
前記学習画像生成部は、前記根拠マップに対して指定された前記根拠度の閾値に基づいて前記テンプレート領域を抽出する、情報処理装置。 - 請求項5に記載の情報処理装置において、
前記学習画像生成部は、予め取得した追加候補画像から前記テンプレート領域との類似度が所定の条件を満たす部分を抽出することで前記学習画像を生成する、情報処理装置。 - 請求項1に記載の情報処理装置において、
ユーザの入力操作を受け付ける入力インターフェースを備え、
前記解析対象取得部は、前記入力インターフェースを介して行われた前記ユーザの入力操作に基づいて前記対象座標を取得する、情報処理装置。 - 請求項1に記載の情報処理装置において、
表示装置と接続され、前記表示装置に前記根拠マップを表示させることでユーザへの情報提供を行う出力インターフェースを備える、情報処理装置。 - 請求項9に記載の情報処理装置において、
前記出力インターフェースは、前記画像に前記根拠マップを重畳した画面を前記表示装置に表示させる、情報処理装置。 - 請求項1に記載の情報処理装置において、
外部の情報機器と接続される外部インターフェースを備え、
前記解析対象取得部は、前記外部インターフェースを介して前記対象座標を取得する、情報処理装置。 - 請求項1に記載の情報処理装置において、
前記画像加工部は、前記対象座標または前記画像内で指定された他の座標に基づいて、前記画像に対して設定する前記複数のマスクの位置、形状および密度の少なくともいずれか一つを調整する、情報処理装置。 - 請求項1に記載の情報処理装置において、
前記画像加工部は、前記画像のうちマスクされていない部分は当該部分をそのまま用いて前記マスク済み画像を生成し、前記画像のうちマスクされた部分は当該部分に所定の画像処理を行って前記マスク済み画像を生成する、情報処理装置。 - 請求項1に記載の情報処理装置において、
前記解析対象取得部は、電子顕微鏡によって撮影された画像を解析対象とする前記画像として取得する、情報処理装置。 - 情報処理装置を用いた画像処理方法であって、
解析対象とする画像を取得し、
前記画像に対して複数のマスクを設定し、
前記複数のマスクを用いて前記画像をそれぞれマスクすることで複数のマスク済み画像を生成し、
前記複数のマスク済み画像に対して、機械学習による学習済みのモデルを用いた推論をそれぞれ行うことで、前記複数のマスク済み画像の各々について、前記画像の分類に関する推論結果を取得し、
取得した各マスク済み画像の推論結果から、前記画像内で指定された対象座標における推論結果を抽出し、
抽出した前記対象座標における推論結果および前記複数のマスクに基づいて、前記モデルによる前記画像の分類結果に対する判断根拠を可視化した根拠マップを生成する、画像処理方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021089523A JP2022182149A (ja) | 2021-05-27 | 2021-05-27 | 情報処理装置、画像処理方法 |
US17/710,214 US20220383616A1 (en) | 2021-05-27 | 2022-03-31 | Information processing apparatus and image processing method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021089523A JP2022182149A (ja) | 2021-05-27 | 2021-05-27 | 情報処理装置、画像処理方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2022182149A true JP2022182149A (ja) | 2022-12-08 |
Family
ID=84193587
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021089523A Pending JP2022182149A (ja) | 2021-05-27 | 2021-05-27 | 情報処理装置、画像処理方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US20220383616A1 (ja) |
JP (1) | JP2022182149A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102572423B1 (ko) * | 2023-03-07 | 2023-08-30 | 주식회사 에이모 | 인스턴스 레이어를 생성하는 방법 및 장치 |
-
2021
- 2021-05-27 JP JP2021089523A patent/JP2022182149A/ja active Pending
-
2022
- 2022-03-31 US US17/710,214 patent/US20220383616A1/en active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102572423B1 (ko) * | 2023-03-07 | 2023-08-30 | 주식회사 에이모 | 인스턴스 레이어를 생성하는 방법 및 장치 |
Also Published As
Publication number | Publication date |
---|---|
US20220383616A1 (en) | 2022-12-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10936911B2 (en) | Logo detection | |
US11282185B2 (en) | Information processing device, information processing method, and storage medium | |
CN109478239B (zh) | 检测图像中的对象的方法和对象检测系统 | |
JP2018022484A (ja) | 画像内の物体を検出する方法及び物体検出システム | |
US9721387B2 (en) | Systems and methods for implementing augmented reality | |
CN110582783B (zh) | 训练装置、图像识别装置、训练方法和计算机可读信息存储介质 | |
JP2007334766A (ja) | 異常領域検出装置および異常領域検出方法 | |
JP6325401B2 (ja) | 情報処理装置、画像変更方法及びプログラム | |
EP3300025A1 (en) | Image processing device and image processing method | |
KR20150024719A (ko) | 영상에서 객체를 분리하는 방법 및 장치. | |
JP7379684B2 (ja) | 画像生成方法及び装置並びにコンピュータプログラム | |
KR102225753B1 (ko) | 딥러닝 기반 파노라마 영상의 품질 평가 방법 및 그 장치 | |
JP2007025902A (ja) | 画像処理装置、画像処理方法 | |
JP2022182149A (ja) | 情報処理装置、画像処理方法 | |
CN114842035A (zh) | 基于深度学习的车牌脱敏方法、装置、设备及存储介质 | |
US9053383B2 (en) | Recognizing apparatus and method, program, and recording medium | |
JP5231159B2 (ja) | 人物検出装置及び方法、学習モデル作成装置及び方法、並びにプログラム | |
CN113269752A (zh) | 一种图像检测方法、装置终端设备及存储介质 | |
WO2021186672A1 (ja) | 画像処理方法 | |
JP2006323779A (ja) | 画像処理方法、画像処理装置 | |
EP3217356A1 (en) | Apparatus, system and method for extracting a region of interest from an image using graph cuts | |
JP6546385B2 (ja) | 画像処理装置及びその制御方法、プログラム | |
JP7053195B2 (ja) | 家屋異動推定装置、家屋異動学習装置、家屋異動推定方法、識別器のパラメータ生成方法及びプログラム | |
CN113167568B (zh) | 坐标计算装置、坐标计算方法和计算机可读记录介质 | |
JP6350331B2 (ja) | 追尾装置、追尾方法及び追尾プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20240214 |