JP2023069054A

JP2023069054A - 情報処理装置、情報処理方法および情報処理プログラム

Info

Publication number: JP2023069054A
Application number: JP2021180647A
Authority: JP
Inventors: 幸平末永; Kohei Suenaga; 淳菊池; Atsushi Kikuchi; 正樹和賀; Masaki Waga
Original assignee: Kyoto University NUC
Current assignee: Kyoto University NUC
Priority date: 2021-11-04
Filing date: 2021-11-04
Publication date: 2023-05-18
Also published as: WO2023079943A1

Abstract

【課題】短時間で高精度に機械学習モデルの判断根拠を示すこと。
【解決手段】機械学習モデルと、機械学習モデルで検出すべき検出対象の分類ラベルと、検出対象が含まれるか否かを判定する被判定データを取得する取得部と、
機械学習モデルが被判定データを分類ラベルに分類する際の重要度に応じて、被判定データ内の要素に順位をつけて、初期ヒートマップを生成する第１生成部と、
初期ヒートマップに応じた位置にマスクを生成し、マスクに対する機械学習モデルの反応に応じてマスクの位置を繰り返し更新し、最適化されたマスクに基づいて、最終ヒートマップを生成する第２生成部と、を備えた情報処理装置。
【選択図】図１

Description

本発明は、情報処理装置、情報処理方法および情報処理プログラムに関する。

上記技術分野において、非特許文献１には、機械学習モデルの判断根拠を説明する技術が開示されている。

"Randomized Input Sampling for Explanation of Black-box Models"V Petsiuk, A Das, K Saenko.著 British Machine Vision Conference (BMVC), 2018発表

しかしながら、上記文献に記載の技術では、短い時間で精度の低いヒートマップを取得することができる一方で、精度の高いヒートマップを生成するには推論を何度も何度も繰り返す必要があり、時間がかかるという欠点があった。

本発明の目的は、上述の課題を解決する技術を提供することにある。

上記目的を達成するため、本発明に係る装置は、
機械学習モデルと、前記機械学習モデルで検出すべき検出対象の分類ラベルと、前記検出対象が含まれるか否かを判定する被判定データを取得する取得部と、
前記機械学習モデルが前記被判定データを前記分類ラベルに分類する際の重要度に応じて、前記被判定データ内の要素に順位をつけて、初期ヒートマップを生成する第１生成部と、
前記初期ヒートマップに応じた位置にマスクを生成し、前記マスクに対する前記機械学習モデルの反応に応じて前記マスクの位置を繰り返し更新し、最適化されたマスクに基づいて、最終ヒートマップを生成する第２生成部と、
を備えた情報処理装置である。

上記目的を達成するため、本発明に係る方法は、
取得部が、機械学習モデルと、前記機械学習モデルで検出すべき検出対象のラベルと、前記検出対象が含まれるか否かを判定する被判定データを取得する取得ステップと、
前記機械学習モデルが前記被判定データを前記ラベルに分類する際の重要度に応じて、第１生成部が、前記被判定データ内の要素に順位をつけて、初期ヒートマップを生成する第１生成ステップと、
前記第２生成部が、前記初期ヒートマップに応じた位置にマスクを生成し、前記マスクに対する前記機械学習モデルの反応に応じて前記マスクの位置を繰り返し更新し、最適化されたマスクに基づいて、最終ヒートマップを生成する第２生成ステップと、
を含む情報処理方法である。

上記目的を達成するため、本発明に係るプログラムは、
機械学習モデルと、前記機械学習モデルで検出すべき検出対象のラベルと、前記検出対象が含まれるか否かを判定する被判定データを取得する取得ステップと、
前記機械学習モデルが前記被判定データを前記ラベルに分類する際の重要度に応じて、前記被判定データ内の要素に順位をつけて、初期ヒートマップを生成する第１生成ステップと、
前記初期ヒートマップに応じた位置にマスクを生成し、前記マスクに対する前記機械学習モデルの反応に応じて前記マスクの位置を繰り返し更新し、最適化されたマスクに基づいて、最終ヒートマップを生成する第２生成ステップと、
をコンピュータに実行させるヒートマップ生成プログラムである。

本発明によれば、短時間で高精度に機械学習モデルの判断根拠を示すことができる。

第１実施形態に係る情報処理装置の構成を示すブロック図である。第２実施形態に係る情報処理装置の構成を示すブロック図である。ＲＩＳＥとベイズ最適化の特徴の相違を説明する図である。第２実施形態に係る情報処理装置の処理の流れを示すフローチャートである。第２実施形態に係る情報処理装置で生成されたヒートマップの一例を示す図である。第３実施形態に係る情報処理装置で生成されたヒートマップの一例を示す図である。第３実施形態に係る情報処理装置で生成されたヒートマップの一例を示す図である。第４実施形態に係る情報処理装置の構成を示すブロック図である。第４実施形態に係る情報処理装置の処理を説明する図である。第４実施形態に係る情報処理装置の処理を説明する図である。第４実施形態に係る情報処理装置で生成されたヒートマップの一例を説明するための図である。第４実施形態に係る情報処理装置で生成されたヒートマップの一例を説明するための図である。第４実施形態に係る情報処理装置で生成されたヒートマップの一例を示す図である。

以下に、図面を参照して、本発明の実施の形態について例示的に詳しく説明する。ただし、以下の実施の形態に記載されている構成要素はあくまで例示であり、本発明の技術範囲をそれらのみに限定する趣旨のものではない。

［第１実施形態］
本発明の第１実施形態としての情報処理装置１００について、図１を用いて説明する。情報処理装置１００は、機械学習モデルが判定する根拠をヒートマップ（Saliency map）で表すための装置である。

図１に示すように、情報処理装置１００は、取得部１０１と初期ヒートマップ生成部１０２と最終ヒートマップ生成部１０３とを含む。

取得部１０１は、機械学習モデル１１１と、機械学習モデル１１１で検出すべき検出対象の分類ラベル１１２と、検出対象が含まれるか否かを判定される被判定データ１１３とを取得する。

初期ヒートマップ生成部１０２は、機械学習モデル１１１が被判定データ１１３を分類ラベル１１２に分類する際の重要度に応じて、被判定データ１１３内の要素に順位をつけて、初期ヒートマップ１２１を生成する。

最終ヒートマップ生成部１０３は、初期ヒートマップ１２１とは異なる方法により、初期ヒートマップ１２１に応じた位置にマスクを生成し、マスクに対する機械学習モデル１１１の反応に応じてマスクの位置を繰り返し更新し、最適化されたマスクに基づいて、最終ヒートマップ１３１を生成する。

上記の構成によれば、短時間で高精度に機械学習モデルの判断根拠を示すことができる。

［第２実施形態］
次に本発明の第２実施形態に係るに情報処理装置ついて、図２を用いて説明する。図２は、本実施形態に係る情報処理装置の構成を説明するためのブロック図である。

図２に示すように、情報処理装置２００は、取得部２０１と初期ヒートマップ生成部２０２とベイズ最適化部２０３とを含む。

取得部２０１は、機械学習モデル２１１と、機械学習モデル２１１で検出すべき検出対象の分類ラベル２１２と、検出対象が含まれるか否かを判定される画像データ２１３とを取得する。

初期ヒートマップ生成部２０２は、機械学習モデル２１１が画像データ２１３を分類ラベル２１２に分類する際の重要度に応じて、画像データ２１３内の要素に順位をつけて、初期ヒートマップ２２１を生成する。

初期ヒートマップ生成部２０２は、RISE（Randomized Input Sampling for Experiments)と呼ばれる方法を採用して特定のクラスに寄与したとされる入力領域をハイライトする。具体的には、ランダムに生成した複数のマスクを入力画像に重ね、DNN（deep neural network）モデルで推論を繰り返すことで、マスクによる確信度への影響から重要度を表すヒートマップを生成する。つまりランダムに生成した複数のマスクにより画像データ内の一部の領域を隠す前後において、機械学習モデルで推論を行う。その推論での判定確信度の差を、マスクに含まれる画素の重要度とする。これを複数のマスクについて繰り返し行うことにより、画素ごとの需要度が精度良く求まる。本実施形態では、推論を行うマスクの数を一定数（例えば１００）に抑えることにより、精度よりも速度を優先して、比較的粗いヒートマップを生成する。

ここではRISEを例に説明するがその発展技術として、PN-RISE（Positive/Negative RISE：RISEを拡張し、ポジティブとネガティブの両方の影響をヒートマップとして出力する手法、画像の分類に無関係な画像領域の重要度が0となるようにバイアスをかけている）を採用してもよい（Yuhki Hatakeyama, Hiroki Sakuma, Yoshinori Konishi, Kohei Suenaga:Visualizing Color-Wise Saliency of Black-Box Image Classification Models. ACCV (3) 2020: 189-205）。

DNNをブラックボックスとして扱う手法としては、他にも LIME（Marco Tulio Ribeiro, Sameer Singh, Carlos Guestrin:"Why Should I Trust You?": Explaining the Predictions of Any Classifier. HLT-NAACL Demos 2016: 97-101）が知られており、初期ヒートマップ生成部２０２でLIMEの手法を用いることで本実施形態に適用可能である。LIMEの場合には、画像データから抽出した境界に基づいて生成した複数のマスクにより画像データ内の要素を隠す前後において機械学習モデルで推論を行い、その推論の判定確信度の差を、マスクに含まれる要素の重要度とてヒートマップを生成する。

DNNをブラックボックスとして扱う手法としては、さらにSHAP（Scott M. Lundberg, Su-In Lee:A Unified Approach to Interpreting Model Predictions. NIPS 2017: 4765-4774）が知られており、初期ヒートマップ生成部２０２でSHAPの手法を用いることで本実施形態に適用可能である。SHAPの場合には、画像データから抽出した境界に基づいて生成した（各領域に線形で近似した）複数のマスクにより画像データ内の要素を隠す前後において機械学習モデルで推論を行い、その推論の判定確信度の差を、マスクに含まれる要素の重要度としてヒートマップを生成する。

一方、ベイズ最適化部２０３は、初期ヒートマップ２２１に応じた位置にマスクを生成し、マスクに対する機械学習モデル２１１の反応に応じてマスクの位置を所定回数だけ繰り返し更新し、最適化されたマスクに基づいて、最終ヒートマップ２３１を生成する。つまり、ベイズ最適化部２０３では、マスクすべき場所をアダプティブに変えていく。

ベイズ最適化は、そもそもブラックボックス関数の最適値を求める手法である（Gaussian Processes for Machine Learning. Carl Edward Rasmussen and Christopher K. I. Williams The MIT Press, 2006. ISBN 0-262-18253-X.）。ここでは過去のマスクによる推論結果（観測結果）に基づいて次のマスク位置（観測）を決めることで、少ない評価回数で最適な（最重要な）マスク位置、つまり、分類ラベルの判定に重要な意味を持つ画素の位置を求めることができる。具体的には、推論の評価値の期待値と分散により獲得関数を設定し、獲得関数が最大となる点を次の観測点（マスク）とする。

ベイズ最適化を用いて最適なマスクの大きさ、位置を求めることにより、少ない推論回数で精度の高いヒートマップを生成することができる（Mamuku Mokuwe, Michael Burke, Anna Sergeevna Bosman:Black-Box Saliency Map Generation Using Bayesian Optimisation. IJCNN 2020: 1-8）。しかし、初期の期待値の精度が低い場合には、最適なマスクを探す時間およびコストが大きくなるという問題がある。

図３は、RISEによるヒートマップ生成手法と、ベイズ最適化を用いたヒートマップ生成手法の特徴を比較するためのテーブル３００を示す図である。RISEで精度の高いヒートマップを生成するには多くの推論回数が必要となる。一方、RISEのようにランダムな位置にマスクを設定する手法に比べれば、次のマスク位置を決めるのに時間がかかるという問題がある。つまり、ベイズ最適化を用いたサンプリングでは推論回数が増えるほど最適化（フィッティングや分散算出）に時間がかかってしまう。

そこで、本実施形態では、図４のフローチャートに示す流れで処理を進める。

まず、ステップＳ４０１において、機械学習モデル、分類ラベル、画像データを取得する。次に、ステップＳ４０３において、ＲＩＳＥ（またはＬＩＭＥ、もしくはＳＨＡＰなど）の手法を利用して、機械学習モデルが画像データを分類ラベルに分類する根拠を示すおおまかな初期ヒートマップ２２１を生成する。

ステップ４０５では、初期ヒートマップ２２１を初期値として設定する。そしてステップＳ４０７において、初期ヒートマップ２２１を初期値としたベイズ最適化を行い精度の高い最終ヒートマップ２３１を生成する。

図５に、本実施形態によって作成されたヒートマップの一例を示す。図５では、画像認識のデータセットとして一般的なPascal VOCのデータセットを用いて、RISE、ベイズ最適化、本実施形態(RISE400回、ベイズ30回)、それぞれの手法でヒートマップを生成した。そして、生成されたヒートマップがセグメンテーションされた部分を指摘できているかをRecall、Precision、F値により比較評価した。このヒートマップでは、表示のない領域→青い領域→赤い領域の順に重要度が高くなっていることを示す。分類ラベル２１２はボトルであり、左端の写真が画像データ２１３である。

図５に示すように、結果として、RISEより少ない推論回数、ベイズ最適化より少ない計算時間で、高いＦ値（F-measure）が得られた。つまり、本実施形態で生成されたヒートマップが、この画像認識モデルの判断基準を最も的確に示していることがわかった。つまり、このモデルに関して言えば、ボトルの文字部分に着目して、「ボトルか否か」を判断していることが分かる。

［第３実施形態］
次に本発明の第３実施形態に係る情報処理装置について、図６、図７を用いて説明する。本実施形態に係る情報処理装置は、上記第２実施形態と比べると、機械学習モデルの内部情報を使用してヒートマップを生成する点で異なる。その他の構成および動作は、第２実施形態と同様であるため、同じ構成および動作については同じ符号を付してその詳しい説明を省略する。

機械学習モデルは、ニューラルネットワークであって、初期ヒートマップ生成部は、機械学習モデルとしてのニューラルネットワーク内での勾配情報を用いて、画像データをラベルに分類する際の重要度に応じて画像データ内の画素に順位をつけて、初期ヒートマップを生成する。

具体的にはこのように、機械学習モデルの内部情報を使用する方法として、GradCAMが知られている（Ramprasaath R. Selvaraju, Michael Cogswell, Abhishek Das, Ramakrishna Vedantam, Devi Parikh, Dhruv Batra:Grad-CAM: Visual Explanations from Deep Networks via Gradient-Based Localization. ICCV 2017: 618-626)。

機械学習モデルの内部情報を使用する方法としては、他にも、GradCAM++（Aditya Chattopadhyay, Anirban Sarkar, Prantik Howlader, Vineeth N. Balasubramanian:Grad-CAM++: Generalized Gradient-Based Visual Explanations for Deep Convolutional Networks.WACV 2018: 839-847）を採用することができる。

RISEのような手法に比べて、GradCAM（ホワイトボックス的な手法）によれば、ニューラルネットワーク内での勾配情報（ベクトル値）を使うため、速度を犠牲にすることなくより正確な初期ヒートマップを得ることができるという利点がある。

画素値が、別の値に変わったときに確信度がどれぐらい下がるかを、ニューラルネットワークのベクトルの値をみて判定する。画素値の変化による傾向に基づいて、効率よく初期ヒートマップを作ることができる。

図６、図７に、本実施形態によって作成されたヒートマップの一例を示す。図６、図７では、Pascal VOCのデータセットを用いて、RISE、ベイズ最適化、本実施形態、それぞれの手法でヒートマップを生成した。そして、生成されたヒートマップがセグメンテーションされた部分を指摘できているかをRecall、Precision、F値により比較評価した。
図６は、「GradCAM」と「ベイズ最適化」との組み合わせでヒートマップを生成した例を示す。図７は、「GradCAM++」と「ベイズ最適化」との組み合わせでヒートマップを生成した例を示す。
図６，図７に記載のヒートマップでは、青い領域→黄色い領域→赤い領域の順に重要度が高くなっていることを示す。分類ラベル２１２は、自転車、椅子、ソファ、馬であり、左端の写真が画像データ２１３である。

図６、図７に示すように、結果として、RISEより少ない推論回数、ベイズ最適化より少ない計算時間で、高いＦ値（F-measure）が得られた。つまり、本実施形態で生成されたヒートマップが、この画像認識モデルの判断基準を最も的確に示していることがわかった。

図６、７に示すように、結果として、RISEより少ない推論回数、ベイズ最適化より少ない計算時間で、高いＦ値が得られた。

本実施形態によれば、ホワイトボックス的な機械学習モデルに対しても、高速、高精度で画像分類の根拠を明確にすることが可能となる。

［第４実施形態］
次に本発明の第４実施形態に係る情報処理装置について、図８を用いて説明する。図８は、本実施形態に係る情報処理装置の構成を説明するためのブロック図である。本実施形態に係る情報処理装置は、上記第２実施形態と比べると、動画のラベル付けに関するヒートマップを生成する点で異なる。その他の構成および動作は、第２実施形態と同様であるため、同じ構成および動作については同じ符号を付してその詳しい説明を省略する。

取得部８０１は、被判定データとして動画データ８１３を入力し、初期ヒートマップ生成部８０２は、動画データの所定数の連続フレームに対して、略同じ領域をマスクすることにより、機械学習モデルが動画データを分類ラベルに分類する際の重要度を求め、動画データ内の要素に順位をつけて、初期ヒートマップを生成する。

ベイズ最適化部は、初期ヒートマップに応じた位置にマスクを生成し、マスクに対する機械学習モデルの反応に応じてマスクの位置を繰り返し更新し、最適化されたマスクに基づいて、最終ヒートマップを生成する。

特にＲＩＳＥのような手法では、動画のように解析すべき画像数が多い場合に不利になり、速度を優先すれば、非常に精度の低いヒートマップになってしまう。具体的には、画像中のどこに集中しているか分からないヒートマップが生成されてしまう。

一方、ベイズ最適化を用いれば、最初は分類ラベルに関する画像領域に集中したヒートマップが作成されるが、フレームが変わると追従されず、ヒートマップがうまく変化しない。

図８に示すように、ＲＩＳＥなどの手法で粗いヒートマップを生成してから、ベイズ最適化により、精度の高いヒートマップを求めれば、動画についても追従したヒートマップを生成できる。本実施形態では、ＲＩＳＥを用いた例について説明するが、本発明はこれに限定されるものではなく、第２、第３実施形態で説明したように初期ヒートマップを生成してもよい。

なお、動画に対するヒートマップの生成は、単純に各静止画のヒートマップの足し合わせではなく、図９に示すように所定数のフレーム９０１～９０５において、同じ位置、同じ大きさのマスク９１１～９５１を生成して、このような立体的なマスクの有無による機械学習モデルの確信度の変化を重要度として、各画素を順位付けして所定数のフレーム群を１単位とするヒートマップ動画を生成する。

画像に対するマスキングと動画に対するマスキングの違いについて、図１０に示す。
画像の場合、マスクｍは、マスクが現れる場所（ｘ，ｙ）と一辺のサイズｌをランダムに変化させて複数生成される。画像Ｖをマスクｍでマスクした画像をＶ◎ｍで表すと、確信度の差は、Ｍ（ｖ、ｌ）－Ｍ（ｖ◎ｍ、ｌ）となる。つまり、マスクがない画像における、ラベルの確信度と、マスクがある画像におけるラベルの確信度との差をとる。
確信度の差の平均avg(||M(v, l) - M(ｖ◎ｍ, l)||)をサリエンシー（重要度）とする。つまり、各点について、その点を含む複数のマスクでの確信度の低下を、マスク数で除算した平均値が、その点の重要度となる。
一方、動画の場合、複数フレームの画像の束と考えることができる。マスクｍは、マスクの場所（ｘ，ｙ）、サイズｌ、マスクの開始時刻ｔ、マスクする時間ａの４つのパラメータで特定できる。
S(x, y, t) := avg(||M(v, l) - M(ｖ◎ｍ, l)||）
と考えれば、動画中の特定のフレームの特定のピクセルの重要度Ｓが決まり、Ｓの値に応じて色を変えることによりヒートマップを生成できる。
動画データを２次元＋時間という３次元データとみてRISEを適用することで動画分類モデルに対する初期ヒートマップ生成が可能となる。この初期ヒートマップを用いてベイズ最適化によるサンプリングを所定回数（例えば100回）行うことにより、高精度なヒートマップを得ることができる。動画分類モデルは一回の推論に時間がかかるため、推論回数の多いナイーブなRISEのみではヒートマップ生成にかかる時間がかなり長く、ベイズ最適化による有利な効果がより顕著にあらわれる。なお、ここでは動画にRISEを適用した後にベイズ最適化を行っているが、RISEをGradCAMなどに置き換えてもよい。

Fを動画のフレーム数、Hを動画の高さ、Wを動画の幅、lを正解ラベル、Uをマスクの高さ、Vをマスクの幅、Tをマスクの時間、Λをピクセルの集合、λをΛの要素、Nを推論回数、pをベイズ最適化における次の観測点（マスク）、Qを観測点の集合とする。
μ(Q)で、ベイズ最適化のmean functionを表し、k(Q,Q')で、ベイズ最適化のcovariance function、σ(Q)で、ベイズ最適化のacquisition functionを表す。

動画v、動画分類モデルMをRISE, Grad-CAMなどの初期ヒートマップ生成部に与え、初期ヒートマップSを生成する。

ベイズ最適化では、事前分布として初期ヒートマップSを与え、μ(Q) ← Sとする。
次の観測点pは、argmaxσ(Q)で表すことができ、base_scoreはM(v,l)で表される。
i=1～Nで、
p=(p_x,p_y,p_t), λ=(λ_x,λ_y,λ_t)とし、動画vの
max(0,p_x-V)≦λ_x≦min（W,p_x+V）かつ
max（(0,p_y-U）≦λ_y≦min（H,p_y+U）かつ
max（0,p_t-T）≦λ_t≦min（F,p_t+T）の範囲をグレーアウトさせる。
グレーアウトの処理を行なったvをv'とする。scoreをM(v',l)とし、yにbase_score - scoreを代入する。p,yを用いてベイズ最適化を行い、今推測される重要度μ(Q),異なる２つの点の間の確信度の分散k(Q,Q')、を更新する。

重要度μ(Q)と分散k(Q,Q')によって設定されるσ(Q)から次の観測点pとしてargmaxσ(Q)を求める。これを繰り返すことで、動画における画素の重要度を算出し、ヒートマップを生成することが可能となる。なお、V、U、Tをアダプティブに、変化させてもよい。

図１１～図１３を用いて、本実施形態によって生成されるヒートマップについて説明する。図１１は、入力される動画を表す画像フレーム群１１００であり、ここでは、例として、サーフィン動画を扱うこととする。図１１のようなフレーム群１１００を、「サーフィン」という分類ラベル２１２（図中クラス）によって分類した場合のヒートマップを図１２および図１３に示す。なお、図１２，図１３においては、分かりやすいように、サーファーの位置を示す矢印を加えた（実際のヒートマップ自体には矢印は示されない）。
図１２は、単に動画にRISEを適用した場合のヒートマップを示す。推論回数１０００回で、６２５秒もの計算時間をかけても、フレームごとにヒートマップがほとんど変わらず、動画に対するヒートマップの応答性能が低いことが分かる。そもそも１フレームのヒートマップ自体が画像内で分散してしまっており、どこに着目して「サーフィン」と判定したのか、よくわからない。

一方、図１３は、本実施形態に従い、「GradCAM」と「ベイズ最適化」との組み合わせでヒートマップを生成した例を示す。推論回数１００回で、３３４秒の少ない計算時間にもかかわらず、ヒートマップにおいて重要な領域が集中しており、かつ、フレームの違いに追従してヒートマップが変化しており、動画に対するヒートマップの精度および応答性能が高いことが分かる。

以上、本実施形態によれば、動画においても、静止画像の場合と同様に短時間に精度の高いヒートマップを生成することができる。動画において、モデルによるラベル判定の材料となった対象物が画面内で移動しても、その対象物を追従できるようなヒートマップ動画を生成できる可能性が高くなる。

［他の実施形態］
以上、実施形態を参照して本願発明を説明したが、本願発明は上記実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明の技術的範囲で当業者が理解し得る様々な変更をすることができる。また、それぞれの実施形態に含まれる別々の特徴を如何様に組み合わせたシステムまたは装置も、本発明の技術的範囲に含まれる。

例えば、上記実施形態では、最終ヒートマップの生成にベイズ最適化を採用しているが、本発明はこれに限定されるものではなく、遺伝的アルゴリズムなどの他のブラックボックス最適化方法を採用してもよい。遺伝的アルゴリズムはヒューリスティクスであり、最適値へ収束する理論的な保証を与えるのが困難であるが、ベイズ最適化は最適化したい関数に所定の仮定（例えば関数が"滑らか"）を行って確率論を用いた解析を行うことで収束の理論保証がしやすい。

また、本発明は、複数の機器から構成されるシステムに適用されてもよいし、単体の装置に適用されてもよい。さらに、本発明は、実施形態の機能を実現する情報処理プログラムが、システムあるいは装置に供給され、内蔵されたプロセッサによって実行される場合にも適用可能である。本発明の機能をコンピュータで実現するために、コンピュータにインストールされるプログラム、あるいはそのプログラムを格納した媒体、そのプログラムをダウンロードさせるサーバも、プログラムを実行するプロセッサも本発明の技術的範囲に含まれる。特に、少なくとも、上述した実施形態に含まれる処理ステップをコンピュータに実行させるプログラムを格納した非一時的コンピュータ可読媒体（non-transitory computer readable medium）は本発明の技術的範囲に含まれる。

本発明は、機械学習モデルの判断根拠の説明が重要となる分野であれば、あらゆる分野に適用できる。例えば、医療、自動運転、リーガルテック、HRテックが挙げられる。特に、大規模で一回の推論に時間がかかる機械学習モデルを使用する分野には、効果が大きい。例えば、自然言語処理、動画処理、天文、衛星分野などが挙げられる。さらに、短時間で高精度なヒートマップが必要となる場面でも、本発明は効果を発揮する。例えば、自動運転分野、リアルタイム動画スクリーニングの分野などが挙げられる。

Claims

機械学習モデルと、前記機械学習モデルで検出すべき検出対象の分類ラベルと、前記検出対象が含まれるか否かを判定する被判定データとを取得する取得部と、
前記機械学習モデルが前記被判定データを前記分類ラベルに分類する際の重要度に応じて、前記被判定データ内の要素に順位をつけて、初期ヒートマップを生成する第１生成部と、
前記初期ヒートマップに応じた位置にマスクを生成し、前記マスクに対する前記機械学習モデルの反応に応じて前記マスクの位置を繰り返し更新し、最適化されたマスクに基づいて、最終ヒートマップを生成する第２生成部と、
を備えた情報処理装置。
前記第１生成部は、複数のマスクにより前記被判定データ内の要素を隠す前後において、前記機械学習モデルで推論を行い、前記複数のマスクのそれぞれについて、前記機械学習モデルによる前記ラベルの判定確信度の差を、前記マスクに含まれる前記要素の前記重要度とする請求項１に記載の情報処理装置。
前記複数のマスクは、ランダムな位置に生成されたマスクである請求項２に記載の情報処理装置。
前記第１生成部は、前記被判定データから抽出した境界に基づいて生成した複数のマスクにより前記被判定データ内の要素を隠す前後において前記機械学習モデルで推論を行い、前記複数のマスクのそれぞれについて、前記機械学習モデルによる前記ラベルの判定確信度の差に基づいて、前記マスクに含まれる前記要素の前記重要度を決定する請求項１に記載の情報処理装置。
前記機械学習モデルが、ニューラルネットワークであって、
前記第１生成部は、前記機械学習モデルとしてのニューラルネットワーク内での勾配情報を用いて、前記被判定データを前記ラベルに分類する際の重要度に応じて前記被判定データ内の要素に順位をつけて、初期ヒートマップを生成する請求項１に記載の情報処理装置。
前記第１生成部は、ＲＩＳＥ、ＬＩＭＥまたはＳＨＡＰを用いて前記初期ヒートマップを生成する請求項１～５のいずれか１項に記載の情報処理装置。
前記第２生成部は、ベイズ最適化または遺伝的アルゴリズムを用いて前記最終ヒートマップを生成する請求項１～５のいずれか１項に記載の情報処理装置。
前記取得部は、前記被判定データとして画像データを入力し、
前記第１生成部は、前記画像データのピクセルごとに前記順位をつけて前記初期ヒートマップを生成する請求項１に記載の情報処理装置。
前記取得部は、前記被判定データとして動画データを入力し、
前記第１生成部は、前記動画データの所定数の連続フレームに対して、略同じ領域をマスクすることにより、前記機械学習モデルが前記動画データを前記ラベルに分類する際の重要度を求め、前記動画データ内の要素に順位をつけて、初期ヒートマップを生成し、
前記第２生成部は、前記初期ヒートマップに応じた位置にマスクを生成し、前記マスクに対する前記機械学習モデルの反応に応じて、少なくとも前記マスクの位置を繰り返し更新し、最適化されたマスクに基づいて、最終ヒートマップを生成する請求項１に記載の情報処理装置。
取得部が、機械学習モデルと、前記機械学習モデルで検出すべき検出対象のラベルと、前記検出対象が含まれるか否かを判定する被判定データを取得する取得ステップと、
前記機械学習モデルが前記被判定データを前記ラベルに分類する際の重要度に応じて、第１生成部が、前記被判定データ内の要素に順位をつけて、初期ヒートマップを生成する第１生成ステップと、
第２生成部が、前記初期ヒートマップに応じた位置にマスクを生成し、前記マスクに対する前記機械学習モデルの反応に応じて前記マスクの位置を繰り返し更新し、最適化されたマスクに基づいて、最終ヒートマップを生成する第２生成ステップと、
を含む情報処理方法。
機械学習モデルと、前記機械学習モデルで検出すべき検出対象のラベルと、前記検出対象が含まれるか否かを判定する被判定データを取得する取得ステップと、
前記機械学習モデルが前記被判定データを前記ラベルに分類する際の重要度に応じて、前記被判定データ内の要素に順位をつけて、初期ヒートマップを生成する第１生成ステップと、
前記初期ヒートマップに応じた位置にマスクを生成し、前記マスクに対する前記機械学習モデルの反応に応じて前記マスクの位置を繰り返し更新し、最適化されたマスクに基づいて、最終ヒートマップを生成する第２生成ステップと、
をコンピュータに実行させる情報処理プログラム。