JP2023069054A - 情報処理装置、情報処理方法および情報処理プログラム - Google Patents
情報処理装置、情報処理方法および情報処理プログラム Download PDFInfo
- Publication number
- JP2023069054A JP2023069054A JP2021180647A JP2021180647A JP2023069054A JP 2023069054 A JP2023069054 A JP 2023069054A JP 2021180647 A JP2021180647 A JP 2021180647A JP 2021180647 A JP2021180647 A JP 2021180647A JP 2023069054 A JP2023069054 A JP 2023069054A
- Authority
- JP
- Japan
- Prior art keywords
- machine learning
- learning model
- mask
- data
- determined
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 44
- 238000003672 processing method Methods 0.000 title claims description 4
- 238000010801 machine learning Methods 0.000 claims abstract description 66
- 238000001514 detection method Methods 0.000 claims abstract description 18
- 238000005457 optimization Methods 0.000 claims description 33
- 238000013528 artificial neural network Methods 0.000 claims description 7
- 230000000873 masking effect Effects 0.000 claims description 6
- 235000008733 Citrus aurantifolia Nutrition 0.000 claims description 5
- 235000011941 Tilia x europaea Nutrition 0.000 claims description 5
- 239000004571 lime Substances 0.000 claims description 5
- 230000002068 genetic effect Effects 0.000 claims description 3
- 230000004044 response Effects 0.000 abstract description 3
- 238000000034 method Methods 0.000 description 26
- 238000010586 diagram Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 8
- 235000000332 black box Nutrition 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 4
- 238000013145 classification model Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000005070 sampling Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- JTJMJGYZQZDUJJ-UHFFFAOYSA-N phencyclidine Chemical group C1CCCCN1C1(C=2C=CC=CC=2)CCCCC1 JTJMJGYZQZDUJJ-UHFFFAOYSA-N 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Medical Informatics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Image Analysis (AREA)
Abstract
Description
本発明は、情報処理装置、情報処理方法および情報処理プログラムに関する。
上記技術分野において、非特許文献1には、機械学習モデルの判断根拠を説明する技術が開示されている。
"Randomized Input Sampling for Explanation of Black-box Models"V Petsiuk, A Das, K Saenko.著 British Machine Vision Conference (BMVC), 2018発表
しかしながら、上記文献に記載の技術では、短い時間で精度の低いヒートマップを取得することができる一方で、精度の高いヒートマップを生成するには推論を何度も何度も繰り返す必要があり、時間がかかるという欠点があった。
本発明の目的は、上述の課題を解決する技術を提供することにある。
上記目的を達成するため、本発明に係る装置は、
機械学習モデルと、前記機械学習モデルで検出すべき検出対象の分類ラベルと、前記検出対象が含まれるか否かを判定する被判定データを取得する取得部と、
前記機械学習モデルが前記被判定データを前記分類ラベルに分類する際の重要度に応じて、前記被判定データ内の要素に順位をつけて、初期ヒートマップを生成する第1生成部と、
前記初期ヒートマップに応じた位置にマスクを生成し、前記マスクに対する前記機械学習モデルの反応に応じて前記マスクの位置を繰り返し更新し、最適化されたマスクに基づいて、最終ヒートマップを生成する第2生成部と、
を備えた情報処理装置である。
機械学習モデルと、前記機械学習モデルで検出すべき検出対象の分類ラベルと、前記検出対象が含まれるか否かを判定する被判定データを取得する取得部と、
前記機械学習モデルが前記被判定データを前記分類ラベルに分類する際の重要度に応じて、前記被判定データ内の要素に順位をつけて、初期ヒートマップを生成する第1生成部と、
前記初期ヒートマップに応じた位置にマスクを生成し、前記マスクに対する前記機械学習モデルの反応に応じて前記マスクの位置を繰り返し更新し、最適化されたマスクに基づいて、最終ヒートマップを生成する第2生成部と、
を備えた情報処理装置である。
上記目的を達成するため、本発明に係る方法は、
取得部が、機械学習モデルと、前記機械学習モデルで検出すべき検出対象のラベルと、前記検出対象が含まれるか否かを判定する被判定データを取得する取得ステップと、
前記機械学習モデルが前記被判定データを前記ラベルに分類する際の重要度に応じて、第1生成部が、前記被判定データ内の要素に順位をつけて、初期ヒートマップを生成する第1生成ステップと、
前記第2生成部が、前記初期ヒートマップに応じた位置にマスクを生成し、前記マスクに対する前記機械学習モデルの反応に応じて前記マスクの位置を繰り返し更新し、最適化されたマスクに基づいて、最終ヒートマップを生成する第2生成ステップと、
を含む情報処理方法である。
取得部が、機械学習モデルと、前記機械学習モデルで検出すべき検出対象のラベルと、前記検出対象が含まれるか否かを判定する被判定データを取得する取得ステップと、
前記機械学習モデルが前記被判定データを前記ラベルに分類する際の重要度に応じて、第1生成部が、前記被判定データ内の要素に順位をつけて、初期ヒートマップを生成する第1生成ステップと、
前記第2生成部が、前記初期ヒートマップに応じた位置にマスクを生成し、前記マスクに対する前記機械学習モデルの反応に応じて前記マスクの位置を繰り返し更新し、最適化されたマスクに基づいて、最終ヒートマップを生成する第2生成ステップと、
を含む情報処理方法である。
上記目的を達成するため、本発明に係るプログラムは、
機械学習モデルと、前記機械学習モデルで検出すべき検出対象のラベルと、前記検出対象が含まれるか否かを判定する被判定データを取得する取得ステップと、
前記機械学習モデルが前記被判定データを前記ラベルに分類する際の重要度に応じて、前記被判定データ内の要素に順位をつけて、初期ヒートマップを生成する第1生成ステップと、
前記初期ヒートマップに応じた位置にマスクを生成し、前記マスクに対する前記機械学習モデルの反応に応じて前記マスクの位置を繰り返し更新し、最適化されたマスクに基づいて、最終ヒートマップを生成する第2生成ステップと、
をコンピュータに実行させるヒートマップ生成プログラムである。
機械学習モデルと、前記機械学習モデルで検出すべき検出対象のラベルと、前記検出対象が含まれるか否かを判定する被判定データを取得する取得ステップと、
前記機械学習モデルが前記被判定データを前記ラベルに分類する際の重要度に応じて、前記被判定データ内の要素に順位をつけて、初期ヒートマップを生成する第1生成ステップと、
前記初期ヒートマップに応じた位置にマスクを生成し、前記マスクに対する前記機械学習モデルの反応に応じて前記マスクの位置を繰り返し更新し、最適化されたマスクに基づいて、最終ヒートマップを生成する第2生成ステップと、
をコンピュータに実行させるヒートマップ生成プログラムである。
本発明によれば、短時間で高精度に機械学習モデルの判断根拠を示すことができる。
以下に、図面を参照して、本発明の実施の形態について例示的に詳しく説明する。ただし、以下の実施の形態に記載されている構成要素はあくまで例示であり、本発明の技術範囲をそれらのみに限定する趣旨のものではない。
[第1実施形態]
本発明の第1実施形態としての情報処理装置100について、図1を用いて説明する。情報処理装置100は、機械学習モデルが判定する根拠をヒートマップ(Saliency map)で表すための装置である。
本発明の第1実施形態としての情報処理装置100について、図1を用いて説明する。情報処理装置100は、機械学習モデルが判定する根拠をヒートマップ(Saliency map)で表すための装置である。
図1に示すように、情報処理装置100は、取得部101と初期ヒートマップ生成部102と最終ヒートマップ生成部103とを含む。
取得部101は、機械学習モデル111と、機械学習モデル111で検出すべき検出対象の分類ラベル112と、検出対象が含まれるか否かを判定される被判定データ113とを取得する。
初期ヒートマップ生成部102は、機械学習モデル111が被判定データ113を分類ラベル112に分類する際の重要度に応じて、被判定データ113内の要素に順位をつけて、初期ヒートマップ121を生成する。
最終ヒートマップ生成部103は、初期ヒートマップ121とは異なる方法により、初期ヒートマップ121に応じた位置にマスクを生成し、マスクに対する機械学習モデル111の反応に応じてマスクの位置を繰り返し更新し、最適化されたマスクに基づいて、最終ヒートマップ131を生成する。
上記の構成によれば、短時間で高精度に機械学習モデルの判断根拠を示すことができる。
[第2実施形態]
次に本発明の第2実施形態に係るに情報処理装置ついて、図2を用いて説明する。図2は、本実施形態に係る情報処理装置の構成を説明するためのブロック図である。
次に本発明の第2実施形態に係るに情報処理装置ついて、図2を用いて説明する。図2は、本実施形態に係る情報処理装置の構成を説明するためのブロック図である。
図2に示すように、情報処理装置200は、取得部201と初期ヒートマップ生成部202とベイズ最適化部203とを含む。
取得部201は、機械学習モデル211と、機械学習モデル211で検出すべき検出対象の分類ラベル212と、検出対象が含まれるか否かを判定される画像データ213とを取得する。
初期ヒートマップ生成部202は、機械学習モデル211が画像データ213を分類ラベル212に分類する際の重要度に応じて、画像データ213内の要素に順位をつけて、初期ヒートマップ221を生成する。
初期ヒートマップ生成部202は、RISE(Randomized Input Sampling for Experiments)と呼ばれる方法を採用して特定のクラスに寄与したとされる入力領域をハイライトする。具体的には、ランダムに生成した複数のマスクを入力画像に重ね、DNN(deep neural network)モデルで推論を繰り返すことで、マスクによる確信度への影響から重要度を表すヒートマップを生成する。つまりランダムに生成した複数のマスクにより画像データ内の一部の領域を隠す前後において、機械学習モデルで推論を行う。その推論での判定確信度の差を、マスクに含まれる画素の重要度とする。これを複数のマスクについて繰り返し行うことにより、画素ごとの需要度が精度良く求まる。本実施形態では、推論を行うマスクの数を一定数(例えば100)に抑えることにより、精度よりも速度を優先して、比較的粗いヒートマップを生成する。
ここではRISEを例に説明するがその発展技術として、PN-RISE(Positive/Negative RISE:RISEを拡張し、ポジティブとネガティブの両方の影響をヒートマップとして出力する手法、画像の分類に無関係な画像領域の重要度が0となるようにバイアスをかけている)を採用してもよい(Yuhki Hatakeyama, Hiroki Sakuma, Yoshinori Konishi, Kohei Suenaga:Visualizing Color-Wise Saliency of Black-Box Image Classification Models. ACCV (3) 2020: 189-205)。
DNNをブラックボックスとして扱う手法としては、他にも LIME(Marco Tulio Ribeiro, Sameer Singh, Carlos Guestrin:"Why Should I Trust You?": Explaining the Predictions of Any Classifier. HLT-NAACL Demos 2016: 97-101)が知られており、初期ヒートマップ生成部202でLIMEの手法を用いることで本実施形態に適用可能である。LIMEの場合には、画像データから抽出した境界に基づいて生成した複数のマスクにより画像データ内の要素を隠す前後において機械学習モデルで推論を行い、その推論の判定確信度の差を、マスクに含まれる要素の重要度とてヒートマップを生成する。
DNNをブラックボックスとして扱う手法としては、さらにSHAP(Scott M. Lundberg, Su-In Lee:A Unified Approach to Interpreting Model Predictions. NIPS 2017: 4765-4774)が知られており、初期ヒートマップ生成部202でSHAPの手法を用いることで本実施形態に適用可能である。SHAPの場合には、画像データから抽出した境界に基づいて生成した(各領域に線形で近似した)複数のマスクにより画像データ内の要素を隠す前後において機械学習モデルで推論を行い、その推論の判定確信度の差を、マスクに含まれる要素の重要度としてヒートマップを生成する。
一方、ベイズ最適化部203は、初期ヒートマップ221に応じた位置にマスクを生成し、マスクに対する機械学習モデル211の反応に応じてマスクの位置を所定回数だけ繰り返し更新し、最適化されたマスクに基づいて、最終ヒートマップ231を生成する。つまり、ベイズ最適化部203では、マスクすべき場所をアダプティブに変えていく。
ベイズ最適化は、そもそもブラックボックス関数の最適値を求める手法である(Gaussian Processes for Machine Learning. Carl Edward Rasmussen and Christopher K. I. Williams The MIT Press, 2006. ISBN 0-262-18253-X.)。ここでは過去のマスクによる推論結果(観測結果)に基づいて次のマスク位置(観測)を決めることで、少ない評価回数で最適な(最重要な)マスク位置、つまり、分類ラベルの判定に重要な意味を持つ画素の位置を求めることができる。具体的には、推論の評価値の期待値と分散により獲得関数を設定し、獲得関数が最大となる点を次の観測点(マスク)とする。
ベイズ最適化を用いて最適なマスクの大きさ、位置を求めることにより、少ない推論回数で精度の高いヒートマップを生成することができる(Mamuku Mokuwe, Michael Burke, Anna Sergeevna Bosman:Black-Box Saliency Map Generation Using Bayesian Optimisation. IJCNN 2020: 1-8)。しかし、初期の期待値の精度が低い場合には、最適なマスクを探す時間およびコストが大きくなるという問題がある。
図3は、RISEによるヒートマップ生成手法と、ベイズ最適化を用いたヒートマップ生成手法の特徴を比較するためのテーブル300を示す図である。RISEで精度の高いヒートマップを生成するには多くの推論回数が必要となる。一方、RISEのようにランダムな位置にマスクを設定する手法に比べれば、次のマスク位置を決めるのに時間がかかるという問題がある。つまり、ベイズ最適化を用いたサンプリングでは推論回数が増えるほど最適化(フィッティングや分散算出)に時間がかかってしまう。
そこで、本実施形態では、図4のフローチャートに示す流れで処理を進める。
まず、ステップS401において、機械学習モデル、分類ラベル、画像データを取得する。次に、ステップS403において、RISE(またはLIME、もしくはSHAPなど)の手法を利用して、機械学習モデルが画像データを分類ラベルに分類する根拠を示すおおまかな初期ヒートマップ221を生成する。
ステップ405では、初期ヒートマップ221を初期値として設定する。そしてステップS407において、初期ヒートマップ221を初期値としたベイズ最適化を行い精度の高い最終ヒートマップ231を生成する。
図5に、本実施形態によって作成されたヒートマップの一例を示す。図5では、画像認識のデータセットとして一般的なPascal VOCのデータセットを用いて、RISE、ベイズ最適化、本実施形態(RISE400回、ベイズ30回)、それぞれの手法でヒートマップを生成した。そして、生成されたヒートマップがセグメンテーションされた部分を指摘できているかをRecall、Precision、F値により比較評価した。このヒートマップでは、表示のない領域→青い領域→赤い領域の順に重要度が高くなっていることを示す。分類ラベル212はボトルであり、左端の写真が画像データ213である。
図5に示すように、結果として、RISEより少ない推論回数、ベイズ最適化より少ない計算時間で、高いF値(F-measure)が得られた。つまり、本実施形態で生成されたヒートマップが、この画像認識モデルの判断基準を最も的確に示していることがわかった。つまり、このモデルに関して言えば、ボトルの文字部分に着目して、「ボトルか否か」を判断していることが分かる。
[第3実施形態]
次に本発明の第3実施形態に係る情報処理装置について、図6、図7を用いて説明する。本実施形態に係る情報処理装置は、上記第2実施形態と比べると、機械学習モデルの内部情報を使用してヒートマップを生成する点で異なる。その他の構成および動作は、第2実施形態と同様であるため、同じ構成および動作については同じ符号を付してその詳しい説明を省略する。
次に本発明の第3実施形態に係る情報処理装置について、図6、図7を用いて説明する。本実施形態に係る情報処理装置は、上記第2実施形態と比べると、機械学習モデルの内部情報を使用してヒートマップを生成する点で異なる。その他の構成および動作は、第2実施形態と同様であるため、同じ構成および動作については同じ符号を付してその詳しい説明を省略する。
機械学習モデルは、ニューラルネットワークであって、初期ヒートマップ生成部は、機械学習モデルとしてのニューラルネットワーク内での勾配情報を用いて、画像データをラベルに分類する際の重要度に応じて画像データ内の画素に順位をつけて、初期ヒートマップを生成する。
具体的にはこのように、機械学習モデルの内部情報を使用する方法として、GradCAMが知られている(Ramprasaath R. Selvaraju, Michael Cogswell, Abhishek Das, Ramakrishna Vedantam, Devi Parikh, Dhruv Batra:Grad-CAM: Visual Explanations from Deep Networks via Gradient-Based Localization. ICCV 2017: 618-626)。
機械学習モデルの内部情報を使用する方法としては、他にも、GradCAM++(Aditya Chattopadhyay, Anirban Sarkar, Prantik Howlader, Vineeth N. Balasubramanian:Grad-CAM++: Generalized Gradient-Based Visual Explanations for Deep Convolutional Networks.WACV 2018: 839-847)を採用することができる。
RISEのような手法に比べて、GradCAM(ホワイトボックス的な手法)によれば、ニューラルネットワーク内での勾配情報(ベクトル値)を使うため、速度を犠牲にすることなくより正確な初期ヒートマップを得ることができるという利点がある。
画素値が、別の値に変わったときに確信度がどれぐらい下がるかを、ニューラルネットワークのベクトルの値をみて判定する。画素値の変化による傾向に基づいて、効率よく初期ヒートマップを作ることができる。
図6、図7に、本実施形態によって作成されたヒートマップの一例を示す。図6、図7では、Pascal VOCのデータセットを用いて、RISE、ベイズ最適化、本実施形態、それぞれの手法でヒートマップを生成した。そして、生成されたヒートマップがセグメンテーションされた部分を指摘できているかをRecall、Precision、F値により比較評価した。
図6は、「GradCAM」と「ベイズ最適化」との組み合わせでヒートマップを生成した例を示す。図7は、「GradCAM++」と「ベイズ最適化」との組み合わせでヒートマップを生成した例を示す。
図6,図7に記載のヒートマップでは、青い領域→黄色い領域→赤い領域の順に重要度が高くなっていることを示す。分類ラベル212は、自転車、椅子、ソファ、馬であり、左端の写真が画像データ213である。
図6は、「GradCAM」と「ベイズ最適化」との組み合わせでヒートマップを生成した例を示す。図7は、「GradCAM++」と「ベイズ最適化」との組み合わせでヒートマップを生成した例を示す。
図6,図7に記載のヒートマップでは、青い領域→黄色い領域→赤い領域の順に重要度が高くなっていることを示す。分類ラベル212は、自転車、椅子、ソファ、馬であり、左端の写真が画像データ213である。
図6、図7に示すように、結果として、RISEより少ない推論回数、ベイズ最適化より少ない計算時間で、高いF値(F-measure)が得られた。つまり、本実施形態で生成されたヒートマップが、この画像認識モデルの判断基準を最も的確に示していることがわかった。
図6、7に示すように、結果として、RISEより少ない推論回数、ベイズ最適化より少ない計算時間で、高いF値が得られた。
本実施形態によれば、ホワイトボックス的な機械学習モデルに対しても、高速、高精度で画像分類の根拠を明確にすることが可能となる。
[第4実施形態]
次に本発明の第4実施形態に係る情報処理装置について、図8を用いて説明する。図8は、本実施形態に係る情報処理装置の構成を説明するためのブロック図である。本実施形態に係る情報処理装置は、上記第2実施形態と比べると、動画のラベル付けに関するヒートマップを生成する点で異なる。その他の構成および動作は、第2実施形態と同様であるため、同じ構成および動作については同じ符号を付してその詳しい説明を省略する。
次に本発明の第4実施形態に係る情報処理装置について、図8を用いて説明する。図8は、本実施形態に係る情報処理装置の構成を説明するためのブロック図である。本実施形態に係る情報処理装置は、上記第2実施形態と比べると、動画のラベル付けに関するヒートマップを生成する点で異なる。その他の構成および動作は、第2実施形態と同様であるため、同じ構成および動作については同じ符号を付してその詳しい説明を省略する。
取得部801は、被判定データとして動画データ813を入力し、初期ヒートマップ生成部802は、動画データの所定数の連続フレームに対して、略同じ領域をマスクすることにより、機械学習モデルが動画データを分類ラベルに分類する際の重要度を求め、動画データ内の要素に順位をつけて、初期ヒートマップを生成する。
ベイズ最適化部は、初期ヒートマップに応じた位置にマスクを生成し、マスクに対する機械学習モデルの反応に応じてマスクの位置を繰り返し更新し、最適化されたマスクに基づいて、最終ヒートマップを生成する。
特にRISEのような手法では、動画のように解析すべき画像数が多い場合に不利になり、速度を優先すれば、非常に精度の低いヒートマップになってしまう。具体的には、画像中のどこに集中しているか分からないヒートマップが生成されてしまう。
一方、ベイズ最適化を用いれば、最初は分類ラベルに関する画像領域に集中したヒートマップが作成されるが、フレームが変わると追従されず、ヒートマップがうまく変化しない。
図8に示すように、RISEなどの手法で粗いヒートマップを生成してから、ベイズ最適化により、精度の高いヒートマップを求めれば、動画についても追従したヒートマップを生成できる。本実施形態では、RISEを用いた例について説明するが、本発明はこれに限定されるものではなく、第2、第3実施形態で説明したように初期ヒートマップを生成してもよい。
なお、動画に対するヒートマップの生成は、単純に各静止画のヒートマップの足し合わせではなく、図9に示すように所定数のフレーム901~905において、同じ位置、同じ大きさのマスク911~951を生成して、このような立体的なマスクの有無による機械学習モデルの確信度の変化を重要度として、各画素を順位付けして所定数のフレーム群を1単位とするヒートマップ動画を生成する。
画像に対するマスキングと動画に対するマスキングの違いについて、図10に示す。
画像の場合、マスクmは、マスクが現れる場所(x,y)と一辺のサイズlをランダムに変化させて複数生成される。画像Vをマスクmでマスクした画像をV◎mで表すと、確信度の差は、M(v、l)-M(v◎m、l)となる。つまり、マスクがない画像における、ラベルの確信度と、マスクがある画像におけるラベルの確信度との差をとる。
確信度の差の平均avg(||M(v, l) - M(v◎m, l)||)をサリエンシー(重要度)とする。つまり、各点について、その点を含む複数のマスクでの確信度の低下を、マスク数で除算した平均値が、その点の重要度となる。
一方、動画の場合、複数フレームの画像の束と考えることができる。マスクmは、マスクの場所(x,y)、サイズl、マスクの開始時刻t、マスクする時間aの4つのパラメータで特定できる。
S(x, y, t) := avg(||M(v, l) - M(v◎m, l)||)
と考えれば、動画中の特定のフレームの特定のピクセルの重要度Sが決まり、Sの値に応じて色を変えることによりヒートマップを生成できる。
動画データを2次元+時間という3次元データとみてRISEを適用することで動画分類モデルに対する初期ヒートマップ生成が可能となる。この初期ヒートマップを用いてベイズ最適化によるサンプリングを所定回数(例えば100回)行うことにより、高精度なヒートマップを得ることができる。動画分類モデルは一回の推論に時間がかかるため、推論回数の多いナイーブなRISEのみではヒートマップ生成にかかる時間がかなり長く、ベイズ最適化による有利な効果がより顕著にあらわれる。なお、ここでは動画にRISEを適用した後にベイズ最適化を行っているが、RISEをGradCAMなどに置き換えてもよい。
画像の場合、マスクmは、マスクが現れる場所(x,y)と一辺のサイズlをランダムに変化させて複数生成される。画像Vをマスクmでマスクした画像をV◎mで表すと、確信度の差は、M(v、l)-M(v◎m、l)となる。つまり、マスクがない画像における、ラベルの確信度と、マスクがある画像におけるラベルの確信度との差をとる。
確信度の差の平均avg(||M(v, l) - M(v◎m, l)||)をサリエンシー(重要度)とする。つまり、各点について、その点を含む複数のマスクでの確信度の低下を、マスク数で除算した平均値が、その点の重要度となる。
一方、動画の場合、複数フレームの画像の束と考えることができる。マスクmは、マスクの場所(x,y)、サイズl、マスクの開始時刻t、マスクする時間aの4つのパラメータで特定できる。
S(x, y, t) := avg(||M(v, l) - M(v◎m, l)||)
と考えれば、動画中の特定のフレームの特定のピクセルの重要度Sが決まり、Sの値に応じて色を変えることによりヒートマップを生成できる。
動画データを2次元+時間という3次元データとみてRISEを適用することで動画分類モデルに対する初期ヒートマップ生成が可能となる。この初期ヒートマップを用いてベイズ最適化によるサンプリングを所定回数(例えば100回)行うことにより、高精度なヒートマップを得ることができる。動画分類モデルは一回の推論に時間がかかるため、推論回数の多いナイーブなRISEのみではヒートマップ生成にかかる時間がかなり長く、ベイズ最適化による有利な効果がより顕著にあらわれる。なお、ここでは動画にRISEを適用した後にベイズ最適化を行っているが、RISEをGradCAMなどに置き換えてもよい。
Fを動画のフレーム数、Hを動画の高さ、Wを動画の幅、lを正解ラベル、Uをマスクの高さ、Vをマスクの幅、Tをマスクの時間、Λをピクセルの集合、λをΛの要素、Nを推論回数、pをベイズ最適化における次の観測点(マスク)、Qを観測点の集合とする。
μ(Q)で、ベイズ最適化のmean functionを表し、k(Q,Q')で、ベイズ最適化のcovariance function、σ(Q)で、ベイズ最適化のacquisition functionを表す。
μ(Q)で、ベイズ最適化のmean functionを表し、k(Q,Q')で、ベイズ最適化のcovariance function、σ(Q)で、ベイズ最適化のacquisition functionを表す。
動画v、動画分類モデルMをRISE, Grad-CAMなどの初期ヒートマップ生成部に与え、初期ヒートマップSを生成する。
ベイズ最適化では、事前分布として初期ヒートマップSを与え、μ(Q) ← Sとする。
次の観測点pは、argmaxσ(Q)で表すことができ、base_scoreはM(v,l)で表される。
i=1~Nで、
p=(p_x,p_y,p_t), λ=(λ_x,λ_y,λ_t)とし、動画vの
max(0,p_x-V)≦λ_x≦min(W,p_x+V)かつ
max((0,p_y-U)≦λ_y≦min(H,p_y+U) かつ
max(0,p_t-T)≦λ_t≦min(F,p_t+T) の範囲をグレーアウトさせる。
グレーアウトの処理を行なったvをv'とする。scoreをM(v',l)とし、yにbase_score - scoreを代入する。p,yを用いてベイズ最適化を行い、今推測される重要度μ(Q),異なる2つの点の間の確信度の分散k(Q,Q')、を更新する。
次の観測点pは、argmaxσ(Q)で表すことができ、base_scoreはM(v,l)で表される。
i=1~Nで、
p=(p_x,p_y,p_t), λ=(λ_x,λ_y,λ_t)とし、動画vの
max(0,p_x-V)≦λ_x≦min(W,p_x+V)かつ
max((0,p_y-U)≦λ_y≦min(H,p_y+U) かつ
max(0,p_t-T)≦λ_t≦min(F,p_t+T) の範囲をグレーアウトさせる。
グレーアウトの処理を行なったvをv'とする。scoreをM(v',l)とし、yにbase_score - scoreを代入する。p,yを用いてベイズ最適化を行い、今推測される重要度μ(Q),異なる2つの点の間の確信度の分散k(Q,Q')、を更新する。
重要度μ(Q)と分散k(Q,Q')によって設定されるσ(Q)から次の観測点pとしてargmaxσ(Q)を求める。これを繰り返すことで、動画における画素の重要度を算出し、ヒートマップを生成することが可能となる。なお、V、U、Tをアダプティブに、変化させてもよい。
図11~図13を用いて、本実施形態によって生成されるヒートマップについて説明する。図11は、入力される動画を表す画像フレーム群1100であり、ここでは、例として、サーフィン動画を扱うこととする。図11のようなフレーム群1100を、「サーフィン」という分類ラベル212(図中クラス)によって分類した場合のヒートマップを図12および図13に示す。なお、図12,図13においては、分かりやすいように、サーファーの位置を示す矢印を加えた(実際のヒートマップ自体には矢印は示されない)。
図12は、単に動画にRISEを適用した場合のヒートマップを示す。推論回数1000回で、625秒もの計算時間をかけても、フレームごとにヒートマップがほとんど変わらず、動画に対するヒートマップの応答性能が低いことが分かる。そもそも1フレームのヒートマップ自体が画像内で分散してしまっており、どこに着目して「サーフィン」と判定したのか、よくわからない。
図12は、単に動画にRISEを適用した場合のヒートマップを示す。推論回数1000回で、625秒もの計算時間をかけても、フレームごとにヒートマップがほとんど変わらず、動画に対するヒートマップの応答性能が低いことが分かる。そもそも1フレームのヒートマップ自体が画像内で分散してしまっており、どこに着目して「サーフィン」と判定したのか、よくわからない。
一方、図13は、本実施形態に従い、「GradCAM」と「ベイズ最適化」との組み合わせでヒートマップを生成した例を示す。推論回数100回で、334秒の少ない計算時間にもかかわらず、ヒートマップにおいて重要な領域が集中しており、かつ、フレームの違いに追従してヒートマップが変化しており、動画に対するヒートマップの精度および応答性能が高いことが分かる。
以上、本実施形態によれば、動画においても、静止画像の場合と同様に短時間に精度の高いヒートマップを生成することができる。動画において、モデルによるラベル判定の材料となった対象物が画面内で移動しても、その対象物を追従できるようなヒートマップ動画を生成できる可能性が高くなる。
[他の実施形態]
以上、実施形態を参照して本願発明を説明したが、本願発明は上記実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明の技術的範囲で当業者が理解し得る様々な変更をすることができる。また、それぞれの実施形態に含まれる別々の特徴を如何様に組み合わせたシステムまたは装置も、本発明の技術的範囲に含まれる。
以上、実施形態を参照して本願発明を説明したが、本願発明は上記実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明の技術的範囲で当業者が理解し得る様々な変更をすることができる。また、それぞれの実施形態に含まれる別々の特徴を如何様に組み合わせたシステムまたは装置も、本発明の技術的範囲に含まれる。
例えば、上記実施形態では、最終ヒートマップの生成にベイズ最適化を採用しているが、本発明はこれに限定されるものではなく、遺伝的アルゴリズムなどの他のブラックボックス最適化方法を採用してもよい。遺伝的アルゴリズムはヒューリスティクスであり、最適値へ収束する理論的な保証を与えるのが困難であるが、ベイズ最適化は最適化したい関数に所定の仮定(例えば関数が"滑らか")を行って確率論を用いた解析を行うことで収束の理論保証がしやすい。
また、本発明は、複数の機器から構成されるシステムに適用されてもよいし、単体の装置に適用されてもよい。さらに、本発明は、実施形態の機能を実現する情報処理プログラムが、システムあるいは装置に供給され、内蔵されたプロセッサによって実行される場合にも適用可能である。本発明の機能をコンピュータで実現するために、コンピュータにインストールされるプログラム、あるいはそのプログラムを格納した媒体、そのプログラムをダウンロードさせるサーバも、プログラムを実行するプロセッサも本発明の技術的範囲に含まれる。特に、少なくとも、上述した実施形態に含まれる処理ステップをコンピュータに実行させるプログラムを格納した非一時的コンピュータ可読媒体(non-transitory computer readable medium)は本発明の技術的範囲に含まれる。
本発明は、機械学習モデルの判断根拠の説明が重要となる分野であれば、あらゆる分野に適用できる。例えば、医療、自動運転、リーガルテック、HRテックが挙げられる。特に、大規模で一回の推論に時間がかかる機械学習モデルを使用する分野には、効果が大きい。例えば、自然言語処理、動画処理、天文、衛星分野などが挙げられる。さらに、短時間で高精度なヒートマップが必要となる場面でも、本発明は効果を発揮する。例えば、自動運転分野、リアルタイム動画スクリーニングの分野などが挙げられる。
Claims (11)
- 機械学習モデルと、前記機械学習モデルで検出すべき検出対象の分類ラベルと、前記検出対象が含まれるか否かを判定する被判定データとを取得する取得部と、
前記機械学習モデルが前記被判定データを前記分類ラベルに分類する際の重要度に応じて、前記被判定データ内の要素に順位をつけて、初期ヒートマップを生成する第1生成部と、
前記初期ヒートマップに応じた位置にマスクを生成し、前記マスクに対する前記機械学習モデルの反応に応じて前記マスクの位置を繰り返し更新し、最適化されたマスクに基づいて、最終ヒートマップを生成する第2生成部と、
を備えた情報処理装置。 - 前記第1生成部は、複数のマスクにより前記被判定データ内の要素を隠す前後において、前記機械学習モデルで推論を行い、前記複数のマスクのそれぞれについて、前記機械学習モデルによる前記ラベルの判定確信度の差を、前記マスクに含まれる前記要素の前記重要度とする請求項1に記載の情報処理装置。
- 前記複数のマスクは、ランダムな位置に生成されたマスクである請求項2に記載の情報処理装置。
- 前記第1生成部は、前記被判定データから抽出した境界に基づいて生成した複数のマスクにより前記被判定データ内の要素を隠す前後において前記機械学習モデルで推論を行い、前記複数のマスクのそれぞれについて、前記機械学習モデルによる前記ラベルの判定確信度の差に基づいて、前記マスクに含まれる前記要素の前記重要度を決定する請求項1に記載の情報処理装置。
- 前記機械学習モデルが、ニューラルネットワークであって、
前記第1生成部は、前記機械学習モデルとしてのニューラルネットワーク内での勾配情報を用いて、前記被判定データを前記ラベルに分類する際の重要度に応じて前記被判定データ内の要素に順位をつけて、初期ヒートマップを生成する請求項1に記載の情報処理装置。 - 前記第1生成部は、RISE、LIMEまたはSHAPを用いて前記初期ヒートマップを生成する請求項1~5のいずれか1項に記載の情報処理装置。
- 前記第2生成部は、ベイズ最適化または遺伝的アルゴリズムを用いて前記最終ヒートマップを生成する請求項1~5のいずれか1項に記載の情報処理装置。
- 前記取得部は、前記被判定データとして画像データを入力し、
前記第1生成部は、前記画像データのピクセルごとに前記順位をつけて前記初期ヒートマップを生成する請求項1に記載の情報処理装置。 - 前記取得部は、前記被判定データとして動画データを入力し、
前記第1生成部は、前記動画データの所定数の連続フレームに対して、略同じ領域をマスクすることにより、前記機械学習モデルが前記動画データを前記ラベルに分類する際の重要度を求め、前記動画データ内の要素に順位をつけて、初期ヒートマップを生成し、
前記第2生成部は、前記初期ヒートマップに応じた位置にマスクを生成し、前記マスクに対する前記機械学習モデルの反応に応じて、少なくとも前記マスクの位置を繰り返し更新し、最適化されたマスクに基づいて、最終ヒートマップを生成する請求項1に記載の情報処理装置。 - 取得部が、機械学習モデルと、前記機械学習モデルで検出すべき検出対象のラベルと、前記検出対象が含まれるか否かを判定する被判定データを取得する取得ステップと、
前記機械学習モデルが前記被判定データを前記ラベルに分類する際の重要度に応じて、第1生成部が、前記被判定データ内の要素に順位をつけて、初期ヒートマップを生成する第1生成ステップと、
第2生成部が、前記初期ヒートマップに応じた位置にマスクを生成し、前記マスクに対する前記機械学習モデルの反応に応じて前記マスクの位置を繰り返し更新し、最適化されたマスクに基づいて、最終ヒートマップを生成する第2生成ステップと、
を含む情報処理方法。 - 機械学習モデルと、前記機械学習モデルで検出すべき検出対象のラベルと、前記検出対象が含まれるか否かを判定する被判定データを取得する取得ステップと、
前記機械学習モデルが前記被判定データを前記ラベルに分類する際の重要度に応じて、前記被判定データ内の要素に順位をつけて、初期ヒートマップを生成する第1生成ステップと、
前記初期ヒートマップに応じた位置にマスクを生成し、前記マスクに対する前記機械学習モデルの反応に応じて前記マスクの位置を繰り返し更新し、最適化されたマスクに基づいて、最終ヒートマップを生成する第2生成ステップと、
をコンピュータに実行させる情報処理プログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021180647A JP2023069054A (ja) | 2021-11-04 | 2021-11-04 | 情報処理装置、情報処理方法および情報処理プログラム |
PCT/JP2022/038693 WO2023079943A1 (ja) | 2021-11-04 | 2022-10-18 | 情報処理装置、情報処理方法および情報処理プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021180647A JP2023069054A (ja) | 2021-11-04 | 2021-11-04 | 情報処理装置、情報処理方法および情報処理プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2023069054A true JP2023069054A (ja) | 2023-05-18 |
Family
ID=86241475
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021180647A Pending JP2023069054A (ja) | 2021-11-04 | 2021-11-04 | 情報処理装置、情報処理方法および情報処理プログラム |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP2023069054A (ja) |
WO (1) | WO2023079943A1 (ja) |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020135438A (ja) * | 2019-02-20 | 2020-08-31 | 沖電気工業株式会社 | 根拠提示装置、根拠提示方法、および、根拠提示プログラム |
JP6929322B2 (ja) * | 2019-05-31 | 2021-09-01 | 楽天グループ株式会社 | データ拡張システム、データ拡張方法、及びプログラム |
WO2020245954A1 (ja) * | 2019-06-05 | 2020-12-10 | 三菱電機株式会社 | 情報処理装置および情報処理方法 |
JPWO2021200392A1 (ja) * | 2020-03-31 | 2021-10-07 |
-
2021
- 2021-11-04 JP JP2021180647A patent/JP2023069054A/ja active Pending
-
2022
- 2022-10-18 WO PCT/JP2022/038693 patent/WO2023079943A1/ja unknown
Also Published As
Publication number | Publication date |
---|---|
WO2023079943A1 (ja) | 2023-05-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Sahu et al. | A survey on deep learning: convolution neural network (CNN) | |
US20230089380A1 (en) | Neural network construction method and apparatus | |
JP6435740B2 (ja) | データ処理システム、データ処理方法およびデータ処理プログラム | |
CN109284749A (zh) | 精细化图像识别 | |
Tommasi et al. | Learning the roots of visual domain shift | |
KR102370910B1 (ko) | 딥러닝 기반 소수 샷 이미지 분류 장치 및 방법 | |
Kim et al. | Improving discrimination ability of convolutional neural networks by hybrid learning | |
US20230237777A1 (en) | Information processing apparatus, learning apparatus, image recognition apparatus, information processing method, learning method, image recognition method, and non-transitory-computer-readable storage medium | |
CN114387656B (zh) | 基于人工智能的换脸方法、装置、设备及存储介质 | |
US10395139B2 (en) | Information processing apparatus, method and computer program product | |
CN113780365A (zh) | 样本生成方法和装置 | |
CN117671371A (zh) | 一种基于代理注意力的视觉任务处理方法和系统 | |
WO2023079943A1 (ja) | 情報処理装置、情報処理方法および情報処理プログラム | |
Guraya et al. | Neural networks based visual attention model for surveillance videos | |
US10915815B1 (en) | Information processing method, system and device based on contextual signals and prefrontal cortex-like network | |
CN117079305A (zh) | 姿态估计方法、姿态估计装置以及计算机可读存储介质 | |
JP7331947B2 (ja) | 物体識別装置、物体識別方法、学習装置、学習方法、及び、プログラム | |
Selvan et al. | Computer Vision-Based Approach for Indian Sign Language Character Recognition Using CNN and ROI Segmentation | |
WO2020237674A1 (zh) | 目标跟踪方法、目标跟踪装置和无人机 | |
CN115222835A (zh) | 绘画建议的生成方法、装置及设备 | |
Wang et al. | A novel parallel learning algorithm for pattern classification | |
Shifman et al. | Lost in Translation: Modern Neural Networks Still Struggle With Small Realistic Image Transformations | |
Tietz et al. | A reservoir computing framework for continuous gesture recognition | |
Zhang et al. | Adaptively learning background-aware correlation filter for visual tracking | |
CN113569605B (zh) | 视频信息处理方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20211116 |