JP2022070766A - 情報処理システムおよび情報処理方法 - Google Patents

情報処理システムおよび情報処理方法 Download PDF

Info

Publication number
JP2022070766A
JP2022070766A JP2020180026A JP2020180026A JP2022070766A JP 2022070766 A JP2022070766 A JP 2022070766A JP 2020180026 A JP2020180026 A JP 2020180026A JP 2020180026 A JP2020180026 A JP 2020180026A JP 2022070766 A JP2022070766 A JP 2022070766A
Authority
JP
Japan
Prior art keywords
data
contribution
feature amount
supplementary
information processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2020180026A
Other languages
English (en)
Other versions
JP7502963B2 (ja
Inventor
直明 横井
Naoaki Yokoi
悠加 山田
Yuka Yamada
正史 恵木
Masashi Egi
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2020180026A priority Critical patent/JP7502963B2/ja
Priority to US17/469,542 priority patent/US20220129774A1/en
Publication of JP2022070766A publication Critical patent/JP2022070766A/ja
Application granted granted Critical
Publication of JP7502963B2 publication Critical patent/JP7502963B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • G06N5/045Explanation of inference; Explainable artificial intelligence [XAI]; Interpretable artificial intelligence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】現場の知見と整合性を取ることが容易な説明可能なAIの技術を提供する。【解決手段】事例データの特徴量相互の特徴量関連度記憶DB300と、特徴量の予測結果データ1000への事例データ寄与度記憶DB400にアクセスが可能な情報処理システムであり、寄与度算出部200は、評価対象データ900と予測器500を入力とし、評価対象データ内の各特徴量が予測器の出力への寄与度を算出した寄与度と評価対象データを寄与度データ1100として出力し、補足根拠生成部700は、寄与度データを入力とし、事例データ寄与度記憶DBから、第1の特徴量の値および寄与度の近傍データ群を抽出し、特徴量関連度記憶DBから、第1の特徴量と関連する第2の特徴量を特定し、事例データ寄与度記憶DBのデータにおいて、第2の特徴量の近傍データ群の分布に基づいた補足根拠データ1200を生成して出力する。【選択図】図9

Description

本発明は、人工知能の判断根拠を可視化する技術に係る。
人工知能(Artificial Intelligence:AI)は、予測や分類などの用途に用いられ、近年進歩が著しい。AIは一種の関数近似器であり、人間に比べ膨大なデータを高速で取り扱うことができる。しかし、機械学習によって作成されるAI(例えばディープラーニングなどのニューラルネットワーク(Deep Neural Network:DNN))のモデルの中身は非常に複雑な構造になっており、基本的にブラックボックスであるため、ユーザがその予測や分類の根拠を知ることは困難である。
そこで、説明可能なAI(Explainable AI:XAI)の概念が提唱されている。XAIとは、予測結果や分類結果に至るプロセスが説明可能になっているAIだけではなく、ブラックボックス化したAIの予測結果や分類結果の根拠を分析するための技術群全般を意味する。XAIの代表的な技術として、LIME(Local Interpretable Model-agnostic Explanations)や、その発展形であるSHAP(SHapley Additive exPlanations)が知られている(非特許文献1)。
また、目的変数と説明変数との関係を分析して、目的変数の値の変化に強い影響を持つ説明変数を特定する技術に関連し、類似関係にある説明変数の時系列データが同一グループに属するようにグルーピングし、各グループから代表とする説明変数の時系列データを抽出し、代表とするデータを分析することが知られている(特許文献1)。
また、データの分布などから「変数Aを変化させて、変数Bが変化したら」など、変数Aが原因で変数Bが結果というように、各変数間の因果関係(A→Bの矢印の向きやその強さ)を探索する方法論が知られている(非特許文献2)。
WO 2018/096683A1公報
S. M. Lundberg and S. Lee, "A Unified Approach to Interpreting Model Predictions, NIPS 2017" Shohei Shimizu, et.al "A Linear Non-Gaussian Acyclic Model for Causal Discovery" Journal of Machine Learning Research 7 (2006) 2003-2030
LIMEやSHAPは、特定の入力データ項目(特徴量)を変化させた際にAIの出力結果が反転ないし大きく変動すれば、その項目を「判定における重要度が高い」と推定する。
しかしながら、上記従来例では、現場の知見にそぐわない説明をXAIが提示してしまい、モデル自体の信頼を損ねる可能性がある。これは、ドメイン知識において本来重視されるべき変数と相関が高く、かつ、目的変数と疑似相関などの関係に当たる変数を機械学習モデルが重視して学習した場合などに起こり得る。
発明者らはこの原因を次のように考えた。すなわち、高度な学習モデルでは教師データに関連度の強い変数が複数ある場合、できるだけ少ない変数に注目して学習する傾向がある。「関連度の強い変数」とは、相関が高い変数など、ある変数から別の変数の値を見積もれる変数である。
このため、現場視点では重要な変数(例えば、時間帯)であったとしても、モデルはその本来重視すべき変数の代わりに別の関連度の強い変数に注目して学習してしまうケースがある(例えば、時間帯の代わりに湿度に注目)。そのため、本来重視されるべき変数「時間帯」による寄与度が、関連度の強い別の変数「湿度」に吸収されることで過小評価されてしまうと、一見無関係に見える変数「湿度」の寄与度が高くなる。すなわち、現場の視点からは無関係に見える変数が過大評価されてしまう。
そこで、本発明の課題は、現場の知見と整合性を取ることが容易なXAIの技術を提供することにある。
本発明の好ましい一側面は、予測器、寄与度算出部、補足根拠生成部を備え、事例データの特徴量相互の関連度を記憶した特徴量関連度記憶DBと、前記事例データの特徴量の前記予測器の予測結果への寄与度を記憶した事例データ寄与度記憶DBにアクセスが可能な情報処理システムである。前記寄与度算出部は、前記予測器の入力である評価対象データと前記予測器を入力とし、前記評価対象データ内の各特徴量が前記予測器の出力に与える寄与度を算出して、算出した寄与度と取得した評価対象データを寄与度データとして出力するものである。前記補足根拠生成部は、前記寄与度データを入力とし、前記事例データ寄与度記憶DBから、第1の特徴量の値および寄与度の近傍データ群を抽出し、前記特徴量関連度記憶DBから、前記第1の特徴量と関連する第2の特徴量を特定し、前記事例データ寄与度記憶DBのデータにおいて、前記第2の特徴量の分布中の前記近傍データ群の分布に基づいた補足根拠データを生成し、前記補足根拠データを出力するものである。
本発明の好ましい他の一側面は、教師データを用いて学習された予測器が、評価対象データの入力を受けて予測結果を出力する際に、前記予測結果に対する補足情報を生成する情報処理方法である。前記教師データの特徴量相互の関連度を記憶した特徴量関連度記憶DBと、前記教師データの特徴量の前記予測器の予測結果への寄与度を記憶した事例データ寄与度記憶DBを用い、前記事例データ寄与度記憶DBから、第1の特徴量の値および寄与度の近傍データ群を抽出する第1のステップと、前記特徴量関連度記憶DBから、前記第1の特徴量と関連する第2の特徴量を特定する第2のステップと、前記事例データ寄与度記憶DBのデータにおいて、前記第2の特徴量の分布中の前記近傍データ群の分布に基づいた情報を生成する第3のステップと、を実行する。
現場の知見と整合性を取ることが容易なXAIの技術を提供できる。
実施例の計算機システムの全体構成の一例を示すブロック図。 計算機のハードウェア構成の一例を示すブロック図。 事例データの例を示す表図。 関連度算出部の処理例を示すフロー図。 特徴量間関連度記憶部の例を示す表図。 事例データ情報に対する寄与度算出部の処理例を示すフロー図。 事例データ寄与度記憶部の例を示す表図。 計算機システムの処理の流れの例(事前準備)を示すフロー図。 計算機システムの処理の流れの例(補足情報生成)を示すフロー図。 評価対象データの例を示す表図。 予測結果データの例を示す表図。 評価対象データに対する寄与度算出部の処理例を示すフロー図。 寄与度データの例を示す表図。 実施例の処理の概要を示す概念図。 補足根拠生成部の処理例を示すフロー図。 補足根拠データの例を示す表図。 事前情報登録画面の例を示すイメージ図。 評価対象データ入力画面の例を示すイメージ図。 予測結果確認画面の例を示すイメージ図。 補足根拠の画面表示の一例を示すイメージ図。 その他の補足根拠の画面表示の一例を示すイメージ図。
以下、図面を用いて実施例を説明する。ただし、本発明は以下に示す実施の形態の記載内容に限定して解釈されるものではない。本発明の思想ないし趣旨から逸脱しない範囲で、その具体的構成を変更し得ることは当業者であれば容易に理解される。
以下に説明する実施例の構成において、同一部分又は同様な機能を有する部分には同一の符号を異なる図面間で共通して用い、重複する説明は省略することがある。
同一あるいは同様な機能を有する要素が複数ある場合には、同一の符号に異なる添字を付して説明する場合がある。ただし、複数の要素を区別する必要がない場合には、添字を省略して説明する場合がある。
本明細書等における「第1」、「第2」、「第3」などの表記は、構成要素を識別するために付するものであり、必ずしも、数、順序、もしくはその内容を限定するものではない。また、構成要素の識別のための番号は文脈毎に用いられ、一つの文脈で用いた番号が、他の文脈で必ずしも同一の構成を示すとは限らない。また、ある番号で識別された構成要素が、他の番号で識別された構成要素の機能を兼ねることを妨げるものではない。
図面等において示す各構成の位置、大きさ、形状、範囲などは、発明の理解を容易にするため、実際の位置、大きさ、形状、範囲などを表していない場合がある。このため、本発明は、必ずしも、図面等に開示された位置、大きさ、形状、範囲などに限定されない。
本明細書で引用した刊行物、特許および特許出願は、そのまま本明細書の説明の一部を構成する。
本明細書において単数形で表される構成要素は、特段文脈で明らかに示されない限り、複数形を含むものとする。
そこで、本実施例では、モデルの判断根拠として一見無関係な変数のモデルの判断結果に対する寄与度(貢献度)をXAIが出力した場合に、AI技術に馴染みのない現場担当者レベルによる判断根拠の解釈・理解を補助する情報を提供できる例を示す。
一つの実施例では、判断根拠として提示された特徴量Aについて、テストデータにおける値とモデル判断への寄与度との組合せをもとに、同様の傾向を示す過去事例データをデータベースから抽出し、抽出したデータ範囲における統計情報から判断根拠を解釈するための補足情報を生成する。統計情報としては、例えば、変数Aと関連が強い別の変数Bの取りうる値の範囲等を利用する。
<全体構成>
図1は、実施例の計算機システムの全体構成例を示す機能ブロック図である。このシステムは、機械学習モデルの判断根拠に対する補足情報を生成する。
実施例の計算機システムは、一つまたは複数の計算機1で構成される。図1では3つの計算機1-1~1-3を使用するが、要素同士がデータを送受信可能であれば、計算機の数は任意である。
計算機1は、処理を行う機能ブロックとして、関連度算出部100、寄与度算出部200、予測器500、補足根拠生成部700、結果出力部800を備える。また、データあるいはデータベース(DB)として、特徴量間関連度記憶部300、事例データ寄与度記憶部400、事例データ600を備える。また、機能ブロックを制御したり、データにアクセスしたりするための端末2を備える。
図2は、計算機1のハードウェア構成の一例を示すブロック図である。計算機1として、通常のサーバーを使用することができる。通常のサーバーと同様に、計算機1は、入力装置11、出力装置12、プロセッサ13、主記憶装置14、副記憶装置15、ネットワークインターフェース16等を備える。なお、端末2も、基本的に計算機1と同様の構成を使用することができる。
入力装置11として、キーボードやマウス等を使用することができる。出力装置12として、プリンタや画像ディスプレイ等を使用することができる。プロセッサ13は、各種CPU(Central Processor Unit)等を使用することができる。主記憶装置14は、磁気ディスク装置等を使用できる。副記憶装置15は、各種半導体メモリ等を使用することができる。ネットワークインターフェース16は、各種規格に基づいて有線もしくは無線のネットワークを介する通信を可能とする。これらの構成は公知技術を援用してよいため、詳細な説明を省略する。
本実施例では、特徴量間関連度記憶部300、事例データ寄与度記憶部400、事例データ600を副記憶装置15に格納することにする。また、関連度算出部100、寄与度算出部200、予測器500、補足根拠生成部700、結果出力部800は、副記憶装置15に格納されたソフトウェアをプロセッサ13が読み出して実行することにより、他のハードウェアとの協働により実現されるものとする。
ただし、本実施例において、ソフトウェアで構成した機能と同等の機能は、FPGA(Field Programmable Gate Array)、ASIC(Application Specific Integrated Circuit)などのハードウェアでも実現できる。また、上記構成は、単体の計算機1で構成してもよいし、あるいは、入力装置11、出力装置12、プロセッサ13、主記憶装置14、副記憶装置15、ネットワークインターフェース16の任意の部分が、ネットワークで接続された他の計算機で構成されてもよい。例えば、特徴量間関連度記憶部300、事例データ寄与度記憶部400、事例データ600は、遠方に配置された構成として、アクセス可能なネットワークインターフェース16を備えていてもよい。
<予測器および事例データ>
図1において、計算機1-2は、機械学習モデルで構成されたAIからなる予測器500と、予測器500を学習するための教師データとなる事例データ600を含む。一般に教師データは予測器500を学習するための問題と正解値を含む。正解値は人の判断によって付されていてもよい。
図3は、事例データ600の例を示す表図である。例として、空き巣の発生有無のデータを示している。データのIDに対して、母数となる世帯数(戸)、湿度(%)、時間帯(h)等の特徴量、空き巣の発生有無等を示している。このような事例データ600を教師データとして、例えば湿度(%)、時間帯(h)等の特徴量から、空き巣の発生率(%)を予測する予測器500を、教師あり学習で構成することができる。このとき、湿度(%)、時間帯(h)等の特徴量が説明変数、空き巣の発生有無が目的変数となる。教師データとしては、説明変数が問題に、目的変数が正解値に相当する。予測器500の構成や学習方法は公知技術を援用することができるので、詳細な説明は省略する。本明細書では、予測器500の学習に用いた事例データ600を、「教師データ」ということにする。
<関連度算出部および特徴量間関連度記憶部>
図1において、計算機1-1は、関連度算出部100と、特徴量間関連度記憶部300を含む。関連度算出部100は、教師データから各特徴量間の関連度を算出する。
図4は、関連度算出部100の処理フローを示す。ステップS401で、関連度算出部100が事例データ600を取得する。ステップS402で、関連度算出部100は、事例データ600に含まれる各特徴量間の関連度を算出する。関連度の評価指標は、例えば相関係数を用いる。ただし、相関係数の場合、線形の関連度しか評価できないので、他の方式としては何らかの回帰式を求め、当該回帰式とのマッチングを評価してもよい。これらは公知技術を援用することができるので、詳細な説明は省略する。ステップS403で、算出した各特徴量間の関連度を、特徴量間関連度記憶部300に記憶する。
図5は、特徴量間関連度記憶部300が格納する特徴量間関連度データの例を示す表図である。図3に示した事例データ600の各特徴量間の関連度を記録している。値は-1~+1であり、+1に近いほど相関が高いことを示す。負の値は逆相関を示す。
<寄与度算出部および事例データ寄与度記憶部>
図1において、計算機1-1は、寄与度算出部200と、事例データ寄与度記憶部400を含む。寄与度算出部200は、教師データに対する予測器500の判断結果への各特徴量の寄与度を算出する。
図6は、事例データ600に対する寄与度算出部200の処理フローを示す図である。ステップS601で、寄与度算出部200が予測器500と事例データ600を取得する。ステップS602で、寄与度算出部200は事例データ600内の各特徴量が予測器500の出力に与える寄与度を全事例データについて算出する。寄与度の算出は、前掲LIMEやSHAP等の公知技術により行うことができる。例えば、SHAPでは、ゲーム理論に基づいて、予測器500の予測値を各特徴量の寄与度の和に一意に分解することにより、各特徴量が予測値を決定する際の寄与度を求めることができる(非特許文献1)。具体的な算出方法は公知技術を援用することができるので、詳細な説明は省略する。ステップS603で、算出した各特徴量間の寄与度を、事例データ寄与度記憶部400に記憶する。
図7は、事例データ寄与度記憶部400が格納する事例データ寄与度データの例を示す表図である。各特徴量が、予測器500の判断結果に与える寄与度が記憶されている。例えば、ID「1」のデータでは、世帯数の寄与度は「-0.20」、湿度の寄与度は「+0.31」、時間帯の寄与度は「-0.002」のようになっており、寄与度の合計が予測器500の予測値(例えば空き巣の発生率)となる。この場合、寄与度プラスは発生確率を引き上げ、寄与度マイナスは発生確率を引き下げることを意味する。
なお、以上の処理では事例データに教師データそのものを用いることを想定しているが、教師データと統計的性質が同等のデータを用いてもよい。
<補足根拠生成部および結果出力部>
図1において、計算機1-3は、補足根拠生成部700と、結果出力部800を含む。これらの機能の詳細は後に説明する。
<計算機システムの処理(事前準備)>
図8は、図1の計算機システムの処理の流れの例(事前準備)を示すフロー図である。前提として、予測器500は事例データ600を教師データとして学習済みとする。
関連度算出部100は事例データ600から特徴量間関連度データを算出し、特徴量間関連度記憶部300にDBとして格納する(図5参照)。当該処理は、予め別途DBを作成しておいてもよいし、補足根拠生成部700または端末2からの指示により、運用前、あるいは運用中の任意のタイミングで生成してもよい。
寄与度算出部200は事例データ600と予測器500から寄与度データを算出し、事例データ寄与度記憶部400にDBとして格納する(図7参照)。当該処理は、予め別途DBを作成しておいてもよいし、補足根拠生成部700または端末2からの指示により、運用前、あるいは運用中の任意のタイミングで生成してもよい。
<計算機システムの処理(運用中の補足情報生成処理)>
図9は、実施例の計算機システムが評価対象データから予測を実行した際に、予測結果の根拠の補足説明情報を生成する処理を説明するフロー図である。
一般に予測器500による予測では、説明変数となる評価対象データ900を入力とし、目的変数となる予測結果データ1000を出力する。
図10は、評価対象データ900の例を示す表図である。これは予測器500に入力可能なデータであり、例えば事例データ600の説明変数(各特徴量)と同じ特徴量を持つデータである。
図11は、予測結果データ1000の例を示す表図である。これは予測器500が出力するデータであり、例えば、事例データ600の目的変数(例えば空き巣有無)に対する予測確率(例えば空き巣の発生確率)である。
ここで、予測器500はブラックボックスであり、出力である予測結果データ1000は結果のみ示すため、ユーザがその判断根拠を知るのは困難である。先に述べたように、LIMEやSHAPは、各項目(特徴量)の予測結果への寄与度を示すことで、予測器の判断根拠の理解を助けることができる。
図12は、評価対象データ900に対する寄与度算出部200の処理フローを示す図である。ステップS1201で、寄与度算出部200が予測器500と評価対象データ900を取得する。ステップS1202で、寄与度算出部200は評価対象データ900内の各特徴量が予測器500の出力に与える寄与度を算出する。この処理は、事例データ寄与度記憶部400に格納するデータを算出するのと同様に行うことができる。ステップS1203で、算出した寄与度と取得した評価対象データを寄与度データ1100として結果出力部800と補足根拠生成部700に出力する。
図13は、寄与度データ1100の例を示す表図である。表の見方は、図7と同様である。LIMEやSHAPは、特定の説明変数(特徴量)を変化させた際にAIの出力結果が反転ないし大きく変動すれば、その項目を結果への寄与度が高いと推定する。しかしながら、LIMEやSHAPでは、本来重視されるべき特徴量と相関が高い特徴量を機械学習モデルが重視して学習した場合等、現場の知見にそぐわない説明をXAIが提示する場合がある。
たとえば、空き巣発生率の予測モデルを実装した予測器500が、図11の予測結果データ1000を出力し、寄与度算出部200が図13の寄与度データ1100を出力したとする。この例では、図13の寄与度の合計が、図11の予測値0.9となる。このデータからは、予測モデルが「空き巣の発生確率は0.9(90%)」と予測し、「湿度が20%であることが、空き巣の発生確率を0.35(35%)引き上げている」と説明される。しかし、この説明は自治体職員や警察関係者など、AIに関する知識のない現場ユーザからすれば理解しがたい。
この判断根拠については、「湿度が低いのは昼間であり、昼間は家人が不在の場合が多く、そのため空き巣が発生しやすい。」という、偽相関や交絡因子を考慮した説明を補足しないと、理解が難しい。
本実施例では、モデルの判断根拠として一見無関係な特徴量の寄与度が提示された際に、AI技術に馴染みのない現場担当者レベルでも、その判断根拠の解釈・理解を補助できる補足情報を併せて提示する。例えば、「湿度が低い」と「空き巣が発生する」の2つに共通して影響する他の要因として「時間帯が昼間である」ということを抽出・提示する。
図14の概念図を用い、実施例の理解のため、上記の空き巣発生率の具体例で説明する。
第0のステップとして、評価対象データ900の判断根拠に最も寄与する特徴量として、「湿度」とその寄与度「+35%」を抽出する。
第1のステップとして、事例データ寄与度記憶部400の情報から「湿度=20%かつ寄与度=+35%」の周辺データを取得し、それらデータのインデックスを抽出する。本明細書では、取得した周辺データを、便宜上「近傍データ群」ということがある。インデックスとは、教師データ内の各データを一意に特定できるデータのIDを指す。一見無関係な変数「湿度」と「寄与度」の関係図からその周辺プロット1401が選択される。
第2のステップで、特徴量間関連度記憶部300の情報から、「湿度」と関連度の高い特徴量「時間帯」を特定する。
第3のステップで、事例データ寄与度記憶部400の情報の「時間帯」の値に注目して、抽出したインデックスのデータ(近傍データ群)が分布する領域(以下、「分布領域」という)と、それ以外のデータの分布領域に有意な差があるかを評価する。
そして、有意な差があった場合で、かつ、説明対象データにおける「時間帯」の値が分布領域に含まれている場合、始めに提示された「湿度」に基づく根拠を補足する情報として、分布領域を併せて提示する。本例では、これにより、湿度が20%付近で高い寄与度を示すデータは「時間帯」で言うと「9時~11時」に集中していることがわかる。このことから、「湿度」の寄与度には、「時間帯」の値が「9時~11時」のときに予測値に与える寄与度も含まれていることがわかる。
上記処理を実現する情報処理システムの具体的例について、以下説明する。
<補足根拠生成部>
図15は、補足根拠生成部700の処理フローを示す図である。処理主体は補足根拠生成部700である。
ステップS1501で、補足根拠生成部700が寄与度データ1100を取得する。
ステップS1502で、評価対象データ900の各特徴量に対してループ処理を開始する。
ステップS1503で、寄与度データ1100からターゲット特徴量の評価対象データ
における値とその寄与度を取得する。なお、図15のように全ての特徴量についてループ処理を行ってもよいし、所定閾値以上の寄与度の特徴量のみについてループ処理を行ってもよい。また、ループ処理を省略して、寄与度の最大の特徴量についてのみ処理を行ってもよい。あるいは、ユーザがターゲット特徴量を選択できるようにしてもよい。
ステップS1504で、事例データ寄与度記憶部400から、ステップS1503で取得した特徴量と寄与度の組の近傍のデータを持つインデックスを1または複数抽出する。抽出した事例データが、近傍データ群となる。近傍の判定は、例えば特徴量と寄与度が、それぞれ予め定めた所定範囲内に入るかどうかで行えばよい。
ステップS1505で、特徴量間関連度記憶部300からターゲット特徴量と関連度の強い特徴量を取得する。
ステップS1506で、ステップS1505で取得した特徴量の値を事例データ寄与度記憶部400から取得し、近傍データ群とそれ以外のデータの分布領域を比較する。比較のアルゴリズムは、公知の統計的手法を採用してよい。
ステップS1507で、分布領域に有意差があるかどうかを判定する。どの程度の差を有意差とするかは、公知の統計的手法に基づき、予め任意の定義で定めておけばよい。
有意差がなかった場合、ステップS1508で、次に関連度が強い特徴量を特徴量間関連度記憶部300から取得して、ターゲット特徴量とし、ステップS1506~ステップS1507を繰り返す。
有意差があった場合、ステップS1509で、関連度の強い特徴量の近傍データ群における分布領域から補足根拠データ1200を生成する。
図16は、補足根拠データ1200の例を示す表図である。この例では、補足元の(補足される)特徴量として、「湿度が20%で、その寄与度が+35%」が示されている。また、補足先の(湿度を補足する)特徴量として、「関連度が0.8の特徴量である時間帯の値域9時~11時」が対応することが示されている。
ステップS1510で、全ての特徴量についてループ処理を繰り返す。場合により、一部の特徴量のみでもよいことは先に述べたとおりである。
ステップS1511で、生成した補足根拠データ1200を結果出力部800に出力する。
<表示例>
結果出力部800は、例えば端末2の要求に応じて補足根拠データ1200を端末2に送信し、端末2の表示装置に表示する出力を生成する。本実施例では、例えば端末2から計算機1へ指示を行い、計算機1は端末2に出力を送信するものとする。このために利用可能なGUI(Graphical User Interface)について説明する。端末2は、一般的なパーソナルコンピュータや携帯端末でよく、例えば一般的なブラウザを用いて表示を行う。
図17は、図8で示した事前準備の処理を指示するGUIの例である。予測器500と事例データ600を指定し、登録ボタン1701を押下することにより、図8の処理が行われ、特徴量間関連度記憶部300と事例データ寄与度記憶部400のDBが登録される。
図18は、図9で示した、評価対象データ900を指定して予測器500に予測を指示する、評価対象データ入力画面のGUIの例である。ここでは、複数のエントリを含む評価対象データのDBを指定して、読込みボタン1801の押下で呼び出す。呼び出したデータは、画面1802のようにテーブル形式で表示される。テーブルから予測対象のデータを予測選択ボタン1803で指定して、予測ボタン1804の押下により予測器500が予測を実行する。
図19は、予測結果確認画面のGUIの例である。指定した評価対象データ900の特徴量(図10)、予測結果データ1000(図11)、及び予測値への寄与度データ1100(図13)が示される。
図20は、補足根拠の画面表示の一例である。図19に示された予測値の寄与度を指定すると、関連する補足根拠が示される。この例では、湿度の寄与度+0.35の補足根拠として、補足根拠データ1200(図16)に基づいて、「この寄与度には本来、特徴量「時間帯」の値が[9-11]の時に予測値に与える寄与度も含んでいます」の補足根拠が示される。
図21は、補足根拠の画面表示の他の一例である。図19に示された予測値の寄与度を指定すると、関連する補足根拠が示される。この例では、解釈シナリオ確認画面に切り替わり、湿度の寄与度+0.35の補足根拠として、湿度の寄与度への因果強度、時間帯の湿度への因果強度、時間帯の予測値への因果強度が表示され、時間帯の予測値への因果強度が高いことが判断できる。各因果強度の算出方法は、非特許文献2に開示の技術等を利用可能である。
以上説明した実施例によれば、予測結果に寄与度が高い第1変数の値と寄与度を推定し、教師データからそれに近い値をもつ近傍データ群を抽出し、第1変数と異なる(が関連ある)第2変数を特定し、近傍データ群とそれ以外で第2変数の値の分布を比較することにより、現場の知見と整合性を取ることが容易なXAIの技術を提供できる。
実施例1の図15の処理フローでは、ステップS1506とステップS1507で、近傍データ群とそれ以外のデータの分布領域を比較して分布領域に明確な差があるかどうかをシステムが判定している。
他の方式として、図14の右側に示したようなグラフを補足根拠データとして直接ユーザに表示し、ユーザが視覚的に分布領域に差があるかどうかを判断できるようにしてもよい。この場合ステップS1506とステップS1507を省略し、ターゲット特徴量とインデックスの関係を示すグラフ中で、近傍データ群を識別できるように表示すればよい。図14に示したようにターゲット特徴量の特定の領域に近傍データ群が集中する場合、その範囲に意味があることが判断できる。
図9に示した実施例1は、予測器500に予測を行わせる際に、補足根拠データ1200を常に付加する例である。ただし、毎回自動で補足根拠データを生成するのではなく、ユーザからどの特徴量の寄与度に対して補足情報を生成するかを指定させ、指定をトリガとして補足根拠生成部700を起動してもよい。例えば、図19の予測結果をユーザに表示し、ユーザが湿度の寄与度に「納得できない」というリアクションをした場合、これを補足根拠生成部700の補足根拠データ1200生成のトリガにする。
網羅的に補足根拠データを生成せず、オンデマンドで補足根拠生成にすることで、処理コストを削減することができる。
処理コストを削減する他の例として、補足根拠データの生成対象の特徴量を自動選定する例を説明する。実施例1の図15のループ処理では、基本的に全ての特徴量をターゲット特徴量として処理を行っている。
このとき、どの特徴量についてターゲット特徴量とするかを、公知の因果探索手法で評価した目的変数との因果関係の強さに基づいて選定することで、補足不要な変数に対する処理コストを削減することができる。
たとえば、湿度のように注目すべき変数を見つけるために、因果推論で目的変数との直接的な因果関係の強さを図る。因果関係の強さが一定の閾値より小さいにもかかわらず、寄与度が一定の閾値より大きくなっている変数について、図15のループ処理を行う。
特異な分布における近傍データ群の探索方法の他の例について説明する。実施例1の図14、図15の説明では、近傍データ群の近傍の範囲を、例えば±5%の範囲のように予め定めておくことにした。ただし、GUI上などで、どの範囲を近傍とみなすかをユーザに範囲指定させることで、特異な分布をしている変数についても、より意味のある「近傍」を定義させることができる。このためには、例えば図14の左側のグラフをユーザに表示し、周辺プロット1401の範囲をユーザが指定できるようにすればよい。
実施例1の関連度算出部100は、特徴量間の相関係数を算出し、特徴量間関連度記憶部300にDBとして記憶することにした。ただし、相関係数では線形的な関連度の強さしか評価できないため、例えば関連度算出部100は回帰式を計算して、その回帰式とのフィット具合(誤差の小ささ)を関連度として評価して、特徴量間関連度記憶部300に記憶してもよい。
その他、各変数間の関連度としては、非線形でも対応可能なMaximum Information Coefficient(MIC)や、非特許文献2で説明される因果強度などを採用することができる。
実施例1では、一つのターゲット特徴量(例えば湿度)について、補足根拠データを生成して表示する例を示した。ただし、補足情報を探索する際に、一つの変数だけでなく複数の変数で補足情報を生成するよう処理を拡張することもできる。
たとえば、実施例1の「湿度」の例では、図14の処理により、図16の「時間帯」が[9-11]という補足根拠データ1200を示している。ここで、図14の右側のインデックスと時間帯の関係グラフを、月別に生成すれば、例えば「月(Month)」が[7-8]の場合において、特に「時間帯」が[9-11]の領域に近傍データ群が集中することが判別できる。すなわち、「湿度が低いことが空き巣の発生リスクを高めるケースは、夏の昼間の時間帯に集中」という解釈を促すことができる。
同様に、図14の右側のインデックスと時間帯の関係グラフを、昼間人口毎に生成すれば、「時間帯」が[9-11]でかつ「昼間人口」が[0-20]、つまり「湿度が低いことが空き巣の発生リスクを高めるケースは、住民が外出しがちな昼間に集中」という解釈を促すことができる。
このように、複数の特徴量の関係を用いた補足根拠データを生成することで、さらに詳細な検討が可能になる。
以上説明した実施例によれば、判断根拠として提示された特徴量の寄与度について、説明対象データの値とその各変数の寄与度と、事前に記憶した教師データに対する寄与度ベクトル群とを照合し、照合結果をもとに関連度の強い別の特徴量が取りうる値域の特性から、一見無関係な特徴量による判断根拠に対する補足情報を生成する。
特許文献1では、相関が高い変数を類似度にもとづいてグループ化し、その中から代表変数を抽出して要因分析を行うことで、類似する複数の特徴量が寄与度の分析結果に出力される問題を解決していた。しかし、XAIに適用しようとする場合、モデル自体に変更が加えられない場合には利用できない。また、根拠の納得し易さのために有用な特徴量を削ってしまう可能性もあり、モデルの精度が悪化するおそれがある。
本実施例で説明した構成により、予測モデルの判断結果において過大評価された特徴量による寄与度に対して、逆に本来重視されるべきだったが直接的な寄与度が過小評価されてしまった特徴量を発見し、補足情報として提示できるようになる。この結果、モデル判断に対する特徴量ごとの寄与度を提示する画面において、特定の特徴量による寄与度の補足情報として、関連度の強い別の特徴量の特性を表示することができる。
計算機1、端末2、関連度算出部100、寄与度算出部200、特徴量間関連度記憶部300、事例データ寄与度記憶部400、予測器500、事例データ600、補足根拠生成部700、結果出力部800、評価対象データ900、予測結果データ1000、寄与度データ1100、補足根拠データ1200

Claims (15)

  1. 予測器、寄与度算出部、補足根拠生成部を備え、事例データの特徴量相互の関連度を記憶した特徴量関連度記憶DBと、前記事例データの特徴量の前記予測器の予測結果への寄与度を記憶した事例データ寄与度記憶DBにアクセスが可能な情報処理システムであって、
    前記寄与度算出部は、
    前記予測器の入力である評価対象データと前記予測器を入力とし、前記評価対象データ内の各特徴量が前記予測器の出力に与える寄与度を算出して、算出した寄与度と取得した評価対象データを寄与度データとして出力するものであり、
    前記補足根拠生成部は、
    前記寄与度データを入力とし、前記事例データ寄与度記憶DBから、第1の特徴量の値および寄与度の近傍データ群を抽出し、前記特徴量関連度記憶DBから、前記第1の特徴量と関連する第2の特徴量を特定し、前記事例データ寄与度記憶DBのデータにおいて、前記第2の特徴量の分布中の前記近傍データ群の分布に基づいた補足根拠データを生成し、前記補足根拠データを出力するものである、
    情報処理システム。
  2. 前記補足根拠生成部は、
    前記寄与度データにおいて、含まれる全ての特徴量をループ処理により順次前記第1の特徴量とする、
    請求項1記載の情報処理システム。
  3. 前記補足根拠生成部は、
    前記寄与度データにおいて、寄与度が所定閾値以上の特徴量を前記第1の特徴量とする、
    請求項1記載の情報処理システム。
  4. 前記補足根拠生成部は、
    前記寄与度データにおいて、ユーザが指定した特徴量を前記第1の特徴量とする、
    請求項1記載の情報処理システム。
  5. 前記補足根拠生成部は、
    前記寄与度データにおいて、因果探索手法で評価した前記予測器の出力との因果関係の強さに基づいて前記第1の特徴量を選定する、
    請求項1記載の情報処理システム。
  6. 前記事例データは、
    前記予測器を教師有り学習により学習する際に用いた教師データまたは該教師データと統計的性質が同等のデータである、
    請求項1記載の情報処理システム。
  7. 前記補足根拠生成部は、
    前記近傍データ群を抽出する際に、該近傍データ群の範囲をユーザが指定することを可能とする、
    請求項1記載の情報処理システム。
  8. 前記補足根拠データは、
    前記第2の特徴量の分布中の前記近傍データ群の分布をグラフ表示するデータである、
    請求項1記載の情報処理システム。
  9. 前記補足根拠データは、
    前記第2の特徴量の分布中の前記近傍データ群が集中する範囲を数値で示すデータである、
    請求項1記載の情報処理システム。
  10. 前記補足根拠データは、
    前記第2の特徴量の分布と第3の特徴量との関係に基づいた情報を含む、
    請求項1記載の情報処理システム。
  11. 教師データを用いて学習された予測器が、評価対象データの入力を受けて予測結果を出力する際に、前記予測結果に対する補足情報を生成する情報処理方法であって、
    前記教師データの特徴量相互の関連度を記憶した特徴量関連度記憶DBと、前記教師データの特徴量の前記予測器の予測結果への寄与度を記憶した事例データ寄与度記憶DBを用い、
    前記事例データ寄与度記憶DBから、第1の特徴量の値および寄与度の近傍データ群を抽出する第1のステップと、
    前記特徴量関連度記憶DBから、前記第1の特徴量と関連する第2の特徴量を特定する第2のステップと、
    前記事例データ寄与度記憶DBのデータにおいて、前記第2の特徴量の分布中の前記近傍データ群の分布に基づいた情報を生成する第3のステップと、
    を実行する情報処理方法。
  12. 前記第1のステップにおいて、
    前記第1の特徴量の値および寄与度は、前記評価対象データに関する値である、
    請求項11記載の情報処理方法。
  13. 前記第3のステップは、
    前記第2の特徴量の分布中の前記近傍データ群の分布とその他のデータの分布を比較する分布比較工程と、
    前記分布比較工程にて比較された結果に基づき補足根拠データを生成する補足説明工程を備える、
    請求項12記載の情報処理方法。
  14. 前記近傍データ群の分布とその他のデータの分布に有意差がある場合、
    前記補足根拠データには、前記第2の特徴量を特定する情報および前記第2の特徴量の分布中の前記近傍データ群の分布を説明する情報を含む、
    請求項13記載の情報処理方法。
  15. 前記補足根拠データを、前記第1の特徴量の値および寄与度に関連づけて表示する、
    請求項14記載の情報処理方法。
JP2020180026A 2020-10-27 2020-10-27 情報処理システムおよび情報処理方法 Active JP7502963B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2020180026A JP7502963B2 (ja) 2020-10-27 2020-10-27 情報処理システムおよび情報処理方法
US17/469,542 US20220129774A1 (en) 2020-10-27 2021-09-08 Information processing system and information processing method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020180026A JP7502963B2 (ja) 2020-10-27 2020-10-27 情報処理システムおよび情報処理方法

Publications (2)

Publication Number Publication Date
JP2022070766A true JP2022070766A (ja) 2022-05-13
JP7502963B2 JP7502963B2 (ja) 2024-06-19

Family

ID=81257312

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020180026A Active JP7502963B2 (ja) 2020-10-27 2020-10-27 情報処理システムおよび情報処理方法

Country Status (2)

Country Link
US (1) US20220129774A1 (ja)
JP (1) JP7502963B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116863279B (zh) * 2023-09-01 2023-11-21 南京理工大学 用于移动端模型轻量化的基于可解释指导的模型蒸馏方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180322406A1 (en) 2017-05-04 2018-11-08 Zestfinance, Inc. Systems and methods for providing machine learning model explainability information
JP6893480B2 (ja) 2018-01-18 2021-06-23 株式会社日立製作所 分析装置および分析方法
JP7125358B2 (ja) 2019-01-30 2022-08-24 株式会社日立製作所 計算機システム及び入力データに対する予測結果の根拠に関する情報の提示方法
US20220148729A1 (en) 2019-03-22 2022-05-12 Ntt Docomo, Inc. Information processing device

Also Published As

Publication number Publication date
US20220129774A1 (en) 2022-04-28
JP7502963B2 (ja) 2024-06-19

Similar Documents

Publication Publication Date Title
Wells et al. Artificial intelligence in dermatopathology: Diagnosis, education, and research
Evans et al. What's inside the black-box? a genetic programming method for interpreting complex machine learning models
Ajdari et al. An adaptive exploration-exploitation algorithm for constructing metamodels in random simulation using a novel sequential experimental design
Ge et al. A data‐centric capability‐focused approach for system‐of‐systems architecture modeling and analysis
Duval Explainable artificial intelligence (XAI)
TW201224812A (en) Probabilistic data mining model comparison engine
Yang et al. A hybrid multi-objective gray wolf optimization algorithm for a fuzzy blocking flow shop scheduling problem
KR102170968B1 (ko) 머신 러닝 기반의 근사모델 구축 방법 및 시스템
Morais et al. PROMETHEE‐ROC Model for Assessing the Readiness of Technology for Generating Energy
Jun et al. Learning dispatching rules for single machine scheduling with dynamic arrivals based on decision trees and feature construction
CA3216548A1 (en) Industry specific machine learning applications
Sorooshian et al. Performance of the decision-making trial and evaluation laboratory
Turgut et al. A framework proposal for machine learning-driven agent-based models through a case study analysis
JP2022070766A (ja) 情報処理システムおよび情報処理方法
Wang et al. Multi‐granularity re‐ranking for visible‐infrared person re‐identification
CN114880709A (zh) 一种应用人工智能的电商数据防护方法及服务器
CN112200602B (zh) 用于广告推荐的神经网络模型训练方法及装置
CN103870520B (zh) 用于搜索信息的设备和方法
Wang et al. Stacking strategy-assisted random forest algorithm and its application
Sun Usability evaluation approach of educational resources software using mixed intelligent optimization
Synnergren et al. Classification of information fusion methods in systems biology
Kim et al. Layers of experiments with adaptive combined design
Alcalá et al. Prots2Net: a PPIN predictor of a proteome or a metaproteome sample
KR102546023B1 (ko) 업무 프로세스 분석 방법
KR102549006B1 (ko) 사용자 행동 기반 질의 벡터 자동 보정을 활용한 기업 검색 시스템 및 그 방법

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230428

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240305

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240418

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240521

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240607

R150 Certificate of patent or registration of utility model

Ref document number: 7502963

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150