JP2022070766A

JP2022070766A - 情報処理システムおよび情報処理方法

Info

Publication number: JP2022070766A
Application number: JP2020180026A
Authority: JP
Inventors: 直明横井; Naoaki Yokoi; 悠加山田; Yuka Yamada; 正史恵木; Masashi Egi
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2020-10-27
Filing date: 2020-10-27
Publication date: 2022-05-13
Anticipated expiration: 2040-10-27
Also published as: US20220129774A1; JP7502963B2

Abstract

【課題】現場の知見と整合性を取ることが容易な説明可能なＡＩの技術を提供する。【解決手段】事例データの特徴量相互の特徴量関連度記憶ＤＢ３００と、特徴量の予測結果データ１０００への事例データ寄与度記憶ＤＢ４００にアクセスが可能な情報処理システムであり、寄与度算出部２００は、評価対象データ９００と予測器５００を入力とし、評価対象データ内の各特徴量が予測器の出力への寄与度を算出した寄与度と評価対象データを寄与度データ１１００として出力し、補足根拠生成部７００は、寄与度データを入力とし、事例データ寄与度記憶ＤＢから、第１の特徴量の値および寄与度の近傍データ群を抽出し、特徴量関連度記憶ＤＢから、第１の特徴量と関連する第２の特徴量を特定し、事例データ寄与度記憶ＤＢのデータにおいて、第２の特徴量の近傍データ群の分布に基づいた補足根拠データ１２００を生成して出力する。【選択図】図９

Description

本発明は、人工知能の判断根拠を可視化する技術に係る。

人工知能（Artificial Intelligence：AI）は、予測や分類などの用途に用いられ、近年進歩が著しい。ＡＩは一種の関数近似器であり、人間に比べ膨大なデータを高速で取り扱うことができる。しかし、機械学習によって作成されるＡＩ（例えばディープラーニングなどのニューラルネットワーク（Deep Neural Network：DNN））のモデルの中身は非常に複雑な構造になっており、基本的にブラックボックスであるため、ユーザがその予測や分類の根拠を知ることは困難である。

そこで、説明可能なＡＩ（Explainable AI：XAI）の概念が提唱されている。ＸＡＩとは、予測結果や分類結果に至るプロセスが説明可能になっているＡＩだけではなく、ブラックボックス化したＡＩの予測結果や分類結果の根拠を分析するための技術群全般を意味する。ＸＡＩの代表的な技術として、ＬＩＭＥ（Local Interpretable Model-agnostic Explanations）や、その発展形であるＳＨＡＰ（SHapley Additive exPlanations）が知られている（非特許文献１）。

また、目的変数と説明変数との関係を分析して、目的変数の値の変化に強い影響を持つ説明変数を特定する技術に関連し、類似関係にある説明変数の時系列データが同一グループに属するようにグルーピングし、各グループから代表とする説明変数の時系列データを抽出し、代表とするデータを分析することが知られている（特許文献１）。

また、データの分布などから「変数Aを変化させて、変数Bが変化したら」など、変数Aが原因で変数Bが結果というように、各変数間の因果関係(A→Bの矢印の向きやその強さ)を探索する方法論が知られている（非特許文献２）。

WO 2018/096683A1公報

S. M. Lundberg and S. Lee, "A Unified Approach to Interpreting Model Predictions, NIPS 2017" Shohei Shimizu, et.al "A Linear Non-Gaussian Acyclic Model for Causal Discovery" Journal of Machine Learning Research 7 (2006) 2003-2030

ＬＩＭＥやＳＨＡＰは、特定の入力データ項目（特徴量）を変化させた際にＡＩの出力結果が反転ないし大きく変動すれば、その項目を「判定における重要度が高い」と推定する。

しかしながら、上記従来例では、現場の知見にそぐわない説明をＸＡＩが提示してしまい、モデル自体の信頼を損ねる可能性がある。これは、ドメイン知識において本来重視されるべき変数と相関が高く、かつ、目的変数と疑似相関などの関係に当たる変数を機械学習モデルが重視して学習した場合などに起こり得る。

発明者らはこの原因を次のように考えた。すなわち、高度な学習モデルでは教師データに関連度の強い変数が複数ある場合、できるだけ少ない変数に注目して学習する傾向がある。「関連度の強い変数」とは、相関が高い変数など、ある変数から別の変数の値を見積もれる変数である。

このため、現場視点では重要な変数(例えば、時間帯)であったとしても、モデルはその本来重視すべき変数の代わりに別の関連度の強い変数に注目して学習してしまうケースがある(例えば、時間帯の代わりに湿度に注目)。そのため、本来重視されるべき変数「時間帯」による寄与度が、関連度の強い別の変数「湿度」に吸収されることで過小評価されてしまうと、一見無関係に見える変数「湿度」の寄与度が高くなる。すなわち、現場の視点からは無関係に見える変数が過大評価されてしまう。

そこで、本発明の課題は、現場の知見と整合性を取ることが容易なＸＡＩの技術を提供することにある。

本発明の好ましい一側面は、予測器、寄与度算出部、補足根拠生成部を備え、事例データの特徴量相互の関連度を記憶した特徴量関連度記憶ＤＢと、前記事例データの特徴量の前記予測器の予測結果への寄与度を記憶した事例データ寄与度記憶ＤＢにアクセスが可能な情報処理システムである。前記寄与度算出部は、前記予測器の入力である評価対象データと前記予測器を入力とし、前記評価対象データ内の各特徴量が前記予測器の出力に与える寄与度を算出して、算出した寄与度と取得した評価対象データを寄与度データとして出力するものである。前記補足根拠生成部は、前記寄与度データを入力とし、前記事例データ寄与度記憶ＤＢから、第１の特徴量の値および寄与度の近傍データ群を抽出し、前記特徴量関連度記憶ＤＢから、前記第１の特徴量と関連する第２の特徴量を特定し、前記事例データ寄与度記憶ＤＢのデータにおいて、前記第２の特徴量の分布中の前記近傍データ群の分布に基づいた補足根拠データを生成し、前記補足根拠データを出力するものである。

本発明の好ましい他の一側面は、教師データを用いて学習された予測器が、評価対象データの入力を受けて予測結果を出力する際に、前記予測結果に対する補足情報を生成する情報処理方法である。前記教師データの特徴量相互の関連度を記憶した特徴量関連度記憶ＤＢと、前記教師データの特徴量の前記予測器の予測結果への寄与度を記憶した事例データ寄与度記憶ＤＢを用い、前記事例データ寄与度記憶ＤＢから、第１の特徴量の値および寄与度の近傍データ群を抽出する第１のステップと、前記特徴量関連度記憶ＤＢから、前記第１の特徴量と関連する第２の特徴量を特定する第２のステップと、前記事例データ寄与度記憶ＤＢのデータにおいて、前記第２の特徴量の分布中の前記近傍データ群の分布に基づいた情報を生成する第３のステップと、を実行する。

現場の知見と整合性を取ることが容易なＸＡＩの技術を提供できる。

実施例の計算機システムの全体構成の一例を示すブロック図。計算機のハードウェア構成の一例を示すブロック図。事例データの例を示す表図。関連度算出部の処理例を示すフロー図。特徴量間関連度記憶部の例を示す表図。事例データ情報に対する寄与度算出部の処理例を示すフロー図。事例データ寄与度記憶部の例を示す表図。計算機システムの処理の流れの例(事前準備)を示すフロー図。計算機システムの処理の流れの例(補足情報生成)を示すフロー図。評価対象データの例を示す表図。予測結果データの例を示す表図。評価対象データに対する寄与度算出部の処理例を示すフロー図。寄与度データの例を示す表図。実施例の処理の概要を示す概念図。補足根拠生成部の処理例を示すフロー図。補足根拠データの例を示す表図。事前情報登録画面の例を示すイメージ図。評価対象データ入力画面の例を示すイメージ図。予測結果確認画面の例を示すイメージ図。補足根拠の画面表示の一例を示すイメージ図。その他の補足根拠の画面表示の一例を示すイメージ図。

以下、図面を用いて実施例を説明する。ただし、本発明は以下に示す実施の形態の記載内容に限定して解釈されるものではない。本発明の思想ないし趣旨から逸脱しない範囲で、その具体的構成を変更し得ることは当業者であれば容易に理解される。

以下に説明する実施例の構成において、同一部分又は同様な機能を有する部分には同一の符号を異なる図面間で共通して用い、重複する説明は省略することがある。

同一あるいは同様な機能を有する要素が複数ある場合には、同一の符号に異なる添字を付して説明する場合がある。ただし、複数の要素を区別する必要がない場合には、添字を省略して説明する場合がある。

本明細書等における「第１」、「第２」、「第３」などの表記は、構成要素を識別するために付するものであり、必ずしも、数、順序、もしくはその内容を限定するものではない。また、構成要素の識別のための番号は文脈毎に用いられ、一つの文脈で用いた番号が、他の文脈で必ずしも同一の構成を示すとは限らない。また、ある番号で識別された構成要素が、他の番号で識別された構成要素の機能を兼ねることを妨げるものではない。

図面等において示す各構成の位置、大きさ、形状、範囲などは、発明の理解を容易にするため、実際の位置、大きさ、形状、範囲などを表していない場合がある。このため、本発明は、必ずしも、図面等に開示された位置、大きさ、形状、範囲などに限定されない。

本明細書で引用した刊行物、特許および特許出願は、そのまま本明細書の説明の一部を構成する。

本明細書において単数形で表される構成要素は、特段文脈で明らかに示されない限り、複数形を含むものとする。

そこで、本実施例では、モデルの判断根拠として一見無関係な変数のモデルの判断結果に対する寄与度（貢献度）をＸＡＩが出力した場合に、ＡＩ技術に馴染みのない現場担当者レベルによる判断根拠の解釈・理解を補助する情報を提供できる例を示す。

一つの実施例では、判断根拠として提示された特徴量Ａについて、テストデータにおける値とモデル判断への寄与度との組合せをもとに、同様の傾向を示す過去事例データをデータベースから抽出し、抽出したデータ範囲における統計情報から判断根拠を解釈するための補足情報を生成する。統計情報としては、例えば、変数Ａと関連が強い別の変数Ｂの取りうる値の範囲等を利用する。

＜全体構成＞
図１は、実施例の計算機システムの全体構成例を示す機能ブロック図である。このシステムは、機械学習モデルの判断根拠に対する補足情報を生成する。

実施例の計算機システムは、一つまたは複数の計算機１で構成される。図１では３つの計算機１－１～１－３を使用するが、要素同士がデータを送受信可能であれば、計算機の数は任意である。

計算機１は、処理を行う機能ブロックとして、関連度算出部１００、寄与度算出部２００、予測器５００、補足根拠生成部７００、結果出力部８００を備える。また、データあるいはデータベース（ＤＢ）として、特徴量間関連度記憶部３００、事例データ寄与度記憶部４００、事例データ６００を備える。また、機能ブロックを制御したり、データにアクセスしたりするための端末２を備える。

図２は、計算機１のハードウェア構成の一例を示すブロック図である。計算機１として、通常のサーバーを使用することができる。通常のサーバーと同様に、計算機１は、入力装置１１、出力装置１２、プロセッサ１３、主記憶装置１４、副記憶装置１５、ネットワークインターフェース１６等を備える。なお、端末２も、基本的に計算機１と同様の構成を使用することができる。

入力装置１１として、キーボードやマウス等を使用することができる。出力装置１２として、プリンタや画像ディスプレイ等を使用することができる。プロセッサ１３は、各種ＣＰＵ（Central Processor Unit）等を使用することができる。主記憶装置１４は、磁気ディスク装置等を使用できる。副記憶装置１５は、各種半導体メモリ等を使用することができる。ネットワークインターフェース１６は、各種規格に基づいて有線もしくは無線のネットワークを介する通信を可能とする。これらの構成は公知技術を援用してよいため、詳細な説明を省略する。

本実施例では、特徴量間関連度記憶部３００、事例データ寄与度記憶部４００、事例データ６００を副記憶装置１５に格納することにする。また、関連度算出部１００、寄与度算出部２００、予測器５００、補足根拠生成部７００、結果出力部８００は、副記憶装置１５に格納されたソフトウェアをプロセッサ１３が読み出して実行することにより、他のハードウェアとの協働により実現されるものとする。

ただし、本実施例において、ソフトウェアで構成した機能と同等の機能は、FPGA（Field Programmable Gate Array）、ASIC（Application Specific Integrated Circuit）などのハードウェアでも実現できる。また、上記構成は、単体の計算機１で構成してもよいし、あるいは、入力装置１１、出力装置１２、プロセッサ１３、主記憶装置１４、副記憶装置１５、ネットワークインターフェース１６の任意の部分が、ネットワークで接続された他の計算機で構成されてもよい。例えば、特徴量間関連度記憶部３００、事例データ寄与度記憶部４００、事例データ６００は、遠方に配置された構成として、アクセス可能なネットワークインターフェース１６を備えていてもよい。

＜予測器および事例データ＞
図１において、計算機１－２は、機械学習モデルで構成されたＡＩからなる予測器５００と、予測器５００を学習するための教師データとなる事例データ６００を含む。一般に教師データは予測器５００を学習するための問題と正解値を含む。正解値は人の判断によって付されていてもよい。

図３は、事例データ６００の例を示す表図である。例として、空き巣の発生有無のデータを示している。データのＩＤに対して、母数となる世帯数（戸）、湿度（％）、時間帯（ｈ）等の特徴量、空き巣の発生有無等を示している。このような事例データ６００を教師データとして、例えば湿度（％）、時間帯（ｈ）等の特徴量から、空き巣の発生率（％）を予測する予測器５００を、教師あり学習で構成することができる。このとき、湿度（％）、時間帯（ｈ）等の特徴量が説明変数、空き巣の発生有無が目的変数となる。教師データとしては、説明変数が問題に、目的変数が正解値に相当する。予測器５００の構成や学習方法は公知技術を援用することができるので、詳細な説明は省略する。本明細書では、予測器５００の学習に用いた事例データ６００を、「教師データ」ということにする。

＜関連度算出部および特徴量間関連度記憶部＞
図１において、計算機１－１は、関連度算出部１００と、特徴量間関連度記憶部３００を含む。関連度算出部１００は、教師データから各特徴量間の関連度を算出する。

図４は、関連度算出部１００の処理フローを示す。ステップＳ４０１で、関連度算出部１００が事例データ６００を取得する。ステップＳ４０２で、関連度算出部１００は、事例データ６００に含まれる各特徴量間の関連度を算出する。関連度の評価指標は、例えば相関係数を用いる。ただし、相関係数の場合、線形の関連度しか評価できないので、他の方式としては何らかの回帰式を求め、当該回帰式とのマッチングを評価してもよい。これらは公知技術を援用することができるので、詳細な説明は省略する。ステップＳ４０３で、算出した各特徴量間の関連度を、特徴量間関連度記憶部３００に記憶する。

図５は、特徴量間関連度記憶部３００が格納する特徴量間関連度データの例を示す表図である。図３に示した事例データ６００の各特徴量間の関連度を記録している。値は－１～＋１であり、＋１に近いほど相関が高いことを示す。負の値は逆相関を示す。

＜寄与度算出部および事例データ寄与度記憶部＞
図１において、計算機１－１は、寄与度算出部２００と、事例データ寄与度記憶部４００を含む。寄与度算出部２００は、教師データに対する予測器５００の判断結果への各特徴量の寄与度を算出する。

図６は、事例データ６００に対する寄与度算出部２００の処理フローを示す図である。ステップＳ６０１で、寄与度算出部２００が予測器５００と事例データ６００を取得する。ステップＳ６０２で、寄与度算出部２００は事例データ６００内の各特徴量が予測器５００の出力に与える寄与度を全事例データについて算出する。寄与度の算出は、前掲ＬＩＭＥやＳＨＡＰ等の公知技術により行うことができる。例えば、ＳＨＡＰでは、ゲーム理論に基づいて、予測器５００の予測値を各特徴量の寄与度の和に一意に分解することにより、各特徴量が予測値を決定する際の寄与度を求めることができる（非特許文献１）。具体的な算出方法は公知技術を援用することができるので、詳細な説明は省略する。ステップＳ６０３で、算出した各特徴量間の寄与度を、事例データ寄与度記憶部４００に記憶する。

図７は、事例データ寄与度記憶部４００が格納する事例データ寄与度データの例を示す表図である。各特徴量が、予測器５００の判断結果に与える寄与度が記憶されている。例えば、ＩＤ「１」のデータでは、世帯数の寄与度は「－０.２０」、湿度の寄与度は「＋０.３１」、時間帯の寄与度は「－０.００２」のようになっており、寄与度の合計が予測器５００の予測値（例えば空き巣の発生率）となる。この場合、寄与度プラスは発生確率を引き上げ、寄与度マイナスは発生確率を引き下げることを意味する。

なお、以上の処理では事例データに教師データそのものを用いることを想定しているが、教師データと統計的性質が同等のデータを用いてもよい。

＜補足根拠生成部および結果出力部＞
図１において、計算機１－３は、補足根拠生成部７００と、結果出力部８００を含む。これらの機能の詳細は後に説明する。

＜計算機システムの処理（事前準備）＞
図８は、図1の計算機システムの処理の流れの例（事前準備）を示すフロー図である。前提として、予測器５００は事例データ６００を教師データとして学習済みとする。

関連度算出部１００は事例データ６００から特徴量間関連度データを算出し、特徴量間関連度記憶部３００にＤＢとして格納する（図５参照）。当該処理は、予め別途ＤＢを作成しておいてもよいし、補足根拠生成部７００または端末２からの指示により、運用前、あるいは運用中の任意のタイミングで生成してもよい。

寄与度算出部２００は事例データ６００と予測器５００から寄与度データを算出し、事例データ寄与度記憶部４００にＤＢとして格納する（図７参照）。当該処理は、予め別途ＤＢを作成しておいてもよいし、補足根拠生成部７００または端末２からの指示により、運用前、あるいは運用中の任意のタイミングで生成してもよい。

＜計算機システムの処理（運用中の補足情報生成処理）＞
図９は、実施例の計算機システムが評価対象データから予測を実行した際に、予測結果の根拠の補足説明情報を生成する処理を説明するフロー図である。

一般に予測器５００による予測では、説明変数となる評価対象データ９００を入力とし、目的変数となる予測結果データ１０００を出力する。

図１０は、評価対象データ９００の例を示す表図である。これは予測器５００に入力可能なデータであり、例えば事例データ６００の説明変数（各特徴量）と同じ特徴量を持つデータである。

図１１は、予測結果データ１０００の例を示す表図である。これは予測器５００が出力するデータであり、例えば、事例データ６００の目的変数（例えば空き巣有無）に対する予測確率(例えば空き巣の発生確率)である。

ここで、予測器５００はブラックボックスであり、出力である予測結果データ１０００は結果のみ示すため、ユーザがその判断根拠を知るのは困難である。先に述べたように、ＬＩＭＥやＳＨＡＰは、各項目（特徴量）の予測結果への寄与度を示すことで、予測器の判断根拠の理解を助けることができる。

図１２は、評価対象データ９００に対する寄与度算出部２００の処理フローを示す図である。ステップＳ１２０１で、寄与度算出部２００が予測器５００と評価対象データ９００を取得する。ステップＳ１２０２で、寄与度算出部２００は評価対象データ９００内の各特徴量が予測器５００の出力に与える寄与度を算出する。この処理は、事例データ寄与度記憶部４００に格納するデータを算出するのと同様に行うことができる。ステップＳ１２０３で、算出した寄与度と取得した評価対象データを寄与度データ１１００として結果出力部８００と補足根拠生成部７００に出力する。

図１３は、寄与度データ１１００の例を示す表図である。表の見方は、図７と同様である。ＬＩＭＥやＳＨＡＰは、特定の説明変数（特徴量）を変化させた際にＡＩの出力結果が反転ないし大きく変動すれば、その項目を結果への寄与度が高いと推定する。しかしながら、ＬＩＭＥやＳＨＡＰでは、本来重視されるべき特徴量と相関が高い特徴量を機械学習モデルが重視して学習した場合等、現場の知見にそぐわない説明をＸＡＩが提示する場合がある。

たとえば、空き巣発生率の予測モデルを実装した予測器５００が、図１１の予測結果データ１０００を出力し、寄与度算出部２００が図１３の寄与度データ１１００を出力したとする。この例では、図１３の寄与度の合計が、図１１の予測値０.９となる。このデータからは、予測モデルが「空き巣の発生確率は０.９（90%）」と予測し、「湿度が20％であることが、空き巣の発生確率を０.３５（35%）引き上げている」と説明される。しかし、この説明は自治体職員や警察関係者など、ＡＩに関する知識のない現場ユーザからすれば理解しがたい。

この判断根拠については、「湿度が低いのは昼間であり、昼間は家人が不在の場合が多く、そのため空き巣が発生しやすい。」という、偽相関や交絡因子を考慮した説明を補足しないと、理解が難しい。

本実施例では、モデルの判断根拠として一見無関係な特徴量の寄与度が提示された際に、ＡＩ技術に馴染みのない現場担当者レベルでも、その判断根拠の解釈・理解を補助できる補足情報を併せて提示する。例えば、「湿度が低い」と「空き巣が発生する」の２つに共通して影響する他の要因として「時間帯が昼間である」ということを抽出・提示する。

図１４の概念図を用い、実施例の理解のため、上記の空き巣発生率の具体例で説明する。

第０のステップとして、評価対象データ９００の判断根拠に最も寄与する特徴量として、「湿度」とその寄与度「+35%」を抽出する。

第１のステップとして、事例データ寄与度記憶部４００の情報から「湿度＝20%かつ寄与度＝+35%」の周辺データを取得し、それらデータのインデックスを抽出する。本明細書では、取得した周辺データを、便宜上「近傍データ群」ということがある。インデックスとは、教師データ内の各データを一意に特定できるデータのＩＤを指す。一見無関係な変数「湿度」と「寄与度」の関係図からその周辺プロット１４０１が選択される。

第２のステップで、特徴量間関連度記憶部３００の情報から、「湿度」と関連度の高い特徴量「時間帯」を特定する。

第３のステップで、事例データ寄与度記憶部４００の情報の「時間帯」の値に注目して、抽出したインデックスのデータ（近傍データ群）が分布する領域（以下、「分布領域」という）と、それ以外のデータの分布領域に有意な差があるかを評価する。

そして、有意な差があった場合で、かつ、説明対象データにおける「時間帯」の値が分布領域に含まれている場合、始めに提示された「湿度」に基づく根拠を補足する情報として、分布領域を併せて提示する。本例では、これにより、湿度が20%付近で高い寄与度を示すデータは「時間帯」で言うと「９時～１１時」に集中していることがわかる。このことから、「湿度」の寄与度には、「時間帯」の値が「９時～１１時」のときに予測値に与える寄与度も含まれていることがわかる。

上記処理を実現する情報処理システムの具体的例について、以下説明する。

＜補足根拠生成部＞
図１５は、補足根拠生成部７００の処理フローを示す図である。処理主体は補足根拠生成部７００である。

ステップＳ１５０１で、補足根拠生成部７００が寄与度データ１１００を取得する。

ステップＳ１５０２で、評価対象データ９００の各特徴量に対してループ処理を開始する。

ステップＳ１５０３で、寄与度データ１１００からターゲット特徴量の評価対象データ
における値とその寄与度を取得する。なお、図１５のように全ての特徴量についてループ処理を行ってもよいし、所定閾値以上の寄与度の特徴量のみについてループ処理を行ってもよい。また、ループ処理を省略して、寄与度の最大の特徴量についてのみ処理を行ってもよい。あるいは、ユーザがターゲット特徴量を選択できるようにしてもよい。

ステップＳ１５０４で、事例データ寄与度記憶部４００から、ステップＳ１５０３で取得した特徴量と寄与度の組の近傍のデータを持つインデックスを１または複数抽出する。抽出した事例データが、近傍データ群となる。近傍の判定は、例えば特徴量と寄与度が、それぞれ予め定めた所定範囲内に入るかどうかで行えばよい。

ステップＳ１５０５で、特徴量間関連度記憶部３００からターゲット特徴量と関連度の強い特徴量を取得する。

ステップＳ１５０６で、ステップＳ１５０５で取得した特徴量の値を事例データ寄与度記憶部４００から取得し、近傍データ群とそれ以外のデータの分布領域を比較する。比較のアルゴリズムは、公知の統計的手法を採用してよい。

ステップＳ１５０７で、分布領域に有意差があるかどうかを判定する。どの程度の差を有意差とするかは、公知の統計的手法に基づき、予め任意の定義で定めておけばよい。

有意差がなかった場合、ステップＳ１５０８で、次に関連度が強い特徴量を特徴量間関連度記憶部３００から取得して、ターゲット特徴量とし、ステップＳ１５０６～ステップＳ１５０７を繰り返す。

有意差があった場合、ステップＳ１５０９で、関連度の強い特徴量の近傍データ群における分布領域から補足根拠データ１２００を生成する。

図１６は、補足根拠データ１２００の例を示す表図である。この例では、補足元の（補足される）特徴量として、「湿度が20%で、その寄与度が+35%」が示されている。また、補足先の（湿度を補足する）特徴量として、「関連度が0.8の特徴量である時間帯の値域9時～11時」が対応することが示されている。

ステップＳ１５１０で、全ての特徴量についてループ処理を繰り返す。場合により、一部の特徴量のみでもよいことは先に述べたとおりである。

ステップＳ１５１１で、生成した補足根拠データ１２００を結果出力部８００に出力する。

＜表示例＞
結果出力部８００は、例えば端末２の要求に応じて補足根拠データ１２００を端末２に送信し、端末２の表示装置に表示する出力を生成する。本実施例では、例えば端末２から計算機１へ指示を行い、計算機１は端末２に出力を送信するものとする。このために利用可能なＧＵＩ（Graphical User Interface）について説明する。端末２は、一般的なパーソナルコンピュータや携帯端末でよく、例えば一般的なブラウザを用いて表示を行う。

図１７は、図８で示した事前準備の処理を指示するＧＵＩの例である。予測器５００と事例データ６００を指定し、登録ボタン１７０１を押下することにより、図８の処理が行われ、特徴量間関連度記憶部３００と事例データ寄与度記憶部４００のＤＢが登録される。

図１８は、図９で示した、評価対象データ９００を指定して予測器５００に予測を指示する、評価対象データ入力画面のＧＵＩの例である。ここでは、複数のエントリを含む評価対象データのＤＢを指定して、読込みボタン１８０１の押下で呼び出す。呼び出したデータは、画面１８０２のようにテーブル形式で表示される。テーブルから予測対象のデータを予測選択ボタン１８０３で指定して、予測ボタン１８０４の押下により予測器５００が予測を実行する。

図１９は、予測結果確認画面のＧＵＩの例である。指定した評価対象データ９００の特徴量（図１０）、予測結果データ１０００（図１１）、及び予測値への寄与度データ１１００（図１３）が示される。

図２０は、補足根拠の画面表示の一例である。図１９に示された予測値の寄与度を指定すると、関連する補足根拠が示される。この例では、湿度の寄与度＋0.35の補足根拠として、補足根拠データ１２００（図１６）に基づいて、「この寄与度には本来、特徴量「時間帯」の値が[9-11]の時に予測値に与える寄与度も含んでいます」の補足根拠が示される。

図２１は、補足根拠の画面表示の他の一例である。図１９に示された予測値の寄与度を指定すると、関連する補足根拠が示される。この例では、解釈シナリオ確認画面に切り替わり、湿度の寄与度＋0.35の補足根拠として、湿度の寄与度への因果強度、時間帯の湿度への因果強度、時間帯の予測値への因果強度が表示され、時間帯の予測値への因果強度が高いことが判断できる。各因果強度の算出方法は、非特許文献２に開示の技術等を利用可能である。

以上説明した実施例によれば、予測結果に寄与度が高い第１変数の値と寄与度を推定し、教師データからそれに近い値をもつ近傍データ群を抽出し、第１変数と異なる（が関連ある）第２変数を特定し、近傍データ群とそれ以外で第２変数の値の分布を比較することにより、現場の知見と整合性を取ることが容易なＸＡＩの技術を提供できる。

実施例１の図１５の処理フローでは、ステップＳ１５０６とステップＳ１５０７で、近傍データ群とそれ以外のデータの分布領域を比較して分布領域に明確な差があるかどうかをシステムが判定している。

他の方式として、図１４の右側に示したようなグラフを補足根拠データとして直接ユーザに表示し、ユーザが視覚的に分布領域に差があるかどうかを判断できるようにしてもよい。この場合ステップＳ１５０６とステップＳ１５０７を省略し、ターゲット特徴量とインデックスの関係を示すグラフ中で、近傍データ群を識別できるように表示すればよい。図１４に示したようにターゲット特徴量の特定の領域に近傍データ群が集中する場合、その範囲に意味があることが判断できる。

図９に示した実施例１は、予測器５００に予測を行わせる際に、補足根拠データ１２００を常に付加する例である。ただし、毎回自動で補足根拠データを生成するのではなく、ユーザからどの特徴量の寄与度に対して補足情報を生成するかを指定させ、指定をトリガとして補足根拠生成部７００を起動してもよい。例えば、図１９の予測結果をユーザに表示し、ユーザが湿度の寄与度に「納得できない」というリアクションをした場合、これを補足根拠生成部７００の補足根拠データ１２００生成のトリガにする。

網羅的に補足根拠データを生成せず、オンデマンドで補足根拠生成にすることで、処理コストを削減することができる。

処理コストを削減する他の例として、補足根拠データの生成対象の特徴量を自動選定する例を説明する。実施例１の図１５のループ処理では、基本的に全ての特徴量をターゲット特徴量として処理を行っている。

このとき、どの特徴量についてターゲット特徴量とするかを、公知の因果探索手法で評価した目的変数との因果関係の強さに基づいて選定することで、補足不要な変数に対する処理コストを削減することができる。

たとえば、湿度のように注目すべき変数を見つけるために、因果推論で目的変数との直接的な因果関係の強さを図る。因果関係の強さが一定の閾値より小さいにもかかわらず、寄与度が一定の閾値より大きくなっている変数について、図１５のループ処理を行う。

特異な分布における近傍データ群の探索方法の他の例について説明する。実施例１の図１４、図１５の説明では、近傍データ群の近傍の範囲を、例えば±５％の範囲のように予め定めておくことにした。ただし、ＧＵＩ上などで、どの範囲を近傍とみなすかをユーザに範囲指定させることで、特異な分布をしている変数についても、より意味のある「近傍」を定義させることができる。このためには、例えば図１４の左側のグラフをユーザに表示し、周辺プロット１４０１の範囲をユーザが指定できるようにすればよい。

実施例１の関連度算出部１００は、特徴量間の相関係数を算出し、特徴量間関連度記憶部３００にＤＢとして記憶することにした。ただし、相関係数では線形的な関連度の強さしか評価できないため、例えば関連度算出部１００は回帰式を計算して、その回帰式とのフィット具合(誤差の小ささ)を関連度として評価して、特徴量間関連度記憶部３００に記憶してもよい。

その他、各変数間の関連度としては、非線形でも対応可能なMaximum Information Coefficient（MIC）や、非特許文献２で説明される因果強度などを採用することができる。

実施例１では、一つのターゲット特徴量（例えば湿度）について、補足根拠データを生成して表示する例を示した。ただし、補足情報を探索する際に、一つの変数だけでなく複数の変数で補足情報を生成するよう処理を拡張することもできる。

たとえば、実施例１の「湿度」の例では、図１４の処理により、図１６の「時間帯」が[9-11]という補足根拠データ１２００を示している。ここで、図１４の右側のインデックスと時間帯の関係グラフを、月別に生成すれば、例えば「月(Month)」が[7-8]の場合において、特に「時間帯」が[9-11]の領域に近傍データ群が集中することが判別できる。すなわち、「湿度が低いことが空き巣の発生リスクを高めるケースは、夏の昼間の時間帯に集中」という解釈を促すことができる。

同様に、図１４の右側のインデックスと時間帯の関係グラフを、昼間人口毎に生成すれば、「時間帯」が[9-11]でかつ「昼間人口」が[0-20]、つまり「湿度が低いことが空き巣の発生リスクを高めるケースは、住民が外出しがちな昼間に集中」という解釈を促すことができる。

このように、複数の特徴量の関係を用いた補足根拠データを生成することで、さらに詳細な検討が可能になる。

以上説明した実施例によれば、判断根拠として提示された特徴量の寄与度について、説明対象データの値とその各変数の寄与度と、事前に記憶した教師データに対する寄与度ベクトル群とを照合し、照合結果をもとに関連度の強い別の特徴量が取りうる値域の特性から、一見無関係な特徴量による判断根拠に対する補足情報を生成する。

特許文献１では、相関が高い変数を類似度にもとづいてグループ化し、その中から代表変数を抽出して要因分析を行うことで、類似する複数の特徴量が寄与度の分析結果に出力される問題を解決していた。しかし、ＸＡＩに適用しようとする場合、モデル自体に変更が加えられない場合には利用できない。また、根拠の納得し易さのために有用な特徴量を削ってしまう可能性もあり、モデルの精度が悪化するおそれがある。

本実施例で説明した構成により、予測モデルの判断結果において過大評価された特徴量による寄与度に対して、逆に本来重視されるべきだったが直接的な寄与度が過小評価されてしまった特徴量を発見し、補足情報として提示できるようになる。この結果、モデル判断に対する特徴量ごとの寄与度を提示する画面において、特定の特徴量による寄与度の補足情報として、関連度の強い別の特徴量の特性を表示することができる。

計算機１、端末２、関連度算出部１００、寄与度算出部２００、特徴量間関連度記憶部３００、事例データ寄与度記憶部４００、予測器５００、事例データ６００、補足根拠生成部７００、結果出力部８００、評価対象データ９００、予測結果データ１０００、寄与度データ１１００、補足根拠データ１２００

Claims

予測器、寄与度算出部、補足根拠生成部を備え、事例データの特徴量相互の関連度を記憶した特徴量関連度記憶ＤＢと、前記事例データの特徴量の前記予測器の予測結果への寄与度を記憶した事例データ寄与度記憶ＤＢにアクセスが可能な情報処理システムであって、
前記寄与度算出部は、
前記予測器の入力である評価対象データと前記予測器を入力とし、前記評価対象データ内の各特徴量が前記予測器の出力に与える寄与度を算出して、算出した寄与度と取得した評価対象データを寄与度データとして出力するものであり、
前記補足根拠生成部は、
前記寄与度データを入力とし、前記事例データ寄与度記憶ＤＢから、第１の特徴量の値および寄与度の近傍データ群を抽出し、前記特徴量関連度記憶ＤＢから、前記第１の特徴量と関連する第２の特徴量を特定し、前記事例データ寄与度記憶ＤＢのデータにおいて、前記第２の特徴量の分布中の前記近傍データ群の分布に基づいた補足根拠データを生成し、前記補足根拠データを出力するものである、
情報処理システム。
前記補足根拠生成部は、
前記寄与度データにおいて、含まれる全ての特徴量をループ処理により順次前記第１の特徴量とする、
請求項１記載の情報処理システム。
前記補足根拠生成部は、
前記寄与度データにおいて、寄与度が所定閾値以上の特徴量を前記第１の特徴量とする、
請求項１記載の情報処理システム。
前記補足根拠生成部は、
前記寄与度データにおいて、ユーザが指定した特徴量を前記第１の特徴量とする、
請求項１記載の情報処理システム。
前記補足根拠生成部は、
前記寄与度データにおいて、因果探索手法で評価した前記予測器の出力との因果関係の強さに基づいて前記第１の特徴量を選定する、
請求項１記載の情報処理システム。
前記事例データは、
前記予測器を教師有り学習により学習する際に用いた教師データまたは該教師データと統計的性質が同等のデータである、
請求項１記載の情報処理システム。
前記補足根拠生成部は、
前記近傍データ群を抽出する際に、該近傍データ群の範囲をユーザが指定することを可能とする、
請求項１記載の情報処理システム。
前記補足根拠データは、
前記第２の特徴量の分布中の前記近傍データ群の分布をグラフ表示するデータである、
請求項１記載の情報処理システム。
前記補足根拠データは、
前記第２の特徴量の分布中の前記近傍データ群が集中する範囲を数値で示すデータである、
請求項１記載の情報処理システム。
前記補足根拠データは、
前記第２の特徴量の分布と第３の特徴量との関係に基づいた情報を含む、
請求項１記載の情報処理システム。
教師データを用いて学習された予測器が、評価対象データの入力を受けて予測結果を出力する際に、前記予測結果に対する補足情報を生成する情報処理方法であって、
前記教師データの特徴量相互の関連度を記憶した特徴量関連度記憶ＤＢと、前記教師データの特徴量の前記予測器の予測結果への寄与度を記憶した事例データ寄与度記憶ＤＢを用い、
前記事例データ寄与度記憶ＤＢから、第１の特徴量の値および寄与度の近傍データ群を抽出する第１のステップと、
前記特徴量関連度記憶ＤＢから、前記第１の特徴量と関連する第２の特徴量を特定する第２のステップと、
前記事例データ寄与度記憶ＤＢのデータにおいて、前記第２の特徴量の分布中の前記近傍データ群の分布に基づいた情報を生成する第３のステップと、
を実行する情報処理方法。
前記第１のステップにおいて、
前記第１の特徴量の値および寄与度は、前記評価対象データに関する値である、
請求項１１記載の情報処理方法。
前記第３のステップは、
前記第２の特徴量の分布中の前記近傍データ群の分布とその他のデータの分布を比較する分布比較工程と、
前記分布比較工程にて比較された結果に基づき補足根拠データを生成する補足説明工程を備える、
請求項１２記載の情報処理方法。
前記近傍データ群の分布とその他のデータの分布に有意差がある場合、
前記補足根拠データには、前記第２の特徴量を特定する情報および前記第２の特徴量の分布中の前記近傍データ群の分布を説明する情報を含む、
請求項１３記載の情報処理方法。
前記補足根拠データを、前記第１の特徴量の値および寄与度に関連づけて表示する、
請求項１４記載の情報処理方法。