JP6975692B2

JP6975692B2 - 計算機システム及び予測器が出力した予測値の根拠に関連する情報の提示方法

Info

Publication number: JP6975692B2
Application number: JP2018141375A
Authority: JP
Inventors: 正史恵木; ウシンリョウ; 直明横井; 正啓間瀬; 直史浜; 靖英森; 博之難波
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2018-07-27
Filing date: 2018-07-27
Publication date: 2021-12-01
Anticipated expiration: 2038-07-27
Also published as: US11551818B2; JP2020017197A; EP3599617A1; US20200034738A1

Description

本発明は、ＡＩの予測根拠を解釈するために有用なデータを提示するシステム及び方法に関する。

近年、医療及び金融等の様々な分野でＡＩを活用した支援システムが提供されている。例えば、医療分野では、ＡＩを活用して、病気の発症率の予測及び症状の特定等が行われる。また、金融分野では、ＡＩを活用して、与信審査等が行われる。

病気の発症率の予測等のＡＩが出力する予測の精度向上を目的とした技術開発の進展によって、ＡＩのモデル（アルゴリズム）のブラックボックス化が加速している。そのため、ＡＩを利用するユーザが、ＡＩの予測値を信頼することができないという問題が生じている。

そのような背景から、ＡＩを活用したシステムの開発者や運用者に対して、ＡＩの予測根拠を説明したり、動作を検証したりする要請が高まっている。

システムを使用するユーザに対してシステムの信頼性を示す情報を提示する技術として特許文献１及び非特許文献１の技術が知られている。

特許文献１には、「診療データ表示画面は、診断支援プログラムにより算出された診断支援情報を表示する。診断支援プログラムは、患者の診療データの複数の項目を入力項目として演算を実行することにより、診断支援情報を算出する。診療データ表示画面には、診断支援情報に加えて寄与情報が表示される。寄与情報は、複数の入力項目のうち、算出結果である診断支援情報に対する寄与度が所定値を上回る項目を含む情報である。」ことが記載されている。

非特許文献１及び非特許文献２には、評価対象データを変化させて生成した複数の摂動データと、各摂動データをＡＩに入力して得られた予測値との組を用いて、評価対象データに対するＡＩの予測根拠を説明するためのデータを算出方法が記載されている。

特開２０１６−１６２１３１号公報

Marco Tulio Ribeiro 他、「"Why Should I Trust You?": Explaining the Predictions of Any Classifier」、KDD '16 Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining、２０１６年８月、Pages 1135-1144 Scott M Lundberg 他、「A Unified Approach to Interpreting Model Predictions」、Advances in Neural Information Processing Systems 30、２０１７年１２月、Pages 4765-4774

特許文献１に開示された寄与度は、診察データの項目の値の類似度に基づいて算出される。しかし、ＡＩは、必ずしも項目の値の類似度に基づいて、予測しているわけではない。例えば、複数項目の組み合わせに基づいて予測することによって、高い予測精度を達成している。したがって、そのようなＡＩに対して、特許文献１の技術を適用することはできない。また、非特許文献1及び非特許文献２に記載の技術を用いて算出されるデータを出力するだけでは、ユーザが予測根拠を解釈するための情報として説得力に欠けるという問題がある。

本発明は、ユーザがＡＩの予測根拠を解釈するために有用なデータを出力する方法及びシステムを提供する。

本願において開示される発明の代表的な一例を示せば以下の通りである。すなわち、複数の特徴量及び正解値から構成される複数の学習データを用いて生成された予測器を用いて、複数の特徴量から構成される評価対象データの予測値を出力する計算機システムであって、プロセッサ、前記プロセッサに接続されるメモリ、及び前記プロセッサに接続されるネットワークインタフェースを有する少なくとも一つの計算機から構成され、前記予測器と、前記予測器が出力した前記評価対象データの予測値を解釈するための第一解釈指標を算出する指標算出部と、ユーザが前記評価対象データの予測値を解釈するために有用な前記学習データを選択するための選択指標を算出し、前記選択指標に基づいて前記学習データを選択する抽出部と、を備え、前記学習データに含まれる前記正解値を解釈するための第二解釈指標を管理するための指標管理情報を保持し、前記予測器は、前記評価対象データの予測値を出力し、前記指標算出部は、前記評価対象データ及び前記評価対象データの予測値に基づいて、前記第一解釈指標を算出し、前記抽出部は、前記第一解釈指標及び前記第二解釈指標に基づいて、前記選択指標を算出し、前記選択指標に基づいて、前記学習データを選択し、前記評価対象データの解釈指標及び前記選択された学習データに関する情報を提示するための表示情報を生成し、前記表示情報を出力する。

本発明によれば、ユーザが予測器（ＡＩ）の予測根拠を解釈するために有用なデータを出力することができる。上記した以外の課題、構成及び効果は、以下の実施例の説明により明らかにされる。

実施例１の計算機システムの構成例を示す図である。実施例１の計算機のハードウェア構成の一例を示す図である。実施例１の事例データ管理情報のデータ構造の一例を示す図である。実施例１の根拠ベクトル管理情報のデータ構造の一例を示す図である。実施例１の計算機システムの処理の流れを示す図である。実施例１の根拠ベクトル算出部が実行する根拠ベクトル管理情報の生成処理の一例を説明するフローチャートである。実施例１の根拠ベクトル算出部が実行する根拠ベクトルの算出処理の一例を説明するフローチャートである。実施例１の根拠ベクトル算出部が実行する評価対象データの根拠ベクトルの算出処理の一例を説明するフローチャートである。実施例１の事例抽出部が実行する事例データ選択処理の一例を説明するフローチャートである。実施例１の端末に表示される分析画面の一例を説明する図である。実施例２の事例抽出部が実行する事例データ選択処理の一例を説明するフローチャートである。実施例２の事例抽出部が実行する対照度算出処理の一例を説明するフローチャートである。実施例３の計算機システムの構成例を示す図である。実施例３の説明データ管理情報のデータ構造の一例を示す図である。実施例３の事例抽出部が実行する説明データ管理情報の生成処理の一例を説明するフローチャートである。実施例３の事例抽出部が実行する分析処理の一例を説明するフローチャートである。実施例３の端末に表示される分析画面の一例を説明する図である。実施例３の端末に表示される分析画面の一例を説明する図である。実施例３の端末に表示される分析画面の一例を説明する図である。

以下、本発明の実施例を、図面を用いて説明する。ただし、本発明は以下に示す実施の形態の記載内容に限定して解釈されるものではない。本発明の思想ないし趣旨から逸脱しない範囲で、その具体的構成を変更し得ることは当業者であれば容易に理解される。

以下に説明する発明の構成において、同一又は類似する構成又は機能には同一の符号を付し、重複する説明は省略する。

本明細書等における「第１」、「第２」、「第３」等の表記は、構成要素を識別するために付するものであり、必ずしも、数又は順序を限定するものではない。

図面等において示す各構成の位置、大きさ、形状、及び範囲等は、発明の理解を容易にするため、実際の位置、大きさ、形状、及び範囲等を表していない場合がある。したがって、本発明では、図面等に開示された位置、大きさ、形状、及び範囲等に限定されない。

図１は、実施例１の計算機システムの構成例を示す図である。

計算機システムは、複数の計算機１００−１、１００−２、１００−３、及び端末１０１から構成される。複数の計算機１００−１、１００−２、１００−３、及び端末１０１は、ネットワーク１０５を介して互いに接続される。ネットワーク１０５は、例えば、ＷＡＮ（ＷｉｄｅＡｒｅａＮｅｔｗｏｒｋ）及びＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）である。ネットワーク１０５の接続方式は有線及び無線のいずれでもよい。

以下の説明では、計算機１００−１、１００−２、１００−３を区別しない場合、計算機１００と記載する。

端末１０１は、ユーザが操作する計算機である。端末１０１は、例えば、パーソナルコンピュータ、スマートフォン、及びタブレット端末等である。端末１０１は、ユーザの操作に基づいて、ＡＩによる予測に必要なデータ（評価対象データ）等を入力する。評価対象データは、複数の項目の値（特徴量）から構成される。

なお、端末１０１は、プロセッサ、メモリ、ネットワークインタフェース、入力装置、及び出力装置を備える。入力装置は、キーボード、マウス、及びタッチパネル等の装置であり、出力装置は、タッチパネル及びディスプレイ等の装置である。

計算機１００−１は、各種データを管理する。具体的には、計算機１００−１は、予測器設計情報１２０及び事例データ管理情報１２１を保持する。

予測器設計情報１２０は、予測器１１０の定義情報である。例えば、予測器設計情報１２０は、ニューラルネットワークにおける階層のノード及び各階層のノード間の接続に関する定義情報である。事例データ管理情報１２１は、学習データを管理するための情報である。本実施例の学習データは、過去の事例に基づいて生成されるデータである。以下の説明では、学習データを事例データとも記載する。

計算機１００−２は、任意のモデル（アルゴリズム）に基づいて、評価対象データに対する予測を行い、予測値を出力する計算機である。評価対象データに対する予測は、例えば、評価対象データの分類及び任意の事象の予測等である。計算機１００−２は、評価対象データに対する予測を行う予測器１１０を備える。

計算機１００−３は、ユーザが評価対象データの予測根拠を解釈するための情報を出力する計算機である。以下の説明では、ユーザが予測根拠を解釈するための情報を解釈情報とも記載する。計算機１００−３は、根拠ベクトル算出部１１１、事例抽出部１１２、及び結果出力部１１３を備え、また、根拠ベクトル管理情報１２２を保持する。

根拠ベクトル算出部１１１は、評価対象データに対する予測を解釈するための指標となる根拠ベクトルを算出する。根拠ベクトルは、予測器１１０に入力したデータを構成する各特徴量の予測値に対する寄与度を成分とするベクトルである。

事例抽出部１１２は、根拠ベクトルを用いて算出される選択指標に基づいて、事例データの中から、ユーザが評価対象データの予測値を解釈するために有用な事例データを選択する。選択指標は、評価対象データと任意の関係性を有する事例データを選択するための指標である。

結果出力部１１３は、評価対象データの予測値及び解釈情報を含む表示データを生成し、当該表示データを端末１０１に送信する。解釈情報には、評価対象データの根拠ベクトル及び選択された事例データ等が含まれる。

なお、計算機１００−１、１００−２、１００−３のいずれかは、端末１０１からの要求を受け付けるためのＡＰＩ（ＡｐｐｌｉｃａｔｉｏｎＰｒｏｇｒａｍｍｉｎｇＩｎｔｅｒｆａｃｅ）を提供する操作受付部を有する。

ここで、計算機１００のハードウェア構成について説明する。図２は、実施例１の計算機１００のハードウェア構成の一例を示す図である。

計算機１００は、プロセッサ２０１、主記憶装置２０２、副記憶装置２０３、及びネットワークインタフェース２０４を有する。各ハードウェアは内部バスを介して互いに接続される。なお、計算機１００は、副記憶装置２０３を有していなくてもよい。また、計算機１００は、入力装置及び出力装置を有してもよい。

プロセッサ２０１は、主記憶装置２０２に格納されるプログラムを実行する。プロセッサ２０１がプログラムにしたがって処理を実行することによって、根拠ベクトル算出部１１１等、特定の機能を実現する機能部（モジュール）として動作する。以下の説明では、機能部を主語に処理を説明する場合、プロセッサ２０１が当該機能部を実現するプログラムを実行していることを示す。

主記憶装置２０２は、プロセッサ２０１が実行するプログラム及び当該プログラムが使用する情報を格納する。また、主記憶装置２０２は、プログラムが一時的に使用するワークエリアを含む。

計算機１００−１の主記憶装置２０２には、図示しない、データ管理部を実現するためのプログラムが格納される。計算機１００−２の主記憶装置２０２には、予測器１１０を実現するためのプログラムが格納される。計算機１００−３の主記憶装置２０２には、根拠ベクトル算出部１１１、事例抽出部１１２、及び結果出力部１１３を実現するためのプログラムが格納される。また、いずれかの計算機１００−１、１００−２、１００−３の主記憶装置２０２には、操作受付部を実現するためのプログラムが格納される。

副記憶装置２０３は、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）及びＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）等、データを永続的に格納する。

計算機１００−１の副記憶装置２０３は、予測器設計情報１２０及び事例データ管理情報１２１を格納する。計算機１００−３の副記憶装置２０３は、根拠ベクトル管理情報１２２を格納する。

なお、各計算機１００が有する各機能部については、複数の機能部を一つの機能部にまとめてもよいし、一つの機能部を機能毎に複数の機能部に分けてもよい。

図３は、実施例１の事例データ管理情報１２１のデータ構造の一例を示す図である。

事例データ管理情報１２１は、ＩＤ３０１、特徴量３０２、正解値３０３、及び予測値３０４から構成されるエントリを複数格納する。一つのエントリが一つの事例データに対応する。事例データは、複数の特徴量及び正解値から構成される。

ＩＤ３０１は、事例データの識別情報を格納するフィールドである。実施例１のＩＤ３０１には番号が格納される。

特徴量３０２は、事例データを構成する項目の値である特徴量を格納するフィールド群である。項目は、例えば、性別、年齢、心拍、及び預金額等である。性別に対応する項目のフィールドには「男」及び「女」のいずれかが特徴量として格納され、年齢に対応する項目のフィールドには数値が特徴量として格納される。

正解値３０３は、事例データを構成する正解値を格納するフィールドである。正解値３０３に格納される値は予め与えられている。予測値３０４は、予測器１１０が特徴量３０２から算出した正解値３０３に対する予測値を格納するフィールドである。本実施例では予測値３０４に格納された値は予め与えられているものとするが、予測値３０４の値が予め与えられていない場合、予測器１１０に特徴量３０２の値を入力して算出された値を予測値３０４に設定してもよい。

本発明では、予測器１１０は実用上十分な精度で特徴量３０２から正解値３０３に対する予測値３０４を算出できるものとし、正解値３０３に対する各項目の寄与度は、予測値３０４に対する寄与度で、十分近似できるものとする。

本実施例では例として、１つの数値からなる正解値に対し、１つの数値からなる予測値を算出する回帰問題を説明しているが、本発明はこれに限定されない。例えば、１つのラベルからなる正解値に対し、解候補である複数のラベルの確率値を算出する識別問題であっても、容易に拡張できる。

図４は、実施例１の根拠ベクトル管理情報１２２のデータ構造の一例を示す図である。

根拠ベクトル管理情報１２２は、ＩＤ４０１、寄与度４０２、正解値４０３、及び予測値４０４から構成されるエントリを複数格納する。一つのエントリが一つの事例データの根拠ベクトルに対応する。ＩＤ４０１、正解値４０３及び予測値４０４は、ＩＤ３０１、正解値３０３及び予測値３０４と同一のフィールドである。

寄与度４０２は、予測値に対する各項目の特徴量の寄与の大きさを表す寄与度を格納するフィールド群である。実施例１では、寄与度４０２に含まれる各フィールドの値を成分とするベクトルが根拠ベクトルとして扱われる。

図５は、実施例１の計算機システムの処理の流れを示す図である。

図中の矢印はデータの流れを示す。実線は、事例データの根拠ベクトルを生成するための処理におけるデータの流れを示す。一点鎖線は、評価対象データの予測値及び解釈情報を出力するための処理におけるデータの流れを示す。

まず、事例データの根拠ベクトルを算出するための処理の流れについて説明する。

操作受付部は、端末１０１から予測器１１０の生成要求を受け付けた場合、計算機１００−２に予測器１１０の生成指示を出力する。また、操作受付部は、端末１０１から事例データの根拠ベクトルの生成要求を受け付けた場合、計算機１００−３に事例データの根拠ベクトルの算出指示を出力する。

計算機１００−２は、予測器１１０の生成指示を受信した場合、予測器設計情報１２０から予測器１１０を生成する。なお、すでに、予測器１１０が生成されている場合、当該処理は省略できる。

計算機１００−３の根拠ベクトル算出部１１１は、事例データの根拠ベクトルの生成指示を受信した場合、事例データ管理情報１２１に格納される各事例データの根拠ベクトルを算出する。根拠ベクトル算出部１１１は、算出された事例データの根拠ベクトルを根拠ベクトル管理情報１２２に登録する。

次に、評価対象データの予測値及び解釈情報を出力するための処理の流れについて説明する。

操作受付部は、端末１０１から評価対象データを含む予測要求を受け付けた場合、計算機１００−２に評価対象データの予測指示を出力し、また、計算機１００−３に事例データの選択指示を出力する。

計算機１００−２の予測器１１０は、評価対象データの予測指示を受信した場合、評価対象データに対する予測を行い、評価対象データ及び予測値を根拠ベクトル算出部１１１に出力する。

計算機１００−３の根拠ベクトル算出部１１１は、事例データの選択指示を受信した場合、予測器１１０から入力された評価対象データ及び予測値に基づいて、評価対象データの根拠ベクトルを算出する。根拠ベクトル算出部１１１は、評価対象データの根拠ベクトル及び予測値の組を事例抽出部１１２に出力する。

計算機１００−３の事例抽出部１１２は、評価対象データの根拠ベクトル及び事例データの根拠ベクトルを用いて算出される選択指標に基づいて事例データを選択する。事例抽出部１１２は、評価対象データの根拠ベクトル及び予測値の組と、選択された事例データに関する情報とを結果出力部１１３に出力する。選択された事例データに関する情報は、例えば、事例データの根拠ベクトルを含む。

計算機１００−３の結果出力部１１３は、事例抽出部１１２から入力された情報を表示するための表示情報を生成する。結果出力部１１３は、当該表示情報を操作受付部に出力する。操作受付部は、表示情報を端末１０１に送信する。

根拠ベクトルは、予測器１１０が評価対象データに対して行った予測の根拠を解釈するための指標である。そのため、根拠ベクトルに基づいて算出される選択指標は、予測器１１０のモデルの特性を反映した指標として扱うことができる。したがって、選択指標に基づいて選択された事例データは、予測器１１０の予測において評価対象データと任意の関係性を有する事例データである。このように、選択指標に基づいて選択された事例データは、評価対象データ及び事例データの間の関係性に基づいて選択された事例データとは異なった観点（指標）に基づいて選択されたデータであるため、評価対象データの予測値を解釈するための情報として有用であると考えられる。

例えば、評価対象データの根拠ベクトルと類似する根拠ベクトルに対応する事例データは、評価対象データの予測値と類似した予測値である可能性がある。また、評価対象データの根拠ベクトルと対照的な特徴の根拠ベクトルに対応する事例データは、評価対象データの予測値と異なる予測値である可能性がある。

このように、評価対象データの予測値とともに、前述のような事例データを参照することによって、ユーザは、一定の納得感をもって評価対象データの予測値を解釈できる。

実施例１では、事例抽出部１１２は、根拠ベクトル間の類似性を示す選択指標に基づいて事例データを選択するものとする。根拠ベクトル間の相違を示す選択指標に基づいて事例データを選択する処理については、実施例２で説明する。

次に、具体的な処理の内容について説明する。まず、事例データの根拠ベクトルを生成するための処理について説明する。

図６は、実施例１の根拠ベクトル算出部１１１が実行する根拠ベクトル管理情報１２２の生成処理の一例を説明するフローチャートである。

根拠ベクトル算出部１１１は、変数Ｊに初期値「１」を設定する（ステップＳ１０１）。変数Ｊは、事例データの識別番号を表す変数である。このとき、根拠ベクトル算出部１１１は、事例データ管理情報１２１に登録されている事例データの数をＪｍａｘと設定する。

次に、根拠ベクトル算出部１１１は、事例データ管理情報１２１からＩＤ３０１が変数Ｊの値に一致する事例データ（エントリ）を取得する（ステップＳ１０２）。

次に、根拠ベクトル算出部１１１は、取得した事例データを用いて根拠ベクトル算出処理を実行する（ステップＳ１０３）。根拠ベクトル算出処理の詳細は図７を用いて説明する。根拠ベクトル算出処理を実行することによって、事例データの根拠ベクトルが算出される。

次に、根拠ベクトル算出部１１１は、根拠ベクトル管理情報１２２を更新する（ステップＳ１０４）。

具体的には、根拠ベクトル算出部１１１は、根拠ベクトル管理情報１２２にエントリを追加し、追加されたエントリのＩＤ４０１に変数Ｊの値を設定し、正解値４０３に正解値３０３の値を設定し、また予測値４０４に予測値３０４の値を設定する。根拠ベクトル算出部１１１は、追加されたエントリの寄与度４０２の各フィールドに、各項目の寄与度を設定する。

次に、根拠ベクトル算出部１１１は、変数Ｊの値がＪｍａｘに一致するか否かを判定する（ステップＳ１０５）。すなわち、事例データ管理情報１２１に登録されている全ての事例データについて根拠ベクトルが生成されたか否かが判定される。

変数Ｊの値がＪｍａｘに一致しないと判定された場合、根拠ベクトル算出部１１１は、変数Ｊの値に１を加算した値を変数Ｊに設定する（ステップＳ１０６）。その後、根拠ベクトル算出部１１１は、ステップＳ１０２に戻り、同様の処理を実行する。

変数Ｊの値がＪｍａｘに一致すると判定された場合、根拠ベクトル算出部１１１は処理を終了する。

図７は、実施例１の根拠ベクトル算出部１１１が実行する根拠ベクトルの算出処理の一例を説明するフローチャートである。

根拠ベクトル算出部１１１は、評価対象データ及び事例データのそれぞれに対して、以下の処理を実行する。以下の説明では、評価対象データ及び事例データを区別しない場合、ターゲットデータと記載する。

根拠ベクトル算出部１１１は、変数Ｋに初期値「１」を設定する（ステップＳ２０１）。変数Ｋは、生成する摂動データの数を表す変数である。実施例１では、Ｋｍａｘ個の摂動データが生成されるものとする。

ここで、摂動データは、ターゲットデータの一部の項目の特徴量を変化させたデータである。なお、変化量は小さいものとする。

次に、根拠ベクトル算出部１１１は、ターゲットデータの摂動データを生成し、予測器１１０に出力する（ステップＳ２０２）。根拠ベクトル算出部１１１は、予測器１１０から摂動データの予測値が出力されるまで待ち状態となる。

根拠ベクトル算出部１１１は、予測器１１０から摂動データの予測値を取得した場合（ステップＳ２０３）、主記憶装置２０２の記憶領域に摂動データ及び予測値の組を格納する（ステップＳ２０４）。

次に、根拠ベクトル算出部１１１は、変数Ｋの値がＫｍａｘと一致するか否かを判定する（ステップＳ２０５）。

変数Ｋの値がＫｍａｘと一致しないと判定された場合、根拠ベクトル算出部１１１は、変数Ｋの値に１を加算した値を変数Ｋに設定する（ステップＳ２０６）。その後、根拠ベクトル算出部１１１は、ステップＳ２０２に戻り、同様の処理を実行する。

変数Ｋの値がＫｍａｘと一致すると判定された場合、根拠ベクトル算出部１１１は、ターゲットデータの予測値に対する各項目の特徴量の寄与度Ｃ＿ｋを算出する（ステップＳ２０７）。ここで、Ｃ＿ｋは、ターゲットデータの予測値に対するｋ番目の項目の特徴量の寄与度を表す。

なお、寄与度の算出方法は、非特許文献１及び非特許文献２に記載されているため詳細な説明は省略するが、例えば、以下のような処理に基づいて寄与度が算出される。根拠ベクトル算出部１１１は、摂動データ及び予測値の組を用いて、重回帰分析等の統計分析を実行することによって、ターゲットデータの予測値に対する各項目の特徴量の寄与度を算出する。

次に、根拠ベクトル算出部１１１は、各項目の特徴量の寄与度を成分とする、ターゲットデータの根拠ベクトルを算出する（ステップＳ２０８）。

次に、評価対象データの予測値及び解釈情報を出力するための処理について説明する。

図８は、実施例１の根拠ベクトル算出部１１１が実行する評価対象データの根拠ベクトルの生成処理の一例を説明するフローチャートである。

根拠ベクトル算出部１１１は、予測器１１０から評価対象データ及び予測値を取得する（ステップＳ３０１）。

根拠ベクトル算出部１１１は、評価対象データ及び予測値を用いて根拠ベクトル算出処理を実行する（ステップＳ３０２）。根拠ベクトル算出処理は図７で示した処理と同一である。根拠ベクトル算出処理を実行することによって、評価対象データの根拠ベクトルが算出される。根拠ベクトル算出部１１１は、評価対象データの根拠ベクトルを事例抽出部１１２に出力する。

図９は、実施例１の事例抽出部１１２が実行する事例データ選択処理の一例を説明するフローチャートである。

事例抽出部１１２は、根拠ベクトル算出部１１１から評価対象データの根拠ベクトルを取得する（ステップＳ４０１）。

次に、事例抽出部１１２は、変数Ｊに初期値「１」を設定する（ステップＳ４０２）。変数Ｊは、事例データの識別番号を表す変数である。このとき、事例抽出部１１２は、事例データ管理情報１２１に登録されている事例データの数をＪｍａｘと設定する。

次に、事例抽出部１１２は、根拠ベクトル管理情報１２２からＩＤ４０１が変数Ｊの値に一致する事例データの根拠ベクトル（エントリ）を取得する（ステップＳ４０３）。

次に、事例抽出部１１２は、評価対象データの根拠ベクトル及び事例データの根拠ベクトルの類似度を算出する（ステップＳ４０４）。例えば、事例抽出部１１２は、二つの根拠ベクトルのコサイン類似度を算出する。なお、本発明は類似度の算出方法に限定されない。

次に、事例抽出部１１２は、変数Ｊの値がＪｍａｘに一致するか否かを判定する（ステップＳ４０５）。すなわち、事例データ管理情報１２１に登録されている全ての事例データについて類似度が算出されたか否かが判定される。

変数Ｊの値がＪｍａｘに一致しないと判定された場合、事例抽出部１１２は、変数Ｊの値に１を加算した値を変数Ｊに設定する（ステップＳ４０６）。その後、事例抽出部１１２は、ステップＳ４０２に戻り、同様の処理を実行する。

変数Ｊの値がＪｍａｘに一致すると判定された場合、事例抽出部１１２は、類似度に基づいて事例データを選択する（ステップＳ４０７）。その後、事例抽出部１１２は、処理を終了する。

例えば、事例抽出部１１２は、類似度が最も大きい事例データ、又は、類似度が閾値より大きい事例データを選択する。また、事例抽出部１１２は、類似度が大きい順に所定の数の事例データを選択する。なお、本発明は、類似度に基づく事例データの選択方法に限定されない。

図１０は、実施例１の端末１０１に表示される分析画面の一例を説明する図である。

分析画面１０００は、操作受付部によって提供される画面であり、端末１０１に表示される。分析画面１０００は、データ設定欄１００１及び出力欄１００２から構成される。

データ設定欄１００１は、第一データ設定欄１０１１、第二データ設定欄１０１２、第三データ設定欄１０１３、及び実行ボタン１０１４を含む。

第一データ設定欄１０１１は、評価対象データを指定するための欄である。第二データ設定欄１０１２は、予測器設計情報１２０を指定する欄である。第三データ設定欄１０１３は、事例データ管理情報１２１を指定する欄である。実行ボタン１０１４は、評価対象データの予測値の出力及び事例データの提示を指示するための操作ボタンである。

出力欄１００２は、評価対象データの予測値及び解釈情報を表示する欄である。出力欄１００２には、種別１０２１、値１０２２、及び根拠ベクトル１０２３から構成される表示データ１０３１、１０３２、１０３３が表示される。

種別１０２１は、データの識別情報を表示する欄である。値１０２２は、評価対象データ（表示データ１０３１）については予測値を表示し、事例データ（表示データ１０３２、１０３３）については正解値又は予測値を表示する欄である。根拠ベクトル１０２３は、根拠ベクトルを表示する欄である。根拠ベクトル１０２３には、各項目の寄与度を示すグラフが表示される。なお、各項目の名称及び各項目の寄与度の値が表示されてもよい。

表示データ１０３１は、評価対象データに関する情報の表示データである。表示データ１０３２、１０３３は、事例抽出部１１２によって選択された事例データの表示データである。

ここで、分析画面１０００の操作例について説明する。まず、ユーザは、データ設定欄１００１の各欄１０１１、１０１２、１０１３に値を設定する。次に、ユーザは、実行ボタン１０１４を操作する。端末１０１は、ユーザの操作を受け付けた場合、操作受付部に、データ設定欄１００１に設定された値を含む処理の実行要求を送信する。

操作受付部は、当該操作を受け付けた場合、計算機１００−２、１００−３に、図６から図９に示す処理の実行を指示する。

上記の操作では、事例データの根拠ベクトルの算出処理、評価対象データの予測値の出力処理、及び事例データの選択処理が一連の処理として実行される。別の形態としては、事例データの根拠ベクトルを算出処理と、評価対象データの予測値の出力処理及び事例データの選択処理とを別々に実行してもよい。この場合、第一データ設定欄１０１１、第二データ設定欄１０１２、及び実行ボタンから構成されるデータ設定欄と、第三データ設定欄１０１３及び実行ボタンから構成されるデータ設定欄とに分ければよい。

実施例１によれば、計算機システムは、評価対象データの予測値とともに、評価対象データの根拠ベクトルと、類似度に基づいて選択された事例データに関する情報とを提示することができる。ユーザは、評価対象データの根拠ベクトルに基づいて、予測器１１０が重要視した特徴量を把握し、また、事例データに関する情報を参照して一定の納得感をもって評価対象データの予測値を認知できる。

実施例２では、事例データの選択基準が実施例１と異なる。以下、実施例１との差異を中心に実施例２について説明する。

実施例２のシステム構成は実施例１と同一である。実施例２の計算機１００のハードウェア構成及びソフトウェア構成は実施例１と同一である。実施例２で扱う情報は実施例１と同一である。また、実施例２の根拠ベクトル算出部１１１が実行する処理は実施例１と同一である。

実施例２では、事例抽出部１１２が実行する処理が一部異なる。図１１は、実施例２の事例抽出部１１２が実行する事例データ選択処理の一例を説明するフローチャートである。図１２は、実施例２の事例抽出部１１２が実行する対照度算出処理の一例を説明するフローチャートである。

符号が同一の処理ステップは、実施例１と同一内容の処理であるため、説明を省略する。ステップＳ４０３の処理の後、事例抽出部１１２は、対照度算出処理を実行する（ステップＳ４１１）。

対照度は、予測器１１０の予測において評価対象データと対照的な特徴を有する事例データを特定するための選択指標である。予測器１１０の予測において評価対象データと対照的な特徴とは、予測器１１０が最も重要視した特徴量の寄与が小さい根拠ベクトルであることを示す。ここで、図１２を用いて対照度の算出方法について説明する。

事例抽出部１１２は、評価対象データの根拠ベクトルの各成分の絶対値を算出し、当該絶対値が最も大きい成分を特定する（ステップＳ５０１）。以下の説明では、特定された成分を最大成分とも記載する。

次に、事例抽出部１１２は、対照根拠ベクトルを算出する（ステップＳ５０２）。

具体的には、事例抽出部１１２は、評価対象データの根拠ベクトルの最大成分を０に設定する。最大成分を除いた成分についてはそのままの値とする。このようにして最大成分のみが異なる対照的な事例の条件を指定することができる。以上の操作によって算出されたベクトルが対照根拠ベクトルとなる。

本実施例では最大成分を０に設定する算出方法を説明したが、他の算出方法のバリエーションについても容易に応用できる。例えば、最大値以外に上位２つの成分について前述の処理を行う算出方法、又は最大成分の符号の反転する算出方法が考えられる。

次に、事例抽出部１１２は、対照根拠ベクトル及び事例データの根拠ベクトルの類似度を対照度として算出する（ステップＳ５０３）。なお、本発明は類似度の算出方法に限定されない。

図１１の説明に戻る。ステップＳ４０５の判定結果がＹＥＳである場合、事例抽出部１１２は、対照度に基づいて事例データを選択する（ステップＳ４１２）。その後、事例抽出部１１２は、処理を終了する。

例えば、事例抽出部１１２は、対照度が最も大きい事例データ、又は、対照度が閾値より大きい事例データを選択する。また、事例抽出部１１２は、対照度が大きい順に所定の数の事例データを選択する。なお、本発明は、対照度に基づく事例データの選択方法に限定されない。

実施例２によれば、評価対象データの根拠ベクトルの特徴を有さない根拠ベクトルに対応する事例データを提示することによって、ユーザは、予測器１１０の予測根拠を一定の納得感をもって認知することができる。

実施例３では、計算機１００が、評価対象データの根拠ベクトル及び選択された事例データを用いた分析処理を実行する。以下、実施例１との差異を中心に実施例３について説明する。

図１３は、実施例３の計算機システムの構成例を示す図である。図１４は、実施例３の説明データ管理情報１２３のデータ構造の一例を示す図である。

実施例３のシステム構成は実施例１と同一である。実施例３の計算機１００のハードウェア構成は実施例１と同一である。実施例３の計算機１００−１、１００−２のソフトウェア構成は実施例１と同一である。実施例３では、図１３に示すように、計算機１００−３のソフトウェア構成が異なる。

実施例３の計算機１００−３は、説明データ管理情報１２３を保持する。ここで、図１４を用いて説明データ管理情報１２３について説明する。

説明データ管理情報１２３は、ＩＤ１４０１、特徴量１４０２、予測値１４０３、寄与度１４０４、及び事例ＩＤ１４０５から構成されるエントリを格納する。一つのエントリが一つの説明データに対応する。後述するように一つの評価対象データに対して一つの説明データが生成される。

ＩＤ１４０１は、評価対象データの識別情報を格納するフィールドである。特徴量１４０２は、評価対象データの各項目の特徴量を格納するフィールド群である。予測値１４０３は、特徴量を予測器１１０に入力することによって得られた予測値を格納するフィールドである。寄与度１４０４は、評価対象データの各項目の特徴量の予測値１４０３に対する寄与度を格納するフィールド群である。事例ＩＤ１４０５は、事例データ選択処理によって選択された事例データの識別情報を格納するフィールドである。

実施例３の予測器設計情報１２０、事例データ管理情報１２１、及び根拠ベクトル管理情報１２２のデータ構造は実施例１と同一である。また、実施例３の根拠ベクトル算出部１１１が実行する処理は実施例１と同一である。

ただし、実施例３では、複数の評価対象データが入力されるため、予測器１１０は、複数の評価対象データの各々の予測値を出力し、また、根拠ベクトル算出部１１１は、複数の評価対象データの各々の根拠ベクトルを算出する。このとき、根拠ベクトル算出部１１１は、評価対象データの識別情報が対応づけられた根拠ベクトルを記憶領域に一時的に格納する。

実施例３では、事例抽出部１１２が実行する処理が異なる。

図１５は、実施例３の事例抽出部１１２が実行する説明データ管理情報１２３の生成処理の一例を説明するフローチャートである。

事例抽出部１１２は、説明データ管理情報１２３の生成指示を受け付けた場合、以下で説明する処理を開始する。説明データ管理情報１２３の生成指示には、複数の評価対象データが含まれる。

事例抽出部１１２は、変数Ｌに初期値「１」を設定する（ステップＳ６０１）。変数Ｌは、評価対象データの識別番号を表す変数である。このとき、事例抽出部１１２は、評価対象データの数をＬｍａｘと設定する。

次に、事例抽出部１１２は、変数Ｌに対応する評価対象データの根拠ベクトルを記憶領域から取得する（ステップＳ６０２）。

次に、事例抽出部１１２は、変数Ｌに対応する評価対象データに対して事例データ選択処理を実行する（ステップＳ６０３）。事例データ選択処理は、図９及び図１１のいずれを適用してもよい。

次に、事例抽出部１１２は、変数Ｌに対応する評価対象データの説明データを生成する（ステップＳ６０４）。

具体的には、事例抽出部１１２は、評価対象データの識別情報、評価対象データの特徴量、評価対象データの予測値、評価対象データの特徴量の寄与度、及び選択された事例データの識別情報を結合することによって、説明データを生成する。また、事例抽出部１１２は、説明データ管理情報１２３にエントリを追加し、追加されたエントリに生成された説明データを登録する。

次に、事例抽出部１１２は、変数Ｌの値がＬｍａｘに一致するか否かを判定する（ステップＳ６０５）。すなわち、全ての評価対象データについて処理が完了したか否かが判定される。

変数Ｌの値がＬｍａｘに一致しないと判定された場合、事例抽出部１１２は、変数Ｌの値に１を加算した値を変数Ｌに設定する（ステップＳ６０６）。その後、事例抽出部１１２は、ステップＳ６０２に戻り、同様の処理を実行する。

変数Ｌの値がＬｍａｘに一致すると判定された場合、事例抽出部１１２は、処理を終了する。このとき、事例抽出部１１２は、操作受付部を介して、説明データ管理情報１２３が生成された旨を端末１０１に通知する。

図１６は、実施例３の事例抽出部１１２が実行する分析処理の一例を説明するフローチャートである。

事例抽出部１１２は、分析処理の実行指示を受け付けた場合、以下で説明する処理を開始する。分析処理の実行指示には、説明データのフィルタリングの設定情報が含まれる。なお、説明データを絞り込む必要がない場合、分析処理の実行指示に、説明データのフィルタリングの設定情報が含まれていなくてもよい。

まず、事例抽出部１１２は、説明データを選択する（ステップＳ７０１）。フィルタリングの設定情報に基づくデータの選択方法は公知の技術であるため、詳細な説明は省略する。

次に、事例抽出部１１２は、選択された説明データを用いた分析処理を実行する（ステップＳ７０２）。実施例３では、以下の分析処理が実行される。

（特徴量の傾向の分析処理）事例抽出部１１２は、評価対象データの予測値において重要視された項目の特徴量の傾向を分析する。具体的には、事例抽出部１１２は、寄与度１４０４の値が大きい成分の特徴量の分布を分析する。事例抽出部１１２は、分析結果をランキング形式のデータとして出力する。

（事例データの引用傾向の分析処理）事例抽出部１１２は、事例データ選択処理によって選択された事例データを集計する。具体的には、事例抽出部１１２は、選択された説明データの事例ＩＤ１４０５に基づいて、事例データの選択回数を引用回数として算出する。また、事例抽出部１１２は、引用回数に基づいて、事例データの出現割合を引用割合として算出する。

次に、事例抽出部１１２は、結果出力部１１３に分析結果を出力し（ステップＳ７０３）、処理を終了する。

実施例３の結果出力部１１３は、分析結果を解釈情報として含む表示情報を端末１０１に送信する。なお、実施例３の結果出力部１１３は、評価対象データの予測値を送信しなくてもよい。

図１７Ａ、図１７Ｂ、及び図１７Ｃは、実施例３の端末１０１に表示される分析画面の一例を説明する図である。

分析画面１７００は、操作受付部によって提供される画面であり、端末１０１に表示される。分析画面１７００は、処理で使用するデータを設定するための欄と、分析処理の結果を表示するための欄とから構成される。

まず、図１７Ａを用いて、処理で使用するデータを設定するための欄について説明する。分析画面１７００は、処理で使用するデータを設定するための欄として、データ設定欄１７０１及びフィルタリング設定欄１７０２を含む。

データ設定欄１７０１は、データ設定欄１００１と同一の欄である。ただし、実施例３では、実行ボタン１７１４が操作された場合、端末１０１は、操作受付部に、説明データ管理情報１２３の生成要求を送信する。

フィルタリング設定欄１７０２は、フィルタリングの設定を行うための欄である。フィルタリング設定欄１７０２は、パラメータ設定欄１７２１、条件設定欄１７２２、及び実行ボタン１７２３を含む。

パラメータ設定欄１７２１は、選択基準となるパラメータの種別を設定するための欄である。条件設定欄１７２２は、パラメータの範囲を設定するための欄である。実行ボタン１７２３は、分析処理の実行を指示するための操作ボタンである。実行ボタン１７２３が操作された場合、端末１０１は、操作受付部に、分析処理の実行要求を送信する。

次に、図１７Ｂ及び図１７Ｃを用いて分析処理の結果を表示するための欄について説明する。分析画面１７００は、分析処理の結果を表示するための欄として、特徴量分析欄１７０３及び事例データ分析欄１７０４を含む。

特徴量分析欄１７０３は、特徴量の傾向の分析処理の結果を表示する欄であり、特徴量分析情報１７３０を含む。特徴量分析情報１７３０は、項目名１７３１及びランキング１７３２から構成されるエントリを含む。一つのエントリが、評価対象データの成分に対応する。

項目名１７３１は、評価対象データの項目の識別情報を格納するフィールドである。

ランキング１７３２は、項目名１７３１に対応する項目に設定された特徴量のランキングを表示する欄であり、「１位」、「２位」、「３位」、及び「その他」のフィールドを含む。

「１位」、「２位」、及び「３位」のフィールドには、特徴量及び当該特徴量が設定されている評価対象データの割合の組が格納される。「その他」のフィールドには、「１位」、「２位」、及び「３位」のフィールドに格納された特徴量以外の特徴量が設定されている評価対象データの割合が格納される。

なお、図１７Ｃでは、説明のために、特徴量分析情報１７３０の詳細を省略している。

事例データ分析欄１７０４は、事例データの引用傾向の分析処理の結果を表示する欄である。図１７Ｂは、フィルタリングを行った場合の表示例を示す。図１７Ｃは、フィルタリングを行っていない場合の表示例を示す。

図１７Ｂの事例データ分析欄１７０４は、事例分析情報１７４０を含む。事例分析情報１７４０は、順位１７４１、事例ＩＤ１７４２、回数１７４３、及び割合１７４４から構成されるエントリを格納する。一つのエントリが一つ事例データに対応する。なお、事例分析情報１７４０に格納されるエントリは、引用回数の大きい順にソートされている。

順位１７４１は、引用回数に基づく順位を格納するフィールドである。事例ＩＤ１７４２は、事例データの識別情報を格納するフィールドである。回数１７４３は、事例データ選択処理において、事例ＩＤ１７４２に対応する事例データが選択された回数を格納するフィールドである。割合１７４４は、各事例データの選択回数の合計値に対する、事例データの選択回数の割合を格納するフィールドである。

ユーザが、事例分析情報１７４０のエントリを選択した場合、選択されたエントリに対応する事例データの根拠ベクトル等がバルーン表示１７５０として表示される。

図１７Ｃの事例データ分析欄１７０４は、事例分析情報１７４０を表示する。事例分析情報１７４０は、順位１７４１、事例ＩＤ１７４２、回数１７４３、割合１７４４、グラフ１７４５、及び累積割合１７４６から構成されるエントリを格納する。一つのエントリが一つ事例データに対応する。なお、事例分析情報１７４０に格納されるエントリは、引用回数の大きい順にソートされている。

グラフ１７４５は、割合１７４４を視覚的に表示するためのグラフを表示するフィールドである。累積割合１７４６は、割合１７４４の累積値を格納するフィールドである。例えば、順位１７４１が「ｊ」のエントリの累積割合１７４６には、順位１７４１が「１」から「ｊ−１」までの各エントリの割合１７４４の合計値が格納される。

実施例３によれば、複数の評価対象データの各々の予測値の根拠ベクトルに基づく分析の結果を表示することによって、ユーザは、統計的な観点から有用な事例データを把握でき、また、予測器１１０の予測において重要な特徴量の傾向を把握することができる。

なお、本発明は上記した実施例に限定されるものではなく、様々な変形例が含まれる。また、例えば、上記した実施例は本発明を分かりやすく説明するために構成を詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、各実施例の構成の一部について、他の構成に追加、削除、置換することが可能である。

また、上記の各構成、機能、処理部、処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、本発明は、実施例の機能を実現するソフトウェアのプログラムコードによっても実現できる。この場合、プログラムコードを記録した記憶媒体をコンピュータに提供し、そのコンピュータが備えるプロセッサが記憶媒体に格納されたプログラムコードを読み出す。この場合、記憶媒体から読み出されたプログラムコード自体が前述した実施例の機能を実現することになり、そのプログラムコード自体、及びそれを記憶した記憶媒体は本発明を構成することになる。このようなプログラムコードを供給するための記憶媒体としては、例えば、フレキシブルディスク、ＣＤ−ＲＯＭ、ＤＶＤ−ＲＯＭ、ハードディスク、ＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）、光ディスク、光磁気ディスク、ＣＤ−Ｒ、磁気テープ、不揮発性のメモリカード、ＲＯＭなどが用いられる。

また、本実施例に記載の機能を実現するプログラムコードは、例えば、アセンブラ、Ｃ／Ｃ＋＋、ｐｅｒｌ、Ｓｈｅｌｌ、ＰＨＰ、Ｊａｖａ（登録商標）等の広範囲のプログラム又はスクリプト言語で実装できる。

さらに、実施例の機能を実現するソフトウェアのプログラムコードを、ネットワークを介して配信することによって、それをコンピュータのハードディスクやメモリ等の記憶手段又はＣＤ−ＲＷ、ＣＤ−Ｒ等の記憶媒体に格納し、コンピュータが備えるプロセッサが当該記憶手段や当該記憶媒体に格納されたプログラムコードを読み出して実行するようにしてもよい。

上述の実施例において、制御線や情報線は、説明上必要と考えられるものを示しており、製品上必ずしも全ての制御線や情報線を示しているとは限らない。全ての構成が相互に接続されていてもよい。

１００計算機
１０１端末
１０５ネットワーク
１１０予測器
１１１根拠ベクトル算出部
１１２事例抽出部
１１３結果出力部
１２０予測器設計情報
１２１事例データ管理情報
１２２根拠ベクトル管理情報
１２３説明データ管理情報
２０１プロセッサ
２０２主記憶装置
２０３副記憶装置
２０４ネットワークインタフェース
１０００、１７００分析画面

Claims

複数の特徴量及び正解値から構成される複数の学習データを用いて生成された予測器を用いて、複数の特徴量から構成される評価対象データの予測値を出力する計算機システムであって、
プロセッサ、前記プロセッサに接続されるメモリ、及び前記プロセッサに接続されるネットワークインタフェースを有する少なくとも一つの計算機から構成され、
前記予測器と、
前記予測器が出力した前記評価対象データの予測値を解釈するための第一解釈指標を算出する指標算出部と、
ユーザが前記評価対象データの予測値を解釈するために有用な前記学習データを選択するための選択指標を算出し、前記選択指標に基づいて前記学習データを選択する抽出部と、を備え、
前記学習データに含まれる前記正解値を解釈するための第二解釈指標を管理するための指標管理情報を保持し、
前記予測器は、前記評価対象データの予測値を出力し、
前記指標算出部は、前記評価対象データ及び前記評価対象データの予測値に基づいて、前記第一解釈指標を算出し、
前記抽出部は、
前記第一解釈指標及び前記第二解釈指標に基づいて、前記選択指標を算出し、
前記選択指標に基づいて、前記学習データを選択し、
前記評価対象データの解釈指標及び前記選択された学習データに関する情報を提示するための表示情報を生成し、前記表示情報を出力することを特徴とする計算機システム。
請求項１に記載の計算機システムであって、
前記第一解釈指標は、前記評価対象データを構成する前記複数の特徴量の各々の前記予測値に対する寄与度を成分とする根拠ベクトルであり、
前記第二解釈指標は、前記学習データを構成する前記複数の特徴量の各々の前記正解値に対する寄与度を成分とする根拠ベクトルであることを特徴とする計算機システム。
請求項２に記載の計算機システムであって、
前記抽出部は、前記評価対象データの根拠ベクトル及び前記学習データの根拠ベクトルの類似度を前記選択指標として算出することを特徴とする計算機システム。
請求項２に記載の計算機システムであって、
前記抽出部は、
前記評価対象データの根拠ベクトルを用いて、前記評価対象データの根拠ベクトルと対照的な特徴を有する対照根拠ベクトルを算出し、
前記対照根拠ベクトル及び前記学習データの根拠ベクトルの類似度を前記選択指標として算出することを特徴とする計算機システム。
請求項３又は請求項４に記載の計算機システムであって、
前記予測器は、複数の前記評価対象データの各々の前記予測値を出力し、
前記指標算出部は、前記複数の評価対象データの各々の前記第一解釈指標を算出し、
前記抽出部は、
前記複数の評価対象データの各々の前記選択指標を算出し、
前記評価対象データの選択指標に基づいて、前記複数の評価対象データの各々の前記学習データを選択し、
前記複数の評価対象データ及び前記選択された学習データを用いて分析処理を実行し、
前記分析処理の結果を含む前記表示情報を生成することを特徴とする計算機システム。
請求項５に記載の計算機システムであって、
前記分析処理の結果は、前記特徴量の傾向に関する情報、及び、前記抽出部によって提示する学習データとして選択された回数に関する情報の少なくともいずれかを含むことを特徴とする計算機システム。
複数の特徴量及び正解値から構成される複数の学習データを用いて生成された予測器を用いて、複数の特徴量から構成される評価対象データの予測値を出力する計算機システムが実行する前記予測器が出力した予測値の根拠に関連する情報の提示方法であって、
前記計算機システムは、
プロセッサ、前記プロセッサに接続されるメモリ、及び前記プロセッサに接続されるネットワークインタフェースを有する少なくとも一つの計算機から構成され、
前記予測器と、前記予測器が出力した前記評価対象データの予測値を解釈するための第一解釈指標を算出する指標算出部と、ユーザが前記評価対象データの予測値を解釈するために有用な前記学習データを選択するための選択指標を算出し、前記選択指標に基づいて前記学習データを選択する抽出部と、を有し、
前記学習データに含まれる前記正解値を解釈するための第二解釈指標を管理するための指標管理情報を保持し、
前記予測器が出力した予測値の根拠に関連する情報の提示方法は、
前記予測器が、前記評価対象データの予測値を出力する第１のステップと、
前記指標算出部が、前記評価対象データ及び前記評価対象データの予測値に基づいて、前記第一解釈指標を算出する第２のステップと、
前記抽出部が、前記第一解釈指標及び前記第二解釈指標に基づいて、前記選択指標を算出する第３のステップと、
前記抽出部が、前記選択指標に基づいて、前記学習データを選択する第４のステップと、
前記抽出部が、前記評価対象データの解釈指標及び前記選択された学習データに関する情報を提示するための表示情報を生成し、前記表示情報を出力する第５のステップと、を含むことを特徴とする予測器が出力した予測値の根拠に関連する情報の提示方法。
請求項７に記載の予測器が出力した予測値の根拠に関連する情報の提示方法であって、
前記第一解釈指標は、前記評価対象データを構成する前記複数の特徴量の各々の前記予測値に対する寄与度を成分とする根拠ベクトルであり、
前記第二解釈指標は、前記学習データを構成する前記複数の特徴量の各々の前記正解値に対する寄与度を成分とする根拠ベクトルであることを特徴とする予測器が出力した予測値の根拠に関連する情報の提示方法。
請求項８に記載の予測器が出力した予測値の根拠に関連する情報の提示方法であって、
前記第３のステップは、前記抽出部が、前記評価対象データの根拠ベクトル及び前記学習データの根拠ベクトルの類似度を前記選択指標として算出するステップを含むことを特徴とする予測器が出力した予測値の根拠に関連する情報の提示方法。
請求項８に記載の予測器が出力した予測値の根拠に関連する情報の提示方法であって、
前記第３のステップは、
前記抽出部が、前記評価対象データの根拠ベクトルを用いて、前記評価対象データの根拠ベクトルと対照的な特徴を有する対照根拠ベクトルを算出するステップと、
前記抽出部が、前記対照根拠ベクトル及び前記学習データの根拠ベクトルの類似度を前記選択指標として算出するステップと、を含むことを特徴とする予測器が出力した予測値の根拠に関連する情報の提示方法。
請求項９又は請求項１０に記載の予測器が出力した予測値の根拠に関連する情報の提示方法であって、
前記第１のステップは、前記予測器が、複数の前記評価対象データの各々の前記予測値を出力するステップを含み、
前記第２のステップは、前記指標算出部が、前記複数の評価対象データの各々の前記第一解釈指標を算出するステップを含み、
前記第３のステップは、前記抽出部が、前記複数の評価対象データの各々の前記選択指標を算出するステップを含み、
前記第４のステップは、前記抽出部が、前記評価対象データの選択指標に基づいて、前記複数の評価対象データの各々の前記学習データを選択するステップを含み、
前記第５のステップは、
前記抽出部が、前記複数の評価対象データ及び前記選択された学習データを用いて分析処理を実行するステップと、
前記抽出部が、前記分析処理の結果を含む前記表示情報を生成するステップを、を含むことを特徴とする予測器が出力した予測値の根拠に関連する情報の提示方法。
請求項１１に記載の予測器が出力した予測値の根拠に関連する情報の提示方法であって、
前記分析処理の結果は、前記特徴量の傾向に関する情報、及び、前記抽出部によって提示する学習データとして選択された回数に関する情報の少なくともいずれかを含むことを特徴とする予測器が出力した予測値の根拠に関連する情報の提示方法。