JP6975692B2 - 計算機システム及び予測器が出力した予測値の根拠に関連する情報の提示方法 - Google Patents

計算機システム及び予測器が出力した予測値の根拠に関連する情報の提示方法 Download PDF

Info

Publication number
JP6975692B2
JP6975692B2 JP2018141375A JP2018141375A JP6975692B2 JP 6975692 B2 JP6975692 B2 JP 6975692B2 JP 2018141375 A JP2018141375 A JP 2018141375A JP 2018141375 A JP2018141375 A JP 2018141375A JP 6975692 B2 JP6975692 B2 JP 6975692B2
Authority
JP
Japan
Prior art keywords
data
evaluation target
target data
predicted value
index
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018141375A
Other languages
English (en)
Other versions
JP2020017197A (ja
Inventor
正史 恵木
ウシン リョウ
直明 横井
正啓 間瀬
直史 浜
靖英 森
博之 難波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2018141375A priority Critical patent/JP6975692B2/ja
Priority to US16/504,897 priority patent/US11551818B2/en
Priority to EP19188123.4A priority patent/EP3599617A1/en
Publication of JP2020017197A publication Critical patent/JP2020017197A/ja
Application granted granted Critical
Publication of JP6975692B2 publication Critical patent/JP6975692B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • G06F16/2272Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • G06N5/045Explanation of inference; Explainable artificial intelligence [XAI]; Interpretable artificial intelligence
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Public Health (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Primary Health Care (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Epidemiology (AREA)
  • Pathology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、AIの予測根拠を解釈するために有用なデータを提示するシステム及び方法に関する。
近年、医療及び金融等の様々な分野でAIを活用した支援システムが提供されている。例えば、医療分野では、AIを活用して、病気の発症率の予測及び症状の特定等が行われる。また、金融分野では、AIを活用して、与信審査等が行われる。
病気の発症率の予測等のAIが出力する予測の精度向上を目的とした技術開発の進展によって、AIのモデル(アルゴリズム)のブラックボックス化が加速している。そのため、AIを利用するユーザが、AIの予測値を信頼することができないという問題が生じている。
そのような背景から、AIを活用したシステムの開発者や運用者に対して、AIの予測根拠を説明したり、動作を検証したりする要請が高まっている。
システムを使用するユーザに対してシステムの信頼性を示す情報を提示する技術として特許文献1及び非特許文献1の技術が知られている。
特許文献1には、「診療データ表示画面は、診断支援プログラムにより算出された診断支援情報を表示する。診断支援プログラムは、患者の診療データの複数の項目を入力項目として演算を実行することにより、診断支援情報を算出する。診療データ表示画面には、診断支援情報に加えて寄与情報が表示される。寄与情報は、複数の入力項目のうち、算出結果である診断支援情報に対する寄与度が所定値を上回る項目を含む情報である。」ことが記載されている。
非特許文献1及び非特許文献2には、評価対象データを変化させて生成した複数の摂動データと、各摂動データをAIに入力して得られた予測値との組を用いて、評価対象データに対するAIの予測根拠を説明するためのデータを算出方法が記載されている。
特開2016−162131号公報
Marco Tulio Ribeiro 他、「"Why Should I Trust You?": Explaining the Predictions of Any Classifier」、KDD '16 Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining、2016年8月、Pages 1135-1144 Scott M Lundberg 他、「A Unified Approach to Interpreting Model Predictions」、Advances in Neural Information Processing Systems 30、2017年12月、Pages 4765-4774
特許文献1に開示された寄与度は、診察データの項目の値の類似度に基づいて算出される。しかし、AIは、必ずしも項目の値の類似度に基づいて、予測しているわけではない。例えば、複数項目の組み合わせに基づいて予測することによって、高い予測精度を達成している。したがって、そのようなAIに対して、特許文献1の技術を適用することはできない。また、非特許文献1及び非特許文献2に記載の技術を用いて算出されるデータを出力するだけでは、ユーザが予測根拠を解釈するための情報として説得力に欠けるという問題がある。
本発明は、ユーザがAIの予測根拠を解釈するために有用なデータを出力する方法及びシステムを提供する。
本願において開示される発明の代表的な一例を示せば以下の通りである。すなわち、複数の特徴量及び正解値から構成される複数の学習データを用いて生成された予測器を用いて、複数の特徴量から構成される評価対象データの予測値を出力する計算機システムであって、プロセッサ、前記プロセッサに接続されるメモリ、及び前記プロセッサに接続されるネットワークインタフェースを有する少なくとも一つの計算機から構成され、前記予測器と、前記予測器が出力した前記評価対象データの予測値を解釈するための第一解釈指標を算出する指標算出部と、ユーザが前記評価対象データの予測値を解釈するために有用な前記学習データを選択するための選択指標を算出し、前記選択指標に基づいて前記学習データを選択する抽出部と、を備え、前記学習データに含まれる前記正解値を解釈するための第二解釈指標を管理するための指標管理情報を保持し、前記予測器は、前記評価対象データの予測値を出力し、前記指標算出部は、前記評価対象データ及び前記評価対象データの予測値に基づいて、前記第一解釈指標を算出し、前記抽出部は、前記第一解釈指標及び前記第二解釈指標に基づいて、前記選択指標を算出し、前記選択指標に基づいて、前記学習データを選択し、前記評価対象データの解釈指標及び前記選択された学習データに関する情報を提示するための表示情報を生成し、前記表示情報を出力する。
本発明によれば、ユーザが予測器(AI)の予測根拠を解釈するために有用なデータを出力することができる。上記した以外の課題、構成及び効果は、以下の実施例の説明により明らかにされる。
実施例1の計算機システムの構成例を示す図である。 実施例1の計算機のハードウェア構成の一例を示す図である。 実施例1の事例データ管理情報のデータ構造の一例を示す図である。 実施例1の根拠ベクトル管理情報のデータ構造の一例を示す図である。 実施例1の計算機システムの処理の流れを示す図である。 実施例1の根拠ベクトル算出部が実行する根拠ベクトル管理情報の生成処理の一例を説明するフローチャートである。 実施例1の根拠ベクトル算出部が実行する根拠ベクトルの算出処理の一例を説明するフローチャートである。 実施例1の根拠ベクトル算出部が実行する評価対象データの根拠ベクトルの算出処理の一例を説明するフローチャートである。 実施例1の事例抽出部が実行する事例データ選択処理の一例を説明するフローチャートである。 実施例1の端末に表示される分析画面の一例を説明する図である。 実施例2の事例抽出部が実行する事例データ選択処理の一例を説明するフローチャートである。 実施例2の事例抽出部が実行する対照度算出処理の一例を説明するフローチャートである。 実施例3の計算機システムの構成例を示す図である。 実施例3の説明データ管理情報のデータ構造の一例を示す図である。 実施例3の事例抽出部が実行する説明データ管理情報の生成処理の一例を説明するフローチャートである。 実施例3の事例抽出部が実行する分析処理の一例を説明するフローチャートである。 実施例3の端末に表示される分析画面の一例を説明する図である。 実施例3の端末に表示される分析画面の一例を説明する図である。 実施例3の端末に表示される分析画面の一例を説明する図である。
以下、本発明の実施例を、図面を用いて説明する。ただし、本発明は以下に示す実施の形態の記載内容に限定して解釈されるものではない。本発明の思想ないし趣旨から逸脱しない範囲で、その具体的構成を変更し得ることは当業者であれば容易に理解される。
以下に説明する発明の構成において、同一又は類似する構成又は機能には同一の符号を付し、重複する説明は省略する。
本明細書等における「第1」、「第2」、「第3」等の表記は、構成要素を識別するために付するものであり、必ずしも、数又は順序を限定するものではない。
図面等において示す各構成の位置、大きさ、形状、及び範囲等は、発明の理解を容易にするため、実際の位置、大きさ、形状、及び範囲等を表していない場合がある。したがって、本発明では、図面等に開示された位置、大きさ、形状、及び範囲等に限定されない。
図1は、実施例1の計算機システムの構成例を示す図である。
計算機システムは、複数の計算機100−1、100−2、100−3、及び端末101から構成される。複数の計算機100−1、100−2、100−3、及び端末101は、ネットワーク105を介して互いに接続される。ネットワーク105は、例えば、WAN(Wide Area Network)及びLAN(Local Area Network)である。ネットワーク105の接続方式は有線及び無線のいずれでもよい。
以下の説明では、計算機100−1、100−2、100−3を区別しない場合、計算機100と記載する。
端末101は、ユーザが操作する計算機である。端末101は、例えば、パーソナルコンピュータ、スマートフォン、及びタブレット端末等である。端末101は、ユーザの操作に基づいて、AIによる予測に必要なデータ(評価対象データ)等を入力する。評価対象データは、複数の項目の値(特徴量)から構成される。
なお、端末101は、プロセッサ、メモリ、ネットワークインタフェース、入力装置、及び出力装置を備える。入力装置は、キーボード、マウス、及びタッチパネル等の装置であり、出力装置は、タッチパネル及びディスプレイ等の装置である。
計算機100−1は、各種データを管理する。具体的には、計算機100−1は、予測器設計情報120及び事例データ管理情報121を保持する。
予測器設計情報120は、予測器110の定義情報である。例えば、予測器設計情報120は、ニューラルネットワークにおける階層のノード及び各階層のノード間の接続に関する定義情報である。事例データ管理情報121は、学習データを管理するための情報である。本実施例の学習データは、過去の事例に基づいて生成されるデータである。以下の説明では、学習データを事例データとも記載する。
計算機100−2は、任意のモデル(アルゴリズム)に基づいて、評価対象データに対する予測を行い、予測値を出力する計算機である。評価対象データに対する予測は、例えば、評価対象データの分類及び任意の事象の予測等である。計算機100−2は、評価対象データに対する予測を行う予測器110を備える。
計算機100−3は、ユーザが評価対象データの予測根拠を解釈するための情報を出力する計算機である。以下の説明では、ユーザが予測根拠を解釈するための情報を解釈情報とも記載する。計算機100−3は、根拠ベクトル算出部111、事例抽出部112、及び結果出力部113を備え、また、根拠ベクトル管理情報122を保持する。
根拠ベクトル算出部111は、評価対象データに対する予測を解釈するための指標となる根拠ベクトルを算出する。根拠ベクトルは、予測器110に入力したデータを構成する各特徴量の予測値に対する寄与度を成分とするベクトルである。
事例抽出部112は、根拠ベクトルを用いて算出される選択指標に基づいて、事例データの中から、ユーザが評価対象データの予測値を解釈するために有用な事例データを選択する。選択指標は、評価対象データと任意の関係性を有する事例データを選択するための指標である。
結果出力部113は、評価対象データの予測値及び解釈情報を含む表示データを生成し、当該表示データを端末101に送信する。解釈情報には、評価対象データの根拠ベクトル及び選択された事例データ等が含まれる。
なお、計算機100−1、100−2、100−3のいずれかは、端末101からの要求を受け付けるためのAPI(Application Programming Interface)を提供する操作受付部を有する。
ここで、計算機100のハードウェア構成について説明する。図2は、実施例1の計算機100のハードウェア構成の一例を示す図である。
計算機100は、プロセッサ201、主記憶装置202、副記憶装置203、及びネットワークインタフェース204を有する。各ハードウェアは内部バスを介して互いに接続される。なお、計算機100は、副記憶装置203を有していなくてもよい。また、計算機100は、入力装置及び出力装置を有してもよい。
プロセッサ201は、主記憶装置202に格納されるプログラムを実行する。プロセッサ201がプログラムにしたがって処理を実行することによって、根拠ベクトル算出部111等、特定の機能を実現する機能部(モジュール)として動作する。以下の説明では、機能部を主語に処理を説明する場合、プロセッサ201が当該機能部を実現するプログラムを実行していることを示す。
主記憶装置202は、プロセッサ201が実行するプログラム及び当該プログラムが使用する情報を格納する。また、主記憶装置202は、プログラムが一時的に使用するワークエリアを含む。
計算機100−1の主記憶装置202には、図示しない、データ管理部を実現するためのプログラムが格納される。計算機100−2の主記憶装置202には、予測器110を実現するためのプログラムが格納される。計算機100−3の主記憶装置202には、根拠ベクトル算出部111、事例抽出部112、及び結果出力部113を実現するためのプログラムが格納される。また、いずれかの計算機100−1、100−2、100−3の主記憶装置202には、操作受付部を実現するためのプログラムが格納される。
副記憶装置203は、HDD(Hard Disk Drive)及びSSD(Solid State Drive)等、データを永続的に格納する。
計算機100−1の副記憶装置203は、予測器設計情報120及び事例データ管理情報121を格納する。計算機100−3の副記憶装置203は、根拠ベクトル管理情報122を格納する。
なお、各計算機100が有する各機能部については、複数の機能部を一つの機能部にまとめてもよいし、一つの機能部を機能毎に複数の機能部に分けてもよい。
図3は、実施例1の事例データ管理情報121のデータ構造の一例を示す図である。
事例データ管理情報121は、ID301、特徴量302、正解値303、及び予測値304から構成されるエントリを複数格納する。一つのエントリが一つの事例データに対応する。事例データは、複数の特徴量及び正解値から構成される。
ID301は、事例データの識別情報を格納するフィールドである。実施例1のID301には番号が格納される。
特徴量302は、事例データを構成する項目の値である特徴量を格納するフィールド群である。項目は、例えば、性別、年齢、心拍、及び預金額等である。性別に対応する項目のフィールドには「男」及び「女」のいずれかが特徴量として格納され、年齢に対応する項目のフィールドには数値が特徴量として格納される。
正解値303は、事例データを構成する正解値を格納するフィールドである。正解値303に格納される値は予め与えられている。予測値304は、予測器110が特徴量302から算出した正解値303に対する予測値を格納するフィールドである。本実施例では予測値304に格納された値は予め与えられているものとするが、予測値304の値が予め与えられていない場合、予測器110に特徴量302の値を入力して算出された値を予測値304に設定してもよい。
本発明では、予測器110は実用上十分な精度で特徴量302から正解値303に対する予測値304を算出できるものとし、正解値303に対する各項目の寄与度は、予測値304に対する寄与度で、十分近似できるものとする。
本実施例では例として、1つの数値からなる正解値に対し、1つの数値からなる予測値を算出する回帰問題を説明しているが、本発明はこれに限定されない。例えば、1つのラベルからなる正解値に対し、解候補である複数のラベルの確率値を算出する識別問題であっても、容易に拡張できる。
図4は、実施例1の根拠ベクトル管理情報122のデータ構造の一例を示す図である。
根拠ベクトル管理情報122は、ID401、寄与度402、正解値403、及び予測値404から構成されるエントリを複数格納する。一つのエントリが一つの事例データの根拠ベクトルに対応する。ID401、正解値403及び予測値404は、ID301、正解値303及び予測値304と同一のフィールドである。
寄与度402は、予測値に対する各項目の特徴量の寄与の大きさを表す寄与度を格納するフィールド群である。実施例1では、寄与度402に含まれる各フィールドの値を成分とするベクトルが根拠ベクトルとして扱われる。
図5は、実施例1の計算機システムの処理の流れを示す図である。
図中の矢印はデータの流れを示す。実線は、事例データの根拠ベクトルを生成するための処理におけるデータの流れを示す。一点鎖線は、評価対象データの予測値及び解釈情報を出力するための処理におけるデータの流れを示す。
まず、事例データの根拠ベクトルを算出するための処理の流れについて説明する。
操作受付部は、端末101から予測器110の生成要求を受け付けた場合、計算機100−2に予測器110の生成指示を出力する。また、操作受付部は、端末101から事例データの根拠ベクトルの生成要求を受け付けた場合、計算機100−3に事例データの根拠ベクトルの算出指示を出力する。
計算機100−2は、予測器110の生成指示を受信した場合、予測器設計情報120から予測器110を生成する。なお、すでに、予測器110が生成されている場合、当該処理は省略できる。
計算機100−3の根拠ベクトル算出部111は、事例データの根拠ベクトルの生成指示を受信した場合、事例データ管理情報121に格納される各事例データの根拠ベクトルを算出する。根拠ベクトル算出部111は、算出された事例データの根拠ベクトルを根拠ベクトル管理情報122に登録する。
次に、評価対象データの予測値及び解釈情報を出力するための処理の流れについて説明する。
操作受付部は、端末101から評価対象データを含む予測要求を受け付けた場合、計算機100−2に評価対象データの予測指示を出力し、また、計算機100−3に事例データの選択指示を出力する。
計算機100−2の予測器110は、評価対象データの予測指示を受信した場合、評価対象データに対する予測を行い、評価対象データ及び予測値を根拠ベクトル算出部111に出力する。
計算機100−3の根拠ベクトル算出部111は、事例データの選択指示を受信した場合、予測器110から入力された評価対象データ及び予測値に基づいて、評価対象データの根拠ベクトルを算出する。根拠ベクトル算出部111は、評価対象データの根拠ベクトル及び予測値の組を事例抽出部112に出力する。
計算機100−3の事例抽出部112は、評価対象データの根拠ベクトル及び事例データの根拠ベクトルを用いて算出される選択指標に基づいて事例データを選択する。事例抽出部112は、評価対象データの根拠ベクトル及び予測値の組と、選択された事例データに関する情報とを結果出力部113に出力する。選択された事例データに関する情報は、例えば、事例データの根拠ベクトルを含む。
計算機100−3の結果出力部113は、事例抽出部112から入力された情報を表示するための表示情報を生成する。結果出力部113は、当該表示情報を操作受付部に出力する。操作受付部は、表示情報を端末101に送信する。
根拠ベクトルは、予測器110が評価対象データに対して行った予測の根拠を解釈するための指標である。そのため、根拠ベクトルに基づいて算出される選択指標は、予測器110のモデルの特性を反映した指標として扱うことができる。したがって、選択指標に基づいて選択された事例データは、予測器110の予測において評価対象データと任意の関係性を有する事例データである。このように、選択指標に基づいて選択された事例データは、評価対象データ及び事例データの間の関係性に基づいて選択された事例データとは異なった観点(指標)に基づいて選択されたデータであるため、評価対象データの予測値を解釈するための情報として有用であると考えられる。
例えば、評価対象データの根拠ベクトルと類似する根拠ベクトルに対応する事例データは、評価対象データの予測値と類似した予測値である可能性がある。また、評価対象データの根拠ベクトルと対照的な特徴の根拠ベクトルに対応する事例データは、評価対象データの予測値と異なる予測値である可能性がある。
このように、評価対象データの予測値とともに、前述のような事例データを参照することによって、ユーザは、一定の納得感をもって評価対象データの予測値を解釈できる。
実施例1では、事例抽出部112は、根拠ベクトル間の類似性を示す選択指標に基づいて事例データを選択するものとする。根拠ベクトル間の相違を示す選択指標に基づいて事例データを選択する処理については、実施例2で説明する。
次に、具体的な処理の内容について説明する。まず、事例データの根拠ベクトルを生成するための処理について説明する。
図6は、実施例1の根拠ベクトル算出部111が実行する根拠ベクトル管理情報122の生成処理の一例を説明するフローチャートである。
根拠ベクトル算出部111は、変数Jに初期値「1」を設定する(ステップS101)。変数Jは、事例データの識別番号を表す変数である。このとき、根拠ベクトル算出部111は、事例データ管理情報121に登録されている事例データの数をJmaxと設定する。
次に、根拠ベクトル算出部111は、事例データ管理情報121からID301が変数Jの値に一致する事例データ(エントリ)を取得する(ステップS102)。
次に、根拠ベクトル算出部111は、取得した事例データを用いて根拠ベクトル算出処理を実行する(ステップS103)。根拠ベクトル算出処理の詳細は図7を用いて説明する。根拠ベクトル算出処理を実行することによって、事例データの根拠ベクトルが算出される。
次に、根拠ベクトル算出部111は、根拠ベクトル管理情報122を更新する(ステップS104)。
具体的には、根拠ベクトル算出部111は、根拠ベクトル管理情報122にエントリを追加し、追加されたエントリのID401に変数Jの値を設定し、正解値403に正解値303の値を設定し、また予測値404に予測値304の値を設定する。根拠ベクトル算出部111は、追加されたエントリの寄与度402の各フィールドに、各項目の寄与度を設定する。
次に、根拠ベクトル算出部111は、変数Jの値がJmaxに一致するか否かを判定する(ステップS105)。すなわち、事例データ管理情報121に登録されている全ての事例データについて根拠ベクトルが生成されたか否かが判定される。
変数Jの値がJmaxに一致しないと判定された場合、根拠ベクトル算出部111は、変数Jの値に1を加算した値を変数Jに設定する(ステップS106)。その後、根拠ベクトル算出部111は、ステップS102に戻り、同様の処理を実行する。
変数Jの値がJmaxに一致すると判定された場合、根拠ベクトル算出部111は処理を終了する。
図7は、実施例1の根拠ベクトル算出部111が実行する根拠ベクトルの算出処理の一例を説明するフローチャートである。
根拠ベクトル算出部111は、評価対象データ及び事例データのそれぞれに対して、以下の処理を実行する。以下の説明では、評価対象データ及び事例データを区別しない場合、ターゲットデータと記載する。
根拠ベクトル算出部111は、変数Kに初期値「1」を設定する(ステップS201)。変数Kは、生成する摂動データの数を表す変数である。実施例1では、Kmax個の摂動データが生成されるものとする。
ここで、摂動データは、ターゲットデータの一部の項目の特徴量を変化させたデータである。なお、変化量は小さいものとする。
次に、根拠ベクトル算出部111は、ターゲットデータの摂動データを生成し、予測器110に出力する(ステップS202)。根拠ベクトル算出部111は、予測器110から摂動データの予測値が出力されるまで待ち状態となる。
根拠ベクトル算出部111は、予測器110から摂動データの予測値を取得した場合(ステップS203)、主記憶装置202の記憶領域に摂動データ及び予測値の組を格納する(ステップS204)。
次に、根拠ベクトル算出部111は、変数Kの値がKmaxと一致するか否かを判定する(ステップS205)。
変数Kの値がKmaxと一致しないと判定された場合、根拠ベクトル算出部111は、変数Kの値に1を加算した値を変数Kに設定する(ステップS206)。その後、根拠ベクトル算出部111は、ステップS202に戻り、同様の処理を実行する。
変数Kの値がKmaxと一致すると判定された場合、根拠ベクトル算出部111は、ターゲットデータの予測値に対する各項目の特徴量の寄与度C_kを算出する(ステップS207)。ここで、C_kは、ターゲットデータの予測値に対するk番目の項目の特徴量の寄与度を表す。
なお、寄与度の算出方法は、非特許文献1及び非特許文献2に記載されているため詳細な説明は省略するが、例えば、以下のような処理に基づいて寄与度が算出される。根拠ベクトル算出部111は、摂動データ及び予測値の組を用いて、重回帰分析等の統計分析を実行することによって、ターゲットデータの予測値に対する各項目の特徴量の寄与度を算出する。
次に、根拠ベクトル算出部111は、各項目の特徴量の寄与度を成分とする、ターゲットデータの根拠ベクトルを算出する(ステップS208)。
次に、評価対象データの予測値及び解釈情報を出力するための処理について説明する。
図8は、実施例1の根拠ベクトル算出部111が実行する評価対象データの根拠ベクトルの生成処理の一例を説明するフローチャートである。
根拠ベクトル算出部111は、予測器110から評価対象データ及び予測値を取得する(ステップS301)。
根拠ベクトル算出部111は、評価対象データ及び予測値を用いて根拠ベクトル算出処理を実行する(ステップS302)。根拠ベクトル算出処理は図7で示した処理と同一である。根拠ベクトル算出処理を実行することによって、評価対象データの根拠ベクトルが算出される。根拠ベクトル算出部111は、評価対象データの根拠ベクトルを事例抽出部112に出力する。
図9は、実施例1の事例抽出部112が実行する事例データ選択処理の一例を説明するフローチャートである。
事例抽出部112は、根拠ベクトル算出部111から評価対象データの根拠ベクトルを取得する(ステップS401)。
次に、事例抽出部112は、変数Jに初期値「1」を設定する(ステップS402)。変数Jは、事例データの識別番号を表す変数である。このとき、事例抽出部112は、事例データ管理情報121に登録されている事例データの数をJmaxと設定する。
次に、事例抽出部112は、根拠ベクトル管理情報122からID401が変数Jの値に一致する事例データの根拠ベクトル(エントリ)を取得する(ステップS403)。
次に、事例抽出部112は、評価対象データの根拠ベクトル及び事例データの根拠ベクトルの類似度を算出する(ステップS404)。例えば、事例抽出部112は、二つの根拠ベクトルのコサイン類似度を算出する。なお、本発明は類似度の算出方法に限定されない。
次に、事例抽出部112は、変数Jの値がJmaxに一致するか否かを判定する(ステップS405)。すなわち、事例データ管理情報121に登録されている全ての事例データについて類似度が算出されたか否かが判定される。
変数Jの値がJmaxに一致しないと判定された場合、事例抽出部112は、変数Jの値に1を加算した値を変数Jに設定する(ステップS406)。その後、事例抽出部112は、ステップS402に戻り、同様の処理を実行する。
変数Jの値がJmaxに一致すると判定された場合、事例抽出部112は、類似度に基づいて事例データを選択する(ステップS407)。その後、事例抽出部112は、処理を終了する。
例えば、事例抽出部112は、類似度が最も大きい事例データ、又は、類似度が閾値より大きい事例データを選択する。また、事例抽出部112は、類似度が大きい順に所定の数の事例データを選択する。なお、本発明は、類似度に基づく事例データの選択方法に限定されない。
図10は、実施例1の端末101に表示される分析画面の一例を説明する図である。
分析画面1000は、操作受付部によって提供される画面であり、端末101に表示される。分析画面1000は、データ設定欄1001及び出力欄1002から構成される。
データ設定欄1001は、第一データ設定欄1011、第二データ設定欄1012、第三データ設定欄1013、及び実行ボタン1014を含む。
第一データ設定欄1011は、評価対象データを指定するための欄である。第二データ設定欄1012は、予測器設計情報120を指定する欄である。第三データ設定欄1013は、事例データ管理情報121を指定する欄である。実行ボタン1014は、評価対象データの予測値の出力及び事例データの提示を指示するための操作ボタンである。
出力欄1002は、評価対象データの予測値及び解釈情報を表示する欄である。出力欄1002には、種別1021、値1022、及び根拠ベクトル1023から構成される表示データ1031、1032、1033が表示される。
種別1021は、データの識別情報を表示する欄である。値1022は、評価対象データ(表示データ1031)については予測値を表示し、事例データ(表示データ1032、1033)については正解値又は予測値を表示する欄である。根拠ベクトル1023は、根拠ベクトルを表示する欄である。根拠ベクトル1023には、各項目の寄与度を示すグラフが表示される。なお、各項目の名称及び各項目の寄与度の値が表示されてもよい。
表示データ1031は、評価対象データに関する情報の表示データである。表示データ1032、1033は、事例抽出部112によって選択された事例データの表示データである。
ここで、分析画面1000の操作例について説明する。まず、ユーザは、データ設定欄1001の各欄1011、1012、1013に値を設定する。次に、ユーザは、実行ボタン1014を操作する。端末101は、ユーザの操作を受け付けた場合、操作受付部に、データ設定欄1001に設定された値を含む処理の実行要求を送信する。
操作受付部は、当該操作を受け付けた場合、計算機100−2、100−3に、図6から図9に示す処理の実行を指示する。
上記の操作では、事例データの根拠ベクトルの算出処理、評価対象データの予測値の出力処理、及び事例データの選択処理が一連の処理として実行される。別の形態としては、事例データの根拠ベクトルを算出処理と、評価対象データの予測値の出力処理及び事例データの選択処理とを別々に実行してもよい。この場合、第一データ設定欄1011、第二データ設定欄1012、及び実行ボタンから構成されるデータ設定欄と、第三データ設定欄1013及び実行ボタンから構成されるデータ設定欄とに分ければよい。
実施例1によれば、計算機システムは、評価対象データの予測値とともに、評価対象データの根拠ベクトルと、類似度に基づいて選択された事例データに関する情報とを提示することができる。ユーザは、評価対象データの根拠ベクトルに基づいて、予測器110が重要視した特徴量を把握し、また、事例データに関する情報を参照して一定の納得感をもって評価対象データの予測値を認知できる。
実施例2では、事例データの選択基準が実施例1と異なる。以下、実施例1との差異を中心に実施例2について説明する。
実施例2のシステム構成は実施例1と同一である。実施例2の計算機100のハードウェア構成及びソフトウェア構成は実施例1と同一である。実施例2で扱う情報は実施例1と同一である。また、実施例2の根拠ベクトル算出部111が実行する処理は実施例1と同一である。
実施例2では、事例抽出部112が実行する処理が一部異なる。図11は、実施例2の事例抽出部112が実行する事例データ選択処理の一例を説明するフローチャートである。図12は、実施例2の事例抽出部112が実行する対照度算出処理の一例を説明するフローチャートである。
符号が同一の処理ステップは、実施例1と同一内容の処理であるため、説明を省略する。ステップS403の処理の後、事例抽出部112は、対照度算出処理を実行する(ステップS411)。
対照度は、予測器110の予測において評価対象データと対照的な特徴を有する事例データを特定するための選択指標である。予測器110の予測において評価対象データと対照的な特徴とは、予測器110が最も重要視した特徴量の寄与が小さい根拠ベクトルであることを示す。ここで、図12を用いて対照度の算出方法について説明する。
事例抽出部112は、評価対象データの根拠ベクトルの各成分の絶対値を算出し、当該絶対値が最も大きい成分を特定する(ステップS501)。以下の説明では、特定された成分を最大成分とも記載する。
次に、事例抽出部112は、対照根拠ベクトルを算出する(ステップS502)。
具体的には、事例抽出部112は、評価対象データの根拠ベクトルの最大成分を0に設定する。最大成分を除いた成分についてはそのままの値とする。このようにして最大成分のみが異なる対照的な事例の条件を指定することができる。以上の操作によって算出されたベクトルが対照根拠ベクトルとなる。
本実施例では最大成分を0に設定する算出方法を説明したが、他の算出方法のバリエーションについても容易に応用できる。例えば、最大値以外に上位2つの成分について前述の処理を行う算出方法、又は最大成分の符号の反転する算出方法が考えられる。
次に、事例抽出部112は、対照根拠ベクトル及び事例データの根拠ベクトルの類似度を対照度として算出する(ステップS503)。なお、本発明は類似度の算出方法に限定されない。
図11の説明に戻る。ステップS405の判定結果がYESである場合、事例抽出部112は、対照度に基づいて事例データを選択する(ステップS412)。その後、事例抽出部112は、処理を終了する。
例えば、事例抽出部112は、対照度が最も大きい事例データ、又は、対照度が閾値より大きい事例データを選択する。また、事例抽出部112は、対照度が大きい順に所定の数の事例データを選択する。なお、本発明は、対照度に基づく事例データの選択方法に限定されない。
実施例2によれば、評価対象データの根拠ベクトルの特徴を有さない根拠ベクトルに対応する事例データを提示することによって、ユーザは、予測器110の予測根拠を一定の納得感をもって認知することができる。
実施例3では、計算機100が、評価対象データの根拠ベクトル及び選択された事例データを用いた分析処理を実行する。以下、実施例1との差異を中心に実施例3について説明する。
図13は、実施例3の計算機システムの構成例を示す図である。図14は、実施例3の説明データ管理情報123のデータ構造の一例を示す図である。
実施例3のシステム構成は実施例1と同一である。実施例3の計算機100のハードウェア構成は実施例1と同一である。実施例3の計算機100−1、100−2のソフトウェア構成は実施例1と同一である。実施例3では、図13に示すように、計算機100−3のソフトウェア構成が異なる。
実施例3の計算機100−3は、説明データ管理情報123を保持する。ここで、図14を用いて説明データ管理情報123について説明する。
説明データ管理情報123は、ID1401、特徴量1402、予測値1403、寄与度1404、及び事例ID1405から構成されるエントリを格納する。一つのエントリが一つの説明データに対応する。後述するように一つの評価対象データに対して一つの説明データが生成される。
ID1401は、評価対象データの識別情報を格納するフィールドである。特徴量1402は、評価対象データの各項目の特徴量を格納するフィールド群である。予測値1403は、特徴量を予測器110に入力することによって得られた予測値を格納するフィールドである。寄与度1404は、評価対象データの各項目の特徴量の予測値1403に対する寄与度を格納するフィールド群である。事例ID1405は、事例データ選択処理によって選択された事例データの識別情報を格納するフィールドである。
実施例3の予測器設計情報120、事例データ管理情報121、及び根拠ベクトル管理情報122のデータ構造は実施例1と同一である。また、実施例3の根拠ベクトル算出部111が実行する処理は実施例1と同一である。
ただし、実施例3では、複数の評価対象データが入力されるため、予測器110は、複数の評価対象データの各々の予測値を出力し、また、根拠ベクトル算出部111は、複数の評価対象データの各々の根拠ベクトルを算出する。このとき、根拠ベクトル算出部111は、評価対象データの識別情報が対応づけられた根拠ベクトルを記憶領域に一時的に格納する。
実施例3では、事例抽出部112が実行する処理が異なる。
図15は、実施例3の事例抽出部112が実行する説明データ管理情報123の生成処理の一例を説明するフローチャートである。
事例抽出部112は、説明データ管理情報123の生成指示を受け付けた場合、以下で説明する処理を開始する。説明データ管理情報123の生成指示には、複数の評価対象データが含まれる。
事例抽出部112は、変数Lに初期値「1」を設定する(ステップS601)。変数Lは、評価対象データの識別番号を表す変数である。このとき、事例抽出部112は、評価対象データの数をLmaxと設定する。
次に、事例抽出部112は、変数Lに対応する評価対象データの根拠ベクトルを記憶領域から取得する(ステップS602)。
次に、事例抽出部112は、変数Lに対応する評価対象データに対して事例データ選択処理を実行する(ステップS603)。事例データ選択処理は、図9及び図11のいずれを適用してもよい。
次に、事例抽出部112は、変数Lに対応する評価対象データの説明データを生成する(ステップS604)。
具体的には、事例抽出部112は、評価対象データの識別情報、評価対象データの特徴量、評価対象データの予測値、評価対象データの特徴量の寄与度、及び選択された事例データの識別情報を結合することによって、説明データを生成する。また、事例抽出部112は、説明データ管理情報123にエントリを追加し、追加されたエントリに生成された説明データを登録する。
次に、事例抽出部112は、変数Lの値がLmaxに一致するか否かを判定する(ステップS605)。すなわち、全ての評価対象データについて処理が完了したか否かが判定される。
変数Lの値がLmaxに一致しないと判定された場合、事例抽出部112は、変数Lの値に1を加算した値を変数Lに設定する(ステップS606)。その後、事例抽出部112は、ステップS602に戻り、同様の処理を実行する。
変数Lの値がLmaxに一致すると判定された場合、事例抽出部112は、処理を終了する。このとき、事例抽出部112は、操作受付部を介して、説明データ管理情報123が生成された旨を端末101に通知する。
図16は、実施例3の事例抽出部112が実行する分析処理の一例を説明するフローチャートである。
事例抽出部112は、分析処理の実行指示を受け付けた場合、以下で説明する処理を開始する。分析処理の実行指示には、説明データのフィルタリングの設定情報が含まれる。なお、説明データを絞り込む必要がない場合、分析処理の実行指示に、説明データのフィルタリングの設定情報が含まれていなくてもよい。
まず、事例抽出部112は、説明データを選択する(ステップS701)。フィルタリングの設定情報に基づくデータの選択方法は公知の技術であるため、詳細な説明は省略する。
次に、事例抽出部112は、選択された説明データを用いた分析処理を実行する(ステップS702)。実施例3では、以下の分析処理が実行される。
(特徴量の傾向の分析処理)事例抽出部112は、評価対象データの予測値において重要視された項目の特徴量の傾向を分析する。具体的には、事例抽出部112は、寄与度1404の値が大きい成分の特徴量の分布を分析する。事例抽出部112は、分析結果をランキング形式のデータとして出力する。
(事例データの引用傾向の分析処理)事例抽出部112は、事例データ選択処理によって選択された事例データを集計する。具体的には、事例抽出部112は、選択された説明データの事例ID1405に基づいて、事例データの選択回数を引用回数として算出する。また、事例抽出部112は、引用回数に基づいて、事例データの出現割合を引用割合として算出する。
次に、事例抽出部112は、結果出力部113に分析結果を出力し(ステップS703)、処理を終了する。
実施例3の結果出力部113は、分析結果を解釈情報として含む表示情報を端末101に送信する。なお、実施例3の結果出力部113は、評価対象データの予測値を送信しなくてもよい。
図17A、図17B、及び図17Cは、実施例3の端末101に表示される分析画面の一例を説明する図である。
分析画面1700は、操作受付部によって提供される画面であり、端末101に表示される。分析画面1700は、処理で使用するデータを設定するための欄と、分析処理の結果を表示するための欄とから構成される。
まず、図17Aを用いて、処理で使用するデータを設定するための欄について説明する。分析画面1700は、処理で使用するデータを設定するための欄として、データ設定欄1701及びフィルタリング設定欄1702を含む。
データ設定欄1701は、データ設定欄1001と同一の欄である。ただし、実施例3では、実行ボタン1714が操作された場合、端末101は、操作受付部に、説明データ管理情報123の生成要求を送信する。
フィルタリング設定欄1702は、フィルタリングの設定を行うための欄である。フィルタリング設定欄1702は、パラメータ設定欄1721、条件設定欄1722、及び実行ボタン1723を含む。
パラメータ設定欄1721は、選択基準となるパラメータの種別を設定するための欄である。条件設定欄1722は、パラメータの範囲を設定するための欄である。実行ボタン1723は、分析処理の実行を指示するための操作ボタンである。実行ボタン1723が操作された場合、端末101は、操作受付部に、分析処理の実行要求を送信する。
次に、図17B及び図17Cを用いて分析処理の結果を表示するための欄について説明する。分析画面1700は、分析処理の結果を表示するための欄として、特徴量分析欄1703及び事例データ分析欄1704を含む。
特徴量分析欄1703は、特徴量の傾向の分析処理の結果を表示する欄であり、特徴量分析情報1730を含む。特徴量分析情報1730は、項目名1731及びランキング1732から構成されるエントリを含む。一つのエントリが、評価対象データの成分に対応する。
項目名1731は、評価対象データの項目の識別情報を格納するフィールドである。
ランキング1732は、項目名1731に対応する項目に設定された特徴量のランキングを表示する欄であり、「1位」、「2位」、「3位」、及び「その他」のフィールドを含む。
「1位」、「2位」、及び「3位」のフィールドには、特徴量及び当該特徴量が設定されている評価対象データの割合の組が格納される。「その他」のフィールドには、「1位」、「2位」、及び「3位」のフィールドに格納された特徴量以外の特徴量が設定されている評価対象データの割合が格納される。
なお、図17Cでは、説明のために、特徴量分析情報1730の詳細を省略している。
事例データ分析欄1704は、事例データの引用傾向の分析処理の結果を表示する欄である。図17Bは、フィルタリングを行った場合の表示例を示す。図17Cは、フィルタリングを行っていない場合の表示例を示す。
図17Bの事例データ分析欄1704は、事例分析情報1740を含む。事例分析情報1740は、順位1741、事例ID1742、回数1743、及び割合1744から構成されるエントリを格納する。一つのエントリが一つ事例データに対応する。なお、事例分析情報1740に格納されるエントリは、引用回数の大きい順にソートされている。
順位1741は、引用回数に基づく順位を格納するフィールドである。事例ID1742は、事例データの識別情報を格納するフィールドである。回数1743は、事例データ選択処理において、事例ID1742に対応する事例データが選択された回数を格納するフィールドである。割合1744は、各事例データの選択回数の合計値に対する、事例データの選択回数の割合を格納するフィールドである。
ユーザが、事例分析情報1740のエントリを選択した場合、選択されたエントリに対応する事例データの根拠ベクトル等がバルーン表示1750として表示される。
図17Cの事例データ分析欄1704は、事例分析情報1740を表示する。事例分析情報1740は、順位1741、事例ID1742、回数1743、割合1744、グラフ1745、及び累積割合1746から構成されるエントリを格納する。一つのエントリが一つ事例データに対応する。なお、事例分析情報1740に格納されるエントリは、引用回数の大きい順にソートされている。
グラフ1745は、割合1744を視覚的に表示するためのグラフを表示するフィールドである。累積割合1746は、割合1744の累積値を格納するフィールドである。例えば、順位1741が「j」のエントリの累積割合1746には、順位1741が「1」から「j−1」までの各エントリの割合1744の合計値が格納される。
実施例3によれば、複数の評価対象データの各々の予測値の根拠ベクトルに基づく分析の結果を表示することによって、ユーザは、統計的な観点から有用な事例データを把握でき、また、予測器110の予測において重要な特徴量の傾向を把握することができる。
なお、本発明は上記した実施例に限定されるものではなく、様々な変形例が含まれる。また、例えば、上記した実施例は本発明を分かりやすく説明するために構成を詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、各実施例の構成の一部について、他の構成に追加、削除、置換することが可能である。
また、上記の各構成、機能、処理部、処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、本発明は、実施例の機能を実現するソフトウェアのプログラムコードによっても実現できる。この場合、プログラムコードを記録した記憶媒体をコンピュータに提供し、そのコンピュータが備えるプロセッサが記憶媒体に格納されたプログラムコードを読み出す。この場合、記憶媒体から読み出されたプログラムコード自体が前述した実施例の機能を実現することになり、そのプログラムコード自体、及びそれを記憶した記憶媒体は本発明を構成することになる。このようなプログラムコードを供給するための記憶媒体としては、例えば、フレキシブルディスク、CD−ROM、DVD−ROM、ハードディスク、SSD(Solid State Drive)、光ディスク、光磁気ディスク、CD−R、磁気テープ、不揮発性のメモリカード、ROMなどが用いられる。
また、本実施例に記載の機能を実現するプログラムコードは、例えば、アセンブラ、C/C++、perl、Shell、PHP、Java(登録商標)等の広範囲のプログラム又はスクリプト言語で実装できる。
さらに、実施例の機能を実現するソフトウェアのプログラムコードを、ネットワークを介して配信することによって、それをコンピュータのハードディスクやメモリ等の記憶手段又はCD−RW、CD−R等の記憶媒体に格納し、コンピュータが備えるプロセッサが当該記憶手段や当該記憶媒体に格納されたプログラムコードを読み出して実行するようにしてもよい。
上述の実施例において、制御線や情報線は、説明上必要と考えられるものを示しており、製品上必ずしも全ての制御線や情報線を示しているとは限らない。全ての構成が相互に接続されていてもよい。
100 計算機
101 端末
105 ネットワーク
110 予測器
111 根拠ベクトル算出部
112 事例抽出部
113 結果出力部
120 予測器設計情報
121 事例データ管理情報
122 根拠ベクトル管理情報
123 説明データ管理情報
201 プロセッサ
202 主記憶装置
203 副記憶装置
204 ネットワークインタフェース
1000、1700 分析画面

Claims (12)

  1. 複数の特徴量及び正解値から構成される複数の学習データを用いて生成された予測器を用いて、複数の特徴量から構成される評価対象データの予測値を出力する計算機システムであって、
    プロセッサ、前記プロセッサに接続されるメモリ、及び前記プロセッサに接続されるネットワークインタフェースを有する少なくとも一つの計算機から構成され、
    前記予測器と、
    前記予測器が出力した前記評価対象データの予測値を解釈するための第一解釈指標を算出する指標算出部と、
    ユーザが前記評価対象データの予測値を解釈するために有用な前記学習データを選択するための選択指標を算出し、前記選択指標に基づいて前記学習データを選択する抽出部と、を備え、
    前記学習データに含まれる前記正解値を解釈するための第二解釈指標を管理するための指標管理情報を保持し、
    前記予測器は、前記評価対象データの予測値を出力し、
    前記指標算出部は、前記評価対象データ及び前記評価対象データの予測値に基づいて、前記第一解釈指標を算出し、
    前記抽出部は、
    前記第一解釈指標及び前記第二解釈指標に基づいて、前記選択指標を算出し、
    前記選択指標に基づいて、前記学習データを選択し、
    前記評価対象データの解釈指標及び前記選択された学習データに関する情報を提示するための表示情報を生成し、前記表示情報を出力することを特徴とする計算機システム。
  2. 請求項1に記載の計算機システムであって、
    前記第一解釈指標は、前記評価対象データを構成する前記複数の特徴量の各々の前記予測値に対する寄与度を成分とする根拠ベクトルであり、
    前記第二解釈指標は、前記学習データを構成する前記複数の特徴量の各々の前記正解値に対する寄与度を成分とする根拠ベクトルであることを特徴とする計算機システム。
  3. 請求項2に記載の計算機システムであって、
    前記抽出部は、前記評価対象データの根拠ベクトル及び前記学習データの根拠ベクトルの類似度を前記選択指標として算出することを特徴とする計算機システム。
  4. 請求項2に記載の計算機システムであって、
    前記抽出部は、
    前記評価対象データの根拠ベクトルを用いて、前記評価対象データの根拠ベクトルと対照的な特徴を有する対照根拠ベクトルを算出し、
    前記対照根拠ベクトル及び前記学習データの根拠ベクトルの類似度を前記選択指標として算出することを特徴とする計算機システム。
  5. 請求項3又は請求項4に記載の計算機システムであって、
    前記予測器は、複数の前記評価対象データの各々の前記予測値を出力し、
    前記指標算出部は、前記複数の評価対象データの各々の前記第一解釈指標を算出し、
    前記抽出部は、
    前記複数の評価対象データの各々の前記選択指標を算出し、
    前記評価対象データの選択指標に基づいて、前記複数の評価対象データの各々の前記学習データを選択し、
    前記複数の評価対象データ及び前記選択された学習データを用いて分析処理を実行し、
    前記分析処理の結果を含む前記表示情報を生成することを特徴とする計算機システム。
  6. 請求項5に記載の計算機システムであって、
    前記分析処理の結果は、前記特徴量の傾向に関する情報、及び、前記抽出部によって提示する学習データとして選択された回数に関する情報の少なくともいずれかを含むことを特徴とする計算機システム。
  7. 複数の特徴量及び正解値から構成される複数の学習データを用いて生成された予測器を用いて、複数の特徴量から構成される評価対象データの予測値を出力する計算機システムが実行する前記予測器が出力した予測値の根拠に関連する情報の提示方法であって、
    前記計算機システムは、
    プロセッサ、前記プロセッサに接続されるメモリ、及び前記プロセッサに接続されるネットワークインタフェースを有する少なくとも一つの計算機から構成され、
    前記予測器と、前記予測器が出力した前記評価対象データの予測値を解釈するための第一解釈指標を算出する指標算出部と、ユーザが前記評価対象データの予測値を解釈するために有用な前記学習データを選択するための選択指標を算出し、前記選択指標に基づいて前記学習データを選択する抽出部と、を有し、
    前記学習データに含まれる前記正解値を解釈するための第二解釈指標を管理するための指標管理情報を保持し、
    前記予測器が出力した予測値の根拠に関連する情報の提示方法は、
    前記予測器が、前記評価対象データの予測値を出力する第1のステップと、
    前記指標算出部が、前記評価対象データ及び前記評価対象データの予測値に基づいて、前記第一解釈指標を算出する第2のステップと、
    前記抽出部が、前記第一解釈指標及び前記第二解釈指標に基づいて、前記選択指標を算出する第3のステップと、
    前記抽出部が、前記選択指標に基づいて、前記学習データを選択する第4のステップと、
    前記抽出部が、前記評価対象データの解釈指標及び前記選択された学習データに関する情報を提示するための表示情報を生成し、前記表示情報を出力する第5のステップと、を含むことを特徴とする予測器が出力した予測値の根拠に関連する情報の提示方法。
  8. 請求項7に記載の予測器が出力した予測値の根拠に関連する情報の提示方法であって、
    前記第一解釈指標は、前記評価対象データを構成する前記複数の特徴量の各々の前記予測値に対する寄与度を成分とする根拠ベクトルであり、
    前記第二解釈指標は、前記学習データを構成する前記複数の特徴量の各々の前記正解値に対する寄与度を成分とする根拠ベクトルであることを特徴とする予測器が出力した予測値の根拠に関連する情報の提示方法。
  9. 請求項8に記載の予測器が出力した予測値の根拠に関連する情報の提示方法であって、
    前記第3のステップは、前記抽出部が、前記評価対象データの根拠ベクトル及び前記学習データの根拠ベクトルの類似度を前記選択指標として算出するステップを含むことを特徴とする予測器が出力した予測値の根拠に関連する情報の提示方法。
  10. 請求項8に記載の予測器が出力した予測値の根拠に関連する情報の提示方法であって、
    前記第3のステップは、
    前記抽出部が、前記評価対象データの根拠ベクトルを用いて、前記評価対象データの根拠ベクトルと対照的な特徴を有する対照根拠ベクトルを算出するステップと、
    前記抽出部が、前記対照根拠ベクトル及び前記学習データの根拠ベクトルの類似度を前記選択指標として算出するステップと、を含むことを特徴とする予測器が出力した予測値の根拠に関連する情報の提示方法。
  11. 請求項9又は請求項10に記載の予測器が出力した予測値の根拠に関連する情報の提示方法であって、
    前記第1のステップは、前記予測器が、複数の前記評価対象データの各々の前記予測値を出力するステップを含み、
    前記第2のステップは、前記指標算出部が、前記複数の評価対象データの各々の前記第一解釈指標を算出するステップを含み、
    前記第3のステップは、前記抽出部が、前記複数の評価対象データの各々の前記選択指標を算出するステップを含み、
    前記第4のステップは、前記抽出部が、前記評価対象データの選択指標に基づいて、前記複数の評価対象データの各々の前記学習データを選択するステップを含み、
    前記第5のステップは、
    前記抽出部が、前記複数の評価対象データ及び前記選択された学習データを用いて分析処理を実行するステップと、
    前記抽出部が、前記分析処理の結果を含む前記表示情報を生成するステップを、を含むことを特徴とする予測器が出力した予測値の根拠に関連する情報の提示方法。
  12. 請求項11に記載の予測器が出力した予測値の根拠に関連する情報の提示方法であって、
    前記分析処理の結果は、前記特徴量の傾向に関する情報、及び、前記抽出部によって提示する学習データとして選択された回数に関する情報の少なくともいずれかを含むことを特徴とする予測器が出力した予測値の根拠に関連する情報の提示方法。
JP2018141375A 2018-07-27 2018-07-27 計算機システム及び予測器が出力した予測値の根拠に関連する情報の提示方法 Active JP6975692B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2018141375A JP6975692B2 (ja) 2018-07-27 2018-07-27 計算機システム及び予測器が出力した予測値の根拠に関連する情報の提示方法
US16/504,897 US11551818B2 (en) 2018-07-27 2019-07-08 Computer system and method of presenting information related to basis of predicted value output by predictor
EP19188123.4A EP3599617A1 (en) 2018-07-27 2019-07-24 Computer system and method of presenting information related to basis of predicted value output by predictor, data carrier

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018141375A JP6975692B2 (ja) 2018-07-27 2018-07-27 計算機システム及び予測器が出力した予測値の根拠に関連する情報の提示方法

Publications (2)

Publication Number Publication Date
JP2020017197A JP2020017197A (ja) 2020-01-30
JP6975692B2 true JP6975692B2 (ja) 2021-12-01

Family

ID=67438736

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018141375A Active JP6975692B2 (ja) 2018-07-27 2018-07-27 計算機システム及び予測器が出力した予測値の根拠に関連する情報の提示方法

Country Status (3)

Country Link
US (1) US11551818B2 (ja)
EP (1) EP3599617A1 (ja)
JP (1) JP6975692B2 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7242585B2 (ja) * 2020-01-31 2023-03-20 株式会社日立製作所 リコメンデーションシステムおよびリコメンデーション方法
JP7256766B2 (ja) * 2020-03-04 2023-04-12 株式会社日立製作所 推測根拠分析装置及び推測根拠分析方法
CN111523677B (zh) * 2020-04-17 2024-02-09 第四范式(北京)技术有限公司 实现对机器学习模型的预测结果进行解释的方法及装置
WO2021257395A1 (en) * 2020-06-16 2021-12-23 DataRobot, Inc. Systems and methods for machine learning model interpretation
JP7402140B2 (ja) * 2020-09-23 2023-12-20 株式会社日立製作所 登録装置、登録方法、および登録プログラム
JP2024516330A (ja) * 2022-02-15 2024-04-12 三菱電機株式会社 類似寄与検出方法及び類似寄与検出システム
CN116542401B (zh) * 2023-07-05 2023-09-19 江南大学附属医院 一种住院诊疗服务单元的医保超支预测方法与系统

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3650304B2 (ja) * 2000-02-29 2005-05-18 株式会社日立製作所 需要予測装置
US6988090B2 (en) * 2000-10-25 2006-01-17 Fujitsu Limited Prediction analysis apparatus and program storage medium therefor
GB2545083B (en) * 2014-04-17 2020-09-09 Lockheed Corp Prognostics and health management system
JP6347755B2 (ja) 2015-02-27 2018-06-27 富士フイルム株式会社 診療支援装置、診療支援装置の作動方法及び作動プログラム、診療支援システム
US11144825B2 (en) 2016-12-01 2021-10-12 University Of Southern California Interpretable deep learning framework for mining and predictive modeling of health care data
US10510022B1 (en) * 2018-12-03 2019-12-17 Sas Institute Inc. Machine learning model feature contribution analytic system

Also Published As

Publication number Publication date
EP3599617A1 (en) 2020-01-29
US20200034738A1 (en) 2020-01-30
JP2020017197A (ja) 2020-01-30
US11551818B2 (en) 2023-01-10

Similar Documents

Publication Publication Date Title
JP6975692B2 (ja) 計算機システム及び予測器が出力した予測値の根拠に関連する情報の提示方法
JP6893480B2 (ja) 分析装置および分析方法
US10073827B2 (en) Method and system to generate a process flow diagram
JP7125358B2 (ja) 計算機システム及び入力データに対する予測結果の根拠に関する情報の提示方法
JP4890806B2 (ja) 予測プログラムおよび予測装置
JP7057761B2 (ja) 計算機システム及び情報の提示方法
JP7051724B2 (ja) 計算機システム及び対象に関する目的を達成するために有用な情報の提示方法
Wang et al. A recommender mechanism based on case-based reasoning
JP7145059B2 (ja) モデルの予測根拠提示システム及びモデルの予測根拠提示方法
CN108604332A (zh) 用于生成预测的系统和方法
US20150347926A1 (en) Fast Naive Bayesian Framework with Active-Feature Ordering
Chourasia et al. Reads2vec: Efficient embedding of raw high-throughput sequencing reads data
JP2020042645A (ja) 時系列データ分析装置、時系列データ分析方法、および時系列データ分析プログラム
JP7141371B2 (ja) 学習データの精練方法及び計算機システム
Xavier et al. Natural language processing for imaging protocol assignment: machine learning for multiclass classification of abdominal CT protocols using indication text data
JP6422512B2 (ja) 計算機システム及びグラフィカルモデルの管理方法
Sharma et al. Big Data Analytics in Health Care: A Literature Survey.
US11238955B2 (en) Single sample genetic classification via tensor motifs
JP2018180711A (ja) テストケースを選択する計算機及びテストケースの選択方法
Alhashem et al. Diabetes Detection and Forecasting using Machine Learning Approaches: Current State-of-the-art
JP2021105807A (ja) 計算機システム及び業務システムの運用環境の解析方法
US20220359082A1 (en) Health state prediction system including ensemble prediction model and operation method thereof
Kamal et al. Improving resource allocation in the precision medicine Era: a simulation-based approach using R
US20220415506A1 (en) Learning apparatus, estimation apparatus, learning method, estimation method and program
EP3547167A1 (en) Information retrieval

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20201105

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20211013

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20211019

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20211108

R150 Certificate of patent or registration of utility model

Ref document number: 6975692

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150