JP7145059B2

JP7145059B2 - モデルの予測根拠提示システム及びモデルの予測根拠提示方法

Info

Publication number: JP7145059B2
Application number: JP2018231752A
Authority: JP
Inventors: 大輔田代; 剛田中; 聡渡辺
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2018-12-11
Filing date: 2018-12-11
Publication date: 2022-09-30
Anticipated expiration: 2038-12-11
Also published as: JP2020095398A

Description

本発明は、機械学習によって生成されたモデルを用いた予測の根拠を説明するための技術に関する。

学習データを用いた機械学習によって、目的変数及び説明変数の関係を数理的に表現するモデルを生成し、当該モデルを用いて未知の対象の説明変数の値から目的変数の値を予測する技術は、様々な分野で広く用いられている。

例えば、融資審査において、融資の申込者の貸倒れのリスクを予測する場合に、前述の技術が利用されている。この場合、融資の申込者の年齢及び年収等を説明変数とし、貸倒れのリスクを目的変数とするモデルが用いられる。モデルは、過去の融資実績データを用いた機械学習によって生成される。

近年の機械学習技術の高度化によって、生成されるモデルは複雑な構造となっている。このようなモデルのブラックボックス化によって、モデルが出力する予測結果の根拠の解釈及び説明が困難となっている。例えば、融資審査において、モデルが貸倒れのリスクがあると予測した根拠を説明できないという問題が生じる。

前述の問題に対して、非特許文献１には、モデルに入力されたデータに含まれる各説明変数の値が予測結果に与えた影響を示す影響度（重要度）を予測結果の根拠を示す情報として算出する方法が記載されている。

しかし、一つの特徴（予測結果の要因）に関連する説明変数が複数ある場合、多重共線性の問題により、予測結果に対する一つの特徴の影響は、関連する複数の説明変数の影響度として出力される。そのため、説明変数の影響度の比較だけでは、予測根拠の解釈及び説明が困難となる。

特許文献１には、目的時系列データに影響する説明時系列データを特定する場合、類似性に基づいて説明時系列データをグループ化し、グループの代表時系列データを用いて分析を行うことにより、多重共線性の問題を解決する方法が記載されている。

国際公開第２０１８／０９６６８３号

LUNDBERG, Scott M.; LEE, Su-In. A unified approach to interpreting model predictions. In: Advances in Neural Information Processing Systems. 2017. p. 4768-4777.

しかし、特許文献１に記載の方法では、独立でない説明変数のグループが存在する場合、当該グループがモデル内でどのように使われているかを把握できない。そのため、独立でないという理由でいずれかの説明変数を除いた場合、モデルの予測精度が低下する可能性がある。

また、予測根拠の解釈及び説明を容易に行うために、独立した説明変数を用いた新たなモデルを生成することも考えられる。しかし、外部から提供されたモデルを用いている場合、又は、新たなモデルの生成に要するコストが高い場合、当該方法は採用できない。

本発明は、独立でない説明変数を含む入力データをモデルに入力することによって得られた予測結果に対して、理解が容易な予測根拠を提示するシステム及び方法を提供する。

本願において開示される発明の代表的な一例を示せば以下の通りである。すなわち、複数の説明変数の値から構成される入力データを入力することによって、任意の事象の予測を行うモデルの予測根拠提示システムであって、プロセッサ及び前記プロセッサに接続されるメモリを有する少なくとも一つの計算機を備え、前記モデルに基づく演算処理によって出力された予測結果に対して、前記入力データを構成する前記複数の説明変数の値の影響を示す影響度を算出し、前記複数の説明変数の影響度から構成される予測根拠データを生成する予測根拠出力部と、集約可能な説明変数を特定する集約変数決定部と、前記予測根拠データを表示するための表示情報を出力する結果出力部と、前記入力データの履歴及び前記予測根拠データの履歴を格納する記憶部と、を備え、前記集約変数決定部は、複数の前記入力データの履歴及び複数の前記予測根拠データの履歴を用いて、前記説明変数の値間の関連性を分析する第１の分析処理、及び前記説明変数の影響度間の関連性を分析する第２の分析処理を実行し、前記第１の分析処理及び前記第２の分析処理の結果に基づいて、前記集約可能な説明変数を特定し、前記結果出力部は、前記集約可能な説明変数からグループを生成し、前記グループに含まれる前記複数の説明変数の影響度から集約影響度を算出し、前記予測根拠データを、集約されていない説明変数の影響度及び前記グループの集約影響度を対応づけたデータから構成される集約予測根拠データに変換し、前記集約予測根拠データに基づいて前記表示情報を生成する。

本発明の一形態によれば、理解が容易な予測根拠を提示することができる。上記した以外の課題、構成及び効果は、以下の実施例の説明により明らかにされる。

実施例１の予測根拠提示システムの構成の一例を示す図である。実施例１の予測対象データ記憶部に格納されるデータの一例を示す図である。実施例１の予測根拠データ記憶部に格納されるデータの一例を示す図である。実施例１の関連指標記憶部に格納されるデータの一例を示す図である。実施例１の集約変数記憶部に格納されるデータの一例を示す図である。実施例１の予測根拠提示システムが実行する処理の概要の一例を説明するフローチャートである。実施例１の端末を介してユーザに提示される情報の一例を示す図である。実施例１の端末を介してユーザに提示される情報の一例を示す図である。実施例１の関連指標算出部が実行する関連指標算出処理の一例を説明するフローチャートである。実施例１の関連指標記憶部が実行する関連指標データ登録処理の一例を説明するフローチャートである。実施例１の関連指標受付部が端末を介してユーザに提示する操作画面の一例を示す図である。実施例１の関連指標受付部が端末を介してユーザに提示する操作画面の一例を示す図である。実施例１の集約変数決定部が実行する集約変数決定処理を説明するフローチャートである。

以下、本発明の実施例を、図面を用いて説明する。ただし、本発明は以下に示す実施例の記載内容に限定して解釈されるものではない。本発明の思想ないし趣旨から逸脱しない範囲で、その具体的構成を変更し得ることは当業者であれば容易に理解される。

以下に説明する発明の構成において、同一又は類似する構成又は機能には同一の符号を付し、重複する説明は省略する。

本明細書等における「第１」、「第２」、「第３」等の表記は、構成要素を識別するために付するものであり、必ずしも、数又は順序を限定するものではない。

図１は、実施例１の予測根拠提示システム１００の構成の一例を示す図である。

予測根拠提示システム１００は、少なくとも一つの計算機（図示省略）から構成され、また、予測根拠提示システム１００には、端末１５０が接続される。

計算機は、プロセッサ、メモリ、記憶装置、ネットワークインタフェース、及びＩ／Ｏインタフェースを有する。記憶装置は、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）及びＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）等である。メモリには、機能部を実現するプログラムが格納される。また、メモリは、機能部が使用するワークエリアを含む。プロセッサは、プログラムにしたがって処理を実行することによって、前述の機能部として動作する。以下の説明では、機能部を主語に処理を説明する場合、プロセッサが機能部を実現するプログラムを実行していることを示す。

予測根拠提示システム１００は、端末１５０から、複数の説明変数Ｘｉの値から構成される予測対象データを受信し、当該予測対象データに対して、任意の事象を予測するためのモデルに基づく処理を実行することによって予測結果を出力する。添字ｉは１からｎまでの整数であり、また、ｎは１より大きい整数である。予測対象データは、説明変数の値以外にデータの識別情報及びタイムスタンプ等を含んでもよい。

また、予測根拠提示システム１００は、出力された予測結果の根拠を示す予測根拠データを生成する。実施例１では、予測結果に対する各説明変数の値の影響の大きさを評価する値、すなわち、各説明変数の影響度から構成されるデータが予測根拠データとして生成される。

さらに、予測根拠提示システム１００は、説明変数の関連性を分析することによって集約する説明変数を特定し、特定された説明変数の影響度を集約する。予測根拠提示システム１００は、予測根拠データを、集約されていない影響度及び集約された影響度から構成される集約予測根拠データに変換し、予測結果及び集約予測根拠データ等をユーザに提示するための表示情報を生成し、端末１５０に対して表示情報を送信する。

実施例１の予測根拠提示システム１００は、前述した処理を実現するための機能構成として、データ受付部１０１、関連指標受付部１０２、予測実行部１０３、予測根拠出力部１０４、実行管理部１０５、関連指標算出部１０６、集約変数決定部１０７、結果出力部１０８、モデル記憶部１１０、予測対象データ記憶部１１１、予測根拠データ記憶部１１２、関連指標記憶部１１３、及び集約変数記憶部１１４を有する。

モデル記憶部１１０はモデルの情報を記憶する。モデルは、図示しない機械学習を実行するモデル生成部によって生成される。モデル生成部は、予測根拠提示システム１００に含まれてもよいし、また、予測根拠提示システム１００とは異なる外部のシステムに含まれてもよい。なお、実施例１のモデルは、予測根拠を示すデータが生成可能なモデルであればよい。

予測対象データ記憶部１１１は、予測対象データを記憶し、管理する。予測対象データ記憶部１１１によって管理されるデータの詳細は図２を用いて説明する。

予測根拠データ記憶部１１２は、予測根拠データを記憶し、管理する。予測根拠データ記憶部１１２によって管理されるデータの詳細は図３を用いて説明する。

関連指標記憶部１１３は、関連指標算出部１０６によって算出される関連指標に関するデータ（関連指標データ）を記憶し、管理する。ここで、関連指標は、対象間の関連性を示す指標である。関連指標記憶部１１３によって管理されるデータの詳細は図４を用いて説明する。

集約変数記憶部１１４は、集約変数決定部１０７によって決定された説明変数の組合せ（グループ）に関するデータ（グループデータ）を記憶し、管理する。集約変数記憶部１１４によって管理されるデータの詳細は図５を用いて説明する。

データ受付部１０１は、端末１５０から予測対象データを受信し、予測実行部１０３及び予測対象データ記憶部１１１に予測対象データを送信する。

関連指標受付部１０２は、端末１５０から関連指標に対する操作に関するデータ（操作データ）を受信し、関連指標記憶部１１３に送信する。

予測実行部１０３は、モデル記憶部１１０に記憶されたモデルの情報を取得し、予測対象データに対してモデルに基づく処理を実行することによって予測結果を出力する。また、予測実行部１０３は、結果出力部１０８に予測結果を送信する。

予測根拠出力部１０４は、予測結果に対する各説明変数の影響度を算出し、複数の説明変数の影響度を含む予測根拠データを生成する。例えば、非特許文献１に記載の算出方法に基づいて影響度が算出される。また、予測根拠出力部１０４は、結果出力部１０８及び予測根拠データ記憶部１１２に予測根拠データを送信する。

実行管理部１０５は、関連指標算出部１０６及び集約変数決定部１０７の実行タイミングを制御する。例えば、実行管理部１０５は、予測対象データ記憶部１１１及び予測根拠データ記憶部１１２に格納されるデータの数が閾値より大きい場合、実行周期を経過した場合、端末１５０からの実行指示を受信した場合、関連指標算出部１０６及び集約変数決定部１０７に処理の実行を指示する。

関連指標算出部１０６は、予測対象データ及び予測根拠データを用いて関連指標を算出する。関連指標算出部１０６は、算出された関連指標を含む関連指標データを生成し、当該関連指標データを関連指標記憶部１１３に送信する。関連指標算出部１０６は、例えば、回帰分析から算出される相関係数の絶対値を関連指標として算出する。

集約変数決定部１０７は、関連指標記憶部１１３が管理する関連指標データに基づいて集約する説明変数を決定し、決定された説明変数から生成されるグループのグループデータを生成する。集約変数決定部１０７は、グループデータを集約変数記憶部１１４に出力する。

結果出力部１０８は、予測根拠データ及びグループデータに基づいて、集約する説明変数の影響度を集約することによって集約予測根拠データを生成する。結果出力部１０８は、予測結果及び集約予測根拠データに基づいて表示情報を生成し、表示情報を端末１５０に送信する。例えば、予測結果と、説明変数の影響度及びグループの影響度を表す棒グラフとを表示するための表示情報が生成される。

なお、予測根拠提示システム１００が有する機能部については、複数の機能部を一つの機能部にまとめてもよいし、一つの機能部を機能毎に複数の機能部に分けてもよい。例えば、結果出力部１０８に、実行管理部１０５、関連指標算出部１０６、及び集約変数決定部１０７の機能を含めてもよい。また、予測対象データ記憶部１１１及び予測根拠データ記憶部１１２を一つの履歴データ記憶部としてもよい。

ここで、モデルの一例として、二つのクラス（クラス０及びクラス１）の分類を行うモデルを考える。当該モデルからは、クラス１である確率を示す値が予測結果として出力されるものとする。なお、確率の値の範囲は０以上かつ１以下の実数である。

予測結果の値をＹとし、基準値をＹ０とし、予測結果に対する説明変数Ｘｉの影響度をＹｉとした場合、非特許文献１によれば、影響度Ｙｉは式（１）を満たすように算出される。

影響度Ｙｉは正又は負の実数である。正の値は「クラス１」となる予測への影響を示し、負の値は「クラス１」とならない予測への影響を示す。また、影響度の絶対値の大きいは、予測に対する説明変数の影響の大きさを示す。

相関関係等の関連性が存在する説明変数が含まれる場合、すなわち、一つの要因に関連する説明変数が複数存在する場合、予測結果に対する当該要因の影響は、複数の説明変数の影響度として算出される。そのため、予測根拠となる説明変数を特定することが困難になる。そこで、実施例１の予測根拠提示システム１００は、説明変数の関連性を分析して、関連性がある説明変数の組合せを特定し、当該説明変数の組合せに基づいて影響度を集約する。これによって、ユーザの理解が容易な予測根拠を提示することができる。

図２は、実施例１の予測対象データ記憶部１１１に格納されるデータの一例を示す図である。

予測対象データ記憶部１１１は、受信した予測対象データを履歴情報２００として管理する。履歴情報２００は、ＩＤ２０１及び値２０２から構成されるレコードを一つ以上格納する。一つのレコードが一つの予測対象データに対応する。

ＩＤ２０１は、予測対象データの識別情報を格納するフィールドである。値２０２は、予測対象データに含まれる複数の説明変数の各々の値を格納するフィールド群である。

図３は、実施例１の予測根拠データ記憶部１１２に格納されるデータの一例を示す図である。

予測根拠データ記憶部１１２は、受信した予測根拠データを履歴情報３００として管理する。履歴情報３００は、ＩＤ３０１及び影響度３０２から構成されるレコードを一つ以上格納する。一つのレコードが一つの予測根拠データに対応する。

ＩＤ３０１はＩＤ２０１と同一のフィールドである。すなわち、一つの予測対象データを用いて行われた予測の予測根拠には、当該予測対象データと同一の識別情報が付与される。影響度３０２は、予測結果に対する各説明変数の影響度を格納するフィールド群である。

図４は、実施例１の関連指標記憶部１１３に格納されるデータの一例を示す図である。

関連指標記憶部１１３は、受信した関連指標データ及び操作データを分析情報４００として管理する。分析情報４００は、第１説明変数４０１、第２説明変数４０２、データ関連指標４０３、影響度関連指標４０４、入力データ関連指標４０５、及び入力影響度関連指標４０６から構成されるレコードを一つ以上格納する。一つの関連指標データに対して一つの分析情報４００が生成される。また、分析情報４００には、一つの説明変数のペアに対して一つのレコードが存在する。

第１説明変数４０１及び第２説明変数４０２は、ペアを組む説明変数の識別情報を格納するフィールドである。

データ関連指標４０３は、ペアを組む説明変数の値の間の関連性を示す指標（データ関連指標）を格納するフィールドである。影響度関連指標４０４は、ペアを組む説明変数の影響度の間の関連性を示す指標（影響度関連指標）を格納するフィールドである。データ関連指標４０３及び影響度関連指標４０４には、関連指標データに含まれる値が設定される。

入力データ関連指標４０５は、端末１５０を介して入力されたデータ関連指標を格納するフィールドである。入力影響度関連指標４０６は、端末１５０を介して入力された影響度関連指標を格納するフィールドである。入力データ関連指標４０５及び入力影響度関連指標４０６には、操作データに含まれる値が設定される。なお、対応するペアのデータ関連指標又は影響度関連指標が入力されていない場合、当該レコードの入力データ関連指標４０５又は入力影響度関連指標４０６は空欄となる。

図５は、実施例１の集約変数記憶部１１４に格納されるデータの一例を示す図である。

集約変数記憶部１１４は、受信したグループデータを集約説明変数情報５００として管理する。

集約説明変数情報５００は、グループ５０１及び要素説明変数５０２から構成されるレコードを一つ以上格納する。集約説明変数情報５００には、一つのグループに対して一つのレコードが存在する。

グループ５０１は、グループの識別情報を格納するフィールドである。要素説明変数５０２は、グループに含まれる説明変数の識別情報を格納するフィールドである。

図５の集約説明変数情報５００には、説明変数Ｘ４及び説明変数Ｘ６から構成されるグループと、説明変数Ｘ８及び説明変数Ｘ９から構成されるグループとが記憶されている。

図６は、実施例１の予測根拠提示システム１００が実行する処理の概要の一例を説明するフローチャートである。図７Ａ及び図７Ｂは、実施例１の端末１５０を介してユーザに提示される情報の一例を示す図である。

データ受付部１０１は、端末１５０から予測対象データを受信する（ステップＳ６０１）。データ受付部１０１は、予測実行部１０３、予測根拠出力部１０４、及び予測対象データ記憶部１１１に受信した予測対象データを送信する。

予測対象データ記憶部１１１は、履歴情報２００に、受信した予測対象データに対応するレコードを追加する。

予測実行部１０３は、予測対象データを受信した場合、モデル記憶部１１０からモデルの情報を取得し、予測対象データに対してモデルに基づく処理を実行し、予測結果を出力する（ステップＳ６０２）。予測実行部１０３は、予測根拠出力部１０４及び結果出力部１０８に予測結果を送信する。

予測根拠出力部１０４は、予測対象データを受信した場合、予測結果に対する説明変数の影響度を算出する（ステップＳ６０３）。予測根拠出力部１０４は、予測根拠データ記憶部１１２及び結果出力部１０８に、算出された影響度を含む予測根拠データを送信する。

具体的には、予測根拠出力部１０４は、モデル記憶部１１０からモデルの情報を取得し、数理的手法により、予測結果に対する予測対象データの各説明変数の影響度を算出する。

予測根拠データ記憶部１１２は、履歴情報３００に、受信した予測根拠データに対応するレコードを追加する。

結果出力部１０８は、集約変数記憶部１１４が管理する集約説明変数情報５００を参照し、ターゲットレコードを選択する（ステップＳ６０４）。

なお、この時点で集約説明変数情報５００が生成されていない場合、結果出力部１０８は、実行管理部１０５に実行要求を出力する。実行管理部１０５は、実行要求を受け付けた場合、関連指標算出部１０６及び集約変数決定部１０７に実行指示を出力する。実行管理部１０５は、関連指標算出部１０６及び集約変数決定部１０７の処理の完了を確認した後、結果出力部１０８に処理の完了を通知する。

結果出力部１０８は、ターゲットレコードに基づいて、集約する説明変数の影響度を集約する（ステップＳ６０５）。

具体的には、結果出力部１０８は、予測根拠データを参照し、ターゲットレコードの要素説明変数５０２に対応する説明変数の影響度を取得し、取得した影響度を合計する。結果出力部１０８は、ターゲットレコードの要素説明変数５０２に対応する説明変数の影響度のフィールドを予測根拠データから削除し、グループのフィールドを予測根拠データに追加する。さらに、結果出力部１０８は、グループのフィールドに影響度の合計値を設定する。全てのグループに対して同様の処理が実行されることによって、予測根拠データが集約予測根拠データに変換される。

結果出力部１０８は、集約説明変数情報５００の全てのレコードについて処理が完了したか否かを判定する（ステップＳ６０６）。

集約説明変数情報５００の全てのレコードについて処理が完了していないと判定された場合、結果出力部１０８は、ステップＳ６０４に戻り、同様の処理を実行する。

集約説明変数情報５００の全てのレコードについて処理が完了したと判定された場合、結果出力部１０８は、図７Ａ又は図７Ｂに示すような予測根拠情報７００、７１０を提示するための表示情報を生成し、端末１５０に表示情報を送信する（ステップＳ６０７）。

図７Ａの予測根拠情報７００は、説明変数７０１、影響度７０２、及び値７０３から構成されるレコードを一つ以上含む。一つのレコードは、一つの説明変数又は一つのグループに対応する。予測根拠情報７００のレコードは影響度の絶対値が大きい順にソートされている。

説明変数７０１は、説明変数又はグループの識別情報を格納するフィールドである。影響度７０２は、説明変数又はグループの影響度を格納するフィールドである。値７０３は、説明変数の値、又は、グループに含まれる説明変数の値を格納するフィールドである。

図７Ｂの予測根拠情報７００は、説明変数７１１、影響度７１２、値７１３、要素説明変数７１４、要素値７１５、及び要素影響度７１６から構成されるレコードを一つ以上含む。一つのレコードは、一つの説明変数又は一つの集約説明変数に対応する。

説明変数７１１及び影響度７１２は、説明変数７０１及び影響度７０２と同一のフィールドである。値７１３は、一つの説明変数の値を格納する。グループに対応するレコードの場合、値７１３は空欄となる。

要素説明変数７１４は、グループに含まれる説明変数の識別情報を格納するフィールドである。要素値７１５は、グループに含まれる説明変数の値を格納するフィールドである。要素影響度７１６は、グループに含まれる説明変数の影響度を格納するフィールドである。説明変数に対応するレコードの場合、要素説明変数７１４、要素値７１５、及び要素影響度７１６は空欄となる。

図７Ａ及び図７Ｂの予測根拠情報７００、７１０には、説明変数Ｘ４及び説明変数Ｘ７から構成されるグループのレコードが含まれる。当該レコードの影響度７０２、７１２には、各説明変数の影響度の合計値が格納される。

このように、関連性がある説明変数を集約することによって生成されたグループの影響度を提示することによって、影響度の比較が容易となる。例えば、説明変数Ｘ４及び説明変数Ｘ７の個別の影響度は、説明変数Ｘ６の影響度より小さく、関連する要因の影響が正しく評価できない。一方、グループの影響度を提示することによって、予測結果に影響を与える要因を評価できる。

次に、関連指標算出部１０６が実行する関連指標算出処理、関連指標記憶部１１３が実行する関連指標データ登録処理、及び集約変数決定部１０７が実行する集約変数決定処理について説明する。

図８は、実施例１の関連指標算出部１０６が実行する関連指標算出処理の一例を説明するフローチャートである。

関連指標算出部１０６は、実行管理部１０５から実行指示を受け付けた場合、関連指標算出処理を開始する。

関連指標算出部１０６は説明変数の組合せのリストを生成する（ステップＳ８０１）。具体的には、関連指標算出部１０６は説明変数のペアを生成し、当該ペアのリストを生成する。

関連指標算出部１０６は、リストからターゲットペアを選択する（ステップＳ８０２）。

関連指標算出部１０６は、予測対象データ記憶部１１１が管理する履歴情報２００の各レコードから、ターゲットペアを組む説明変数の値を取得する（ステップＳ８０３）。関連指標算出部１０６は、ターゲットペアを組む説明変数の値から構成される第１の一時レコード群を生成する。履歴情報２００一つのレコードに対して一つの第１の一時レコードが生成される。

関連指標算出部１０６は、第１の一時レコード群を用いた統計分析を実行することによって、データ関連指標を算出する（ステップＳ８０４）。例えば、関連指標算出部１０６は、各説明変数の値の相関を示す相関係数を、データ関連指標として算出する。

関連指標算出部１０６は、予測根拠データ記憶部１１２が管理する履歴情報３００の各レコードから、ターゲットペアを組む説明変数の影響度を取得する（ステップＳ８０５）。関連指標算出部１０６は、ターゲットペアを組む説明変数の影響度から構成される第２の一時レコード群を生成する。履歴情報３００の一つのレコードに対して一つの第２の一時レコードが生成される。

関連指標算出部１０６は、第２の一時レコード群を用いた統計分析を実行することによって、影響度関連指標を算出する（ステップＳ８０６）。例えば、関連指標算出部１０６は、各説明変数の影響度の相関を示す相関係数を、影響度関連指標として算出する。このとき、関連指標算出部１０６は、ターゲットペアを組む説明変数の識別情報、データ関連指標、及び影響度関連指標から構成される登録レコードを生成する。

関連指標算出部１０６は、リストに登録された全てのペアに対して処理が完了したか否かを判定する（ステップＳ８０７）。

リストに登録された全てのペアに対して処理が完了していないと判定された場合、関連指標算出部１０６は、ステップＳ８０２に戻り、同様の処理を実行する。

リストに登録された全てのペアに対して処理が完了したと判定された場合、関連指標算出部１０６は、各ペアの登録レコードを関連指標記憶部１１３に送信する（ステップＳ８０８）。その後、関連指標算出部１０６は関連指標算出処理を終了する。

関連指標記憶部１１３は登録レコード群を受信した場合、以下のような処理を実行する。

（処理１）関連指標記憶部１１３は、ターゲット登録レコードを選択する。

（処理２）関連指標記憶部１１３は、分析情報４００を参照し、第１説明変数４０１及び第２説明変数４０２の組合せが、ターゲット登録レコードの説明変数の組合せと一致するレコードが存在するか否かを判定する。

（処理３）条件を満たすレコードが存在する場合、関連指標記憶部１１３は、当該レコードのデータ関連指標４０３及び影響度関連指標４０４に、ターゲット登録レコードのデータ関連指標及び影響度関連指標を設定する。

（処理４）条件を満たすレコードが存在しない場合、関連指標記憶部１１３は、分析情報４００にレコードを追加し、追加されたレコードの第１説明変数４０１及び第２説明変数４０２にターゲット登録レコードの説明変数の組合せを設定する。また、関連指標記憶部１１３は、追加されたレコードのデータ関連指標４０３及び影響度関連指標４０４に、ターゲット登録レコードのデータ関連指標及び影響度関連指標を設定する。

（処理５）関連指標記憶部１１３は、全ての登録レコードについて処理が完了したか否かを判定する。

全ての登録レコードについて処理が完了していない場合、関連指標記憶部１１３は、（処理１）から（処理５）までの処理を再度実行する。全ての登録レコードについて処理が完了した場合、関連指標記憶部１１３は処理を終了する。

図９は、実施例１の関連指標記憶部１１３が実行する関連指標データ登録処理の一例を説明するフローチャートである。図１０Ａ及び図１０Ｂは、実施例１の関連指標受付部１０２が端末１５０を介してユーザに提示する操作画面１０００の一例を示す図である。

関連指標受付部１０２は、端末１５０から関連指標の設定要求を受信した場合、端末１５０を介して図１０Ａに示す操作画面１０００を提示する。ここで、操作画面１０００の構成について説明する。

操作画面１０００は、分析情報操作欄１０１０、外部設定値比較ボタン１０２０、及び設定ボタン１０３０を含む。

分析情報操作欄１０１０は、分析情報４００と同一のデータ構造のテーブルを表示する欄である。

分析情報操作欄１０１０のフィールド名には、レコードを並び替えるためのソートボタンが設けられる。分析情報操作欄１０１０に格納されるレコードの入力データ関連指標フィールド及び入力影響度関連指標フィールドは、ユーザからの操作を受け付けるように制御される。

ユーザは、擬似相関により関連指標が高く算出されたペアが集約されないように制御するため、又は、関連指標が低く算出されたペアが集約されるように制御するため、当該フィールドに値を設定する。例えば、図１０Ａでは、説明変数Ｘ８及び説明変数Ｘ１０から構成されるペアのデータ関連指標、説明変数Ｘ１及び説明変数Ｘ９から構成されるペアのデータ関連指標、及び説明変数Ｘ５及び説明変数Ｘ７から構成されるペアの影響度関連指標が修正される。

外部設定値比較ボタン１０２０が操作された場合、関連指標受付部１０２は、入力データ関連指標フィールド及び入力影響度関連指標フィールドのいずれかに値が設定されたレコードについて、算出された関連指標と入力された関連指標との間の比較結果を表示する。

例えば、図１０Ｂに示すような比較表１０５０が比較結果として表示される。比較表１０５０は、算出されたデータ関連指標及び入力されたデータ関連指標の差分と、算出された影響度関連指標及び入力されたた影響度関連指標の差分とを格納するフィールドを含む。

ユーザが設定ボタン１０３０を操作した場合、関連指標受付部１０２は、分析情報操作欄１０１０を更新情報として関連指標記憶部１１３に出力する。

以上が操作画面１０００の説明である。図９の説明に戻る。

関連指標記憶部１１３は、操作画面１０００を介して、更新情報を受信する（ステップＳ９０１）。

関連指標記憶部１１３は、分析情報操作欄１０１０からターゲットレコードを選択する（ステップＳ９０２）。

関連指標記憶部１１３は、分析情報４００を参照し、ターゲットレコードに対応するレコードを検索し（ステップＳ９０３）、ターゲットレコードに基づいて、検索されたレコードを更新する（ステップＳ９０４）。なお、関連指標記憶部１１３は、ターゲットレコード及び検索されたレコードの値を比較し、変更された値が存在しない場合、ステップＳ９０４の処理を省略する。

関連指標記憶部１１３は、分析情報操作欄１０１０の全てのレコードについて処理が完了したか否かを判定する（ステップＳ９０５）。

分析情報操作欄１０１０の全てのレコードについて処理が完了していないと判定された場合、関連指標記憶部１１３は、ステップＳ９０２に戻り、同様の処理を実行する。

分析情報操作欄１０１０の全てのレコードについて処理が完了したと判定された場合、関連指標記憶部１１３は関連指標データ登録処理を終了する。

統計分析において、偶発的に、関連指標の値が大きくなる場合がある。また、説明変数間の関係が複雑なため、統計分析からは関連指標を算出できない場合がある。そのため、予測根拠提示システム１００は、ユーザの知識等を反映するために、関連指標を外部から入力する機能を提供する。

図１１は、実施例１の集約変数決定部１０７が実行する集約変数決定処理を説明するフローチャートである。

集約変数決定部１０７は、集約変数記憶部１１４に初期化指示を出力する（ステップＳ１１０１）。集約変数記憶部１１４は、初期化指示を受け付けた場合、集約説明変数情報５００を初期化する。

集約変数決定部１０７は、関連指標記憶部１１３が管理する分析情報４００からターゲットレコードを選択する（ステップＳ１１０２）。

集約変数決定部１０７は、ターゲットレコードの入力データ関連指標４０５が空欄であるか否かを判定する（ステップＳ１１０３）。

ターゲットレコードの入力データ関連指標４０５が空欄であると判定された場合、集約変数決定部１０７は、ターゲットレコードのデータ関連指標４０３の値が第１の閾値より大きいか否かを判定する（ステップＳ１１０４）。第１の閾値は予め設定されているものとする。ただし、第１の閾値は任意のタイミングで更新できる。

ターゲットレコードのデータ関連指標４０３の値が第１の閾値以下であると判定された場合、集約変数決定部１０７はステップＳ１１１０に進む。

ターゲットレコードのデータ関連指標４０３の値が第１の閾値より大きいと判定された場合、集約変数決定部１０７はステップＳ１１０６に進む。

ステップＳ１１０３において、ターゲットレコードの入力データ関連指標４０５が空欄でないと判定された場合、集約変数決定部１０７は、ターゲットレコードの入力データ関連指標４０５の値が第２の閾値より大きいか否かを判定する（ステップＳ１１０５）。第２の閾値は予め設定されているものとする。ただし、第２の閾値は任意のタイミングで更新できる。

ターゲットレコードの入力データ関連指標４０５の値が第２の閾値以下であると判定された場合、集約変数決定部１０７はステップＳ１１１０に進む。

ターゲットレコードの入力データ関連指標４０５の値が第２の閾値より大きいと判定された場合、集約変数決定部１０７はステップＳ１１０６に進む。

ステップＳ１１０４又はステップＳ１１０５の判定結果がＹＥＳである場合、集約変数決定部１０７は、ターゲットレコードの入力影響度関連指標４０６が空欄であるか否かを判定する（ステップＳ１１０６）。

ターゲットレコードの入力影響度関連指標４０６が空欄であると判定された場合、集約変数決定部１０７は、ターゲットレコードの影響度関連指標４０４の値が第３の閾値より大きいか否かを判定する（ステップＳ１１０７）。第３の閾値は予め設定されているものとする。ただし、第３の閾値は任意のタイミングで更新できる。

ターゲットレコードの影響度関連指標４０４の値が第３の閾値以下であると判定された場合、集約変数決定部１０７はステップＳ１１１０に進む。

ターゲットレコードの影響度関連指標４０４の値が第３の閾値より大きいと判定された場合、集約変数決定部１０７はステップＳ１１０９に進む。

ステップＳ１１０６において、ターゲットレコードの入力影響度関連指標４０６が空欄でないと判定された場合、集約変数決定部１０７は、ターゲットレコードの入力影響度関連指標４０６の値が第４の閾値より大きいか否かを判定する（ステップＳ１１０８）。第４の閾値は予め設定されているものとする。ただし、第４の閾値は任意のタイミングで更新できる。

ターゲットレコードの入力影響度関連指標４０６の値が第４の閾値以下であると判定された場合、集約変数決定部１０７はステップＳ１１１０に進む。

ターゲットレコードの入力影響度関連指標４０６の値が第４の閾値より大きいと判定された場合、集約変数決定部１０７はステップＳ１１０９に進む。

ステップＳ１１０７又はステップＳ１１０８の判定結果がＹＥＳである場合、集約変数決定部１０７は、ターゲットレコードに対応する説明変数のペアに関するグループデータを生成し、集約変数記憶部１１４に当該グループデータを送信する（ステップＳ１１０９）。

ステップＳ１１０４、ステップＳ１１０５、ステップＳ１１０７、若しくはステップＳ１１０８の判定結果がＮＯである場合、又は、ステップＳ１１０９の処理が実行された後、集約変数決定部１０７は、分析情報４００の全レコードの処理が完了したか否かを判定する（ステップＳ１１１０）。

分析情報４００の全レコードの処理が完了していないと判定された場合、集約変数決定部１０７は、ステップＳ１１０２に戻り、同様の処理を実行する。

分析情報４００の全レコードの処理が完了したと判定された場合、集約変数決定部１０７は集約変数決定処理を終了する。

ステップＳ１１０４及びステップＳ１１０５は、ペアを組む説明変数の値の間に関連性が存在するか否かを判定するための処理である。データ関連指標４０３の値が第１の閾値より大きい場合、又は、入力データ関連指標４０５の値が第２の閾値より大きい場合、ペアを組む説明変数の値の間に関連性が存在すると判定される。

ステップＳ１１０６及びステップＳ１１０８は、ペアを組む説明変数の影響度の間に関連性が存在するか否かを判定するための処理である。影響度関連指標４０４の値が第３の閾値より大きい場合、又は、入力影響度関連指標４０６の値が第４の閾値より大きい場合、ペアを組む説明変数の影響度の間に関連性が存在すると判定される。

実施例１では、ペアを組む説明変数の値の間に関連性が存在し、かつ、ペアを組む説明変数の影響度の間に関連性が存在する場合、集約変数決定部１０７は、ペアを組む説明変数の間には関連性が存在するため集約できると判定する。

なお、ステップＳ１１１０の判定結果がＹＥＳである場合、集約変数決定部１０７は、集約説明変数情報５００を参照し、推移律に基づいて、複数のペアを集約してもよい。これによって、三つ以上の説明変数から構成されるグループを生成できる。例えば、説明変数Ｘ１及び説明変数Ｘ２から構成されるグループと、説明変数Ｘ２及び説明変数Ｘ３から構成されるグループが存在する場合、集約変数決定部１０７は、説明変数Ｘ１、説明変数Ｘ２、及び説明変数Ｘ３から構成されるグループを生成する。

なお、第１の閾値、第２の閾値、第３の閾値、及び第４の閾値は、それぞれ、独立して決定することができる。

ここで、図４の分析情報４００を例に、集約変数決定処理の具体的な処理について説明する。第１の閾値、第２の閾値、第３の閾値、及び第４の閾値は「０．９」に設定されているものとする。

説明変数Ｘ４及び説明変数Ｘ６のペアは、データ関連指標４０３が「０．９」より大きく、かつ、影響度関連指標４０４が「０．９」より大きいため、当該ペアに関するレコードが集約説明変数情報５００に追加される。一方、説明変数Ｘ１及び説明変数Ｘ３のペアは、データ関連指標４０３は「０．９」より大きいが、入力影響度関連指標４０６は「０．９」以下である。したがって、当該ペアは集約する説明変数の組合せとして選択されない。

以上のように、実施例１によれば、任意のモデルを用いて行われた事象の予測の根拠を示す情報を提示する場合に、集約可能な複数の説明変数を決定し、複数の説明変数からグループを生成し、グループ単位で集約された影響度を提示できる。これによって、影響度の比較による予測根拠の理解が容易となる。

（変形例）
実施例１では、予測根拠提示システム１００は、関連指標及び閾値の比較結果に基づいて、説明変数間の関連性の有無を判定していた。しかし、説明変数間の関連性の有無を判定する方法はこれに限定されない。例えば、説明変数の値の関連性及び説明変数の影響度の関連性を示す関数の有無に基づいて、説明変数間の関連性の有無を判定してもよい。この場合、以下のように構成及び処理を変更すればよい。

分析情報４００は、関連指標を格納するフィールドの代わりに、関数を格納するフィールドを含む。

関連指標算出処理では、関連指標算出部１０６は、ステップＳ８０４において、説明変数の値の関連性を示す関数を生成するための統計分析を実行し、ステップＳ８０６において、説明変数の影響度の関連性を示す関数を生成するための統計分析を実行する。

集約変数決定処理では、集約変数決定部１０７は、説明変数の値の関連性を示す関数及び説明変数の影響度の関連性を示す関数が存在する説明変数のグループを、集約説明変数情報５００に登録する。

なお、集約変数決定処理では、関数の次数に基づいて、説明変数の値及び説明変数の影響度の関連性の有無を判定してもよい。例えば、説明変数の値の関連性を示す関数が存在し、かつ、関数の最高次数が２以下の場合、集約変数決定部１０７は、説明変数の値の間に関連性があると判定する。

なお、本発明は上記した実施例に限定されるものではなく、様々な変形例が含まれる。また、例えば、上記した実施例は本発明を分かりやすく説明するために構成を詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、各実施例の構成の一部について、他の構成に追加、削除、置換することが可能である。

また、上記の各構成、機能、処理部、処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、本発明は、実施例の機能を実現するソフトウェアのプログラムコードによっても実現できる。この場合、プログラムコードを記録した記憶媒体をコンピュータに提供し、そのコンピュータが備えるプロセッサが記憶媒体に格納されたプログラムコードを読み出す。この場合、記憶媒体から読み出されたプログラムコード自体が前述した実施例の機能を実現することになり、そのプログラムコード自体、及びそれを記憶した記憶媒体は本発明を構成することになる。このようなプログラムコードを供給するための記憶媒体としては、例えば、フレキシブルディスク、ＣＤ－ＲＯＭ、ＤＶＤ－ＲＯＭ、ハードディスク、ＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）、光ディスク、光磁気ディスク、ＣＤ－Ｒ、磁気テープ、不揮発性のメモリカード、ＲＯＭなどが用いられる。

また、本実施例に記載の機能を実現するプログラムコードは、例えば、アセンブラ、Ｃ／Ｃ＋＋、ｐｅｒｌ、Ｓｈｅｌｌ、ＰＨＰ、Ｐｙｔｈｏｎ、Ｊａｖａ（登録商標）等の広範囲のプログラム又はスクリプト言語で実装できる。

さらに、実施例の機能を実現するソフトウェアのプログラムコードを、ネットワークを介して配信することによって、それをコンピュータのハードディスクやメモリ等の記憶手段又はＣＤ－ＲＷ、ＣＤ－Ｒ等の記憶媒体に格納し、コンピュータが備えるプロセッサが当該記憶手段や当該記憶媒体に格納されたプログラムコードを読み出して実行するようにしてもよい。

上述の実施例において、制御線や情報線は、説明上必要と考えられるものを示しており、製品上必ずしも全ての制御線や情報線を示しているとは限らない。全ての構成が相互に接続されていてもよい。

１００予測根拠提示システム
１０１データ受付部
１０２関連指標受付部
１０３予測実行部
１０４予測根拠出力部
１０５実行管理部
１０６関連指標算出部
１０７集約変数決定部
１０８結果出力部
１１０モデル記憶部
１１１予測対象データ記憶部
１１２予測根拠データ記憶部
１１３関連指標記憶部
１１４集約変数記憶部
１５０端末
２００、３００履歴情報
４００分析情報
５００集約説明変数情報
７００表示情報
１０００操作画面
１０１０分析情報操作欄
１０２０外部設定値比較ボタン
１０３０設定ボタン
１０５０比較表

Claims

複数の説明変数の値から構成される入力データを入力することによって、任意の事象の予測を行うモデルの予測根拠提示システムであって、
プロセッサ及び前記プロセッサに接続されるメモリを有する少なくとも一つの計算機を備え、
前記モデルに基づく演算処理によって出力された予測結果に対して、前記入力データを構成する前記複数の説明変数の値の影響を示す影響度を算出し、前記複数の説明変数の影響度から構成される予測根拠データを生成する予測根拠出力部と、
集約可能な説明変数を特定する集約変数決定部と、
前記予測根拠データを表示するための表示情報を出力する結果出力部と、
前記入力データの履歴及び前記予測根拠データの履歴を格納する記憶部と、
を備え、
前記集約変数決定部は、
複数の前記入力データの履歴及び複数の前記予測根拠データの履歴を用いて、前記説明変数の値間の関連性を分析する第１の分析処理、及び前記説明変数の影響度間の関連性を分析する第２の分析処理を実行し、
前記第１の分析処理及び前記第２の分析処理の結果に基づいて、前記集約可能な説明変数を特定し、
前記結果出力部は、
前記集約可能な説明変数からグループを生成し、
前記グループに含まれる前記複数の説明変数の影響度から集約影響度を算出し、
前記予測根拠データを、集約されていない説明変数の影響度及び前記グループの集約影響度を対応づけたデータから構成される集約予測根拠データに変換し、
前記集約予測根拠データに基づいて前記表示情報を生成することを特徴とするモデルの予測根拠提示システム。
請求項１に記載のモデルの予測根拠提示システムであって、
前記集約変数決定部は、
前記第１の分析処理において、前記説明変数の値間の相関を示す第１の相関係数を算出し、
前記第２の分析処理において、前記説明変数の影響度間の相関を示す第２の相関係数を算出し、
前記第１の相関係数及び第１の閾値を比較する第１の比較処理を実行し、
前記第２の相関係数及び第２の閾値を比較する第２の比較処理を実行し、
前記第１の相関係数及び第１の閾値の比較結果、並びに、前記第２の相関係数及び第２の閾値の比較結果に基づいて、前記集約可能な説明変数を特定することを特徴とするモデルの予測根拠提示システム。
請求項１に記載のモデルの予測根拠提示システムであって、
前記説明変数の値間の関連性を示す第１の外部入力及び前記説明変数の影響度間の関連性を示す第２の外部入力を設定するためのインタフェースを提供する受付部を有し、
前記受付部を介して設定された前記第１の外部入力及び前記第２の外部入力、前記第１の分析処理及び前記第２の分析処理の結果に基づいて、前記集約可能な説明変数を特定することを特徴とするモデルの予測根拠提示システム。
請求項１に記載のモデルの予測根拠提示システムであって、
前記表示情報は、前記グループに含まれる前記複数の説明変数の影響度を含むことを特徴とするモデルの予測根拠提示システム。
計算機システムが実行する、複数の説明変数の値から構成される入力データを入力することによって任意の事象の予測を行うモデルの予測根拠提示方法であって、
前記計算機システムは、プロセッサ及び前記プロセッサに接続されるメモリを有する少なくとも一つの計算機から構成され、
前記モデルの予測根拠提示方法は、
前記プロセッサが、前記モデルに基づく演算処理によって出力された予測結果に対して、前記入力データを構成する前記複数の説明変数の値の影響を示す影響度を算出し、前記複数の説明変数の影響度から構成される予測根拠データを生成する第１のステップと、
前記プロセッサが、集約可能な説明変数を特定する第２のステップと、
前記プロセッサが、前記予測根拠データを表示するための表示情報を出力する第３のステップと、
前記プロセッサが、前記入力データの履歴及び前記予測根拠データの履歴を前記メモリに格納する第４のステップと、を含み、
前記第２のステップは、
前記プロセッサが、複数の前記入力データの履歴及び複数の前記予測根拠データの履歴を用いて、前記説明変数の値間の関連性を分析する第１の分析処理、及び前記説明変数の影響度間の関連性を分析する第２の分析処理を実行する第５のステップと、
前記プロセッサが、前記第１の分析処理及び前記第２の分析処理の結果に基づいて、前記集約可能な説明変数を特定する第６のステップと、を含み、
前記第３のステップは、
前記プロセッサが、前記集約可能な説明変数からグループを生成するステップと、
前記プロセッサが、前記グループに含まれる前記複数の説明変数の影響度から集約影響度を算出するステップと、
前記プロセッサが、前記予測根拠データを、集約されていない説明変数の影響度及び前記グループの集約影響度を対応づけたデータから構成される集約予測根拠データに変換するステップと、
前記プロセッサが、前記集約予測根拠データに基づいて前記表示情報を生成するステップと、を含むことを特徴とするモデルの予測根拠提示方法。
請求項５に記載のモデルの予測根拠提示方法であって、
前記第５のステップは、
前記プロセッサが、前記説明変数の値間の相関を示す第１の相関係数を算出する前記第１の分析処理を実行するステップと、
前記プロセッサが、前記説明変数の影響度間の相関を示す第２の相関係数を算出する前記第２の分析処理を実行するステップと、を含み、
前記第６のステップは、
前記プロセッサが、前記第１の相関係数及び第１の閾値を比較する第１の比較処理を実行するステップと、
前記プロセッサが、前記第２の相関係数及び第２の閾値を比較する第２の比較処理を実行するステップと、
前記プロセッサが、前記第１の相関係数及び第１の閾値の比較結果、並びに、前記第２の相関係数及び第２の閾値の比較結果に基づいて、前記集約可能な説明変数を特定するステップと、を含むことを特徴とするモデルの予測根拠提示方法。
請求項５に記載のモデルの予測根拠提示方法であって、
前記説明変数の値間の関連性を示す第１の外部入力及び前記説明変数の影響度間の関連性を示す第２の外部入力を設定するためのインタフェースを提供するステップを含み、
前記第６のステップは、前記プロセッサが、前記インタフェースを介して設定された前記第１の外部入力及び前記第２の外部入力、前記第１の分析処理及び前記第２の分析処理の結果に基づいて、前記集約可能な説明変数を特定するステップを含むことを特徴とするモデルの予測根拠提示方法。
請求項５に記載のモデルの予測根拠提示方法であって、
前記表示情報は、前記グループに含まれる前記複数の説明変数の影響度を含むことを特徴とするモデルの予測根拠提示方法。