JP7057761B2 - 計算機システム及び情報の提示方法 - Google Patents

計算機システム及び情報の提示方法 Download PDF

Info

Publication number
JP7057761B2
JP7057761B2 JP2019019357A JP2019019357A JP7057761B2 JP 7057761 B2 JP7057761 B2 JP 7057761B2 JP 2019019357 A JP2019019357 A JP 2019019357A JP 2019019357 A JP2019019357 A JP 2019019357A JP 7057761 B2 JP7057761 B2 JP 7057761B2
Authority
JP
Japan
Prior art keywords
data
prediction
computer
information
decision logic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019019357A
Other languages
English (en)
Other versions
JP2020126510A (ja
JP2020126510A5 (ja
Inventor
渉 竹内
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2019019357A priority Critical patent/JP7057761B2/ja
Priority to US16/708,473 priority patent/US11443238B2/en
Publication of JP2020126510A publication Critical patent/JP2020126510A/ja
Publication of JP2020126510A5 publication Critical patent/JP2020126510A5/ja
Application granted granted Critical
Publication of JP7057761B2 publication Critical patent/JP7057761B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/01Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Computational Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Algebra (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Mathematical Analysis (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

本発明は、対象の事象の予測を行うシステムに関する。
近年、都市計画、医療、及び金融等の様々な分野で、対象の事象を予測するシステム、いわゆる、AI(Artificial Intelligence)が提供されている。例えば、医療分野では、AIを活用して、患者(対象)の病気の発症率(事象)の予測、患者(対象)に対して推奨される介入行為又は医療行為等の診察(事象)の決定等が行われる。
前述のシステムでは、学習データを用いた機械学習によって生成された予測モデルに基づいて、対象の事象の予測が行われる。例えば、予測モデルを生成するための技術として例えば、特許文献1の記載の技術が知られている。
特許文献1には、「予測装置54は、ADTreeからなる予測モデル138を記憶する予測モデル記憶装置を含む。予測モデル138は、症例データから抽出される特性の組のデータが与えられると、その患者に関連したAxLN転移等の発生を予測するように予め学習がされている。装置はさらに、診断対象となる症例データから、特性の組のデータを抽出する特性抽出部152と、特性抽出部152により抽出された特性の組のデータを予測モデル138に与えて、診断対象となる症例データの患者におけるAxLN転移等の発生を予測し、予測154として出力するモデル適用部156とを含む。」ことが記載されている。
特開2011-227838号公報
Marco Tulio Ribeiro 他、「"Why Should I Trust You?": Explaining the Predictions of Any Classifier」、KDD '16 Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining、2016年8月、Pages 1135-1144 Scott M Lundberg 他、「A Unified Approach to Interpreting Model Predictions」、Advances in Neural Information Processing Systems 30、2017年12月、Pages 4765-4774 R. Krishnan, G. Sivakumar, P. Bhattacharya、「Extracting decision trees from trained neural networks」、Department of Computer Science and Engineering, Indian Institute of Technology, Powai, Mumbai 400 076, India K.-L. Du、「Clustering: A neural network approach」、Neural Networks 23、2009年8月29日 、Pages 89-107
AIの活用に伴って、ユーザへの予測結果の根拠の解釈及び説明の提示が求められている。しかし、近年の機械学習技術の高度化によって、生成される予測モデルは複雑な構造となっている。予測モデルのブラックボックス化によって、予測モデルにより出力される予測結果の根拠の解釈及び説明が困難となっている。
例えば、予測モデルにより出力した介入行為が推奨される根拠をユーザである医師に提示することができない。
本発明は、予測性能が高く、かつ、ユーザが再現可能な予測ロジックを提示できる予測モデルを生成する技術を提供する。
本願において開示される発明の代表的な一例を示せば以下の通りである。すなわち、少なくとも一つの計算機を備える計算機システムであって、対象に関する事象を予測するための予測モデルを生成するための学習データを格納する第1のデータベースにアクセス可能であり、前記学習データは、前記対象の特性を表す項目の値である特徴量を複数含む入力データと、教師データとから構成され、前記少なくとも一つの計算機は、前記複数の特徴量を含む予測対象データの入力を受信した場合、前記予測対象データと類似する前記入力データから構成される前記学習データを抽出するための抽出基準を設定するための第1の学習処理を実行し、前記抽出基準に基づいて前記第1のデータベースから前記学習データを抽出し、抽出された前記学習データを要素とするデータセットを生成し、前記データセットを用いて前記予測モデルを生成するための第2の学習処理を実行し、前記予測モデルから、前記予測モデルの予測ロジックを示す決定論理を生成し、前記決定論理を提示するための第1の提示情報を出力する。
本発明の一形態によれば、予測性能が高く、かつ、ユーザが再現可能な予測ロジックを提示できる予測モデルを生成できる。上記した以外の課題、構成及び効果は、以下の実施例の説明により明らかにされる。
実施例1の計算機システムの構成の一例を示す図である。 実施例1の計算機システムの処理の流れを説明する図である。 実施例1の計算機が実行する処理を説明するフローチャートである。 実施例1の端末に表示される画面の一例を示す図である。 実施例1の予測モデルの予測性能の解析結果を示す図である。 実施例2の計算機システムの処理の流れを説明する図である。 実施例2の計算機が実行する処理を説明するフローチャートである。 実施例3の計算機システムの構成の一例を示す図である。 実施例3の予測モデル管理情報のデータ構造の一例を示す図である。 実施例3の計算機システムの処理の流れを説明する図である。 実施例3の計算機が実行する処理を説明するフローチャートである。 実施例3の計算機が実行する処理を説明するフローチャートである。 実施例3の決定論理の統合方法の一例を示す図である。 実施例3の決定論理の統合方法の一例を示す図である。
以下、本発明の実施例を、図面を用いて説明する。ただし、本発明は以下に示す実施例の記載内容に限定して解釈されるものではない。本発明の思想ないし趣旨から逸脱しない範囲で、その具体的構成を変更し得ることは当業者であれば容易に理解される。
以下に説明する発明の構成において、同一又は類似する構成又は機能には同一の符号を付し、重複する説明は省略する。
本明細書等における「第1」、「第2」、「第3」等の表記は、構成要素を識別するために付するものであり、必ずしも、数又は順序を限定するものではない。
図面等において示す各構成の位置、大きさ、形状、及び範囲等は、発明の理解を容易にするため、実際の位置、大きさ、形状、及び範囲等を表していない場合がある。したがって、本発明では、図面等に開示された位置、大きさ、形状、及び範囲等に限定されない。
図1は、実施例1の計算機システムの構成の一例を示す図である。
計算機システムは、計算機100及び端末101から構成される。計算機100及び端末101は、WAN(Wide Area Network)及びLAN(Local Area Network)等のネットワーク105を介して互いに接続される。ネットワーク105の接続方式は、有線及び無線のいずれでもよい。
端末101は、ユーザが操作する装置であり、図示しない、プロセッサ、メモリ、記憶装置、ネットワークインタフェース、入力装置、及び出力装置を有する。入力装置は、キーボード、マウス、及びタッチパネル等である。出力装置は、ディスプレイ及びプリンタ等である。
計算機100は、対象の事象の予測を行う計算機である。例えば、計算機100は、患者(対象)の病気の発症率(事象)の予測、患者(対象)に対する推奨される医療行為の決定等を行うための予測モデル202(図2参照)を生成する。また、計算機100は、予測対象データ200が入力された場合、予測モデル202を用いて予測結果を出力する。
本発明は、予測モデル202の種別に限定されない。予測モデル202は、ニューラルネットワーク、決定木、ベイジアンネットワーク、及び線型モデル等、様々な種別が考えられる。
計算機100は、プロセッサ110、メモリ111、及びネットワークインタフェース112を有する。各ハードウェア構成は内部バスを介して互いに接続される。なお、計算機100は、HDD(Hard Disk Drive)及びSSD(Solid State Drive)等の記憶装置を有してもよい。また、計算機100は、入力装置及び出力装置を有してもよい。
プロセッサ110は、メモリ111に格納されるプログラムを実行する。プロセッサ110がプログラムにしたがって処理を実行することによって、特定の機能を実現する機能部(モジュール)として動作する。以下の説明では、機能部を主語に処理を説明する場合、プロセッサ110が当該機能部を実現するプログラムを実行していることを示す。
メモリ111は、プロセッサ110が実行するプログラム及び当該プログラムが使用する情報を格納する。また、メモリ111は、プログラムが一時的に使用するワークエリアを含む。
ネットワークインタフェース112は、ネットワークを介して、外部装置と通信するためのインタフェースである。
ここで、メモリ111に格納されるプログラム及び情報について説明する。メモリ111は、データセット生成部120、学習部121、及び予測器122を実現するプログラムを格納し、また、学習データ管理情報130を格納する。
学習データ管理情報130は、予測器122が使用する予測モデル202を生成するために用いる学習データを管理するための情報である。ここで、学習データは、入力データ及び教師データから構成される。学習データ管理情報130には、複数の学習データが格納される。入力データは、対象の状態等を表す項目の値(特徴量)を複数含む。例えば、項目は、患者の年齢、体重、及び検査結果等を表すものであり、特徴量は、30歳、60kg、及び陽性等の具体的な値である。教師データは、予測モデル202に基づく入力データの処理することによって出力される理想的な結果を表すデータである。
データセット生成部120は、予測モデル202を生成するときに用いる学習データのデータセット201(図2参照)を生成する。学習部121は、データセット生成部120が生成したデータセット201を用いて機械学習を実行し、予測モデル202を生成する。予測器122は、予測モデル202を用いて、予測対象データ200に対する予測を行う。
なお、計算機100が有する各機能部は、複数の機能部を一つの機能部にまとめてもよいし、一つの機能部を機能毎に複数の機能部に分けてもよい。また、計算機100が有する機能部を複数の計算機100に分散するように配置してもよい。
図2は、実施例1の計算機システムの処理の流れを説明する図である。
計算機100は、端末101から予測対象データ200を含む予測要求を受信する。このとき、データセット生成部120は、予測対象データ200及び学習データ管理情報130に基づいて、データセット201を生成する。本発明は、データセット201の生成方法に一つの特徴を有する。
学習部121は、データセット201を用いた学習処理を実行し、予測モデル202を生成する。学習処理では、例えば、以下のような処理が実行される。(処理1)学習部121は、初期の予測モデル202が設定された予測器122に学習データを構成する入力データを入力し、予測結果を取得する。(処理2)学習部121は、予測結果及び学習データを構成する教師データの誤差が小さくなるように予測モデル202を修正又は更新する。
予測器122は、生成された予測モデル202を用いて予測対象データ200を処理することによって予測結果203を算出する。また、予測器122は、予測モデル202に基づいてユーザが再現可能な予測ロジックである決定論理204を生成する。予測器122は、予測結果203及び決定論理204を端末101に送信する。
図3は、実施例1の計算機100が実行する処理を説明するフローチャートである。図4は、実施例1の端末101に表示される画面の一例を示す図である。図5は、実施例1の予測モデル202の予測性能の解析結果を示す図である。
計算機100は、端末101から予測対象データ200を含む予測要求を受信した場合(ステップS101)、データセットの生成に用いるデータ抽出基準を設定するための学習処理を実行する(ステップS102)。
実施例1では、データセット生成部120が、K近傍法又はニューラルネットワークを用いてデータ抽出基準を生成するための学習処理を実行する。
(K近傍法)例えば、データセット生成部120は、学習データに対してK近傍法を適用し、特徴量空間において、入力されたデータの近傍に存在する学習データを探索するための近傍点探索指標(例えば、データ間のユークリッド距離やマハラノビス距離等)を算出する。近傍点探索指標がデータ間距離の場合、例えば予測対象データ200との距離がデータ抽出基準となる。
(ニューラルネットワーク)データセット生成部120は、各特徴量の抽出範囲を算出するために、学習データ及び例えば、非特許文献4のニューラルネットワークを用いた学習処理を実行し、クラスタリングを行う。この場合、各クラスタにそれぞれのデータが帰属する確率や各クラスタ中心との距離がデータ抽出基準となる。
次に、計算機100は、データ抽出基準及び予測対象データ200に基づいて、データセット201を生成する(ステップS103)。
具体的には、データセット生成部120は、データ抽出基準に基づいて、予測対象データ200の近傍に存在する学習データを特定し、特定された学習データを要素とするデータセット201を生成する。
次に、計算機100は、データセット201を用いて、予測モデル202を生成するための学習処理を実行する(ステップS104)。
具体的には、学習部121がデータセット201を用いて学習処理を実行する。学習部121は、生成された予測モデル202をワークエリアに格納する。なお、予測モデル202の学習方法は公知の技術であるため詳細な説明は省略する。
次に、計算機100は、予測モデル202を用いて、予測対象データ200に対する予測処理を実行する(ステップS105)。
具体的には、予測器122が、予測モデル202に基づいて、予測対象データ200を処理することによって予測結果203を算出する。このとき、予測器122は、非特許文献1又は非特許文献2等の技術を用いて、予測結果203に対する予測対象データ200の各特徴量の影響の大きさを表す影響度を算出してよい。
次に、計算機100は決定論理204を生成する(ステップS106)。
具体的には、予測器122は、予測モデル202に基づいて決定論理204を生成する。例えば、以下のような決定論理204が生成される。
予測モデル202が決定木の場合、予測器122は、決定木を表すグラフ及びパラメタを決定論理204として生成する。予測モデル202がベイジアンネットワークの場合、予測器122は、ベイジアンネットワークを表すグラフ及びパラメタを決定論理204として生成する。予測モデル202が線型モデルの場合、予測器122は、線型モデルを表す数式及びパラメタを決定論理204として生成する。
予測モデル202がニューラルネットワークの場合、予測器122は、例えば、非特許文献3に記載の技術を用いて、ニューラルネットワークから決定木を抽出し、決定木を表すグラフ及びパラメタを決定論理204として生成する。なお、ニューラルネットワークを表すグラフ及びパラメタが決定論理204として生成されてもよい。
なお、前述の決定論理204は、一例であってこれに限定されない。例えば、項目を行及び列の成分とする行列が決定論理204として生成されてもよい。行列の各セルには関連度等の値が格納される。
次に、計算機100、第1の提示情報を生成し(ステップS107)、端末101に送信する。具体的には、以下のような処理が実行される。
予測器122は、予測結果203及び決定論理204を提示するための第1の提示情報を生成する。なお、予測結果203及び決定論理204のいずれか一方のみを提示する提示情報が生成されてもよい。
予測器122は、入力データとして予測対象データ200が設定され、かつ、教師データとして予測結果が設定された学習データを学習データ管理情報130に格納する。本実施例では、学習データ管理情報130が更新されるため、予測を行う度にステップS102の処理が実行される。
なお、データ抽出基準を生成するための学習処理を繰り返し実行する必要がない場合、処理は実行されなくてもよい。この場合、ステップS102の処理は省略され、前回の学習処理の結果を用いた処理が実行される。以上がステップS107の処理の説明である。
端末101は、第1の提示情報を受信した場合、図4に示すような出力画面400を表示する。出力画面400は、予測結果203を表示する予測結果表示欄401及び決定論理204を表示する決定論理表示欄402を含む。
なお、図4に示す出力画面400は一例であってこれに限定されない。出力画面400は、他の表示欄及び操作ボタンを含んでもよい。
実施例1において生成される予測モデル202には以下のような特徴がある。
(特徴1)データセット201に含まれる学習データは、特徴量空間において予測対象データ200の近傍に存在するため、すなわち、予測対象データ200と類似性が高いため、予測に影響を与える項目の数が限定される。したがって、生成される予測モデル202は、全ての学習データを用いて生成された予測モデル202より構造が単純となる。また、予測モデル202の生成に要する計算コストが低いという特徴も有する。
例えば、予測モデル202が決定木の場合、決定木を構成する特徴量の数及び特徴量間を接続するリンクの数が少なくなる。このような決定木は、ユーザが再現可能な予測ロジックとして提示することができる。
(特徴2)データセット201に含まれる学習データは、予測対象データ200に類似し、かつ、任意の特徴量に特徴を有するデータである。したがって、データセット201に基づいて生成された予測モデル202を用いた場合、任意の特徴量の違いに基づいて精度の高い予測を実現できる。
ここで、図5を用いて実施例1の予測モデル202の予測性能について説明する。図5は、機械学習ライブラリのscikit-learnを用いて予測性能の検証結果を示す。
GradientBoostingClassifier」は、Gradient Boostingに基づいて生成されたデータセットから生成された予測モデルの予測性能を表す。「DynamicDecisionTreeClassifier」は、実施例1の予測モデル202の予測性能を表す。NN50、NN25、及びNN10はデータセット201に含める学習データの数(それぞれ、50,25,10)を表す。「KNeighborsClassifier」はK近傍法に基づいて生成されたデータセットから生成された予測モデルの予測性能を表す。「DesicionTreeClassifier」は、決定木に基づいて生成されたデータセットから生成された予測モデルの予測性能を表す。
図5に示すように、実施例1の予測モデル202の予測性能は十分高いことが分かった。
実施例1によれば、予測性能が高く、かつ、ユーザが再現可能な予測ロジックを提示できるような予測モデルを生成することができる。
実施例2では、計算機100が、端末101に、抽出基準に関する情報及びデータセット201に関する情報を提示する。以下、実施例1との差異を中心に実施例2について説明する。
実施例2の計算機システムの構成は実施例1と同一である。実施例2の計算機100の構成は実施例1と同一である。実施例2では、計算機100が実行する処理が一部異なる。
図6は、実施例2の計算機システムの処理の流れを説明する図である。
実施例2では、データセット生成部120は、データ抽出基準600及びデータセット201に関する情報を端末101に送信する。その他の処理は実施例1と同一である。
図7は、実施例2の計算機100が実行する処理を説明するフローチャートである。
実施例2では、ステップS103の処理が実行された後、計算機100は、第2の提示情報を生成し(ステップS151)、端末101に送信する。
具体的には、データセット生成部120は、データ抽出基準600に関する情報及びデータセット201に関する情報を提示するための第2の提示情報を生成し、端末101に送信する。データ抽出基準600に関する情報には、データ抽出基準600だけではなく、データの類否判定において影響(寄与)が大きい項目に関する情報等が含まれてもよい。例えば、予測器が出力する予測結果に対する項目の影響度を含めることができる。
実施例2によれば、データセット201に関する情報を提示することによって、ユーザは、予測結果203及び決定論理204をより明確に解釈することが可能になる。
例えば、ユーザである医師は、類似の特性又は症状を有する患者を特定することができる。また、医師は、データセット201を参照することによって自ら決定論理を構築し、計算機100が出力した決定論理204との一致点及び類似点を確認することができる。
実施例3では、計算機100が、過去に生成された決定論理204を統合する。以下、実施例1との差異を中心に実施例3について説明する。
図8は、実施例3の計算機システムの構成の一例を示す図である。
実施例3の計算機システムの構成は実施例1と同一である。実施例3の計算機100及び端末101のハードウェア構成は実施例1と同一である。実施例3では、計算機100の機能構成が異なる。
計算機100のメモリ111は、統合部123を実現するプログラムを格納し、また、予測モデル管理情報131を格納する。
統合部123は、複数の決定論理204を統合することによって統合決定論理1000(図10参照)を生成する。予測モデル管理情報131は、予測モデル202及び決定論理204等を管理するための情報である。
図9は、実施例3の予測モデル管理情報131のデータ構造の一例を示す図である。
予測モデル管理情報131は、予測対象データ901、予測モデル902、予測性能903、予測結果904、及び決定論理905から構成されるエントリを含む。一つの予測モデル202に対して一つのエントリが存在する。
予測対象データ901は、予測対象データ200を格納するフィールドである。予測モデル902は、予測モデル202を格納するフィールドである。予測性能903は、予測モデル202の予測性能を格納するフィールドである。予測結果904は、予測対象データ200に対する予測結果を格納するフィールドである。決定論理905は、決定論理204を格納するフィールドである。
なお、計算機100は、予測対象データ200、予測性能等を検索キーとする検索要求に基づいて、予測モデル管理情報131に格納されるエントリを検索し、検索結果を提示する検索部を含んでもよい。
図10は、実施例3の計算機システムの処理の流れを説明する図である。
実施例3では、予測器122は、予測モデル202、予測結果203、及び決定論理204を予測モデル管理情報131に格納する。
また、実施例3では、統合部123が、任意のタイミングで、予測モデル管理情報131を参照し、統合可能な決定論理204を特定する。統合部123は、特定された決定論理204を統合することによって、統合決定論理1000を生成し、端末101に送信する。
図11は、実施例3の計算機100が実行する処理を説明するフローチャートである。
実施例3では、ステップS104において、学習部121が、生成された予測モデル202の予測性能を計測し、予測モデル202及び予測性能を対応づけて、ワークエリアに格納する。
また、ステップS107の処理が実行された後、計算機100は、予測モデル管理情報131を更新する(ステップS161)
具体的には、予測器122は、予測モデル管理情報131にエントリを追加し、追加されたエントリの予測対象データ901に予測対象データ200を格納し、予測結果904に予測結果203を格納する。予測器122は、追加されたエントリの予測モデル902に予測モデル202を格納し、予測性能903に予測モデル202の予測性能を格納する。また、予測器122は、追加されたエントリの決定論理905に決定論理204を格納する。
図12は、実施例3の計算機100が実行する処理を説明するフローチャートである。図13A及び図13Bは、実施例3の決定論理204の統合方法の一例を示す図である。
計算機100は、端末101から統合要求を受信した場合に、以下の処理を開始する。統合要求には、決定論理204を統合するための条件を規定した統合条件情報が含まれるものとする。なお、計算機100は、予測対象データ200に対する予測と並列して、図12に示す処理を実行してもよい。
計算機100は、予測モデル管理情報131を参照し、統合条件情報に基づいて統合する決定論理204を特定する(ステップS201)。
例えば、予測性能が80%以上である予測モデル202の決定論理204を選択する統合条件情報が設定されている場合、統合部123は、予測性能903が80%以上のエントリを検索する。
次に、計算機100は、特定された決定論理204を統合することによって、統合決定論理1000を生成する(ステップS202)。
例えば、図13Aに示すような決定論理(決定木)204-1及び決定論理(決定木)204-2が特定された場合、統合部123は、二つの決定論理204-1、204-2の和集合を統合決定論理1000として生成する。図13Bに示すような決定論理(行列)204-1及び決定論理(行列)204-2が特定された場合、統合部123は、重み付け平均の演算を実行することによって二つの決定論理(行列)204-1、204-2を統合し、統合決定論理1000を生成する。
なお、生成される決定論理204の種別に応じて、様々な統合方法を採用することができる。例えば、和集合及び積集合のいずれかを生成することによって複数の決定論理204を統合する方法が考えられる。また、重み付け加算及び重みづけ平均のいずれかの演算を行って複数の決定論理204を統合する方法が考えられる。
次に、計算機100は、統合決定論理1000に基づいて、予測への影響が大きい項目を影響項目として特定する(ステップS203)。
例えば、統合決定論理1000が決定木の場合、統合部123は、下層への分岐の数が多いノードに対応する項目を影響項目として特定する。統合決定論理1000がニューラルネットワークの場合、統合部123は、入力層の重み係数が閾値より大きい項目を影響項目として特定する。統合決定論理1000が線型モデルの場合、統合部123は、数式の係数が閾値より大きい項に対応する項目を影響項目として特定する。
次に、計算機100は、統合決定論理1000及び影響項目を提示するための第3の提示情報を生成し(ステップS204)、端末101に送信する。
実施例3によれば、複数の決定論理204を統合することによって、正確かつ複雑な予測ロジックを再現することができる。
なお、本発明は上記した実施例に限定されるものではなく、様々な変形例が含まれる。また、例えば、上記した実施例は本発明を分かりやすく説明するために構成を詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、各実施例の構成の一部について、他の構成に追加、削除、置換することが可能である。
また、上記の各構成、機能、処理部、処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、本発明は、実施例の機能を実現するソフトウェアのプログラムコードによっても実現できる。この場合、プログラムコードを記録した記憶媒体をコンピュータに提供し、そのコンピュータが備えるプロセッサが記憶媒体に格納されたプログラムコードを読み出す。この場合、記憶媒体から読み出されたプログラムコード自体が前述した実施例の機能を実現することになり、そのプログラムコード自体、及びそれを記憶した記憶媒体は本発明を構成することになる。このようなプログラムコードを供給するための記憶媒体としては、例えば、フレキシブルディスク、CD-ROM、DVD-ROM、ハードディスク、SSD(Solid State Drive)、光ディスク、光磁気ディスク、CD-R、磁気テープ、不揮発性のメモリカード、ROMなどが用いられる。
また、本実施例に記載の機能を実現するプログラムコードは、例えば、アセンブラ、C/C++、perl、Shell、PHP、Python、Java(登録商標)等の広範囲のプログラム又はスクリプト言語で実装できる。
さらに、実施例の機能を実現するソフトウェアのプログラムコードを、ネットワークを介して配信することによって、それをコンピュータのハードディスクやメモリ等の記憶手段又はCD-RW、CD-R等の記憶媒体に格納し、コンピュータが備えるプロセッサが当該記憶手段や当該記憶媒体に格納されたプログラムコードを読み出して実行するようにしてもよい。
上述の実施例において、制御線や情報線は、説明上必要と考えられるものを示しており、製品上必ずしも全ての制御線や情報線を示しているとは限らない。全ての構成が相互に接続されていてもよい。
100 計算機
101 端末
105 ネットワーク
110 プロセッサ
111 メモリ
112 ネットワークインタフェース
120 データセット生成部
121 学習部
122 予測器
123 統合部
130 学習データ管理情報
131 予測モデル管理情報
200 予測対象データ
201 データセット
202 予測モデル
203 予測結果
204 決定論理
400 出力画面
600 データ抽出基準
1000 統合決定論理

Claims (15)

  1. 少なくとも一つの計算機を備える計算機システムであって、
    対象に関する事象を予測するための予測モデルを生成するための学習データを格納する第1のデータベースにアクセス可能であり、
    前記学習データは、前記対象の特性を表す項目の値である特徴量を複数含む入力データと、教師データとから構成され、
    前記少なくとも一つの計算機は、
    前記複数の特徴量を含む予測対象データの入力を受信した場合、前記予測対象データと類似する前記入力データから構成される前記学習データを抽出するための抽出基準を設定するための第1の学習処理を実行し、
    前記抽出基準に基づいて前記第1のデータベースから前記学習データを抽出し、抽出された前記学習データを要素とするデータセットを生成し、
    前記データセットを用いて前記予測モデルを生成するための第2の学習処理を実行し、
    前記予測モデルから、前記予測モデルの予測ロジックを示す決定論理を生成し、
    前記決定論理を提示するための第1の提示情報を出力することを特徴とする計算機システム。
  2. 請求項1に記載の計算機システムであって、
    前記少なくとも一つの計算機は、前記予測モデルを用いて前記予測対象データを処理することによって予測結果を算出し、
    前記第1の提示情報は、前記予測結果を含むことを特徴とする計算機システム。
  3. 請求項1に記載の計算機システムであって、
    前記少なくとも一つの計算機は、
    前記予測モデルを用いて前記予測対象データを処理することによって予測結果を算出し、
    前記入力データが前記予測対象データであり、かつ、前記教師データが前記算出された予測結果である、新規学習データを前記第1のデータベースに格納することを特徴とする計算機システム。
  4. 請求項1に記載の計算機システムであって、
    前記決定論理は、決定木、ベイジアンネットワーク、線型モデル、ニューラルネットワークのいずれかを示す情報であることを特徴とする計算機システム。
  5. 請求項1に記載の計算機システムであって、
    前記少なくとも一つの計算機は、前記第1の学習処理の結果に関する情報及び前記データセットに関する情報の少なくともいずれかを提示するための第2の提示情報を出力することを特徴とする計算機システム。
  6. 請求項1に記載の計算機システムであって、
    前記決定論理を格納する第2のデータベースにアクセス可能であり、
    前記少なくとも一つの計算機は、
    前記第2のデータベースに格納される前記決定論理を解析することによって、統合可能な前記決定論理を特定し、
    前記特定された決定論理を統合することによって統合決定論理を生成し、
    前記統合決定論理を提示するための第3の提示情報を出力することを特徴とする計算機システム。
  7. 請求項6に記載の計算機システムであって、
    前記少なくとも一つの計算機は、前記統合決定論理を解析することによって、前記予測対象データを構成し、予測への影響が大きい前記項目を、影響項目として特定し、
    前記第3の提示情報は、前記影響項目に関する情報を含むことを特徴とする計算機システム。
  8. 請求項1から請求項6のいずれか一項に記載の計算機システムであって、
    前記入力データ及び前記予測対象データは、介入行為に関する予測を行う前記予測モデルの生成に必要な複数の特徴量を含むデータであることを特徴とする計算機システム。
  9. 計算機システムが実行する情報の提示方法であって、
    前記計算機システムは、
    少なくとも一つの計算機を有し、
    対象に関する事象を予測するための予測モデルを生成するための学習データを格納する第1のデータベースにアクセス可能であり、
    前記学習データは、前記対象の特性を示す項目の値である特徴量を複数含む入力データと、教師データとから構成され、
    前記情報の提示方法は、
    前記少なくとも一つの計算機が、前記複数の特徴量を含む予測対象データの入力を受信した場合、前記予測対象データと類似する前記入力データから構成される前記学習データを抽出するための抽出基準を設定するための第1の学習処理を実行するステップと、
    前記少なくとも一つの計算機が、前記抽出基準に基づいて前記第1のデータベースから前記学習データを抽出し、抽出された前記学習データを要素とするデータセットを生成するステップと、
    前記少なくとも一つの計算機が、前記データセットを用いて前記予測モデルを生成するための第2の学習処理を実行するステップと、
    前記少なくとも一つの計算機が、前記予測モデルから、前記予測モデルの予測ロジックを示す決定論理を生成するステップと、
    前記少なくとも一つの計算機が、前記決定論理を提示するための第1の提示情報を出力するステップと、を含むことを特徴とする情報の提示方法。
  10. 請求項9に記載の情報の提示方法であって、
    前記少なくとも一つの計算機が、前記予測モデルを用いて前記予測対象データを処理することによって予測結果を算出するステップを含み、
    前記第1の提示情報は、前記予測結果を含むことを特徴とする情報の提示方法。
  11. 請求項9に記載の情報の提示方法であって、
    前記少なくとも一つの計算機が、前記予測モデルを用いて前記予測対象データを処理することによって予測結果を算出するステップと、
    前記少なくとも一つの計算機が、前記入力データが前記予測対象データであり、かつ、前記教師データが前記算出された予測結果である、新規学習データを前記第1のデータベースに格納するステップと、を含むことを特徴とする情報の提示方法。
  12. 請求項9に記載の情報の提示方法であって、
    前記決定論理は、決定木、ベイジアンネットワーク、線型モデル、ニューラルネットワークのいずれかを示す情報であることを特徴とする情報の提示方法。
  13. 請求項9に記載の情報の提示方法であって、
    前記少なくとも一つの計算機が、前記第1の学習処理の結果に関する情報及び前記データセットに関する情報の少なくともいずれかを提示するための第2の提示情報を出力するステップを含むことを特徴とする情報の提示方法。
  14. 請求項9に記載の情報の提示方法であって、
    前記計算機システムは、前記決定論理を格納する第2のデータベースにアクセス可能であり、
    前記情報の提示方法は、
    前記少なくとも一つの計算機が、前記第2のデータベースに格納される前記決定論理を解析することによって、統合可能な前記決定論理を特定するステップと、
    前記少なくとも一つの計算機が、前記特定された決定論理を統合することによって統合決定論理を生成するステップと、
    前記少なくとも一つの計算機が、前記統合決定論理を解析することによって、前記予測対象データを構成し、前記予測への影響が大きい前記項目を、影響項目として特定するステップと、
    前記少なくとも一つの計算機が、前記統合決定論理及び前記影響項目に関する情報を提示するための第3の提示情報を出力するステップと、を含むことを特徴とする情報の提示方法。
  15. 請求項9から請求項14のいずれか一項に記載の情報の提示方法であって、
    前記入力データ及び前記予測対象データは、介入行為に関する予測を行う前記予測モデルの生成に必要な複数の特徴量を含むデータであることを特徴とする情報の提示方法。
JP2019019357A 2019-02-06 2019-02-06 計算機システム及び情報の提示方法 Active JP7057761B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2019019357A JP7057761B2 (ja) 2019-02-06 2019-02-06 計算機システム及び情報の提示方法
US16/708,473 US11443238B2 (en) 2019-02-06 2019-12-10 Computer system and presentation method of information

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019019357A JP7057761B2 (ja) 2019-02-06 2019-02-06 計算機システム及び情報の提示方法

Publications (3)

Publication Number Publication Date
JP2020126510A JP2020126510A (ja) 2020-08-20
JP2020126510A5 JP2020126510A5 (ja) 2021-05-06
JP7057761B2 true JP7057761B2 (ja) 2022-04-20

Family

ID=71836567

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019019357A Active JP7057761B2 (ja) 2019-02-06 2019-02-06 計算機システム及び情報の提示方法

Country Status (2)

Country Link
US (1) US11443238B2 (ja)
JP (1) JP7057761B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20230316107A1 (en) 2020-08-27 2023-10-05 Nec Corporation Information processing device, information processing method, and recording medium
CN113887811B (zh) * 2021-10-13 2022-08-12 江苏明茂新能源科技有限公司 一种充电桩数据管理方法及系统
CN114816835B (zh) * 2022-06-27 2022-09-02 北京得瑞领新科技有限公司 等效驻留时间的恢复方法、装置、存储介质及电子设备
CN117077579B (zh) * 2023-10-17 2024-02-06 深圳十沣科技有限公司 翼型流场预测方法、装置、设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160140442A1 (en) 2014-11-14 2016-05-19 Medidata Solutions, Inc. System and method for determining subject conditions in mobile health clinical trials
JP2018032210A (ja) 2016-08-24 2018-03-01 富士通株式会社 設計予測装置、設計予測プログラムおよび設計予測方法
JP2018180993A (ja) 2017-04-14 2018-11-15 株式会社日立製作所 データ分析支援システム及びデータ分析支援方法

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2810202B2 (ja) * 1990-04-25 1998-10-15 株式会社日立製作所 ニューラルネットワークによる情報処理装置
JPH0696052A (ja) * 1992-09-14 1994-04-08 Toshiba Corp 時系列データ分類・予測装置
US20050120009A1 (en) * 2003-11-21 2005-06-02 Aker J. B. System, method and computer program application for transforming unstructured text
US7519566B2 (en) * 2004-02-11 2009-04-14 Oracle International Corporation Method and apparatus for automatically and continuously updating prediction models in real time based on data mining
RU2007124523A (ru) * 2004-12-30 2009-02-10 ПРОВЕНТИС, Инк., (US) Способы, системы и компьютерные программные продукты для разработки и использования прогнозных моделей для прогнозирования большинства медицинских случаев, оценки стратегий вмешательства и для одновременной оценки нерегулярности биологических маркеров
JP5603639B2 (ja) 2010-04-23 2014-10-08 国立大学法人京都大学 予測装置の学習装置及びそのコンピュータプログラム
US11232367B1 (en) * 2016-12-14 2022-01-25 Groupon, Inc. Apparatus and method for forecasted performance level adjustment and modification
CN107292528A (zh) * 2017-06-30 2017-10-24 阿里巴巴集团控股有限公司 车险风险预测方法、装置及服务器
JP6586184B2 (ja) * 2018-03-13 2019-10-02 株式会社日立製作所 データ分析支援装置、及びデータ分析支援方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160140442A1 (en) 2014-11-14 2016-05-19 Medidata Solutions, Inc. System and method for determining subject conditions in mobile health clinical trials
JP2018032210A (ja) 2016-08-24 2018-03-01 富士通株式会社 設計予測装置、設計予測プログラムおよび設計予測方法
JP2018180993A (ja) 2017-04-14 2018-11-15 株式会社日立製作所 データ分析支援システム及びデータ分析支援方法

Also Published As

Publication number Publication date
JP2020126510A (ja) 2020-08-20
US11443238B2 (en) 2022-09-13
US20200250579A1 (en) 2020-08-06

Similar Documents

Publication Publication Date Title
JP7057761B2 (ja) 計算機システム及び情報の提示方法
JP6975692B2 (ja) 計算機システム及び予測器が出力した予測値の根拠に関連する情報の提示方法
Lucca et al. CC-integrals: Choquet-like copula-based aggregation functions and its application in fuzzy rule-based classification systems
US11152119B2 (en) Care path analysis and management platform
US20160140327A1 (en) Generating drug repositioning hypotheses based on integrating multiple aspects of drug similarity and disease similarity
US10073827B2 (en) Method and system to generate a process flow diagram
JP6901308B2 (ja) データ分析支援システム及びデータ分析支援方法
JP5533894B2 (ja) 外れ値検出装置、外れ値検出方法、プログラム及び車両故障診断システム
JP7051724B2 (ja) 計算機システム及び対象に関する目的を達成するために有用な情報の提示方法
JP2007034700A (ja) 予測プログラムおよび予測装置
JP7145059B2 (ja) モデルの予測根拠提示システム及びモデルの予測根拠提示方法
AU2018354105A1 (en) Genealogical entity resolution system and method
US20180307805A1 (en) Identifying chemical substructures associated with adverse drug reactions
JP2021064049A (ja) 計算機システム及び数理モデルの生成支援方法
Lyaqini et al. Supervised learning as an inverse problem based on non-smooth loss function
Curry et al. Scaling genetic programming to large datasets using hierarchical dynamic subset selection
JP7059151B2 (ja) 時系列データ分析装置、時系列データ分析方法、および時系列データ分析プログラム
US20040004612A1 (en) Method and system for processing graphics simulation data
US9898525B2 (en) Information processing device which carries out risk analysis and risk analysis method
JP5175585B2 (ja) 文書処理装置、電子カルテ装置および文書処理プログラム
WO2022249407A1 (ja) アセスメント支援システム、アセスメント支援方法、及び記録媒体
Kurbalija et al. Two faces of the framework for analysis and prediction, part 2-research
JP7371805B1 (ja) 運転支援装置、運転支援方法及びプログラム
CN110796262B (zh) 机器学习模型的测试数据优化方法、装置及电子设备
US20240013028A1 (en) Processing device, processing method, and non-transitory computer readable medium storing program

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210316

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210316

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220209

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220215

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220325

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220405

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220408

R150 Certificate of patent or registration of utility model

Ref document number: 7057761

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150