JP2021152751A - 分析支援装置及び分析支援方法 - Google Patents

分析支援装置及び分析支援方法 Download PDF

Info

Publication number
JP2021152751A
JP2021152751A JP2020052908A JP2020052908A JP2021152751A JP 2021152751 A JP2021152751 A JP 2021152751A JP 2020052908 A JP2020052908 A JP 2020052908A JP 2020052908 A JP2020052908 A JP 2020052908A JP 2021152751 A JP2021152751 A JP 2021152751A
Authority
JP
Japan
Prior art keywords
analysis
model
parameter
case
analyzed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2020052908A
Other languages
English (en)
Other versions
JP7292235B2 (ja
Inventor
文也 工藤
Fumiya Kudo
文也 工藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2020052908A priority Critical patent/JP7292235B2/ja
Publication of JP2021152751A publication Critical patent/JP2021152751A/ja
Application granted granted Critical
Publication of JP7292235B2 publication Critical patent/JP7292235B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

【課題】分析対象事例に類似する分析済み事例を高精度かつ効率良く特定する。【解決手段】分析支援装置は、分析対象事例の説明変数と目的変数とを示す分析対象事例データと、分析済み事例を分析したモデル及びパラメータの組み合わせと、当該パラメータが適用されたモデルによって分析済み事例が分析されたときの当該モデルの評価値と、を示す分析評価データと、を保持し、分析評価データに含まれる一部のモデル及びパラメータの組み合わせを分析対象事例の説明変数に適用したときの当該モデルの評価値を算出し、算出した評価値と、分析評価データが示す評価値それぞれと、を比較して類似度を算出し、算出した類似度に基づいて、分析対象事例に類似する分析済み事例を特定する。【選択図】図1

Description

本発明は、分析支援装置及び分析支援方法に関する。
近年、多くの産業分野において業務データの収集が可能であり、売り上げを始めとした企業活動におけるKPI(Key Performance Indicator)を予測するモデルの生成や、要因分析などのデータ分析を補助及び自動化するニーズが高まっている。また、過去の分析事例を学習し、データ分析に必要な前処理、特徴生成、及びモデリングを支援するツールが開発されている。
本技術分野の背景技術として国際公開第2019/073900号(特許文献1)がある。この公報には、「生体活動に起因する生体音に基づいて、簡易かつ高精度に疾患を判定する。生体活動に起因する生体音に基づいて疾患の判定を行うための判定アルゴリズムD2を学習する機械学習装置(3)であって、複数の被験体の前記生体音の音情報を取得する音情報取得部(33)と、前記複数の被験体の疾患に関する診断情報を取得する診断情報取得部(34)と、前記各被験体の前記音情報および前記診断情報に基づいて、判定アルゴリズムD2を学習する学習部(35)と、を備えた、機械学習装置(3)。」と記載されている(要約参照)。
国際公開第2019/073900号
従来技術は、分析済み事例のデータと分析対象事例のデータとから、予め定義した属性情報を抽出し、分析済み事例と分析対象事例との類似度を求めて、分析対象事例に類似する分析済み事例を抽出する。しかし、類似度の算出に用いられる属性情報は設計者が選択するものであるため、分析対象事例に類似する分析済み事例を精度良く抽出するための属性情報が必ずしも選択されているとは限らない。さらに、設計者が選択した属性情報は、事例データが持つ性質の一部しか表現できていない可能性が高い。つまり、従来技術では、類似度の設計自体が困難であった。
また特許文献1に記載の技術は、決められた種類のモデリングと特徴量を用いて判定アルゴリズムを学習するが、過去のモデリング結果を利用して効率よく学習を行う仕組みを有していない。そこで本発明の一態様は、分析対象事例を高精度に分析するために、分析対象事例に類似する分析済み事例を高精度かつ効率良く特定することを目的とする。
上記課題を解決するため、本発明の一態様は以下の構成を採用する。分析支援装置は、プロセッサとメモリとを有し、前記メモリは、分析対象事例の説明変数と目的変数とを示す分析対象事例データと、分析済み事例を分析したモデル及び前記モデルに適用されたパラメータの組み合わせと、前記パラメータが適用されたモデルによって前記分析済み事例が分析されたときの当該モデルの評価値と、を示す分析評価データと、を保持し、前記プロセッサは、前記分析評価データに含まれる予め定められた一部のモデル及びパラメータの組み合わせを前記分析対象事例の説明変数に適用して前記分析対象事例の目的変数を予測したときの当該モデルの評価値を算出し、前記算出した評価値と、前記分析評価データが示す評価値それぞれと、を比較して類似度を算出し、前記算出した類似度に基づいて、前記分析対象事例に類似する分析済み事例である類似事例を特定する。
本発明の一態様によれば、分析対象事例を高精度に分析するために、分析対象事例に類似する分析済み事例を高精度かつ効率良く特定することができる。
上記した以外の課題、構成及び効果は、以下の実施形態の説明により明らかにされる。
実施例1における分析支援装置の構成例を示すブロック図である。 実施例1における入力テーブルの一例である。 実施例1における分析情報の一例である。 実施例1における分析データベースの一例である。 実施例1におけるパラメータデータベースの一例である。 実施例1における自動分析実行処理の一例を示すフローチャートである。 実施例1におけるルールベース問題分類処理の一例を示すフローチャートである。 実施例1における共通パラメータ探索処理の一例を示すフローチャートである。 実施例1における類似事例抽出処理の一例を示すフローチャートである。 実施例1における類似事例抽出処理の具体例を示す説明図である。 実施例1におけるパラメータレコメンド処理の一例を示すフローチャートである。 実施例1における周辺探索処理の一例を示すフローチャートである。 実施例1における再学習処理の一例を示すフローチャートである。 実施例1における分析データベース作成処理の一例を示すフローチャートである。 実施例1における自動分析実行処理が行われるときに出力装置に表示される表示画面の一例である。
以下、本発明の実施形態を図面に基づいて詳細に説明する。本実施形態において、同一の構成には原則として同一の符号を付け、繰り返しの説明は省略する。なお、本実施形態は本発明を実現するための一例に過ぎず、本発明の技術的範囲を限定するものではないことに注意すべきである。
図1は、分析支援装置の構成例を示すブロック図である。分析支援装置100は、例えば、それぞれが互いにバス107等の内部通信線で接続された、CPU(Control Processing Unit)101、メモリ102、補助記憶装置103、入力装置104、出力装置105、及び通信装置106を有する計算機によって構成される。
CPU101は、プロセッサを含み、メモリ102に格納されたプログラムを実行する。メモリ102は、不揮発性の記憶素子であるROM(Read Only Memory)及び揮発性の記憶素子であるRAM(Random Access Memory)を含む。ROMは、不変のプログラム(例えば、BIOS(Basic Input/Output System))などを格納する。RAMは、DRAM(Dynamic Random Access Memory)のような高速かつ揮発性の記憶素子であり、CPU101が実行するプログラム及びプログラムの実行時に使用されるデータを一時的に格納する。
補助記憶装置103は、例えば、磁気記憶装置(HDD(Hard Disk Drive))、フラッシュメモリ(SSD(Solid State Drive))等の大容量かつ不揮発性の記憶装置であり、CPU101が実行するプログラム及びプログラムの実行時に使用されるデータを格納する。すなわち、プログラムは、補助記憶装置103から読み出されて、メモリ102にロードされて、CPU101によって実行される。
入力装置104は、オペレータからの入力を受け付ける装置であり、例えば、キーボードやマウス等である。出力装置105は、プログラムの実行結果をオペレータが視認可能な形式で出力する装置であり、例えば、ディスプレイやプリンタ等である。通信装置106は、所定のプロトコルに従って、他の装置との通信を制御するネットワークインターフェース装置である。
CPU101が実行するプログラムは、リムーバブルメディア(CD−ROM、フラッシュメモリなど)又はネットワークを介して分析支援装置100に提供され、非一時的記憶媒体である不揮発性の補助記憶装置103に格納される。このため、分析支援装置100は、リムーバブルメディアからデータを読み込むインターフェースを有するとよい。
分析支援装置100は、物理的に一つの計算機上で、又は、論理的又は物理的に構成された複数の計算機上で構成される計算機システムであり、同一の計算機上で別個のスレッドで動作してもよく、複数の物理的計算機資源上に構築された仮想計算機上で動作してもよい。
CPU101は、例えば、自動分析実行部111、分析データベース作成部112、ルールベース問題分類部113、共通パラメータ探索部114、類似事例抽出部115、パラメータレコメンド部116、周辺探索部117、及び再学習部118を含む。
自動分析実行部111は、後述する入力テーブル121が示す分析対象事例の自動分析処理を制御する。分析データベース作成部112は、後述する分析データベース123を生成する。ルールベース問題分類部113は、入力テーブル121が示す分析対象事例においてモデルによって解かれる問題を特定する。
共通パラメータ探索部114は、分析データベース123が示す一部のパラメータが適用されたモデルを入力テーブル121の説明変数に適用する。類似事例抽出部115は、分析対象事例に類似する過去に分析済みの事例である類似事例を抽出する。
パラメータレコメンド部116は、類似事例において適用済みのパラメータのうち、分析対象事例に適用すると最も良い評価値を示すパラメータをレコメンドする。周辺探索部117は、レコメンドされたパラメータの周辺のパラメータを探索し、探索したパラメータのうち分析対象事例に適用すると最も良い評価値を示すベストパラメータを出力する。再学習部118は、ベストパラメータを用いて分析対象事例を分析するための後述するモデル124を生成する。
例えば、CPU101は、メモリ102にロードされた自動分析実行プログラムに従って動作することで、自動分析実行部111として機能し、メモリ102にロードされた分析データベース作成プログラムに従って動作することで、分析データベース作成部112として機能する。
なお、CPU101に含まれる機能部による機能の一部又は全部が、例えば、ASIC(Application Specific Integrated Circuit)やFPGA(Field−Programmable Gate Array)等のハードウェアによって実現されてもよい。
補助記憶装置103は、例えば、入力テーブル121、分析情報122、分析データベース123、モデル124、及びパラメータデータベース125を保持する。なお、補助記憶装置103に格納されている一部又は全部の情報は、メモリ102に格納されていてもよいし、分析支援装置100に接続されているデータベース等に格納されていてもよい。
入力テーブル121は、分析対象事例のデータを保持する。分析情報122は、入力テーブル121を分析するための追加情報を保持する。分析データベース123は、過去に分析済みの事例において分析に用いられたモデル及びパラメータ、並びに評価値を示す情報を保持する。後述するように分析データベース123は、分析済み事例そのもの(分析済み事例の属性情報)を直接的に示す情報を有している必要はない。
モデル124は、入力テーブル121が示す分析対象事例を分析するためのモデル、及び過去に分析済みの事例を分析したモデルを含む。パラメータデータベース125は、モデル124に適用されるパラメータを示す情報を保持する。
なお、本実施形態において、分析支援装置100が使用する情報は、データ構造に依存せずどのようなデータ構造で表現されていてもよい。本実施形態ではテーブル形式で情報が表現されているが、例えば、リスト、データベース又はキューから適切に選択したデータ構造体が、情報を格納することができる。
図2は、入力テーブル121の一例である。入力テーブル121は、列方向に同じ変数の値を格納し、行方向に各変数の値を格納するテーブルデータである。
図2の例では、入力テーブル121は、PassengerId欄1211、Survived欄1212、Sex欄1213、Age欄1214、SibSp欄1215、Fare欄1216、Embarked欄1217と、を含む。入力テーブル121に含まれる変数(列)の数は任意であり、各変数は文字列、フラグ、連続数(数値)等の様々な型の値を取ることができる。
図2の例では、PassengerId欄1211がIDカラム(即ちレコードを識別するための変数)、Survived欄1212が目的変数カラムであり、他の欄は説明変数カラムである。本実施例における分析の目的は、説明変数カラムの値から目的変数カラムの値をより正確に予測する予測式であるモデルを生成することを含む。
図2の入力テーブル121ではSurvived欄1212が目的変数カラムであり、Survived欄1212の値は1又は0のいずれかをとるため、Survived欄1212の値を予測することは二値分類の問題である。一般的に、IDカラムはデータサンプルを識別する通し番号であるため、分析には直接的に用いられないことが多い。
図3は、分析情報122の一例である。分析情報122は、例えば、ID欄1221、目的変数名欄1222、問題欄1223、及び型欄1224を含む。ID欄1221は、分析情報122のレコードを識別するIDを保持する。目的変数名欄1222は、入力テーブル121の目的変数カラムを示す。問題欄1223は、入力テーブル121が二値分類、多クラス分類、又は回帰等の、どのクラスの問題に分類されるかを示す。型欄1224は、目的変数カラムの型を示す。
図4は、分析データベース123の一例である。分析データベース123は問題分類ごとに定義されており、図4は問題分類が多クラス問題かつ稀現象問題である分析データベース123の例を示す。分析データベース123は、例えば、Analysis_ID欄1231、Model_Name欄1232、Common_Search欄1233、Recipe_ID欄1234、Best_Flag欄1235、及びAccuracy欄1236を含み、過去の探索結果情報を保持する。
Analysis_ID欄1231は、分析事例を識別するID(つまり1つの入力テーブル121を分析する際に付与されるID)を保持する。一つの分析事例に対してパラメータを変化させて1回以上の探索と評価が行われるため、一つのAnalysis_IDに対して複数の結果が保存され得る。
Model_Name欄1232は分析に用いられたモデル124の名称を保持する。線形回帰、Logistic回帰、XG Boost、Random Forest、SVM(Support Vector Machine)、SVR(Support Vector Regression)、Neural Network、及びGaussian Processは、いずれも分析に用いられるモデル124の一例である。
Common_Search欄1233は、入力テーブル121が示す分析対象事例に類似する分析済みの事例を抽出するために、利用されるパラメータを識別するためのフラグを保持する。
本実施例の分析支援装置100は、分析対象事例に類似する分析済み事例を抽出し、分析対象事例の分析に用いられると精度の高い分析が可能なパラメータをレコメンドする。分析支援装置100は、この類似する事例を見つけるために、探索対象のパラメータを同一にすることで事例間の比較を行うことができる。そのため分析データベース123は、分析事例間で同一パラメータを探索したサンプルを識別するためのフラグとしてCommon_Search欄1233を有する。
Recipe_ID欄1234は、探索済みのパラメータセットそれぞれを識別するIDであるRecipe_IDを保持する。分析データベース123に含まれるパラメータセットがレコメンドされる際には、このRecipe_IDによってパラメータセットが指定される。
Best_Flag欄1235は、同一の分析事例、即ち同一のAnalysis_IDを有する事例において、モデルが最も良い性能を示したパラメータセットを識別するためのフラグであるBest_Flagを保持する。図4の例では予測精度(Accuracy欄1236の値)によってモデルの性能が評価されているが、他の評価指標及びモデルの安定性などの様々な観点によって、モデルの性能を評価することができる。
Accuracy欄1236は、Recipe_ID欄1234が示すパラメータセットをモデルに適用した際のモデルの評価値の一例である予測精度(Accuracy)を示す。なお、分析データベース123は説明の便宜上データベースと名付けられているが、必ずしもデータベースである必要はなく、例えばテキスト形式や他の形式であってもよい。
図5は、パラメータデータベース125の一例である。パラメータデータベース125は、例えば、Recipe_IDを保持するRecipe_ID欄1251を含む。また、パラメータデータベース125は、例えば、いずれもパラメータ値を保持する、param_max_depth欄1252、param_leafe_num欄1253、param_n_estimator欄1254、及びparam_learing_rate欄1255を含む。図5の例では、パラメータデータベース125は、4つのパラメータを保持しているが、パラメータデータベース125が保持するパラメータの種類及び数は、分析支援装置100が有するモデル124に依存する。
なお、補助記憶装置103が有する各データが有する図示された欄はあくまで一例であり、各テーブルは図示された全ての欄を必ずしも有していなくてもよいし、別の欄をさらに有していてもよい。
図6は、自動分析実行処理の一例を示すフローチャートである。図6の処理の前に入力テーブル121及び分析情報122の値が入力済みであるものとする。但し分析情報122の問題欄1223には値が格納されていなくてもよい(null値が格納されていてもよい)。
自動分析実行処理において、自動分析実行部111は、入力テーブル121と分析情報122とパラメータデータベース125と、に基づいて、分析データベース123から分析対象事例に類似する過去の分析済み事例を検索する。そして、自動分析実行部111は、最良の評価値を示すパラメータを抽出し、当該抽出したパラメータを適用して、分析対象事例を分析するためのモデルを出力する。
図6の各ステップの詳細については後述するため、ここでは簡潔に説明する。まず、ルールベース問題分類部113は、入力テーブル121が示す分析対象事例においてモデルによって解かれる問題が、どの問題に属するかを判定する(S601)。共通パラメータ探索部114は、過去の分析済み事例に適用されたパラメータを用いたモデルを入力テーブル121の説明変数に適用した場合のモデルの評価値を算出する(S602)。
類似事例抽出部115は、当該パラメータが適用された、分析対象事例である入力テーブル121おける評価値と、過去の分析済み事例における評価値と、を比較して、分析対象事例に最も類似する分析済み事例である類似事例を抽出する(S603)。
パラメータレコメンド部116は、類似事例に適用されたパラメータのうち最も評価値が高いパラメータを抽出し、レコメンドする(S604)。周辺探索部117は、レコメンドされたパラメータの周辺を探索してベストパラメータを抽出する(S605)。再学習部118は、ベストパラメータを用いて、分析対象事例を分析するためのモデル124を生成する。
図7は、ステップS601のルールベース問題分類処理の一例を示すフローチャートである。ルールベース問題分類部113は、入力テーブル121及び分析情報122を読み出す(S701)。
ルールベース問題分類部113は、分析情報122において問題分類が定義されているか、即ち問題欄1223に値が入力されているかを判定する(S702)。
ルールベース問題分類部113は、分析情報122において問題分類が定義されていると判定した場合(S702:Yes)、問題欄1223が示す問題分類を問題分類結果として出力し(S707)、ルールベース問題分類処理を終了する。
ルールベース問題分類部113は、分析情報122において問題分類が定義されていないと判定した場合(S702:No)、分析情報122の目的変数名欄1222から入力テーブル121の目的変数カラムを特定し、入力テーブル121の目的変数カラムのユニーク要素数(即ち要素の種類数)が2以下であるかを判定する(S703)。
ルールベース問題分類部113は、目的変数カラムのユニーク要素数が2以下であると判定した場合(S703:Yes)、入力テーブル121の問題が二値分類問題を含むことを示す情報を問題分類結果に含め、稀現象判定処理を実行して(S705)、問題分類結果を出力し(S707)、ルールベース問題分類処理を終了する。
なお、ルールベース問題分類部113は、ステップS705において、目的変数カラムの値の偏りが大きい場合に、入力テーブル121の問題が稀現象問題を含むことを示す情報を問題分類結果に含める。具体的には、例えば、ルールベース問題分類部113は、目的変数カラムの値の分散が所定値以上である場合や、目的変数カラムの値の最大の相対度数と最小の相対度数との差が所定値以上である場合等に、目的変数カラムの値の偏りが大きいと判定する。
ルールベース問題分類部113は、目的変数カラムのユニーク要素数が2を超えると判定した場合(S703:No)、目的変数が文字データであるかを判定する(S705)。具体的には、例えば、ルールベース問題分類部113は、分析情報122の型欄1224の値を参照して目的変数が文字データであるか否かを判定してもよいし、入力テーブル121の目的変数カラムの値に1つでも文字データが含まれている場合に目的変数が文字データであると判定してもよい。このようにルールベース問題分類部113は、目的変数のデータ型に基づいて問題分類を実行する。
ルールベース問題分類部113は、目的変数が文字データであると判定した場合(S704:Yes)、入力テーブル121の問題が多クラス問題を含むことを示す情報を問題分類結果に含め、稀現象判定処理を実行して(S705)、問題分類結果を出力し(S707)、ルールベース問題分類処理を終了する。
ルールベース問題分類部113は、目的変数が文字データでない(即ち数値データである)と判定した場合(S704:No)、入力テーブル121の目的変数カラムのユニーク要素数が予め定められた閾値α以下であるかを判定する(S705)。
ルールベース問題分類部113は、目的変数カラムのユニーク要素数がα以下であると判定した場合(S705:Yes)、入力テーブル121の問題が多クラス問題を含むことを示す情報を問題分類結果に含め、稀現象判定処理を実行して(S705)、問題分類結果を出力し(S707)、ルールベース問題分類処理を終了する。ルールベース問題分類部113は、目的変数カラムのユニーク要素数がαを超えると判定した場合(S705:No)、入力テーブル121の問題が回帰問題であることを示す情報を問題分類結果に含め、問題分類結果を出力し(S707)、ルールベース問題分類処理を終了する。
図7の処理により、入力テーブル121の問題分類結果は、分析情報122の問題欄1223が示す問題、二値問題、二値問題かつ稀現象問題、多クラス問題、多クラス問題かつ稀現象問題、又は回帰問題のいずれかに該当する。
図8は、ステップS602の共通パラメータ探索処理の一例を示すフローチャートである。共通パラメータ探索部114は、入力テーブル121と、分析情報122と、ステップS707で出力された問題分類結果が示す問題に対応する分析データベース123と、を読み出す(S801)。
共通パラメータ探索部114は、ステップS801で読み出した分析データベース123のCommon_Search欄1233の値が1であるレコードのモデルとRecipe_IDとを特定し、特定したRecipe_IDに対応するパラメータセットをcommon_gridとしてパラメータデータベース125から抽出する(S802)。
共通パラメータ探索部114は、common_gridとして抽出したパラメータセットそれぞれについて、当該パラメータセットに分析データベース123において対応するモデルを入力テーブル121の説明変数の値に適用して、当該パラメータセットが適用されたモデルが入力テーブル121の説明変数に適用されたときの当該モデルの評価値(例えば予測精度(Accuracy))を算出する(S803)。
共通パラメータ探索部114は、ステップS802で抽出したパラメータセットである探索済みパラメータ群θsearchと、ステップS803において得られた評価値と、を対応付けて出力する(S804)。
図9は、ステップS603の類似事例抽出処理の一例を示すフローチャートである。類似事例抽出部115は、入力テーブル121と、分析情報122と、ステップS804で出力された探索済みパラメータ群θsearchと、ステップS707で出力された問題分類結果が示す問題に対応する分析データベース123と、を読み出す(S901)。
類似事例抽出部115は、分析データベース123の分析済み事例のAnalysis_IDそれぞれについて、common_gridに対する評価値(Accuracy)と、探索済みパラメータ群θsearchにおける評価値と、を比較して、当該分析済み事例と、入力テーブル121の分析対象事例と、の類似度を算出する(S902)。
類似事例抽出部115は、ステップS902において、例えば、分析済み事例のcommon_gridに対する評価値と、探索済みパラメータ群θsearchにおける評価値と、の間の相関係数、ユークリッド距離、マンハッタン距離、又は絶対誤差等のいずれかを類似度として算出する。類似事例抽出部115は、入力テーブル121の分析対象事例との間の類似度が最も高い分析済み事例のAnalysis_IDを類似事例IDとして出力する(S903)。
図10は、図9に示した類似事例抽出処理の具体例を示す説明図である。前述したように類似事例抽出部115は、入力テーブル121から得られた分析対象事例における、探索済みパラメータ群θsearchを適用した場合のモデルの評価値であるAccuracyと、分析データベース123の分析済み事例それぞれにおけるθsearchに対応するパラメータセットの評価値であるAccuracyと、の類似度を算出する。前述したように分析データベース123には複数の分析済み事例が格納されており、分析済み事例を識別するAnalysis_IDが付与されている。
Analysis_IDが「1」、「2」、「3」、「4」の事例の評価値に対して、入力テーブル121から得られた分析対象事例における評価値との相関係数が、それぞれ、r=0.11、r=0.32、r=0.25、r=0.85、である。従って、図10の例では、分析対象事例と最も類似度の高い分析済み事例はr=0.85を示したAnalysis_IDが「4」の分析済み事例であることがわかる。
従って、図10の例では、類似事例抽出部115は、類似事例IDとして「4」を出力する。なお、類似事例抽出部115は、相関係数を類似度として算出する場合、相関係数の絶対値が最大の分析済み事例のAnalysis_IDを類似事例IDとして出力してもよい。
上記した処理により、分析支援装置100は、分析済み事例の分析結果のうちcommon_gridについてのみ、入力テーブル121が示す分析対象事例におけるモデルの評価値を算出し、算出した評価値と、過去分析済み事例におけるモデルの評価値と、を比較して類似事例を抽出するため、少ない処理量によって類似事例を抽出することができる。
また、分析支援装置100は、上記した処理において、分析済み事例のデータそのもの(分析済み事例の属性情報)を利用することなく、分析データベース123(分析済み事例のモデル及びパラメータ、並びにモデルの評価値)を用いて類似事例を抽出することができるため、データ量を節減できる上に、仮に分析データベース123が漏洩しても個人情報等が漏洩することはない。
図11は、ステップS604のパラメータレコメンド処理の一例を示すフローチャートである。パラメータレコメンド部116は、入力テーブル121と、分析情報122と、ステップS904で出力された類似事例IDと、パラメータデータベース125と、問題分類結果に対応する分析データベース123を読み出す(S1101)。
パラメータレコメンド部116は、問題分類結果に対応する分析データベース123を参照して、類似事例IDが示す分析済み事例の評価値であるAccuracyが最も高い値を最良評価値として検索する(S1102)。
パラメータレコメンド部116は、最良評価値を示すレコードのRecipe_IDを取得し、パラメータデータベース125から当該Recipe_IDに対応するパラメータセットを取得する(S1103)。パラメータレコメンド部116は、取得したパラメータセットをレコメンドパラメータθrecommendとして出力し(S1104)、パラメータレコメンド処理を終了する。
図11の例では、パラメータレコメンド部116は、類似事例において最も高い評価値を示したパラメータセットを一つレコメンドしているが、例えば、類似事例において最も低い評価値を示したパラメータセットをレコメンドパラメータθrecommendとして出力してもよいし、評価値の数値の大小以外の観点で選択されたパラメータセットをレコメンドパラメータθrecommendとして出力してもよい。
また、パラメータレコメンド部116は、例えば、類似事例において評価値が高い順に所定数(例えば10個)のパラメータセットをレコメンドパラメータθrecommendとして出力してもよいし、類似事例において評価値が低い順に所定数(例えば10個)のパラメータセットをレコメンドパラメータθrecommendとして出力してもよい。
また、パラメータレコメンド部116は、例えば、類似事例において評価値が所定以上の全てのパラメータセットをレコメンドパラメータθrecommendとして出力してもよいし、パラメータレコメンド部116は、例えば、類似事例において評価値が所定未満の全てのパラメータセットをレコメンドパラメータθrecommendとして出力してもよい。
図12は、ステップS605の周辺探索処理の一例を示すフローチャートである。周辺探索部117は、入力テーブル121と、分析情報122と、ステップS1104で出力されたレコメンドパラメータθrecommendと、を読み出す(S1201)。
周辺探索部117は、レコメンドパラメータθrecommendを初期値として、レコメンドパラメータθrecommendの周辺のパラメータセットを適用したモデルを入力テーブル121の説明変数に適用し、最良の評価値を示すパラメータセットを探索する(S1202)。周辺探索部117は、最良の評価値を示すパラメータセットをベストパラメータθbestとして出力し(S1203)、探索処理を終了する。
このように周辺探索部117は、類似事例におけるレコメンドパラメータθrecommendの周辺を探索することにより、精度の高い結果を示すベストパラメータθbestを少ない処理量で取得することができる。
なお、ステップS1202において、周辺探索部117は、例えば、予め定められた範囲のパラメータセットを探索する。
また、ステップS1202において、周辺探索部117は、例えば、レコメンドパラメータθrecommendを中心として所定の条件に基づいて更新(例えば拡大又は縮小した)範囲のパラメータセットを探索してもよい。
具体的には、例えば、周辺探索部117は、var=(xmax−xmin)×(1−|Corr|)を算出する(但しxmax及びxminはそれぞれ予め定められたパラメータの範囲の最大値及び最小値であり、Corrは類似事例と、入力テーブル121が示す分析対象事例と、の相関係数である)。周辺探索部117は、xnew_min=xrecommend−varを更新後のパラメータの範囲の最小値、xnew_max=xrecommend+varを更新後のパラメータの範囲の最大値として、当該範囲においてパラメータセットを探索する(但しxrecommendはレコメンドパラメータである)。
図13は、ステップS606の再学習処理の一例を示すフローチャートである。再学習部118は、入力テーブル121と、分析情報122と、ステップS1203で出力されたベストパラメータθbestと、を読み出す(S1301)。
再学習部118は、ベストパラメータθbestに基づいて、入力テーブル121に対して前処理を実行する(S1302)。具体的には、例えば、再学習部118は、数値カラムの正規化、文字列カラムの表記ゆれの統合、PCA(Principal Component Analysis)などを用いた次元圧縮、文字列カラムに対するダミー変数化処理、外れ値処理、及び異常値処理はいずれも前処理の一例である。
再学習部118は、ベストパラメータθbestに従って、入力テーブル121の特徴量を生成する(S1303)。具体的には、例えば、再学習部118数値カラムの分割、対数変換、指数変換、時系列特徴量変換、及び/又は時刻データの年月日への変換などによって特徴量を生成する。
再学習部118は、ベストパラメータθbestを用いて、入力テーブル121に対してモデリングを実行する(S1304)。線形回帰、Logistic回帰、SVM、SVR、GaussianProcess、RandomForest、LightGBM、XGBoost、及びNeuralNetworkはいずれもモデリングの一例である。再学習部118は、ステップS1304のモデリングにおいて得られる、入力テーブル121の事例の目的変数を予測するモデル124及び当該モデル124による分析結果を出力し(S1305)、再学習処理を終了する。
図14は、分析データベース作成処理の一例を示すフローチャートである。分析データベース作成処理は、入力テーブル121に対する分析結果を分析データベース123へと蓄積する処理であるため、図6の自動分析実行処理の終了後に行われることが望ましい。
分析データベース作成部112は、入力テーブル121と、分析情報122と、を読み出す(S1401)。
分析データベース作成部112は共通パラメータ探索処理を実行する(S1402)。分析データベース作成部112は、ステップS1402において、図8の共通パラメータ探索処理と同様に、入力テーブル121に対して、パラメータセットの探索を行う。
分析データベース作成部112は、詳細探索を実行する(S1403)。ステップS1403において、分析データベース作成部112は、ステップS1402で探索した分析事例間の共通パラメータ以外(即ちcommon_grid)のパラメータセット(例えば、各common_gridから所定範囲以内の全てのパラメータセット)を探索する。
分析データベース作成部112は、ステップS1302とステップS1303とにおいて探索された全てのパラメータセットのうち、最も高い評価値を示すサンプルにBest_Flagとして1を付与する(S1404)。なお、ステップS1404の処理は、運用時の動作を高速化するための処理であるため、必ずしも実行されなくてもよい。
分析データベース作成部112は、入力テーブル121の事例に対してAnalysis_IDを付与し、Analysis_ID、Model_Name、Recipe_ID、Best_Flag、及びAccuracyをそれぞれ分析データベース123に記録し(S1404)、分析データベース作成処理を終了する。
なお、分析データベース作成部112は、パラメータデータベース125に格納されていないパラメータセットを探索した場合には、当該パラメータセットに対してRecipe_IDを付与し、当該Recipe_IDと当該パラメータセットをパラメータデータベース125に記録する。
また、分析データベース123のCommon_Search欄1233の値は、例えば、分析支援装置100のユーザの入力に従って記録されてもよいし、自動で(例えば所定のモデルのうち、所定値以上のAccuracyを示すレコードについては1、他のレコードについては0)記録されてもよい。
図15は、自動分析実行処理が行われるときに出力装置105に表示される表示画面の一例である。表示画面1500は、例えば、出力情報表示領域1501、類似事例抽出レコメンド実行ボタン1502、再探索実行ボタン1503、及びモデル学習実行ボタン1504を含む。
類似事例抽出レコメンド実行ボタン1502が選択されると、図6の自動分析実行処理が行われ、出力情報表示領域1501に、例えば、図9の類似事例抽出処理において抽出された類似事例IDと、分析対象事例と当該類似事例との類似度と、図11のパラメータレコメンド処理において出力されたレコメンドパラメータと、が表示される。
再探索実行ボタン1503が選択されると、図12の周辺探索処理が実行されて、出力情報表示領域1501にベストパラメータがさらに表示される。モデル学習実行ボタン1504が選択されると、図13の再学習処理が実行されて、出力されたモデルがさらに表示される。
なお、本発明は上記した実施例に限定されるものではなく、様々な変形例が含まれる。例えば、上記した実施例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、ある実施例の構成の一部を他の実施例の構成に置き換えることも可能であり、また、ある実施例の構成に他の実施例の構成を加えることも可能である。また、各実施例の構成の一部について、他の構成の追加・削除・置換をすることが可能である。
また、上記の各構成、機能、処理部、処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、上記の各構成、機能等は、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによりソフトウェアで実現してもよい。各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリや、ハードディスク、SSD(Solid State Drive)等の記録装置、または、ICカード、SDカード、DVD等の記録媒体に置くことができる。
また、制御線や情報線は説明上必要と考えられるものを示しており、製品上必ずしも全ての制御線や情報線を示しているとは限らない。実際には殆ど全ての構成が相互に接続されていると考えてもよい。
100 分析支援装置、101 CPU、102 メモリ、103 補助記憶装置、104 入力装置、105 出力装置、106 通信装置、111 自動分析実行部、112 分析データベース作成部、113 ルールベース問題分類部、114 共通パラメータ探索部、115 類似事例抽出部、116 パラメータレコメンド部、117 周辺探索部、118 再学習部、121 入力テーブル、122 分析情報、123 分析データベース、124 モデル、125 パラメータデータベース

Claims (9)

  1. 分析支援装置であって、
    プロセッサとメモリとを有し、
    前記メモリは、
    分析対象事例の説明変数と目的変数とを示す分析対象事例データと、
    分析済み事例を分析したモデル及び前記モデルに適用されたパラメータの組み合わせと、前記パラメータが適用されたモデルによって前記分析済み事例が分析されたときの当該モデルの評価値と、を示す分析評価データと、を保持し、
    前記プロセッサは、
    前記分析評価データに含まれる予め定められた一部のモデル及びパラメータの組み合わせを前記分析対象事例の説明変数に適用して前記分析対象事例の目的変数を予測したときの当該モデルの評価値を算出し、
    前記算出した評価値と、前記分析評価データが示す評価値それぞれと、を比較して類似度を算出し、
    前記算出した類似度に基づいて、前記分析対象事例に類似する分析済み事例である類似事例を特定する、分析支援装置。
  2. 請求項1に記載の分析支援装置であって、
    前記プロセッサは、前記分析評価データを参照して、前記類似事例を分析したモデル及び当該モデルに適用されたパラメータの組み合わせのうち、評価値が最も高い組み合わせにおけるパラメータをレコメンドパラメータに決定する、分析支援装置。
  3. 請求項2に記載の分析支援装置であって、
    表示装置を有し、
    前記プロセッサは、前記類似事例を示す情報と、前記類似度と、前記レコメンドパラメータと、を前記表示装置に表示する、分析支援装置。
  4. 請求項2に記載の分析支援装置であって、
    前記プロセッサは、
    前記レコメンドパラメータを含み所定条件を満たす探索範囲のパラメータを探索し、
    前記探索したパラメータのうち、当該探索したパラメータが適用された前記レコメンドパラメータに対応するモデルによって前記分析対象事例の目的変数を予測したときの当該モデルの評価値が最も高いパラメータを、ベストパラメータに決定する、分析支援装置。
  5. 請求項4に記載の分析支援装置であって、
    前記プロセッサは、
    前記算出した評価値と、前記類似事例の評価値と、の相関係数を算出し、
    前記相関係数の絶対値が大きいほど前記探索範囲が小さくなるよう前記探索範囲を決定する、分析支援装置。
  6. 請求項4に記載の分析支援装置であって、
    前記プロセッサは、前記ベストパラメータが適用された前記レコメンドパラメータに対応するモデルを前記分析対象事例に適用した分析結果を出力する、分析支援装置。
  7. 請求項1に記載の分析支援装置であって、
    前記プロセッサは、前記分析対象事例を分析した前記一部のモデル及び当該モデルに適用されたパラメータの組み合わせと、前記算出した評価値と、を前記分析評価データに格納する、分析支援装置。
  8. 請求項1に記載の分析装置であって、
    前記分析評価データは、前記分析済み事例においてモデルによって解かれた問題を示し、
    前記プロセッサは、
    前記分析対象事例データにおける、目的変数の要素数と、前記目的変数のデータ型と、前記目的変数の値の相対度数と、に基づいて、前記分析対象事例においてモデルによって解かれる問題を特定し、
    前記分析評価データに含まれる前記予め定められた一部のモデル及びパラメータの組み合わせのうち、前記特定した問題に対応するモデル及びパラメータの組み合わせによって前記分析対象事例の目的変数を予測したときの当該モデルの評価値を算出する、分析支援装置。
  9. 分析支援装置による分析支援方法であって、
    前記分析支援装置は、プロセッサとメモリとを有し、
    前記メモリは、
    分析対象事例の説明変数と目的変数とを示す分析対象事例データと、
    分析済み事例を分析したモデル及び前記モデルに適用されたパラメータの組み合わせと、前記パラメータが適用されたモデルによって前記分析済み事例が分析されたときの当該モデルの評価値と、を示す分析評価データと、を保持し、
    前記分析支援方法は、
    前記プロセッサが、前記分析評価データに含まれる予め定められた一部のモデル及びパラメータの組み合わせを前記分析対象事例の説明変数に適用して前記分析対象事例の目的変数を予測したときの当該モデルの評価値を算出し、
    前記プロセッサが、前記算出した評価値と、前記分析評価データが示す評価値それぞれと、を比較して類似度を算出し、
    前記プロセッサが、前記算出した類似度に基づいて、前記分析対象事例に類似する分析済み事例である類似事例を特定する、分析支援方法。
JP2020052908A 2020-03-24 2020-03-24 分析支援装置及び分析支援方法 Active JP7292235B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2020052908A JP7292235B2 (ja) 2020-03-24 2020-03-24 分析支援装置及び分析支援方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020052908A JP7292235B2 (ja) 2020-03-24 2020-03-24 分析支援装置及び分析支援方法

Publications (2)

Publication Number Publication Date
JP2021152751A true JP2021152751A (ja) 2021-09-30
JP7292235B2 JP7292235B2 (ja) 2023-06-16

Family

ID=77887319

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020052908A Active JP7292235B2 (ja) 2020-03-24 2020-03-24 分析支援装置及び分析支援方法

Country Status (1)

Country Link
JP (1) JP7292235B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023090292A1 (ja) * 2021-11-17 2023-05-25 ソニーグループ株式会社 情報処理装置、情報処理方法およびコンピュータプログラム

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016218869A (ja) * 2015-05-22 2016-12-22 富士通株式会社 設定方法、設定プログラム、及び設定装置
JP2019159769A (ja) * 2018-03-13 2019-09-19 富士通株式会社 探索プログラム、探索方法および探索装置
US20210097343A1 (en) * 2019-09-26 2021-04-01 Capital One Services, Llc Method and apparatus for managing artificial intelligence systems

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016218869A (ja) * 2015-05-22 2016-12-22 富士通株式会社 設定方法、設定プログラム、及び設定装置
JP2019159769A (ja) * 2018-03-13 2019-09-19 富士通株式会社 探索プログラム、探索方法および探索装置
US20210097343A1 (en) * 2019-09-26 2021-04-01 Capital One Services, Llc Method and apparatus for managing artificial intelligence systems

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023090292A1 (ja) * 2021-11-17 2023-05-25 ソニーグループ株式会社 情報処理装置、情報処理方法およびコンピュータプログラム

Also Published As

Publication number Publication date
JP7292235B2 (ja) 2023-06-16

Similar Documents

Publication Publication Date Title
US11640563B2 (en) Automated data processing and machine learning model generation
JP7026092B2 (ja) 記述情報を決定する方法、装置、電子デバイス、コンピュータ可読媒体およびコンピュータプログラム
US9542477B2 (en) Method of automated discovery of topics relatedness
Ciaburro MATLAB for machine learning
TW202029079A (zh) 異常群體識別方法及裝置
Zandkarimi et al. A generic framework for trace clustering in process mining
Vishnu et al. A review on the significance of machine learning for data analysis in big data
US11580119B2 (en) System and method for automatic persona generation using small text components
US10019681B2 (en) Multidimensional recursive learning process and system used to discover complex dyadic or multiple counterparty relationships
US11037073B1 (en) Data analysis system using artificial intelligence
JP2022037955A (ja) 学習モデルを選択するシステム
JPWO2017158802A1 (ja) データ変換システム及びデータ変換方法
Ergezer et al. Time series classification with feature covariance matrices
Suleman et al. Google play store app ranking prediction using machine learning algorithm
JP7292235B2 (ja) 分析支援装置及び分析支援方法
Danesh et al. Ensemble-based clustering of large probabilistic graphs using neighborhood and distance metric learning
US20190303434A1 (en) Method And Device For Generating An Electronic Document Specification
JP2016110256A (ja) 情報処理装置及び情報処理プログラム
CN115129890A (zh) 回馈数据图谱生成方法、生成设备、问答设备及冰箱
CN114090869A (zh) 目标对象处理方法、装置、电子设备及存储介质
KR102096328B1 (ko) 처방적 분석 기반 지능형 연구정보 고부가 가치화 제공 플랫폼 및 그 방법
JP2020166443A (ja) データ加工方法レコメンドシステム、データ加工方法レコメンド方法、及びデータ加工方法レコメンドプログラム
KR20210023453A (ko) 리뷰 광고 매칭 장치 및 방법
JP7442430B2 (ja) 審査支援システム、及び審査支援方法
CN116453702B (zh) 孤独症行为特征集的数据处理方法、设备、系统及介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220512

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230519

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230523

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230606

R150 Certificate of patent or registration of utility model

Ref document number: 7292235

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150