JP2016004525A - データ分析システム及びデータ分析方法 - Google Patents

データ分析システム及びデータ分析方法 Download PDF

Info

Publication number
JP2016004525A
JP2016004525A JP2014126216A JP2014126216A JP2016004525A JP 2016004525 A JP2016004525 A JP 2016004525A JP 2014126216 A JP2014126216 A JP 2014126216A JP 2014126216 A JP2014126216 A JP 2014126216A JP 2016004525 A JP2016004525 A JP 2016004525A
Authority
JP
Japan
Prior art keywords
explanatory variables
records
data analysis
combination
subset
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2014126216A
Other languages
English (en)
Inventor
亮太 鴨志田
Ryota Kamoshita
亮太 鴨志田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2014126216A priority Critical patent/JP2016004525A/ja
Publication of JP2016004525A publication Critical patent/JP2016004525A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Complex Calculations (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

【課題】精度よく目的変数を予測する予測モデルを生成する。【解決手段】データ分析システムは、各々が複数の説明変数と、複数の説明変数に対応する目的変数と、を含む複数のレコードからなる学習データを保持し、学習データに基づいて、複数の説明変数から目的変数を予測する予測モデルを生成し、各レコードについて、予測モデルに基づく予測の確からしさを示す信頼度を計算し、複数のレコードのうち、信頼度が所定の範囲内であるレコードからなるサブセットを作成し、サブセットに属するレコードに基づいて、複数の説明変数から、目的変数との相関が高い説明変数の組合せを抽出し、抽出した説明変数の組合せを新たな説明変数として学習データに追加し、新たな説明変数が追加された学習データに基づいて、複数の説明変数から目的変数を予測する予測モデルを生成する。【選択図】図1

Description

本発明は、データ分析システム及びデータ分析方法に関する。
本技術分野の背景技術として、特許文献1がある。この文献には、ナイーブベイズ分類器を用いたデータ分析技術が記載されている。このデータ分析技術は、相関の高い属性のペアを新たな属性として利用することを特徴としている。
特開2011−257816号公報
特許文献1によれば、属性の組合せの中から偏相関係数が所定値以上となる組合せを抽出して、新たな属性として保持することにより、データの記述を拡張する。しかし、従来の属性で元データが精度よく予測できなかったデータを、生成された新たな属性を用いて精度よく予測できるとは限らない。
上記の課題を解決するために、本発明は、プロセッサと、前記プロセッサに接続される記憶媒体と、を有するデータ分析システムであって、前記記憶媒体は、複数のレコードを含む学習データを保持し、前記複数のレコードの各々は、複数の説明変数と、前記複数の説明変数に対応する目的変数と、を含み、前記プロセッサは、前記学習データに基づいて、前記複数の説明変数から前記目的変数を予測する予測モデルを生成し、前記各レコードについて、前記予測モデルに基づく予測の確からしさを示す信頼度を計算し、前記複数のレコードのうち、前記信頼度が所定の範囲内であるレコードからなるサブセットを作成し、前記サブセットに属するレコードに基づいて、前記複数の説明変数から、前記目的変数との相関が高い説明変数の組合せを抽出し、前記抽出した説明変数の組合せを新たな説明変数として前記学習データに追加し、前記新たな説明変数が追加された前記学習データに基づいて、前記複数の説明変数から前記目的変数を予測する予測モデルを生成することを特徴とする。
本発明の一実施形態によれば、適切な説明変数の組合せを新たな説明変数としてデータに加えることで、精度よく目的変数を予測することができる。
本発明の実施形態のデータ分析システムの構成を示すブロック図である。 本発明の実施形態のデータ分析システムが実行するデータ分析処理を示すフローチャートである。 本発明の実施形態のデータ分析システムが保持するデータの説明図である。 本発明の実施形態のデータ分析システムが学習データのサブセットを作成する処理を示すフローチャートである。 本発明の実施形態のデータ分析システムが、信頼度が所定の範囲内であるかを判断する方法の第1の例の説明図である。 本発明の実施形態のデータ分析システムが、信頼度が所定の範囲内であるかを判断する方法の第2の例の説明図である。 本発明の実施形態のデータ分析システムが所定の範囲を設定するために表示する画面の説明図である。 本発明の実施形態のデータ分析システムが実行するアソシエーション分析のフローチャートである。 本発明の実施形態のデータ分析システムが保持する、説明変数生成プログラムによって説明変数を追加されたデータの説明図である。 本発明の実施形態のデータ分析システムが実行する終了判定のフローチャートである。 本発明の実施形態のデータ分析システムが提示する予測モデルの説明図である。
以下、添付図面に基づいて、本発明の実施形態を説明する。
図1は、本発明の実施形態のデータ分析システムの構成を示すブロック図である。
本実施形態のデータ分析システム101は、プロセッサ102、メモリ103、記憶媒体104、入出力装置105、及び通信装置106からなる。
プロセッサ102は、メモリ103に格納されたプログラムに従って、データ分析システム101を制御する。
メモリ103は、例えば半導体メモリであり、プロセッサ102によって実行されるプログラム、プロセッサ102によって参照されるデータ、及びプロセッサ102が実行する処理の結果として取得されたデータ等を格納する。記憶媒体104に格納されたプログラム及びデータの少なくとも一部が、必要に応じてメモリ103にコピーされてもよいし、取得されたデータが必要に応じてメモリ103から記憶媒体104にコピーされてもよい。
図1の例では、メモリ103に予測プログラム107、サブセット作成プログラム108、組合せ発見プログラム109、説明変数生成プログラム110及び終了判定プログラム111が格納される。これらのプログラムに従って実行される処理については後述する(図2等参照)。以下の説明においてこれらのプログラムが処理を実行するように記載する場合があるが、実際にはそれらの処理はプログラムに記述された命令に従うプロセッサ102によって実行される。
記憶媒体104は、例えばフラッシュメモリ又はハードディスクのような不揮発性の記憶媒体である。記憶媒体104に格納されるデータ112については後述する(図3参照)。
入出力装置105は、データ分析システム101の操作者からの入力を受ける入力装置、及び、その操作者に情報を出力する出力装置を含む。例えば、入出力装置105は、入力装置としてキーボード、ボタン又はポインティングデバイス等を備え、出力装置として画像表示装置等を備えてもよいし、それらと同等の機能を有するいわゆるタッチパネル等を備えてもよい。
通信装置106は、例えばモデム又はLAN(Local Area Network)アダプタのような通信装置であり、データ分析システム101と外部とのデータのやり取りを可能とする。
図2は、本発明の実施形態のデータ分析システムが実行するデータ分析処理を示すフローチャートである。
最初に、プロセッサ102は、メモリ103に格納された予測プログラム107を実行し、記憶媒体104に格納されるデータ112の説明変数から目的変数を予測するモデル式(以下、予測モデルとも記載)を作成し(ステップ201)、データの1レコードごとに予測の確からしさを示す信頼度を算出する(ステップ202)。目的変数予測手法は予測の確からしさを示す信頼度を算出することのできる任意の公知の手法(例えば、ロジスティック回帰分析)によって実行することができるため、目的変数予測手法の詳細な説明及びそれに使用されるパラメタについての説明は省略する。
図3は、本発明の実施形態のデータ分析システムが保持するデータ112の説明図である。
図3には、データ112の一例として、事業者が管理する顧客データを示す。このデータ112において、1行が、一人の顧客に関する情報を格納する1レコード(顧客レコードとも記載)に相当する。各レコードは、レコード番号301、説明変数302及び目的変数303を含む。図3の例において、説明変数302は、性別311、年代312、契約期間313及びオプション加入314といった各顧客の属性を示す属性値を含む。ここで、オプション加入314は、各顧客がオプションに加入しているか否かを示す属性値である。図3では省略されているが、さらに住居形態(例えば戸建か集合住宅か)等の属性値が説明変数302に含まれてもよい。一方、目的変数303は、当該顧客が現在契約を継続しているか解約したかを示す属性値である。
したがって本例ではデータ分析システム101の目的は説明変数である顧客の属性値から解約する確率の高い顧客を予測するモデル式を作成することである。以降、本実施形態では、ロジスティック回帰分析を用いて解約する確率の高い顧客を予測する例について説明する。この場合、信頼度は、「顧客が解約する」という予測の確からしさであり、すなわち、ロジスティック回帰分析の出力する解約確率に相当する。
上記のように、本実施形態のデータ112は、ある時点において解約したか否かが分かっている顧客について、その顧客が解約したか否かを示す属性値を目的変数303として、その顧客のその他の複数の属性値を当該目的変数303に対応する説明変数302として含んでいる。このデータ112は、説明変数302から目的変数303を予測するための予測モデルを生成するための学習に使用される。このため、データ112は、以下の説明において学習データとも記載される。ただし、上記の属性値は一例であり、説明変数302及び目的変数303が上記以外の属性値である場合にも本発明を適用することができる。その場合、信頼度は、目的変数303が所定の属性値となる(例えば解約以外の何らかの事象が発生する)という予測の確からしさを示す。
次に、プロセッサ102は、メモリ103に格納されたサブセット作成プログラム108を実行し、予測プログラム107が算出した信頼度に基づいて、学習データのサブセットを作成する(ステップ203)。
ここで、学習データのサブセットを作成する方法の一例について図4を用いて詳細に説明する。
図4は、本発明の実施形態のデータ分析システムが学習データのサブセットを作成する処理を示すフローチャートである。
学習データのサブセットを作成する処理とは、全学習データから、目的変数との相関が高い説明変数の組合せを発見する処理(後述するステップ204及び図8参照)の対象となるデータを抽出する処理であり、より具体的には、学習データに含まれる各レコードについて計算された信頼度に基づいて、各レコードが目的変数との相関が高い説明変数の組合せを発見する処理の対象となるか否かを判定する処理である。サブセットに属するレコードは、目的変数との相関が高い説明変数の組合せを発見する処理の対象となると判定された(具体的には信頼度が所定の範囲内であると判定された)レコードである。
初めに、プロセッサ102は、データ(図3の例では顧客に対応するレコード)ごとのループ処理を行う(ステップ401)。このループには、後述するステップ402及び403が含まれる。データごとのループの中で、プロセッサ102は、ステップ202で算出した当該データの信頼度を参照し、信頼度が所定の範囲内であるかを判断する(ステップ402)。
図5は、本発明の実施形態のデータ分析システムが、信頼度が所定の範囲内であるかを判断する方法の第1の例の説明図である。
図5はデータごとに算出した信頼度の頻度を表すヒストグラムであり、上段(a)が正例(図3の例では目的変数303が「解約」である顧客のレコード)の信頼度のヒストグラムであり、下段(b)が負例(図3の例では目的変数303が「継続」である顧客のレコード)の信頼度のヒストグラムである。
詳細には、目的変数303の値が「解約」であるデータ112のレコードの説明変数302の値を、ステップ201で作成したモデル式に代入することによって得られた解約確率が、正例の信頼度である。目的変数303の値が「解約」である全てのレコードについて計算した信頼度の頻度が、図5(a)のヒストグラムに表される。一方、目的変数303の値が「解約」である全てのレコードについて上記と同様の方法で計算した信頼度の頻度が、図5(b)のヒストグラムに表される。
図5(a)において右側に分布しているデータは実際に解約した顧客データのうち信頼度が高い、つまり解約する確率が高いと予測できたものである。一方図5(b)において左側に分布しているデータは解約していない顧客データのうち信頼度が低い、つまり解約する確率が低いと予測できたものである。つまり、図5(a)の分布が右に片寄っており、図5(b)の分布が左に片寄っているほど、予測プログラム107が作成した予測モデルの精度が高いことを示している。
図5の例は、信頼度が所定の範囲内であるデータとして図中の点線で囲われた範囲のデータを示している。本例では信頼度が0.5付近のデータ、つまり予測プログラム107が予測した結果、解約確率が高いとも低いとも言えない範囲のデータを対象としている。
図6は、本発明の実施形態のデータ分析システムが、信頼度が所定の範囲内であるかを判断する方法の第2の例の説明図である。
図6に示すヒストグラムは図5と同様であるが、図6では実際に解約した顧客データのうち、解約確率が低いと予測したデータ、および解約していない顧客データのうち、解約確率が高いと予測したデータを所定の範囲内のデータと判断している(点線四角内)。これはつまり予測プログラム107が予測を大きく外した範囲に相当する。
ここで、所定の範囲内を定める閾値の設定手段の一例について図7を用いて詳細に説明する。
図7は、本発明の実施形態のデータ分析システムが所定の範囲を設定するために表示する画面の説明図である。
図7の例では所定の範囲の設定方法としてタイプ1及びタイプ2のいずれかが選択される。タイプ1は図5で説明したように、予測プログラム107の予測結果として得られた解約確率が高いとも低いともいえない範囲のデータを指定するものであり、予測された解約確率の下限及び上限を指定することができる。
一方タイプ2は図6で説明したように予測プログラム107が予測を大きく外した範囲のデータを指定するものであり、正例(本例では解約者)に対する解約確率予測結果の下限、及び負例(本例では継続者)に対する解約確率予測結果の上限を指定することができる。
例えば、プロセッサ102は、図7に示す画面を入出力装置105に含まれる画像表示装置に表示させる。操作者が入出力装置105に含まれるポインティングデバイスを操作してタイプ1に対応するチェックボックスを選択すると、タイプ1に対応する予測確率(すなわち予測された解約確率)の下限及び上限の入力フィールドが有効になる。有効になった入力フィールドに操作者が予測確率の下限(例えば「0.3」)及び上限(例えば「0.7」)を入力することによって、例えば図5に示すような所定の範囲が指定される。
一方、図7では省略されているが、ユーザがタイプ2に対応するチェックボックスを選択すると、タイプ2に対応する予測確率の下限及び上限の入力フィールドが有効になる。有効になった入力フィールドに操作者が正例の予測確率の上限(例えば「0.5」)及び負例の予測確率の下限(例えば「0.5」)を入力することによって、例えば図6に示すような所定の範囲が指定される。
上記の図5から図7には、学習データのサブセットの二つの例を示したが、実際には上記以外の種々のサブセットを作成することができる。例えば、全ての信頼度の範囲の学習データを含むサブセットを作成してもよい。その詳細については後述する。
プロセッサ102は、ステップ402において信頼度が所定の範囲内であると判断されたデータをサブセットデータに追加する(ステップ403)。以上の手順によって学習データのサブセットが作成される。
次に、プロセッサ102は、メモリ103に格納された組合せ発見プログラム109を実行し、ステップ203で作成した学習データのサブセットから、新たに説明変数に追加するための説明変数の組合せを発見する(ステップ204)。説明変数の組合せ発見手法は、頻出パタンを抽出することのできる任意の公知の手法(例えばアソシエーション分析)によって実行することができる。ステップ204において実行される処理の一例について、図8を用いて詳細に説明する。
図8は、本発明の実施形態のデータ分析システムが実行するアソシエーション分析のフローチャートである。
初めに、プロセッサ102は、説明変数の組合せごとのループ処理を行う(ステップ801)。このループには、後述するステップ802〜806が含まれる。
次に、プロセッサ102は、ある説明変数の組合せについて、式1で表される支持度を算出する(ステップ802)。
式1において、Xは説明変数の組合せである。例えば、Xは、「男性かつ20代」のような二つの説明変数の組合せであってもよいし、「男性かつ20代かつ契約期間1年以上」のような三つの説明変数の組合せであってもよいし、それ以上の数の説明変数の組合せであってもよい。一方、Yは予測の目的となる目的変数であり、本例では解約である。X⇒Yは説明変数の組合せがXであるときに目的変数が解約となる相関ルールを表す。Mは、作成された学習データのサブセットに含まれる全データ数(すなわち顧客レコード数)を表す。σ(X∪Y)は、作成された学習データのサブセットに含まれる全データのうち、説明変数の組合せがXであり、かつ、目的変数Yが解約であるデータ数を表す。相関ルールX⇒Yの支持度support(X⇒Y)は、Mに対するσ(X∪Y)の割合で表される。
次に、プロセッサ102は、式2によって確信度を算出する(ステップ803)。確信度confidenceは、説明変数の組合せがXであるデータ数に対する、目的変数Yが解約であるデータ数の割合で表される。ここで、σ(X∪Y)は、作成された学習データのサブセットに含まれる全データのうち、説明変数の組合せがXであるデータ数を表す。
次に、プロセッサ102は、支持度があらかじめ定められた最小支持度以上であるかを判定し(ステップ804)、支持度が最小支持度以上である場合に、確信度があらかじめ定められた最低確信度以上であるかを判定する(ステップ805)。上記のように、確信度が高いことは、説明変数の組合せがXであるデータ数に対する、目的変数Yが解約であるデータ数の割合が大きいことから、組合せXと目的変数Y「解約」との相関が高いと考えられる。しかし、確信度が高くても、支持度が低ければ、説明変数の組合せXに該当して、かつ、解約をした顧客の数が少ない(言い換えると説明変数の組合せXに該当する顧客の数自体が少ない)ため、組合せXと目的変数Y「解約」との相関が高いとは言い切れない。このため、プロセッサ102は、支持度が最小支持度以上であり、かつ、確信度が最低確信度以上であると判定された説明変数の組合せXを、目的変数Yとの相関が高い組合せとして、メモリ103に記憶する(ステップ806)。
プロセッサ102は、支持度が最小支持度以上であり、かつ確信度が最低確信度以上である説明変数の組合せの全てを保持してもよいし、所定の閾値を設けて保持する説明変数の組合せの数を制限してもよいし、支持度が最も高い説明変数の組合せ又は確信度が最も高い説明変数の組合せのみを保持してもよい。
このような組合せ発見手法によって、予測プログラム107が作成した予測モデルが信頼度高く予測することのできないデータから、解約する確率の高い説明変数の組合せを見つけることができる。
ここで、アソシエーション分析によって説明変数の組合せを発見する方法の別の一例について説明する。ステップ802において支持度を算出する際に、プロセッサ102は、式3のように係数αを乗じる。
係数αは式4で表される。
ここで、δYは、式5に示すように、当該データの目的変数が解約のとき1、そうでなければ0をとる変数であり、probは予測された解約確率(すなわち信頼度)である。このとき、式4に示すδY−probの絶対値は、各レコードについて計算された信頼度と当該レコードの目的変数とがどの程度かけ離れているかを示す乖離度であり、この乖離度が大きいほど当該レコードに関する解約確率の予測精度が低いと言える。
つまりαは、説明変数の組合せがXで解約したデータの解約確率の予測精度が低いほど大きな値をとる。言い換えると、重み係数αによって支持度を重みづけした場合、説明変数の組合せXを含む複数のレコードが乖離度の大きいレコードを多く含む程、その組合せXは目的変数Yとの相関が高い組合せと判定されやすくなる。その結果、予測モデルが精度良く予測できないデータに対してより有効な説明変数の組合せを発見することができる。変数βは重み係数であり交差検証法などによって値を決定することができる。
次に、プロセッサ102は、メモリ103に格納された説明変数生成プログラム110を実行し、ステップ204で組合せ発見プログラム109が発見した説明変数の組合せを新たな説明変数としてデータ112に追加する(ステップ205)。
ここで、説明変数生成プログラム110によって説明変数を追加したデータ112の一例について図9を用いて詳細に説明する。
図9は、本発明の実施形態のデータ分析システムが保持する、説明変数生成プログラム110によって説明変数を追加されたデータ112の説明図である。
組合せ発見プログラム109が発見した説明変数の組合せが「性別が男性かつ年代が20代」であった場合、図9に示すように、男性かつ20代のレコードの属性値がYesとなり、それ以外の属性値がNoとなるような新たな説明変数「男性かつ20代」901が追加される。
次に、プロセッサ102は、メモリ103に格納された予測プログラム107を実行し、説明変数が追加された学習データに基づいて、再度説明変数から目的変数を予測するモデル式を作成する(ステップ206)。ここでモデル式を作成する手順は、学習データに新たな説明変数が追加されていることを除いて、ステップ201で実行されるものと同様である。
次に、プロセッサ102は、メモリ103に格納された終了判定プログラム111を実行し、予測モデルの作成を終了するか否かを判定する(ステップ207)。
ここで、プロセッサ102が終了判定プログラム111を実行することによって予測モデルを終了するか否かを判定する手法の一例を、図10を用いて詳細に説明する。
図10は、本発明の実施形態のデータ分析システムが実行する終了判定のフローチャートである。
プロセッサ102は、初めに、ステップ204において新しい説明変数の組合せが発見され、その組合せがステップ205において新たな説明変数としてデータ112に追加されたか否かを判定する(ステップ1001)。ここで新しい説明変数が追加されていなければ、さらに予測モデルの作成を繰り返し実行したとしても、いずれかのパラメータ(例えば最小支持度又は最小確信度等)が変更されない限りは新たな説明変数が追加される可能性がないため、プロセッサ102は予測モデルの作成を終了すると判定する(ステップ1002)。
新しい説明変数が追加されていた場合、次にプロセッサ102は、ステップ206において作成された予測モデルのデータ112に対する予測精度が閾値以上であるか否かを判定する(ステップ1003)。予測精度が閾値以上であった場合、所望の精度で解約確率を予測するモデル式が得られたため、プロセッサ102は予測モデルの作成を終了すると判定する(ステップ1002)。
予測精度が閾値未満であった場合、次にプロセッサ102は、データ112の説明変数の数が閾値以上であるか否かを判定する(ステップ1004)。説明変数の数が閾値以上であった場合に、必要以上に予測モデルが複雑になりすぎることを防ぐために、プロセッサ102は予測モデルの作成を終了すると判定する(ステップ1002)。
説明変数の数が閾値未満であった場合、次にプロセッサ102は、ステップ202からステップ206の繰り返し回数が閾値以上であるか否かを判定する(ステップ1005)。ステップ202からステップ206の繰り返し回数が閾値以上であった場合に、予測モデルの作成に費やす時間が長くなりすぎることを防ぐために、プロセッサ102は予測モデルの作成を終了すると判定する(ステップ1002)。
ステップ202からステップ206の繰り返し回数が閾値未満であった場合、プロセッサ102は、予測モデルの作成を継続すると判定する(ステップ1006)。
プロセッサ102は、ステップ1001、1003〜1005の条件の全部ではなく一部のみを用いて終了判定を行ってもよいし、上記以外の条件を追加してもよい。
最後に、プロセッサ102は、入出力装置105を介して作成した予測モデルを提示する(ステップ208)。提示する予測モデルの一例を図11に示す。
図11は、本発明の実施形態のデータ分析システムが提示する予測モデルの説明図である。
図11に示すように、プロセッサ102は、予測モデルに関する情報として、学習データ数、適合率、再現率、F値といった予測性能指標の他、予測に使用する説明変数及び各説明変数に乗じる係数を提示する。このとき、ステップ204およびステップ205で新たに追加された説明変数の組合せを強調表示することで、操作者にどのような説明変数が新たに追加されたかを確実に提示することが可能となる。操作者は、提示された情報に基づいて、目的変数との相関が高い説明変数の組合せ、具体的には例えばどのような属性の組合せを有する人物が契約を解約しやすいか、を知ることができる。強調表示の手段は例えば太字表示、点滅表示又は赤字表示などが考えられるがもちろんこれらに限定されるものではない。
ここで、適合率とは、計算された解約確率に基づいて解約すると予測された顧客の人数のうち、実際に解約した顧客の人数の割合である。一方、再現率とは、実際に解約した顧客の人数のうち、解約確率に基づいて解約すると予測された顧客の人数の割合である。F値は、適合率と再現率の相加平均である。これらの値を計算するために、プロセッサ102は、例えば、解約確率が所定の閾値を超える顧客が解約すると予測してもよい。
図11の例では、住居形態、性別、長期契約(すなわち契約期間)等が、当初から与えられた説明変数である。図11では省略されているが、図3に示すように、年代、オプション加入等の説明変数が含まれてもよい。図11の例では、これらの説明変数の組合せである「住居形態が戸建かつ長期契約あり」及び「住居形態がマンションかつ性別が女性」が、ステップ204で発見され、ステップ205でそれぞれ一つの新たな説明変数として追加された説明変数である。図11の例ではこれらの追加された説明変数が太字で強調表示されている。図9に示すように、「性別が男性かつ年代が20代」といった説明変数が追加された場合には、それも表示される。そして、図11に表示された各説明変数に対応する係数は、ステップ206で再学習された値の例である。
ここで、上記の本発明の実施形態の効果、及び、同様の効果を奏する実施形態の変形例について説明する。
上記の本発明の実施形態のデータ分析システム101は、複数の説明変数の組合せのうち、目的変数との相関が高い組合せを抽出してそれを新たな説明変数として追加することによって、より精度の高い予測モデルを生成することができる。このとき、説明変数の組合せと目的変数との相関の高さを全学習データ(すなわち全ての信頼度の範囲の学習データのレコード)に基づいて計算してもよく、それによって予測精度を向上させることができる。
しかし、図5等に例示するように、学習データには、元の説明変数に基づく予測モデルによって十分に精度の高い予測ができたデータ(具体的には信頼度が1又はそれに近い正例のレコード及び信頼度が0又はそれに近い負例のレコード)が含まれる一方で、精度の高い予測ができなかったデータも含まれる。これらのうち、精度の高い予測ができなかった学習データにおいて目的変数との相関が高い説明変数の組合せを発見することができれば、その組合せを新たな説明変数として追加することによって、特にそれまで精度の高い予測ができなかったデータについて予測精度を向上させることができる。
このため、データ分析システム101は、学習データ全体のうち、既に設定されている説明変数に基づく予測精度が十分ではなかった部分のみに基づいて相関の高さを計算してもよい。それによって、そのような学習データの予測精度の向上に特に寄与する可能性が高い説明変数の組合せが抽出されるため、さらに予測精度が向上することが期待できる。
具体的には、データ分析システム101は、学習データに含まれるレコードのうち、信頼度がある所定の値(第1の値)より高い正例のレコード、及び、ある所定の値(第2の値)より低い負例のレコードを除外したサブセットを作成してもよい。ここで、信頼度が0から1までのいずれかの値である場合、第1の値及び第2の値は、いずれも、0より高く1より低い値である。図5及び図6はその具体例を示す。
図5の例では、信頼度が第1の値より高い正例のレコード、信頼度が別の所定の値(第3の値)より低い正例のレコード、信頼度が第2の値より低い負例のレコード、及び、信頼度が別の所定の値(第4の値)より高い負例のレコードがサブセットから除外される。ここで、第3の値は、0より高く、第1の値より低い値であり、第4の値は、第2の値より高く、1より低い値である。図7の例では第1の値及び第4の値が0.7、第2の値及び第3の値が0.3であるが、これらの値が別の値であってもよく、第1の値と第4の値、第2の値と第3の値がそれぞれ互いに異なってもよい。
図6の例では、信頼度が第1の値より低い全ての正例のレコード、及び、信頼度が第2の値より高い全ての負例のレコードがサブセットに含まれる。第1の値及び第2の値は同じ値(例えば0.5等)であってもよいが、互いに異なる値であってもよい。
一方、係数αを含む式3を用いて支持度を計算した場合には、ある説明変数の組合せを含む複数のレコードが乖離度の大きいレコードを多く含む程、その組合せは目的変数との相関が高い組合せと判定されやすくなるため、全ての信頼度の範囲を含むサブセットを作成した(すなわちサブセットが全学習データを含む)としても、既に設定されている説明変数に基づく予測精度が十分ではなかった学習データの予測精度を向上させることができる。
上記の実施形態の各構成、機能、処理部、処理手段等は、それらの一部または全部を、例えば集積回路で設計する等によってハードウェアで実現してもよい。また、上記の各構成、機能等は、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによってソフトウェアで実現してもよい。上記の実施形態の各機能を実現するプログラム、テーブル、ファイル等の情報は、不揮発性半導体メモリ、ハードディスクドライブ、SSD(Solid State Drive)等の記憶デバイス、または、ICカード、SDカード、DVD等の計算機読み取り可能な非一時的データ記憶媒体に格納することができる。
本発明は上記した実施形態に限定されるものではなく、様々な変形例が含まれる。例えば、上記した実施形態は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、各実施形態の構成の一部について、他の構成の追加・削除・置換をすることが可能である。
また、図面には、実施例を説明するために必要と考えられる制御線及び情報線を示しており、必ずしも、本発明が適用された実際の製品に含まれる全ての制御線及び情報線を示しているとは限らない。実際にはほとんど全ての構成が相互に接続されていると考えてもよい。
101 データ分析システム
102 プロセッサ
103 メモリ
104 記憶媒体
105 入出力装置
106 通信装置
107 予測プログラム
108 サブセット作成プログラム
109 組合せ発見プログラム
110 説明変数生成プログラム
111 終了判定プログラム
112 データ

Claims (15)

  1. プロセッサと、前記プロセッサに接続される記憶媒体と、を有するデータ分析システムであって、
    前記記憶媒体は、複数のレコードを含む学習データを保持し、
    前記複数のレコードの各々は、複数の説明変数と、前記複数の説明変数に対応する目的変数と、を含み、
    前記プロセッサは、
    前記学習データに基づいて、前記複数の説明変数から前記目的変数を予測する予測モデルを生成し、
    前記各レコードについて、前記予測モデルに基づく予測の確からしさを示す信頼度を計算し、
    前記複数のレコードのうち、前記信頼度が所定の範囲内であるレコードからなるサブセットを作成し、
    前記サブセットに属するレコードに基づいて、前記複数の説明変数から、前記目的変数との相関が高い説明変数の組合せを抽出し、
    前記抽出した説明変数の組合せを新たな説明変数として前記学習データに追加し、
    前記新たな説明変数が追加された前記学習データに基づいて、前記複数の説明変数から前記目的変数を予測する予測モデルを生成することを特徴とするデータ分析システム。
  2. 請求項1に記載のデータ分析システムであって、
    前記学習データに含まれる前記各レコードは、前記目的変数が所定の属性値を示す正例のレコード、又は、前記目的変数が前記所定の属性値と異なる属性値を示す負例のレコードのいずれかであり、
    前記信頼度は、前記所定の属性値の予測の確からしさを示し、
    前記プロセッサは、第1の所定の値より高い前記信頼度を有する前記正例のレコード、及び、第2の所定の値より低い前記信頼度を有する前記負例のレコードを除外するように前記サブセットを生成することを特徴とするデータ分析システム。
  3. 請求項2に記載のデータ分析システムであって、
    前記プロセッサは、さらに、前記第1の所定の値より低い第3の所定の値より低い前記信頼度を有する前記正例のレコード、及び、前記第2の所定の値より高い第4の所定の値より高い前記信頼度を有する前記負例のレコードを除外するように前記サブセットを生成することを特徴とするデータ分析システム。
  4. 請求項2に記載のデータ分析システムであって、
    前記プロセッサは、第1の所定の値より低い前記信頼度を有する全ての前記正例のレコード、及び、第2の所定の値より高い前記信頼度を有する全ての前記負例のレコードを含むように前記サブセットを生成することを特徴とするデータ分析システム。
  5. 請求項1に記載のデータ分析システムであって、
    前記プロセッサは、
    前記説明変数の組合せごとに、前記サブセットに属する前記レコードの数に対する、前記サブセットに属する前記レコードのうち、前記説明変数の組合せを含み、かつ、前記目的変数が前記所定の属性値を示すレコードの数の割合である支持度を計算し、
    前記説明変数の組合せごとに、前記サブセットに属する前記レコードのうち、前記説明変数の組合せを含むレコードの数に対する、前記サブセットに属する前記レコードのうち、前記説明変数の組合せを含み、かつ、前記目的変数が前記所定の属性値を示すレコードの数の割合である確信度を計算し、
    前記支持度及び前記確信度が所定の条件を満たす前記説明変数の組合せを、前記目的変数との相関が高い説明変数の組合せとして抽出することを特徴とするデータ分析システム。
  6. 請求項5に記載のデータ分析システムであって、
    前記プロセッサは、
    前記説明変数の組合せごとに、前記サブセットに属する前記レコードの数に対する、前記サブセットに属する前記レコードのうち、前記説明変数の組合せを含み、かつ、前記目的変数が前記所定の属性値を示すレコードの数の割合に、重み係数を乗じることによって、前記支持度を計算し、
    前記説明変数の組合せを含む複数の前記レコードが、前記信頼度と前記目的変数との乖離が大きいレコードを多く含む程、重みを増すように、前記重み係数を計算することを特徴とするデータ分析システム。
  7. 請求項1に記載のデータ分析システムであって、
    前記プロセッサは、前記学習データに基づいて、ロジスティック回帰分析によって前記複数の説明変数から前記複数の説明変数に対応する前記目的変数を予測する予測モデルを生成することを特徴とするデータ分析システム。
  8. 請求項1に記載のデータ分析システムであって、
    前記プロセッサに接続される出力装置をさらに有し、
    前記プロセッサは、前記出力装置を介して、前記新たな説明変数として追加された前記説明変数の組合せを出力することを特徴とするデータ分析システム。
  9. 請求項1に記載のデータ分析システムであって、
    前記プロセッサは、
    前記新たな説明変数が追加された前記学習データに基づいて生成した予測モデルについて、前記信頼度を計算する手順及びその後の手順を繰り返し実行し、
    前記新たな説明変数が前記学習データに追加されなかったか、生成された予測モデルの精度が所定の値以上であるか、前記学習データに含まれる説明変数の数が所定の値以上であるか、又は、繰り返しの数が所定の値以上である場合に、前記信頼度を計算する手順及びその後の手順の繰り返しを中止することを特徴とするデータ分析システム。
  10. プロセッサと、前記プロセッサに接続される記憶媒体と、を有する計算機が実行するデータ分析方法であって、
    前記記憶媒体は、複数のレコードを含む学習データを保持し、
    前記複数のレコードの各々は、複数の説明変数と、前記複数の説明変数に対応する目的変数と、を含み、
    前記データ分析方法は、
    前記学習データに基づいて、前記複数の説明変数から前記目的変数を予測する予測モデルを生成する第1手順と、
    前記各レコードについて、前記予測モデルに基づく予測の確からしさを示す信頼度を計算する第2手順と、
    前記複数のレコードのうち、前記信頼度が所定の範囲内であるレコードからなるサブセットを作成する第3手順と、
    前記サブセットに属するレコードに基づいて、前記複数の説明変数から、前記目的変数との相関が高い説明変数の組合せを抽出する第4手順と、
    前記抽出した説明変数の組合せを新たな説明変数として前記学習データに追加する第5手順と、
    前記新たな説明変数が追加された前記学習データに基づいて、前記複数の説明変数から前記目的変数を予測する予測モデルを生成する第6手順と、を含むことを特徴とするデータ分析方法。
  11. 請求項10に記載のデータ分析方法であって、
    前記学習データに含まれる前記各レコードは、前記目的変数が所定の属性値を示す正例のレコード、又は、前記目的変数が前記所定の属性値と異なる属性値を示す負例のレコードのいずれかであり、
    前記信頼度は、前記所定の属性値の予測の確からしさを示し、
    前記第3手順は、第1の所定の値より高い前記信頼度を有する前記正例のレコード、及び、第2の所定の値より低い前記信頼度を有する前記負例のレコードを除外するように前記サブセットを生成する手順であることを特徴とするデータ分析方法。
  12. 請求項11に記載のデータ分析方法であって、
    前記第3手順は、前記第1の所定の値より低い第3の所定の値より低い前記信頼度を有する前記正例のレコード、及び、前記第2の所定の値より高い第4の所定の値より高い前記信頼度を有する前記負例のレコードをさらに除外するように前記サブセットを生成する手順であることを特徴とするデータ分析方法。
  13. 請求項11に記載のデータ分析方法であって、
    前記第3手順は、第1の所定の値より低い前記信頼度を有する全ての前記正例のレコード、及び、第2の所定の値より高い前記信頼度を有する全ての前記負例のレコードを含むように前記サブセットを生成する手順であることを特徴とするデータ分析方法。
  14. 請求項10に記載のデータ分析方法であって、
    前記第4手順は、
    前記説明変数の組合せごとに、前記サブセットに属する前記レコードの数に対する、前記サブセットに属する前記レコードのうち、前記説明変数の組合せを含み、かつ、前記目的変数が前記所定の属性値を示すレコードの数の割合である支持度を計算する手順と、
    前記説明変数の組合せごとに、前記サブセットに属する前記レコードのうち、前記説明変数の組合せを含むレコードの数に対する、前記サブセットに属する前記レコードのうち、前記説明変数の組合せを含み、かつ、前記目的変数が前記所定の属性値を示すレコードの数の割合である確信度を計算する手順と、
    前記支持度及び前記確信度が所定の条件を満たす前記説明変数の組合せを、前記目的変数との相関が高い説明変数の組合せとして抽出する手順と、を含むことを特徴とするデータ分析方法。
  15. 請求項14に記載のデータ分析方法であって、
    前記支持度を計算する手順は、前記説明変数の組合せごとに、前記サブセットに属する前記レコードの数に対する、前記サブセットに属する前記レコードのうち、前記説明変数の組合せを含み、かつ、前記目的変数が前記所定の属性値を示すレコードの数の割合に、重み係数を乗じることによって、前記支持度を計算する手順と、
    前記説明変数の組合せを含む複数の前記レコードが、前記信頼度と前記目的変数との乖離が大きいレコードを多く含む程、重みを増すように、前記重み係数を計算する手順と、を含むことを特徴とするデータ分析方法。
JP2014126216A 2014-06-19 2014-06-19 データ分析システム及びデータ分析方法 Pending JP2016004525A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014126216A JP2016004525A (ja) 2014-06-19 2014-06-19 データ分析システム及びデータ分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014126216A JP2016004525A (ja) 2014-06-19 2014-06-19 データ分析システム及びデータ分析方法

Publications (1)

Publication Number Publication Date
JP2016004525A true JP2016004525A (ja) 2016-01-12

Family

ID=55223728

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014126216A Pending JP2016004525A (ja) 2014-06-19 2014-06-19 データ分析システム及びデータ分析方法

Country Status (1)

Country Link
JP (1) JP2016004525A (ja)

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017174357A (ja) * 2016-03-25 2017-09-28 国立大学法人 東京大学 萌芽論文予測システム
WO2018139301A1 (ja) * 2017-01-24 2018-08-02 日本電気株式会社 情報処理装置、情報処理方法、及び、情報処理プログラムが記録された記録媒体
WO2018139300A1 (ja) * 2017-01-24 2018-08-02 日本電気株式会社 情報処理装置、情報処理方法、及び、情報処理プログラムが記録された記録媒体
WO2018186090A1 (ja) 2017-04-06 2018-10-11 テンソル・コンサルティング株式会社 モデル変数候補生成装置および方法
JP2018190044A (ja) * 2017-04-28 2018-11-29 富士ゼロックス株式会社 情報処理装置及び情報処理プログラム
KR101976689B1 (ko) * 2018-11-29 2019-05-09 주식회사 솔리드웨어 데이터 모델링을 위한 변수 자동생성방법 및 그 장치
JP2019145051A (ja) * 2018-02-23 2019-08-29 株式会社日立製作所 情報分析システムおよび情報分析方法
US20190392295A1 (en) * 2017-02-02 2019-12-26 Nec Corporation Information processing device, method, and program that use deep learning
JP2020003882A (ja) * 2018-06-25 2020-01-09 国立研究開発法人理化学研究所 リスク評価方法、リスク評価装置及びリスク評価プログラム
JP2020017104A (ja) * 2018-07-26 2020-01-30 日本電信電話株式会社 学習装置、学習方法及びコンピュータプログラム
WO2020129895A1 (ja) * 2018-12-20 2020-06-25 キヤノン株式会社 情報処理装置、情報処理装置の制御方法、及びプログラム
JP2020149209A (ja) * 2019-03-12 2020-09-17 株式会社日立製作所 残差特性推定モデル作成方法および残差特性推定モデル作成システム
JP2020181494A (ja) * 2019-04-26 2020-11-05 Necソリューションイノベータ株式会社 予測モデル生成装置、旅行適合度予測装置、予測モデル生産方法、旅行適合度予測方法、プログラム及び記録媒体
KR20210027024A (ko) * 2019-09-02 2021-03-10 가부시키가이샤 히타치세이사쿠쇼 데이터의 이용·활용을 위한 데이터 준비를 지원하는 시스템, 및 그 방법
JP2021093020A (ja) * 2019-12-11 2021-06-17 株式会社東芝 情報処理装置、情報処理方法およびプログラム
JPWO2021240939A1 (ja) * 2020-05-29 2021-12-02
JP2022002029A (ja) * 2020-06-22 2022-01-06 Tdk株式会社 データ解析システム、データ解析方法及びデータ解析プログラム
CN114207729A (zh) * 2019-09-18 2022-03-18 株式会社日立制作所 材料特性预测系统以及材料特性预测方法
US11410064B2 (en) 2020-01-14 2022-08-09 International Business Machines Corporation Automated determination of explanatory variables
JP2022535799A (ja) * 2019-05-30 2022-08-10 エースラー リミテッド 認知トレーニング及び監視のためのシステム及び方法

Cited By (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017174357A (ja) * 2016-03-25 2017-09-28 国立大学法人 東京大学 萌芽論文予測システム
WO2018139301A1 (ja) * 2017-01-24 2018-08-02 日本電気株式会社 情報処理装置、情報処理方法、及び、情報処理プログラムが記録された記録媒体
WO2018139300A1 (ja) * 2017-01-24 2018-08-02 日本電気株式会社 情報処理装置、情報処理方法、及び、情報処理プログラムが記録された記録媒体
JPWO2018139300A1 (ja) * 2017-01-24 2019-11-07 日本電気株式会社 情報処理装置、情報処理方法、及び、情報処理プログラムが記録された記録媒体
JPWO2018139301A1 (ja) * 2017-01-24 2019-11-07 日本電気株式会社 情報処理装置、情報処理方法、及び、情報処理プログラムが記録された記録媒体
US20190392295A1 (en) * 2017-02-02 2019-12-26 Nec Corporation Information processing device, method, and program that use deep learning
WO2018186090A1 (ja) 2017-04-06 2018-10-11 テンソル・コンサルティング株式会社 モデル変数候補生成装置および方法
US11562262B2 (en) 2017-04-06 2023-01-24 Tensor Consulting Co. Ltd. Model variable candidate generation device and method
JP2018190044A (ja) * 2017-04-28 2018-11-29 富士ゼロックス株式会社 情報処理装置及び情報処理プログラム
JP2019145051A (ja) * 2018-02-23 2019-08-29 株式会社日立製作所 情報分析システムおよび情報分析方法
JP2020003882A (ja) * 2018-06-25 2020-01-09 国立研究開発法人理化学研究所 リスク評価方法、リスク評価装置及びリスク評価プログラム
JP7174890B2 (ja) 2018-06-25 2022-11-18 国立研究開発法人理化学研究所 リスク評価方法、リスク評価装置及びリスク評価プログラム
JP7048893B2 (ja) 2018-07-26 2022-04-06 日本電信電話株式会社 学習装置、学習方法及びコンピュータプログラム
JP2020017104A (ja) * 2018-07-26 2020-01-30 日本電信電話株式会社 学習装置、学習方法及びコンピュータプログラム
KR101976689B1 (ko) * 2018-11-29 2019-05-09 주식회사 솔리드웨어 데이터 모델링을 위한 변수 자동생성방법 및 그 장치
WO2020111423A1 (ko) * 2018-11-29 2020-06-04 주식회사 솔리드웨어 데이터 모델링을 위한 변수 자동생성방법 및 그 장치
JP2020101543A (ja) * 2018-12-20 2020-07-02 キヤノン株式会社 情報処理装置、情報処理装置の制御方法、及びプログラム
JP7483367B2 (ja) 2018-12-20 2024-05-15 キヤノン株式会社 情報処理装置、情報処理装置の制御方法、及びプログラム
WO2020129895A1 (ja) * 2018-12-20 2020-06-25 キヤノン株式会社 情報処理装置、情報処理装置の制御方法、及びプログラム
JP2020149209A (ja) * 2019-03-12 2020-09-17 株式会社日立製作所 残差特性推定モデル作成方法および残差特性推定モデル作成システム
JP7193384B2 (ja) 2019-03-12 2022-12-20 株式会社日立製作所 残差特性推定モデル作成方法および残差特性推定モデル作成システム
JP2020181494A (ja) * 2019-04-26 2020-11-05 Necソリューションイノベータ株式会社 予測モデル生成装置、旅行適合度予測装置、予測モデル生産方法、旅行適合度予測方法、プログラム及び記録媒体
JP7464240B2 (ja) 2019-04-26 2024-04-09 Necソリューションイノベータ株式会社 予測モデル生成装置、旅行適合度予測装置、予測モデル生産方法、旅行適合度予測方法、プログラム及び記録媒体
JP7311637B2 (ja) 2019-05-30 2023-07-19 エースラー リミテッド 認知トレーニング及び監視のためのシステム及び方法
JP2022535799A (ja) * 2019-05-30 2022-08-10 エースラー リミテッド 認知トレーニング及び監視のためのシステム及び方法
KR102345302B1 (ko) 2019-09-02 2021-12-31 가부시키가이샤 히타치세이사쿠쇼 데이터의 이용·활용을 위한 데이터 준비를 지원하는 시스템, 및 그 방법
KR20210027024A (ko) * 2019-09-02 2021-03-10 가부시키가이샤 히타치세이사쿠쇼 데이터의 이용·활용을 위한 데이터 준비를 지원하는 시스템, 및 그 방법
CN114207729A (zh) * 2019-09-18 2022-03-18 株式会社日立制作所 材料特性预测系统以及材料特性预测方法
JP7414502B2 (ja) 2019-12-11 2024-01-16 株式会社東芝 情報処理装置、情報処理方法およびプログラム
JP2021093020A (ja) * 2019-12-11 2021-06-17 株式会社東芝 情報処理装置、情報処理方法およびプログラム
US11410064B2 (en) 2020-01-14 2022-08-09 International Business Machines Corporation Automated determination of explanatory variables
WO2021240939A1 (ja) * 2020-05-29 2021-12-02 株式会社島津製作所 データ処理装置、データ処理方法、データ処理プログラムおよび分析装置
JPWO2021240939A1 (ja) * 2020-05-29 2021-12-02
JP2022002029A (ja) * 2020-06-22 2022-01-06 Tdk株式会社 データ解析システム、データ解析方法及びデータ解析プログラム
JP7396213B2 (ja) 2020-06-22 2023-12-12 Tdk株式会社 データ解析システム、データ解析方法及びデータ解析プログラム

Similar Documents

Publication Publication Date Title
JP2016004525A (ja) データ分析システム及びデータ分析方法
US9047559B2 (en) Computer-implemented systems and methods for testing large scale automatic forecast combinations
US10049301B2 (en) Medical scanner teaches itself to optimize clinical protocols and image acquisition
CN103502899B (zh) 动态预测建模平台
US20210390457A1 (en) Systems and methods for machine learning model interpretation
US20130024167A1 (en) Computer-Implemented Systems And Methods For Large Scale Automatic Forecast Combinations
JP6975692B2 (ja) 計算機システム及び予測器が出力した予測値の根拠に関連する情報の提示方法
CN111417954A (zh) 基于数据去标识过程的可允许配置的检测的数据去标识
JP6718500B2 (ja) 生産システムにおける出力効率の最適化
JP6246889B1 (ja) 説明変数を選択する装置、方法及びプログラム
US10019542B2 (en) Scoring a population of examples using a model
Olofsen et al. Using Akaike's information theoretic criterion in mixed-effects modeling of pharmacokinetic data: a simulation study
US9734299B2 (en) Diagnosis support system, method of controlling the same, and storage medium
JP6181134B2 (ja) 要因解析装置、要因解析方法、及びプログラム
US11531656B1 (en) Duplicate determination in a graph
JP2011215884A (ja) 情報処理装置及びその制御方法、コンピュータプログラム
EP3683734A1 (en) Learning method, learning program, and learning apparatus
CN114154816A (zh) 企业管理系统及其执行方法
KR102054500B1 (ko) 설계 도면 제공 방법
JP6995909B2 (ja) 1以上のプロセスを監視しセンサデータを提供する複数のセンサを含むシステムのための方法
JP5785631B2 (ja) 情報処理装置及びその制御方法、コンピュータプログラム
De Luna et al. Choosing a model selection strategy
US20160147816A1 (en) Sample selection using hybrid clustering and exposure optimization
US20220076058A1 (en) Estimation device, estimation method, and computer program product
WO2023015165A1 (en) Configuration of user interface for risk assessment visualization