JP7214672B2 - 情報処理装置、情報処理方法及びコンピュータプログラム - Google Patents

情報処理装置、情報処理方法及びコンピュータプログラム Download PDF

Info

Publication number
JP7214672B2
JP7214672B2 JP2020044457A JP2020044457A JP7214672B2 JP 7214672 B2 JP7214672 B2 JP 7214672B2 JP 2020044457 A JP2020044457 A JP 2020044457A JP 2020044457 A JP2020044457 A JP 2020044457A JP 7214672 B2 JP7214672 B2 JP 7214672B2
Authority
JP
Japan
Prior art keywords
condition
data
explanatory variable
variable
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020044457A
Other languages
English (en)
Other versions
JP2021144619A (ja
Inventor
亜梨花 福島
明淑 高
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2020044457A priority Critical patent/JP7214672B2/ja
Priority to US17/015,824 priority patent/US20210287134A1/en
Publication of JP2021144619A publication Critical patent/JP2021144619A/ja
Application granted granted Critical
Publication of JP7214672B2 publication Critical patent/JP7214672B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computing Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Operations Research (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Algebra (AREA)
  • Medical Informatics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Complex Calculations (AREA)

Description

本発明の実施形態は、情報処理装置、情報処理方法及びコンピュータプログラムに関する。
人工知能により代表されるデータドリブンアプローチによるモデル学習方法は、予め与えられる学習データからモデルを生成する。生成したモデルの精度は学習データに依存するため、学習データと異なる特徴を持つデータ(異常インスタンス)が学習データの中に混在すると、モデルの精度が低下する。このため、学習データを用いてモデルを生成する前に、予め学習データから異常インスタンスを取り除く処理を行う。
例えば、目的変数の分布により外れ値を検出し、外れ値を有する学習データを取り除く。事前知識に基づき外れ値を除去するクレンジング条件を設定し、クレンジング条件を満たす学習データのみを用いていた。
しかしながら、目的変数が外れ値でない場合も異常インスタンスが存在する可能性がある。また、クレンジング条件の生成のために事前知識を有している必要があった。
特許第5331774号
本発明の実施形態は、高い精度のモデルを生成するためのデータを選択する情報処理装置、情報処理方法及びコンピュータプログラムを提供する。
本実施形態に係る情報処理装置は、目的変数と、少なくとも1つの説明変数とを含む複数のデータに基づき、前記目的変数と、前記説明変数から予測される前記目的変数の予測値との複数の差分を算出する差分算出部と、前記説明変数を複数の区間に分割する少なくとも1つの分割条件候補を生成する候補生成部と、前記分割条件候補により前記説明変数を分割した前記複数の区間に属する前記データから算出された前記差分に基づいて、前記少なくとも1つの分割条件候補から第1分割条件を選択する分割条件選択部と、を備える。
第1実施形態に係る情報処理装置であるクレンジング条件生成装置のブロック図。 学習データDBに記憶されている学習データの例を示す図。 グループ分割の概念を模式的に示す図。 クレンジング条件DBの例を示す図。 クレンジング条件DBが更新される例を示す図。 学習データ選択部の動作の補足説明図。 第1実施形態に係るクレンジング条件生成装置の動作の一例のフローチャート。 学習データ選択部の動作の一例のフローチャート。 モデル生成部の動作の一例のフローチャート。 誤差算出部の動作の一例のフローチャート。 グループ分割部の動作の一例のフローチャート。 クレンジング条件生成部の動作の一例のフローチャート。 反復判定部の動作の一例のフローチャート。 本実施形態に係る予測装置の一例のブロック図。 本変形例1に係るクレンジング条件DB9の例を示す図。 本変形例1に係るクレンジング条件生成装置の動作の一例のフローチャート。 第2実施形態に係るクレンジング条件生成装置のブロック図。 第2実施形態に係るクレンジング条件生成装置の動作の一例のフローチャート。 第2実施形態に係るクレンジング条件生成装置の他の動作他のフローチャート。 第4実施形態に係るクレンジング条件生成装置のブロック図。 決定木の例を示す図。 モデルDBに格納されたモデルのパラメータ例を示す図。 クレンジングDBの一例を示す図。 第4実施形態に係るクレンジング条件生成装置の動作の一例のフローチャート。 第5実施形態に係るクレンジング条件生成装置の動作の一例のフローチャート。 本実施形態に係る情報処理装置のハードウェア構成を示す図。
以下、図面を参照しながら、本発明の実施形態について説明する。各図において同一名称の要素には同一の符号を付して、拡張又は変更した処理を除き、説明を適宜省略する。
(第1実施形態)
図1は、第1実施形態に係る情報処理装置であるクレンジング条件生成装置のブロック図である。図1のクレンジング条件生成装置101は、学習データDB11、制御部12、学習データ選択部(データ選択部)13、モデル生成部14、誤差算出部(差分算出部)15、グループ分割部16、クレンジング条件生成部(選択条件生成部)17、反復判定部18、クレンジング条件DB19、表示部20を備えている。グループ分割部16は、候補生成部16Aと分割条件選択部16Bとを備えている。
学習データDB11は、学習用のデータとして複数のインスタンスを記憶している。
図2は、学習データDB11に記憶されている学習データの例を示す。学習データはテーブルの形式で格納されている。学習データは、複数のインスタンス(データ)を含む。インスタンスは、インスタンスID、目的変数、p個の変数(説明変数)を含む。pは1以上の整数である。目的変数の値は、観測対象の値(真値)である。すなわち、目的変数の値は、実際に測定又は取得等された値である。インスタンスIDは、インスタンスを識別するIDである。本実施形態では、目的変数は、実数であり、説明変数の値は、実数又はカテゴリ値であるとする。カテゴリ値は、例えばA、B、Cなど、数値以外の値である。但し、目的変数がカテゴリ値であってもよい。この場合、カテゴリ値を数値で表現すればよい。
学習データ、目的変数、説明変数、及びインスタンス等を、記号を用いて表現すると、以下のように定義される。
Figure 0007214672000001
観測対象は、株価、交通量、道路の占有率、MFP(Multi-function Printer)の利用頻度、気象量、電力需要量、又は発電量など、観測値が取得可能な対象であれば、何でもよい。一例として、目的変数がある会社の1月後の株価の場合、説明変数の例として、今日の当該会社の株価の終値、当該会社の過去1月の株価の移動平均、過去7日間の出来高など考えられる。目的変数が、ある地点の交通量(台数/時間)又はある道路の占有率の場合、曜日、天気、渋滞情報、周辺の工事の有無など、様々ある。目的変数が気象量(気温(℃)、降水量(mm)、又は日射強度(W/m2)など)の場合、説明変数として、過去1週間の各日の気象量、1年前及び2年前の同じ日の気象量、雲の位置、など様々考えられる。目的変数がMFPの利用頻度、電力需要量、発電量などの場合も同様にして様々な説明変数が考えられる。
制御部12は、本装置の全体を制御する。例えば本装置内の各要素の動作を制御する。また、制御部12が、外部の装置からインスタンスを取得し、取得したインスタンスを学習データDB11に格納してもよい。この場合、制御部12はインスタンスを取得するインスタンス取得部を備えている。また、制御部12は、本実施形態で生成されたクレンジング条件を外部の装置に出力してもよい。制御部12は、本実施形態で生成された分割条件を外部の装置に出力してもよい。
学習データ選択部(データ選択部)13は、後述するクレンジング条件DB19に記憶されているクレンジング条件(インスタンスの選択条件)を満たすインタスタンスを学習データDB11から取得する。学習データ選択部13は、取得したインスタンスを学習データとしてモデル生成部14に提供する。取得した個々のインスタンスは、上述したd(i)で定義されるものである。初期状態では、クレンジング条件DB19にクレンジング条件が格納されていなくてもよい。この場合、学習データ選択部13は、学習データDB11内の全てのインスタンスを選択する。
後述するようにクレンジング条件DB19は繰り返し更新され、学習データ選択部13で選択されるインスタンスも、クレンジング条件DB19の更新に応じて変化する。
モデル生成部14は、学習データ選択部13から提供された学習データを用いて、機械学習により、説明変数から目的変数を予測するモデルを生成する。モデル生成部14は、生成したモデルと、学習データ選択部13から提供された学習データとを誤差算出部15に提供する。
一例として、
Figure 0007214672000002
で表すと、モデル生成部14は、学習データを用いて、
Figure 0007214672000003
となるようなモデルfのパラメータを算出する。パラメータは、モデルfが回帰式であれば、回帰式の係数である。
モデルは、教師データを用いて回帰問題を解く一般的な機械学習の手法で生成できる。例えば、重回帰、GLM、ニューラルネットワーク、回帰木、モデル木、ランダムフォレスト、Boosting、Deep Learningなどがある。機械学習の手法のみでなく、一般的な統計値(平均値、中央値、最頻値、最大値、最小値、第一四分位、第三四分位)をモデルとして生成してもよい。モデル生成部14で生成されたモデルと学習データを誤差算出部15へ提供する。
誤差算出部15は、モデル生成部14から提供されたモデルと、モデル生成部14から提供された学習データの説明変数とを用いて、目的変数の予測値(モデルの出力値)を算出する。誤差算出部15は、目的変数の予測値と、目的変数の真値(観測値)との差分である誤差を算出する。誤差算出部15は、算出された誤差と、学習データをグループ分割部16へ提供する。
誤差、及び誤差を算出する関数(誤差算出関数)は、記号を用いて以下のように表すことができる。
Figure 0007214672000004
誤差の具体例として、通常の誤差、絶対誤差、二乗誤差、相対誤差等がある。i番目のインスタンスの目的変数の真値を
Figure 0007214672000005
、当該目的変数の予測値を
Figure 0007214672000006
とすると、i番目のインスタンスの上記4つの誤差はそれぞれ以下の式で表現できる。本実施形態ではいずれの誤差を用いてもよい。
Figure 0007214672000007
グループ分割部16は、誤差算出部15から提供された誤差に基づいて、学習データを分割する対象となる説明変数と、分割の基準値(分割基準値)とを、分割条件として決定する。説明変数が実数の場合、分割基準値は閾値である。以下では、主に閾値を想定する。分割対象となる説明変数をx、閾値をθとすれば、分割条件は、説明変数を閾値θで複数の区間に分割する条件であり、学習データを説明変数xがθ未満のグループと、θ以上のグループとに分割することである。説明変数がカテゴリ値の場合は、分割条件は、分割対象となる説明変数xが分割基準値に一致するグループと、一致しないグループとに分割する条件である。グループ分割部16は、生成した分割条件と、誤差算出部15から取得した学習データとをクレンジング条件生成部17に提供する。以下、グループ分割部16の詳細を説明する。グループ分割部16は候補生成部16Aと分割条件選択部16Bとを備えている。
グループ分割部16の候補生成部16Aが、学習データにおいて対象となる説明変数(例えば、j番目の説明変数:x)を選択する。対象となる説明変数に対して少なくとも1つの分割基準値(閾値等)の候補を生成する。本例では複数の分割基準値を生成する。分割基準値の候補を生成する方法について、説明変数が実数値の場合と、カテゴリ値の場合に分けて説明する。
(対象となる説明変数が実数値の場合)
対象となる説明変数の全ての値を抽出し、抽出した値を降順(または、昇順)にソートする。抽出した値が重複する場合は、重複する値を除外する。ソートした値を
Figure 0007214672000008
と表す。以下の候補例1又は候補例2を用いて、分割基準値(ここでは閾値)の候補を作成する。
Figure 0007214672000009
(対象となる説明変数がカテゴリ値の場合)
説明変数の全てのカテゴリ値を抽出し、抽出したカテゴリ値の全てを分割基準値の候補とする。例えば学習データにおいて対象となる説明変数のカテゴリ値としてA、B、Cが存在する場合、A、B、Cの全てを分割基準値の候補とする。他の方法として、頻度の高い上位X個のカテゴリ値(Xは設定ファイルで指定しておく)を、分割基準値の候補として採用する方法などがある。
なお、説明変数が実数値の場合にも、カテゴリ値と同様に、説明変数の全ての値を閾値の候補とすることも可能である。
グループ分割部16の候補生成部16Aは、学習データにおける全ての説明変数をそれぞれ対象となる説明変数として順番に選択し、各対象となる説明変数について閾値の1つ又は複数の候補を作成する。
グループ分割部16の分割条件選択部16Bは、説明変数と閾値の候補間の全ての組に対して、学習データを分割し、当該組に対する改善スコアを算出する。j番目の説明変数とk番目の閾値候補とによる改善スコアをoj,kと表す。改善スコアの算出方法の例を示す。
分割前後の誤差のばらつきを改善スコアとして算出する例を、以下の例1及び例2に示す。
Figure 0007214672000010
但し、
Figure 0007214672000011
であり、j番目の説明変数xjに関して、k番目の閾値の候補
Figure 0007214672000012
で、学習データを2つのグループに分割した場合に、1つ目のグループに含まれるインスタンスの誤差の集合を
Figure 0007214672000013
、2つ目のグループに含まれるインスタンスの誤差の集合を
Figure 0007214672000014
とする。ただし、lとrは背反関係である。
分割後のグループとしての誤差のまとまりを改善スコアとして算出する例として、以下の例3及び例4がある。
Figure 0007214672000015
但し、1つ目のグループの誤差の平均を
Figure 0007214672000016
、2つ目のグループの誤差の平均を
Figure 0007214672000017
とする。
Figure 0007214672000018
改善スコアは、上記の例1~例4に限られず、分割前後の誤差のばらつきの改善度を評価する指標、又は分割後のグループとしてのまとまりを評価する指標であればよい。
誤差と反対の概念を持つ真値と推定値との一致度を評価する指標、又はモデルの当てはまりを評価する指標を用いて、改善度を評価してもよい。以下、一致度及び当てはまりを評価する指標の例を示す。
Figure 0007214672000019
とする。分割後の1つ目のグループの真値の集合を
Figure 0007214672000020
、分割後の1つ目のグループの推定値の集合を
Figure 0007214672000021
とする。2つ目のグループの真値の集合を
Figure 0007214672000022
、2つ目のグループの真値の推定値を
Figure 0007214672000023
とする。
真値と推定値との一致度を計測する指標として、相関係数により改善スコアを算出する例を、以下の例5に示す。また、モデルの当てはまりを評価する指標として、決定係数により改善スコアを算出する例を、以下の例6に示す。
Figure 0007214672000024
分割条件選択部16Bは、複数の説明変数と閾値の複数の候補との全てのペアについて改善スコアを算出する。改善スコアに基づき、説明変数と閾値の候補とのペアを1つ選択する。一例として、改善度が最も高い説明変数と閾値の候補とのペアを選択する。選択したペアを分割条件として選択する。
改善スコアの定義に応じて、改善スコアの値が小さいほど改善度が高い場合と、改善スコアの値が大きいほど改善度が高い場合のいずれもあり得る。上述した各例1~6では改善スコアが大きいほど、改善度が高い。
図3はグループ分割の概念を模式的に示す。この例では、分割前では誤差が範囲C0で分布しているが、分割後では1つ目のグループでは範囲C1で誤差が分布し、2つ目のグループでは範囲C2で誤差が分布している。範囲C1と範囲C2を合わせた範囲は、範囲C0よりも狭い。つまり、グループ間の距離が0より大きな値となっている。よって、分割によって、誤差のグループとしてのまとまり、あるいは誤差のばらつきが改善している。範囲C1には誤差の大きなインスタンスが含まれているが、分割によって、分割前のグループC0から誤差の大きい範囲C1のインスタンスを分離していると言うことができる。
クレンジング条件生成部17は、グループ分割部16から提供される分割条件に従って、学習データに含まれる複数のインスタンスを複数の区間(本実施形態では2つを想定)に分割する。複数の区間にそれぞれ含まれるインスタンス数に基づいて、複数の区間から第1区間を選択する。選択した第1区間に属するインスタンスを選択する条件(第1区間を特定する条件)を、クレンジング条件として生成する。より詳細には、以下の通りである。
クレンジング条件生成部17は、複数の区間に属するインスタンスのグループがそれぞれ異常条件を満たすかを判断する。異常条件を満たすグループを、異常グループと呼び、異常グループに含まれるインスタンスを異常インスタンスと呼ぶ場合がある。異常条件を満たさないグループを正常グループと呼び、正常グループに属するインスタンスを正常インスタンスと呼ぶ場合がある。
異常条件の例を、以下の例1~例3に示す。αは予めパラメータとして設定された値である。
Figure 0007214672000025
例3の条件を用いる場合は、当該条件が満たされる場合、一例としてインスタンス数が最も少ない又は所定値以下のグループが異常条件を満たすとみなし、他のグループは正常グループとみなす。
クレンジング条件生成部17は、分割によって得られた複数のグループにおいて、異常グループと正常グループの両方が存在する場合、正常グループを選択する条件(正常グループが属する区間を特定する条件)をクレンジング条件として生成する。クレンジング条件は、正常インスタンスを選択する条件、あるいは、異常インスタンスを除く条件であるとも言える。
クレンジング条件生成部17は、分割によって得られた複数のグループがいずれも異常グループの場合は、クレンジング条件を生成しない。例えば、分割によって生成された2つのグループがいずれも異常グループの場合は、クレンジング条件を生成しない。この場日、異常条件に含まれる上記のパラメータαが適切でない可能性があると判断し、制御部12は、本装置の操作者又は管理者等であるユーザに対して警告を発報するデータ又は信号を送信してもよい。警報を受けたユーザは、例えばパラメータαを見直すことができる。あるいは、分割によって得られた複数のグループがいずれも異常グループと判定された場合、判定された時点で本装置の処理を終了し、本処理を終了した時点でクレンジングDB19に格納された全てのクレンジング条件を出力してもよい。
なお、本実施形態では、生成された複数のグループのうち、基本的に1つのグループが異常グループであり、もう一方のグループは正常グループであることを想定している。もしくは、両グループとも正常グループであることを想定している。両グループとも異常グループの場合は、上述したように、ユーザに警告を発し、本装置の処理を終了してもよい。
クレンジング条件生成部17は、クレンジング条件を生成した場合、クレンジング条件を識別するクレンジングIDを生成し、クレンジングID、分割条件及びクレンジング条件等をクレンジングDB19に格納する。
図4(A)は、クレンジング条件DB19の例を示す。図4では1つ目のクレンジング条件が格納された例を示している。クレンジングIDの列は、クレンジングIDを格納する。説明変数の列は、分割条件に用いた説明変数を識別するためのIDを格納する。閾値(分割基準値)の列は、分割条件の閾値(分割基準値)を格納する。説明変数と閾値との組は、分割条件に対応する。図の例では、説明変数_1と閾値47.1のペアを含む分割条件が登録されている。
クレンジング条件の列は、分割条件で分割された複数(ここでは2つ)の区間のうち、正常グループが属する区間を特定する条件(正常グループを選択する条件)がクレンジング条件として格納されている。例えば、「説明変数_1<47.1」は、説明変数_1が47.1より小さい区間である。すなわち、「説明変数_1<47.1」は、説明変数_1が47.1より小さいインスタンスを選択することを意味する。逆に言えば、「説明変数_1<47.1」は、説明変数_1が47.1以上のインスタンスは異常インスタンスとして除外することを意味する。
「次のID」の列は、正常グループ(クレンジング条件で選択されるグループ)に対して次に適用するクレンジング条件のクレンジングIDを格納する。これにより、連鎖的に適用する複数のクレンジング条件を関連付けて管理できる。図の例では、2番目のクレンジング条件がまだ格納されていないため、次のIDの列には、NULLが格納されている。異常グループは、以降、学習データ選択部13で選択されるインスタンスの対象から除外される。
NULLは、クレンジング条件生成部17の次回の処理において、次のクレンジング条件がクレンジングDB19に格納されるタイミングで、当該次のクレンジング条件のクレンジングIDの値に書き換えられる。例えば、クレンジングID=2のクレンジング条件が追加されるタイミングで、クレンジングID=1におけるNULLは“2”に書き換えられる。
図4(B)は、クレンジングID=2のクレンジング条件が追加され、クレンジングID=1における次のID(=NULL)が“2”に書き換えられた例を示す。具体的には、まずクレンジングID=1のクレンジング条件に従って学習データ選択部13でインスタンスが選択される。選択されたインスタンスが、グループ分割部16で決定された分割条件(説明変数_p、閾値4.5)で4.5未満の区間と、4.5以上の区間の2つに分割される。各区間に属するインスタンスのグループのうち、4.5未満の区間に属するグループが異常グループ、4.5以上の区間に属するグループが正常グループと判断される。このため、正常グループが属する4.5以上の区間を特定するクレンジング条件「説明変数_p>=4.5」が生成される。生成されたクレンジング条件と、クレンジングID=2、及び分割条件がクレンジング条件DB19に登録される。このタイミングで、クレンジングID=1における次のID(=NULL)が“2”に書き換えられる。クレンジングID=2における次のIDは、現時点では3つ目のクレンジング条件が格納されていないため、“NULL”である。
クレンジングID=2における“NULL”も、クレンジングID=3のクレンジング条件が追加されるタイミングで、“3”に書き換えられる。クレンジングID=2の分割条件で分割された2つのグループのうち、4.5未満の区間に属するグループ(異常グループ)のインスタンスは、以降、学習データ選択部13で選択されるインスタンスの対象から除外される。
反復判定部18は、学習データ選択部13~クレンジング条件生成部17の処理を反復(継続)するか否かを、停止条件に基づき判定する。停止条件を満たす場合は、クレンジング条件を生成する処理を停止すると判定する。この場合、学習データ選択部13に停止信号を送信する。一方、停止条件を満たさない場合は、処理を反復すると判定する。この場合、反復判定部18は、学習データ選択部13に反復を指示する信号を送信する。以下、停止条件の例を示す。
(停止条件の例1)
クレンジング条件の生成有無の情報を用いて停止条件を定義する。クレンジング条件生成部17でクレンジング条件が生成された場合は、停止条件は満たされず、クレンジング条件が生成されなかった場合は、停止条件は満たされると判断する。クレンジング条件の生成有無の情報を用いて停止条件の成否を判定する場合、クレンジング条件生成部17は、クレンジング条件の生成の有無を示した情報を反復判定部18に提供する。反復判定部18は、提供された情報に基づき、停止条件の成否を判定する。
(停止条件の例2)
グループ分割部16で算出された改善スコアを用いて停止条件を定義する。改善スコアが閾値未満の場合は、停止条件が満たされると判定する。つまり、改善スコアが閾値未満の場合は、クレンジング条件をさらに生成したとしても、モデル生成部14で生成されるモデルの予測の精度の改善効果が低いと判断する。一方、改善スコアが閾値以上の場合は、停止条件は満たされないと判断する。つまり、さらにクレンジング条件を生成することで、モデルの予測の精度の改善効果が見込まれると判断する。改善スコアを用いる場合、クレンジング条件生成部17は、グループ分割部16から改善スコアを取得して、反復判定部18に提供する。反復判定部18は、提供された改善スコアに基づき、停止条件の成否を判定する。
(停止条件の例3)
反復回数を用いて停止条件を定義する。反復回数が閾値以上の場合は、停止条件が満たされると判定する。一方、反復回数が閾値未満の場合は、停止条件は満たされないと判定する。この場合、クレンジング条件生成部17は反復判定部18に反復回数の情報を反復判定部18に提供してもよい。反復判定部18は、提供された情報に基づき、停止条件の成否を判定する。あるいは、反復判定部18は自部で反復した回数を記憶しておき、記憶した情報を用いて、停止条件の成否を判定してもよい。
停止条件は、上述した例1~3に限定されない。例えば、クレンジング条件を生成した個数が所定値に達したら停止条件が満たされると判定してもよい。また、ユーザの操作装置から停止指示の信号を受信した場合に、停止条件が満たされると判定してもよい。
学習データ選択部13は、反復判定部18で処理を反復すると判定された場合、クレンジング条件DB19のクレンジング条件の全てに基づきインタスタンスを選択する。例えば、クレンジングDB19に格納されているクレンジングID=1のクレンジング条件から順番にクレンジング条件をすべて適用し、全てのクレンジング条件を満たしたインスタンスを選択する。選択したインスタンスを学習データとしてモデル生成部14に適用する。以降の動作は上述した通りである。なお、反復処理では、グループ分割部16において、クレンジング条件が生成されなかった分割条件と同じ候補は選択しないようにしてもよい。
図5は、学習データ選択部13~クレンジング条件生成部17の処理を反復してクレンジング条件DB19が更新される例を示す。最後の行のクレンジングID=mのクレンジング条件が生成されたときに、停止条件が満たされている。このため、クレンジングID=mにおける次のIDは“NULL”となっている。つまり、停止条件が満たされることなどにより反復動作が終了した場合は、最後の行における次のIDの列には”NULL”が挿入される。
図6は、学習データ選択部13の動作の補足説明図である。図6の説明図は、図5のクレンジング条件DB19の例に対応している。
最初にクレンジング条件DB19に「説明変数_1<47.1」のクレンジング条件のみが登録されているとする(図4(A)参照)。この場合、学習データ選択部13は、学習データDB11から「説明変数_1<47.1」を満たすインタスタンスのみを選択し(TRUE_1)、モデル生成部14に提供する。「説明変数_1<47.1」を満たさないインスタンスは異常インスタンスとして選択されない(FALSE_1)。
クレンジング条件生成部17により「説明変数_p>=4.5」のクレンジング条件が登録され、クレンジング条件DB19には、2つ目のクレンジング条件(図4(B)参照)が登録されたとする。この場合、学習データ選択部13は、学習データDB11から「説明変数_1<47.1」を満たすインスタンスを選択し(TRUE_1)、選択したインスタンスのうちさらに「説明変数_p>=4.5」を満たすインスタンスを選択する(TRUE_2)。選択したインスタンスをモデル生成部14に提供する。当該2つの条件の両方を満たさないインスタンスは異常インスタンスとして選択されない(FALSE_1、FALSE_2)。
以降、学習データ選択部13~クレンジング条件生成部17の処理が繰り返され、クレンジング条件生成部17によりm個目のクレンジング条件として「説明変数_i≠C」が登録されたとする。この時点でクレンジング条件DB19には、m個のクレンジング条件(図5参照)が登録されている。この場合、学習データ選択部13は、学習データDB11から1~m-1番目のクレンジング条件を適用し、残ったインスタンスに対してさらにm番目のクレンジング条件「説明変数_i≠C」を適用し、インスタンスを選択(TRUE_3)する。選択したインスタンスをモデル生成部14に提供する。当該クレンジング条件を満たさないインスタンスは、異常インスタンスとして選択されない(FALSE_3)。
表示部20は、クレンジング条件DB19に格納されているデータを画面に表示する。ユーザは、本装置により生成されたクレンジング条件及びその他の情報(分割条件等)を視認する。クレンジング条件DB19に格納されているデータの表示を、本装置の反復処理が完了した後で行ってもよいし、リアルタイムにクレンジング条件DB19のデータを段階的に表示し、クレンジング条件等が追加されていく過程をユーザに提示にしてもよい。
図7は、第1実施形態に係る情報処理装置であるクレンジング条件生成装置101の動作の一例の概略を示すフローチャートである。本フローの動作は、制御部12が学習データ選択部13を起動させたところから開始する。
学習データ選択部13は、クレンジング条件DB19に格納されたクレンジング条件を満たすインスタンスを、学習データDB11から学習データとして取得する(S101)。クレンジング条件DB19にクレンジング条件が格納されていないときは、学習データDB11から全てのインスタンスを取得する。
モデル生成部14が、学習データに基づき、説明変数から目的変数を予測するモデルを生成する(S102)。
誤差算出部15が、生成されたモデルに基づき、学習データに含まれるインスタンスごとに誤差を算出する(S103)。
グループ分割部16が、誤差算出部15が算出した誤差に基づき、学習データを分割する分割条件(分割の対象となる1つの説明変数と、分割基準値(閾値等))の候補を生成する(S104)。生成した候補のうちの1つを分割条件として選択する。
クレンジング条件生成部17が、選択した分割条件に従って、学習データにおける複数のインスタンスを複数の区間(ここでは2つ)に分割する(S105)。クレンジング条件生成部17が、各区間に属するインスタンスのグループについて異常条件を満たすグループ(異常グループ)か、異常条件を満たさないグループ(正常グループ)かを判断する(S106)。
いずれか一方のグループみが異常グループであり、他方が正常グループの場合、正常グループを選択する条件(正常グループが属する区間を特定する条件)を、クレンジング条件として生成する(S107)。クレンジング条件生成部17は、生成したクレンジング条件を、クレンジングID及び分割条件等に関連づけて、クレンジング条件DBに格納する。本実施形態では、2つのグループとも正常グループの場合は、クレンジング条件を生成しない。但し、後述する変形例1で記載するように、2つのグループとも正常グループの場合に、各正常グループについてクレンジング条件を生成する形態も可能である。
反復判定部18は、停止条件が満たされるかを判定する(S108)。停止条件が満たされる場合は、ステップS101~S107の動作を反復することを決定する。停止条件が満たされない場合は、本動作を終了させる。
図8は、学習データ選択部13の動作の一例のフローチャートである。学習データ選択部13は、クレンジング条件DB19にクレンジング条件が登録されているかを判断する(S201)。クレンジング条件が登録されていない場合(例えば初期状態の場合)、学習データDB11から全インスタンスを学習データとして取得する(S202)。一方、クレンジング条件DB19にクレンジング条件が登録されている場合、クレンジング条件DB19からクレンジング条件を全て取得し、取得した全てのクレンジング条件を満たすインスタンスを学習データDB11から学習データとして取得する(S203)。学習データ選択部13は、ステップS102又はS103で取得した学習データをモデル生成部14に提供する(S204)。
図9は、モデル生成部14の動作の一例のフローチャートである。モデル生成部14は、学習データ選択部13から学習データを取得し(S301)、取得した学習データを用いて説明変数から目的変数を予測するモデルを生成する(S302)。モデルは、例えば、回帰問題を解く一般的な教師あり手法(重回帰、GLM、ニューラルネットワーク、回帰木、モデル木、ランダムフォレスト、Boosting、Deep Learningなど)による機械学習を用いて生成する。機械学習ではなく、一般的な統計値(平均値、中央値、最頻値、最大値、最小値、第一四分位、第三四分位)をモデルとして算出してもよい。モデル生成部14は、生成したモデルと、学習データ選択部13から取得した学習データとを、誤差算出部15へ提供する(S303)。
図10は、誤差算出部15の動作の一例のフローチャートである。誤差算出部15は、モデル生成部14から学習データとモデルとを取得し(S401)、インスタンスの説明変数と、モデルとから、目的変数の予測値を算出する(S402)。インスタンスの目的変数(真値)と、目的変数の予測値との差分を、誤差として算出する(S403)。前述したように、誤差の種類には、通常の誤差、絶対誤差、二乗誤差又は相対誤差等誤差などがある。誤差算出部15は、モデル生成部14から取得した学習データと、インスタンス毎の誤差とをグループ分割部16に提供する(S404)。
図11は、グループ分割部16の動作の一例のフローチャートである。グループ分割部16は、誤差算出部15から学習データとインスタンス毎の誤差とを取得する(S501)。学習データに基づき複数の説明変数から1つの説明変数を選択し、選択した説明変数の値を複数の区間に分割する閾値の少なくとも1つの候補(本例では複数)を生成する(S502)。
候補を1つ選択し、選択した説明変数と、選択した閾値の候補とに基づいて、学習データを複数の区間に分割する(S503)。各区間に属するインスタンスの誤差に基づき、改善スコアを算出する(S504)。改善スコアの例は、上述した改善スコアの例1~例6を含む。算出した改善スコアが、予め与えられたパラメータomax(初期値が設定されている)より大きいかを判断する(S505)。パラメータomaxより大きい場合は、選択した説明変数と閾値の候補とを、暫定解(暫定の分割条件)とする(S506)。ステップS504で算出した改善スコアをパラメータomaxに代入する(S507)。
ステップS507の後、もしくは、ステップS505で改善スコアがパラメータomax未満と判断された場合は、ステップS502に戻る。ステップS502で生成した候補のうちまだ選択していない候補を選択し、同様の処理を繰り返す(S503~S507)。
閾値の候補を全て選択したら、ステップS502に戻り、まだ選択していない説明変数を選択する。選択した説明変数について少なくとも1つの候補(本例では複数)を生成し、各閾値の候補を順番に選択して、同様の処理を繰り返す(S503~S507)。
全ての説明変数が選択されたら、ステップS508に進む。ステップS508では、現時点の暫定解(暫定の分割条件)を、最終的な分割条件として確定する。確定した分割条件と、誤差算出部15から取得した学習データとをクレンジング条件生成部17に提供する。
図12は、クレンジング条件生成部17の動作の一例のフローチャートである。クレンジング条件生成部17は、グループ分割部16から学習データと分割条件とを取得する(S601)。クレンジング条件生成部17は、分割条件に従って学習データを複数の区間に分割する(S602)。
各区間に属するインスタンスのグループについて、異常条件を満たす異常グループか、異常条件を満たさない正常グループかを判断する(S603)。全てのグループが正常グループの場合又は全てのグループが異常グループの場合は、本処理を終了する。全てのグループが異常グループの場合、ユーザに警報を出力して、本装置の処理(図7参照)を終了してもよい。
異常グループと正常グループが存在する場合は、正常グループが属する区間のインスタンスを選択する条件(正常グループが属する区間を特定する条件)を、クレンジング条件として生成する(S604)。また、クレンジング条件に対してクレンジングIDを生成する(同S604)。クレンジングDB19に他のクレンジング条件が既に登録されているかを判断する(S605)。他のクレンジング条件がまだ登録されていない場合は、クレンジング条件をクレンジングID及び分割条件等とともにクレンジングDB19に格納する(S607)。“次のID”の値はNULLとする。
他のクレンジング条件が既に登録されている場合は、クレンジングDB19において最も後に追加されたクレンジング条件における“次のID”の値をNULLから、ステップS604で生成したクレンジングIDの値に書き換える(S606)。そして、ステップS604で生成したクレンジング条件をクレンジングID及び分割条件等とともにクレンジングDB19に格納する。“次のID”の値はNULLとする。
図13は、反復判定部18の動作の一例のフローチャートである。反復判定部18は、クレンジング条件生成部17の処理が完了した後、停止条件が成立したかを判定する(S701)。反復判定部18は、停止条件が成立した場合は、本装置の処理(図7参照)を終了する。一方、停止条件が成立しない場合は、学習データ選択部13を再度、起動させ(S702)、図8のフローチャートの処理を行わせる。反復判定部18は、停止条件の成否を判定するための情報をクレンジング条件生成部17から取得してもよい。例えば、クレンジング条件生成部17でのクレンジング条件の生成有無に基づき停止条件の成否を判定する場合は、クレンジング条件の生成有無の情報をクレンジング条件生成部17から取得する。
クレンジング条件DB19に格納されたクレンジング条件を、学習データから予測モデルを生成する場合の当該学習データの前処理に適用することができる。つまり、学習データからクレンジング条件DB19内のクレンジング条件を満たすインスタンスのみを選択し、選択したインスタンスを用いて予測モデルを生成する。予測モデルの生成に用いる学習データは、学習データDB11に格納されているものでもよいし、別途取得した学習データでもよい。
図14は、本実施形態に係る情報処理装置である予測装置の一例のブロック図である。図14の予測装置は、図1のクレンジング条件生成装置101で生成されたクレンジング条件を格納するクレンジング条件DB19を備えている。図14の予測装置は、クレンジング条件を満たすインスタンスを学習データから選択し、選択したインスタンスを用いて、予測モデルの生成と、生成した予測モデルに基づく予測とを行う。より詳細には、図14の情報処理装置は、学習データDB31、前処理部32、予測モデル生成部33、モデルDB34、予測部35、表示部36、予測対象データDB37及びクレンジング条件DB19を備えている。
学習データDB11は、図1の学習データDB11と同じ形式のインスタンスを記憶している。学習データDB31は図1の学習データDB11と同じでもよいし、学習データDB11とは別に取得したインスタンスを格納していてもよい。説明変数及び目的変数の例は、学習データDB11で説明した例と同様でよい。
クレンジング条件DB19は、図1のクレンジング条件生成装置101で生成されたクレンジング条件を格納したクレンジング条件DB19と同じである。
前処理部32は、クレンジング条件DB19に記憶されている全てのクレンジング条件を満たすインスタンスを学習データDB31から選択し、選択したインスタンスを予測モデル生成部33に提供する。
予測モデル生成部33は、前処理部32から提供されたインスタンスに基づき、説明変数から目的変数を予測する予測モデルを生成する。予測モデルの種類は、図1のモデル生成部14で生成するモデルと同様でよい。
予測対象データDB37は、観測対象に関する複数の説明変数を含む予測対象データを格納している。予測対象データに含まれる説明変数は、学習データDB31と同じ種類である。
予測部35は、予測対象データDB37に記憶された予測対象データと、モデルDB34に格納されている予測モデルとに基づき、観測対象に関する予測値を算出する。具体的には予測モデルの説明変数に予測対象データの説明変数を入力し、目的変数の予測値を算出する。
表示部36は、予測部35により算出された予測値を表示する。これにより本装置の操作者又は管理者等であるユーザは、予測結果を確認できる。
以上、本実施形態によれば、学習データにおける各インスタンスの目的変数の値が外れ値でない場合も、学習データにおいて他と異なる特性を有するインスタンス(異常インスタンス)を排除する条件を、クレンジング条件として生成できる。また、本実施形態によれば、各インスタンスに正常又異常のラベルを事前に設定する必要はない。よって、事前知識無しで、学習データのクレンジング条件を生成することができる。また、クレンジング条件を生成する処理を反復することで、段階的にクレンジング条件の精度を高めることが生成できる。
(変形例1)
第1実施形態では正常グループと異常グループの2種類が生成された場合に異常インスタンスを除去するためのクレンジング条件(すなわち、正常グループを選択するクレンジング条件)を生成した。本変形例1では、2つ以上の正常グループが生成され、異常グループが生成されない場合にも、各正常グループを選択する条件(各正常グループが属する区間を特定する条件)をそれぞれクレンジング条件として生成する。
図15は、本変形例1に係るクレンジング条件DB19の例を示す。クレンジング条件の列と次のIDの列との組が2つ存在する。分割条件で分割された各区間を特定する条件が、各クレンジング条件の列に格納されている。例えば分割条件が説明変数_1と閾値47.1の場合、説明変数_1が47.1未満の区間と、47.1以上の区間が存在し、各区間を特定する条件がクレンジング条件として、それぞれクレンジング条件1、2の列に格納されている。
区間に属するインスタンスのグループが正常グループの場合は、第1実施形態と同様に、次のIDの列には、次のクレンジングIDの値を格納する(実際に次のクレンジング条件が生成されるまでは、次のIDの列の値はNULLである)。一方、区間に属するインスタンスのグループが異常グループの場合は、クレンジング条件の列にはNA、次のIDの列にもNAを格納する。
例えばクレンジングID=1の場合、説明変数_1が47.1未満の区間に属するインスタンスのグループ、47.1以上の区間に属するインスタンスのグループはいずれも正常グループである。このため、次のIDの列には、それぞれ次のクレンジングIDの値2、4が格納されている。一方、クレンジングID=2の場合、説明変数_pが4.5以上の区間に属するインスタンスのグループは正常グループであり、4.5未満の区間に属するインスタンスのグループは異常グループである。このため、正常グループに対しては、次のクレンジングIDである3が格納されており、異常グループに対しては、NAが格納されている。
図16は、本変形例1に係るクレンジング条件生成装置の動作の一例のフローチャートである。本処理では、第1実施形態のステップS106が、ステップS106Aに変更されている。ステップS106Aでは、分割条件で分割された各区間に属するインスタンスのグループが異常グループか否かを判断し、少なくとも1つの正常グループが存在する場合は、(異常グループが存在しなくても)クレンジング条件を生成する。
本変形例1によれば、分割条件によって分割された各区間に属するインスタンスのグループが正常グループのみでもクレンジング条件を生成することにより、正常グループごとに、よりインスタンスの特性に応じた予測モデルを構築することが可能になる。
(変形例2)
第1実施形態及び変形例1では分割条件として学習データを2つの区間に分割する形態を示したが、3つ以上の区間に分割する分割条件も可能である。例えば、説明変数_kが50未満、50以上60未満、60以上の3つの区間に分割する分割条件も可能である。また、説明変数_q=Aと、説明変数_q=Bと、説明変数_q=Cの3つに分割する分割条件も可能である。
この場合も、例えば変形例1と同様に、クレンジング条件DB19に区間の最大数だけ、クレンジング条件の列と次のIDの列との組を設けて、変形例1と同様の処理を行えばよい。
(第2実施形態)
図17は、第2実施形態に係る情報処理装置であるクレンジング条件生成装置101のブロック図である。図1と同じ名称のブロックには同一の符号を付して、拡張又は変更された処理を除き、説明を省略する。以下、第1実施形態と差異がある部分を中心に説明する。
第1実施形態では学習データ選択部13、モデル生成部14、誤差算出部15、グループ分割部16及びクレンジング条件生成部17の処理を反復したが、第2実施形態では、グループ分割部16及びクレンジング条件生成部17の処理のみを反復する。このため、第2実施形態では、反復判定部18は処理を反復することを決定した場合、学習データ選択部13でなく、グループ分割部16を起動させる。反復判定部18又はグループ分割部16は、クレンジング条件生成部17でこれまで生成されたクレンジング条件を満たすインスタンスを選択する。つまり、反復判定部18又はグループ分割部16は、クレンジング条件を満たすインスタンスを選択するデータ選択部を含む。選択されたインスタンス及び当該インスタンスの誤差を用いて、グループ分割部16の処理を行う。従って、第2実施形態では最初にモデル生成部14でモデルが生成され、誤差算出部15で誤差が算出された後は、モデル生成部14におけるモデルの生成及び誤差算出部15における誤差の算出は行われない。
図18は、第2実施形態に係るクレンジング条件生成装置101の動作の一例のフローチャートである。第1実施形態のフローチャート(図7参照)と異なる点は、ステップS108で停止条件が成立しないと判断された場合に、ステップS109に進み、ステップS109の後、ステップS104に戻ることである。ステップS102のモデル生成と、ステップS103の誤差算出は一度しか行われない。ステップS109では、反復判定部18又はグループ分割部16は、クレンジング条件生成部17でこれまで生成されたクレンジング条件を満たすインスタンスを選択する。選択されたインスタンス及び当該選択されたインスタンスの誤差を用いて、グループ分割部16で次の処理を行う(S104、S105)。
第2実施形態によれば、ステップS102のモデル生成と、ステップS103の誤差算出を一度しか行わないため、処理を高速に行うことができる。
(第3実施形態)
第3実施形態に係る情報処理装置であるクレンジング条件生成装置101のブロック図は、第2実施形態の図17と同じである。
第2実施形態では、グループ分割部16で改善スコアが最も大きい1つの候補を分割条件として決定したが、第3実施形態では反復処理を行うごとに、改善スコアの大きい順に候補を選択し、選択した候補を分割条件として選択する。例えば、最初の処理では改善スコアが最大値の候補を選択し、1回目の反復処理では2番目に大きい候補、2回目の反復処理では3番目に大きい候補を分割条件として選択する。
本実施形態に係る反復処理では、第2実施形態と同様に、これまで生成されたクレンジング条件を用いて、使用するインスタンスを選択し、グループ分割部16以降の処理を行ってもよい。あるいは、反復処理ごとに、毎回、全てのインスタンスを用いてグループ分割部16以降の処理を行うことも可能である。
図19は、第3実施形態に係るクレンジング条件生成装置101の動作の一例のフローチャートである。本動作は、反復処理において、毎回全てのインスタンスを用いてグループ分割部16以降の処理を行う点が、図18のフローチャートと異なる。すなわち、図19のフローチャートは、図18のフローチャートからステップS109を省いたものに相当する。
本実施形態によれば、複数の候補を分割条件として用い、改善スコアの大きい順に分割条件を適用する。これにより、反復処理の回数を減らし、クレンジング条件の生成処理を高速に完了させることができる。
(第4実施形態)
図20は、第4実施形態に係る情報処理装置であるクレンジング条件生成装置101のブロック図である。図1と同じ名称のブロックには同一の符号を付して、拡張又は変更された処理を除き、説明を省略する。以下、第1実施形態と差異がある部分を中心に説明する。
第4実施形態では、第1実施形態の変形例1と同様に、分割条件によって分割された複数の区間に属するグループがいずれも正常グループの場合も、各正常グループを選択する条件をクレンジング条件として生成する。さらに、本実施形態ではクレンジング条件生成部17は、クレンジング条件の生成と並行して、インスタンスを分類する決定木(モデル木)を生成する。
図21は、決定木の例を示す。決定木の根ノード(内部ノード)N1は全てのインスタンスが属する。根ノードN1に対して最初にクレンジング条件が生成されると、決定木の根ノードN1が分岐条件(クレンジング条件に対応)に応じて分岐され、各分岐先に内部ノードN2、N3が追加される。内部ノードとは、葉ノード(末端ノード)以外のノードのことである。インスタンスは根ノードから各内部ノードに対応する分岐条件に応じて各内部ノードに分類される。分岐条件はクレンジングに対応し、クレンジング条件を満たすか否かに応じて、インスタンスが内部ノードN2又はN3に分類される。この例では、クレンジング条件を満たすインスタンスが内部ノードN2に分類され、満たさないインスタンスが内部ノードN3に分類されている。内部ノードN2に属するインスタンスのグループは正常グループであり、内部ノードN3に属するインスタンスのグループは異常グループである。
クレンジング条件生成部17は、内部ノードに分類されたグループが正常グループであり、かつモデル生成条件を満たすと判断した場合、当該内部ノードは葉ノード(末端ノード)であると決定する。モデル生成条件は、例えば正常グループに属するインスタンス数に基づき、以下のように定義される。この例では、正常グループに属するインスタンス数が閾値未満の場合、モデル生成条件が満たされ、閾値以上の場合、モデル生成条件が満たされないと判断する。
|D_g|<c
|D_g |:gグループのインスタンス数、c:閾値
図21では、内部ノードN2が分岐条件(クレンジング条件)に応じて内部ノードN4、N5に分岐されている。この例では内部ノードN4、N5とも正常グループが分類されるため、各正常グループに対するクレンジング条件(分岐条件)が内部ノードN2に対応づけられている。いずれの分岐条件を満たすかに応じて、インスタンスは内部ノードN4又はN5に分類される。内部ノードN5の正常グループはモデル生成条件を満たし、内部ノードN5が葉ノードと決定される。このため、当該正常グループに属するインスタンスに基づき、予測モデルAが生成される。生成した予測モデルAを葉ノードN5に割り当てられる。クレンジング条件生成部17は、生成した予測モデルAのモデルパラメータをモデルDB21に格納する。
クレンジング条件生成部17は、内部ノードに分類されたグループが異常グループである場合も、当該内部ノードを葉ノードとして決定する。但し、クレンジング条件生成部17は、異常グループに対しては予測モデルの生成を行わない。例えば、内部ノードN3に分類されたグループが異常グループであり、葉ノードと決定されるが、予測モデルは生成されない。
内部ノードN4は、分岐条件(クレンジング条件)に応じて内部ノードN6、N7に分岐され、内部ノードN6は異常グループが属する葉ノードと決定されている。内部ノードN7は分岐条件(クレンジング条件)に応じて、内部ノードN8、N9に分岐されている。内部ノードN8、N9に属するグループはいずれも正常グループであり、かつモデル生成条件が満たされる。内部ノードN8、N9は葉ノードと決定され、予測モデルB、Cが生成されている。予測モデルB、Cは葉ノードN8、N9に割り当てられている。クレンジング条件生成部17は、予測モデルB、CのモデルパラメータをモデルDB21に格納する。
このようにして、クレンジング条件の生成と、モデル木の生成(予測モデルを葉ノードに割り当てた決定木の生成)とを並行して行う。モデル木を利用することで、予測対象データに適用する予測モデルを、モデル木から高速に特定できる。つまり、予測対象データに含まれる説明変数に基づき、モデル木の各内部ノードの分岐条件に従って、予測対象データをいずれかの葉ノードに分類する。予測モデルが割り当てられた葉ノードに分類された場合、予測対象データに、当該葉ノードに割り当てられた予測モデルを用いて、目的変数の予測を行う。
図22は、モデルDB21に格納されたモデルパラメータ例を示す。モデルDB21は、予測モデルのモデルIDと、予測モデルのモデルパラメータとを格納している。予測モデルの種類は、モデル生成部14が生成するモデル又は図14の予測モデル生成部33が生成するモデルと同様でよい。モデルDB21に、予測モデルが割り当てられた葉ノードのIDを格納してもよい。予測モデルは一例として回帰モデルであり、この場合、回帰式の係数がモデルパラメータとして格納される。
図23は、クレンジングDB19の一例を示す。第4実施形態に係るクレンジングDB19は、基本的には第1実施形態の変形例1のクレンジングDB19と同様の形式を有する。但し、「次のID1」及び、「次のID2」には、各々のクレンジング条件によって選択されるグループが正常グループであり、かつモデル生成条件を満たす場合には、当該グループに対して生成される予測モデルのIDが格納される。異常グループに対しては、第1実施形態の変形例1と同様に、クレンジング条件1又は2の列、及び次のID1又は2の列はNAになる。図23のクレンジングDB19はモデル木を表現している。
図24は、第4実施形態に係るクレンジング条件生成装置の動作の一例のフローチャートである。第1実施形態の変形例1のフローチャート(図16参照)に対して、ステップS110、S111が追加されている。ステップS107の後、ステップS110に進む。
ステップS110では、クレンジング条件生成部17が、正常グループがモデル生成条件を満たすかを判断する。モデル生成条件を満たさない場合、インスタンスを選択するフローに戻り、再帰的な動作をする。モデル生成条件を満たす場合、ステップS111で、正常グループに属するインスタンスに基づき、予測モデルを生成し、再帰的な動作から抜け出す。
以上、本実施形態によれば、モデル木を生成する過程で異常インスタンスを除くことができる。つまり、異常インスタンスの除去と、予測モデルの生成とを同時に行うことができる。
(変形例)
インスタンスのグループを分割する前の予測モデルの精度と、分割後の各グループから生成した予測モデルの精度とが同等の場合、不必要な分割を実施していることに等しい。そこで、本変形例では、分割前のグループの予測モデルの誤差と、分割後の各グループの予測モデルの誤差を算出する。誤差の算出は、誤差算出部15と同様でよい。誤差の改善度を評価し、改善度が低ければ、分割された各グループの予測モデルを破棄して、分割前のグループの予測モデルを採用する。モデル木の構成も、分割前のモデル木に戻す。改善度が高ければ、分割後の各グループから生成した予測モデルを採用する。
誤差の改善度の評価は、例えば分割前のグループの予測モデルの誤差から、分割後の各グループの予測モデルの誤差の平均を減算し、減算した値により決定する。減算した値が正であり、かつ一定値以上であれば、改善度が高いと判断する。減算した値が正でありかつ一定値未満の場合、もしくは減算した値が負の場合は、改善度が低いと判断する。他の方法を用いて、誤差の改善度を評価してもよい。
(第5実施形態)
第5実施形態は、第4実施形態に基づいており、逐次、本クレンジング条件生成装置の学習データDB11にインスタンスが追加される場合に、モデル木をオンラインで学習する。ストリームデータに適用可能なオンライン型の決定木学習アルゴリズムとして、FVDT (Very Fast Decision Tree)が知られている。本フローチャートの処理もVFDTに基づいている。
図25は、第5実施形態に係るクレンジング条件生成装置の動作の一例のフローチャートである。第4実施形態に係るフローチャートに、インスタンスが追加されるステップS112と、Hoeffding Bound(HB)の条件を判定するステップS113が追加されている。一例として、予め第4実施形態によりクレンジング条件及びモデル木が生成されており、その後、インスタンスが追加される状況を想定する。
図25の処理は、ステップS112で学習データDB11にインスタンスが追加されるごとに実行される。インスタンスが追加されると、ステップS101でインスタンスが分類される葉ノードをモデル木から特定し、同じ葉ノードに分類されている既存のインスタンスを選択する(S101)。追加されたインスタンスと、選択されたインスタンスとに基づき、モデルの生成及び誤差の算出を行う(S102、S103)。
ステップS104では、誤差を基準に分割条件の複数の候補を生成し、候補毎に、改善スコアを算出する。改善スコアが最大の分割条件の候補と、2番目に大きい分割条件の候補とを特定する。下記のHoeffding Boundの条件を判定する。Hoeffding Boundの条件を満たすことは、値域がRの区間で発生する値を独立にn回観測して算出した標本平均
Figure 0007214672000026
と真の平均μに対して、
Figure 0007214672000027
となる確率がδ以上であることを保証する。Hoeffding Boundの条件は、以下の式で表される。δはパラメータとして予め設定されている。
Figure 0007214672000028
Hoeffding Boundの条件が満たされる場合、最大の改善スコアの分割条件を決定し、ステップS105に進む。以降の処理は第4実施形態と同じである。
Hoeffding Boundの条件が満たされない場合、ステップS108に進む。この場合、学習データの分割、クレンジング条件の生成、及びモデル木の更新等は行われない。
(ハードウェア構成)
図26に、本実施形態に係る情報処理装置101のハードウェア構成を示す。本実施形態に係る情報処理装置101は、コンピュータ装置170により構成される。コンピュータ装置170は、CPU151と、入力インタフェース152と、表示装置153と、通信装置154と、主記憶装置155と、外部記憶装置156とを備え、これらはバス157により相互に接続されている。
CPU(中央演算装置)151は、主記憶装置155上で、情報処理装置101の上述の各機能構成を実現するコンピュータプログラムを実行する。CPU151が、コンピュータプログラムを実行することにより、各機能構成は実現される。
入力インタフェース152は、キーボード、マウス、及びタッチパネルなどの入力装置からの操作信号を、情報処理装置101に入力するための回路である。情報処理装置の入力部の入力機能を担う部分は、入力インタフェース152上に構築されることができる。
表示装置153は、情報処理装置101から出力されるデータ又は情報を表示する。表示装置153は、例えば、LCD(液晶ディスプレイ)、CRT(ブラウン管)、及びPDP(プラズマディスプレイ)であるが、これに限られない。コンピュータ装置170から出力されたデータ又は情報は、この表示装置153により表示することができる。情報処理装置101が備える出力部は、表示装置153上に構築されることができる。
通信装置154は、情報処理装置101が外部装置と無線又は有線で通信するための回路である。通信装置154を介して外部装置から情報を入力することができる。外部装置から入力した情報を、DBに格納することができる。
主記憶装置155は、本実施形態の処理を実現するプログラム、及びプログラムの実行に必要なデータ、及びプログラムの実行により生成されたデータなどを記憶する。プログラムは、主記憶装置155上で展開され、実行される。主記憶装置155は、例えば、RAM、DRAM、SRAMであるが、これに限られない。各実施形態における各種DB及び記憶部は、主記憶装置155上に構築されてもよい。
外部記憶装置156は、上記プログラム及びプログラムの実行に必要なデータ、及びプログラムの実行により生成されたデータなどを記憶する。これらのプログラムやデータは、本実施形態の処理の際に主記憶装置155に読み出される。外部記憶装置156は、例えば、ハードディスク、光ディスク、フラッシュメモリ、及び磁気テープであるが、これに限られない。各実施形態における各種DB及び記憶部は、外部記憶装置156上に構築されてもよい。
なお、上述のプログラムは、コンピュータ装置170に予めインストールされていてもよいし、CD-ROMなどの記憶媒体に記憶されていてもよい。また、当該プログラムは、インターネット上にアップロードされていてもよい。
なお、コンピュータ装置170は、プロセッサ151、入力インタフェース152、表示装置153、通信装置154、及び主記憶装置155を、それぞれ1つ又は複数備えてもよいし、プリンタやスキャナなどの周辺機器を接続されていてもよい。
また、情報処理装置101は、単一のコンピュータ装置170により構成されてもよいし、相互に接続された複数のコンピュータ装置170からなるシステムとして構成されてもよい。
なお、本発明は上記各実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記各実施形態に開示されている複数の構成要素を適宜組み合わせることによって種々の発明を形成できる。また例えば、各実施形態に示される全構成要素からいくつかの構成要素を削除した構成も考えられる。さらに、異なる実施形態に記載した構成要素を適宜組み合わせてもよい。
101:クレンジング条件生成装置
11:学習データDB
12:制御部
13:学習データ選択部
14:モデル生成部
15:誤差算出部
16:グループ分割部
16A:候補生成部
16B:分割条件選択部
17:クレンジング条件生成部
18:反復判定部
19:クレンジング条件DB
20:表示部
31:学習データDB
32:前処理部
33:予測モデル生成部
34:予測モデルDB
35:予測部
36:表示部
37:予測対象データDB
151:プロセッサ(CPU)
152:入力インタフェース
153:表示装置
154:通信装置
155:主記憶装置
156:外部記憶装置
157:バス
170:コンピュータ装置

Claims (20)

  1. 目的変数と、少なくとも1つの説明変数とを含む複数のデータに基づき、前記目的変数と、前記説明変数から予測される前記目的変数の予測値との複数の差分を算出する差分算出部と、
    前記説明変数を前記説明変数の値の範囲によって特定される複数の区間に分割する値を示す少なくとも1つの分割条件候補を前記説明変数の値に基づき生成する候補生成部と、
    前記分割条件候補により前記説明変数を分割した前記複数の区間に属する前記データから算出された前記差分を特定し、前記区間ごとの前記差分のばらつきを示す値と、前記差分算出部で算出された前記差分のばらつきを示す値とに基づく演算により前記分割によるばらつきの改善を評価するスコアを算出し、または、前記区間ごとの前記差分の平均値に基づく演算により前記区間としての前記差分のまとまりを評価するスコアを算出し、前記スコアに基づき、前記少なくとも1つの分割条件候補から第1分割条件を選択する分割条件選択部と、
    を備えた情報処理装置。
  2. 前記第1分割条件によって前記説明変数を分割した前記複数の区間のうち属する前記データの個数が閾値以上の区間、又は前記複数のデータの個数に対する前記データの個数の割合が閾値以上の区間を第1区間として選択し、前記複数のデータのうち前記第1区間に属するデータを選択することを定めた第1選択条件を生成する選択条件生成部、
    備えた請求項1に記載の情報処理装置。
  3. 前記説明変数の2つ以上の値は、前記説明変数の値をソートし、重複する値を除外した場合の隣接する2つ以上の値である
    請求項1又は2に記載の情報処理装置。
  4. 前記分割条件選択部は、前記区間ごとの前記差分のばらつきを示す値を前記区間に属するデータ数に基づいて重み付けして加算した値を、前記差分算出部で算出された前記差分のばらつきを示す値から減算することにより前記スコアを算出する
    請求項1~3のいずれか一項に記載の情報処理装置。
  5. 前記分割条件選択部は、前記複数の区間ごとの前記差分の平均値間の距離に基づき前記スコアを算出、または2つの前記区間のうちの一方の平均が他方より大きい場合に前記一方の区間に属する差分の最小値と、他方の区間に属する差分の最大値との差に基づき前記スコアを算出する
    請求項1~3のいずれか一項に記載の情報処理装置。
  6. 前記候補生成部は、前記分割条件候補を前記説明変数の値の中から選択する
    請求項1~5のいずれか一項に記載の情報処理装置。
  7. 前記候補生成部は、前記説明変数の2つ以上の値を平均することにより前記分割条件候補を生成する
    請求項1~5のいずれか一項に記載の情報処理装置。
  8. 前記複数のデータに基づいて、前記少なくとも1つの説明変数と、前記目的変数とが関連づいた第1モデルを生成するモデル生成部を備え、
    前記差分算出部は、前記第1モデルと、前記データに含まれる前記少なくとも1つの説明変数とに基づいて、前記目的変数を算出し、
    算出した前記目的変数と、前記データに含まれる前記目的変数との前記差分を算出する 請求項1~のいずれか一項に記載の情報処理装置。
  9. 前記複数のデータに基づいて、前記少なくとも1つの説明変数と、前記目的変数とが関連づいた第1モデルを生成するモデル生成部、を備え、
    前記差分算出部は、前記第1モデルと、前記データに含まれる前記少なくとも1つの説明変数とに基づいて、前記目的変数を算出し、
    算出した前記目的変数と、前記データに含まれる前記目的変数との前記差分を算出し、
    前記第1分割条件によって前記説明変数を分割した前記複数の区間のうち属する前記データの個数が閾値以上、又は前記複数のデータの個数に対する前記データの個数の割合が閾値以上の区間を第1区間として選択し、前記複数のデータのうち前記第1区間に属するデータを選択することを定めた第1選択条件を生成する選択条件生成部と、
    前記複数のデータから前記第1選択条件を満たす第1データを選択するデータ選択部と、をさらに備え、
    前記モデル生成部は、前記第1データに基づいて、前記少なくとも1つの説明変数と、前記目的変数とが関連づいた第2モデルを生成し、
    前記差分算出部は、前記第2モデルと、前記第1データに含まれる前記少なくとも1つの説明変数とに基づいて、前記目的変数を算出し、算出した前記目的変数と、前記第1データに含まれる前記目的変数との前記差分を算出し、
    前記候補生成部は、前記第1データにおける前記説明変数を前記説明変数の値の範囲によって特定される複数の区間に分割する値を示す少なくとも1つの第2分割条件候補を前記説明変数の値に基づき生成し、
    前記分割条件選択部は、前記第2分割条件候補により前記説明変数を分割した前記複数の区間に属する前記第1データから算出された前記差分を特定し、前記区間ごとの前記差分のばらつきを示す値と、前記差分算出部で算出された前記差分のばらつきを示す値とに基づく演算により前記分割によるばらつきの改善を評価するスコアを算出し、または、前記区間ごとの前記差分の平均値に基づく演算により前記区間としての前記差分のまとまりを評価するスコアを算出し、前記スコアに基づき、前記少なくとも1つの第2分割条件候補から第2分割条件を選択し、
    前記選択条件生成部は、前記第2分割条件によって前記説明変数を分割した前記複数の区間のうち属する前記第1データの個数が閾値以上の区間、又は前記データ選択部により選択された前記第1データの個数に対する前記第1データの個数の割合が閾値以上の区間を第2区間として選択し、前記第2区間に属する第1データを選択することを定めた第2選択条件を生成する
    請求項に記載の情報処理装置。
  10. 前記モデル生成部、前記差分算出部、前記候補生成部、前記分割条件選択部及び前記選択条件生成部による処理を反復するか否かを停止条件に基づき判定する反復判定部を備え、
    前記データ選択部は、前記反復判定部によって反復すると判定された場合に、前記第1データの選択を行い、
    前記反復判定部は、前記停止条件として、前記第1選択条件が生成された場合、前記スコアが閾値以上である場合、反復回数が閾値未満の場合に、前記処理を反復することを決定する
    請求項9に記載の情報処理装置。
  11. 前記複数のデータから前記第1選択条件を満たす第1データを選択するデータ選択部を備え、
    前記候補生成部は、前記第1データにおける前記説明変数を前記説明変数の値の範囲によって特定される複数の区間に分割する値を示す少なくとも1つの第2分割条件候補を前記説明変数の値に基づき生成し、
    前記分割条件選択部は、前記第2分割条件候補により前記説明変数を分割した前記複数の区間に属する前記第1データから算出された前記差分を特定し、前記区間ごとの前記差分のばらつきを示す値と、前記差分算出部で算出された前記差分のばらつきを示す値とに基づく演算により前記分割によるばらつきの改善を評価するスコアを算出し、または、前記区間ごとの前記差分の平均値に基づく演算により前記区間としての前記差分のまとまりを評価するスコアを算出し、前記スコアに基づき、前記少なくとも1つの第2分割条件候補から第2分割条件を選択し、
    前記選択条件生成部は、前記第2分割条件によって前記説明変数を分割した前記複数の区間のうち属する前記第1データの個数が閾値以上の区間、又は前記データ選択部により選択された前記第1データの個数に対する前記第1データの個数の割合が閾値以上の区間を第2区間として選択し、前記第2区間に属する前記第1データを選択することを定めた第2選択条件を生成する
    請求項2に記載の情報処理装置。
  12. 前記候補生成部は、前記分割条件選択部及び前記選択条件生成部による処理を反復するか否かを停止条件に基づき判定する反復判定部を備え、
    前記データ選択部は、前記反復判定部によって反復すると判定された場合に、前記第1データの選択を行い、
    前記反復判定部は、前記停止条件として、前記第1選択条件が生成された場合、前記スコアが閾値以上である場合、反復回数が閾値未満の場合に、前記処理を反復することを決定する
    請求項11に記載の情報処理装置。
  13. 前記複数のデータから前記第1選択条件を満たす第1データを選択するデータ選択部を備え、
    前記分割条件選択部は、前記第1分割条件以外の前記分割条件候補から第2分割条件を選択し、
    前記選択条件生成部は、前記第2分割条件によって前記説明変数を分割した前記複数の区間のうち属する前記第1データの個数が閾値以上の区間、又は前記データ選択部により選択された前記第1データの個数に対する前記第1データの個数の割合が閾値以上の区間を第2区間として選択し、前記第2区間に属する前記第1データを選択することを定めた第2選択条件を生成する
    請求項2に記載の情報処理装置。
  14. 前記分割条件選択部及び前記選択条件生成部による処理を反復するか否かを停止条件に基づき判定する反復判定部を備え、
    前記分割条件選択部は、前記反復判定部によって反復すると判定された場合に、前記第2分割条件の選択を行い、
    前記反復判定部は、前記停止条件として、前記第1選択条件が生成された場合、前記スコアが閾値以上である場合、反復回数が閾値未満の場合に、前記処理を反復することを決定する
    請求項13に記載の情報処理装置。
  15. 前記選択条件生成部は
    複数のノードと、前記複数のノードのうち末端ノード以外のノードに対応する分岐条件とを含む決定木を生成し、
    前記ノードに属するデータに対して前記選択条件生成部により生成された前記第1選択条件を、前記ノードに対応する分岐条件として追加し、
    前記複数のデータを前記決定木によって分類し、前記末端ノードに分類される前記データに基づき、前記少なくとも1つの説明変数と前記目的変数とが対応付いた予測モデルを生成し、生成した予測モデルを前記末端ノードに対応づける
    請求項2に記載の情報処理装置。
  16. 前記データを取得するデータ取得部を備え、
    前記選択条件生成部は、取得した前記データに基づき、前記決定木を更新する
    請求項15に記載の情報処理装置。
  17. 前記少なくとも1つの説明変数と前記目的変数とを含む複数のデータから前記第1選択条件を満たすデータを選択する前処理部と、
    選択した前記データに基づき、前記少なくとも1つの説明変数と前記目的変数とが関連づいた予測モデルを生成する予測モデル生成部と、
    前記予測モデルと、前記少なくとも1つの説明変数を含む予測対象データとに基づき、前記目的変数を算出する予測部と
    を備えた請求項2に記載の情報処理装置。
  18. 前記目的変数は、観測対象に関する変数である
    請求項1~17のいずれか一項に記載の情報処理装置。
  19. 目的変数と、少なくとも1つの説明変数とを含む複数のデータに基づき、前記目的変数と、前記説明変数から予測される前記目的変数の予測値との複数の差分を算出し、
    前記説明変数を前記説明変数の値の範囲によって特定される複数の区間に分割する値を示す少なくとも1つの分割条件候補を前記説明変数の値に基づき生成し、
    前記分割条件候補により前記説明変数を分割した前記複数の区間に属する前記データから算出された前記差分を特定し、
    前記区間ごとの前記差分のばらつきを示す値と、算出された前記差分のばらつきを示す値とに基づく演算により前記分割によるばらつきの改善を評価するスコアを算出し、または、前記区間ごとの前記差分の平均値に基づく演算により前記区間としての前記差分のまとまりを評価するスコアを算出し、
    前記スコアに基づき、前記少なくとも1つの分割条件候補から第1分割条件を選択する、
    コンピュータが実行する情報処理方法。
  20. 目的変数と、少なくとも1つの説明変数とを含む複数のデータに基づき、前記目的変数と、前記説明変数から予測される前記目的変数の予測値との複数の差分を算出するステップと、
    前記説明変数を前記説明変数の値の範囲によって特定される複数の区間に分割する値を示す少なくとも1つの分割条件候補を前記説明変数の値に基づき生成するステップと、
    前記分割条件候補により前記説明変数を分割した前記複数の区間に属する前記データから算出された前記差分を特定するステップと、
    前記区間ごとの前記差分のばらつきを示す値と、算出された前記差分のばらつきを示す値とに基づく演算により前記分割によるばらつきの改善を評価するスコアを算出し、または、前記区間ごとの前記差分の平均値に基づく演算により前記区間としての前記差分のまとまりを評価するスコアを算出するステップと、
    前記スコアに基づき、前記少なくとも1つの分割条件候補から第1分割条件を選択するステップと、
    をコンピュータに実行させるためのコンピュータプログラム。
JP2020044457A 2020-03-13 2020-03-13 情報処理装置、情報処理方法及びコンピュータプログラム Active JP7214672B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2020044457A JP7214672B2 (ja) 2020-03-13 2020-03-13 情報処理装置、情報処理方法及びコンピュータプログラム
US17/015,824 US20210287134A1 (en) 2020-03-13 2020-09-09 Information processing apparatus, information processing method, and computer program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020044457A JP7214672B2 (ja) 2020-03-13 2020-03-13 情報処理装置、情報処理方法及びコンピュータプログラム

Publications (2)

Publication Number Publication Date
JP2021144619A JP2021144619A (ja) 2021-09-24
JP7214672B2 true JP7214672B2 (ja) 2023-01-30

Family

ID=77665054

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020044457A Active JP7214672B2 (ja) 2020-03-13 2020-03-13 情報処理装置、情報処理方法及びコンピュータプログラム

Country Status (2)

Country Link
US (1) US20210287134A1 (ja)
JP (1) JP7214672B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024003994A1 (ja) * 2022-06-27 2024-01-04 三菱電機株式会社 正常モデル生成プログラム、正常モデル生成装置および正常モデル生成方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005181928A (ja) 2003-12-24 2005-07-07 Fuji Xerox Co Ltd 機械学習システム及び機械学習方法、並びにコンピュータ・プログラム
JP2007329415A (ja) 2006-06-09 2007-12-20 Fujitsu Ltd データ処理方法、データ処理プログラム、該プログラムを記録した記録媒体およびデータ処理装置
JP2020030674A (ja) 2018-08-23 2020-02-27 日本電信電話株式会社 情報処理装置、情報処理方法及びプログラム

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2003085548A1 (ja) * 2002-04-04 2005-08-11 石原産業株式会社 データ解析装置および方法
JP3897169B2 (ja) * 2002-11-07 2007-03-22 富士電機ホールディングス株式会社 決定木生成方法およびモデル構造生成装置
JP2004258991A (ja) * 2003-02-26 2004-09-16 Nec Corp Edr方向推定方法、システム、プログラム、及び記録媒体
US20060224543A1 (en) * 2005-04-05 2006-10-05 Clymer John R Guidance system
WO2008126209A1 (ja) * 2007-03-27 2008-10-23 Fujitsu Limited 重回帰分析による予測モデルの作成方法、作成装置、作成プログラム
JP5146084B2 (ja) * 2008-04-30 2013-02-20 富士通株式会社 モデル作成支援システム、モデル作成支援方法、モデル作成支援プログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005181928A (ja) 2003-12-24 2005-07-07 Fuji Xerox Co Ltd 機械学習システム及び機械学習方法、並びにコンピュータ・プログラム
JP2007329415A (ja) 2006-06-09 2007-12-20 Fujitsu Ltd データ処理方法、データ処理プログラム、該プログラムを記録した記録媒体およびデータ処理装置
JP2020030674A (ja) 2018-08-23 2020-02-27 日本電信電話株式会社 情報処理装置、情報処理方法及びプログラム

Also Published As

Publication number Publication date
JP2021144619A (ja) 2021-09-24
US20210287134A1 (en) 2021-09-16

Similar Documents

Publication Publication Date Title
US8990145B2 (en) Probabilistic data mining model comparison
Dejaeger et al. Data mining techniques for software effort estimation: a comparative study
US20070260563A1 (en) Method to continuously diagnose and model changes of real-valued streaming variables
CN110334208B (zh) 基于贝叶斯信念网络的lkj故障预测诊断方法和系统
JP6172317B2 (ja) 混合モデル選択の方法及び装置
JP2020135390A (ja) 情報処理装置、情報処理方法、およびプログラム
US20170132699A1 (en) Markov decision process-based decision support tool for financial planning, budgeting, and forecasting
JP7481902B2 (ja) 管理計算機、管理プログラム、及び管理方法
CN107797933A (zh) 生成模拟报文的方法及装置
JP6477703B2 (ja) Cm計画支援システムおよび売上予測支援システム
JP7214672B2 (ja) 情報処理装置、情報処理方法及びコンピュータプログラム
US11176502B2 (en) Analytical model training method for customer experience estimation
JP2019101681A (ja) 見積り取得装置、見積り取得方法およびプログラム
CN111582313A (zh) 样本数据生成方法、装置及电子设备
Ehlers et al. Bayesian analysis of order uncertainty in ARIMA models
Nagashima et al. Data Imputation Method based on Programming by Example: APREP-S
US20160267393A1 (en) Method of construction and selection of probalistic graphical models
Huang Stock Price Prediction Based on Trend Characterization
CN111078840B (zh) 一种基于文档向量的电影评论情感分析方法
Ayeelyan et al. Prediction strategies of stock market data using deep learning algorithm
CN111832797B (zh) 数据处理方法、数据处理装置、存储介质和电子设备
US20170185907A1 (en) Method of probabilistic inference using open statistics
US20200410369A1 (en) Data-driven cross feature generation
CN112651168B (zh) 基于改进神经网络算法的建设用地面积预测方法
Panda et al. Machine learning using exploratory analysis to predict taxi fare

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210910

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220630

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220722

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220916

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20221220

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230118

R151 Written notification of patent or utility model registration

Ref document number: 7214672

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151