JP7214672B2

JP7214672B2 - 情報処理装置、情報処理方法及びコンピュータプログラム

Info

Publication number: JP7214672B2
Application number: JP2020044457A
Authority: JP
Inventors: 亜梨花福島; 明淑高
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2020-03-13
Filing date: 2020-03-13
Publication date: 2023-01-30
Anticipated expiration: 2040-03-13
Also published as: JP2021144619A; US20210287134A1

Description

本発明の実施形態は、情報処理装置、情報処理方法及びコンピュータプログラムに関する。

人工知能により代表されるデータドリブンアプローチによるモデル学習方法は、予め与えられる学習データからモデルを生成する。生成したモデルの精度は学習データに依存するため、学習データと異なる特徴を持つデータ（異常インスタンス）が学習データの中に混在すると、モデルの精度が低下する。このため、学習データを用いてモデルを生成する前に、予め学習データから異常インスタンスを取り除く処理を行う。

例えば、目的変数の分布により外れ値を検出し、外れ値を有する学習データを取り除く。事前知識に基づき外れ値を除去するクレンジング条件を設定し、クレンジング条件を満たす学習データのみを用いていた。

しかしながら、目的変数が外れ値でない場合も異常インスタンスが存在する可能性がある。また、クレンジング条件の生成のために事前知識を有している必要があった。

特許第５３３１７７４号

本発明の実施形態は、高い精度のモデルを生成するためのデータを選択する情報処理装置、情報処理方法及びコンピュータプログラムを提供する。

本実施形態に係る情報処理装置は、目的変数と、少なくとも１つの説明変数とを含む複数のデータに基づき、前記目的変数と、前記説明変数から予測される前記目的変数の予測値との複数の差分を算出する差分算出部と、前記説明変数を複数の区間に分割する少なくとも１つの分割条件候補を生成する候補生成部と、前記分割条件候補により前記説明変数を分割した前記複数の区間に属する前記データから算出された前記差分に基づいて、前記少なくとも１つの分割条件候補から第１分割条件を選択する分割条件選択部と、を備える。

第１実施形態に係る情報処理装置であるクレンジング条件生成装置のブロック図。学習データＤＢに記憶されている学習データの例を示す図。グループ分割の概念を模式的に示す図。クレンジング条件ＤＢの例を示す図。クレンジング条件ＤＢが更新される例を示す図。学習データ選択部の動作の補足説明図。第１実施形態に係るクレンジング条件生成装置の動作の一例のフローチャート。学習データ選択部の動作の一例のフローチャート。モデル生成部の動作の一例のフローチャート。誤差算出部の動作の一例のフローチャート。グループ分割部の動作の一例のフローチャート。クレンジング条件生成部の動作の一例のフローチャート。反復判定部の動作の一例のフローチャート。本実施形態に係る予測装置の一例のブロック図。本変形例１に係るクレンジング条件ＤＢ９の例を示す図。本変形例１に係るクレンジング条件生成装置の動作の一例のフローチャート。第２実施形態に係るクレンジング条件生成装置のブロック図。第２実施形態に係るクレンジング条件生成装置の動作の一例のフローチャート。第２実施形態に係るクレンジング条件生成装置の他の動作他のフローチャート。第４実施形態に係るクレンジング条件生成装置のブロック図。決定木の例を示す図。モデルＤＢに格納されたモデルのパラメータ例を示す図。クレンジングＤＢの一例を示す図。第４実施形態に係るクレンジング条件生成装置の動作の一例のフローチャート。第５実施形態に係るクレンジング条件生成装置の動作の一例のフローチャート。本実施形態に係る情報処理装置のハードウェア構成を示す図。

以下、図面を参照しながら、本発明の実施形態について説明する。各図において同一名称の要素には同一の符号を付して、拡張又は変更した処理を除き、説明を適宜省略する。

（第１実施形態）
図１は、第１実施形態に係る情報処理装置であるクレンジング条件生成装置のブロック図である。図１のクレンジング条件生成装置１０１は、学習データＤＢ１１、制御部１２、学習データ選択部（データ選択部）１３、モデル生成部１４、誤差算出部（差分算出部）１５、グループ分割部１６、クレンジング条件生成部（選択条件生成部）１７、反復判定部１８、クレンジング条件ＤＢ１９、表示部２０を備えている。グループ分割部１６は、候補生成部１６Ａと分割条件選択部１６Ｂとを備えている。

学習データＤＢ１１は、学習用のデータとして複数のインスタンスを記憶している。

図２は、学習データＤＢ１１に記憶されている学習データの例を示す。学習データはテーブルの形式で格納されている。学習データは、複数のインスタンス（データ）を含む。インスタンスは、インスタンスＩＤ、目的変数、ｐ個の変数（説明変数）を含む。ｐは１以上の整数である。目的変数の値は、観測対象の値（真値）である。すなわち、目的変数の値は、実際に測定又は取得等された値である。インスタンスＩＤは、インスタンスを識別するＩＤである。本実施形態では、目的変数は、実数であり、説明変数の値は、実数又はカテゴリ値であるとする。カテゴリ値は、例えばＡ、Ｂ、Ｃなど、数値以外の値である。但し、目的変数がカテゴリ値であってもよい。この場合、カテゴリ値を数値で表現すればよい。

学習データ、目的変数、説明変数、及びインスタンス等を、記号を用いて表現すると、以下のように定義される。

観測対象は、株価、交通量、道路の占有率、MFP(Multi-function Printer)の利用頻度、気象量、電力需要量、又は発電量など、観測値が取得可能な対象であれば、何でもよい。一例として、目的変数がある会社の１月後の株価の場合、説明変数の例として、今日の当該会社の株価の終値、当該会社の過去１月の株価の移動平均、過去７日間の出来高など考えられる。目的変数が、ある地点の交通量（台数／時間）又はある道路の占有率の場合、曜日、天気、渋滞情報、周辺の工事の有無など、様々ある。目的変数が気象量（気温(℃)、降水量(mm)、又は日射強度(W/m2)など）の場合、説明変数として、過去１週間の各日の気象量、１年前及び２年前の同じ日の気象量、雲の位置、など様々考えられる。目的変数がMFPの利用頻度、電力需要量、発電量などの場合も同様にして様々な説明変数が考えられる。

制御部１２は、本装置の全体を制御する。例えば本装置内の各要素の動作を制御する。また、制御部１２が、外部の装置からインスタンスを取得し、取得したインスタンスを学習データＤＢ１１に格納してもよい。この場合、制御部１２はインスタンスを取得するインスタンス取得部を備えている。また、制御部１２は、本実施形態で生成されたクレンジング条件を外部の装置に出力してもよい。制御部１２は、本実施形態で生成された分割条件を外部の装置に出力してもよい。

学習データ選択部（データ選択部）１３は、後述するクレンジング条件ＤＢ１９に記憶されているクレンジング条件（インスタンスの選択条件）を満たすインタスタンスを学習データＤＢ１１から取得する。学習データ選択部１３は、取得したインスタンスを学習データとしてモデル生成部１４に提供する。取得した個々のインスタンスは、上述したｄ^（ｉ）で定義されるものである。初期状態では、クレンジング条件ＤＢ１９にクレンジング条件が格納されていなくてもよい。この場合、学習データ選択部１３は、学習データＤＢ１１内の全てのインスタンスを選択する。

後述するようにクレンジング条件ＤＢ１９は繰り返し更新され、学習データ選択部１３で選択されるインスタンスも、クレンジング条件ＤＢ１９の更新に応じて変化する。

モデル生成部１４は、学習データ選択部１３から提供された学習データを用いて、機械学習により、説明変数から目的変数を予測するモデルを生成する。モデル生成部１４は、生成したモデルと、学習データ選択部１３から提供された学習データとを誤差算出部１５に提供する。

一例として、

で表すと、モデル生成部１４は、学習データを用いて、

となるようなモデルｆのパラメータを算出する。パラメータは、モデルｆが回帰式であれば、回帰式の係数である。

モデルは、教師データを用いて回帰問題を解く一般的な機械学習の手法で生成できる。例えば、重回帰、GLM、ニューラルネットワーク、回帰木、モデル木、ランダムフォレスト、Boosting、Deep Learningなどがある。機械学習の手法のみでなく、一般的な統計値（平均値、中央値、最頻値、最大値、最小値、第一四分位、第三四分位）をモデルとして生成してもよい。モデル生成部１４で生成されたモデルと学習データを誤差算出部１５へ提供する。

誤差算出部１５は、モデル生成部１４から提供されたモデルと、モデル生成部１４から提供された学習データの説明変数とを用いて、目的変数の予測値（モデルの出力値）を算出する。誤差算出部１５は、目的変数の予測値と、目的変数の真値（観測値）との差分である誤差を算出する。誤差算出部１５は、算出された誤差と、学習データをグループ分割部１６へ提供する。

誤差、及び誤差を算出する関数（誤差算出関数）は、記号を用いて以下のように表すことができる。

誤差の具体例として、通常の誤差、絶対誤差、二乗誤差、相対誤差等がある。i番目のインスタンスの目的変数の真値を

、当該目的変数の予測値を

とすると、i番目のインスタンスの上記４つの誤差はそれぞれ以下の式で表現できる。本実施形態ではいずれの誤差を用いてもよい。

グループ分割部１６は、誤差算出部１５から提供された誤差に基づいて、学習データを分割する対象となる説明変数と、分割の基準値（分割基準値）とを、分割条件として決定する。説明変数が実数の場合、分割基準値は閾値である。以下では、主に閾値を想定する。分割対象となる説明変数をｘ_ｊ、閾値をθ_ｋとすれば、分割条件は、説明変数を閾値θ_ｋで複数の区間に分割する条件であり、学習データを説明変数ｘ_ｊがθ_ｋ未満のグループと、θ_ｋ以上のグループとに分割することである。説明変数がカテゴリ値の場合は、分割条件は、分割対象となる説明変数ｘ_ｊが分割基準値に一致するグループと、一致しないグループとに分割する条件である。グループ分割部１６は、生成した分割条件と、誤差算出部１５から取得した学習データとをクレンジング条件生成部１７に提供する。以下、グループ分割部１６の詳細を説明する。グループ分割部１６は候補生成部１６Ａと分割条件選択部１６Ｂとを備えている。

グループ分割部１６の候補生成部１６Ａが、学習データにおいて対象となる説明変数（例えば、ｊ番目の説明変数：ｘ_ｊ）を選択する。対象となる説明変数に対して少なくとも１つの分割基準値（閾値等）の候補を生成する。本例では複数の分割基準値を生成する。分割基準値の候補を生成する方法について、説明変数が実数値の場合と、カテゴリ値の場合に分けて説明する。

（対象となる説明変数が実数値の場合）
対象となる説明変数の全ての値を抽出し、抽出した値を降順（または、昇順）にソートする。抽出した値が重複する場合は、重複する値を除外する。ソートした値を

と表す。以下の候補例１又は候補例２を用いて、分割基準値（ここでは閾値）の候補を作成する。

（対象となる説明変数がカテゴリ値の場合）
説明変数の全てのカテゴリ値を抽出し、抽出したカテゴリ値の全てを分割基準値の候補とする。例えば学習データにおいて対象となる説明変数のカテゴリ値としてＡ、Ｂ、Ｃが存在する場合、Ａ、Ｂ、Ｃの全てを分割基準値の候補とする。他の方法として、頻度の高い上位Ｘ個のカテゴリ値（Ｘは設定ファイルで指定しておく）を、分割基準値の候補として採用する方法などがある。

なお、説明変数が実数値の場合にも、カテゴリ値と同様に、説明変数の全ての値を閾値の候補とすることも可能である。

グループ分割部１６の候補生成部１６Ａは、学習データにおける全ての説明変数をそれぞれ対象となる説明変数として順番に選択し、各対象となる説明変数について閾値の１つ又は複数の候補を作成する。

グループ分割部１６の分割条件選択部１６Ｂは、説明変数と閾値の候補間の全ての組に対して、学習データを分割し、当該組に対する改善スコアを算出する。ｊ番目の説明変数とｋ番目の閾値候補とによる改善スコアをo_j，kと表す。改善スコアの算出方法の例を示す。

分割前後の誤差のばらつきを改善スコアとして算出する例を、以下の例１及び例２に示す。

但し、

であり、j番目の説明変数x_jに関して、k番目の閾値の候補

で、学習データを２つのグループに分割した場合に、1つ目のグループに含まれるインスタンスの誤差の集合を

、2つ目のグループに含まれるインスタンスの誤差の集合を

とする。ただし、lとrは背反関係である。

分割後のグループとしての誤差のまとまりを改善スコアとして算出する例として、以下の例３及び例４がある。

但し、1つ目のグループの誤差の平均を

、2つ目のグループの誤差の平均を

とする。

改善スコアは、上記の例１～例４に限られず、分割前後の誤差のばらつきの改善度を評価する指標、又は分割後のグループとしてのまとまりを評価する指標であればよい。

誤差と反対の概念を持つ真値と推定値との一致度を評価する指標、又はモデルの当てはまりを評価する指標を用いて、改善度を評価してもよい。以下、一致度及び当てはまりを評価する指標の例を示す。

とする。分割後の1つ目のグループの真値の集合を

、分割後の1つ目のグループの推定値の集合を

とする。2つ目のグループの真値の集合を

、2つ目のグループの真値の推定値を

とする。
真値と推定値との一致度を計測する指標として、相関係数により改善スコアを算出する例を、以下の例５に示す。また、モデルの当てはまりを評価する指標として、決定係数により改善スコアを算出する例を、以下の例６に示す。

分割条件選択部１６Ｂは、複数の説明変数と閾値の複数の候補との全てのペアについて改善スコアを算出する。改善スコアに基づき、説明変数と閾値の候補とのペアを１つ選択する。一例として、改善度が最も高い説明変数と閾値の候補とのペアを選択する。選択したペアを分割条件として選択する。

改善スコアの定義に応じて、改善スコアの値が小さいほど改善度が高い場合と、改善スコアの値が大きいほど改善度が高い場合のいずれもあり得る。上述した各例１～６では改善スコアが大きいほど、改善度が高い。

図３はグループ分割の概念を模式的に示す。この例では、分割前では誤差が範囲Ｃ０で分布しているが、分割後では１つ目のグループでは範囲Ｃ１で誤差が分布し、２つ目のグループでは範囲Ｃ２で誤差が分布している。範囲Ｃ１と範囲Ｃ２を合わせた範囲は、範囲Ｃ０よりも狭い。つまり、グループ間の距離が０より大きな値となっている。よって、分割によって、誤差のグループとしてのまとまり、あるいは誤差のばらつきが改善している。範囲Ｃ１には誤差の大きなインスタンスが含まれているが、分割によって、分割前のグループＣ０から誤差の大きい範囲Ｃ１のインスタンスを分離していると言うことができる。

クレンジング条件生成部１７は、グループ分割部１６から提供される分割条件に従って、学習データに含まれる複数のインスタンスを複数の区間（本実施形態では２つを想定）に分割する。複数の区間にそれぞれ含まれるインスタンス数に基づいて、複数の区間から第１区間を選択する。選択した第１区間に属するインスタンスを選択する条件（第１区間を特定する条件）を、クレンジング条件として生成する。より詳細には、以下の通りである。

クレンジング条件生成部１７は、複数の区間に属するインスタンスのグループがそれぞれ異常条件を満たすかを判断する。異常条件を満たすグループを、異常グループと呼び、異常グループに含まれるインスタンスを異常インスタンスと呼ぶ場合がある。異常条件を満たさないグループを正常グループと呼び、正常グループに属するインスタンスを正常インスタンスと呼ぶ場合がある。

異常条件の例を、以下の例１～例３に示す。αは予めパラメータとして設定された値である。

例３の条件を用いる場合は、当該条件が満たされる場合、一例としてインスタンス数が最も少ない又は所定値以下のグループが異常条件を満たすとみなし、他のグループは正常グループとみなす。

クレンジング条件生成部１７は、分割によって得られた複数のグループにおいて、異常グループと正常グループの両方が存在する場合、正常グループを選択する条件（正常グループが属する区間を特定する条件）をクレンジング条件として生成する。クレンジング条件は、正常インスタンスを選択する条件、あるいは、異常インスタンスを除く条件であるとも言える。

クレンジング条件生成部１７は、分割によって得られた複数のグループがいずれも異常グループの場合は、クレンジング条件を生成しない。例えば、分割によって生成された２つのグループがいずれも異常グループの場合は、クレンジング条件を生成しない。この場日、異常条件に含まれる上記のパラメータαが適切でない可能性があると判断し、制御部１２は、本装置の操作者又は管理者等であるユーザに対して警告を発報するデータ又は信号を送信してもよい。警報を受けたユーザは、例えばパラメータαを見直すことができる。あるいは、分割によって得られた複数のグループがいずれも異常グループと判定された場合、判定された時点で本装置の処理を終了し、本処理を終了した時点でクレンジングＤＢ１９に格納された全てのクレンジング条件を出力してもよい。

なお、本実施形態では、生成された複数のグループのうち、基本的に１つのグループが異常グループであり、もう一方のグループは正常グループであることを想定している。もしくは、両グループとも正常グループであることを想定している。両グループとも異常グループの場合は、上述したように、ユーザに警告を発し、本装置の処理を終了してもよい。

クレンジング条件生成部１７は、クレンジング条件を生成した場合、クレンジング条件を識別するクレンジングＩＤを生成し、クレンジングＩＤ、分割条件及びクレンジング条件等をクレンジングＤＢ１９に格納する。

図４（Ａ）は、クレンジング条件ＤＢ１９の例を示す。図４では１つ目のクレンジング条件が格納された例を示している。クレンジングＩＤの列は、クレンジングＩＤを格納する。説明変数の列は、分割条件に用いた説明変数を識別するためのＩＤを格納する。閾値（分割基準値）の列は、分割条件の閾値（分割基準値）を格納する。説明変数と閾値との組は、分割条件に対応する。図の例では、説明変数＿１と閾値４７．１のペアを含む分割条件が登録されている。

クレンジング条件の列は、分割条件で分割された複数（ここでは２つ）の区間のうち、正常グループが属する区間を特定する条件（正常グループを選択する条件）がクレンジング条件として格納されている。例えば、「説明変数＿１＜４７．１」は、説明変数＿１が４７．１より小さい区間である。すなわち、「説明変数＿１＜４７．１」は、説明変数＿１が４７．１より小さいインスタンスを選択することを意味する。逆に言えば、「説明変数＿１＜４７．１」は、説明変数＿１が４７．１以上のインスタンスは異常インスタンスとして除外することを意味する。

「次のＩＤ」の列は、正常グループ（クレンジング条件で選択されるグループ）に対して次に適用するクレンジング条件のクレンジングＩＤを格納する。これにより、連鎖的に適用する複数のクレンジング条件を関連付けて管理できる。図の例では、２番目のクレンジング条件がまだ格納されていないため、次のＩＤの列には、ＮＵＬＬが格納されている。異常グループは、以降、学習データ選択部１３で選択されるインスタンスの対象から除外される。

ＮＵＬＬは、クレンジング条件生成部１７の次回の処理において、次のクレンジング条件がクレンジングＤＢ１９に格納されるタイミングで、当該次のクレンジング条件のクレンジングＩＤの値に書き換えられる。例えば、クレンジングＩＤ＝２のクレンジング条件が追加されるタイミングで、クレンジングＩＤ＝１におけるＮＵＬＬは“２”に書き換えられる。

図４（Ｂ）は、クレンジングＩＤ＝２のクレンジング条件が追加され、クレンジングＩＤ＝１における次のＩＤ（＝ＮＵＬＬ）が“２”に書き換えられた例を示す。具体的には、まずクレンジングＩＤ＝１のクレンジング条件に従って学習データ選択部１３でインスタンスが選択される。選択されたインスタンスが、グループ分割部１６で決定された分割条件（説明変数＿ｐ、閾値４．５）で４．５未満の区間と、４．５以上の区間の２つに分割される。各区間に属するインスタンスのグループのうち、４．５未満の区間に属するグループが異常グループ、４．５以上の区間に属するグループが正常グループと判断される。このため、正常グループが属する４．５以上の区間を特定するクレンジング条件「説明変数＿ｐ＞＝４．５」が生成される。生成されたクレンジング条件と、クレンジングＩＤ＝２、及び分割条件がクレンジング条件ＤＢ１９に登録される。このタイミングで、クレンジングＩＤ＝１における次のＩＤ（＝ＮＵＬＬ）が“２”に書き換えられる。クレンジングＩＤ＝２における次のＩＤは、現時点では３つ目のクレンジング条件が格納されていないため、“ＮＵＬＬ”である。

クレンジングＩＤ＝２における“ＮＵＬＬ”も、クレンジングＩＤ＝３のクレンジング条件が追加されるタイミングで、“３”に書き換えられる。クレンジングＩＤ＝２の分割条件で分割された２つのグループのうち、４．５未満の区間に属するグループ（異常グループ）のインスタンスは、以降、学習データ選択部１３で選択されるインスタンスの対象から除外される。

反復判定部１８は、学習データ選択部１３～クレンジング条件生成部１７の処理を反復（継続）するか否かを、停止条件に基づき判定する。停止条件を満たす場合は、クレンジング条件を生成する処理を停止すると判定する。この場合、学習データ選択部１３に停止信号を送信する。一方、停止条件を満たさない場合は、処理を反復すると判定する。この場合、反復判定部１８は、学習データ選択部１３に反復を指示する信号を送信する。以下、停止条件の例を示す。

（停止条件の例１）
クレンジング条件の生成有無の情報を用いて停止条件を定義する。クレンジング条件生成部１７でクレンジング条件が生成された場合は、停止条件は満たされず、クレンジング条件が生成されなかった場合は、停止条件は満たされると判断する。クレンジング条件の生成有無の情報を用いて停止条件の成否を判定する場合、クレンジング条件生成部１７は、クレンジング条件の生成の有無を示した情報を反復判定部１８に提供する。反復判定部１８は、提供された情報に基づき、停止条件の成否を判定する。

（停止条件の例２）
グループ分割部１６で算出された改善スコアを用いて停止条件を定義する。改善スコアが閾値未満の場合は、停止条件が満たされると判定する。つまり、改善スコアが閾値未満の場合は、クレンジング条件をさらに生成したとしても、モデル生成部１４で生成されるモデルの予測の精度の改善効果が低いと判断する。一方、改善スコアが閾値以上の場合は、停止条件は満たされないと判断する。つまり、さらにクレンジング条件を生成することで、モデルの予測の精度の改善効果が見込まれると判断する。改善スコアを用いる場合、クレンジング条件生成部１７は、グループ分割部１６から改善スコアを取得して、反復判定部１８に提供する。反復判定部１８は、提供された改善スコアに基づき、停止条件の成否を判定する。

（停止条件の例３）
反復回数を用いて停止条件を定義する。反復回数が閾値以上の場合は、停止条件が満たされると判定する。一方、反復回数が閾値未満の場合は、停止条件は満たされないと判定する。この場合、クレンジング条件生成部１７は反復判定部１８に反復回数の情報を反復判定部１８に提供してもよい。反復判定部１８は、提供された情報に基づき、停止条件の成否を判定する。あるいは、反復判定部１８は自部で反復した回数を記憶しておき、記憶した情報を用いて、停止条件の成否を判定してもよい。

停止条件は、上述した例１～３に限定されない。例えば、クレンジング条件を生成した個数が所定値に達したら停止条件が満たされると判定してもよい。また、ユーザの操作装置から停止指示の信号を受信した場合に、停止条件が満たされると判定してもよい。

学習データ選択部１３は、反復判定部１８で処理を反復すると判定された場合、クレンジング条件ＤＢ１９のクレンジング条件の全てに基づきインタスタンスを選択する。例えば、クレンジングＤＢ１９に格納されているクレンジングＩＤ＝１のクレンジング条件から順番にクレンジング条件をすべて適用し、全てのクレンジング条件を満たしたインスタンスを選択する。選択したインスタンスを学習データとしてモデル生成部１４に適用する。以降の動作は上述した通りである。なお、反復処理では、グループ分割部１６において、クレンジング条件が生成されなかった分割条件と同じ候補は選択しないようにしてもよい。

図５は、学習データ選択部１３～クレンジング条件生成部１７の処理を反復してクレンジング条件ＤＢ１９が更新される例を示す。最後の行のクレンジングＩＤ＝ｍのクレンジング条件が生成されたときに、停止条件が満たされている。このため、クレンジングＩＤ＝ｍにおける次のＩＤは“ＮＵＬＬ”となっている。つまり、停止条件が満たされることなどにより反復動作が終了した場合は、最後の行における次のＩＤの列には”ＮＵＬＬ”が挿入される。

図６は、学習データ選択部１３の動作の補足説明図である。図６の説明図は、図５のクレンジング条件ＤＢ１９の例に対応している。

最初にクレンジング条件ＤＢ１９に「説明変数＿１＜４７．１」のクレンジング条件のみが登録されているとする（図４（Ａ）参照）。この場合、学習データ選択部１３は、学習データＤＢ１１から「説明変数＿１＜４７．１」を満たすインタスタンスのみを選択し（ＴＲＵＥ＿１）、モデル生成部１４に提供する。「説明変数＿１＜４７．１」を満たさないインスタンスは異常インスタンスとして選択されない（ＦＡＬＳＥ＿１）。

クレンジング条件生成部１７により「説明変数＿ｐ＞＝４．５」のクレンジング条件が登録され、クレンジング条件ＤＢ１９には、２つ目のクレンジング条件（図４（Ｂ）参照）が登録されたとする。この場合、学習データ選択部１３は、学習データＤＢ１１から「説明変数＿１＜４７．１」を満たすインスタンスを選択し（ＴＲＵＥ＿１）、選択したインスタンスのうちさらに「説明変数＿ｐ＞＝４．５」を満たすインスタンスを選択する（ＴＲＵＥ＿２）。選択したインスタンスをモデル生成部１４に提供する。当該２つの条件の両方を満たさないインスタンスは異常インスタンスとして選択されない（ＦＡＬＳＥ＿１、ＦＡＬＳＥ＿２）。

以降、学習データ選択部１３～クレンジング条件生成部１７の処理が繰り返され、クレンジング条件生成部１７によりｍ個目のクレンジング条件として「説明変数＿ｉ≠Ｃ」が登録されたとする。この時点でクレンジング条件ＤＢ１９には、ｍ個のクレンジング条件（図５参照）が登録されている。この場合、学習データ選択部１３は、学習データＤＢ１１から１～ｍ－１番目のクレンジング条件を適用し、残ったインスタンスに対してさらにｍ番目のクレンジング条件「説明変数＿ｉ≠Ｃ」を適用し、インスタンスを選択（ＴＲＵＥ＿３）する。選択したインスタンスをモデル生成部１４に提供する。当該クレンジング条件を満たさないインスタンスは、異常インスタンスとして選択されない（ＦＡＬＳＥ＿３）。

表示部２０は、クレンジング条件ＤＢ１９に格納されているデータを画面に表示する。ユーザは、本装置により生成されたクレンジング条件及びその他の情報（分割条件等）を視認する。クレンジング条件ＤＢ１９に格納されているデータの表示を、本装置の反復処理が完了した後で行ってもよいし、リアルタイムにクレンジング条件ＤＢ１９のデータを段階的に表示し、クレンジング条件等が追加されていく過程をユーザに提示にしてもよい。

図７は、第１実施形態に係る情報処理装置であるクレンジング条件生成装置１０１の動作の一例の概略を示すフローチャートである。本フローの動作は、制御部１２が学習データ選択部１３を起動させたところから開始する。

学習データ選択部１３は、クレンジング条件ＤＢ１９に格納されたクレンジング条件を満たすインスタンスを、学習データＤＢ１１から学習データとして取得する（Ｓ１０１）。クレンジング条件ＤＢ１９にクレンジング条件が格納されていないときは、学習データＤＢ１１から全てのインスタンスを取得する。

モデル生成部１４が、学習データに基づき、説明変数から目的変数を予測するモデルを生成する（Ｓ１０２）。

誤差算出部１５が、生成されたモデルに基づき、学習データに含まれるインスタンスごとに誤差を算出する（Ｓ１０３）。

グループ分割部１６が、誤差算出部１５が算出した誤差に基づき、学習データを分割する分割条件（分割の対象となる１つの説明変数と、分割基準値（閾値等））の候補を生成する（Ｓ１０４）。生成した候補のうちの１つを分割条件として選択する。

クレンジング条件生成部１７が、選択した分割条件に従って、学習データにおける複数のインスタンスを複数の区間（ここでは２つ）に分割する（Ｓ１０５）。クレンジング条件生成部１７が、各区間に属するインスタンスのグループについて異常条件を満たすグループ（異常グループ）か、異常条件を満たさないグループ（正常グループ）かを判断する（Ｓ１０６）。

いずれか一方のグループみが異常グループであり、他方が正常グループの場合、正常グループを選択する条件（正常グループが属する区間を特定する条件）を、クレンジング条件として生成する（Ｓ１０７）。クレンジング条件生成部１７は、生成したクレンジング条件を、クレンジングＩＤ及び分割条件等に関連づけて、クレンジング条件ＤＢに格納する。本実施形態では、２つのグループとも正常グループの場合は、クレンジング条件を生成しない。但し、後述する変形例１で記載するように、２つのグループとも正常グループの場合に、各正常グループについてクレンジング条件を生成する形態も可能である。

反復判定部１８は、停止条件が満たされるかを判定する（Ｓ１０８）。停止条件が満たされる場合は、ステップＳ１０１～Ｓ１０７の動作を反復することを決定する。停止条件が満たされない場合は、本動作を終了させる。

図８は、学習データ選択部１３の動作の一例のフローチャートである。学習データ選択部１３は、クレンジング条件ＤＢ１９にクレンジング条件が登録されているかを判断する（Ｓ２０１）。クレンジング条件が登録されていない場合（例えば初期状態の場合）、学習データＤＢ１１から全インスタンスを学習データとして取得する（Ｓ２０２）。一方、クレンジング条件ＤＢ１９にクレンジング条件が登録されている場合、クレンジング条件ＤＢ１９からクレンジング条件を全て取得し、取得した全てのクレンジング条件を満たすインスタンスを学習データＤＢ１１から学習データとして取得する（Ｓ２０３）。学習データ選択部１３は、ステップＳ１０２又はＳ１０３で取得した学習データをモデル生成部１４に提供する（Ｓ２０４）。

図９は、モデル生成部１４の動作の一例のフローチャートである。モデル生成部１４は、学習データ選択部１３から学習データを取得し（Ｓ３０１）、取得した学習データを用いて説明変数から目的変数を予測するモデルを生成する（Ｓ３０２）。モデルは、例えば、回帰問題を解く一般的な教師あり手法（重回帰、GLM、ニューラルネットワーク、回帰木、モデル木、ランダムフォレスト、Boosting、Deep Learningなど）による機械学習を用いて生成する。機械学習ではなく、一般的な統計値（平均値、中央値、最頻値、最大値、最小値、第一四分位、第三四分位）をモデルとして算出してもよい。モデル生成部１４は、生成したモデルと、学習データ選択部１３から取得した学習データとを、誤差算出部１５へ提供する（Ｓ３０３）。

図１０は、誤差算出部１５の動作の一例のフローチャートである。誤差算出部１５は、モデル生成部１４から学習データとモデルとを取得し（Ｓ４０１）、インスタンスの説明変数と、モデルとから、目的変数の予測値を算出する（Ｓ４０２）。インスタンスの目的変数（真値）と、目的変数の予測値との差分を、誤差として算出する（Ｓ４０３）。前述したように、誤差の種類には、通常の誤差、絶対誤差、二乗誤差又は相対誤差等誤差などがある。誤差算出部１５は、モデル生成部１４から取得した学習データと、インスタンス毎の誤差とをグループ分割部１６に提供する（Ｓ４０４）。

図１１は、グループ分割部１６の動作の一例のフローチャートである。グループ分割部１６は、誤差算出部１５から学習データとインスタンス毎の誤差とを取得する（Ｓ５０１）。学習データに基づき複数の説明変数から１つの説明変数を選択し、選択した説明変数の値を複数の区間に分割する閾値の少なくとも１つの候補（本例では複数）を生成する（Ｓ５０２）。

候補を１つ選択し、選択した説明変数と、選択した閾値の候補とに基づいて、学習データを複数の区間に分割する（Ｓ５０３）。各区間に属するインスタンスの誤差に基づき、改善スコアを算出する（Ｓ５０４）。改善スコアの例は、上述した改善スコアの例１～例６を含む。算出した改善スコアが、予め与えられたパラメータｏ_ｍａｘ（初期値が設定されている）より大きいかを判断する（Ｓ５０５）。パラメータｏ_ｍａｘより大きい場合は、選択した説明変数と閾値の候補とを、暫定解（暫定の分割条件）とする（Ｓ５０６）。ステップＳ５０４で算出した改善スコアをパラメータｏ_ｍａｘに代入する（Ｓ５０７）。

ステップＳ５０７の後、もしくは、ステップＳ５０５で改善スコアがパラメータｏ_ｍａｘ未満と判断された場合は、ステップＳ５０２に戻る。ステップＳ５０２で生成した候補のうちまだ選択していない候補を選択し、同様の処理を繰り返す（Ｓ５０３～Ｓ５０７）。

閾値の候補を全て選択したら、ステップＳ５０２に戻り、まだ選択していない説明変数を選択する。選択した説明変数について少なくとも１つの候補（本例では複数）を生成し、各閾値の候補を順番に選択して、同様の処理を繰り返す（Ｓ５０３～Ｓ５０７）。

全ての説明変数が選択されたら、ステップＳ５０８に進む。ステップＳ５０８では、現時点の暫定解（暫定の分割条件）を、最終的な分割条件として確定する。確定した分割条件と、誤差算出部１５から取得した学習データとをクレンジング条件生成部１７に提供する。

図１２は、クレンジング条件生成部１７の動作の一例のフローチャートである。クレンジング条件生成部１７は、グループ分割部１６から学習データと分割条件とを取得する（Ｓ６０１）。クレンジング条件生成部１７は、分割条件に従って学習データを複数の区間に分割する（Ｓ６０２）。

各区間に属するインスタンスのグループについて、異常条件を満たす異常グループか、異常条件を満たさない正常グループかを判断する（Ｓ６０３）。全てのグループが正常グループの場合又は全てのグループが異常グループの場合は、本処理を終了する。全てのグループが異常グループの場合、ユーザに警報を出力して、本装置の処理（図７参照）を終了してもよい。

異常グループと正常グループが存在する場合は、正常グループが属する区間のインスタンスを選択する条件（正常グループが属する区間を特定する条件）を、クレンジング条件として生成する（Ｓ６０４）。また、クレンジング条件に対してクレンジングＩＤを生成する（同Ｓ６０４）。クレンジングＤＢ１９に他のクレンジング条件が既に登録されているかを判断する（Ｓ６０５）。他のクレンジング条件がまだ登録されていない場合は、クレンジング条件をクレンジングＩＤ及び分割条件等とともにクレンジングＤＢ１９に格納する（Ｓ６０７）。“次のＩＤ”の値はＮＵＬＬとする。

他のクレンジング条件が既に登録されている場合は、クレンジングＤＢ１９において最も後に追加されたクレンジング条件における“次のＩＤ”の値をＮＵＬＬから、ステップＳ６０４で生成したクレンジングＩＤの値に書き換える（Ｓ６０６）。そして、ステップＳ６０４で生成したクレンジング条件をクレンジングＩＤ及び分割条件等とともにクレンジングＤＢ１９に格納する。“次のＩＤ”の値はＮＵＬＬとする。

図１３は、反復判定部１８の動作の一例のフローチャートである。反復判定部１８は、クレンジング条件生成部１７の処理が完了した後、停止条件が成立したかを判定する（Ｓ７０１）。反復判定部１８は、停止条件が成立した場合は、本装置の処理（図７参照）を終了する。一方、停止条件が成立しない場合は、学習データ選択部１３を再度、起動させ（Ｓ７０２）、図８のフローチャートの処理を行わせる。反復判定部１８は、停止条件の成否を判定するための情報をクレンジング条件生成部１７から取得してもよい。例えば、クレンジング条件生成部１７でのクレンジング条件の生成有無に基づき停止条件の成否を判定する場合は、クレンジング条件の生成有無の情報をクレンジング条件生成部１７から取得する。

クレンジング条件ＤＢ１９に格納されたクレンジング条件を、学習データから予測モデルを生成する場合の当該学習データの前処理に適用することができる。つまり、学習データからクレンジング条件ＤＢ１９内のクレンジング条件を満たすインスタンスのみを選択し、選択したインスタンスを用いて予測モデルを生成する。予測モデルの生成に用いる学習データは、学習データＤＢ１１に格納されているものでもよいし、別途取得した学習データでもよい。

図１４は、本実施形態に係る情報処理装置である予測装置の一例のブロック図である。図１４の予測装置は、図１のクレンジング条件生成装置１０１で生成されたクレンジング条件を格納するクレンジング条件ＤＢ１９を備えている。図１４の予測装置は、クレンジング条件を満たすインスタンスを学習データから選択し、選択したインスタンスを用いて、予測モデルの生成と、生成した予測モデルに基づく予測とを行う。より詳細には、図１４の情報処理装置は、学習データＤＢ３１、前処理部３２、予測モデル生成部３３、モデルＤＢ３４、予測部３５、表示部３６、予測対象データＤＢ３７及びクレンジング条件ＤＢ１９を備えている。

学習データＤＢ１１は、図１の学習データＤＢ１１と同じ形式のインスタンスを記憶している。学習データＤＢ３１は図１の学習データＤＢ１１と同じでもよいし、学習データＤＢ１１とは別に取得したインスタンスを格納していてもよい。説明変数及び目的変数の例は、学習データＤＢ１１で説明した例と同様でよい。

クレンジング条件ＤＢ１９は、図１のクレンジング条件生成装置１０１で生成されたクレンジング条件を格納したクレンジング条件ＤＢ１９と同じである。

前処理部３２は、クレンジング条件ＤＢ１９に記憶されている全てのクレンジング条件を満たすインスタンスを学習データＤＢ３１から選択し、選択したインスタンスを予測モデル生成部３３に提供する。

予測モデル生成部３３は、前処理部３２から提供されたインスタンスに基づき、説明変数から目的変数を予測する予測モデルを生成する。予測モデルの種類は、図１のモデル生成部１４で生成するモデルと同様でよい。

予測対象データＤＢ３７は、観測対象に関する複数の説明変数を含む予測対象データを格納している。予測対象データに含まれる説明変数は、学習データＤＢ３１と同じ種類である。

予測部３５は、予測対象データＤＢ３７に記憶された予測対象データと、モデルＤＢ３４に格納されている予測モデルとに基づき、観測対象に関する予測値を算出する。具体的には予測モデルの説明変数に予測対象データの説明変数を入力し、目的変数の予測値を算出する。

表示部３６は、予測部３５により算出された予測値を表示する。これにより本装置の操作者又は管理者等であるユーザは、予測結果を確認できる。

以上、本実施形態によれば、学習データにおける各インスタンスの目的変数の値が外れ値でない場合も、学習データにおいて他と異なる特性を有するインスタンス（異常インスタンス）を排除する条件を、クレンジング条件として生成できる。また、本実施形態によれば、各インスタンスに正常又異常のラベルを事前に設定する必要はない。よって、事前知識無しで、学習データのクレンジング条件を生成することができる。また、クレンジング条件を生成する処理を反復することで、段階的にクレンジング条件の精度を高めることが生成できる。

（変形例１）
第１実施形態では正常グループと異常グループの２種類が生成された場合に異常インスタンスを除去するためのクレンジング条件（すなわち、正常グループを選択するクレンジング条件）を生成した。本変形例１では、２つ以上の正常グループが生成され、異常グループが生成されない場合にも、各正常グループを選択する条件（各正常グループが属する区間を特定する条件）をそれぞれクレンジング条件として生成する。

図１５は、本変形例１に係るクレンジング条件ＤＢ１９の例を示す。クレンジング条件の列と次のＩＤの列との組が２つ存在する。分割条件で分割された各区間を特定する条件が、各クレンジング条件の列に格納されている。例えば分割条件が説明変数＿１と閾値４７．１の場合、説明変数＿１が４７．１未満の区間と、４７．１以上の区間が存在し、各区間を特定する条件がクレンジング条件として、それぞれクレンジング条件１、２の列に格納されている。

区間に属するインスタンスのグループが正常グループの場合は、第１実施形態と同様に、次のＩＤの列には、次のクレンジングＩＤの値を格納する（実際に次のクレンジング条件が生成されるまでは、次のＩＤの列の値はＮＵＬＬである）。一方、区間に属するインスタンスのグループが異常グループの場合は、クレンジング条件の列にはＮＡ、次のＩＤの列にもＮＡを格納する。

例えばクレンジングＩＤ＝１の場合、説明変数＿１が４７．１未満の区間に属するインスタンスのグループ、４７．１以上の区間に属するインスタンスのグループはいずれも正常グループである。このため、次のＩＤの列には、それぞれ次のクレンジングＩＤの値２、４が格納されている。一方、クレンジングＩＤ＝２の場合、説明変数＿ｐが４．５以上の区間に属するインスタンスのグループは正常グループであり、４．５未満の区間に属するインスタンスのグループは異常グループである。このため、正常グループに対しては、次のクレンジングＩＤである３が格納されており、異常グループに対しては、ＮＡが格納されている。

図１６は、本変形例１に係るクレンジング条件生成装置の動作の一例のフローチャートである。本処理では、第１実施形態のステップＳ１０６が、ステップＳ１０６Ａに変更されている。ステップＳ１０６Ａでは、分割条件で分割された各区間に属するインスタンスのグループが異常グループか否かを判断し、少なくとも１つの正常グループが存在する場合は、（異常グループが存在しなくても）クレンジング条件を生成する。

本変形例１によれば、分割条件によって分割された各区間に属するインスタンスのグループが正常グループのみでもクレンジング条件を生成することにより、正常グループごとに、よりインスタンスの特性に応じた予測モデルを構築することが可能になる。

（変形例２）
第１実施形態及び変形例１では分割条件として学習データを２つの区間に分割する形態を示したが、３つ以上の区間に分割する分割条件も可能である。例えば、説明変数＿ｋが５０未満、５０以上６０未満、６０以上の３つの区間に分割する分割条件も可能である。また、説明変数＿ｑ＝Ａと、説明変数＿ｑ＝Ｂと、説明変数＿ｑ＝Ｃの３つに分割する分割条件も可能である。

この場合も、例えば変形例１と同様に、クレンジング条件ＤＢ１９に区間の最大数だけ、クレンジング条件の列と次のＩＤの列との組を設けて、変形例１と同様の処理を行えばよい。

（第２実施形態）
図１７は、第２実施形態に係る情報処理装置であるクレンジング条件生成装置１０１のブロック図である。図１と同じ名称のブロックには同一の符号を付して、拡張又は変更された処理を除き、説明を省略する。以下、第１実施形態と差異がある部分を中心に説明する。

第１実施形態では学習データ選択部１３、モデル生成部１４、誤差算出部１５、グループ分割部１６及びクレンジング条件生成部１７の処理を反復したが、第２実施形態では、グループ分割部１６及びクレンジング条件生成部１７の処理のみを反復する。このため、第２実施形態では、反復判定部１８は処理を反復することを決定した場合、学習データ選択部１３でなく、グループ分割部１６を起動させる。反復判定部１８又はグループ分割部１６は、クレンジング条件生成部１７でこれまで生成されたクレンジング条件を満たすインスタンスを選択する。つまり、反復判定部１８又はグループ分割部１６は、クレンジング条件を満たすインスタンスを選択するデータ選択部を含む。選択されたインスタンス及び当該インスタンスの誤差を用いて、グループ分割部１６の処理を行う。従って、第２実施形態では最初にモデル生成部１４でモデルが生成され、誤差算出部１５で誤差が算出された後は、モデル生成部１４におけるモデルの生成及び誤差算出部１５における誤差の算出は行われない。

図１８は、第２実施形態に係るクレンジング条件生成装置１０１の動作の一例のフローチャートである。第１実施形態のフローチャート（図７参照）と異なる点は、ステップＳ１０８で停止条件が成立しないと判断された場合に、ステップＳ１０９に進み、ステップＳ１０９の後、ステップＳ１０４に戻ることである。ステップＳ１０２のモデル生成と、ステップＳ１０３の誤差算出は一度しか行われない。ステップＳ１０９では、反復判定部１８又はグループ分割部１６は、クレンジング条件生成部１７でこれまで生成されたクレンジング条件を満たすインスタンスを選択する。選択されたインスタンス及び当該選択されたインスタンスの誤差を用いて、グループ分割部１６で次の処理を行う（Ｓ１０４、Ｓ１０５）。

第２実施形態によれば、ステップＳ１０２のモデル生成と、ステップＳ１０３の誤差算出を一度しか行わないため、処理を高速に行うことができる。

（第３実施形態）
第３実施形態に係る情報処理装置であるクレンジング条件生成装置１０１のブロック図は、第２実施形態の図１７と同じである。

第２実施形態では、グループ分割部１６で改善スコアが最も大きい１つの候補を分割条件として決定したが、第３実施形態では反復処理を行うごとに、改善スコアの大きい順に候補を選択し、選択した候補を分割条件として選択する。例えば、最初の処理では改善スコアが最大値の候補を選択し、１回目の反復処理では２番目に大きい候補、２回目の反復処理では３番目に大きい候補を分割条件として選択する。

本実施形態に係る反復処理では、第２実施形態と同様に、これまで生成されたクレンジング条件を用いて、使用するインスタンスを選択し、グループ分割部１６以降の処理を行ってもよい。あるいは、反復処理ごとに、毎回、全てのインスタンスを用いてグループ分割部１６以降の処理を行うことも可能である。

図１９は、第３実施形態に係るクレンジング条件生成装置１０１の動作の一例のフローチャートである。本動作は、反復処理において、毎回全てのインスタンスを用いてグループ分割部１６以降の処理を行う点が、図１８のフローチャートと異なる。すなわち、図１９のフローチャートは、図１８のフローチャートからステップＳ１０９を省いたものに相当する。

本実施形態によれば、複数の候補を分割条件として用い、改善スコアの大きい順に分割条件を適用する。これにより、反復処理の回数を減らし、クレンジング条件の生成処理を高速に完了させることができる。

（第４実施形態）
図２０は、第４実施形態に係る情報処理装置であるクレンジング条件生成装置１０１のブロック図である。図１と同じ名称のブロックには同一の符号を付して、拡張又は変更された処理を除き、説明を省略する。以下、第１実施形態と差異がある部分を中心に説明する。

第４実施形態では、第１実施形態の変形例１と同様に、分割条件によって分割された複数の区間に属するグループがいずれも正常グループの場合も、各正常グループを選択する条件をクレンジング条件として生成する。さらに、本実施形態ではクレンジング条件生成部１７は、クレンジング条件の生成と並行して、インスタンスを分類する決定木（モデル木）を生成する。

図２１は、決定木の例を示す。決定木の根ノード（内部ノード）Ｎ１は全てのインスタンスが属する。根ノードＮ１に対して最初にクレンジング条件が生成されると、決定木の根ノードＮ１が分岐条件（クレンジング条件に対応）に応じて分岐され、各分岐先に内部ノードＮ２、Ｎ３が追加される。内部ノードとは、葉ノード（末端ノード）以外のノードのことである。インスタンスは根ノードから各内部ノードに対応する分岐条件に応じて各内部ノードに分類される。分岐条件はクレンジングに対応し、クレンジング条件を満たすか否かに応じて、インスタンスが内部ノードＮ２又はＮ３に分類される。この例では、クレンジング条件を満たすインスタンスが内部ノードＮ２に分類され、満たさないインスタンスが内部ノードＮ３に分類されている。内部ノードＮ２に属するインスタンスのグループは正常グループであり、内部ノードＮ３に属するインスタンスのグループは異常グループである。

クレンジング条件生成部１７は、内部ノードに分類されたグループが正常グループであり、かつモデル生成条件を満たすと判断した場合、当該内部ノードは葉ノード（末端ノード）であると決定する。モデル生成条件は、例えば正常グループに属するインスタンス数に基づき、以下のように定義される。この例では、正常グループに属するインスタンス数が閾値未満の場合、モデル生成条件が満たされ、閾値以上の場合、モデル生成条件が満たされないと判断する。
|D_g|<c
|D_g |：gグループのインスタンス数、ｃ：閾値

図２１では、内部ノードＮ２が分岐条件（クレンジング条件）に応じて内部ノードＮ４、Ｎ５に分岐されている。この例では内部ノードＮ４、Ｎ５とも正常グループが分類されるため、各正常グループに対するクレンジング条件（分岐条件）が内部ノードＮ２に対応づけられている。いずれの分岐条件を満たすかに応じて、インスタンスは内部ノードＮ４又はＮ５に分類される。内部ノードＮ５の正常グループはモデル生成条件を満たし、内部ノードＮ５が葉ノードと決定される。このため、当該正常グループに属するインスタンスに基づき、予測モデルＡが生成される。生成した予測モデルＡを葉ノードＮ５に割り当てられる。クレンジング条件生成部１７は、生成した予測モデルＡのモデルパラメータをモデルＤＢ２１に格納する。

クレンジング条件生成部１７は、内部ノードに分類されたグループが異常グループである場合も、当該内部ノードを葉ノードとして決定する。但し、クレンジング条件生成部１７は、異常グループに対しては予測モデルの生成を行わない。例えば、内部ノードＮ３に分類されたグループが異常グループであり、葉ノードと決定されるが、予測モデルは生成されない。

内部ノードＮ４は、分岐条件（クレンジング条件）に応じて内部ノードＮ６、Ｎ７に分岐され、内部ノードＮ６は異常グループが属する葉ノードと決定されている。内部ノードＮ７は分岐条件（クレンジング条件）に応じて、内部ノードＮ８、Ｎ９に分岐されている。内部ノードＮ８、Ｎ９に属するグループはいずれも正常グループであり、かつモデル生成条件が満たされる。内部ノードＮ８、Ｎ９は葉ノードと決定され、予測モデルＢ、Ｃが生成されている。予測モデルＢ、Ｃは葉ノードＮ８、Ｎ９に割り当てられている。クレンジング条件生成部１７は、予測モデルＢ、ＣのモデルパラメータをモデルＤＢ２１に格納する。

このようにして、クレンジング条件の生成と、モデル木の生成（予測モデルを葉ノードに割り当てた決定木の生成）とを並行して行う。モデル木を利用することで、予測対象データに適用する予測モデルを、モデル木から高速に特定できる。つまり、予測対象データに含まれる説明変数に基づき、モデル木の各内部ノードの分岐条件に従って、予測対象データをいずれかの葉ノードに分類する。予測モデルが割り当てられた葉ノードに分類された場合、予測対象データに、当該葉ノードに割り当てられた予測モデルを用いて、目的変数の予測を行う。

図２２は、モデルＤＢ２１に格納されたモデルパラメータ例を示す。モデルＤＢ２１は、予測モデルのモデルＩＤと、予測モデルのモデルパラメータとを格納している。予測モデルの種類は、モデル生成部１４が生成するモデル又は図１４の予測モデル生成部３３が生成するモデルと同様でよい。モデルＤＢ２１に、予測モデルが割り当てられた葉ノードのＩＤを格納してもよい。予測モデルは一例として回帰モデルであり、この場合、回帰式の係数がモデルパラメータとして格納される。

図２３は、クレンジングＤＢ１９の一例を示す。第４実施形態に係るクレンジングＤＢ１９は、基本的には第１実施形態の変形例１のクレンジングＤＢ１９と同様の形式を有する。但し、「次のＩＤ１」及び、「次のＩＤ２」には、各々のクレンジング条件によって選択されるグループが正常グループであり、かつモデル生成条件を満たす場合には、当該グループに対して生成される予測モデルのＩＤが格納される。異常グループに対しては、第１実施形態の変形例１と同様に、クレンジング条件１又は２の列、及び次のＩＤ１又は２の列はＮＡになる。図２３のクレンジングＤＢ１９はモデル木を表現している。

図２４は、第４実施形態に係るクレンジング条件生成装置の動作の一例のフローチャートである。第１実施形態の変形例１のフローチャート（図１６参照）に対して、ステップＳ１１０、Ｓ１１１が追加されている。ステップＳ１０７の後、ステップＳ１１０に進む。
ステップＳ１１０では、クレンジング条件生成部１７が、正常グループがモデル生成条件を満たすかを判断する。モデル生成条件を満たさない場合、インスタンスを選択するフローに戻り、再帰的な動作をする。モデル生成条件を満たす場合、ステップＳ１１１で、正常グループに属するインスタンスに基づき、予測モデルを生成し、再帰的な動作から抜け出す。

以上、本実施形態によれば、モデル木を生成する過程で異常インスタンスを除くことができる。つまり、異常インスタンスの除去と、予測モデルの生成とを同時に行うことができる。

（変形例）
インスタンスのグループを分割する前の予測モデルの精度と、分割後の各グループから生成した予測モデルの精度とが同等の場合、不必要な分割を実施していることに等しい。そこで、本変形例では、分割前のグループの予測モデルの誤差と、分割後の各グループの予測モデルの誤差を算出する。誤差の算出は、誤差算出部１５と同様でよい。誤差の改善度を評価し、改善度が低ければ、分割された各グループの予測モデルを破棄して、分割前のグループの予測モデルを採用する。モデル木の構成も、分割前のモデル木に戻す。改善度が高ければ、分割後の各グループから生成した予測モデルを採用する。

誤差の改善度の評価は、例えば分割前のグループの予測モデルの誤差から、分割後の各グループの予測モデルの誤差の平均を減算し、減算した値により決定する。減算した値が正であり、かつ一定値以上であれば、改善度が高いと判断する。減算した値が正でありかつ一定値未満の場合、もしくは減算した値が負の場合は、改善度が低いと判断する。他の方法を用いて、誤差の改善度を評価してもよい。

（第５実施形態）
第５実施形態は、第４実施形態に基づいており、逐次、本クレンジング条件生成装置の学習データＤＢ１１にインスタンスが追加される場合に、モデル木をオンラインで学習する。ストリームデータに適用可能なオンライン型の決定木学習アルゴリズムとして、ＦＶＤＴ (Very Fast Decision Tree)が知られている。本フローチャートの処理もＶＦＤＴに基づいている。

図２５は、第５実施形態に係るクレンジング条件生成装置の動作の一例のフローチャートである。第４実施形態に係るフローチャートに、インスタンスが追加されるステップＳ１１２と、Hoeffding Bound（ＨＢ）の条件を判定するステップＳ１１３が追加されている。一例として、予め第４実施形態によりクレンジング条件及びモデル木が生成されており、その後、インスタンスが追加される状況を想定する。

図２５の処理は、ステップＳ１１２で学習データＤＢ１１にインスタンスが追加されるごとに実行される。インスタンスが追加されると、ステップＳ１０１でインスタンスが分類される葉ノードをモデル木から特定し、同じ葉ノードに分類されている既存のインスタンスを選択する（Ｓ１０１）。追加されたインスタンスと、選択されたインスタンスとに基づき、モデルの生成及び誤差の算出を行う（Ｓ１０２、Ｓ１０３）。

ステップＳ１０４では、誤差を基準に分割条件の複数の候補を生成し、候補毎に、改善スコアを算出する。改善スコアが最大の分割条件の候補と、２番目に大きい分割条件の候補とを特定する。下記のHoeffding Boundの条件を判定する。Hoeffding Boundの条件を満たすことは、値域がＲの区間で発生する値を独立にｎ回観測して算出した標本平均

と真の平均μに対して、

となる確率がδ以上であることを保証する。Hoeffding Boundの条件は、以下の式で表される。δはパラメータとして予め設定されている。

Hoeffding Boundの条件が満たされる場合、最大の改善スコアの分割条件を決定し、ステップＳ１０５に進む。以降の処理は第４実施形態と同じである。
Hoeffding Boundの条件が満たされない場合、ステップＳ１０８に進む。この場合、学習データの分割、クレンジング条件の生成、及びモデル木の更新等は行われない。

（ハードウェア構成）
図２６に、本実施形態に係る情報処理装置１０１のハードウェア構成を示す。本実施形態に係る情報処理装置１０１は、コンピュータ装置１７０により構成される。コンピュータ装置１７０は、ＣＰＵ１５１と、入力インタフェース１５２と、表示装置１５３と、通信装置１５４と、主記憶装置１５５と、外部記憶装置１５６とを備え、これらはバス１５７により相互に接続されている。

ＣＰＵ（中央演算装置）１５１は、主記憶装置１５５上で、情報処理装置１０１の上述の各機能構成を実現するコンピュータプログラムを実行する。ＣＰＵ１５１が、コンピュータプログラムを実行することにより、各機能構成は実現される。

入力インタフェース１５２は、キーボード、マウス、及びタッチパネルなどの入力装置からの操作信号を、情報処理装置１０１に入力するための回路である。情報処理装置の入力部の入力機能を担う部分は、入力インタフェース１５２上に構築されることができる。

表示装置１５３は、情報処理装置１０１から出力されるデータ又は情報を表示する。表示装置１５３は、例えば、ＬＣＤ（液晶ディスプレイ）、ＣＲＴ（ブラウン管）、及びＰＤＰ（プラズマディスプレイ）であるが、これに限られない。コンピュータ装置１７０から出力されたデータ又は情報は、この表示装置１５３により表示することができる。情報処理装置１０１が備える出力部は、表示装置１５３上に構築されることができる。

通信装置１５４は、情報処理装置１０１が外部装置と無線又は有線で通信するための回路である。通信装置１５４を介して外部装置から情報を入力することができる。外部装置から入力した情報を、ＤＢに格納することができる。

主記憶装置１５５は、本実施形態の処理を実現するプログラム、及びプログラムの実行に必要なデータ、及びプログラムの実行により生成されたデータなどを記憶する。プログラムは、主記憶装置１５５上で展開され、実行される。主記憶装置１５５は、例えば、ＲＡＭ、ＤＲＡＭ、ＳＲＡＭであるが、これに限られない。各実施形態における各種ＤＢ及び記憶部は、主記憶装置１５５上に構築されてもよい。

外部記憶装置１５６は、上記プログラム及びプログラムの実行に必要なデータ、及びプログラムの実行により生成されたデータなどを記憶する。これらのプログラムやデータは、本実施形態の処理の際に主記憶装置１５５に読み出される。外部記憶装置１５６は、例えば、ハードディスク、光ディスク、フラッシュメモリ、及び磁気テープであるが、これに限られない。各実施形態における各種ＤＢ及び記憶部は、外部記憶装置１５６上に構築されてもよい。

なお、上述のプログラムは、コンピュータ装置１７０に予めインストールされていてもよいし、ＣＤ－ＲＯＭなどの記憶媒体に記憶されていてもよい。また、当該プログラムは、インターネット上にアップロードされていてもよい。

なお、コンピュータ装置１７０は、プロセッサ１５１、入力インタフェース１５２、表示装置１５３、通信装置１５４、及び主記憶装置１５５を、それぞれ１つ又は複数備えてもよいし、プリンタやスキャナなどの周辺機器を接続されていてもよい。

また、情報処理装置１０１は、単一のコンピュータ装置１７０により構成されてもよいし、相互に接続された複数のコンピュータ装置１７０からなるシステムとして構成されてもよい。

なお、本発明は上記各実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記各実施形態に開示されている複数の構成要素を適宜組み合わせることによって種々の発明を形成できる。また例えば、各実施形態に示される全構成要素からいくつかの構成要素を削除した構成も考えられる。さらに、異なる実施形態に記載した構成要素を適宜組み合わせてもよい。

１０１：クレンジング条件生成装置
１１：学習データＤＢ
１２：制御部
１３：学習データ選択部
１４：モデル生成部
１５：誤差算出部
１６：グループ分割部
１６Ａ：候補生成部
１６Ｂ：分割条件選択部
１７：クレンジング条件生成部
１８：反復判定部
１９：クレンジング条件ＤＢ
２０：表示部
３１：学習データＤＢ
３２：前処理部
３３：予測モデル生成部
３４：予測モデルＤＢ
３５：予測部
３６：表示部
３７：予測対象データＤＢ
１５１：プロセッサ（ＣＰＵ）
１５２：入力インタフェース
１５３：表示装置
１５４：通信装置
１５５：主記憶装置
１５６：外部記憶装置
１５７：バス
１７０：コンピュータ装置

Claims

目的変数と、少なくとも１つの説明変数とを含む複数のデータに基づき、前記目的変数と、前記説明変数から予測される前記目的変数の予測値との複数の差分を算出する差分算出部と、
前記説明変数を前記説明変数の値の範囲によって特定される複数の区間に分割する値を示す少なくとも１つの分割条件候補を前記説明変数の値に基づき生成する候補生成部と、
前記分割条件候補により前記説明変数を分割した前記複数の区間に属する前記データから算出された前記差分を特定し、前記区間ごとの前記差分のばらつきを示す値と、前記差分算出部で算出された前記差分のばらつきを示す値とに基づく演算により前記分割によるばらつきの改善を評価するスコアを算出し、または、前記区間ごとの前記差分の平均値に基づく演算により前記区間としての前記差分のまとまりを評価するスコアを算出し、前記スコアに基づき、前記少なくとも１つの分割条件候補から第１分割条件を選択する分割条件選択部と、
を備えた情報処理装置。
前記第１分割条件によって前記説明変数を分割した前記複数の区間のうち属する前記データの個数が閾値以上の区間、又は前記複数のデータの個数に対する前記データの個数の割合が閾値以上の区間を第１区間として選択し、前記複数のデータのうち前記第１区間に属するデータを選択することを定めた第１選択条件を生成する選択条件生成部、
を備えた請求項１に記載の情報処理装置。
前記説明変数の２つ以上の値は、前記説明変数の値をソートし、重複する値を除外した場合の隣接する２つ以上の値である
請求項１又は２に記載の情報処理装置。
前記分割条件選択部は、前記区間ごとの前記差分のばらつきを示す値を前記区間に属するデータ数に基づいて重み付けして加算した値を、前記差分算出部で算出された前記差分のばらつきを示す値から減算することにより前記スコアを算出する
請求項１～３のいずれか一項に記載の情報処理装置。
前記分割条件選択部は、前記複数の区間ごとの前記差分の平均値間の距離に基づき前記スコアを算出、または２つの前記区間のうちの一方の平均が他方より大きい場合に前記一方の区間に属する差分の最小値と、他方の区間に属する差分の最大値との差に基づき前記スコアを算出する
請求項１～３のいずれか一項に記載の情報処理装置。
前記候補生成部は、前記分割条件候補を前記説明変数の値の中から選択する
請求項１～５のいずれか一項に記載の情報処理装置。
前記候補生成部は、前記説明変数の２つ以上の値を平均することにより前記分割条件候補を生成する
請求項１～５のいずれか一項に記載の情報処理装置。
前記複数のデータに基づいて、前記少なくとも１つの説明変数と、前記目的変数とが関連づいた第１モデルを生成するモデル生成部を備え、
前記差分算出部は、前記第１モデルと、前記データに含まれる前記少なくとも１つの説明変数とに基づいて、前記目的変数を算出し、
算出した前記目的変数と、前記データに含まれる前記目的変数との前記差分を算出する請求項１～７のいずれか一項に記載の情報処理装置。
前記複数のデータに基づいて、前記少なくとも１つの説明変数と、前記目的変数とが関連づいた第１モデルを生成するモデル生成部、を備え、
前記差分算出部は、前記第１モデルと、前記データに含まれる前記少なくとも１つの説明変数とに基づいて、前記目的変数を算出し、
算出した前記目的変数と、前記データに含まれる前記目的変数との前記差分を算出し、
前記第１分割条件によって前記説明変数を分割した前記複数の区間のうち属する前記データの個数が閾値以上、又は前記複数のデータの個数に対する前記データの個数の割合が閾値以上の区間を第１区間として選択し、前記複数のデータのうち前記第１区間に属するデータを選択することを定めた第１選択条件を生成する選択条件生成部と、
前記複数のデータから前記第１選択条件を満たす第１データを選択するデータ選択部と、をさらに備え、
前記モデル生成部は、前記第１データに基づいて、前記少なくとも１つの説明変数と、前記目的変数とが関連づいた第２モデルを生成し、
前記差分算出部は、前記第２モデルと、前記第１データに含まれる前記少なくとも１つの説明変数とに基づいて、前記目的変数を算出し、算出した前記目的変数と、前記第１データに含まれる前記目的変数との前記差分を算出し、
前記候補生成部は、前記第１データにおける前記説明変数を前記説明変数の値の範囲によって特定される複数の区間に分割する値を示す少なくとも１つの第２分割条件候補を前記説明変数の値に基づき生成し、
前記分割条件選択部は、前記第２分割条件候補により前記説明変数を分割した前記複数の区間に属する前記第１データから算出された前記差分を特定し、前記区間ごとの前記差分のばらつきを示す値と、前記差分算出部で算出された前記差分のばらつきを示す値とに基づく演算により前記分割によるばらつきの改善を評価するスコアを算出し、または、前記区間ごとの前記差分の平均値に基づく演算により前記区間としての前記差分のまとまりを評価するスコアを算出し、前記スコアに基づき、前記少なくとも１つの第２分割条件候補から第２分割条件を選択し、
前記選択条件生成部は、前記第２分割条件によって前記説明変数を分割した前記複数の区間のうち属する前記第１データの個数が閾値以上の区間、又は前記データ選択部により選択された前記第１データの個数に対する前記第１データの個数の割合が閾値以上の区間を第２区間として選択し、前記第２区間に属する第１データを選択することを定めた第２選択条件を生成する
請求項１に記載の情報処理装置。
前記モデル生成部、前記差分算出部、前記候補生成部、前記分割条件選択部及び前記選択条件生成部による処理を反復するか否かを停止条件に基づき判定する反復判定部を備え、
前記データ選択部は、前記反復判定部によって反復すると判定された場合に、前記第１データの選択を行い、
前記反復判定部は、前記停止条件として、前記第１選択条件が生成された場合、前記スコアが閾値以上である場合、反復回数が閾値未満の場合に、前記処理を反復することを決定する
請求項９に記載の情報処理装置。
前記複数のデータから前記第１選択条件を満たす第１データを選択するデータ選択部を備え、
前記候補生成部は、前記第１データにおける前記説明変数を前記説明変数の値の範囲によって特定される複数の区間に分割する値を示す少なくとも１つの第２分割条件候補を前記説明変数の値に基づき生成し、
前記分割条件選択部は、前記第２分割条件候補により前記説明変数を分割した前記複数の区間に属する前記第１データから算出された前記差分を特定し、前記区間ごとの前記差分のばらつきを示す値と、前記差分算出部で算出された前記差分のばらつきを示す値とに基づく演算により前記分割によるばらつきの改善を評価するスコアを算出し、または、前記区間ごとの前記差分の平均値に基づく演算により前記区間としての前記差分のまとまりを評価するスコアを算出し、前記スコアに基づき、前記少なくとも１つの第２分割条件候補から第２分割条件を選択し、
前記選択条件生成部は、前記第２分割条件によって前記説明変数を分割した前記複数の区間のうち属する前記第１データの個数が閾値以上の区間、又は前記データ選択部により選択された前記第１データの個数に対する前記第１データの個数の割合が閾値以上の区間を第２区間として選択し、前記第２区間に属する前記第１データを選択することを定めた第２選択条件を生成する
請求項２に記載の情報処理装置。
前記候補生成部は、前記分割条件選択部及び前記選択条件生成部による処理を反復するか否かを停止条件に基づき判定する反復判定部を備え、
前記データ選択部は、前記反復判定部によって反復すると判定された場合に、前記第１データの選択を行い、
前記反復判定部は、前記停止条件として、前記第１選択条件が生成された場合、前記スコアが閾値以上である場合、反復回数が閾値未満の場合に、前記処理を反復することを決定する
請求項１１に記載の情報処理装置。
前記複数のデータから前記第１選択条件を満たす第１データを選択するデータ選択部を備え、
前記分割条件選択部は、前記第１分割条件以外の前記分割条件候補から第２分割条件を選択し、
前記選択条件生成部は、前記第２分割条件によって前記説明変数を分割した前記複数の区間のうち属する前記第１データの個数が閾値以上の区間、又は前記データ選択部により選択された前記第１データの個数に対する前記第１データの個数の割合が閾値以上の区間を第２区間として選択し、前記第２区間に属する前記第１データを選択することを定めた第２選択条件を生成する
請求項２に記載の情報処理装置。
前記分割条件選択部及び前記選択条件生成部による処理を反復するか否かを停止条件に基づき判定する反復判定部を備え、
前記分割条件選択部は、前記反復判定部によって反復すると判定された場合に、前記第２分割条件の選択を行い、
前記反復判定部は、前記停止条件として、前記第１選択条件が生成された場合、前記スコアが閾値以上である場合、反復回数が閾値未満の場合に、前記処理を反復することを決定する
請求項１３に記載の情報処理装置。
前記選択条件生成部は、
複数のノードと、前記複数のノードのうち末端ノード以外のノードに対応する分岐条件とを含む決定木を生成し、
前記ノードに属するデータに対して前記選択条件生成部により生成された前記第１選択条件を、前記ノードに対応する分岐条件として追加し、
前記複数のデータを前記決定木によって分類し、前記末端ノードに分類される前記データに基づき、前記少なくとも１つの説明変数と前記目的変数とが対応付いた予測モデルを生成し、生成した予測モデルを前記末端ノードに対応づける
請求項２に記載の情報処理装置。
前記データを取得するデータ取得部を備え、
前記選択条件生成部は、取得した前記データに基づき、前記決定木を更新する
請求項１５に記載の情報処理装置。
前記少なくとも１つの説明変数と前記目的変数とを含む複数のデータから前記第１選択条件を満たすデータを選択する前処理部と、
選択した前記データに基づき、前記少なくとも１つの説明変数と前記目的変数とが関連づいた予測モデルを生成する予測モデル生成部と、
前記予測モデルと、前記少なくとも１つの説明変数を含む予測対象データとに基づき、前記目的変数を算出する予測部と
を備えた請求項２に記載の情報処理装置。
前記目的変数は、観測対象に関する変数である
請求項１～１７のいずれか一項に記載の情報処理装置。
目的変数と、少なくとも１つの説明変数とを含む複数のデータに基づき、前記目的変数と、前記説明変数から予測される前記目的変数の予測値との複数の差分を算出し、
前記説明変数を前記説明変数の値の範囲によって特定される複数の区間に分割する値を示す少なくとも１つの分割条件候補を前記説明変数の値に基づき生成し、
前記分割条件候補により前記説明変数を分割した前記複数の区間に属する前記データから算出された前記差分を特定し、
前記区間ごとの前記差分のばらつきを示す値と、算出された前記差分のばらつきを示す値とに基づく演算により前記分割によるばらつきの改善を評価するスコアを算出し、または、前記区間ごとの前記差分の平均値に基づく演算により前記区間としての前記差分のまとまりを評価するスコアを算出し、
前記スコアに基づき、前記少なくとも１つの分割条件候補から第１分割条件を選択する、
コンピュータが実行する情報処理方法。
目的変数と、少なくとも１つの説明変数とを含む複数のデータに基づき、前記目的変数と、前記説明変数から予測される前記目的変数の予測値との複数の差分を算出するステップと、
前記説明変数を前記説明変数の値の範囲によって特定される複数の区間に分割する値を示す少なくとも１つの分割条件候補を前記説明変数の値に基づき生成するステップと、
前記分割条件候補により前記説明変数を分割した前記複数の区間に属する前記データから算出された前記差分を特定するステップと、
前記区間ごとの前記差分のばらつきを示す値と、算出された前記差分のばらつきを示す値とに基づく演算により前記分割によるばらつきの改善を評価するスコアを算出し、または、前記区間ごとの前記差分の平均値に基づく演算により前記区間としての前記差分のまとまりを評価するスコアを算出するステップと、
前記スコアに基づき、前記少なくとも１つの分割条件候補から第１分割条件を選択するステップと、
をコンピュータに実行させるためのコンピュータプログラム。