JP2006330988A

JP2006330988A - データ分割装置、データ分割方法およびプログラム

Info

Publication number: JP2006330988A
Application number: JP2005152324A
Authority: JP
Inventors: Kazuto Kubota; 和人久保田; Chie Morita; 田千絵森; Toshiaki Hatano; 寿昭波田野; Akihiko Nakase; 瀬明彦仲
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2005-05-25
Filing date: 2005-05-25
Publication date: 2006-12-07
Anticipated expiration: 2025-05-25
Also published as: JP4509860B2; CN100456281C; CN1869971A; US20060269144A1; US7882050B2

Abstract

【課題】多次元データに内在する点同士の距離以外の傾向も適正に反映して、多次元データを複数のクラスタに分割する。
【解決手段】本発明の一態様としてのデータ分割方法は、多次元データを入力するステップと、前記多次元データを分割する分割面の候補を複数生成するステップと、前記分割面の候補によって前記多次元データを仮分割してクラスタを生成するステップと、各前記クラスタの各々からモデルを生成するステップと、生成した各前記モデルと、前記多次元データとから評価値を計算するステップと、複数の前記分割面の候補の各々に対応する評価値を比較し、最も評価の高い分割面の候補を選択するステップと、選択された前記分割面の候補によって前記多次元データを分割するステップと、分割後の多次元データに対して前記分割面の候補を生成するステップから前記多次元データを分割するステップまでを行うステップと、を備える。
【選択図】図２

Description

本発明は、n次元空間内の点の集合をデータ分割（クラスタリング）するデータ分割装置、データ分割方法およびプログラムに関する。

近年、プラントシステムは、プラントシステムを構成する個々の装置（測定対象物）に取り付けられたセンサの適正範囲を監視することによりプラントの異常を発見するよう構成されている場合がある。これは，センサ値の取るべき適正な範囲をあらかじめ設定し，適正範囲を外れた際に異常警告を出すものである．センサ数の増大によって適正範囲設定の自動化が望まれている。あるセンサ(以降、ターゲットセンサと呼ぶ)の適正範囲の設定には、関連して動く一つ以上の他のセンサ(以降、説明センサと呼ぶ)が利用できる。説明センサからターゲットセンサを予測するモデルを構築し、その予測値と実際の値が大きく異なる場合はターゲットセンサが異常値を示している可能性が高い。

予測モデルは、過去に収集されたターゲットセンサと説明センサの時系列データ（多次元データ）を用いることで作成できるが、一般には、この予測モデル構築は容易ではない。なぜなら、ターゲットセンサのとる値は、説明センサの値から一意に決まるわけではなく、プラントの運転状況にも依存するからである。この状況を発電所のセンサの例を用いて説明する。

縦軸にターゲットセンサ出力であるポンプの圧力、横軸に説明センサ出力である発電出力をとったプロットデータ（運転履歴データ）があるとする。ポンプは稼動している状態と稼働していない状態があり、ポンプが稼動している状態ではポンプの圧力は発電出力と比例し、ポンプが稼動していない状態ではポンプの圧力は低い一定値をとっているとする。これら２つの状態を区別せずにターゲットセンサの値を説明センサから予測するモデルを例えば回帰分析を用いて作ると、モデルの誤差が大きくなってしまう。望ましくは、ポンプの稼働状況に応じたモデルをそれぞれ生成することが望ましい。そのためには、上記運転履歴データにおいて点の集合を複数のグループに分離して、グループごとにモデルを作る必要がある。

平面上や空間上の点をグルーピングする手法としては、k-means法や凝集法がある。非特許文献１にこれらの手法に関する説明が記述されている。k-means法はあらかじめk個の初期点を選択し、残りのそれぞれの点はk個の点のうち最も近い点と同一グループであるとみなす。ここで、グループ毎に重心を計算し、それぞれの重心をk個の初期点とみなして再度グループ分けを繰り返す。一方、凝集法は、各点の全ての組み合わせのうち最も距離の近いものを一つのグループとみなす。グループ化した点の重心を一つの点とみなして同様の処理を、全ての点が一つのグループとなるまで繰り返す。なお、距離のとり方としてグループ間の点の最も近い点同士の距離を利用する方法や、最も遠い点同士の距離を利用する方法もある。

これらの手法は、基本的に近い点同士をグルーピングするというものであり、点同士の距離のみが考慮されていた。したがって、これらの手法では、上述した測定対象物の状態を適正に反映したグループ分け、すなわち多次元データに内在する、点同士の距離以外の傾向を反映したグループ分けを行うことはできない。
米国特許第6,581,058号マイケルＪ・Ａ・ベリー、ゴードン・リノフ著、ＳＡＳインスティチュート／江原淳、佐藤栄作共訳、「データマイニング手法」、海文堂、９６〜１１８ページ

本発明は、多次元データに内在する点同士の距離以外の傾向も適正に反映して、多次元データを複数のクラスタに分割できるデータ分割装置、データ分割方法およびプログラムを提供するものである。

本発明の一態様としてのデータ分割装置は、多次元データを分割するデータ分割装置であって、多次元データを入力するデータ入力部と、前記多次元データを分割する分割面の候補を複数生成する分割面候補作成部と、前記分割面の候補によって前記多次元データを仮分割してクラスタを生成するデータ仮分割部と、各前記クラスタの各々からモデルを生成するモデル生成部と、生成した各前記モデルと、前記多次元データとから評価値を計算する評価値計算部と、複数の前記分割面の候補の各々に対応する評価値を比較し、最も評価の高い分割面の候補を選択する分割候補選択部と、選択された前記分割面の候補によって前記多次元データを分割するデータ分割部と、を備える。

本発明の一態様としてのデータ分割装置は、多次元データを分割するデータ分割装置であって、多次元データを入力するデータ入力部と、前記多次元データを分割する分割面の候補を複数生成する分割面候補作成部と、前記分割面の候補によって前記多次元データを仮分割してクラスタを生成するデータ仮分割部と、各前記クラスタの各々からモデルを生成するモデル生成部と、前記多次元データに含まれる各データが、生成された各前記モデルのうちいずれに近いかによって前記各データをグルーピングすることにより新たなクラスタを生成するグルーピング部と、各前記モデルと、各前記新たなクラスタとから評価値を計算する評価値計算部と、各前記分割面の候補の各々に対応する評価値を比較し、最も高い評価を持つ評価値に対応するグルーピングを選択するグルーピング選択部と、を備える。

本発明の一態様としてのデータ分割方法は、多次元データを分割するデータ分割方法であって、前記多次元データを入力するステップと、前記多次元データを分割する分割面の候補を複数生成するステップと、前記分割面の候補によって前記多次元データを仮分割してクラスタを生成するステップと、各前記クラスタの各々からモデルを生成するステップと、生成した各前記モデルと、前記多次元データとから評価値を計算するステップと、複数の前記分割面の候補の各々に対応する評価値を比較し、最も評価の高い分割面の候補を選択するステップと、選択された前記分割面の候補によって前記多次元データを分割するステップと、分割後の多次元データに対して前記分割面の候補を生成するステップから前記多次元データを分割するステップまでを行うステップと、を備える。

本発明の一態様としてのプログラムは、多次元データを分割することをコンピュータに実行させるプログラムであって、記憶装置から多次元データを読み出すステップと、前記多次元データを分割する分割面の候補を複数生成するステップと、前記分割面の候補によって前記多次元データを仮分割してクラスタを生成するステップと、各前記クラスタの各々からモデルを生成するステップと、生成した各前記モデルと、前記多次元データとから評価値を計算するステップと、複数の前記分割面の候補の各々に対応する評価値を比較し、最も評価の高い分割面の候補を選択するステップと、選択された前記分割面の候補によって前記多次元データを分割するステップと、分割後の多次元データに対して前記分割面の候補を生成するステップから前記多次元データを分割するステップまでを行うステップと、をコンピュータに実行させる。

本発明により、多次元データに内在する点同士の距離以外の傾向も適正に反映して、多次元データを複数のクラスタに分割できる。

まず、本発明の実施の形態の概要について簡単に説明する。

図４は、本発明の実施の形態の概要を説明するための図である。

プラント等の施設内に測定対象物２１、２２、２３、２４が配置されている。測定対象物２１、２２、２３、２４にはセンサx,y,z,wが設置されている。各センサx,y,z,wから時系列に取得されたデータ１１、１２、１３、１４は４次元、系列長ｎのデータ（多次元データ）として保存される（図５参照、ただし図５は２次元、系列長ｎのデータである）。センサx,y,z,wのうちの１つをターゲットセンサ、残りのセンサを説明センサとする。ここではセンサyをターゲットセンサ、センサx,z,wを説明センサとする。

本実施の形態は、例えばターゲットセンサの測定対象物の状態を反映させて多次元データをデータ分割（クラスタリング）できるような手法、すなわち多次元データに内在する点同士の距離以外の傾向を適正に反映したデータ分割を提供する。このデータ分割によって多次元データは複数のクラスタに適正に分割される。本実施の形態では、さらに各クラスタに対応するモデルもそれぞれ生成する。図４には、多次元データから２つのクラスタ１５a、１６aが生成され、さらに各クラスタからそれぞれモデル１５ｂ、１６ｂが生成された例が示される。なおここでは説明センサとしてx,zのみが用いられている。

このようにして生成されたモデル１５ｂ、１６ｂは、例えばターゲットセンサyの値が適正範囲にあるかをリアルタイムに判断するのに用いることができる。例えばある時点において取得したターゲットセンサのデータ１７がクラスタ１５a、１６aのいずれに属するかをあらかじめ生成した分類規則に基づき判断する。ここではデータ１７はクラスタ１５aに属するとする。この場合、データ１７をモデル１５ｂに入力してモデル出力を求め、モデル出力とデータ１７との差１８を計算し、この差１８が所定範囲に収まれば測定対象物は正常状態にあり、そうでなければ測定対象物は異常状態にあると判断する。

以下、本発明の実施の形態について詳細に説明する。

（第１の実施の形態）
図１は、本実施の形態に従ったデータ分割システムの構成を示すブロック図である。

このデータ分割システムは、ＣＰＵ３１、メモリ３２、ハードディスク３３および表示装置３４を備える。ハードディスク３３には本実施の形態を実現するプログラムが格納されている。またハードディスク３３には、複数のセンサから時系列に取得されたデータが多次元データとして格納されている。ＣＰＵ３１は、ハードディスク３３内のプログラムをメモリ３２にロードして実行する。表示装置３４は、ＣＰＵ３１による実行結果をユーザに表示する。

図２は、ＣＰＵ３１による処理内容を機能単位で示した機能ブロック図である。図３は、ＣＰＵ３１による処理の流れ示したフローチャートである。

図２のデータ分割装置はデータ入力部４１、データ離散化部４２、分割面候補作成部４３，データ仮分割部４４、モデル生成部４５、評価値計算部４６および分割候補選択部４７およびデータ分割／分割終了判定部４８を備える。

データ入力部４１は多次元データをデータ離散化部４２に入力する。多次元データの例を図５に示す。ここでは2次元、系列長nのデータが示される。次元数は２次元より多くてもよい。

データ離散化部４２は、入力された多次元データを離散化する（Step1）。より詳細には以下の通りである。

x, yの各次元の要素を最小値と最大値を用いて0からl-mの整数に離散化する。ここでmはユーザが与えた任意の整数とする。例えば、x次元の最小値と最大値をxmin, xmaxとし、i番目のデータのx次元の値をxiとすると、離散化後のi番目のデータのx次元の値xdiは、xmin と xmax をm等分した区間のうち、xiが先頭から何番目の区間に入るかで決まる。以上の処理をy次元についても行う。以上の処理によりデータiの各次元の要素であるxi, yiは、それぞれ、xdi, ydi、（ただし0≦xdi≦m-1, 0≦ydi≦m-1、xdi, ydiは整数）へと離散化される。

図６は、入力データ（多次元データ）を離散化する様子を示す。左図が離散化前のデータ、右図が離散化後のデータ（マトリクス）を示す。この例は、多次元データが2次元であり、かつ、m=8の場合である。離散化前の2次元上の点(左図)は、離散化後の8x8のマトリクス(右図)におけるいずれかのマスにマッピングされる。例えば、離散化前のi番目のデータが離散化後にxdi=2, ydi=4になるならば、右図のマトリックスのx次元２、y次元4のマスが１加算される。なお、右図において空白はゼロを示す。同じマスに入る各データ（点）は各々、例えば当該同じマスの中心座標をもつものとして扱われる。

以降に説明する処理、および他の実施の形態での処理において、多次元データとしては、特に言及しない限り、離散化前および離散化後のどちらを用いてもよい。前者の場合、処理が高速になるが精度が低下し、逆に後者の場合、処理時間はかかるが精度が向上する。すなわち、離散化処理はStep2以降の処理の計算量を低減するために行うものであり本発明に必須ではない。

分割候補作成部４３は、多次元データ（点集合）を2分割する分割面の候補として、各軸と直交する平面（2次元の場合は直線）の集合を求める（Step2）。

ここではデータ離散化部４２により生成されたマトリクスにおける隣接する２つの区間の境界線を分割面とする。ここでは隣接する分割面の間隔は一定となるが、必ずしも一定で有る必要はない。分割面は各次元についてm-１個存在する。図７は、x次元を分割する直線の候補lx1〜lx7、y次元を分割する直線の候補ly1〜ly7を示す。

データ仮分割部４４は、分割面候補作成部４３によって求められた分割面で多次元データを2分割し、２つのクラスタを生成する（Step3）。図８はy次元と直交する直線ly4を用いて２つのクラスタＡ、Ｂを生成した例を示す。

モデル生成部４５は、データ仮分割部４４により得られた２つのクラスタＡ，ＢからそれぞれモデルＡ，Ｂを生成する（Step4）。すなわち、クラスタＡに属する入力データを用いてモデルＡを生成し、クラスタＢに属する入力データを用いてモデルＢを生成する。クラスタＡ、Ｂから生成されたモデルＡ、Ｂを図９に示す。モデルの生成には例えば回帰分析を用いることができる。すなわち、yをxで回帰する直線を求めることでモデルを生成できる。モデル生成には、回帰分析の他にも種々の手法を用いることができる。例えば主成分分析を用いても良い。

評価値計算部４６は、モデル生成部４５によって生成されたモデルと、入力データとから、上記分割に対する評価値を計算する（Step5）。より詳細には以下の通りである。

モデルを用いてxから推定したyと、実際のyとの差の絶対値をデータの誤差とする。クラスタＡ内の点についてはモデルＡからの誤差を合計してモデルＡの誤差を求め、クラスタＢ内の点についてはモデルＢからの誤差を合計してモデルＢの誤差を求め、両者を加算する。そして、加算結果を、クラスタＡ，Ｂに含まれる全体の点の数（データ数）で割った値を評価値とする。

また、評価値は以下のようにして求めてもよい。すなわち、yの推定値と実際のyの値との差を二乗したものを全ての点について加算し、加算結果を全ての点の数で割り、除算結果の平方根を取ったものを評価値とする。

なお、上記のモデルの生成において主成分分析を用いた場合、k次元の入力データを仮定すると、第k-1番目までの主成分で張られる面をモデルとし、モデルと点との距離を誤差とする。この後、回帰分析を用いた場合と同様にして評価値を計算する。

以上のStep3〜Step5を各分割面の候補についてそれぞれ行う。この結果、各分割面の候補についてそれぞれ評価値が計算される。

分割候補選択部４７は、分割面の候補の数だけ生成された評価値の中から、最も評価の高い評価値（例えば最小の評価値）を持つ分割面の候補を選択する（Step6）。ただし、分割候補選択部４７は、所定の終了条件が成立した場合は、分割面の候補を選択することなく、処理の終了を示す終了信号を出力する。所定の終了条件としては、例えば、最小の評価値があらかじめ設定した閾値を下回らなかった場合がある。

データ分割／分割終了判定部４８は、分割候補選択部４７により選択された分割面によって入力データ（点群）を分割し、新たなデータ集合を２つ生成する（Step7）。データ分割／分割終了判定部４８は、新たに生成されたデータ集合のそれぞれについて、各機能部４３〜４７による処理（Step2〜Step７）を繰り返すために、各データ集合を分割面候補作成部４３に出力する（Step8）。データ分割／分割終了判定部４８は、繰り返し処理の終了を例えば以下のようにして決定する。

すなわち、データ分割／分割終了判定部４８は分割面候補作成部４３にデータ集合を送る際にデータ集合ごとにフラグを立てる。あるデータ集合について終了信号が入力された場合または分割を行った場合は、そのデータ集合のフラグを消去する。立てたフラグが全て消去された場合は処理の終了を決定する。ただし、図３に示すフローチャートの一巡目において終了信号が入力された場合はその時点で処理の終了を決定する。

以上に説明した処理によって、入力データは再帰的に二分割されて、クラスタが生成される。

以上のように、本実施の形態によれば、モデルからの誤差が最も小さくなる分割面を選択し選択した分割面でデータ分割（クラスタリング）することを再帰的に繰り返すようにしたため、多次元データに内在する点同士の距離以外の傾向を適正に反映しつつ、多次元データを複数クラスタに分割できる。例えば、プラントの各センサの適正な変動範囲を他のセンサの値を用いて推定するモデルを過去の運転履歴データから作成する際に、運転履歴データから運転状況が異なるデータを各々分離することが可能となる。

（第２の実施の形態）
本実施の形態では、評価値計算部４６による評価値計算をより詳細に説明する。

第１の実施の形態に述べたように、分割面候補作成部４３によって作成されたある分割面の候補（φiとする）によってデータはDAi, DBiに分割され（クラスタAi,Biが生成され）、各DAi, DBiに対して、モデルAi,Biおよび誤差error_Ai、error_Biが計算される。error_AiはDAiに属する各データの誤差の合計、error_Bi はDBiに属する各データの誤差の合計である。DAi, DBiのデータ数をそれぞれnum_Ai, num_Biとする。

ここで、DAi、DBiに対するモデル評価値error_adjust_Ai, error_adjust_Biを以下の式で計算する。
error_adjust_Ai = error_Ai − α × num_Ai ＋ β
error_adjust_Bi = error_Bi − α × num_Bi ＋ β
αは、例えば(分割前の誤差／分割前のデータ数)という値を使えばよい。βは分割の停止を決定するためのパラーメータである。

分割面の候補φiの評価値error_adjust_iは、モデル評価値error_adjust_Aiとerror_adjust_Biにそれぞれ重みを加えて加算したものでもよいし、error_adjust_Aiとerror_adjust_Biのうち値の小さい方をとってもよい。error_adjust_iが、閾値（例えばゼロ）以上の場合は分割面の候補φiを分割の候補として採用しない。

図１０はerror_adjust_i = min( error_adjust_Ai, error_adjust_Bi ), α＝(分割前の誤差／分割前のデータ数)としたときに、分割面の候補のうちのいずれの候補が選択されるのかを説明する図である。

図中の点は、分割面の候補φiによる分割によって生成されたクラスタＡiまたはBiに対応するモデルAiまたはBiに相当する。すなわち１つの点が１つのモデルに対応する。従って１つの分割面の候補につき点が２つ生成される。縦軸はモデルの誤差（error_Ai, error_Bi）であり、横軸はデータ数（num_Ai, num_Bi）である。

ここで、モデルの誤差は小さい方がよく、同程度の値ならばクラスタに含まれるデータ数は多いほうが良いと考える。この基準に従うとグラフ内の点はなるべく右下にある方がよい。最もよい点を選ぶ基準を明確化するために、図１０に示すような原点を通り傾きがαである基準直線を定める。この基準直線をこの直線に垂直な右下方向（すなわち縦軸マイナス方向）に動かしていき、最後に重なる点（モデル）に対応する評価値を採択する。この時の直線を最大評価値線と呼び、採択された評価値をもつ点を最大評価点と呼ぶ。

ここで、傾きαの基準直線を縦軸のマイナス方向にβ動かした直線を分割閾値線とする。最大評価値線が分割閾値線と同一またはこれの下側に来た場合は、最大評価点をもつ分割面の候補によってデータ分割を行う。一方、最大評価値線が分割閾値線の上側に来た場合は分割を中止する。すなわち、分割候補選択部４７は終了信号を出力する。

以上のように、本実施の形態によれば、分割前の誤差や、分割の停止を決定するパラメータ等を用いて評価値を計算するようにしたため、分割面の候補を適正に選択することができる。

(第３の実施の形態)
本実施の形態では、第１の実施の形態に従って生成されたクラスタを結合（マージ）する処理を追加する。以下本実施の形態について詳細に説明する。

図２１は、本実施の形態に従ったデータ分割装置の構成を概略的に示す機能ブロック図である。

要素４１〜４８は図２と同じである。要素４３〜４８による処理の段階は分割フェーズと称される。本実施の形態では、さらに結合候補生成部５１、結合候補選択部５２、モデル生成部５３、マージ評価値計算部５４およびデータ結合／結合終了判定部５５を備え、これらの要素５１〜５５によって、分割フェーズの後に、結合フェーズを実行する。

図１１は、ある入力データから要素４３〜４８による分割フェーズによって生成されたクラスタを示す。分割線が(1)、(2)、(3)の順に選択され、クラスタA,B,C,DおよびモデルA,B,C,Dが生成されたとする。この後、要素５１〜５５によって結合フェーズを実行する。より詳細には以下の通りである。

結合候補生成部５１は、全ての組み合わせによりクラスタA、B、C、Dからクラスタのペアを生成する。この結果、（A,B）（A,C）（A,D）（B,C）（B,D）（C,D）の組（結合候補）がそれぞれ生成される。

結合候補選択部５２は、生成された組を順次選択して、モデル生成部５３に出力する。

モデル生成部５３は、入力された各組について、当該組における点の集合に対するモデル生成を行う。

マージ評価値計算部５４は、生成された各モデルについて、マージ評価値を計算する。マージ評価値は、例えばモデルの誤差とデータ数とモデルの数とを用いた関数により計算する。組（A,B）の場合、以下のようになる。モデルA, Bの誤差をerrro_A, error_B, データ数を num_A, num_Bとする。また、クラスタAとBを結合したときのモデルABの誤差をerror_AB, データ数を num_AB とする。errro_A, error_Bおよびerror_ABは、第１の実施の形態と同様にして計算可能である。そして、(num_A / num_AB) * error_A + (num_B/num_AB) * error_B + 1 * γと、 error_AB + 2 * γとの差をマージ評価値として求める。ここでγはユーザが与える定数であり、「１」および「２」はモデルの数を表す。

データ結合／結合終了判定部５５は、マージ評価値が所定の基準を満たす場合は（例えば所定値以下である場合は）その組におけるクラスタ同士を結合する。あるクラスタが、所定の基準を満たす複数の組に属する場合は、マージ評価値のより低い方の組を優先する。

本例では、前述の通り、(A, B)、(A,C)、(A,D)、(B,C)、(B,D)、(C,D)の6通りの組が存在する。(A、C)、(B、D)に対するマージ評価値が上記所定を満たし、この結果、データ結合／結合終了判定部５５は、クラスタAとCとを結合してクラスタEを生成し、また、クラスタBとDとを結合してクラスタFを生成する。この様子を図１２に示す。

データ結合／結合終了判定部５５は、生成したクラスタ（ここではE、F）および結合されなかったクラスタ（本例では存在しない）を結合候補生成部５１に出力する。これらのクラスタについて、上述の処理が繰り返される。組（E,F）から計算されたマージ評価値は所定の基準を満たさないため、データ結合／結合終了判定部５５には、クラスタE,Fの結合を行うことなく、処理を終了する。すなわち、最終的にクラスタE、Fが残る。

なお、結合候補生成部５１において、クラスタの組は隣接するクラスタのみでもよく、この場合には組の数が少なくて済む。

以上のように本実施の形態によればクラスタを結合するようにしたためクラスタ数が不必要に増加することを阻止できる。

(第４の実施の形態)
図２２は、本実施の形態に従ったデータ分割装置の構成を概略的に示すブロック図である。

まず、第１の実施の形態と同様に、データ入力部６１およびデータ離散化部６２による処理を行う。以降の処理では、多次元データとして、離散化前および離散化後のどちらを用いてもよい。前者の場合、処理が高速になるが精度が低下し、逆に後者の場合、処理時間はかかるが精度が向上する。

次に、分割面候補作成部６３による処理を行い、この後、データ仮分割部６４において、ある分割線の候補ｌで入力データを２つのクラスタＡ，Ｂに分割する。次いでモデル生成部６５においてクラスタＡ，ＢからモデルＡ，Ｂを生成する。この様子を図１３に示す。

ここで、グルーピング部６６は、各点（入力データ）をモデルからの距離で再グルーピングする。モデルＡに近い点はクラスタＡ、モデルＢに近い点はクラスタＢに属するとする。この様子を図１４に示す。

評価値計算部６７は再グルーピング後のクラスタＡ、Ｂと、モデルＡ、Ｂとに基づいて、第１または第２の実施の形態と同様にして、評価値を計算し、計算した評価値を分割候補選択部６８に出力する。

分割候補選択部６８は、全ての分割線の候補について評価値を受け取ったら、この中から評価値の最も良い分割線の候補および評価値をデータ分割／分割終了判定部６９に出力する。データ分割／分割終了判定部６９は、入力された評価値がユーザによって定められた基準値を満たせば処理を終了し、基準値を満たさなければ、分割線の候補から作成されたグループを分割面候補作成部６３に渡す。以上の説明において、モデル生成部６５、グルーピング部６６および評価値計算部６７による処理を繰り返し行ってもよい。すなわち、モデル生成部６５およびグルーピング部６６において、再度、モデル生成とグルーピングとを行い、評価値計算部６７において評価値を計算する。評価値が改善しなくなるまですなわち評価値の変動が一定値以下になるまで処理を繰り返してもよいし、一定回数処理繰り返してもよい。

(第５の実施の形態)
第５の実施の形態では、図２の分割候補選択部４７によって選択された分割線（分割面）をオフセットさせて、より高い評価をもつ分割線を探す。以下本実施の形態について詳細に説明する。

ある入力データに対し、分割候補選択部４７によって、分割線lが選択されたとする。ここで、分割線lに隣接する分割線をl-とl+とし、分割候補選択部４７が、これらの線l-とl+の間に新たな分割線の候補を作成する。新たな分割線の候補の作り方としては、単純にl-とl+との間を等分したものでもよいし、l-とl+との間に含まれる点を各々分割するようなものでもよい。l-とl+との間に含まれる6点を各々分割する線を引いた例を図１５に示す。なお、この処理またはこの処理より後の処理において、離散化後のデータを用いる場合は、l-とl+との間のデータを再度離散化する必要がある。この後、これら新しい分割線を分割線の候補として、データ仮分割部４４、モデル生成部４５および評価値計算部４６による処理を再度行う。すなわち、分割候補選択部４７は、新たな分割線の候補をデータ仮分割部４４に出力して、評価値計算部４６から新たな分割線の候補に対応する評価値を取得する。分割候補選択部４７は、分割線lおよび新たな分割線の候補のうち最も評価が高いものを分割線として選択する。

以上のように本実施の形態によれば分割線を隣接する分割線の範囲内でオフセットさせるようにしたため、分割線の間隔に依らずにデータ分割を行うことが可能となる。

(第６の実施の形態)
本実施の形態では、利用する次元の組み合わせを変えながらデータ分割（クラスタリング）を行う。以下本実施の形態について詳細に説明する。

４次元の入力データの例を図１６に示す。ここで、ある一つの次元をターゲット次元と呼びあらかじめ与えておく。図１６においてy次元がターゲット次元であるとする。残りの次元を説明次元と呼ぶことにする。処理に先立って利用する次元数を規定する。ここでは３次元であるものとする。

まず、説明次元から２つの次元を選び、選択した２つの次元とターゲット次元とをあわせた３次元系列を考える。一般に利用する次元数がk次元の時はk-1次元を説明次元から選ぶことになる。x,z次元とy次元とからなる系列を選らぶと図１７のようになる。このデータに対して、図２の装置において、図３のStep 1〜Step 5までの処理を１回適用する。Step4でモデルを生成する際は、ターゲット次元を被説明変数としたモデルを生成する。同様の処理をx,y,wおよびy,z,w次元の組み合わせについても行う。この結果、分割面候補作成部４３は、 (x,y,z)(x,y,w)(y,z,w)のそれぞれについて複数の分割面の候補を生成し、分割候補選択部４７は、(x,y,z)(x,y,w)(y,z,w)の各々について分割面の候補を１つ選択する。この後、分割候補選択部４７は、これらの中から最も高い評価をもつ次元の組み合わせを特定し、特定した組み合わせに対応する分割面の候補を採択する。そして、データ分割／分割終了判定部４８はこの分割面でデータ分割を行う。以上の処理を再帰的に繰り返す。

なお、説明次元を固定説明次元と追加説明次元という２つに分けてもよい。固定説明次元とはデータ分割時に必ず利用される次元で、追加説明次元とは処理中に選択される次元である。例えば、y次元をターゲット次元、x次元を固定説明次元とし、zとwを追加説明次元とすると上記の処理は、x, y, z次元の組み合わせと、x, y, wの組み合わせについて行われることになる。

以上のように、本実施の形態によれば、データ分割に利用する説明次元数が少数に制限されている場合において、精度の高いモデルを生成できるデータ分割を行うことが可能となる。

(第７の実施の形態)
本実施の形態では、第１の実施の形態をベースに、評価値計算部４６による評価値計算に改良を加える。本実施の形態における評価値計算部７１の詳細構成を図２３に示す。評価値計算部７１は、決定木生成用データ入力部７２、クラス番号付与部７３、決定木生成部７４および拡張評価値計算部７５を備える。評価値計算部以外の構成は図２と同様である。以下本実施の形態について詳細に説明する。

本実施の形態において、データ分割、および分割面の評価で用いる次元は入力データの次元の全部でもよいし一部でもよい。またデータ分割、および分割面の評価で利用する次元は同じでもよいし異なっていてもよい。

ここでは、入力データは４次元とし、データ分割にはx,y,zの3次元、分割面の評価にはx,y,z,wの４次元を用いることにする。ここで、ある一つの次元をターゲット次元と呼びあらかじめ与えておく。ここでは、y次元がターゲット次元であるとする。残りの次元を説明次元と呼ぶことにする。

まず、第１の実施の形態に従って、データ離散化部４２、分割面候補作成部４３、データ仮分割部４４およびモデル生成部４５において、x, y, z次元データを処理する。

評価値計算部７１におけるクラス番号付与部７３は、各クラスタに番号を割り振る。これをクラス番号と呼ぶ。生成されたクラスタの例を図１８に示す。また、クラス番号付与部７３は、入力データ１からｎにそれぞれクラス番号を割り振る。クラス番号が振られたデータを図１９に示す。各データの一番右側に付された０，１がクラス番号である。以上の処理を各分割面の候補について行う。

評価値計算部７１における決定木生成部（分類規則生成部）７４は、入力データの次元のうちターゲット次元yを除いた次元（すなわち説明次元）を属性とし、クラス番号をクラスとする決定木（分類規則）を生成する。図１９のデータから生成された決定木の一例を図２０に示す。決定木の生成においては、データ分割に用いた以外のデータを利用してもよく、この場合は、決定木生成用データ入力部７２から決定木生成部７４に当該データを供給する。決定木生成部７４において、各分割面の候補の各々に対応する決定木が生成される。

評価値計算部７１における拡張評価値計算部７５では、第１の実施の形態と同様に各分割面の候補についてそれぞれ評価値eを計算し、さらに各分割面の候補に対応する決定木の精度pや、木の深さd（図２０の場合、大きさは１）といった値も計算する。そして、これらの値p,dを用いて評価値eを修正して拡張評価値を計算する。例えば、拡張評価値をe + ｒ × p + s × dによって計算する。ただし、ｒとsは重み付けの係数である。

評価値計算部７１の次段の分割候補選択部４７（図２参照）では、この拡張評価値を利用して分割面の候補の選択を行う。例えば最も値の小さい評価値をもつ分割面の候補を選択する。

以上のように、本実施の形態によれば、分類規則の精度や深さといった要素も考慮して評価値を計算するため、分割面の候補を適正に選択できる。

(第８の実施の形態)
本実施の形態は、前述した各実施の形態のいずれかの処理を、複数通りの次元の組み合わせについて行って、各次元の組み合わせからそれぞれモデルを生成する。そして各次元の組み合わせに対応するモデルをそれぞれ評価し、最も評価の高いモデルに対応するデータ分割を採用する。以下、本実施の形態について詳細に説明する。

図２４は、本実施の形態に従ったデータ分割装置の構成を概略的に示すブロック図である。

要素８１は、複数のデータ分割装置A、B、C・・・を示す。データ分割装置A、B、C・・・は、第１〜第７の実施の形態のいずれかのデータ分割装置である。例えばデータ分割装置A、B、C・・・は各々第１の実施の形態のデータ分割装置であり、あるいは、データ分割装置A、B、C・・・は各々第２の実施の形態のデータ分割装置である。ただし、データ分割装置A、B、C・・・はデータ入力部を含まず、本実施の形態ではデータ分割装置A、B、C・・・に共通のデータ入力部８２が配置される。

データ入力部８２からデータ分割装置A、B、C・・・へ与えられる入力データは同一であるとし、またターゲット次元もデータ分割装置A、B、C・・・において同一であるとする。ただし、データ分割に利用する次元は各データ分割装置で異なるとする。例えばターゲット次元をyとすると、データ分割装置A、B、C・・・は、それぞれ(x,y,z) (x,y,w) (z,y,w)をデータ分割に利用する。データ分割装置A,B,C・・・は、処理の結果、それぞれモデルA,B,C・・・と、データ分割候補A,B,C・・・とを出力する。データ分割候補Aはデータ分割結果としての複数のクラスタを含み、モデルAは各クラスタに対応するモデルの集合である。同様に、データ分割候補Bはデータ分割結果としての複数のクラスタを含み、モデルBは各クラスタに対応するモデルの集合である。データ分割候補Cはデータ分割結果としての複数のクラスタを含み、モデルCは各クラスタに対応するモデルの集合である。

クラス番号付加部８３は、データ分割候補A,B,C・・・の各々に含まれる各クラスタに対しクラス番号を付与する。また、クラス番号付加部８３は、入力データに含まれる各データにクラス番号を付与する。

決定木生成部８４は、データ分割候補A,B,C・・・の各々について、ターゲット次元を除く次元（すなわち説明次元）を属性とし、クラス番号をクラスとする決定木A,B,C・・・を生成する。決定木の生成のために用いるデータは、データ分割に用いたデータと同じデータでもよいし、データ分割に用いたデータと異なるデータでもよい。後者の場合、決定木生成用データ入力部８７からデータを決定木生成部８４に供給する。

拡張評価値計算部８５は、モデルA,B,C・・・の各々について、決定木A,B,C・・・を用いて、第７の実施の形態で示した値e, p, dに基づく拡張評価値を計算する。

最良データ分割選択部８６は、各拡張評価値の中で最も高い評価を有するデータ分割候補を選択する。

以上の説明では、複数のデータ分割装置A,B,C・・・を用いたが、これに代えて、単一のデータ分割装置を用い、使用する次元の組み合わせを代えながら、繰り返し処理を行ってもよい。すなわち、各回において入力データは共通かつターゲット次元を共通としつつも、データ分割に利用する次元の組み合わせを各回において変える。

また、以上の説明では、データ分割装置A,B,C・・・に与える入力データを同じとしたが各データ分割装置A,B,C・・・にそれぞれ異なる入力データを与えてもよい。また、この場合、各データ分割装置A,B,C・・・において、データ分割に使用する次元は同一であってもよい。

以上のように、本実施の形態によれば、データ分割に利用する説明次元数が少数に制限されている場合において、精度の高いモデルを生成可能なデータ分割候補を決定できる。

本発明の実施の形態に従ったデータ分割システムの構成を示す。データ分割装置の機能ブロック図である。データ分割装置による処理の処理の流れ示したフローチャートである。本発明の実施の形態の概要を説明するための図である。２次元の入力データの例を示す。離散化前のデータと離散化後のデータを表す。分割線の候補を表す。分割線による分割によって生成されたクラスタを表す。クラスタごとに生成されたモデルを示す。複数のデータ分割の中から最良のデータ分割を選ぶ手法の例を示す。４つのクラスタおよび各クラスタから生成されたモデルを表す。クラスタが結合された様子を表す。２つのクラスタおよび各クラスタから生成されたモデルを表す。モデルからの距離に応じてクラスタを作り直すことを説明する図である。新たな分割線の候補を発生させた様子を示す。４次元の入力データの例を示す。図１６のデータから３次元のデータを抽出した例を示す。クラスタにクラス番号を振った例を示す。データにクラス番号を振った例を示す。決定木の例を示す。本発明の第３の実施の形態に従ったデータ分割装置の機能ブロック図である。本発明の第４の実施の形態に従ったデータ分割装置の機能ブロック図である。本発明の第７の実施の形態における評価値計算部の詳細構成を示すブロック図である。本発明の第８の実施の形態に従ったデータ分割装置の機能ブロック図である。

符号の説明

２１〜２４：測定対象物
１１〜１４：時系列データ
１５a、１６a：クラスタ
１５ｂ、１６ｂ：モデル
１７：データ
１８：差
３１：ＣＰＵ
３２：メモリ
３３：ハードディスク
３４：表示装置
４１、６１、８２：データ入力部
４２、６２：データ離散化部
４３、６３：分割面候補作成部
４４、６４：データ仮分割部
４５、６５：モデル生成部
４６、６７、７１：評価値計算部
４７、６８：分割候補選択部
４８、６９：データ分割／分割終了判定部
５１：結合候補生成部
５２：結合候補選択部
５３：モデル生成部
５４：マージ評価値計算部
５５：データ結合／結合終了判定部
６６：グルーピング部
７２、８７：決定木生成用データ入力部
７３、８３：クラス番号付与部
７４、８４：決定木生成部
７５、８５：拡張評価値計算部
８１：データ分割装置
８６：最良データ分割選択部

Claims

多次元データを分割するデータ分割装置であって、
多次元データを入力するデータ入力部と、
前記多次元データを分割する分割面の候補を複数生成する分割面候補作成部と、
前記分割面の候補によって前記多次元データを仮分割してクラスタを生成するデータ仮分割部と、
各前記クラスタの各々からモデルを生成するモデル生成部と、
生成した各前記モデルと、前記多次元データとから評価値を計算する評価値計算部と、
複数の前記分割面の候補の各々に対応する評価値を比較し、最も評価の高い分割面の候補を選択する分割候補選択部と、
選択された前記分割面の候補によって前記多次元データを分割するデータ分割部と、
を備えたデータ分割装置。
前記データ分割部は、分割後の各多次元データを前記分割面候補作成部に出力し、前記分割候補選択部は、最も高い評価を持つ評価値が所定の継続条件を満たさない場合は、処理の終了を示す信号を出力することを特徴とする請求項１に記載のデータ分割装置。
前記データ入力部によって入力された前記多次元データを離散化するデータ離散化部をさらに備え、
前記分割面候補作成部、前記データ仮分割部、前記モデル生成部、前記評価値計算部および前記データ分割部の少なくともいずれかは、離散化後の多次元データを対象とすることを特徴とする請求項１または２に記載のデータ分割装置。
前記評価値計算部は、前記生成した各モデルと、前記生成した各モデルの各々に対応するクラスタと、前記多次元データに含まれるデータの数とから前記評価値を計算することを特徴とする請求項１ないし３のいずれかに記載のデータ分割装置。
前記評価値計算部は、
前記生成した各モデルと、前記生成した各モデルの各々に対応するクラスタとから前記各モデルの誤差を計算し、
前記多次元データに対応するモデルの誤差を、前記多次元データに含まれるデータの数によって除算し、
計算した前記各モデルの誤差と、除算結果と、前記各モデルに対応するデータの数とから、前記各モデルのモデル評価値を計算し、
前記各モデル評価値から前記評価値を計算する、
ことを特徴とする請求項１ないし３に記載のデータ分割装置。
前記評価値計算部は、計算した前記各モデルの誤差から、前記除算結果と前記各モデルに対応するデータの数とを乗算したものと、所定のパラメータ値とを減算することにより前記各モデル評価値を計算することを特徴とする請求項５に記載のデータ分割装置。
前記評価値計算部は、前記各モデル評価値のうち最も小さいものを前記評価値とすることを特徴とする請求項５または６に記載のデータ分割装置。
前記データ分割部による分割によって最終的に生成されたクラスタからクラスタの組み合わせを結合候補として複数生成する結合候補生成部と、
前記結合候補を選択する結合候補選択部と、
前記結合候補からモデルを生成するさらなるモデル生成部と、
前記さらなるモデル生成部によって生成されたモデルの誤差を計算し、前記結合候補に含まれる各クラスタに対応するモデルの誤差に基づく演算値と、前記さらなるモデル生成部によって生成されたモデルの誤差に基づく演算値との差をマージ評価値として計算するマージ評価値計算部と、
前記マージ評価値が所定の結合基準を満たす場合は前記マージ評価値に対応する前記結合候補に含まれる各クラスタを結合して新たなクラスタを生成する結合部と、
をさらに備えたことを特徴とする請求項１ないし７のいずれかに記載のデータ分割装置。
前記分割候補選択部は、
選択した分割面の候補と、前記選択した分割面の候補に隣接する分割面の候補との間に新たな分割面の候補を生成し、生成した前記新たな分割面の候補を前記データ仮分割部に出力し、
前記選択した分割面の候補に対応する評価値、および前記新たな分割面の候補に対応する評価値を比較し、最も高い評価を有する分割面の候補を選択することを特徴とする請求項１ないし８のいずれかに記載のデータ分割装置。
前記分割候補選択部は、前記選択した分割面の候補と、前記隣接する分割面の候補との間に含まれるデータを各々分離するように前記新たな分割面の候補を生成することを特徴とする請求項９に記載のデータ分割装置。
前記分割面候補作成部は、各々共通のターゲット次元を含む複数通りの次元の組み合わせのそれぞれについて前記分割面の候補を複数生成し、ここにおいて前記ターゲット次元はモデル生成時に被説明変数となる次元であり、
前記分割候補選択部は、各前記次元の組み合わせからそれぞれ選択した分割面の候補のうち、最も高い評価を有する分割面の候補を採択することを特徴とする請求項１ないし１０のいずれかに記載のデータ分割装置。
各前記次元の組み合わせには、前記ターゲット次元以外に、１以上の同一の次元が含まれることを特徴とする請求項１１に記載のデータ分割装置。
前記評価値計算部は、
仮分割後の各クラスタにクラス番号を割り当て、前記多次元データに含まれる各データに前記クラス番号を付与するクラス番号付与部と、
前記多次元データにおける説明次元からクラス番号を予測する分類規則を生成する分類規則生成部と、
前記分類規則の精度および大きさの少なくともいずれかと前記評価値とから拡張評価値を計算する拡張評価値計算部と、
を有し、
前記分割候補選択部は、前記評価値に代えて、前記拡張評価値を用いることを特徴とする請求項１ないし１２のいずれかに記載のデータ分割装置。
前記拡張評価値計算部は、前記分類規則の精度に第１の重み付け係数を乗算した値と、前記分類規則の大きさに第２の重み付け係数を乗算した値とを、前記評価値に加算することにより前記拡張評価値を計算することを特徴とする請求項１３に記載のデータ分割装置。
前記分類規則は決定木であることを特徴とする請求項１３または１４に記載のデータ分割装置。
前記分割面候補作成部は、各々共通のターゲット次元を含む複数通りの次元の組み合わせのそれぞれについて前記分割面の候補を複数生成し、この結果、前記データ分割部は、前記複数通りの次元の組み合わせに対応して、各々複数のクラスタを含む複数通りのデータ分割結果を出力し、
さらに、
前記データ分割結果に含まれる各クラスタにクラス番号を割り当て、前記多次元データに含まれる各データに前記クラス番号を付加するクラス番号付加部と、
前記多次元データにおける説明次元からクラス番号を予測する分類規則を生成する分類規則生成部と、
前記各クラスタに対応するモデルと、前記多次元データと、前記分類規則の精度および大きさの少なくともいずれかとから拡張評価値を計算する拡張評価値計算部と、
最も評価の高い拡張評価値を持つデータ分割結果を選択するデータ分割選択部と、
を備えたことを特徴とする請求項１ないし１５のいずれかに記載のデータ分割装置。
多次元データを分割するデータ分割装置であって、
多次元データを入力するデータ入力部と、
前記多次元データを分割する分割面の候補を複数生成する分割面候補作成部と、
前記分割面の候補によって前記多次元データを仮分割してクラスタを生成するデータ仮分割部と、
各前記クラスタの各々からモデルを生成するモデル生成部と、
前記多次元データに含まれる各データが、生成された各前記モデルのうちいずれに近いかによって前記各データをグルーピングすることにより新たなクラスタを生成するグルーピング部と、
各前記モデルと、各前記新たなクラスタとから評価値を計算する評価値計算部と、
各前記分割面の候補の各々に対応する評価値を比較し、最も高い評価を持つ評価値に対応するグルーピングを選択する分割候補選択部と、
を備えたデータ分割装置。
前記評価値計算部は、各前記新たなクラスタを前記モデル生成部に出力し、最後に計算した評価値を前記分割候補選択部に渡すことを特徴とする請求項１７に記載のデータ分割装置。
多次元データを分割するデータ分割方法であって、
前記多次元データを入力するステップと、
前記多次元データを分割する分割面の候補を複数生成するステップと、
前記分割面の候補によって前記多次元データを仮分割してクラスタを生成するステップと、
各前記クラスタの各々からモデルを生成するステップと、
生成した各前記モデルと、前記多次元データとから評価値を計算するステップと、
複数の前記分割面の候補の各々に対応する評価値を比較し、最も評価の高い分割面の候補を選択するステップと、
選択された前記分割面の候補によって前記多次元データを分割するステップと、
分割後の多次元データに対して前記分割面の候補を生成するステップから前記多次元データを分割するステップまでを行うステップと、
を備えた多次元データ分割方法。
多次元データを分割することをコンピュータに実行させるプログラムであって、
記憶装置から多次元データを読み出すステップと、
前記多次元データを分割する分割面の候補を複数生成するステップと、
前記分割面の候補によって前記多次元データを仮分割してクラスタを生成するステップと、
各前記クラスタの各々からモデルを生成するステップと、
生成した各前記モデルと、前記多次元データとから評価値を計算するステップと、
複数の前記分割面の候補の各々に対応する評価値を比較し、最も評価の高い分割面の候補を選択するステップと、
選択された前記分割面の候補によって前記多次元データを分割するステップと、
分割後の多次元データに対して前記分割面の候補を生成するステップから前記多次元データを分割するステップまでを行うステップと、
をコンピュータに実行させるためのプログラム。