JP2006330988A - データ分割装置、データ分割方法およびプログラム - Google Patents

データ分割装置、データ分割方法およびプログラム Download PDF

Info

Publication number
JP2006330988A
JP2006330988A JP2005152324A JP2005152324A JP2006330988A JP 2006330988 A JP2006330988 A JP 2006330988A JP 2005152324 A JP2005152324 A JP 2005152324A JP 2005152324 A JP2005152324 A JP 2005152324A JP 2006330988 A JP2006330988 A JP 2006330988A
Authority
JP
Japan
Prior art keywords
data
division
evaluation value
candidate
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2005152324A
Other languages
English (en)
Other versions
JP4509860B2 (ja
Inventor
Kazuto Kubota
和 人 久保田
Chie Morita
田 千 絵 森
Toshiaki Hatano
寿 昭 波田野
Akihiko Nakase
瀬 明 彦 仲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2005152324A priority Critical patent/JP4509860B2/ja
Priority to US11/385,738 priority patent/US7882050B2/en
Priority to CNB2006100845361A priority patent/CN100456281C/zh
Publication of JP2006330988A publication Critical patent/JP2006330988A/ja
Application granted granted Critical
Publication of JP4509860B2 publication Critical patent/JP4509860B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】 多次元データに内在する点同士の距離以外の傾向も適正に反映して、多次元データを複数のクラスタに分割する。
【解決手段】 本発明の一態様としてのデータ分割方法は、多次元データを入力するステップと、前記多次元データを分割する分割面の候補を複数生成するステップと、前記分割面の候補によって前記多次元データを仮分割してクラスタを生成するステップと、各前記クラスタの各々からモデルを生成するステップと、生成した各前記モデルと、前記多次元データとから評価値を計算するステップと、複数の前記分割面の候補の各々に対応する評価値を比較し、最も評価の高い分割面の候補を選択するステップと、選択された前記分割面の候補によって前記多次元データを分割するステップと、分割後の多次元データに対して前記分割面の候補を生成するステップから前記多次元データを分割するステップまでを行うステップと、を備える。
【選択図】 図2

Description

本発明は、n次元空間内の点の集合をデータ分割(クラスタリング)するデータ分割装置、データ分割方法およびプログラムに関する。
近年、プラントシステムは、プラントシステムを構成する個々の装置(測定対象物)に取り付けられたセンサの適正範囲を監視することによりプラントの異常を発見するよう構成されている場合がある。これは,センサ値の取るべき適正な範囲をあらかじめ設定し,適正範囲を外れた際に異常警告を出すものである.センサ数の増大によって適正範囲設定の自動化が望まれている。あるセンサ(以降、ターゲットセンサと呼ぶ)の適正範囲の設定には、関連して動く一つ以上の他のセンサ(以降、説明センサと呼ぶ)が利用できる。説明センサからターゲットセンサを予測するモデルを構築し、その予測値と実際の値が大きく異なる場合はターゲットセンサが異常値を示している可能性が高い。
予測モデルは、過去に収集されたターゲットセンサと説明センサの時系列データ(多次元データ)を用いることで作成できるが、一般には、この予測モデル構築は容易ではない。なぜなら、ターゲットセンサのとる値は、説明センサの値から一意に決まるわけではなく、プラントの運転状況にも依存するからである。この状況を発電所のセンサの例を用いて説明する。
縦軸にターゲットセンサ出力であるポンプの圧力、横軸に説明センサ出力である発電出力をとったプロットデータ(運転履歴データ)があるとする。ポンプは稼動している状態と稼働していない状態があり、ポンプが稼動している状態ではポンプの圧力は発電出力と比例し、ポンプが稼動していない状態ではポンプの圧力は低い一定値をとっているとする。これら2つの状態を区別せずにターゲットセンサの値を説明センサから予測するモデルを例えば回帰分析を用いて作ると、モデルの誤差が大きくなってしまう。望ましくは、ポンプの稼働状況に応じたモデルをそれぞれ生成することが望ましい。そのためには、上記運転履歴データにおいて点の集合を複数のグループに分離して、グループごとにモデルを作る必要がある。
平面上や空間上の点をグルーピングする手法としては、k-means法や凝集法がある。非特許文献1にこれらの手法に関する説明が記述されている。k-means法はあらかじめk個の初期点を選択し、残りのそれぞれの点はk個の点のうち最も近い点と同一グループであるとみなす。ここで、グループ毎に重心を計算し、それぞれの重心をk個の初期点とみなして再度グループ分けを繰り返す。一方、凝集法は、各点の全ての組み合わせのうち最も距離の近いものを一つのグループとみなす。グループ化した点の重心を一つの点とみなして同様の処理を、全ての点が一つのグループとなるまで繰り返す。なお、距離のとり方としてグループ間の点の最も近い点同士の距離を利用する方法や、最も遠い点同士の距離を利用する方法もある。
これらの手法は、基本的に近い点同士をグルーピングするというものであり、点同士の距離のみが考慮されていた。したがって、これらの手法では、上述した測定対象物の状態を適正に反映したグループ分け、すなわち多次元データに内在する、点同士の距離以外の傾向を反映したグループ分けを行うことはできない。
米国特許第6,581,058号 マイケルJ・A・ベリー、ゴードン・リノフ著、SASインスティチュート/江原淳、佐藤栄作共訳、「データマイニング手法」、海文堂、96〜118ページ
本発明は、多次元データに内在する点同士の距離以外の傾向も適正に反映して、多次元データを複数のクラスタに分割できるデータ分割装置、データ分割方法およびプログラムを提供するものである。
本発明の一態様としてのデータ分割装置は、多次元データを分割するデータ分割装置であって、多次元データを入力するデータ入力部と、前記多次元データを分割する分割面の候補を複数生成する分割面候補作成部と、前記分割面の候補によって前記多次元データを仮分割してクラスタを生成するデータ仮分割部と、各前記クラスタの各々からモデルを生成するモデル生成部と、生成した各前記モデルと、前記多次元データとから評価値を計算する評価値計算部と、複数の前記分割面の候補の各々に対応する評価値を比較し、最も評価の高い分割面の候補を選択する分割候補選択部と、選択された前記分割面の候補によって前記多次元データを分割するデータ分割部と、を備える。
本発明の一態様としてのデータ分割装置は、多次元データを分割するデータ分割装置であって、多次元データを入力するデータ入力部と、前記多次元データを分割する分割面の候補を複数生成する分割面候補作成部と、前記分割面の候補によって前記多次元データを仮分割してクラスタを生成するデータ仮分割部と、各前記クラスタの各々からモデルを生成するモデル生成部と、前記多次元データに含まれる各データが、生成された各前記モデルのうちいずれに近いかによって前記各データをグルーピングすることにより新たなクラスタを生成するグルーピング部と、各前記モデルと、各前記新たなクラスタとから評価値を計算する評価値計算部と、各前記分割面の候補の各々に対応する評価値を比較し、最も高い評価を持つ評価値に対応するグルーピングを選択するグルーピング選択部と、を備える。
本発明の一態様としてのデータ分割方法は、多次元データを分割するデータ分割方法であって、前記多次元データを入力するステップと、前記多次元データを分割する分割面の候補を複数生成するステップと、前記分割面の候補によって前記多次元データを仮分割してクラスタを生成するステップと、各前記クラスタの各々からモデルを生成するステップと、生成した各前記モデルと、前記多次元データとから評価値を計算するステップと、複数の前記分割面の候補の各々に対応する評価値を比較し、最も評価の高い分割面の候補を選択するステップと、選択された前記分割面の候補によって前記多次元データを分割するステップと、分割後の多次元データに対して前記分割面の候補を生成するステップから前記多次元データを分割するステップまでを行うステップと、を備える。
本発明の一態様としてのプログラムは、多次元データを分割することをコンピュータに実行させるプログラムであって、記憶装置から多次元データを読み出すステップと、前記多次元データを分割する分割面の候補を複数生成するステップと、前記分割面の候補によって前記多次元データを仮分割してクラスタを生成するステップと、各前記クラスタの各々からモデルを生成するステップと、生成した各前記モデルと、前記多次元データとから評価値を計算するステップと、複数の前記分割面の候補の各々に対応する評価値を比較し、最も評価の高い分割面の候補を選択するステップと、選択された前記分割面の候補によって前記多次元データを分割するステップと、分割後の多次元データに対して前記分割面の候補を生成するステップから前記多次元データを分割するステップまでを行うステップと、をコンピュータに実行させる。
本発明により、多次元データに内在する点同士の距離以外の傾向も適正に反映して、多次元データを複数のクラスタに分割できる。
まず、本発明の実施の形態の概要について簡単に説明する。
図4は、本発明の実施の形態の概要を説明するための図である。
プラント等の施設内に測定対象物21、22、23、24が配置されている。測定対象物21、22、23、24にはセンサx,y,z,wが設置されている。各センサx,y,z,wから時系列に取得されたデータ11、12、13、14は4次元、系列長nのデータ(多次元データ)として保存される(図5参照、ただし図5は2次元、系列長nのデータである)。センサx,y,z,wのうちの1つをターゲットセンサ、残りのセンサを説明センサとする。ここではセンサyをターゲットセンサ、センサx,z,wを説明センサとする。
本実施の形態は、例えばターゲットセンサの測定対象物の状態を反映させて多次元データをデータ分割(クラスタリング)できるような手法、すなわち多次元データに内在する点同士の距離以外の傾向を適正に反映したデータ分割を提供する。このデータ分割によって多次元データは複数のクラスタに適正に分割される。本実施の形態では、さらに各クラスタに対応するモデルもそれぞれ生成する。図4には、多次元データから2つのクラスタ15a、16aが生成され、さらに各クラスタからそれぞれモデル15b、16bが生成された例が示される。なおここでは説明センサとしてx,zのみが用いられている。
このようにして生成されたモデル15b、16bは、例えばターゲットセンサyの値が適正範囲にあるかをリアルタイムに判断するのに用いることができる。例えばある時点において取得したターゲットセンサのデータ17がクラスタ15a、16aのいずれに属するかをあらかじめ生成した分類規則に基づき判断する。ここではデータ17はクラスタ15aに属するとする。この場合、データ17をモデル15bに入力してモデル出力を求め、モデル出力とデータ17との差18を計算し、この差18が所定範囲に収まれば測定対象物は正常状態にあり、そうでなければ測定対象物は異常状態にあると判断する。
以下、本発明の実施の形態について詳細に説明する。
(第1の実施の形態)
図1は、本実施の形態に従ったデータ分割システムの構成を示すブロック図である。
このデータ分割システムは、CPU31、メモリ32、ハードディスク33および表示装置34を備える。ハードディスク33には本実施の形態を実現するプログラムが格納されている。またハードディスク33には、複数のセンサから時系列に取得されたデータが多次元データとして格納されている。CPU31は、ハードディスク33内のプログラムをメモリ32にロードして実行する。表示装置34は、CPU31による実行結果をユーザに表示する。
図2は、CPU31による処理内容を機能単位で示した機能ブロック図である。図3は、CPU31による処理の流れ示したフローチャートである。
図2のデータ分割装置はデータ入力部41、データ離散化部42、分割面候補作成部43,データ仮分割部44、モデル生成部45、評価値計算部46および分割候補選択部47およびデータ分割/分割終了判定部48を備える。
データ入力部41は多次元データをデータ離散化部42に入力する。多次元データの例を図5に示す。ここでは2次元、系列長nのデータが示される。次元数は2次元より多くてもよい。
データ離散化部42は、入力された多次元データを離散化する(Step1)。より詳細には以下の通りである。
x, yの各次元の要素を最小値と最大値を用いて0からl-mの整数に離散化する。ここでmはユーザが与えた任意の整数とする。例えば、x次元の最小値と最大値をxmin, xmaxとし、i番目のデータのx次元の値をxiとすると、離散化後のi番目のデータのx次元の値xdiは、xmin と xmax をm等分した区間のうち、xiが先頭から何番目の区間に入るかで決まる。以上の処理をy次元についても行う。以上の処理によりデータiの各次元の要素であるxi, yiは、それぞれ、xdi, ydi、(ただし0≦xdi≦m-1, 0≦ydi≦m-1、xdi, ydiは整数)へと離散化される。
図6は、入力データ(多次元データ)を離散化する様子を示す。左図が離散化前のデータ、右図が離散化後のデータ(マトリクス)を示す。この例は、多次元データが2次元であり、かつ、m=8の場合である。離散化前の2次元上の点(左図)は、離散化後の8x8のマトリクス(右図)におけるいずれかのマスにマッピングされる。例えば、離散化前のi番目のデータが離散化後にxdi=2, ydi=4になるならば、右図のマトリックスのx次元2、y次元4のマスが1加算される。なお、右図において空白はゼロを示す。同じマスに入る各データ(点)は各々、例えば当該同じマスの中心座標をもつものとして扱われる。
以降に説明する処理、および他の実施の形態での処理において、多次元データとしては、特に言及しない限り、離散化前および離散化後のどちらを用いてもよい。前者の場合、処理が高速になるが精度が低下し、逆に後者の場合、処理時間はかかるが精度が向上する。すなわち、離散化処理はStep2以降の処理の計算量を低減するために行うものであり本発明に必須ではない。
分割候補作成部43は、多次元データ(点集合)を2分割する分割面の候補として、各軸と直交する平面(2次元の場合は直線)の集合を求める(Step2)。
ここではデータ離散化部42により生成されたマトリクスにおける隣接する2つの区間の境界線を分割面とする。ここでは隣接する分割面の間隔は一定となるが、必ずしも一定で有る必要はない。分割面は各次元についてm-1個存在する。図7は、x次元を分割する直線の候補lx1〜lx7、y次元を分割する直線の候補ly1〜ly7を示す。
データ仮分割部44は、分割面候補作成部43によって求められた分割面で多次元データを2分割し、2つのクラスタを生成する(Step3)。図8はy次元と直交する直線ly4を用いて2つのクラスタA、Bを生成した例を示す。
モデル生成部45は、データ仮分割部44により得られた2つのクラスタA,BからそれぞれモデルA,Bを生成する(Step4)。すなわち、クラスタAに属する入力データを用いてモデルAを生成し、クラスタBに属する入力データを用いてモデルBを生成する。クラスタA、Bから生成されたモデルA、Bを図9に示す。モデルの生成には例えば回帰分析を用いることができる。すなわち、yをxで回帰する直線を求めることでモデルを生成できる。モデル生成には、回帰分析の他にも種々の手法を用いることができる。例えば主成分分析を用いても良い。
評価値計算部46は、モデル生成部45によって生成されたモデルと、入力データとから、上記分割に対する評価値を計算する(Step5)。より詳細には以下の通りである。
モデルを用いてxから推定したyと、実際のyとの差の絶対値をデータの誤差とする。クラスタA内の点についてはモデルAからの誤差を合計してモデルAの誤差を求め、クラスタB内の点についてはモデルBからの誤差を合計してモデルBの誤差を求め、両者を加算する。そして、加算結果を、クラスタA,Bに含まれる全体の点の数(データ数)で割った値を評価値とする。
また、評価値は以下のようにして求めてもよい。すなわち、yの推定値と実際のyの値との差を二乗したものを全ての点について加算し、加算結果を全ての点の数で割り、除算結果の平方根を取ったものを評価値とする。
なお、上記のモデルの生成において主成分分析を用いた場合、k次元の入力データを仮定すると、第k-1番目までの主成分で張られる面をモデルとし、モデルと点との距離を誤差とする。この後、回帰分析を用いた場合と同様にして評価値を計算する。
以上のStep3〜Step5を各分割面の候補についてそれぞれ行う。この結果、各分割面の候補についてそれぞれ評価値が計算される。
分割候補選択部47は、分割面の候補の数だけ生成された評価値の中から、最も評価の高い評価値(例えば最小の評価値)を持つ分割面の候補を選択する(Step6)。ただし、分割候補選択部47は、所定の終了条件が成立した場合は、分割面の候補を選択することなく、処理の終了を示す終了信号を出力する。所定の終了条件としては、例えば、最小の評価値があらかじめ設定した閾値を下回らなかった場合がある。
データ分割/分割終了判定部48は、分割候補選択部47により選択された分割面によって入力データ(点群)を分割し、新たなデータ集合を2つ生成する(Step7)。データ分割/分割終了判定部48は、新たに生成されたデータ集合のそれぞれについて、各機能部43〜47による処理(Step2〜Step7)を繰り返すために、各データ集合を分割面候補作成部43に出力する(Step8)。データ分割/分割終了判定部48は、繰り返し処理の終了を例えば以下のようにして決定する。
すなわち、データ分割/分割終了判定部48は分割面候補作成部43にデータ集合を送る際にデータ集合ごとにフラグを立てる。あるデータ集合について終了信号が入力された場合または分割を行った場合は、そのデータ集合のフラグを消去する。立てたフラグが全て消去された場合は処理の終了を決定する。ただし、図3に示すフローチャートの一巡目において終了信号が入力された場合はその時点で処理の終了を決定する。
以上に説明した処理によって、入力データは再帰的に二分割されて、クラスタが生成される。
以上のように、本実施の形態によれば、モデルからの誤差が最も小さくなる分割面を選択し選択した分割面でデータ分割(クラスタリング)することを再帰的に繰り返すようにしたため、多次元データに内在する点同士の距離以外の傾向を適正に反映しつつ、多次元データを複数クラスタに分割できる。例えば、プラントの各センサの適正な変動範囲を他のセンサの値を用いて推定するモデルを過去の運転履歴データから作成する際に、運転履歴データから運転状況が異なるデータを各々分離することが可能となる。
(第2の実施の形態)
本実施の形態では、評価値計算部46による評価値計算をより詳細に説明する。
第1の実施の形態に述べたように、分割面候補作成部43によって作成されたある分割面の候補(φiとする)によってデータはDAi, DBiに分割され(クラスタAi,Biが生成され)、各DAi, DBiに対して、モデルAi,Biおよび誤差error_Ai、error_Biが計算される。error_AiはDAiに属する各データの誤差の合計、error_Bi はDBiに属する各データの誤差の合計である。DAi, DBiのデータ数をそれぞれnum_Ai, num_Biとする。
ここで、DAi、DBiに対するモデル評価値error_adjust_Ai, error_adjust_Biを以下の式で計算する。
error_adjust_Ai = error_Ai − α × num_Ai + β
error_adjust_Bi = error_Bi − α × num_Bi + β
αは、例えば(分割前の誤差/分割前のデータ数)という値を使えばよい。βは分割の停止を決定するためのパラーメータである。
分割面の候補φiの評価値error_adjust_iは、モデル評価値error_adjust_Aiとerror_adjust_Biにそれぞれ重みを加えて加算したものでもよいし、error_adjust_Aiとerror_adjust_Biのうち値の小さい方をとってもよい。error_adjust_iが、閾値(例えばゼロ)以上の場合は分割面の候補φiを分割の候補として採用しない。
図10はerror_adjust_i = min( error_adjust_Ai, error_adjust_Bi ), α=(分割前の誤差/分割前のデータ数)としたときに、分割面の候補のうちのいずれの候補が選択されるのかを説明する図である。
図中の点は、分割面の候補φiによる分割によって生成されたクラスタAiまたはBiに対応するモデルAiまたはBiに相当する。すなわち1つの点が1つのモデルに対応する。従って1つの分割面の候補につき点が2つ生成される。縦軸はモデルの誤差(error_Ai, error_Bi)であり、横軸はデータ数(num_Ai, num_Bi)である。
ここで、モデルの誤差は小さい方がよく、同程度の値ならばクラスタに含まれるデータ数は多いほうが良いと考える。この基準に従うとグラフ内の点はなるべく右下にある方がよい。最もよい点を選ぶ基準を明確化するために、図10に示すような原点を通り傾きがαである基準直線を定める。この基準直線をこの直線に垂直な右下方向(すなわち縦軸マイナス方向)に動かしていき、最後に重なる点(モデル)に対応する評価値を採択する。この時の直線を最大評価値線と呼び、採択された評価値をもつ点を最大評価点と呼ぶ。
ここで、傾きαの基準直線を縦軸のマイナス方向にβ動かした直線を分割閾値線とする。最大評価値線が分割閾値線と同一またはこれの下側に来た場合は、最大評価点をもつ分割面の候補によってデータ分割を行う。一方、最大評価値線が分割閾値線の上側に来た場合は分割を中止する。すなわち、分割候補選択部47は終了信号を出力する。
以上のように、本実施の形態によれば、分割前の誤差や、分割の停止を決定するパラメータ等を用いて評価値を計算するようにしたため、分割面の候補を適正に選択することができる。
(第3の実施の形態)
本実施の形態では、第1の実施の形態に従って生成されたクラスタを結合(マージ)する処理を追加する。以下本実施の形態について詳細に説明する。
図21は、本実施の形態に従ったデータ分割装置の構成を概略的に示す機能ブロック図である。
要素41〜48は図2と同じである。要素43〜48による処理の段階は分割フェーズと称される。本実施の形態では、さらに結合候補生成部51、結合候補選択部52、モデル生成部53、マージ評価値計算部54およびデータ結合/結合終了判定部55を備え、これらの要素51〜55によって、分割フェーズの後に、結合フェーズを実行する。
図11は、ある入力データから要素43〜48による分割フェーズによって生成されたクラスタを示す。分割線が(1)、(2)、(3)の順に選択され、クラスタA,B,C,DおよびモデルA,B,C,Dが生成されたとする。この後、要素51〜55によって結合フェーズを実行する。より詳細には以下の通りである。
結合候補生成部51は、全ての組み合わせによりクラスタA、B、C、Dからクラスタのペアを生成する。この結果、(A,B)(A,C)(A,D)(B,C)(B,D)(C,D)の組(結合候補)がそれぞれ生成される。
結合候補選択部52は、生成された組を順次選択して、モデル生成部53に出力する。
モデル生成部53は、入力された各組について、当該組における点の集合に対するモデル生成を行う。
マージ評価値計算部54は、生成された各モデルについて、マージ評価値を計算する。マージ評価値は、例えばモデルの誤差とデータ数とモデルの数とを用いた関数により計算する。組(A,B)の場合、以下のようになる。モデルA, Bの誤差をerrro_A, error_B, データ数を num_A, num_Bとする。また、クラスタAとBを結合したときのモデルABの誤差をerror_AB, データ数を num_AB とする。errro_A, error_Bおよびerror_ABは、第1の実施の形態と同様にして計算可能である。そして、(num_A / num_AB) * error_A + (num_B/num_AB) * error_B + 1 * γと、 error_AB + 2 * γとの差をマージ評価値として求める。ここでγはユーザが与える定数であり、「1」および「2」はモデルの数を表す。
データ結合/結合終了判定部55は、マージ評価値が所定の基準を満たす場合は(例えば所定値以下である場合は)その組におけるクラスタ同士を結合する。あるクラスタが、所定の基準を満たす複数の組に属する場合は、マージ評価値のより低い方の組を優先する。
本例では、前述の通り、(A, B)、(A,C)、(A,D)、(B,C)、(B,D)、(C,D)の6通りの組が存在する。(A、C)、(B、D)に対するマージ評価値が上記所定を満たし、この結果、データ結合/結合終了判定部55は、クラスタAとCとを結合してクラスタEを生成し、また、クラスタBとDとを結合してクラスタFを生成する。この様子を図12に示す。
データ結合/結合終了判定部55は、生成したクラスタ(ここではE、F)および結合されなかったクラスタ(本例では存在しない)を結合候補生成部51に出力する。これらのクラスタについて、上述の処理が繰り返される。組(E,F)から計算されたマージ評価値は所定の基準を満たさないため、データ結合/結合終了判定部55には、クラスタE,Fの結合を行うことなく、処理を終了する。すなわち、最終的にクラスタE、Fが残る。
なお、結合候補生成部51において、クラスタの組は隣接するクラスタのみでもよく、この場合には組の数が少なくて済む。
以上のように本実施の形態によればクラスタを結合するようにしたためクラスタ数が不必要に増加することを阻止できる。
(第4の実施の形態)
図22は、本実施の形態に従ったデータ分割装置の構成を概略的に示すブロック図である。
まず、第1の実施の形態と同様に、データ入力部61およびデータ離散化部62による処理を行う。以降の処理では、多次元データとして、離散化前および離散化後のどちらを用いてもよい。前者の場合、処理が高速になるが精度が低下し、逆に後者の場合、処理時間はかかるが精度が向上する。
次に、分割面候補作成部63による処理を行い、この後、データ仮分割部64において、ある分割線の候補lで入力データを2つのクラスタA,Bに分割する。次いでモデル生成部65においてクラスタA,BからモデルA,Bを生成する。この様子を図13に示す。
ここで、グルーピング部66は、各点(入力データ)をモデルからの距離で再グルーピングする。モデルAに近い点はクラスタA、モデルBに近い点はクラスタBに属するとする。この様子を図14に示す。
評価値計算部67は再グルーピング後のクラスタA、Bと、モデルA、Bとに基づいて、第1または第2の実施の形態と同様にして、評価値を計算し、計算した評価値を分割候補選択部68に出力する。
分割候補選択部68は、全ての分割線の候補について評価値を受け取ったら、この中から評価値の最も良い分割線の候補および評価値をデータ分割/分割終了判定部69に出力する。データ分割/分割終了判定部69は、入力された評価値がユーザによって定められた基準値を満たせば処理を終了し、基準値を満たさなければ、分割線の候補から作成されたグループを分割面候補作成部63に渡す。以上の説明において、モデル生成部65、グルーピング部66および評価値計算部67による処理を繰り返し行ってもよい。すなわち、モデル生成部65およびグルーピング部66において、再度、モデル生成とグルーピングとを行い、評価値計算部67において評価値を計算する。評価値が改善しなくなるまですなわち評価値の変動が一定値以下になるまで処理を繰り返してもよいし、一定回数処理繰り返してもよい。
(第5の実施の形態)
第5の実施の形態では、図2の分割候補選択部47によって選択された分割線(分割面)をオフセットさせて、より高い評価をもつ分割線を探す。以下本実施の形態について詳細に説明する。
ある入力データに対し、分割候補選択部47によって、分割線lが選択されたとする。ここで、分割線lに隣接する分割線をl-とl+とし、分割候補選択部47が、これらの線l-とl+の間に新たな分割線の候補を作成する。新たな分割線の候補の作り方としては、単純にl-とl+との間を等分したものでもよいし、l-とl+との間に含まれる点を各々分割するようなものでもよい。l-とl+との間に含まれる6点を各々分割する線を引いた例を図15に示す。なお、この処理またはこの処理より後の処理において、離散化後のデータを用いる場合は、l-とl+との間のデータを再度離散化する必要がある。この後、これら新しい分割線を分割線の候補として、データ仮分割部44、モデル生成部45および評価値計算部46による処理を再度行う。すなわち、分割候補選択部47は、新たな分割線の候補をデータ仮分割部44に出力して、評価値計算部46から新たな分割線の候補に対応する評価値を取得する。分割候補選択部47は、分割線lおよび新たな分割線の候補のうち最も評価が高いものを分割線として選択する。
以上のように本実施の形態によれば分割線を隣接する分割線の範囲内でオフセットさせるようにしたため、分割線の間隔に依らずにデータ分割を行うことが可能となる。
(第6の実施の形態)
本実施の形態では、利用する次元の組み合わせを変えながらデータ分割(クラスタリング)を行う。以下本実施の形態について詳細に説明する。
4次元の入力データの例を図16に示す。ここで、ある一つの次元をターゲット次元と呼びあらかじめ与えておく。図16においてy次元がターゲット次元であるとする。残りの次元を説明次元と呼ぶことにする。処理に先立って利用する次元数を規定する。ここでは3次元であるものとする。
まず、説明次元から2つの次元を選び、選択した2つの次元とターゲット次元とをあわせた3次元系列を考える。一般に利用する次元数がk次元の時はk-1次元を説明次元から選ぶことになる。x,z次元とy次元とからなる系列を選らぶと図17のようになる。このデータに対して、図2の装置において、図3のStep 1〜Step 5までの処理を1回適用する。Step4でモデルを生成する際は、ターゲット次元を被説明変数としたモデルを生成する。同様の処理をx,y,wおよびy,z,w次元の組み合わせについても行う。この結果、分割面候補作成部43は、 (x,y,z)(x,y,w)(y,z,w)のそれぞれについて複数の分割面の候補を生成し、分割候補選択部47は、(x,y,z)(x,y,w)(y,z,w)の各々について分割面の候補を1つ選択する。この後、分割候補選択部47は、これらの中から最も高い評価をもつ次元の組み合わせを特定し、特定した組み合わせに対応する分割面の候補を採択する。そして、データ分割/分割終了判定部48はこの分割面でデータ分割を行う。以上の処理を再帰的に繰り返す。
なお、説明次元を固定説明次元と追加説明次元という2つに分けてもよい。固定説明次元とはデータ分割時に必ず利用される次元で、追加説明次元とは処理中に選択される次元である。例えば、y次元をターゲット次元、x次元を固定説明次元とし、zとwを追加説明次元とすると上記の処理は、x, y, z次元の組み合わせと、x, y, wの組み合わせについて行われることになる。
以上のように、本実施の形態によれば、データ分割に利用する説明次元数が少数に制限されている場合において、精度の高いモデルを生成できるデータ分割を行うことが可能となる。
(第7の実施の形態)
本実施の形態では、第1の実施の形態をベースに、評価値計算部46による評価値計算に改良を加える。本実施の形態における評価値計算部71の詳細構成を図23に示す。評価値計算部71は、決定木生成用データ入力部72、クラス番号付与部73、決定木生成部74および拡張評価値計算部75を備える。評価値計算部以外の構成は図2と同様である。以下本実施の形態について詳細に説明する。
本実施の形態において、データ分割、および分割面の評価で用いる次元は入力データの次元の全部でもよいし一部でもよい。またデータ分割、および分割面の評価で利用する次元は同じでもよいし異なっていてもよい。
ここでは、入力データは4次元とし、データ分割にはx,y,zの3次元、分割面の評価にはx,y,z,wの4次元を用いることにする。ここで、ある一つの次元をターゲット次元と呼びあらかじめ与えておく。ここでは、y次元がターゲット次元であるとする。残りの次元を説明次元と呼ぶことにする。
まず、第1の実施の形態に従って、データ離散化部42、分割面候補作成部43、データ仮分割部44およびモデル生成部45において、x, y, z次元データを処理する。
評価値計算部71におけるクラス番号付与部73は、各クラスタに番号を割り振る。これをクラス番号と呼ぶ。生成されたクラスタの例を図18に示す。また、クラス番号付与部73は、入力データ1からnにそれぞれクラス番号を割り振る。クラス番号が振られたデータを図19に示す。各データの一番右側に付された0,1がクラス番号である。以上の処理を各分割面の候補について行う。
評価値計算部71における決定木生成部(分類規則生成部)74は、入力データの次元のうちターゲット次元yを除いた次元(すなわち説明次元)を属性とし、クラス番号をクラスとする決定木(分類規則)を生成する。図19のデータから生成された決定木の一例を図20に示す。決定木の生成においては、データ分割に用いた以外のデータを利用してもよく、この場合は、決定木生成用データ入力部72から決定木生成部74に当該データを供給する。決定木生成部74において、各分割面の候補の各々に対応する決定木が生成される。
評価値計算部71における拡張評価値計算部75では、第1の実施の形態と同様に各分割面の候補についてそれぞれ評価値eを計算し、さらに各分割面の候補に対応する決定木の精度pや、木の深さd(図20の場合、大きさは1)といった値も計算する。そして、これらの値p,dを用いて評価値eを修正して拡張評価値を計算する。例えば、拡張評価値をe + r × p + s × dによって計算する。ただし、rとsは重み付けの係数である。
評価値計算部71の次段の分割候補選択部47(図2参照)では、この拡張評価値を利用して分割面の候補の選択を行う。例えば最も値の小さい評価値をもつ分割面の候補を選択する。
以上のように、本実施の形態によれば、分類規則の精度や深さといった要素も考慮して評価値を計算するため、分割面の候補を適正に選択できる。
(第8の実施の形態)
本実施の形態は、前述した各実施の形態のいずれかの処理を、複数通りの次元の組み合わせについて行って、各次元の組み合わせからそれぞれモデルを生成する。そして各次元の組み合わせに対応するモデルをそれぞれ評価し、最も評価の高いモデルに対応するデータ分割を採用する。以下、本実施の形態について詳細に説明する。
図24は、本実施の形態に従ったデータ分割装置の構成を概略的に示すブロック図である。
要素81は、複数のデータ分割装置A、B、C・・・を示す。データ分割装置A、B、C・・・は、第1〜第7の実施の形態のいずれかのデータ分割装置である。例えばデータ分割装置A、B、C・・・は各々第1の実施の形態のデータ分割装置であり、あるいは、データ分割装置A、B、C・・・は各々第2の実施の形態のデータ分割装置である。ただし、データ分割装置A、B、C・・・はデータ入力部を含まず、本実施の形態ではデータ分割装置A、B、C・・・に共通のデータ入力部82が配置される。
データ入力部82からデータ分割装置A、B、C・・・へ与えられる入力データは同一であるとし、またターゲット次元もデータ分割装置A、B、C・・・において同一であるとする。ただし、データ分割に利用する次元は各データ分割装置で異なるとする。例えばターゲット次元をyとすると、データ分割装置A、B、C・・・は、それぞれ(x,y,z) (x,y,w) (z,y,w)をデータ分割に利用する。データ分割装置A,B,C・・・は、処理の結果、それぞれモデルA,B,C・・・と、データ分割候補A,B,C・・・とを出力する。データ分割候補Aはデータ分割結果としての複数のクラスタを含み、モデルAは各クラスタに対応するモデルの集合である。同様に、データ分割候補Bはデータ分割結果としての複数のクラスタを含み、モデルBは各クラスタに対応するモデルの集合である。データ分割候補Cはデータ分割結果としての複数のクラスタを含み、モデルCは各クラスタに対応するモデルの集合である。
クラス番号付加部83は、データ分割候補A,B,C・・・の各々に含まれる各クラスタに対しクラス番号を付与する。また、クラス番号付加部83は、入力データに含まれる各データにクラス番号を付与する。
決定木生成部84は、データ分割候補A,B,C・・・の各々について、ターゲット次元を除く次元(すなわち説明次元)を属性とし、クラス番号をクラスとする決定木A,B,C・・・を生成する。決定木の生成のために用いるデータは、データ分割に用いたデータと同じデータでもよいし、データ分割に用いたデータと異なるデータでもよい。後者の場合、決定木生成用データ入力部87からデータを決定木生成部84に供給する。
拡張評価値計算部85は、モデルA,B,C・・・の各々について、決定木A,B,C・・・を用いて、第7の実施の形態で示した値e, p, dに基づく拡張評価値を計算する。
最良データ分割選択部86は、各拡張評価値の中で最も高い評価を有するデータ分割候補を選択する。
以上の説明では、複数のデータ分割装置A,B,C・・・を用いたが、これに代えて、単一のデータ分割装置を用い、使用する次元の組み合わせを代えながら、繰り返し処理を行ってもよい。すなわち、各回において入力データは共通かつターゲット次元を共通としつつも、データ分割に利用する次元の組み合わせを各回において変える。
また、以上の説明では、データ分割装置A,B,C・・・に与える入力データを同じとしたが各データ分割装置A,B,C・・・にそれぞれ異なる入力データを与えてもよい。また、この場合、各データ分割装置A,B,C・・・において、データ分割に使用する次元は同一であってもよい。
以上のように、本実施の形態によれば、データ分割に利用する説明次元数が少数に制限されている場合において、精度の高いモデルを生成可能なデータ分割候補を決定できる。
本発明の実施の形態に従ったデータ分割システムの構成を示す。 データ分割装置の機能ブロック図である。 データ分割装置による処理の処理の流れ示したフローチャートである。 本発明の実施の形態の概要を説明するための図である。 2次元の入力データの例を示す。 離散化前のデータと離散化後のデータを表す。 分割線の候補を表す。 分割線による分割によって生成されたクラスタを表す。 クラスタごとに生成されたモデルを示す。 複数のデータ分割の中から最良のデータ分割を選ぶ手法の例を示す。 4つのクラスタおよび各クラスタから生成されたモデルを表す。 クラスタが結合された様子を表す。 2つのクラスタおよび各クラスタから生成されたモデルを表す。 モデルからの距離に応じてクラスタを作り直すことを説明する図である。 新たな分割線の候補を発生させた様子を示す。 4次元の入力データの例を示す。 図16のデータから3次元のデータを抽出した例を示す。 クラスタにクラス番号を振った例を示す。 データにクラス番号を振った例を示す。 決定木の例を示す。 本発明の第3の実施の形態に従ったデータ分割装置の機能ブロック図である。 本発明の第4の実施の形態に従ったデータ分割装置の機能ブロック図である。 本発明の第7の実施の形態における評価値計算部の詳細構成を示すブロック図である。 本発明の第8の実施の形態に従ったデータ分割装置の機能ブロック図である。
符号の説明
21〜24:測定対象物
11〜14:時系列データ
15a、16a:クラスタ
15b、16b:モデル
17:データ
18:差
31:CPU
32:メモリ
33:ハードディスク
34:表示装置
41、61、82:データ入力部
42、62:データ離散化部
43、63:分割面候補作成部
44、64:データ仮分割部
45、65:モデル生成部
46、67、71:評価値計算部
47、68:分割候補選択部
48、69:データ分割/分割終了判定部
51:結合候補生成部
52:結合候補選択部
53:モデル生成部
54:マージ評価値計算部
55:データ結合/結合終了判定部
66:グルーピング部
72、87:決定木生成用データ入力部
73、83:クラス番号付与部
74、84:決定木生成部
75、85:拡張評価値計算部
81:データ分割装置
86:最良データ分割選択部

Claims (20)

  1. 多次元データを分割するデータ分割装置であって、
    多次元データを入力するデータ入力部と、
    前記多次元データを分割する分割面の候補を複数生成する分割面候補作成部と、
    前記分割面の候補によって前記多次元データを仮分割してクラスタを生成するデータ仮分割部と、
    各前記クラスタの各々からモデルを生成するモデル生成部と、
    生成した各前記モデルと、前記多次元データとから評価値を計算する評価値計算部と、
    複数の前記分割面の候補の各々に対応する評価値を比較し、最も評価の高い分割面の候補を選択する分割候補選択部と、
    選択された前記分割面の候補によって前記多次元データを分割するデータ分割部と、
    を備えたデータ分割装置。
  2. 前記データ分割部は、分割後の各多次元データを前記分割面候補作成部に出力し、前記分割候補選択部は、最も高い評価を持つ評価値が所定の継続条件を満たさない場合は、処理の終了を示す信号を出力することを特徴とする請求項1に記載のデータ分割装置。
  3. 前記データ入力部によって入力された前記多次元データを離散化するデータ離散化部をさらに備え、
    前記分割面候補作成部、前記データ仮分割部、前記モデル生成部、前記評価値計算部および前記データ分割部の少なくともいずれかは、離散化後の多次元データを対象とすることを特徴とする請求項1または2に記載のデータ分割装置。
  4. 前記評価値計算部は、前記生成した各モデルと、前記生成した各モデルの各々に対応するクラスタと、前記多次元データに含まれるデータの数とから前記評価値を計算することを特徴とする請求項1ないし3のいずれかに記載のデータ分割装置。
  5. 前記評価値計算部は、
    前記生成した各モデルと、前記生成した各モデルの各々に対応するクラスタとから前記各モデルの誤差を計算し、
    前記多次元データに対応するモデルの誤差を、前記多次元データに含まれるデータの数によって除算し、
    計算した前記各モデルの誤差と、除算結果と、前記各モデルに対応するデータの数とから、前記各モデルのモデル評価値を計算し、
    前記各モデル評価値から前記評価値を計算する、
    ことを特徴とする請求項1ないし3に記載のデータ分割装置。
  6. 前記評価値計算部は、計算した前記各モデルの誤差から、前記除算結果と前記各モデルに対応するデータの数とを乗算したものと、所定のパラメータ値とを減算することにより前記各モデル評価値を計算することを特徴とする請求項5に記載のデータ分割装置。
  7. 前記評価値計算部は、前記各モデル評価値のうち最も小さいものを前記評価値とすることを特徴とする請求項5または6に記載のデータ分割装置。
  8. 前記データ分割部による分割によって最終的に生成されたクラスタからクラスタの組み合わせを結合候補として複数生成する結合候補生成部と、
    前記結合候補を選択する結合候補選択部と、
    前記結合候補からモデルを生成するさらなるモデル生成部と、
    前記さらなるモデル生成部によって生成されたモデルの誤差を計算し、前記結合候補に含まれる各クラスタに対応するモデルの誤差に基づく演算値と、前記さらなるモデル生成部によって生成されたモデルの誤差に基づく演算値との差をマージ評価値として計算するマージ評価値計算部と、
    前記マージ評価値が所定の結合基準を満たす場合は前記マージ評価値に対応する前記結合候補に含まれる各クラスタを結合して新たなクラスタを生成する結合部と、
    をさらに備えたことを特徴とする請求項1ないし7のいずれかに記載のデータ分割装置。
  9. 前記分割候補選択部は、
    選択した分割面の候補と、前記選択した分割面の候補に隣接する分割面の候補との間に新たな分割面の候補を生成し、生成した前記新たな分割面の候補を前記データ仮分割部に出力し、
    前記選択した分割面の候補に対応する評価値、および前記新たな分割面の候補に対応する評価値を比較し、最も高い評価を有する分割面の候補を選択することを特徴とする請求項1ないし8のいずれかに記載のデータ分割装置。
  10. 前記分割候補選択部は、前記選択した分割面の候補と、前記隣接する分割面の候補との間に含まれるデータを各々分離するように前記新たな分割面の候補を生成することを特徴とする請求項9に記載のデータ分割装置。
  11. 前記分割面候補作成部は、各々共通のターゲット次元を含む複数通りの次元の組み合わせのそれぞれについて前記分割面の候補を複数生成し、ここにおいて前記ターゲット次元はモデル生成時に被説明変数となる次元であり、
    前記分割候補選択部は、各前記次元の組み合わせからそれぞれ選択した分割面の候補のうち、最も高い評価を有する分割面の候補を採択することを特徴とする請求項1ないし10のいずれかに記載のデータ分割装置。
  12. 各前記次元の組み合わせには、前記ターゲット次元以外に、1以上の同一の次元が含まれることを特徴とする請求項11に記載のデータ分割装置。
  13. 前記評価値計算部は、
    仮分割後の各クラスタにクラス番号を割り当て、前記多次元データに含まれる各データに前記クラス番号を付与するクラス番号付与部と、
    前記多次元データにおける説明次元からクラス番号を予測する分類規則を生成する分類規則生成部と、
    前記分類規則の精度および大きさの少なくともいずれかと前記評価値とから拡張評価値を計算する拡張評価値計算部と、
    を有し、
    前記分割候補選択部は、前記評価値に代えて、前記拡張評価値を用いることを特徴とする請求項1ないし12のいずれかに記載のデータ分割装置。
  14. 前記拡張評価値計算部は、前記分類規則の精度に第1の重み付け係数を乗算した値と、前記分類規則の大きさに第2の重み付け係数を乗算した値とを、前記評価値に加算することにより前記拡張評価値を計算することを特徴とする請求項13に記載のデータ分割装置。
  15. 前記分類規則は決定木であることを特徴とする請求項13または14に記載のデータ分割装置。
  16. 前記分割面候補作成部は、各々共通のターゲット次元を含む複数通りの次元の組み合わせのそれぞれについて前記分割面の候補を複数生成し、この結果、前記データ分割部は、前記複数通りの次元の組み合わせに対応して、各々複数のクラスタを含む複数通りのデータ分割結果を出力し、
    さらに、
    前記データ分割結果に含まれる各クラスタにクラス番号を割り当て、前記多次元データに含まれる各データに前記クラス番号を付加するクラス番号付加部と、
    前記多次元データにおける説明次元からクラス番号を予測する分類規則を生成する分類規則生成部と、
    前記各クラスタに対応するモデルと、前記多次元データと、前記分類規則の精度および大きさの少なくともいずれかとから拡張評価値を計算する拡張評価値計算部と、
    最も評価の高い拡張評価値を持つデータ分割結果を選択するデータ分割選択部と、
    を備えたことを特徴とする請求項1ないし15のいずれかに記載のデータ分割装置。
  17. 多次元データを分割するデータ分割装置であって、
    多次元データを入力するデータ入力部と、
    前記多次元データを分割する分割面の候補を複数生成する分割面候補作成部と、
    前記分割面の候補によって前記多次元データを仮分割してクラスタを生成するデータ仮分割部と、
    各前記クラスタの各々からモデルを生成するモデル生成部と、
    前記多次元データに含まれる各データが、生成された各前記モデルのうちいずれに近いかによって前記各データをグルーピングすることにより新たなクラスタを生成するグルーピング部と、
    各前記モデルと、各前記新たなクラスタとから評価値を計算する評価値計算部と、
    各前記分割面の候補の各々に対応する評価値を比較し、最も高い評価を持つ評価値に対応するグルーピングを選択する分割候補選択部と、
    を備えたデータ分割装置。
  18. 前記評価値計算部は、各前記新たなクラスタを前記モデル生成部に出力し、最後に計算した評価値を前記分割候補選択部に渡すことを特徴とする請求項17に記載のデータ分割装置。
  19. 多次元データを分割するデータ分割方法であって、
    前記多次元データを入力するステップと、
    前記多次元データを分割する分割面の候補を複数生成するステップと、
    前記分割面の候補によって前記多次元データを仮分割してクラスタを生成するステップと、
    各前記クラスタの各々からモデルを生成するステップと、
    生成した各前記モデルと、前記多次元データとから評価値を計算するステップと、
    複数の前記分割面の候補の各々に対応する評価値を比較し、最も評価の高い分割面の候補を選択するステップと、
    選択された前記分割面の候補によって前記多次元データを分割するステップと、
    分割後の多次元データに対して前記分割面の候補を生成するステップから前記多次元データを分割するステップまでを行うステップと、
    を備えた多次元データ分割方法。
  20. 多次元データを分割することをコンピュータに実行させるプログラムであって、
    記憶装置から多次元データを読み出すステップと、
    前記多次元データを分割する分割面の候補を複数生成するステップと、
    前記分割面の候補によって前記多次元データを仮分割してクラスタを生成するステップと、
    各前記クラスタの各々からモデルを生成するステップと、
    生成した各前記モデルと、前記多次元データとから評価値を計算するステップと、
    複数の前記分割面の候補の各々に対応する評価値を比較し、最も評価の高い分割面の候補を選択するステップと、
    選択された前記分割面の候補によって前記多次元データを分割するステップと、
    分割後の多次元データに対して前記分割面の候補を生成するステップから前記多次元データを分割するステップまでを行うステップと、
    をコンピュータに実行させるためのプログラム。
JP2005152324A 2005-05-25 2005-05-25 データ分割装置、データ分割方法およびプログラム Expired - Fee Related JP4509860B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2005152324A JP4509860B2 (ja) 2005-05-25 2005-05-25 データ分割装置、データ分割方法およびプログラム
US11/385,738 US7882050B2 (en) 2005-05-25 2006-03-22 Data division apparatus, data division method and program
CNB2006100845361A CN100456281C (zh) 2005-05-25 2006-05-25 数据划分设备和数据划分方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005152324A JP4509860B2 (ja) 2005-05-25 2005-05-25 データ分割装置、データ分割方法およびプログラム

Publications (2)

Publication Number Publication Date
JP2006330988A true JP2006330988A (ja) 2006-12-07
JP4509860B2 JP4509860B2 (ja) 2010-07-21

Family

ID=37443638

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005152324A Expired - Fee Related JP4509860B2 (ja) 2005-05-25 2005-05-25 データ分割装置、データ分割方法およびプログラム

Country Status (3)

Country Link
US (1) US7882050B2 (ja)
JP (1) JP4509860B2 (ja)
CN (1) CN100456281C (ja)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008250605A (ja) * 2007-03-30 2008-10-16 Sony Corp コンテンツ管理装置、画像表示装置、撮像装置、および、これらにおける処理方法ならびに当該方法をコンピュータに実行させるプログラム
WO2008126209A1 (ja) * 2007-03-27 2008-10-23 Fujitsu Limited 重回帰分析による予測モデルの作成方法、作成装置、作成プログラム
JP2012230703A (ja) * 2012-07-19 2012-11-22 Hitachi Ltd 異常検知方法及びシステム
US8630962B2 (en) 2008-10-09 2014-01-14 Hitachi, Ltd. Error detection method and its system for early detection of errors in a planar or facilities
JP2016114987A (ja) * 2014-12-11 2016-06-23 株式会社東芝 情報処理装置、情報処理方法及びプログラム
JP2016224805A (ja) * 2015-06-02 2016-12-28 富士通株式会社 データ分類装置、データ分類プログラム及びデータ分類方法
WO2017002190A1 (ja) * 2015-06-30 2017-01-05 株式会社日立製作所 データの管理装置及びデータの管理方法
JP2017138866A (ja) * 2016-02-05 2017-08-10 富士通株式会社 情報処理装置、データ比較方法、およびデータ比較プログラム
JP2018032210A (ja) * 2016-08-24 2018-03-01 富士通株式会社 設計予測装置、設計予測プログラムおよび設計予測方法
JP2019040536A (ja) * 2017-08-28 2019-03-14 株式会社日立製作所 指標選択装置及びその方法
JP2020087465A (ja) * 2018-11-16 2020-06-04 ソニー株式会社 情報処理装置、情報処理方法及びプログラム
WO2020189706A1 (ja) * 2019-03-20 2020-09-24 株式会社日立産業制御ソリューションズ クラスタ分割評価装置、クラスタ分割評価方法及びクラスタ分割評価プログラム
JP7388970B2 (ja) 2020-04-06 2023-11-29 ファナック株式会社 ロボットシステム

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI464604B (zh) * 2010-11-29 2014-12-11 Ind Tech Res Inst 資料分群方法與裝置、資料處理裝置及影像處理裝置
US10853828B2 (en) * 2011-02-28 2020-12-01 Flytxt B.V Methods and systems for providing multivariate time series clustering for customer segmentation
EP3017589B1 (en) 2013-07-02 2018-08-08 Family Systems, Limited System for improving audio conferencing services
US9412040B2 (en) * 2013-12-04 2016-08-09 Mitsubishi Electric Research Laboratories, Inc. Method for extracting planes from 3D point cloud sensor data
CN109716251A (zh) * 2016-09-15 2019-05-03 三菱电机株式会社 运转状态分类装置
EP3830673A4 (en) 2018-07-27 2022-05-04 Magic Leap, Inc. REDUCING POSE SPACE DIMENSIONALITY FOR POSE SPACE DEFORMATION OF A VIRTUAL CHARACTER
CN114439473A (zh) * 2020-11-03 2022-05-06 中国石油天然气股份有限公司 油田开发阶段的划分处理方法及装置
CN113377843A (zh) * 2021-06-21 2021-09-10 国网宁夏电力有限公司电力科学研究院 一种基于能源大数据的数据分析系统
CN117892231B (zh) * 2024-03-18 2024-05-28 天津戎军航空科技发展有限公司 一种碳纤维弹匣生产数据智能管理方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002278762A (ja) * 2001-03-19 2002-09-27 Nippon Steel Corp データクラスタリング方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5335291A (en) * 1991-09-20 1994-08-02 Massachusetts Institute Of Technology Method and apparatus for pattern mapping system with self-reliability check
US5444796A (en) * 1993-10-18 1995-08-22 Bayer Corporation Method for unsupervised neural network classification with back propagation
US6581058B1 (en) 1998-05-22 2003-06-17 Microsoft Corporation Scalable system for clustering of large databases having mixed data attributes
US6397166B1 (en) * 1998-11-06 2002-05-28 International Business Machines Corporation Method and system for model-based clustering and signal-bearing medium for storing program of same
JP2005050226A (ja) * 2003-07-31 2005-02-24 Kokusai Kogyo Co Ltd 住所データマッチング処理システム及びマッチング処理方法
CN1588361A (zh) * 2004-09-09 2005-03-02 复旦大学 一种表达数据挖掘流程的方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002278762A (ja) * 2001-03-19 2002-09-27 Nippon Steel Corp データクラスタリング方法

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008126209A1 (ja) * 2007-03-27 2008-10-23 Fujitsu Limited 重回帰分析による予測モデルの作成方法、作成装置、作成プログラム
JPWO2008126209A1 (ja) * 2007-03-27 2010-07-22 富士通株式会社 重回帰分析による予測モデルの作成方法、作成装置、作成プログラム
KR101109913B1 (ko) 2007-03-27 2012-03-13 후지쯔 가부시끼가이샤 중회귀 분석에 의한 예측 모델의 작성 방법, 작성 장치, 작성 프로그램을 기록한 기록 매체
US8255342B2 (en) 2007-03-27 2012-08-28 Fujitsu Limited Method, apparatus, and program for generating prediction model based on multiple regression analysis
JP5071475B2 (ja) * 2007-03-27 2012-11-14 富士通株式会社 重回帰分析による予測モデルの作成方法、作成装置、作成プログラム
JP2008250605A (ja) * 2007-03-30 2008-10-16 Sony Corp コンテンツ管理装置、画像表示装置、撮像装置、および、これらにおける処理方法ならびに当該方法をコンピュータに実行させるプログラム
US8189928B2 (en) 2007-03-30 2012-05-29 Sony Corporation Content management apparatus, image display apparatus, image pickup apparatus, processing method and program for causing computer to execute processing method
TWI395107B (zh) * 2007-03-30 2013-05-01 Sony Corp 內容管理裝置、影像顯示裝置、影像拾訊裝置、處理方法、及使電腦執行處理方法之程式
US8630962B2 (en) 2008-10-09 2014-01-14 Hitachi, Ltd. Error detection method and its system for early detection of errors in a planar or facilities
JP2012230703A (ja) * 2012-07-19 2012-11-22 Hitachi Ltd 異常検知方法及びシステム
JP2016114987A (ja) * 2014-12-11 2016-06-23 株式会社東芝 情報処理装置、情報処理方法及びプログラム
JP2016224805A (ja) * 2015-06-02 2016-12-28 富士通株式会社 データ分類装置、データ分類プログラム及びデータ分類方法
WO2017002190A1 (ja) * 2015-06-30 2017-01-05 株式会社日立製作所 データの管理装置及びデータの管理方法
JP2017138866A (ja) * 2016-02-05 2017-08-10 富士通株式会社 情報処理装置、データ比較方法、およびデータ比較プログラム
JP2018032210A (ja) * 2016-08-24 2018-03-01 富士通株式会社 設計予測装置、設計予測プログラムおよび設計予測方法
JP2019040536A (ja) * 2017-08-28 2019-03-14 株式会社日立製作所 指標選択装置及びその方法
JP2020087465A (ja) * 2018-11-16 2020-06-04 ソニー株式会社 情報処理装置、情報処理方法及びプログラム
JP7392411B2 (ja) 2018-11-16 2023-12-06 ソニーグループ株式会社 情報処理装置、情報処理方法及びプログラム
WO2020189706A1 (ja) * 2019-03-20 2020-09-24 株式会社日立産業制御ソリューションズ クラスタ分割評価装置、クラスタ分割評価方法及びクラスタ分割評価プログラム
JP2020154825A (ja) * 2019-03-20 2020-09-24 株式会社 日立産業制御ソリューションズ クラスタ分割評価装置、クラスタ分割評価方法及びクラスタ分割評価プログラム
JP7388970B2 (ja) 2020-04-06 2023-11-29 ファナック株式会社 ロボットシステム

Also Published As

Publication number Publication date
JP4509860B2 (ja) 2010-07-21
CN100456281C (zh) 2009-01-28
CN1869971A (zh) 2006-11-29
US20060269144A1 (en) 2006-11-30
US7882050B2 (en) 2011-02-01

Similar Documents

Publication Publication Date Title
JP4509860B2 (ja) データ分割装置、データ分割方法およびプログラム
CN104809134B (zh) 检测数据序列中的异常子序列的方法和设备
JP6816078B2 (ja) 拡張可能なマルチ車両タスクのためのシステムおよび方法
KR20160143548A (ko) 인공 신경 네트워크를 자동으로 조정하는 방법 및 장치
JP2010061439A (ja) 最適解関係表示装置、方法、及びプログラム
US20140372444A1 (en) Data clustering apparatus and method
Brix et al. Parallelisation of multiscale-based grid adaptation using space-filling curves
CN112925909B (zh) 一种考虑局部不变性约束的图卷积文献分类方法及系统
US20210150442A1 (en) Generating building designs that optimize productivity of the building
Kyriacou et al. Efficient PCA-driven EAs and metamodel-assisted EAs, with applications in turbomachinery
CN112861459A (zh) 全灵敏度对抗重要性抽样产量优化方法和装置
US20170039315A1 (en) Information processing apparatus and simulation method
Liu et al. Neural network based pre-placement wirelength estimation
US20240110719A1 (en) Air conditioning control device and air conditioning control method
JP2018163396A (ja) 区分線形近似関数生成装置および方法
CN104573331B (zh) 一种基于MapReduce的K近邻数据预测方法
CN114154615A (zh) 基于硬件性能的神经架构搜索方法和设备
CN116804534B (zh) 一种连续梁桥施工用工艺辅助测定方法
Solomentsev et al. Diagnostics programs efficiency analysis in operation system of radioelectronic eguipment
CN116597294A (zh) Slam地图拓扑评估方法、装置、电子设备及存储介质
CN104794186B (zh) 数据库负载响应时间预测模型训练样本的采集方法
US20120316842A1 (en) Automatic extremum detection on a surface mesh of a component
CN108595792B (zh) 一种飞机油箱燃油测量传感器布局优化方法
WO2020142251A1 (en) Prediction for time series data using a space partitioning data structure
Marx et al. A machine learning based approach of performance estimation for high-pressure compressor airfoils

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20061026

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20090619

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090626

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090825

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20091030

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20091210

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100402

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100428

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130514

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130514

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130514

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140514

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees