JP6213665B2

JP6213665B2 - 情報処理装置、及び、クラスタリング方法

Info

Publication number: JP6213665B2
Application number: JP2016508495A
Authority: JP
Inventors: 謙太郎矢吹
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2014-03-18
Filing date: 2015-03-03
Publication date: 2017-10-18
Anticipated expiration: 2035-03-03
Also published as: WO2015141157A1; JPWO2015141157A1; US20170083605A1; US10642864B2

Description

本発明は、情報処理装置、及び、クラスタリング方法に関する。

近年、様々なシステムにおいて、複数の種別の大量のデータに対する分析処理が行われている。例えば、複数の種別のデータから、関連性の高い種別の組合せを抽出し、抽出された組合せのデータを用いて、統計処理や予測処理が行われている。このような分析処理において、分析対象のデータに異なる特性を示すデータが混在していた場合、分析処理の精度が低下する、あるいは、分析ができなくなるという問題が生じる。

例えば、コンピュータシステムにおける入力パケットレートとＣＰＵ（Central Processing Unit）使用率との関係を、最小二乗法等により求めた近似直線を用いて分析する場合を考える。コンピュータシステムが、例えば、昼間と夜間とで、昼間業務処理と夜間バッチ処理の実行のように異なる運用を行っている場合、入力パケットレートに対するＣＰＵ使用率は、昼間と夜間とで大きく異なる。この場合、昼間と夜間のデータが混在したまま、近似直線を得たとしたとしても、当該近似直線は、実際のシステムの動作には適合しない可能性が高い。

したがって、このような分析処理では、事前に、分析対象のデータを、データの特性を考慮して、同じ特性を有するクラスタに分類（クラスタリング）する必要がある。

このような分析処理におけるクラスタリングに係る技術として、例えば、特許文献１には、特定の種別の組合せのデータに関して、分布密度関数を算出することにより、分析対象のデータを分類するキャパシティ管理支援装置が開示されている。また、非特許文献１には、複数の種別のデータに対して、交差検定法や、ベイズ推定を応用して、関連性の高い種別の組合せの抽出、及び、データの分類を行う技術が開示されている。

なお、関連技術として、特許文献２には、システムの相関モデルに基づいて、システムのある性能情報から他の性能情報を予測する運用管理装置が開示されている。また他の関連技術として、特許文献３には、複数種類の距離定義に基づいて、画像データを分類する画像データ分類装置が開示されている。

国際公開第２０１３／１２８７８９号特許第５１４１７８９号公報特開２００３−２４２１６０号公報

藤巻、森永、「ビッグデータ時代の最先端データマイニング」、ＮＥＣ技報、日本電気株式会社、2013年9月、Vol.65、No.2/2012、p. 81-85

しかしながら、特許文献１や特許文献２にされている技術では、分析対象のデータに対して、分布密度関数の算出、あるいは、交差検定法やベイズ推定を応用した解析を行う必要がある。このため、これらの技術は、処理負荷が大きく、データの分類に時間がかかるという問題がある。

本発明の目的は、上述した課題を解決し、特性に応じたデータの分類を高速に行う、情報処理装置、及び、クラスタリング方法を提供することである。

本発明の一態様における情報処理装置は、データの組を複数記憶する、データ記憶手段と、前記複数のデータの組の各々がデータの値に従って配置された空間において、所定の誤差内で前記複数のデータの組のうちのできるだけ多くのデータの組を近似する近似線を生成し、前記生成された近似線をもとに、前記複数のデータの組を分類したクラスタを生成し、出力する、クラスタ生成手段と、を備える。

本発明の一態様におけるクラスタ生成方法は、データの組を複数記憶し、前記複数のデータの組の各々がデータの値に従って配置された空間において、所定の誤差内で前記複数のデータの組のうちのできるだけ多くのデータの組を近似する近似線を生成し、前記生成された近似線をもとに、前記複数のデータの組を分類したクラスタを生成し、出力する。

本発明の一態様におけるコンピュータが読み取り可能な記録媒体は、コンピュータに、データの組を複数記憶し、前記複数のデータの組の各々がデータの値に従って配置された空間において、所定の誤差内で前記複数のデータの組のうちのできるだけ多くのデータの組を近似する近似線を生成し、前記生成された近似線をもとに、前記複数のデータの組を分類したクラスタを生成し、出力する、処理を実行させるプログラムを格納する。

本発明の効果は、特性に応じたデータの分類を高速に行えることである。

本発明の実施の形態の特徴的な構成を示すブロック図である。本発明の実施の形態における、クラスタリング装置１００の構成を示すブロック図である。本発明の実施の形態における、クラスタリング装置１００の動作を示すフローチャートである。本発明の実施の形態における、分析対象のデータ系列の例を示す図である。本発明の実施の形態における、データ組合せの例を示す図である。本発明の実施の形態における、データ組合せ画像４２１の例を示す図である。本発明の実施の形態における、クラスタ情報５０１の例を示す図である。本発明の実施の形態における、出力画面６００の例を示す図である。本発明の実施の形態における、出力画面６００の他の例を示す図である。

はじめに、本発明の実施の形態の構成について説明する。図２は、本発明の実施の形態における、クラスタリング装置１００の構成を示すブロック図である。クラスタリング装置１００は、本発明の情報処理装置の一実施形態である。

クラスタリング装置１００は、データ入力部２００、データ記憶部３００、クラスタ生成部４００、及び、クラスタ情報記憶部５００を含む。

データ入力部２００は、ユーザ等から、分析対象である、複数種別のデータ系列の入力を受け付ける。本発明の実施の形態では、データ系列として、コンピュータシステムにおける入力パケットレートや、ＣＰＵ使用量等、コンピュータシステムの性能に係るデータの時系列を用いる。

データ記憶部３００は、複数種別のデータ系列を記憶する。

クラスタ生成部４００は、複数種別のうちの２つの種別のデータの組合せ（データ組合せ）を特性に応じて分類した、クラスタを生成する。

クラスタ生成部４００は、データ抽出部４１０、データ配置部４２０、近似線生成部４３０、クラスタ登録部４４０、及び、クラスタ情報出力部４５０を含む。

データ抽出部４１０は、複数種別のうちの２つの種別のデータ系列について、データの組合せ（データ組合せ）を複数抽出する。

データ配置部４２０は、抽出されたデータ組合せを２次元空間上に配置することにより、データ組合せ画像４２１を生成する。

近似線生成部４３０は、データ組合せ画像４２１をもとに、所定の誤差内で複数のデータ組合せのうちのできるだけ多くのデータ組合せを近似する近似線を生成する。

クラスタ登録部４４０は、生成した近似線をもとに、クラスタを生成し、クラスタ情報５０１に登録する。

クラスタ情報出力部４５０は、ユーザ等へ、クラスタ情報５０１を出力する。

クラスタ情報記憶部５００は、クラスタ情報５０１を記憶する。

なお、クラスタリング装置１００は、ＣＰＵとプログラムを記憶した記憶媒体を含み、プログラムに基づく制御によって動作するコンピュータであってもよい。この場合、クラスタリング装置１００のＣＰＵが、データ入力部２００、及び、クラスタ生成部４００、の機能を実現するためのコンピュータプログラムを実行する。また、クラスタリング装置１００の記憶媒体は、データ記憶部３００、及び、クラスタ情報記憶部５００の情報を記憶する。また、データ記憶部３００、及び、クラスタ情報記憶部５００は、それぞれ個別の記憶媒体でも、１つの記憶媒体によって構成されてもよい。

次に、本発明の実施の形態の動作を説明する。

図４は、本発明の実施の形態における、分析対象のデータ系列の例を示す図である。図４の例では、時刻「2014/02/01 00:00」〜「2014/02/02 22:00」の間の２時間ごとに取得された、Ｘ、Ｙの２つの種別のデータ系列ｘ_０，ｘ_１，…，ｘ_２３、ｙ_０，ｙ_１，…，ｙ_２３が示されている。ここで、Ｘ、Ｙは、それぞれ、コンピュータシステムの入力パケットレート（以下、単に入力とも記載する）、ＣＰＵ使用率である。

ここでは、データ入力部２００を介して、図４のようなデータ系列が入力され、データ記憶部３００に格納されていると仮定する。

図３は、本発明の実施の形態における、クラスタリング装置１００の動作を示すフローチャートである。

はじめに、データ抽出部４１０は、データ記憶部３００に格納されている２つの種別のデータ系列について、データ組合せを抽出する（ステップＳ１０１）。ここで、データ抽出部４１０は、データ組合せとして、例えば、同じ時刻に取得されたデータ組合せを抽出する。なお、データ抽出部４１０は、例えば、特定のイベント等、データに関連付けられた時刻以外の他の共通の属性を用いて、データ組合せを抽出してもよい。

図５は、本発明の実施の形態における、データ組合せの例を示す図である。

例えば、データ抽出部４１０は、図４のデータ系列から、図５のように、同じ時刻におけるＸ（入力）、Ｙ（ＣＰＵ使用率）の組合せｓ_０，ｓ_１，…，ｓ_２３を抽出する。

データ配置部４２０は、抽出された各データ組合せを２次元空間上に配置することにより、データ組合せ画像４２１を生成する（ステップＳ１０２）。ここで、データ配置部４２０は、データ系列の種別の各々を次元として用いた空間上で、データ組合せに含まれる各データの値に対応する位置に、当該データ組合せを示す点を配置することにより、データ組合せ画像４２１を生成する。

図６は、本発明の実施の形態における、データ組合せ画像４２１の例を示す図である。

例えば、データ配置部４２０は、Ｘ（入力）軸、Ｙ（ＣＰＵ使用率）軸を有する２次元空間上に、データ組合せｓ_０，ｓ_１，…，ｓ_２３を配置した、図６のようなデータ組合せ画像４２１を生成する。

近似線生成部４３０は、データ組合せ画像４２１において、所定の誤差内で複数のデータ組合せのうちのできるだけ多くのデータ組合せを近似する近似線を生成する（ステップＳ１０３）。なお、本発明の実施の形態では、近似線として直線を用いる。

ここで、近似線生成部４３０は、例えば、画像処理において線を検出するための技術であるハフ変換（Hough変換）を用いて近似線を生成する。ハフ変換では、データ組合せを示す各点を通る近似線が、極座標空間（θ、ρ）で表される。ここで、θは、近似線（直線）に対する法線のＸ軸となす角度、ρは原点から近似線への距離である。ハフ変換では、各点に対して、量子化されたθの値を変えながら量子化されたρの値が算出され、できるだけ多くの点に対して同一なθ、ρが、投票により抽出される。ハフ変換において、θ、ρにより表される近似線と当該近似線により近似される各点との誤差は、θ、ρの量子化誤差に依存する。したがって、量子化ステップの大きさにより、近似線の誤差（所定の誤差）が決まると考えることができる。

例えば、近似線生成部４３０は、図６のデータ組合せ画像４２１において、ハフ変換により、直線Ｌ_１を生成する。

なお、近似線生成部４３０は、データ組合せ画像４２１において、所定の誤差内で複数のデータの組合せのうちのできるだけ多くの組合せを近似する近似線を生成できれば、ハフ変換以外の他の方法で、近似線を生成してもよい。

クラスタ登録部４４０は、生成された近似線から、予め設定された所定の範囲に存在するデータ組合せを抽出する（ステップＳ１０４）。

例えば、クラスタ登録部４４０は、図６のデータ組合せ画像４２１において、直線Ｌ_１から幅Ｗの範囲内にあるデータ組合せｓ_４〜ｓ_８、ｓ_１６〜ｓ_２０を抽出する。

クラスタ登録部４４０は、抽出されたデータ組合せを要素として持つクラスタを生成し、クラスタ情報５０１に登録する（ステップＳ１０５）。ここで、クラスタ登録部４４０は、抽出されたデータ組合せの識別子とともに、当該抽出されたデータ組合せの数、生成された近似線のパラメータ（傾き、切片）、及び、当該近似線の精度を登録する。近似線の精度は、抽出されたデータ組合せの近似線に対する分散により算出される。

図７は、本発明の実施の形態における、クラスタ情報５０１の例を示す図である。クラスタ情報５０１は、クラスタの識別子（「クラスタ」）、当該クラスタに対するデータ組合せの数（「組合せ数」）、データ組合せの識別子（「データ組合せ」）、近似線のパラメータ（「近似線」）、及び、近似線の精度（「精度」）を含む。

例えば、クラスタ登録部４４０は、図７のように、クラスタ「ｃ_１」に対して、組合せ数「１０」、データ組合せ「ｓ_４〜ｓ_８、ｓ_１６〜ｓ_２０」、近似線「Ｙ＝ａ_１Ｘ＋ｂ_１」、及び、精度「ｄ_１」を、クラスタ情報５０１に登録する。

クラスタ登録部４４０は、クラスタに登録したデータ組合せをデータ組合せ画像４２１から削除する（ステップＳ１０６）。

クラスタ登録部４４０は、所定の回数、もしくは、データ組合せがなくなるまで、ステップＳ１０３からの処理を繰り返す（ステップＳ１０７）。

例えば、データ配置部４２０は、図６のデータ組合せ画像４２１から、データ組合せｓ_４〜ｓ_８、ｓ_１６〜ｓ_２０を削除した画像において、直線Ｌ_２を生成する。クラスタ登録部４４０は、直線Ｌ_２から幅Ｗの範囲内にあるデータ組合せｓ_３、ｓ_９〜ｓ_１１、ｓ_１４、ｓ_２１〜ｓ_２３を抽出する。そして、クラスタ登録部４４０は、図７のように、クラスタ「ｃ_２」に対して、組合せ数「８」、データ組合せ「ｓ_３、ｓ_９〜ｓ_１１、ｓ_１４、ｓ_２１〜ｓ_２３」、近似線「Ｙ＝ａ_２Ｘ＋ｂ_２」、及び、精度「ｄ_２」を、クラスタ情報５０１に登録する。

さらに、データ配置部４２０は、図６のデータ組合せ画像４２１から、データ組合せｓ_４〜ｓ_８、ｓ_１６〜ｓ_２０、及び、ｓ_３、ｓ_９〜ｓ_１１、ｓ_１４、ｓ_２１〜ｓ_２３を削除した画像において、直線Ｌ_３を生成する。クラスタ登録部４４０は、直線Ｌ_３から幅Ｗの範囲内にあるデータ組合せｓ_０〜ｓ_２、ｓ_１２、ｓ_１３、ｓ_１５を抽出する。そして、クラスタ登録部４４０は、図７のように、クラスタ「ｃ_３」に対して、組合せ数「６」、データ組合せ「ｓ_０〜ｓ_２，ｓ_１２，ｓ_１３，ｓ_１５」、近似線「Ｙ＝ａ_３Ｘ＋ｂ_３」、及び、精度「ｄ_３」を、クラスタ情報５０１に登録する。

クラスタ情報出力部４５０は、ユーザ等へ、クラスタ情報５０１を出力する（ステップＳ１０８）。ここで、クラスタ情報出力部４５０は、例えば、ディスプレイ等の表示装置（図示せず）を介して、クラスタ情報５０１を出力する。

図８は、本発明の実施の形態における、出力画面６００の例を示す図である。図８の例では、出力画面６００は、クラスタ情報表示部６０１、及び、データ組合せ画像表示部６０２を含む。クラスタ情報表示部６０１には、クラスタ情報５０１の内容が表示される。また、データ組合せ画像表示部６０２には、データ組合せ画像４２１が表示される。データ組合せ画像表示部６０２では、データ組合せが、クラスタごとに分類されて、近似線とともに表示される。

なお、クラスタ情報出力部４５０は、クラスタ情報５０１を、データファイルとして、他の装置に送信してもよい。

ユーザ等は、出力されたクラスタ情報５０１の各クラスタに含まれるデータ組合せを、データの分類結果として用いることができる。

さらに、クラスタリング装置１００内の図示しない分析部や、クラスタリング装置１００に接続された図示しない分析装置等が、各クラスタに対する近似線を用いて、一方の種別のデータ値から他方の種別のデータ値を予測する等の分析処理を行ってもよい。

例えば、分析部や分析装置等は、図７のクラスタ情報５０１における、各クラスタの近似線を用いて、入力の値の変動幅に対する、ＣＰＵ使用率の値の変動幅を予測してもよい。

この場合、分析部や分析装置等は、例えば、ユーザ等により指定されたクラスタの近似線を用いて予測を行う。ユーザ等は、出力されたクラスタ情報５０１をもとに、例えば、組合せ数の多いクラスタや、近似線の精度の高いクラスタを、信頼性の高いクラスタとみなして指定する。また、ユーザ等は、近似線の傾きが大きいクラスタや小さいクラスタをノイズとみなし、近似線の傾きが所定の傾き範囲のクラスタを指定する。

クラスタ情報出力部４５０は、ユーザ等がクラスタを選択するために、クラスタ情報５０１において、各クラスタに係る情報を、組合せ数の多い順や、精度の高い順、近似線の傾きが大きい順に並び替えて出力してもよい。また、クラスタ情報出力部４５０は、クラスタ情報５０１に含まれるクラスタから、組合せ数や精度が所定の閾値以上のクラスタを抽出して出力してもよい。また、クラスタ情報出力部４５０は、クラスタ情報５０１に含まれるクラスタから、近似線の傾きが所定の傾き範囲のクラスタを抽出して出力してもよい。

なお、分析部や分析装置等が、ユーザ等に代わって、組合せ数の多いクラスタや、近似線の精度の高いクラスタ、近似線の傾きが所定の傾き範囲のクラスタを選択し、予測を行ってもよい。

さらに、分析部や分析装置等は、近似線の精度を、近似線による予測精度として、予測結果とともに出力してもよい。

また、分析部や分析装置等は、各クラスタに関連付けられた属性を用いて、新たなデータを分類し、分類されたデータに対して統計処理を行ってもよい。例えば、各クラスタに属する複数のデータ組合せが共通な時間帯に取得されたデータの組合せである場合、分析部や分析装置等が、各クラスタに関連付けられた時間帯の新たなデータに対して、例えば、特許文献２に記載されているような相関分析を行ってもよい。

この場合、各クラスタに関連付ける属性は、例えば、ユーザ等により指定される。ユーザ等は、出力されたクラスタ情報５０１をもとに、各クラスタに属するデータ組合せに共通な属性を、当該クラスタに関連付ける属性として指定する。

クラスタ情報出力部４５０は、ユーザ等が、各クラスタに属するデータ組合せに共通する属性を判別するために、各データ組合せの属性に関連付けて、当該データ組合せが属するクラスタを出力してもよい。

図９は、本発明の実施の形態における、出力画面６００の他の例を示す図である。図９の例では、各データ組合せが取得された時間に関連付けて、当該データ組合せが属するクラスタが示されている。これにより、ユーザ等は、例えば、クラスタ「ｃ_１」、「ｃ_２」、「ｃ_３」が、それぞれ、昼間、夕方、深夜の時間帯に係るクラスタであることを容易に把握できる。

なお、分析部や分析装置等が、ユーザ等に代わって、各クラスタに属するデータ組合せに共通する属性を判別して、各クラスタに関連付け、新たなデータに対する分類、統計処理を行ってもよい。

また、データ記憶部３００に複数の種別のデータ系列が記憶されている場合、２つの種別のデータ系列の異なる組合せごとに、ステップＳ１０１〜Ｓ１０８を繰り返してもよい。

以上により、本発明の実施の形態の動作が完了する。

次に、本発明の実施の形態の特徴的な構成を説明する。図１は、本発明の実施の形態の特徴的な構成を示すブロック図である。

図１を参照すると、本発明の実施の形態における、クラスタリング装置１００（情報処理装置）は、データ記憶部３００、及び、クラスタ生成部４００を含む。

データ記憶部３００は、データの組を複数記憶する。クラスタ生成部４００は、複数のデータの組の各々がデータの値に従って配置された空間において、所定の誤差内で複数のデータの組のうちのできるだけ多くのデータの組を近似する近似線を生成する。そして、クラスタ生成部４００は、生成された近似線をもとに、複数のデータの組を分類したクラスタを生成し、出力する。

本発明の実施の形態によれば、特性に応じたデータの分類を高速に行うことができる。その理由は、クラスタ生成部４００が、データ組合せが配置された空間において、所定の誤差内でできるだけ多くのデータ組合せを近似する近似線を生成し、生成された近似線をもとに、クラスタを生成するためである。近似線の算出においては、例えば、ハフ変換における量子化誤差等、許容される誤差を適切に設定することにより、算出のための負荷を軽減できる。これにより、特許文献１や特許文献２にされている技術のように、分布密度関数の算出、あるいは、交差検定法やベイズ推定を応用した解析を行う場合に比べて、クラスタリングの負荷を低減でき、クラスタリングが高速に行われる。

また、これにより、多数の種別のデータが存在する場合や、大量のデータ組合せが存在する場合でも、種別の異なる組合せに対して、網羅的で、リアルタイムなクラスタリングを実行できる。

また、本発明の実施の形態によれば、クラスタリングと同時に、クラスタに含まれるデータ組合せの関係を表す近似式を生成できる。その理由は、上述のように、近似線生成部４３０が、近似線を生成するためである。

以上、実施形態を参照して本願発明を説明したが、本願発明は上記実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。

例えば、本発明の実施の形態では、近似線として直線を用いているが、データ組合せの関係を近似できる線であれば、円や２次関数、ログ関数等、他の形状の線を近似線として用いてもよい。

また、本発明の実施の形態では、２つの種別のデータの組合せを２次元空間上に配置することにより、データ組合せ画像４２１を生成し、データ組合せ画像４２１上で近似線を生成している。しかしながら、ｎ個の種別（ｎは２以上の整数）のデータの組合せが配置されたｎ次元空間上で、同様に近似線を抽出することにより、ｎ個の種別のデータの組合せを分類するクラスタを生成してもよい。この場合、分析部や分析装置等が、近似線を用いて、例えば、ｎ個の種別のうちの１個の種別のデータ値から他のｎ−１個の種別のデータ値を予測する等の分析処理を行ってもよい。

例えば、３つの種別のデータの組合せに対してクラスタが生成された場合、分析部や分析装置等は、各クラスタの近似線を用いて、入力として用いる種別のデータ値の変動幅に対する、出力として用いる他の２つの種別のデータ値の変動幅を予測する。

また、ある種別のデータ値の範囲が近似線によって異なる場合、分析部や分析装置等は、当該種別のデータ値によって、予測に用いる近似線を絞り込んでもよい。

また、本発明の実施の形態では、分析対象のデータとして、コンピュータシステムにおける入力パケットレート、ＣＰＵ使用率等、コンピュータシステムの性能に係るデータを用いた。しかしながら、分析対象のデータは、互いに関連性のあるデータであれば、コンピュータにおける性能に係るデータ以外に、各種センサにより取得されたデータ等、どのようなデータでもよい。

この出願は、２０１４年３月１８日に出願された日本出願特願２０１４−０５４４５１を基礎とする優先権を主張し、その開示の全てをここに取り込む。

１００クラスタリング装置
２００データ入力部
３００データ記憶部
４００クラスタ生成部
４１０データ抽出部
４２０データ配置部
４２１データ組合せ画像
４３０近似線生成部
４４０クラスタ登録部
４５０クラスタ情報出力部
５００クラスタ情報記憶部
５０１クラスタ情報
６００出力画面
６０１クラスタ情報表示部
６０２データ組合せ画像表示部

Claims

データの組を複数記憶する、データ記憶手段と、
前記複数のデータの組の各々がデータの値に従って配置された空間において、所定の誤差内で前記複数のデータの組のうちのできるだけ多くのデータの組を近似する近似線を生成し、前記生成された近似線をもとに、前記複数のデータの組を分類したクラスタを生成し、出力する、クラスタ生成手段と、
を備え、
前記クラスタ生成手段は、前記生成した近似線から所定の範囲内に存在するデータの組を、前記生成するクラスタに分類する、
情報処理装置。
前記クラスタ生成手段は、さらに、前記複数のデータの組から前記生成したクラスタに分類されたデータの組を除いたデータの組に対する前記近似線の生成、及び、前記クラスタの生成を繰り返すことにより、複数の前記クラスタを生成する、
請求項１に記載の情報処理装置。
前記クラスタ生成手段は、前記生成したクラスタを、当該クラスタの近似線を表す近似式とともに出力する、
請求項１または２に記載の情報処理装置。
さらに、前記クラスタ生成手段は、前記複数のデータの組の各々の属性と、当該データの組が分類された前記クラスタと、を関連付けて出力する、
請求項１乃至３のいずれかに記載の情報処理装置。
前記クラスタ生成手段は、ハフ変換により、前記近似線を生成する、
請求項１乃至４のいずれかに記載の情報処理装置。
コンピュータに具備されたデータ記憶手段が、データの組を複数記憶し、
前記コンピュータに具備されたクラスタ生成手段が、前記複数のデータの組の各々がデータの値に従って配置された空間において、所定の誤差内で前記複数のデータの組のうちのできるだけ多くのデータの組を近似する近似線を生成し、
前記クラスタ生成手段が、前記生成された近似線をもとに、前記複数のデータの組を分類したクラスタを生成し、出力する、
クラスタ生成方法であって、
前記クラスタ生成手段は、前記クラスタを生成する場合、前記生成した近似線から所定の範囲内に存在するデータの組を、前記生成するクラスタに分類する、
クラスタ生成方法。
さらに、前記クラスタ生成手段が、前記複数のデータの組から前記生成したクラスタに分類されたデータの組を除いたデータの組に対する前記近似線の生成、及び、前記クラスタの生成を繰り返すことにより、複数の前記クラスタを生成する、
請求項６に記載のクラスタ生成方法。
さらに、前記クラスタ生成手段が、前記生成したクラスタを、当該クラスタの近似線を表す近似式とともに出力する、
請求項６または７に記載のクラスタ生成方法。
さらに、前記クラスタ生成手段が、前記複数のデータの組の各々の属性と、当該データの組が分類された前記クラスタと、を関連付けて出力する、
請求項６乃至８のいずれかに記載のクラスタ生成方法。
前記クラスタ生成手段は、前記クラスタを生成する場合、ハフ変換により、前記近似線を生成する、
請求項６乃至９のいずれかに記載のクラスタ生成方法。
コンピュータに、
データの組を複数記憶し、
前記複数のデータの組の各々がデータの値に従って配置された空間において、所定の誤差内で前記複数のデータの組のうちのできるだけ多くのデータの組を近似する近似線を生成し、前記生成された近似線をもとに、前記複数のデータの組を分類したクラスタを生成し、出力する、
処理を実行させるプログラムであって、
前記クラスタを生成する場合、前記生成した近似線から所定の範囲内に存在するデータの組を、前記生成するクラスタに分類する、
処理を実行させるプログラム。
さらに、前記複数のデータの組から前記生成したクラスタに分類されたデータの組を除いたデータの組に対する前記近似線の生成、及び、前記クラスタの生成を繰り返すことにより、複数の前記クラスタを生成する、処理を実行させる
請求項１１に記載のプログラム。
前記生成したクラスタを、当該クラスタの近似線を表す近似式とともに出力する、処理を実行させる
請求項１１または１２に記載のプログラム。
さらに、前記複数のデータの組の各々の属性と、当該データの組が分類された前記クラスタと、を関連付けて出力する、処理を実行させる
請求項１１乃至１３のいずれかに記載のプログラム。
前記クラスタを生成する場合、ハフ変換により、前記近似線を生成する、処理を実行させる
請求項１１乃至１４のいずれかに記載のプログラム。