JP6213665B2 - 情報処理装置、及び、クラスタリング方法 - Google Patents

情報処理装置、及び、クラスタリング方法 Download PDF

Info

Publication number
JP6213665B2
JP6213665B2 JP2016508495A JP2016508495A JP6213665B2 JP 6213665 B2 JP6213665 B2 JP 6213665B2 JP 2016508495 A JP2016508495 A JP 2016508495A JP 2016508495 A JP2016508495 A JP 2016508495A JP 6213665 B2 JP6213665 B2 JP 6213665B2
Authority
JP
Japan
Prior art keywords
cluster
data
data sets
generated
approximate line
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016508495A
Other languages
English (en)
Other versions
JPWO2015141157A1 (ja
Inventor
謙太郎 矢吹
謙太郎 矢吹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of JPWO2015141157A1 publication Critical patent/JPWO2015141157A1/ja
Application granted granted Critical
Publication of JP6213665B2 publication Critical patent/JP6213665B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2135Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/245Classification techniques relating to the decision surface
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/48Extraction of image or video features by mapping characteristic values of the pattern into a parameter space, e.g. Hough transformation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/762Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
    • G06V10/763Non-hierarchical techniques, e.g. based on statistics of modelling distributions

Description

本発明は、情報処理装置、及び、クラスタリング方法に関する。
近年、様々なシステムにおいて、複数の種別の大量のデータに対する分析処理が行われている。例えば、複数の種別のデータから、関連性の高い種別の組合せを抽出し、抽出された組合せのデータを用いて、統計処理や予測処理が行われている。このような分析処理において、分析対象のデータに異なる特性を示すデータが混在していた場合、分析処理の精度が低下する、あるいは、分析ができなくなるという問題が生じる。
例えば、コンピュータシステムにおける入力パケットレートとCPU(Central Processing Unit)使用率との関係を、最小二乗法等により求めた近似直線を用いて分析する場合を考える。コンピュータシステムが、例えば、昼間と夜間とで、昼間業務処理と夜間バッチ処理の実行のように異なる運用を行っている場合、入力パケットレートに対するCPU使用率は、昼間と夜間とで大きく異なる。この場合、昼間と夜間のデータが混在したまま、近似直線を得たとしたとしても、当該近似直線は、実際のシステムの動作には適合しない可能性が高い。
したがって、このような分析処理では、事前に、分析対象のデータを、データの特性を考慮して、同じ特性を有するクラスタに分類(クラスタリング)する必要がある。
このような分析処理におけるクラスタリングに係る技術として、例えば、特許文献1には、特定の種別の組合せのデータに関して、分布密度関数を算出することにより、分析対象のデータを分類するキャパシティ管理支援装置が開示されている。また、非特許文献1には、複数の種別のデータに対して、交差検定法や、ベイズ推定を応用して、関連性の高い種別の組合せの抽出、及び、データの分類を行う技術が開示されている。
なお、関連技術として、特許文献2には、システムの相関モデルに基づいて、システムのある性能情報から他の性能情報を予測する運用管理装置が開示されている。また他の関連技術として、特許文献3には、複数種類の距離定義に基づいて、画像データを分類する画像データ分類装置が開示されている。
国際公開第2013/128789号 特許第5141789号公報 特開2003−242160号公報
藤巻、森永、「ビッグデータ時代の最先端データマイニング」、NEC技報、日本電気株式会社、2013年9月、Vol.65、No.2/2012、p. 81-85
しかしながら、特許文献1や特許文献2にされている技術では、分析対象のデータに対して、分布密度関数の算出、あるいは、交差検定法やベイズ推定を応用した解析を行う必要がある。このため、これらの技術は、処理負荷が大きく、データの分類に時間がかかるという問題がある。
本発明の目的は、上述した課題を解決し、特性に応じたデータの分類を高速に行う、情報処理装置、及び、クラスタリング方法を提供することである。
本発明の一態様における情報処理装置は、データの組を複数記憶する、データ記憶手段と、前記複数のデータの組の各々がデータの値に従って配置された空間において、所定の誤差内で前記複数のデータの組のうちのできるだけ多くのデータの組を近似する近似線を生成し、前記生成された近似線をもとに、前記複数のデータの組を分類したクラスタを生成し、出力する、クラスタ生成手段と、を備える。
本発明の一態様におけるクラスタ生成方法は、データの組を複数記憶し、前記複数のデータの組の各々がデータの値に従って配置された空間において、所定の誤差内で前記複数のデータの組のうちのできるだけ多くのデータの組を近似する近似線を生成し、前記生成された近似線をもとに、前記複数のデータの組を分類したクラスタを生成し、出力する。
本発明の一態様におけるコンピュータが読み取り可能な記録媒体は、コンピュータに、データの組を複数記憶し、前記複数のデータの組の各々がデータの値に従って配置された空間において、所定の誤差内で前記複数のデータの組のうちのできるだけ多くのデータの組を近似する近似線を生成し、前記生成された近似線をもとに、前記複数のデータの組を分類したクラスタを生成し、出力する、処理を実行させるプログラムを格納する。
本発明の効果は、特性に応じたデータの分類を高速に行えることである。
本発明の実施の形態の特徴的な構成を示すブロック図である。 本発明の実施の形態における、クラスタリング装置100の構成を示すブロック図である。 本発明の実施の形態における、クラスタリング装置100の動作を示すフローチャートである。 本発明の実施の形態における、分析対象のデータ系列の例を示す図である。 本発明の実施の形態における、データ組合せの例を示す図である。 本発明の実施の形態における、データ組合せ画像421の例を示す図である。 本発明の実施の形態における、クラスタ情報501の例を示す図である。 本発明の実施の形態における、出力画面600の例を示す図である。 本発明の実施の形態における、出力画面600の他の例を示す図である。
はじめに、本発明の実施の形態の構成について説明する。図2は、本発明の実施の形態における、クラスタリング装置100の構成を示すブロック図である。クラスタリング装置100は、本発明の情報処理装置の一実施形態である。
クラスタリング装置100は、データ入力部200、データ記憶部300、クラスタ生成部400、及び、クラスタ情報記憶部500を含む。
データ入力部200は、ユーザ等から、分析対象である、複数種別のデータ系列の入力を受け付ける。本発明の実施の形態では、データ系列として、コンピュータシステムにおける入力パケットレートや、CPU使用量等、コンピュータシステムの性能に係るデータの時系列を用いる。
データ記憶部300は、複数種別のデータ系列を記憶する。
クラスタ生成部400は、複数種別のうちの2つの種別のデータの組合せ(データ組合せ)を特性に応じて分類した、クラスタを生成する。
クラスタ生成部400は、データ抽出部410、データ配置部420、近似線生成部430、クラスタ登録部440、及び、クラスタ情報出力部450を含む。
データ抽出部410は、複数種別のうちの2つの種別のデータ系列について、データの組合せ(データ組合せ)を複数抽出する。
データ配置部420は、抽出されたデータ組合せを2次元空間上に配置することにより、データ組合せ画像421を生成する。
近似線生成部430は、データ組合せ画像421をもとに、所定の誤差内で複数のデータ組合せのうちのできるだけ多くのデータ組合せを近似する近似線を生成する。
クラスタ登録部440は、生成した近似線をもとに、クラスタを生成し、クラスタ情報501に登録する。
クラスタ情報出力部450は、ユーザ等へ、クラスタ情報501を出力する。
クラスタ情報記憶部500は、クラスタ情報501を記憶する。
なお、クラスタリング装置100は、CPUとプログラムを記憶した記憶媒体を含み、プログラムに基づく制御によって動作するコンピュータであってもよい。この場合、クラスタリング装置100のCPUが、データ入力部200、及び、クラスタ生成部400、の機能を実現するためのコンピュータプログラムを実行する。また、クラスタリング装置100の記憶媒体は、データ記憶部300、及び、クラスタ情報記憶部500の情報を記憶する。また、データ記憶部300、及び、クラスタ情報記憶部500は、それぞれ個別の記憶媒体でも、1つの記憶媒体によって構成されてもよい。
次に、本発明の実施の形態の動作を説明する。
図4は、本発明の実施の形態における、分析対象のデータ系列の例を示す図である。図4の例では、時刻「2014/02/01 00:00」〜「2014/02/02 22:00」の間の2時間ごとに取得された、X、Yの2つの種別のデータ系列x,x,…,x23、y,y,…,y23が示されている。ここで、X、Yは、それぞれ、コンピュータシステムの入力パケットレート(以下、単に入力とも記載する)、CPU使用率である。
ここでは、データ入力部200を介して、図4のようなデータ系列が入力され、データ記憶部300に格納されていると仮定する。
図3は、本発明の実施の形態における、クラスタリング装置100の動作を示すフローチャートである。
はじめに、データ抽出部410は、データ記憶部300に格納されている2つの種別のデータ系列について、データ組合せを抽出する(ステップS101)。ここで、データ抽出部410は、データ組合せとして、例えば、同じ時刻に取得されたデータ組合せを抽出する。なお、データ抽出部410は、例えば、特定のイベント等、データに関連付けられた時刻以外の他の共通の属性を用いて、データ組合せを抽出してもよい。
図5は、本発明の実施の形態における、データ組合せの例を示す図である。
例えば、データ抽出部410は、図4のデータ系列から、図5のように、同じ時刻におけるX(入力)、Y(CPU使用率)の組合せs,s,…,s23を抽出する。
データ配置部420は、抽出された各データ組合せを2次元空間上に配置することにより、データ組合せ画像421を生成する(ステップS102)。ここで、データ配置部420は、データ系列の種別の各々を次元として用いた空間上で、データ組合せに含まれる各データの値に対応する位置に、当該データ組合せを示す点を配置することにより、データ組合せ画像421を生成する。
図6は、本発明の実施の形態における、データ組合せ画像421の例を示す図である。
例えば、データ配置部420は、X(入力)軸、Y(CPU使用率)軸を有する2次元空間上に、データ組合せs,s,…,s23を配置した、図6のようなデータ組合せ画像421を生成する。
近似線生成部430は、データ組合せ画像421において、所定の誤差内で複数のデータ組合せのうちのできるだけ多くのデータ組合せを近似する近似線を生成する(ステップS103)。なお、本発明の実施の形態では、近似線として直線を用いる。
ここで、近似線生成部430は、例えば、画像処理において線を検出するための技術であるハフ変換(Hough変換)を用いて近似線を生成する。ハフ変換では、データ組合せを示す各点を通る近似線が、極座標空間(θ、ρ)で表される。ここで、θは、近似線(直線)に対する法線のX軸となす角度、ρは原点から近似線への距離である。ハフ変換では、各点に対して、量子化されたθの値を変えながら量子化されたρの値が算出され、できるだけ多くの点に対して同一なθ、ρが、投票により抽出される。ハフ変換において、θ、ρにより表される近似線と当該近似線により近似される各点との誤差は、θ、ρの量子化誤差に依存する。したがって、量子化ステップの大きさにより、近似線の誤差(所定の誤差)が決まると考えることができる。
例えば、近似線生成部430は、図6のデータ組合せ画像421において、ハフ変換により、直線Lを生成する。
なお、近似線生成部430は、データ組合せ画像421において、所定の誤差内で複数のデータの組合せのうちのできるだけ多くの組合せを近似する近似線を生成できれば、ハフ変換以外の他の方法で、近似線を生成してもよい。
クラスタ登録部440は、生成された近似線から、予め設定された所定の範囲に存在するデータ組合せを抽出する(ステップS104)。
例えば、クラスタ登録部440は、図6のデータ組合せ画像421において、直線Lから幅Wの範囲内にあるデータ組合せs〜s、s16〜s20を抽出する。
クラスタ登録部440は、抽出されたデータ組合せを要素として持つクラスタを生成し、クラスタ情報501に登録する(ステップS105)。ここで、クラスタ登録部440は、抽出されたデータ組合せの識別子とともに、当該抽出されたデータ組合せの数、生成された近似線のパラメータ(傾き、切片)、及び、当該近似線の精度を登録する。近似線の精度は、抽出されたデータ組合せの近似線に対する分散により算出される。
図7は、本発明の実施の形態における、クラスタ情報501の例を示す図である。クラスタ情報501は、クラスタの識別子(「クラスタ」)、当該クラスタに対するデータ組合せの数(「組合せ数」)、データ組合せの識別子(「データ組合せ」)、近似線のパラメータ(「近似線」)、及び、近似線の精度(「精度」)を含む。
例えば、クラスタ登録部440は、図7のように、クラスタ「c」に対して、組合せ数「10」、データ組合せ「s〜s、s16〜s20」、近似線「Y=aX+b」、及び、精度「d」を、クラスタ情報501に登録する。
クラスタ登録部440は、クラスタに登録したデータ組合せをデータ組合せ画像421から削除する(ステップS106)。
クラスタ登録部440は、所定の回数、もしくは、データ組合せがなくなるまで、ステップS103からの処理を繰り返す(ステップS107)。
例えば、データ配置部420は、図6のデータ組合せ画像421から、データ組合せs〜s、s16〜s20を削除した画像において、直線Lを生成する。クラスタ登録部440は、直線Lから幅Wの範囲内にあるデータ組合せs、s〜s11、s14、s21〜s23を抽出する。そして、クラスタ登録部440は、図7のように、クラスタ「c」に対して、組合せ数「8」、データ組合せ「s、s〜s11、s14、s21〜s23」、近似線「Y=aX+b」、及び、精度「d」を、クラスタ情報501に登録する。
さらに、データ配置部420は、図6のデータ組合せ画像421から、データ組合せs〜s、s16〜s20、及び、s、s〜s11、s14、s21〜s23を削除した画像において、直線Lを生成する。クラスタ登録部440は、直線Lから幅Wの範囲内にあるデータ組合せs〜s、s12、s13、s15を抽出する。そして、クラスタ登録部440は、図7のように、クラスタ「c」に対して、組合せ数「6」、データ組合せ「s〜s,s12,s13,s15」、近似線「Y=aX+b3」、及び、精度「d」を、クラスタ情報501に登録する。
クラスタ情報出力部450は、ユーザ等へ、クラスタ情報501を出力する(ステップS108)。ここで、クラスタ情報出力部450は、例えば、ディスプレイ等の表示装置(図示せず)を介して、クラスタ情報501を出力する。
図8は、本発明の実施の形態における、出力画面600の例を示す図である。図8の例では、出力画面600は、クラスタ情報表示部601、及び、データ組合せ画像表示部602を含む。クラスタ情報表示部601には、クラスタ情報501の内容が表示される。また、データ組合せ画像表示部602には、データ組合せ画像421が表示される。データ組合せ画像表示部602では、データ組合せが、クラスタごとに分類されて、近似線とともに表示される。
なお、クラスタ情報出力部450は、クラスタ情報501を、データファイルとして、他の装置に送信してもよい。
ユーザ等は、出力されたクラスタ情報501の各クラスタに含まれるデータ組合せを、データの分類結果として用いることができる。
さらに、クラスタリング装置100内の図示しない分析部や、クラスタリング装置100に接続された図示しない分析装置等が、各クラスタに対する近似線を用いて、一方の種別のデータ値から他方の種別のデータ値を予測する等の分析処理を行ってもよい。
例えば、分析部や分析装置等は、図7のクラスタ情報501における、各クラスタの近似線を用いて、入力の値の変動幅に対する、CPU使用率の値の変動幅を予測してもよい。
この場合、分析部や分析装置等は、例えば、ユーザ等により指定されたクラスタの近似線を用いて予測を行う。ユーザ等は、出力されたクラスタ情報501をもとに、例えば、組合せ数の多いクラスタや、近似線の精度の高いクラスタを、信頼性の高いクラスタとみなして指定する。また、ユーザ等は、近似線の傾きが大きいクラスタや小さいクラスタをノイズとみなし、近似線の傾きが所定の傾き範囲のクラスタを指定する。
クラスタ情報出力部450は、ユーザ等がクラスタを選択するために、クラスタ情報501において、各クラスタに係る情報を、組合せ数の多い順や、精度の高い順、近似線の傾きが大きい順に並び替えて出力してもよい。また、クラスタ情報出力部450は、クラスタ情報501に含まれるクラスタから、組合せ数や精度が所定の閾値以上のクラスタを抽出して出力してもよい。また、クラスタ情報出力部450は、クラスタ情報501に含まれるクラスタから、近似線の傾きが所定の傾き範囲のクラスタを抽出して出力してもよい。
なお、分析部や分析装置等が、ユーザ等に代わって、組合せ数の多いクラスタや、近似線の精度の高いクラスタ、近似線の傾きが所定の傾き範囲のクラスタを選択し、予測を行ってもよい。
さらに、分析部や分析装置等は、近似線の精度を、近似線による予測精度として、予測結果とともに出力してもよい。
また、分析部や分析装置等は、各クラスタに関連付けられた属性を用いて、新たなデータを分類し、分類されたデータに対して統計処理を行ってもよい。例えば、各クラスタに属する複数のデータ組合せが共通な時間帯に取得されたデータの組合せである場合、分析部や分析装置等が、各クラスタに関連付けられた時間帯の新たなデータに対して、例えば、特許文献2に記載されているような相関分析を行ってもよい。
この場合、各クラスタに関連付ける属性は、例えば、ユーザ等により指定される。ユーザ等は、出力されたクラスタ情報501をもとに、各クラスタに属するデータ組合せに共通な属性を、当該クラスタに関連付ける属性として指定する。
クラスタ情報出力部450は、ユーザ等が、各クラスタに属するデータ組合せに共通する属性を判別するために、各データ組合せの属性に関連付けて、当該データ組合せが属するクラスタを出力してもよい。
図9は、本発明の実施の形態における、出力画面600の他の例を示す図である。図9の例では、各データ組合せが取得された時間に関連付けて、当該データ組合せが属するクラスタが示されている。これにより、ユーザ等は、例えば、クラスタ「c」、「c」、「c」が、それぞれ、昼間、夕方、深夜の時間帯に係るクラスタであることを容易に把握できる。
なお、分析部や分析装置等が、ユーザ等に代わって、各クラスタに属するデータ組合せに共通する属性を判別して、各クラスタに関連付け、新たなデータに対する分類、統計処理を行ってもよい。
また、データ記憶部300に複数の種別のデータ系列が記憶されている場合、2つの種別のデータ系列の異なる組合せごとに、ステップS101〜S108を繰り返してもよい。
以上により、本発明の実施の形態の動作が完了する。
次に、本発明の実施の形態の特徴的な構成を説明する。図1は、本発明の実施の形態の特徴的な構成を示すブロック図である。
図1を参照すると、本発明の実施の形態における、クラスタリング装置100(情報処理装置)は、データ記憶部300、及び、クラスタ生成部400を含む。
データ記憶部300は、データの組を複数記憶する。クラスタ生成部400は、複数のデータの組の各々がデータの値に従って配置された空間において、所定の誤差内で複数のデータの組のうちのできるだけ多くのデータの組を近似する近似線を生成する。そして、クラスタ生成部400は、生成された近似線をもとに、複数のデータの組を分類したクラスタを生成し、出力する。
本発明の実施の形態によれば、特性に応じたデータの分類を高速に行うことができる。その理由は、クラスタ生成部400が、データ組合せが配置された空間において、所定の誤差内でできるだけ多くのデータ組合せを近似する近似線を生成し、生成された近似線をもとに、クラスタを生成するためである。近似線の算出においては、例えば、ハフ変換における量子化誤差等、許容される誤差を適切に設定することにより、算出のための負荷を軽減できる。これにより、特許文献1や特許文献2にされている技術のように、分布密度関数の算出、あるいは、交差検定法やベイズ推定を応用した解析を行う場合に比べて、クラスタリングの負荷を低減でき、クラスタリングが高速に行われる。
また、これにより、多数の種別のデータが存在する場合や、大量のデータ組合せが存在する場合でも、種別の異なる組合せに対して、網羅的で、リアルタイムなクラスタリングを実行できる。
また、本発明の実施の形態によれば、クラスタリングと同時に、クラスタに含まれるデータ組合せの関係を表す近似式を生成できる。その理由は、上述のように、近似線生成部430が、近似線を生成するためである。
以上、実施形態を参照して本願発明を説明したが、本願発明は上記実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
例えば、本発明の実施の形態では、近似線として直線を用いているが、データ組合せの関係を近似できる線であれば、円や2次関数、ログ関数等、他の形状の線を近似線として用いてもよい。
また、本発明の実施の形態では、2つの種別のデータの組合せを2次元空間上に配置することにより、データ組合せ画像421を生成し、データ組合せ画像421上で近似線を生成している。しかしながら、n個の種別(nは2以上の整数)のデータの組合せが配置されたn次元空間上で、同様に近似線を抽出することにより、n個の種別のデータの組合せを分類するクラスタを生成してもよい。この場合、分析部や分析装置等が、近似線を用いて、例えば、n個の種別のうちの1個の種別のデータ値から他のn−1個の種別のデータ値を予測する等の分析処理を行ってもよい。
例えば、3つの種別のデータの組合せに対してクラスタが生成された場合、分析部や分析装置等は、各クラスタの近似線を用いて、入力として用いる種別のデータ値の変動幅に対する、出力として用いる他の2つの種別のデータ値の変動幅を予測する。
また、ある種別のデータ値の範囲が近似線によって異なる場合、分析部や分析装置等は、当該種別のデータ値によって、予測に用いる近似線を絞り込んでもよい。
また、本発明の実施の形態では、分析対象のデータとして、コンピュータシステムにおける入力パケットレート、CPU使用率等、コンピュータシステムの性能に係るデータを用いた。しかしながら、分析対象のデータは、互いに関連性のあるデータであれば、コンピュータにおける性能に係るデータ以外に、各種センサにより取得されたデータ等、どのようなデータでもよい。
この出願は、2014年3月18日に出願された日本出願特願2014−054451を基礎とする優先権を主張し、その開示の全てをここに取り込む。
100 クラスタリング装置
200 データ入力部
300 データ記憶部
400 クラスタ生成部
410 データ抽出部
420 データ配置部
421 データ組合せ画像
430 近似線生成部
440 クラスタ登録部
450 クラスタ情報出力部
500 クラスタ情報記憶部
501 クラスタ情報
600 出力画面
601 クラスタ情報表示部
602 データ組合せ画像表示部

Claims (15)

  1. データの組を複数記憶する、データ記憶手段と、
    前記複数のデータの組の各々がデータの値に従って配置された空間において、所定の誤差内で前記複数のデータの組のうちのできるだけ多くのデータの組を近似する近似線を生成し、前記生成された近似線をもとに、前記複数のデータの組を分類したクラスタを生成し、出力する、クラスタ生成手段と、
    を備え
    前記クラスタ生成手段は、前記生成した近似線から所定の範囲内に存在するデータの組を、前記生成するクラスタに分類する、
    情報処理装置。
  2. 前記クラスタ生成手段は、さらに、前記複数のデータの組から前記生成したクラスタに分類されたデータの組を除いたデータの組に対する前記近似線の生成、及び、前記クラスタの生成を繰り返すことにより、複数の前記クラスタを生成する、
    請求項に記載の情報処理装置。
  3. 前記クラスタ生成手段は、前記生成したクラスタを、当該クラスタの近似線を表す近似式とともに出力する、
    請求項1または2に記載の情報処理装置。
  4. さらに、前記クラスタ生成手段は、前記複数のデータの組の各々の属性と、当該データの組が分類された前記クラスタと、を関連付けて出力する、
    請求項1乃至のいずれかに記載の情報処理装置。
  5. 前記クラスタ生成手段は、ハフ変換により、前記近似線を生成する、
    請求項1乃至のいずれかに記載の情報処理装置。
  6. コンピュータに具備されたデータ記憶手段が、データの組を複数記憶し、
    前記コンピュータに具備されたクラスタ生成手段が、前記複数のデータの組の各々がデータの値に従って配置された空間において、所定の誤差内で前記複数のデータの組のうちのできるだけ多くのデータの組を近似する近似線を生成し、
    前記クラスタ生成手段が、前記生成された近似線をもとに、前記複数のデータの組を分類したクラスタを生成し、出力する、
    クラスタ生成方法であって、
    前記クラスタ生成手段は、前記クラスタを生成する場合、前記生成した近似線から所定の範囲内に存在するデータの組を、前記生成するクラスタに分類する、
    クラスタ生成方法。
  7. さらに、前記クラスタ生成手段が、前記複数のデータの組から前記生成したクラスタに分類されたデータの組を除いたデータの組に対する前記近似線の生成、及び、前記クラスタの生成を繰り返すことにより、複数の前記クラスタを生成する、
    請求項に記載のクラスタ生成方法。
  8. さらに、前記クラスタ生成手段が、前記生成したクラスタを、当該クラスタの近似線を表す近似式とともに出力する、
    請求項6または7に記載のクラスタ生成方法。
  9. さらに、前記クラスタ生成手段が、前記複数のデータの組の各々の属性と、当該データの組が分類された前記クラスタと、を関連付けて出力する、
    請求項6乃至8のいずれかに記載のクラスタ生成方法。
  10. 前記クラスタ生成手段は、前記クラスタを生成する場合、ハフ変換により、前記近似線を生成する、
    請求項6乃至9のいずれかに記載のクラスタ生成方法。
  11. コンピュータに、
    データの組を複数記憶し、
    前記複数のデータの組の各々がデータの値に従って配置された空間において、所定の誤差内で前記複数のデータの組のうちのできるだけ多くのデータの組を近似する近似線を生成し、前記生成された近似線をもとに、前記複数のデータの組を分類したクラスタを生成し、出力する、
    処理を実行させるプログラムであって、
    前記クラスタを生成する場合、前記生成した近似線から所定の範囲内に存在するデータの組を、前記生成するクラスタに分類する、
    処理を実行させるプログラム。
  12. さらに、前記複数のデータの組から前記生成したクラスタに分類されたデータの組を除いたデータの組に対する前記近似線の生成、及び、前記クラスタの生成を繰り返すことにより、複数の前記クラスタを生成する、処理を実行させる
    請求項11に記載のプログラム。
  13. 前記生成したクラスタを、当該クラスタの近似線を表す近似式とともに出力する、処理を実行させる
    請求項11または12に記載のプログラム。
  14. さらに、前記複数のデータの組の各々の属性と、当該データの組が分類された前記クラスタと、を関連付けて出力する、処理を実行させる
    請求項11乃至13のいずれかに記載のプログラム。
  15. 前記クラスタを生成する場合、ハフ変換により、前記近似線を生成する、処理を実行させる
    請求項11乃至14のいずれかに記載のプログラム。
JP2016508495A 2014-03-18 2015-03-03 情報処理装置、及び、クラスタリング方法 Active JP6213665B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2014054451 2014-03-18
JP2014054451 2014-03-18
PCT/JP2015/001101 WO2015141157A1 (ja) 2014-03-18 2015-03-03 情報処理装置、及び、クラスタリング方法

Publications (2)

Publication Number Publication Date
JPWO2015141157A1 JPWO2015141157A1 (ja) 2017-04-06
JP6213665B2 true JP6213665B2 (ja) 2017-10-18

Family

ID=54144148

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016508495A Active JP6213665B2 (ja) 2014-03-18 2015-03-03 情報処理装置、及び、クラスタリング方法

Country Status (3)

Country Link
US (1) US10642864B2 (ja)
JP (1) JP6213665B2 (ja)
WO (1) WO2015141157A1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112579581B (zh) * 2020-11-30 2023-04-14 贵州力创科技发展有限公司 一种数据分析引擎的数据接入方法及系统
CN116933107A (zh) * 2023-07-24 2023-10-24 水木蓝鲸(南宁)半导体科技有限公司 数据分布边界确定方法、装置、计算机设备和存储介质

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3494337B2 (ja) * 1997-01-10 2004-02-09 日本電信電話株式会社 視覚的データ分析結果の特徴情報生成装置
JP4036009B2 (ja) 2002-02-14 2008-01-23 富士ゼロックス株式会社 画像データ分類装置
JP5167970B2 (ja) * 2007-09-27 2013-03-21 株式会社Jvcケンウッド 画像情報処理装置、画像情報処理方法、および画像情報処理用プログラム
US8335384B2 (en) * 2007-09-27 2012-12-18 JVC Kenwood Corporation Apparatus for and method of processing image information to group image data pieces based on shooting intervals
JP5434569B2 (ja) * 2009-12-22 2014-03-05 ソニー株式会社 情報処理装置および方法、並びにプログラム
JP5141789B2 (ja) 2011-04-26 2013-02-13 日本電気株式会社 運用管理装置、運用管理システム、情報処理方法、及び運用管理プログラム
JP5537491B2 (ja) * 2011-05-12 2014-07-02 富士重工業株式会社 環境認識装置
JP2013008289A (ja) * 2011-06-27 2013-01-10 Nippon Telegr & Teleph Corp <Ntt> 行動パターン生成装置、行動パターン生成方法および行動パターン生成プログラム
JP5766073B2 (ja) * 2011-09-08 2015-08-19 株式会社Pfu 画像処理装置、画像処理方法、画像処理プログラム及び画像処理システム
JP5354138B1 (ja) 2012-03-02 2013-11-27 日本電気株式会社 キャパシティ管理支援装置、キャパシティ管理方法およびプログラム
JP6021557B2 (ja) * 2012-09-28 2016-11-09 株式会社Pfu 画像処理装置、画像処理システム、画像処理方法、及び画像処理プログラム

Also Published As

Publication number Publication date
WO2015141157A1 (ja) 2015-09-24
JPWO2015141157A1 (ja) 2017-04-06
US20170083605A1 (en) 2017-03-23
US10642864B2 (en) 2020-05-05

Similar Documents

Publication Publication Date Title
Alvarez-Melis et al. On the robustness of interpretability methods
US10311044B2 (en) Distributed data variable analysis and hierarchical grouping system
US11023778B2 (en) Techniques to embed a data object into a multidimensional frame
US20150127595A1 (en) Modeling and detection of anomaly based on prediction
JP6004016B2 (ja) 情報変換方法、情報変換装置および情報変換プログラム
US20140372175A1 (en) Method and system for detection, classification and prediction of user behavior trends
US9552408B2 (en) Nearest neighbor clustering determination and estimation algorithm that hashes centroids into buckets and redistributes vectors between clusters
Dai et al. A new reverse reduce-error ensemble pruning algorithm
Park et al. EvoGraph: An effective and efficient graph upscaling method for preserving graph properties
WO2015180340A1 (zh) 一种数据挖掘方法及装置
JP2017146888A (ja) 設計支援装置及び方法及びプログラム
JP2018045302A (ja) 情報処理装置、情報処理方法及びプログラム
JP2019046469A (ja) 多変数データの画像化
CN115545103A (zh) 异常数据识别、标签识别方法和异常数据识别装置
JP6213665B2 (ja) 情報処理装置、及び、クラスタリング方法
TW201730786A (zh) 執行以時間序列資料與分析資料當中的至少一部分作為輸入資料之分析處理的分析系統及分析方法
US10320636B2 (en) State information completion using context graphs
JP2014115920A (ja) 多クラス識別器、方法、及びプログラム
JPWO2018207225A1 (ja) 時系列データの分析制御方法および分析制御装置
US20230016044A1 (en) Techniques for creating and utilizing multidimensional embedding spaces
Ali et al. Technical review: performance of existing imputation methods for missing data in SVM ensemble creation
WO2023238414A1 (ja) 分類装置、分類方法、及び分類プログラム
WO2023238412A1 (ja) 分類装置、分類方法、及び分類プログラム
JP6336827B2 (ja) 画像検索装置、画像検索方法および検索システム
WO2023238413A1 (ja) 分類装置、分類方法、及び分類プログラム

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170530

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170728

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170822

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170904

R150 Certificate of patent or registration of utility model

Ref document number: 6213665

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150