JP2013156697A - クラスタリング装置及び方法及びプログラム - Google Patents

クラスタリング装置及び方法及びプログラム Download PDF

Info

Publication number
JP2013156697A
JP2013156697A JP2012014519A JP2012014519A JP2013156697A JP 2013156697 A JP2013156697 A JP 2013156697A JP 2012014519 A JP2012014519 A JP 2012014519A JP 2012014519 A JP2012014519 A JP 2012014519A JP 2013156697 A JP2013156697 A JP 2013156697A
Authority
JP
Japan
Prior art keywords
clustering
cluster
new
adjacent node
accuracy
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2012014519A
Other languages
English (en)
Inventor
Hiroaki Shiokawa
浩昭 塩川
Yasuhiro Fujiwara
靖宏 藤原
Makoto Onizuka
真 鬼塚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2012014519A priority Critical patent/JP2013156697A/ja
Publication of JP2013156697A publication Critical patent/JP2013156697A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】 グラフクラスタリング処理結果に対して、細かい精度でのクラスタリング精度向上を可能にする。
【解決手段】 本発明は、グラスデータのクラスタリング処理対象ノードを任意の順番で選択し、クラスタリングを行った中間結果を生成し、該中間結果を集約し、集約されたクラスタに対して繰り返しクラスタリング処理を行う際に、中間結果を集約する際に設定された、クラスタリング精度向上量が最大となる隣接ノードと該隣接ノードに対して付与したクラスタラベルの組を記憶手段のクラスタ対応表から取得し、該隣接ノードと該クラスタラベルを分解して新たなクラスタを生成し、精度向上の余地があるかを判定し、精度向上の余地がなくなるまで、新たなクラスタを生成する処理を繰り返し、精度向上の余地がなくなった場合には、未検証の新たなクラスタの対でクラスタリング境界面を更新する。
【選択図】 図4

Description

本発明は、クラスタリング装置及び方法及びプログラムに係り、特に、グラフに含まれるエッジデータを用いてグラフに含まれるノードデータをクラスタリングするためのクラスタリング装置及び方法及びプログラムに関する。
グラフクラスタリング処理として、グラフデータが入力されると、グラフに含まれる全てのエッジデータを用いてクラスタリング処理対象ノードを任意の順番で選択し、クラスタリングの中間結果を生成し、集約する。さらに、集約されたクラスタに対して繰り返しクラスタリング処理を行うことにより、クラスタサイズの均一化及び処理対象ノードの削減が可能な技術がある(例えば、非特許文献1参照)。
図1は、クラスタリング装置の構成を示し、図2は、従来のクラスタリング装置におけるクラスタリングのフローチャートである。
クラスタリング装置210は、入力部211、制御部212、出力部213から構成される。入力部211は、グラフデータ記憶装置200から読み込んだグラフデータを主記憶装置上に展開し、制御部212は、図2に示すフローの処理を行い、出力部213に渡す。出力部213は、制御部212により得られたクラスタリング結果を任意の装置、例えば、クラスタリング結果記憶装置220等に出力する。
以下に制御部212における処理について説明する。図3に従来技術の集約イメージを示す。
まず、制御部212は、図3(A)に示すようなグラフデータが入力されると、乱数を用いてグラフデータから任意のノードを一つ選択し、そのノードに隣接するノードの一覧を主記憶装置上の隣接ノードキューに挿入する(ステップ100)。
次に、隣接ノードキューの中から乱数を用いて隣接ノードを選択し、当該隣接ノードキューから当該ノードを削除する(ステップ110)。
ステップ100で選択されたノードとステップ110において選択された隣接ノードの2つのノードを同じクラスタに分類した際のクラスタリング精度向上量を算出し、隣接ノードとクラスタリング精度向上量からなる組({隣接ノード:クラスタリング精度向上量})を生成し、主記憶装置上の処理済キューに挿入する(ステップ120)。クラスタリング精度向上量は、非特許文献1に示されるように、以下の式で求められる。
[定義1]クラスタリング精度向上量ΔQを以下のように計算する。
Figure 2013156697
ただし、ΔQはクラスタリング精度向上量、eijはクラスタiとクラスタjの間に存在するエッジの数、mはグラフ内に存在する全エッジ数、Cはクラスタの集合である。
隣接ノードキューに隣接ノードが存在する場合はステップ110の処理に戻り、存在しない場合は、クラスタリング精度向上量が最大となる隣接ノードを主記憶装置上の処理済キューから選択し、ノードと隣接ノードに対して同一のクラスタラベルを付与し、主記憶装置上のクラスタ対応表に格納する。なお、クラスタラベル名については任意のクラスタラベルを付与するものとする。主記憶装置上のクラスタ対応表には、ノードa、隣接ノードbであった場合は、ハッシュマップの形式で{クラスタラベル:ノードa,ノードb}の組が格納される(ステップ140)。
次に、主記憶装置上に展開していたグラフデータを取得し、主記憶装置上のクラスタ対応表を読み込み、ノード同士のペアでグラフデータ全体のクラスタリング精度を算出する。グラフデータ全体のクラスタリング精度は、非特許文献1に示されるように、以下の式で求められる。
[定義2]クラスタリング精度Qを以下のように算出する。
Figure 2013156697
により求められる。
そして、前回当該処理を実行したときのクラスタリング精度との差分を求める。なお、初回実行時は前回のクラスタリング精度を0と見做して判定するものとする。上記のステップ100からステップ150の処理イメージを図3(B)に示す。差分がある場合、つまり、ノード同士のペアでクラスタリング精度向上の余地がある場合は(ステップ150、No)、ステップ100に戻る。一方、当該差分がない場合、つまり、ノード同士のペアでクラスタリング精度向上の余地がない場合には(ステップ150,Yes)、各クラスタに対して、図3(C)に示すように、クラスタに含まれるノードとエッジを1ノードに集約し、主記憶装置のグラフデータを更新する(ステップ160)。さらに、クラスタ同士のペアでグラフデータ全体のクラスタリング精度を算出し、前回の当該処理を実行した時の差分を判定する。なお、初回実行時は前回のクラスタリング精度を0と見做して判定するものとする。差分がある場合は(ステップ170、No)ステップ100に戻り、差分がない場合は(ステップ170,Yes)最終的なクラスタ対応表をクラスタリング結果記憶装置220に出力して当該処理を終了する。
上記の従来の技術は、クラスタサイズの均一化と、処理に利用するエッジ数・ノード数の削減により、中間結果の集約による処理量を削減することが可能であり、1億ノード規模のグラフのクラスタリングを2時間半程度で処理可能である。
Louvain method [Vincent D Blondel, Journal of Statistical Mechanics: Theory and Experiment, 2008年10月9日]
しかしながら、上記従来技術は、集約されたクラスタ同士のみを再帰的にクラスタリング処理するため、細かい粒度(ノード単位)でのクラスタリング精度向上ができない。
また、クラスタリング処理終了時に、クラスタの境界面を修正し、クラスタリング精度を向上させる処理を持たないため、クラスタリング精度を向上させることができない。
本発明は、上記の点に鑑みなされたもので、グラフクラスタリング処理結果に対して、細かい精度でのクラスタリング精度向上を可能とするクラスタリング装置及び方法及びプログラムを提供することを目的とする。
上記の課題を解決するため、本発明(請求項1)は、入力されたグラスデータをクラスタリングして出力するクラスタリング装置であって、
前記グラスデータのクラスタリング処理対象ノードを任意の順番で選択し、クラスタリングを行った中間結果を生成し、該中間結果を集約し、集約されたクラスタに対して繰り返しクラスタリング処理を行う制御手段において、
集約されたクラスタ集合から未検証の新たなクラスタを生成する新クラスタ生成手段と、
生成された前記新たなクラスタについて、精度向上の余地があるかを判定する判定手段と、
前記判定手段で精度向上の余地がなくなるまで、前記新クラスタ生成手段、前記判定手段を繰り返し、精度向上の余地がなくなった場合には、未検証の新たなクラスタの対でクラスタリング境界面を更新するクラスタリング境界面更新手段と、を有する。
また、本発明(請求項2)は、前記新クラスタ生成手段において、前記中間結果を集約する際に設定された、クラスタリング精度向上量が最大となる隣接ノードと該隣接ノードに対して付与したクラスタラベルの組を記憶手段のクラスタ対応表から取得し、該隣接ノードと該クラスタラベルを分解して新たなクラスタを生成する。
クラスタリング処理では、クラスタリングされたもの同士を更にクラスタリングするといった処理を行うことにより、未検証のクラスタ対が多く存在し、未検証のクラスタ対がさらにクラスタリング精度を向上させる可能性を有する。本発明では、クラスタリング処理より集約されたクラスタリング結果を分解して、新たなクラスタを生成し、そのクラスタリング精度を評価し、クラスタリング精度が向上する場合のみクラスタ境界面を修正することにより、クラスタリングの精度が向上する。ここで、クラスタ境界面とは、図4に示すように、クラスタ対応表における各クラスタに所属するノードの組み合わせであり、例えば、クラスタ対応表に2つのクラスタC1とC2のみが存在するとき、グラフに含まれる各ノードがC1とC2のどちらにどのように所属するかに依存して、クラスタ境界面が存在する。本発明では、クラスタに含まれるノードとエッジを1つのノードに集約した後、当該クラスタ境界面を修正することにより、クラスタリング精度がさらに向上する。
クラスタリング装置の構成図である。 従来のクラスタリング装置におけるクラスタリングのフローチャートである。 従来技術の集約イメージである。 本発明のクラスタ境界面の更新を示す図である。 本発明のクラスタリング装置のハードウェア構成図である。 本発明の一実施の形態におけるグラフデータ及びそのスパースベクトルの例である。 本発明の一実施の形態における同一クラスタに属するノードのラベル付けの例である。 本発明の一実施の形態におけるクラスタリング処理のフローチャートである。 本発明の一実施の形態におけるクラスタ対応表の分解・統合検証例である。
以下、図面と共に本発明の実施の形態を説明する。
以下の実施の形態では、図1の構成及び図2のフローチャートをベースとして説明する。
図5は、本発明のクラスタリング装置のハードウェア構成を示す。クラスタリング装置として用いられるコンピュータは、CPU100、主記憶装置110、二次記憶装置120、入出力装置130から構成され、図1における制御部212は、CPU100によって実行される。また、入力部211より入力されたグラフデータは主記憶装置110上の隣接ノードキューに展開される。図6に、グラフデータ及びそのスパースベクトルの例を示す。入力されるグラフデータは、図6(B)に示すようにノード間のエッジで表現されたものであり、主記憶装置110上に図6(C)に示すように展開される。また、処理済みキューも主記憶装置110上に配置される。グラフデータ記憶装置200及びクラスタリング結果記憶装置220は、二次記憶装置120に含まれるハードディスクやフラッシュメモリドライブ等の記録媒体である。また、入力部211、出力部213は、入出力装置130に含まれる。
以下の実施の形態におけるクラスタリング装置の構成は、図1と同様であるが、制御部212の動作が異なる。
図7(A)に示すようなデータが入力されると、ノード集約が行われ、同図(B)に示すように、ノード"1"と"2"が同一クラスタ(C9)に属するノードとしてラベル付けされ、{c9:1,2}が対応表に設定されている。本発明では、この状況からさらに、クラスタリング精度が向上する余地があるか否かを判定し、ある場合にはクラスタ対応表の結果を分解して、更に新たなクラスタを作成する。
図8は、本発明の一実施の形態におけるクラスタリング処理のフローチャートである。
ステップ200〜ステップ260までは、図2のステップ100〜160と同様の処理であるので、その説明を省略する。
図8のステップ270において、制御部212は、これまでの処理において未検証であったクラスタ対を統合した際のクラスタリング精度向上量を計算し、ステップ260が終了した時点におけるクラスタリング精度を上回るか否かを試算する。具体的には、主記憶装置110上のクラスタ対応表の示す結果{クラスタラベル:ノードa,ノードb}を分解して、これまでの処理において未検証であった新たなクラスタを作成し、精度向上が見られるか検証する。なお、クラスタリング精度向上量の算出方法は、従来の技術と同様である。クラスタリング情報を上回った場合(ステップ270,Yes)、つまり、クラスタ同士のペアでクラスタリング精度向上の余地がない場合は、それらのクラスタ対を同一のクラスタとして統合・ラベル付けし、クラスタ境界面を更新する(ステップ280)。
図9は、本発明の一実施の形態におけるクラスタ対応表の分解・統合検証例を示す。図9に示すように、ステップ260終了時点において、{C1:1,2,3,4}と{C2:5,6}の2つのクラスタの間にクラスタ境界面が設定されているものとする。
クラスタ対応表(図9(A))から任意のクラスタを選択し、選択したクラスタ(C1)に含まれるノード{1,2,3,4}を、同一のクラスタとして統合し、ラベル付けする前の状態に戻すことにより分割を行う(図9(B))。なお、クラスタ対応表はクラスタが統合され同一のクラスタとしてラベル付けされる前の状態を任意の記憶装置(主記憶装置または二次記憶装置)に保持し、状態を遡ることができるものとする。
次に、分割されたクラスタに対して統合検証を行う。図9(B)に示すように、対応表には、{C0:1,2,3}、ノード4、{C2:5,6}が設定されている。クラスタリング精度が向上する場合は、それらのクラスタ対を同一のクラスタとして統合・ラベル付けを行い({C0:1,2,3},{C3:4,5,6})、クラスタ対応表を更新することにより、クラスタC0とクラスタC3を新たなクラスタ境界面として更新する(図9(C))。
一方、クラスタ同士のペアでクラスタリング精度向上の余地がある場合は(ステップ270,No)、ステップ200に移行する。
なお、上記の実施の形態における図1に示す制御部の動作をプログラムとして構築し、クラスタリング装置として利用されるコンピュータにインストールして実行させる、または、ネットワークを介して流通させることが可能である。
本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において、種々変更・応用が可能である。
100 CPU
110 主記憶装置
120 二次記憶装置
130 入出力装置
200 グラフデータ記憶装置
210 クラスタリング装置
211 入力部
212 制御部
213 出力部
220 クラスタリング結果記憶装置

Claims (5)

  1. 入力されたグラスデータをクラスタリングして出力するクラスタリング装置であって、
    前記グラスデータのクラスタリング処理対象ノードを任意の順番で選択し、クラスタリングを行った中間結果を生成し、該中間結果を集約し、集約されたクラスタに対して繰り返しクラスタリング処理を行う制御手段において、
    集約されたクラスタ集合から未検証の新たなクラスタを生成する新クラスタ生成手段と、
    生成された前記新たなクラスタについて、精度向上の余地があるかを判定する判定手段と、
    前記判定手段で精度向上の余地がなくなるまで、前記新クラスタ生成手段、前記判定手段を繰り返し、精度向上の余地がなくなった場合には、未検証の新たなクラスタの対でクラスタリング境界面を更新するクラスタリング境界面更新手段と、
    を有することを特徴とするクラスタリング装置。
  2. 前記新クラスタ生成手段は、
    前記中間結果を集約する際に設定された、クラスタリング精度向上量が最大となる隣接ノードと該隣接ノードに対して付与したクラスタラベルの組を記憶手段のクラスタ対応表から取得し、該隣接ノードと該クラスタラベルを分解して新たなクラスタを生成する
    請求項1記載のクラスタリング装置。
  3. 入力されたグラスデータをクラスタリングして出力するクラスタリング方法であって、
    前記グラスデータのクラスタリング処理対象ノードを任意の順番で選択し、クラスタリングを行った中間結果を生成し、該中間結果を集約し、集約されたクラスタに対して繰り返しクラスタリング処理を行う際に、
    集約されたクラスタ集合から未検証の新たなクラスタを生成する新クラスタ生成ステップと、
    生成された前記新たなクラスタについて、精度向上の余地があるかを判定し、精度向上の余地がなくなるまで、前記新クラスタ生成ステップを繰り返し、精度向上の余地がなくなった場合には、未検証の新たなクラスタの対でクラスタリング境界面を更新するクラスタリング境界面更新ステップと、
    を行うことを特徴とするクラスタリング方法。
  4. 前記新クラスタ生成ステップにおいて、
    前記中間結果を集約する際に設定された、クラスタリング精度向上量が最大となる隣接ノードと該隣接ノードに対して付与したクラスタラベルの組を記憶手段のクラスタ対応表から取得し、該隣接ノードと該クラスタラベルを分解して新たなクラスタを生成する
    請求項3記載のクラスタリング方法。
  5. コンピュータを、
    請求項1または2に記載のクラスタリング装置の各手段として機能させるためのクラスタリングプログラム。
JP2012014519A 2012-01-26 2012-01-26 クラスタリング装置及び方法及びプログラム Pending JP2013156697A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012014519A JP2013156697A (ja) 2012-01-26 2012-01-26 クラスタリング装置及び方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012014519A JP2013156697A (ja) 2012-01-26 2012-01-26 クラスタリング装置及び方法及びプログラム

Publications (1)

Publication Number Publication Date
JP2013156697A true JP2013156697A (ja) 2013-08-15

Family

ID=49051847

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012014519A Pending JP2013156697A (ja) 2012-01-26 2012-01-26 クラスタリング装置及び方法及びプログラム

Country Status (1)

Country Link
JP (1) JP2013156697A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116757278A (zh) * 2023-08-21 2023-09-15 之江实验室 一种预测模型的训练方法、装置、存储介质及电子设备

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010125781A1 (ja) * 2009-04-27 2010-11-04 パナソニック株式会社 データ処理装置、データ処理方法、プログラム、及び集積回路

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010125781A1 (ja) * 2009-04-27 2010-11-04 パナソニック株式会社 データ処理装置、データ処理方法、プログラム、及び集積回路

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
JPN6014018830; Andreas Noack, et al.: Multi-Level Algorithms for Modularity Clustering, [online] , 20081229, pp.1-12, arXiv *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116757278A (zh) * 2023-08-21 2023-09-15 之江实验室 一种预测模型的训练方法、装置、存储介质及电子设备
CN116757278B (zh) * 2023-08-21 2024-01-09 之江实验室 一种预测模型的训练方法、装置、存储介质及电子设备

Similar Documents

Publication Publication Date Title
US20200356901A1 (en) Target variable distribution-based acceptance of machine learning test data sets
JPWO2012086444A1 (ja) 監視データ分析装置、監視データ分析方法および監視データ分析プログラム
JP5871192B2 (ja) 監視データ分析装置、監視データ分析方法および監視データ分析プログラム
CN110909868A (zh) 基于图神经网络模型的节点表示方法和装置
KR20130075630A (ko) 사용자들간의 친밀도에 기초하여 친구의 친구를 추천하는 소셜 네트워크 서비스 시스템 및 방법
CN105677645B (zh) 一种数据表比对方法和装置
JP5600693B2 (ja) クラスタリング装置及び方法及びプログラム
US10313457B2 (en) Collaborative filtering in directed graph
US20140310248A1 (en) Verification support program, verification support apparatus, and verification support method
JP5547128B2 (ja) クラスタリング装置及び方法及びプログラム
JP2013156697A (ja) クラスタリング装置及び方法及びプログラム
JP5600694B2 (ja) クラスタリング装置及び方法及びプログラム
JP6213665B2 (ja) 情報処理装置、及び、クラスタリング方法
US8798982B2 (en) Information processing device, information processing method, and program
JP5491430B2 (ja) クラス分類装置、クラス分類方法、及びクラス分類プログラム
JP6067596B2 (ja) ペアリング演算装置、マルチペアリング演算装置、プログラム
JP2011237989A (ja) 半導体集積回路の設計装置、その設計方法、及びその設計プログラム
JP6831307B2 (ja) 解算出装置、解算出方法及び解算出プログラム
JP2014164336A (ja) モデル分析装置及びモデル分析方法及びモデル分析プログラム
JP5008096B2 (ja) 文書自動分類方法及び文書自動分類システム
TWI574169B (zh) 解決方案搜尋系統之操作方法及解決方案搜尋系統
US9530104B1 (en) Scalable bootstrap method for assessing the quality of machine learning algorithms over massive time series
JP2020038557A (ja) 判定装置、判定方法、および判定プログラム
Nguyen et al. Some observations on representation of dependency degree k
WO2018142507A1 (ja) シミュレーション方法、システム、及びプログラム

Legal Events

Date Code Title Description
RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20131001

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140117

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140430

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140513

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140626

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20140812