JPH03164929A - 項目番号に依存しないクラスタリング装置 - Google Patents

項目番号に依存しないクラスタリング装置

Info

Publication number
JPH03164929A
JPH03164929A JP1305614A JP30561489A JPH03164929A JP H03164929 A JPH03164929 A JP H03164929A JP 1305614 A JP1305614 A JP 1305614A JP 30561489 A JP30561489 A JP 30561489A JP H03164929 A JPH03164929 A JP H03164929A
Authority
JP
Japan
Prior art keywords
clustering
pairs
item
items
clusters
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP1305614A
Other languages
English (en)
Inventor
Hiroyuki Mitani
三谷 弘之
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP1305614A priority Critical patent/JPH03164929A/ja
Publication of JPH03164929A publication Critical patent/JPH03164929A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔産業上の利用分野〕 本発明はクラスタリング装置に関し、特に医学9社会科
学、工学、および農学など産業上の各分野におけるデー
タの離散的な値をとるデータの分類において同一条件の
対が存在したとき、それらの同一条件の対を一括してク
ラスタリングする項1−1番号に依存しないクラスタリ
ング装置に関する。
〔従来の技術〕
従来、医学1社会科学、工学、および農学などの産業上
の各分野において、離散的な値をとる各種のデータの分
類を行うために、用いられる装置として、同一条件の対
が存在するときは一回につき一対のみのクラスタリング
を行う装置が知られている。
第2図はクラスタリングの対象となるデータの初期状態
のプロット図であり、第3図は第2図と同じデータの初
期状態における親近性最大の対および同一条件の対を示
すプロット図、第4図は第2図と同じデータにおいて人
間の感性により二つのクラスタに分類した状態を示すプ
ロット図である。
また、第13図は第2図と同じデータにおいて従来の装
置により行われた第1回目のクラスタリングの結果を示
すプロット図であり、第14図は第13図におけるクラ
スタ間の距離を示す説明図であり、さらに、第15図は
第13図のクラスタリングの最終結果を示す相系図(デ
ンドログラム)である。
例えば、第2図に示すデータにおいて、第3図に示すよ
うに実線で示した親近性最大の対(項目1−項1149
項目3 項Ll ’l 、項1−1’l  II″N−
+5項目4−項目67項]]6−項目72項目7−項目
8、項目8−項目9)が存在し、そのうち二重実線で示
した鼓も多くの親近性最大の対に含まれる項!−1(項
目4)を含む親近性最大の対(項目1項目42項目3−
項目4、項目4−項目51項目4−項目6)、すなわち
、同一条件の対か存在する場合、第13図のように同一
条件の対の中でともに項目番号の最小のもの同志の対(
項目1−項目4)のみをクラスタリングの対象とすると
いうような方法が知られている。
なお、第13国の各項I]間の距離を表わしたものか第
14図である。第14[jUは対称行列となるため下半
分は省略されている。対角要素は距離” o ”となる
。第14目中親近性最大の対、すなわち、距離絞小の対
は、項111 項+1’l、η′1113 項1」41
項1.1’l  項El ’5 、項11’l  項1
−16 。
項目6−項目77項目7−項目81項目8−項目9であ
り、このとき距離は“10“′である。このうち、同一
条件の対は、項目1−項目49項目3−項1」42項1
」4−項目51項目4−項1」6であり、第14図中実
線あるいは破線の丸つき数字で表わされている。
さらに、従来方式により、クラスタリングの対象となる
対は項目1−項目4であり、第14図中実線の丸つき数
字で表わされている。そして、項目1−項目4によるク
ラスタ(第13図の実線で囲まれた部分)が形成される
従来方式により、最長距離法に従ってクラスタリングの
距離を定義し、クラスタリングを進めた結果をデンドロ
グラムに表わしたものが第15図である。
この従来のクラスタリング装置は、本来クラスタリンダ
に関係のない項目番号がクラスタリングの優先順位に影
響を及ぼしてしまう。例えば、項目1や項目6の項目番
号は便宜的なものであり、どちらが項目1であっても本
来かまわないはずのものである。しかし、項目1と項目
4とを最初にクラスタリングした場合と、項目1と項目
6とを最初にクラスタリングした場合では、最終的に別
の結果になってしまう。すなわち、項1」のとり方によ
りクラスタリングの結果が5′・:るという問題があっ
た。
また、同一条件の対が存在するときも、−回につき一対
のみのクラスタリングを行っているので、ともに同一条
件でありながら別のクラスタになる(第14図の破線つ
き数字)という問題点があった6 また、この問題点により、このときできるクラスタとク
ラスタとの境が最終的に大きな境になって結果の分析に
苦慮し、多くの場合第4図のような人間の感性によるク
ラスタリングとは異る結果になるという問題点があった
さらに、単に親近性最大の対すべてをクラスタリングす
ると、第16図のように遠く離れた項目同志、例えば項
目1と項目9とが同じクラスタに属してしまうという問
題点もあった。
また、nを項目数としたとき、計算時間は口3に比例し
た値となる。
〔発明が解決しようとする課題〕
]二述した従来のクラスタリング装置は下記のよ・)な
問題点があった。
(1)本来クラスタリングに関係のない項目番号のとり
方によりクラスタリングの結果が異ってしまう。
(2)同一条件の対が存在するときも一回につき一対の
みのクラスタリングを行っているので、ともに同一条件
でありながら別のクラスタになってしまう。
(3)上記(1,) 、 (2)項の問題点により、こ
のときできるクラスタとクラスタとの境が最終的に大き
な境になって結果の分析に苦慮し、多くの場合人間の感
性によるクラスタリングとは異る結果になる。
(4)単に親近性最大の対すべてをクラスタリングする
と、遠く離れた項目同志が同じクラスタに属してしまう
(5)nを項目数としたとき、同一条件の対が多数存在
するときのクラスタリング回数は03回となり、多くの
計算時間を必要とする。
本発明の目的は、このような従来の問題点を少くし、同
一条件の対が同じクラスタに属するようなりラスタリン
グ結果をfi)、51算効率を向上させるためのクラス
タリング装置を提供することにある。
〔課題を解決するための手段〕
本発明の項1−1番づに依存しないクラスタリング装置
は、複数の項目またはクラスタに対し距離または類似度
で示す親近性によってクラスタリングを行うクラスタリ
ング装置において、 (A)親近性最大の対をすべて抽出する親近性最大対抽
出手段、 (B)抽出した前記親近性最大の対のうち最も多くの対
に含まれる項目またはクラスタを含む対である同一条件
の対を抽出する同一条件対抽出手段、 (C)前記同一条件の対すべてについて前記クラスタリ
ングを行うクラスタリング手段、(D>新しくできたク
ラスタとそのほかの項目またはクラスタとの親近性を計
算し直す親近性更新手段、 (E)前記親近性、前記クラスタリングの経過および前
記クラスタリングの結果を記憶する記憶手段、 (F)前記クラスタリングの終了条件を判定し処理順序
を制御する制御手段、 を備えている。
〔作用〕
同一条件の対が存在するとき、項目のとり方に関わりな
く同じクラスタリグの結果が得られる。
また、同一条件の対すべてを一括してクラスタリングす
ることにより、同一条件の対でありながら別のクラスタ
に分れてしまうということがなくなる。さらに、感性か
らみて最もクラスタと見なしやすい条件は親近性最大の
対が密集している場合なので、同一条件の対すべてを一
括してクラスタリングすることにより、人間の感性に近
いクラスタリング結果が得られる。
〔実施例〕
次に、本発明の実施例について図面を参照して説明する
第1図は本発明の一実施例のブロック図である。
第1図に示す項目番号に依存しないクラスタリング装置
は、親近性最大の対をすべて抽出する親近性最大対抽出
部1、抽出した親近性最大の対のうち最も多くの対に含
まれる項目またはクラスタを含む同一条件の対を抽出す
る同−条件対抽出部2、同一条件の対すべてにクラスタ
リングを行うクラスタリング部3、新しくできたクラス
タとそのほかの項目またはクラスタとの親近性を計算し
直す親近性更新部4、親近性、クラスタリングの経過、
およびクラスタリングの結果を記憶する記憶部5、クラ
スタリングの終了条件を判定し処理順序を制御する制御
部6から構成されている。
なお、制御部6は全体の制御を行うもので汎用の電子計
算機による制御でもよく、また、処理の対象となるクラ
スタリング前のデータである項目間の親近性はあらかじ
め記憶部5に記憶されているものとする。
0 次に、第1図に示す項目番号に依存しないクラスタリン
グ装置の動作を説明する。
始めに、開始命令が制御部6に入力されると、制御部6
は親近性最大対抽出部1−を起動する。親近性最大対抽
出部1は、記憶部5に記憶されている項目またはクラス
タ間の親近性データから親近性最大の対を抽出する。そ
の後、同−条件対抽出部2を起動する。同−条件対抽出
部2は、親近性最大の対のうち最も多くの対(こ含まれ
るr4’ロユ1またはクラスタを含む同一条件の対を抽
出する。その後、クラスタリング部3を起動する。クラ
スタリング部3は、同一条件の対に含まれるすべての項
目またはクラスタを一つの新しいクラスタとする。次に
、親近性更新部4を起動する。親近性更新部4は、新し
いクラスタとそのほかの項目またはクラスタとの親近性
を計算し直す。このようにして、次々にクラスタリング
を繰返していくと、項目またはクラスタの数が減少して
いって最後は1つのクラスタにまとまる。そして、制御
部6に1周期の処理が終了したことを知らせる。制御部
6は、記憶部5の中のクラスタの数が” ] ”になっ
たか否かを判定し、もし、” 2 ”以上であれば、ま
だクラスタリングが終了していないことを意味している
ので、親近性最大対抽出部1を再起動してクラスタリン
グを続行し、′°1°”になったとき終了する。
次に、第1図に示す項目番号に依存しないクラスタリン
グ装置によるクラスタリングの過程およびその結果につ
いて説明する。
第5図〜第11図は本装置によるクラスタリングの過程
および結果を示す図で、距離の更新に最長距離法を用い
た例である。各プロット図(第5図、第7図、第9図、
第11図)におけるクラスタ間を結ぶ実線は親近性最大
の対、二重実線は同一条件の対をそれぞれ示す。また、
各クラスタ間の距離を小ず14(第c)1% 、第81
4.第101’4 、第12図)中の実線火付き数字は
その回にクラスタリングされる対を示す。
第12図は第2図のデータにおいて2つのクラスタに分
類する場合における第1図の実施例と従来の装置との結
果を比較した図であり、第1図の実施例によるクラスタ
を実線で、従来の装置によるクラスタを破線で、同一条
件の対を項目間の重実線でそれぞれ示している。
〔発明の効果〕
以上説明したように、本発明は、下記の効果を有する。
(1)項目番号のとり方にがかわらず、同じクラスタリ
ング結果が得られる。
(2)同一条件の対でありながら、項目番号の違いによ
り別のクラスタとなってしまうことがない。
〈3)人間の感性に近いクラスタリング結果を得ること
ができる。
(4)単に親近性最大の対すべてをクラスタリングした
場合でも、遠く離れた項目同志が同しクラスタに属して
しまうことがない。
(5)mをクラスタリング回数、nを項目数としたとき
、計算時間は従来の装置ではn3に比例し、本発明では
mn2に比例するが、 3 n > m > Oであることがらn3>mn2となり
、計算効率が高くなる。
【図面の簡単な説明】
第1図は本発明の一実施例のブロック図、第2図はクラ
スタリングの対象となるデータの初期状態のプロット図
、第3図は第2図と同じデータの初期状態における親近
性最大の対および同一条件の対を示すプロット図、第4
図は第2図と同じデータにおいて人間の感性により二つ
のクラスタ65分類した状態を小ずブ゛17ツ1−国、
第51′4〜・第11図は第2図と同じデータにおいて
第1図の実施例により第1回目のクラスタリングを行っ
た結果を示すプロット図で、第5図および第6図は第1
回目のクラスタリング、第7図および第8図は第2回目
のクラスタリング、第9図および第10図は第3回目の
クラスタリングにおいてそれぞれ結果を示すプロット図
および各クラスタ間の距離を示す説明図、第11図はこ
れらの最終結果を示すデンドロダラム、第12図は第2
図と同じデー4 夕において二つのクラスタに分類する場合の第1図の実
施例と従来の装置とのクラスタリング結果を比較した図
、第13図〜第15図は第2図と同じデータにおいて従
来の装置により行われたクラスタリングの過程および結
果を示す図、第13図および第14図は第1回目のクラ
スタリングにおいてそれぞれ結果を示すプロット図およ
び各クラスタ間の距離を示す説明図、第15図はこれら
の最終結果を示すデンドロダラム、第16図は第2図と
同じデータにおいて親近性最大の対すべてをクラスタリ
ングしたためIJ:いに遠いη′(11同志(・Jつい
てもクラスタリングした従来の装置による例を示すプロ
ット図である。 1・・・親近性最大対抽出部、2・・・同−条件対抽出
部、3・・・クラスタリング部、4・・・親近性更新部
、5・・・記憶部、6・・・制御部。

Claims (1)

  1. 【特許請求の範囲】 複数の項目またはクラスタに対し距離または類似度で示
    す親近性によってクラスタリングを行うクラスタリング
    装置において、 (A)親近性最大の対をすべて抽出する親近性最大対抽
    出手段、 (B)抽出した前記親近性最大の対のうち最も多くの対
    に含まれる項目またはクラスタを含む対である同一条件
    の対を抽出する同一条件対抽出手段、 (C)前記同一条件の対すべてについて前記クラスタリ
    ングを行うクラスタリング手段、(D)新しくできたク
    ラスタとそのほかの項目またはクラスタとの親近性を計
    算し直す親近性更新手段、 (E)前記親近性、前記クラスタリングの経過、および
    前記クラスタリングの結果を記憶する記憶手段、 (F)前記クラスタリングの終了条件を判定し処理順序
    を制御する制御手段、 を備えたことを特徴とする項目番号に依存しないクラス
    タリング装置。
JP1305614A 1989-11-24 1989-11-24 項目番号に依存しないクラスタリング装置 Pending JPH03164929A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP1305614A JPH03164929A (ja) 1989-11-24 1989-11-24 項目番号に依存しないクラスタリング装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP1305614A JPH03164929A (ja) 1989-11-24 1989-11-24 項目番号に依存しないクラスタリング装置

Publications (1)

Publication Number Publication Date
JPH03164929A true JPH03164929A (ja) 1991-07-16

Family

ID=17947259

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1305614A Pending JPH03164929A (ja) 1989-11-24 1989-11-24 項目番号に依存しないクラスタリング装置

Country Status (1)

Country Link
JP (1) JPH03164929A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002532786A (ja) * 1998-12-09 2002-10-02 インターナショナル・ビジネス・マシーンズ・コーポレーション イメージ・オブジェクトのセットから、相関のあるイメージ・オブジェクトのサブセットを識別する方法及び装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002532786A (ja) * 1998-12-09 2002-10-02 インターナショナル・ビジネス・マシーンズ・コーポレーション イメージ・オブジェクトのセットから、相関のあるイメージ・オブジェクトのサブセットを識別する方法及び装置

Similar Documents

Publication Publication Date Title
WO2020143302A1 (zh) 卷积神经网络模型优化方法、装置、计算机设备及存储介质
CN105426700B (zh) 一种批量计算基因组直系同源基因进化速率的方法
Rachid et al. A practical and scalable tool to find overlaps between sequences
CN113743650B (zh) 电力负荷预测方法、装置、设备与存储介质
CN104598485B (zh) 处理数据库表的方法和设备
JPH03164929A (ja) 項目番号に依存しないクラスタリング装置
CN111767265A (zh) 一种连接操作中数据倾斜方法、系统及计算机设备
CN104298570A (zh) 数据处理方法和装置
CN112347101A (zh) 标签数据存储方法、计算机装置和存储介质
CN106844533A (zh) 一种数据分组聚集方法及装置
CN116204647A (zh) 一种目标比对学习模型的建立、文本聚类方法及装置
US20030065477A1 (en) Two-sample permutation tests
CN105224697A (zh) 带过滤条件的排序方法和用于执行所述方法的装置
CN108021935A (zh) 一种基于大数据技术的维度约简方法及装置
CN113779248A (zh) 数据分类模型训练方法、数据处理方法及存储介质
JP2017188063A (ja) 画像検索システム、画像検索方法、及び画像検索用プログラム
Tokuhara et al. Using label information in a genetic programming based method for acquiring block preserving outerplanar graph patterns with wildcards
CN110889271A (zh) 基于模板的数据表构建方法、设备及存储介质
CN110222018A (zh) 数据汇总执行方法及装置
Lin et al. Referential hierarchical clustering algorithm based upon principal component analysis and genetic algorithm
CN114842914B (zh) 一种基于深度学习的染色质环预测方法及系统
CN111737948B (zh) 一种错别字的生成方法及终端
KR102185980B1 (ko) 테이블 처리 방법 및 장치
US10861585B2 (en) Information processing apparatus and method of collecting genome data
US20220335039A1 (en) Data file distribution method and equipment, smart device and computer storage medium