JP2003296696A - クラスタリング装置およびクラスタリング方法 - Google Patents

クラスタリング装置およびクラスタリング方法

Info

Publication number
JP2003296696A
JP2003296696A JP2002100446A JP2002100446A JP2003296696A JP 2003296696 A JP2003296696 A JP 2003296696A JP 2002100446 A JP2002100446 A JP 2002100446A JP 2002100446 A JP2002100446 A JP 2002100446A JP 2003296696 A JP2003296696 A JP 2003296696A
Authority
JP
Japan
Prior art keywords
data
cell
som
learning
distance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2002100446A
Other languages
English (en)
Other versions
JP2003296696A5 (ja
Inventor
Nobuyuki Matsui
伸之 松井
Noriaki Koeda
徳晃 小枝
Kazuyuki Kanai
一之 金井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sysmex Corp
Original Assignee
Sysmex Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sysmex Corp filed Critical Sysmex Corp
Priority to JP2002100446A priority Critical patent/JP2003296696A/ja
Publication of JP2003296696A publication Critical patent/JP2003296696A/ja
Publication of JP2003296696A5 publication Critical patent/JP2003296696A5/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 信頼性の高い分類分けができ、距離をセル間
の距離を視覚的に認識できるように改良したSOM作成
装置を提供する。 【解決手段】 数値の組からなる「ベクトルデータ」を
含んだ「学習データが読み込まれる学習データ読込部
と、学習データ読込部で読み込まれた複数の学習データ
をもとにして、2次元面上に規則的に配列された「セ
ル」に位置情報が割り付けられたマップを作成するマッ
プ作成部と、割り付けられた位置情報にもとづいてマッ
プ上の各セル間の「距離」を算出する距離演算部と、マ
ップ上に距離演算部で算出された距離を視覚的に表示す
るための距離表示部を設けるようにする。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、ベクトルとして与
えられている情報を、その類似度から分類するクラスタ
リング装置に関する。
【0002】
【従来の技術】従来、情報のクラスタリングを行う装置
としてさまざまなものが提案されている。情報のクラス
タリングを行う技術の一例として、3つ以上の数値の組
で1つのデータが構成されるいわゆる多次元ベクトルデ
ータの集合がある場合に、これらのデータ群を2次元の
マップ上に表現することにより、視覚的にわかりやすく
データ群を性質ごとにクラスタリングすることができる
SOM(自己組織化マップ(Self-Organizing Maps)の
略称であり、以下単にSOMと称す)の技術がある。
【0003】SOMとは、2次元領域からなるマップで
あり、セル(ニューロンとも呼ばれ、規則正しく配置さ
れた升目)により区切られているマップである。各セル
には、「参照データ」と呼ばれるベクトルデータが割り
付けられる。これによって各セルは位置情報を持つこと
となる。SOMの技術では、各セルの位置情報(すなわ
ちセル間の距離)をもとにクラスタリングを行う。
【0004】SOMの技術はニューラルネットワークの
ひとつであり、「教師なし学習過程」をとるものであ
る。また、SOMの技術は、T.Kohonenにより提案され
たものである。
【0005】
【発明が解決しようとする課題】従来のクラスタリング
装置で行われているクラスタリング技術、例えばSOM
の技術によれば、2次元面からなるマップに、規則正し
い升目模様のセル境界線が表示されるだけであり、セル
間の距離に関する情報については視覚的に得ることがで
きていない。従って、従来のSOMを視覚的にクラスタ
リングする場合、距離が短い(すなわち類似度が高い)
隣り合ったセルを別々のクラスタに分類してしまう一方
で、距離が長い(すなわち類似度が低い)隣り合ったセ
ルを同じクラスタに分類してしまうことがあり、信頼性
の高いクラスタリングをすることが難しいという課題が
あった。
【0006】そこで本発明は、セル間の距離を視覚的に
把握することができるようにすることにより信頼性の高
いクラスタリングを可能としたクラスタリング装置を提
供することを目的とする。
【0007】上述のSOMの技術によれば、学習データ
に属性データ(データの種類(他の何らかの方法で定め
る種類)を表すデータ)を持たせておき、属性データと
関連付けた「発火情報」をSOM上のセルに割り付ける
ことが行われている。そして発火情報からクラスタの形
を視覚的に予想することによってSOMのクラスタリン
グが行われていた。しかし、従来の視覚によるクラスタ
リングはオペレータの経験によるところが大きく、信頼
性の高いものではなかった。
【0008】そこで、本発明は、学習データの属性を統
計的に考慮したクラスタリングを行うことにより信頼性
の高いクラスタリングを可能としたクラスタリング装置
を提供することを目的とする。
【0009】学習データの属性を考慮し、統計的な裏付
けがなされたクラスタリングを行ったのちに、クラスタ
を多少調整することにより、さらに現実的なクラスタリ
ングを行うことができる場合がある。
【0010】そこで、本発明は、統計量によるクラスタ
リングの結果を元に、さらに現実的なクラスタに加工す
る際に役立つ「判別特性値」と呼ぶ統計的な数値、ある
いはセル間の距離に基づいてクラスタの調整を可能とす
ることにより信頼性の高いクラスタリングを可能とした
クラスタリング装置を提供することを目的とする。
【0011】
【課題を解決するための手段】上記課題を解決するため
になされた本発明のクラスタリング装置は、数値の組か
らなる「ベクトルデータ」を含んだ「学習データ」が読
み込まれる学習データ読込部と、学習データ読込部で読
み込まれた複数の学習データをもとにして、2次元面上
に規則的に配列された「セル」に位置情報が割り付けら
れたマップを作成するマップ作成部と、マップ上の各セ
ル間の「距離」を算出する距離演算部と、マップ上に距
離演算部で算出された距離を視覚的に表示するための距
離表示部を設ける。
【0012】
【発明の実施の形態】この発明のクラスタリング装置に
よれば、学習データ読込部は数値の組からなるベクトル
データを含んだ「学習データ」を読み込む。読み込む学
習データの数は、学習データを構成するベクトルデータ
の次元数やマップ上のセル数によって異なるが、一般に
学習データ数が多いほど学習結果が改善されていく半
面、学習に時間を要することになるのでこれらを勘案し
て適当な数とする。例えば、3次元ベクトルデータの学
習データの場合は数千個程度あれば十分である。
【0013】マップ作成部は、学習データ読込部から順
次学習データを取り出す。マップ作成部では、例えば、
T.Kohonenによって提案された自己組織化学習アルゴリ
ズムに基づいて取り出した学習データを用いて順次学習
を行うことにより、2次元面上に規則的に配列されたセ
ルのそれぞれに「ベクトルデータ」と同次元のベクトル
値からなる位置情報としての意味を有する「参照デー
タ」を割り付けたマップ、例えばSOM(自己組織化マ
ップ)を作成する。
【0014】距離演算部は、マップを構成している各セ
ル間の距離を算出する。距離は、距離測定の対象となる
2つのセルがそれぞれ有する参照ベクトルのベクトル的
な差を数値的に表現できる指標値であれば何でもよい。
例えば後述する「ユークリッド距離」が用いられる。ま
た、「ユークリッド距離」に代えて、ベクトルの「内
積」を用いてもよい。
【0015】距離表示部は、距離演算部で算出された各
セル間の距離に基づいて、マップ上に距離を視覚的に表
示する。距離を視覚的に表示する方法としては、セル間
の距離を境界線の太さにより表示するのが好ましい。ま
た、境界線の線種(線の種類)を変え、あるいはセルの
色を変えて距離を表現してもよい。
【0016】また、課題を解決するためになされた他の
発明のクラスタリング装置は、数値の組からなる「ベク
トルデータ」とデータの種類に関する情報である「属性
データ」とを含んだ「学習データ」が読み込まれる学習
データ読込部と、学習データ読込部で読み込まれた複数
の学習データに対して「SOM学習アルゴリズム」に基
づく学習を行うことにより、2次元面上に規則的に配列
された「セル」に対してセルごとに学習データと同次元
のベクトルデータからなる「参照データ」が割り付けら
れるとともに、1つの学習データごとに1つのセルを
「発火セル」と定めてこの発火セルに当該学習データに
含まれる属性データと関連付けた「発火情報」が割り付
けられたSOMを作成するSOM作成部と、SOM上の
各セルに対し、セルに割り付けられた発火情報に基づい
て各セルの「クラスタ」を決定する分類部とを備えてい
る。
【0017】本発明によれば、学習データ読込部は数値
の組からなるベクトルデータを含んだ「学習データ」を
読み込む。SOM作成部は、学習データ読込部から順次
学習データを取り出し、T.Kohonenによって提案された
自己組織化学習アルゴリズム(SOM学習アルゴリズ
ム)に基づいて取り出した学習データを用いて順次学習
を行うことにより、2次元面上に規則的に配列されたセ
ルのそれぞれに「ベクトルデータ」と同次元のベクトル
値からなる位置情報としての「参照データ」を割り付け
る。
【0018】SOM作成部は、1つの学習データごとに
その学習データに最も近いベクトル値を有する参照ベク
トルを有するセルを検索し、これを発火セルと定める。
そしてSOM作成部は、発火セルに当該学習データに含
まれる属性データと関連付けた発火情報を割り付ける。
セルによっては複数の学習データにより複数回発火セル
となる場合もある。その場合のセルの発火情報は累積さ
れていく。すべての学習データについて学習を行うとS
OM作成部はセルごとに参照データと発火情報とを割り
付けたSOMを作成する。
【0019】分類部は、SOM上の各セルに対し、セル
に割り付けられた発火情報に基づいて例えば後に詳述す
る自動分類アルゴリズムを用いて各セルの「クラスタ」
を決定し、SOMのクラスタリングを行う。
【0020】クラスタリング装置は、セルの発火情報と
セルのクラスタとの関係を示す対照表を表示する対照表
表示部をさらに備えてもよい。また、クラスタリング装
置は、セルの発火回数に基づいて算出される「判別特性
値」を表示する判別特性値表示部をさらに備えてもよ
い。また、クラスタリング装置は、分類部が決定したセ
ルのクラスタを調整するためのクラスタ調整部をさらに
備え、判別特性値表示部はクラスタ調整部によるクラス
タの調整に連動して判別特性値を更新するようにしても
よい。
【0021】また、別の観点から上記課題を解決するた
めになされた本発明のクラスタリング方法は、(a)数値
の組からなる「ベクトルデータ」とデータの種類に関す
る情報である「属性データ」とを含んだ複数の「学習デ
ータ」を読み込み、(b)読み込んだ複数の学習データに
対して「SOM学習アルゴリズム」に基づく学習を行う
ことにより、2次元面上に規則的に配列された「セル」
に対してセルごとに「ベクトルデータ」と同次元のベク
トルデータからなる「参照データ」を割り付けるととも
に、1つの学習データごとに1つのセルを「発火セル」
と定めてこの発火セルに当該学習データに含まれる属性
データと関連付けた「発火情報」を割り付けたSOMを
作成し、(c)セルごとに割り付けた参照データにもとづ
いて算出されるセル間の「距離」を算出し、(d)セルご
との発火回数にもとづいて算出される「判別特性値」を
算出し、(e)SOM上の各セルに対し、少なくとも「距
離」又は「判別特性値」のいずれかに基づいて各セルの
「クラスタ」を決定してクラスタリングするようにして
いる。判別特性値には「効率」「感度」「FNR」「F
PR」「特異度」のいずれかが含まれるようにしてもよ
い。
【0022】
【実施例】以下、本発明の実施例について図面を用いて
説明する。ここでは、3つの異なる種類の血液検査デー
タ(MCV値、MCH値、MCHC値)を学習データの
対象とした例を用いて説明する。また、「SOM学習ア
ルゴリズム」に基づく学習を行うことによりマップ(S
OM)を作成するクラスタリング装置を例に取り説明す
る。
【0023】クラスタリング装置の構成 図1は本発明の一実施例であるクラスタリング装置の構
成を示すブロック構成図である。図において10はクラ
スタリング装置、12は入力装置、14は出力装置であ
り、CPU、ROM,RAM,ハードディスク、キーボ
ード、マウス、CRT等からなるコンピュータシステム
によりハード構成が形成される。各部はBUSで接続さ
れている。
【0024】クラスタリング装置10は、学習データ読
込部16、SOM作成部18、距離演算部20、距離表
示部22、自動分類部24、対照表表示部26、判別特
性値表示部28、分類調整部30、未知データ読込部3
2、評価決定部34により構成される。また、クラスタ
リング装置10は、SOMを作成するのに必要な学習デ
ータを格納する学習データDB(データベース)36、
SOM作成途中のマップデータや既に完成されたSOM
のマップデータ(発火情報、参照データが含まれる)を
格納するマップDB38、作成されたSOMを用いて評
価が行われる未知データを格納する未知データDB40
を有している。
【0025】学習データ読込部16は、学習データDB
36に蓄積されている学習データからSOMを作成する
ために必要な学習データ群を抽出して読み込む。ここで
読み込まれる学習データの1つ1つには、属性データと
3つの数値の組からなる3次元ベクトルデータとが含ま
れている。このうち3次元ベクトルデータの部分は学習
過程で各セルに参照データを割り付けるために用いられ
るものであり、属性データの部分は学習過程で各セルに
発火情報を与えるときに用いられるものである。また、
属性データは各セルに参照データが割り付けられた後
に、後述する「自動分類」を実行する際に必要となるデ
ータである。学習データ群は、学習データDB36から
取り込むのが便利であるが、入力装置12から入力する
ようにしてもよい。なお、学習データの作成については
後ほどさらに説明をする。
【0026】SOM作成部18は、学習データ読込部1
6が読み込んだ各学習データのうちの3次元ベクトルデ
ータ部分を用いて「未分類のSOM」作成のための学習
アルゴリズムを実行する。「未分類のSOM」とは、S
OM上の各セルに参照データを割り付けただけであって
類似するセルどうしのグループ(クラスタ)を境界線で
分ける前の状態のSOMをいう。ここで実行される学習
アルゴリズムには、T.Kohonenによって提案されたSO
M学習アルゴリズム(自己組織化学習アルゴリズム)が
用いられる。
【0027】SOM作成部18はSOM学習アルゴリズ
ムを実行することで、2次元面上のマップに規則的に配
列された各セルに学習データと同次元を有する参照デー
タを割り付け、これによりクラスタリングがなされてい
ない未分類のSOMを作成し出力装置14に表示させ
る。
【0028】ここで、SOM学習アルゴリズムについて
一般的な例を用いて説明する。図3に示すような2次元
領域からなるマップ1上にセル2(ニューロンとも呼ば
れ、規則正しく配列された升目(四角形のみならず六角
形等でもよい)により区切られている)が配置される。
各セル2はx座標、y座標からなる直交座標系により特
定され、図3の例ではx方向に32枡、y方向に32枡
のセルが並ぶようにしてあり、32×32=1024個
のセル2が配置されている。そして左上隅のセルを
(0,0)右下隅のセルを(31,31)とし横方向を
x座標、縦方向をy座標にとした座標系により各セル2
が特定できるようにしてある。
【0029】各セル2には、数値の組からなる多次元ベ
クトルデータが割り付けられている。図4の中央欄に示
す例は3次元データの場合であり、(ai,bi,ci
のように3つの数値の組で構成されている(ai,bi
iは任意の数値を示す)。このデータは「参照デー
タ」と呼ばれる。参照データの初期値は乱数で与えられ
るのが一般的であり、それぞれのデータ間には何らの意
味も相関も有していない形式的なデータとなっている。
【0030】この初期の「参照データ」に対して、「学
習データ」と呼ばれる前述の参照データと同じ次元数を
有する多次元ベクトルデータを用いて学習を行う。例え
ば血液検査を例にすると、図5に示すようにMCV値、
MCH値、MCHC値などの血液検査データ値を0〜1
の値に規格化した値の組からなる3次元ベクトルデータ
が学習データとして与えられる。
【0031】SOM学習は、以下のようになされる。ま
ず、最初の学習データ(図5の例では、MCV=0.6
811,MCH=0.8048,MCHC=0.623
7)が与えられると、1024個のセルに割り付けられ
た参照ベクトル群(乱数を用いて割り当てられた形式的
なベクトル群)のなかから、この学習データに最も近い
参照データを検索する。最も近い参照データを有するセ
ルを「発火セル」と呼ぶ。最も近い参照データを有する
セルとして選択されることを発火と呼ぶ。
【0032】続いて、この発火セルの近傍(例えば発火
セルから2枡以内)にある複数のセルについて、それぞ
れのセルの参照データ(ベクトル値)を所定のルール
(例えばベクトル値を一定割合だけ発火セルに近づける
等のルール)でわずかに学習データに似せる(ベクトル
値を近づける)ことにより、参照データを更新する。以
上により1回の学習が完了する。
【0033】以後、次々に学習データを用いて同様の学
習を繰り返していくと(例えば数千回程度)、図4の右
欄に示すように各セルの参照データが定まっていく。こ
のとき任意のセルの近傍には類似した参照データを持っ
たセルが集まることになる。ここでいう「類似した参照
データ」とは、参照データ間のべクトル距離(例えば、
後述するユークリッド距離)が近いことを意味する。
【0034】図10(a)は、本実施例のクラスタリン
グ装置が作成した未分類のSOMの一例を示したもので
ある。このSOMにおいて、発火セル、即ち、学習デー
タに最も近い参照データを有するセルとして選択された
セルには、発火したことを示すマーク(発火情報)を付
すことにより発火の痕跡を視覚的に示すようにする。こ
のマークは、学習データに含まれている属性データごと
に異なるマークを付すようにして、視覚的に発火セルや
その発火セルが割り当てられた学習データに含まれてい
る属性データを把握できるようにする。
【0035】1つのセルに複数の学習データによる発火
が生じる場合もある。その場合は、発火回数が累積的に
計数される。また、1つのセルに異なる属性データを有
する2つ以上の学習データによる発火があった場合は、
そのセルには両方の属性による発火が生じたことがわか
るようにしておく。
【0036】図10(a)では「+」「−」「±」
「0」のマーク(発火情報)があるが、「+」が付され
たセルは「+」の属性データを有する学習データだけが
そのセルに発火したことを示し、「−」が付されたセル
は「−」の属性データを有する学習データだけがそのセ
ルに発火したことを示している(セルの発火回数は複数
回であってもよい)。また「±」が付されたセルは
「+」の属性データを有する学習データと「−」の属性
データを有する学習データがともに少なくとも1回以上
そのセルに発火したことを示している。また「0」のマ
ークが付されたセルはいずれの属性データを有する学習
データによっても一度も発火されなかったことを示して
いる。なお、詳細は後述するが、本実施例の学習データ
に含まれる属性データは「+」と「−」の2種類であ
る。
【0037】距離演算部20は、各セル間の距離を算出
する。ここで、各セル間の距離はその定義の仕方によっ
ていろいろな値を用いることができる。本実施例では距
離は以下に示す「ユークリッド距離」を用いている。セ
ル間のユークリッド距離は、隣接する2つのセルの参照
ベクトルをそれぞれ(X1,X2,・・・,Xi,・・・
Xn)、(Y1,Y2,・・・,Yi,・・・Yn)とす
ると、 ユークリッド距離:D=√(Σ(Xi−Yi)2) として定義される。
【0038】SOM上のすべてのセルについて隣接する
セル間のユークリッド距離(D)を算出する。ユークリ
ッド距離Dをその最大値(Dmax)で割ることにより
規格化(すべての距離を0〜1の範囲に収める)するよ
うにしてもよい。
【0039】なお、距離として内積を用いる場合は、以
下に示す式により定義される距離を用いる。 D=ΣXiYi
【0040】距離表示部22は、距離演算部20で算出
したセル間の距離を視覚的に表示する。本実施例では距
離をセル間の境界線の太さに変換して表示するようにし
ている。即ち、距離が近いセル間は細い境界線で区切
り、距離が離れているセル間は太い境界線で区切るよう
にして、線の太さを見ることにより距離が判別できるよ
うにする。
【0041】具体的に説明すると、例えば距離に応じて
4種類の線の太さに割り当てる場合は、規格化したセル
間の距離(Ds)が0≦Ds<0.25のときは「太さ
1」、0.25≦Ds<0.5のときは「太さ2」、
0.5≦Ds<0.75のときは「太さ3」、0.75
≦Ds≦1のときは「太さ4」として各セル間の境界線
の太さを選択する。
【0042】なお、距離の規格化の方法は、必ずしも最
大値で割ることに限られない。平均値で割ったり、中間
値で割ったりして規格化してもよい。
【0043】図11(a)は、セル間の距離を境界線の
太さにより視覚的に表示したときのSOMの状態を示し
た図である。境界線の太さによりSOM上のセル間の距
離の遠近を把握することができるようになっている。
【0044】分類部24は、SOM作成部18によって
作成された未分類のSOMに対して、属性データを用い
て統計的な数値計算(後述する効率の計算)を実行して
自動的にクラスタリングを行い、クラスタリングの結果
をSOM上で境界として仕切る(色分けする。境界で仕
切られた塊をクラスタという。)ようにして出力装置1
4に表示させる。ここで実行される自動分類アルゴリズ
ムについては後述する。
【0045】対照表表示部26は、分類部24(又は後
述するクラスタ調整部30)によりSOMがクラスタリ
ングされたときの、クラスタごとのセル数、各クラスタ
のセルに割り付けられている学習データが有する属性デ
ータごとの合計発火回数、を表形式でまとめた対照表を
表示する。図8は対照表の構成を示す説明図である。本
実施例ではクラスタの種類は「クラス1」、「クラス
2」の2つがある。なお、クラス1、クラス2の他にク
ラスタの種類が未確定であって定義されていないセルの
ための「未定義」のセル数、「未定義」のセルの属性デ
ータごとの発火回数を同時に表示するようにしている。
【0046】合計発火回数の計算は属性データごと、例
えば本実施例では「+」「−」の2つに分けて行われ
る。例えばクラス1に定義されるある1つのセルが
「+」の属性データを有する学習データ2つと「−」の
属性データを有する学習データ3つとに発火していた場
合には、クラス1の「+」に2カウント、クラス1の
「−」に3カウントがなされる。このような計算をすべ
てのセルに対して行い、その合計数が対照表に表示され
る。
【0047】判別特性値表示部28は、発火情報に基づ
いて、後述する効率、感度、特異度、FNR、FPR、
などの判別特性値を計算して表示する。これらの判別特
性値はクラスタの境界を調整する際に参考にすることが
できる統計的な情報である。
【0048】クラスタ調整部30は、分類部24により
クラスタリングがなされた後のSOMに対して手動によ
り任意にクラスタの境界を変更する際に、これに連動し
て判別特性値表示部28により算出される判別特性値を
再計算して表示する。換言すれば、この判別特性値の計
算結果を参照しながらクラスタの境界を任意に変更でき
るようになっている。そしてクラスタ調整後のSOMが
表示される。
【0049】このように、SOM作成部18、分類部2
4、クラスタ調整部30では、それぞれ内容が異なるS
OMが作成されるので、以下の説明においてSOMを区
別する必要があるときは、SOM作成部18により作
成された状態のSOM(クラスタリングがなされていな
い未分類のSOM)を「一次SOM」、自動分類部2
4によりクラスタリングされたのみの状態のSOMを
「二次SOM」、クラスタ調整部30によりクラスタ
の境界を任意に設定した後のSOMを「三次SOM」と
呼ぶことにより、便宜上、区別することとする。
【0050】これらのSOMは、逐次マップDB38に
格納するようにしておけば必要なときに取り出すことが
できる。
【0051】未知データ読込部32は、評価対象となる
未知データを読み込む。この未知データは未知データD
B40から取り込まれてもよいし、入力装置12から入
力されてもよい。
【0052】評価決定部34は、未知データ読込部32
から読み込まれた未知データに対し、二次SOM又は三
次SOMを用いて発火セルを求めることにより、当該未
知データがいずれのクラスタに定義されるかを評価決定
する。
【0053】クラスタリング装置による処理の流れの概
次に、本実施例のクラスタリング装置10による処理の
流れの概要について説明する。図2はクラスタリング装
置10により行われる典型的な処理の流れを説明するフ
ロー図である。
【0054】(st101)まず、学習データ読込部1
6が属性データと3次元ベクトルデータとからなる学習
データを読み込み、st102に進む。 (st102)SOM作成部18は、学習データ読込部
16から3次元ベクトルデータを1つずつ取り出し、S
OM学習アルゴリズムを繰り返し実行し、st103に
進む。
【0055】(st103)SOM作成部18は、全3
次元ベクトルデータに対してSOM学習アルゴリズムを
実行した結果に基づいて、各セルに参照データを割り付
けるとともに、属性データを参照して各セルに発火情報
を示すマークを付した一次SOM(未分類のSOM)を
作成し、st104に進む。 (st104)距離演算部20は、各セルに割り付けら
れた参照データを用いて隣接するセル間の距離を計算
し、st105に進む。
【0056】(st105)距離表示部22は、距離演
算部20による距離の計算結果に基づいて、セル間の境
界線の太さを選択し、一次SOM上に表示する。続いて
クラスタリングを始めるときにはst106に進む。 (st106)分類部24は、後述する自動分類アルゴ
リズムを実行し、st107に進む。 (st107)分類部24は、自動分類アルゴリズムの
結果に基づいて各セルをクラスタリングし、クラスタご
とに(色分け等により)識別できるようにした二次SO
Mを作成する。判別特性値表示部28は、判別特性値を
計算し、出力装置14に表示させる。続いてクラスタ調
整を実行するときはst108に進む。未知データに対
する評価を実行するときにはst110に進む。 (st108)クラスタ調整部30は、二次SOMに対
してクラスタの境界の調整を受け付ける。判別特性値表
示部28は、クラスタの境界の調整が行なわれると判別
特性値を再計算し、出力装置14に表示させる。 (st109)クラスタ調整部30は、判別特性値に基
づいてクラスタの境界を任意に設定した三次SOMを作
成する。続いて未知データを評価するときはst110
に進む。
【0057】(st110)未知データ読込部32は未
知データを読み込み、st111に進む。 (st111)評価決定部34は、二次SOM又は三次
SOMを用いて評価対象である未知データについての発
火セルを検索し、発火セルを決定してst112に進
む。 (st112)評価決定部34は、発火セルが含まれる
クラスタに基づいて当該未知データの属性を決定する。
【0058】クラスタリング装置による処理の流れの詳
次に、本実施例のクラスタリング装置10の処理の流れ
の詳細について血液検査データを学習データの対象とし
た実施例を用いて順次説明する。
【0059】学習データの作成例(取り違いデータお
よび正常データの作成例) クラスタリング装置10に用いられる学習データ群の一
例を図7に示す。図に見られるように学習データ群は、
データの種類を表す「属性データ」、3つの数値の組
(MCV値、MCH値、MCHC値を0〜1の値に規格
化した値)からなる「3次元ベクトルデータ」、の対を
1単位とするデータが多数集まって(本実施例では45
00個のデータ)構成されている。図7はその一部を示
したものである。
【0060】本実施例では、一次SOM上のセルを2つ
のクラスタに定義するので、属性データの欄には2つの
異なる種類からなる属性データ(「+」と「−」)が与
えられる。SOM上のセルを3つのクラスタに定義する
ときは属性データの欄に3つの異なる種類からなる属性
データ(例えば「A」と「B」と「C」)が与えられ
る。この属性データは、一般的には他の既知の方法で調
べた属性データが与えられる。3次元ベクトルデータ
は、既述したようにSOM学習アルゴリズムによりSO
Mの各セルに割り付ける参照データを求めるために用い
るものである。
【0061】ここでは、血液検査データの「検体取り違
い判定」へのクラスタリング装置の応用を例として示
す。そのため、「検体取り違い」の判定に適した独自の
手法による学習データの作成例について図6を用いて説
明する。なお、「検体取り違い判定」とは、ある被験者
Aの血液検査データを他人Bの血液検査データと取り違
えたか否かを判定することを意味する。
【0062】本実施例の検体取り違い判定では、以前の
検査結果である前回値データと今回の検査結果である今
回値データとの双方のデータを有する3000名の患者
の血液検査データを用いる。図6に示すように、300
0名の検査データ番号をそれぞれS1からS3000とし、
1についての前回値データをS1a、今回値データをS
1b、同様にS2a、S2 b、・・・Sma、Smb、・・・
na、Snb、・・・、S3000a、S3000bと呼ぶ。データ
1a、S1b、Sma、Smb、・・・等はMCV(平均赤血
球容積)、MCH(平均赤血球ヘモグロビン量)、MC
HC(平均赤血球ヘモグロビン濃度)からなる3つの検
査項目の数値を0〜1の値に規格化した値の組で構成さ
れる3次元ベクトルデータである。
【0063】そして、S1からS3000までのそれぞれに
ついて、今回値と前回値との差であるS1b-S1a、Smb
−Sma、S3000b−S3000aを計算して、計3000個の
データ(3次元ベクトルデータ)を作成する。但し、ベ
クトルデータ中の各成分は絶対値をとる。このようにし
て作成した3000個のデータは、検体の取り違えのな
い「正常データ」の属性に含まれるものとして扱われ
る。この正常データには「−」の属性データを結合させ
る。
【0064】続いて、S1からS3000の3000個のデ
ータから1500個の対を形成する。例えば検査データ
Sm、Snとが対になったとする。この場合、Smの前
回値とSnの今回値とを用い、Snb−Smaを、Smの今
回値とSnの前回値とを用い、Smb−Snaを計算する。
残りの1499個の対についても同様の計算をする。こ
のようにして3000個のデータ(3次元データ)が作
成される。
【0065】これらの3000個のデータは、取り違い
が発生した「取り違いデータ」の属性に含まれるものと
して扱われる。この取り違いデータには「+」の属性デ
ータを結合させる。
【0066】続いて、先に示した3000個の正常デー
タと後に示した3000個の取り違いデータとを混合し
て6000個のデータの集合体を形成する。そして、6
000個のデータの中から不作為に4500個のデータ
(正常データ2250個、取り違いデータ2250個)
を選択する。この4500個のデータを一次SOM作成
用の学習データとして用いる(残りの1500個のデー
タは評価用の未知データとしてクラスタリング装置10
の性能確認用に用いることにしている)。
【0067】このようにして作成された学習データは、
取り違いデータ(「+」)であるか正常データ
(「−」)であるかという属性データを人為的に作り出
し、作り出した属性データを属性データ欄に付すように
して取り違い判定のための学習データとしたものであ
る。
【0068】先に説明した図7の学習データはこのよう
にして作成した4500個のデータの一部を示したもの
であり、図7の属性データ欄の「+」は取り違いデー
タ、「−」は正常データを示したものである。なお、図
7に見られるMCV値、MCH値、MCHC値の各数値
は、それぞれの項目における最大値が1となるように規
格化したものである。
【0069】SOM学習アルゴリズムの実行 SOM作成部18は、SOM学習アルゴリズムを実行す
る。SOM学習アルゴリズムについては既述しているた
め、説明を省略する。なお、3次元ベクトルデータとし
て、図7にその一部が示されている3次元ベクトルデー
タ(MCV値、MCH値、MCHC値)が用いられる。
【0070】SOM学習アルゴリズムの実行が終了する
と、1024個のセルに合計4500回の発火が生じる
ので、セルによっては複数回の発火が生じることにな
る。各セルには発火情報として属性データとともにその
セルの発火回数が属性データの種類ごとに記憶される。
【0071】一次SOM(未分類のSOM)の表示 上記SOM学習アルゴリズムの実行によって作成した一
次SOMが既に説明した図10(a)である。すべての
セルに発火情報として「+」「−」「±」「0」のいず
れかが付されている。
【0072】このときの対照表を図10(b)に示す。
いずれのセルもまだクラスタが定義されていないので、
すべてのセル(1024個)が「未定義」となってい
る。そして1024個の未定義のセルは「+」の属性デ
ータを有する学習データに2250回、「−」の属性デ
ータを有する学習データに2250回発火したことを示
している。
【0073】セル間距離の視覚化 図11は、セル間の距離を境界線の太さにより視覚的に
表示したときの一次SOMの状態を示した図である。境
界線の太さによりSOM上にあるセル間の距離の遠近が
把握できるようになっている。境界線の作成は距離表示
部22が行う。セル間距離の視覚化は、二次SOM、三
次SOMにおいて同様に表示してもよい。
【0074】自動分類アルゴリズムの実行による二次
SOMの作成 次に、クラスタリングを説明する。クラスタリングは、
分類部24が行う。図9はクラスタリングの動作を説明
するフロー図である。また、図12から図22はクラス
タリングの動作途中の状態を説明するSOM、対照表、
判別特性値の表示画面を説明する図である。なお、実際
はSOMと同時に対照表や判別特性値が常時表示されて
いるのであるが、説明の便宜上必要な状態のみを図に示
す。
【0075】本実施例では、「+」(取り違いデータ)
と「−」(正常データ)との2種類の属性データを有す
る学習データを用いているので、SOMはクラスタリン
グにより2つのクラスタを定義することができればよい
ことになる。今、クラスタリングにより作成される2つ
のクラスタを「クラス1」(画面上では赤で示す)、
「クラス2」(画面上では青で示す)と呼ぶこととし、
クラス1は「+」の属性データ(即ち、取り違いデー
タ)を有する学習データが本来集まるクラスタ、クラス
2は「−」の属性データ(即ち正常データ)を有する学
習データが本来集まるクラスタであるとする。
【0076】まず、1つのクラスタを選択する。ここで
はクラス1を選択する(st201)。クラスタが未定
義であるすべてのセル(最初はすべてのセルが未定義)
をクラス1(赤)に属するものと仮設定する(st20
2)。図12(a)(b)は、すべてのセルを「クラス
1」にした(すべてのセルが赤になる)状態のSOMお
よび対照表を示している。
【0077】クラス1に属するすべてのセルについて、
そのセルの近傍セルが「+」の属性データを有する学習
データに発火した回数と「+」及び「−」の属性データ
を有する学習データに発火した回数(本実施例では近傍
セルの合計発火回数)とを求め、その割合(選択割合と
いう)を算出する。ここで近傍セルとは例えば1つのセ
ルを中心とした周囲1枡以内に含まれるセルとして定義
することができる(st203)。
【0078】選択割合が最も小さいセルをクラス1から
外す(st204)。図13(a)はSOMにおける座
標(23,28)のセルが「クラス1」(赤)から外れ
て「未定義」(白)となった状態を示している。図13
(b)はこのときの対照表を示したものである。未定義
の座標(23,28)のセルには「−」属性の発火回数が
5回、「+」属性の発火回数が0回であったことがわか
る。
【0079】次に、以下の(1)式に定義する「効率」
(判別特性値の一例)を算出し、そのときのセルの状態
とともに記憶する(st205)。効率は正しくクラス
タリングされた割合を意味することになる。 効率:(TP+TN)/(TP+TN+FP+FN) ・・・・・・・(1)式 TP(True Positive):選択されたクラスタ(ここで
はクラス1)に属するセルが、選択されたクラスタが本
来有する属性データを持つ学習データ(ここでの属性デ
ータは「+」)によって発火した回数。TN(True Ne
gative):選択されていないクラスタ(ここでは「クラ
ス2」および「未定義」)に属するセルが、選択された
クラスタが本来有しない属性データを持つ学習データ
(ここでの属性データは「−」)によって発火した回
数。FP(fault Positive):選択されていないクラ
スタ(ここでは「クラス2」および「未定義」)に属す
るセルが、選択されたクラスタが本来有する属性データ
を持つ学習データ(ここでの属性データは「+」)によ
って発火した回数。FN(fault Negative):選択さ
れたクラスタ(ここでは「クラス1」)に属するセル
が、選択されたクラスタが本来有しない属性データを持
つ学習データ(ここでの属性データは「−」)によって
発火した回数。
【0080】st203からst205の工程をクラス
1に属するセルがすべてなくなるまで繰り返す(st2
06)。図14、図15はセルが順次「クラス1」から
「未定義」に変化する様子を示している。
【0081】また、図16(a)はすべてのセルが「ク
ラス1」から「未定義」に変化した状態を示している。
図16(b)はこのときの対照表を示したものであり、
1024個のセルすべてが「未定義」であり、未定義の
セルは「+」の属性データを有する学習データによる発
火回数が2250回、「−」の属性データを有する学習
データによる発火回数が2250回であることを示して
いる。
【0082】続いて、記憶した「効率」データから「効
率」最大のときのデータを探し、「効率」最大となった
とき、「クラス1」に定義されるセルを「クラス1」と
決定する(st207、st208)。
【0083】図17(a)は、「効率」最大の状態を求
めて「クラス1」を決定したときのSOMを示した図で
ある。「クラス1」に決定されたセルは赤く塗られ、残
りのセルは「未定義」であるため白にしてある。
【0084】図17(b)は、このときの対照表を示し
ている。この例では597個のセルが「クラス1」に定
義されている。「クラス1」に含まれるセルは、「+」
の属性データを持つ学習データによる発火回数が199
7回、「−」の属性データを持つ学習データによる発火
回数が424回である。なお「クラス1」に定義されて
いない残りの427個のセルは「未定義」である。
【0085】このときの効率の計算例を以下に示す。 TP: 1997 TN: 1826 FP: 253 FN: 424 効率:(TP+TN)/(TP+TN+FP+FN)=(1997+18
26)/(1997+1826+253+424)=
0.8496
【0086】次に、すべてのクラスタが定義されている
かを確認する(st209)。すべてのクラスタが定義
済みであれば終了する。今の例ではクラス2については
未定義であるので、st202に戻り、同様の演算を繰
り返す。
【0087】今度はクラス2を選択する(st21
0)。クラスタ未定義の残り427個すべてのセル(即
ち「クラス1」として決定した597個のセル以外のセ
ル)をクラス2(青)のクラスタに属するものと仮設定
する(2順目st202)。
【0088】以下、st203〜st206の動作を繰
り返していく。図18(a)(b)は、427個すべて
のセルを「クラス2」にした(「クラス1」の597個
のセルが赤、残りの427個のセルが青になる)状態の
SOM画面および対照表を示している。
【0089】図19(a)(b)は、選択割合が最も小
さいセルを「クラス2」から外した状態を示している
(2順目st204)。すなわち、SOMにおける座標
(13,16)のセルが「クラス2」(青)のクラスタ
から外れて「未定義」(白)となった状態を示してい
る。図19(b)はこのときの対照表を示したものであ
る。未定義の座標(13,16)のセルには「−」の属
性データを有する学習データによる発火回数が0回、
「+」の属性データを有する学習データによる発火回数
が1回であったことがわかる。
【0090】図20はセルのクラスタが順次「クラス
2」から「未定義」に変化する様子の一場面を示してい
る。また、図21(a)は427個のセルのクラスタが
「クラス2」から「未定義」に変化した状態を示してい
る。図21(b)はこのときの対照表を示したものであ
り、427個のセルが「未定義」であり、未定義のセル
は「+」の属性データを持つ学習データによる発火回数
が253回、「−」の属性データを持つ学習データによ
る発火回数が1826回であることを示している。
【0091】図22(a)は、「効率」最大の状態を求
めて「クラス2」を決定したときのSOMを示した図で
ある。既に「クラス1」に決定されてあるセルは赤く塗
られ、今回「クラス2」に決定したセルは青く塗られて
いる。図22(b)は、このときの対照表を示してい
る。この例では427個のセルが「クラス2」に定義さ
れている。「クラス2」に含まれるセルは、「+」の属
性データを持つ学習データによる発火回数が253回、
「−」の属性データを持つ学習データによる発火回数が
1826回である。
【0092】なお、この例では427個のセルが「クラ
ス2」に定義された場合の効率が最大となったためSOM
上の全てのセルがいずれかのクラスタに定義されたが、
必ずしもSOM上の全てのセルがいずれかのクラスタに定
義された場合の効率が最大となるとは限らない。この場
合は、未定義のセルが残ることとなる。未定義のセル
は、再度自動分類のアルゴリズムを実行することや、後
述するクラスタ調整によって、いずれかのクラスタに定
義される。
【0093】以上の処理により、図22(a)に見られ
るような二次SOM、即ち一次SOMに自動分類アルゴ
リズムによって発火情報に基づいた統計的な裏付けの元
でクラスタリングがなされたSOMが作成される。
【0094】クラスタ調整による三次SOMの作成と
判別特性値の表示 次に、自動分類アルゴリズムによりクラスタを決定した
二次SOMについて、「判別特性値」を参照しながら任
意にクラスタを調整することによって得られる三次SO
Mについて説明する。「判別特性値」の表示は、クラス
タ調整部30が行う。ここで用いられる判別特性値の1
つとしては、上述した「効率」が用いられる。
【0095】また、「感度(True Positive Rati
o)」、「特異度(True Negative Ratio)」、「FP
R(Fault Positive Ratio)」、「FNR(Fault Neg
ative Ratio)」の4つの値も判別特性値として用いる
ことができる。
【0096】ここで、感度、特異度、FPR、FNRは
以下の式で定義される。 感度=(「クラス1」に定義されるセルが「+」の属性データを持つ学習デ ータによって発火した回数)/(「クラス1」に定義されるセル全体の発火回数 ) ・・・(2) 特異度=(「クラス2」に定義されるセルが「−」の属性データを持つ学習デ ータによって発火した回数)/(「クラス2」に定義されるセル全体の発火回数 ) ・・・(3) FPR=(「クラス1」に定義されるセルが「−」の属性データを持つ学習デ ータによって発火した回数)/(「クラス1」に定義されるセル全体の発火回数 ) ・・・(4) FNR=(「クラス2」に定義されるセルが「+」の属性データを持つ学習デ ータによって発火した回数)/(「クラス2」に定義されるセル全体の発火回数 ) ・・・(5)
【0097】作成された二次SOM上のセルを指定し、
入力装置12によってクラスタを変更する指示を行うこ
とにより、当該セルのクラスタが変更され、任意にクラ
スタリングを行った三次SOMが得られる。例えば自動
分類アルゴリズムの実行によるクラスタリングにより
「クラス1」(赤)に定義されていたセルについて「ク
ラス2」にクラスタを変更することができる。このと
き、上述した効率、感度、特異度、FPR、FNRが再
計算されて、画面に表示される。
【0098】この状態を図22と図23とを用いて説明
する。図22(a)は上述したように自動分類アルゴリ
ズムにより作成された二次SOMであり、図23(a)
は二次SOMを元にして任意にクラスタ調整した三次S
OMである。図22(b)、図23(b)はそれぞれ対
応する対照表であり、図22(c)、図23(c)は判
別特性値である。図に見られるようにクラスタを調整す
ることよって対照表の値が連動して変化するとともに、
判別特性値も変化する。
【0099】クラスタリング装置の操作者は、SOM上
に表示されている発火情報を示すマークとともに、この
判別特性値、さらには距離表示部により作成された距離
表示を参考にしてクラスタを任意に調整していく。この
ようにして最終的にクラスタが決定された三次SOMが
完成する。
【0100】未知データの作成および評価 次に、未知データの作成および作成した二次SOM又は
三次SOMを用いて未知データについてどのクラスタに
属するかを判定する手順を説明する。まず、任意の2つ
の血液検査データを準備する。本実施例では、この2つ
の血液検査データが同一被験者のものか別の被験者のも
のかを判定することができる。そして、2つの血液検査
データから学習データの作成例で示した方法と同様の
方法で「3次元ベクトルデータ」を作成する。この「3
次元ベクトルデータ」が未知データである。次に、未知
データが未知データ読込部32によって読み込まれる
と、参照データのなかから当該未知データと最も近い参
照データを有するセルを検索する。
【0101】図24はこのときの状態を説明する図であ
る。検索の結果、図に示すように未知データに最も類似
する参照データを有しているセルとして座標(6,9)
のセルが発火したとする。このとき、座標(6,9)の
セルのクラスタがいずれであるかを調べる。今の場合座
標(6,9)のセルは「クラス1」に定義されているの
で、当該未知データは「クラス1」に属するデータであ
ることがわかる。
【0102】「クラス1」は、本来取り違いデータが集
まるクラスタであるので、この未知データは取違いデー
タであった可能性が高いと判断することができる。
【0103】なお、別の観点から、上述した発明のクラ
スタリング装置を実現するためのコンピュータプログラ
ム、あるいはコンピュータプログラムを記録した媒体と
して本発明を実施するようにしてもよい。この場合は、
入力装置12からコンピュータプログラムを読み込むこ
とにより本発明のクラスタリング装置を実現することが
できる。
【0104】
【発明の効果】以上のように、本発明によれば、信頼性
の高いクラスタリングができるように改良したクラスタ
リング装置が提供される。具体的には、本発明によって
以下の3点が可能となったため、信頼性の高いクラスタ
リング装置が提供される。 セル間の距離を視覚的に把握することができる。 SOMの技術において、学習データが有する属性デー
タを統計的に考慮したクラスタリングを行うことができ
る。 SOMの技術において、クラスタリング装置の操作者
が、判別特性値を参照しながらクラスタの調整を行うこ
とができる。
【図面の簡単な説明】
【図1】本発明の一実施例であるクラスタリング装置の
構成を示すブロック図。
【図2】本発明の一実施例であるクラスタリング装置に
より実行される処理の流れの一例を示すフロー図。
【図3】SOM学習アルゴリズムによる学習過程を説明
する図。
【図4】SOM上のセルに割り付けられる参照データを
説明する図。
【図5】SOM学習アルゴリズムで用いられる学習デー
タを説明する図。
【図6】本発明の一実施例であるクラスタリング装置で
用いる学習データの作成例(取違い判定用の学習デー
タ)を説明する図。
【図7】本発明の一実施例であるクラスタリング装置で
用いる学習データの例を示す図。
【図8】対照表を説明する図。
【図9】自動分類アルゴリズムによる処理の流れの一例
を示すフロー図。
【図10】SOMの表示例を示す図(未分類のSO
M)。
【図11】SOMの例を示す図(未分類のSOMに距離
表示を加えた状態)。
【図12】SOMの表示例を示す図(自動分類のために
全セルを「クラス1」に仮設定した状態)。
【図13】SOMの表示例を示す図(図12から1つの
セルを未定義にした状態)。
【図14】SOMの表示例を示す図(図13からさらに
未定義セルを増加した状態)。
【図15】SOMの表示例を示す図(図14からさらに
未定義セルを増加した状態)。
【図16】SOMの表示例を示す図(全セルを未定義セ
ルにした状態)。
【図17】SOMの表示例を示す図(「クラス1」に属
するセルを決定した状態)。
【図18】SOMの表示例を示す図(残りの全セルを
「クラス2」に仮設定した状態)。
【図19】SOMの表示例を示す図(図18から1つの
セルを未定義にした状態)。
【図20】SOMの表示例を示す図(図19からさらに
未定義セルを増加した状態)。
【図21】SOMの表示例を示す図(残りの全セルを未
定義セルにした状態)。
【図22】SOMの表示例を示す図(自動分類により全
セルの分類を決定した状態)。
【図23】SOMの表示例を示す図(図22からセルの
分類を調整した状態)。
【図24】SOMの表示例を示す図(図23において未
知データを発火させた状態)。
【符号の説明】
1:SOM(自己組織化マップ) 2:セル 12:入力装置 10:クラスタリング装置 12:入力装置 14:出力装置 16:学習データ読込部 18:SOM作成部 20:距離演算部 22:距離表示部 24:自動分類部 26:対照表示部 28:判別特性値表示部 30:クラスタ調整部 32:未知データ読込部 34:評価決定部 36:学習データDB(データベース) 38:マップDB(データベース) 40:未知データDB(データベース)
───────────────────────────────────────────────────── フロントページの続き (72)発明者 金井 一之 神戸市中央区脇浜海岸通1丁目5番1号 シスメックス株式会社内

Claims (10)

    【特許請求の範囲】
  1. 【請求項1】 数値の組からなる「ベクトルデータ」を
    含んだ「学習データ」が読み込まれる学習データ読込部
    と、 学習データ読込部で読み込まれた複数の学習データをも
    とにして、2次元面上に規則的に配列された「セル」に
    位置情報が割り付けられたマップを作成するマップ作成
    部と、 割り付けられた位置情報にもとづいてマップ上の各セル
    間の「距離」を算出する距離演算部と、 マップ上に距離演算部で算出された距離を視覚的に表示
    するための距離表示部を設けたことを特徴とするクラス
    タリング装置。
  2. 【請求項2】 距離表示部は、セル間の距離を境界線の
    「太さ」又は「線種」又はセルの「色」により表示する
    ことを特徴とする請求項1に記載のクラスタリング装
    置。
  3. 【請求項3】 セル間の距離は「ユークリッド距離」又
    は「内積」により算出されることを特徴とする請求項1
    に記載のクラスタリング装置。
  4. 【請求項4】 マップ作成部は「SOM学習アルゴリズ
    ム」に基づく学習を行うことにより「SOM」を作成す
    ることを特徴とする請求項1に記載のクラスタリング装
    置。
  5. 【請求項5】 数値の組からなる「ベクトルデータ」と
    データの種類に関する情報である「属性データ」とを含
    んだ「学習データ」が読み込まれる学習データ読込部
    と、 学習データ読込部で読み込まれた複数の学習データに対
    して「SOM学習アルゴリズム」に基づく学習を行うこ
    とにより、2次元面上に規則的に配列された「セル」に
    対してセルごとに「ベクトルデータ」と同次元のベクト
    ルデータからなる「参照データ」が割り付けられるとと
    もに、1つの学習データごとに1つのセルを「発火セ
    ル」と定めてこの発火セルに当該学習データに含まれる
    属性データと関連付けた「発火情報」が割り付けられた
    SOMを作成するSOM作成部と、SOM上の各セルに
    対し、セルに割り付けられた発火情報に基づいて各セル
    の「クラスタ」を決定する分類部とを備えたことを特徴
    とするクラスタリング装置。
  6. 【請求項6】 クラスタリング装置は、セルの発火情報
    とセルのクラスタとの関係を示す「対照表」を表示する
    対照表表示部をさらに備えたことを特徴とする請求項5
    に記載のクラスタリング装置。
  7. 【請求項7】 クラスタリング装置は、セルの発火回数
    に基づいて算出される「判別特性値」を表示する判別特
    性値表示部をさらに備えたことを特徴とする請求項5に
    記載のクラスタリング装置。
  8. 【請求項8】 クラスタリング装置は、分類部が決定し
    たセルのクラスタを調整するためのクラスタ調整部をさ
    らに備え、判別特性値表示部はクラスタ調整部によるク
    ラスタの調整に連動して判別特性値を更新することを特
    徴とする請求項7に記載のクラスタリング装置。
  9. 【請求項9】 (a)数値の組からなる「ベクトルデー
    タ」とデータの種類に関する情報である「属性データ」
    とを含んだ複数の「学習データ」を読み込み、(b)読み
    込んだ複数の学習データに対して「SOM学習アルゴリ
    ズム」に基づく学習を行うことにより、2次元面上に規
    則的に配列された「セル」に対してセルごとに「ベクト
    ルデータ」と同次元のベクトルデータからなる「参照デ
    ータ」を割り付けるとともに、1つの学習データごとに
    1つのセルを「発火セル」と定めてこの発火セルに当該
    学習データに含まれる属性データと関連付けた「発火情
    報」を割り付けたSOMを作成し、(c)セルごとに割り
    付けた参照データにもとづいて算出されるセル間の「距
    離」を算出し、(d)セルごとの発火回数にもとづいて算
    出される「判別特性値」を算出し、(e)SOM上の各セ
    ルに対し、少なくとも「距離」又は「判別特性値」のい
    ずれかに基づいて各セルの「クラスタ」を決定してクラ
    スタリングすることを特徴とするクラスタリング方法。
  10. 【請求項10】 判別特性値には「効率」「感度」「F
    NR」「FPR」「特異度」のいずれかが含まれること
    を特徴とする請求項9に記載のクラスタリング方法。
JP2002100446A 2002-04-02 2002-04-02 クラスタリング装置およびクラスタリング方法 Pending JP2003296696A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002100446A JP2003296696A (ja) 2002-04-02 2002-04-02 クラスタリング装置およびクラスタリング方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002100446A JP2003296696A (ja) 2002-04-02 2002-04-02 クラスタリング装置およびクラスタリング方法

Publications (2)

Publication Number Publication Date
JP2003296696A true JP2003296696A (ja) 2003-10-17
JP2003296696A5 JP2003296696A5 (ja) 2005-09-15

Family

ID=29388397

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002100446A Pending JP2003296696A (ja) 2002-04-02 2002-04-02 クラスタリング装置およびクラスタリング方法

Country Status (1)

Country Link
JP (1) JP2003296696A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008040684A (ja) * 2006-08-03 2008-02-21 Matsushita Electric Works Ltd 信号識別装置の学習方法
US7664715B2 (en) 2004-06-25 2010-02-16 Caterpillar Japan Ltd. Apparatus and method for compressing data, apparatus and method for analyzing data, and data management system
CN112883136A (zh) * 2021-02-19 2021-06-01 北京三快在线科技有限公司 一种用于制作高精地图的任务生成的方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7664715B2 (en) 2004-06-25 2010-02-16 Caterpillar Japan Ltd. Apparatus and method for compressing data, apparatus and method for analyzing data, and data management system
JP2008040684A (ja) * 2006-08-03 2008-02-21 Matsushita Electric Works Ltd 信号識別装置の学習方法
CN112883136A (zh) * 2021-02-19 2021-06-01 北京三快在线科技有限公司 一种用于制作高精地图的任务生成的方法
CN112883136B (zh) * 2021-02-19 2022-06-10 北京三快在线科技有限公司 一种用于制作高精地图的任务生成的方法

Similar Documents

Publication Publication Date Title
CN110070141B (zh) 一种网络入侵检测方法
CN108537215B (zh) 一种基于图像目标检测的火焰检测方法
CN106886795B (zh) 基于图像中的显著物体的物体识别方法
JP2976053B2 (ja) パターン分類・識別システム
CN110782015A (zh) 神经网络的网络结构优化器的训练方法、装置及存储介质
JP7493323B2 (ja) 情報処理装置、情報処理装置の制御方法およびプログラム
CN110176280B (zh) 一种描述材料晶体结构的方法及其应用
CN111667050B (zh) 度量学习方法、装置、设备及存储介质
CN116108758B (zh) 滑坡易发性评价方法
WO2019176989A1 (ja) 検査システム、識別システム、及び学習データ生成装置
CN113159216A (zh) 一种用于表面缺陷检测的正样本扩充方法
CN113569788A (zh) 一种建筑物语义分割网络模型训练方法、系统及应用方法
CN111626321A (zh) 一种图像数据的聚类方法及装置
CN115114484A (zh) 异常事件检测方法、装置、计算机设备和存储介质
CN112801268B (zh) 基于图卷积和多层感知机混合网络的定位方法
CN111767273B (zh) 基于改进som算法的数据智能检测方法及装置
US20040042663A1 (en) Method, apparatus, and program for similarity judgment
JP2003296696A (ja) クラスタリング装置およびクラスタリング方法
US20230351229A1 (en) Methods and systems for identifying patterns in data using delimited feature-regions
JP2021165909A (ja) 情報処理装置、情報処理装置の情報処理方法およびプログラム
JP2003296697A (ja) 検体取り違い判定方法およびその方法に使用されるマップおよび学習データの作成方法
CN111030854A (zh) 一种Spark云服务环境下面的复杂网络社团发现方法
CN111652733B (zh) 基于云计算和区块链的金融信息管理系统
CN113810333B (zh) 基于半监督谱聚类和集成svm的流量检测方法及系统
CN115225373A (zh) 一种信息不完备条件下的网络空间安全态势表达方法及装置

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050330

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050330

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080311

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080502

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20090602