JP2009151390A

JP2009151390A - 情報分析装置、及び情報分析プログラム

Info

Publication number: JP2009151390A
Application number: JP2007326561A
Authority: JP
Inventors: Motofumi Fukui; 基文福井; Hitoshi Ikeda; 仁池田; Junichi Takeda; 隼一武田
Original assignee: Fuji Xerox Co Ltd
Current assignee: Fujifilm Business Innovation Corp
Priority date: 2007-12-18
Filing date: 2007-12-18
Publication date: 2009-07-09

Abstract

【課題】複数のデータ要素を分類して得た各クラスタに適切なラベルを付与する。
【解決手段】情報分析装置は、複数のデータ要素を取得し、複数のデータ要素から異なる条件に従って情報を抽出するとともに、それぞれ異なる条件毎に抽出された情報をそれぞれ要素とする複数の基準情報群を生成し、生成された複数の基準情報群の少なくとも一部を用いて、複数のデータ要素のそれぞれの特徴量データを生成し、生成された特徴量データに基づいて、複数のデータ要素をクラスタに分類し、分類されたクラスタ毎に、複数の基準情報群の中から選択された基準情報群を用いてラベルを付与する。
【選択図】図１

Description

本発明は、情報分析装置、及び情報分析プログラムに関する。

複数の文書を要素とする文書集合に対し、文書集合に含まれる各文書をクラスタに分類し、文書の分析や調査に役立てることがある。例えば、従来の技術において、下記の特許文献１には、文書中の単語間の共起関係を用いて得られたキーワード群からなる基準の特徴ベクトルを作成するとともに、その基準の特徴ベクトルを用いて各文書の特徴ベクトルを作成し、作成した特徴ベクトルに基づいて各文書を分類する手法が開示されている。また、下記の特許文献２には、文書中から単語を抽出し、共通の単語を含む文書群を１つのグループとし、その後に似たグループ同士を統合することで最終的な分類結果を得る手法が開示されている。
特開平７−１１４５７２号公報特開平８−１５３１２１号公報

分類結果を利用し易くするために、分類されたクラスタにそれぞれラベル（タイトル）を付与することがあるが、従来の技術では、クラスタに付与されるラベルは、各文書についての特徴ベクトルを生成する際に用いたキーワード群のいずれかの要素から選択されるものであった。そのため、クラスタリングによる分類結果が不適切であったり、クラスタリングの際に不適切なキーワードが要素として選択されていたりすると、どのようなラベル選択手法を用いても、クラスタに適切なラベルを付与できないことがあった。

本発明は上記課題に鑑みてなされたものであって、本発明の目的の一つは、複数のデータ要素が分類された各クラスタに適切なラベルを付与することができる情報分析装置及び情報分析プログラムを提供することにある。

上記目的を達成するために、請求項１に記載の情報分析装置の発明は、複数のデータ要素を取得する手段と、前記複数のデータ要素からそれぞれ異なる条件に従って情報を抽出するとともに、前記異なる条件毎に抽出された情報をそれぞれ要素とする複数の基準情報群を生成する基準情報群生成手段と、前記生成された複数の基準情報群の少なくとも一部を用いて、前記複数のデータ要素のそれぞれの特徴量データを生成する手段と、前記生成された特徴量データに基づいて、前記複数のデータ要素をクラスタに分類する手段と、前記分類された各クラスタに、前記複数の基準情報群の中から選択された基準情報群を用いてラベルを付与する付与手段と、を含む、ことを特徴とする。

また、請求項２に記載の発明は、請求項１に記載の情報分析装置において、前記特徴量データを生成する際に用いられる前記複数の基準情報群の少なくとも一部と、前記分類されたクラスタのラベルの付与に用いられる前記選択された基準情報群とが異なる、ことを特徴とする。

また、請求項３に記載の発明は、請求項１又は２に記載の情報分析装置において、前記付与手段は、前記分類された各クラスタに、前記選択された基準情報群のいずれかの要素をラベルとして付与する、ことを特徴とする。

また、請求項４に記載の発明は、請求項１乃至３のいずれかに記載の情報分析装置において、前記付与手段は、前記分類されたクラスタ毎に、前記選択された基準情報群に含まれる情報のうち、当該クラスタには高頻度で含まれ、他のクラスタには低頻度で含まれる情報を当該クラスタのラベルとして付与する、ことを特徴とする。

また、請求項５に記載の発明は、請求項１乃至４のいずれかに記載の情報分析装置において、前記複数の基準情報群のうち、要素数が前記クラスタの数よりも大きく、所定の要素数よりも小さい基準情報群を選択する基準情報群選択手段をさらに含み、前記付与手段は、前記基準情報群選択手段により選択された基準情報群を用いて前記分類されたクラスタにラベルを付与する、ことを特徴とする。

また、請求項６に記載の発明は、請求項１乃至５のいずれかに記載の情報分析装置において、前記データ要素は電子文書であり、前記基準情報群生成手段は、少なくとも前記電子文書に付与された所定のメタデータを要素とする基準情報群を生成し、前記付与手段は、前記所定のメタデータを要素とした基準情報群を用いて前記分類されたクラスタにラベルを付与する、ことを特徴とする。

また、請求項７に記載の情報分析プログラムの発明は、コンピュータを、複数のデータ要素を取得する手段と、前記複数のデータ要素からそれぞれ異なる条件に従って情報を抽出するとともに、前記異なる条件毎に抽出された情報をそれぞれ要素とする複数の基準情報群を生成する基準情報群生成手段と、前記複数の基準情報群の少なくとも一部を用いて、前記複数のデータ要素のそれぞれの特徴量データを生成する手段と、前記生成された特徴量データに基づいて、前記複数のデータ要素をクラスタに分類する手段と、前記分類された各クラスタに、前記複数の基準情報群の中から選択された基準情報群を用いてラベルを付与する付与手段と、して機能させることを特徴とする。

請求項１に記載の発明によれば、クラスタリングに用いる基準情報群と、クラスタのラベル付けに用いる基準情報群とを分けて、ラベル付けに適した基準情報群を用いることで、複数のデータ要素が分類された各クラスタに適切なラベルを付与することができる。

請求項２に記載の発明によれば、クラスタリングに用いる基準情報群と、クラスタのラベル付けに用いる基準情報群とを異ならせるようにして、ラベル付けに適した基準情報群を用いることで、複数のデータ要素が分類された各クラスタに適切なラベルを付与することができる。

請求項３に記載の発明によれば、各クラスタにラベル付け用に選択された基準情報群のいずれかの要素をラベルとして付与することができる。

請求項４に記載の発明によれば、各クラスタにそれぞれ特徴的な情報をラベルとして付与することができる。

請求項５に記載の発明によれば、複数の基準情報群のうち、クラスタのラベル付けにとって要素数が不足しているものと要素数が大きすぎるものとを除外して選択された基準情報群を用いてクラスタのラベル付けを行うことで、複数のデータ要素が分類された各クラスタに適切なラベルを付与することができる。

請求項６に記載の発明によれば、電子文書に付与されたメタデータ（例えば、特許公報などのＦターム等）をラベル付けに用いることにより、複数の電子文書が分類された各クラスタに適切なラベルを付与することができる。

請求項７に記載の発明によれば、クラスタリングに用いる基準情報群と、クラスタのラベル付けに用いる基準情報群とを分けて、ラベル付けにより適した基準情報群を用いることで、複数のデータ要素が分類された各クラスタに適切なラベルを付与するようにコンピュータを機能させることができる。

以下、本発明を実施するための好適な実施の形態（以下、実施形態という）を、図面に従って説明する。

図１には、本実施形態に係る情報分析装置１０の機能ブロック図を示す。図１に示されるように、情報分析装置１０は、データ記憶部２０、データ要素取得部２２、基準情報群生成部２４、特徴ベクトル生成部２６、クラスタリング部２８、ラベル付与部３０、及び評価値算出部３２を含み構成される。各部の機能は、コンピュータシステムたる情報分析装置１０がコンピュータプログラムに従って動作することにより実現されるものとしてよい。また、コンピュータプログラムは、ＣＤ−ＲＯＭ、ＤＶＤ−ＲＯＭ、フラッシュメモリ等のコンピュータが読み取り可能なあらゆる形態の情報記録媒体に格納され、情報分析装置１０に接続された図示しない媒体読み取り装置により情報分析装置１０に読み込まれることとしてもよい。また、コンピュータプログラムは、ネットワークを介して情報分析装置１０にダウンロードされることとしても構わない。

データ記憶部２０は、メモリやハードディスク等の記憶装置により構成され、複数のデータ要素を記憶する。本実施形態では、データ記憶部２０に記憶されるデータ要素を電子文書とする。

データ要素取得部２２は、データ記憶部２０に記憶されたデータ要素の中から、処理対象とするデータ要素群を取得する。データ要素取得部２２は、データ要素が電子文書であるとすると、利用者から指定された検索条件に基づいて、当該検索条件に合致する電子文書群を取得することとしてよい。なお、上記の検索は、電子文書の内容に基づく全文検索であってもよいし、電子文書の作者や作成日等の所定の書誌情報に基づく検索であってもよい。

基準情報群生成部２４は、処理対象とされたデータ要素群について、各データ要素の特徴ベクトルを生成するための基準情報を生成する。ここで、基準情報群生成部２４は、データ要素群からそれぞれ異なる情報の抽出条件（以下、情報抽出条件）に従って情報を抽出するとともに、それらの情報抽出条件毎に抽出された情報からなる複数の情報群を生成する。生成された各情報群は、各データ要素の特徴ベクトルを生成するために用いられる基準データであり、以下では基準情報群と呼ぶ。

ここで、上記の情報抽出条件とは、データ要素群（電子文書群）をいかなる内容に基づいて分類するかを決定する基準となる情報であり、例えば電子文書の所定部分に記述された文字列から単語を抽出するという条件や、電子文書に付与された検索用のタグを抽出するという条件等がその一例にあたる。また、情報抽出条件は、複数の条件を組み合わせて生成することとしてもよく、例えば、一つの情報抽出条件に従って電子文書群から抽出された単語のうち、特定の品詞（例えば名詞）を抽出するようにしてもよいし、電子文書群から抽出された各キーワードのＴＦ／ＩＤＦ等の評価値を計算して、その評価値が上位のキーワードを抽出するようにしてもよい。

例えば、データ要素群から、情報抽出条件ａにより抽出された基準情報群をＡ、情報抽出条件ｂにより抽出された基準情報群をＢとし、基準情報群Ａは電子文書に記述された文章を形態素解析し特定の品詞のみを抽出して得られたキーワードを要素とする集合、基準情報群Ｂは電子文書に付与されたタグを要素とする集合とする。このとき、基準情報群Ａは、処理対象の電子文書群が多い場合には、基準情報群Ｂの要素数に比して、非常に大きな要素から構成されることがある。

特徴ベクトル生成部２６は、データ要素取得部２２により取得されたデータ要素群（電子文書群）に含まれる各データ要素の特徴ベクトルを、基準情報群生成部２４により生成された基準情報群の少なくとも一部に基づいて生成する。

ここで、上述した例において、情報抽出条件ａに従って生成された基準情報群Ａの要素数がＭ、情報抽出条件ｂに従って生成された基準情報群Ｂの要素数がＮとすると、各電子文書の特徴ベクトルは以下のように生成される。基準情報群Ａに基づいて各電子文書の特徴ベクトルを生成する場合には、特徴ベクトルの次元はＭとなる。例えば、基準情報群Ａに属するｉ番目の要素をＷ_ｉとすると、各電子文書について、その電子文書にＷ_ｉが存在する場合には特徴ベクトルのｉ番目の要素を１に、存在しない場合には０とすることにより、各電子文書についてＭ次元からなる特徴ベクトルを生成することができる。特徴ベクトルは、長さが１となるように正規化することとしてよい。また、基準情報群Ｂについても同様にして、各電子文書に対してＮ次元の特徴ベクトルを生成することができる。なお、特徴ベクトルは、上記手法に限らず、基準情報群の各要素の出現数やＴＦ／ＩＤＦ値を要素としてもよい。

クラスタリング部２８は、特徴ベクトル生成部２６により生成された各データ要素群の特徴ベクトルを用いて、各データ要素をクラスタに分類する（クラスタリング）。クラスタリングに用いる特徴ベクトルは、複数の基準情報群のいずれか（例えば基準情報群Ａ）に基づいて生成してもよいし、複数の基準情報群を統合したものに基づいて生成してもよい。クラスタリングの手法には、Ｋｍｅａｎｓ法や各種階層クラスタリング法等の公知の手法を用いることができる。いずれの手法においても、距離が近い特徴ベクトルを持つデータ要素（電子文書）同士を同一のクラスタに分類する。

クラスタリング部２８は、データ要素群をＫ個のクラスタ（Ｃ_１，Ｃ_２，・・・，Ｃ_Ｋ）に分類する。ここで、クラスタの数Ｋは、利用者により設定されることとしてよい。なお、各クラスタには、データ要素（電子文書）が１又は複数個属する。

ラベル付与部３０は、クラスタリング部２８により分類された各クラスタについてラベルを付与する。ラベルは、そのクラスタに属するデータ要素（電子文書）に基づいて決定される。従来では、ラベルはクラスタリングに用いた基準情報群の中から選択されていたが、こうすると上述の基準情報群Ａのように抽出された情報に多くのノイズが含まれる場合には、選択されたラベルがそのクラスタを表すのにふさわしくないことが少なくなかった。そこで、本実施形態では、クラスタリングに用いた基準情報群とは異なる情報抽出条件により生成された基準情報群をラベル付けに用いることとする。すなわち、例えばクラスタリングに基準情報群Ａを用いたとすると、そのラベル付けには基準情報群Ｂを用いることとする。もちろん、両基準情報群は、構成する要素が一部重複することがあるにしても、その全部が一致するものではないものとする。なお、ラベルの付与に用いられる基準情報群は、クラスタリングに用いられる基準情報群よりも抽象的でノイズが少ないことが望ましく、例えば、ラベルの付与には、人手によりデータ要素に付与されたメタデータ等を用いることが好適である。

ここで具体例を用いて説明すれば、例えばデータ要素を特許文献とした場合に、処理対象の特許文献群から、「本文中に存在する単語」と「審査官によって添えられたキーワード（Ｆタームなど）」との２つの情報抽出条件に基づいて、２つの基準情報群を生成したとする。それぞれの基準情報群は、共に対象の特許文献の内容を反映したものであるが、それぞれの抽象度が異なる。つまり、Ｆタームは頻度等に基づいて機械的に抽出される単語に比して抽象化の度合いが高いデータであり、より対象の特許文献の内容を反映している情報であるといえる。そして、Ｆタームのような抽象化の度合いが高いデータは、その分基準情報群として抽出される要素数は少なく、本文中に存在する単語のように抽象化の度合いが低い（すなわち、Ｆタームより具体的である）データは、各特許文献の内容を反映しにくく、抽出される要素数が多くなると考えられる。そこで、基準情報群について抽象化の度合いが不明な場合には、要素数が多すぎる、すなわち要素数が所定数よりも多い基準情報群をラベルの付与に用いないようにしてもよい。

上述した例において、クラスタリングには特許文献の所定の記載事項から抽出した単語の集合からなる基準情報群を用い、各クラスタのラベル付けには、各特許文献から抽出されたＦタームの集合である基準情報群を用いることで、クラスタにはより抽象化の高いラベルを付与することができる。なお、ラベル付けにおいて、各クラスタにはＦタームそのものをラベルとして付与してもよいし、Ｆタームを説明するための語句をラベルとして付与してもよい。

次に、ラベル付与部３０による各クラスタに対するラベル付け処理を具体的に説明する。本実施形態では、複数のクラスタのうち、これからラベルを付与しようとするクラスタ（以下、注目クラスタ）について、基準情報群の要素の情報のうち、その注目クラスタに属するデータ要素（電子文書）には高頻度で出現して、他のクラスタに属するデータ要素（電子文書）には低頻度で出現する情報を、その注目クラスタのラベルとして付与することとする。ここで、注目クラスタのラベルは、後述する評価値算出部３２により算出される基準情報群の各要素の評価値に基づいて決定することとしてよい。

評価値算出部３２は、注目クラスタについて、ラベル付けに用いる基準情報群の要素毎に評価値を算出する。評価値算出部３２は、注目クラスタＣ_ｉについて、ラベル付けに用いる基準情報群の要素Ｗ_ｊに対する評価値Ｓ（ｉ，ｊ）を、例えば以下の式（１）により算出することとしてよい。

ここで、Ｆ（ｉ，ｊ）はクラスタＣ_ｉに属するデータ要素（電子文書）の中で、基準情報Ｗ_ｊを含むデータ要素（電子文書）の総数をクラスタＣ_ｉに属するデータ要素数（電子文書数）で除した値である。なお、上記の式（１）は、注目クラスタには高頻度で出現し、他のクラスタでは低頻度で出現する要素ほど高い値を算出する。そして、注目クラスタＣ_ｉにおいて上記Ｓ（ｉ，ｊ）をすべての要素について算出し、ラベル付与部３０は、その結果を受けて例えばその最大値のスコアに相当する要素を注目クラスタのラベルとすることとしてよい。

また、クラスタリング部２８においては、上述したように１つの基準情報群を用いてクラスタリングする場合に限られず、基準情報群生成部２４により生成された複数の基準情報群を用いてクラスタリングを行うことにより、クラスタリングの処理性能を向上させることとしてもよい。具体的には、上述した例において２つの基準情報群Ａ，Ｂを統合して生成された各データ要素の特徴ベクトルを用いてクラスタリングを実行することとしてよい。この場合においても、クラスタにラベルを付与する際には、例えば、より抽象度が高いと考えられる基準情報群を選択するとともに、当該選択した基準情報群の各要素について上記式（１）に基づく評価値を算出して行う。

また、複数の基準情報群を統合して各データ要素の特徴ベクトルを生成するのではなく、各基準情報群により独立して各データ要素の特徴ベクトルを生成して、クラスタリングの際に用いてもよい。

例えば、クラスタリングを凝集型の階層クラスタリングとした場合、クラスタ数は最初に電子文書毎に１クラスタを構成している状態（すなわち、全文書数にクラスタ数が一致している状態）から最終的に利用者が指定したクラスタ数（＝Ｋ）まで減少していくが、その過程でクラスタ数がＫ’（＞Ｋ）になるまでは１つの基準情報群で生成された特徴ベクトルによってクラスタリングを実行し、Ｋ’から最終的にＫになるまでは他の基準情報群で生成された特徴ベクトルを用いてクラスタリングを実行することとしてもよい。その際、前者の基準情報群よりも後者の基準情報群の方により具体的な情報から構成された基準情報群を用いる方が望ましい。すなわち、前者の基準情報群に上記のＦターム等の利用者により付加されたタグ情報により構成される基準情報群Ｂ、そして後者の基準情報群に電子文書から抽出された単語により構成される基準情報群Ａを用いるようにする。それは、階層クラスタリングの初期段階で抽象度の高い基準を利用することにより、類似性の高い文書が異なるクラスタに分割されるのを防止するためである。

また、階層クラスタリングの階層ごとに異なる基準情報群により生成された特徴ベクトルを用いてクラスタリングを行うこととしてもよい。この際に、最終的に指定する数のクラスタが生成された場合、各クラスタに添付するラベルはその直前に用いられた特徴ベクトルを生成するために用いた基準情報群を選択することとしてよい。

次に、図２に示されるフロー図を参照しながら、本実施形態に係る情報分析装置１０により行われるクラスタリング処理及びクラスタへのラベル付与処理の一連の流れを説明する。

情報分析装置１０は、データ記憶部２０に記憶されたデータ要素群の中から、例えば利用者から指定された検索条件式に基づいてデータ要素群を検索し、その検索結果を処理対象のデータ要素群として取得する（Ｓ１０１）。

情報分析装置１０は、取得したデータ要素群について、それぞれ異なる情報抽出条件に従って情報を抽出するとともに、それぞれの情報抽出条件により抽出された情報を要素とする複数の基準情報群を生成する（Ｓ１０２）。ここで、情報抽出条件とは、データ要素を電子文書とした場合に、データ要素に高頻度で含まれるキーワードのうち、所定のアルゴリズムに従って算出きれるＴＦ／ＩＤＦ等の評価値が所定値以上のものを抽出するとした条件や、電子文書に付与された検索用の書誌情報等のメタデータを抽出するとした条件としてよい。

情報分析装置１０は、生成した複数の基準情報群の少なくとも一部を用いて、各データ要素の特徴ベクトルを生成し（Ｓ１０３）、生成した特徴ベクトルに基づいて各データ要素をクラスタに分類する（Ｓ１０４）。

情報分析装置１０は、分類の結果得られた各クラスタについてラベル付けを行う際に用いる基準情報群を、先に得られた複数の基準情報群の中から選択する（Ｓ１０５）。基準情報群の選択は、例えば、利用者の指示に基づいて行ってもよいし、要素数がクラスタ数よりも大きくかつ所定数よりも小さい基準情報群を選択することにより行ってもよい。

情報分析装置１０は、各クラスタについて、上記選択された基準情報群の各要素の評価値を例えば上述した式（１）に基づいて算出し、算出された評価値の上位の要素の中から各クラスタのラベルを付与する（Ｓ１０６）。ラベルとして複数の要素を付与することとしても構わない。

以上説明した本実施形態に係る情報分析装置１０によれば、クラスタリングに用いる基準情報群と、クラスタのラベル付けに用いる基準情報群とを分けて、ラベル付けにより適した基準情報群を用いることで、複数のデータ要素が分類された各クラスタに適切なラベルを付与することができる。

なお、本発明は上記の実施形態に限定されるものではなく、例えば、各クラスタに付与するラベルの選択は、上記の式（１）による評価に限らず、要素毎の情報エントロピーの値に基づいて行ってもよい。また、本発明は、上記の実施形態のほか、この分野の通常の知識を有する当業者によって多様な変更、変形又は置換が可能であることはもちろんである。

本実施形態に係る情報分析装置の機能ブロック図である。情報分析装置により行われるクラスタリング処理及びクラスタへのラベル付与処理の一連の流れを説明するフロー図である。

符号の説明

１０情報分析装置、２０データ記憶郡、２２データ要素取得部、２４基準情報群生成部、２６特徴ベクトル生成部、２８クラスタリング部、３０ラベル付与部、３２評価値算出部。

Claims

複数のデータ要素を取得する手段と、
前記複数のデータ要素からそれぞれ異なる条件に従って情報を抽出するとともに、前記異なる条件毎に抽出された情報をそれぞれ要素とする複数の基準情報群を生成する基準情報群生成手段と、
前記生成された複数の基準情報群の少なくとも一部を用いて、前記複数のデータ要素のそれぞれの特徴量データを生成する手段と、
前記生成された特徴量データに基づいて、前記複数のデータ要素をクラスタに分類する手段と、
前記分類された各クラスタに、前記複数の基準情報群の中から選択された基準情報群を用いてラベルを付与する付与手段と、を含む、
ことを特徴とする情報分析装置。
前記特徴量データを生成する際に用いられる前記複数の基準情報群の少なくとも一部と、前記分類されたクラスタのラベルの付与に用いられる前記選択された基準情報群とが異なる、
ことを特徴とする請求項１に記載の情報分析装置。
前記付与手段は、前記分類された各クラスタに、前記選択された基準情報群のいずれかの要素をラベルとして付与する、
ことを特徴とする請求項１又は２に記載の情報分析装置。
前記付与手段は、前記分類されたクラスタ毎に、前記選択された基準情報群に含まれる情報のうち、当該クラスタには高頻度で含まれ、他のクラスタには低頻度で含まれる情報を当該クラスタのラベルとして付与する、
ことを特徴とする請求項１乃至３のいずれかに記載の情報分析装置。
前記複数の基準情報群のうち、要素数が前記クラスタの数よりも大きく、所定の要素数よりも小さい基準情報群を選択する基準情報群選択手段をさらに含み、
前記付与手段は、前記基準情報群選択手段により選択された基準情報群を用いて前記分類されたクラスタにラベルを付与する、
ことを特徴とする請求項１乃至４のいずれかに記載の情報分析装置。
前記データ要素は電子文書であり、
前記基準情報群生成手段は、少なくとも前記電子文書に付与された所定のメタデータを要素とする基準情報群を生成し、
前記付与手段は、前記所定のメタデータを要素とした基準情報群を用いて前記分類されたクラスタにラベルを付与する、
ことを特徴とする請求項１乃至５のいずれかに記載の情報分析装置。
コンピュータを、
複数のデータ要素を取得する手段と、
前記複数のデータ要素からそれぞれ異なる条件に従って情報を抽出するとともに、前記異なる条件毎に抽出された情報をそれぞれ要素とする複数の基準情報群を生成する基準情報群生成手段と、
前記複数の基準情報群の少なくとも一部を用いて、前記複数のデータ要素のそれぞれの特徴量データを生成する手段と、
前記生成された特徴量データに基づいて、前記複数のデータ要素をクラスタに分類する手段と、
前記分類された各クラスタに、前記複数の基準情報群の中から選択された基準情報群を用いてラベルを付与する付与手段と、
して機能させることを特徴とする情報分析プログラム。