JP2009151390A - 情報分析装置、及び情報分析プログラム - Google Patents

情報分析装置、及び情報分析プログラム Download PDF

Info

Publication number
JP2009151390A
JP2009151390A JP2007326561A JP2007326561A JP2009151390A JP 2009151390 A JP2009151390 A JP 2009151390A JP 2007326561 A JP2007326561 A JP 2007326561A JP 2007326561 A JP2007326561 A JP 2007326561A JP 2009151390 A JP2009151390 A JP 2009151390A
Authority
JP
Japan
Prior art keywords
reference information
information
analysis apparatus
information group
cluster
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2007326561A
Other languages
English (en)
Inventor
Motofumi Fukui
基文 福井
Hitoshi Ikeda
仁 池田
Junichi Takeda
隼一 武田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP2007326561A priority Critical patent/JP2009151390A/ja
Publication of JP2009151390A publication Critical patent/JP2009151390A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】複数のデータ要素を分類して得た各クラスタに適切なラベルを付与する。
【解決手段】情報分析装置は、複数のデータ要素を取得し、複数のデータ要素から異なる条件に従って情報を抽出するとともに、それぞれ異なる条件毎に抽出された情報をそれぞれ要素とする複数の基準情報群を生成し、生成された複数の基準情報群の少なくとも一部を用いて、複数のデータ要素のそれぞれの特徴量データを生成し、生成された特徴量データに基づいて、複数のデータ要素をクラスタに分類し、分類されたクラスタ毎に、複数の基準情報群の中から選択された基準情報群を用いてラベルを付与する。
【選択図】図1

Description

本発明は、情報分析装置、及び情報分析プログラムに関する。
複数の文書を要素とする文書集合に対し、文書集合に含まれる各文書をクラスタに分類し、文書の分析や調査に役立てることがある。例えば、従来の技術において、下記の特許文献1には、文書中の単語間の共起関係を用いて得られたキーワード群からなる基準の特徴ベクトルを作成するとともに、その基準の特徴ベクトルを用いて各文書の特徴ベクトルを作成し、作成した特徴ベクトルに基づいて各文書を分類する手法が開示されている。また、下記の特許文献2には、文書中から単語を抽出し、共通の単語を含む文書群を1つのグループとし、その後に似たグループ同士を統合することで最終的な分類結果を得る手法が開示されている。
特開平7−114572号公報 特開平8−153121号公報
分類結果を利用し易くするために、分類されたクラスタにそれぞれラベル(タイトル)を付与することがあるが、従来の技術では、クラスタに付与されるラベルは、各文書についての特徴ベクトルを生成する際に用いたキーワード群のいずれかの要素から選択されるものであった。そのため、クラスタリングによる分類結果が不適切であったり、クラスタリングの際に不適切なキーワードが要素として選択されていたりすると、どのようなラベル選択手法を用いても、クラスタに適切なラベルを付与できないことがあった。
本発明は上記課題に鑑みてなされたものであって、本発明の目的の一つは、複数のデータ要素が分類された各クラスタに適切なラベルを付与することができる情報分析装置及び情報分析プログラムを提供することにある。
上記目的を達成するために、請求項1に記載の情報分析装置の発明は、複数のデータ要素を取得する手段と、前記複数のデータ要素からそれぞれ異なる条件に従って情報を抽出するとともに、前記異なる条件毎に抽出された情報をそれぞれ要素とする複数の基準情報群を生成する基準情報群生成手段と、前記生成された複数の基準情報群の少なくとも一部を用いて、前記複数のデータ要素のそれぞれの特徴量データを生成する手段と、前記生成された特徴量データに基づいて、前記複数のデータ要素をクラスタに分類する手段と、前記分類された各クラスタに、前記複数の基準情報群の中から選択された基準情報群を用いてラベルを付与する付与手段と、を含む、ことを特徴とする。
また、請求項2に記載の発明は、請求項1に記載の情報分析装置において、前記特徴量データを生成する際に用いられる前記複数の基準情報群の少なくとも一部と、前記分類されたクラスタのラベルの付与に用いられる前記選択された基準情報群とが異なる、ことを特徴とする。
また、請求項3に記載の発明は、請求項1又は2に記載の情報分析装置において、前記付与手段は、前記分類された各クラスタに、前記選択された基準情報群のいずれかの要素をラベルとして付与する、ことを特徴とする。
また、請求項4に記載の発明は、請求項1乃至3のいずれかに記載の情報分析装置において、前記付与手段は、前記分類されたクラスタ毎に、前記選択された基準情報群に含まれる情報のうち、当該クラスタには高頻度で含まれ、他のクラスタには低頻度で含まれる情報を当該クラスタのラベルとして付与する、ことを特徴とする。
また、請求項5に記載の発明は、請求項1乃至4のいずれかに記載の情報分析装置において、前記複数の基準情報群のうち、要素数が前記クラスタの数よりも大きく、所定の要素数よりも小さい基準情報群を選択する基準情報群選択手段をさらに含み、前記付与手段は、前記基準情報群選択手段により選択された基準情報群を用いて前記分類されたクラスタにラベルを付与する、ことを特徴とする。
また、請求項6に記載の発明は、請求項1乃至5のいずれかに記載の情報分析装置において、前記データ要素は電子文書であり、前記基準情報群生成手段は、少なくとも前記電子文書に付与された所定のメタデータを要素とする基準情報群を生成し、前記付与手段は、前記所定のメタデータを要素とした基準情報群を用いて前記分類されたクラスタにラベルを付与する、ことを特徴とする。
また、請求項7に記載の情報分析プログラムの発明は、コンピュータを、複数のデータ要素を取得する手段と、前記複数のデータ要素からそれぞれ異なる条件に従って情報を抽出するとともに、前記異なる条件毎に抽出された情報をそれぞれ要素とする複数の基準情報群を生成する基準情報群生成手段と、前記複数の基準情報群の少なくとも一部を用いて、前記複数のデータ要素のそれぞれの特徴量データを生成する手段と、前記生成された特徴量データに基づいて、前記複数のデータ要素をクラスタに分類する手段と、前記分類された各クラスタに、前記複数の基準情報群の中から選択された基準情報群を用いてラベルを付与する付与手段と、して機能させることを特徴とする。
請求項1に記載の発明によれば、クラスタリングに用いる基準情報群と、クラスタのラベル付けに用いる基準情報群とを分けて、ラベル付けに適した基準情報群を用いることで、複数のデータ要素が分類された各クラスタに適切なラベルを付与することができる。
請求項2に記載の発明によれば、クラスタリングに用いる基準情報群と、クラスタのラベル付けに用いる基準情報群とを異ならせるようにして、ラベル付けに適した基準情報群を用いることで、複数のデータ要素が分類された各クラスタに適切なラベルを付与することができる。
請求項3に記載の発明によれば、各クラスタにラベル付け用に選択された基準情報群のいずれかの要素をラベルとして付与することができる。
請求項4に記載の発明によれば、各クラスタにそれぞれ特徴的な情報をラベルとして付与することができる。
請求項5に記載の発明によれば、複数の基準情報群のうち、クラスタのラベル付けにとって要素数が不足しているものと要素数が大きすぎるものとを除外して選択された基準情報群を用いてクラスタのラベル付けを行うことで、複数のデータ要素が分類された各クラスタに適切なラベルを付与することができる。
請求項6に記載の発明によれば、電子文書に付与されたメタデータ(例えば、特許公報などのFターム等)をラベル付けに用いることにより、複数の電子文書が分類された各クラスタに適切なラベルを付与することができる。
請求項7に記載の発明によれば、クラスタリングに用いる基準情報群と、クラスタのラベル付けに用いる基準情報群とを分けて、ラベル付けにより適した基準情報群を用いることで、複数のデータ要素が分類された各クラスタに適切なラベルを付与するようにコンピュータを機能させることができる。
以下、本発明を実施するための好適な実施の形態(以下、実施形態という)を、図面に従って説明する。
図1には、本実施形態に係る情報分析装置10の機能ブロック図を示す。図1に示されるように、情報分析装置10は、データ記憶部20、データ要素取得部22、基準情報群生成部24、特徴ベクトル生成部26、クラスタリング部28、ラベル付与部30、及び評価値算出部32を含み構成される。各部の機能は、コンピュータシステムたる情報分析装置10がコンピュータプログラムに従って動作することにより実現されるものとしてよい。また、コンピュータプログラムは、CD−ROM、DVD−ROM、フラッシュメモリ等のコンピュータが読み取り可能なあらゆる形態の情報記録媒体に格納され、情報分析装置10に接続された図示しない媒体読み取り装置により情報分析装置10に読み込まれることとしてもよい。また、コンピュータプログラムは、ネットワークを介して情報分析装置10にダウンロードされることとしても構わない。
データ記憶部20は、メモリやハードディスク等の記憶装置により構成され、複数のデータ要素を記憶する。本実施形態では、データ記憶部20に記憶されるデータ要素を電子文書とする。
データ要素取得部22は、データ記憶部20に記憶されたデータ要素の中から、処理対象とするデータ要素群を取得する。データ要素取得部22は、データ要素が電子文書であるとすると、利用者から指定された検索条件に基づいて、当該検索条件に合致する電子文書群を取得することとしてよい。なお、上記の検索は、電子文書の内容に基づく全文検索であってもよいし、電子文書の作者や作成日等の所定の書誌情報に基づく検索であってもよい。
基準情報群生成部24は、処理対象とされたデータ要素群について、各データ要素の特徴ベクトルを生成するための基準情報を生成する。ここで、基準情報群生成部24は、データ要素群からそれぞれ異なる情報の抽出条件(以下、情報抽出条件)に従って情報を抽出するとともに、それらの情報抽出条件毎に抽出された情報からなる複数の情報群を生成する。生成された各情報群は、各データ要素の特徴ベクトルを生成するために用いられる基準データであり、以下では基準情報群と呼ぶ。
ここで、上記の情報抽出条件とは、データ要素群(電子文書群)をいかなる内容に基づいて分類するかを決定する基準となる情報であり、例えば電子文書の所定部分に記述された文字列から単語を抽出するという条件や、電子文書に付与された検索用のタグを抽出するという条件等がその一例にあたる。また、情報抽出条件は、複数の条件を組み合わせて生成することとしてもよく、例えば、一つの情報抽出条件に従って電子文書群から抽出された単語のうち、特定の品詞(例えば名詞)を抽出するようにしてもよいし、電子文書群から抽出された各キーワードのTF/IDF等の評価値を計算して、その評価値が上位のキーワードを抽出するようにしてもよい。
例えば、データ要素群から、情報抽出条件aにより抽出された基準情報群をA、情報抽出条件bにより抽出された基準情報群をBとし、基準情報群Aは電子文書に記述された文章を形態素解析し特定の品詞のみを抽出して得られたキーワードを要素とする集合、基準情報群Bは電子文書に付与されたタグを要素とする集合とする。このとき、基準情報群Aは、処理対象の電子文書群が多い場合には、基準情報群Bの要素数に比して、非常に大きな要素から構成されることがある。
特徴ベクトル生成部26は、データ要素取得部22により取得されたデータ要素群(電子文書群)に含まれる各データ要素の特徴ベクトルを、基準情報群生成部24により生成された基準情報群の少なくとも一部に基づいて生成する。
ここで、上述した例において、情報抽出条件aに従って生成された基準情報群Aの要素数がM、情報抽出条件bに従って生成された基準情報群Bの要素数がNとすると、各電子文書の特徴ベクトルは以下のように生成される。基準情報群Aに基づいて各電子文書の特徴ベクトルを生成する場合には、特徴ベクトルの次元はMとなる。例えば、基準情報群Aに属するi番目の要素をWとすると、各電子文書について、その電子文書にWが存在する場合には特徴ベクトルのi番目の要素を1に、存在しない場合には0とすることにより、各電子文書についてM次元からなる特徴ベクトルを生成することができる。特徴ベクトルは、長さが1となるように正規化することとしてよい。また、基準情報群Bについても同様にして、各電子文書に対してN次元の特徴ベクトルを生成することができる。なお、特徴ベクトルは、上記手法に限らず、基準情報群の各要素の出現数やTF/IDF値を要素としてもよい。
クラスタリング部28は、特徴ベクトル生成部26により生成された各データ要素群の特徴ベクトルを用いて、各データ要素をクラスタに分類する(クラスタリング)。クラスタリングに用いる特徴ベクトルは、複数の基準情報群のいずれか(例えば基準情報群A)に基づいて生成してもよいし、複数の基準情報群を統合したものに基づいて生成してもよい。クラスタリングの手法には、Kmeans法や各種階層クラスタリング法等の公知の手法を用いることができる。いずれの手法においても、距離が近い特徴ベクトルを持つデータ要素(電子文書)同士を同一のクラスタに分類する。
クラスタリング部28は、データ要素群をK個のクラスタ(C,C,・・・,C)に分類する。ここで、クラスタの数Kは、利用者により設定されることとしてよい。なお、各クラスタには、データ要素(電子文書)が1又は複数個属する。
ラベル付与部30は、クラスタリング部28により分類された各クラスタについてラベルを付与する。ラベルは、そのクラスタに属するデータ要素(電子文書)に基づいて決定される。従来では、ラベルはクラスタリングに用いた基準情報群の中から選択されていたが、こうすると上述の基準情報群Aのように抽出された情報に多くのノイズが含まれる場合には、選択されたラベルがそのクラスタを表すのにふさわしくないことが少なくなかった。そこで、本実施形態では、クラスタリングに用いた基準情報群とは異なる情報抽出条件により生成された基準情報群をラベル付けに用いることとする。すなわち、例えばクラスタリングに基準情報群Aを用いたとすると、そのラベル付けには基準情報群Bを用いることとする。もちろん、両基準情報群は、構成する要素が一部重複することがあるにしても、その全部が一致するものではないものとする。なお、ラベルの付与に用いられる基準情報群は、クラスタリングに用いられる基準情報群よりも抽象的でノイズが少ないことが望ましく、例えば、ラベルの付与には、人手によりデータ要素に付与されたメタデータ等を用いることが好適である。
ここで具体例を用いて説明すれば、例えばデータ要素を特許文献とした場合に、処理対象の特許文献群から、「本文中に存在する単語」と「審査官によって添えられたキーワード(Fタームなど)」との2つの情報抽出条件に基づいて、2つの基準情報群を生成したとする。それぞれの基準情報群は、共に対象の特許文献の内容を反映したものであるが、それぞれの抽象度が異なる。つまり、Fタームは頻度等に基づいて機械的に抽出される単語に比して抽象化の度合いが高いデータであり、より対象の特許文献の内容を反映している情報であるといえる。そして、Fタームのような抽象化の度合いが高いデータは、その分基準情報群として抽出される要素数は少なく、本文中に存在する単語のように抽象化の度合いが低い(すなわち、Fタームより具体的である)データは、各特許文献の内容を反映しにくく、抽出される要素数が多くなると考えられる。そこで、基準情報群について抽象化の度合いが不明な場合には、要素数が多すぎる、すなわち要素数が所定数よりも多い基準情報群をラベルの付与に用いないようにしてもよい。
上述した例において、クラスタリングには特許文献の所定の記載事項から抽出した単語の集合からなる基準情報群を用い、各クラスタのラベル付けには、各特許文献から抽出されたFタームの集合である基準情報群を用いることで、クラスタにはより抽象化の高いラベルを付与することができる。なお、ラベル付けにおいて、各クラスタにはFタームそのものをラベルとして付与してもよいし、Fタームを説明するための語句をラベルとして付与してもよい。
次に、ラベル付与部30による各クラスタに対するラベル付け処理を具体的に説明する。本実施形態では、複数のクラスタのうち、これからラベルを付与しようとするクラスタ(以下、注目クラスタ)について、基準情報群の要素の情報のうち、その注目クラスタに属するデータ要素(電子文書)には高頻度で出現して、他のクラスタに属するデータ要素(電子文書)には低頻度で出現する情報を、その注目クラスタのラベルとして付与することとする。ここで、注目クラスタのラベルは、後述する評価値算出部32により算出される基準情報群の各要素の評価値に基づいて決定することとしてよい。
評価値算出部32は、注目クラスタについて、ラベル付けに用いる基準情報群の要素毎に評価値を算出する。評価値算出部32は、注目クラスタCについて、ラベル付けに用いる基準情報群の要素Wに対する評価値S(i,j)を、例えば以下の式(1)により算出することとしてよい。
Figure 2009151390
ここで、F(i,j)はクラスタCに属するデータ要素(電子文書)の中で、基準情報Wを含むデータ要素(電子文書)の総数をクラスタCに属するデータ要素数(電子文書数)で除した値である。なお、上記の式(1)は、注目クラスタには高頻度で出現し、他のクラスタでは低頻度で出現する要素ほど高い値を算出する。そして、注目クラスタCにおいて上記S(i,j)をすべての要素について算出し、ラベル付与部30は、その結果を受けて例えばその最大値のスコアに相当する要素を注目クラスタのラベルとすることとしてよい。
また、クラスタリング部28においては、上述したように1つの基準情報群を用いてクラスタリングする場合に限られず、基準情報群生成部24により生成された複数の基準情報群を用いてクラスタリングを行うことにより、クラスタリングの処理性能を向上させることとしてもよい。具体的には、上述した例において2つの基準情報群A,Bを統合して生成された各データ要素の特徴ベクトルを用いてクラスタリングを実行することとしてよい。この場合においても、クラスタにラベルを付与する際には、例えば、より抽象度が高いと考えられる基準情報群を選択するとともに、当該選択した基準情報群の各要素について上記式(1)に基づく評価値を算出して行う。
また、複数の基準情報群を統合して各データ要素の特徴ベクトルを生成するのではなく、各基準情報群により独立して各データ要素の特徴ベクトルを生成して、クラスタリングの際に用いてもよい。
例えば、クラスタリングを凝集型の階層クラスタリングとした場合、クラスタ数は最初に電子文書毎に1クラスタを構成している状態(すなわち、全文書数にクラスタ数が一致している状態)から最終的に利用者が指定したクラスタ数(=K)まで減少していくが、その過程でクラスタ数がK’(>K)になるまでは1つの基準情報群で生成された特徴ベクトルによってクラスタリングを実行し、K’から最終的にKになるまでは他の基準情報群で生成された特徴ベクトルを用いてクラスタリングを実行することとしてもよい。その際、前者の基準情報群よりも後者の基準情報群の方により具体的な情報から構成された基準情報群を用いる方が望ましい。すなわち、前者の基準情報群に上記のFターム等の利用者により付加されたタグ情報により構成される基準情報群B、そして後者の基準情報群に電子文書から抽出された単語により構成される基準情報群Aを用いるようにする。それは、階層クラスタリングの初期段階で抽象度の高い基準を利用することにより、類似性の高い文書が異なるクラスタに分割されるのを防止するためである。
また、階層クラスタリングの階層ごとに異なる基準情報群により生成された特徴ベクトルを用いてクラスタリングを行うこととしてもよい。この際に、最終的に指定する数のクラスタが生成された場合、各クラスタに添付するラベルはその直前に用いられた特徴ベクトルを生成するために用いた基準情報群を選択することとしてよい。
次に、図2に示されるフロー図を参照しながら、本実施形態に係る情報分析装置10により行われるクラスタリング処理及びクラスタへのラベル付与処理の一連の流れを説明する。
情報分析装置10は、データ記憶部20に記憶されたデータ要素群の中から、例えば利用者から指定された検索条件式に基づいてデータ要素群を検索し、その検索結果を処理対象のデータ要素群として取得する(S101)。
情報分析装置10は、取得したデータ要素群について、それぞれ異なる情報抽出条件に従って情報を抽出するとともに、それぞれの情報抽出条件により抽出された情報を要素とする複数の基準情報群を生成する(S102)。ここで、情報抽出条件とは、データ要素を電子文書とした場合に、データ要素に高頻度で含まれるキーワードのうち、所定のアルゴリズムに従って算出きれるTF/IDF等の評価値が所定値以上のものを抽出するとした条件や、電子文書に付与された検索用の書誌情報等のメタデータを抽出するとした条件としてよい。
情報分析装置10は、生成した複数の基準情報群の少なくとも一部を用いて、各データ要素の特徴ベクトルを生成し(S103)、生成した特徴ベクトルに基づいて各データ要素をクラスタに分類する(S104)。
情報分析装置10は、分類の結果得られた各クラスタについてラベル付けを行う際に用いる基準情報群を、先に得られた複数の基準情報群の中から選択する(S105)。基準情報群の選択は、例えば、利用者の指示に基づいて行ってもよいし、要素数がクラスタ数よりも大きくかつ所定数よりも小さい基準情報群を選択することにより行ってもよい。
情報分析装置10は、各クラスタについて、上記選択された基準情報群の各要素の評価値を例えば上述した式(1)に基づいて算出し、算出された評価値の上位の要素の中から各クラスタのラベルを付与する(S106)。ラベルとして複数の要素を付与することとしても構わない。
以上説明した本実施形態に係る情報分析装置10によれば、クラスタリングに用いる基準情報群と、クラスタのラベル付けに用いる基準情報群とを分けて、ラベル付けにより適した基準情報群を用いることで、複数のデータ要素が分類された各クラスタに適切なラベルを付与することができる。
なお、本発明は上記の実施形態に限定されるものではなく、例えば、各クラスタに付与するラベルの選択は、上記の式(1)による評価に限らず、要素毎の情報エントロピーの値に基づいて行ってもよい。また、本発明は、上記の実施形態のほか、この分野の通常の知識を有する当業者によって多様な変更、変形又は置換が可能であることはもちろんである。
本実施形態に係る情報分析装置の機能ブロック図である。 情報分析装置により行われるクラスタリング処理及びクラスタへのラベル付与処理の一連の流れを説明するフロー図である。
符号の説明
10 情報分析装置、20 データ記憶郡、22 データ要素取得部、24 基準情報群生成部、26 特徴ベクトル生成部、28 クラスタリング部、30 ラベル付与部、32 評価値算出部。

Claims (7)

  1. 複数のデータ要素を取得する手段と、
    前記複数のデータ要素からそれぞれ異なる条件に従って情報を抽出するとともに、前記異なる条件毎に抽出された情報をそれぞれ要素とする複数の基準情報群を生成する基準情報群生成手段と、
    前記生成された複数の基準情報群の少なくとも一部を用いて、前記複数のデータ要素のそれぞれの特徴量データを生成する手段と、
    前記生成された特徴量データに基づいて、前記複数のデータ要素をクラスタに分類する手段と、
    前記分類された各クラスタに、前記複数の基準情報群の中から選択された基準情報群を用いてラベルを付与する付与手段と、を含む、
    ことを特徴とする情報分析装置。
  2. 前記特徴量データを生成する際に用いられる前記複数の基準情報群の少なくとも一部と、前記分類されたクラスタのラベルの付与に用いられる前記選択された基準情報群とが異なる、
    ことを特徴とする請求項1に記載の情報分析装置。
  3. 前記付与手段は、前記分類された各クラスタに、前記選択された基準情報群のいずれかの要素をラベルとして付与する、
    ことを特徴とする請求項1又は2に記載の情報分析装置。
  4. 前記付与手段は、前記分類されたクラスタ毎に、前記選択された基準情報群に含まれる情報のうち、当該クラスタには高頻度で含まれ、他のクラスタには低頻度で含まれる情報を当該クラスタのラベルとして付与する、
    ことを特徴とする請求項1乃至3のいずれかに記載の情報分析装置。
  5. 前記複数の基準情報群のうち、要素数が前記クラスタの数よりも大きく、所定の要素数よりも小さい基準情報群を選択する基準情報群選択手段をさらに含み、
    前記付与手段は、前記基準情報群選択手段により選択された基準情報群を用いて前記分類されたクラスタにラベルを付与する、
    ことを特徴とする請求項1乃至4のいずれかに記載の情報分析装置。
  6. 前記データ要素は電子文書であり、
    前記基準情報群生成手段は、少なくとも前記電子文書に付与された所定のメタデータを要素とする基準情報群を生成し、
    前記付与手段は、前記所定のメタデータを要素とした基準情報群を用いて前記分類されたクラスタにラベルを付与する、
    ことを特徴とする請求項1乃至5のいずれかに記載の情報分析装置。
  7. コンピュータを、
    複数のデータ要素を取得する手段と、
    前記複数のデータ要素からそれぞれ異なる条件に従って情報を抽出するとともに、前記異なる条件毎に抽出された情報をそれぞれ要素とする複数の基準情報群を生成する基準情報群生成手段と、
    前記複数の基準情報群の少なくとも一部を用いて、前記複数のデータ要素のそれぞれの特徴量データを生成する手段と、
    前記生成された特徴量データに基づいて、前記複数のデータ要素をクラスタに分類する手段と、
    前記分類された各クラスタに、前記複数の基準情報群の中から選択された基準情報群を用いてラベルを付与する付与手段と、
    して機能させることを特徴とする情報分析プログラム。
JP2007326561A 2007-12-18 2007-12-18 情報分析装置、及び情報分析プログラム Pending JP2009151390A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007326561A JP2009151390A (ja) 2007-12-18 2007-12-18 情報分析装置、及び情報分析プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007326561A JP2009151390A (ja) 2007-12-18 2007-12-18 情報分析装置、及び情報分析プログラム

Publications (1)

Publication Number Publication Date
JP2009151390A true JP2009151390A (ja) 2009-07-09

Family

ID=40920513

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007326561A Pending JP2009151390A (ja) 2007-12-18 2007-12-18 情報分析装置、及び情報分析プログラム

Country Status (1)

Country Link
JP (1) JP2009151390A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011040069A (ja) * 2009-08-14 2011-02-24 Buzzmetrics Ltd 通信テキスト分類方法及び装置
WO2011086820A1 (ja) * 2010-01-15 2011-07-21 日本電気株式会社 情報処理装置、情報処理方法、及びコンピュータ読み取り可能な記録媒体
JP2016508274A (ja) * 2013-01-15 2016-03-17 シマンテック コーポレーションSymantec Corporation クラスタ化を用いたサンプルの分類
JP2016081132A (ja) * 2014-10-10 2016-05-16 富士通株式会社 分析プログラム、分析方法及び分析装置
JP7129206B2 (ja) 2018-05-10 2022-09-01 キヤノン株式会社 システム、集計方法、及びプログラム

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011040069A (ja) * 2009-08-14 2011-02-24 Buzzmetrics Ltd 通信テキスト分類方法及び装置
US8458154B2 (en) 2009-08-14 2013-06-04 Buzzmetrics, Ltd. Methods and apparatus to classify text communications
US8909645B2 (en) 2009-08-14 2014-12-09 Buzzmetrics, Ltd. Methods and apparatus to classify text communications
WO2011086820A1 (ja) * 2010-01-15 2011-07-21 日本電気株式会社 情報処理装置、情報処理方法、及びコンピュータ読み取り可能な記録媒体
US9824142B2 (en) 2010-01-15 2017-11-21 Nec Corporation Information processing device, information processing method, and computer-readable recording medium
JP2016508274A (ja) * 2013-01-15 2016-03-17 シマンテック コーポレーションSymantec Corporation クラスタ化を用いたサンプルの分類
JP2016081132A (ja) * 2014-10-10 2016-05-16 富士通株式会社 分析プログラム、分析方法及び分析装置
JP7129206B2 (ja) 2018-05-10 2022-09-01 キヤノン株式会社 システム、集計方法、及びプログラム

Similar Documents

Publication Publication Date Title
US10565313B2 (en) Automatic semantic rating and abstraction of literature
JP4981026B2 (ja) 複合ニュース・ストーリーの合成
JP2010541092A5 (ja)
JP5216063B2 (ja) 未登録語のカテゴリを決定する方法と装置
JP2004139553A (ja) 文書検索システムおよび質問応答システム
JP5012078B2 (ja) カテゴリ作成方法、カテゴリ作成装置、およびプログラム
JP2011165131A (ja) 情報処理装置および方法、並びにプログラム
US9164981B2 (en) Information processing apparatus, information processing method, and program
JP2009151390A (ja) 情報分析装置、及び情報分析プログラム
JP2006338342A (ja) 単語ベクトル生成装置、単語ベクトル生成方法およびプログラム
JP4524640B2 (ja) 情報処理装置および方法、並びにプログラム
JP2005301856A (ja) 文書検索方法、文書検索プログラムおよびこれを実行する文書検索装置
Nayak et al. Clustering and labeling a web scale document collection using Wikipedia clusters
JP2006227823A (ja) 情報処理装置及びその制御方法
JP5224532B2 (ja) 評判情報分類装置及びプログラム
JP2008204374A (ja) クラスタ生成装置およびクラスタ生成プログラム
JP2007317133A (ja) 画像分類方法及び装置及びプログラム
Schein et al. Author Attribution Evaluation with Novel Topic Cross-validation.
JP2003263441A (ja) キーワード決定データベース作成方法、キーワード決定方法、装置、プログラム、および記録媒体
JP2011129006A (ja) 意味分類付与装置、意味分類付与方法、意味分類付与プログラム
US20210073258A1 (en) Information processing apparatus and non-transitory computer readable medium
Lahiri et al. Authorship attribution using word network features
JP4148247B2 (ja) 語彙獲得方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体
JP6181890B2 (ja) 文献解析装置、文献解析方法およびプログラム
JP2004206571A (ja) 文書情報提示方法及び装置並びにプログラム及び記録媒体