JP2000259658A - 文書分類装置 - Google Patents

文書分類装置

Info

Publication number
JP2000259658A
JP2000259658A JP11063656A JP6365699A JP2000259658A JP 2000259658 A JP2000259658 A JP 2000259658A JP 11063656 A JP11063656 A JP 11063656A JP 6365699 A JP6365699 A JP 6365699A JP 2000259658 A JP2000259658 A JP 2000259658A
Authority
JP
Japan
Prior art keywords
feature
document
feature expression
cluster
term
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP11063656A
Other languages
English (en)
Inventor
Tomoya Ogawa
知也 小川
Akira Ochitani
亮 落谷
Fumito Nishino
文人 西野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP11063656A priority Critical patent/JP2000259658A/ja
Publication of JP2000259658A publication Critical patent/JP2000259658A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 分類時に得られる特徴表現の間の関係やクラ
スタ間の関係を活用することにより、効率的な分類結果
提示や操作手段の提供を可能とすること。 【解決手段】 GUIモジュール2は、ユーザ1より与
えられた分類指示および分類条件に対し、文書分類エン
ジン3に分類指示を与える。文書分類エンジン3は文書
セット4に対して分類を行う。GUIモジュール2は、
分類結果情報を、特徴表現管理モジュール5ヘと渡す。
特徴表現管理モジュール5は渡された分類結果情報に基
づき、必要に応じ特徴表現階層関係管理モジュール6、
クラスタ管理モジュール7、制約処理モジュール8と情
報をやりとりをして、分類された文書セットに対し指定
された特徴表現付与を行い、GUIモジュール2ヘと特
徴表現表示情報を与える。GUIモジュール2は上記各
種表示情報に基づき表示を行い、ユーザ1に対して特徴
表現等を呈示する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】近年−インターネットの普及
や全文データベースの増加に伴い、我々の身の回りの文
書情報は飛躍的に増加している。それらの文書に含まれ
る情報を効率的に活用するためには、文書情報の整理、
分類技術が重要となる。しかし、分類精度や分類システ
ムの使い勝手に関し、現状の分類システムは必ずしも十
分とはいえず、必要な情報が効率よく入手できる文書分
類技術が望まれている。本発明は上記した文書分類技術
に関し、さらに詳細には、分類時に得られる文書セット
からの情報を活用することで、例えば該文書セットのタ
イトル等に使用することができる文書セットの特徴を最
も適切に表す特徴表現を呈示し、また、所定の制約条件
に入るように分類結果や上記特徴表現を操作することが
できる文書分類技術に関するものである。
【0002】
【従来の技術】従来の文書分類における分類結果提示で
は、各クラスタを特徴付けるようなキーワード選択にお
いて個々のキーワードの属性(例えば、文書をタームを
要素とするベクトルで表現するベクトル空間モデルにお
いて文書クラスタの代表ベクトルとキーワードとの類似
度や、文書クラスタの代表的な文書におけるキーワード
の頻度など)のみが考慮されている程度であり、分類時
に得られる文書セットからの情報を十分に活用した分類
結果の表示や操作手段の提供は行われてはいなかった。
【0003】
【発明が解決しようとする課題】以上のように従来にお
いては、分類時に得られる文書セットからの情報を十分
に活用した分類結果の表示や操作手段の提供は行われて
はいなかった。本発明は上記した事情を考慮してなされ
たものであって、本発明の目的は分類時に得られる文書
セットからの情報、例えば特徴表現の間の関係やクラス
タ間の関係を活用することで、効率的な分類結果提示や
操作手段の提供を可能とすることである。
【0004】
【課題を解決するための手段】図1は本発明の原理を示
す構成図である。同図において、1はユーザ、2はユー
ザとのインタフェースを提供するGUI(グラフィカル
・ユーザ・インタフェース)モジュール、3は文書分類
エンジンであり、文書分類エンジン3は、文書セット4
に対して、文書間の類似度にしたがって文書をクラスタ
あるいは群に分類する。なお、本発明における用語とし
て、クラスタはクラスタ間の重なりがないもの、群は群
間の重なりがあるものとする。すなわち、一つの文書は
複数の群に属することがある。ただし、クラスタと群と
の区別が重要ではない場合には両者を合わせて単にクラ
スタと呼ぶ。5は特徴表現管理モジュールであり、文書
セット4の分類結果である各クラスタあるいは群に対し
て、それらのクラスタあるいは群を特徴付ける特徴表現
を付与する。6は特徴表現階層関係モジュールであり、
特徴表現間の階層関係を明らかにし、クラスタあるいは
群に付与された特徴表現の中から特徴表現の間の階層関
係に基づき、適切な特徴表現を選択する。
【0005】7はクラスタ管理モジュールであり、クラ
スタあるいは群間の関連構造を明らかにすることで、ク
ラスタあるいは群に付与された特徴表現の中から、特徴
表現の間の階層関係、およびクラスタあるいは群の比較
に基づき適切な特徴表現を選択する。8は制約処理管理
モジュールであり、一つのクラスタあるいは群あたりの
文書数に関する制約、あるいは、特徴表現の数に関する
制約を考慮した文書分類および特徴表現付与を行う。
【0006】図1において、GUIモジュール2は、ユ
ーザ1より与えられた分類指示および分類条件に対し、
文書分類エンジン3に分類指示を与える。文書分類エン
ジン3は文書セット4に対して分類を行い、分類結果情
報をGUIモジュール2に渡す。GUIモジュール2
は、受け取った分類結果情報を、特徴表現管理モジュー
ル5ヘと渡す。特徴表現管理モジュール5は渡された分
類結果情報に基づき、必要に応じ特徴表現階層関係管理
モジュール6、クラスタ管理モジュール7、制約処理モ
ジュール8と情報をやりとりをして、分類された文書セ
ットに対し指定された特徴表現付与を行い、GUIモジ
ュール2ヘ特徴表現表示情報を与える。GUIモジュー
ル2は上記各種表示情報に基づき表示を行い、ユーザ1
に対して特徴表現等を呈示する。
【0007】本発明は、上記のように、文書セット4に
対して文書をクラスタあるいは群に分類する文書分類エ
ンジン3と、GUIモジュール2と、上記クラスタある
いは群を特徴付ける特徴表現を付与する特徴表現管理モ
ジュール5を備えているので、効率的な分類結果提示を
することができる。また、特徴表現階層関係管理モジュ
ール6を設けることにより、特徴表現間の階層関係を考
慮した、適切な特徴表現を選択することができる。さら
に、クラスタ管理モジュール7を設けることにより、特
徴表現の間の階層関係、およびクラスタあるいは群の比
較に基づき適切な特徴表現を選択することができる。ま
た、制約処理モジュール8を設けることにより、一つの
クラスタあるいは群あたりの文書数に関する制約、ある
いは、特徴表現の数に関する制約を考慮した文書分類お
よび特徴表現付与を行うことができる。このため、例え
ば、学会の大会や会議のプログラム作成等において、1
セッション当たりの発表数に制約がある場合、あるい
は、特徴表現の数(例えばタイトル数)に制約がある場
合であっても柔軟に対応することができる。
【0008】
【発明の実施の形態】図2は本発明の文書分類処理を行
うためのシステムの構成例を示す図である。同図におい
て、101はCRT、液晶ディスプレイ等の表示装置、
キーボード、マウス等の、文字、記号、命令等を入力す
るための入力装置から構成される入力出力装置、102
はCPU、103はROM、RAM等から構成されるメ
モリ、104はプログラム、データ等を記憶する外部記
憶装置、105はフロッピィディスクやCD−ROMな
ど可搬型記憶媒体にアクセスしてデータの読み出し/書
き込みを行う媒体読取装置、106は電話回線を使用し
てデータ通信をするためのモデム、LANなどのネット
ワークを使用してデータ通信をするためのネットワーク
カードなどを含む通信インタフェースである。外部記憶
装置104には本発明の文書分類処理を行うプログラ
ム、文書分類の対象となる文書セット等が格納され、ま
た、本発明の文書分類処理において得られるクラスタ解
析結果、特徴表現等が格納される。また、本発明が対象
とする文書セットは、CD−ROM等から上記媒体読取
装置105を介して読み取られ、また、上記通信インタ
フェース106を介してネットワーク上から収集され
る。
【0009】以下、前記図1を参照しながら本発明の実
施の形態について説明する。ここでは、例として、数百
件の文書(論文)の分類をして特徴表現を付与する場合
を考える。分類のためのクラスタリング手法としては、
例えば、文書空間の次元圧縮に基づくクラスタリング手
法を用いるとする。それは以下のように行われる。ベク
トル空間モデルに基づき、各文書は、その文書に出現す
るタームの重みを要素とする特徴ベクトルにより表現さ
れ、文書セットは、これらの特徴ベクトルから成るター
ム−文書行列で表現される。このターム−文書行列に対
し、特異値分解などを用いて次元圧縮を行い、各文書お
よびタームを圧縮空間上にマッピングする。圧縮空間の
各次元軸は元の文書セットの特徴を表す。各次元軸との
類似度(例えば次元軸と、文書やタームの特徴ベクトル
との成す角のcos の値など)の高い文書およびタームを
クラスタへとまとめることで、文書クラスタおよびター
ムクラスタを得る。
【0010】この手法によれば、同じ基準で文書とター
ムを分類することができるため、文書クラスタに対応す
るタームを同時に得ることができる。なお、分類手法は
別の手法であってもかまわない。タームとしては、例え
ば文書を特徴付けるような特徴素(例えば名詞など)の
列を用いるが、本発明においては、文書中に例えば「日
本語形態素解析」という部分があった場合には、以下の
ような6つのタームを抽出する。なお、以下において、
“−”は単語の切れ目を表す。 「日本語」、「形態素」、「解析」、「日本語−形態
素」、「形態素−解析」、「日本語−形態素−解析」 タームの選定は別のものであってもかまわないが、本発
明は、上記のようにタームを抽出した場合が特に効果的
である。なお、通常の分類の特徴素としては短単位のタ
ーム、すなわち、「日本語」、「形態素」、「解析」の
ようなものが用いられる場合が多いが、このように短く
切ると、元の文書に含まれる情報を必ずしも十分に反映
しているとは言えず、分類の精度も低下する傾向にあ
る。これに対し、上記のように単語列の各部分列をター
ムにすると文書の内容をより多く反映した分類が期待さ
れる。
【0011】ここで、タームとして特徴素列の部分列を
用いることによる問題は、特徴表現として抽出されるタ
ームに同じようなものが重複してしまいがちになるとい
うことである。すなわち、前記したように、「解析」、
「形態素−解析」、「形態素」、「日本語−形態素」、
「日本語−形態素−解析」のように、同じような特徴表
現が付与されるため、より簡潔な特徴表現の付与方式が
必要となる。本発明においては、後述するように前記し
た特徴表現階層関係管理モジュール6を設けることによ
り、特徴表現間の階層関係を考慮した、適切な特徴表現
を選択することができ、この問題を解決することができ
る。前記した文書分類エンジン3は上記手法により前記
数百件の文書からなる文書セット4に対して分類を行
う。なお、文書を分類する手法自体は公知技術であるの
で、ここでは詳述しない。
【0012】図3は、文書分類エンジン3を用いて上記
手法により数百件の文書(論文)の分類を行った結果の
一例を示す図であり、同図に示すようなタームと文書の
分類結果が得られた。なお、図3は特徴表現が「形態素
−解析」で表されるクラスタについての分類結果を示し
たものであり、図示していないが、上記数百件の文書は
その外、特徴表現が「対話,…」、「法律−文,…」
「情報−抽出,…」…等で表される複数のクラスタに分
類される。図3において、順位は、そのクラスタのもつ
特徴との類似度についての順位を示したものであり、ま
た、出現量とはそのクラスタにおけるタームの出現頻度
特性を表すものであり、例えばタームベクトルのノルム
や座標などを用いる(この例ではノルムを用いてい
る)。
【0013】上記のように文書分類エンジン3により文
書が分類されると、前記した特徴表現管理モジュール5
は上記分類結果を基づき、文書セットの各クラスタある
いは群に対して、それらのクラスあるいは群を特徴付け
る特徴表現を付与する。ここで、本発明においては、前
記したように、「日本語」、「形態素」、「解析」、
「日本語−形態素」、…のように単語列の各部分列をタ
ームにしているので、各クラスタあるいは群には、これ
らのタームからなる特徴表現が付与され、元の文書に含
まれる情報を十分に反映した特徴表現を付与することが
できる。
【0014】ところで、上記のように単語列の各部分列
をタームにすると、元の文書に含まれる情報を十分に反
映した特徴表現を付与できるものの、上記したように同
じような特徴表現が付与される。これをより簡潔な特徴
表現とすることが望ましい。前記した特徴表現階層関係
モジュール6は、上記特徴表現の間の階層関係に基づ
き、特徴表現の整理を行う。
【0015】特徴表現階層関係モジュール6は次のアル
ゴリズムにより、特徴表現を整理する。なお、次のアル
ゴリズムにおける3.の処理はユーザの指示等により適
宜行われる処理である。 <特徴表現階層関係モジュール6におけるアルゴリズム
> 1.文書クラスタに対応するタームクラスタから、出現
量が閾値以上のものを特徴表現候補リストに入れる。 2.特徴表現候補リストの各タームtiについて、次の
条件を満たすものがあるかをチェックする。もしあれば
tiを特徴表現候補リストから外す。 条件:特徴表現候補リストのti以外の各タームtjの
内に、出現量がほぼ同じ(定められた閾値以内)あるい
は大きく、tiはtjの上位であるようなtjが存在す
る。 3.特徴表現候補リストの各タームtjについて、次の
条件を満たすものがあるかをチェックする。もしあれば
tjを特徴表現候補リストから外す(これはユーザの
指示などに応じて行う)。 条件:特徴表現候補リストのti以外の各タームtjの
内に、tjはtiの下位であるようなtjが存在する。 4.特徴表現候補リスト中の表現を特徴表現リストに加
え、特徴表現として出力する。
【0016】なお、この手順での上位、下位はあらかじ
め各ターム間に定められているとする。例えば先の例で
は、タームの単語列としての包含関係に注目する。通常
tiが単語列としてtjに含まれるような場合、tiは
tjの上位(より一般的な概念を表す語)、tjはti
の下位(より特殊化された概念を表す語)と考えられ
る。例えば、「解析」は「形態素−解析」より広い概念
を表す語と考えられる。そこで、先の例ではtiが単語
列としてtjに含まれるような場合tiはtjの上位で
あり、tjが単語列としてtiに含まれるような場合t
iはtjの下位である、と定められているとする。
【0017】図4、図5は上記アルゴリズムをフローチ
ャートで示したものである。図4のステップS1におい
て、タームクラスタから出現量が閾値以上のものを特徴
表現候補リストに入れる。これにより、例えば、前記し
た「解析」、「形態素−解析」、「形態素」、「日本語
−形態素」、「日本語−形態素−解析」が特徴表現候補
リストに入れられたとする。ステップS2において、i
=0とし、ステップS3において、特徴表現候補リスト
からタームtiを取り出す。
【0018】ステップS4において、タームti以外の
各タームtjの中に出現量がほぼ同じあるいは大きく、
タームtiがタームtjの上位であるタームtjが存在
するかを調べる。タームtiがタームtjの上位である
タームtjが存在する場合には、ステップS5にいき、
タームtiを特徴表現候補リストからはずす。また、タ
ームtiがタームtjの上位であるタームtjが存在し
ない場合には、なにもせずにステップS6にいく。次に
ステップS6において、iがi>maxであるかを調
べ、i>maxでない場合には、ステップS7でi=i
+1としてステップS3に戻り上記処理を繰り返す。
【0019】前記例の場合、「解析」と「形態素−解
析」を比較すると「解析」は「形態素−解析」に単語列
として含まれる、すなわちより一般的な概念を表すもの
である。一方、両者の出現量ははとんど変わらない。出
現量はそのタームの文書セットにおける出現頻度を反映
していると考えられる。よって、「解析」はほぼ常に
「形態素−解析」という形で用いられていることにな
り、特徴表現に含めてもあまり意味がないことが分か
る。そこで、「解析」はステップS5において、特徴表
現候補リストから省かれる。
【0020】「形態素」と「形態素−解析」との関係、
「日本語−形態素」と「日本語−形態素−解析」との関
係もほぼ同様であるため、「形態素」、「日本語−形態
素」は特徴表現候補リストから省くことができる。これ
に対し、「形態素−解析」と「日本語−形態素−解析」
とでは、「形態素−解析」は単語列としては「日本語−
形態素−解析」に含まれる。しかし、それぞれの出現量
を比較してみると「形態素−解析」の出現量は「日本語
−形態素−解析」の出現量に比べかなり小さく、「形態
素−解析」を特徴表現から省いてしまうとそのクラスタ
の特徴を正確に反映する情報が失われてしまうと思われ
る。以上の処理の結果、特徴候補リストには、「形態素
−解析」、「日本語−形態素−解析」が残る。
【0021】次に図5のステップS8において、ユーザ
の指示があるかを調べ、指示が無い場合にはステップS
14にいく。ユーザの指示がある場合には、S9にいき
i=0として、ステップS10にいく。ステップS10
において、タームti以外の各タームtjの内に、ター
ムtjがタームtiの下位であるタームtjが存在する
かを調べる。タームtjがタームtiの下位であるター
ムtjが存在する場合には、ステップS11にいきター
ムtjを特徴表現候補リストからはずし、ステップS1
2にいく。また、タームtjがタームtiの下位である
タームtjが存在しない場合には、ステップS12に行
き、iがi>maxであるかを調べ、i>maxでない
場合には、ステップS13でi=i+1としてステップ
S10に戻り上記処理を繰り返す。ついで、ステップS
14において、特徴表現候補リスト中の表現を特徴表現
リストに加え、ステップS15において特徴表現リスト
中の表現を特徴表現として出力して、処理を終了する。
【0022】前記例の場合、「形態素−解析」、「日本
語−形態素−解析」については、「日本語−形態素−解
析」が「形態素−解析」の下位であるので、「日本語−
形態素−解析」が特徴表現候補リストからはずされる。
以上の処理を行うことにより、このクラスタに付する特
徴表現は下記のようになり、クラスタの特徴を簡潔かつ
明確に表す特徴表現を得ることができる。 ユーザ指示がない場合:形態素−解析、日本語−形
態素−解析 ユーザ指示がある場合:形態素−解析
【0023】ところで、文書分類エンジン3により文書
を分類した場合、図6に示すように、「日本語−形態素
−解析」と「英語−形態素−解析」とが別々のクラスタ
の特徴表現として得られる場合がある。この場合、それ
らのクラスタを特徴付ける特徴表現として「形態素−解
析」よりも「日本語−形態素−解析」、「英語−形態素
−解析」の方が望ましい場合がある。そのような場合に
は、クラスタの弁別を行うことを考慮して各クラスタの
特徴の違いを際だたせるような特徴表現を付与すること
が望ましい。前記したクラスタ管理モジュール7は、上
記のような場合に対応するため、クラスタあるいは群に
付与された特徴表現の中から、特徴表現の間の階層関
係、およびクラスタあるいは群の比較に基づき適切な特
徴表現を選択する。クラスタ管理モジュール7は次のア
ルゴリズムにより、適切な特徴表現を選択する。なお、
次のアルゴリズムにおける4.の処理は前記したように
ユーザの指示等により適宜行われる処理である。
【0024】<クラスタ管理モジュール7におけるアル
ゴリズム> 1.文書クラスタに対応するタームクラスタから、出現
量が閲値以上のものを特徴表現候補リストに入れる。 2.特徴表現候補リストの各タームtiについて、次の
条件を満たすものがあるかをチェックする。もしあれば
tiを特徴表現候補リストから外す。 条件:特徴表現候補リストのti以外の各タームtjの
内に、出現量がほぼ同じ(定められた閾値以内)あるい
は大きく、tiはtjの上位であるようなtjが存在す
る。 3.特徴表現候補リストの各タームtiについて、次の
条件を満たすものがあるかをチェックする。もしあれば
tiを特徴表現リストに入れる。 条件:他のクラスタの特徴表現候補リストの各tjの内
に、tiは tjと共通の上位を持つようなtjが存在
する。 4.特徴表現候補リストの各タームtjについて、次の
条件を満たすものがあるかをチェックする。もしあれば
tjを特徴表現候補リストから外す(これはユーザの指
示などに応じて行う)。 条件:特徴表現候補リストのti以外の各タームtjの
内に、tjはtiの下位であるようなtjが存在する。 5.特徴表現候補リスト中の表現を特徴表現リストに加
え、特徴表現として出力する。
【0025】図7、図8は上記アルゴリズムをフローチ
ャートで示したものである。同図において、ステップS
1からS7までの処理は、前記図4と同じであり、ステ
ップS2において、i=0とし、ステップS3におい
て、特徴表現候補リストからタームtiを取り出す。ス
テップS4において、タームti以外の各タームtjの
中に出現量がほぼ同じあるいは大きく、タームtiがタ
ームtjの上位であるタームtjが存在するかを調べ、
タームtiがタームtjの上位であるタームtjが存在
する場合には、ステップS5にいき、タームtiを特徴
表現候補リストからはずす。また、タームtiがターム
tjの上位であるタームtjが存在しない場合にはステ
ップS6にいく。次にステップS6において、iがi>
maxであるかを調べ、i>maxでない場合には、ス
テップS7でi=i+1としてステップS3に戻り上記
処理を繰り返す。前記例の場合には、以上の処理を行う
ことにより、特徴候補リストに「形態素−解析」、「日
本語−形態素−解析」が残る。
【0026】次に、ステップS8において、i=0と
し、ステップS9において、他のクラスタの特徴表現候
補リストの各タームtjの内、タームtiがタームtj
と共通の上位を持つタームtjがあるかを調べる。ター
ムtiがタームtjと共通の上位を持つタームtjが存
在する場合には、ステップS10に行き、タームtiを
特徴表現リストに入れ、ステップS11にいく。ターム
tiがタームtjと共通の上位を持つタームtjが存在
しない場合には、ステップS9からステップS11に行
く。ステップS11において、iがi>maxであるか
を調べ、i>maxでない場合には、ステップS12で
i=i+1としてステップS9に戻り上記処理を繰り返
す。
【0027】前記図6のように「日本語−形態素−解
析」と「英語−形態素−解析」とが別々のクラスタの特
徴表現として得られている場合、上記ステップS9にお
いて、タームtiがタームtjと共通の上位を持つター
ムtjがあるかを調べと、他のクラスの特徴表現候補リ
ストの中に、「日本語−形態素−解析」と共通の上位を
持つタームである「英語−形態素−解析」が存在する。
したがって、この場合、「日本語−形態素−解析」が特
徴表現リストに入れられる。次のステップS13からS
18までの処理は、前記図4、図5に示したステップS
8〜S13までの処理と同じであり、前記したように、
ステップS13でユーザの指示があるかを調べ、指示が
無い場合にはステップS19にいき、また、ユーザの指
示がある場合には、S14でi=0として、ステップS
15に行く。
【0028】ステップS15において、タームti以外
の各タームtjの内に、タームtjがタームtiの下位
であるタームtjが存在するかを調べ、タームtjがタ
ームtiの下位であるタームtjが存在する場合には、
ステップS16でタームtjを特徴表現候補リストから
はずす。そして、ステップS17でiがi>maxであ
るかを調べ、i>maxでない場合には、ステップS1
8でi=i+1としてステップS15に戻り上記処理を
繰り返す。ついで、ステップS14において、特徴表現
候補リスト中の表現を特徴表現リストに加え、ステップ
S15において特徴表現リスト中の表現を特徴表現とし
て出力して、処理を終了する。前記図6の例の場合に
は、「日本語−形態素−解析」がステップS8〜12の
処理で既に特徴表現リストに入れられているので、上記
処理を行うことにより、最終的に特徴表現リストのター
ムは「形態素−解析」と「日本語−形態素−解析」とな
る。
【0029】さて、本発明を、各論文の分類およびクラ
スタへの見出し特徴表現付与を行うことで学会のプログ
ラム作成支援などを行うことが可能となる。すなわち、
前記した制約処理モジュール8を設けることにより、一
つのクラスタあるいは群あたりの文書数に関する制約、
あるいは、特徴表現の数に関する制約を考慮した文書分
類および特徴表現付与を行うことができる。これによ
り、例えば、前記したように学会の大会や会議のプログ
ラム作成等において、セッションあたりの発表数は大体
いくつといったように制約がある場合、あるいは、特徴
表現の数(例えばタイトル数)に制約がある場合であっ
ても柔軟に対応することができる。制約処理モジュール
8は次のアルゴリズムにより、一つのクラスタあるいは
群あたりの文書数に関する制約を考慮した適切な特徴表
現を選択する。
【0030】<クラスタ管理モジュール7におけるアル
ゴリズム> 1.文書(論文)セットに対しクラスタリングを行い、
文書クラスタおよびそれらの特徴表現を求める。クラス
タリングとしては、例えば「対訳情報の自動抽出」のよ
うなテーマの論文は情報抽出クラスタと機械翻訳クラス
タとに分類されるような、複数の属性を持つ文書は複数
のクラスタに属するようなオーバーラップありのクラス
タリングを行う。 2.まず単一のクラスタに属する文書を対象に、セッシ
ョンへ振り分ける。クラスタの文書数が制約よりも多い
場合には制約を満たすように分割する。 3.セッションへ未振り分けの単一クラスタ文書と、複
数クラスタに属する文書とで、一つのセッションを構成
するだけの文書が集まるか試み、集まる場合にはそれら
を一つのセッションとする。 4.残りの論文をセッションあたりの発表数の制約を満
たすよう、セッションに振り分ける。なお、これらのセ
ッションは必ずしも同内容とはならないかもしれない。
【0031】図9は、上記アルゴリズムをフローチャー
トで示したものである。同図のステップS1において、
オーバーラップありのクラスタリングを行い、文書クラ
スタとそれらの特徴表現を求める。ステップS2におい
て、単一クラスタに属する文書数が制約より多いかを調
べ、制約を満たしている場合にはステップS4に行く。
また、文書数が制約より多い場合には、ステップS3に
おいて、制約を満たすように文書数を分割する。ステッ
プS4において、単一のクラスタに属する文書を対象セ
ッションに振り分ける。ステップS5において、セッシ
ョンへの未振り分けの単一クラス文書と、複数クラスタ
に属する文書とで一つのセッションを構成するかを調
べ、構成しない場合には、ステップS7に行く。また、
一つのセッションを構成する場合には、ステップS6に
おいて、セッションへ未振り分けの単一クラスタ文書と
複数クラスタ文書に属する文書とで一つのセッションを
構成し、ステップS7にいく。ステップS7において、
残りの文書をセッションあたりの発表数を満たすように
セッションに振り分け、処理を終了する。
【0032】また、前記したように、特徴表現の数(例
えばタイトル数)に制約がある場合、制約処理モジュー
ル8は次のようにして適切な特徴表現を選択する。 1.文書(論文)セットに対しクラスタリングを行い、
文書クラスタおよびそれらの特徴表現を求める。 2.特徴表現の内 類似度の高い方から指定された数の
特徴表現を残す。例えば、クラスタリングの結果、特徴
表現として、前記したように、「形態素−解析」、「日
本語−形態素−解析」の2つが求まり、特徴表現の数が
1つであるという制約がある場合には、類似度の高い
「形態素−解析」を選択する。
【0033】
【発明の効果】以上説明したように、本発明によれば、
分類時に得られる文書セットからの情報を活用すること
で、効率的な分類結果提示や操作手段の提供が可能とな
る。また、特徴表現間の階層関係を明らかにすること
で、クラスタあるいは群に付与された特徴表現の中から
特徴表現の間の階層関係に基づき適切な特徴表現を選択
することが可能となる。さらに、クラスタあるいは群間
の関連構造を明らかにすることで、クラスタあるいは群
に付与された特徴表現の中から、特徴表現の間の階層関
係、およびクラスタあるいは群の比較に基づき適切な特
徴表現を選択することが可能となる。またさらに、一つ
のクラスタあるいは群あたりの文書数に関する制約を考
慮したり、特徴表現の数に関する制約を考慮した文書分
類および特徴表現付与を行うことで、学会のプログラム
作成支援等を行うことができる。
【図面の簡単な説明】
【図1】本発明の原理を示すシステム構成図である。
【図2】本発明の文書分類処理を行うためのシステムの
構成例を示す図である。
【図3】数百件の文書(論文)の分類を行った結果の一
例を示す図である。
【図4】特徴表現の間の階層関係に基づき特徴表現の整
理を行う場合の処理を示すフローチャート(1)であ
る。
【図5】特徴表現の間の階層関係に基づき特徴表現の整
理を行う場合の処理を示すフローチャート(2)であ
る。
【図6】「日本語−形態素−解析」と「英語−形態素−
解析」とが別々のクラスタの特徴表現として得られてい
る場合の一例を示す図である。
【図7】クラスタあるいは群の比較に基づき適切な特徴
表現を選択する場合の処理を示すフローチャート(1)
である。
【図8】クラスタあるいは群の比較に基づき適切な特徴
表現を選択する場合の処理を示すフローチャート(2)
である。
【図9】一つのクラスタあるいは群あたりの文書数に関
する制約がある場合の処理を示すフローチャートであ
る。
【符号の説明】
1 ユーザ 2 GUIモジュール 3 文書分類エンジン 4 文書セット 5 特徴表現管理モジュール 6 特徴表現階層関係モジュール 7 クラスタ管理モジュール 8 制約処理管理モジュール
フロントページの続き (72)発明者 西野 文人 神奈川県川崎市中原区上小田中4丁目1番 1号 富士通株式会社内 Fターム(参考) 5B075 ND03 NR02 NR12 PP02 PP03 PR06 QM08

Claims (6)

    【特許請求の範囲】
  1. 【請求項1】 文書セットと、与えられた文書セットに
    対してその文書間の類似度にしたがって文書をクラスタ
    あるいは群に分類する文書分類エンジンと、ユーザとの
    インタフェースを提供するGUIモジュールとを備えた
    文書分類装置において、 文書セットの分類結果である各クラスタあるいは群に対
    し、それらのクラスタあるいは群を特徴付けるような特
    徴表現を付与する特徴表現管理モジュールを設けたこと
    を特徴とする文書分類装置。
  2. 【請求項2】 特徴表現階層関係管理モジュールを備
    え、該特徴表現階層関係管理モジュールにより、クラス
    タあるいは群に付与された特徴表現の中から特徴表現の
    間の階層関係に基づき適切な特徴表現を選択することを
    特徴とする請求項1の文書分類装置。
  3. 【請求項3】 クラスタ管理モジュールを備え、該クラ
    スタ管理モジュールにより、クラスタあるいは群に付与
    された特徴表現の中から、特徴表現の間の階層関係、お
    よびクラスタあるいは群の比較に基づき適切な特徴表現
    を選択することを特徴とする請求項1または請求項2の
    文書分類装置。
  4. 【請求項4】 制約処理モジュールを備え、該制約処理
    モジュールにより、一つのクラスタあるいは群あたりの
    文書数に関する制約を考慮した文書分類および特徴表現
    付与を行うことを特徴とする請求項1,2または請求項
    3の文書分類装置。
  5. 【請求項5】 制約処理モジュールを備え、該制約処理
    モジュールにより、特徴表現の数に関する制約を考慮し
    た文書分類および特徴表現付与を行うことを特徴とする
    請求項1,2,3または請求項4の文書分類装置。
  6. 【請求項6】 コンピュータによって文書分類処理を実
    行するための文書分類プログラムを記録した記録媒体で
    あって、 上記文書分類処理プログラムは、与えられた文書セット
    に対してその文書間の類似度にしたがって文書をクラス
    タあるいは群に分類し、 文書セットの分類結果である各クラスタあるいは群に対
    し、それらのクラスタあるいは群を特徴付けるような特
    徴表現を付与することを特徴とする文書分類処理プログ
    ラムを記録した記録媒体。
JP11063656A 1999-03-10 1999-03-10 文書分類装置 Pending JP2000259658A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP11063656A JP2000259658A (ja) 1999-03-10 1999-03-10 文書分類装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP11063656A JP2000259658A (ja) 1999-03-10 1999-03-10 文書分類装置

Publications (1)

Publication Number Publication Date
JP2000259658A true JP2000259658A (ja) 2000-09-22

Family

ID=13235620

Family Applications (1)

Application Number Title Priority Date Filing Date
JP11063656A Pending JP2000259658A (ja) 1999-03-10 1999-03-10 文書分類装置

Country Status (1)

Country Link
JP (1) JP2000259658A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003248687A (ja) * 2002-02-22 2003-09-05 Nippon Yunishisu Kk 情報処理装置およびその方法
US6654744B2 (en) 2000-04-17 2003-11-25 Fujitsu Limited Method and apparatus for categorizing information, and a computer product
US7668799B2 (en) 2005-08-23 2010-02-23 Ricoh Company, Ltd. Information processing apparatus
WO2011004524A1 (ja) * 2009-07-07 2011-01-13 日本電気株式会社 テキストマイニング装置
US9892107B2 (en) 2013-07-31 2018-02-13 International Business Machines Corporation Associating mentioned items between documents

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6654744B2 (en) 2000-04-17 2003-11-25 Fujitsu Limited Method and apparatus for categorizing information, and a computer product
JP2003248687A (ja) * 2002-02-22 2003-09-05 Nippon Yunishisu Kk 情報処理装置およびその方法
US7668799B2 (en) 2005-08-23 2010-02-23 Ricoh Company, Ltd. Information processing apparatus
WO2011004524A1 (ja) * 2009-07-07 2011-01-13 日本電気株式会社 テキストマイニング装置
JPWO2011004524A1 (ja) * 2009-07-07 2012-12-13 日本電気株式会社 テキストマイニング装置
US9892107B2 (en) 2013-07-31 2018-02-13 International Business Machines Corporation Associating mentioned items between documents

Similar Documents

Publication Publication Date Title
CN109992645B (zh) 一种基于文本数据的资料管理系统及方法
US8037061B2 (en) System and computer readable medium for generating refinement categories for a set of search results
EP1678635B1 (en) Method and apparatus for automatic file clustering into a data-driven, user-specific taxonomy
US6938025B1 (en) Method and apparatus for automatically determining salient features for object classification
US6654742B1 (en) Method and system for document collection final search result by arithmetical operations between search results sorted by multiple ranking metrics
US6243723B1 (en) Document classification apparatus
US6571240B1 (en) Information processing for searching categorizing information in a document based on a categorization hierarchy and extracted phrases
US20020174095A1 (en) Very-large-scale automatic categorizer for web content
US20030177000A1 (en) Method and system for naming a cluster of words and phrases
US20040163034A1 (en) Systems and methods for labeling clusters of documents
US7464074B2 (en) Method and system for using query information to enhance catergorization and navigation within the whole knowledge base
JP2000112993A (ja) 文書分類方法、記憶媒体、文書分類装置及び文書分類システム
JP2005526317A (ja) ドキュメントコーパスからコンセプト階層構造を自動に捜索する方法及びシステム
KR20070089449A (ko) 문서 분류방법 및 그 문서 분류방법을 컴퓨터에서 실행시키기 위한 프로그램을 포함하는 컴퓨터로 읽을 수있는 기록매체.
JP2005122295A (ja) 関係図作成プログラム、関係図作成方法、および関係図作成装置
EP1315103B1 (en) File search method and apparatus, and index file creation method and device
Shin et al. Document Image Retrieval Based on Layout Structural Similarity.
Yang et al. Semantic feedback for interactive image retrieval
JP4426041B2 (ja) カテゴリ因子による情報検索方法
JP2000259658A (ja) 文書分類装置
JPH11213000A (ja) インタラクティブ情報検索方法及び装置及びインタラクティブ情報検索プログラムを格納した記憶媒体
EP1574950A2 (en) Structured task naming
JP2005141476A (ja) 文書管理装置、プログラムおよび記録媒体
JP2001005830A (ja) 情報処理装置及びその方法、コンピュータ可読メモリ
JP2000163445A (ja) データベース管理システム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040324

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070130

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070329

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070724

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20071211