JP3772401B2 - Document classification device - Google Patents
Document classification device Download PDFInfo
- Publication number
- JP3772401B2 JP3772401B2 JP19954396A JP19954396A JP3772401B2 JP 3772401 B2 JP3772401 B2 JP 3772401B2 JP 19954396 A JP19954396 A JP 19954396A JP 19954396 A JP19954396 A JP 19954396A JP 3772401 B2 JP3772401 B2 JP 3772401B2
- Authority
- JP
- Japan
- Prior art keywords
- document
- documents
- distance
- stored
- link
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
【0001】
【発明の属する技術分野】
本発明は、ネットワークシステム上に存在する電子化された多数の文書を分類する文書分類装置に関し、特に、ハイパーテキストのような複雑にリンク付けされた多数の文書を分類する文書分類装置に関するものである。
【0002】
【従来の技術】
今日、インターネットの普及に伴い、物理的に離れた位置に存在するコンピュータシステム上の電子文書にネットワークを介して容易にアクセスすることができるようになっている。このような電子文書は、文書の中に他の電子文書を参照するためのリンク情報を埋め込むことが可能であり、リンク情報が埋め込まれた電子文書は、そのリンク情報を辿ることによって当該電子文書に関連する他の電子文書に容易に到達することができる。このようなリンク情報が埋め込まれた電子文書の形態を、一般にハイパーテキストと呼んでいる。
【0003】
インターネットのようなネットワークシステムにおいて、アクセス可能な電子文書の数が大量に増加すると、この大量の電子文書からリンク情報のみにしたがって所望の文書を探し出すことが困難になりつつある。
【0004】
このような問題を解決するための1つの方法として、インターネット上で公開されている電子文書を対象とした検索サービスを提供するシステムが増えつつある。これらの検索システムでは、大量の文書に対して一括したキーワード検索を行うことができる。すなわち、インターネット上で公開されている電子文書を予め可能な限り漏れなく探索しておき、各文書の内容を取得しておくことにより、このような一括のキーワード検索を行うことができるようにしている。
【0005】
また、更に、このような検索システムにおいては、各文書をその内容にしたがっていくつかのカテゴリーへと分類しておくことによって、より検索効率の向上を図るものがある。この場合のシステムの利用者は、所望の文書が含まれていると思われるカテゴリーを中心にキーワード検索を行うことが可能となり、検索効率の向上が期待できる。
【0006】
ところで、文書を分類する方法には、人手によって行う方法と、文書間の距離に基づいた計算によって自動的に行う方法とがある。大量の文書を分類する場合には、効率の点から、後者の方法が有利である。
【0007】
(従来技術1)
このような文書を分類する手法として、例えば、文献「Luhn, H. P., 'A statistical approach to mechanised encoding and searching of library information', IBM journal of research and development, 1, 309-17 (1957)」において論じられているように、文書中に含まれる各単語の出現頻度を基に単語の重み付けを行なう方法がある。この場合、特に、重みの高い単語は、その文書を代表するキーワードとみなすことができる。
【0008】
(従来技術2)
また、単語の重みから文書間距離を求める手法が、例えば、文献「Salton, G. and McGill, N. J., ' Introduction to modern information retrieval', New York, McGraw-Hill (1983)」で提案されており、いくつかの文書分類システムにおいて採用されている。
【0009】
このような文書分類システムにおいては、文書Piに対して各単語Ruの重みWiuが設定されているものとすると、文書Piの文書ベクトルVpiを以下のように定義する。ただし、文書Pi中に単語Ruが存在しない場合には、重みWiuには“0”を設定する。また、単語Ruが存在する場合には、重みWiuは“0”以上の実数値とする。
ただし、ここでは、単語の異なり総数をmとしており、また、Ωiu(0≦Ωiu≦1)を文書Piに対する各単語Ruの重みWiuとして再定義する。そして、この場合における文書Piと文書Pjの間の距離d(Pi,Pj){(0≦d(Pi,Pj)≦1)は、
d(Pi,Pj)=2(arccos(Vpi・Vpj))/π ……(1−4)
として、両者の文書ベクトルの角度として定義する。
【0010】
(従来技術3)
上記のようにして求められた文書間距離に基づき、クラスター分析の手法を用いると、文書の分類が可能となる。クラスター分析の手法については、例えば、文献「田中,垂水,脇本,“統計解析ハンドブックII 多変量解析編”,第226頁〜第257頁,共立出版(1984)」が参照できる。クラスター分析の手法は、よく知られた技術であるのでここでの説明は省略する。
【0011】
【発明が解決しようとする課題】
ところで、上述した従来の技術による文書分類システムにおいては、更に、解決すべき課題として、次のような問題がある。すなわち、(従来技術1)や(従来技術2)による文書分類システムにおいて、機械的に得られる文書間距離は、文書の意味内容を深く勘案した上で設定されるものではない。したがって、このような文書間距離に基づいた文書分類は、文書の意味内容が充分に反映されたものであるとは言い難い。このため、ユーザにとって、大量の電子文書からは所望の文書を探し出すことが困難な状況にあることにかわりはない。
【0012】
本発明は、このような問題点を解決するためになされたものであり、本発明の目的は、ハイパーテキストのような複雑にリンク付けされた多数の文書を適切に分類することができる文書分類装置を提供することにある。
【0013】
【課題を解決するための手段】
上記のような目的を達成するため、本発明による文書分類装置は、電子化された複数の文書を格納する文書格納手段(11)と、前記文書格納手段に格納された複数の文書の間のリンク関係を格納するリンク関係格納手段(12)と、前記文書格納手段に格納された各文書に含まれる単語の出現頻度から文書間距離を計算する距離計算手段(13)と、前記リンク関係格納手段に格納されたリンク関係と前記距離計算手段から得られる文書間距離を基にして、クラスター分析を行い、前記文書格納手段に格納された複数の文書を分類する文書分類手段(14)と、文書分類手段による分類された結果を出力する出力手段(15)とを有することを特徴とする。
【0014】
このような特徴を有する文書分類装置においては、文書格納手段(11)が、電子化された複数の文書を格納しており、リンク関係格納手段(12)が、文書格納手段に格納された複数の文書の間のリンク関係を格納している。距離計算手段(13)が、文書格納手段に格納された各文書に含まれる単語の出現頻度から文書間距離を計算すると、文書分類手段(14)が、リンク関係格納手段に格納されたリンク関係と前記距離計算手段から得られる文書間距離を基にして、クラスター分析を行い、前記文書格納手段に格納された複数の文書を分類する。そして、出力手段(15)により、文書分類手段による分類された結果を出力する。
【0015】
このようにして、本発明の文書分類装置では、ハイパーテキストの形態をとる文書をクラスター分析の手法を用いて分類する際に、文書に記述されたリンク情報を利用する。文書間のリンク関係は、基本的に文書の作成者が自分の作成した文書と意味的に近い(距離が小さい)文書に対して設定されているので、リンク関係情報と、文書間距離の双方を用いてクラスター分析を行う。これにより、文書の作成者の意志を反映した文書分類、つまりは、文書の意味内容に沿った文書分類が実現できる。
【0016】
【発明の実施の形態】
以下、本発明を実施する場合の一形態について図面を参照して具体的に説明する。図1は、本発明の一実施例の文書分類装置の要部の構成を示すブロック図である。図1において、11は文書格納部、12はリンク関係格納部、13は距離計算処理部、14は文書分類処理部、15は出力処理部である。
【0017】
本実施例の文書分類装置においては、文書格納部11が、電子化された大量の文書を格納しており、ここに格納された各々の文書に対応して、リンク関係格納部12が、各々の文書の間のリンク関係情報(参照する文書の存在位置とその文書識別子)を格納している。距離計算処理部13は、文書格納部11に格納された各文書を解析し、その文書に含まれる単語の出現頻度から文書間距離を計算する。この文書間距離の計算は、例えば、前述した(従来技術2)の文書分類システムと同様な手法(アルゴリズム)により計算する。
【0018】
このようにして文書間距離が計算されると、文書分類処理部14では、リンク関係格納部12に格納されたリンク関係情報と距離計算処理部13から得られた文書間距離を基にして、クラスター分析を行う。そして、文書格納部11に格納された複数の文書を分類する。分類された結果は、出力処理部15によるグラフィカルユーザインタフェースを介して、見やすい表示形態でユーザに対して表示出力される。これにより、例えば、クラスター分析の結果に応じて、大量の文書の中から同じグループに属する文書のみが表示されるので、ユーザは所望する文書を探しやすくなる。
【0019】
図2は、本発明の別の実施例である広域ネットワークに結合された文書分類システムの要部の構成を示すブロック図である。図2において、20は広域ネットワーク、21は文書取得処理部、22は文書格納部、23はリンク関係格納部、24は自立語抽出処理部、25は単語重み設定処理部、26は文書間距離計算処理部、27は文書分類処理部、28は出力処理部である。図2に示す文書分類システムでは、広域ネットワーク20上に分散して存在するハイパーテキストの形態の文書に対して、これらの文書を取得し、その文書中に埋め込まれたリンク情報から、これらの電子文書の内容を対象として文書分類を行う。
【0020】
広域ネットワーク20は、例えば、複数のネットワークシステムが互いに結合されたインターネットであり、文書取得処理部21は、広域ネットワーク20にアクセス可能に存在する大量の文書を取得するプログラムモジュールにより構成される。このプログラムモジュールは、広域ネットワーク20に接続されているコンピュータシステム上に格納されている電子文書の1つを指定すると、「指定された電子文書の内容を取得し、この電子文書中に埋め込まれた他の文書を指示するリンク情報を同定し、リンク情報が指示する他の文書を取得する操作」を再帰的に繰り返す処理を実行し、広域ネットワーク20に接続された複数のコンピュータシステム上に分散して存在する電子文書を取得する。
【0021】
文書取得処理部21により取得された大量の文書は、文書格納部22に格納される。この場合、文書格納部22では、文書取得処理部21が取得した文書をその文書を特定するリンク情報と対にして格納する。また、リンク関係格納部23において、文書格納部22に格納されている各々の文書間のリンク関係の有無を格納する。
【0022】
自立語抽出処理部24は、文書格納部22に格納されている文書から形態素解析アルゴリズムを用いて自立語(単語)を抽出する。これにより、文書から単語が切り出される。単語重み設定処理部25は、自立語抽出処理部24による抽出結果を基にして、各文書毎に全ての自立語に対して重み(重要度)を設定する。そして、文書間距離計算処理部26において、単語重み設定処理部25によって設定された重みを基にして、文書格納部22に格納されている文書の全ての2つの項目の間の距離を計算する。
【0023】
このようにして、文書間の距離が計算されると、文書分類処理部27では、リンク関係格納部23に格納されているリンク関係の有無と、文書間距離計算処理部26によって計算された文書間距離に基づいて、文書をクラスター分析により分類する。分類された結果は、出力処理部28により、その文書分類処理部27の分類結果が表示される。出力処理部28は、ユーザに対して、グラフィカルユーザインターフェイスを利用して見やすい表示形態により、例えば、同じグループに属する文書がまとめられて、その文書分類結果として出力表示される。
【0024】
一般的にハイパーテキストの形態をとる電子文書では、文書の内容部分とリンク情報(他の文書のネットワーク上の存在位置および文書識別子)とを区別するため、リンク情報には、リンク情報であることを示すタグ付けがなされている。このため、文書中からタグと一致する文字列を検出することにより、文書取得処理部21では、文書中からリンク情報を同定する。
【0025】
図3は、文書取得処理部21の文書取得処理のアルゴリズムを示すフローチャートである。図3に示すフローチャートを参照して、文書取得処理部の動作を説明する。広域ネットワーク上の1つの文書のリンク情報を初期条件として指定して、文書取得処理を起動すると、ここでの処理が開始され、まず、ステップ31において、初期条件としてリンク情報(ネットワーク上の存在位置および文書識別子)が指定された文書を文書Dとし、次のステップ32において、リストSの先頭に文書Dのリンク情報を加え、リストSの先頭をカレントのリスト位置Pとする。次に、次のステップ33において、リストSのリスト位置Pに対応するリンク情報が存在するか否かを判定する。この判定で、リンク情報が存在しない場合は、ここでのリスト操作による文書取得処理が終了したことなので、処理を終了する。
【0026】
また、ステップ33の判定処理で、リンク情報が存在する場合は、次のステップ34に進み、リンク情報を基にして、各リンク情報に対応する文書Dの文書内容を取得する。次に、ステップ35において、文書Dのリンク情報とその文書内容とを対にして、文書格納部22に格納する(図4)。そして、次のステップ36において、文書Dの文書中に記述されているリンク情報(D1,D2,…,Dn)を全て同定する。
【0027】
次に、ステップ37において、リンク情報(D1,D2,…,Dn)のうち、リストS中に存在しないリンク情報があれば、リストSに連接する。次にステップ38において、文書Dと各リンク情報(D1,D2,…,Dn)との間の2項間にリンク関係が存在することをリンク情報格納部23に格納する。そして、次の文書に対する処理のため、ステップ39において、カレントのリスト位置PをリストS中のリスト位置Pの次の位置とし、ステップ33に戻る。ステップ33においては、前述のように、リストSのリスト位置Pに対応するリンク情報が存在するか否かを判定し、この判定処理で、リンク情報が存在する場合には、ステップ34からの処理を繰り返し、また、リンク情報が存在しない場合は、ここでのリスト操作による文書取得処理が終了したことなので、処理を終了する。
【0028】
このようにして、文書取得処理部21の処理によって、文書中でリンク付けされている他の文書が再帰的に取得される。この結果、得られた各文書の内容はその文書のリンク情報と共に文書格納部22に格納される。また、各文書間のリンク関係の情報は、リンク関係格納部23に格納される。
【0029】
図4は、文書格納部22に格納される文書内容とリンク情報の関係を説明する図である。図4に示すように、文書格納部には、取得された文書の文書内容42とリンク情報(D1,D2,…,Dn)41とが対応づけて格納される。
【0030】
図5は、リンク関係格納部23に格納されるリンク関係の情報を説明する図である。図5に示すように、リンク関係格納処理部23には、リンク関係が2次元マトリックスの表の形式で格納される。表中の行見出しおよび列見出しは、文書格納部22に格納されたリンク情報(D1,D2,…,Dn)に対応し、リンク情報によって特定される文書間にリンク関係がある場合を○印で表記し、リンク関係がない場合を×印で表記している。
【0031】
前述したように、自立語抽出処理部24は、文書格納部22に格納された各文書内容から公知の形態素解析アルゴリズムを用いて単語を切り出し、各文書内容の中の自立語を抽出する。ここで抽出した自立語に対して、単語重み設定処理部25が、各文書の文書内容の中に含まれる自立語に対して“1”を設定し、文書内容の中に含まれない自立語に対して“0”を設定する。
【0032】
図6は、単語重み設定処理部25による重み付け結果の一例を示す図である。前述したように、ここでの文書の各文書内容は、リンク情報(D1,D2,…,Dn)により対応づけられているので、図6に示すように、各文書内容に含まれている自立語(WORD1,WORD2,WORD3,…,WORDn)に対して、当該各文書の文書内容の中に含まれる自立語には“1”を設定し、文書内容の中に含まれない自立語は“0”を設定するが、これらは、リンク情報(D1,D2,…,Dn)により各文書内容と対応付けられる。
【0033】
文書間距離計算処理部26は、前述した式(1−1)〜式(1−4)に基づいて、文書格納処理部22に格納された文書の全ての2項間について、その間の距離を計算する。計算された各文書の文書間距離は、各文書内容と対応づけられているリンク情報(D1,D2,…,Dn)の間の距離として格納される。図7は、文書間距離計算処理部26による文書間距離の計算結果の一例を示している。
【0034】
このようにして、リンク情報により取得された各文書の文書間距離が算出されると、文書分類処理部27において、リンク関係の情報と、算出した文書間距離に基づいて、文書分類処理部27は、初期文書クラスターを生成し、文書間距離に基づいたクラスター分析を行い、文書格納部22に格納された各文書を分類する。
【0035】
図8は、文書分類処理部27による文書分類処理のアルゴリズムを示すフローチャートである。図8を参照して、ここで文書分類処理を説明する。文書分類処理においては、処理を開始すると、ステップ81において、初期文書クラスターの作成処理を行う。すなわち、リンク関係格納部23のリンク関係の有無と、文書間距離計算部26の計算結果を参照し、リンク関係があり、かつ、文書間距離が所定の定数K(0≦K≦1)以下である文書の対を1つのクラスターとする。この場合、3つ以上の文書が、この条件を満たして連なる場合には、それらをまとめて1つのクラスターとする。
【0036】
次に、ステップ82に進み、得られた前クラスターと、クラスターに属さない全文書の2項間距離を再計算する。次に、ステップ83において、得られた2項間距離のうち最も小さい値となる2つのクラスターあるいは文書を1つのクラスターとする。そして、次のステップ84において、クラスター数および文書数の合計値が、所定数N(1≦N≦n:文書総数n)以下であるか否かを判定し、合計値が所定数N以下でない場合、未だ分類されていない文書が存在するので、この場合には、ステップ82に戻り、ステップ82およびステップ83のクラスター分析よる分類処理を繰り返し行う。この結果、ステップ84の判定処理で、クラスター数および文書数の合計値が所定数N以下であることが確認できると、ここで文書の分類が終了したので、一連の処理を終了する。そして、次に説明するように、分類した結果を出力処理部28により表示する。
【0037】
なお、このステップ82の処理において、クラスターとクラスターに属さない文書の間の文書間距離の再計算を行うが、この場合の文書と文書との間の文書間距離計算は、前述したように、式(1−1)〜式(1−4)により行う。また、クラスターCと文書Dの間の距離計算は、クラスターCに属する全ての文書と文書Dの距離計算を式(1−1)〜式(1−4)によって行い、その平均値を距離とする。クラスターC1とクラスターC2の間では、クラスターC1とクラスターC2に属する各文書の距離計算を行い、その平均値を距離とする。
【0038】
文書分類処理部27による文書分類アルゴリズムは、一般のクラスター分析の初期クラスターの設定に文書間距離とリンク関係を併用するものである。すなわち、リンク関係があり、かつ、文書間距離が近い文書をまとめて、初期クラスターとし、更に、文書間距離とリンク関係を併用することにより、意味的関係の深いリンク関係を選択的に利用することが可能となる。また、リンク関係を用いることにより、従来の文書間距離情報のみに基づくクラスター分析と比較して、より信頼性の高い分類が可能となる。これにより、文書の意味内容をより反映したクラスター解析(分類)が可能となる。
【0039】
具体例で説明すると、前述した図4,図5,図6,および図7の数値例の場合には、K=0.6とした場合、文書間距離が最も近いものは、文書D1と文書D4との距離“0.09”であり、次に近い文書間距離は文書D4と文書D5との距離“0.12”であり、その次に近い文書間距離は文書D2と文書D3との距離“0.27”であることから、初期クラスターは(D1,D4,D5)および(D2,D3)となる。
【0040】
次に、出力処理部28の処理について説明する。前述したように、出力処理部28は、ユーザに対して、グラフィカルユーザインターフェイスを利用して見やすい表示形態により、例えば、同じグループに属する文書がまとめられて、その文書分類結果として出力表示する。このような出力処理部による表示形態を、具体的な操作例を例示して説明する。図9〜図13は、ユーザが、ここでの文書分類装置に組み込まれている文書検索装置を起動して、論文検索を行い、更に文書分類を行う場合の操作画面の一連の状態の変化を示している。ここでの文書検索装置を起動すると、図9に示すように、文献検索ウィンドウ画面90が表示される。この文献検索ウィンドウ画面90には、検索操作ガイドと共に、検索キーワード入力のためのキーワード入力フィールド91が設けられている。
【0041】
この文献検索ウィンドウ画面90において、例えば、ユーザが論文検索のためのキーワードとして、図10に示すように、「人工頭脳」,「定性推論」,および「免疫ネットワーク」のキーワードを入力する操作を行うと、文献検索ウィンドウ画面90は、キーワード入力フィールド91に検索キーワードが入力された状態となり、この状態において、検索ボタン92をポインタカーソル93によりクリックすると、検索処理が開始されて、その検索結果が、検索結果表示フィールド94に表示される。その結果、図11に示すように、検索結果表示フィールド94には、例えば、ヒットした文献の3件の文書のタイトルが表示される。
【0042】
次に、ユーザが、検索された文書と関連の深い文書を更に表示させるため、本実施例にかかる文書分類装置を起動する。このため、図12に示すように、検索結果表示フィールド94に表示された文書の内の1つの文書95をポインタカーソル93の操作により指定して(反転表示させて)、図13に示すように、関連文献表示ボタン96を操作すると、つまり、マウス操作でポインタカーソル93によりクリックすると、本実施例にかかる文書分類装置が起動される。そして、指定された文書から、その中に埋め込まれたリンク情報により関連のある文書を取得し、その文書間距離に基づくクラスター分析による文書分類処理を実行し、同じグループに属する文書を関連文書表示フィールド97に表示する。このようして、ユーザは、文献検索を行う場合に、関連のある文書まで含めて効率よく検索することとができる。
【0043】
【発明の効果】
以上、説明したように、本発明の文書分類装置によれば、ハイパーテキストの形態をとる文書をクラスター分析する際に、文書に記述されたリンク情報を利用することにより、文書の作成者の意志を反映した文書分類を行うことができる。つまり、文書の意味内容に沿った文書分類ができるようになる。
【図面の簡単な説明】
【図1】 図1は本発明の一実施例の文書分類装置の要部の構成を示すブロック図、
【図2】 図2は本発明の別の実施例である広域ネットワークに結合された文書分類システムの要部の構成を示すブロック図、
【図3】 図3は文書取得処理部21の文書取得処理のアルゴリズムを示すフローチャート、
【図4】 図4は文書格納部22に格納される文書内容とリンク情報の関係を説明する図、
【図5】 図5はリンク関係格納部23に格納されるリンク関係の情報を説明する図、
【図6】 図6は単語重み設定処理部25による重み付け結果の一例を示す図、
【図7】 図7は文書間距離計算処理部26による文書間距離の計算結果の一例を示す図、
【図8】 図8は文書分類処理部27による文書分類処理のアルゴリズムを示すフローチャート、
【図9】 図9は論文検索を行い更に文書分類を行う場合の操作画面の一連の状態の変化の第1の状態を示す図、
【図10】 図10は論文検索を行い更に文書分類を行う場合の操作画面の一連の状態の変化の第2の状態を示す図、
【図11】 図11は論文検索を行い更に文書分類を行う場合の操作画面の一連の状態の変化の第3の状態を示す図、
【図12】 図12は論文検索を行い更に文書分類を行う場合の操作画面の一連の状態の変化の第4の状態を示す図、
【図13】 図13は論文検索を行い更に文書分類を行う場合の操作画面の一連の状態の変化の第5の状態を示す図である。
【符号の説明】
11…文書格納部、12…リンク関係格納部、13…距離計算処理部、14…文書分類処理部、15…出力処理部、20…広域ネットワーク、21…文書取得処理部、22…文書格納部、23…リンク関係格納部、24…自立語抽出処理部、25…単語重み設定処理部、26…文書間距離計算処理部、27…文書分類処理部、28…出力処理部。[0001]
BACKGROUND OF THE INVENTION
The present invention relates to a document classification apparatus that classifies a large number of electronic documents existing on a network system, and more particularly to a document classification apparatus that classifies a large number of complicatedly linked documents such as hypertext. is there.
[0002]
[Prior art]
Today, with the spread of the Internet, electronic documents on computer systems that are physically located can be easily accessed via a network. Such an electronic document can embed link information for referring to another electronic document in the document, and the electronic document in which the link information is embedded can be traced by following the link information. Other electronic documents related to can be easily reached. The form of an electronic document in which such link information is embedded is generally called hypertext.
[0003]
In a network system such as the Internet, when the number of accessible electronic documents increases in large numbers, it is becoming difficult to find a desired document from the large number of electronic documents according to only link information.
[0004]
As one method for solving such a problem, an increasing number of systems provide search services for electronic documents published on the Internet. In these search systems, it is possible to perform a keyword search collectively for a large number of documents. In other words, it is possible to perform such collective keyword search by searching electronic documents published on the Internet as much as possible in advance and acquiring the contents of each document. Yes.
[0005]
Furthermore, in such a search system, there is a search system that further improves search efficiency by classifying each document into several categories according to the contents. The user of the system in this case can perform a keyword search centering on a category that seems to contain a desired document, and an improvement in search efficiency can be expected.
[0006]
By the way, as a method for classifying documents, there are a method that is performed manually, and a method that is automatically performed by calculation based on the distance between documents. When classifying a large number of documents, the latter method is advantageous from the viewpoint of efficiency.
[0007]
(Prior art 1)
A method for classifying such documents is discussed in, for example, the literature `` Luhn, HP, 'A statistical approach to mechanised encoding and searching of library information', IBM journal of research and development, 1, 309-17 (1957) ''. As described, there is a method of weighting words based on the appearance frequency of each word included in a document. In this case, in particular, a high-weight word can be regarded as a keyword representing the document.
[0008]
(Prior art 2)
In addition, a method for obtaining the distance between documents from the weight of words has been proposed in, for example, the document "Salton, G. and McGill, NJ, 'Introduction to modern information retrieval', New York, McGraw-Hill (1983)". Has been adopted in several document classification systems.
[0009]
In such a document classification system, assuming that the weight Wiu of each word Ru is set for the document Pi, the document vector Vpi of the document Pi is defined as follows. However, when the word Ru does not exist in the document Pi, the weight Wiu is set to “0”. If the word Ru exists, the weight Wiu is a real value equal to or greater than “0”.
However, here, the total number of different words is m, and Ωiu (0 ≦ Ωiu ≦ 1) is redefined as the weight Wiu of each word Ru for the document Pi. In this case, the distance d (Pi, Pj) {(0 ≦ d (Pi, Pj) ≦ 1) between the document Pi and the document Pj is
d (Pi, Pj) = 2 (arccos (Vpi · Vpj)) / π (1-4)
Is defined as the angle of both document vectors.
[0010]
(Prior art 3)
Based on the distance between documents obtained as described above, it is possible to classify documents by using a cluster analysis technique. For the method of cluster analysis, reference can be made to, for example, the document “Tanaka, Tarumi, Wakimoto,“ Statistical Analysis Handbook II Multivariate Analysis ”, pp. 226 to 257, Kyoritsu Shuppan (1984)”. Since the cluster analysis method is a well-known technique, a description thereof is omitted here.
[0011]
[Problems to be solved by the invention]
By the way, in the above-described document classification system according to the prior art, there are the following problems as problems to be solved. In other words, in the document classification system according to (Prior Art 1) and (Prior Art 2), the inter-document distance obtained mechanically is not set after deeply considering the semantic content of the document. Therefore, it is difficult to say that such document classification based on the inter-document distance sufficiently reflects the semantic content of the document. For this reason, it does not change that it is difficult for the user to find a desired document from a large amount of electronic documents.
[0012]
The present invention has been made to solve such problems, and an object of the present invention is to classify documents that can appropriately classify a large number of complicatedly linked documents such as hypertext. To provide an apparatus.
[0013]
[Means for Solving the Problems]
In order to achieve the above object, a document classification apparatus according to the present invention includes a document storage unit (11) for storing a plurality of digitized documents and a plurality of documents stored in the document storage unit. A link relation storage means (12) for storing a link relation; a distance calculation means (13) for calculating a distance between documents from the appearance frequency of words included in each document stored in the document storage means; and the link relation storage. A document classification unit (14) for performing cluster analysis based on the link relation stored in the unit and the inter-document distance obtained from the distance calculation unit, and classifying a plurality of documents stored in the document storage unit; And output means (15) for outputting the result classified by the document classification means.
[0014]
In the document classification apparatus having such characteristics, the document storage means (11) stores a plurality of digitized documents, and the link relation storage means (12) stores a plurality of documents stored in the document storage means. The link relation between documents is stored. When the distance calculation means (13) calculates the inter-document distance from the appearance frequency of words included in each document stored in the document storage means, the document classification means (14) stores the link relation stored in the link relation storage means. Based on the distance between documents obtained from the distance calculation means, cluster analysis is performed to classify a plurality of documents stored in the document storage means. Then, the output means (15) outputs the result classified by the document classification means.
[0015]
In this way, the document classification apparatus of the present invention uses link information described in a document when classifying a document in the form of hypertext using a cluster analysis technique. Since the link relationship between documents is basically set for a document that is semantically close (small distance) to the document created by the document creator, both the link relationship information and the inter-document distance are set. Perform cluster analysis using. Thereby, the document classification reflecting the will of the document creator, that is, the document classification in accordance with the semantic content of the document can be realized.
[0016]
DETAILED DESCRIPTION OF THE INVENTION
Hereinafter, an embodiment for carrying out the present invention will be specifically described with reference to the drawings. FIG. 1 is a block diagram showing a configuration of a main part of a document classification apparatus according to an embodiment of the present invention. In FIG. 1, 11 is a document storage unit, 12 is a link relationship storage unit, 13 is a distance calculation processing unit, 14 is a document classification processing unit, and 15 is an output processing unit.
[0017]
In the document classification apparatus according to the present embodiment, the
[0018]
When the inter-document distance is calculated in this manner, the document
[0019]
FIG. 2 is a block diagram showing a configuration of a main part of a document classification system coupled to a wide area network according to another embodiment of the present invention. In FIG. 2, 20 is a wide area network, 21 is a document acquisition processing unit, 22 is a document storage unit, 23 is a link relation storage unit, 24 is an independent word extraction processing unit, 25 is a word weight setting processing unit, and 26 is a distance between documents. A calculation processing unit, 27 is a document classification processing unit, and 28 is an output processing unit. In the document classification system shown in FIG. 2, these documents are acquired for documents in the form of hypertext distributed on the
[0020]
The
[0021]
A large amount of documents acquired by the document
[0022]
The independent word
[0023]
When the distance between documents is calculated in this way, the document
[0024]
In an electronic document that generally takes the form of hypertext, the link information must be link information in order to distinguish the document content portion from link information (location of other documents on the network and document identifiers). Is tagged. For this reason, the document
[0025]
FIG. 3 is a flowchart showing an algorithm for document acquisition processing of the document
[0026]
If the link information exists in the determination process of
[0027]
Next, in
[0028]
In this way, other documents linked in the document are recursively acquired by the processing of the document
[0029]
FIG. 4 is a diagram for explaining the relationship between the document content stored in the
[0030]
FIG. 5 is a diagram for explaining link relationship information stored in the link
[0031]
As described above, the independent word
[0032]
FIG. 6 is a diagram illustrating an example of a weighting result by the word weight setting
[0033]
The inter-document distance
[0034]
In this way, when the inter-document distance of each document acquired by the link information is calculated, the document
[0035]
FIG. 8 is a flowchart showing an algorithm for document classification processing by the document
[0036]
Next, proceeding to step 82, the distance between the binomials of the obtained previous cluster and all documents not belonging to the cluster is recalculated. Next, in step 83, two clusters or documents having the smallest value among the obtained distances between the two terms are set as one cluster. Then, in the
[0037]
In the process of step 82, the inter-document distance between the documents that do not belong to the cluster is recalculated. In this case, the inter-document distance is calculated between the documents as described above. It carries out by Formula (1-1)-Formula (1-4). Further, the distance calculation between the cluster C and the document D is performed by calculating the distances between all the documents belonging to the cluster C and the document D by the expressions (1-1) to (1-4), and calculating the average value as the distance. To do. Between the clusters C1 and C2, distances between the documents belonging to the clusters C1 and C2 are calculated, and the average value is set as the distance.
[0038]
The document classification algorithm by the document
[0039]
More specifically, in the numerical examples of FIGS. 4, 5, 6, and 7 described above, when K = 0.6, the documents having the shortest distance between documents are the document D1 and the document. The distance between the documents D4 and the document D5 is the distance between the documents D4 and D5, and the next document distance between the documents D2 and D3 is the distance between the documents D4 and D5. Since the distance is “0.27”, the initial clusters are (D1, D4, D5) and (D2, D3).
[0040]
Next, processing of the
[0041]
In this document
[0042]
Next, the user activates the document classification apparatus according to the present embodiment in order to further display a document closely related to the retrieved document. For this reason, as shown in FIG. 12, one of the
[0043]
【The invention's effect】
As described above, according to the document classification device of the present invention, when performing cluster analysis on documents in the form of hypertext, the intention of the creator of the document is obtained by using the link information described in the document. The document classification that reflects can be performed. That is, document classification can be performed according to the semantic content of the document.
[Brief description of the drawings]
FIG. 1 is a block diagram showing a configuration of a main part of a document classification apparatus according to an embodiment of the present invention;
FIG. 2 is a block diagram showing a configuration of a main part of a document classification system coupled to a wide area network according to another embodiment of the present invention;
FIG. 3 is a flowchart showing an algorithm for document acquisition processing of the document
FIG. 4 is a diagram for explaining the relationship between document contents stored in the
FIG. 5 is a diagram for explaining link relationship information stored in a link
FIG. 6 is a diagram illustrating an example of a weighting result by a word weight setting
FIG. 7 is a diagram showing an example of the calculation result of the inter-document distance by the inter-document distance
FIG. 8 is a flowchart showing an algorithm of document classification processing by the document
FIG. 9 is a diagram showing a first state of a series of state changes of the operation screen when paper search is performed and document classification is further performed;
FIG. 10 is a diagram showing a second state of a series of state changes of the operation screen when paper search is performed and document classification is further performed;
FIG. 11 is a diagram showing a third state of a series of state changes in the operation screen when paper search is performed and document classification is further performed;
FIG. 12 is a diagram showing a fourth state of a series of state changes on the operation screen when paper search is performed and document classification is further performed;
FIG. 13 is a diagram illustrating a fifth state of a series of state changes on the operation screen when paper search is performed and document classification is performed.
[Explanation of symbols]
DESCRIPTION OF
Claims (2)
前記文書格納手段に格納された複数の文書の間のリンク関係を格納するリンク関係格納手段と、
前記文書格納手段に格納された各文書に含まれる単語の出現頻度から文書間距離を計算する距離計算手段と、
前記リンク関係格納手段に格納されたリンク関係と前記距離計算手段から得られる文書間距離を基にして、クラスター分析を行い、前記文書格納手段に格納された複数の文書を分類する文書分類手段と、
文書分類手段による分類された結果を出力する出力手段と
を有することを特徴とする文書分類装置。Document storage means for storing a plurality of digitized documents;
Link relation storage means for storing link relations between a plurality of documents stored in the document storage means;
Distance calculation means for calculating the distance between documents from the frequency of appearance of words contained in each document stored in the document storage means;
A document classification unit that performs cluster analysis based on the link relationship stored in the link relationship storage unit and the inter-document distance obtained from the distance calculation unit, and classifies a plurality of documents stored in the document storage unit; ,
A document classification device comprising: output means for outputting a result classified by the document classification means.
文書分類装置が備える文書格納手段が、電子化された複数の文書を格納するステップと、
文書分類装置が備えるリンク関係格納手段が、前記文書格納手段に格納された複数の文書の間のリンク関係を格納するステップと、
文書分類装置が備える距離計算手段が、前記文書格納手段に格納された各文書に含まれる単語の出現頻度から文書間距離を計算するステップと、
文書分類装置が備える文書分類手段が、前記リンク関係格納手段に格納されたリンク関係と前記距離計算手段から得られる文書間距離を基にして、クラスター分析を行い、前記文書格納手段に格納された複数の文書を分類するステップと、
文書分類装置が備える出力手段が、前記文書分類手段により分類された結果を出力するステップと
を実行することを特徴とする文書分類方法。A document classification method by a document classification device,
A document storage means provided in the document classification device stores a plurality of digitized documents;
A step of storing a link relationship between a plurality of documents stored in the document storage unit, a link relationship storage unit included in the document classification device;
A step of calculating a distance between documents from the appearance frequency of words included in each document stored in the document storage means, a distance calculation means provided in the document classification device;
The document classification means provided in the document classification device performs a cluster analysis based on the link relation stored in the link relation storage means and the inter-document distance obtained from the distance calculation means, and is stored in the document storage means. Categorizing multiple documents;
A document classification method comprising: an output unit included in the document classification device executing a step of outputting a result classified by the document classification unit.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP19954396A JP3772401B2 (en) | 1996-07-11 | 1996-07-11 | Document classification device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP19954396A JP3772401B2 (en) | 1996-07-11 | 1996-07-11 | Document classification device |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH1027125A JPH1027125A (en) | 1998-01-27 |
JP3772401B2 true JP3772401B2 (en) | 2006-05-10 |
Family
ID=16409582
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP19954396A Expired - Fee Related JP3772401B2 (en) | 1996-07-11 | 1996-07-11 | Document classification device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3772401B2 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8892992B2 (en) | 2009-01-02 | 2014-11-18 | Apple Inc. | Methods for efficient cluster analysis |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2292311A1 (en) * | 1998-12-17 | 2000-06-17 | Raul Anchel | Intranet-based cataloguing and publishing system and method |
JP3562755B2 (en) * | 1999-05-19 | 2004-09-08 | 日本電信電話株式会社 | Related document retrieval method and apparatus, and recording medium recording the method |
US6671711B1 (en) * | 2000-03-31 | 2003-12-30 | Xerox Corporation | System and method for predicting web user flow by determining association strength of hypermedia links |
-
1996
- 1996-07-11 JP JP19954396A patent/JP3772401B2/en not_active Expired - Fee Related
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8892992B2 (en) | 2009-01-02 | 2014-11-18 | Apple Inc. | Methods for efficient cluster analysis |
US9959259B2 (en) | 2009-01-02 | 2018-05-01 | Apple Inc. | Identification of compound graphic elements in an unstructured document |
Also Published As
Publication number | Publication date |
---|---|
JPH1027125A (en) | 1998-01-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4335335B2 (en) | How to sort document images | |
JP3942290B2 (en) | How to send a document image to a client workstation | |
US6993517B2 (en) | Information retrieval system for documents | |
CA2423033C (en) | A document categorisation system | |
US6654744B2 (en) | Method and apparatus for categorizing information, and a computer product | |
US7113954B2 (en) | System and method for generating a taxonomy from a plurality of documents | |
US6654742B1 (en) | Method and system for document collection final search result by arithmetical operations between search results sorted by multiple ranking metrics | |
US6772148B2 (en) | Classification of information sources using graphic structures | |
JP4583003B2 (en) | Search processing method and program | |
JP2003167914A (en) | Multimedia information retrieving method, program, recording medium and system therefor | |
CN109918555A (en) | Method, apparatus, equipment and the medium suggested for providing search | |
JP3820878B2 (en) | Information search device, score determination device, information search method, score determination method, and program recording medium | |
JPH11102377A (en) | Method and device for retrieving document from data base | |
JP2002041573A (en) | Information retrieval system | |
JPH08263514A (en) | Method for automatic classification of document, method for visualization of information space, and information retrieval system | |
JPH1115835A (en) | Sorting information presenting device and medium recording sorting information presenting program | |
JP3772401B2 (en) | Document classification device | |
JP2006251975A (en) | Text sorting method and program by the method, and text sorter | |
JP2007249600A (en) | Method for classifying objective data to category | |
JP4544047B2 (en) | Web image search result classification presentation method and apparatus, program, and storage medium storing program | |
JP2005122509A (en) | Program, system and method for analyzing hierarchical structure data | |
JPH1185794A (en) | Retrieval word input device and recording medium recording retrieval word input program | |
JP2000305950A (en) | Document sorting device and document sorting method | |
JP2001325104A (en) | Method and device for inferring language case and recording medium recording language case inference program | |
JP2002324077A (en) | Apparatus and method for document retrieval |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20051108 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20051220 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20060124 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20060206 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100224 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110224 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120224 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130224 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130224 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140224 Year of fee payment: 8 |
|
LAPS | Cancellation because of no payment of annual fees |