JP3772401B2 - Document classification device - Google Patents

Document classification device Download PDF

Info

Publication number
JP3772401B2
JP3772401B2 JP19954396A JP19954396A JP3772401B2 JP 3772401 B2 JP3772401 B2 JP 3772401B2 JP 19954396 A JP19954396 A JP 19954396A JP 19954396 A JP19954396 A JP 19954396A JP 3772401 B2 JP3772401 B2 JP 3772401B2
Authority
JP
Japan
Prior art keywords
document
documents
distance
stored
link
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP19954396A
Other languages
Japanese (ja)
Other versions
JPH1027125A (en
Inventor
博 増市
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Fujifilm Business Innovation Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd, Fujifilm Business Innovation Corp filed Critical Fuji Xerox Co Ltd
Priority to JP19954396A priority Critical patent/JP3772401B2/en
Publication of JPH1027125A publication Critical patent/JPH1027125A/en
Application granted granted Critical
Publication of JP3772401B2 publication Critical patent/JP3772401B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、ネットワークシステム上に存在する電子化された多数の文書を分類する文書分類装置に関し、特に、ハイパーテキストのような複雑にリンク付けされた多数の文書を分類する文書分類装置に関するものである。
【0002】
【従来の技術】
今日、インターネットの普及に伴い、物理的に離れた位置に存在するコンピュータシステム上の電子文書にネットワークを介して容易にアクセスすることができるようになっている。このような電子文書は、文書の中に他の電子文書を参照するためのリンク情報を埋め込むことが可能であり、リンク情報が埋め込まれた電子文書は、そのリンク情報を辿ることによって当該電子文書に関連する他の電子文書に容易に到達することができる。このようなリンク情報が埋め込まれた電子文書の形態を、一般にハイパーテキストと呼んでいる。
【0003】
インターネットのようなネットワークシステムにおいて、アクセス可能な電子文書の数が大量に増加すると、この大量の電子文書からリンク情報のみにしたがって所望の文書を探し出すことが困難になりつつある。
【0004】
このような問題を解決するための1つの方法として、インターネット上で公開されている電子文書を対象とした検索サービスを提供するシステムが増えつつある。これらの検索システムでは、大量の文書に対して一括したキーワード検索を行うことができる。すなわち、インターネット上で公開されている電子文書を予め可能な限り漏れなく探索しておき、各文書の内容を取得しておくことにより、このような一括のキーワード検索を行うことができるようにしている。
【0005】
また、更に、このような検索システムにおいては、各文書をその内容にしたがっていくつかのカテゴリーへと分類しておくことによって、より検索効率の向上を図るものがある。この場合のシステムの利用者は、所望の文書が含まれていると思われるカテゴリーを中心にキーワード検索を行うことが可能となり、検索効率の向上が期待できる。
【0006】
ところで、文書を分類する方法には、人手によって行う方法と、文書間の距離に基づいた計算によって自動的に行う方法とがある。大量の文書を分類する場合には、効率の点から、後者の方法が有利である。
【0007】
(従来技術1)
このような文書を分類する手法として、例えば、文献「Luhn, H. P., 'A statistical approach to mechanised encoding and searching of library information', IBM journal of research and development, 1, 309-17 (1957)」において論じられているように、文書中に含まれる各単語の出現頻度を基に単語の重み付けを行なう方法がある。この場合、特に、重みの高い単語は、その文書を代表するキーワードとみなすことができる。
【0008】
(従来技術2)
また、単語の重みから文書間距離を求める手法が、例えば、文献「Salton, G. and McGill, N. J., ' Introduction to modern information retrieval', New York, McGraw-Hill (1983)」で提案されており、いくつかの文書分類システムにおいて採用されている。
【0009】
このような文書分類システムにおいては、文書Piに対して各単語Ruの重みWiuが設定されているものとすると、文書Piの文書ベクトルVpiを以下のように定義する。ただし、文書Pi中に単語Ruが存在しない場合には、重みWiuには“0”を設定する。また、単語Ruが存在する場合には、重みWiuは“0”以上の実数値とする。

Figure 0003772401
ただし、ここでは、単語の異なり総数をmとしており、また、Ωiu(0≦Ωiu≦1)を文書Piに対する各単語Ruの重みWiuとして再定義する。そして、この場合における文書Piと文書Pjの間の距離d(Pi,Pj){(0≦d(Pi,Pj)≦1)は、
d(Pi,Pj)=2(arccos(Vpi・Vpj))/π ……(1−4)
として、両者の文書ベクトルの角度として定義する。
【0010】
(従来技術3)
上記のようにして求められた文書間距離に基づき、クラスター分析の手法を用いると、文書の分類が可能となる。クラスター分析の手法については、例えば、文献「田中,垂水,脇本,“統計解析ハンドブックII 多変量解析編”,第226頁〜第257頁,共立出版(1984)」が参照できる。クラスター分析の手法は、よく知られた技術であるのでここでの説明は省略する。
【0011】
【発明が解決しようとする課題】
ところで、上述した従来の技術による文書分類システムにおいては、更に、解決すべき課題として、次のような問題がある。すなわち、(従来技術1)や(従来技術2)による文書分類システムにおいて、機械的に得られる文書間距離は、文書の意味内容を深く勘案した上で設定されるものではない。したがって、このような文書間距離に基づいた文書分類は、文書の意味内容が充分に反映されたものであるとは言い難い。このため、ユーザにとって、大量の電子文書からは所望の文書を探し出すことが困難な状況にあることにかわりはない。
【0012】
本発明は、このような問題点を解決するためになされたものであり、本発明の目的は、ハイパーテキストのような複雑にリンク付けされた多数の文書を適切に分類することができる文書分類装置を提供することにある。
【0013】
【課題を解決するための手段】
上記のような目的を達成するため、本発明による文書分類装置は、電子化された複数の文書を格納する文書格納手段(11)と、前記文書格納手段に格納された複数の文書の間のリンク関係を格納するリンク関係格納手段(12)と、前記文書格納手段に格納された各文書に含まれる単語の出現頻度から文書間距離を計算する距離計算手段(13)と、前記リンク関係格納手段に格納されたリンク関係と前記距離計算手段から得られる文書間距離を基にして、クラスター分析を行い、前記文書格納手段に格納された複数の文書を分類する文書分類手段(14)と、文書分類手段による分類された結果を出力する出力手段(15)とを有することを特徴とする。
【0014】
このような特徴を有する文書分類装置においては、文書格納手段(11)が、電子化された複数の文書を格納しており、リンク関係格納手段(12)が、文書格納手段に格納された複数の文書の間のリンク関係を格納している。距離計算手段(13)が、文書格納手段に格納された各文書に含まれる単語の出現頻度から文書間距離を計算すると、文書分類手段(14)が、リンク関係格納手段に格納されたリンク関係と前記距離計算手段から得られる文書間距離を基にして、クラスター分析を行い、前記文書格納手段に格納された複数の文書を分類する。そして、出力手段(15)により、文書分類手段による分類された結果を出力する。
【0015】
このようにして、本発明の文書分類装置では、ハイパーテキストの形態をとる文書をクラスター分析の手法を用いて分類する際に、文書に記述されたリンク情報を利用する。文書間のリンク関係は、基本的に文書の作成者が自分の作成した文書と意味的に近い(距離が小さい)文書に対して設定されているので、リンク関係情報と、文書間距離の双方を用いてクラスター分析を行う。これにより、文書の作成者の意志を反映した文書分類、つまりは、文書の意味内容に沿った文書分類が実現できる。
【0016】
【発明の実施の形態】
以下、本発明を実施する場合の一形態について図面を参照して具体的に説明する。図1は、本発明の一実施例の文書分類装置の要部の構成を示すブロック図である。図1において、11は文書格納部、12はリンク関係格納部、13は距離計算処理部、14は文書分類処理部、15は出力処理部である。
【0017】
本実施例の文書分類装置においては、文書格納部11が、電子化された大量の文書を格納しており、ここに格納された各々の文書に対応して、リンク関係格納部12が、各々の文書の間のリンク関係情報(参照する文書の存在位置とその文書識別子)を格納している。距離計算処理部13は、文書格納部11に格納された各文書を解析し、その文書に含まれる単語の出現頻度から文書間距離を計算する。この文書間距離の計算は、例えば、前述した(従来技術2)の文書分類システムと同様な手法(アルゴリズム)により計算する。
【0018】
このようにして文書間距離が計算されると、文書分類処理部14では、リンク関係格納部12に格納されたリンク関係情報と距離計算処理部13から得られた文書間距離を基にして、クラスター分析を行う。そして、文書格納部11に格納された複数の文書を分類する。分類された結果は、出力処理部15によるグラフィカルユーザインタフェースを介して、見やすい表示形態でユーザに対して表示出力される。これにより、例えば、クラスター分析の結果に応じて、大量の文書の中から同じグループに属する文書のみが表示されるので、ユーザは所望する文書を探しやすくなる。
【0019】
図2は、本発明の別の実施例である広域ネットワークに結合された文書分類システムの要部の構成を示すブロック図である。図2において、20は広域ネットワーク、21は文書取得処理部、22は文書格納部、23はリンク関係格納部、24は自立語抽出処理部、25は単語重み設定処理部、26は文書間距離計算処理部、27は文書分類処理部、28は出力処理部である。図2に示す文書分類システムでは、広域ネットワーク20上に分散して存在するハイパーテキストの形態の文書に対して、これらの文書を取得し、その文書中に埋め込まれたリンク情報から、これらの電子文書の内容を対象として文書分類を行う。
【0020】
広域ネットワーク20は、例えば、複数のネットワークシステムが互いに結合されたインターネットであり、文書取得処理部21は、広域ネットワーク20にアクセス可能に存在する大量の文書を取得するプログラムモジュールにより構成される。このプログラムモジュールは、広域ネットワーク20に接続されているコンピュータシステム上に格納されている電子文書の1つを指定すると、「指定された電子文書の内容を取得し、この電子文書中に埋め込まれた他の文書を指示するリンク情報を同定し、リンク情報が指示する他の文書を取得する操作」を再帰的に繰り返す処理を実行し、広域ネットワーク20に接続された複数のコンピュータシステム上に分散して存在する電子文書を取得する。
【0021】
文書取得処理部21により取得された大量の文書は、文書格納部22に格納される。この場合、文書格納部22では、文書取得処理部21が取得した文書をその文書を特定するリンク情報と対にして格納する。また、リンク関係格納部23において、文書格納部22に格納されている各々の文書間のリンク関係の有無を格納する。
【0022】
自立語抽出処理部24は、文書格納部22に格納されている文書から形態素解析アルゴリズムを用いて自立語(単語)を抽出する。これにより、文書から単語が切り出される。単語重み設定処理部25は、自立語抽出処理部24による抽出結果を基にして、各文書毎に全ての自立語に対して重み(重要度)を設定する。そして、文書間距離計算処理部26において、単語重み設定処理部25によって設定された重みを基にして、文書格納部22に格納されている文書の全ての2つの項目の間の距離を計算する。
【0023】
このようにして、文書間の距離が計算されると、文書分類処理部27では、リンク関係格納部23に格納されているリンク関係の有無と、文書間距離計算処理部26によって計算された文書間距離に基づいて、文書をクラスター分析により分類する。分類された結果は、出力処理部28により、その文書分類処理部27の分類結果が表示される。出力処理部28は、ユーザに対して、グラフィカルユーザインターフェイスを利用して見やすい表示形態により、例えば、同じグループに属する文書がまとめられて、その文書分類結果として出力表示される。
【0024】
一般的にハイパーテキストの形態をとる電子文書では、文書の内容部分とリンク情報(他の文書のネットワーク上の存在位置および文書識別子)とを区別するため、リンク情報には、リンク情報であることを示すタグ付けがなされている。このため、文書中からタグと一致する文字列を検出することにより、文書取得処理部21では、文書中からリンク情報を同定する。
【0025】
図3は、文書取得処理部21の文書取得処理のアルゴリズムを示すフローチャートである。図3に示すフローチャートを参照して、文書取得処理部の動作を説明する。広域ネットワーク上の1つの文書のリンク情報を初期条件として指定して、文書取得処理を起動すると、ここでの処理が開始され、まず、ステップ31において、初期条件としてリンク情報(ネットワーク上の存在位置および文書識別子)が指定された文書を文書Dとし、次のステップ32において、リストSの先頭に文書Dのリンク情報を加え、リストSの先頭をカレントのリスト位置Pとする。次に、次のステップ33において、リストSのリスト位置Pに対応するリンク情報が存在するか否かを判定する。この判定で、リンク情報が存在しない場合は、ここでのリスト操作による文書取得処理が終了したことなので、処理を終了する。
【0026】
また、ステップ33の判定処理で、リンク情報が存在する場合は、次のステップ34に進み、リンク情報を基にして、各リンク情報に対応する文書Dの文書内容を取得する。次に、ステップ35において、文書Dのリンク情報とその文書内容とを対にして、文書格納部22に格納する(図4)。そして、次のステップ36において、文書Dの文書中に記述されているリンク情報(D1,D2,…,Dn)を全て同定する。
【0027】
次に、ステップ37において、リンク情報(D1,D2,…,Dn)のうち、リストS中に存在しないリンク情報があれば、リストSに連接する。次にステップ38において、文書Dと各リンク情報(D1,D2,…,Dn)との間の2項間にリンク関係が存在することをリンク情報格納部23に格納する。そして、次の文書に対する処理のため、ステップ39において、カレントのリスト位置PをリストS中のリスト位置Pの次の位置とし、ステップ33に戻る。ステップ33においては、前述のように、リストSのリスト位置Pに対応するリンク情報が存在するか否かを判定し、この判定処理で、リンク情報が存在する場合には、ステップ34からの処理を繰り返し、また、リンク情報が存在しない場合は、ここでのリスト操作による文書取得処理が終了したことなので、処理を終了する。
【0028】
このようにして、文書取得処理部21の処理によって、文書中でリンク付けされている他の文書が再帰的に取得される。この結果、得られた各文書の内容はその文書のリンク情報と共に文書格納部22に格納される。また、各文書間のリンク関係の情報は、リンク関係格納部23に格納される。
【0029】
図4は、文書格納部22に格納される文書内容とリンク情報の関係を説明する図である。図4に示すように、文書格納部には、取得された文書の文書内容42とリンク情報(D1,D2,…,Dn)41とが対応づけて格納される。
【0030】
図5は、リンク関係格納部23に格納されるリンク関係の情報を説明する図である。図5に示すように、リンク関係格納処理部23には、リンク関係が2次元マトリックスの表の形式で格納される。表中の行見出しおよび列見出しは、文書格納部22に格納されたリンク情報(D1,D2,…,Dn)に対応し、リンク情報によって特定される文書間にリンク関係がある場合を○印で表記し、リンク関係がない場合を×印で表記している。
【0031】
前述したように、自立語抽出処理部24は、文書格納部22に格納された各文書内容から公知の形態素解析アルゴリズムを用いて単語を切り出し、各文書内容の中の自立語を抽出する。ここで抽出した自立語に対して、単語重み設定処理部25が、各文書の文書内容の中に含まれる自立語に対して“1”を設定し、文書内容の中に含まれない自立語に対して“0”を設定する。
【0032】
図6は、単語重み設定処理部25による重み付け結果の一例を示す図である。前述したように、ここでの文書の各文書内容は、リンク情報(D1,D2,…,Dn)により対応づけられているので、図6に示すように、各文書内容に含まれている自立語(WORD1,WORD2,WORD3,…,WORDn)に対して、当該各文書の文書内容の中に含まれる自立語には“1”を設定し、文書内容の中に含まれない自立語は“0”を設定するが、これらは、リンク情報(D1,D2,…,Dn)により各文書内容と対応付けられる。
【0033】
文書間距離計算処理部26は、前述した式(1−1)〜式(1−4)に基づいて、文書格納処理部22に格納された文書の全ての2項間について、その間の距離を計算する。計算された各文書の文書間距離は、各文書内容と対応づけられているリンク情報(D1,D2,…,Dn)の間の距離として格納される。図7は、文書間距離計算処理部26による文書間距離の計算結果の一例を示している。
【0034】
このようにして、リンク情報により取得された各文書の文書間距離が算出されると、文書分類処理部27において、リンク関係の情報と、算出した文書間距離に基づいて、文書分類処理部27は、初期文書クラスターを生成し、文書間距離に基づいたクラスター分析を行い、文書格納部22に格納された各文書を分類する。
【0035】
図8は、文書分類処理部27による文書分類処理のアルゴリズムを示すフローチャートである。図8を参照して、ここで文書分類処理を説明する。文書分類処理においては、処理を開始すると、ステップ81において、初期文書クラスターの作成処理を行う。すなわち、リンク関係格納部23のリンク関係の有無と、文書間距離計算部26の計算結果を参照し、リンク関係があり、かつ、文書間距離が所定の定数K(0≦K≦1)以下である文書の対を1つのクラスターとする。この場合、3つ以上の文書が、この条件を満たして連なる場合には、それらをまとめて1つのクラスターとする。
【0036】
次に、ステップ82に進み、得られた前クラスターと、クラスターに属さない全文書の2項間距離を再計算する。次に、ステップ83において、得られた2項間距離のうち最も小さい値となる2つのクラスターあるいは文書を1つのクラスターとする。そして、次のステップ84において、クラスター数および文書数の合計値が、所定数N(1≦N≦n:文書総数n)以下であるか否かを判定し、合計値が所定数N以下でない場合、未だ分類されていない文書が存在するので、この場合には、ステップ82に戻り、ステップ82およびステップ83のクラスター分析よる分類処理を繰り返し行う。この結果、ステップ84の判定処理で、クラスター数および文書数の合計値が所定数N以下であることが確認できると、ここで文書の分類が終了したので、一連の処理を終了する。そして、次に説明するように、分類した結果を出力処理部28により表示する。
【0037】
なお、このステップ82の処理において、クラスターとクラスターに属さない文書の間の文書間距離の再計算を行うが、この場合の文書と文書との間の文書間距離計算は、前述したように、式(1−1)〜式(1−4)により行う。また、クラスターCと文書Dの間の距離計算は、クラスターCに属する全ての文書と文書Dの距離計算を式(1−1)〜式(1−4)によって行い、その平均値を距離とする。クラスターC1とクラスターC2の間では、クラスターC1とクラスターC2に属する各文書の距離計算を行い、その平均値を距離とする。
【0038】
文書分類処理部27による文書分類アルゴリズムは、一般のクラスター分析の初期クラスターの設定に文書間距離とリンク関係を併用するものである。すなわち、リンク関係があり、かつ、文書間距離が近い文書をまとめて、初期クラスターとし、更に、文書間距離とリンク関係を併用することにより、意味的関係の深いリンク関係を選択的に利用することが可能となる。また、リンク関係を用いることにより、従来の文書間距離情報のみに基づくクラスター分析と比較して、より信頼性の高い分類が可能となる。これにより、文書の意味内容をより反映したクラスター解析(分類)が可能となる。
【0039】
具体例で説明すると、前述した図4,図5,図6,および図7の数値例の場合には、K=0.6とした場合、文書間距離が最も近いものは、文書D1と文書D4との距離“0.09”であり、次に近い文書間距離は文書D4と文書D5との距離“0.12”であり、その次に近い文書間距離は文書D2と文書D3との距離“0.27”であることから、初期クラスターは(D1,D4,D5)および(D2,D3)となる。
【0040】
次に、出力処理部28の処理について説明する。前述したように、出力処理部28は、ユーザに対して、グラフィカルユーザインターフェイスを利用して見やすい表示形態により、例えば、同じグループに属する文書がまとめられて、その文書分類結果として出力表示する。このような出力処理部による表示形態を、具体的な操作例を例示して説明する。図9〜図13は、ユーザが、ここでの文書分類装置に組み込まれている文書検索装置を起動して、論文検索を行い、更に文書分類を行う場合の操作画面の一連の状態の変化を示している。ここでの文書検索装置を起動すると、図9に示すように、文献検索ウィンドウ画面90が表示される。この文献検索ウィンドウ画面90には、検索操作ガイド共に、検索キーワード入力ためのキーワード入力フィールド91が設けられている。
【0041】
この文献検索ウィンドウ画面90において、例えば、ユーザが論文検索のためのキーワードとして、図10に示すように、「人工頭脳」,「定性推論」,および「免疫ネットワーク」のキーワードを入力する操作を行うと、文献検索ウィンドウ画面90は、キーワード入力フィールド91に検索キーワードが入力された状態となり、この状態において、検索ボタン92をポインタカーソル93によりクリックすると、検索処理が開始されて、その検索結果が、検索結果表示フィールド94に表示される。その結果、図11に示すように、検索結果表示フィールド94には、例えば、ヒットした文献の3件の文書のタイトルが表示される。
【0042】
次に、ユーザが、検索された文書と関連の深い文書を更に表示させるため、本実施例にかかる文書分類装置を起動する。このため、図12に示すように、検索結果表示フィールド94に表示された文書の内の1つの文書95をポインタカーソル93の操作により指定して(反転表示させて)、図13に示すように、関連文献表示ボタン96を操作すると、つまり、マウス操作でポインタカーソル93によりクリックすると、本実施例にかかる文書分類装置が起動される。そして、指定された文書から、その中に埋め込まれたリンク情報により関連のある文書を取得し、その文書間距離に基づくクラスター分析による文書分類処理を実行し、同じグループに属する文書を関連文書表示フィールド97に表示する。このようして、ユーザは、文献検索を行う場合に、関連のある文書まで含めて効率よく検索することとができる。
【0043】
【発明の効果】
以上、説明したように、本発明の文書分類装置によれば、ハイパーテキストの形態をとる文書をクラスター分析する際に、文書に記述されたリンク情報を利用することにより、文書の作成者の意志を反映した文書分類を行うことができる。つまり、文書の意味内容に沿った文書分類ができるようになる。
【図面の簡単な説明】
【図1】 図1は本発明の一実施例の文書分類装置の要部の構成を示すブロック図、
【図2】 図2は本発明の別の実施例である広域ネットワークに結合された文書分類システムの要部の構成を示すブロック図、
【図3】 図3は文書取得処理部21の文書取得処理のアルゴリズムを示すフローチャート、
【図4】 図4は文書格納部22に格納される文書内容とリンク情報の関係を説明する図、
【図5】 図5はリンク関係格納部23に格納されるリンク関係の情報を説明する図、
【図6】 図6は単語重み設定処理部25による重み付け結果の一例を示す図、
【図7】 図7は文書間距離計算処理部26による文書間距離の計算結果の一例を示す図、
【図8】 図8は文書分類処理部27による文書分類処理のアルゴリズムを示すフローチャート、
【図9】 図9は論文検索を行い更に文書分類を行う場合の操作画面の一連の状態の変化の第1の状態を示す図、
【図10】 図10は論文検索を行い更に文書分類を行う場合の操作画面の一連の状態の変化の第2の状態を示す図、
【図11】 図11は論文検索を行い更に文書分類を行う場合の操作画面の一連の状態の変化の第3の状態を示す図、
【図12】 図12は論文検索を行い更に文書分類を行う場合の操作画面の一連の状態の変化の第4の状態を示す図、
【図13】 図13は論文検索を行い更に文書分類を行う場合の操作画面の一連の状態の変化の第5の状態を示す図である。
【符号の説明】
11…文書格納部、12…リンク関係格納部、13…距離計算処理部、14…文書分類処理部、15…出力処理部、20…広域ネットワーク、21…文書取得処理部、22…文書格納部、23…リンク関係格納部、24…自立語抽出処理部、25…単語重み設定処理部、26…文書間距離計算処理部、27…文書分類処理部、28…出力処理部。[0001]
BACKGROUND OF THE INVENTION
The present invention relates to a document classification apparatus that classifies a large number of electronic documents existing on a network system, and more particularly to a document classification apparatus that classifies a large number of complicatedly linked documents such as hypertext. is there.
[0002]
[Prior art]
Today, with the spread of the Internet, electronic documents on computer systems that are physically located can be easily accessed via a network. Such an electronic document can embed link information for referring to another electronic document in the document, and the electronic document in which the link information is embedded can be traced by following the link information. Other electronic documents related to can be easily reached. The form of an electronic document in which such link information is embedded is generally called hypertext.
[0003]
In a network system such as the Internet, when the number of accessible electronic documents increases in large numbers, it is becoming difficult to find a desired document from the large number of electronic documents according to only link information.
[0004]
As one method for solving such a problem, an increasing number of systems provide search services for electronic documents published on the Internet. In these search systems, it is possible to perform a keyword search collectively for a large number of documents. In other words, it is possible to perform such collective keyword search by searching electronic documents published on the Internet as much as possible in advance and acquiring the contents of each document. Yes.
[0005]
Furthermore, in such a search system, there is a search system that further improves search efficiency by classifying each document into several categories according to the contents. The user of the system in this case can perform a keyword search centering on a category that seems to contain a desired document, and an improvement in search efficiency can be expected.
[0006]
By the way, as a method for classifying documents, there are a method that is performed manually, and a method that is automatically performed by calculation based on the distance between documents. When classifying a large number of documents, the latter method is advantageous from the viewpoint of efficiency.
[0007]
(Prior art 1)
A method for classifying such documents is discussed in, for example, the literature `` Luhn, HP, 'A statistical approach to mechanised encoding and searching of library information', IBM journal of research and development, 1, 309-17 (1957) ''. As described, there is a method of weighting words based on the appearance frequency of each word included in a document. In this case, in particular, a high-weight word can be regarded as a keyword representing the document.
[0008]
(Prior art 2)
In addition, a method for obtaining the distance between documents from the weight of words has been proposed in, for example, the document "Salton, G. and McGill, NJ, 'Introduction to modern information retrieval', New York, McGraw-Hill (1983)". Has been adopted in several document classification systems.
[0009]
In such a document classification system, assuming that the weight Wiu of each word Ru is set for the document Pi, the document vector Vpi of the document Pi is defined as follows. However, when the word Ru does not exist in the document Pi, the weight Wiu is set to “0”. If the word Ru exists, the weight Wiu is a real value equal to or greater than “0”.
Figure 0003772401
However, here, the total number of different words is m, and Ωiu (0 ≦ Ωiu ≦ 1) is redefined as the weight Wiu of each word Ru for the document Pi. In this case, the distance d (Pi, Pj) {(0 ≦ d (Pi, Pj) ≦ 1) between the document Pi and the document Pj is
d (Pi, Pj) = 2 (arccos (Vpi · Vpj)) / π (1-4)
Is defined as the angle of both document vectors.
[0010]
(Prior art 3)
Based on the distance between documents obtained as described above, it is possible to classify documents by using a cluster analysis technique. For the method of cluster analysis, reference can be made to, for example, the document “Tanaka, Tarumi, Wakimoto,“ Statistical Analysis Handbook II Multivariate Analysis ”, pp. 226 to 257, Kyoritsu Shuppan (1984)”. Since the cluster analysis method is a well-known technique, a description thereof is omitted here.
[0011]
[Problems to be solved by the invention]
By the way, in the above-described document classification system according to the prior art, there are the following problems as problems to be solved. In other words, in the document classification system according to (Prior Art 1) and (Prior Art 2), the inter-document distance obtained mechanically is not set after deeply considering the semantic content of the document. Therefore, it is difficult to say that such document classification based on the inter-document distance sufficiently reflects the semantic content of the document. For this reason, it does not change that it is difficult for the user to find a desired document from a large amount of electronic documents.
[0012]
The present invention has been made to solve such problems, and an object of the present invention is to classify documents that can appropriately classify a large number of complicatedly linked documents such as hypertext. To provide an apparatus.
[0013]
[Means for Solving the Problems]
In order to achieve the above object, a document classification apparatus according to the present invention includes a document storage unit (11) for storing a plurality of digitized documents and a plurality of documents stored in the document storage unit. A link relation storage means (12) for storing a link relation; a distance calculation means (13) for calculating a distance between documents from the appearance frequency of words included in each document stored in the document storage means; and the link relation storage. A document classification unit (14) for performing cluster analysis based on the link relation stored in the unit and the inter-document distance obtained from the distance calculation unit, and classifying a plurality of documents stored in the document storage unit; And output means (15) for outputting the result classified by the document classification means.
[0014]
In the document classification apparatus having such characteristics, the document storage means (11) stores a plurality of digitized documents, and the link relation storage means (12) stores a plurality of documents stored in the document storage means. The link relation between documents is stored. When the distance calculation means (13) calculates the inter-document distance from the appearance frequency of words included in each document stored in the document storage means, the document classification means (14) stores the link relation stored in the link relation storage means. Based on the distance between documents obtained from the distance calculation means, cluster analysis is performed to classify a plurality of documents stored in the document storage means. Then, the output means (15) outputs the result classified by the document classification means.
[0015]
In this way, the document classification apparatus of the present invention uses link information described in a document when classifying a document in the form of hypertext using a cluster analysis technique. Since the link relationship between documents is basically set for a document that is semantically close (small distance) to the document created by the document creator, both the link relationship information and the inter-document distance are set. Perform cluster analysis using. Thereby, the document classification reflecting the will of the document creator, that is, the document classification in accordance with the semantic content of the document can be realized.
[0016]
DETAILED DESCRIPTION OF THE INVENTION
Hereinafter, an embodiment for carrying out the present invention will be specifically described with reference to the drawings. FIG. 1 is a block diagram showing a configuration of a main part of a document classification apparatus according to an embodiment of the present invention. In FIG. 1, 11 is a document storage unit, 12 is a link relationship storage unit, 13 is a distance calculation processing unit, 14 is a document classification processing unit, and 15 is an output processing unit.
[0017]
In the document classification apparatus according to the present embodiment, the document storage unit 11 stores a large number of digitized documents, and the link relationship storage unit 12 corresponds to each document stored therein, Link relation information (the location of the document to be referred to and its document identifier) are stored. The distance calculation processing unit 13 analyzes each document stored in the document storage unit 11 and calculates an inter-document distance from the appearance frequency of words included in the document. This inter-document distance is calculated by, for example, a method (algorithm) similar to that of the document classification system of (Prior Art 2) described above.
[0018]
When the inter-document distance is calculated in this manner, the document classification processing unit 14 based on the link relationship information stored in the link relationship storage unit 12 and the inter-document distance obtained from the distance calculation processing unit 13. Perform cluster analysis. Then, the plurality of documents stored in the document storage unit 11 are classified. The classified results are displayed and output to the user in an easy-to-view display format via the graphical user interface by the output processing unit 15. Accordingly, for example, only documents belonging to the same group are displayed from a large number of documents according to the result of the cluster analysis, so that the user can easily find a desired document.
[0019]
FIG. 2 is a block diagram showing a configuration of a main part of a document classification system coupled to a wide area network according to another embodiment of the present invention. In FIG. 2, 20 is a wide area network, 21 is a document acquisition processing unit, 22 is a document storage unit, 23 is a link relation storage unit, 24 is an independent word extraction processing unit, 25 is a word weight setting processing unit, and 26 is a distance between documents. A calculation processing unit, 27 is a document classification processing unit, and 28 is an output processing unit. In the document classification system shown in FIG. 2, these documents are acquired for documents in the form of hypertext distributed on the wide area network 20, and the electronic information is obtained from the link information embedded in the documents. Document classification is performed on the contents of the document.
[0020]
The wide area network 20 is, for example, the Internet in which a plurality of network systems are coupled to each other, and the document acquisition processing unit 21 is configured by a program module that acquires a large number of documents that are accessible to the wide area network 20. When one of the electronic documents stored on the computer system connected to the wide area network 20 is specified, the program module reads “The content of the specified electronic document is acquired and embedded in the electronic document. The process of recursively repeating the operation of “identifying link information indicating another document and acquiring another document indicated by the link information” is distributed over a plurality of computer systems connected to the wide area network 20. To obtain existing electronic documents.
[0021]
A large amount of documents acquired by the document acquisition processing unit 21 is stored in the document storage unit 22. In this case, the document storage unit 22 stores the document acquired by the document acquisition processing unit 21 in a pair with link information for specifying the document. The link relationship storage unit 23 stores the presence / absence of a link relationship between the documents stored in the document storage unit 22.
[0022]
The independent word extraction processing unit 24 extracts an independent word (word) from the document stored in the document storage unit 22 using a morphological analysis algorithm. Thereby, the word is cut out from the document. The word weight setting processing unit 25 sets weights (importance) for all the independent words for each document based on the extraction result by the independent word extraction processing unit 24. Then, the inter-document distance calculation processing unit 26 calculates the distance between all two items of the document stored in the document storage unit 22 based on the weight set by the word weight setting processing unit 25. .
[0023]
When the distance between documents is calculated in this way, the document classification processing unit 27 determines whether or not there is a link relationship stored in the link relationship storage unit 23 and the document calculated by the inter-document distance calculation processing unit 26. Based on the distance between documents, the documents are classified by cluster analysis. The classification result of the document classification processing unit 27 is displayed by the output processing unit 28 as the classified result. The output processing unit 28 collects documents belonging to the same group, for example, in a display form that is easy to see for a user using a graphical user interface, and outputs and displays the documents as a result of document classification.
[0024]
In an electronic document that generally takes the form of hypertext, the link information must be link information in order to distinguish the document content portion from link information (location of other documents on the network and document identifiers). Is tagged. For this reason, the document acquisition processing unit 21 identifies link information from the document by detecting a character string that matches the tag from the document.
[0025]
FIG. 3 is a flowchart showing an algorithm for document acquisition processing of the document acquisition processing unit 21. The operation of the document acquisition processing unit will be described with reference to the flowchart shown in FIG. When link information of one document on a wide area network is specified as an initial condition and a document acquisition process is started, the process starts here. First, in step 31, link information (existing position on the network) is set as an initial condition. And the document identifier) are designated as document D, and in the next step 32, link information of document D is added to the head of list S, and the head of list S is made current list position P. Next, in the next step 33, it is determined whether or not link information corresponding to the list position P of the list S exists. If the link information does not exist in this determination, the document acquisition process by the list operation is completed, and the process is terminated.
[0026]
If the link information exists in the determination process of step 33, the process proceeds to the next step 34, and the document content of the document D corresponding to each link information is acquired based on the link information. Next, in step 35, the link information of the document D and the document content are paired and stored in the document storage unit 22 (FIG. 4). Then, in the next step 36, all link information (D1, D2,..., Dn) described in the document D is identified.
[0027]
Next, in step 37, if there is link information that does not exist in the list S among the link information (D1, D2,..., Dn), the link information is connected to the list S. Next, in step 38, it is stored in the link information storage unit 23 that a link relationship exists between two terms between the document D and each link information (D1, D2,..., Dn). Then, in order to process the next document, in step 39, the current list position P is set to the position next to the list position P in the list S, and the process returns to step 33. In step 33, as described above, it is determined whether or not there is link information corresponding to the list position P of the list S. If link information exists in this determination processing, the processing from step 34 is performed. If the link information does not exist, the document acquisition process by the list operation is completed, and the process ends.
[0028]
In this way, other documents linked in the document are recursively acquired by the processing of the document acquisition processing unit 21. As a result, the content of each obtained document is stored in the document storage unit 22 together with link information of the document. Further, the link relationship information between the documents is stored in the link relationship storage unit 23.
[0029]
FIG. 4 is a diagram for explaining the relationship between the document content stored in the document storage unit 22 and the link information. As shown in FIG. 4, the document storage unit stores the document content 42 of the acquired document and link information (D1, D2,..., Dn) 41 in association with each other.
[0030]
FIG. 5 is a diagram for explaining link relationship information stored in the link relationship storage unit 23. As shown in FIG. 5, the link relation storage processing unit 23 stores the link relation in the form of a two-dimensional matrix table. The row heading and the column heading in the table correspond to the link information (D1, D2,..., Dn) stored in the document storage unit 22, and a case where there is a link relationship between the documents specified by the link information The case where there is no link relationship is indicated by a cross.
[0031]
As described above, the independent word extraction processing unit 24 extracts words from each document content stored in the document storage unit 22 using a known morphological analysis algorithm, and extracts the independent words in each document content. For the independent word extracted here, the word weight setting processing unit 25 sets “1” for the independent word included in the document content of each document, and the independent word that is not included in the document content. Is set to “0”.
[0032]
FIG. 6 is a diagram illustrating an example of a weighting result by the word weight setting processing unit 25. As described above, each document content of the document here is associated with the link information (D1, D2,..., Dn). Therefore, as shown in FIG. For words (WORD1, WORD2, WORD3,..., WORDn), “1” is set for the independent word included in the document content of each document, and the independent word that is not included in the document content is “ Although 0 ″ is set, these are associated with the contents of each document by link information (D1, D2,..., Dn).
[0033]
The inter-document distance calculation processing unit 26 calculates the distance between all the two terms of the document stored in the document storage processing unit 22 based on the above-described equations (1-1) to (1-4). calculate. The calculated inter-document distance of each document is stored as a distance between link information (D1, D2,..., Dn) associated with each document content. FIG. 7 shows an example of the calculation result of the inter-document distance by the inter-document distance calculation processing unit 26.
[0034]
In this way, when the inter-document distance of each document acquired by the link information is calculated, the document classification processing unit 27 performs the document classification processing unit 27 based on the link relation information and the calculated inter-document distance. Generates an initial document cluster, performs cluster analysis based on the inter-document distance, and classifies each document stored in the document storage unit 22.
[0035]
FIG. 8 is a flowchart showing an algorithm for document classification processing by the document classification processing unit 27. The document classification process will now be described with reference to FIG. In the document classification process, when the process is started, an initial document cluster creation process is performed in step 81. That is, referring to the presence or absence of the link relationship in the link relationship storage unit 23 and the calculation result of the inter-document distance calculation unit 26, there is a link relationship and the inter-document distance is equal to or less than a predetermined constant K (0 ≦ K ≦ 1). Let a pair of documents be one cluster. In this case, when three or more documents satisfy this condition and are connected, they are collected into one cluster.
[0036]
Next, proceeding to step 82, the distance between the binomials of the obtained previous cluster and all documents not belonging to the cluster is recalculated. Next, in step 83, two clusters or documents having the smallest value among the obtained distances between the two terms are set as one cluster. Then, in the next step 84, it is determined whether or not the total value of the number of clusters and the number of documents is equal to or less than a predetermined number N (1 ≦ N ≦ n: total number of documents n). In this case, since there is a document that has not been classified yet, in this case, the process returns to step 82 and the classification process by cluster analysis in steps 82 and 83 is repeated. As a result, if it is confirmed in step 84 that the total value of the number of clusters and the number of documents is less than or equal to the predetermined number N, the classification of the documents is completed here, and the series of processes is terminated. Then, as described below, the classified result is displayed by the output processing unit 28.
[0037]
In the process of step 82, the inter-document distance between the documents that do not belong to the cluster is recalculated. In this case, the inter-document distance is calculated between the documents as described above. It carries out by Formula (1-1)-Formula (1-4). Further, the distance calculation between the cluster C and the document D is performed by calculating the distances between all the documents belonging to the cluster C and the document D by the expressions (1-1) to (1-4), and calculating the average value as the distance. To do. Between the clusters C1 and C2, distances between the documents belonging to the clusters C1 and C2 are calculated, and the average value is set as the distance.
[0038]
The document classification algorithm by the document classification processing unit 27 uses the inter-document distance and the link relationship together for the initial cluster setting of general cluster analysis. In other words, documents that have link relations and short inter-document distances are gathered together to form an initial cluster, and the inter-document distances and link relations are used together to selectively use link relations with deep semantic relations. It becomes possible. Further, by using the link relationship, classification with higher reliability is possible as compared with the conventional cluster analysis based only on the inter-document distance information. This enables cluster analysis (classification) that more reflects the semantic content of the document.
[0039]
More specifically, in the numerical examples of FIGS. 4, 5, 6, and 7 described above, when K = 0.6, the documents having the shortest distance between documents are the document D1 and the document. The distance between the documents D4 and the document D5 is the distance between the documents D4 and D5, and the next document distance between the documents D2 and D3 is the distance between the documents D4 and D5. Since the distance is “0.27”, the initial clusters are (D1, D4, D5) and (D2, D3).
[0040]
Next, processing of the output processing unit 28 will be described. As described above, the output processing unit 28 collects, for example, documents belonging to the same group in a display form that is easy to see for a user using a graphical user interface, and outputs and displays the documents as a result of document classification. A display form by such an output processing unit will be described by exemplifying a specific operation example. FIG. 9 to FIG. 13 show a series of changes in the state of the operation screen when the user activates the document retrieval apparatus incorporated in the document classification apparatus here, performs a paper search, and further performs document classification. Show. When the document search apparatus is activated, a document search window screen 90 is displayed as shown in FIG. This literature search window screen 90, search operation guide and both the keyword input field 91 for the search keyword input is provided.
[0041]
In this document search window screen 90, for example, the user performs an operation of inputting keywords of “artificial brain”, “qualitative reasoning”, and “immune network” as keywords for searching for articles as shown in FIG. Then, the document search window screen 90 is in a state in which the search keyword is input in the keyword input field 91. In this state, when the search button 92 is clicked with the pointer cursor 93, the search process is started, and the search result is It is displayed in the search result display field 94. As a result, as shown in FIG. 11, in the search result display field 94, for example, the titles of three documents of hit documents are displayed.
[0042]
Next, the user activates the document classification apparatus according to the present embodiment in order to further display a document closely related to the retrieved document. For this reason, as shown in FIG. 12, one of the documents 95 displayed in the search result display field 94 is designated (inverted display) by operating the pointer cursor 93, and as shown in FIG. When the related document display button 96 is operated, that is, when the mouse is operated and the pointer cursor 93 is clicked, the document classification apparatus according to the present embodiment is activated. Then, from the specified document, the related document is acquired by the link information embedded in the document, the document classification process is performed by the cluster analysis based on the distance between the documents, and the documents belonging to the same group are displayed. Displayed in field 97. In this way, when performing a document search, the user can efficiently search including a related document.
[0043]
【The invention's effect】
As described above, according to the document classification device of the present invention, when performing cluster analysis on documents in the form of hypertext, the intention of the creator of the document is obtained by using the link information described in the document. The document classification that reflects can be performed. That is, document classification can be performed according to the semantic content of the document.
[Brief description of the drawings]
FIG. 1 is a block diagram showing a configuration of a main part of a document classification apparatus according to an embodiment of the present invention;
FIG. 2 is a block diagram showing a configuration of a main part of a document classification system coupled to a wide area network according to another embodiment of the present invention;
FIG. 3 is a flowchart showing an algorithm for document acquisition processing of the document acquisition processing unit 21;
FIG. 4 is a diagram for explaining the relationship between document contents stored in the document storage unit 22 and link information;
FIG. 5 is a diagram for explaining link relationship information stored in a link relationship storage unit 23;
FIG. 6 is a diagram illustrating an example of a weighting result by a word weight setting processing unit 25;
FIG. 7 is a diagram showing an example of the calculation result of the inter-document distance by the inter-document distance calculation processing unit 26;
FIG. 8 is a flowchart showing an algorithm of document classification processing by the document classification processing unit 27;
FIG. 9 is a diagram showing a first state of a series of state changes of the operation screen when paper search is performed and document classification is further performed;
FIG. 10 is a diagram showing a second state of a series of state changes of the operation screen when paper search is performed and document classification is further performed;
FIG. 11 is a diagram showing a third state of a series of state changes in the operation screen when paper search is performed and document classification is further performed;
FIG. 12 is a diagram showing a fourth state of a series of state changes on the operation screen when paper search is performed and document classification is further performed;
FIG. 13 is a diagram illustrating a fifth state of a series of state changes on the operation screen when paper search is performed and document classification is performed.
[Explanation of symbols]
DESCRIPTION OF SYMBOLS 11 ... Document storage part, 12 ... Link relation storage part, 13 ... Distance calculation process part, 14 ... Document classification process part, 15 ... Output process part, 20 ... Wide area network, 21 ... Document acquisition process part, 22 ... Document storage part , 23 ... link relation storage unit, 24 ... independent word extraction processing unit, 25 ... word weight setting processing unit, 26 ... inter-document distance calculation processing unit, 27 ... document classification processing unit, 28 ... output processing unit.

Claims (2)

電子化された複数の文書を格納する文書格納手段と、
前記文書格納手段に格納された複数の文書の間のリンク関係を格納するリンク関係格納手段と、
前記文書格納手段に格納された各文書に含まれる単語の出現頻度から文書間距離を計算する距離計算手段と、
前記リンク関係格納手段に格納されたリンク関係と前記距離計算手段から得られる文書間距離を基にして、クラスター分析を行い、前記文書格納手段に格納された複数の文書を分類する文書分類手段と、
文書分類手段による分類された結果を出力する出力手段と
を有することを特徴とする文書分類装置。
Document storage means for storing a plurality of digitized documents;
Link relation storage means for storing link relations between a plurality of documents stored in the document storage means;
Distance calculation means for calculating the distance between documents from the frequency of appearance of words contained in each document stored in the document storage means;
A document classification unit that performs cluster analysis based on the link relationship stored in the link relationship storage unit and the inter-document distance obtained from the distance calculation unit, and classifies a plurality of documents stored in the document storage unit; ,
A document classification device comprising: output means for outputting a result classified by the document classification means.
文書分類装置による文書分類方法であって、
文書分類装置が備える文書格納手段が、電子化された複数の文書を格納するステップと、
文書分類装置が備えるリンク関係格納手段が、前記文書格納手段に格納された複数の文書の間のリンク関係を格納するステップと、
文書分類装置が備える距離計算手段が、前記文書格納手段に格納された各文書に含まれる単語の出現頻度から文書間距離を計算するステップと、
文書分類装置が備える文書分類手段が、前記リンク関係格納手段に格納されたリンク関係と前記距離計算手段から得られる文書間距離を基にして、クラスター分析を行い、前記文書格納手段に格納された複数の文書を分類するステップと、
文書分類装置が備える出力手段が、前記文書分類手段により分類された結果を出力するステップと
を実行することを特徴とする文書分類方法。
A document classification method by a document classification device,
A document storage means provided in the document classification device stores a plurality of digitized documents;
A step of storing a link relationship between a plurality of documents stored in the document storage unit, a link relationship storage unit included in the document classification device;
A step of calculating a distance between documents from the appearance frequency of words included in each document stored in the document storage means, a distance calculation means provided in the document classification device;
The document classification means provided in the document classification device performs a cluster analysis based on the link relation stored in the link relation storage means and the inter-document distance obtained from the distance calculation means, and is stored in the document storage means. Categorizing multiple documents;
A document classification method comprising: an output unit included in the document classification device executing a step of outputting a result classified by the document classification unit.
JP19954396A 1996-07-11 1996-07-11 Document classification device Expired - Fee Related JP3772401B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP19954396A JP3772401B2 (en) 1996-07-11 1996-07-11 Document classification device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP19954396A JP3772401B2 (en) 1996-07-11 1996-07-11 Document classification device

Publications (2)

Publication Number Publication Date
JPH1027125A JPH1027125A (en) 1998-01-27
JP3772401B2 true JP3772401B2 (en) 2006-05-10

Family

ID=16409582

Family Applications (1)

Application Number Title Priority Date Filing Date
JP19954396A Expired - Fee Related JP3772401B2 (en) 1996-07-11 1996-07-11 Document classification device

Country Status (1)

Country Link
JP (1) JP3772401B2 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8892992B2 (en) 2009-01-02 2014-11-18 Apple Inc. Methods for efficient cluster analysis

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2292311A1 (en) * 1998-12-17 2000-06-17 Raul Anchel Intranet-based cataloguing and publishing system and method
JP3562755B2 (en) * 1999-05-19 2004-09-08 日本電信電話株式会社 Related document retrieval method and apparatus, and recording medium recording the method
US6671711B1 (en) * 2000-03-31 2003-12-30 Xerox Corporation System and method for predicting web user flow by determining association strength of hypermedia links

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8892992B2 (en) 2009-01-02 2014-11-18 Apple Inc. Methods for efficient cluster analysis
US9959259B2 (en) 2009-01-02 2018-05-01 Apple Inc. Identification of compound graphic elements in an unstructured document

Also Published As

Publication number Publication date
JPH1027125A (en) 1998-01-27

Similar Documents

Publication Publication Date Title
JP4335335B2 (en) How to sort document images
JP3942290B2 (en) How to send a document image to a client workstation
US6993517B2 (en) Information retrieval system for documents
CA2423033C (en) A document categorisation system
US6654744B2 (en) Method and apparatus for categorizing information, and a computer product
US7113954B2 (en) System and method for generating a taxonomy from a plurality of documents
US6654742B1 (en) Method and system for document collection final search result by arithmetical operations between search results sorted by multiple ranking metrics
US6772148B2 (en) Classification of information sources using graphic structures
JP4583003B2 (en) Search processing method and program
JP2003167914A (en) Multimedia information retrieving method, program, recording medium and system therefor
CN109918555A (en) Method, apparatus, equipment and the medium suggested for providing search
JP3820878B2 (en) Information search device, score determination device, information search method, score determination method, and program recording medium
JPH11102377A (en) Method and device for retrieving document from data base
JP2002041573A (en) Information retrieval system
JPH08263514A (en) Method for automatic classification of document, method for visualization of information space, and information retrieval system
JPH1115835A (en) Sorting information presenting device and medium recording sorting information presenting program
JP3772401B2 (en) Document classification device
JP2006251975A (en) Text sorting method and program by the method, and text sorter
JP2007249600A (en) Method for classifying objective data to category
JP4544047B2 (en) Web image search result classification presentation method and apparatus, program, and storage medium storing program
JP2005122509A (en) Program, system and method for analyzing hierarchical structure data
JPH1185794A (en) Retrieval word input device and recording medium recording retrieval word input program
JP2000305950A (en) Document sorting device and document sorting method
JP2001325104A (en) Method and device for inferring language case and recording medium recording language case inference program
JP2002324077A (en) Apparatus and method for document retrieval

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20051108

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20051220

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20060124

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20060206

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100224

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110224

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120224

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130224

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130224

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140224

Year of fee payment: 8

LAPS Cancellation because of no payment of annual fees