JP2940488B2 - 文書グループ化装置および文書グループ化方法 - Google Patents

文書グループ化装置および文書グループ化方法

Info

Publication number
JP2940488B2
JP2940488B2 JP8262047A JP26204796A JP2940488B2 JP 2940488 B2 JP2940488 B2 JP 2940488B2 JP 8262047 A JP8262047 A JP 8262047A JP 26204796 A JP26204796 A JP 26204796A JP 2940488 B2 JP2940488 B2 JP 2940488B2
Authority
JP
Japan
Prior art keywords
document
documents
grouping
group
reference source
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP8262047A
Other languages
English (en)
Other versions
JPH10105572A (ja
Inventor
智治 山口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
Nippon Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Electric Co Ltd filed Critical Nippon Electric Co Ltd
Priority to JP8262047A priority Critical patent/JP2940488B2/ja
Publication of JPH10105572A publication Critical patent/JPH10105572A/ja
Application granted granted Critical
Publication of JP2940488B2 publication Critical patent/JP2940488B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は電子化された文書の
収集装置に関し、特に分散された複数の文書を関連性の
あるものとないものに区別して収集範囲を決定し、関連
性のある文書を収集してグループ化を行う文書グループ
化装置および文書グループ化方法、さらに、文書グルー
プ化を行うプログラムを記録した記録媒体に関する。
【0002】
【従来の技術】従来、分散された文書間の参照関係情報
をもつ文書群の代表的なものとしてハイパーテキストが
知られている。ハイパーテキストは複数の文書をリンク
によって関連付けることが可能である。
【0003】この代表的な従来技術の例として、特開平
4−321144号公報に記載の「ハイパーテキストの
ブラウジング処理装置」が知られている。この従来技術
によれば、文書間のリンク付け関係を一覧することがで
きる。
【0004】また、特開平5−128157号公報に記
載の「文書検索装置」によれば、リンクを辿って到達可
能な特定の範囲から、指定したキーワードにマッチする
内容をもつ文書を選択的に検索することができる。
【0005】さらに、(株)エーアイソフトの「Web
Whacker」(米国ForeFront Grou
p,Inc.の商標)、株式会社ビー・ユー・ジーの
「PerMan Surfer波乗野郎」(株式会社ビ
−・ユ−・ジ−の商標)などに代表されるのオートパイ
ロットあるいはダウンローダと呼ばれるソフトウェアに
よれば、大規模なハイパーテキストデータベースである
ワールドワイドウェッブ(World Wide We
b:WWW)上の指定された文書からリンクした文書を
指定された数だけ、自動収集することができる。
【0006】
【発明が解決しようとする課題】前述の「ハイパーテキ
ストのブラウジング処理装置」では文書間の意味的な関
連性は表現されず、ツリー構造状に表示された文書群の
どこからどこまでが、意味的に近接した関係にあるのか
の判断は、人間が各文書の内容を見て判断するしかな
い。ワールドワイドウェッブのように大規模なハイパー
テキストでは、この判断を人手でおこなうのは現実的で
はない。
【0007】また、「文書検索装置」を用いると、リン
クを辿って到達可能な範囲の文書をすべて一度収集する
必要があり、到達可能な範囲が膨大である場合にも、全
ての文書の内容を参照する必要があり、莫大な処理時間
を要するという問題を生じる。また、通信路の細いネッ
トワーク上に分散された文書を参照する場合には、通信
時間などのオーバーヘッドが大きくなるという問題を生
じる。キーワード指定がリンクの作成意図と一致しない
場合には、キーワードにマッチしない文書を介して間接
的にリンクされているキーワードにマッチする文書間で
リンクが失われてしまうという問題がある。
【0008】オートパイロットやダウンローダなどのソ
フトウェアでは、辿るリンクの数や、物理的に文書が格
納されているマシンによって文書の収集範囲を限定して
おり、文書の内容による意味的な関連性は考慮されてお
らず、内容的にあまり関連のない文書も収集してしまう
という問題や、他のマシンに格納されている関連の深い
文書が収集されないという問題がある。
【0009】そこで、ワールドワイドウェッブのように
大規模なハイパーテキストに関しても、リンクの作成意
図と文書の内容に沿って関連性の深い文書に限定して収
集する方法が必要である。
【0010】本発明の目的は、文書の参照関係に基づい
た文書の収集において、到達可能な全文書を探索するこ
となく意味的に関連性の深い文書を収集できるように、
参照関係を辿る範囲を限定した収集対象範囲を決定をす
る文書グループ化装置および文書グループ化方法と文書
のグループ化が可能なプログラムを記録した記録媒体を
提供することにある。
【0011】
【課題を解決するための手段】本発明の第1の発明の文
書グループ化装置は、文書収集の起点となる文書を格納
する参照元文書格納手段と、参照元文書格納手段に格納
された文書を順次取り出して該文書中から他の文書への
参照関係を記述した箇所を検出する参照文書検出手段
と、参照文書検出手段により検出された参照関係によ
り、前記参照関係に対応する文書を文書群から取得する
文書取得手段と、文書取得手段により取得された文書を
格納しておく参照文書格納手段と、参照文書検出手段に
より文書中の参照関係を検出し終えた参照元文書を参照
元文書格納手段から移して格納しておく文書グループ格
納手段と、参照文書格納手段に格納された参照文書と文
書グループ格納手段に格納された文書の関連性を評価
し、関連がある場合には参照文書を参照元文書格納手段
に新たな参照元文書として追加する関連性評価手段とを
含んで構成される。
【0012】また、本発明の第2の発明の文書グループ
化装置は、文書収集の起点となる文書を格納する参照元
文書格納手段と、前記参照元文書格納手段に格納された
文書を順次取り出して該文書中から他の文書への参照関
係の説明を記述した箇所を検出する参照文書検出手段
と、前記参照文書検出手段により文書中の参照関係の説
明を検出し終えた参照元文書を前記参照元文書格納手段
から移して格納しておく文書グループ格納手段と、前記
参照文書検出手段により検出された参照関係の説明に該
当する文書中の記述と文書グループ格納手段に格納され
た参照元文書の本文の記述とから、前記参照元文書と参
照関係のある文書との関連性を評価する関連性評価手段
と、前記関連性評価手段により関連があると評価された
文書のみを文書群から取得する文書取得手段と、前記文
書取得手段により取得された文書を格納しておく参照文
書格納手段と、から構成され、前記関連性評価手段は、
前記参照文書格納手段が格納した文書を参照元文書とし
て、前記参照元文書格納手段に格納する処理を更に行
う。
【0013】第1の発明によれば、文書の参照関係に基
づいた文書の収集において、到達可能な全文書を探索す
ることなく意味的に関連性の深い文書を収集できるよう
に、参照関係を辿る範囲を限定した収集対象範囲を決定
を行うことが可能である。
【0014】また、第2の発明によれば、文書の参照関
係の説明によって、文書作成者の意図と文書の内容に沿
って関連性の深い文書に限定した収集が可能である。
【0015】
【発明の実施の形態】次に図1から図6を参照して本発
明の実施の形態について説明する。
【0016】図1は本発明の第1の発明である請求項1
〜請求項8に記載した本発明の実施の形態の一構成例を
示すブロック図である。
【0017】かかる発明の実施の形態における文書グル
ープ化装置(001)は、文書収集の起点となる文書を
格納する参照元文書格納手段(110)と、参照元文書
格納手段(110)に格納された文書を順次取り出して
該文書中から他の文書への参照関係を検出する参照文書
検出手段(120)と、参照文書検出手段(120)に
より検出された参照関係のある文書を文書群(901)
から取得する文書取得手段(130)と、文書取得手段
(130)により取得された文書を格納しておく参照文
書格納手段(140)と、参照文書検出手段(120)
により文書中の参照関係を検出し終えた参照元文書を参
照元文書格納手段(110)から移して格納しておく文
書グループ格納手段(150)と、参照文書格納手段
(140)に格納された参照文書と文書グループ格納手
段(150)に格納された文書群の関連性を評価し、関
連がある場合には参照文書を参照元文書格納手段(11
0)に新たな参照元文書として追加する関連性評価手段
(160)とを含んで構成される。
【0018】また、文書グループ格納手段(150)格
納されるのは、文書を特定できる情報のみでもよい。
【0019】図2は請求項1から請求項8に記載した本
発明の処理の流れの一実施の形態を示すフロー図であ
る。
【0020】参照文書検出手段(120)は、参照元文
書格納手段(110)に格納された文書を順次取り出し
て該文書中から他の文書への参照関係を検出し(ステッ
プS10)、文書中の参照関係を検出し終えた参照元文
書を参照元文書格納手段(110)から文書グループ格
納手段(150)へ移して格納し(ステップS20)、
文書取得手段(130)は、参照文書検出手段(12
0)により検出された参照関係のある文書を文書群(9
01)から取得(ステップS30)して参照文書格納手
段(140)に格納し、関連性評価手段(160)は、
参照文書格納手段(140)に格納された参照文書と文
書グループ格納手段(150)に格納された文書群の関
連性を評価し(ステップS40)、関連がある場合には
参照文書を参照元文書格納手段(110)に新たな参照
元文書として追加(ステップS40)し、参照元文書格
納手段(110)にまだ文書が格納されているかチェッ
クし(ステップS60)、格納されている場合にはステ
ップS10から繰り返す。参照元文書格納手段(11
0)格納されている文書が無くなれば、文書グループ格
納手段(150)に格納されている文書を一つのグルー
プに属するものと決定する(ステップS70)。
【0021】
【実施例】以下、図面を参照して本発明の文書グループ
化装置のさらに詳しい実施例について説明する。
【0022】前述した様に、図1は、本発明の文書グル
ープ化装置の一実施の形態の構成例を示すブロック図で
ある。
【0023】また、本実施例においては、文書群(90
1)として、HTML形式で記述されているハイパーテ
キストであり、ワールドワイドウェッブのページとして
インターネットに接続された計算機上に分散して存在し
ているものとして説明する。
【0024】各文書は、通信プロトコルとホスト名およ
びパス名を含むURL(Uniform Resour
ce Locator)と呼ばれる記述法により特定で
きる。文書取得手段(130)は、例えばURLに指定
されたプロトコルによりインターネットに接続されてい
る指定されたホスト計算機から指定されたパス名に該当
する文書を取得する。
【0025】例えば、参照元文書格納手段(110)に
格納された文書収集の起点となる文書が図3に示す文書
(501)であるとする。HTML形式の文書では参照
関係情報は、”<”と”>”に囲まれたタグと呼ばれる
部分のうち、”<a” で始まり次の”>”までの間に
ある”href=”に続いてURLを記述し、他の文書
への参照を示す箇所である。
【0026】参照文書検出手段(120)は、参照元文
書中から他の文書への参照を示すURL(参照関係情
報)を検出し(ステップS10)、文書取得手段(13
0)により、そのURLに該当する文書を文書群(90
1)から取得して、参照文書格納手段(140)に格納
する(ステップS30)。図3の文書(501)からは
参照文書として、http://www.fisher
man.com/maru.html」および「htt
p://www.shops.com/fishin
g.html」の2つのURLが検出される。例えば、
これらURLに該当する文書がそれぞれ、図4の文書
(502)、図5の文書(503)に示す文書であると
する。文書中のURLを検出し終えると文書(501)
は、文書グループ格納手段(150)へ移される(ステ
ップS20)。
【0027】関連性評価手段(160)は例えば、文書
グループ格納手段(150)に格納された文書(50
1)と参照文書格納手段(140)に格納された文書
(502)と文書(503)の各文書からタグと不要語
を除いてキーワードを抽出し、文書(501)に含まれ
るキーワードが文書(502)と文書(503)のそれ
ぞれに含まれる度合いを計算して、文書(502)と文
書(503)のそれぞれが文書(501)に対する関連
性を評価する。
【0028】本例においては、文書(501)の本文中
のキーワードが「FISHING、釣り、フライフィッ
シング」であり、文書(502)のキーワードが「釣
り、フライフィッシング、渓流釣り」であり、文書(5
03)のキーワードが「釣り、ルアー、ショップ」であ
るとし、関連性を参照元の文書中のキーワード全体に対
する参照文書中に含まれる参照元のキーワードの数の比
とし、例えば、60%を関連性の有無を判定する基準と
すれば、文書(502)の文書(501)に対する関連
性は約67%、文書(503)の文書(501)に対す
る関連性は約33%となり、文書(502)は関連性有
り、文書(503)は関連性無しと判定する(ステップ
S40)。
【0029】関連性無しと判定された文書(503)
は、この時点で破棄され、文書(503)からさらに参
照される文書があったとしても、それらについては取得
しない。
【0030】関連性有りと判定された文書(502)
は、参照元文書格納手段(110)に新たな参照元文書
として追加し(ステップS60)、以下、文書(50
1)のときと同様に文書(502)を参照元文書として
上記の過程を適用し、文書(502)からURLを検出
し(ステップS10)、さらに参照される文書を取得す
る(ステップS30)。
【0031】文書(502)からURLの検出を終え、
文書グループ格納手段(150)に格納される(ステッ
プS20)と、文書グループ格納手段(150)には文
書(501)と文書(502)の2つの文書が格納され
ている。関連性評価手段(160)は例えば、これら文
書のキーワードの和集合を参照元のキーワード群とし
て、文書(502)から検出されたURLが示す文書の
関連性を評価する(ステップS40)。例えばここで、
検出されたURLが示す文書がいずれも関連性無しと判
定され、参照元文書格納手段に参照元文書がなければ
(ステップS60)、処理は終了し(ステップS7
0)、この時点で文書グループ格納手段(150)に格
納されている文書(501)と文書(502)が、ひと
つのグループをなす。
【0032】文書グループ格納手段(150)の容量を
節約したい場合は、文書を特定するURLとキーワード
群のみを文書グループ格納手段(150)に格納しても
よい。
【0033】また、関連性評価手段(160)について
は、このキーワードマッチングによる実施例はあくまで
一例であって、本発明は、この実施例だけに限定される
ものではない。例えば、シソーラスなどを用いてキーワ
ード間の距離を計算し、参照される文書のキーワード群
の間の距離の総和や平均を用い、距離の大きさを判定基
準に用いることもできる。
【0034】次に、本発明の第2の発明である請求項9
〜12に記載した発明を図面を参照して説明する。
【0035】図6は、第2の発明の実施の形態の一構成
例を示すブロック図である。本実施例においては、対象
文書としてHTML形式のハイパーテキスト文書を扱う
場合の実施例について説明する。また、先に説明した第
1の発明と機能が重なる箇所については、説明を省略す
る。
【0036】第2の発明の関連性評価手段(160)
は、参照文書検出手段(120)により検出されるUR
Lを説明している参照元文書中の文字列と、文書グルー
プ格納手段(150)中の文書からその文字列を除いた
部分との関連性を判定することで、参照される文書の関
連性を推定し、関連性が有ると推定された文書について
のみ文書取得手段(130)により、そのURLに該当
する文書を文書群(901)から取得して、参照文書格
納手段(140)に格納する。
【0037】例えば、図3の文書(501)では、UR
Lが記述されているタグ“<a…>”と対応するタグ
“</a>”との間の文字列をURLに対する説明とな
る文字列とみなし、URL「http://www.f
isherman.com/maru.html」に対
して「丸山さんの釣り情報(フライフィッシングの話題
もあり)」という文字列が、この参照文書(URL)を
説明する文書になり、さらにURL「http://w
ww.shops.com/fishing.htm
l」に対して「その他の釣り情報」という文字列がこの
参照文書(URL)を説明する文書となる。それぞれの
文字列のキーワードは「丸山、釣り、フライフィッシン
グ」、「その他、釣り」となる。
【0038】ここで、前述した様な、参照元文書と参照
文書間と同様な関連性判定を行えば、URL「htt
p://www.fisherman.com/mar
u.html」の説明のキーワード「丸山、釣り、フラ
イフィッシング」が、文書(501)の本文中に含まれ
ている率(関連性)は約67%となり、URL「htt
p://www.shops.com/fishin
g.html」の説明のキーワード「その他、釣り」が
文書(501)の本文中に含まれている率(関連性)は
50%となる。ここで、60%を関連性の有り無しを判
定する基準とすれば、URL「http://www.
fisherman.com/maru.html」は
関連性有り、URL「http://www.shop
s.com/fishing.html」は関連性無し
と判定する。
【0039】関連性無しと判定されたURL「htt
p://www.shops.com/fishin
g.html」の文書(503)の取得はおこなわず、
URL「http://www.fisherman.
com/maru.html」の文書(502)のみを
文書取得手段(130)により取得し、参照文書格納手
段(140)に格納する。その後は前述した実施例の説
明と同様に文書間の関連性判定をおこなって処理を継続
する。あるいはURLの説明による関連性の推定を信頼
して、文書間の関連性判定を省略することもできる。
【0040】また、本発明においては、以上の述べたよ
うな構成をコンピュータプログラムによって作成し、フ
ロッピーディスクやCD−ROMに代表される記録媒体
によって記録してもよい。
【0041】
【発明の効果】本発明によれば、文書の参照関係に基づ
いた文書の収集において、到達可能な全文書を探索する
ことなく意味的に関連性の深い文書を収集できるよう
に、参照関係を辿る範囲を限定した収集対象範囲を決定
をする文書グループ化装置を提供でき、ワールドワイド
ウェッブのように大規模なハイパーテキストに関して
も、リンクの作成意図と文書の内容に沿って関連性の深
い文書に限定した収集が可能になる。
【図面の簡単な説明】
【図1】本発明の文書グループ化装置の実施の形態の一
構成例を示すブロック図
【図2】本発明の文書グループ化装置の処理の流れの一
実施の形態を示すフロー図
【図3】HTML形式の文書の一例を示す図
【図4】HTML形式の文書の一例を示す図
【図5】HTML形式の文書の一例を示す図
【図6】本発明の文書グループ化装置の実施の形態の他
の構成例を示すブロック図。
【符号の説明】
001 文書グループ化装置 110 参照元文書格納手段 120 参照文書検出手段 130 文書取得手段 140 参照文書格納手段 150 文書グループ格納手段 160 関連性評価手段 501、502、503 HTML形式の文書の例 901 文書群
フロントページの続き (56)参考文献 特開 平5−128157(JP,A) 特開 平7−114572(JP,A) 特開 平7−49875(JP,A) 菅井猛,和田光教,「WWW上の電子 新聞に対する情報フィルタリングとその 評価」,情報処理学会研究報告Vol. 96,No.88(96−FI−43),pp89 −96(平成8年9月12日) 和田光教,菅井猛,「インターネット 上の情報フィルタリング(1)」,情報 処理学会第51回(平成7年後期)全国大 会講演論文集P.P.4−85〜4−86 P.M.E.De Bra,R.D. J.Post,”Informatio n retrieval in the World−Wide Web:Ma king client−based searching feasibl e”,COMPUTER NETWOR KS and ISDN SYSTEM S Vol.27,No.2(Nov. 1994),p.p.183−192 (58)調査した分野(Int.Cl.6,DB名) G06F 17/30

Claims (10)

    (57)【特許請求の範囲】
  1. 【請求項1】文書間の参照関係情報を持ち、分散して存
    在する文書群について、分散された文書を収集する際
    に、任意の特定の文書を起点として、該文書から参照関
    係を辿って到達可能な文書群のうち、該文書に関連の深
    い文書のみを効率よく収集するために、参照関係に基づ
    いて参照される文書と、収集済みの文書群との関連性を
    判定することにより、参照される文書を収集対象とする
    か否かを決定することで、参照関係を辿る範囲を限定す
    ることを特徴とする文書グループ化装置。
  2. 【請求項2】分散して存在する文書群の中から、ある文
    書に関連性が有る文書を収集して、グループ化する文書
    グループ化装置において、 ある文書(参照元文書)を起点として、前記参照元文書
    中に存在する他の文書(参照文書)の参照関係情報を取
    り出して、前記参照関係情報に基づいた参照文書を収集
    し、 前記参照元文書と前記参照文書の関連性を判定し、前記
    参照文書が前記参照元文書と関連性がある場合には、前
    記参照文書を参照元文書に追加し、さらに追加された参
    照元文書から参照可能な文書の関連性を判定することに
    よって、ある文書に関連性のある文書を収集して、グル
    ープ化することを特徴とする文書グループ化装置。
  3. 【請求項3】分散して存在する複数のハイパーテキスト
    文書の中から、あるハイパーテキスト文書に関連性のあ
    る他のハイパーテキスト文書を収集して、関連性がある
    ハイパーテキスト文書同士をグループ化する文書グルー
    プ化装置において、 前記ハイパーテキスト文書中のリンクを順次辿って関連
    文書を収集する際に、リンク先の文書と収集済みの文書
    との関連性を判定することにより、リンク先の文書を収
    集対象とするか否かを決定し、収集対象としない場合に
    は、そのリンク先の文書からのリンクも辿らないことに
    することで、あらかじめ特定の収集条件を設定すること
    なくリンクを辿る範囲を限定することを特徴とする文書
    グループ化装置。
  4. 【請求項4】HTML形式で記述されたハイパーテキス
    ト文書が、ネットワークを介して複数の計算機内に存在
    し、ある特定のハイパーテキスト文書に関連性が有る文
    書を前記計算機から収集して、関連性のある文書同士を
    グループ化する文書グループ化装置において、 文書収集の起点となるハイパーテキスト文書(参照元文
    書)から、他のハイパーテキスト文書の参照を示すUR
    Lを検出し、ネットワークを介して前記URLに該当す
    るハイパーテキスト文書(参照文書)を収集し、前記参
    照元文書と収集された前記参照文書の関連性が有るか無
    いかを判断し、前記参照文書が関連性が有りと判断され
    たものは、前記参照文書を参照元文書として追加し、さ
    らに追加された参照元文書内のURLを検出して、他の
    参照文書を収集する動作を繰り返すことにより、関連性
    のあるハイパーテキスト文書をグループ化することを特
    徴とする文書グループ化装置。
  5. 【請求項5】請求項4に記載された文書グループ化装置
    において、 前記参照元文書と収集された前記参照文書の関連性が有
    るか無いかを判断する時に、前記参照元文書と前記参照
    文書に含まれるキーワードを抽出し、前記キーワードの
    一致度により、関連性を判断することを特徴とする文書
    グループ化装置。
  6. 【請求項6】文書収集の起点となる文書を格納する参照
    元文書格納手段と、 前記参照元文書格納手段に格納された文書を順次取り出
    して該文書中から他の文書への参照関係を記述した箇所
    を検出する参照文書検出手段と、 前記参照文書検出手段により検出された参照関係によ
    り、前記参照関係に対応する文書を文書群から取得する
    文書取得手段と、 前記文書取得手段により取得された文書を格納しておく
    参照文書格納手段と、 前記参照文書検出手段により文書中の参照関係を検出し
    終えた参照元文書を参照元文書格納手段から移して格納
    しておく文書グループ格納手段と、 前記参照文書格納手段に格納された参照文書と文書グル
    ープ格納手段に格納された文書群の関連性を評価し、関
    連がある場合には参照文書を参照元文書格納手段に新た
    な参照元文書として追加する関連性評価手段とを含んで
    構成され、 文書の参照関係に基づいた文書の収集において、到達可
    能な全文書を探索することなく意味的に関連性の深い文
    書を収集できるように、参照関係を辿る範囲を限定した
    収集対象範囲を決定をする文書グループ化装置。
  7. 【請求項7】分散して存在する文書群の中から、ある文
    書に関連性が有る文書を収集して、グループ化する文書
    グループ化方法において、 参照元文書格納手段に格納している文書(参照元文書)
    を起点として、前記参照元文書中に存在する他の文書
    (参照文書)の参照関係情報を取り出す第1のステップ
    と、 前記参照元文書を文書グループとして文書グループ格納
    手段に格納する第2のステップと、 前記第1のステップにより取り出された参照関係情報に
    より、前記文書群から参照文書を取得する第3のステッ
    プと、 前記第2のステップで格納された文書グループの参照元
    文書と、前記第3にステップにより取得された参照文書
    との関連性の有り無しを判断する第4のステップと、 前記第4のステップにより関連性が有りと判断された参
    照文書を、参照元文書として前記参照元文書格納手段に
    追加する第5のステップと、 前記参照元文書格納手段に、参照関係情報が取り出され
    ていない参照元文書が有るか無いかを判断し、参照元文
    書が有る場合には前記第1のステップに戻り一連の動作
    を繰り返し、参照元文書が無い場合には、得られた文書
    グループによりグループ化を決定する第6のステップ
    と、 を備えることを特徴とする文書グループ化方法。
  8. 【請求項8】文書収集の起点となる文書を格納する参照
    元文書格納手段と、 前記参照元文書格納手段に格納された文書を順次取り出
    して該文書中から他の文書への参照関係の説明を記述し
    た箇所を検出する参照文書検出手段と、 前記参照文書検出手段により文書中の参照関係の説明を
    検出し終えた参照元文書を前記参照元文書格納手段から
    移して格納しておく文書グループ格納手段と、 前記参照文書検出手段により検出された参照関係の説明
    に該当する文書中の記述と文書グループ格納手段に格納
    された参照元文書の本文の記述とから、前記参照元文書
    と参照関係のある文書との関連性を評価する関連性評価
    手段と、 前記関連性評価手段により関連があると評価された文書
    のみを文書群から取得する文書取得手段と、 前記文書取得手段により取得された文書を格納しておく
    参照文書格納手段と、から構成され、 前記関連性評価手段は、前記参照文書格納手段が格納し
    た文書を参照元文書として、前記参照元文書格納手段に
    格納する処理を更に行うことを特徴とする文書グループ
    化装置。
  9. 【請求項9】HTML形式で記述されたハイパーテキス
    ト文書が、ネットワークを介して複数の計算機内に存在
    し、ある特定のハイパーテキスト文書に関連性のある文
    書を前記計算機から収集して、関連性のある文書同士を
    グループ化する文書グループ化装置において、 文書収集の起点となるハイパーテキスト文書(参照元文
    書)から、他のハイパーテキスト文書(参照文書)を示
    すURLを検出し、 前記URLを説明している文字列のキーワードと、前記
    参照元文書の本文中のキーワードの一致度を算出するこ
    とによって、前記参照元文書と前記参照文書の関連性が
    有るか無いかを判断し、関連性が有ると判断されたUR
    Lで示される参照文章を前記ネットワークを介して該計
    算機から得ることによって関連性のある文書を収集し、
    さらに、得られた参照文章を参照元文書として他の参照
    文書を収集する動作を繰り返すことによって、前記参照
    元文書に関連性が有る文書同士をグループ化することを
    特徴とする文書グループ化装置。
  10. 【請求項10】分散して存在する文書群の中から、ある
    文書に関連性が有る文書を収集して、グループ化する文
    書グループ化方法において、 参照元文書格納手段に格納している文書(参照元文書)
    を起点として、前記参照元文書中に存在する他の文書
    (参照文書)の参照関係情報の説明を取り出す第1のス
    テップと、 前記参照元文書を文書グループとして文書グループ格納
    手段に格納する第2のステップと、 前記第1のステップにより取り出された参照関係情報の
    説明の内容と、前記参照元文書の本文の内容との関連性
    の有り無しを判断する第3のステップと、 前記第3のステップにより関連性が有りと判断された参
    照文書を、前記文書群から取得する第4のステップと、 前記第4のステップにより取得された参照文書を、参照
    元文書として前記参照元文書格納手段に追加する第5の
    ステップと、 前記参照元文書格納手段に、参照関係情報が取り出され
    ていない参照元文書が有るか無いかを判断し、参照元文
    書が有る場合には前記第1のステップに戻り一連の動作
    を繰り返し、前記参照元文書が無い場合には、得られた
    文書グループによりグループ化を決定する第6のステッ
    プと、 を備えることを特徴とする文書グループ化方法。
JP8262047A 1996-10-02 1996-10-02 文書グループ化装置および文書グループ化方法 Expired - Fee Related JP2940488B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP8262047A JP2940488B2 (ja) 1996-10-02 1996-10-02 文書グループ化装置および文書グループ化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP8262047A JP2940488B2 (ja) 1996-10-02 1996-10-02 文書グループ化装置および文書グループ化方法

Publications (2)

Publication Number Publication Date
JPH10105572A JPH10105572A (ja) 1998-04-24
JP2940488B2 true JP2940488B2 (ja) 1999-08-25

Family

ID=17370301

Family Applications (1)

Application Number Title Priority Date Filing Date
JP8262047A Expired - Fee Related JP2940488B2 (ja) 1996-10-02 1996-10-02 文書グループ化装置および文書グループ化方法

Country Status (1)

Country Link
JP (1) JP2940488B2 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3604069B2 (ja) * 1999-05-19 2004-12-22 日本電信電話株式会社 文書間関連度計算装置、その方法およびその記録媒体
JP3791877B2 (ja) 1999-06-15 2006-06-28 富士通株式会社 文書の参照理由を用いて情報検索を行う装置
JP3643516B2 (ja) * 2000-03-23 2005-04-27 日本電信電話株式会社 文書評価方法及び装置及び文書評価プログラムを格納した記録媒体
US7203673B2 (en) 2000-12-27 2007-04-10 Fujitsu Limited Document collection apparatus and method for specific use, and storage medium storing program used to direct computer to collect documents
JP5019315B2 (ja) * 2007-04-23 2012-09-05 公立大学法人広島市立大学 情報処理装置、情報処理方法、及びプログラム
JP6102444B2 (ja) * 2013-04-08 2017-03-29 富士通株式会社 設計書管理プログラム、設計書管理方法および情報処理装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
P.M.E.De Bra,R.D.J.Post,"Information retrieval in the World−Wide Web:Making client−based searching feasible",COMPUTER NETWORKS and ISDN SYSTEMS Vol.27,No.2(Nov.1994),p.p.183−192
和田光教,菅井猛,「インターネット上の情報フィルタリング(1)」,情報処理学会第51回(平成7年後期)全国大会講演論文集P.P.4−85〜4−86
菅井猛,和田光教,「WWW上の電子新聞に対する情報フィルタリングとその評価」,情報処理学会研究報告Vol.96,No.88(96−FI−43),pp89−96(平成8年9月12日)

Also Published As

Publication number Publication date
JPH10105572A (ja) 1998-04-24

Similar Documents

Publication Publication Date Title
US6199081B1 (en) Automatic tagging of documents and exclusion by content
US8812478B1 (en) Distributed crawling of hyperlinked documents
US7630973B2 (en) Method for identifying related pages in a hyperlinked database
US7496581B2 (en) Information search system, information search method, HTML document structure analyzing method, and program product
Pant et al. Crawling the web.
US8745039B2 (en) Method and system for user guided search navigation
US6651059B1 (en) System and method for the automatic recognition of relevant terms by mining link annotations
US9613061B1 (en) Image selection for news search
US20050120292A1 (en) Device, method, and computer program product for generating information of link structure of documents
US20060117039A1 (en) Lexicon-based new idea detector
JP2002132832A (ja) 画像検索方法及び画像検索エンジン装置
KR20120124581A (ko) 개선된 유사 문서 탐지 방법, 장치 및 컴퓨터 판독 가능한 기록 매체
US9971828B2 (en) Document tagging and retrieval using per-subject dictionaries including subject-determining-power scores for entries
CN108520007B (zh) 万维网网页信息提取方法、存储介质及计算机设备
US9971782B2 (en) Document tagging and retrieval using entity specifiers
JP3698242B2 (ja) 情報セット重要度判定システム及びその判定方法、及び情報セット重要度判定プログラムを記録した記録媒体
JP4231298B2 (ja) 情報抽出規則作成システム、情報抽出規則作成プログラム、情報抽出システム及び情報抽出プログラム
CN106326236A (zh) 一种网页内容识别方法和系统
JP2940488B2 (ja) 文書グループ化装置および文書グループ化方法
JP2940459B2 (ja) ノード・リンク探索装置
JP4010058B2 (ja) 文書関連付け装置、文書閲覧装置、文書関連付けプログラムを記録したコンピュータ読み取り可能な記録媒体及び文書閲覧プログラムを記録したコンピュータ読み取り可能な記録媒体
JPH10143418A (ja) 文書情報更新監視装置および文書情報の更新監視方法
JP2002049638A (ja) 文書情報検索装置、方法、文書情報検索プログラム及び文書情報検索プログラムを格納したコンピュータ可読の記録媒体
EP2662785A2 (en) A method and system for non-ephemeral search
KR100942902B1 (ko) 웹페이지 검색 방법 및 상기 방법을 컴퓨터에서 구현하는 프로그램을 기록한 컴퓨터 판독 가능한 기록 매체

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 19990518

LAPS Cancellation because of no payment of annual fees