JPH10105572A - 文書グループ化装置および文書グループ化方法 - Google Patents

文書グループ化装置および文書グループ化方法

Info

Publication number
JPH10105572A
JPH10105572A JP8262047A JP26204796A JPH10105572A JP H10105572 A JPH10105572 A JP H10105572A JP 8262047 A JP8262047 A JP 8262047A JP 26204796 A JP26204796 A JP 26204796A JP H10105572 A JPH10105572 A JP H10105572A
Authority
JP
Japan
Prior art keywords
document
documents
grouping
group
reference source
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP8262047A
Other languages
English (en)
Other versions
JP2940488B2 (ja
Inventor
Tomoharu Yamaguchi
智治 山口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP8262047A priority Critical patent/JP2940488B2/ja
Publication of JPH10105572A publication Critical patent/JPH10105572A/ja
Application granted granted Critical
Publication of JP2940488B2 publication Critical patent/JP2940488B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】 【課題】 文書の参照関係に基づいた文書の収集におい
て、意味的に関連性の深い文書を収集できるように参照
関係を辿る範囲を限定した収集対象範囲を決定する。 【解決手段】 参照文書検出手段は、参照元文書格納手
段に格納された文書を取り出して該文書中から他の文書
への参照関係を検出し、検出し終えた参照元文書を文書
グループ格納手段に格納する。文書取得手段は、参照文
書検出手段により検出された参照関係のある文書を文書
群から取得して参照文書格納手段に格納し、関連性評価
手段は、参照文書格納手段に格納された参照文書と文書
グループ格納手段に格納された文書群の関連性を評価
し、関連がある場合には参照文書を参照元文書格納手段
に新たな参照元文書として追加し、参照文書検出手段の
処理から繰り返す。参照元文書格納手段に格納されてい
る文書が無くなれば、文書格納手段に格納されている文
書を一つのグループに属するものと決定する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は電子化された文書の
収集装置に関し、特に分散された複数の文書を関連性の
あるものとないものに区別して収集範囲を決定し、関連
性のある文書を収集してグループ化を行う文書グループ
化装置および文書グループ化方法、さらに、文書グルー
プ化を行うプログラムを記録した記録媒体に関する。
【0002】
【従来の技術】従来、分散された文書間の参照関係情報
をもつ文書群の代表的なものとしてハイパーテキストが
知られている。ハイパーテキストは複数の文書をリンク
によって関連付けることが可能である。
【0003】この代表的な従来技術の例として、特開平
4−321144号公報に記載の「ハイパーテキストの
ブラウジング処理装置」が知られている。この従来技術
によれば、文書間のリンク付け関係を一覧することがで
きる。
【0004】また、特開平5−128157号公報に記
載の「文書検索装置」によれば、リンクを辿って到達可
能な特定の範囲から、指定したキーワードにマッチする
内容をもつ文書を選択的に検索することができる。
【0005】さらに、(株)エーアイソフトの「Web
Whacker」(米国ForeFront Grou
p,Inc.の商標)、株式会社ビー・ユー・ジーの
「PerMan Surfer波乗野郎」(株式会社ビ
−・ユ−・ジ−の商標)などに代表されるのオートパイ
ロットあるいはダウンローダと呼ばれるソフトウェアに
よれば、大規模なハイパーテキストデータベースである
ワールドワイドウェッブ(World Wide We
b:WWW)上の指定された文書からリンクした文書を
指定された数だけ、自動収集することができる。
【0006】
【発明が解決しようとする課題】前述の「ハイパーテキ
ストのブラウジング処理装置」では文書間の意味的な関
連性は表現されず、ツリー構造状に表示された文書群の
どこからどこまでが、意味的に近接した関係にあるのか
の判断は、人間が各文書の内容を見て判断するしかな
い。ワールドワイドウェッブのように大規模なハイパー
テキストでは、この判断を人手でおこなうのは現実的で
はない。
【0007】また、「文書検索装置」を用いると、リン
クを辿って到達可能な範囲の文書をすべて一度収集する
必要があり、到達可能な範囲が膨大である場合にも、全
ての文書の内容を参照する必要があり、莫大な処理時間
を要するという問題を生じる。また、通信路の細いネッ
トワーク上に分散された文書を参照する場合には、通信
時間などのオーバーヘッドが大きくなるという問題を生
じる。キーワード指定がリンクの作成意図と一致しない
場合には、キーワードにマッチしない文書を介して間接
的にリンクされているキーワードにマッチする文書間で
リンクが失われてしまうという問題がある。
【0008】オートパイロットやダウンローダなどのソ
フトウェアでは、辿るリンクの数や、物理的に文書が格
納されているマシンによって文書の収集範囲を限定して
おり、文書の内容による意味的な関連性は考慮されてお
らず、内容的にあまり関連のない文書も収集してしまう
という問題や、他のマシンに格納されている関連の深い
文書が収集されないという問題がある。
【0009】そこで、ワールドワイドウェッブのように
大規模なハイパーテキストに関しても、リンクの作成意
図と文書の内容に沿って関連性の深い文書に限定して収
集する方法が必要である。
【0010】本発明の目的は、文書の参照関係に基づい
た文書の収集において、到達可能な全文書を探索するこ
となく意味的に関連性の深い文書を収集できるように、
参照関係を辿る範囲を限定した収集対象範囲を決定をす
る文書グループ化装置および文書グループ化方法と文書
のグループ化が可能なプログラムを記録した記録媒体を
提供することにある。
【0011】
【課題を解決するための手段】本発明の第1の発明の文
書グループ化装置は、文書収集の起点となる文書を格納
する参照元文書格納手段と、参照元文書格納手段に格納
された文書を順次取り出して該文書中から他の文書への
参照関係を記述した箇所を検出する参照文書検出手段
と、参照文書検出手段により検出された参照関係によ
り、前記参照関係に対応する文書を文書群から取得する
文書取得手段と、文書取得手段により取得された文書を
格納しておく参照文書格納手段と、参照文書検出手段に
より文書中の参照関係を検出し終えた参照元文書を参照
元文書格納手段から移して格納しておく文書グループ格
納手段と、参照文書格納手段に格納された参照文書と文
書グループ格納手段に格納された文書の関連性を評価
し、関連がある場合には参照文書を参照元文書格納手段
に新たな参照元文書として追加する関連性評価手段とを
含んで構成される。
【0012】また、本発明の第2の発明の文書グループ
化装置は、文書収集の起点となる文書を格納する参照元
文書格納手段と、前記参照元文書格納手段に格納された
文書を順次取り出して該文書中から他の文書への参照関
係の説明を記述した箇所を検出する参照文書検出手段
と、前記参照文書検出手段により文書中の参照関係の説
明を検出し終えた参照元文書を前記参照元文書格納手段
から移して格納しておく文書グループ格納手段と、前記
参照文書検出手段により検出された参照関係の説明に該
当する文書中の記述と文書グループ格納手段に格納され
た参照元文書の本文の記述とから、前記参照元文書と参
照関係のある文書との関連性を評価する関連性評価手段
と、前記関連性評価手段により関連があると評価された
文書のみを文書群から取得する文書取得手段と、前記文
書取得手段により取得された文書を格納しておく参照文
書格納手段と、から構成され、前記関連性評価手段は、
前記参照文書格納手段が格納した文書を参照元文書とし
て、前記参照元文書格納手段に格納する処理を更に行
う。
【0013】第1の発明によれば、文書の参照関係に基
づいた文書の収集において、到達可能な全文書を探索す
ることなく意味的に関連性の深い文書を収集できるよう
に、参照関係を辿る範囲を限定した収集対象範囲を決定
を行うことが可能である。
【0014】また、第2の発明によれば、文書の参照関
係の説明によって、文書作成者の意図と文書の内容に沿
って関連性の深い文書に限定した収集が可能である。
【0015】
【発明の実施の形態】次に図1から図6を参照して本発
明の実施の形態について説明する。
【0016】図1は本発明の第1の発明である請求項1
〜請求項8に記載した本発明の実施の形態の一構成例を
示すブロック図である。
【0017】かかる発明の実施の形態における文書グル
ープ化装置(001)は、文書収集の起点となる文書を
格納する参照元文書格納手段(110)と、参照元文書
格納手段(110)に格納された文書を順次取り出して
該文書中から他の文書への参照関係を検出する参照文書
検出手段(120)と、参照文書検出手段(120)に
より検出された参照関係のある文書を文書群(901)
から取得する文書取得手段(130)と、文書取得手段
(130)により取得された文書を格納しておく参照文
書格納手段(140)と、参照文書検出手段(120)
により文書中の参照関係を検出し終えた参照元文書を参
照元文書格納手段(110)から移して格納しておく文
書グループ格納手段(150)と、参照文書格納手段
(140)に格納された参照文書と文書グループ格納手
段(150)に格納された文書群の関連性を評価し、関
連がある場合には参照文書を参照元文書格納手段(11
0)に新たな参照元文書として追加する関連性評価手段
(160)とを含んで構成される。
【0018】また、文書グループ格納手段(150)格
納されるのは、文書を特定できる情報のみでもよい。
【0019】図2は請求項1から請求項8に記載した本
発明の処理の流れの一実施の形態を示すフロー図であ
る。
【0020】参照文書検出手段(120)は、参照元文
書格納手段(110)に格納された文書を順次取り出し
て該文書中から他の文書への参照関係を検出し(ステッ
プS10)、文書中の参照関係を検出し終えた参照元文
書を参照元文書格納手段(110)から文書グループ格
納手段(150)へ移して格納し(ステップS20)、
文書取得手段(130)は、参照文書検出手段(12
0)により検出された参照関係のある文書を文書群(9
01)から取得(ステップS30)して参照文書格納手
段(140)に格納し、関連性評価手段(160)は、
参照文書格納手段(140)に格納された参照文書と文
書グループ格納手段(150)に格納された文書群の関
連性を評価し(ステップS40)、関連がある場合には
参照文書を参照元文書格納手段(110)に新たな参照
元文書として追加(ステップS40)し、参照元文書格
納手段(110)にまだ文書が格納されているかチェッ
クし(ステップS60)、格納されている場合にはステ
ップS10から繰り返す。参照元文書格納手段(11
0)格納されている文書が無くなれば、文書グループ格
納手段(150)に格納されている文書を一つのグルー
プに属するものと決定する(ステップS70)。
【0021】
【実施例】以下、図面を参照して本発明の文書グループ
化装置のさらに詳しい実施例について説明する。
【0022】前述した様に、図1は、本発明の文書グル
ープ化装置の一実施の形態の構成例を示すブロック図で
ある。
【0023】また、本実施例においては、文書群(90
1)として、HTML形式で記述されているハイパーテ
キストであり、ワールドワイドウェッブのページとして
インターネットに接続された計算機上に分散して存在し
ているものとして説明する。
【0024】各文書は、通信プロトコルとホスト名およ
びパス名を含むURL(Uniform Resour
ce Locator)と呼ばれる記述法により特定で
きる。文書取得手段(130)は、例えばURLに指定
されたプロトコルによりインターネットに接続されてい
る指定されたホスト計算機から指定されたパス名に該当
する文書を取得する。
【0025】例えば、参照元文書格納手段(110)に
格納された文書収集の起点となる文書が図3に示す文書
(501)であるとする。HTML形式の文書では参照
関係情報は、”<”と”>”に囲まれたタグと呼ばれる
部分のうち、”<a” で始まり次の”>”までの間に
ある”href=”に続いてURLを記述し、他の文書
への参照を示す箇所である。
【0026】参照文書検出手段(120)は、参照元文
書中から他の文書への参照を示すURL(参照関係情
報)を検出し(ステップS10)、文書取得手段(13
0)により、そのURLに該当する文書を文書群(90
1)から取得して、参照文書格納手段(140)に格納
する(ステップS30)。図3の文書(501)からは
参照文書として、http://www.fisher
man.com/maru.html」および「htt
p://www.shops.com/fishin
g.html」の2つのURLが検出される。例えば、
これらURLに該当する文書がそれぞれ、図4の文書
(502)、図5の文書(503)に示す文書であると
する。文書中のURLを検出し終えると文書(501)
は、文書グループ格納手段(150)へ移される(ステ
ップS20)。
【0027】関連性評価手段(160)は例えば、文書
グループ格納手段(150)に格納された文書(50
1)と参照文書格納手段(140)に格納された文書
(502)と文書(503)の各文書からタグと不要語
を除いてキーワードを抽出し、文書(501)に含まれ
るキーワードが文書(502)と文書(503)のそれ
ぞれに含まれる度合いを計算して、文書(502)と文
書(503)のそれぞれが文書(501)に対する関連
性を評価する。
【0028】本例においては、文書(501)の本文中
のキーワードが「FISHING、釣り、フライフィッ
シング」であり、文書(502)のキーワードが「釣
り、フライフィッシング、渓流釣り」であり、文書(5
03)のキーワードが「釣り、ルアー、ショップ」であ
るとし、関連性を参照元の文書中のキーワード全体に対
する参照文書中に含まれる参照元のキーワードの数の比
とし、例えば、60%を関連性の有無を判定する基準と
すれば、文書(502)の文書(501)に対する関連
性は約67%、文書(503)の文書(501)に対す
る関連性は約33%となり、文書(502)は関連性有
り、文書(503)は関連性無しと判定する(ステップ
S40)。
【0029】関連性無しと判定された文書(503)
は、この時点で破棄され、文書(503)からさらに参
照される文書があったとしても、それらについては取得
しない。
【0030】関連性有りと判定された文書(502)
は、参照元文書格納手段(110)に新たな参照元文書
として追加し(ステップS60)、以下、文書(50
1)のときと同様に文書(502)を参照元文書として
上記の過程を適用し、文書(502)からURLを検出
し(ステップS10)、さらに参照される文書を取得す
る(ステップS30)。
【0031】文書(502)からURLの検出を終え、
文書グループ格納手段(150)に格納される(ステッ
プS20)と、文書グループ格納手段(150)には文
書(501)と文書(502)の2つの文書が格納され
ている。関連性評価手段(160)は例えば、これら文
書のキーワードの和集合を参照元のキーワード群とし
て、文書(502)から検出されたURLが示す文書の
関連性を評価する(ステップS40)。例えばここで、
検出されたURLが示す文書がいずれも関連性無しと判
定され、参照元文書格納手段に参照元文書がなければ
(ステップS60)、処理は終了し(ステップS7
0)、この時点で文書グループ格納手段(150)に格
納されている文書(501)と文書(502)が、ひと
つのグループをなす。
【0032】文書グループ格納手段(150)の容量を
節約したい場合は、文書を特定するURLとキーワード
群のみを文書グループ格納手段(150)に格納しても
よい。
【0033】また、関連性評価手段(160)について
は、このキーワードマッチングによる実施例はあくまで
一例であって、本発明は、この実施例だけに限定される
ものではない。例えば、シソーラスなどを用いてキーワ
ード間の距離を計算し、参照される文書のキーワード群
の間の距離の総和や平均を用い、距離の大きさを判定基
準に用いることもできる。
【0034】次に、本発明の第2の発明である請求項9
〜12に記載した発明を図面を参照して説明する。
【0035】図6は、第2の発明の実施の形態の一構成
例を示すブロック図である。本実施例においては、対象
文書としてHTML形式のハイパーテキスト文書を扱う
場合の実施例について説明する。また、先に説明した第
1の発明と機能が重なる箇所については、説明を省略す
る。
【0036】第2の発明の関連性評価手段(160)
は、参照文書検出手段(120)により検出されるUR
Lを説明している参照元文書中の文字列と、文書グルー
プ格納手段(150)中の文書からその文字列を除いた
部分との関連性を判定することで、参照される文書の関
連性を推定し、関連性が有ると推定された文書について
のみ文書取得手段(130)により、そのURLに該当
する文書を文書群(901)から取得して、参照文書格
納手段(140)に格納する。
【0037】例えば、図3の文書(501)では、UR
Lが記述されているタグ“<a…>”と対応するタグ
“</a>”との間の文字列をURLに対する説明とな
る文字列とみなし、URL「http://www.f
isherman.com/maru.html」に対
して「丸山さんの釣り情報(フライフィッシングの話題
もあり)」という文字列が、この参照文書(URL)を
説明する文書になり、さらにURL「http://w
ww.shops.com/fishing.htm
l」に対して「その他の釣り情報」という文字列がこの
参照文書(URL)を説明する文書となる。それぞれの
文字列のキーワードは「丸山、釣り、フライフィッシン
グ」、「その他、釣り」となる。
【0038】ここで、前述した様な、参照元文書と参照
文書間と同様な関連性判定を行えば、URL「htt
p://www.fisherman.com/mar
u.html」の説明のキーワード「丸山、釣り、フラ
イフィッシング」が、文書(501)の本文中に含まれ
ている率(関連性)は約67%となり、URL「htt
p://www.shops.com/fishin
g.html」の説明のキーワード「その他、釣り」が
文書(501)の本文中に含まれている率(関連性)は
50%となる。ここで、60%を関連性の有り無しを判
定する基準とすれば、URL「http://www.
fisherman.com/maru.html」は
関連性有り、URL「http://www.shop
s.com/fishing.html」は関連性無し
と判定する。
【0039】関連性無しと判定されたURL「htt
p://www.shops.com/fishin
g.html」の文書(503)の取得はおこなわず、
URL「http://www.fisherman.
com/maru.html」の文書(502)のみを
文書取得手段(130)により取得し、参照文書格納手
段(140)に格納する。その後は前述した実施例の説
明と同様に文書間の関連性判定をおこなって処理を継続
する。あるいはURLの説明による関連性の推定を信頼
して、文書間の関連性判定を省略することもできる。
【0040】また、本発明においては、以上の述べたよ
うな構成をコンピュータプログラムによって作成し、フ
ロッピーディスクやCD−ROMに代表される記録媒体
によって記録してもよい。
【0041】
【発明の効果】本発明によれば、文書の参照関係に基づ
いた文書の収集において、到達可能な全文書を探索する
ことなく意味的に関連性の深い文書を収集できるよう
に、参照関係を辿る範囲を限定した収集対象範囲を決定
をする文書グループ化装置を提供でき、ワールドワイド
ウェッブのように大規模なハイパーテキストに関して
も、リンクの作成意図と文書の内容に沿って関連性の深
い文書に限定した収集が可能になる。
【図面の簡単な説明】
【図1】本発明の文書グループ化装置の実施の形態の一
構成例を示すブロック図
【図2】本発明の文書グループ化装置の処理の流れの一
実施の形態を示すフロー図
【図3】HTML形式の文書の一例を示す図
【図4】HTML形式の文書の一例を示す図
【図5】HTML形式の文書の一例を示す図
【図6】本発明の文書グループ化装置の実施の形態の他
の構成例を示すブロック図。
【符号の説明】
001 文書グループ化装置 110 参照元文書格納手段 120 参照文書検出手段 130 文書取得手段 140 参照文書格納手段 150 文書グループ格納手段 160 関連性評価手段 501、502、503 HTML形式の文書の例 901 文書群

Claims (12)

    【特許請求の範囲】
  1. 【請求項1】文書間の参照関係情報を持ち、分散して存
    在する文書群について、分散された文書を収集する際
    に、任意の特定の文書を起点として、該文書から参照関
    係を辿って到達可能な文書群のうち、該文書に関連の深
    い文書のみを効率よく収集するために、参照関係に基づ
    いて参照される文書と、収集済みの文書群との関連性を
    判定することにより、参照される文書を収集対象とする
    か否かを決定することで、参照関係を辿る範囲を限定す
    ることを特徴とする文書グループ化装置。
  2. 【請求項2】分散して存在する文書群の中から、ある文
    書に関連性が有る文書を収集して、グループ化する文書
    グループ化装置において、 ある文書(参照元文書)を起点として、前記参照元文書
    中に存在する他の文書(参照文書)の参照関係情報を取
    り出して、前記参照関係情報に基づいた参照文書を収集
    し、 前記参照元文書と前記参照文書の関連性を判定し、前記
    参照文書が前記参照元文書と関連性がある場合には、前
    記参照文書を参照元文書に追加し、さらに追加された参
    照元文書から参照可能な文書の関連性を判定することに
    よって、ある文書に関連性のある文書を収集して、グル
    ープ化することを特徴とする文書グループ化装置。
  3. 【請求項3】分散して存在する複数のハイパーテキスト
    文書の中から、あるハイパーテキスト文書に関連性のあ
    る他のハイパーテキスト文書を収集して、関連性がある
    ハイパーテキスト文書同士をグループ化する文書グルー
    プ化装置において、 前記ハイパーテキスト文書中のリンクを順次辿って関連
    文書を収集する際に、リンク先の文書と収集済みの文書
    との関連性を判定することにより、リンク先の文書を収
    集対象とするか否かを決定し、収集対象としない場合に
    は、そのリンク先の文書からのリンクも辿らないことに
    することで、あらかじめ特定の収集条件を設定すること
    なくリンクを辿る範囲を限定することを特徴とする文書
    グループ化装置。
  4. 【請求項4】HTML形式で記述されたハイパーテキス
    ト文書が、ネットワークを介して複数の計算機内に存在
    し、ある特定のハイパーテキスト文書に関連性が有る文
    書を前記計算機から収集して、関連性のある文書同士を
    グループ化する文書グループ化装置において、 文書収集の起点となるハイパーテキスト文書(参照元文
    書)から、他のハイパーテキスト文書の参照を示すUR
    Lを検出し、ネットワークを介して前記URLに該当す
    るハイパーテキスト文書(参照文書)を収集し、前記参
    照元文書と収集された前記参照文書の関連性が有るか無
    いかを判断し、前記参照文書が関連性が有りと判断され
    たものは、前記参照文書を参照元文書として追加し、さ
    らに追加された参照元文書内のURLを検出して、他の
    参照文書を収集する動作を繰り返すことにより、関連性
    のあるハイパーテキスト文書をグループ化することを特
    徴とする文書グループ化装置。
  5. 【請求項5】請求項4に記載された文書グループ化装置
    において、 前記参照元文書と収集された前記参照文書の関連性が有
    るか無いかを判断する時に、前記参照元文書と前記参照
    文書に含まれるキーワードを抽出し、前記キーワードの
    一致度により、関連性を判断することを特徴とする文書
    グループ化装置。
  6. 【請求項6】文書収集の起点となる文書を格納する参照
    元文書格納手段と、 前記参照元文書格納手段に格納された文書を順次取り出
    して該文書中から他の文書への参照関係を記述した箇所
    を検出する参照文書検出手段と、 前記参照文書検出手段により検出された参照関係によ
    り、前記参照関係に対応する文書を文書群から取得する
    文書取得手段と、 前記文書取得手段により取得された文書を格納しておく
    参照文書格納手段と、 前記参照文書検出手段により文書中の参照関係を検出し
    終えた参照元文書を参照元文書格納手段から移して格納
    しておく文書グループ格納手段と、 前記参照文書格納手段に格納された参照文書と文書グル
    ープ格納手段に格納された文書群の関連性を評価し、関
    連がある場合には参照文書を参照元文書格納手段に新た
    な参照元文書として追加する関連性評価手段とを含んで
    構成され、 文書の参照関係に基づいた文書の収集において、到達可
    能な全文書を探索することなく意味的に関連性の深い文
    書を収集できるように、参照関係を辿る範囲を限定した
    収集対象範囲を決定をする文書グループ化装置。
  7. 【請求項7】分散して存在する文書群の中から、ある文
    書に関連性が有る文書を収集して、グループ化する文書
    グループ化方法において、 参照元文書格納手段に格納している文書(参照元文書)
    を起点として、前記参照元文書中に存在する他の文書
    (参照文書)の参照関係情報を取り出す第1のステップ
    と、 前記参照元文書を文書グループとして文書グループ格納
    手段に格納する第2のステップと、 前記第1のステップにより取り出された参照関係情報に
    より、前記文書群から参照文書を取得する第3のステッ
    プと、 前記第2のステップで格納された文書グループの参照元
    文書と、前記第3にステップにより取得された参照文書
    との関連性の有り無しを判断する第4のステップと、 前記第4のステップにより関連性が有りと判断された参
    照文書を、参照元文書として前記参照元文書格納手段に
    追加する第5のステップと、 前記参照元文書格納手段に、参照関係情報が取り出され
    ていない参照元文書が有るか無いかを判断し、参照元文
    書が有る場合には前記第1のステップに戻り一連の動作
    を繰り返し、参照元文書が無い場合には、得られた文書
    グループによりグループ化を決定する第6のステップ
    と、 を備えることを特徴とする文書グループ化方法。
  8. 【請求項8】分散して存在する文書群の中から、ある文
    書に関連性が有る文書を収集して、グループ化する文書
    グループ化プログラムを記録した記録媒体において、 第1の記憶手段内に格納している文書(参照元文書)を
    起点として、前記参照元文書中に存在する他の文書(参
    照文書)の参照関係情報を取り出す第1のステップと、 前記参照元文書を文書グループとして第2の記憶手段に
    格納する第2のステップと、 前記第1のステップにより取り出された参照関係情報に
    より、前記文書群から参照文書を取得する第3のステッ
    プと、 前記第2のステップで格納された文書グループの参照元
    文書と、前記第3にステップにより取得された参照文書
    との関連性の有り無しを判断する第4のステップと、 前記第4のステップにより関連性が有りと判断された参
    照文書を、参照元文書として前記第1の記憶手段に追加
    する第5のステップと、 前記第1の記憶手段に、参照関係情報が取り出されてい
    ない参照元文書が有るか無いかを判断し、参照元文書が
    有る場合には前記第1のステップに戻り一連の動作を繰
    り返し、参照元文書が無い場合には、得られた文書グル
    ープによりグループ化を決定する第6のステップと、 を少なくとも備えるプログラムを格納したことを特徴と
    する文書グループ化プログラムを記録した記録媒体。
  9. 【請求項9】文書収集の起点となる文書を格納する参照
    元文書格納手段と、 前記参照元文書格納手段に格納された文書を順次取り出
    して該文書中から他の文書への参照関係の説明を記述し
    た箇所を検出する参照文書検出手段と、 前記参照文書検出手段により文書中の参照関係の説明を
    検出し終えた参照元文書を前記参照元文書格納手段から
    移して格納しておく文書グループ格納手段と、 前記参照文書検出手段により検出された参照関係の説明
    に該当する文書中の記述と文書グループ格納手段に格納
    された参照元文書の本文の記述とから、前記参照元文書
    と参照関係のある文書との関連性を評価する関連性評価
    手段と、 前記関連性評価手段により関連があると評価された文書
    のみを文書群から取得する文書取得手段と、 前記文書取得手段により取得された文書を格納しておく
    参照文書格納手段と、から構成され、 前記関連性評価手段は、前記参照文書格納手段が格納し
    た文書を参照元文書として、前記参照元文書格納手段に
    格納する処理を更に行うことを特徴とする文書グループ
    化装置。
  10. 【請求項10】HTML形式で記述されたハイパーテキ
    スト文書が、ネットワークを介して複数の計算機内に存
    在し、ある特定のハイパーテキスト文書に関連性のある
    文書を前記計算機から収集して、関連性のある文書同士
    をグループ化する文書グループ化装置において、 文書収集の起点となるハイパーテキスト文書(参照元文
    書)から、他のハイパーテキスト文書(参照文書)を示
    すURLを検出し、 前記URLを説明している文字列のキーワードと、前記
    参照元文書の本文中のキーワードの一致度を算出するこ
    とによって、前記参照元文書と前記参照文書の関連性が
    有るか無いかを判断し、関連性が有ると判断されたUR
    Lで示される参照文章を前記ネットワークを介して該計
    算機から得ることによって関連性のある文書を収集し、
    さらに、得られた参照文章を参照元文書として他の参照
    文書を収集する動作を繰り返すことによって、前記参照
    元文書に関連性が有る文書同士をグループ化することを
    特徴とする文書グループ化装置。
  11. 【請求項11】分散して存在する文書群の中から、ある
    文書に関連性が有る文書を収集して、グループ化する文
    書グループ化方法において、 参照元文書格納手段に格納している文書(参照元文書)
    を起点として、前記参照元文書中に存在する他の文書
    (参照文書)の参照関係情報の説明を取り出す第1のス
    テップと、 前記参照元文書を文書グループとして文書グループ格納
    手段に格納する第2のステップと、 前記第1のステップにより取り出された参照関係情報の
    説明の内容と、前記参照元文書の本文の内容との関連性
    の有り無しを判断する第3のステップと、 前記第3のステップにより関連性が有りと判断された参
    照文書を、前記文書群から取得する第4のステップと、 前記第4のステップにより取得された参照文書を、参照
    元文書として前記参照元文書格納手段に追加する第5の
    ステップと、 前記参照元文書格納手段に、参照関係情報が取り出され
    ていない参照元文書が有るか無いかを判断し、参照元文
    書が有る場合には前記第1のステップに戻り一連の動作
    を繰り返し、前記参照元文書が無い場合には、得られた
    文書グループによりグループ化を決定する第6のステッ
    プと、 を備えることを特徴とする文書グループ化方法。
  12. 【請求項12】分散して存在する文書群の中から、ある
    文書に関連性が有る文書を収集して、グループ化する文
    書グループ化プログラムを記録した記録媒体において、 第1の記憶手段内に格納している文書(参照元文書)を
    起点として、前記参照元文書中に存在する他の文書(参
    照文書)の参照関係情報を取り出す第1のステップと、 前記参照元文書を文書グループとして第2の記憶手段に
    格納する第2のステップと、 前記第1のステップにより取り出された参照関係情報の
    説明の内容と、前記参照元文書の本文の内容との関連性
    の有り無しを判断する第3のステップと、 前記第3のステップにより関連性が有りと判断された参
    照文書を、前記文書群から取得する第4のステップと、 前記第4のステップにより取得された参照文書を、参照
    元文書として前記第1の記憶手段に追加する第5のステ
    ップと、 前記第1の記憶手段に、参照関係情報が取り出されてい
    ない参照元文書が有るか無いかを判断し、参照元文書が
    有る場合には前記第1のステップに戻り一連の動作を繰
    り返し、前記参照元文書が無い場合には、得られた文書
    グループによりグループ化を決定する第6のステップ
    と、 を少なくとも備えるプログラムを格納したことを特徴と
    する文書グループ化プログラムを記録した記録媒体。
JP8262047A 1996-10-02 1996-10-02 文書グループ化装置および文書グループ化方法 Expired - Fee Related JP2940488B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP8262047A JP2940488B2 (ja) 1996-10-02 1996-10-02 文書グループ化装置および文書グループ化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP8262047A JP2940488B2 (ja) 1996-10-02 1996-10-02 文書グループ化装置および文書グループ化方法

Publications (2)

Publication Number Publication Date
JPH10105572A true JPH10105572A (ja) 1998-04-24
JP2940488B2 JP2940488B2 (ja) 1999-08-25

Family

ID=17370301

Family Applications (1)

Application Number Title Priority Date Filing Date
JP8262047A Expired - Fee Related JP2940488B2 (ja) 1996-10-02 1996-10-02 文書グループ化装置および文書グループ化方法

Country Status (1)

Country Link
JP (1) JP2940488B2 (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000331017A (ja) * 1999-05-19 2000-11-30 Nippon Telegr & Teleph Corp <Ntt> 文書間関連度計算装置、その方法およびその記録媒体
JP2001265788A (ja) * 2000-03-23 2001-09-28 Nippon Telegr & Teleph Corp <Ntt> 文書分類方法及び装置及び文書分類プログラムを格納した記録媒体
US7197697B1 (en) 1999-06-15 2007-03-27 Fujitsu Limited Apparatus for retrieving information using reference reason of document
US7203673B2 (en) 2000-12-27 2007-04-10 Fujitsu Limited Document collection apparatus and method for specific use, and storage medium storing program used to direct computer to collect documents
JP2008269375A (ja) * 2007-04-23 2008-11-06 Hidetsugu Nanba 情報処理装置、情報処理方法、及びプログラム
JP2014203364A (ja) * 2013-04-08 2014-10-27 富士通株式会社 設計書管理プログラム、設計書管理方法および情報処理装置

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000331017A (ja) * 1999-05-19 2000-11-30 Nippon Telegr & Teleph Corp <Ntt> 文書間関連度計算装置、その方法およびその記録媒体
US7197697B1 (en) 1999-06-15 2007-03-27 Fujitsu Limited Apparatus for retrieving information using reference reason of document
JP2001265788A (ja) * 2000-03-23 2001-09-28 Nippon Telegr & Teleph Corp <Ntt> 文書分類方法及び装置及び文書分類プログラムを格納した記録媒体
US7203673B2 (en) 2000-12-27 2007-04-10 Fujitsu Limited Document collection apparatus and method for specific use, and storage medium storing program used to direct computer to collect documents
JP2008269375A (ja) * 2007-04-23 2008-11-06 Hidetsugu Nanba 情報処理装置、情報処理方法、及びプログラム
JP2014203364A (ja) * 2013-04-08 2014-10-27 富士通株式会社 設計書管理プログラム、設計書管理方法および情報処理装置

Also Published As

Publication number Publication date
JP2940488B2 (ja) 1999-08-25

Similar Documents

Publication Publication Date Title
US6199081B1 (en) Automatic tagging of documents and exclusion by content
US7630973B2 (en) Method for identifying related pages in a hyperlinked database
JP4396242B2 (ja) 文書リンク構造情報作成装置及び方法
US8812478B1 (en) Distributed crawling of hyperlinked documents
US7496581B2 (en) Information search system, information search method, HTML document structure analyzing method, and program product
US7823065B2 (en) Lexicon-based new idea detector
US6651059B1 (en) System and method for the automatic recognition of relevant terms by mining link annotations
US9613061B1 (en) Image selection for news search
US20110078140A1 (en) Method and system for user guided search navigation
JPH11191114A (ja) メタ検索方法、画像検索方法、メタ検索エンジン及び画像検索エンジン
US9430567B2 (en) Identifying unvisited portions of visited information
JP2005085285A5 (ja)
EP1428139A2 (en) System and method for extracting content for submission to a search engine
Hatzi et al. A specialized search engine for web service discovery
US9971782B2 (en) Document tagging and retrieval using entity specifiers
US9971828B2 (en) Document tagging and retrieval using per-subject dictionaries including subject-determining-power scores for entries
CN108520007B (zh) 万维网网页信息提取方法、存储介质及计算机设备
KR100359233B1 (ko) 웹 정보 추출 방법 및 시스템
CN106326236A (zh) 一种网页内容识别方法和系统
JP2004220251A (ja) 情報抽出規則作成システム、情報抽出規則作成方法及び情報抽出規則作成プログラム
JP2940488B2 (ja) 文書グループ化装置および文書グループ化方法
US20110252313A1 (en) Document information selection method and computer program product
JP2008117134A (ja) 期間抽出装置,期間抽出方法,その方法を実装した期間抽出プログラム及びそのプログラムを格納した記録媒体
KR100433584B1 (ko) 온토로지와 규칙정보를 이용한, 인터넷 쇼핑몰 상품에관한 상세 정보 추출 방법
CN109388665B (zh) 作者关系在线挖掘方法及系统

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 19990518

LAPS Cancellation because of no payment of annual fees