JPH10134087A - 文書要求装置および関連文書の先取り方法 - Google Patents

文書要求装置および関連文書の先取り方法

Info

Publication number
JPH10134087A
JPH10134087A JP9242886A JP24288697A JPH10134087A JP H10134087 A JPH10134087 A JP H10134087A JP 9242886 A JP9242886 A JP 9242886A JP 24288697 A JP24288697 A JP 24288697A JP H10134087 A JPH10134087 A JP H10134087A
Authority
JP
Japan
Prior art keywords
document
request
requesting
predetermined
transfer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP9242886A
Other languages
English (en)
Other versions
JP3486077B2 (ja
Inventor
Hiroko Fujii
寛子 藤井
Masaie Amano
真家 天野
Masakata Minami
正名 南
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP24288697A priority Critical patent/JP3486077B2/ja
Publication of JPH10134087A publication Critical patent/JPH10134087A/ja
Application granted granted Critical
Publication of JP3486077B2 publication Critical patent/JP3486077B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 クライアント側で関連文書として先取りすべ
き文書を特定できるようにする。 【解決手段】 文書提供装置110から文書要求装置1
20に転送された文書に含まれるURLで指定される各
文書と最初の文書要求で指定された文書との間の関連性
の度合いが、最初の文書要求で指定された文書とURL
で指定された各文書との間のリンクの深さや、それら文
書間の内容の類似度に基づいて判断され、これによって
先取り対象の文書ファイルの特定が文書要求装置120
内で行われる。したがって、多数のURLを持つ文書が
最初に要求されたり、あるいは関連文書として要求した
文書それぞれにさらに別の文書を指定するURLが含ま
れている場合であっても、最初に要求した文書と関連性
の深い文書を文書要求装置120側で特定できるように
なる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、文書提供装置に対
して文書の転送を要求する文書要求装置に関し、特に、
要求された文書だけでなくそれに関連する文書を文書提
供装置から先取りする文書要求装置および関連文書の先
取り方法に関する。
【0002】
【従来の技術】近年、ネットワークを介してサーバから
クライアントに様々な電子情報を提供するシステムとし
て、WWW(World Wide Web)が知られている。これは、
図13に示すように、例えばWWWサーバ11とWWW
クライアント12とからなり、サーバ11とクライアン
ト12にてあらかじめ定まったファイル転送プロトコル
HTTP(Hyper Text Transfer Protocol)に従い、文書
情報を通信部21、22通じてサーバ11からクライア
ント12に提供するものである。このWWWの普及によ
り、ネットワークを介して世界中の文書情報にアクセス
することが可能となる。
【0003】このシステムでは、サーバからクライアン
トへの文書ファイルの転送は逐一行うのが基本である。
すなわち、ユーザが文書の表示を求めると、WWWクラ
イアントはWWWサーバと通信を行い該文書の転送を行
い画面に表示する。さらに別の文書の表示を行う場合に
は、この操作が再び行われる。このように、WWWはオ
ンラインでの使用のみを前提としている。
【0004】したがって、ノート型計算機やPDA(Per
sonal Digital Assistance) 等の携帯情報端末からWW
Wを利用して情報を得ようとする場合には、その携帯情
報端末を、WWWの利用が終了するまで、ネットワーク
に接続しておく必要がある。しかし、通常、これら携帯
情報端末は常にネットワーク接続可能な環境で使用され
るとは限らないため、ネットワーク接続中にできるだけ
多くの情報を一括して携帯情報端末に自動的にダウンロ
ードしておき、ネットワーク接続を切った後でもその内
容を見ることができるようにしておくことが要求されて
いる。
【0005】
【発明が解決しようとする課題】これを実現するための
方法として、ユーザが転送を要求した文書だけでなく、
関連文書もまとめてサーバからクライアントに転送する
方法が挙げられる。この方法を活用すると、サーバから
クライアントへの複数文書の転送をユーザが一つ一つ指
示することなく、一度の指示にて行うことができる。転
送された文書はクライアントの記憶媒体に保存される。
具体的には、ユーザの一回の転送要求に応じて複数文書
を順次転送するプログラムが起動されクライアントの記
憶媒体に保存する方法、あるいはあらかじめ複数文書を
連結して一つの文書にまとめておき、この連結文書をク
ライアントの記憶媒体に保存する方法が記されている。
ところが本方法では次のような問題がある。
【0006】すなわち、文書が要求された場合に関連文
書とすべき文書はサーバ側で予め決定しておく必要があ
り、そのために、関連文書を示す文書リストをサーバ側
に用意しておき、そのリストをクライアントに送るとい
う処理が必要となる。
【0007】したがって、どの文書が関連文書であるか
の判断は全て文書提供者にゆだねられてしまい、クライ
アント側で、関連文書を特定することはできなかった。
本発明はこの様な点に鑑みてなされたものであり、クラ
イアント側で関連文書として先取りすべき文書を特定で
きるようにし、サーバに変更を与えることなく、クライ
アントの機能のみで適切な関連文書の先取りを行うこと
が可能な文書要求装置および関連文書の先取り方法を提
供することを目的とする。
【0008】
【課題を解決するための手段】本発明の一観点によれ
ば、先取りすべき関連文書の転送を要求する文書要求装
置において、要求に応じて転送されてくる第1の文書か
ら、当該第1の文書のリンク先にある第2の文書を指定
する識別子を抽出する手段と、抽出された前記識別子で
指定される前記第2の文書と、基準となる所定の文書と
の間の関連性の度合いを判別する手段とを具備し、前記
関連性の度合いが所定の度合いよりも大きい場合には前
記第2の文書は前記関連文書のうちの一つに該当すると
みなされることを特徴とする文書要求装置が提供され
る。
【0009】また、本発明の他の観点によれば、HTM
L(Hyper Text Markup Language)形式で記述される先取
りすべき関連文書の転送をサーバ装置に要求するクライ
アント装置において、要求に応じて前記サーバ装置より
転送されてくる第1の文書から、当該第1の文書のリン
ク先にある第2の文書を指定するURL(Uniform Resou
rce Locator)を抽出する手段と、抽出された前記URL
で指定される前記第2の文書と、基準となる所定の文書
との間の関連性の度合いを判別する手段とを具備し、前
記関連性の度合いが所定の度合いよりも大きい場合には
前記第2の文書は前記関連文書のうちの一つに該当する
とみなされることを特徴とするクライアント装置が提供
される。
【0010】また、本発明の他の観点によれば、先取り
すべき関連文書の転送を要求する文書要求装置におい
て、要求に応じて転送されてくる第1の文書から、当該
第1の文書のリンク先にある第2の文書を指定する識別
子を抽出する手段と、抽出された前記識別子で指定され
る第2の文書と、基準となる所定の文書との間のリンク
の深さを判別する手段と、前記リンクの深さが所定値よ
りも小さい場合には、前記第2の文書の転送を要求する
手段とを具備し、前記リンクの深さが所定値よりも小さ
い場合には前記第2の文書は前記関連文書のうちの一つ
に該当するとみなされることを特徴とする文書要求装置
が提供される。
【0011】なお、前記文書要求装置において、前記判
別手段は、前記第2の文書が前記基準となる所定の文書
から何段目の階層にあるかを示す段数をカウントする段
数カウンタを有するものであってもよい。この場合、前
記段数カウンタにより示される段数が所定値より小さい
場合には、前記第2の文書は前記関連文書のうちの一つ
に該当するとみなされる。
【0012】また、本発明の他の観点によれば、先取り
すべき関連文書の転送を要求する文書要求装置におい
て、要求に応じて転送されてくる第1の文書から、当該
第1の文書のリンク先にある第2の文書を指定する識別
子を抽出する手段と、抽出された前記識別子で指定され
る前記第2の文書の転送を要求する手段と、この要求に
応じて転送されてくる第2の文書と、基準となる所定の
文書との間の類似度を判別する手段とを具備し、前記類
似度が所定値よりも大きい場合には前記第2の文書は前
記関連文書のうちの一つに該当するとみなされることを
特徴とする文書要求装置が提供される。
【0013】なお、前記文書要求装置において、前記判
別手段は、前記第2の文書と前記基準となる所定の文書
との間で共通する又は類似する語の割合を計算する手段
を有するものであってもよい。この場合、前記計算手段
により示される割合が所定値より大きい場合には、前記
第2の文書は前記関連文書のうちの一つに該当するとみ
なされる。
【0014】また、本発明の他の観点によれば、関連文
書の転送を要求する文書要求装置に適用される関連文書
の先取り方法において、要求に応じて転送されてくる第
1の文書から、当該第1の文書のリンク先にある第2の
文書を指定する識別子を抽出するステップと、抽出され
た前記識別子で指定される前記第2の文書と、基準とな
る所定の文書との間の関連性の度合いを判別するステッ
プとを有し、前記関連性の度合いが所定の度合いよりも
大きい場合には前記第2の文書は前記関連文書のうちの
一つに該当するとみなされることを特徴とする関連文書
の先取り方法が提供される。
【0015】また、本発明の他の観点によれば、HTM
L(Hyper Text Markup Language)形式で記述される関連
文書の転送をサーバ装置に要求するクライアント装置に
適用される関連文書の先取り方法において、要求に応じ
て前記サーバ装置より転送されてくる第1の文書から、
当該第1の文書のリンク先にある第2の文書を指定する
URL(Uniform Resource Locator)を抽出するステップ
と、抽出された前記URLで指定される前記第2の文書
と、基準となる所定の文書との間の関連性の度合いを判
別するステップとを有し、前記関連性の度合いが所定の
度合いよりも大きい場合には前記第2の文書は前記関連
文書のうちの一つに該当するとみなされることを特徴と
する関連文書の先取り方法が提供される。
【0016】また、本発明の他の観点によれば、関連文
書の転送を要求する文書要求装置に適用される関連文書
の先取り方法において、要求に応じて転送されてくる第
1の文書から、当該第1の文書のリンク先にある第2の
文書を指定する識別子を抽出するステップと、抽出され
た前記識別子で指定される第2の文書と、基準となる所
定の文書との間のリンクの深さを判別するステップと、
前記リンクの深さが所定値よりも小さい場合には、前記
第2の文書の転送を要求するステップとを有し、前記リ
ンクの深さが所定値よりも小さい場合には前記第2の文
書は前記関連文書のうちの一つに該当するとみなされる
ことを特徴とする関連文書の先取り方法が提供される。
【0017】なお、前記関連文書の先取り方法におい
て、前記判別ステップは、前記第2の文書が前記基準と
なる所定の文書から何段目の階層にあるかを示す段数を
カウントするステップを有するものであってもよい。こ
の場合、前記カウントステップにおける段数が所定値よ
り小さい場合には、前記第2の文書は前記関連文書のう
ちの一つに該当するとみなされる。
【0018】また、本発明の他の観点によれば、関連文
書の転送を要求する文書要求装置に適用される関連文書
の先取り方法において、要求に応じて転送されてくる第
1の文書から、当該第1の文書のリンク先にある第2の
文書を指定する識別子を抽出するステップと、抽出され
た前記識別子で指定される前記第2の文書の転送を要求
するステップと、この要求に応じて転送されてくる第2
の文書と、基準となる所定の文書との間の類似度を判別
するステップとを有し、前記類似度が所定値よりも大き
い場合には前記第2の文書は前記関連文書のうちの一つ
に該当するとみなされることを特徴とする関連文書の先
取り方法が提供される。
【0019】なお、前記関連文書の先取り方法におい
て、前記判別ステップは、前記第2の文書と前記基準と
なる所定の文書との間で共通する又は類似する語の割合
を計算するステップを有するものであってもよい。この
場合、前記計算ステップにおける割合が所定値より大き
い場合には、前記第2の文書は前記関連文書のうちの一
つに該当するとみなされる。
【0020】
【発明の実施の形態】実施形態を詳細に説明する前に、
本発明を理解しやすくする観点から、まずその基本とな
る考えを簡単に説明する。本文書要求装置では、転送さ
れてくる文書に含まれる識別子で指定される文書と最初
に転送されてきた文書との間の関連性の度合いに基づい
て、その識別子で指定される文書が先取り対象となりう
る関連文書であるか否かが判断される。したがって、文
書要求装置側で、先取り対象となりうる関連文書を特定
できるようになる。関連性の度合いは、前記最初の文書
要求で指定された文書と前記識別子で指定された文書と
の間のリンクの深さに基づいて判断することもできる
し、また、それら文書間の内容の類似度に基づいて判断
することもできる。
【0021】したがって、多数の識別子を持つ文書が最
初に要求されたり、あるいは関連文書として要求した文
書にさらに識別子が含まれている場合であっても、それ
ら識別子でそれぞれ指定される多数の文書の中で最初に
要求した文書と関連性の深い文書を文書要求装置側で特
定できるようになり、WWWを利用した場合には、WW
Wサーバに変更を与えることなく、WWWクライアント
として動作するブラウザの機能のみで適切な関連文書の
先取りを行うことが可能となる。
【0022】以下、図面を参照して本発明の実施形態を
詳細に説明する。図1には、本発明の一実施形態に係る
ファイル読み出し方法が適用される情報通信システムと
そのシステムで用いられるプログラムの機能構成が示さ
れている。この情報通信システムは、例えば、インター
ネットなどのネットワーク環境を利用してサーバからク
ライアントに各種文書ファイル(HTML形式のハイパ
ーテキスト、静止画、動画、音声など)を提供するクラ
イアント/サーバシステムであり、文書ファイルを提供
するWWWサーバとして動作する文書提供装置110
と、文書ファイルを要求するWWWクライアントとして
動作する文書要求装置120からなる。
【0023】文書提供装置110では、要求受理部15
1および要求処理部152からなる文書提供プログラム
150が動作している。要求受理部151は、文書要求
装置120で動作している文書表示プログラム130か
らの要求を受理する。また、要求処理部152は、前記
要求受理部151にて受理した要求に応じ、具体的な処
理を行なう。例えば、要求処理部152は、要求受理部
151にて受理した要求に対応した文書111を記憶媒
体156より検索し、当該文書があればそれを文書要求
装置120に送信する。なお、図1には示されていない
が、文書提供プログラム150と文書表示プログラム1
30との間の文書要求及び文書送信は、当然のことなが
ら図13に示したようなハードウェアとしての通信部2
1、22を介して行われる。
【0024】また、文書要求装置120では、文書要求
部132、文書受信部133、文書格納部134、文書
識別子抽出部138、条件判別部139、文書表示部1
35、要求受理部136からなる文書表示プログラム1
30が動作している。
【0025】文書要求部132は、文書提供装置110
に文書の提供を要求する。文書受信部133は、文書提
供装置110から提供された文書を受信する。文書格納
部134は、文書提供装置110から受信した文書を記
憶媒体121に格納する。また、文書識別子抽出部13
8は、文書受信部133にて受信した文書を解析し、文
書識別子を抽出する。
【0026】条件判別部139は、文書識別子抽出部1
38にて抽出した識別子に対応する文書が先取り対象の
文書であるか否かを、その識別子で指定された文書と最
初に要求した文書との間の関連度(後で詳述)に基い
て、判別するためのプログラムである。
【0027】文書表示部135は、要求された文書を表
示する。要求受理部136は、要求を受理する。なお、
文書表示プログラム130は一つのプログラムである必
要はなく、複数のプログラムより構成されていてもよ
い。
【0028】図2は、被要求文書の記述例を示したもの
である。図2の例では、文書200はHTML(Hyper T
ext Markup Language)の形式で記述されており、文書を
識別するための識別子として、URL(Uniform Resourc
e Locator)201および202を含んでいる。ここでU
RLとは、文書の所在を一意に決定するための識別子で
あり、“<scheme>:<scheme−spec
ific−part>”なる形式をとる。例えば、“h
ttp://www.toshiba.co.jp/i
ndex.html”などというように記述する。“h
ttp”は、転送時のプロトコルとしてhttpを用い
ることを示し、“//www.toshiba.co.
jp/index.html”で、www.toshi
ba.co.jpなるホストの、index.html
なるファイルのことを示す。文書要求装置120の文書
識別子抽出部138は、受信した文書200より、20
1および202のようなURLを抽出する。
【0029】なお、参考のため、上記説明した文書20
0と文書201、202との間のリンク関係を含めた全
体のリンク関係を図3に示す。図4は、本発明で提案す
る文書要求装置120における、関連文書の判別および
要求を行なう部分の処理の流れを示す図である。
【0030】文書要求装置120内では、文書要求部1
32により文書を要求し(ステップS301)、これに
対応する文書を文書受信部133により受信すると(ス
テップS302)、この文書を文書格納部134により
文書要求装置120の記憶媒体121へ格納する(ステ
ップS303)。次に、文書識別子抽出部138によ
り、該文書中に含まれる文書識別子を抽出する(ステッ
プS304)。
【0031】さらに、文書識別子抽出部138で抽出さ
れた文書識別子が示す文書を関連文書とみなし、文書提
供装置110に要求するかどうかを条件判別部139に
より判別する(ステップS305)。その後、条件判別
部139で判別した結果が予め定められた条件を満たす
かどうかを調べる(ステップS306)。条件を満たす
場合は、文書識別子抽出部138で抽出した識別子に従
い、文書要求部132より文書提供装置110に対応す
る文書を要求する。
【0032】次に、文書表示プログラム130の条件判
別部139での具体的な条件判別方法の一例を説明す
る。ここでは、図5に示すように、条件判別部139に
備えられたデータ記憶部139m内の一部に、文書の階
層数をカウントするための段数カウンタ139cが設け
られる。この段数カウンタ139cを用いることによ
り、ある文書のリンク先である文書の階層が所定の階層
よりも深いか浅いか否かを判別することができる。浅け
れば当該リンク先の文書を呼び出すという処理を繰り返
すことにより、関連文書を先取りすることが可能とな
る。
【0033】すなわち、段数カウンタ139cは、最初
に要求された文書K(現在、関連文書を検索中の文書)
を基準とした場合の、文書Aのリンクの深さを示す。例
えば、最初に要求された文書K中に文書Aを示すURL
が含まれている場合は、段数カウンタ139cの値は1
となる。図6の例では、文書200に対し、201およ
び202に対応する文書は1階層上の文書であり、段数
は1となる。もし202に対応する文書中にもURLが
含まれている場合は、このURLに対応する文書の段数
は2となる。例えば最大段数値が2に設定されている場
合は、段数カウンタ139cの値が2に相当する文書は
呼び出されることになるが、段数カウンタ139cの値
が3に相当する文書は呼び出されないことになる。
【0034】図7は、文書表示プログラム130の条件
判別部139での条件判別方法の一例を示すフローチャ
ートである。この例では、関連文書を特定する方法とし
て、文書要求に対応して送信されてきた文書中に含まれ
るURLを繰り返し検索し、文書提供装置110に要求
する。なお、ここでの検索は再帰的に行うようにしても
よい。図7のフローチャートには文書要求部132によ
り文書を要求する部分からの流れが示されており、条件
判別部139での処理は、ステップS405以下の処理
に相当する。
【0035】文書表示プログラム130では、文書要求
部132により文書を要求し(ステップS401)、要
求した文書を文書受信部133により受信し(ステップ
S402)、受信した文書を文書格納部134により文
書要求装置120の記憶媒体121へ格納した後(ステ
ップS403)、文書識別子抽出部138により、受信
した文書AからURLを抽出する(ステップS40
4)。
【0036】次に、この文書Aに対し、文書要求装置1
20の条件判別部139により、関連文書特定の為の条
件を以下のように判別する。まず、文書識別子抽出部1
38によるURL抽出の結果、文書A中にURLが含ま
れているか否かを調べる(ステップS405)。もしU
RLが含まれていれば、段数カウンタ139cを1増加
させる(ステップS406)。
【0037】次に、段数カウンタ139cの値と予め定
められた最大段数の値を比較する(ステップS40
7)。段数カウンタ139cの値が最大段数の値よりも
大きい場合は、段数カウンタ139cの値を1減じて
(ステップS410)、文書Aに対する処理を終了す
る。そして、文書Aの親にあたる文書Kに対する、ステ
ップS408からの残りの処理を続ける。
【0038】文書Aに対するステップS407での比較
の結果、段数カウンタ139cの値が最大段数以下であ
った場合は、後で説明するステップS408以下の処理
により、ステップS404にて抽出した全てのURLに
ついて、ステップS401からの処理を再帰的に繰り返
すことになる。このとき、ステップS404で抽出した
URLのうち、過去に既に要求済みのものは処理対象に
しないようにすることにより、リンクがループしている
ような場合にも対処できる。
【0039】ステップS408からの処理は、以下のよ
うになっている。すなわち、ステップS404で抽出し
たURLのうち、まだ対応する文書を要求していないも
のがあるかどうか調べる(ステップS408)。もしま
だ文書要求していないURLがあれば、文書要求をして
いないURLをひとつ選択し(ステップS409)、こ
のURLに対し、ステップS401からの処理を行う。
【0040】すなわち、ステップS401で選択したU
RLに対応する文書Bの要求を行い、ステップS405
で文書B中にURLが含まれていて、かつステップS4
07による比較で段数カウンタ139cの値が最大段数
以下の場合は、ステップS409により文書Bから抽出
したURLのうち、まだ文書要求していないものを取り
出し、再びステップS401からの処理を行うことにな
る。もし文書Bに対する処理において、ステップS40
5で文書B中にURLが含まれていないと判定された場
合は、文書Bに対する処理を終了し、文書Aの処理に戻
る。また、文書Bに対する処理において、ステップS4
07で段数カウンタ139cの値が最大値を越えている
か、又はステップS408で文書Bから抽出したURL
の全てについて処理が終了していた場合は、ステップS
410にて段数カウンタ139cを1減じて、文書Bに
対する処理を終了し、文書Aの処理に戻る。
【0041】このようにして、段数カウンタ139cを
用いて、URLで指定された条件判別対象の被要求文書
毎にその文書と最初に要求した文書との間のリンクの深
さを調べて関連文書特定の為の判断を行うことにより、
関連性の高い文書だけを選択的に先取りすることができ
る。
【0042】図8は、文書表示プログラム130の条件
判別部139での条件判別方法の、図7とは別の例を示
すフローチャートである。この例では、関連文書を特定
する方法として、文書要求に対して送信されてきた文書
Aと、その祖先にあたる文書(文書Aを指定するURL
を持つ指定元文書、あるいはその文書のさらに1つ前の
指定元文書、あるいは初めに要求した文書Kにまで溯っ
て得られる文書など)の類似度を利用する。なお、図8
の例でも文書要求部により文書要求の部分からの処理を
示しており、条件判別にあたる部分は、ステップS50
5以下の処理に相当する。
【0043】文書表示プログラム130では、文書要求
部132により文書を要求し(ステップS501)、要
求した文書を文書受信部133により受信し(ステップ
S502)、受信した文書を文書格納部134により文
書要求装置120の記憶媒体121へ格納した後(ステ
ップS503)、文書識別子抽出部138により、受信
した文書AからURLを抽出する(ステップS50
4)。
【0044】次に、この文書Aに対し、文書要求装置1
20の条件判別部139により、関連文書特定の為の条
件を以下のように判別する。まず、文書識別子抽出部1
38によるURL抽出の結果、文書A中にURLが含ま
れていたか否かを調べる(ステップS505)。もしU
RLが含まれていれば、文書Aと文書Aの祖先にあたる
文書との類似度を計算した後(ステップS506)、類
似度の値と予め定められた閾値とを比較する(ステップ
S507)。
【0045】ステップS506により算出した類似度の
値が予め定められた閾値以上であった場合は(文書Aが
関連文書に該当する場合は)、抽出したURLに対応す
る文書は全て先取り対象であるものとみなし、ステップ
S504で抽出したURLのうち、まだ対応する文書の
要求をしていないものがあるかどうか調べる(ステップ
S508)。
【0046】もしまだ文書要求していないURLがあれ
ば、文書要求をしていないURLをひとつ選択し(ステ
ップS509)、ステップS501に戻って、選択した
URLに対応する文書の要求を行なう。したがって、算
出した類似度の値が予め定められた閾値以上であった場
合は、文書識別子抽出部138により抽出したすべての
URLについて、ステップS501の文書要求以降の処
理を再帰的に繰り返すことになる。
【0047】次に、図8の例における類似度の具体的な
計算方法の一例を説明する。ここでは、図9に示すよう
に、上記条件判別部139の中に共通語句割合計算部1
39rが備えられる。この共通語句割合計算部139r
は、類似度を判別する一手法として用意されたもので、
文書間で共通する又は類似する語の割合を計算する。
【0048】図10は、類似度の計算方法の一例を示し
たフローチャートである。この例では、被要求文書A
と、その直前に受信した文書Bに現れる単語群を用いて
類似度を計算し、関連文書であるか否かを判断してい
る。なお、図10の例でも文書要求部による文書要求の
部分からの処理を示してある。
【0049】文書表示プログラム130では、文書要求
部132により文書を要求し(ステップS601)、要
求した文書を文書受信部133により受信し(ステップ
S602)、受信した文書を文書格納部134により文
書要求装置120の記憶媒体121へ格納する(ステッ
プS603)。
【0050】次に、受信した文書Aが、祖先にあたる文
書と同じものであるかどうかを調べる(ステップS60
4)。文書Aが祖先とは異なる文書である場合には、文
書識別子抽出部138により、受信した文書AからUR
Lを抽出する(ステップS605)。
【0051】次に、この文書Aに対し、文書要求装置1
20の条件判別部139により、関連文書特定の為の条
件を以下のように判別する。まず、ステップS605に
よるURL抽出の結果、文書A中にURLが含まれてい
たか否かを調べる(ステップS606)。もしURLが
含まれていれば、文書Aから単語を抽出する(ステップ
S607)。
【0052】次に、文書Aが、利用者が要求した文書K
であるかどうかを調べる(ステップS608)。これ
は、たとえば両文書のURLを比較することにより調べ
ることが可能である。文書Aが文書Kと異なる場合は、
文書Aは文書Kの関連文書として文書要求装置120が
要求した文書であると考えられる。従って、以下のよう
に、文書Aに含まれるURLに対応する文書も文書Kの
関連文書とするか否かを判別する。
【0053】すなわち、ある特定の品詞(群)の語のみ
に着目し、文書Aおよびその親にあたる文書Bの間で、
該品詞(群)の共通する語の割合を共通語句割合計算部
139rにより計算する(ステップS609)。次に、
ステップS609で得られた該品詞(群)の共通する語
の割合と、予め定められた閾値とを比較する(ステップ
S610)。
【0054】上記品詞(群)の共通する語の含有率が予
め定められた閾値以上の場合、あるいはステップS60
8で文書Aが利用者が要求した文書Kであった場合は、
ステップS605で抽出したURLのうち、まだ対応す
る文書の要求をしていないものがあるかどうか調べる
(ステップS611)。
【0055】もしまだ文書要求していないURLがあれ
ば、文書要求をしていないURLをひとつ選択し(ステ
ップS612)、ステップS601に戻って、選択した
URLに対応する文書の要求を行なう。したがって、上
記品詞(群)の共通する語の含有率が予め定められた閾
値以上の場合、あるいは文書Aが利用者が要求した文書
Kであった場合は、文書識別子抽出部138により抽出
したURLに従い、ステップS601以降の処理を再帰
的に繰り返すことになる。
【0056】WWWで提供される文書の中には、リンク
がループする(ある文書Sからリンクを辿り、再び文書
Sを参照するようになっている)構造になっているもの
もある。ステップS604では、ループ構造のリンクを
検出し、ある文書の関連文書を特定する過程で、条件判
別部により既に判別を行った文書については再び判別を
行うことのないようにしている。
【0057】またステップS609での、文書中の単語
を利用した類似度の計算は、特定の品詞(群)の共通す
る語の含有率に限らず、他の方法も考えられる。例えば
類似度を算出する要素として、同義語も含めて考えるこ
ともできる。この場合、ステップS609文書A中に含
まれる語Wあるいはその同義語W′が、文書B中に含ま
れる語Xあるいはその同義語X′と一致する場合も共通
する語とみなして、両文書に共通する語の割合を算出す
る。なお、同義語とは、別途定める同義語集の中で定義
されているものとする。
【0058】さらに別の例として、ある語の上位・下位
語も類似度を算出する要素とすることも考えられる。こ
の場合、ステップS609では、文書A中に含まれる語
Wあるいはその上位・下位語W′が、文書B中の語Xあ
るいはその上位・下位語X′と一致する場合も共通語と
みなし、両文書に共通する語の割合を算出する。ここ
で、上位・下位語とは、別途定めるシソーラスの中で定
義されているものとする。
【0059】さらに、これらの単語、同義語、上位・下
位語の全てを任意に組み合わせて類似度を計算すること
も可能である。類似度の計算は、本実施形態のように単
語ベースでの類似度を採る以外の方法でも可能である。
例えば、構文・意味解析を行い、文書の意味を抽出する
ことにより、当該文書間の類似度の計算を行うこともで
きる。
【0060】また、本発明で挙げた全ての条件判別方法
を任意に組み合わせた判別法を用いることも考えられ
る。図11は、同義語集の例を示したものである。図1
1に示したような同義語集において、701、702お
よび703はそれぞれ共通の語とみなせる語を“=”で
区切った形で定義している。例えば701では、「コン
ピュータ」という語と「計算機」という語、および「電
子計算機」という語は、全て共通の語であることを定義
している。
【0061】図12は、シソーラスの例を示したもので
ある。シソーラスは、単語を概念的に階層化したもので
ある。図12の例では、「機械」という単語に対し、意
味的に下位の概念である単語を階層的に定義している。
【0062】以上のように、上記実施形態においては、
転送された文書に含まれるURLで指定される各文書と
最初の文書要求で指定された文書との間の関連性の度合
いが、最初の文書要求で指定された文書とURLで指定
された各文書との間のリンクの深さや、それら文書間の
内容の類似度に基づいて判断され、これによって先取り
対象の文書ファイルの特定が行われる。したがって、多
数のURLを持つ文書が最初に要求されたり、あるいは
関連文書として要求した文書それぞれにさらに別の文書
を指定するURLが含まれている場合であっても、最初
に要求した文書と関連性の深い文書を文書要求装置側で
特定できるようになり、WWWサーバの機能によらず
に、WWWクライアントとして動作する文書要求装置の
機能のみで適切な関連文書の先取りを行うことが可能と
なる。なお、本発明は上記実施形態に限定されるもので
はなく、その要旨の範囲で種々変形して実施することが
可能である。
【0063】
【発明の効果】以上詳述したように、本発明によれば、
クライアント側で関連文書として先取りすべき文書を特
定できるようになり、サーバに変更を与えることなく、
クライアントの機能のみで適切な関連文書の先取りを行
うことが可能となる。
【図面の簡単な説明】
【図1】本発明の一実施形態に係る文書要求装置を含む
クライアント/サーバシステムの構成を示すブロック
図。
【図2】図1のシステムで使用される文書の記述例を示
す図。
【図3】図1のシステムにおける文書のリンク関係を説
明するための図。
【図4】図1のシステムにおける関連文書判別処理およ
び要求処理の手順示すフローチャート。
【図5】図1のシステムで使用される段数カウンタをデ
ータ記憶部に備えた条件判別部の例を示す図。
【図6】文書の階層と段数カウンタ値との関係を説明す
るための図。
【図7】図1のシステムにおける条件判別部の処理手順
を示すフローチャート。
【図8】図1のシステムにおける条件判別部の他の処理
手順を示すフローチャート。
【図9】図1のシステムで使用される共通語句割合計算
部を備えた条件判別部の例を示す図。
【図10】図1のシステムにおける条件判別部の他の処
理手順を示すフローチャート。
【図11】図1のシステムで使用される同義語集の例を
示す図。
【図12】図1のシステムで使用されるシソーラス(the
saurus) の例を示す図。
【図13】サーバとクライアントとの間で行われる文書
要求/文書送信を説明するための図。
【符号の説明】
110…文書提供装置、 111…文書、 120…文書要求装置、 130…文書表示プログラム、 132…文書要求部、 133…文書受信部、 134…文書格納部、 135…文書表示部、 136…要求受理部、 138…文書識別子抽出部、 139…条件判別部、 140…文書要求、 141…文書送信、 150…文書提供プログラム、 151…要求受理部、 152…要求処理部、 156…記憶媒体、 139…条件判別部、 139c…段数カウンタ、 139m…データ記憶部、 139r…共通語句割合計算部。

Claims (16)

    【特許請求の範囲】
  1. 【請求項1】 先取りすべき関連文書の転送を要求する
    文書要求装置において、 要求に応じて転送されてくる第1の文書から、当該第1
    の文書のリンク先にある第2の文書を指定する識別子を
    抽出する手段と、 抽出された前記識別子で指定される前記第2の文書と、
    基準となる所定の文書との間の関連性の度合いを判別す
    る手段とを具備し、前記関連性の度合いが所定の度合い
    よりも大きい場合には前記第2の文書は前記関連文書の
    うちの一つに該当するとみなされることを特徴とする文
    書要求装置。
  2. 【請求項2】 HTML(Hyper Text Markup Language)
    形式で記述される先取りすべき関連文書の転送をサーバ
    装置に要求するクライアント装置において、 要求に応じて前記サーバ装置より転送されてくる第1の
    文書から、当該第1の文書のリンク先にある第2の文書
    を指定するURL(Uniform Resource Locator)を抽出す
    る手段と、 抽出された前記URLで指定される前記第2の文書と、
    基準となる所定の文書との間の関連性の度合いを判別す
    る手段とを具備し、前記関連性の度合いが所定の度合い
    よりも大きい場合には前記第2の文書は前記関連文書の
    うちの一つに該当するとみなされることを特徴とするク
    ライアント装置。
  3. 【請求項3】 先取りすべき関連文書の転送を要求する
    文書要求装置において、 要求に応じて転送されてくる第1の文書から、当該第1
    の文書のリンク先にある第2の文書を指定する識別子を
    抽出する手段と、 抽出された前記識別子で指定される第2の文書と、基準
    となる所定の文書との間のリンクの深さを判別する手段
    と、 前記リンクの深さが所定値よりも小さい場合には、前記
    第2の文書の転送を要求する手段とを具備し、前記リン
    クの深さが所定値よりも小さい場合には前記第2の文書
    は前記関連文書のうちの一つに該当するとみなされるこ
    とを特徴とする文書要求装置。
  4. 【請求項4】 前記判別手段は、前記第2の文書が前記
    基準となる所定の文書から何段目の階層にあるかを示す
    段数をカウントする段数カウンタを有することを特徴と
    する請求項3記載の文書要求装置。
  5. 【請求項5】 前記段数カウンタにより示される段数が
    所定値より小さい場合には、前記第2の文書は前記関連
    文書のうちの一つに該当するとみなされることを特徴と
    する請求項4記載の文書要求装置。
  6. 【請求項6】 先取りすべき関連文書の転送を要求する
    文書要求装置において、 要求に応じて転送されてくる第1の文書から、当該第1
    の文書のリンク先にある第2の文書を指定する識別子を
    抽出する手段と、 抽出された前記識別子で指定される前記第2の文書の転
    送を要求する手段と、 この要求に応じて転送されてくる第2の文書と、基準と
    なる所定の文書との間の類似度を判別する手段とを具備
    し、前記類似度が所定値よりも大きい場合には前記第2
    の文書は前記関連文書のうちの一つに該当するとみなさ
    れることを特徴とする文書要求装置。
  7. 【請求項7】 前記判別手段は、前記第2の文書と前記
    基準となる所定の文書との間で共通する又は類似する語
    の割合を計算する手段を有することを特徴とする請求項
    6記載の文書要求装置。
  8. 【請求項8】 前記計算手段により示される割合が所定
    値より大きい場合には、前記第2の文書は前記関連文書
    のうちの一つに該当するとみなされることを特徴とする
    請求項7記載の文書要求装置。
  9. 【請求項9】 関連文書の転送を要求する文書要求装置
    に適用される関連文書の先取り方法において、 要求に応じて転送されてくる第1の文書から、当該第1
    の文書のリンク先にある第2の文書を指定する識別子を
    抽出するステップと、 抽出された前記識別子で指定される前記第2の文書と、
    基準となる所定の文書との間の関連性の度合いを判別す
    るステップとを有し、前記関連性の度合いが所定の度合
    いよりも大きい場合には前記第2の文書は前記関連文書
    のうちの一つに該当するとみなされることを特徴とする
    関連文書の先取り方法。
  10. 【請求項10】 HTML(Hyper Text Markup Languag
    e)形式で記述される関連文書の転送をサーバ装置に要求
    するクライアント装置に適用される関連文書の先取り方
    法において、 要求に応じて前記サーバ装置より転送されてくる第1の
    文書から、当該第1の文書のリンク先にある第2の文書
    を指定するURL(Uniform Resource Locator)を抽出す
    るステップと、 抽出された前記URLで指定される前記第2の文書と、
    基準となる所定の文書との間の関連性の度合いを判別す
    るステップとを有し、前記関連性の度合いが所定の度合
    いよりも大きい場合には前記第2の文書は前記関連文書
    のうちの一つに該当するとみなされることを特徴とする
    関連文書の先取り方法。
  11. 【請求項11】 関連文書の転送を要求する文書要求装
    置に適用される関連文書の先取り方法において、 要求に応じて転送されてくる第1の文書から、当該第1
    の文書のリンク先にある第2の文書を指定する識別子を
    抽出するステップと、 抽出された前記識別子で指定される第2の文書と、基準
    となる所定の文書との間のリンクの深さを判別するステ
    ップと、 前記リンクの深さが所定値よりも小さい場合には、前記
    第2の文書の転送を要求するステップとを有し、前記リ
    ンクの深さが所定値よりも小さい場合には前記第2の文
    書は前記関連文書のうちの一つに該当するとみなされる
    ことを特徴とする関連文書の先取り方法。
  12. 【請求項12】 前記判別ステップは、前記第2の文書
    が前記基準となる所定の文書から何段目の階層にあるか
    を示す段数をカウントするステップを有することを特徴
    とする請求項11記載の関連文書の先取り方法。
  13. 【請求項13】 前記カウントステップにおける段数が
    所定値より小さい場合には、前記第2の文書は前記関連
    文書のうちの一つに該当するとみなされることを特徴と
    する請求項12記載の関連文書の先取り方法。
  14. 【請求項14】 関連文書の転送を要求する文書要求装
    置に適用される関連文書の先取り方法において、 要求に応じて転送されてくる第1の文書から、当該第1
    の文書のリンク先にある第2の文書を指定する識別子を
    抽出するステップと、 抽出された前記識別子で指定される前記第2の文書の転
    送を要求するステップと、 この要求に応じて転送されてくる第2の文書と、基準と
    なる所定の文書との間の類似度を判別するステップとを
    有し、前記類似度が所定値よりも大きい場合には前記第
    2の文書は前記関連文書のうちの一つに該当するとみな
    されることを特徴とする関連文書の先取り方法。
  15. 【請求項15】 前記判別ステップは、前記第2の文書
    と前記基準となる所定の文書との間で共通する又は類似
    する語の割合を計算するステップを有することを特徴と
    する請求項14記載の関連文書の先取り方法。
  16. 【請求項16】 前記計算ステップにおける割合が所定
    値より大きい場合には、前記第2の文書は前記関連文書
    のうちの一つに該当するとみなされることを特徴とする
    請求項15記載の関連文書の先取り方法。
JP24288697A 1996-09-06 1997-09-08 文書要求装置および関連文書の先取り方法 Expired - Fee Related JP3486077B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP24288697A JP3486077B2 (ja) 1996-09-06 1997-09-08 文書要求装置および関連文書の先取り方法

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP23645096 1996-09-06
JP8-236450 1996-09-06
JP24288697A JP3486077B2 (ja) 1996-09-06 1997-09-08 文書要求装置および関連文書の先取り方法

Publications (2)

Publication Number Publication Date
JPH10134087A true JPH10134087A (ja) 1998-05-22
JP3486077B2 JP3486077B2 (ja) 2004-01-13

Family

ID=26532684

Family Applications (1)

Application Number Title Priority Date Filing Date
JP24288697A Expired - Fee Related JP3486077B2 (ja) 1996-09-06 1997-09-08 文書要求装置および関連文書の先取り方法

Country Status (1)

Country Link
JP (1) JP3486077B2 (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000132481A (ja) * 1998-10-22 2000-05-12 Sharp Corp 情報取得装置および方法ならびに情報取得制御プログラムを記憶した媒体
JP2000250803A (ja) * 1999-03-02 2000-09-14 Toshiba Corp 情報配信システム、移動計算機、情報サーバ装置、キャッシュサーバ装置及び先読みキャッシュ処理方法
JP2000331016A (ja) * 1999-05-19 2000-11-30 Nippon Telegr & Teleph Corp <Ntt> 関連文書検索方法および装置、その方法を記録した記録媒体
JP2000331017A (ja) * 1999-05-19 2000-11-30 Nippon Telegr & Teleph Corp <Ntt> 文書間関連度計算装置、その方法およびその記録媒体
JP2004171215A (ja) * 2002-11-19 2004-06-17 Yamatake Corp 文書管理装置
JP2007200194A (ja) * 2006-01-30 2007-08-09 Kyocera Corp ウェブページの表示方法およびブラウザ装置、並びにウェブページ表示プログラム
US7707502B2 (en) 2004-02-27 2010-04-27 International Business Machines Corporation Method to manage speaker notes in a computer implemented slide show

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07129602A (ja) * 1993-10-29 1995-05-19 C Ee C:Kk 文書検索装置および方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07129602A (ja) * 1993-10-29 1995-05-19 C Ee C:Kk 文書検索装置および方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000132481A (ja) * 1998-10-22 2000-05-12 Sharp Corp 情報取得装置および方法ならびに情報取得制御プログラムを記憶した媒体
JP2000250803A (ja) * 1999-03-02 2000-09-14 Toshiba Corp 情報配信システム、移動計算機、情報サーバ装置、キャッシュサーバ装置及び先読みキャッシュ処理方法
JP2000331016A (ja) * 1999-05-19 2000-11-30 Nippon Telegr & Teleph Corp <Ntt> 関連文書検索方法および装置、その方法を記録した記録媒体
JP2000331017A (ja) * 1999-05-19 2000-11-30 Nippon Telegr & Teleph Corp <Ntt> 文書間関連度計算装置、その方法およびその記録媒体
JP2004171215A (ja) * 2002-11-19 2004-06-17 Yamatake Corp 文書管理装置
US7707502B2 (en) 2004-02-27 2010-04-27 International Business Machines Corporation Method to manage speaker notes in a computer implemented slide show
JP2007200194A (ja) * 2006-01-30 2007-08-09 Kyocera Corp ウェブページの表示方法およびブラウザ装置、並びにウェブページ表示プログラム

Also Published As

Publication number Publication date
JP3486077B2 (ja) 2004-01-13

Similar Documents

Publication Publication Date Title
EP1428139B1 (en) System and method for extracting content for submission to a search engine
US8204881B2 (en) Information search, retrieval and distillation into knowledge objects
US9223895B2 (en) System and method for contextual commands in a search results page
JPH0981445A (ja) 情報管理装置
US6144973A (en) Document requesting system and method of receiving related document in advance
JP2008204454A (ja) 文書に注釈を付するシステムと方法
JP2006065395A (ja) ハイパーリンク生成装置、ハイパーリンク生成方法及びハイパーリンク生成プログラム
US6829619B1 (en) Information providing server
US20150012533A1 (en) Method and client device for accessing webpage
WO2015000342A1 (en) Method and client device for accessing webpage
JP2006522382A (ja) 検索エンジンで登録されたウェブサイトを管理するための方法およびそのシステム
JP2008134906A (ja) 業務プロセス定義生成方法、装置及びプログラム
JPH10134087A (ja) 文書要求装置および関連文書の先取り方法
US20090313558A1 (en) Semantic Image Collection Visualization
JP2006146824A (ja) 情報表示方法、情報表示システム、中継装置、情報表示装置及びコンピュータプログラム
JP2004246422A (ja) 情報検索支援装置
JP2009251655A (ja) フィルタリング装置、フィルタリング方法、プログラムおよび記録媒体
KR100487858B1 (ko) 지능형 맞춤 정보 제공 시스템, 방법 및 컴퓨터로 읽을 수있는 기록매체
JPH11312172A (ja) 情報処理装置及び方法並びにその制御プログラムを記憶した媒体
JP2002082936A (ja) コンテンツデータ表示装置とコンテンツデータ表示システム
CN107004014A (zh) 有效地发现并且表面化内容属性
KR101746594B1 (ko) 웹 크롤러 기반 사용자 검색이력 추종 학습형 사용자 맞춤 검색정보 푸쉬 제공시스템
JPH10260992A (ja) データベース処理装置および記憶媒体
JP2005004631A (ja) ウェブリソース再編成によるウェブ利用学習支援方法、ウェブリソース再構成装置、およびプログラム
JP2001022788A (ja) 情報検索装置および情報検索プログラムを記録した記録媒体

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081024

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081024

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091024

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101024

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111024

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111024

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121024

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131024

Year of fee payment: 10

LAPS Cancellation because of no payment of annual fees