JP3612185B2 - 文書情報更新監視装置 - Google Patents

文書情報更新監視装置 Download PDF

Info

Publication number
JP3612185B2
JP3612185B2 JP24910197A JP24910197A JP3612185B2 JP 3612185 B2 JP3612185 B2 JP 3612185B2 JP 24910197 A JP24910197 A JP 24910197A JP 24910197 A JP24910197 A JP 24910197A JP 3612185 B2 JP3612185 B2 JP 3612185B2
Authority
JP
Japan
Prior art keywords
document
update
address
information
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP24910197A
Other languages
English (en)
Other versions
JPH10143418A (ja
Inventor
一男 住田
信宏 下郡
龍也 上原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP24910197A priority Critical patent/JP3612185B2/ja
Publication of JPH10143418A publication Critical patent/JPH10143418A/ja
Application granted granted Critical
Publication of JP3612185B2 publication Critical patent/JP3612185B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【0001】
【発明の属する技術分野】
この発明は、予め指定された少なくとも一つ以上の文書の中から更新の施された文書を検出して利用者に通知する文書情報更新監視装置および文書情報の更新監視方法に関する。
【0002】
【従来の技術】
近年、インターネットの普及は目覚ましいものがあり、世界中に点在する計算機に格納された情報が、インターネットに接続されてさえいれば、どこからでも簡単にアクセスできるようになってきている。特に、WWW(World Wide Web)では、HTTP(HyperText Transfer Protocol)を用いることにより、利用者が、世界中の情報をGUI(Graphical User Interface)ベースのブラウザによって簡単にアクセスできる仕組みを提供している。
【0003】
WWWでは、ある計算機上でhttpdと呼ばれるソフトウェアを用いる。このソフトウェアは、その計算機のデータベースに格納されているHTML(HyperText Markup Language)で記述したハイパーテキストファイルを、他の計算機からの要求に応じて転送するものである。インターネットに接続されている計算機は、転送を要求するハイパーテキストファイルが存在するhttpdに対し、ハイパーテキストファイルのアドレスを指定することによって、指定したファイルを読み込むことができる。HTMLの記述では、ハイパーテキストファイル内のリンク情報として、前記アドレスが記述されるので、HTTPのプロトコルにしたがったブラウザは、各httpd支配下のハイパーテキストファイルを表示することができる。そして、音声、静止画、動画など様々なデータを出力できるようにすることによって、マルチメディアデータを含むハイパーテキストを、ブラウザは表示することができる。
【0004】
このWWWの仕組みにより、利用者は、より簡単にインターネット上の情報にアクセスできるようになり、多くの個人や企業が、Webページと呼はれるハイパーテキストファイルを公開するようになってきている。
【0005】
しかしながら、WWWではデータベースの管理者がおらず、個々人がそれぞれ勝手にWebページを作成および修正し、しかもその規模が膨大であるために(1996年度初頭における世界中で公開されているWebページは4000万ページと推定されている)、個々の利用者が自らが必要とするWebページがどこにあるか(URLアドレスとして何を指定すれば必要なWebページを取得できるか)を知ることが困難な状況になっている。また、更新の頻度や時間帯も、それぞれがばらばらに行なわれているといった状況である。
【0006】
このため、最近では、アクセス可能なWebページを内容ベースで検索するシステムが開発され、検索を代行するようなサービスが提供されるようになってきた。具体的には、Yahoo、LycosおよびAltavistaなどといったWeb検索サーバが存在する。Web検索サーバでは、キーワードを指定することによって、そのキーワードを含むWebページを検索することができる。利用者は、これらWeb検索サーバを用いて必要なWebページを検索する。
【0007】
しかし、このようにWeb検索サーバを用いることによってオンラインで必要な情報を容易に検索できるようになったものの、これは利用者が能動的に必要な情報を検索指示した場合にのみ得られるのであって、利用者が関心・興味をいだいている情報が新しく作成された際に利用者が検索指示を行なわなければ、たとえ重要な情報であったとしても、その利用者がその情報を知ることはない。したがって、利用者が関心・興味のある情報が発生したときに、その旨を適切な利用者に知らしめるシステムが必要である。
【0008】
このような要請から、たとえば膨大な数のWebページの中から所望のWebページを予めユーザに選択させ、この選択された範囲内でWebページ内の情報を監視し、その更新を検出する情報フィルタリング装置などが考え出されてきている。しかしながら、これらは、各Webページの更新をページ単位でのみ監視するにすぎないものであった。Webページは、文書同士がリンクで結合されており、ハイパーテキストを構成している点に特徴がある。すなわち、Webページは、1つの文書だけでは情報の価値が小さく、複数の文書群によって意味のある情報単位となる。したがって、Webページそれぞれを個別に監視するのみでは、有効な更新検出を実現することができなかった。
【0009】
なお、Webページは、図32に示すように、HTMLに基づいた記述がされており、他の文書の参照は、図中の(a)に指示したように、その格納されている文書のアドレスを設定する規約となっている。
【0010】
【発明が解決しようとする課題】
このような構造をもつWWWのWebページに対する従来の更新監視には、以下のような問題が存在した。
【0011】
(1)情報が更新されることを監視する文書を文書群として指定することができず、更新を通知する際も文書群としての通知が可能ではなかった。
【0012】
(2)Webページの更新は不定期に行なわれる。したがって、定期的に更新を検査した場合、更新の検出が検査の間隔でしか検知できない。
【0013】
(3)まったく更新されないWebページの更新を監視しても無意味であるが、現状ではこのようなWebページの更新をも監視してしまう。
【0014】
(4)削除されたWebページの更新を監視しても無意味であるが、現状では削除されたWebページについても更新を監視してしまう。
【0015】
(5)Webページは格納場所を変更することがあるが、格納場所が変更された場合に、新しい格納場所に監視先を変更するという再設定を必要とする。
【0016】
(6)Webページでは、互いに参照が行なわれるため、他のWebページから参照されているという情報は重要な情報であるが、このような情報を通知することが現状では不可能である。
【0017】
この発明はこのような実情に鑑みてなされたものであり、たとえばWebページのように非定期的に更新され、かつハイパーテキスト構造をもつ文書の更新を効率的に検出して通知することを可能とする文書情報更新監視装置を提供することを目的とする。
【0018】
【課題を解決するための手段】
この発明の文書情報更新監視装置は、通信ネットワークを介して他の計算機が管理する記憶領域に格納された情報にアクセスするための回線入出力手段と、他の計算機が管理する記憶領域に格納された文書の中で監視対象とする文書の格納位置を示すアドレスおよび前記文書を起点に階層的な構造をなす文書群を指定する文書指定手段と、前記文書指定手段により指定された各文書についての更新情報を前記回線入力手段により取得し、この取得した更新情報をもとに前記文書指定手段によって指定された少なくとも一つ以上の文書の中から更新の施された文書を検出する更新検出手段と、この更新検出手段によって検出された文書を、その文書を含んで構成される文書群の階層構造と対応づけて表示する通知手段とを具備し、前記通知手段は、前記文書群を表示する際、前記更新が検出されなかった文書については省略記号を用いて、更新が検出された文書との階層関係を提示する手段を有することを特徴とする。
【0019】
この発明の文書情報更新監視装置においては、Webページなどのように、複数の文書が互いに関連づけられて一つの情報を示すような構成をもつものに対して、この文書群に含まれる文書すべてを個々に監視対象として設定することなく文書群を組として一括で指定することを可能とする。一方、この文書群に含まれるいずれかの文書の更新が検出されたときは、この文書を、その文書を含んで構成される文書群の階層構造と対応づけて通知する。この通知は、たとえばその文書を含んで構成される文書群の階層構造と対応づけて表示するなどといったことが好ましい。したがって、利用者の設定操作動作を大幅に削減して操作性を飛躍的に向上させるとともに、その検出結果をより効果的に提示することができ、作業効率を向上させることが可能となる。
【0020】
また、この発明の文書情報更新監視装置は、前記文書指定手段によって指定された文書それぞれの更新時期を予測する更新時期予測手段をさらに具備し、前記更新検出手段は、前記更新時期予測手段によって予測された時期にしたがって、前記文書指定手段によって指定された文書の中から処理対象とする文書を選定する手段を具備してなることを特徴とする。
【0021】
情報の更新(新たな情報の提供)は、たとえば日次、週次または月次などといったように、情報ごとにある程度定まった周期をもつことが多い。したがって、情報ごとに更新時期に関する傾向を分析すれば、利用者によって設定された文書すべてについて、すなわち、更新されている可能性の著しく低い文書を含めて毎回検査するといった無駄な処理を排除でき、より効率的な更新監視を実現できることになる。
【0022】
また、この発明の文書情報更新監視装置は、前記文書指定手段によって指定された文書それぞれの最終更新時刻を記憶する最終更新時刻記憶手段と、前記最終更新時刻記憶手段に記憶された最終更新時刻からの経過時間が予め定められたしきい値を越えている文書の格納位置を示すアドレスを、前記文書指定手段による指定から削除する指定削除手段とをさらに具備してなることを特徴とする。
【0023】
この発明の文書情報更新監視装置においては、予め定められた期間を越えて参照されていない文書をすでに不要となった情報と位置づけ、自動的に監視対象から削除する。これにより、不必要な検査動作を能動的に削減することができることになり、一方で、利用者による不要文書の設定削除操作を不要とし、その使い勝手を向上させることができる。
【0024】
なお、たとえば監視対象とする文書自体が削除されたときや、その格納位置が変更されたときに応じて、監視対象を示す設定内容を管理する手段を具備することが好ましい。これにより、利用者による設定内容の管理作業を不要とすることができ、さらにその使い勝手を向上させることができる。
【0027】
【発明の実施の形態】
以下、図面を参照してこの発明の実施の形態について説明する。
【0028】
(第1実施形態)
まず、この発明の第1の実施形態について説明する。図1に、本実施形態の文書情報更新監視システムの機器構成を示す。図1に示したように、この文書情報更新監視システムは、オペレーティングシステムやユーティリティを含む各種アプリケーションプログラム(文書情報の更新管理を行なうプログラムもこれらに含まれる)を実行制御するCPU1、アプリケーションプログラムや各種データを格納する記憶部2、および通信ネットワークを介して他の計算機が管理する記憶領域に格納された情報にアクセスするための回線入出力部3からなる。
【0029】
図2に、本実施形態の文書情報更新監視システムの機能ブロックを示す。図2に示したように、この文書情報更新監視システムは、文書指定部11、監視文書アドレス記憶部12、更新検出部13、文書情報更新記憶部14および文書情報更新通知部15を備えてなる。
【0030】
文書指定部11は、更新を監視する文書の格納されたアドレスを指定する。監視文書アドレス記憶部12は、文書指定部11で指定された文書のアドレスを格納する。更新検出部13は、監視文書アドレス記憶部12に格納された文書が更新されたか否かを判定する。文書情報更新記憶部14は、更新が検出された文書のアドレスを格納する。そして、文書情報更新通知部15は、更新された文書を通知する。
【0031】
ここで、図3を参照して更新検出部13の処理の流れを説明する。更新検出部13は、監視文書アドレス記憶部12に格納された各アドレスごとに更新時刻を入手し(ステップA1)、その更新時刻が前回の更新検出処理を実行した時点より最近であったときに(ステップA2のY)、この文書のアドレスを文書情報更新記憶部14に記憶する。
【0032】
なお、文書指定部11は、ユーザが入力したアドレスを監視文書アドレス記憶部12に格納する。そして、文書情報更新通知部15は、文書情報更新記憶部14に格納されたアドレスに対応する文書一覧を作成する。
【0033】
ここで、監視文書アドレス記憶部12の形式を図4に示す。図4に示したように、監視文書アドレス記憶部12は、更新を監視する文書群の最上位のアドレスおよびその文書が参照する文書のアドレスを設定するトップノード参照関係テーブル(a)と、それ以下の文書のアドレスとその文書が参照する文書のアドレスを設定する子ノード参照関係テーブル(b)からなっている。
【0034】
文書監視アドレス記憶部15の形式は、開示した形式にとらわれるものではなく、要するに更新を監視する文書の文書群を文書群として、その階層関係を含めて記憶できる形式であればよいことは言うまでもない。以下では、文書監視アドレスを記憶するものとして説明を行なう。
【0035】
図5に文書指定部11の処理の流れを示す。文書指定部11では、利用者からのコマンド入力を受け付け(ステップB1)、そのコマンドが挿入コマンドであるときに(ステップB3のY)、この文書群のトップノードのアドレスを入力することをユーザに求め(ステップB4〜ステップB5)、さらに、階層としてたどるリンクの段数を入力させる(ステップB6)。そして、文書指定部11は、入力されたアドレスと段数とを引数にして、監視アドレスの設定を行なう(ステップB7)。なお、監視すべき文書のアドレスを入力する際には、必ずしも利用者が直接入力する必要はない。たとえば、文書表示システムと連動している場合には、表示している文書を指定することによって、監視する文書アドレスの入力とすることも可能である。
【0036】
この文書指定部11で入力されたトップノードアドレスと入力段数とにしたがって、監視すべき文書のアドレスを監視文書アドレス記憶部12に設定する。この処理を行なう監視アドレスの設定の処理の流れを図6に示す。
【0037】
監視アドレスの設定では、トップノードと段数とを入力として処理を行なう。入力されたアドレスに格納されている文書を読み込んだ後(ステップC1)、そのアドレスを図4(a)に示したトップノード参照関係テーブルに格納する(ステップC2)。初めて設定する場合は、トップノードアドレス1に、2度目に設定する場合は、トップノードアドレス2に格納することになる。以降順次、後続する箇所に格納する。たとえば、入力されたアドレスが「http://www.ccc.bbb.aaaaaa.co.jp/index.html」であって、初めて設定されるアドレスとして格納されたと仮定すると、「http://www.ccc.bbb.aaaaaaa.co.jp/index.html」をトップノードアドレス1に格納することになる。
【0038】
監視する段数が1より大きい場合(ステップC4のN)、トップノードから子ノードへと階層をたどり、監視アドレスを入手していく。まず始めに、読み込んだ文書で参照している文書のアドレスをすべて抽出し(ステップC5)、抽出したアドレスとその個数をトップノード参照関係テーブルに格納する(ステップC6)。次に、抽出した各文書アドレスについて、子ノード参照関係の設定サブルーチンを、抽出したアドレスの個数だけ繰り返し実行する(ステップC7〜ステップC8)。この際の引数は、段数を1減じた値と文書アドレスである。
【0039】
たとえば、図32で示した文書が、入力されたトップノードアドレスに対応する文書であったと仮定すると、図7に示したアドレスがトップノード参照関係テーブルに格納される子ノードに相当する。したがって、この場合には、
Figure 0003612185
がそれぞれ格納されることになる。
【0040】
そして、これらのすべての子ノードアドレスに対して、再帰的なアドレスを子ノード参照関係テーブルに順次格納していく。この処理を行なう子ノード参照関係の設定サブルーチンは、再帰的な処理であり、図6で説明した監視アドレス設定処理と同様に、対象とする文書で参照している文書のアドレスを取り出して、順次、子ノード参照関係テーブルに設定していくものである。この処理の流れを図8に示す。
【0041】
子ノード参照関係の設定サブルーチンでは、入力された段数が1以下であった場合(ステップD1のY)、すでに監視すべき文書の階層の範囲を越えていることを意味するので、何もせずに処理を終える。段数が1を越えている場合(ステップD1のN)、入力された文書アドレスを、図4(b)に示した子ノード参照関係テーブルに格納する。次に、入力されたアドレスの文書を読み込み、その文書で参照している文書のアドレスを抽出する(ステップD3)。そして、その抽出したアドレスの個数と、そのアドレス自体とを子ノード参照関係テーブルに格納する(ステップD4)。次に、抽出した各文書アドレスについて子ノード参照関係の設定サブルーチンを、抽出したアドレスの個数だけ繰り返し実行する(ステップD5〜ステップD6)。この際の引数は、段数を1減じた値と文書アドレスである。
【0042】
説明を分かりやすくするために、階層構造にループ(参照している子ノードを順次たどっていくと、元の文書に戻ってしまうような参照関係)が存在していることのチェックなどは行なっていない。このため、図示した処理では、監視アドレスとして2重に登録される無駄が生じる可能性もある。しかしながら、たとえば、すでに設定した監視アドレスを参照し、2重に登録されないように処理を変更することなどはごく容易である。
【0043】
また、監視アドレスの削除については図示していないが、指定されたアドレスから辿れる子ノードを含めて、この監視文書アドレス記憶部12から削除するものである。
【0044】
次に、更新検出部13の処理の流れを図9および図10に示す。更新検出部13では、監視文書アドレス記憶部12に記憶されたトップノード参照関係テーブルに格納される各トップノードの文書アドレスごとに、以下の処理を繰り返し行なう(ステップE2)。
【0045】
まず始めに、対象とする文書アドレスの文書の更新時刻を読み込んで(ステップE3)、そのトップノードの文書アドレスを文書情報更新記憶部14に格納する(ステップE4)。更新時刻が前回の更新検出処理の実行時刻より最近であった場合には(ステップE5のY)、変更フラグをセットするが(ステップE6)、一方、それ以前であった場合には(ステップE5のN)、変更フラグはセットしない。次に、そのトップノードに対応して監視文書アドレス記憶部12に格納されている各子ノードについて、子ノード更新検出処理を繰り返し行なう(ステップE8〜ステップE9)。この際の引数は、子ノードのアドレスである。
【0046】
図10に示す子ノード更新検出処理では、入力された文書アドレスの文書の更新時刻を読み込み(ステップG2)、さらにそのアドレスを文書情報更新記憶部14に格納する(ステップG3)。そして、更新時刻が前回の更新検出時より最近であるか否かにしたがって(ステップG4)、そのアドレスの文書が変更されたか否かの情報を変更フラグに設定する。なお、前回の更新検出時刻については図示していないが、これも文書情報更新記憶部14に格納するものとする。そして、監視文書アドレス記憶部12内に入力された文書アドレスに対応する子ノードが存在する場合に限って、その各子ノードごとに、子ノード更新検出処理を再帰的に呼び出すことにより、再帰的に文書の更新状況をチェックし、その結果を文書アドレスに対応する変更フラグに設定していく。
【0047】
ここでは、監視文書アドレス記憶部12に文書の参照関係の階層をたどっていくための情報を記憶している。更新時刻だけを入手するために文書内容を読み込む必要なく、更新時刻のチェックを効率よく行なうためである。処理の効率を無視すれば、トップノードと監視する段数のみを監視文書アドレス記憶部12に格納し、更新検出を行なうときに、文書を実際に読み込みながら階層をたどって行くように変更することも可能である。
【0048】
文書情報更新記憶部14のデータの形式を図11に示す。図11に示したように、文書情報更新記憶部14のデータは、文書間の階層関係とともに、変更があった文書について値を設定する変更フラグからなっている。
【0049】
更新情報通知部15の処理の流れを図12および図13に示す。文書情報更新通知部15では、更新されている文書の通知を階層的に行なう。また、文書情報更新記憶部14に変更フラグが設定されているアドレスの文書については見出しを表示し、それ以外の文書については省略記号を表示するものとする。この結果、図14に示すように、更新された文書を、その構造に対応させて得ることができることになる。図14(a)の例では、「文書A」がトップノードであり、「見出しA」は「文書A」の見出しである。また、この例は、トップノードの「文書A」が「文書C」を、「文書C」が「文書D」を、「文書D」が「文書B」をそれぞれ参照していることを仮定し、さらに、「文書B」は、更新が検出された文書(変更フラグが設定されたアドレスに対応する文書)であることを仮定した場合の表示である。
【0050】
「見出しB」は、「文書B」の見出しである。トップノード(「文書A」)の見出しと、変更が検出された文書Bの見出しとが表示され、それ以外の「文書C」と「文書D」(更新が検出されなかった文書)については、省略記号(□)によって階層関係が提示されている。また、「文書A」が参照するそれ以外の文書についても更新が検出されなかったものとして、省略記号(…)が表示されている。
【0051】
一方、図14(b)に示す例では、トップノードの文書(見出しが「Overview of WWW.ccc.bbb.aaaaaaa.co.jp」)から2つの文書を経由して参照している文書(見出しが「出張者報告」)が変更され、「全国大会(1996/5/1)の報告」という見出しの文書が追加されたことを示している。
【0052】
(第2実施形態)
次に、この発明の第2の実施形態について説明する。図15に本実施形態の文書情報更新監視システムの機能ブロックを示す。図2に示した機能ブロックとの相違は、更新時刻予測部16が付加されている点にある。また、文書情報更新記憶部14において、各文書の更新時刻が格納できるように拡張する。
【0053】
更新時刻予測部16では、文書指定部11によって設定された文書アドレスの文書について更新時間を取り出し、その更新時間の履歴から各文書がいつ頃更新されるかの予測を行なう。図16では説明を分かりやすくするために、この処理を簡略化して示している。すなわち、監視文書の更新時刻を取り出し(ステップI1)、その更新時刻とこれまで入手した更新時刻の履歴(不図示)とから、最頻値の時刻を更新予測時刻とするものである(ステップI2)。なお、監視文書の更新時刻の取り出しについては、図9および図10で示した更新検出部13の処理において、各文書の更新時刻を読み込んだ際に、その更新時刻を、図17(b)に示したように、文書情報更新記憶部14の対応する箇所に格納すればよい(図17(a)は更新時刻予測値記憶部17の記憶形式を示す)。
【0054】
最頻値を取る場合、カウントを取る範囲を設定する必要がある。たとえば、時間単位で更新時刻の頻度をカウントする場合、時間以下の単位(分や秒)や曜日を無視してカウントすることになり、最大の頻度を有する時間帯が更新時刻の予測値となる。また、曜日単位で更新時刻をカウントした場合には、時間や分、秒を無視して頻度をカウントし、最大の頻度を有する曜日が更新時刻の予測値となる。このように、各監視文書アドレスごとに予測更新時刻を求める。そして、これら各文書アドレスごとの予測更新時刻から、文書群全体の更新時刻の値を予測する。これについては、たとえば、全体の平均値を取ることによって監視する文書群の更新時刻の予測値とする。
【0055】
図16では、説明を分かりやすくするために処理を簡略化しているが、監視文書は階層をなしているので、その階層をなすすべての文書に対して更新時刻を取り出し、その更新時刻から最頻値を求めることになる。そして、この求めた更新時刻は、更新時刻予測値記憶部17に格納する。更新時刻予測値記憶部17は、図17(a)に示したように、監視する文書群ごとに、そのトップノードのアドレスと予測時刻とがペアで記憶される形式になっている。
【0056】
更新時刻予測部16では、この更新時刻予測値記憶部17に格納された各文書群の予測時刻にしたがって、その時刻から一定の時刻経過した後に、その文書群に対して更新検出処理を起動する。これにより、最近の更新状況を取り出すことができる確率が大きくなる。
【0057】
本実施形態では、更新時刻予測部16として、更新検出部13と別モジュールで構成する例を示した。しかしながら、更新時刻予測部16の処理の大半は、監視文書アドレス記憶部12に設定された文書の更新時刻を取り出すことであり、更新検出部13とほとんど同じ処理をしていることになる。したがって、更新検出部13の処理過程で、同時に更新時間の予測を行なうように変形することは容易である。
【0058】
(第3実施形態)
次に、この発明の第3の実施形態について説明する。図18に本実施形態の文書情報更新監視システムの機能ブロックを示す。図2に示した機能ブロックとの相違は、最終更新時間監視部18が付加されている点にある。
【0059】
最終更新時間監視部18は、図19に示すように、監視文書の最終更新時刻を取得して(ステップJ1)、この取得した監視文書の最終更新時刻からある一定の期間を経過したか否かをチェックし(ステップJ2)、一定の期間を越えた場合に(ステップJ2のY)、その文書のアドレスを、監視文書アドレス記憶部12から削除する(ステップJ3)といった処理を行なう。
【0060】
図19では説明を分かりやすくするために、この処理を簡略化して示しているが、監視文書は階層をなしているので、その階層をなすすべての文書に対して更新時刻を取り出し、その取り出した更新時刻から最終更新時間をチェックすることになる。
【0061】
本実施形態では、最終更新時間監視部18として、更新検出部13と別モジュールで構成する例を示した。しかしながら、最終更新時間監視部18の処理の大半は、監視文書アドレス記憶部12に設定された文書の更新時刻を取り出すことであり、更新検出部13とほとんど同じ処理をしていることになる。したがって、更新検出部13の処理過程で、同時に最終更新時間のチェックを行なうように変形することは容易である。
【0062】
また、監視文書アドレス記憶部12から、あまり更新が行なわれない文書のアドレスを削除する際に、利用者に対して削除するべきとの警告を発し、その警告にしたがった場合にのみ、そのアドレスを削除するようにしても構わない。
【0063】
(第4実施形態)
次に、この発明の第4の実施形態について説明する。図20に本実施形態の文書情報更新監視システムの機能ブロックを示す。図2に示した機能ブロックとの相違は、文書削除検出部19が付加されている点にある。
【0064】
Webページにおいては、そのWebページの作成者がそのページを削除したり、格納している位置を変更したりすることは日常的に行なわれる。そして、そのように削除されている場合に、そのページを何度も参照しにいくことは無駄な処理である。そこで、本実施形態の文書削除検出部19では、図21に示したように、監視している文書が格納されている位置から削除されている場合に(ステップK1のN)、監視文書アドレス記憶部12から対応する文書アドレスを削除する(ステップK2)。
【0065】
本実施形態では、文書削除検出部19として、更新検出部13と別モジュールで構成した。しかしながら、文書削除検出部19では、監視文書アドレス記憶部12に設定されている文書にアクセスすることで削除されている否かをチェックすることができる。したがって、更新検出部13の処理過程で、同時に処理するように変形することは容易である。
【0066】
また、監視文書アドレス記憶部12から文書アドレスを削除する際に、利用者に対して削除するべきとの警告を発し、その警告にしたがった場合にのみ、そのアドレスを削除するようにしても構わない。
【0067】
(第5実施形態)
次に、この発明の第5の実施形態について説明する。図22に本実施形態の文書情報更新監視システムの機能ブロックを示す。図2に示した機能ブロックとの相違は、新規アドレス抽出部20が付加されている点にある。
【0068】
Web文書は、個人単位で管理が行なわれる。したがって、Webページの管理や整理のために、従来格納していたアドレスから別のアドレスに実体を移す場合が頻繁に起こる。この様子を図23に示す。
【0069】
たとえば、図23(a)に示すように、当初文書1がいわゆるホームページの位置に設定されていたが、そのホームページの管理者が、文書の増大に伴って文書をカテゴリ化し、新たにリンクだけからなる文書((b)の文書5)を作成して、この文書へのリンク情報を文書5内に埋め込んだ場合に相当する。
【0070】
新規アドレス抽出部20は、格納されているアドレスが変更された文書の新規のアドレスを探索し、監視文書アドレス記憶部12の対応するアドレスをその新規アドレスに置き換える処理を行なう。
【0071】
図24および図25に、監視文書アドレス記憶部12に格納されている文書アドレス間の対応関係を用いて新規アドレスを求める処理を示す。図示した処理では、監視文書アドレス記憶部12にこれまでのトップノードが子ノードとして含んでいた文書アドレスが記憶されているので、新規文書から辿れる文書を再帰的に読み込みながら(ステップL1)、この子ノードのアドレスと一致する文書リストを持つ文書を求める(ステップL2(図25のステップM1〜ステップM7))。そして、この文書が格納されているアドレスが新規アドレスということになる。なお、図25のステップM3では参照しているアドレスがまったく同じかどうかをチェックしているが、文書の参照関係が多少修正されている可能性もあるので、ある一定の割合以上の文書数のアドレスが一致していることを条件とするように変形することも可能である。
【0072】
(第6実施形態)
次に、この発明の第6の実施形態について説明する。図26に本実施形態の文書情報更新監視システムの機能ブロックを示す。図2に示した機能ブロックとの相違は、参照文書検出部21が付加されている点にある。
【0073】
参照文書検出部21では、監視文書アドレス記憶部12に設定されている各トップノードを参照している文書を検出する処理を行なう。ある文書を参照している文書を検索する場合、データベース中に格納されているすべての文書を取り出し、各文書ごとにその文書が参照している文書を求めることで、参照元の文書を求めることができる。つまり、参照文書検出部21では、「文書B」内に「文書A」へのリンクを張っている場合に、「文書A」に対して「文書B」が参照しているという逆向きのパスを求める処理を行なう。
【0074】
参照元 対象文書
文書B → 文書A
AltavistaなどのWeb検索サーバでは、高速な検索を実現することが求められる。このために、あらかじめ、Web検索サーバのインデクシングシステムは、WWW上でアクセス可能なサイトを巡回しながらWeb文書をローカルに読み込み、その読み込んだ文書に含まれる文字または単語のインデックスを作成している。そして、そのインデックスにしたがって、入力された検索条件のWeb文書を検索する。ここで、各サイトを巡回しながらWeb文書を読み込むシステムは、一般にネットワークロボットと呼ばれ、Web検索サーバにおいて実際にインデックスを作る際に用いられている。ここではこのネットワークロボットを利用した処理の流れを図27に示す。
【0075】
図27に示した処理は、更新検出部13の内、文書の参照関係を求める処理の部分である。Web文書を一文書ごとに入手しながら、その文書内で参照している文書のアドレスを抽出し(ステップO1)、元文書−参照文書という形式で、図28に示すような参照関係テーブルに格納する(ステップO2)。この参照関係テーブルは、ある文書(元文書)と、その文書が参照している文書(参照文書アドレス)との双方のアドレスを対にして記憶する形式となっている。
【0076】
図29に参照文書検出部21と、参照関係テーブル211および監視文書参照関係テーブル212との関係を示し、図30に参照文書検出部21のうち、監視している文書に対して新たな参照が発生したことをユーザに通知する処理の流れを示す。また、図31に、この監視文書参照関係テーブル212の記憶形式を示す。
【0077】
ある監視文書に対して、監視文書参照関係テーブル212に記述されている参照元文書アドレスと監視文書アドレスとの対に含まれない対が、参照関係テーブルに存在している場合(ステップP1のY)、その元文書アドレスが監視文書に対する新規な参照元文書ということになる。したがって、この検出された対を新たに監視文書参照関係テーブルに格納するとともに、ユーザに検出した旨を通知する(ステップP2)。
【0078】
本実施形態では、文書を読み込まなくても更新時間が取り出せるものとして構成する例を示した。したがって、更新時間が取り出せない文書データベースに対しては、たとえば更新を監視するごとに文書を読み込んで記憶しておき、その記憶した文書との比較を行なうことにより、更新されたか否かを判定するようにしても構わない。
【0079】
また、この発明の手法は、ソフトウェアとして実現可能であるため、CD−ROMやフロッピィディスクなどといった記録媒体によって頒布することが可能である。また、磁気ディスクなどに格納しておき、ネットワークで取り寄せる(ダウンロード)ような形式で頒布することも可能である。
【0080】
【発明の効果】
以上詳述したように、この発明の文書情報更新監視装置によれば、階層的な構造を持つ文書群に対し、利用者の作業量を増加させることなく、その更新を効果的に監視することが可能となる。
【0081】
また、監視対象とする文書すべてを均一に監視するのではなく、その更新傾向を分析し、その分析結果にしたがった監視を実施するので、より効率的に監視することが可能となる。
【0082】
さらに、監視対象とする文書の設定内容を最適化していくために、利用者による再設定などの操作を必要とすることなく、常に最適な更新監視が継続されることになる。
【図面の簡単な説明】
【図1】この発明の第1の実施形態の文書情報更新監視システムの機器構成を示す図。
【図2】同実施形態の文書情報更新監視システムの機能ブロックを示す図。
【図3】同実施形態の更新検出部の処理の流れを説明するフローチャート。
【図4】同実施形態の監視文書アドレス記憶部の形式を示す図。
【図5】同実施形態の文書指定部の処理の流れを示すフローチャート。
【図6】同実施形態の監視アドレスの設定の処理の流れを示すフローチャート。
【図7】同実施形態のトップノード参照関係テーブルに格納される子ノードを示す図。
【図8】同実施形態の子ノード参照関係テーブルの設定の流れを示すフローチャート。
【図9】同実施形態の更新検出部の処理の流れを示すフローチャート。
【図10】同実施形態の更新検出部の処理の流れを示すフローチャート。
【図11】同実施形態の文書情報更新記憶部のデータの形式を示す図。
【図12】同実施形態の更新情報通知部の処理の流れを示すフローチャート。
【図13】同実施形態の更新情報通知部の処理の流れを示すフローチャート。
【図14】同実施形態の更新情報通知部による表示例を示す図。
【図15】この発明の第2の実施形態の文書情報更新監視システムの機能ブロックを示す図。
【図16】同実施形態の更新時刻予測部の処理の流れを示すフローチャート。
【図17】(a)は同実施形態の更新時刻予測値記憶部の記憶形式、(b)は同実施形態の文書情報更新記憶部の記憶形式を示す図。
【図18】この発明の第3の実施形態の文書情報更新監視システムの機能ブロックを示す図。
【図19】同実施形態の最終更新時間監視部の処理の流れを示すフローチャート。
【図20】この発明の第4の実施形態の文書情報更新監視システムの機能ブロックを示す図。
【図21】同実施形態の文書削除検出部の処理の流れを示すフローチャート。
【図22】この発明の第5の実施形態の文書情報更新監視システムの機能ブロックを示す図。
【図23】Webページのアドレスの移動を説明するための図。
【図24】同実施形態の新規アドレス抽出部の処理の流れを示すフローチャート。
【図25】同実施形態の新規アドレス抽出部の処理の流れを示すフローチャート。
【図26】この発明の第6の実施形態の文書情報更新監視システムの機能ブロックを示す図。
【図27】同実施形態の参照文書検出部の処理の流れを示すフローチャート。
【図28】同実施形態の参照関係テーブルの形式を示す図。
【図29】同実施形態の参照文書検出部と、参照関係テーブルおよび監視文書参照関係テーブルとの関係を示す図。
【図30】同実施形態の参照文書検出部が監視している文書に対して新たな参照が発生したことをユーザに通知する処理の流れを示すフローチャート。
【図31】同実施形態の監視文書参照関係テーブルの記憶形式を示す図。
【図32】WebページのHTMLに基づいた記述を例示する図。
【符号の説明】
1…CPU、2…記憶部、3…回線入出力部、11…文書指定部、12…監視文書アドレス記憶部、13…更新検出部、14…文書情報更新記憶部、15…文書情報更新通知部、16…更新時刻予測部、17…更新時刻予測値記憶部、18…最終更新時間監視部、19…文書削除検出部、20…新規アドレス抽出部、21…参照文書検出部。

Claims (5)

  1. 通信ネットワークを介して他の計算機が管理する記憶領域に格納された情報にアクセスするための回線入出力手段と、
    他の計算機が管理する記憶領域に格納された文書の中で監視対象とする文書の格納位置を示すアドレスおよび前記文書を起点に階層的な構造をなす文書群を指定する文書指定手段と、
    前記文書指定手段により指定された各文書についての更新情報を前記回線入力手段により取得し、この取得した更新情報をもとに前記文書指定手段によって指定された少なくとも一つ以上の文書の中から更新の施された文書を検出する更新検出手段と、
    この更新検出手段によって検出された文書を、その文書を含んで構成される文書群の階層構造と対応づけて表示する通知手段と
    を具備し、
    前記通知手段は、前記文書群を表示する際、更新が検出されなかった文書については省略記号を用いて、更新が検出された文書との階層関係を提示する手段を有することを特徴とする文書情報更新監視装置。
  2. 前記文書指定手段によって指定された文書それぞれの更新時期を予測する更新時期予測手段をさらに具備し、
    前記更新検出手段は、前記更新時期予測手段によって予測された時期にしたがって、前記文書指定手段によって指定された文書の中から処理対象とする文書を選定する手段を具備してなることを特徴とする請求項1記載の文書情報更新監視装置。
  3. 前記文書指定手段によって指定された文書それぞれの最終更新時刻を記憶する最終更新時刻記憶手段と、
    前記最終更新時刻記憶手段に記憶された最終更新時刻からの経過時間が予め定められたしきい値を越えている文書の格納位置を示すアドレスを、前記文書指定手段による指定から削除する指定削除手段とをさらに具備してなることを特徴とする請求項1記載の文書情報更新監視装置。
  4. 前記文書指定手段によって指定された文書本体が削除されたことを検出する削除検出手段と、
    前記削除検出手段によっていずれかの文書の本体削除が検出されたときに、その文書の格納位置を示すアドレスを、前記文書指定手段による指定から削除する指定削除手段とをさらに具備してなることを特徴とする請求項1記載の文書情報更新監視装置。
  5. 前記文書指定手段によって指定された文書本体の格納位置が変更されたときに、その変更先のアドレスを検出するアドレス検出手段と、
    前記アドレス検出手段によっていずれかの文書の変更先のアドレスが検出されたときに、前記文書指定手段によって指定されたその文書のアドレスを、前記アドレス検出手段が検出したアドレスに書き換えるアドレス書き換え手段とをさらに具備してなることを特徴とする請求項1記載の文書情報更新監視装置。
JP24910197A 1996-09-13 1997-09-12 文書情報更新監視装置 Expired - Fee Related JP3612185B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP24910197A JP3612185B2 (ja) 1996-09-13 1997-09-12 文書情報更新監視装置

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP24387796 1996-09-13
JP8-243877 1996-09-13
JP24910197A JP3612185B2 (ja) 1996-09-13 1997-09-12 文書情報更新監視装置

Publications (2)

Publication Number Publication Date
JPH10143418A JPH10143418A (ja) 1998-05-29
JP3612185B2 true JP3612185B2 (ja) 2005-01-19

Family

ID=26536475

Family Applications (1)

Application Number Title Priority Date Filing Date
JP24910197A Expired - Fee Related JP3612185B2 (ja) 1996-09-13 1997-09-12 文書情報更新監視装置

Country Status (1)

Country Link
JP (1) JP3612185B2 (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6195696B1 (en) * 1998-10-01 2001-02-27 International Business Machines Corporation Systems, methods and computer program products for assigning, generating and delivering content to intranet users
US6725227B1 (en) * 1998-10-02 2004-04-20 Nec Corporation Advanced web bookmark database system
KR100582501B1 (ko) * 1998-11-19 2006-10-24 엘지전자 주식회사 정보자동검색방법
JP4606548B2 (ja) * 2000-05-25 2011-01-05 富士通株式会社 検索システムのメンテナンス方法及び検索システム
JP2002117073A (ja) * 2000-10-04 2002-04-19 Sharp Corp 新着情報提示方法およびその方法を実行させるプログラムを記録した記録媒体ならびにそのプログラムを実行するコンピュータ
JP4494878B2 (ja) * 2004-06-21 2010-06-30 三菱電機株式会社 データ管理装置及びデータ管理方法及びプログラム
JP2006072626A (ja) * 2004-09-01 2006-03-16 Fuji Xerox Co Ltd 文書管理装置および方法およびプログラム
JP4584084B2 (ja) * 2005-09-06 2010-11-17 アルパイン株式会社 情報付加システム及び携帯通信端末
JP2008090369A (ja) * 2006-09-29 2008-04-17 Sharp Corp コンテンツ受信装置およびコンテンツ受信方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0535797A (ja) * 1991-07-26 1993-02-12 Matsushita Electric Ind Co Ltd 情報検索装置
JP3296365B2 (ja) * 1992-02-12 2002-06-24 富士ゼロックス株式会社 ハイパーテキストモデル表示装置及び表示方法
US6366933B1 (en) * 1995-10-27 2002-04-02 At&T Corp. Method and apparatus for tracking and viewing changes on the web
JP3935986B2 (ja) * 1995-12-26 2007-06-27 富士通株式会社 ネットワークにおける情報資源の変化を通知するネットワーク情報資源監視システム
US6092091A (en) * 1996-09-13 2000-07-18 Kabushiki Kaisha Toshiba Device and method for filtering information, device and method for monitoring updated document information and information storage medium used in same devices

Also Published As

Publication number Publication date
JPH10143418A (ja) 1998-05-29

Similar Documents

Publication Publication Date Title
JP3655714B2 (ja) 情報フィルタリング装置及び記録媒体
US6092091A (en) Device and method for filtering information, device and method for monitoring updated document information and information storage medium used in same devices
US6718365B1 (en) Method, system, and program for ordering search results using an importance weighting
JP4025379B2 (ja) 検索システム
Das et al. Creating meaningful data from web logs for improving the impressiveness of a website by using path analysis method
US7454779B2 (en) Method, system and computer program for controlling access in a distributed data processing system
JP5079845B2 (ja) コンテンツナビゲーションプログラム
JP2004062479A (ja) 情報収集装置、方法及びプログラム
JP3612185B2 (ja) 文書情報更新監視装置
JPH09265482A (ja) データベース検索装置及びデータベース検索方法
JP2003016094A (ja) 情報フィルタリングに用いるプロファイル管理方法、および、プロファイル管理プログラム
US20020059223A1 (en) Locator based assisted information browsing
JP4199193B2 (ja) 関連情報管理方法、プログラム及び装置
JP2004206492A (ja) ドキュメント表示方法およびそれを用いたリンク先選択機能付ゲートウェイ装置
JP4253315B2 (ja) 知識情報収集システムおよび知識情報収集方法
JP4445849B2 (ja) ファイル検索方法、ファイル検索装置、および、ファイル検索プログラム
JP3683687B2 (ja) 情報フィルタリング装置および情報フィルタリング方法
JP4606548B2 (ja) 検索システムのメンテナンス方法及び検索システム
Reichert et al. Feeding the world: a comprehensive dataset and analysis of a real world snapshot of web feeds
JP3586272B2 (ja) サーチエンジン、検索システム、および記憶媒体
KR20060075798A (ko) 해외 과학기술 전자원문 수집/색인/추출 시스템과 그 방법및 그 방법에 대한 컴퓨터 프로그램을 저장한 기록매체
JP3708893B2 (ja) 知識情報収集システムおよび知識情報収集方法
JP2005031867A (ja) ウエブ情報収集装置及びウエブ情報収集方法
JP3725087B2 (ja) 知識情報収集システムおよび知識情報収集方法
JP3725088B2 (ja) 知識情報収集システムおよび知識情報収集方法

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040120

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040322

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040511

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040707

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20041019

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20041022

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081029

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees