JP2005149136A - 情報収集プログラム、情報収集方法、情報収集システムおよび情報収集装置 - Google Patents

情報収集プログラム、情報収集方法、情報収集システムおよび情報収集装置 Download PDF

Info

Publication number
JP2005149136A
JP2005149136A JP2003385679A JP2003385679A JP2005149136A JP 2005149136 A JP2005149136 A JP 2005149136A JP 2003385679 A JP2003385679 A JP 2003385679A JP 2003385679 A JP2003385679 A JP 2003385679A JP 2005149136 A JP2005149136 A JP 2005149136A
Authority
JP
Japan
Prior art keywords
web page
address
web
collected
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2003385679A
Other languages
English (en)
Inventor
Masami Watanabe
正己 渡辺
Hirohisa Fukuyama
博久 福山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2003385679A priority Critical patent/JP2005149136A/ja
Priority to US10/853,972 priority patent/US7529771B2/en
Publication of JP2005149136A publication Critical patent/JP2005149136A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99944Object-oriented database structure
    • Y10S707/99945Object-oriented database structure processing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99948Application of database or data structure, e.g. distributed, multimedia, or image

Abstract

【課題】収集漏れのWebページを効率良く収集することを課題とする。
【解決手段】情報収集システム10は、収集されたWebページのアドレスと該Webページの世代情報(収集日時)とを対応付けてWebページをWebアーカイブに記憶し、参照中のWebページ上で指定されたリンク先のアドレス(URL)とおよび該Webページの世代情報(収集日時)とに基づいて、リンク先のWebページがWebアーカイブに収集されているか否かを判定し、リンク先のWebページがWebアーカイブに記憶されていないと判定された場合に、Webページ上で指定されたリンク先のアドレスに基づいてリンク先のWebページをネットワークを介して収集する。
【選択図】 図1

Description

本発明は、ネットワーク上に存在するWebページを収集し、該収集されたWebページを記憶するためにコンピュータで実行される情報収集プログラム、情報収集方法、情報収集システムおよび情報収集装置に関し、特に、収集漏れのWebページを効率良く収集することができる情報収集プログラム、情報収集方法、情報収集システムおよび情報収集装置に関する。
従来より、インターネット上には、様々な情報が公開されているが、インターネット上の情報は日々変遷し、移動することによって消滅してしまうものである。近年では、先進各国が文化資産保護の目的で、このようなインターネット上の情報を収集、蓄積し、恒久的に保存する活動を実験的に実施している(非特許文献1参照)。
例えば、非特許文献2では、Webロボットのリンク解析機能を用いて、インターネットからWebページを収集し、該収集したWebページをWebアーカイブに記憶するWebアーカイビング・システムが開示されている。すなわち、かかるWebロボットは、Webアーカイブ内に記憶されたWebページ(例えば、「A」)に内包される関連するWebページ(例えば、「a」)へのリンクを、自動的に解析し、たどって収集することにより、リンクされているWebページを順次蓄積している。
ところが、Webロボットで解析可能なリンクは、HTMLファイル内に記述されたリンクに限られており、インターネット上に存在する様々な各種ワープロ文書、各種アプリケーション向けデータ、マルチメディアデータ等の内部に存在するリンクについては、解析ができずリンク先のWebページを自動的に収集することはできない。さらには、HTMLファイル内に記述されたリンクであっても各種スクリプトによって動的に生成されるリンクは、解析できず自動的な収集は困難である。
このため、Webアーカイブに蓄積されたWebページには、収集できなかった多くの欠落情報が存在し、それらは、収集できなかったことを検出することもできないため、人間が目視で、収集したWebページをたどりながらWebアーカイブの収集結果をチェックし、収集できなかった欠落情報を補填する必要がある。
廣瀬 信己、"消えゆくウェブを救え!〜動きすウェブ・アーカイビング〜"、日本データベース協会発行『データベース No.21』(2002)、(オンライン)、インターネット<URL:http://www.asahi-net.or.jp/~ax2s-kmtn/internet/dina.html>、(参照 2002-12-04) "Way Back Machine"、インターネット<URL:http://www.archive.org/>
しかしながら、上記の従来技術においては、収集できなかった欠落情報の入手先の調査が困難であるため、収集漏れのWebページを効率良く取得することができないという問題点があった。具体的には、収集結果のチェックにおいて、欠落したWebページが発見された場合に、リンク先からWebページを取得してWebアーカイブに追加するが、Webページを入手すべきリンク先を調査するためには、Webページ内部を調査する必要があるため、収集漏れのWebページを効率良く取得することができない。
すなわち、各種ワープロ文書、各種アプリケーション向けデータ、マルチメディアデータ等の中に存在するリンク先のWebページを収集するためには、データを対応するアプリケーションで開き、リンク先が表示されれば、そこからリンク先を求めることとなるが、リンク先が表示されない等で所在がわからなければ、リンク先を調べることはできず、欠落情報を補うことはできない。
また、HTMLファイル内のスクスプト言語で生成されるインライン表示(静止画、動画等)が欠落していた場合には、HTMLファイルのソース内に記述されたスクスプト言語を参照し、リンク先を推定する必要があり、また、HTMLファイル内のスクスプト言語で生成されるリンク先のWebページを収集するためは、HTMLファイルを表示し、リンクをクリックすることによりWebブラウザに表示されるURLからリンク先を求めなければならない。
そこで、本発明は、上述した従来技術による問題点を解消するためになされたものであり、収集漏れのWebページを効率良く収集することができる情報収集プログラム、情報収集方法、情報収集システムおよび情報収集装置を提供することを目的とする。
上述した課題を解決し、目的を達成するために、本発明は、ネットワーク上に存在するWebページを収集し、該収集されたWebページを記憶するためにコンピュータで実行される情報収集プログラムであって、収集されたWebページのアドレスと対応付けてWebページをWebアーカイブに記憶するWebアーカイブ記憶手順と、参照中のWebページ上で指定されたリンク先のアドレス情報を端末から入手し、リンク先のWebページが前記Webアーカイブに収集されているか否かを判定する判定手順と、前記判定手順によってリンク先のWebページがWebアーカイブに記憶されていないと判定された場合に、前記Webページ上で指定されたリンク先のアドレスに基づいてリンク先のWebページをネットワークを介して収集する情報収集手順と、をコンピュータに実行させることを特徴とする。
また、本発明は、上記発明において、前記記憶手順は、収集されたWebページのアドレスと該Webページの世代情報とを対応付けてWebページをWebアーカイブに記憶し、前記判定手順は、参照中のWebページ上で指定されたリンク先のアドレスおよび該Webページの世代情報に基づいて情報を端末から入手し、リンク先のWebページが前記Webアーカイブに収集されているか否かを判定することを特徴とする。
また、本発明は、ネットワーク上に存在するWebページを収集し、該収集されたWebページを記憶するためにコンピュータで実行される情報収集プログラムであって、収集されたWebページのアドレスと対応付けてWebページを記憶したWebアーカイブを有するサーバから前記Webページのアドレス情報を入手し、収集済アドレステーブルに記憶する手順と、前記収集済アドレステーブルに記憶されたWebページのアドレスをもとに当該Webページにアクセスするとともに、該Webページのリンク先のWebページにアクセスし、該Webページのアドレスをアクセスログとして取得するアクセスログ取得手順と、前記アクセスログ取得手順で取得されたリンク先のWebページのアドレスが前記収集済アドレステーブルに記憶されているか否かを判定する判定手順と、前記判定手順で前記収集済アドレステーブルに記憶されていないと判定された場合に、前記アクセスログ取得手順で取得されたリンク先のWebページのアドレスに基づいて該リンク先のWebページをネットワークを介して収集する情報収集手順と、をコンピュータに実行させることを特徴とする。
また、本発明は、上記発明において、前記アクセスログ取得手順は、前記収集済アドレステーブルに記憶されたWebページのアドレスをもとに当該Webページにアクセスするとともに、該Webページの出力時にスクリプトにより動作するWebページにアクセスし、該Webページのアドレスをアクセスログとして取得し、前記判定手順は、前記アクセスログ取得手順で取得されたスクリプトにより動作するWebページのアドレスが前記収集済アドレステーブルに記憶されているか否かを判定し、前記情報収集手順は、前記判定手順で前記収集済アドレステーブルに記憶されていないと判定された場合に、前記アクセスログ取得手順で取得されたスクリプトにより動作するWebページのアドレスに基づいて該Webページをネットワークを介して収集することを特徴とする。
また、本発明は、上記発明において、前記収集済アドレステーブルに記憶されたWebページのアドレスをもとに当該Webページ上のマウスイベントによりスクリプトが動作するWebページへのリンクに対してマウスカーソルおよび/またはマウスボタンの動作制御を行うマウス制御手順をさらにコンピュータに実行させることを特徴とする。
また、本発明は、ネットワーク上に存在するWebページを収集し、該収集されたWebページを記憶する情報収集方法であって、収集されたWebページのアドレスと対応付けてWebページをWebアーカイブに記憶するWebアーカイブ記憶工程と、参照中のWebページ上で指定されたリンク先のアドレス情報を端末から入手し、リンク先のWebページが前記Webアーカイブに収集されているか否かを判定する判定工程と、前記判定工程によってリンク先のWebページがWebアーカイブに記憶されていないと判定された場合に、前記Webページ上で指定されたリンク先のアドレスに基づいてリンク先のWebページをネットワークを介して収集する情報収集工程と、を含んだことを特徴とする。
また、本発明は、ネットワーク上に存在するWebページを収集し、該収集されたWebページを記憶する情報収集方法であって、収集されたWebページのアドレスと対応付けてWebページを記憶したWebアーカイブを有するサーバから前記Webページのアドレス情報を入手し、収集済アドレステーブルに記憶する工程と、前記収集済アドレステーブルに記憶されたWebページのアドレスをもとに当該Webページにアクセスするとともに、該Webページのリンク先のWebページにアクセスし、該Webページのアドレスをアクセスログとして取得するアクセスログ取得工程と、前記アクセスログ取得工程で取得されたリンク先のWebページのアドレスが前記収集済アドレステーブルに記憶されているか否かを判定する判定工程と、前記判定工程で前記収集済アドレステーブルに記憶されていないと判定された場合に、前記アクセスログ取得工程で取得されたリンク先のWebページのアドレスに基づいて該リンク先のWebページをネットワークを介して収集する情報収集工程と、を含んだことを特徴とする。
また、本発明は、ネットワーク上に存在するWebページを収集し、該収集されたWebページを記憶する情報収集システムであって、収集されたWebページのアドレスと該Webページの世代情報とを対応付けてWebページを記憶するWebアーカイブと、参照中のWebページ上で指定されたリンク先のアドレスおよび該Webページの世代情報に基づいてリンク先のWebページが前記Webアーカイブに収集されているか否かを判定する判定手段と、前記判定手段によってリンク先のWebページがWebアーカイブに記憶されていないと判定された場合に、前記Webページ上で指定されたリンク先のアドレスに基づいてリンク先のWebページをネットワークを介して収集する情報収集手段と、を備えたことを特徴とする。
また、本発明は、ネットワーク上に存在するWebページを収集し、該収集されたWebページを記憶するために用いられる装置であって、収集されたWebページのアドレスと対応付けてWebページを記憶したWebアーカイブを有するサーバから前記Webページのアドレス情報を入手し、収集済アドレステーブルに記憶する手段と、前記収集済アドレステーブルに記憶されたWebページのアドレスをもとに当該Webページにアクセスするとともに、該Webページのリンク先のWebページにアクセスし、該Webページのアドレスをアクセスログとして取得するアクセスログ取得手段と、前記アクセスログ取得手段によって取得されたリンク先のWebページのアドレスが前記収集済アドレステーブルに記憶されているか否かを判定する判定手段と、前記判定手段によって前記収集済アドレステーブルに記憶されていないと判定された場合に、前記アクセスログ取得手段によって取得されたリンク先のWebページのアドレスに基づいて該リンク先のWebページをネットワークを介して収集する情報収集手段と、を備えたことを特徴とする。
本発明に係る情報収集プログラムは、収集されたWebページのアドレスと対応付けてWebページをWebアーカイブに記憶し、参照中のWebページ上で指定されたリンク先のアドレス情報を端末から入手し、リンク先のWebページがWebアーカイブに収集されているか否かを判定し、リンク先のWebページがWebアーカイブに記憶されていないと判定された場合に、Webページ上で指定されたリンク先のアドレスに基づいてリンク先のWebページをネットワークを介して収集することとしたので、収集漏れのWebページを効率良く収集することが可能な情報収集プログラムが得られるという効果を奏する。
また、本発明に係る情報収集プログラムは、収集されたWebページのアドレスと該Webページの世代情報とを対応付けてWebページをWebアーカイブに記憶し、参照中のWebページ上で指定されたリンク先のアドレスおよび該Webページの世代情報に基づいて情報を端末から入手し、リンク先のWebページが前記Webアーカイブに収集されているか否かを判定することとしたので、収集漏れのWebページを正確かつ効率良く収集することが可能な情報収集プログラムが得られるという効果を奏する。
また、本発明に係る情報収集プログラムは、収集されたWebページのアドレスと対応付けてWebページを記憶したWebアーカイブを有するサーバからWebページのアドレス情報を入手し、収集済アドレステーブルに記憶し、収集済アドレステーブルに記憶されたWebページのアドレスをもとに当該Webページにアクセスするとともに、該Webページのリンク先のWebページにアクセスし、該Webページのアドレスをアクセスログとして取得し、取得されたリンク先のWebページのアドレスが収集済アドレステーブルに記憶されているか否かを判定し、収集済アドレステーブルに記憶されていないと判定された場合に、リンク先のWebページのアドレスに基づいて該リンク先のWebページをネットワークを介して収集することとしたので、収集漏れのWebページを効率良く収集することが可能な情報収集プログラムが得られるという効果を奏する。
また、本発明に係る情報収集プログラムは、収集済アドレステーブルに記憶されたWebページのアドレスをもとに当該Webページにアクセスするとともに、該Webページの出力時にスクリプトにより動作するWebページにアクセスし、該Webページのアドレスをアクセスログとして取得し、取得されたスクリプトにより動作するWebページのアドレスが収集済アドレステーブルに記憶されているか否かを判定し、収集済アドレステーブルに記憶されていないと判定された場合に、スクリプトにより動作するWebページのアドレスに基づいて該Webページをネットワークを介して収集することとしたので、所定のWebページの出力時にスクリプトにより動作するWebページの収集漏れが検知された場合に、スクリプトにより動作するWebページを効率良く収集することが可能な情報収集プログラムが得られるという効果を奏する。
また、本発明に係る情報収集プログラムは、前記収集済アドレステーブルに記憶されたWebページのアドレスをもとに当該Webページ上のマウスイベントによりスクリプトが動作するWebページへのリンクに対してマウスカーソルおよび/またはマウスボタンの動作制御を行うこととしたので、マウスイベントによって動作するスクリプトにより出力されるWebページの収集漏れが検知された場合に、マウスイベントによって動作するスクリプトにより出力されるWebページを効率良く収集することが可能な情報収集プログラムが得られるという効果を奏する。
また、本発明に係る情報収集方法は、収集されたWebページのアドレスと対応付けてWebページをWebアーカイブに記憶するWebアーカイブ記憶工程と、参照中のWebページ上で指定されたリンク先のアドレス情報を端末から入手し、リンク先のWebページがWebアーカイブに収集されているか否かを判定し、リンク先のWebページがWebアーカイブに記憶されていないと判定された場合に、Webページ上で指定されたリンク先のアドレスに基づいてリンク先のWebページをネットワークを介して収集することとしたので、収集漏れのWebページを効率良く収集することが可能な情報収集方法が得られるという効果を奏する。
また、本発明に係る情報収集方法は、収集されたWebページのアドレスと対応付けてWebページを記憶したWebアーカイブを有するサーバからWebページのアドレス情報を入手し、収集済アドレステーブルに記憶し、収集済アドレステーブルに記憶されたWebページのアドレスをもとに当該Webページにアクセスするとともに、該Webページのリンク先のWebページにアクセスし、該Webページのアドレスをアクセスログとして取得し、取得されたリンク先のWebページのアドレスが収集済アドレステーブルに記憶されているか否かを判定し、収集済アドレステーブルに記憶されていないと判定された場合に、リンク先のWebページのアドレスに基づいて該リンク先のWebページをネットワークを介して収集することとしたので、収集漏れのWebページを効率良く収集することが可能な情報収集方法が得られるという効果を奏する。
また、本発明に係る情報収集システムは、収集されたWebページのアドレスと該Webページの世代情報とを対応付けてWebページをWebアーカイブに記憶し、参照中のWebページ上で指定されたリンク先のアドレスおよび該Webページの世代情報に基づいてリンク先のWebページがWebアーカイブに収集されているか否かを判定し、リンク先のWebページがWebアーカイブに記憶されていないと判定された場合に、Webページ上で指定されたリンク先のアドレスに基づいてリンク先のWebページをネットワークを介して収集することとしたので、収集漏れのWebページを効率良く収集することが可能な情報収集システムが得られるという効果を奏する。
また、本発明に係る情報収集装置は、収集されたWebページのアドレスと対応付けてWebページを記憶したWebアーカイブを有するサーバからWebページのアドレス情報を入手し、収集済アドレステーブルに記憶し、収集済アドレステーブルに記憶されたWebページのアドレスをもとに当該Webページにアクセスするとともに、該Webページのリンク先のWebページにアクセスし、該Webページのアドレスをアクセスログとして取得し、取得されたリンク先のWebページのアドレスが収集済アドレステーブルに記憶されているか否かを判定し、収集済アドレステーブルに記憶されていないと判定された場合に、リンク先のWebページのアドレスに基づいて該リンク先のWebページをネットワークを介して収集することとしたので、収集漏れのWebページを効率良く収集することが可能な情報収集装置が得られるという効果を奏する。
以下に添付図面を参照して、本発明に係る情報収集システムの好適な実施例を詳細に説明する。なお、以下では、本実施例1〜3に係る情報収集システムについて説明し、その後、本実施例4に係る情報収集プログラムを実行するコンピュータシステムを説明し、最後に、本実施例に対する種々の変形例(実施例5)を説明する。
本実施例1に係る情報収集システムについて説明する。本実施例1に係る情報収集システムでは、収集されたWebページのアドレスと該Webページの世代情報(収集日時)とを対応付けてWebページをWebアーカイブに記憶し、参照中のWebページ上で指定されたリンク先のURLとおよび該Webページの世代情報(収集日時)とに基づいて、リンク先のWebページがWebアーカイブに収集されているか否かを判定する「判定処理」と、リンク先のWebページがWebアーカイブに記憶されていないと判定された場合に、Webページ上で指定されたリンク先のアドレスに基づいてリンク先のWebページをネットワークを介して収集する「情報収集処理」とに主たる特徴があり、これらの処理によって、収集漏れのWebページを効率良く収集することができるようにしている。
これらの主たる特徴を具体的に説明するために、ここでは、本実施例1に係る情報収集システムの構成について説明した後、各種処理の手順(判定処理および情報収集処理等)を説明することとする。
(情報収集システムの構成)
本実施例1に係る情報収集システムの構成について説明する。図1は、本実施例1に係る情報収集システムの構成を示すブロック図である。この情報収集システム10は、同図に示すように、管理者端末20と、Webアーカイビング・サーバ30とをネットワーク(インターネットまたはイントラネット)1を介して相互に通信可能に接続して構成される。
このうち、管理者端末20は、図1に示すように、管理者端末20とネットワーク1との間で各種情報の通信を制御する通信制御IF部23と、入力部21と、出力部22と、記憶部24と、制御部25とを備える。
このうち、入力部21は、各種の情報を入力するキーボード、マウスおよびトラックボールなどの指示入力手段であり、参照するWebページの「検索」または「ブラウジング」の受付、「検索」または「ブラウジング」の結果であるWebページの世代一覧ページからの世代情報の選択の受付(図4参照)、参照中のWebページにおけるリンク先のURLの指定の受付をおこなう。
また、Webアーカイブの収集結果のチェックが行われる際には、収集されたWebページが1ページずつ表示されることとなるが、Webページの中に静止画や動画の自動切換えがあれば、表示されるまで待機、マウスカーソルの位置の検知によるアクションがあれば、マウスカーソルの移動を受け付け、Webページ内に、別情報へのリンクがあれば、リンク先のURLの指定を受け付け、すべてのページが利用者の操作指示によって表示されることが好ましい。この利用者によるページ表示や静止画や動画の自動切換え、マウスカーソルの移動によるアクションは、すべて一つ一つのURL要求として、利用者の利用しているWebアプリケーションから参照PROXY26に要求される。
出力部22は、各種の情報を出力するモニタなどの出力表示手段であり、参照するWebページの「検索」または「ブラウジング」の受付画面、「検索」または「ブラウジング」の結果であるWebページの世代一覧ページ、参照PROXY26によって取得されたWebページなどを出力する。
記憶部24は、制御部25および参照PROXY26による各種処理に必要なデータおよびプログラムを格納する格納手段(記憶手段)であり、参照PROXY26によって取得されたWebページの内容(コンテンツ)や、Webアーカイビング・サーバ30からダウンロードした参照PROXY26、世代情報保持部26aおよびアドレス埋込処理部26bのプログラムを格納する。
制御部26は、OS(Operating System)などの制御プログラム、各種の処理手順などを規定したプログラムおよび所要データを格納するための内部メモリを有し、これらによって種々の処理を実行する処理部であり、機能概念的に、参照PROXY26と、世代情報保持部26aと、アドレス埋込処理部26bとを備える。なお、説明の便宜上、世代情報保持部26aおよびアドレス埋込処理部26bを説明した後に、参照PROXY26を説明することとする。
世代情報保持部26aは、Webアーカイブ32bに対して所望のWebページの検索またはブラウジングがおこなわれた際に、該検索またはブラウジングに係る指示から特定されるWebページの世代情報を保持する処理部である。具体的には、Webページの検索またはブラウジングに基づく参照PROXY26によるWebページ取得要求に応答して、Webアーカイビング・サーバ30からWebページとともに返却されるHTTPヘッダ「WASet-PROXY:収集日時」からの指示を受けて「収集日時」をWebページの世代情報として保持する。このように、「世代情報」を保持することとしたのは、ユーザが参照するWebページの世代情報を自動設定することができるようにするためである。
アドレス埋込処理部26bは、世代情報保持部26aによって世代情報が保持されている場合(参照する世代が自動設定されている場合)に、参照中のWebページ上で指定されたリンク先のURLにWebアーカイビング・サーバ30のアドレスを埋め込む処理部である。具体的には、収集前のWebページに内包されている本来のリンク先のURL「http://aaa/」に、Webページ取り出し用CGIのURL(Webアーカイビング・サーバ30のURL)と世代情報(収集日時)を埋め込む。すなわち、これによって、Webアーカイブ内のWebページを参照しているWebアプリケーションによるインターネット上へのHTTP要求を、Webアーカイビング・サーバ30へのWebページ取得要求に挿げ替えることが可能になる。
参照PROXY26は、WebブラウザまたはWebアプリケーションを代理してWebアーカイビング・サーバ30を介してWebアーカイブ32bからWebページを取得する処理部である。具体的には、参照中のWebページ上で指定されたリンク先のURLと、世代情報保持部26aによって保持された世代情報(収集日時)とに基づいて、アドレス埋込処理部26bによって埋め込まれたURLをもとにWebアーカイビング・サーバ30に対してWebページ取得要求をおこない、リンク先のWebページがWebアーカイブ32bに記憶されていた場合には、Webアーカイブ32bからリンク先のWebページを取得し、リンク先のWebページがWebアーカイブ32bに記憶されていない場合には、Webアーカイビング・サーバ30からリンク先のWebページが未収集であるため、該Webページをネットワーク1を介して収集する旨の通知を受ける。
一方、Webアーカイビング・サーバ30は、図1に示すように、Webアーカイビング・サーバ30とネットワーク1との間で各種情報の通信を制御する通信制御IF部31と、記憶部32と、制御部33とから構成される。
このうち、記憶部32は、制御部33による各種処理に必要なデータおよびプログラムを格納する格納手段(記憶手段)であり、機能概念的に、管理情報データベース32aと、Webアーカイブ32bと、未収集アドレステーブル32cとを備える。
管理情報データベース22aは、収集されたWebページを記憶するWebアーカイブ32bの管理情報を記憶する記憶手段であり、具体的には、図2に示すように、収集されたWebページの「URL」、「収集日時」、収集されたWebページの内容(コンテンツ)の「格納先」を記憶している。
Webアーカイブ32bは、ネットワーク(インターネットまたはイントラネット)1を介して制御部33によって収集されたWebページの内容(コンテンツ)を記憶する記憶手段であり、管理情報データベース32aに記憶された管理情報に基づいてWebページの内容(コンテンツ)を記憶している。
未収集アドレステーブル32cは、判定部33aによってWebページがWebアーカイブ32bに記憶されていないと判定された場合に、該Webページのアドレスを記録するテーブルである。具体的には、図3に示すように、未収集のWebページのURLと収集済フラグ(ON/OFF)とを対応付けて記憶する。なお、後述する「登録処理」において、未収集のWebページが未収集アドレステーブル32cに登録される詳細な手順を説明する。
制御部33は、OS(Operating System)などの制御プログラム、各種の処理手順(管理者端末20からのWebページ取得要求に対する管理情報データベース22aへの検索処理、および管理者端末20からのWebページ取得要求に対する応答処理など)などを規定したプログラムおよび所要データを格納するための内部メモリを有し、これらによって種々の処理を実行する処理部であり、特に本発明に密接に関連するものとしては、機能概念的に、判定部33aと、情報収集処理部33bとを備える。
判定部33aは、参照中のWebページ上で指定されたリンク先のアドレスおよび該Webページの世代情報に基づいてリンク先のWebページがWebアーカイブ32bに収集されているか否かを判定する処理部である。具体的には、参照PROXY26によるWebページ取得要求が行われた際に、参照中のWebページ上で指定されたリンク先のURLと、世代情報保持部26aによって保持された世代情報(収集日時)とに基づいて管理情報データベース32aを検索することにより、リンク先のWebページがWebアーカイブ32bに記憶されているか否かを判定する。
そして、リンク先のWebページがWebアーカイブに記憶されていると判定された場合には、管理情報データベース32aに記憶されたWebアーカイブ32bの管理情報をもとにWebアーカイブ32bから参照PROXY26に返却する情報(Webページ)を組み立てて、該組み立てた情報を返却する。また、リンク先のWebページがWebアーカイブ32bに記憶されていないと判定された場合には、リンク先のWebページが未収集である旨を管理者端末20に通知し、未収集であるWebページのURLを未収集アドレステーブル32cに登録する。
情報収集処理部33bは、Webロボットを用いてネットワーク上に存在するWebページを収集する処理部である。具体的には、未収集アドレステーブル32cに登録された収集済フラグが「OFF」であるURLを順次抽出し、該URLに存在するWebページをネットワークを介して収集する。そして、収集済フラグを「ON」に設定し、収集したWebページをWebアーカイブ32bに記憶する。
(各種処理の手順)
次に、本実施例1に係る情報収集システムの各種処理の手順を説明する。なお、ここでは、Webアーカイブの収集結果のチェックとして行われる(1)判定処理を説明した後に、該収集結果において未収集であるWebページのURLを未収集アドレステーブル32cに登録する(2)登録処理を説明し、未収集アドレステーブル32cに登録された未収集であるURLに存在するWebページを収集する(3)情報収集処理を説明することとする。
(1)判定処理
図5は、本実施例1に係る判定処理の手順を示すフローチャートである。同図に示すように、判定部33aは、参照PROXY26によるWebページ取得要求を受けて(ステップS401)、参照中のWebページ上で指定されたリンク先のURLと、世代情報保持部26aによって保持された世代情報(収集日時)とに基づいて管理情報データベース32aを検索することにより、リンク先のWebページがWebアーカイブ32bに記憶されているか否かを判定する(ステップS402)。
そして、リンク先のWebページがWebアーカイブに記憶されている場合(ステップS403肯定)には、管理情報データベース32aに記憶されたWebアーカイブ32bの管理情報をもとにWebアーカイブ32bから参照PROXY26に返却する情報(Webページ)を組み立てて(ステップS404)、該組み立てた情報を参照PROXY26に返却する(ステップS405)。
また、リンク先のWebページがWebアーカイブ32bに記憶されていない場合(ステップS403否定)には、リンク先のWebページが未収集である旨を管理者端末20に通知し(ステップS406)、未収集であるWebページのURLを未収集アドレステーブル32cに登録する(ステップS407)。
上記した一連の処理を経て、リンクをたどりながらWebページを参照するだけでWebアーカイブ32bの収集結果をチェックすることができる。
(2)登録処理
図6は、本実施例1に係る登録処理の手順を示すフローチャートである。同図に示すように、制御部33は、未収集であるWebページのURLを(判定部33aまたは管理者端末における入力部21から)受け付け(ステップS501)、該受け付けたURLが未収集アドレステーブル32cに登録されているか否かを検索し(ステップS502)、受け付けたURLが未収集アドレステーブル32cになければ(ステップS502否定)、受け付けたURLを未収集アドレステーブル32cに登録し、収集済フラグを「OFF」に設定する(ステップS503)。
このように、未収集であるWebページをテーブル管理することにより、一または複数の管理者端末20において検出された収集漏れのWebページのアドレスを一元管理することが可能になる。
(3)情報収集処理
図7は、本実施例1に係る情報収集処理の手順を示すフローチャートである。同図に示すように、情報集処理部33bは、未収集アドレステーブル32cから収集済フラグが「OFF」であるURLを一つ抽出し(ステップS601)、該URLに存在するWebページをネットワークを介して収集する(ステップS602)。そして、このURLに対応する収集済フラグを「ON」に設定し(ステップS603)、収集したWebページをWebアーカイブ32bに記憶するとともに(ステップS604)、このWebページに関する情報を管理情報データベース32aに登録する(ステップS605)。
そして、収集したWebページのリンクの解析を情報収集処理部33bが具備するWebロボットで行うことが可能であれば(ステップS606肯定)、収集したWebページのリンクを解析し、リンク情報(リンク先のURL)を抽出し(ステップS607)、該リンク先のアドレスが未収集アドレステーブル32cに存在しなければ、リンク先のアドレスを未収集アドレステーブル32cに登録する(ステップS608)。
また、収集したWebページのリンクの解析を情報収集処理部33bが具備するWebロボットで行うことが不可能であれば(ステップS606否定)、解析不可能である旨を管理者端末20に通知する(ステップS609)。最後に、未収集アドレステーブル32cに収集済フラグが「OFF」であるURLがあれば(ステップS610肯定)、上記のステップS601〜S609までの処理をおこない、未収集アドレステーブル32cに収集済フラグが「OFF」であるURLがなければ(ステップ610否定)、処理を終了する。
上述してきたように、本実施例1に係る情報収集システムによれば、収集されたWebページのアドレスと対応付けてWebページをWebアーカイブに記憶し、参照中のWebページ上で指定されたリンク先のアドレス情報を端末から入手し、リンク先のWebページがWebアーカイブに収集されているか否かを判定し、リンク先のWebページがWebアーカイブに記憶されていないと判定された場合に、Webページ上で指定されたリンク先のアドレスに基づいてリンク先のWebページをネットワークを介して収集することとしたので、収集漏れのWebページを効率良く収集することが可能になる。
また、本実施例1に係る情報収集システムによれば、参照中のWebページ上で指定されたリンク先のURLとおよび該Webページの世代情報(収集日時)とに基づいて、リンク先のWebページがWebアーカイブに収集されているか否かを判定し、リンク先のWebページがWebアーカイブに記憶されていないと判定された場合に、Webページ上で指定されたリンク先のアドレスに基づいてリンク先のWebページをネットワークを介して収集することとしたので、Webページの内部を調査することなくリンクをたどりながらWebページを参照するだけで、収集漏れのWebページを正確かつ効率良く収集することが可能になる。
本実施例2に係る情報収集システムについて説明する。本実施例2に係る情報収集システムにおいて、管理者端末(情報収集装置)20は、Webアーカイブに収集されたWebページのアドレスを収集済アドレステーブルに記憶し、記憶されたWebページのアドレスをもとに当該Webページにアクセスするとともに、該Webページのリンク先のWebページにアクセスし、該Webページのアドレスをアクセスログとして取得する「アクセスログ取得処理」と、取得されたリンク先のWebページのアドレスが収集済アドレステーブルに記憶されているか否かを判定する「判定処理」とを行うことに主たる特徴があり、これらの処理によって、収集漏れのWebページを効率良くチェックし、収集することができるようにしている。
図8は、本実施例2に係る情報収集システムの構成を示す機能ブロック図である。同図に示すように、本実施例2に係る情報収集システムは、実施例1の情報収集システムに比較して、管理者端末(情報収集装置)20において、参照PROXY26に代えてPROXY27を、記憶部24に収集済アドレステーブル24aと、アクセスログテーブル24bとをさらに備えた点において相違する。
収集済アドレステーブル24aは、Webアーカイブ32bに収集されたWebページのアドレスを記憶するテーブルであり、収集済みのURLの一覧を記憶する。なお、この「一覧」は、Webアーカイブ32b内すべてのWebページのURL一覧であってもよいし、所定のカテゴリーごとに記憶された一覧であってもよい。また、この収集済みのRULの一覧は、Webアーカイビング・サーバ30から入手されるものであり、所定の時間ごとに更新されることとする。
アクセスログテーブル24bは、アクセスログ取得部27aによってアクセスされたWebページのアドレスをアクセスログとして記憶するテーブルである。具体的には、アクセスログ取得部27aによってアクセスされた所定のWebページのURLと、該Webページの出力時にスクリプトにより動作するWebページのURLをアクセスログとして記憶する。なお、このように取得された「URL」とともに、アクセス日時およびアクセス結果(アクセスの成否)が対応付けて記憶されることとなる。
PROXY27は、Webブラウザを代理して、ネットワーク上に存在するWebページを取得する処理部であり、特に本発明に密接に関連するものとしては、機能概念的に、アクセスログ取得部27aと、判定部27bとを備える。
このうち、アクセスログ取得部27aは、PROXY27によってアクセスされたWebページのアドレスをアクセスログとして記憶するテーブルである。具体的には、収集済アドレステーブル24aに記憶されたWebページのURLをもとに当該Webページにアクセスするとともに、該Webページの出力時にスクリプトにより動作するWebページにアクセスし、該WebページのURLをアクセスログとして取得する。
判定部27bは、アクセスログテーブル24bに記憶されたWebページのアドレスがWebアーカイブ32bに収集されているか否かを判定する処理部である。具体的には、アクセスログ取得部27aによって取得されたスクリプトにより動作するWebページのアドレスが収集済アドレステーブル24aに記憶されているか否かを判定する。
すなわち、スクリプトにより動作するWebページ(HTMLファイル内のスクスプト言語で生成されるインライン表示(静止画、動画等))は、リンク元のWebページとともにアクセスログ取得部27aによってアクセスされ、これらのWebページのアドレスはアクセスログとしてアクセスログテーブルに記憶されることとなる。そして、アクセスログテーブル24bに記憶されたスクリプトにより動作するWebページのアドレスが収集済アドレステーブル24aになければ、「未収集」と判定されることとなる。このようにして、所定のWebページの出力時にスクリプトにより動作するWebページの収集結果を効率良くチェックし、収集することができるようにしている。
(各種処理の手順)
次に、本実施例2に係る情報収集システムの各種処理の手順を説明する。なお、ここでは、管理者端末(情報収集装置)20におけるアクセスログ取得部27aによってアクセスされたWebページのアドレスをアクセスログとして取得する(1)アクセスログ取得処理を説明した後に、取得されたリンク先のWebページのアドレスが収集済アドレステーブルに記憶されているか否かを判定する(2)判定処理を説明することとする。
(1)アクセスログ取得処理
図9は、本実施例2に係るアクセスログ取得処理の手順を示すフローチャートである。同図に示すように、アクセスログ取得部27aは、収集済アドレステーブル24aからURLを取り出し、該URLを入力としてWebブラウザを起動させると(ステップS801)、Webブラウザを代理してネットワーク上に存在するWebページを取得し、該WebページをWebブラウザで出力し(ステップS802)、取得したWebページのURLをアクセスログとしてアクセスログテーブル24bに登録する(ステップS803)。
そして、アドレスログ取得部27aは、PROXY27からWebブラウザへの通信が完了した後、スクリプトにより動作するWebページ(HTMLファイル内のスクスプト言語で生成されるインライン表示(静止画、動画等))が出力されるまで待機する(ステップS804)。なお、スクリプトにより動作するWebページが出力された後に、該Webページのアドレスは、アクセスログとして取得され、アクセスログテーブル24bに登録されることとなる。
続いて、マウスイベントによるリンク先のURLの指定を受け付け(ステップS805)、該受け付けたリンク先のURLにアクセスし、アクセスログとしてアクセスログテーブル24bに登録する(ステップS806)。そして、収集済アドレステーブル24aに記憶したURLの一覧すべてについて上記のステップS801〜S806の処理が終了したならば(ステップS807肯定)、処理を終了する。
(2)判定処理
図10は、本実施例2に係る判定処理の手順を示すフローチャートである。同図に示すように、判定部27bは、アクセスログテーブル24bからURLを取り出し、該取り出されたURLをキーにして収集済アドレステーブル24aを検索し(ステップS901)、アクセスログテーブル24bから取り出したURLと同一のURLが収集済アドレステーブル24a内に存在しなければ(ステップS902否定)、Webアーカイビング・サーバ30にURLを通知し、該URLを未収集アドレステーブル32cに登録するように制御する(ステップS903)。
そして、アクセスログテーブル24bに記憶したURLすべてについて上記のステップS901〜S803の処理が終了したならば(ステップS904肯定)、処理を終了する。なお、この後、未収集アドレステーブル32cに未収集であるWebページを登録する「登録処理」および未収集アドレステーブル32cに基づいて未収集であるWebページを収集する「情報収集処理」ついては、実施例1と同様に行われることとなる。
上述してきたように、本実施例2に係る情報収集システムによれば、管理者端末(情報収集装置)20において、収集されたWebページのアドレスと対応付けてWebページを記憶したWebアーカイブを有するサーバからWebページのアドレス情報を入手し、収集済アドレステーブルに記憶し、記憶されたWebページのアドレスをもとに当該Webページにアクセスするとともに、該Webページのリンク先のWebページにアクセスし、該Webページのアドレスをアクセスログとして取得し、取得されたリンク先のWebページのアドレスが収集済アドレステーブルに記憶されているか否かを判定し、収集済アドレステーブルに記憶されていないと判定された場合に、リンク先のWebページのアドレスに基づいて該Webページをネットワークを介して収集することとしたので、収集漏れのWebページを効率良く収集することが可能になる。
また、本実施例2に係る情報収集システムによれば、管理者端末(情報収集装置)20において、収集済アドレステーブルに記憶されたWebページのアドレスをもとに当該Webページにアクセスするとともに、該Webページの出力時にスクリプトにより動作するWebページにアクセスし、該Webページのアドレスをアクセスログとして取得し、取得されたスクリプトにより動作するWebページのアドレスが収集済アドレステーブルに記憶されているか否かを判定し、収集済アドレステーブルに記憶されていないと判定された場合に、スクリプトにより動作するWebページのアドレスに基づいて該Webページをネットワークを介して収集することとしたので、所定のWebページの出力時にスクリプトにより動作するWebページの収集漏れが検知された場合に、スクリプトにより動作するWebページを効率良く収集することが可能になる。
本実施例3に係る情報収集システムについて説明する。図11は、本実施例3に係る情報収集システムの構成を示す機能ブロック図である。同図に示すように、本実施例3に係る情報収集システムは、実施例2の情報収集システムに比較して、管理者端末(情報収集装置)20においてマウス制御部27cをさらに備えた点において相違する。
このマウス制御部27cは、収集済アドレステーブル24aに記憶されたWebページのURLをもとに当該Webページ上のマウスイベントによりスクリプトが動作するWebページへのリンクに対してマウスカーソルおよび/またはマウスボタンの動作制御を行う処理部である。
すなわち、起点となる座標(例えば、X座標「0」、Y座標「0」)から上下左右(三次元マウスの場合は、前後も)に動作するようにマウスカーソルの移動動作を制御することにより、マウスカーソルの移動イベントを発生させることが可能になり、また、同時に、マウスボタンのクリック動作をマウスカーソルの移動動作制御と組み合わせて行うことにより、マウスボタンのクリックイベントを発生させることが可能になる。
(各種処理の手順)
次に、本実施例3に係る情報収集システムの各種処理の手順を説明する。なお、ここでは、マウスカーソルおよび/またはマウスボタンの動作制御によるマウスイベント発生制御処理を適用した(1)アクセスログ取得処理を説明する。
(1)アクセスログ取得処理
図12は、本実施例3に係るアクセスログ取得処理の手順を示すフローチャートである。同図に示すように、アクセスログ取得部27aは、収集済アドレステーブル24aからURLを取り出し、該URLを入力としてWebブラウザを起動させると(ステップS1101)、Webブラウザを代理してネットワーク上に存在するWebページを取得し、該WebページをWebブラウザで出力し(ステップS1102)、取得したWebページのURLをアクセスログとしてアクセスログテーブル24bに登録する(ステップS1103)。
そして、アドレスログ取得部27aは、PROXY27からWebブラウザへの通信が完了した後、スクリプトにより動作するWebページ(HTMLファイル内のスクスプト言語で生成されるインライン表示(静止画、動画等))が出力されるまで待機する(ステップS1104)。なお、スクリプトにより動作するWebページが出力された後に、該Webページのアドレスは、アクセスログとして取得され、アクセスログテーブル24bに登録されることとなる。
続いて、マウス制御部27cは、所定の距離分(例えば、マウスカーソルの移動距離を、Webページの左上端を起点として10ドットずつとする)、マウスカーソルの移動動作を制御し(ステップS1105)、その後、マウスボタンのクリック動作を制御する(ステップS1106)。
ここで、マウスカーソルの移動動作制御およびマウスボタンのクリック動作制御よって発生したマウスカーソルの移動イベントおよび/またはマウスボタンのクリックイベントによりスクリプトが動作するWebページのURLをアクセスログテーブルに登録する(ステップS1107)。
そして、Webページ上にマウスカーソルが移動していない箇所がなく(ステップS1108肯定)、収集済アドレステーブル24aに記憶したURLの一覧すべてについて上記のステップS1101〜S1108の処理が終了したならば(ステップS1109肯定)、処理を終了する。なお、この後、アクセスログテーブル24b並びに収集済アドレステーブル24aに基づく「判定処理」、未収集アドレステーブル32cに未収集であるWebページを登録する「登録処理」および未収集アドレステーブル32cに基づいて未収集であるWebページを収集する「情報収集処理」ついては、実施例2と同様に行われることとなる。
上述してきたように、本実施例3に係る情報収集システムによれば、管理者端末(情報収集装置)20において、収集済アドレステーブルに記憶されたWebページのURLをもとに当該Webページ上のマウスイベントによりスクリプトが動作するWebページへのリンクに対してマウスカーソルおよび/またはマウスボタンの動作制御を行うこととしたので、マウスイベントによって動作するスクリプトにより出力されるWebページの収集漏れが検知された場合に、マウスイベントによって動作するスクリプトにより出力されるWebページを効率良く収集することが可能になる。
ところで、上記実施例1〜3で説明した情報収集システムおよび情報収集装置(情報収集方法)は、あらかじめ用意されたプログラムをパーソナル・コンピュータやワークステーションなどのコンピュータシステムで実行することによって実現することができる。そこで、本実施例4では、上記実施例1〜3で説明した情報収集システムおよび情報収集装置(情報収集方法)と同様の機能を有する情報収集プログラムを実行するコンピュータシステムについて説明する。
図13は、本実施例4に係るコンピュータシステムの構成を示すシステム構成図であり、図14は、このコンピュータシステムにおける本体部の構成を示すブロック図である。図13に示すように、本実施例4に係るコンピュータシステム100は、本体部101と、本体部101からの指示によって表示画面102aに画像などの情報を表示するためのディスプレイ102と、このコンピュータシステム100に種々の情報を入力するためのキーボード103と、ディスプレイ102の表示画面102a上の任意の位置を指定するためのマウス104とを備える。
また、このコンピュータシステム100における本体部101は、図14に示すように、CPU121と、RAM122と、ROM123と、ハードディスクドライブ(HDD)124と、CD−ROM109を受け入れるCD−ROMドライブ125と、フレキシブルディスク(FD)108を受け入れるFDドライブ126と、ディスプレイ102、キーボード103並びにマウス104を接続するI/Oインターフェース127と、ローカルエリアネットワークまたは広域エリアネットワーク(LAN/WAN)106に接続するLANインターフェース128とを備える。
さらに、このコンピュータシステム100には、インターネットなどの公衆回線107に接続するためのモデム105が接続されるとともに、LANインターフェース128およびLAN/WAN106を介して、他のコンピュータシステム(PC)111、サーバ112並びにプリンタ113などが接続される。
そして、このコンピュータシステム100は、所定の記録媒体に記録された情報収集プログラムを読み出して実行することで情報収集システム(情報収集方法)を実現する。ここで、所定の記録媒体とは、フレキシブルディスク(FD)108、CD−ROM109、MOディスク、DVDディスク、光磁気ディスク、ICカードなどの「可搬用の物理媒体」の他に、コンピュータシステム100の内外に備えられるハードディスクドライブ(HDD)124や、RAM122、ROM123などの「固定用の物理媒体」、さらに、モデム105を介して接続される公衆回線107や、他のコンピュータシステム111並びにサーバ112が接続されるLAN/WAN106などのように、プログラムの送信に際して短期にプログラムを保持する「通信媒体」など、コンピュータシステム100によって読み取り可能な情報収集プログラムを記録する、あらゆる記録媒体を含むものである。
すなわち、情報収集プログラムは、上記した「可搬用の物理媒体」、「固定用の物理媒体」、「通信媒体」などの記録媒体に、コンピュータ読み取り可能に記録されるものであり、コンピュータシステム100は、このような記録媒体から情報収集プログラムを読み出して実行することで情報収集システムおよび情報収集装置(情報収集方法)を実現する。なお、情報収集プログラムは、コンピュータシステム100によって実行されることに限定されるものではなく、他のコンピュータシステム111またはサーバ112が情報収集プログラムを実行する場合や、これらが協働して情報収集プログラムを実行するような場合にも、本発明を同様に適用することができる。
さて、これまで本発明の実施例1〜4について説明したが、本発明は上述した実施例以外にも、上記特許請求の範囲に記載した技術的思想の範囲内において種々の異なる実施例にて実施されてもよいものである。
例えば、本実施例2および3では、「アクセスログ取得処理」と、「判定処理」とを別処理として行う場合について説明したが、本発明はこれに限定されるものではなく、「アクセスログ取得処理」および「判定処理」を一連の処理として行うようにしてもよい。
また、本実施例2および3では、記憶部24およびPROXY27を管理者端末20内に設けることとしたが、本発明はこれに限定されるものではなく、管理者端末20およびネットワーク1間に対して干渉可能に設けられるのであれば、記憶部24およびPROXY27を管理者端末20外に設けても良い。
また、本実施例において説明した各処理のうち、自動的におこなわれるものとして説明した処理の全部または一部を手動的におこなうこともでき、あるいは、手動的におこなわれるものとして説明した処理の全部または一部を公知の方法で自動的におこなうこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータ(スクリプトにより動作するWebページが出力されるまで待機時間、マウスカーソルの移動距離およびマウスボタンのクリック動作間隔)を含む情報については、特記する場合を除いて任意に変更することができる。
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。さらに、各装置にて行なわれる各処理機能は、その全部または任意の一部が、CPUおよび当該CPUにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。
本実施例1に係る情報収集システムの構成を示す機能ブロック図である。 管理情報データベースに記憶される情報の構成例を示す図である。 未収集アドレステーブルに記憶される情報の構成例を示す図である。 出力部に表示される画面の構成例を示す図である。 本実施例1に係る判定処理の手順を示すフローチャートである。 本実施例1に係る登録処理の手順を示すフローチャートである。 本実施例1に係る情報収集処理の手順を示すフローチャートである。 本実施例2に係る情報収集システムの構成を示す機能ブロック図である。 本実施例2に係るアクセスログ取得処理の手順を示すフローチャートである。 本実施例2に係る判定処理の手順を示すフローチャートである。 本実施例3に係る情報収集システムの構成を示す機能ブロック図である。 本実施例3に係るアクセスログ取得処理の手順を示すフローチャートである。 本実施例4に係るコンピュータシステムの構成を示すシステム構成図である。 図13に示したコンピュータシステムにおける本体部の構成を示すブロック図である。
符号の説明
1 ネットワーク
10 情報収集システム
20 管理者端末
21 入力部
22 出力部
23 通信制御IF部
24 記憶部
24a 収集済アドレステーブル
24b アクセスログテーブル
25 制御部
26 参照PROXY
26a 世代情報保持部
26b アドレス埋込処理部
27 PROXY
27a アクセスログ取得部
27b 判定部
27c マウス制御部
30 Webアーカイビング・サーバ
31 通信制御IF部
32 記憶部
32a 管理情報データベース
32b Webアーカイブ
32c 未収集アドレステーブル
33 制御部
33a 判定部
33b 情報収集処理部
100 コンピュータシステム
101 本体部
102 ディスプレイ
102a 表示画面
103 キーボード
104 マウス
105 モデム
106 LAN/WAN
107 公衆回線
108 FD
109 CD−ROM
111 PC
112 サーバ
113 プリンタ
121 CPU
122 RAM
123 ROM
124 HDD
125 CD−ROMドライブ
126 FDドライブ
127 I/Oインターフェース
128 LANインターフェース

Claims (9)

  1. ネットワーク上に存在するWebページを収集し、該収集されたWebページを記憶するためにコンピュータで実行される情報収集プログラムであって、
    収集されたWebページのアドレスと対応付けてWebページをWebアーカイブに記憶するWebアーカイブ記憶手順と、
    参照中のWebページ上で指定されたリンク先のアドレス情報を端末から入手し、リンク先のWebページが前記Webアーカイブに収集されているか否かを判定する判定手順と、
    前記判定手順によってリンク先のWebページがWebアーカイブに記憶されていないと判定された場合に、前記Webページ上で指定されたリンク先のアドレスに基づいてリンク先のWebページをネットワークを介して収集する情報収集手順と、
    をコンピュータに実行させることを特徴とする情報収集プログラム。
  2. 前記記憶手順は、収集されたWebページのアドレスと該Webページの世代情報とを対応付けてWebページをWebアーカイブに記憶し、
    前記判定手順は、参照中のWebページ上で指定されたリンク先のアドレスおよび該Webページの世代情報に基づいて情報を端末から入手し、リンク先のWebページが前記Webアーカイブに収集されているか否かを判定することを特徴とする請求項1に記載の情報収集プログラム。
  3. ネットワーク上に存在するWebページを収集し、該収集されたWebページを記憶するためにコンピュータで実行される情報収集プログラムであって、
    収集されたWebページのアドレスと対応付けてWebページを記憶したWebアーカイブを有するサーバから前記Webページのアドレス情報を入手し、収集済アドレステーブルに記憶する手順と、
    前記収集済アドレステーブルに記憶されたWebページのアドレスをもとに当該Webページにアクセスするとともに、該Webページのリンク先のWebページにアクセスし、該Webページのアドレスをアクセスログとして取得するアクセスログ取得手順と、
    前記アクセスログ取得手順で取得されたリンク先のWebページのアドレスが前記収集済アドレステーブルに記憶されているか否かを判定する判定手順と、
    前記判定手順で前記収集済アドレステーブルに記憶されていないと判定された場合に、前記アクセスログ取得手順で取得されたリンク先のWebページのアドレスに基づいて該リンク先のWebページをネットワークを介して収集する情報収集手順と、
    をコンピュータに実行させることを特徴とする情報収集プログラム。
  4. 前記アクセスログ取得手順は、前記収集済アドレステーブルに記憶されたWebページのアドレスをもとに当該Webページにアクセスするとともに、該Webページの出力時にスクリプトにより動作するWebページにアクセスし、該Webページのアドレスをアクセスログとして取得し、
    前記判定手順は、前記アクセスログ取得手順で取得されたスクリプトにより動作するWebページのアドレスが前記収集済アドレステーブルに記憶されているか否かを判定し、
    前記情報収集手順は、前記判定手順で前記収集済アドレステーブルに記憶されていないと判定された場合に、前記アクセスログ取得手順で取得されたスクリプトにより動作するWebページのアドレスに基づいて該Webページをネットワークを介して収集することを特徴とする請求項3に記載の情報収集プログラム。
  5. 前記収集済アドレステーブルに記憶されたWebページのアドレスをもとに当該Webページ上のマウスイベントによりスクリプトが動作するWebページへのリンクに対してマウスカーソルおよび/またはマウスボタンの動作制御を行うマウス制御手順をさらにコンピュータに実行させることを特徴とする請求項4に記載の情報収集プログラム。
  6. ネットワーク上に存在するWebページを収集し、該収集されたWebページを記憶する情報収集方法であって、
    収集されたWebページのアドレスと対応付けてWebページをWebアーカイブに記憶するWebアーカイブ記憶工程と、
    参照中のWebページ上で指定されたリンク先のアドレス情報を端末から入手し、リンク先のWebページが前記Webアーカイブに収集されているか否かを判定する判定工程と、
    前記判定工程によってリンク先のWebページがWebアーカイブに記憶されていないと判定された場合に、前記Webページ上で指定されたリンク先のアドレスに基づいてリンク先のWebページをネットワークを介して収集する情報収集工程と、
    を含んだことを特徴とする情報収集方法。
  7. ネットワーク上に存在するWebページを収集し、該収集されたWebページを記憶する情報収集方法であって、
    収集されたWebページのアドレスと対応付けてWebページを記憶したWebアーカイブを有するサーバから前記Webページのアドレス情報を入手し、収集済アドレステーブルに記憶する工程と、
    前記収集済アドレステーブルに記憶されたWebページのアドレスをもとに当該Webページにアクセスするとともに、該Webページのリンク先のWebページにアクセスし、該Webページのアドレスをアクセスログとして取得するアクセスログ取得工程と、
    前記アクセスログ取得工程で取得されたリンク先のWebページのアドレスが前記収集済アドレステーブルに記憶されているか否かを判定する判定工程と、
    前記判定工程で前記収集済アドレステーブルに記憶されていないと判定された場合に、前記アクセスログ取得工程で取得されたリンク先のWebページのアドレスに基づいて該リンク先のWebページをネットワークを介して収集する情報収集工程と、
    を含んだことを特徴とする情報収集方法。
  8. ネットワーク上に存在するWebページを収集し、該収集されたWebページを記憶する情報収集システムであって、
    収集されたWebページのアドレスと該Webページの世代情報とを対応付けてWebページを記憶するWebアーカイブと、
    参照中のWebページ上で指定されたリンク先のアドレスおよび該Webページの世代情報に基づいてリンク先のWebページが前記Webアーカイブに収集されているか否かを判定する判定手段と、
    前記判定手段によってリンク先のWebページがWebアーカイブに記憶されていないと判定された場合に、前記Webページ上で指定されたリンク先のアドレスに基づいてリンク先のWebページをネットワークを介して収集する情報収集手段と、
    を備えたことを特徴とする情報収集システム。
  9. ネットワーク上に存在するWebページを収集し、該収集されたWebページを記憶するために用いられる装置であって、
    収集されたWebページのアドレスと対応付けてWebページを記憶したWebアーカイブを有するサーバから前記Webページのアドレス情報を入手し、収集済アドレステーブルに記憶する手段と、
    前記収集済アドレステーブルに記憶されたWebページのアドレスをもとに当該Webページにアクセスするとともに、該Webページのリンク先のWebページにアクセスし、該Webページのアドレスをアクセスログとして取得するアクセスログ取得手段と、
    前記アクセスログ取得手段によって取得されたリンク先のWebページのアドレスが前記収集済アドレステーブルに記憶されているか否かを判定する判定手段と、
    前記判定手段によって前記収集済アドレステーブルに記憶されていないと判定された場合に、前記アクセスログ取得手段によって取得されたリンク先のWebページのアドレスに基づいて該リンク先のWebページをネットワークを介して収集する情報収集手段と、
    を備えたことを特徴とする情報収集装置。
JP2003385679A 2003-11-14 2003-11-14 情報収集プログラム、情報収集方法、情報収集システムおよび情報収集装置 Pending JP2005149136A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2003385679A JP2005149136A (ja) 2003-11-14 2003-11-14 情報収集プログラム、情報収集方法、情報収集システムおよび情報収集装置
US10/853,972 US7529771B2 (en) 2003-11-14 2004-05-25 Method of and apparatus for gathering information, system for gathering information, and computer program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003385679A JP2005149136A (ja) 2003-11-14 2003-11-14 情報収集プログラム、情報収集方法、情報収集システムおよび情報収集装置

Publications (1)

Publication Number Publication Date
JP2005149136A true JP2005149136A (ja) 2005-06-09

Family

ID=34567381

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003385679A Pending JP2005149136A (ja) 2003-11-14 2003-11-14 情報収集プログラム、情報収集方法、情報収集システムおよび情報収集装置

Country Status (2)

Country Link
US (1) US7529771B2 (ja)
JP (1) JP2005149136A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007206757A (ja) * 2006-01-31 2007-08-16 Access Co Ltd 情報端末装置およびコンピュータプログラム
JP4507206B2 (ja) * 2004-10-28 2010-07-21 富士通株式会社 インターネット情報収集装置、プログラム及び方法

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7480895B2 (en) * 2003-11-24 2009-01-20 International Business Machines Corporation Web application development tool
KR100664931B1 (ko) * 2004-11-20 2007-01-04 삼성전자주식회사 홈 네트워크에서 컨텐츠 리스트를 제공하는 장치, 시스템,및 그 방법
US8042103B2 (en) * 2005-11-29 2011-10-18 International Business Machines Corporation Pre-translated files used in a virtual machine
US8527905B2 (en) * 2006-06-07 2013-09-03 International Business Machines Corporsation Providing archived web page content in place of current web page content
US8117315B2 (en) * 2007-07-20 2012-02-14 International Business Machines Corporation Apparatus, system, and method for archiving small objects to improve the loading time of a web page
US7937478B2 (en) 2007-08-29 2011-05-03 International Business Machines Corporation Apparatus, system, and method for cooperation between a browser and a server to package small objects in one or more archives
CN102486799B (zh) * 2010-12-03 2014-10-15 腾讯科技(深圳)有限公司 一种环球信息网www页面处理方法和装置
US8954546B2 (en) 2013-01-25 2015-02-10 Concurix Corporation Tracing with a workload distributor
US8843901B2 (en) * 2013-02-12 2014-09-23 Concurix Corporation Cost analysis for selecting trace objectives
US9021447B2 (en) * 2013-02-12 2015-04-28 Concurix Corporation Application tracing by distributed objectives
US8997063B2 (en) 2013-02-12 2015-03-31 Concurix Corporation Periodicity optimization in an automated tracing system
US8924941B2 (en) * 2013-02-12 2014-12-30 Concurix Corporation Optimization analysis using similar frequencies
US20130283281A1 (en) 2013-02-12 2013-10-24 Concurix Corporation Deploying Trace Objectives using Cost Analyses
US9665474B2 (en) 2013-03-15 2017-05-30 Microsoft Technology Licensing, Llc Relationships derived from trace data
US9575874B2 (en) 2013-04-20 2017-02-21 Microsoft Technology Licensing, Llc Error list and bug report analysis for configuring an application tracer
US9292415B2 (en) 2013-09-04 2016-03-22 Microsoft Technology Licensing, Llc Module specific tracing in a shared module environment
WO2015071778A1 (en) 2013-11-13 2015-05-21 Concurix Corporation Application execution path tracing with configurable origin definition
US10447761B2 (en) * 2015-07-31 2019-10-15 Page Vault Inc. Method and system for capturing web content from a web server as a set of images

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5911773A (en) * 1995-07-24 1999-06-15 Aisin Aw Co., Ltd. Navigation system for vehicles
JP3934174B2 (ja) 1996-04-30 2007-06-20 株式会社エクシング 中継サーバ
JP3445912B2 (ja) 1997-01-24 2003-09-16 シャープ株式会社 ハイパーテキスト自動取得装置
US6401077B1 (en) * 1999-05-28 2002-06-04 Network Commerce, Inc. Method and system for providing additional behavior through a web page
CA2342558A1 (en) 2000-05-30 2001-11-30 Lucent Technologies, Inc. Internet archive service providing persistent access to web resources
US7487508B2 (en) * 2002-05-16 2009-02-03 Hewlett-Packard Development Company, L.P. System and method for reconstructing client web page accesses from captured network packets
US7246101B2 (en) * 2002-05-16 2007-07-17 Hewlett-Packard Development Company, L.P. Knowledge-based system and method for reconstructing client web page accesses from captured network packets
GB2392518B (en) * 2002-09-02 2004-09-22 3Com Corp Computer network and method of operating same to preload content of selected web pages
CN1739100A (zh) * 2003-02-03 2006-02-22 Mvp株式会社 同步程序

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4507206B2 (ja) * 2004-10-28 2010-07-21 富士通株式会社 インターネット情報収集装置、プログラム及び方法
JP2007206757A (ja) * 2006-01-31 2007-08-16 Access Co Ltd 情報端末装置およびコンピュータプログラム

Also Published As

Publication number Publication date
US20050108259A1 (en) 2005-05-19
US7529771B2 (en) 2009-05-05

Similar Documents

Publication Publication Date Title
JP2005149136A (ja) 情報収集プログラム、情報収集方法、情報収集システムおよび情報収集装置
US6271840B1 (en) Graphical search engine visual index
JP5735095B2 (ja) 情報処理装置、サーバークライアントシステム、およびコンピュータプログラム
JP2001060205A (ja) ドキュメント表示方法、コンピュータプログラム製品及びドキュメント表示装置
KR20060015705A (ko) 사용자 인터페이스 자동화 프레임워크 클래스 및 인터페이스
US8135731B2 (en) Administration of search results
JP2006268201A (ja) 記事又は話題を管理するためのプログラム
JP2014219974A (ja) ウェブページの部分コンテンツを取得するための方法及び装置
JP5627332B2 (ja) データ検索装置及びその制御方法、コンピュータプログラム
JP2007280011A (ja) Webページ閲覧履歴の提示方法および装置
JP4507206B2 (ja) インターネット情報収集装置、プログラム及び方法
JP2011170418A (ja) 画像イメージを検索するタグデータの生成方法
JP2008181218A (ja) 入力支援方法及び装置
KR20060115488A (ko) 웹 브라우저의 즐겨찾기 리스트를 이용한 개인화 검색 방법및 검색 서버
JP5263635B2 (ja) 検索式生成システム
Weakliam et al. Delivering personalized context-aware spatial information to mobile devices
JP6101880B1 (ja) Webページを表示するためのシステム、プログラムおよび記録媒体
JP2006127117A (ja) Web閲覧操作の記録・再生方法及び装置及びプログラム及びプログラムを格納した記憶媒体
JP4941916B2 (ja) 地図サーバ装置
JP2005115721A (ja) 画像検索方法、画像検索装置及び画像検索プログラム
JP2007087241A (ja) 多言語複層サイト作成システムおよび多言語複層サイト作成プログラム
JP4715031B2 (ja) 構造化文書変換システム及び構造化文書変換プログラム
KR100781325B1 (ko) 로컬 검색방법
JP2006072494A (ja) Url情報管理システム
JP2013004055A (ja) 操作履歴表示装置、操作履歴表示方法及び操作履歴表示プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20051222

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20081216

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20090512