JP2002073609A - Webサイト情報の検索閲覧サービス方法およびシステム - Google Patents

Webサイト情報の検索閲覧サービス方法およびシステム

Info

Publication number
JP2002073609A
JP2002073609A JP2000257206A JP2000257206A JP2002073609A JP 2002073609 A JP2002073609 A JP 2002073609A JP 2000257206 A JP2000257206 A JP 2000257206A JP 2000257206 A JP2000257206 A JP 2000257206A JP 2002073609 A JP2002073609 A JP 2002073609A
Authority
JP
Japan
Prior art keywords
web
information
database
web page
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2000257206A
Other languages
English (en)
Inventor
Haruyuki Kaneko
晴之 金子
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yahoo Japan Corp
Original Assignee
Yahoo Japan Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yahoo Japan Corp filed Critical Yahoo Japan Corp
Priority to JP2000257206A priority Critical patent/JP2002073609A/ja
Publication of JP2002073609A publication Critical patent/JP2002073609A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 (修正有) 【課題】 過去にネットワーク上で公開されたWEBペ
ージ情報をユーザが検索閲覧することが可能な検索閲覧
サービス方法およびシステムを提供する。 【解決手段】 ロボットエンジン部16は、インターネ
ット12上のWEBサイトに適時アクセスしてWEBペ
ージ情報を取得する。登録情報抽出部18は、取得した
WEBページ情報からテキストデータを抽出すると共
に、WEBページ画面の画像データを生成する。そして
生成した画像データをWEB画像データベース24に記
録すると共に、抽出したテキストデータと、WEBペー
ジ画面のURLと、取得年月日と、前記画像データのフ
ァイル名とを互いに関係付けてWEB情報データベース
22に記録する。登録情報検索部20はユーザ端末14
からの検索閲覧要求に応じて、WEB情報データベース
22を検索し、該当するWEBページのテキストあるい
は画像データをユーザ端末14へ送信する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、ネットワーク上で
過去に公開されたWEBページ情報をユーザの検索閲覧
に供する方法およびシステムに関する。
【0002】
【従来の技術】インターネット上では種々のWEBサイ
トが膨大な量の情報を提供している。これらのWEBサ
イトが提供するWEBページの内容は、サイト運営者に
よって頻繁に変更されており、昨日存在していたWEB
ページが今日はなくなっていることもしばしばである。
【0003】
【発明が解決しようとする課題】こうして消えていった
WEBページ情報の中には、後年、歴史的価値を持つも
のも多数含まれると考えられる。このように貴重なWE
Bページ情報も、各ユーザが自分のコンピュータに保存
しておくなどしない限り、再び閲覧することは難しい。
この点、絶版になった書籍が入手困難になってしまうの
と同様であるが、書籍の場合は、過去の出版物が図書館
等に保管されているので、図書館に行って絶版となった
書籍を探し出して閲覧することも可能である。しかしな
がら、WEBページ情報については、その歴史的価値は
未だ十分には認識されておらず、過去に存在していたW
EBページ情報を閲覧できるようなシステムは存在しな
い。
【0004】本発明は上記の点に鑑みてなされたもので
あり、過去にネットワーク上で公開されたWEBページ
情報をユーザが検索閲覧することが可能な検索閲覧サー
ビス方法およびシステムを提供することを目的とする。
【0005】
【課題を解決するための手段】上記の目的を達成するた
め、請求項1に記載された発明は、ネットワークに接続
されたサーバーコンピュータによって、ネットワーク上
で公開されたWEBページ情報を収集・蓄積して、アク
セスしてきたユーザ端末における閲覧に供するWEBサ
イト情報の検索閲覧サービス方法であって、ネットワー
ク上のWEBサイトに適時アクセスして、各WEBサイ
トのWEBページ情報を取得するステップと、前記取得
したWEBページ情報をデータベースに記録するステッ
プと、アクセスしてきたユーザ端末からの検索閲覧要求
に応じて前記データベースを検索し、該当する情報を前
記ユーザ端末へ送信するステップとを備えることを特徴
とする。
【0006】また、請求項2に記載された発明は、ネッ
トワークに接続されたサーバーコンピュータによって、
ネットワーク上で公開されたWEBページ情報を収集・
蓄積して、アクセスしてきたユーザ端末における検索閲
覧に供するWEBサイト情報の検索閲覧サービス方法で
あって、ネットワーク上のWEBサイトに適時アクセス
して、各WEBサイトのWEBページ情報を取得するス
テップと、前記取得したWEBページ情報からテキスト
データを抽出すると共に、WEBページ画面の画像デー
タを生成するステップと、該生成された画像データをW
EB画像データベースに記録すると共に、前記抽出した
テキストデータと、WEBページのURLと、WEBペ
ージ情報の取得年月日と、前記画像データのファイル名
とを互いに関係付けてWEB情報データベースに記録す
るステップと、アクセスしてきたユーザ端末からの検索
閲覧要求に応じて前記WEB情報データベースを検索
し、該当するデータを前記WEB情報データベースおよ
び前記WEB画像データベースから読み出して、前記ユ
ーザ端末へ送信するステップとを備えることを特徴とす
る。
【0007】なお、請求項3に記載された発明は、請求
項1または2記載の方法を実行するWEB情報検索閲覧
サービスシステムに係るものである。
【0008】
【発明の実施の形態】図1は、本発明の一実施形態であ
るWEB情報検索閲覧システムを含む全体構成図であ
る。図1において、WEB情報検索閲覧システムを構成
するWEB情報サーバー10は、大容量記憶装置や通信
インターフェース等を備えたコンピュータシステムであ
る。WEB情報サーバー10には、インターネット12
を介して多数のユーザ端末(例えばパーソナルコンピュ
ータや、携帯電話やPDA等の携帯型情報処理端末)1
4が接続されている。
【0009】WEB情報サーバー10は、インターネッ
ト12を介してアクセスしてきたユーザ端末14と、例
えばHTTP等のプロトコルに従ってデータ通信を行う
ことでWEBサーバとして機能する。すなわち、WEB
情報サーバー10は、ユーザ端末14からの要求に応じ
て、例えばHTML等のデジタル文書記述言語により記
述された文書データよりなる画面構成データを当該ユー
ザ端末14へ向けて送信する。
【0010】図1に示す如く、WEB情報サーバー10
は、ロボットエンジン部16、登録情報抽出部18、登
録情報検索部20、WEB情報データベース22、およ
び、WEB画像データベース24を備えている。WEB
情報データベース22およびWEB画像データベース2
4は、ハードディスク装置、DVD装置、磁気テープ等
の大容量記憶装置上に構築されている。
【0011】ロボットエンジン部16は、適宜なタイミ
ング(例えば、毎日、あるいは数日に1回など)で、イ
ンターネット12上の多数のWEBサイトにアクセス
し、各WEBサイト18のWEBページ情報を取得す
る。ロボットエンジン部16がアクセスすべきWEBサ
イトは、一般ユーザからの推薦によって、または、自ら
が運営するWEBサイトの履歴を記録したいと考えるW
EBサイト運営者からの依頼によって、指定されている
ものとする。ただし、WEB情報サーバー10の運営者
が独自にWEBサイトを指定してもよく、あるいは、巡
回ロボットのように、WEBページのハイパーリンクを
辿りながら不特定のWEBサイトにアクセスするように
してもよい。
【0012】登録情報抽出部18は、ロボットエンジン
部16が取得した各WEBページ画面のイメージを所定
のファイル形式(例えばGIF形式)で画像ファイル化
してWEB画像データベース24に登録すると共に、W
EBページ情報からHTMLテキスト、および言語等の
属性を抽出し、WEBページ情報の取得年月日および画
像データファイル名と関係付けてWEB情報データベー
ス22に登録する。
【0013】図2は、WEB情報データベース22のデ
ータ構造を示す。図2に示す如く、WEB情報データベ
ース22の登録データは、WEBページのURL、WE
Bページ情報の取得年月日、画像ファイル名、テキスト
データ、言語、ジャンル、およびその他の付帯情報をレ
コード単位として構成されている。このうち、ジャンル
は、例えば「ショッピング」、「ビジネス」、「健康」
など、WEBサイトの内容に基づいて適宜分類したもの
であり、ロボットエンジン部16がアクセスすべきWE
Bサイトを指定する際に、その属性として併せて指定す
るものとする。
【0014】ユーザはユーザ端末14からWEB情報サ
ーバー10にアクセスして、登録されたWEBページ情
報の検索閲覧サービスを受けることができる。以下、ユ
ーザ端末14からWEB情報サーバー10にアクセスが
あった場合の処理について説明する。
【0015】ユーザ端末14からWEB情報サーバー1
0へアクセスがあると、登録情報検索部20は、WEB
ページ情報の検索を行うための画面を当該ユーザ端末1
4へ送信する。この検索画面には、URL、期間、言
語、ジャンル、および、キーワード等を指定するための
各入力欄が含まれる。各入力欄への記入事項がWEB情
報サーバー10へ返送されてくると、登録情報検索部2
0は、その記入事項に基づいてWEB情報データベース
22を検索し、該当するレコードを抽出する。例えば、
URL記入欄に「co.jp」が、期間記入欄に「20
00年1月5日〜2000年2月4日」が、言語記入欄
に「日本語」が、キーワード記入欄に「コンピュータ」
が、それぞれ記入された場合、サーバーシステムは、U
RLに「co.jp」を含み、2000年1月5日から
2月4日までの間に取得され、日本語で表現され、か
つ、HTMLテキストに「コンピュータ」を含むレコー
ドを抽出する。登録情報検索部20は、WEB情報デー
タベース22の検索を完了すると、検索結果一覧を示す
画面をユーザ端末14へ送信する。この検索結果一覧画
面には、例えば、抽出されたレコードに該当するWEB
ページのURL、および、テキストデータの一部(例え
ば、タイトル文や、ページ内の最初の所定数の文字)が
表示される。そして、ユーザ端末14において、何れか
のWEBページが選択され、情報の出力形式(テキスト
か画像か)が指定されると、登録情報検索部20は、選
択されたWEBページに該当するテキストデータ、また
は、該当する画像ファイル名の画像データを読み出し
て、ユーザ端末14へ送信する。これにより、ユーザ端
末14において、所望のWEBページを所望の出力形式
で閲覧することができる。
【0016】以上説明したように、本実施形態では、イ
ンターネット12上で公開されるWEBページを適時収
集してWEB情報データベース22およびWEB画像デ
ータベース24に登録する。すなわち、WEB情報サー
バー10には、過去に公開されたWEBページ情報の変
遷が蓄積されていく。したがって、本実施形態によれ
ば、ユーザは、WEB情報サーバー10にアクセスする
ことにより、過去に公開されたWEBページ情報を検索
閲覧して所望の情報を得ることができる。その際、WE
Bページ画面のイメージを表す画像ファイルと、テキス
トデータとを関係付けて記録することで、WEBページ
のテキスト全文検索を可能としつつ、WEBページの完
全なイメージ情報をユーザに提供することが可能となっ
ている。
【0017】また、上述したように、WEBページの内
容は頻繁に変更されるものであり、各WEBページの内
容はその公開時期の時代背景を反映しているともいえ
る。したがって、図2に示すように、WEBページの取
得年月日をWEBページ情報の一部として登録し、取得
年月日をキーとした検索を可能とすることで、過去の特
定の時期のWEBページ情報を検索閲覧して、その時代
背景を知るための資料を抽出するといった使い方が可能
となる。例えば、西暦2020年に、電子掲示板サイト
のWEBページについて情報取得年月日を西暦2000
年1月1日〜1月3日として検索閲覧することで、20
年前(西暦2000年)の正月にどのような言葉遣いで
どのようなやり取りが行われていたかといった当時の文
化を知ることができる。その他、本実施形態のシステム
を例えば以下のような場面で利用することができる。
【0018】・日本のインターネットの歴史について本
を書くため、Yahoo!(登録商標)Japanが開
始された当時のサービス画面を見たい場合 ・映画やテレビドラマを撮影する際に、小道具として昔
のWEB画面を使いたい場合 ・自分が作ったサイトの変遷を記録したい場合 ・有名人のサイトの記録をまとめて出版したい場合 なお、上記実施形態では、ユーザがWEB情報サーバー
10にアクセスして検索閲覧を行う場合の利用料金につ
いては特に述べなかったが、例えば、検索結果の出力表
示件数に応じた料金を課金することとしてもよい。この
ように有料サービスとする場合には、ユーザがアクセス
する都度、例えばクレジットカード番号等の課金に必要
な情報の入力を求めることとしてもよく、あるいは、登
録会員制としてアクセス時に会員IDおよびパスワード
の入力を求めるようにしてもよい。また、ユーザ端末1
4へ送信する各画面に広告を掲載し、広告主から広告料
を徴収することで、サービスを無料としてもよい。
【0019】また、上記実施形態では、蓄積したWEB
ページ情報を不特定のユーザに対して検索閲覧させるも
のとしたが、これに限らず、ロボットエンジン部16が
アクセスすべきWEBサイトを指定したユーザのみが、
当該WEBサイトのWEBページ情報を検索閲覧できる
ようにしてもよい。すなわち、各ユーザに対して個別
に、指定されたWEBサイトの変遷を記録して閲覧させ
るというサービス形態とすることも可能である。
【0020】
【発明の効果】以上説明したように、本発明によれば、
WEBサイトに適時アクセスして取得したWEBページ
情報をデータベースに登録するので、このデータベース
には、ネットワーク上で公開されたWEBページ情報の
変遷が蓄積されていく。そして、このWEBページ情報
をユーザ端末での検索閲覧に供することで、ユーザは、
過去に公開されたWEBページを閲覧することができ
る。
【0021】また、WEBページ情報を、情報取得日と
テキストデータと画像データとを関連つけた情報として
登録することにより、ユーザ端末において、テキスト全
文検索を可能としつつ画面イメージを閲覧することがで
きると共に、WEBページの公開時期をキーとした検索
を行うことができる。
【図面の簡単な説明】
【図1】本発明の一実施形態であるシステムの構成図で
ある。
【図2】WEB情報データベースの登録データのデータ
構造を示す図である。
【符号の説明】
10 WEB情報サーバー 12 インターネット 14 ユーザ端末 16 ロボットエンジン部 18 登録情報抽出部 20 登録情報検索部 22 WEB情報データベース 24 WEB画像データベース

Claims (3)

    【特許請求の範囲】
  1. 【請求項1】 ネットワークに接続されたサーバーコン
    ピュータによって、ネットワーク上で公開されたWEB
    ページ情報を収集・蓄積して、アクセスしてきたユーザ
    端末における閲覧に供するWEBサイト情報の検索閲覧
    サービス方法であって、 ネットワーク上のWEBサイトに適時アクセスして、各
    WEBサイトのWEBページ情報を取得するステップ
    と、 前記取得したWEBページ情報をデータベースに記録す
    るステップと、 アクセスしてきたユーザ端末からの検索閲覧要求に応じ
    て前記データベースを検索し、該当する情報を前記ユー
    ザ端末へ送信するステップとを備えることを特徴とする
    WEB情報検索サービス方法。
  2. 【請求項2】 ネットワークに接続されたサーバーコン
    ピュータによって、ネットワーク上で公開されたWEB
    ページ情報を収集・蓄積して、アクセスしてきたユーザ
    端末における検索閲覧に供するWEBサイト情報の検索
    閲覧サービス方法であって、 ネットワーク上のWEBサイトに適時アクセスして、各
    WEBサイトのWEBページ情報を取得するステップ
    と、 前記取得したWEBページ情報からテキストデータを抽
    出すると共に、WEBページ画面の画像データを生成す
    るステップと、 該生成された画像データをWEB画像データベースに記
    録すると共に、前記抽出したテキストデータと、WEB
    ページのURLと、WEBページ情報の取得年月日と、
    前記画像データのファイル名とを互いに関係付けてWE
    B情報データベースに記録するステップと、 アクセスしてきたユーザ端末からの検索閲覧要求に応じ
    て前記WEB情報データベースを検索し、該当するデー
    タを前記WEB情報データベースおよび前記WEB画像
    データベースから読み出して、前記ユーザ端末へ送信す
    るステップとを備えることを特徴とするWEB情報検索
    閲覧サービス方法。
  3. 【請求項3】 ネットワークに接続されたサーバーコン
    ピュータによって構成された、請求項1または2記載の
    方法を実行するWEB情報検索閲覧サービスシステム。
JP2000257206A 2000-08-28 2000-08-28 Webサイト情報の検索閲覧サービス方法およびシステム Pending JP2002073609A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000257206A JP2002073609A (ja) 2000-08-28 2000-08-28 Webサイト情報の検索閲覧サービス方法およびシステム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000257206A JP2002073609A (ja) 2000-08-28 2000-08-28 Webサイト情報の検索閲覧サービス方法およびシステム

Publications (1)

Publication Number Publication Date
JP2002073609A true JP2002073609A (ja) 2002-03-12

Family

ID=18745706

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000257206A Pending JP2002073609A (ja) 2000-08-28 2000-08-28 Webサイト情報の検索閲覧サービス方法およびシステム

Country Status (1)

Country Link
JP (1) JP2002073609A (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004021900A (ja) * 2002-06-20 2004-01-22 Nec Corp Www情報検索システムおよびwww情報検索方法
JP2008117322A (ja) * 2006-11-08 2008-05-22 Hitachi Ltd 情報提供システム及び情報提供方法
JPWO2006095400A1 (ja) * 2005-03-07 2008-08-14 富士通株式会社 情報提供方法および情報提供システム
JP2010044735A (ja) * 2008-07-17 2010-02-25 Yahoo Japan Corp 広告閲覧サーバ、方法及びプログラム
JP2010211708A (ja) * 2009-03-12 2010-09-24 Brother Ind Ltd 通信装置、およびプログラム
US8291013B2 (en) 2009-03-12 2012-10-16 Brother Kogyo Kabushiki Kaisha Communication apparatus and storage medium storing program

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004021900A (ja) * 2002-06-20 2004-01-22 Nec Corp Www情報検索システムおよびwww情報検索方法
JPWO2006095400A1 (ja) * 2005-03-07 2008-08-14 富士通株式会社 情報提供方法および情報提供システム
JP4648383B2 (ja) * 2005-03-07 2011-03-09 富士通株式会社 情報提供方法および情報提供システム
JP2008117322A (ja) * 2006-11-08 2008-05-22 Hitachi Ltd 情報提供システム及び情報提供方法
JP2010044735A (ja) * 2008-07-17 2010-02-25 Yahoo Japan Corp 広告閲覧サーバ、方法及びプログラム
JP2010211708A (ja) * 2009-03-12 2010-09-24 Brother Ind Ltd 通信装置、およびプログラム
US8291013B2 (en) 2009-03-12 2012-10-16 Brother Kogyo Kabushiki Kaisha Communication apparatus and storage medium storing program

Similar Documents

Publication Publication Date Title
US20210334451A1 (en) Uniform resource locator subscription service
US7072983B1 (en) Scheme for systemically registering meta-data with respect to various types of data
US20020032677A1 (en) Methods for creating, editing, and updating searchable graphical database and databases of graphical images and information and displaying graphical images from a searchable graphical database or databases in a sequential or slide show format
US7734622B1 (en) Media-driven browsing
US20060218245A1 (en) Method, system, and computer program product for distributing a stored URL and web document set
US20090307086A1 (en) Systems and methods for visually grouping links to documents
KR100868187B1 (ko) 사진 기반 통합 컨텐츠 생성 및 제공 시스템 그리고 그방법.
US6694302B2 (en) System, method and article of manufacture for personal catalog and knowledge management
JP3091150B2 (ja) ホームページの閲覧方法
EP1302868A2 (en) Document sorting method based on link relation
US20090300473A1 (en) Systems and Methods for Displaying Albums Having Links to Documents
CN101089853B (zh) 用于浏览内容的设备和方法
JP2007114942A (ja) メタデータ生成装置およびメタデータ生成方法
JP5284064B2 (ja) 商品idサーバ装置、および商品idサーバ装置の制御方法
US20090300051A1 (en) Systems and Methods for Building Albums Having Links to Documents
JP5000801B2 (ja) インターネット補助システム
JP2002073609A (ja) Webサイト情報の検索閲覧サービス方法およびシステム
JP2000029869A (ja) 文書管理システムおよび管理方法、ならびにそのプログラムを記録した記録媒体
KR100720993B1 (ko) 날짜 검색어를 이용한 인터넷 검색 방법
JP2009295104A (ja) ウェブサイト検索装置、画像情報収集サーバ、及びウェブサイト検索方法
JP4715031B2 (ja) 構造化文書変換システム及び構造化文書変換プログラム
JP2001101114A (ja) 電子掲示板システム、情報処理装置および記録媒体
KR20080053657A (ko) 위치정보를 이용한 웹/왑 컨텐츠의 자동 태깅 방법
JP2009054166A (ja) 掲載データのクリッピングシステム
Aizawa et al. Capture and retrieval of life log

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20040928