JP2003122619A - インターネット上のデータ収集方法およびデータ収集装置 - Google Patents

インターネット上のデータ収集方法およびデータ収集装置

Info

Publication number
JP2003122619A
JP2003122619A JP2001316166A JP2001316166A JP2003122619A JP 2003122619 A JP2003122619 A JP 2003122619A JP 2001316166 A JP2001316166 A JP 2001316166A JP 2001316166 A JP2001316166 A JP 2001316166A JP 2003122619 A JP2003122619 A JP 2003122619A
Authority
JP
Japan
Prior art keywords
link destination
link
destination display
unregistered
hypertext document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2001316166A
Other languages
English (en)
Inventor
Tatsuo Ogasawara
達男 小笠原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
MEDIA KOBO KK
Original Assignee
MEDIA KOBO KK
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by MEDIA KOBO KK filed Critical MEDIA KOBO KK
Priority to JP2001316166A priority Critical patent/JP2003122619A/ja
Publication of JP2003122619A publication Critical patent/JP2003122619A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】時々刻々変化するハイパーテキスト文書内のリ
ンク先とリンク先表示内容を抽出し、過去にチェックし
ていないリンク先とリンク先表示内容のみを収集する方
法および装置を提供する。 【解決手段】ハイパーテキスト文書を取得する手段と、
取得したハイパーテキスト文書からタグで指定されたリ
ンク先とリンク先表示内容を抽出する手段と、抽出した
リンク先とリンク先表示内容が既に登録済みであるか調
べる手段と、未登録のリンク先とリンク先表示内容を登
録する手段と、未登録のリンク先とリンク先表示内容を
収集する手段により、インターネット上のデータを収集
する。

Description

【発明の詳細な説明】
【0001】
【発明が属する技術分野】本発明は、ハイパーテキスト
文書から、リンクがはられた項目について、利用者が過
去に閲覧した項目を除き、閲覧していない項目を抽出す
る方法を用いたインターネットのデータ収集方法および
データ収集装置に関する。
【0002】
【従来の技術】HTMLやSGML、XMLに代表されるハイパー
テキスト文書を用いて、インターネット上で時々刻々と
変化する情報が配信されている。ニュースや新製品紹介
の文書では、題名をリンク先表示内容として表示し、そ
の詳細をリンク先の文書に設定する方式が多く見られ
る。利用者は題名の一覧を閲覧して、興味ある内容につ
いては更にその詳細を表示させている。このような情報
は時々刻々と変化するが、利用者がブラウザを用いて題
名の一覧情報を閲覧する場合、既に読んでチェックした
題名か、まだ読んでなく未チェックの題名か自動的に判
断することはできない。ブラウザの機能としてハイパー
テキスト文書を表示させた場合に、リンク先の文書を既
に表示済みの印として表示色を変えて表示する機能があ
るが、表示済みの印をつけるためにリンク先を表示させ
るのは、不必要な動作を強いることになる。
【0003】
【発明が解決しようとする課題】本発明の目的は、イン
ターネット上で時々刻々変化する文書から、過去に読ん
でない未チェックのリンク先表示内容を抽出し、利用者
が未チェックのリンク先とリンク先表示内容を自動的に
収集する方法および装置を提供することにある。
【0004】
【課題を解決するための手段】本発明は、ハイパーテキ
スト文書を取得する手段と、取得したハイパーテキスト
文書からタグで指定されたリンク先とリンク先表示内容
を抽出する手段と、抽出したリンク先とリンク先表示内
容が既に登録済みであるか調べる手段と、未登録のリン
ク先とリンク先表示内容を登録する手段と、未登録のリ
ンク先とリンク先表示内容を収集する手段により構成さ
れた装置および方法とする。
【0005】インターネット上には、ニュースや新製品
情報など時々刻々と変化するハイパーテキスト文書が存
在する。これらの文書では、詳細内容をリンク先の別文
書とし、その題や要旨をリンク先表示内容として一覧表
示する場合が多く見られる。利用者は一覧表示された内
容を閲覧して、興味のある内容については更に詳細文書
を表示させている。利用者が閲覧する一覧表示は、その
内容が時々刻々変化するが以前に閲覧した項目を再度チ
ェックするのは二度手間になってしまう。そこで、以前
にチェックしたリンク先やリンク先表示内容を登録して
おき、新たにチェックする一覧表示のうち未登録のリン
ク先やリンク先表示内容のみを抜き出して利用者に提示
するようにすれば、未チェックのみの一覧表示ができ、
利用者が一覧表示をチェックする手間が緩和され効率よ
くチェック作業が進められるようになる。また、このよ
うに抜き出したリンク先やリンク先表示内容は、抽出し
たオリジナルの文書に依存しないので、複数のハイパー
テキスト文書から自動で抽出した未チェックのリンク先
やリンク先表示内容をまとめて扱うことができ、複数の
URL(Uniform relative location)を手動でチェックする
手間が省けることから、更に利用者のチェック作業効率
改善が図られる。
【0006】
【発明の実施の形態】以下、本発明のデータ収集方法お
よびデータ収集装置について実施の形態を図面を用いて
説明する。
【0007】図1は本発明のデータ収集装置の構成を示
すブロック図である。入力装置からURLを指定し、通信
ユニットが指定されたURLに対応するハイパーテキスト
文書を取得する。処理装置が、取得したハイパーテキス
ト文書からリンク先とリンク先表示内容を抽出し、その
リンク先とリンク先表示内容を補助記憶装置に格納して
登録する。ファイルに格納されてなかった未登録のリン
ク先とリンク先表示内容を表示装置に表示することで、
利用者が未チェックのリンク先とリンク先表示内容を確
認する。
【0008】図2は本発明のデータ収集方法の手順を示
すフローチャートである。利用者はインターネット上の
文書を示すURLを指定し、本装置が指定されたURLに対応
するHTMLやXMLに代表されるハイパーテキスト文書を取
得する。
【0009】取得したハイパーテキスト文書を解析し、
文書内にあるタグで指定されたリンク先とリンク先表示
内容の対を抽出する。取得した文書がHTML形式の文書で
ある場合には、リンク先とリンク先表示内容は、次の様
な形式で記述されている。<A HREF="リンク先" > リン
ク先表示内容 </A>本装置では、<A>タグのHREFパラメ
ータで指定されたリンク先と、<A>タグからタグの終
了を表す</A>タグまでの中からブラウザに表示される
部分を取り出したリンク先表示内容を抽出する。
【0010】取得したハイパーテキスト文書内から抽出
したリンク先とリンク先表示内容について、リンク先と
リンク先表示内容を管理するデータファイルに、リンク
先またはリンク先表示内容が登録されているか、登録さ
れていないかを調査する。
【0011】データファイルに登録されてなかった未登
録のリンク先とリンク先表示内容については、次回の動
作でチェック済みになるようにデータファイルに登録す
る。データファイルへの登録では、リンク先のみ、リン
ク先表示内容のみ、リンク先とリンク先表示内容の両方
を登録する方法が考えられる。
【0012】この様にして、未登録のリンク先とリンク
先表示内容を収集することで、利用者がチェックしてい
ないリンク先とリンク先表示内容が自動的に収集できる
ようになる。
【0013】
【実施例】実施例1 ここでは、利用者が設定したURLに以下のような内容が
含まれるハイパーテキスト文書があったとする。 <A HREF="1.htm"> News A </A> <A HREF="2.htm"> News B </A> これをブラウザで表示させると、図3の様に表示され
る。この文書を本発明によって処理すると、リンク先と
リンク先表示内容の対のデータとして、1.htm, News A
と2.htm, News Bを得て、データファイルに登録され
る。更に、利用者が同じURLにアクセスした場合に、ハ
イパーテキスト文書の内容が以下のように変化していた
とする。 <A HREF="2.htm"> News B </A> <A HREF="3.htm"> News C </A> これを本発明による処理をせずにブラウザで表示させる
と、図4の様に表示される。この文書を本発明によっ
て、処理すると、リンク先とリンク先表示内容の対のデ
ータとして、2.htm, News Bと3.htm, News Cを得る。こ
れらの内、2.htm, News Bは前回アクセスしたときにデ
ータファイルに登録済みであるので、未登録のデータと
して、3.htm, News Cを得る。この様にして収集したデ
ータをハイパーテキスト文書として、ブラウザで表示さ
せると図5の様に表示される。これは、最初のアクセス
で、既に、News Bの項目はチェック済みであり、今回の
アクセスではこの項目は除かれている。
【0014】
【発明の効果】時々刻々と変化するハイパーテキスト文
書に対して、リンクがはってある項目について、既読済
みの項目を除外し、未読項目のデータのみを収集するた
め、効率よくデータのチェックが行える効果がある。
【図面の簡単な説明】
【図1】本発明のデータ収集装置の構成を示すブロック
図である。
【図2】本発明のデータ収集方法の手順を示すフローチ
ャートである。
【図3】ハイパーテキスト文書をブラウザで表示させた
場合の表示例1である。
【図4】ハイパーテキスト文書をブラウザで表示させた
場合の表示例2である。
【図5】本発明でデータ収集した結果をハイパーテキス
ト文書としてブラウザで表示させた場合の表示例3であ
る。

Claims (6)

    【特許請求の範囲】
  1. 【請求項1】 ハイパーテキスト文書を取得する工程
    と、取得したハイパーテキスト文書からタグで指定され
    たリンク先とリンク先表示内容を抽出する工程と、抽出
    したリンク先とリンク先表示内容が既に登録済みである
    か調べる工程と、未登録のリンク先とリンク先表示内容
    を登録する工程と、未登録のリンク先とリンク先表示内
    容を収集する工程から成ることを特徴とするデータ収集
    方法。
  2. 【請求項2】 ハイパーテキスト文書を取得する工程
    と、取得したハイパーテキスト文書からタグで指定され
    たリンク先とリンク先表示内容を抽出する工程と、抽出
    したリンク先が既に登録済みであるか調べる工程と、未
    登録のリンク先を登録する工程と、未登録のリンク先と
    リンク先表示内容を収集する工程から成ることを特徴と
    するデータ収集方法。
  3. 【請求項3】 ハイパーテキスト文書を取得する工程
    と、取得したハイパーテキスト文書からタグで指定され
    たリンク先とリンク先表示内容を抽出する工程と、抽出
    したリンク先表示内容が既に登録済みであるか調べる工
    程と、未登録のリンク先表示内容を登録する工程と、未
    登録のリンク先表示内容とリンク先を収集する工程から
    成ることを特徴とするデータ収集方法。
  4. 【請求項4】 ハイパーテキスト文書を取得する手段
    と、取得したハイパーテキスト文書からタグで指定され
    たリンク先とリンク先表示内容を抽出する手段と、抽出
    したリンク先とリンク先表示内容が既に登録済みである
    か調べる手段と、未登録のリンク先とリンク先表示内容
    を登録する手段と、未登録のリンク先とリンク先表示内
    容を収集する手段から成ることを特徴とするデータ収集
    装置。
  5. 【請求項5】 ハイパーテキスト文書を取得する手段
    と、取得したハイパーテキスト文書からタグで指定され
    たリンク先とリンク先表示内容を抽出する手段と、抽出
    したリンク先が既に登録済みであるか調べる手段と、未
    登録のリンク先を登録する手段と、未登録のリンク先と
    リンク先表示内容を収集する手段から成ることを特徴と
    するデータ収集装置。
  6. 【請求項6】 ハイパーテキスト文書を取得する手段
    と、取得したハイパーテキスト文書からタグで指定され
    たリンク先とリンク先表示内容を抽出する手段と、抽出
    したリンク先表示内容が既に登録済みであるか調べる手
    段と、未登録のリンク先表示内容を登録する手段と、未
    登録のリンク先表示内容とリンク先を収集する手段から
    成ることを特徴とするデータ収集装置。
JP2001316166A 2001-10-15 2001-10-15 インターネット上のデータ収集方法およびデータ収集装置 Pending JP2003122619A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001316166A JP2003122619A (ja) 2001-10-15 2001-10-15 インターネット上のデータ収集方法およびデータ収集装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001316166A JP2003122619A (ja) 2001-10-15 2001-10-15 インターネット上のデータ収集方法およびデータ収集装置

Publications (1)

Publication Number Publication Date
JP2003122619A true JP2003122619A (ja) 2003-04-25

Family

ID=19134220

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001316166A Pending JP2003122619A (ja) 2001-10-15 2001-10-15 インターネット上のデータ収集方法およびデータ収集装置

Country Status (1)

Country Link
JP (1) JP2003122619A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7356762B2 (en) 2002-07-08 2008-04-08 Asm International Nv Method for the automatic generation of an interactive electronic equipment documentation package
JP2009116490A (ja) * 2007-11-05 2009-05-28 Nippon Telegr & Teleph Corp <Ntt> ブラウザ閲覧履歴取得装置
JP2011109326A (ja) * 2009-11-16 2011-06-02 Nec Casio Mobile Communications Ltd 通信端末装置及びプログラム
JP2012118670A (ja) * 2010-11-30 2012-06-21 Konica Minolta Business Technologies Inc 文書閲覧装置、文書閲覧装置における表示方法、および表示プログラム

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7356762B2 (en) 2002-07-08 2008-04-08 Asm International Nv Method for the automatic generation of an interactive electronic equipment documentation package
JP2009116490A (ja) * 2007-11-05 2009-05-28 Nippon Telegr & Teleph Corp <Ntt> ブラウザ閲覧履歴取得装置
JP2011109326A (ja) * 2009-11-16 2011-06-02 Nec Casio Mobile Communications Ltd 通信端末装置及びプログラム
JP2012118670A (ja) * 2010-11-30 2012-06-21 Konica Minolta Business Technologies Inc 文書閲覧装置、文書閲覧装置における表示方法、および表示プログラム
US9310971B2 (en) 2010-11-30 2016-04-12 Konica Minolta, Inc. Document viewing device for display document data

Similar Documents

Publication Publication Date Title
US20080098300A1 (en) Method and system for extracting information from web pages
US8190622B2 (en) Data picker application
US8413044B2 (en) Method and system of retrieving Ajax web page content
EP2521044A1 (en) Information recommendation method
US20040128280A1 (en) System, method and program for printing an electronic document
CN110245069A (zh) 页面版本的测试方法和装置、页面的展示方法和装置
US8812551B2 (en) Client-side manipulation of tables
US7069292B2 (en) Automatic display method and apparatus for update information, and medium storing program for the method
JP2007279864A (ja) 情報提供システムおよび方法ならびにプログラム、電子商取引システムおよび方法ならびにプログラム
Nyein Mining contents in Web page using cosine similarity
JP4405695B2 (ja) 更新情報の自動表示方法、装置、媒体およびプログラム
CN101593187B (zh) 用于管理书签的方法和系统
CN103246680B (zh) 一种在浏览器中将网页内容聚合展现的方法及装置
JP2003122619A (ja) インターネット上のデータ収集方法およびデータ収集装置
JPH10289250A (ja) Wwwブラウザにおけるurl登録及び表示方式
JP2010231442A (ja) 情報提供装置
JP5596272B2 (ja) 商品情報提供サーバ、及び商品情報提供システム
JP3664923B2 (ja) 情報源観測装置および情報源観測方法、ならびに情報源観測プログラムを記録したコンピュータ読み取り可能な記録媒体
JP2004341942A (ja) コンテンツ分類方法、コンテンツ分類装置、コンテンツ分類用プログラムおよびコンテンツ分類用プログラムを記憶した記憶媒体
CN100416464C (zh) 信息处理设备和信息处理方法
JP5108660B2 (ja) 情報収集方法、装置及びプログラム
JP2002189713A (ja) 文書作成支援方法およびシステム
JP5590775B2 (ja) 商品情報提供サーバ、及び商品情報提供システム
JP4081231B2 (ja) 印刷システムおよび印刷方法
US8082259B2 (en) Information processing apparatus for extracting objects

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20031216

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20070425

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070515

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20070925