JP2003122619A - インターネット上のデータ収集方法およびデータ収集装置 - Google Patents
インターネット上のデータ収集方法およびデータ収集装置Info
- Publication number
- JP2003122619A JP2003122619A JP2001316166A JP2001316166A JP2003122619A JP 2003122619 A JP2003122619 A JP 2003122619A JP 2001316166 A JP2001316166 A JP 2001316166A JP 2001316166 A JP2001316166 A JP 2001316166A JP 2003122619 A JP2003122619 A JP 2003122619A
- Authority
- JP
- Japan
- Prior art keywords
- link destination
- link
- destination display
- unregistered
- hypertext document
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Information Transfer Between Computers (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
(57)【要約】
【課題】時々刻々変化するハイパーテキスト文書内のリ
ンク先とリンク先表示内容を抽出し、過去にチェックし
ていないリンク先とリンク先表示内容のみを収集する方
法および装置を提供する。 【解決手段】ハイパーテキスト文書を取得する手段と、
取得したハイパーテキスト文書からタグで指定されたリ
ンク先とリンク先表示内容を抽出する手段と、抽出した
リンク先とリンク先表示内容が既に登録済みであるか調
べる手段と、未登録のリンク先とリンク先表示内容を登
録する手段と、未登録のリンク先とリンク先表示内容を
収集する手段により、インターネット上のデータを収集
する。
ンク先とリンク先表示内容を抽出し、過去にチェックし
ていないリンク先とリンク先表示内容のみを収集する方
法および装置を提供する。 【解決手段】ハイパーテキスト文書を取得する手段と、
取得したハイパーテキスト文書からタグで指定されたリ
ンク先とリンク先表示内容を抽出する手段と、抽出した
リンク先とリンク先表示内容が既に登録済みであるか調
べる手段と、未登録のリンク先とリンク先表示内容を登
録する手段と、未登録のリンク先とリンク先表示内容を
収集する手段により、インターネット上のデータを収集
する。
Description
【0001】
【発明が属する技術分野】本発明は、ハイパーテキスト
文書から、リンクがはられた項目について、利用者が過
去に閲覧した項目を除き、閲覧していない項目を抽出す
る方法を用いたインターネットのデータ収集方法および
データ収集装置に関する。
文書から、リンクがはられた項目について、利用者が過
去に閲覧した項目を除き、閲覧していない項目を抽出す
る方法を用いたインターネットのデータ収集方法および
データ収集装置に関する。
【0002】
【従来の技術】HTMLやSGML、XMLに代表されるハイパー
テキスト文書を用いて、インターネット上で時々刻々と
変化する情報が配信されている。ニュースや新製品紹介
の文書では、題名をリンク先表示内容として表示し、そ
の詳細をリンク先の文書に設定する方式が多く見られ
る。利用者は題名の一覧を閲覧して、興味ある内容につ
いては更にその詳細を表示させている。このような情報
は時々刻々と変化するが、利用者がブラウザを用いて題
名の一覧情報を閲覧する場合、既に読んでチェックした
題名か、まだ読んでなく未チェックの題名か自動的に判
断することはできない。ブラウザの機能としてハイパー
テキスト文書を表示させた場合に、リンク先の文書を既
に表示済みの印として表示色を変えて表示する機能があ
るが、表示済みの印をつけるためにリンク先を表示させ
るのは、不必要な動作を強いることになる。
テキスト文書を用いて、インターネット上で時々刻々と
変化する情報が配信されている。ニュースや新製品紹介
の文書では、題名をリンク先表示内容として表示し、そ
の詳細をリンク先の文書に設定する方式が多く見られ
る。利用者は題名の一覧を閲覧して、興味ある内容につ
いては更にその詳細を表示させている。このような情報
は時々刻々と変化するが、利用者がブラウザを用いて題
名の一覧情報を閲覧する場合、既に読んでチェックした
題名か、まだ読んでなく未チェックの題名か自動的に判
断することはできない。ブラウザの機能としてハイパー
テキスト文書を表示させた場合に、リンク先の文書を既
に表示済みの印として表示色を変えて表示する機能があ
るが、表示済みの印をつけるためにリンク先を表示させ
るのは、不必要な動作を強いることになる。
【0003】
【発明が解決しようとする課題】本発明の目的は、イン
ターネット上で時々刻々変化する文書から、過去に読ん
でない未チェックのリンク先表示内容を抽出し、利用者
が未チェックのリンク先とリンク先表示内容を自動的に
収集する方法および装置を提供することにある。
ターネット上で時々刻々変化する文書から、過去に読ん
でない未チェックのリンク先表示内容を抽出し、利用者
が未チェックのリンク先とリンク先表示内容を自動的に
収集する方法および装置を提供することにある。
【0004】
【課題を解決するための手段】本発明は、ハイパーテキ
スト文書を取得する手段と、取得したハイパーテキスト
文書からタグで指定されたリンク先とリンク先表示内容
を抽出する手段と、抽出したリンク先とリンク先表示内
容が既に登録済みであるか調べる手段と、未登録のリン
ク先とリンク先表示内容を登録する手段と、未登録のリ
ンク先とリンク先表示内容を収集する手段により構成さ
れた装置および方法とする。
スト文書を取得する手段と、取得したハイパーテキスト
文書からタグで指定されたリンク先とリンク先表示内容
を抽出する手段と、抽出したリンク先とリンク先表示内
容が既に登録済みであるか調べる手段と、未登録のリン
ク先とリンク先表示内容を登録する手段と、未登録のリ
ンク先とリンク先表示内容を収集する手段により構成さ
れた装置および方法とする。
【0005】インターネット上には、ニュースや新製品
情報など時々刻々と変化するハイパーテキスト文書が存
在する。これらの文書では、詳細内容をリンク先の別文
書とし、その題や要旨をリンク先表示内容として一覧表
示する場合が多く見られる。利用者は一覧表示された内
容を閲覧して、興味のある内容については更に詳細文書
を表示させている。利用者が閲覧する一覧表示は、その
内容が時々刻々変化するが以前に閲覧した項目を再度チ
ェックするのは二度手間になってしまう。そこで、以前
にチェックしたリンク先やリンク先表示内容を登録して
おき、新たにチェックする一覧表示のうち未登録のリン
ク先やリンク先表示内容のみを抜き出して利用者に提示
するようにすれば、未チェックのみの一覧表示ができ、
利用者が一覧表示をチェックする手間が緩和され効率よ
くチェック作業が進められるようになる。また、このよ
うに抜き出したリンク先やリンク先表示内容は、抽出し
たオリジナルの文書に依存しないので、複数のハイパー
テキスト文書から自動で抽出した未チェックのリンク先
やリンク先表示内容をまとめて扱うことができ、複数の
URL(Uniform relative location)を手動でチェックする
手間が省けることから、更に利用者のチェック作業効率
改善が図られる。
情報など時々刻々と変化するハイパーテキスト文書が存
在する。これらの文書では、詳細内容をリンク先の別文
書とし、その題や要旨をリンク先表示内容として一覧表
示する場合が多く見られる。利用者は一覧表示された内
容を閲覧して、興味のある内容については更に詳細文書
を表示させている。利用者が閲覧する一覧表示は、その
内容が時々刻々変化するが以前に閲覧した項目を再度チ
ェックするのは二度手間になってしまう。そこで、以前
にチェックしたリンク先やリンク先表示内容を登録して
おき、新たにチェックする一覧表示のうち未登録のリン
ク先やリンク先表示内容のみを抜き出して利用者に提示
するようにすれば、未チェックのみの一覧表示ができ、
利用者が一覧表示をチェックする手間が緩和され効率よ
くチェック作業が進められるようになる。また、このよ
うに抜き出したリンク先やリンク先表示内容は、抽出し
たオリジナルの文書に依存しないので、複数のハイパー
テキスト文書から自動で抽出した未チェックのリンク先
やリンク先表示内容をまとめて扱うことができ、複数の
URL(Uniform relative location)を手動でチェックする
手間が省けることから、更に利用者のチェック作業効率
改善が図られる。
【0006】
【発明の実施の形態】以下、本発明のデータ収集方法お
よびデータ収集装置について実施の形態を図面を用いて
説明する。
よびデータ収集装置について実施の形態を図面を用いて
説明する。
【0007】図1は本発明のデータ収集装置の構成を示
すブロック図である。入力装置からURLを指定し、通信
ユニットが指定されたURLに対応するハイパーテキスト
文書を取得する。処理装置が、取得したハイパーテキス
ト文書からリンク先とリンク先表示内容を抽出し、その
リンク先とリンク先表示内容を補助記憶装置に格納して
登録する。ファイルに格納されてなかった未登録のリン
ク先とリンク先表示内容を表示装置に表示することで、
利用者が未チェックのリンク先とリンク先表示内容を確
認する。
すブロック図である。入力装置からURLを指定し、通信
ユニットが指定されたURLに対応するハイパーテキスト
文書を取得する。処理装置が、取得したハイパーテキス
ト文書からリンク先とリンク先表示内容を抽出し、その
リンク先とリンク先表示内容を補助記憶装置に格納して
登録する。ファイルに格納されてなかった未登録のリン
ク先とリンク先表示内容を表示装置に表示することで、
利用者が未チェックのリンク先とリンク先表示内容を確
認する。
【0008】図2は本発明のデータ収集方法の手順を示
すフローチャートである。利用者はインターネット上の
文書を示すURLを指定し、本装置が指定されたURLに対応
するHTMLやXMLに代表されるハイパーテキスト文書を取
得する。
すフローチャートである。利用者はインターネット上の
文書を示すURLを指定し、本装置が指定されたURLに対応
するHTMLやXMLに代表されるハイパーテキスト文書を取
得する。
【0009】取得したハイパーテキスト文書を解析し、
文書内にあるタグで指定されたリンク先とリンク先表示
内容の対を抽出する。取得した文書がHTML形式の文書で
ある場合には、リンク先とリンク先表示内容は、次の様
な形式で記述されている。<A HREF="リンク先" > リン
ク先表示内容 </A>本装置では、<A>タグのHREFパラメ
ータで指定されたリンク先と、<A>タグからタグの終
了を表す</A>タグまでの中からブラウザに表示される
部分を取り出したリンク先表示内容を抽出する。
文書内にあるタグで指定されたリンク先とリンク先表示
内容の対を抽出する。取得した文書がHTML形式の文書で
ある場合には、リンク先とリンク先表示内容は、次の様
な形式で記述されている。<A HREF="リンク先" > リン
ク先表示内容 </A>本装置では、<A>タグのHREFパラメ
ータで指定されたリンク先と、<A>タグからタグの終
了を表す</A>タグまでの中からブラウザに表示される
部分を取り出したリンク先表示内容を抽出する。
【0010】取得したハイパーテキスト文書内から抽出
したリンク先とリンク先表示内容について、リンク先と
リンク先表示内容を管理するデータファイルに、リンク
先またはリンク先表示内容が登録されているか、登録さ
れていないかを調査する。
したリンク先とリンク先表示内容について、リンク先と
リンク先表示内容を管理するデータファイルに、リンク
先またはリンク先表示内容が登録されているか、登録さ
れていないかを調査する。
【0011】データファイルに登録されてなかった未登
録のリンク先とリンク先表示内容については、次回の動
作でチェック済みになるようにデータファイルに登録す
る。データファイルへの登録では、リンク先のみ、リン
ク先表示内容のみ、リンク先とリンク先表示内容の両方
を登録する方法が考えられる。
録のリンク先とリンク先表示内容については、次回の動
作でチェック済みになるようにデータファイルに登録す
る。データファイルへの登録では、リンク先のみ、リン
ク先表示内容のみ、リンク先とリンク先表示内容の両方
を登録する方法が考えられる。
【0012】この様にして、未登録のリンク先とリンク
先表示内容を収集することで、利用者がチェックしてい
ないリンク先とリンク先表示内容が自動的に収集できる
ようになる。
先表示内容を収集することで、利用者がチェックしてい
ないリンク先とリンク先表示内容が自動的に収集できる
ようになる。
【0013】
【実施例】実施例1
ここでは、利用者が設定したURLに以下のような内容が
含まれるハイパーテキスト文書があったとする。 <A HREF="1.htm"> News A </A> <A HREF="2.htm"> News B </A> これをブラウザで表示させると、図3の様に表示され
る。この文書を本発明によって処理すると、リンク先と
リンク先表示内容の対のデータとして、1.htm, News A
と2.htm, News Bを得て、データファイルに登録され
る。更に、利用者が同じURLにアクセスした場合に、ハ
イパーテキスト文書の内容が以下のように変化していた
とする。 <A HREF="2.htm"> News B </A> <A HREF="3.htm"> News C </A> これを本発明による処理をせずにブラウザで表示させる
と、図4の様に表示される。この文書を本発明によっ
て、処理すると、リンク先とリンク先表示内容の対のデ
ータとして、2.htm, News Bと3.htm, News Cを得る。こ
れらの内、2.htm, News Bは前回アクセスしたときにデ
ータファイルに登録済みであるので、未登録のデータと
して、3.htm, News Cを得る。この様にして収集したデ
ータをハイパーテキスト文書として、ブラウザで表示さ
せると図5の様に表示される。これは、最初のアクセス
で、既に、News Bの項目はチェック済みであり、今回の
アクセスではこの項目は除かれている。
含まれるハイパーテキスト文書があったとする。 <A HREF="1.htm"> News A </A> <A HREF="2.htm"> News B </A> これをブラウザで表示させると、図3の様に表示され
る。この文書を本発明によって処理すると、リンク先と
リンク先表示内容の対のデータとして、1.htm, News A
と2.htm, News Bを得て、データファイルに登録され
る。更に、利用者が同じURLにアクセスした場合に、ハ
イパーテキスト文書の内容が以下のように変化していた
とする。 <A HREF="2.htm"> News B </A> <A HREF="3.htm"> News C </A> これを本発明による処理をせずにブラウザで表示させる
と、図4の様に表示される。この文書を本発明によっ
て、処理すると、リンク先とリンク先表示内容の対のデ
ータとして、2.htm, News Bと3.htm, News Cを得る。こ
れらの内、2.htm, News Bは前回アクセスしたときにデ
ータファイルに登録済みであるので、未登録のデータと
して、3.htm, News Cを得る。この様にして収集したデ
ータをハイパーテキスト文書として、ブラウザで表示さ
せると図5の様に表示される。これは、最初のアクセス
で、既に、News Bの項目はチェック済みであり、今回の
アクセスではこの項目は除かれている。
【0014】
【発明の効果】時々刻々と変化するハイパーテキスト文
書に対して、リンクがはってある項目について、既読済
みの項目を除外し、未読項目のデータのみを収集するた
め、効率よくデータのチェックが行える効果がある。
書に対して、リンクがはってある項目について、既読済
みの項目を除外し、未読項目のデータのみを収集するた
め、効率よくデータのチェックが行える効果がある。
【図1】本発明のデータ収集装置の構成を示すブロック
図である。
図である。
【図2】本発明のデータ収集方法の手順を示すフローチ
ャートである。
ャートである。
【図3】ハイパーテキスト文書をブラウザで表示させた
場合の表示例1である。
場合の表示例1である。
【図4】ハイパーテキスト文書をブラウザで表示させた
場合の表示例2である。
場合の表示例2である。
【図5】本発明でデータ収集した結果をハイパーテキス
ト文書としてブラウザで表示させた場合の表示例3であ
る。
ト文書としてブラウザで表示させた場合の表示例3であ
る。
Claims (6)
- 【請求項1】 ハイパーテキスト文書を取得する工程
と、取得したハイパーテキスト文書からタグで指定され
たリンク先とリンク先表示内容を抽出する工程と、抽出
したリンク先とリンク先表示内容が既に登録済みである
か調べる工程と、未登録のリンク先とリンク先表示内容
を登録する工程と、未登録のリンク先とリンク先表示内
容を収集する工程から成ることを特徴とするデータ収集
方法。 - 【請求項2】 ハイパーテキスト文書を取得する工程
と、取得したハイパーテキスト文書からタグで指定され
たリンク先とリンク先表示内容を抽出する工程と、抽出
したリンク先が既に登録済みであるか調べる工程と、未
登録のリンク先を登録する工程と、未登録のリンク先と
リンク先表示内容を収集する工程から成ることを特徴と
するデータ収集方法。 - 【請求項3】 ハイパーテキスト文書を取得する工程
と、取得したハイパーテキスト文書からタグで指定され
たリンク先とリンク先表示内容を抽出する工程と、抽出
したリンク先表示内容が既に登録済みであるか調べる工
程と、未登録のリンク先表示内容を登録する工程と、未
登録のリンク先表示内容とリンク先を収集する工程から
成ることを特徴とするデータ収集方法。 - 【請求項4】 ハイパーテキスト文書を取得する手段
と、取得したハイパーテキスト文書からタグで指定され
たリンク先とリンク先表示内容を抽出する手段と、抽出
したリンク先とリンク先表示内容が既に登録済みである
か調べる手段と、未登録のリンク先とリンク先表示内容
を登録する手段と、未登録のリンク先とリンク先表示内
容を収集する手段から成ることを特徴とするデータ収集
装置。 - 【請求項5】 ハイパーテキスト文書を取得する手段
と、取得したハイパーテキスト文書からタグで指定され
たリンク先とリンク先表示内容を抽出する手段と、抽出
したリンク先が既に登録済みであるか調べる手段と、未
登録のリンク先を登録する手段と、未登録のリンク先と
リンク先表示内容を収集する手段から成ることを特徴と
するデータ収集装置。 - 【請求項6】 ハイパーテキスト文書を取得する手段
と、取得したハイパーテキスト文書からタグで指定され
たリンク先とリンク先表示内容を抽出する手段と、抽出
したリンク先表示内容が既に登録済みであるか調べる手
段と、未登録のリンク先表示内容を登録する手段と、未
登録のリンク先表示内容とリンク先を収集する手段から
成ることを特徴とするデータ収集装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001316166A JP2003122619A (ja) | 2001-10-15 | 2001-10-15 | インターネット上のデータ収集方法およびデータ収集装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001316166A JP2003122619A (ja) | 2001-10-15 | 2001-10-15 | インターネット上のデータ収集方法およびデータ収集装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2003122619A true JP2003122619A (ja) | 2003-04-25 |
Family
ID=19134220
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2001316166A Pending JP2003122619A (ja) | 2001-10-15 | 2001-10-15 | インターネット上のデータ収集方法およびデータ収集装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2003122619A (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7356762B2 (en) | 2002-07-08 | 2008-04-08 | Asm International Nv | Method for the automatic generation of an interactive electronic equipment documentation package |
JP2009116490A (ja) * | 2007-11-05 | 2009-05-28 | Nippon Telegr & Teleph Corp <Ntt> | ブラウザ閲覧履歴取得装置 |
JP2011109326A (ja) * | 2009-11-16 | 2011-06-02 | Nec Casio Mobile Communications Ltd | 通信端末装置及びプログラム |
JP2012118670A (ja) * | 2010-11-30 | 2012-06-21 | Konica Minolta Business Technologies Inc | 文書閲覧装置、文書閲覧装置における表示方法、および表示プログラム |
-
2001
- 2001-10-15 JP JP2001316166A patent/JP2003122619A/ja active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7356762B2 (en) | 2002-07-08 | 2008-04-08 | Asm International Nv | Method for the automatic generation of an interactive electronic equipment documentation package |
JP2009116490A (ja) * | 2007-11-05 | 2009-05-28 | Nippon Telegr & Teleph Corp <Ntt> | ブラウザ閲覧履歴取得装置 |
JP2011109326A (ja) * | 2009-11-16 | 2011-06-02 | Nec Casio Mobile Communications Ltd | 通信端末装置及びプログラム |
JP2012118670A (ja) * | 2010-11-30 | 2012-06-21 | Konica Minolta Business Technologies Inc | 文書閲覧装置、文書閲覧装置における表示方法、および表示プログラム |
US9310971B2 (en) | 2010-11-30 | 2016-04-12 | Konica Minolta, Inc. | Document viewing device for display document data |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20080098300A1 (en) | Method and system for extracting information from web pages | |
US8190622B2 (en) | Data picker application | |
US8413044B2 (en) | Method and system of retrieving Ajax web page content | |
EP2521044A1 (en) | Information recommendation method | |
US20040128280A1 (en) | System, method and program for printing an electronic document | |
CN110245069A (zh) | 页面版本的测试方法和装置、页面的展示方法和装置 | |
US8812551B2 (en) | Client-side manipulation of tables | |
US7069292B2 (en) | Automatic display method and apparatus for update information, and medium storing program for the method | |
JP2007279864A (ja) | 情報提供システムおよび方法ならびにプログラム、電子商取引システムおよび方法ならびにプログラム | |
Nyein | Mining contents in Web page using cosine similarity | |
JP4405695B2 (ja) | 更新情報の自動表示方法、装置、媒体およびプログラム | |
CN101593187B (zh) | 用于管理书签的方法和系统 | |
CN103246680B (zh) | 一种在浏览器中将网页内容聚合展现的方法及装置 | |
JP2003122619A (ja) | インターネット上のデータ収集方法およびデータ収集装置 | |
JPH10289250A (ja) | Wwwブラウザにおけるurl登録及び表示方式 | |
JP2010231442A (ja) | 情報提供装置 | |
JP5596272B2 (ja) | 商品情報提供サーバ、及び商品情報提供システム | |
JP3664923B2 (ja) | 情報源観測装置および情報源観測方法、ならびに情報源観測プログラムを記録したコンピュータ読み取り可能な記録媒体 | |
JP2004341942A (ja) | コンテンツ分類方法、コンテンツ分類装置、コンテンツ分類用プログラムおよびコンテンツ分類用プログラムを記憶した記憶媒体 | |
CN100416464C (zh) | 信息处理设备和信息处理方法 | |
JP5108660B2 (ja) | 情報収集方法、装置及びプログラム | |
JP2002189713A (ja) | 文書作成支援方法およびシステム | |
JP5590775B2 (ja) | 商品情報提供サーバ、及び商品情報提供システム | |
JP4081231B2 (ja) | 印刷システムおよび印刷方法 | |
US8082259B2 (en) | Information processing apparatus for extracting objects |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20031216 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20070425 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070515 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20070925 |