JP2867986B2 - Www情報抽出システム - Google Patents

Www情報抽出システム

Info

Publication number
JP2867986B2
JP2867986B2 JP8356218A JP35621896A JP2867986B2 JP 2867986 B2 JP2867986 B2 JP 2867986B2 JP 8356218 A JP8356218 A JP 8356218A JP 35621896 A JP35621896 A JP 35621896A JP 2867986 B2 JP2867986 B2 JP 2867986B2
Authority
JP
Japan
Prior art keywords
data
www
information
document
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP8356218A
Other languages
English (en)
Other versions
JPH10187753A (ja
Inventor
淳 杉浦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
Nippon Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Electric Co Ltd filed Critical Nippon Electric Co Ltd
Priority to JP8356218A priority Critical patent/JP2867986B2/ja
Publication of JPH10187753A publication Critical patent/JPH10187753A/ja
Application granted granted Critical
Publication of JP2867986B2 publication Critical patent/JP2867986B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、WWW(World
Wide Web)サイトからWWW文書を取得するシステ
ムに関し、特にユーザが必要とする情報のみを抽出する
ことを可能とするWWW情報抽出システムに関する。
【0002】
【従来の技術】WWWサイトに存在する情報を取得し閲
覧するためのツールとして、WWWブラウザがある。ユ
ーザは目的のWWW文書のURL(Uniform Resourc
e Locator;インターネットやWWWでファイルを識
別するために使われる規格)を指定することにより目的
の情報を閲覧することが可能である。
【0003】また、URL指定のためのユーザの手間を
簡略化する目的で、オートパイロットツールが開発され
ている。これを利用すると、ユーザが指定した日時や時
間間隔で、ユーザが予め指定しておいた複数のURLの
WWW文書をまとめて取得することが可能である。
【0004】
【発明が解決しようとする課題】WWWブラウザを用い
てWWWサイトに存在するWWW文書から必要な情報を
得るためには、ユーザは、目的のWWW文書のURLを
指定し、その文書がWWWブラウザ上に表示された後
に、文書をスクロールしながら目視により検索したり
(人手による検索)、あるいは文字列検索機能を利用す
るといった作業を行なう必要がある。
【0005】そして、複数のWWW文書から情報を取得
する場合には、上記の作業を繰り返し行なうことになる
が、これらのWWW文書が日々更新されるものである場
合には、かなりの頻度で、上記と同様の作業を繰り返し
行なわなければならない、ことになる。このように、W
WW文書が日々更新される場合、複数のWWW文書から
情報を得るための操作が煩雑なものとなって、ユーザの
負担が増大し、この検索作業のために、所望する情報を
迅速に得ることが困難となる。
【0006】また、上記したオートパイロットツールを
用いることにより、複数のWWW文書を一括したローカ
ルマシン上へダウンロードすることは可能であるが、こ
の場合でも、ユーザはローカルマシン上にあるファイル
を自分で開き、必要な情報を探さなければならない。
【0007】このため、ユーザが必要な情報を閲覧する
ための手間は、WWWブラウザを用いる場合と、それほ
ど変わりはない。
【0008】したがって、本発明は、上記した事情に鑑
みてなされたものであって、その目的は、上記従来方式
の問題点を解消し、WWW上でユーザが必要とする情報
を少ない負担で得ることを可能とする、WWW情報抽出
システムを提供することにある。
【0009】
【課題を解決するための手段】前記目的を達成するた
め、本発明のWWW情報抽出システムは、ユーザが必要
とする情報のみを複数のWWWページから自動的にスク
ラップし、1つの文書にまとめてユーザに提示する、よ
うにしたものである。
【0010】すなわち、本発明のWWW情報抽出システ
ムは、WWW(World Wide Web;ワールドワイド
ウェブ)サイトから情報を取得するシステムにおいて、
ユーザがWWW文書中のデータの一部を指定することを
可能とする手段と、ユーザが指定したデータの開始およ
び終了箇所を特定するための情報を生成するデータ特定
情報生成手段と、ユーザがデータを指定したWWW文書
のURL(UniformResource Locator)および前記
データ特定情報生成手段で生成された情報を記憶する記
憶手段と、前記WWWサイトからWWW文書を取得する
WWW文書取得手段と、前記データ特定情報生成手段で
生成され前記記憶手段に記憶されている情報を用いてM
ユーザが先に指定したデータに対応するデータをWWW
文書から抽出する手段と、を備え、WWW文書の内容が
更新されたとしても、ユーザが指定したデータに対応す
るデータを抽出する、ことを特徴としたものである。
【0011】
【発明の実施の形態】本発明の実施の形態について以下
に説明する。本発明は、その好ましい実施の形態におい
て、(a)ユーザがWWW文書中で自分が必要とするデ
ータの開始箇所と終了箇所を指定することを可能とする
ユーザインタフェース(図2の201)、(b)ユーザ
が前記ユーザインタフェース上で指定したデータ(以下
「スクラップデータ」という)の開始および終了箇所を
特定するためのスクラップデータ特定情報を生成するた
めの手段(図2の202)、(c)ユーザがスクラップ
データを指定した文書のURLおよびスクラップデータ
特定情報の組(以下「スクラップ情報」という)を記憶
するためのスクラップ情報記憶部(図2の203)を有
する。
【0012】ユーザは複数のWWWページの複数箇所に
対してスクラップデータの指定を行うことを可能とす
る。
【0013】システムは、ユーザが指定したそれぞれの
スクラップデータに対して、スクラップデータ特定情報
を生成し、スクラップ情報記憶部(図2の203)に記
憶する。
【0014】本発明は、その好ましい実施の形態におい
て、さらに、上記(a)〜(c)のに加え、(d)スク
ラップ情報記憶部(図2の203)に記憶されたURL
に対応する最新のWWW文書を取得する手段(図2の2
05)、(e)スクラップ情報記憶部(図2の203)
に記憶されたスクラップデータ特定情報に基づき、新た
に取得したWWW文書中から、ユーザが必要とするデー
タの開始箇所と終了箇所を特定し、開始箇所と終了箇所
の間にあるデータを抽出する手段(図2の204)、
(f)スクラップ情報記憶部(図2の203)に記憶さ
れた全てのURLとスクラップデータ特定情報の組に対
して、上記(d)および(e)における処理を行った後
に、抽出したデータを1つのページにまとめる手段(図
2の206)、を備えて構成されている。
【0015】本発明は、その好ましい実施の形態におい
て、ユーザは、最初にWWW文書において自分が必要と
するデータの開始箇所と終了箇所を指定しておけば、以
後はシステム側で、最新のWWW文書を取得し、新たに
取得した文書からユーザが必要としていると考えられる
データのみを自動抽出する。
【0016】このため、新たに取得したWWW文書中か
らユーザ自らが自分の必要とする情報を検索する必要は
ない。
【0017】また、ユーザが必要とする情報が複数のW
WW文書に存在する場合であっても、本発明の実施の形
態に係るWWW情報抽出システムは、ユーザが必要とす
るデータを、各WWW文書から抽出し、抽出したデータ
を1つの文書にまとめてユーザに提示するため、ユーザ
は各WWW文書を1つ1つ開いて内容を閲覧する必要は
なく、自分の必要な情報のみを一括して閲覧することが
可能である。
【0018】このため、WWWサイトから必要な情報を
取得し検索するために要する作業コストを大幅に軽減す
ることが可能である。
【0019】
【実施例】上記した本発明の実施の形態について更に詳
細に説明すべく、本発明の実施例について以下に説明す
る。
【0020】図1は、本発明を一実施例のシステムの全
体構成の概略をブロック図にて示したものである。図1
を参照すると、本実施例に係るシステムは、データを表
示するためのディスプレイ装置101と、マウスなどの
ポインティングデバイスおよびキーボードといった入力
装置102と、スクラップデータ特定情報などを記憶す
るための記憶装置103と、これらディスプレイ装置1
01、入力装置102、及び記憶装置103を制御して
処理を実行するコンピュータ104と、を備えて構成さ
れる。
【0021】図2は、本発明の一実施例のWWW情報抽
出システムの構成を機能ブロック図にて示したものであ
る。
【0022】図2を参照すると、WWW情報抽出システ
ムは、ユーザがWWW文書の特定箇所を指定するための
ユーザインタフェース201と、ユーザが指定したデー
タをWWW文書内で特定するための情報を生成するスク
ラップデータ特定情報生成部202と、ユーザがデータ
を指定したWWW文書のURLとスクラップデータ特定
情報の組を記憶するスクラップ情報記憶部203と、ス
クラップページ更新部207と、を備え、スクラップペ
ージ更新部207は、指定されたURLに対応するWW
W文書をWWWサイトから取得するWWW文書取得部2
05と、スクラップデータ特定情報に基づき新たに取得
したWWW文書の一部を切り出すデータ抽出部204
と、抽出したデータを連結し1つの文書にまとめる抽出
データ連結部206と、を備えている。
【0023】以下では、ユーザがユーザインタフェース
201上で指定したデータを「スクラップデータ」、ス
クラップデータの開始および終了箇所をWWW文書内で
特定するためにスクラップデータをスクラップデータ特
定情報生成部202で生成する情報を「スクラップデー
タ特定情報」、ユーザがスクラップデータを指定したW
WW文書のURLとスクラップデータ特定情報の組を
「スクラップ情報」と呼ぶ。
【0024】スクラップデータを指定するためのインタ
フェース(図2の201)としては、ユーザが必要とす
るデータを含むWWW文書のURL、およびその文書中
の特定データの開始および終了箇所を指定できるもので
あればよい。
【0025】その一例として、表示中のテキストの選択
機能を有するWWWブラウザを、このインタフェースと
して利用可能である。
【0026】WWWブラウザをスクラップデータ指定の
インタフェースとして利用した場合、図3を参照して、
ユーザは、WWWブラウザにおいて、特定箇所を選択し
た後(反転表示された部分が選択箇所を示す;図中ハッ
チングを施した領域)、選択箇所がユーザが必要とする
スクラップデータであることをシステムに指示すること
になる。なお図3は、WWWブラウザ上でのスクラップ
データの選択の一例(画面表示の一例)を示した図であ
る。
【0027】この指示の後、システムは、WWWブラウ
ザに、WWWブラウザが現在表示しているWWW文書の
URLをスクラップ情報記憶部203に記憶する。
【0028】さらに、WWWブラウザが表示中の文書の
元になっているHTML(HyperText Markup Lan
guage;ハイパーテキストマークアップランゲッジ)形
式の文書、およびユーザがスクラップデータとして指定
したデータをスクラップデータ特定情報生成部202に
渡す。
【0029】スクラップデータ特定情報生成部202
は、該HTML文書とスクラップデータを基に、スクラ
ップデータの開始および終了箇所をWWW文書中で特定
するためのスクラップデータ特定情報を生成し、スクラ
ップ情報記憶部203に記憶する。
【0030】スクラップデータ特定情報生成部202に
おいて生成されスクラップ情報記憶部203に記憶保持
される、このスクラップデータ特定情報は、後に、新た
に取得したWWW文書からユーザの必要とする情報を抽
出するために、データ抽出部204で使用されるもので
ある。したがって、WWWサイトにあるWWW文書が変
更された後も、その文書中に残される可能性が高い情報
である必要がある。
【0031】このような情報の一例としては、HTML
文書中のタグの種類や順序といった文書構成に関わるも
のがある。WWWサイトでは、文書構造(見出し、リス
トの数や順序など)はそのままで、文書が変更されるこ
とが多い。このため、スクラップデータを囲んでいるタ
グが、その文書内で何番目のものであるかといった情報
は有用である。
【0032】また、他の例としては、スクラップデータ
の開始行の内容、スクラップデータの開始/終了箇所の
直前/直後の行の内容がある。通常、ユーザは、WWW
文書内で変更される可能性がある箇所をスクラップデー
タとして指定するが、WWW文書内で変更される箇所の
前後の内容は変更されないことが多い。このため、スク
ラップデータ直前行、開始行、および直後行の内容は有
用である。
【0033】本実施例では、スクラップデータ直前行、
開始行、および直後行の内容をスクラップ情報記憶部2
03に記憶するものとする。
【0034】図5は、本実施例において、スクラップ情
報記憶部203に記憶されたデータの一例を示す図であ
る。図5を参照して、ユーザがデータを指定したWWW
文書のURLに対応させて、スクラップデータ直前行、
スクラップデータ開始行、スクラップデータ直後行が格
納されている。
【0035】スクラップデータ直前行、開始行、および
直後行の内容として、スクラップ情報記憶部203に記
憶するのは、ブラウザ上に実際に表示されるデータのみ
とする。
【0036】すなわち、これらの行中に含まれるテキス
ト、画像を表示する<IMG>タグ、水平線(水平罫
線;Horizontal Rule)を表示する<HR>タグのみ
を記憶し、テキストを修飾する<FONT>タグなどは
記憶しない。
【0037】HTMLのバージョンによりブラウザ上に
データを表示する効果があるタグの種類は異なるが、本
実施例では、<IMG>タグおよび<HR>タグのみと
仮定する。
【0038】したがって、図4に示すHTML文書をW
WWブラウザに表示し、図3に示すように、ユーザがス
クラップデータ(図3中反転表示部)を指定した場合、
スクラップデータ開始行としては、<FONT>タグお
よび<I>タグを削除した“10/21 15:00更
新”という文字列のみを、スクラップ情報記憶部203
に記憶する。
【0039】また、スクラップデータ直後行には、<H
R>タグを記憶する。
【0040】結果として、スクラップ情報記憶部203
には、スクラップデータ特定情報として、図5の第3行
目に示す情報が記憶される。すなわち、スクラップデー
タの直前行は、「本日のトップニュース」、スクラップ
データ開始行は、「10/21 15:00」、スクラ
ップデータ直後行は<HR>となる。
【0041】なお、図4に示すHTML文書において、
<H2>タグは中見出し、<BR>は改行、<I>タグ
は斜体(イタリック)、<UL>タグは数字なしの箇条
書き、<LI>は箇条書きの項目を、それぞれ指定す
る。
【0042】図6は、ユーザから最新WWW情報の取得
要求があった場合の処理手順をPAD(problem analys
is diagram;木構造チャート)にて示した図である。説
明の便宜上、スクラップ情報記憶部203に記憶された
i番目のURLをSurl[i]、スクラップデータ直
前行の内容をSprv[i]、スクラップデータ開始行
の内容をSbgn[i]、スクラップデータ直後行の内
容をSnxt[i]とする。
【0043】先ず、WWW文書取得部205において、
Surl[i]に対応する最新のWWW文書doc
[i]をHTTP(Hyper Text Transfer Proto
col)に基づき取得する(ステップ602)。
【0044】次にデータ抽出部204において、doc
[i]から切り出すデータの開始箇所B[i]をSpr
v[i]およびSbgn[i]を用いて特定する(ステ
ップ603)。
【0045】B[i]が特定できた場合(ステップ60
5のYes)は、さらにデータ抽出部において、doc
[i]から切り出すデータの終了箇所E[i]をSnx
t[i]を用いて特定する(ステップ606)。
【0046】B[i]およびE[i]が共に特定できた
場合には(ステップ607のYes)、B[i]とE
[i]の間にあるテキストおよびそのテキストを囲む全
てのタグをdoc[i]から抽出しEXT[i]に代入
する(ステップ608)。
【0047】B[i]およびE[i]のいずれかが特定
できなかった場合には、抽出データ無しとする。
【0048】全てのスクラップ情報について上記の処理
を行った後、抽出データ連結部206において、既に抽
出したデータEXT[i](1<=i<=n)を1つの
HTML文書にまとめる(ステップ609)。
【0049】図7は、データ抽出部204において、抽
出するデータの開始箇所B[i]を特定するための処理
手順をPADにて示したものである。
【0050】まず、doc[i]において、Sprv
[i]とSbgn[i]の文字列が連続している箇所を
検索する(ステップ701)。ただし、検索は、doc
[i]から<IMG>,<HR>以外のタグを除去した
ものに対して行う。
【0051】doc[i]の先頭から文書を走査し、最
初にマッチした箇所でSbgn[i]文字列の先頭箇所
をB[i]とする(ステップ703)。
【0052】B[i]を特定できなかった場合には、S
prv[i]の文字列だけを用いて上記の検索を行い
(ステップ704)、最初にマッチした箇所の次の行の
先頭をB[i]とする(ステップ706)。
【0053】この検索においてもB[i]を特定できな
かった場合には、さらにSbgn[i]の文字列だけを
用いて上記の検索を行い(ステップ707)、最初にマ
ッチした箇所の直前をB[i]とする(ステップ70
8)。
【0054】ここでもB[i]を特定できなければ、最
終的にB[i]を見つけられなかったものとする(ステ
ップ709)。
【0055】データ抽出部204において抽出するデー
タの終了箇所E[i]は、上記の手続きで特定したB
[i]からdoc[i]文書の末尾までの間で検索す
る。
【0056】Snxt[i]の文字列を用いて検索を行
い、最初にマッチした箇所の直前の行の行末をE[i]
とする。マッチする箇所がない場合は、E[i]は特定
できなかったものとする。
【0057】上記のデータ抽出手続きによれば、WWW
サイトのWWW文書が更新され、スクラップ情報として
保持していたスクラップデータ開始行、直前行および直
後行に一致する内容が元文書から削除されてしまった場
合には、ユーザが意図した箇所を抽出できない。
【0058】例えば、図5のスクラップ情報記憶部20
3の2番目のURLの文書が、図8(B)に示すように
更新された場合、スクラップデータ直後行にあたる「神
奈川の天気」という文字列は、更新された新しい文書か
ら検索されないため、抽出データを特定できない。この
場合、ユーザは、元のWWW文書全体をブラウザに表示
し、必要な情報を自ら探す必要がある。
【0059】しかしながら、抽出データ連結部206に
おいて、図9に示すように、元文書のURLにハイパー
リンクとして挿入しておくことにより、少ない手間で元
文書を表示することが可能となり、実用上問題無い。な
お、図9は、本実施例のシステムにより生成されたHT
ML文書の一例を示す図である(“http://www.aa.co.j
p/index.html”から抽出できない旨が提示されてい
る)。
【0060】
【発明の効果】以上説明したように本発明によれば、ユ
ーザは最初にWWW文書において自分が必要とするデー
タの開始箇所と終了箇所を指定しておけば、以後はシス
テムが最新のWWW文書を取得し、新たに取得した文書
からユーザが必要としていると考えられるデータのみを
抽出する。したがって、新たに取得したWWW文書中か
らユーザ自らが自分の必要とする情報を検索する必要は
ない。このため、ユーザの情報抽出のための作業を特段
に軽減し、利便性を特段に向上するという顕著な効果を
奏する。
【0061】また、本発明によれば、ユーザが必要とす
る情報が複数のWWW文書に存在する場合でも、システ
ムは、ユーザが必要とするデータを各WWW文書から抽
出し、抽出したデータを1つの文書にまとめてユーザに
提示するため、ユーザを各WWW文書を1つ1つ開いて
内容を閲覧する必要はなく、自分の必要な情報のみを一
括して閲覧することが可能である。したがって、本発明
によれば、WWWサイトから必要な情報を取得し検索す
るための作業コストを大幅に軽減することが可能であ
る。
【図面の簡単な説明】
【図1】本発明の一実施例のシステム構成を示す図であ
る。
【図2】本発明の一実施例のシステムを示す図である。
【図3】本発明の一実施例を説明するための図であり、
WWWブラウザ上でのスクラップデータの選択の例を示
す図である。
【図4】本発明の一実施例を説明するための図であり、
HTML文書の例を示す図である。
【図5】本発明の一実施例を説明するための図であり、
スクラップ情報記憶部の内容を示す図である。
【図6】本発明の一実施例を処理フローを説明するため
の図であり、データ抽出アルゴリズムを表すPAD図で
ある。
【図7】本発明の一実施例を処理フローを説明するため
の図であり、データ抽出アルゴリズムを表すPAD図で
ある。
【図8】本発明の一実施例を説明するための図であり、
WWW文書の例を示す図である。
【図9】本発明の一実施例を説明するための図であり、
システムにより生成されたHTML文書の例を示す図で
ある。
【符号の説明】 101 表示装置 102 入力装置 103 メモリ 104 コンピュータ 201 ユーザインタフェース 202 スクラップデータ特定情報生成部 203 スクラップ情報記憶部 204 データ抽出部 205 WWW文書取得部 206 抽出データ連結部
フロントページの続き (56)参考文献 特開 平3−132873(JP,A) 特開 平7−244663(JP,A) 特開 平8−6961(JP,A) 特開 平8−292963(JP,A) 特開 平8−63642(JP,A) 特開 平7−129605(JP,A) 特開 平5−225240(JP,A) 朝倉敬喜,喜田弘司,垂水浩幸,「個 人の興味に基づくインターネット情報フ ィルタ」,NEC技報vol.49,n o,7、pp17−23(平成8年7月30 日) 野口喜洋,佐藤光弘ほか,「検索型ナ ビゲーションを実現したホームページ知 的検索システムの開発」,利用者指向の 情報システムシンポジウム(情処シンポ ジウム論文集vol.96,no.11)p p91−98(平成8年12月5日) 芝野耕司,「SGMLと全文データベ ース」,情報処理学会研究報告vol. 89,no.66(89−FI−14),pp1 −8(平成元年7月27日) (58)調査した分野(Int.Cl.6,DB名) G06F 17/30 G06F 12/00 515 G06F 12/00 547

Claims (5)

    (57)【特許請求の範囲】
  1. 【請求項1】WWW(World Wide Web;ワールドワ
    イドウェブ)サイトから情報を取得するWWW情報抽出
    システムにおいて、 ユーザがWWW文書について必要とするデータの存在す
    る箇所を指定した際に、前記WWW文書における前記指
    定箇所を特定するための情報(「特定情報」という)を
    自動生成するとともに、生成された該特定情報を保存し
    ておき、これ以降、新たに取得したWWW文書から、前
    記特定情報を利用して、前記ユーザが必要とするデータ
    のみを抽出する、ことを特徴とするWWW情報抽出シス
    テム。
  2. 【請求項2】前記指定箇所を特定するための特定情報
    が、前記WWW文書において前記ユーザが指定したデー
    タの開始および終了箇所を指示する情報からなり、該特
    定情報を、前記WWW文書のURL(Uniform Resou
    rce Locator;ユニフォームリソースロケータ)と対
    応させて保存する、ことを特徴とする請求項1記載のW
    WW情報抽出システム。
  3. 【請求項3】保存されている前記特定情報に基づき、新
    たに取得したWWW文書中について、前記ユーザが先に
    指定したデータに対応するデータの開始箇所と終了箇所
    を判断し、前記開始箇所と前記終了箇所の間にあるデー
    タを抽出することにより、前記ユーザが必要としている
    と考えられるデータを前記新たに取得したWWW文書中
    から抽出する、ことを特徴とする請求項2記載のWWW
    情報抽出システム。
  4. 【請求項4】保存されている全てのURLと前記特定情
    報の組に対して新たに取得したWWW文書の開始箇所と
    終了箇所の間にあるデータを抽出し、前記新たに取得し
    たWWW文書が複数ある場合、各WWW文書から抽出し
    たデータを一つの文書にまとめて提示する手段を備え
    た、ことを特徴とする請求項2記載のWWW情報抽出シ
    ステム。
  5. 【請求項5】WWW(World Wide Web;ワールド
    ワイドウェブ)サイトから情報を取得するWWW情報抽
    出システムにおいて、 ユーザがWWW文書中のデータの一部を指定することを
    可能とする手段と、 ユーザが指定したデータの開始および終了箇所を特定す
    るための情報を生成するデータ特定情報生成手段と、 ユーザがデータを指定したWWW文書のURL(Unifo
    rm Resource Locator)および前記データ特定情報
    生成手段で生成された情報を記憶する記憶手段と、 前記WWWサイトからWWW文書を取得するWWW文書
    取得手段と、 前記データ特定情報生成手段で生成され前記記憶手段に
    記憶されている情報を用いてユーザが先に指定したデー
    タに対応するデータを前記WWW文書から抽出する手段
    と、 を備え、 WWW文書の内容が更新されたとしても、ユーザが指定
    したデータに対応するデータを抽出する、ことを特徴と
    するWWW情報抽出システム。
JP8356218A 1996-12-25 1996-12-25 Www情報抽出システム Expired - Fee Related JP2867986B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP8356218A JP2867986B2 (ja) 1996-12-25 1996-12-25 Www情報抽出システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP8356218A JP2867986B2 (ja) 1996-12-25 1996-12-25 Www情報抽出システム

Publications (2)

Publication Number Publication Date
JPH10187753A JPH10187753A (ja) 1998-07-21
JP2867986B2 true JP2867986B2 (ja) 1999-03-10

Family

ID=18447934

Family Applications (1)

Application Number Title Priority Date Filing Date
JP8356218A Expired - Fee Related JP2867986B2 (ja) 1996-12-25 1996-12-25 Www情報抽出システム

Country Status (1)

Country Link
JP (1) JP2867986B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010238125A (ja) * 2009-03-31 2010-10-21 Fujitsu Ltd 抽出条件生成プログラム、抽出条件生成装置、および抽出条件生成方法

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3942760B2 (ja) 1999-02-03 2007-07-11 富士通株式会社 情報収集装置
KR20000065614A (ko) * 1999-04-07 2000-11-15 주식회사 언어기술 인터넷 정보를 자동 분류하는 웹스크랩 방법
KR20010076048A (ko) * 2000-01-24 2001-08-11 강희종 인터넷 전자비서 시스템
JP4534102B2 (ja) * 2000-05-11 2010-09-01 ソニー株式会社 サービス情報提供装置、サービス提供装置のサービス情報提供方法、サービス情報収集装置及びサービス情報収集装置のサービス情報収集方法
US6606604B1 (en) 2000-05-31 2003-08-12 International Business Machines Corporation Incremental updates of items and prices on a customer's computer to reduce download times for frequently purchased items in e-commerce transactions in a method, system and program
KR20000054312A (ko) * 2000-06-01 2000-09-05 최우석 맞춤 웹정보 구축 제공 방법
KR20010067844A (ko) * 2001-04-02 2001-07-13 박병준 웹콘텐츠의 객체화 및 구동 시스템과 그 방법
KR20020084435A (ko) * 2001-05-02 2002-11-09 (주)인포캐스트 인터넷 정보 자동 수집 방법 및 인터넷 정보 자동 수집용프로그램을 기록한 기록매체
DE60333238D1 (de) 2002-06-28 2010-08-12 Nippon Telegraph & Telephone Extrahierung von Information aus strukturierten Dokumenten
JP2007157170A (ja) * 2007-01-26 2007-06-21 Sharp Corp 情報の入手を支援する支援サーバ、支援方法、およびその支援方法をコンピュータに実行させるためのプログラム
JP5001747B2 (ja) * 2007-08-16 2012-08-15 株式会社野村総合研究所 ウェブページ閲覧装置
JP2009026335A (ja) * 2008-10-22 2009-02-05 Toshiba Corp 印刷ネットワークシステムの管理サーバ装置及び印刷情報作成方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
朝倉敬喜,喜田弘司,垂水浩幸,「個人の興味に基づくインターネット情報フィルタ」,NEC技報vol.49,no,7、pp17−23(平成8年7月30日)
芝野耕司,「SGMLと全文データベース」,情報処理学会研究報告vol.89,no.66(89−FI−14),pp1−8(平成元年7月27日)
野口喜洋,佐藤光弘ほか,「検索型ナビゲーションを実現したホームページ知的検索システムの開発」,利用者指向の情報システムシンポジウム(情処シンポジウム論文集vol.96,no.11)pp91−98(平成8年12月5日)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010238125A (ja) * 2009-03-31 2010-10-21 Fujitsu Ltd 抽出条件生成プログラム、抽出条件生成装置、および抽出条件生成方法

Also Published As

Publication number Publication date
JPH10187753A (ja) 1998-07-21

Similar Documents

Publication Publication Date Title
US8554786B2 (en) Document information management system
US6675350B1 (en) System for collecting and displaying summary information from disparate sources
US8615508B2 (en) Artificial anchor for a document
US6226655B1 (en) Method and apparatus for retrieving data from a network using linked location identifiers
US8181102B2 (en) Creating bookmark symlinks
US7685426B2 (en) Managing and indexing content on a network with image bookmarks and digital watermarks
US20080028334A1 (en) Searchable personal browsing history
US7715625B2 (en) Image processing device, image processing method, and storage medium storing program therefor
JP2867986B2 (ja) Www情報抽出システム
JP2007122513A (ja) コンテンツ検索方法、及び、コンテンツ検索サーバ
US20120323895A1 (en) Expanded text excerpts
EP1100008A2 (en) Internet-based application program interface (api) documentation interface
JP2001527246A (ja) 出版物ファイルの変換と表示
US20080120541A1 (en) System and method for on-line retrieval and typing of non-standard characters
JP3521174B2 (ja) 情報フィルタリング装置および同装置に適用される関連情報提供方法
EP1100023A2 (en) Contents update state monitoring method, apparatus and program
JP3195252B2 (ja) 文書ブラウズ支援方法及びシステム
EP0953921A2 (en) Device and method for information processing and storage medium containing a control program for information processing
JP2007034464A (ja) 広告コンテンツ提示システム、広告コンテンツ提示プログラム
JP2004038512A (ja) 情報処理端末及びそれに用いる指定タグ位置移動方法並びにそのプログラム
JP4251804B2 (ja) 情報表示方法、情報表示プログラム及び情報表示装置
JP2004054919A (ja) 情報処理システム、情報処理装置、コンピュータプログラム、及び記録媒体
KR19990078876A (ko) 일괄된 자원 위치기 입력을 통한 정보 검색 방법
JP2000067071A (ja) 文書表示装置および文書表示方法並びに文書表示プログラムを記録した記録媒体
JP2002073685A (ja) 検索結果提供方法・検索結果提供装置

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 19981124

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20071225

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081225

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091225

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091225

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101225

Year of fee payment: 12

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101225

Year of fee payment: 12

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111225

Year of fee payment: 13

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111225

Year of fee payment: 13

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121225

Year of fee payment: 14

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121225

Year of fee payment: 14

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131225

Year of fee payment: 15

LAPS Cancellation because of no payment of annual fees