JP2003308275A - ウェブページ情報抽出システムおよびウェブページ情報抽出方法 - Google Patents

ウェブページ情報抽出システムおよびウェブページ情報抽出方法

Info

Publication number
JP2003308275A
JP2003308275A JP2002110847A JP2002110847A JP2003308275A JP 2003308275 A JP2003308275 A JP 2003308275A JP 2002110847 A JP2002110847 A JP 2002110847A JP 2002110847 A JP2002110847 A JP 2002110847A JP 2003308275 A JP2003308275 A JP 2003308275A
Authority
JP
Japan
Prior art keywords
web page
user
information
extraction method
terminal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2002110847A
Other languages
English (en)
Inventor
Takeshi Matsubara
剛 松原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP2002110847A priority Critical patent/JP2003308275A/ja
Publication of JP2003308275A publication Critical patent/JP2003308275A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 容易にユーザが必要としている個所を抽出で
きるウェブページ情報抽出システムを提供する 【解決手段】 ポーリング部121は、ユーザ13より
指定されたウェブサイト111からデータを取得する。
イメージ作成部123は、取得したデータに基づいて、
イメージを作成し、さらに前記イメージを分割する。そ
して、ユーザ13の端末131に、分割した各領域に対
応する情報を送信する。入出力部124が、端末131
より、分割されたイメージの領域の指定を受付けると、
受付けた指定は、ウェブサイト111からの抽出方法と
して蓄積部126へ蓄積される。そして、情報抽出部1
22は、ウェブサイト111から取得したデータと抽出
方法とをパターンマッチさせることで、指定された領域
を抽出する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】この発明はウェブページ情報
抽出システムおよびウェブページ情報抽出方法に関し、
特に、容易にユーザが必要としている個所を抽出できる
ウェブページ情報抽出システムおよびウェブページ情報
抽出方法に関する。
【0002】
【従来の技術】インターネット上には、天気予報、株
価、およびニュース速報等、ウェブページの基本構成は
変わらないが、ページの一部がリアルタイムに更新され
る情報を提供しているサイトがある。
【0003】近年、通信端末の機能の向上に伴ない、外
出先でこれらのサイトを閲覧するユーザが増えてきた。
【0004】しかし、外出先では、時間の制約や用いる
端末の処理能力の制約等を受け、サイト上の全ての情報
を閲覧するのが困難である場合が多い。そのような事態
に対応するため、特開2000−276394号公報に
おいては、通信ネットワーク上のウェブページにおい
て、所定の事象が発生した場合に、そのサイトの一部を
抽出し、ユーザが必要としている部分だけを自動的にユ
ーザに知らせるウェブページ情報中継システムおよびウ
ェブページ中継方法について開示している。
【0005】これは、通信ネットワーク上のウェブペー
ジにおいて、そのページ内のユーザが必要としている部
分が更新された場合に、この内容を自動的にユーザに通
知するウェブページ情報中継システムである。
【0006】
【発明が解決しようとする課題】しかしながら、上述の
ウェブページ情報中継システムおよびウェブページ中継
方法では、ユーザが必要としている個所を抽出するため
の指定方法(以下、抽出方法と呼ぶ)を指定する際に
は、比較的高度な処理能力を必要とするパーソナルコン
ピュータや、ウェブページの元となるHTML(Hyper
Text Markup Language)の構造を理解する程度の専門知
識が必要とされる。そのため、ユーザは、端末単体を用
いて抽出方法を決定することが不可能であるという問題
があった。
【0007】本発明はこのような問題に鑑みてなされた
ものであって、容易に抽出方法を決定できるウェブペー
ジ情報抽出システムおよびウェブページ情報抽出方法を
提供することを目的とする。
【0008】
【課題を解決するための手段】上記目的を達成するため
に、本発明のある局面に従うと、ウェブページ情報抽出
システムは、ネットワーク上のウェブサイトの内容を定
期的に監視するポーリング部と、ユーザの端末と情報を
受渡しする入出力部と、ウェブサイトのウェブページを
ブラウズイメージ画像に変換するイメージ作成部と、変
換したブラウズイメージ画像の一部を指定することによ
って、ウェブページの一部の抽出方法を決定する抽出方
法決定部と、決定された抽出方法でウェブページの一部
を抽出する情報抽出部と、ユーザの情報と、ユーザの端
末の情報と、抽出したウェブページの一部の内容と、抽
出方法とを保持する蓄積部とを備えるウェブページ情報
抽出システムであって、入出力部は、ウェブページに更
新があった場合に、ユーザの端末に通知する。
【0009】また、上述の情報抽出部は、ウェブページ
に更新があった場合に、変更されたウェブページの一部
を抽出し、入出力部は、ウェブページに更新があった場
合に、ユーザの端末に、更新の通知と、抽出したウェブ
ページの一部の内容との少なくとも一方を送信すること
が望ましい。
【0010】また、上述の情報抽出部は、ウェブページ
に更新があった場合に、変更されたウェブページの一部
を抽出し、ウェブページ情報抽出システムは、抽出した
変更されたウェブページの一部を、ウェブページとして
作成するウェブページ作成部をさらに備え、抽出した変
更されたウェブページの一部を、ユーザの端末に、ウェ
ブページ作成部で作成したウェブページとして提供する
ことが望ましい。
【0011】また、上述のポーリング部は、複数のウェ
ブページをポーリングし、ウェブページ作成部は、複数
のウェブページから抽出された複数のウェブページの一
部を、1のウェブページとして作成することが望まし
い。
【0012】また、上述のウェブページ作成部は、抽出
された複数のウェブページの一部を、所定の順に並べて
1のウェブページとして作成することが望ましい。
【0013】本発明の他の局面に従うと、ウェブページ
情報抽出方法は、ネットワーク上のウェブサイトの内容
を定期的に監視するポーリングステップと、ユーザの端
末と情報を受渡しする入出力ステップと、ウェブサイト
のウェブページをブラウズイメージ画像に変換するイメ
ージ作成ステップと、変換したブラウズイメージ画像の
一部を指定することによって、ウェブページの一部の抽
出方法を決定する抽出方法決定ステップと、決定された
抽出方法でウェブページの一部を抽出する情報抽出ステ
ップと、ユーザの情報と、ユーザの端末の情報と、抽出
したウェブページの一部の内容と、抽出方法とを保持す
る蓄積ステップとを備えるウェブページ情報抽出方法で
あって、入出力ステップは、ウェブページに更新があっ
た場合に、ユーザの端末に通知する。
【0014】
【発明の実施の形態】以下に、図面を参照しつつ、本発
明の実施の形態について説明する。以下の説明では、同
一の部品および構成要素には同一の符号を付してある。
それらの名称および機能も同じである。したがってそれ
らについての詳細な説明は繰返さない。
【0015】図1は、本発明の実施の形態におけるウェ
ブページ情報抽出システム(以降、抽出システムと略称
する)を取巻く環境の構成を示す図である。
【0016】図1を参照して、本抽出システムを取巻く
環境は、大きく分けて、インターネットまたはイントラ
ネット11上に存在するウェブサイト111と、単体ま
たは複数台のパーソナルコンピュータ、CPU(Centra
l Processing Unit)、および個別あるいは復号化した
LSI(Large Scale Integration)からなる抽出シス
テム12と、ユーザ13の所有する端末131との3つ
の構成要素を含む。
【0017】さらに図1を参照して、上述の抽出システ
ム12は、ウェブサイト111を定期的に監視するポー
リング部121と、上記ウェブサイト111のウェブペ
ージの一部を所定の抽出方法に従って抽出する情報抽出
部122と、ウェブページをブラウズイメージ画像に変
換するイメージ作成部123と、ユーザ13の端末13
1と通信を行なう入出力部124と、ユーザ端末情報と
ユーザ情報と上記ウェブページの一部を抽出した内容と
抽出方法とを保持する蓄積部126と、ウェブページの
抽出内容を新たなウェブページに再構成するウェブペー
ジ作成部127と、ウェブページの抽出方法を決定する
抽出方法決定部125とを備える。
【0018】また、上述のユーザ13の端末131は、
通信機能を備える端末であればよく、その形態について
特に限定されない。なお、以降の図においては、ユーザ
13の端末131が携帯電話である旨が示されている
が、ユーザ13の端末131は携帯電話に限定されるわ
けではなく、ノート型パーソナルコンピュータやPDA
(Personal Digital Assistants)等の、その他の通信
端末であっても構わない。
【0019】次に、抽出システム12の動作について、
その概略を説明する。抽出システム12の動作の流れ
は、抽出方法を決定する過程とウェブサイト111をポ
ーリングする過程との、大きく二つの過程に分かれる。
【0020】まず、抽出方法を決定する過程の概要につ
いて説明する。図2は、抽出システム12が抽出方法を
決定する過程について概要を示す図である。
【0021】図2を参照して、始めに、ユーザ13は、
ユーザ端末131を用いて、抽出システム12に対し
て、抽出したいURLを指定する(201)。次に、抽
出システム12は、指定されたURLからコンテンツを
取得する(202、203)。そして、抽出システム1
2はブラウズイメージ画像を作成し、ユーザ13のユー
ザ端末131に対して送信する(204)。ユーザ13
は、ユーザ端末131を用いて、そのブラウズイメージ
画像の一部を指定し(205)、抽出システム12に送
信する。抽出システム12は、指定されたブラウズイメ
ージ画像の一部の個所から、抽出方法を決定する(20
6)。
【0022】次に、ポーリングの過程の概要を説明す
る。図3は、抽出システム12がウェブサイト111を
ポーリングする過程について概要を示す図である。
【0023】図3を参照して、抽出システム12は、定
期的にウェブサイト111を監視している(301、3
02)。そして、上述の如く決定された抽出方法に従
い、ウェブサイト111より所定のデータの抽出作業を
行なう(303)。さらに、その抽出結果と、以前の抽
出結果とを比較し(304)、更新が行なわれていた場
合は、その(更新されている)抽出結果を、ユーザ13
のユーザ端末131に対して送信する(305)。そし
て、ユーザ13は、ユーザ端末131を用いて、コンテ
ンツを閲覧することができる(306)。
【0024】以上が抽出システム12の動作についての
概略である。次に、本実施の形態における抽出システム
12が、抽出方法を決定する過程について説明を行な
う。
【0025】まず始めに、図4は、抽出システム12
が、抽出方法を決定する過程について示す第1(フェー
ズ1)の図である。
【0026】図4を参照して、ユーザ13は、ユーザ端
末131を用いて、抽出システム12のURLにアクセ
スする(1000)。図4において、抽出システム12
のURLは、http://aaa.comで示されている。
【0027】上述のアクセスを受付けた抽出システム1
2の入出力部124は、ユーザ13の端末131に対し
て、抽出したいウェブサイトのURLと、ユーザ13自
身のメールアドレスとを要求する(1001)。このと
き、ユーザ13の端末131には、抽出したいウェブサ
イトのURLと、自身のメールアドレスとの入力を促す
ページが表示される。
【0028】次に、図5は、抽出システム12が、抽出
方法を決定する過程について示す第2(フェーズ2)の
図である。
【0029】図5を参照して、ユーザ13は、その表示
されたフォームを利用して、抽出したいウェブサイト1
11のURLと、自身のメールアドレスとを端末131
に入力し、抽出システム12に対して送信する(100
2)。図5において、抽出したいウェブサイト111の
URLはhttp://www.xxx.com、ユーザ13自身のメール
アドレスはuser@users.mail.comで示されている。
【0030】上述のリクエスト情報の入力を受付けた抽
出システム12の入出力部124は、ユーザ13のメー
ルアドレス(user@users.mail.com)と、抽出するウェ
ブサイト111のURL(http://www.xxx.com)とを、蓄
積部126に記録する。また、そのリクエスト情報に含
まれる端末情報(端末131が自動的に送信する端末1
31自身の情報)に基づいて、ユーザ13の端末131
の画像サイズを判別し、判別した端末131の画像サイ
ズも蓄積部126に記録する。図5において、端末情報
はX-Phone/3.0/J-SH07、判別された端末131の画像サ
イズは120×128で示されている。
【0031】次に、図6は、抽出システム12が、抽出
方法を決定する過程について示す第3(フェーズ3)の
図である。
【0032】図6を参照して、次に、抽出システム12
のポーリング部121は、蓄積部126に記録したUR
L(http://www.xxx.com)が示すウェブサイト111に
アクセスする(1003)そして、ウェブサイト111
から、HTML401と、そのHTML401中に含ま
れる画像402とを全て取得する(1004)。
【0033】次に、図7は、抽出システム12が、抽出
方法を決定する過程について示す第4(フェーズ4)の
図である。
【0034】図7を参照して、さらに、抽出システム1
2のイメージ作成部123は、取得したHTML401
と画像402とによって構成されるブラウズイメージ画
像403を作成する。そして、蓄積部126に蓄積され
たユーザ13の端末131の画面サイズ情報(120×
128)に合わせて、ブラウズイメージ画像403のサ
イズを縮小または拡大する。
【0035】次に、図8は、抽出システム12が、抽出
方法を決定する過程について示す第5(フェーズ5)の
図である。
【0036】図8を参照して、続いて、抽出システム1
2の抽出方法決定部125は、イメージ作成部123で
作成されたブラウズイメージ画像403を、9つの領域
に分割する。図9は、分割されたブラウズイメージ画像
403の領域の具体例を示す図である。
【0037】図9を参照して、抽出システム12の抽出
方法決定部125は、取得したHTML401と画像4
02とによって構成されるブラウズイメージ画像403
を、領域のイメージ404に示される如く、9つの領域
に分割する。
【0038】さらに、抽出システム12の抽出方法決定
部125は、新たに抽出用HTML501と、各領域に
対応した抽出方法のテーブル502とを作成する。図1
0は、抽出用HTML501と抽出方法のテーブル50
2との具体例を示す図である。
【0039】そして、抽出システム12の入出力部12
4は、端末131に、抽出用HTML501を送信する
(1005)。
【0040】次に、図11は、抽出システム12が、抽
出方法を決定する過程について示す第6(フェーズ6)
の図である。
【0041】図11を参照して、端末131を用いて、
上述の抽出用HTML501を受信したユーザ13は、
ブラウズイメージ画像403のうち抽出したい領域を選
択し、抽出システム12に対して、抽出したい領域に対
応した個所の数字を送信する(1006)。上述の如
く、端末131に対応して、ブラウズイメージ画像40
3は縦3×横3の9つの領域に分割されている(40
4)。そのため、ユーザ13は、抽出システム12に対
して、対応した個所の数字である1〜9のいずれかを選
択して送信する。
【0042】抽出システム12の入出力部124は、上
述のユーザ13からの選択を受付ける。すると、抽出シ
ステム12の抽出方法決定部125は、選択された数字
に対応した領域を抽出するための抽出方法を、抽出方法
のテーブル502から選出す。その後、抽出方法決定部
125は、選出した抽出方法を、蓄積部126に追記す
る。
【0043】図12は、蓄積部126に記録されるデー
タの、第1の具体例を示す図である。図12を参照し
て、抽出システム12の入出力部124がユーザ13か
ら6番の指定を受付けた場合には、抽出方法決定部12
5は、ブラウズイメージ画像403の6番に該当する領
域の抽出方法である<html>.*?<table>.*?<td.*?>.*?<t
d.*?>.*?<td.*?>(.*?)<\/td>を抽出方法のテーブル50
2から選出し、蓄積部126に追記する。
【0044】以上で、本実施の形態における抽出システ
ム12が、抽出方法を決定する過程についての説明を終
了する。
【0045】なお、上述の説明においては、ブラウズイ
メージ画像403を縦3×横3の9つの領域に分割して
いる具体例について述べているが、分割する数は9に限
定されるものではなく、端末131の画像サイズに応じ
て、その他の数に分割されても構わない。
【0046】次に、本実施の形態における抽出システム
12が、ポーリングする過程について説明を行なう。
【0047】図13は、抽出システム12が、ポーリン
グする過程について示す(フェーズ7)の図である。
【0048】図13を参照して、上述の如くに抽出方法
を決定した後、抽出システム12のポーリング部121
は、ユーザ13より指定(1002)されたウェブサイ
ト111(http://www.xxx.com)から、周期的にコンテ
ンツを取得する。そして、情報抽出部122は、ユーザ
13より指定(1006)されている抽出方法に従って
抽出操作を実行する。具体的には、情報抽出部122
は、取得したHTML401に、抽出方法をパターンマ
ッチさせることで、ユーザ13より選択された領域に含
まれる文字列を得る。上述の具体例に沿うと、取得した
HTML401に抽出方法<html>.*?<table>.*?<td.*?
>.*?<td.*?>.*?<td.*?>(.*?)<\/td>をパターンマッチさ
せることで、ブラウズイメージ画像403の6番に該当
する領域に含まれる文字列「○○さんのコメント:きょ
うは良い天気ですね」を得る。 さらに、蓄積部126
に存在している、以前に抽出したデータと、現在抽出し
たデータとの内容が異なっていた場合、あるいは、以前
に抽出したデータが蓄積部126に存在しない場合は、
ユーザ13の端末131に、データの内容の変更があっ
た旨を、メールで通知する(1007)。そして、蓄積
部126に、変更されたデータを記録する。
【0049】図14は、蓄積部126に記録されるデー
タの、第2の具体例を示す図である。図14を参照し
て、以前に抽出したデータと現在抽出したデータとの内
容が異なっていた場合、あるいは、以前に抽出したデー
タが蓄積部126に存在しない場合に、変更されたデー
タである文字列「○○さんのコメント:きょうは良い天
気ですね」を蓄積部126に記録する。
【0050】以上で、本実施の形態における抽出システ
ム12が、ポーリングする過程について説明を終了す
る。
【0051】このように、本実施の形態における抽出シ
ステムが、上述の抽出方法の決定およびポーリングを行
なうことで、ユーザは、パーソナルコンピュータに関す
る知識や専門知識を備えていない場合であっても、端末
を用いてウェブサイトの必要部分のみを抽出する抽出方
法を決定することができ、抽出個所を容易に指定するこ
とができる。このため、ユーザは、手間と時間および通
信費を大幅に減らして、効率的に情報を得ることができ
るようになる。また、ユーザは端末を用いて、ウェブサ
イトが更新されたことを自動的に知ることができる。こ
のため、ユーザは、ウェブサイトが更新されているかど
うかを確かめるためにアクセスをする時間と通信費とを
削減することができる。また、携帯電話やPDA等の端
末であっても上述の処理を行なうことができるため、ユ
ーザは、パーソナルコンピュータが無い環境でも抽出方
法を変更することができる。そのため、ユーザは、外出
先等で、急にページ構成が変わった場合や、ページの他
の部分が必要になった場合等にも、簡単に対応すること
ができる。
【0052】なお、抽出システム12がポーリングする
過程において、蓄積部126に存在している、以前に抽
出したデータと、現在抽出したデータとの内容が異なっ
ていた場合、あるいは、以前に抽出したデータが蓄積部
126に存在しない場合に、データの内容の変更があっ
た旨を通知するのではなく、変更があった抽出内容その
ものをユーザ13の端末131に対して送信してもよ
い。
【0053】また、抽出システム12のウェブページ作
成部127は、図15に示される如く、変更があった抽
出内容をHTML化することもできる。そして、抽出シ
ステム12の入出力部124より、ユーザ13の端末1
31に対して、そのURLのみを送信してもよい。図1
5は、HTML化された抽出内容の具体例を示す図であ
る。図15を参照して、HTML化された抽出内容を示
すURLであるhttp://aaa.com/clipped.htmlのみを送
信してもよい。
【0054】このように、本実施の形態における抽出シ
ステムが、ユーザに指定されたウェブサイトに変更があ
った場合に、変更された抽出内容や、変更された抽出内
容を示すURLをユーザの端末に送信することで、ユー
ザは、ウェブサイトが更新された際にその内容を得るこ
とができる。
【0055】さらに、上述の抽出システム12の入出力
部124は、ユーザ13から抽出する複数のウェブサイ
ト111,112の指定を受付けることもできる。
【0056】図16は、ユーザ13から抽出する複数の
ウェブサイト111,112の指定を受付けた場合のコ
ンテンツの流れの具体例を示す図である。
【0057】図16を参照して、抽出システム12のポ
ーリング部121は、受付けた複数のウェブサイト11
1,112から、それぞれHTML401,405を取
得する。
【0058】そして、情報抽出部122は、それぞれの
ウェブサイト111,112に対してユーザ13より指
定された抽出方法を用いて、ウェブサイト111,11
2からの抽出を行なう。続いて、ウェブページ作成部1
27は、ウェブサイト111,112からの2つの抽出
結果を、1つのHTML406に合成する。
【0059】そして、入出力部124は、HTML40
6を、ユーザ13の端末131に対して送信する。ま
た、そのHTML406の内容を示すURLのみを送信
してもよい。
【0060】図17は、複数のウェブサイト111,1
12を抽出した際に作成される、HTML406の具体
例を示す図である。
【0061】図17を参照して、情報抽出部122は、
それぞれユーザ13より指定された抽出方法407,4
08を使って、それぞれのHTML401,405の抽
出を行なう。続いて、ウェブページ作成部127は、2
つの抽出結果を1つのHTML406に合成する。この
ように作成されたHTML406は、入出力部124よ
りユーザ13の端末131に対して送信される。また、
そのHTML406の内容を示すURL(http://aaa.c
om/clipped2.html)のみが送信されてもよい。
【0062】このように、本実施の形態における抽出シ
ステムが、複数のサイトから抽出された情報を1つのH
TMLに合成することで、ユーザは、1回のアクセスに
より所望する複数のサイトを1つのウェブページとして
閲覧することができる。そのため、ユーザは、複数のウ
ェブサイトを巡回する時間と通信費とを削減することが
できる。
【0063】また、図11のフェーズ6に示される過程
において、上述の抽出結果を蓄積部126に記録する際
に、図18に示される如く、その時刻も共に記憶しても
よい。図18は、蓄積部126に記録されるデータの、
第3の具体例を示す図である。図18に示される第3の
具体例を参照して、蓄積部126には、抽出結果と共
に、抽出を行なった時刻が更新時間として記憶される。
このように、蓄積部126に時刻も共に記憶すること
で、記憶された時刻に基づいて、抽出されたウェブサイ
トを更新順に並べることができる。
【0064】また、情報抽出部122は、HTML40
6を合成する際に、図19に示される如く、その更新順
に従って抽出内容を並べることもできる。図19は、更
新順に抽出内容を並べたHTML406の具体例を示す
図である。図19に示されるHTML406によって、
ユーザ13の端末131には、抽出された情報が、更新
順に出力されて表示される。また、ユーザ13の登録し
た順に並べることもできる。
【0065】このように、本実施の形態における抽出シ
ステムが、複数のウェブサイトから抽出した情報を新し
い順やその他のユーザの登録した順等に並べて表示する
ことにより、ユーザは端末を用いて、新鮮な情報から順
に、あるいは、所望する情報から順に閲覧することがで
きる。
【0066】さらに、上述の抽出システムにおいて実行
される抽出方法の決定方法およびポーリング方法を、プ
ログラムとして提供することもできる。このようなプロ
グラムは、コンピュータに付属するフレキシブルディス
ク、CD−ROM、ROM、RAMおよびメモリカード
などのコンピュータ読取り可能な記録媒体にて記録させ
て、プログラム製品として提供することもできる。ある
いは、コンピュータに内蔵するハードディスクなどの記
録媒体にて記録させて、プログラムを提供することもで
きる。また、ネットワークを介したダウンロードによっ
て、プログラムを提供することもできる。
【0067】提供されるプログラム製品は、ハードディ
スクなどのプログラム格納部にインストールされて実行
される。
【0068】なお、プログラム製品は、プログラム自体
と、プログラムが記録された記録媒体とを含む。
【0069】今回開示された実施の形態はすべての点で
例示であって制限的なものではないと考えられるべきで
ある。本発明の範囲は上記した説明ではなくて特許請求
の範囲によって示され、特許請求の範囲と均等の意味お
よび範囲内でのすべての変更が含まれることが意図され
る。
【図面の簡単な説明】
【図1】 本発明の実施の形態におけるウェブページ情
報抽出システムを取巻く環境の構成を示す図である。
【図2】 抽出システム12が抽出方法を決定する過程
について概要を示す図である。
【図3】 抽出システム12がウェブサイト111をポ
ーリングする過程について概要を示す図である。
【図4】 抽出システム12が、抽出方法を決定する過
程について示す第1(フェーズ1)の図である。
【図5】 抽出システム12が、抽出方法を決定する過
程について示す第2(フェーズ2)の図である。
【図6】 抽出システム12が、抽出方法を決定する過
程について示す第3(フェーズ3)の図である。
【図7】 抽出システム12が、抽出方法を決定する過
程について示す第4(フェーズ4)の図である。
【図8】 抽出システム12が、抽出方法を決定する過
程について示す第5(フェーズ5)の図である。
【図9】 分割されたブラウズイメージ画像403の領
域の具体例を示す図である。
【図10】 抽出用HTML501と抽出方法のテーブ
ル502との具体例を示す図である。
【図11】 抽出システム12が、抽出方法を決定する
過程について示す第6(フェーズ6)の図である。
【図12】 蓄積部126に記録されるデータの、第1
の具体例を示す図である。
【図13】 抽出システム12が、ポーリングする過程
について示す(フェーズ7)の図である。
【図14】 蓄積部126に記録されるデータの、第2
の具体例を示す図である。
【図15】 HTML化された抽出内容の具体例を示す
図である。
【図16】 ユーザ13から抽出する複数のウェブサイ
ト111,112の指定を受付けた場合のコンテンツの
流れの具体例を示す図である。
【図17】 複数のウェブサイト111,112を抽出
した際に作成される、HTML406の具体例を示す図
である。
【図18】 蓄積部126に記録されるデータの、第3
の具体例を示す図である。
【図19】 更新順に抽出内容を並べたHTML406
の具体例を示す図である。
【符号の説明】
11 インターネットまたはイントラネット、12 ウ
ェブページ情報抽出システム、13 ユーザ、111,
112 ウェブサイト、121 ポーリング部、122
情報抽出部、123 イメージ作成部、124 入出
力部、125抽出方法決定部、126 蓄積部、127
ウェブページ作成部、131 端末401,405,
406 HTML、402 画像、403 ブラウズイ
メージ画像、404 領域のイメージ、407,408
抽出方法、501 抽出用HTML、502 抽出方
法のテーブル。

Claims (6)

    【特許請求の範囲】
  1. 【請求項1】 ネットワーク上のウェブサイトの内容を
    定期的に監視するポーリング部と、 ユーザの端末と情報を受渡しする入出力部と、 前記ウェブサイトのウェブページをブラウズイメージ画
    像に変換するイメージ作成部と、 前記変換したブラウズイメージ画像の一部を指定するこ
    とによって、前記ウェブページの一部の抽出方法を決定
    する抽出方法決定部と、 前記決定された抽出方法で前記ウェブページの一部を抽
    出する情報抽出部と、 前記ユーザの情報と、前記ユーザの端末の情報と、前記
    抽出したウェブページの一部の内容と、前記抽出方法と
    を保持する蓄積部とを備えるウェブページ情報抽出シス
    テムであって、 前記入出力部は、前記ウェブページに更新があった場合
    に、前記ユーザの端末に通知する、ウェブページ情報抽
    出システム。
  2. 【請求項2】 前記情報抽出部は、前記ウェブページに
    更新があった場合に、前記変更されたウェブページの一
    部を抽出し、 前記入出力部は、前記ウェブページに更新があった場合
    に、前記ユーザの端末に、前記更新の通知と、前記抽出
    したウェブページの一部の内容との少なくとも一方を送
    信する、請求項1に記載のウェブページ情報抽出システ
    ム。
  3. 【請求項3】 前記情報抽出部は、前記ウェブページに
    更新があった場合に、前記変更されたウェブページの一
    部を抽出し、 前記抽出した前記変更されたウェブページの一部を、ウ
    ェブページとして作成するウェブページ作成部をさらに
    備え、 前記抽出した前記変更されたウェブページの一部を、前
    記ユーザの端末に、前記ウェブページ作成部で作成した
    ウェブページとして提供する、請求項1に記載のウェブ
    ページ情報抽出システム。
  4. 【請求項4】 前記ポーリング部は、複数のウェブペー
    ジをポーリングし、 前記ウェブページ作成部は、前記複数のウェブページか
    ら抽出された前記複数のウェブページの一部を、1のウ
    ェブページとして作成する、請求項3に記載のウェブペ
    ージ情報抽出システム。
  5. 【請求項5】 前記ウェブページ作成部は、前記抽出さ
    れた前記複数のウェブページの一部を、所定の順に並べ
    て1のウェブページとして作成する、請求項4に記載の
    ウェブページ情報抽出システム。
  6. 【請求項6】 ネットワーク上のウェブサイトの内容を
    定期的に監視するポーリングステップと、 ユーザの端末と情報を受渡しする入出力ステップと、 前記ウェブサイトのウェブページをブラウズイメージ画
    像に変換するイメージ作成ステップと、 前記変換したブラウズイメージ画像の一部を指定するこ
    とによって、前記ウェブページの一部の抽出方法を決定
    する抽出方法決定ステップと、 前記決定された抽出方法で前記ウェブページの一部を抽
    出する情報抽出ステップと、 前記ユーザの情報と、前記ユーザの端末の情報と、前記
    抽出したウェブページの一部の内容と、前記抽出方法と
    を保持する蓄積ステップとを備えるウェブページ情報抽
    出方法であって、 前記入出力ステップは、前記ウェブページに更新があっ
    た場合に、前記ユーザの端末に通知する、ウェブページ
    情報抽出方法。
JP2002110847A 2002-04-12 2002-04-12 ウェブページ情報抽出システムおよびウェブページ情報抽出方法 Pending JP2003308275A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002110847A JP2003308275A (ja) 2002-04-12 2002-04-12 ウェブページ情報抽出システムおよびウェブページ情報抽出方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002110847A JP2003308275A (ja) 2002-04-12 2002-04-12 ウェブページ情報抽出システムおよびウェブページ情報抽出方法

Publications (1)

Publication Number Publication Date
JP2003308275A true JP2003308275A (ja) 2003-10-31

Family

ID=29393857

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002110847A Pending JP2003308275A (ja) 2002-04-12 2002-04-12 ウェブページ情報抽出システムおよびウェブページ情報抽出方法

Country Status (1)

Country Link
JP (1) JP2003308275A (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006285963A (ja) * 2005-03-31 2006-10-19 Microsoft Corp 別々のデータ情報源にまたがる選択済みコンテンツの生の要約の作成を容易にするシステム及び方法
WO2007116705A1 (ja) * 2006-03-31 2007-10-18 Nec Corporation ウェブコンテンツ閲覧情報表示装置、方法、プログラム
KR20110004086A (ko) * 2009-07-07 2011-01-13 삼성전자주식회사 건강 정보를 나타내는 웹 페이지를 공유하는 시스템 및 방법
JP2015118590A (ja) * 2013-12-19 2015-06-25 富士通株式会社 情報提供プログラム、情報提供方法および情報提供装置
CN106570133A (zh) * 2016-10-27 2017-04-19 任子行网络技术股份有限公司 一种可视化的网页信息提取规则的构建方法和装置
CN110020385A (zh) * 2017-09-29 2019-07-16 甲骨文国际公司 用于提取网站特性的系统和方法

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006285963A (ja) * 2005-03-31 2006-10-19 Microsoft Corp 別々のデータ情報源にまたがる選択済みコンテンツの生の要約の作成を容易にするシステム及び方法
KR101153009B1 (ko) 2005-03-31 2012-06-04 마이크로소프트 코포레이션 텍스트 요약을 갖는 라이브 그래픽 미리보기
WO2007116705A1 (ja) * 2006-03-31 2007-10-18 Nec Corporation ウェブコンテンツ閲覧情報表示装置、方法、プログラム
KR20110004086A (ko) * 2009-07-07 2011-01-13 삼성전자주식회사 건강 정보를 나타내는 웹 페이지를 공유하는 시스템 및 방법
KR101632309B1 (ko) 2009-07-07 2016-06-21 삼성전자주식회사 건강 정보를 나타내는 웹 페이지를 공유하는 시스템 및 방법
JP2015118590A (ja) * 2013-12-19 2015-06-25 富士通株式会社 情報提供プログラム、情報提供方法および情報提供装置
CN106570133A (zh) * 2016-10-27 2017-04-19 任子行网络技术股份有限公司 一种可视化的网页信息提取规则的构建方法和装置
CN106570133B (zh) * 2016-10-27 2019-07-23 任子行网络技术股份有限公司 一种可视化的网页信息提取规则的构建方法和装置
CN110020385A (zh) * 2017-09-29 2019-07-16 甲骨文国际公司 用于提取网站特性的系统和方法
CN110020385B (zh) * 2017-09-29 2023-09-15 甲骨文国际公司 用于提取网站特性的系统和方法

Similar Documents

Publication Publication Date Title
JP3890241B2 (ja) 情報処理システム及び情報処理方法
KR100971820B1 (ko) 정보 처리 장치, 방법, 기록 매체 및 시스템
EP1641211A2 (en) Web server and method for dynamic content.
EP1811389A1 (en) Data distribution system, and method therefor
JP4811069B2 (ja) 情報提示装置、情報提示方法、及び情報提示処理プログラム
JP3822024B2 (ja) データ転送装置
JP2003271507A (ja) モバイル向けマークアップ言語を記述するシステム及び表示用コンテンツを作成する情報処理装置、プログラム
JP2011060215A (ja) ウェブページ閲覧システム、サーバ、ウェブページ閲覧方法及びプログラム
JP2002269017A (ja) データ送信装置、データ送信方法、データ送信プログラムおよびデータ送信プログラムを記録したコンピュータ読み取り可能な記録媒体
JP2009020865A (ja) 文字入力支援方法、文字入力支援システム、文字入力支援プログラム、ユーザ端末、文字変換方法及び文字変換プログラム
JP2004287758A (ja) Webアプリケーション統合方法/プログラム/記録媒体、ポータルサーバ
JP2003030039A (ja) 構造化文書配信装置及び構造化文書配信システム
JP2002268996A (ja) 中継方法、ユーザインタフェース提供方法、代理サーバ装置、クライアント装置、プログラム、及び記録媒体
JP2003308275A (ja) ウェブページ情報抽出システムおよびウェブページ情報抽出方法
JP2003337739A (ja) Webページ情報保存処理プログラム、Webページ変換用プログラム、及び、コンテンツ提供システム
JP2001229106A (ja) コンテンツ変換システム
JP2004157783A (ja) Webページ作成支援サーバ、Webページ作成支援方法およびWebページ作成支援プログラム
JP5023760B2 (ja) ファイル参照システム、ファイル参照方法、ファイル変換装置、ファイル参照端末装置、及びプログラム
JP4290310B2 (ja) コンテンツ転送装置、コンテンツ転送方法およびコンテンツ転送プログラムを記録した記録媒体
JP6591470B2 (ja) サイネージ提示システム
JP2001109655A (ja) 情報変換装置及び情報変換方法
US7246126B2 (en) Communications system for retrieving instruction files from a server
JP4277879B2 (ja) サーバシステム、電子メール送信方法、及び、記録媒体
JP4495654B2 (ja) 情報入力サーバ、非公開情報蓄積サーバ、情報入力システムおよび情報入力受付方法
JP2005322177A (ja) 携帯端末用www文書作成装置、携帯端末用www文書作成システム、携帯端末用www文書作成方法、プログラムおよび記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20041125

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20070406

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070417

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070614

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20070710