JP2005301437A - 適応型ウエブページデータ抽出装置および抽出プログラム - Google Patents

適応型ウエブページデータ抽出装置および抽出プログラム Download PDF

Info

Publication number
JP2005301437A
JP2005301437A JP2004113385A JP2004113385A JP2005301437A JP 2005301437 A JP2005301437 A JP 2005301437A JP 2004113385 A JP2004113385 A JP 2004113385A JP 2004113385 A JP2004113385 A JP 2004113385A JP 2005301437 A JP2005301437 A JP 2005301437A
Authority
JP
Japan
Prior art keywords
web page
data
extracted
data extraction
tag
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2004113385A
Other languages
English (en)
Inventor
Yuichi Kobayashi
雄一 小林
Junichi Toyouchi
順一 豊内
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi INS Software Ltd
Original Assignee
Hitachi INS Software Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi INS Software Ltd filed Critical Hitachi INS Software Ltd
Priority to JP2004113385A priority Critical patent/JP2005301437A/ja
Publication of JP2005301437A publication Critical patent/JP2005301437A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】
HTML構造に変更が生じた場合においても、適応するデータ抽出することのできる適応型ウエブページデータ抽出装置を提供する。
【解決手段】
ウエブページから所定の文字列を予め抽出基本データとして抽出して格納するデータ抽出手段131と、前記ウエブページが変更されたとき、変更後のウエブページから前記抽出基本データを検索し、検索した抽出基本データのHTML構造における位置を表す情報をもとに、変更前のウエブページのHTML構造における抽出基本データ位置に対応する文字列を変更後のウエブページと同じHTML構造であって内容が異なるウエブページから抽出するデータ抽出手段を再構築するデータ抽出再構築手段132を備えた。
【選択図】 図1

Description

本発明は、適応型ウエブページデータ抽出装置および抽出プログラムに係り、特に、ウエブページが変更されてもウエブページから必要な文字列を容易に抽出することのできる適応型ウエブページデータ抽出装置および抽出プログラムに関する。
ウエブページはWWWシステムを利用しインターネット上で公開されている文書であり、主にHTMLというマークアップ言語で記述されている。インターネット利用の急激な普及に伴い、公開されるウエブページの数も膨大となり、計算機を用いて自動的にウエブページ内の重要な文字列を抽出しデータベース化して管理したいというニーズが高まっている。しかし、HTMLは人に対しての見栄えを記述するために使用される言語であるため、計算機を用いて自動的にウエブページから目的の文字列を抽出することは困難である。
この問題を解決するため、抽出したい文字列の前後のタグ情報を元にデータ抽出プログラムを構築し、ウエブページをデータベース化する手法がある。この手法に用いるデータ抽出プログラムは、ウエブページのHTML構造が同じである限り、文字列が異なっていても各ウエブページから目的の文字列を抽出することが可能である(非特許文献1参照)。
例えば、多数のパッケージ旅行の情報を、各パッケージ旅行ごとに1つのウエブページを用いて提供するウエブサイトがあるとする。
このウエブサイトでは各パッケージ旅行のウエブページは、それぞれ内容は異なるが同じHTML構造で構成されている。このような場合、任意のパッケージ旅行のウエブページを参照して抽出したい特定の文字列の前後のタグ情報を元にデータを抽出するプログラムを構築することができる。このデータ抽出プログラムを利用することで、他のパッケージ旅行のウエブページからも同種の文字列を抽出することを可能になる。抽出してデータベース化した情報は、類似するパッケージ旅行商品の価格の比較などに利用できる。
小島剛著 「Cosminexus Leap01−00A 取扱説明書」日立製作所 2003年
前記従来技術によれば、ウエブページのHTML構造が同じである限り、文字列が異なっていても各ウエブページから目的の文字列を抽出することが可能である。しかしながら、HTML構造に変更が生じた場合、その都度データ抽出プログラムを人手を介して再構築しなければならない。
本発明は、これらの問題点に鑑みてなされたもので、HTML構造に変更が生じた場合においても、適応するデータを抽出することのできる適応型ウエブページデータ抽出装置を提供する。
本発明は上記課題を解決するため、次のような手段を採用した。
ウエブページから所定の文字列を予め抽出基本データとして抽出して格納するデータ抽出手段と、前記ウエブページが変更されたとき、変更後のウエブページから前記抽出基本データを検索し、検索した抽出基本データのHTML構造における位置を表す情報をもとに、変更前のウエブページのHTML構造における抽出基本データ位置に対応する文字列を変更後のウエブページと同じHTML構造であって内容が異なるウエブページから抽出するデータ抽出手段を再構築するデータ抽出再構築手段を備えた。
本発明は、以上の構成を備えるため、HTML構造に変更が生じた場合においても、適応するデータ抽出プログラムを生成することのできる適応型ウエブぺージデータ抽出装置を提供することができる。
以下、最良の実施形態を添付図面を参照しながら説明する。図1は、本発明の第1の実施形態にかかる適応型ウエブページデータ抽出装置を説明する図である。この例では、ウエブページの内容は不変でHTML構造が変化する場合について説明する。図に示すように適応型ウエブページデータ抽出装置10は、ウエブサーバ20と接続し、ウエブページのHTML構造が変更される以前に抽出した文字列やその前後のタグパターンを記憶装置13に記憶している。
図1において、10は適応型ウエブページデータ抽出装置であり、ウエブサーバ20とインターネットまたはLANなどのネットワークを用いて接続される。20はウエブページを提供するウエブサーバ20である。11はLANボードやモデムなどの通信装置、12はCPUなどの中央処理装置12である。
また、13は記憶装置であり、バスを介して通信装置11および中央処理装置12と接続する。また、131は通信装置11を介してウエブサーバからウエブページデータを抽出するデータ抽出手段であり、中央処理装置12および該装置が実行するプログラム(データ抽出プログラム)で構成することができる。132はデータ抽出再構築手段であり、前記ウエブページのHTML構造が変更された場合においても、適応するデータを抽出することのできるようにデータ抽出手段131を再構成する。なお、データ抽出再構築手段132は中央処理装置12および該装置が実行するプログラム(データ抽出再構築プログラム)で構成することができる。133はデータ抽出手段により抽出したウエブページデータ(抽出データ)である。134は抽出基本データであり、データ抽出手段により抽出したウエブページデータ133の1つをウエブページの格納場所を示すURLと共に格納する。
図2は、ウエブサーバ20が提供するウエブページの一例を示す図であり、ウエブページ201は変更が施される以前ウエブページ、ウエブページ202は変更後のウエブページである。ウエブページ201および202は同一内容のパッケージ旅行についてHTMLを用いて記述している。すなわち、ウエブページ201と202はウエブページブラウザで閲覧する際に読み取ることのできる情報は同じであるがHTML構造(この例ではテーブルの構造)が異なっている。
図3は、データ抽出手段131を用いて、例えばウエブページ201から抽出した抽出データ133の一例を示す図である。
抽出データ133は、ウエブページから抽出する各データの項目のセット311と、その項目のセット311に対応する値のセット312を有する。抽出データ133はウエブページ201あるいは202と1対1の関係にある。なお、抽出データ133はデータベースにCSVファイルあるいはXMLファイルなどとして蓄積される。
ウエブページ201から抽出データ133を抽出するに際しては、ウエブページ201から、抽出データの項目である「名称」、「料金」、「利用ホテル」、および「航空会社」にそれぞれ対応する値である「ハワイ6日間の旅」、「54800円〜89800円」、「ハワイリゾート」、および「全日本航空」を抽出する。
このデータ抽出処理を行うデータ抽出手段131は、最初から1番目の<h1>タグと最初から1番目の</h1>タグの間の文字列、最初から2番目の<td>タグと最初から2番目の</td>タグの間の文字列、最初から4番目の<td>タグと最初から4番目の</td>タグの間の文字列、および最初から6番目の<td>タグと最初から6番目の</td>タグの間の文字列を読み出して記憶装置13に蓄積する処理を行う。
なお、このデータ抽出手段131は、ウエブページ201と同じHTML構造で異なるパッケージ旅行について記述しているウエブページからも同様に値を読み出して記憶装置13に蓄積することができる。
図4は、抽出基本データ134の一例を示す図である。抽出基本データ134は、ウエブページから抽出したデータの項目のセット411、項目のセット411に対応する値のセット412およびウエブページの格納場所を示すURL421を備える。抽出基本データ134は、後述するようにデータ抽出手段131を再構築する際に参照する。
図5は、データ抽出再構築手段132の処理を説明するフローチャートである。
データ抽出再構築手段132は、定期的にウエブサーバ20からウエブページを取得し、以前に取得したウエブページと比較して、HTML構造に変更が生じたか否かを判断する。なお、定期的にデータ抽出手段131を起動しデータ抽出が可能かどうか監視することにより、HTML構造に変更があるか否かを判断しても良い。また、ウエブサーバ20の管理者からHTML構造を変更したという信号を受信するようにしても良い。HTML構造に変更が無いと判断した場合はデータ抽出手段131を実行する(ステップ1001,1005)。
一方、HTML構造に変更があった場合は、抽出基本データ134のURL421を参照して新しいHTML構造のウエブページ202を取得する(ステップ1002)。
次いで、図4に示す抽出基本データ134の値のセット412(「ハワイ6日間の旅」、「54800円〜89800円」、「ハワイリゾート」、「全日本航空」)のそれぞれを図2に示す変更後のウエブページ202から検索し、それぞれの前後のタグを調べる。例えば、項目「名称」に対応する値「ハワイ6日間の旅」の直前のタグは最初から1番目の<b>タグであり、直後のタグは最初から1番目の</b>タグであることがわかり、項目「料金」に対応する値「54800円〜89800円」の直前のタグは最初から6番目の<td>タグであり、直後のタグは最初から5番目の</td>タグであることがわかり、項目「利用ホテル」に対応する値「ハワイリゾート」の直前のタグは最初から7番目の<td>タグであり、直後のタグは最初から6番目の</td>タグであることがわかり、項目「航空会社」に対応する値「全日本航空」の直前のタグは最初から8番目の<td>タグであり、直後のタグは最初から7番目の</td>タグであることがわかる(ステップ1003)。
次いで、ステップ1003の結果に基づいて、ウエブページ202の最初から1番目の<b>タグと最初から1番目の</b>タグの間の文字列、最初から6番目の<td>タグと最初から5番目の</td>タグの間の文字列、最初から7番目の<td>タグと最初から6番目の</td>タグの間の文字列、および最初から8番目の<td>タグと最初から7番目の</td>タグの間の文字列をそれぞれ読み出し、読み出した文字列を記憶装置13に蓄積するようなデータ抽出手段131を再構築する(ステップ1004)。
すなわち、ステップ1003において、各抽出基本データ134の値の前後に位置するタグ(抽出基本データに近接するタグでも良い)を検出し、ステップ1004において、前記検出したタグを用いて、すなわち、検出した抽出基本データのHTML構造における位置を表す情報をもとに変更後のウエブページから目的のデータを抽出するデータ抽出プログラムを再構成する。
このように、ウエブページから文字列を抽出するためには、抽出する文字列の前後のタグ情報が重要であることから、HTML構造が変更される以前に、抽出する文字列、あるいは、後述するその前後のタグパターンを保存しておく。そして、HTML構造が変更された後、保存した文字列あるいはタグパターンをキーとしてウエブページから抽出する文字列を検索し、検索した文字列前後のタグ情報からデータ抽出プログラムを再構築することができる。
次いで、再構築したデータ抽出手段131を起動する(ステップ1005)。
データ抽出手段131はウエブページ202と同じHTML構造のウエブページから目的のデータを抽出し記憶装置13の抽出データ133として蓄積することができる。
この方法により再構築したデータ抽出手段131を用いる場合、取得するウエブページのHTML構造に変更があっても、ウエブページの文字列(項目および対応する値)を表にしてデータベース化することができる。このため統合ウエブアプリケーションであるポータルサイトやウエブサービスなどの用途に適用できる。
図6は、第2の実施形態を説明する図である。この例では、ウエブページの内容とHTML構造が共に変わる場合について説明する。
図6は、ウエブサーバ20が提供するウエブページ203とウエブページ203に対する抽出基本データ134の一例を示す図である。
ウエブページ203は、図2に示す変更前のウエブページ201とは、その内容もHTML構造も異なっている。
一方、抽出基本データ134として、例えば、項目のセット411、項目のセット411に対応するタグパターンのセット413、およびURL421を設定する。なお、各項目毎の抽出すべきデータとその前後のタグパターンの関連は、ウエブページの内容とHTML構造が共に変更されても維持されているとする。また、前記抽出基本データ(タグパターン)はデータ抽出手段により抽出したウエブページデータの1つをもとに作成し、ウエブページの格納場所を示すURLと共に格納する。
タグパターンのセット413としては、例えば、文字列とタグの組合せで設定する。図の例では、項目「名称」に対応するタグパターンとして、最初の<h1>タグと最初の</h1>タグの間の文字列を指定する。
タグパターンに含まれる値をウエブページ203から検索するとき、検索タグの属性や空白などの意味を持たない文字や大文字と小文字の差等は無視するとよい。例えば、タグパターンが「“料金</td><td>”と“</td>”の間」であるとき、ウエブページに「<TD><B>料 金</B></TD><TD bgcolor=#CCCCCC>98000円</TD>」という文字列があれば、「98000円」を抽出するように設定しておく。
このように設定しておくことにより、データ抽出再構築手段132は、抽出基本データ134のタグパターンのセット413を順次ウエブページ203から検索することができる。例えば、ウエブページ203の最初の<h1>タグと最初の</h1>タグの間の文字列を読み出して、「ハワイ6日間の旅」を取得し、
また、ウエブページ203の最初の<table>タグと最初の</table>タグの間にある2番目の<td>タグと2番目の</td>タグの間の文字列を読み出して、「49800円〜94800円」を取得し、
また、最初から2番目の<table>タグと最初から2番目の</table>タグの間にある2番目の<td>タグと2番目の</td>タグの間の文字列を読み出して、「ハワイホテル」を取得し、
また、最初から3番目の<table>タグと最初から3番目の</table>タグの間にある2番目の<td>タグと2番目の</td>タグの間の文字列を読み出して、「東京航空」を取得し、取得した値を記憶装置13に蓄積するプログラム(データ抽出プログラム)を再構築することができる。
すなわち、この例では、抽出基本データである、抽出すべきデータの値付近のタグパターン(抽出基本データのHTML構造における位置を表す)をもとに変更後のウエブページから目的のデータを抽出するデータ抽出プログラムを再構成する。
このようにして、データ抽出プログラムを再構築するので、ウエブページの内容およびHTML構造が共に変更された場合においても、ウエブページの文字列を取得してデータベース化することができる。このため、統合ウエブアプリケーションであるポータルサイトやウエブサービスなどの用途に適用することができる。
また、本発明の装置は、他の企業が運営するパッケージ旅行情報の提供ウエブサイトのようなHTML構造が異なる2つ以上の同種ウエブサイトに対して、企業共通の1つのパッケージ旅行情報を抽出基本データとして設定し、各企業が運営するパッケージ旅行情報の提供ウエブサイトごとにデータ抽出手段131を構築することができるので、各企業が提供するウエブページの文字列を表にしてデータベース化することにも応用できる。
本発明の第1の実施形態にかかる適応型ウエブページデータ抽出装置を説明する図である。 ウエブサーバが提供するウエブページの一例を示す図である。 データ抽出手段を用いて、ウエブページから抽出した抽出データの一例を示す図である。 抽出基本データの一例を示す図である。 データ抽出再構築手段の処理を説明するフローチャートである。 第2の実施形態を説明する図である。
符号の説明
10 適応型ウエブページデータ抽出装置
11 通信装置
12 中央処理装置
13 記憶装置
20 ウエブサーバ
131 データ抽出手段
132 データ抽出再構築手段
133 抽出データ
134 抽出基本データ

Claims (6)

  1. ウエブページから所定の文字列を予め抽出基本データとして抽出して格納するデータ抽出手段と、
    前記ウエブページが変更されたとき、変更後のウエブページから前記抽出基本データを検索し、検索した抽出基本データのHTML構造における位置を表す情報をもとに、変更前のウエブページのHTML構造における抽出基本データ位置に対応する文字列を変更後のウエブページと同じHTML構造であって内容が異なるウエブページから抽出するデータ抽出手段を再構築するデータ抽出再構築手段を備えたことを特徴とする適応型ウエブページデータ抽出装置。
  2. 請求項1記載の適応型ウエブページデータ抽出装置において、
    前記抽出基本データは抽出データの値であることを特徴とする適応型ウエブページデータ抽出装置。
  3. 請求項1記載の適応型ウエブページデータ抽出装置において、
    前記抽出基本データは抽出データの値付近のタグパターンであることを特徴とする適応型ウエブページデータ抽出装置。
  4. ウエブページから所定の文字列を予め抽出基本データとして抽出して格納するデータ抽出プログラムと、
    前記ウエブページが変更されたとき、変更後のウエブページから抽出基本データを検索し、検索した抽出基本データのHTML構造における位置を表す情報をもとに、前記データ抽出プログラムを、変更前のウエブページのHTML構造における抽出基本データ位置に対応する文字列を変更後のウエブページと同じHTML構造であって内容が異なるウエブページから抽出するプログラムに再構築するデータ抽出再構築プログラムを備えたことを特徴とする適応型ウエブページデータ抽出プログラム。
  5. 請求項4記載の適応型ウエブページデータ抽出プログラムにおいて、
    前記抽出基本データは抽出データの値であることを特徴とする適応型ウエブページデータ抽出プログラム。
  6. 請求項4記載の適応型ウエブページデータ抽出プログラムにおいて、
    前記抽出基本データは抽出データの値付近のタグパターンであることを特徴とする適応型ウエブページデータ抽出プログラム。



JP2004113385A 2004-04-07 2004-04-07 適応型ウエブページデータ抽出装置および抽出プログラム Pending JP2005301437A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004113385A JP2005301437A (ja) 2004-04-07 2004-04-07 適応型ウエブページデータ抽出装置および抽出プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004113385A JP2005301437A (ja) 2004-04-07 2004-04-07 適応型ウエブページデータ抽出装置および抽出プログラム

Publications (1)

Publication Number Publication Date
JP2005301437A true JP2005301437A (ja) 2005-10-27

Family

ID=35332931

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004113385A Pending JP2005301437A (ja) 2004-04-07 2004-04-07 適応型ウエブページデータ抽出装置および抽出プログラム

Country Status (1)

Country Link
JP (1) JP2005301437A (ja)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007241993A (ja) * 2006-02-08 2007-09-20 Mieko Tsuyusaki 情報更新システム及び情報取得システム
JP2010102371A (ja) * 2008-10-21 2010-05-06 Nippon Telegr & Teleph Corp <Ntt> 顔文字検出装置、その方法、プログラム及び記録媒体
WO2011024716A1 (ja) * 2009-08-26 2011-03-03 日本電気株式会社 構造化文書検索式生成装置、その方法及びプログラム、並びに構造化文書検索装置、その方法及びプログラム
WO2011108618A1 (ja) * 2010-03-01 2011-09-09 日本電気株式会社 検索式更新装置、検索式更新方法
KR101065937B1 (ko) 2008-03-13 2011-09-19 캐논 가부시끼가이샤 서비스 플로우 처리 방법 및 장치
JP2012059212A (ja) * 2010-09-13 2012-03-22 Nippon Telegr & Teleph Corp <Ntt> 抽出装置、抽出方法及び抽出プログラム
JP2014523016A (ja) * 2011-06-15 2014-09-08 アリババ・グループ・ホールディング・リミテッド ウェブページ情報を抽出する方法およびシステム
US9218418B2 (en) 2009-06-15 2015-12-22 Nec Corporation Search expression generation system
KR20160066235A (ko) * 2014-12-02 2016-06-10 주식회사 솔트룩스 웹 페이지 정보 추출 장치 및 방법
EP3220284A4 (en) * 2014-11-14 2017-09-20 Fujitsu Limited Data acquisition program, data acquisition method and data acquisition device
US20190303501A1 (en) * 2018-03-27 2019-10-03 International Business Machines Corporation Self-adaptive web crawling and text extraction

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004062446A (ja) * 2002-07-26 2004-02-26 Ibm Japan Ltd 情報収集システム、アプリケーションサーバ、情報収集方法、およびプログラム

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004062446A (ja) * 2002-07-26 2004-02-26 Ibm Japan Ltd 情報収集システム、アプリケーションサーバ、情報収集方法、およびプログラム

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007241993A (ja) * 2006-02-08 2007-09-20 Mieko Tsuyusaki 情報更新システム及び情報取得システム
KR101065937B1 (ko) 2008-03-13 2011-09-19 캐논 가부시끼가이샤 서비스 플로우 처리 방법 및 장치
JP2010102371A (ja) * 2008-10-21 2010-05-06 Nippon Telegr & Teleph Corp <Ntt> 顔文字検出装置、その方法、プログラム及び記録媒体
US9218418B2 (en) 2009-06-15 2015-12-22 Nec Corporation Search expression generation system
WO2011024716A1 (ja) * 2009-08-26 2011-03-03 日本電気株式会社 構造化文書検索式生成装置、その方法及びプログラム、並びに構造化文書検索装置、その方法及びプログラム
WO2011108618A1 (ja) * 2010-03-01 2011-09-09 日本電気株式会社 検索式更新装置、検索式更新方法
JP5440687B2 (ja) * 2010-03-01 2014-03-12 日本電気株式会社 検索式更新装置、検索式更新方法
JP2012059212A (ja) * 2010-09-13 2012-03-22 Nippon Telegr & Teleph Corp <Ntt> 抽出装置、抽出方法及び抽出プログラム
JP2014523016A (ja) * 2011-06-15 2014-09-08 アリババ・グループ・ホールディング・リミテッド ウェブページ情報を抽出する方法およびシステム
JP2016154052A (ja) * 2011-06-15 2016-08-25 アリババ・グループ・ホールディング・リミテッドAlibaba Group Holding Limited ウェブページ情報を抽出する方法およびシステム
US9767211B2 (en) 2011-06-15 2017-09-19 Alibaba Group Holding Limited Method and system of extracting web page information
EP3220284A4 (en) * 2014-11-14 2017-09-20 Fujitsu Limited Data acquisition program, data acquisition method and data acquisition device
KR20160066235A (ko) * 2014-12-02 2016-06-10 주식회사 솔트룩스 웹 페이지 정보 추출 장치 및 방법
KR101708878B1 (ko) 2014-12-02 2017-02-21 주식회사 솔트룩스 웹 페이지 정보 추출 장치 및 방법
US20190303501A1 (en) * 2018-03-27 2019-10-03 International Business Machines Corporation Self-adaptive web crawling and text extraction
US10922366B2 (en) * 2018-03-27 2021-02-16 International Business Machines Corporation Self-adaptive web crawling and text extraction

Similar Documents

Publication Publication Date Title
US9330179B2 (en) Configuring web crawler to extract web page information
US9619448B2 (en) Automated document revision markup and change control
US8046681B2 (en) Techniques for inducing high quality structural templates for electronic documents
KR101450358B1 (ko) 구조형 지리적 데이터 검색
US7912846B2 (en) Document processing method, recording medium, and document processing system
EP1376408B1 (en) Extraction of information from structured documents
US20030088643A1 (en) Method and computer system for isolating and interrelating components of an application
JP5113764B2 (ja) データベースと電子ドキュメントとの間での階層データの転送および表示
EP2309400A1 (en) Pattern recognition in web search engine result pages
WO2007105759A1 (ja) 数式記述構造化言語オブジェクト検索システムおよび検索方法
WO2015047920A1 (en) Title and body extraction from web page
JP2006164269A (ja) 検索結果のカスタマイゼーションのためのシステムおよび方法
JP2009524883A (ja) デジタルコンテンツのネットワークへの提示
JP2005301437A (ja) 適応型ウエブページデータ抽出装置および抽出プログラム
Krüpl-Sypien et al. A versatile model for web page representation, information extraction and content re-packaging
US7908586B1 (en) Collapse on content property
US8954438B1 (en) Structured metadata extraction
CN109558123A (zh) 网页转化电子书的方法、电子设备、存储介质
JP2009259248A (ja) ウェブページに含まれるイメージに対してタグ付けを実行し、その結果を利用してウェブ検索サービスを提供するための方法、装置及びコンピュータ読み取り可能な記録媒体
JP2008102773A (ja) データを共通のフォーマットに変換する方法
US20110087953A1 (en) Automated embeddable searchable static rendering of a webpage generator
Li et al. A novel method to extract informative blocks from web pages
JP2004126770A (ja) 構造化文書検索方法、構造化文書検索システム及び構造化文書データベース管理装置
JP2000322167A (ja) データ管理システムおよびデータ属性表示方法
JP4352840B2 (ja) プログラム、データ処理方法およびデータ処理システム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070327

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20091110

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20100406