JP2008102773A - データを共通のフォーマットに変換する方法 - Google Patents

データを共通のフォーマットに変換する方法 Download PDF

Info

Publication number
JP2008102773A
JP2008102773A JP2006285287A JP2006285287A JP2008102773A JP 2008102773 A JP2008102773 A JP 2008102773A JP 2006285287 A JP2006285287 A JP 2006285287A JP 2006285287 A JP2006285287 A JP 2006285287A JP 2008102773 A JP2008102773 A JP 2008102773A
Authority
JP
Japan
Prior art keywords
data
locator
predetermined data
sentence
web page
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2006285287A
Other languages
English (en)
Inventor
Masanobu Shodoji
雅信 正道寺
Hideyuki Nagai
秀幸 永井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
R & W Kk
Original Assignee
R & W Kk
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by R & W Kk filed Critical R & W Kk
Priority to JP2006285287A priority Critical patent/JP2008102773A/ja
Publication of JP2008102773A publication Critical patent/JP2008102773A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】本発明は、構造の異なる複数のWebページを記述するHTML文書から、ユーザが所望するデータを抽出し、共通のフォーマットに統一する方法を提供すること。
【解決手段】Webページを閲覧可能な端末20と通信回線を介して接続されたサーバ10が、共通のフォーマットを示すXMLスキーマを記憶し、前記Webページに含まれる所定のデータの、ブラウザ上における位置を示す位置データを、端末20から受信し、受信した前記位置データに基づいて、前記Webページを記述するHTMLテキスト内における、前記所定のデータの位置を表現するロケータ文を生成し、生成した前記ロケータ文に基づいて、前記HTMLテキスト内から前記所定のデータを抽出し、抽出した前記所定のデータに関連付けるタグ名を、前記XMLスキーマから選択し、前記タグ名を関連付けた所定のデータを、前記XMLスキーマに基づいて記憶する。
【選択図】図3

Description

本発明は、データを共通のフォーマットに変換する方法、サーバ、およびプログラムに関する。
従来、Webページとして様々なサイトに散在する情報は、それぞれのWebページ内で整理され、独自のフォーマットにて表示されている。したがって、これらの情報は、互いに同種の内容であっても表示形式は異なり、閲覧ユーザは複数のサイトを容易に比較参照することができない。
このような状況において、異なるフォーマットによる複数の文書から所望の情報を取得する方法が提案されてきている。例えば特許文献1には、単一の照会文に基づいて、構造の異なる複数のXML文書から所望の部分文書を探索し、所望の構造で取得する方法が開示されている。このような方法によれば、構造の異なる複数のXML文書を、共通フォーマットにて取得することが可能となる。
特開2004−348484号公報
しかしながら、特許文献1の方法では、対象となる文書はメタデータが予め明確に埋め込まれたXML文書に限られており、その他の構造化文書は考慮していないため、一般にWebページに用いられているHTML文書では十分な効果は得られない。すなわち、HTML文書は、限られたタグを用いて文書構造を示したものであるため、XML文書のように、独自のタグによってメタデータを記述することはなされておらず、したがって、タグを参照するだけでは内容を判断することができない。
そこで、Webページとして様々なサイトに散在する情報を容易に比較参照するため、ユーザの所望するフォーマットによって複数の文書を統一して整理することが望まれる。本発明は、構造の異なる複数のWebページを記述するHTML文書から、ユーザが所望するデータを抽出し、共通のフォーマットに統一する方法を提供することを目的とする。
上記目的のため、具体的には、以下のようなものを提供する。
(1) Webページを閲覧可能な端末と通信回線を介して接続されたサーバが、複数の前記Webページに分散するデータを共通のフォーマットに変換する方法であって、
前記共通のフォーマットを示すXMLスキーマを記憶するステップと、
前記Webページに含まれる所定のデータの、ブラウザ上における位置を示す位置データを、前記端末から受信するステップと、
受信した前記位置データに基づいて、前記Webページを記述するHTMLテキスト内における、前記所定のデータの位置を表現するロケータ文を生成するステップと、
生成した前記ロケータ文に基づいて、前記HTMLテキスト内から前記所定のデータを抽出するステップと、
抽出した前記所定のデータに関連付けるタグ名を、前記XMLスキーマから選択するステップと、
前記タグ名を関連付けた所定のデータを、前記XMLスキーマに基づいて記憶するステップと、を含む方法。
このような構成によれば、当該サーバは、共通のフォーマットを示すXMLスキーマを記憶し、Webページに含まれる所定のデータの、ブラウザ上における位置を示す位置データを、端末から受信し、受信した前記位置データに基づいて、前記Webページを記述するHTMLテキスト内における、前記所定のデータの位置を表現するロケータ文を生成し、生成した前記ロケータ文に基づいて、前記HTMLテキスト内から前記所定のデータを抽出し、抽出した前記所定のデータに関連付けるタグ名を、前記XMLスキーマから選択し、前記タグ名を関連付けた所定のデータを、前記XMLスキーマに基づいて記憶する。
このことにより、当該サーバは、Webページを記述するHTMLテキストから、端末のユーザが所望する所定のデータを抽出し、共通のXMLスキーマに基づいて記憶するので、互いに異なる構造を持った複数のWebページから、共通のフォーマットで情報を取得することができる。その結果、様々なサイトに散在する情報を、共通フォーマットにて容易に比較参照できる可能性がある。
(2) 前記タグ名に関連付ける前記Webページにおける項目名を予め記憶しておくステップと、
前記HTMLテキスト内から前記項目名を検索し、当該項目名に対応する前記HTMLテキスト内のデータを前記所定のデータとして、前記ロケータ文を生成するステップと、を更に含む(1)に記載の方法。
このような構成によれば、当該サーバは、前記タグ名に関連付ける前記Webページにおける項目名を予め記憶し、前記HTMLテキスト内から前記項目名を検索し、当該項目名に対応する前記HTMLテキスト内のデータを前記所定のデータとして、前記ロケータ文を生成する。
このことにより、当該サーバは、予め記憶した項目名を検索することにより、所定のデータを抽出することができる。その結果、ユーザがWebページにおける位置を指定することなく、自動的にデータを取得できるので、効果的にデータを収集することができる可能性がある。
(3) 前記タグ名の選択を示すデータを前記端末から受信するステップを更に含む(1)または(2)に記載の方法。
このような構成によれば、当該サーバは、ユーザが操作する端末から、所定のデータに関連付けるタグ名の選択を示すデータを受信するので、ユーザの操作に基づいて、所定のデータを、希望するフォーマットにて記憶することができる。
(4) 前記Webページにおいて前記所定のデータが表の中に含まれている場合に、同種の情報が複数行に連続して出現すると判別するステップと、
前記ロケータ文に、複数行を参照する旨を示すデータを含めるステップと、を更に含む(1)から(3)のいずれかに記載の方法。
このような構成によれば、当該サーバは、前記Webページにおいて前記所定のデータが表の中に含まれている場合に、同種の情報が複数行に連続して出現すると判別し、前記ロケータ文に、複数行を参照する旨を示すデータを含める。
このことにより、当該サーバは、Webページにおいて表として記述される所定のデータについて、1行を指示されただけで複数行に跨っていると判別し、その旨を前記ロケータ文に記録する。その結果、ユーザが必要とするデータを漏れなく抽出できる可能性がある。
(5) 前記端末から、前記表の複数行を参照することを示す複数参照指示データを受信するステップを更に含み、
前記複数参照指示データを受信したことに応じて、前記ロケータ文に、複数行を参照する旨を示すデータを含めることを特徴とする(4)に記載の方法。
このような構成によれば、当該サーバは、前記端末から、前記表の複数行を参照することを示す複数参照指示データを受信し、前記複数参照指示データを受信したことに応じて、前記ロケータ文に、複数行を参照する旨を示すデータを含める。
このことにより、当該サーバは、ユーザの操作に基づいて前記複数参照指示データを受信してロケータ文を生成する。その結果、ユーザは、複数行の存在を明示的に指定することができるので、必要な情報を誤りなく取得できる可能性がある。
(6) 前記所定のデータまたはその近傍にリンクが存在する場合に、当該リンクの先を参照するステップを更に含む(1)から(5)のいずれかに記載の方法。
このような構成によれば、当該サーバは、HTMLテキストに埋め込まれたリンクを辿り、別のWebページにある情報を、取得するデータの候補として関連付けることができる。
(7) 前記リンクの先にあるデータを、前記所定のデータと関連付けて記憶するステップを更に含む(6)に記載の方法。
このような構成によれば、当該サーバは、リンク先のデータを、リンク元のデータと関連付けて記憶するので、複数のWebページにわたるデータを纏めることができる。その結果、ユーザは、所望するデータを1度で効率的に参照できる可能性がある。
(8) Webページを閲覧可能な端末と通信回線を介して接続され、複数の前記Webページに分散するデータを共通のフォーマットに変換するサーバであって、
前記共通のフォーマットを示すXMLスキーマを記憶する手段と、
前記Webページに含まれる所定のデータの、ブラウザ上における位置を示す位置データを、前記端末から受信する手段と、
受信した前記位置データに基づいて、前記Webページを記述するHTMLテキスト内における、前記所定のデータの位置を表現するロケータ文を生成する手段と、
生成した前記ロケータ文に基づいて、前記HTMLテキスト内から前記所定のデータを抽出する手段と、
抽出した前記所定のデータに関連付けるタグ名を、前記XMLスキーマから選択する手段と、
前記タグ名を関連付けた所定のデータを、前記XMLスキーマに基づいて記憶する手段と、を備えるサーバ。
このような構成によれば、当該サーバを運用することにより、(1)と同様の効果が期待できる。
(9) 前記タグ名に関連付ける前記Webページにおける項目名を予め記憶しておく手段と、
前記HTMLテキスト内から前記項目名を検索し、当該項目名に対応する前記HTMLテキスト内のデータを前記所定のデータとして、前記ロケータ文を生成する手段と、を更に備える(8)に記載のサーバ。
このような構成によれば、当該サーバを運用することにより、(2)と同様の効果が期待できる。
(10) 前記タグ名の選択を示すデータを前記端末から受信する手段を更に備える(8)または(9)に記載のサーバ。
このような構成によれば、当該サーバを運用することにより、(3)と同様の効果が期待できる。
(11) 前記Webページにおいて前記所定のデータが表の中に含まれている場合に、同種の情報が複数行に連続して出現すると判別する手段と、
前記ロケータ文に、複数行を参照する旨を示すデータを含める手段と、を更に備える(8)から(10)のいずれかに記載のサーバ。
このような構成によれば、当該サーバを運用することにより、(4)と同様の効果が期待できる。
(12) 前記端末から、前記表の複数行を参照することを示す複数参照指示データを受信する手段を更に備え、
前記複数参照指示データを受信したことに応じて、前記ロケータ文に、複数行を参照する旨を示すデータを含めることを特徴とする(11)に記載のサーバ。
このような構成によれば、当該サーバを運用することにより、(5)と同様の効果が期待できる。
(13) 前記所定のデータまたはその近傍にリンクが存在する場合に、当該リンクの先を参照する手段を更に備える(8)から(12)のいずれかに記載のサーバ。
このような構成によれば、当該サーバを運用することにより、(6)と同様の効果が期待できる。
(14) 前記リンクの先にあるデータを、前記所定のデータと関連付けて記憶する手段を更に備える(13)に記載のサーバ。
このような構成によれば、当該サーバを運用することにより、(7)と同様の効果が期待できる。
(15) Webページを閲覧可能な端末と通信回線を介して接続されたサーバに、複数の前記Webページに分散するデータを共通のフォーマットに変換させるプログラムであって、
前記共通のフォーマットを示すXMLスキーマを記憶するステップと、
前記Webページに含まれる所定のデータの、ブラウザ上における位置を示す位置データを、前記端末から受信するステップと、
受信した前記位置データに基づいて、前記Webページを記述するHTMLテキスト内における、前記所定のデータの位置を表現するロケータ文を生成するステップと、
生成した前記ロケータ文に基づいて、前記HTMLテキスト内から前記所定のデータを抽出するステップと、
抽出した前記所定のデータに関連付けるタグ名を、前記XMLスキーマから選択するステップと、
前記タグ名を関連付けた所定のデータを、前記XMLスキーマに基づいて記憶するステップと、を実行させるプログラム。
このような構成によれば、当該プログラムを当該サーバ上で実行することにより、(1)と同様の効果が期待できる。
(16) 前記タグ名に関連付ける前記Webページにおける項目名を予め記憶しておくステップと、
前記HTMLテキスト内から前記項目名を検索し、当該項目名に対応する前記HTMLテキスト内のデータを前記所定のデータとして、前記ロケータ文を生成するステップと、を更に実行させる(15)に記載のプログラム。
このような構成によれば、当該プログラムを当該サーバ上で実行することにより、(2)と同様の効果が期待できる。
(17) 前記タグ名の選択を示すデータを前記端末から受信するステップを更に実行させる(15)または(16)に記載のプログラム。
このような構成によれば、当該プログラムを当該サーバ上で実行することにより、(3)と同様の効果が期待できる。
(18) 前記Webページにおいて前記所定のデータが表の中に含まれている場合に、同種の情報が複数行に連続して出現すると判別するステップと、
前記ロケータ文に、複数行を参照する旨を示すデータを含めるステップと、を更に実行させる(15)から(17)のいずれかに記載のプログラム。
このような構成によれば、当該プログラムを当該サーバ上で実行することにより、(4)と同様の効果が期待できる。
(19) 前記端末から、前記表の複数行を参照することを示す複数参照指示データを受信するステップを更に実行させ、
前記複数参照指示データを受信したことに応じて、前記ロケータ文に、複数行を参照する旨を示すデータを含めさせることを特徴とする(18)に記載のプログラム。
このような構成によれば、当該プログラムを当該サーバ上で実行することにより、(5)と同様の効果が期待できる。
(20) 前記所定のデータまたはその近傍にリンクが存在する場合に、当該リンクの先を参照するステップを更に実行させる(15)から(19)のいずれかに記載のプログラム。
このような構成によれば、当該プログラムを当該サーバ上で実行することにより、(6)と同様の効果が期待できる。
(21) 前記リンクの先にあるデータを、前記所定のデータと関連付けて記憶するステップを更に実行させる(20)に記載のプログラム。
このような構成によれば、当該プログラムを当該サーバ上で実行することにより、(7)と同様の効果が期待できる。
本発明によれば、構造の異なる複数のWebページを記述するHTML文書から、ユーザが所望するデータを抽出し、共通のフォーマットに統一する方法を提供することができる。
本発明に係る好適な実施形態の一例について、図面に基づいて以下に説明する。
[システム概要]
図1は、本発明の好適な実施形態の一例に係るシステムの概要を示す図である。
サーバ10、端末20、コンテンツサーバ30は通信ネットワークを介して接続されている。コンテンツサーバ30が管理するWebページは、端末20からの要求に応じて送信され、端末20のユーザが閲覧する。
端末20のユーザは、コンテンツサーバ30が管理する様々なWebページから、あるテーマに沿ったデータを収集するため、サーバ10にデータ収集リクエストを行う。サーバ10は、このリクエストに応じて、コンテンツサーバから対象データを収集し、共通フォーマットに整形した後、端末20にレポートとして提供する。処理の詳細については後述する。
[コンピュータの構成]
図2は、本発明の好適な実施形態の一例に係るシステムを構成する各コンピュータ(サーバ10、端末20、コンテンツサーバ30)の構成を示すブロック図である。
制御部110、記憶部120、入力部130、表示部140、通信制御部150は、バス160を介して接続されている。
制御部110は、情報の演算、処理を行う情報演算処理装置(CPU)であり、当該コンピュータ全体の制御を行う。制御部110は、記憶部120に記憶された各種プログラムを適宜読み出して実行することにより、上述のハードウエアと協働し、本発明に係る各種機能を実現している。
記憶部120は、制御部110と組み合わせてプログラムの実行に使用するローカルメモリ、大容量のバルクメモリ、および当該バルクメモリの検索を効率的に行うために使用するキャッシュメモリを含んでよい。記憶部120を実現するコンピュータ可読媒体としては、電気的、磁気的、光学的、電磁的に実現するものを含んでよい。より具体的には、半導体記憶装置、磁気テープ、磁気ディスク、ランダム・アクセス・メモリ(RAM)、リードオンリー・メモリ(ROM)、CD−ROMやDVD−ROM等を含む光ディスクが含まれる。
入力部130は、ユーザによる入力の受け付けを行うものであり、キーボード、ポインティング・デバイス等を含んでよい。入力部130は、直接または介在I/Oコントローラを介して当該コンピュータと接続することができる。
表示部140は、ユーザにデータの入力を受け付ける画面を表示したり、当該コンピュータによる演算処理結果の画面を表示したりするものであり、ブラウン管表示装置(CRT)、液晶表示装置(LCD)等のディスプレイ装置を含む。表示部140は、直接または介在I/Oコントローラを介して当該コンピュータと接続することができる。
通信制御部150は、当該コンピュータを専用ネットワークまたは公共ネットワークを介して別の演算処理システムまたは記憶装置と接続できるようにするためのネットワーク・アダプタである。通信制御部150は、モデム、ケーブル・モデムおよびイーサネット(登録商標)・アダプタを含んでよい。
[ロケータ情報登録処理]
図3は、本発明の好適な実施形態の一例に係るロケータ情報登録処理の流れを示す図である。ここで、ロケータ情報とは、Webページを記述するHTMLテキストの中で、所定のデータがある場所を特定する文(ロケータ文)や、この所定のデータに対応付けるXMLスキーマのタグ名等を指し、後述するデータ収集処理において、XMLデータを生成するための定義情報である。
ステップS11では、サーバ10は、共通フォーマットであるXMLスキーマを選択する。具体的には、例えば、端末20のユーザから、収集したい情報に合わせたフォーマットの選択入力を受け付けることとしてよい。
ステップS12では、サーバ10は、Webページ上でユーザが指定した位置データを端末20から受信する。具体的には、例えば、図5に示すWebページから、「プラン」、「料金」、「プラン内容」といった情報が表示されている箇所をユーザがポイントする。これにより、サーバ10は、ポイントされた位置に関するデータを受信する。
ステップS13では、サーバ10は、ステップS12にて受信した位置データに基づいて、ロケータ文を生成する。ロケータ文は、対象のWebページを記述しているHTMLテキスト内で、特定のデータの位置を指し示す。
ここで、図8はロケータ文の記述例を示す図である。例では、HTMLテキストの、<BODY>(41)以下の3番目の<TABLE>(42)内の2番目の<TR>(43)内の1番目の<TD>(44)内の2番目の<TABLE>(45)内の2番目の<TR>(46)内の1番目の<TD>(47)内の<A>(48)内のTEXT(49a、49b)を指し示している。
なお、ロケータ文の中で、<TR>(46)の部分には「n」が付与されているが、これは、<TR>(46)が複数出現することを示している。すなわち、<TR>(46)内に配置されるTEXT(49a、49b)も複数出現し、これら全体を指し示すことになる。
ステップS14では、サーバ10は、ステップS13にて生成したロケータ文に対応付けるXMLタグ名を付与する。付与できるタグ名は、ステップS11にて選択されたXMLスキーマに含まれるタグ名であって、ユーザからの選択入力を受け付けることにより、対応付けを記憶する。
図7に、端末20においてユーザからの入力を受け付ける画面表示例を示す。ユーザがWebページにおいて指定した位置に基づいて、URLおよび生成したロケータ文を表示している。続いて、XMLタグ名の指定をし、同様のデータが表形式で複数行に出現する場合にはその旨の指定をする。
更に、指定したデータにリンクが存在する場合には、そのリンク先を検索して情報を取得するための指定と、取得したデータをグルーピングして(関連付けて)登録するための指定ができる。
ステップS15では、サーバ10は、一連のロケータ情報登録処理を終了するか否かを判別する。サーバ10は、同一のXMLスキーマに基づいて、ユーザが位置指定および登録を継続する間において、ステップS12〜S14の処理を繰り返す。
以上の処理により、サーバ10は、例えば、図9に示すタグ関連付けテーブル等により、ロケータ情報を記憶する。タグ関連付けテーブルには、WebページのURLから、どのようなフォーマット(XMLスキーマ)によって、どのデータを取り出し(ロケータ文)、タグ付けするのかを記憶する。
[データ収集処理]
図4は、本発明の好適な実施形態の一例に係るデータ収集処理の流れを示す図である。サーバ10は、前述のロケータ情報登録処理(図3)により登録したロケータ情報に基づき、Webページからデータを収集する。
ステップS21では、サーバ10は、ロケータ情報登録処理(図3)により登録したロケータ情報を読み込む。具体的には、ユーザからの要求に応じて行うこととしてよく、ロケータ情報を識別するIDやユーザIDを予め対応付けておく(図示せず)ことで、取得するデータを指定することができる。
ステップS22では、サーバ10は、ステップS21にて読み込んだロケータ情報にしたがい、データを抽出する。具体的には、例えば、タグ関連付けテーブル(図9)のURLによって特定されるWebページのHTMLテキストから、ロケータ文によって特定されるデータを抽出する。
ここで、抽出対象となるWebページは、ロケータ情報を登録した時点からは変更されている可能性もある。しかし、一般的には、表内の項目変更や行の追加・削除等であることが多く、大幅なページレイアウト変更でなければ、位置および複数参照の是非が指定可能な前述のロケータ文により対応できるため、漏れなくデータを抽出することができる。
例えば、図5のWebページにおいて、プランや料金の変更があった場合、あるいはプラン数が増減した場合であっても、ロケータ情報が「プラン列および料金列を複数行読み込む」ことを示していれば、変更された情報を漏れなく取得することができる。
ステップS23では、サーバ10は、ステップS22にて抽出したデータから、XMLデータを生成する。具体的には、タグ関連付けテーブル(図9)に記憶したタグ名を付与し、XMLスキーマに基づいたXMLデータを生成する。
生成されるXMLデータの例を図11に示す。この例は、図5および図6に示すWebページから取得したデータを抜粋したものである。<ゴルフ場>、<プラン名>、<料金>、<内容>のメタデータを含んだ複数の<プラン>データで構成されている。
ここで、図5のプラン内容には、アイコンが表示されているが、alt属性等が設定されていれば、当該属性を読み込むことで、図11における「4人乗りカート」等のテキストデータを取得することができる。また、当該アイコンにリンクが設定されていれば、リンク先から同様のデータを取得できることが期待できる。
また、図6に示すWebページの例では、プラン名や料金等の項目が表の同一セルに入っているため、全体に対してタグを付与することができない。この場合には、特定の単語(例えば、ゴルフ場名、プラン名等)をキーワードにして後続のテキストを抽出することで対応することができる。あるいは、セル内での改行を読み取り、ロケータ文に行数を含めることにしてもよい。
図12に、収集したデータを整形して表示した例を示す。サーバ10は、図11のようなXMLデータとして記憶した後、ユーザからの要求に応じて、様々な形式でデータ出力することができる。例えば、Webページとして一覧表示することによれば、ユーザは、コンテンツサーバ30にて様々なフォーマットで記述される情報を、共通のフォーマットで比較参照することができる。
[自動設定処理]
ここまで、データを収集するWebページ上の位置をユーザが指定する手順を説明したが、形態はこれには限られず、サーバ10が自動的にデータ検索することもできる。例えば、図10に示す項目名辞書テーブルを予め記憶しておくことにより、URLの指定を受け付けたことに応じて、データ収集を開始できる。
項目名辞書テーブルには、業種(例えば、ゴルフ、ホテル等、情報の種類)毎に、項目名とタグ名を関連付けて記憶する。指定されたURL内で、項目名とのマッチング検索を行い、該当項目に対応するデータ(例えば、該当項目の次の<TR>行から複数行)に記憶しているタグ名を付与する。
これにより、サーバ10は、項目名辞書テーブルに登録された項目名に関して、自動的にタグ名を付与し、XMLデータとしてデータ取得することが可能となる。更には、ユーザからのURL指定がない場合であっても、サーバ10が、コンテンツサーバ30を巡回することにより、業種にマッチするサイトを検索し、自動的にデータ取得することとしてもよい。
また、Webページが変更され、登録されたロケータ文と、実際のWebページにおけるHTML等の構造(例えば、DOMツリー等で表現される階層構造)とが一致しなくなった場合、ロケータ文を自動的に再構築することも考えられる。例えば、登録されたロケータ文による参照先がなくなっている場合、同様の項目名やTABLE構造等を検索し、該当箇所に対応するロケータ文を生成することができる。これは、内容の変更がなく表示デザインの変更がなされた場合等に有効である。
なお、サーバ10は、ロケータ文の再構築ができない旨や、再構築がなされた旨をユーザに報知するための表示データを、端末20に送信することとしてもよい。
[その他の実施形態]
本実施形態では、ロケータ情報登録処理(図3)およびデータ収集処理(図4)の実行タイミングは連続している必要はなく、登録されたロケータ情報に基づいて、ユーザからの要求に応じたタイミングでデータ収集を行えるように構成している。
しかし、これらの処理は連続して行ってもよく、その場合には、所定のXMLスキーマに相当するデータベース内に、指定された抽出データを記憶することとしてよい(図示せず)。XMLデータを扱うことから、当該データベースはXMLデータベースであることが望ましいが、それには限られない。
本実施形態では、主に<TABLE>タグを用いたWebページを例にとって説明したが、構造化されたHTMLテキストを対象としているので、その他のタグ(例えば、<DIV>や<A>等)であっても、同様にロケータ文を生成することができる。
更には、HTMLを拡張したXHTML等でも同様であり、例えばXHTMLのように、デザイン構造が分離している場合であっても、<div>や<tbody>等の出現順または属性(classやid等)の指定により、対象データを特定することができる。したがって、これらをロケータ文に含めることにより、対象データを抽出することができる。
本実施形態では、通信ネットワークを介して接続されたコンテンツサーバ30にて管理されるWebページを対象としたが、サーバ10自身に蓄積あるいは入力された構造化文書データ(HTMLテキスト等)からデータ収集することもできる。このように、サーバ10からアクセス可能であれば、対象データの所在に関して制限はなく、様々な場所にて管理されているデータを共通フォーマットにて抽出することができる。
以上、本発明の実施形態について説明したが、本発明は上述した実施形態に限るものではない。また、本発明の実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、本発明の実施形態に記載されたものに限定されるものではない。
本発明の好適な実施形態の一例に係るシステムの概要を示す図である。 本発明の好適な実施形態の一例に係るシステムを構成する各コンピュータの構成を示すブロック図である。 本発明の好適な実施形態の一例に係るロケータ情報登録処理の流れを示す図である。 本発明の好適な実施形態の一例に係るデータ収集処理の流れを示す図である。 本発明の好適な実施形態の一例に係るWebページの例を示す図である。 本発明の好適な実施形態の一例に係るWebページの例を示す図である。 本発明の好適な実施形態の一例に係るユーザからの入力を受け付ける画面表示例を示す図である。 本発明の好適な実施形態の一例に係るロケータ文の記述例を示す図である。 本発明の好適な実施形態の一例に係るタグ関連付けテーブルを示す図である。 本発明の好適な実施形態の一例に係る項目名辞書テーブルを示す図である。 本発明の好適な実施形態の一例に係るXMLデータの例を示す図である。 本発明の好適な実施形態の一例に係る収集したデータを整形して表示した例を示す図である。
符号の説明
10 サーバ
20 端末
30 コンテンツサーバ
110 制御部
120 記憶部
130 入力部
140 表示部
150 通信制御部
160 バス

Claims (21)

  1. Webページを閲覧可能な端末と通信回線を介して接続されたサーバが、複数の前記Webページに分散するデータを共通のフォーマットに変換する方法であって、
    前記共通のフォーマットを示すXMLスキーマを記憶するステップと、
    前記Webページに含まれる所定のデータの、ブラウザ上における位置を示す位置データを、前記端末から受信するステップと、
    受信した前記位置データに基づいて、前記Webページを記述するHTMLテキスト内における、前記所定のデータの位置を表現するロケータ文を生成するステップと、
    生成した前記ロケータ文に基づいて、前記HTMLテキスト内から前記所定のデータを抽出するステップと、
    抽出した前記所定のデータに関連付けるタグ名を、前記XMLスキーマから選択するステップと、
    前記タグ名を関連付けた所定のデータを、前記XMLスキーマに基づいて記憶するステップと、を含む方法。
  2. 前記タグ名に関連付ける前記Webページにおける項目名を予め記憶しておくステップと、
    前記HTMLテキスト内から前記項目名を検索し、当該項目名に対応する前記HTMLテキスト内のデータを前記所定のデータとして、前記ロケータ文を生成するステップと、を更に含む請求項1に記載の方法。
  3. 前記タグ名の選択を示すデータを前記端末から受信するステップを更に含む請求項1または請求項2に記載の方法。
  4. 前記Webページにおいて前記所定のデータが表の中に含まれている場合に、同種の情報が複数行に連続して出現すると判別するステップと、
    前記ロケータ文に、複数行を参照する旨を示すデータを含めるステップと、を更に含む請求項1から請求項3のいずれかに記載の方法。
  5. 前記端末から、前記表の複数行を参照することを示す複数参照指示データを受信するステップを更に含み、
    前記複数参照指示データを受信したことに応じて、前記ロケータ文に、複数行を参照する旨を示すデータを含めることを特徴とする請求項4に記載の方法。
  6. 前記所定のデータまたはその近傍にリンクが存在する場合に、当該リンクの先を参照するステップを更に含む請求項1から請求項5のいずれかに記載の方法。
  7. 前記リンクの先にあるデータを、前記所定のデータと関連付けて記憶するステップを更に含む請求項6に記載の方法。
  8. Webページを閲覧可能な端末と通信回線を介して接続され、複数の前記Webページに分散するデータを共通のフォーマットに変換するサーバであって、
    前記共通のフォーマットを示すXMLスキーマを記憶する手段と、
    前記Webページに含まれる所定のデータの、ブラウザ上における位置を示す位置データを、前記端末から受信する手段と、
    受信した前記位置データに基づいて、前記Webページを記述するHTMLテキスト内における、前記所定のデータの位置を表現するロケータ文を生成する手段と、
    生成した前記ロケータ文に基づいて、前記HTMLテキスト内から前記所定のデータを抽出する手段と、
    抽出した前記所定のデータに関連付けるタグ名を、前記XMLスキーマから選択する手段と、
    前記タグ名を関連付けた所定のデータを、前記XMLスキーマに基づいて記憶する手段と、を備えるサーバ。
  9. 前記タグ名に関連付ける前記Webページにおける項目名を予め記憶しておく手段と、
    前記HTMLテキスト内から前記項目名を検索し、当該項目名に対応する前記HTMLテキスト内のデータを前記所定のデータとして、前記ロケータ文を生成する手段と、を更に備える請求項8に記載のサーバ。
  10. 前記タグ名の選択を示すデータを前記端末から受信する手段を更に備える請求項8または請求項9に記載のサーバ。
  11. 前記Webページにおいて前記所定のデータが表の中に含まれている場合に、同種の情報が複数行に連続して出現すると判別する手段と、
    前記ロケータ文に、複数行を参照する旨を示すデータを含める手段と、を更に備える請求項8から請求項10のいずれかに記載のサーバ。
  12. 前記端末から、前記表の複数行を参照することを示す複数参照指示データを受信する手段を更に備え、
    前記複数参照指示データを受信したことに応じて、前記ロケータ文に、複数行を参照する旨を示すデータを含めることを特徴とする請求項11に記載のサーバ。
  13. 前記所定のデータまたはその近傍にリンクが存在する場合に、当該リンクの先を参照する手段を更に備える請求項8から請求項12のいずれかに記載のサーバ。
  14. 前記リンクの先にあるデータを、前記所定のデータと関連付けて記憶する手段を更に備える請求項13に記載のサーバ。
  15. Webページを閲覧可能な端末と通信回線を介して接続されたサーバに、複数の前記Webページに分散するデータを共通のフォーマットに変換させるプログラムであって、
    前記共通のフォーマットを示すXMLスキーマを記憶するステップと、
    前記Webページに含まれる所定のデータの、ブラウザ上における位置を示す位置データを、前記端末から受信するステップと、
    受信した前記位置データに基づいて、前記Webページを記述するHTMLテキスト内における、前記所定のデータの位置を表現するロケータ文を生成するステップと、
    生成した前記ロケータ文に基づいて、前記HTMLテキスト内から前記所定のデータを抽出するステップと、
    抽出した前記所定のデータに関連付けるタグ名を、前記XMLスキーマから選択するステップと、
    前記タグ名を関連付けた所定のデータを、前記XMLスキーマに基づいて記憶するステップと、を実行させるプログラム。
  16. 前記タグ名に関連付ける前記Webページにおける項目名を予め記憶しておくステップと、
    前記HTMLテキスト内から前記項目名を検索し、当該項目名に対応する前記HTMLテキスト内のデータを前記所定のデータとして、前記ロケータ文を生成するステップと、を更に実行させる請求項15に記載のプログラム。
  17. 前記タグ名の選択を示すデータを前記端末から受信するステップを更に実行させる請求項15または請求項16に記載のプログラム。
  18. 前記Webページにおいて前記所定のデータが表の中に含まれている場合に、同種の情報が複数行に連続して出現すると判別するステップと、
    前記ロケータ文に、複数行を参照する旨を示すデータを含めるステップと、を更に実行させる請求項15から請求項17のいずれかに記載のプログラム。
  19. 前記端末から、前記表の複数行を参照することを示す複数参照指示データを受信するステップを更に実行させ、
    前記複数参照指示データを受信したことに応じて、前記ロケータ文に、複数行を参照する旨を示すデータを含めさせることを特徴とする請求項18に記載のプログラム。
  20. 前記所定のデータまたはその近傍にリンクが存在する場合に、当該リンクの先を参照するステップを更に実行させる請求項15から請求項19のいずれかに記載のプログラム。
  21. 前記リンクの先にあるデータを、前記所定のデータと関連付けて記憶するステップを更に実行させる請求項20に記載のプログラム。
JP2006285287A 2006-10-19 2006-10-19 データを共通のフォーマットに変換する方法 Pending JP2008102773A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006285287A JP2008102773A (ja) 2006-10-19 2006-10-19 データを共通のフォーマットに変換する方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006285287A JP2008102773A (ja) 2006-10-19 2006-10-19 データを共通のフォーマットに変換する方法

Publications (1)

Publication Number Publication Date
JP2008102773A true JP2008102773A (ja) 2008-05-01

Family

ID=39437054

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006285287A Pending JP2008102773A (ja) 2006-10-19 2006-10-19 データを共通のフォーマットに変換する方法

Country Status (1)

Country Link
JP (1) JP2008102773A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010165211A (ja) * 2009-01-16 2010-07-29 Ricoh Co Ltd 情報処理装置、情報検索装置、情報処理方法、情報処理プログラム及び記録媒体
JP2013065153A (ja) * 2011-09-16 2013-04-11 Fujitsu Marketing Ltd ドキュメントデータ提供装置およびそのプログラム
JP2015130159A (ja) * 2013-12-05 2015-07-16 司 窪田 電子帳票サーバ、電子帳票サーバの動作方法、電子帳票サーバの動作プログラム、電子帳票サーバの動作プログラムを記録した記録媒体
CN109492201A (zh) * 2018-11-08 2019-03-19 大连瀚闻资讯有限公司 应用于量值对比的文件格式转化方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010165211A (ja) * 2009-01-16 2010-07-29 Ricoh Co Ltd 情報処理装置、情報検索装置、情報処理方法、情報処理プログラム及び記録媒体
JP2013065153A (ja) * 2011-09-16 2013-04-11 Fujitsu Marketing Ltd ドキュメントデータ提供装置およびそのプログラム
JP2015130159A (ja) * 2013-12-05 2015-07-16 司 窪田 電子帳票サーバ、電子帳票サーバの動作方法、電子帳票サーバの動作プログラム、電子帳票サーバの動作プログラムを記録した記録媒体
CN109492201A (zh) * 2018-11-08 2019-03-19 大连瀚闻资讯有限公司 应用于量值对比的文件格式转化方法

Similar Documents

Publication Publication Date Title
KR101450358B1 (ko) 구조형 지리적 데이터 검색
US20060184546A1 (en) Document information management system
CN101809572A (zh) 在搜索结果页面上包括交互式元素的系统和方法
US20060277189A1 (en) Translation of search result display elements
JP2007226452A (ja) 構造化文書管理装置、構造化文書管理プログラムおよび構造化文書管理方法
US9170988B2 (en) Method for causing computer to display page view on display area by converting HTML page into new HTML pages, and non-transitory computer readable media recording program
US20110219017A1 (en) System and methods for citation database construction and for allowing quick understanding of scientific papers
JP5185402B2 (ja) 文書検索装置、文書検索方法、及び文書検索プログラム
JP2008102773A (ja) データを共通のフォーマットに変換する方法
CN110874254A (zh) 包括计算设备的系统、可读介质及生成帮助系统的方法
US8447748B2 (en) Processing digitally hosted volumes
JP5380874B2 (ja) 情報検索方法、プログラム及び装置
JP2008046879A (ja) ページ表示装置、ページ表示方法、およびコンピュータプログラム
JP2002169836A (ja) 情報の集約整理支援システム
JP2005115721A (ja) 画像検索方法、画像検索装置及び画像検索プログラム
JP2006059036A (ja) 画像検索装置および方法、そのプログラム及び記録媒体
JP2001022788A (ja) 情報検索装置および情報検索プログラムを記録した記録媒体
JP2011186692A (ja) 情報検索システムおよび情報検索方法
JP2005316590A (ja) 情報検索装置
US20040199501A1 (en) Information extracting apparatus
JP5652519B2 (ja) 情報検索方法、プログラム及び装置
JP4352840B2 (ja) プログラム、データ処理方法およびデータ処理システム
JP2007199987A (ja) 特許情報検索システム
JP5396869B2 (ja) 情報処理装置、情報検索装置、情報処理方法、情報処理プログラム及び記録媒体
JP2002073685A (ja) 検索結果提供方法・検索結果提供装置