JP2007122291A - 情報抽出方法 - Google Patents

情報抽出方法 Download PDF

Info

Publication number
JP2007122291A
JP2007122291A JP2005312049A JP2005312049A JP2007122291A JP 2007122291 A JP2007122291 A JP 2007122291A JP 2005312049 A JP2005312049 A JP 2005312049A JP 2005312049 A JP2005312049 A JP 2005312049A JP 2007122291 A JP2007122291 A JP 2007122291A
Authority
JP
Japan
Prior art keywords
data
tree structure
expression tree
web document
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2005312049A
Other languages
English (en)
Other versions
JP4932227B2 (ja
Inventor
Kenji Yoshida
健児 吉田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yahoo Japan Corp
Original Assignee
Yahoo Japan Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yahoo Japan Corp filed Critical Yahoo Japan Corp
Priority to JP2005312049A priority Critical patent/JP4932227B2/ja
Publication of JP2007122291A publication Critical patent/JP2007122291A/ja
Application granted granted Critical
Publication of JP4932227B2 publication Critical patent/JP4932227B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】インターネットユーザーが、目的の情報を含むWebドキュメントの中から、視覚に関わる構造を頼りに情報を効率よく抽出する方法を提供する。
【解決手段】サーバ制御部110は、サーバ記憶部150から読み出したWebドキュメントデータから、当該Webドキュメントのレイアウト等の見た目に関与するタグを抽出して、当該Webドキュメントデータの表現木構造を表す表現木構造データを生成する。さらに、サーバ制御部110は、生成した前記表現木構造データの各ノードに含まれる内容データを、当該内容を表すパターン文字列データに変換して、パターン文字列付き表現木構造データとして、前記Webドキュメントデータと関連付けてサーバ記憶部150に記憶する。
【選択図】図4

Description

本発明は、情報抽出方法に関するものであり、特に、視覚に係わる構造を頼りに情報を抽出する方法に関するものである。
従来、インターネットユーザーが、多くのサイトから特定のトピックについての特定のページを見つけたり、あるいは情報を見つけたりする方法として、ドキュメント間の相互関係を考慮に入れ、リンク全域で探すことによって、抽出する方法が知られている。
通常、このような情報抽出方法において使用される検索エンジンは、照会項目に直接的あるいは間接的に合致するドキュメントを返送するために階層を検索する。このような検索エンジンは、照会項目に基づいて個々の下位項目を編成し、ドキュメントに向けて下位項目を合致させ、全部の検索照会項目に間接的に合致し、かつ、少なくともひとつの照会する下位項目に直接的に合致するこれらのドキュメントのみを返送する方法で、抽出する。
一般に、このような情報抽出方法は、ドキュメントが階層に組織されているドキュメント保管庫にあるドキュメントに対して適用されている(特許文献1)。この方法によれば、検索は、階層でのデータ要素間の相互関係を考慮して遂行され得る。このような検索方法を前提として、階層的なデータの、効率のよい格納庫を提供する例も出てきている。
一方、ユーザ要求の中で指定された状況や嗜好と、利用履歴データベースに含まれるサービス利用の際の状況や嗜好とを適合させることで、状況や嗜好に応じた評価スコアを計算する情報抽出方法も提案されている(特許文献2)。この方法によれば、アクセス数やユーザ数によって単純にランキングを計算するのではなく、どんな状況(位置や時間、活動状況)や嗜好のユーザがそのサービスを利用したかの情報を用いて、サービスを推薦することができる。
特表2001−522097号公報 特開2005−174094号公報
しかしながら、ポータルサイトなどにおいて、広告欄、ニュース記事欄等、特定の情報を所定の位置にレイアウトしたWebドキュメントの様に、情報の配置が同一であって情報のみが異なる多くのWebドキュメントが存在する場合に、例えば、変化のある情報を検索するためには、上述のような検索方法よりも、さらに効率よく検索する方法が考えられる。
そこで、本発明の目的は、インターネットユーザーが、目的の情報を含むWebドキュメントの中から、視覚に関わる構造を頼りに情報を効率よく抽出する方法を提供することにある。
具体的には、以下のようなものを提供する。
(1) サーバが、Webドキュメントを表すWebドキュメントデータから、当該Webドキュメントの見た目に関与するタグデータを抽出して、表現木構造データを生成する表現木構造データ生成ステップと、
生成した前記表現木構造データの各ノードに含まれる内容データを、当該内容を表すパターン文字列データに変換し、パターン文字列付き表現木構造データとして、前記Webドキュメントデータと関連付けて記憶部に記憶するパターン文字列付き表現木構造データ記憶ステップと、
前記記憶部に記憶された複数のWebドキュメントデータの中から目的の情報を検索する際に、前記パターン文字列付き表現木構造データが表す表現木構造において、対応するノードのパターン文字列が同一か否かを判断して出力する判断ステップと、を含む情報抽出方法。
(1)の発明によれば、パターン文字列付き表現木構造データが表す表現木構造において、対応するノードに含まれる内容を表すパターン文字列が同一か否かを判断することによって、効率的に記憶部に記憶された情報を検索することができる。例えば、表現木構造が同じ複数のWebドキュメントデータの中から、基準となるWebドキュメントデータから変化のあるものを検索する場合、Webドキュメントデータそのものを比較することなく、当該Webドキュメントデータに関連付けられて記憶されたパターン文字列付き表現木構造データに含まれるパターン文字列を当該表現木構造のノード毎に比較することによって変化の有無を判断できる。
パターン文字列は、後述するように、対応するWebドキュメントデータの当該ノードの内容データと比較して、サイズが同等か又はより小さい。従って、内容データの比較に比べて、パターン文字列の比較は、比較演算処理に要するシステム資産も少なくて済むという効果がある。
(2) (1)に記載の情報抽出方法であって、
検索対象の表現木構造を表す表現木構造データの指定を受け付ける表現木構造データ指定受付ステップを更に含む情報抽出方法。
(2)の発明によれば、検索対象となる表現木構造データの指定を受け付けることによって、指定を受け付けた表現木構造を持つパターン文字列付き表現木構造データのみを検索対象とすることができる。このことにより、ユーザの指定した表現木構造を持つパターン文字列付き表現木構造データのみを絞り込んでより効率的に検索を行うことができる。
(3) (1)または(2)に記載の情報抽出方法であって、
検索対象のパターン文字列付き表現木構造データの更新比較期間を表す更新比較期間データを受け付ける更新比較期間データ受付ステップを更に含む情報抽出方法。
(3)の発明によれば、受け付けた更新比較期間内に記憶されたパターン文字列付き表現木構造データのみを検索対象とすることができる。このことにより、ユーザの指定した更新比較期間内に記憶されたパターン文字列付き表現木構造データのみを絞り込んでより効率的に検索を行うことができる。
(4) (1)から(3)のいずれかに記載の情報抽出方法であって、
検索対象のキーワードを表すキーワードデータを受け付けるキーワードデータ受付ステップを更に含む情報抽出方法。
(4)の発明によれば、受け付けたキーワードを含むWebドキュメントのみを検索対象とすることができる。このことにより、ユーザの指定したキーワードを含むWebドキュメントのみを絞り込んでより的確に検索を行うことができる。
(5) (1)から(4)のいずれかに記載の情報抽出方法であって、
前記表現木構造データが表す表現木構造において、検索対象のノードの指定を表す検索対象指定ノードデータを受け付ける検索対象指定ノードデータ受付ステップを更に含む情報抽出方法。
(5)の発明によれば、受け付けた検索対象指定ノードに含まれるパターン文字列のみを検索対象とすることができる。このことにより、ユーザの指定した検索対象指定ノードのみを絞り込んでより効率的に検索を行うことができる。
(6) サーバが、Webドキュメントを表すWebドキュメントデータから、当該Webドキュメントの見た目に関与するタグデータを抽出して、表現木構造データを生成する表現木構造データ生成ステップと、
生成した前記表現木構造データを、前記Webドキュメントデータと関連付けて記憶部に記憶する表現木構造データ記憶ステップと、
前記記憶部に記憶された複数のWebドキュメントデータの中から目的の情報を検索する際に、前記表現木構造データが表す表現木構造において、検索対象のノードの指定を表す検索対象指定ノードデータを含む検索条件データを受け付ける検索条件データ受付ステップと、
受け付けた前記検索条件データに含まれる検索対象指定ノードデータに基づいて目的の情報を検索する検索ステップと、を含む情報抽出方法。
(6)の発明によれば、表現木構造データが現す表現木構造において、検索対象指定ノードに含まれるデータのみを検索対象データとすることによって、効率的に記憶部に記憶された情報を検索することができる。まず、検索対象指定ノードに一致するノードを含まない表現木構造を持つWebドキュメントデータを検索対象からはずすことができる。さらに、検索対象指定ノードに一致するノード含む表現木構造を持つWebドキュメントについても、検索対象指定ノード以外のノードに含まれるデータを検索対象からはずすことができる。このことにより、システム負荷の軽い情報演算処理により効率的に検索を実行することができる。
(7) (6)に記載の情報抽出方法であって、
前記検索条件データ受付ステップにおいて、検索対象の表現木構造データの更新比較期間を表す更新比較期間データを更に受け付ける情報抽出方法。
(7)の発明によれば、受け付けた更新比較期間内に記憶された表現木構造データのみを検索対象とすることができる。このことにより、ユーザの指定した更新比較期間内に記憶されたパターン文字列付き表現木構造データのみを絞り込んでより効率的に検索を行うことができる。
(8) (6)または(7)に記載の情報抽出方法であって、
前記検索条件データ受付ステップにおいて、検索対象のキーワードを表すキーワードデータを更に受け付ける情報抽出方法。
(8)の発明によれば、受け付けたキーワードを含むWebドキュメントのみを検索対象とすることができる。このことにより、ユーザの指定したキーワードを含むWebドキュメントのみを絞り込んでより的確に検索を行うことができる。
本発明によれば、インターネットユーザーが、目的の情報を含むWebドキュメントの中から、視覚に関わる構造を頼りに当該情報を効率よく抽出する方法を提供することができる。このことにより、広告欄、ニュース記事欄等、特定の情報を所定の位置にレイアウトしたWebドキュメントの様に、レイアウト等の見た目の情報の配置が同一であって情報の内容のみが異なる多くのWebドキュメントが存在する場合に、例えば、変化のある情報(例えば広告情報やニュース記事情報)を効率よく検索することができる。
本発明に係る好適な実施形態の一例について、図面に基づいて以下に説明する。
[システムの全体構成]
図1は、本発明の好適な実施形態の一例に係るコンピュータ演算処理方法を実施するコンピュータシステム1の全体構成を表すブロック図である。サーバ10と端末20a、20b等の1または複数の端末で構成する端末群20は通信ネットワーク30を介して接続されている。
[サーバの構成]
図2は、本発明の好適な実施形態の一例に係る情報抽出方法を実現するサーバ10の構成を示すブロック図である。サーバ制御部110、サーバ表示部120、サーバ入力部130、サーバ通信制御部140、サーバ記憶部150は、サーババス160を介して接続されている。
サーバ制御部110は、情報の演算、処理を行う情報演算処理装置であり、CPU(Central Processing Unit)であってよい。また、サーバ制御部110はサーバ10全体の制御を行い、サーバ記憶部150に記憶された各種プログラムを適宜読み出して実行することにより、上述のハードウエアが協働し、本発明に係る各種機能を実現している。
ここで、サーバ表示部120は、ユーザにデータの入力を受け付ける画面を表示したり、サーバ10による演算処理結果の画面を表示したりするものであり、ブラウン管表示装置(CRT)、液晶表示装置(LCD)等のディスプレイ装置を含む。
ここで、サーバ入力部130は、ユーザによる入力の受付を行うものであり、キーボード、ポインティングデバイス等を含んでよい。サーバ入力部130は、直接または介在1/0コントローラを介してサーバ10と接続することができる。
ここで、サーバ通信制御部140は、サーバ10を専用ネットワークまたは公共ネットワークを介して端末と接続できるようにするためのネットワーク・アダプタである。サーバ通信制御部140は、モデム、ケーブル・モデムおよびイーサネット(登録商標)・アダプタを含んでよい。
ここで、サーバ記憶部150は、サーバ制御部110と組み合わせてプログラムの実行に使用するローカルメモリ、大容量のバルクメモリ、および当該バルクメモリの検索を効率的に行うために使用するキャッシュメモリを含んでよい。サーバ記憶部150を実現するコンピュータ可読媒体としては、電気的、磁気的、光学的、電磁的に実現するものを含んでよい。より具体的には、半導体記憶装置、磁気テープ、フレキシブルディスク、ランダム・アクセス・メモリ(RAM)、リードオンリー・メモリ(ROM)、CD−ROMとCD−R/WとDVDとを含む光ディスクが含まれる。
[端末の構成]
図3は、本発明に係る端末20a、20bの構成を示すブロック図である。端末制御部210、端末表示部220、端末入力部230、端末通信制御部240、端末記憶部250は、端末バス260を介して接続されている。
また、端末制御部210は上述のサーバ制御部110と同様の構成を持ち、端末全体の制御を行い、端末記憶部250に記憶された各種プログラムを適宜読み出して実行することにより、上述のハードウエアが協働し、本発明に係る各種機能を実現している。
ここで、端末表示部220、端末入力部230、端末通信制御部240、端末記憶部250は、それぞれ上述のサーバ表示部120、サーバ入力部130、サーバ通信制御部140、サーバ記憶部150と同様の構成を持つ。
[パターン文字列付き表現木構造データ生成処理]
図4は、本発明の好適な実施形態の一例に係るサーバによるパターン文字列付き表現木構造データの生成処理を示すフローチャートである。
まず、サーバ制御部110は、対象となるWebドキュメントを表すWebドキュメントデータがサーバ記憶部150に記憶されるのを待機する(ステップS101)。例えば、Webサーバの管理者が、新たに作成したWebドキュメントを登録したり既存のWebページを更新したりするのをサーバが監視し、新たな登録や編集が行われるのを待機する。
当該Webドキュメントデータがサーバ記憶部150に記憶された場合に、サーバ制御部110は、記憶されたWebドキュメントデータをサーバ記憶部150から読み出す(ステップS102)。
次に、サーバ制御部110は、読み出した当該Webドキュメントデータから、当該Webドキュメントのレイアウト等の見た目に関与するタグを抽出して、当該Webドキュメントデータの表現木構造を表す表現木構造データを生成する(ステップS103)。
図5は、上述のWebドキュメントの一例を示す図である。また、図6は当該Webドキュメントの表現木構造データの一例を示す図である。表現木構造データは、対象のWebドキュメントのレイアウト等の見た目に関与するタグデータを含んで構成されている。具体的には、「html」、「head」、「body」、「table」、「tr」、「td」などのタグを含む。このような表現木構造データは、リンク情報を表すリンクタグや文字修飾情報を表す文字修飾タグなどの情報を除外して、当該Webドキュメントのレイアウト等の見た目に関する情報を最小限のデータサイズで保持する。
ここで、記憶するデータについては、当該データ自身が必ずしもツリー構造のデータである必要はない。例えば、htmlプロトコルにおける開始タグ(<html>、<table>など)と終了タグ(</html>、</table>など)のペアでツリー構造を表現することとし、このような開始タグと終了タグを含むテキストファイルとして記憶してもよい。このような場合に図6のようなツリー構造を画面に表示したい場合には、適当なソフトウエアによって開始タグ、終了タグを解釈してツリー構造を表現することができる。
次に、サーバ制御部110は、生成した前記表現木構造データの各ノードに含まれる内容データを、当該内容を表すパターン文字列データに変換して、パターン文字列付き表現木構造データとして、当該Webドキュメントデータと関連付けてサーバ記憶部150に記憶する(ステップS104)。
図7及び図8は、上述のパターン文字列付き表現木構造データの一例を示す図である。パターン文字列付き表現木構造データは、図5の表現木構造データと異なり、各ノードについて、含まれる文字列や文字列を表す「W」、「D」等のパターン文字列を含んでいる。
例えば、空白文字を「S」、数字を「D」、区切り文字を「C」、記号は記号そのもの、それ以外の文字を「W」の5種類のパターン文字列を指定する。その結果、「今日は晴れだった。」という文章は「WC」として表現される。また、「2005/7/13」という文章は「D/D/D」として表現される。
図9は、パターン文字列付き表現木構造データとWebドキュメントデータとの関係を示すパターン文字列付き表現木構造データテーブルを示す図である。サーバ制御部110は、Webドキュメントに基づくパターン文字列付き表現木構造データを、当該パターン文字列付き表現木構造データテーブルの「パターン文字列付き表現木構造データ」欄に記憶する。
サーバ制御部110は、サーバ入力部130を介してユーザから、終了指示を受け付けるまで、以上説明した一連の処理を繰り返し行う(ステップS105)。このことにより、新たなWebドキュメントが登録あるいは既存のWebページが編集されるたびに、一連の処理が繰り返し行われ、対応するパターン文字列付き表現木構造データが自動的に生成されることになる。
[パターン文字列付き表現木構造データを用いたWebドキュメント検索処理]
図10は、本発明の好適な実施形態の一例に係るパターン文字列付き表現木構造データに基づく検索処理を表すフローチャートである。
まず、サーバ制御部110は、サーバ通信制御部140を介して、端末20a、20bから送信される検索対象のパターン文字列付き表現木構造データ(必須)、更新比較期間データ(必須)、検索対象欄データ(オプション)、検索キーワードデータ(オプション)、で構成される検索条件データを受信し、記憶部150に記憶する(ステップS201)。
図11は、本発明の好適な実施形態の一例に係るパターン文字列付き表現木構造データに基づく検索処理における検索条件入力画面の一例を示す図である。図示するように、端末制御部210は、通信ネットワーク30を介してサーバ10から受信したデータに基づいて、端末表示部220に検索条件入力画面を表示する。
当該検索条件入力画面において、検索対象のパターン文字列付き表現木構造データや更新比較期間データの受け付けは、端末入力部230を構成するキーボードによる入力やマウスのクリック等を受け付けることにより行う。本実施例においては、検索対象構造データとしては、「ニュースページ」のパターン文字列付き表現木構造データが指定されており、更新比較期間としては、「30分」が指定されている。
また、検索キーワードの受け付けは、同様にキーボードによる入力を受け付けるなどによって行う。本実施例においては、「台風」が指定されている。
また、検索対象欄の指定の受け付けは、検索画面の中で各欄をマウスでクリックすることなどによって行う。一回の検索において複数の欄を検索対象欄として指定してもよい。本実施例においては、検索対象欄として「記事本文」欄が指定されている。
この後、端末制御部210は、検索ボタンの押下を受け付けて当該検索条件データをサーバ10に送信する。
次に、サーバ制御部110は、受信した当該検索条件データに基づいて、サーバ記憶部150に記憶されたパターン文字列付き表現木構造データテーブルを検索する(ステップS202)。例えば、検索対象木構造データと更新比較期間データを検索条件データとして受信した場合には、サーバ制御部110は、まずパターン文字列付き表現木構造データテーブルのパターン文字列付き表現木構造データ欄を参照し、指定された表現木構造データとレイアウト等の見た目が一致しないレコードは読み飛ばす。そして、指定された表現木構造データとレイアウト等の見た目が一致するレコードのみについて、受け付けた当該更新対象期間データに基づいて基準となるタイムスタンプを持つパターン文字列付き表現木構造データと、それ以降のタイムスタンプを持つパターン文字列付表現木構造データの各ノードについて、当該各ノードに含まれるパターン文字列を比較する。
例えば、図7及び図8の例では、<html><body><table(2つ目)><tr><td(2つ目)>のパターン文字列が「WCW」から「W」に変化している。サーバ制御部110は、このような変化を認識することにより、対応する“Webドキュメントが変化した”と捉えることができる。
また、更に検索対象欄データを検索条件データとして受信した場合には、サーバ制御部110は、上述のパターン文字列の比較の際に、検索対象欄データで指定されたノード以外のパターン文字列の比較は行わない。
また、更に検索キーワードデータを検索条件データとして受信した場合には、サーバ制御部110は、上述のパターン文字列の比較の後、さらにパターン文字列が一致しないレコードのみについてWebドキュメントデータを読み出して、当該検索キーワードをキーとして、指定されたノードに含まれる内容データを検索する。
本実施例においては、「ニュースページ」のパターン文字列付き表現木構造データと同じ表現木構造データを持ち、「30分」前のパターン文字列付き表現木構造データを基準としてパターン文字列が変化しているものであって、「記事本文」欄に「台風」が含まれるものを検索することになる。
このようにすることによって、すべてのWebドキュメントデータ自身を読み込んで検索するのに比べて、本発明に係る方法による検索は、各ノードのパターン文字列の比較を行うことができるので、検索に要するシステム負荷を下げることができる。
次に、サーバ制御部110は、当該検索の結果に基づいて結果リスト等の結果データを生成し、サーバ通信制御部140を介して検索データを送信した端末に送信する(ステップS203)。当該結果データには、当該検索にヒットしたレコードのWebドキュメントデータの所在を示すURLが含まれてよい。
次に、端末制御部210は、送信された当該結果データを、端末通信制御部240を介して受信し、端末表示部220に表示する(ステップS204)。
図12は、本発明の好適な実施形態の一例に係るパターン文字列付き表現木構造データに基づく検索処理における検索結果画面の一例を示す図である。
上述のような本発明の方法を用いることにより、様々な検索を行うことができる。例えば、「ニュース記事欄」を含むポータルサイトのWebドキュメントを、更新比較期間を指定して検索を行うことによって、指定された期間に更新されたニュース記事のみを検索結果リストとして得ることができる。
或いは、「広告掲載欄」を指定して更新比較期間を指定せずに検索を行うことによって、「広告掲載欄」に変化があっても検索にヒットしないような指定を行うことができる。
このように、本発明の方法を用いれば、ポータルサイトのニュース記事ページなど同一のレイアウトを持つ大量のWebドキュメントの検索において効率的に目的のWebドキュメントを検索することができる。
[表現木構造データ生成処理]
図13は、本発明の好適な実施形態の別の一例に係るサーバによる表現木構造データの生成処理を示すフローチャートである。
まず、サーバ制御部110は、対象となるWebドキュメントを表すWebドキュメントデータがサーバ記憶部150に記憶されるのを待機する(ステップS301)。例えば、Webサーバの管理者が、新たに作成したWebドキュメントを登録したり既存のWebページを更新したりするのをサーバが監視し、新たな登録や編集が行われるのを待機する。
当該Webドキュメントデータがサーバ記憶部150に記憶された場合に、サーバ制御部110は、記憶されたWebドキュメントデータをサーバ記憶部150から読み出す(ステップS302)。
次に、サーバ制御部110は、読み出した当該Webドキュメントデータから、当該Webドキュメントのレイアウト等の見た目に関与するタグを抽出して、当該Webドキュメントデータの表現木構造を表す表現木構造データを生成する(ステップS303)。
次に、サーバ制御部110は、生成した当該表現木構造データを、当該Webドキュメントデータと関連付けてサーバ記憶部150に記憶する(ステップS304)。
図14は、本発明の好適な実施形態の別の一例に係る表現木構造データとWebドキュメントデータとの関係を示す表現木構造データテーブルを示す図である。サーバ制御部110は、Webドキュメントに基づく表現木構造データを、当該表現木構造データテーブルの「表現木構造データ」欄に記憶する。
サーバ制御部110は、サーバ入力部130を介してユーザから、終了指示を受け付けるまで、以上説明した一連の処理を繰り返し行う(ステップS305)。このことにより、新たなWebドキュメントが登録あるいは既存のWebページが編集されるたびに、一連の処理が繰り返し行われ、対応する表現木構造データが自動的に生成されることになる。
次に本発明の好適な実施形態の別の一例について説明する。この実施例においては、システム構成等のハードウエア構成は上述の実施例1と同様である。
[表現木構造データを用いたWebドキュメント検索処理]
図15は、本発明の好適な実施形態の別の一例に係る表現木構造データに基づく検索処理を表すフローチャートである。
まず、サーバ制御部110は、サーバ通信制御部140を介して、端末20a、20bから送信される検索対象欄データ(必須)、検索キーワードデータ(オプション)、更新比較期間データ(オプション)で構成される検索条件データを受信し、サーバ記憶部150に記憶する(ステップS401)。
図16は、本発明の好適な実施形態の一例に係る表現木構造データに基づく検索処理における検索条件入力画面の一例を示す図である。図示するように、端末制御部210は、通信ネットワーク30を介してサーバ10から受信したデータに基づいて、端末表示部220に検索条件入力画面を表示する。
当該検索条件入力画面において、ユーザによるマウスのクリック等を受け付けることにより、端末制御部210は、検索対象欄を特定し、枠で囲むなどの表示を行う。本実施例においては、検索対象欄として「記事本文」欄が指定されている。
この後、検索ボタンの押下を受け付けてもよいし、検索キーワードの受け付けを行うかあるいは更新比較期間の受け付けを行った後、検索ボタンの押下を受け付けてもよい。本実施例においては、検索キーワードとして「台風」を指定し、更新比較期間として「30分」が指定されている。
次に、サーバ制御部110は、受信した当該検索条件データに基づいて、サーバ記憶部150に記憶された表現木構造データテーブルを検索する(ステップS402)。例えば、検索対象欄データと、検索キーワードデータを検索条件データとして受信した場合には、サーバ制御部110は、まず表現木構造データテーブルの表現木構造データ欄を参照し、検索対象欄データが含まれる表現木構造データとレイアウト等の見た目が一致しないレコードは読み飛ばす。そして、検索対象欄データが含まれる表現木構造データとレイアウト等の見た目が一致するレコードのみについて、受け付けた当該検索キーワードデータをキーとして当該欄(ノード)の内容データを検索する。
本実施例においては、「ニュースページ」のパターン文字列付き表現木構造データと同じ表現木構造データを持ち、「30分」前のパターン文字列付き表現木構造データを基準としてパターン文字列が変化しているものであって、「記事本文」欄に「台風」が含まれるものを検索することになる。
このようにすることによって、すべてのWebドキュメントを対象に検索キーワードをキーとして全文検索するのに比べて、本発明に係る方法による検索は、レイアウト等の見た目が一致しないレコードについては、内容の検索を行わずに済むため、検索に要するシステム負荷を下げることができる。さらに、レイアウト等の見た目が一致するレコードについても、検索対象欄以外の内容の検索は行わずに済むため、更に検索に要するシステム負荷を下げることができる。
次に、サーバ制御部110は、当該検索の結果に基づいて結果リスト等の結果データを生成し、サーバ通信制御部140を介して検索データを送信した端末に送信する(ステップS403)。当該結果データには、当該検索にヒットしたレコードのWebドキュメントデータの所在を示すURLが含まれてよい。
次に、端末制御部210は、送信された当該結果データを、端末通信制御部240を介して受信し、端末表示部220に表示する(ステップS404)。ここで表示される画面は図12と同様である。図示するように、端末制御部210は、検索対象欄として指定された欄のデータのみの検索を行う。
上述のような本発明の方法を用いることにより、様々な検索を行うことができる。例えば、「ニュース記事欄」を指定して更新比較期間を指定した検索を行うことによって、指定された期間に更新されたニュース記事のみを検索結果リストとして得ることができる。
或いは、「広告掲載欄」を指定して更新比較期間を指定せずに検索を行うことによって、「広告掲載欄」に変化があっても検索にヒットしないような指定を行うことができる。
このように、本発明の方法を用いれば、ポータルサイトのニュース記事ページなど同一のレイアウトを持つ大量のWebドキュメントの検索において効率的に目的のWebドキュメントを検索することができる。
以上、本発明の実施形態について説明したが、本発明は上述した実施形態に限るものではない。また、本発明の実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、本発明の実施例に記載されたものに限定されるものではない。
本発明の好適な実施形態の一例に係る情報抽出方法を実現するコンピュータシステムの全体構成を示すブロック図である。 本発明の好適な実施形態の一例に係る情報抽出方法を実現するコンピュータシステムのサーバの構成を示すブロック図である。 本発明の好適な実施形態の一例に係る情報抽出方法を実現するコンピュータシステムの端末の構成を示すブロック図である。 本発明の好適な実施形態の一例に係るサーバによる表現木構造データの生成処理を示すフローチャートである。 本発明の好適な実施形態の一例に係るWebドキュメントを示す図である。 本発明の好適な実施形態の一例に係るWebドキュメントの表現木構造データを示す図である。 本発明の好適な実施形態の一例に係るWebドキュメントのパターン文字列付き表現木構造データを示す図である。 本発明の好適な実施形態の一例に係る別のWebドキュメントのパターン文字列付き表現木構造データを示す図である。 本発明の好適な実施形態の一例に係るパターン文字列付き表現木構造データとWebドキュメントデータとの関係を示すパターン文字列付き表現木構造データテーブルを示す図である。 本発明の好適な実施形態の一例に係るパターン文字列付き表現木構造データに基づく検索処理を表すフローチャートである。 本発明の好適な実施形態の一例に係るパターン文字列付き表現木構造データに基づく検索処理における検索条件入力画面の一例を示す図である。 本発明の好適な実施形態の一例に係るパターン文字列付き表現木構造データに基づく検索処理における検索結果画面の一例を示す図である。 本発明の好適な実施形態の別の一例に係るサーバによる表現木構造データの生成処理を示すフローチャートである。 本発明の好適な実施形態の別の一例に係る表現木構造データとWebドキュメントデータとの関係を示す表現木構造データテーブルを示す図である。 本発明の好適な実施形態の別の一例に係る表現木構造データに基づく検索処理を表すフローチャートである。 本発明の好適な実施形態の別の一例に係る表現木構造データに基づく検索処理における検索条件入力画面の一例を示す図である。
符号の説明
1 コンピュータシステム
10 サーバ
20a、20b 端末
20 端末群
30 通信ネットワーク
110 サーバ制御部
120 サーバ表示部
130 サーバ入力部
140 サーバ通信制御部
150 サーバ記憶部
160 サーババス
210 端末制御部
220 端末表示部
230 端末入力部
240 端末通信制御部
250 端末記憶部
260 端末バス

Claims (8)

  1. サーバが、Webドキュメントを表すWebドキュメントデータから、当該Webドキュメントの見た目に関与するタグデータを抽出して、表現木構造データを生成する表現木構造データ生成ステップと、
    生成した前記表現木構造データの各ノードに含まれる内容データを、当該内容を表すパターン文字列データに変換し、パターン文字列付き表現木構造データとして、前記Webドキュメントデータと関連付けて記憶部に記憶するパターン文字列付き表現木構造データ記憶ステップと、
    前記記憶部に記憶された複数のWebドキュメントデータの中から目的の情報を検索する際に、前記パターン文字列付き表現木構造データが表す表現木構造において、対応するノードのパターン文字列が同一か否かを判断して出力する判断ステップと、を含む情報抽出方法。
  2. 請求項1に記載の情報抽出方法であって、
    検索対象の表現木構造を表す表現木構造データの指定を受け付ける表現木構造データ指定受付ステップを更に含む情報抽出方法。
  3. 請求項1または請求項2に記載の情報抽出方法であって、
    検索対象のパターン文字列付き表現木構造データの更新比較期間を表す更新比較期間データを受け付ける更新比較期間データ受付ステップを更に含む情報抽出方法。
  4. 請求項1から請求項3のいずれかに記載の情報抽出方法であって、
    検索対象のキーワードを表すキーワードデータを受け付けるキーワードデータ受付ステップを更に含む情報抽出方法。
  5. 請求項1から請求項4のいずれかに記載の情報抽出方法であって、
    前記表現木構造データが表す表現木構造において、検索対象のノードの指定を表す検索対象指定ノードデータを受け付ける検索対象指定ノードデータ受付ステップを更に含む情報抽出方法。
  6. サーバが、Webドキュメントを表すWebドキュメントデータから、当該Webドキュメントの見た目に関与するタグデータを抽出して、表現木構造データを生成する表現木構造データ生成ステップと、
    生成した前記表現木構造データを、前記Webドキュメントデータと関連付けて記憶部に記憶する表現木構造データ記憶ステップと、
    前記記憶部に記憶された複数のWebドキュメントデータの中から目的の情報を検索する際に、前記表現木構造データが表す表現木構造において、検索対象のノードの指定を表す検索対象指定ノードデータを含む検索条件データを受け付ける検索条件データ受付ステップと、
    受け付けた前記検索条件データに含まれる検索対象指定ノードデータに基づいて目的の情報を検索する検索ステップと、を含む情報抽出方法。
  7. 請求項6に記載の情報抽出方法であって、
    前記検索条件データ受付ステップにおいて、検索対象の表現木構造データの更新比較期間を表す更新比較期間データを更に受け付ける情報抽出方法。
  8. 請求項6または請求項7に記載の情報抽出方法であって、
    前記検索条件データ受付ステップにおいて、検索対象のキーワードを表すキーワードデータを更に受け付ける情報抽出方法。
JP2005312049A 2005-10-26 2005-10-26 情報抽出方法 Expired - Fee Related JP4932227B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005312049A JP4932227B2 (ja) 2005-10-26 2005-10-26 情報抽出方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005312049A JP4932227B2 (ja) 2005-10-26 2005-10-26 情報抽出方法

Publications (2)

Publication Number Publication Date
JP2007122291A true JP2007122291A (ja) 2007-05-17
JP4932227B2 JP4932227B2 (ja) 2012-05-16

Family

ID=38146091

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005312049A Expired - Fee Related JP4932227B2 (ja) 2005-10-26 2005-10-26 情報抽出方法

Country Status (1)

Country Link
JP (1) JP4932227B2 (ja)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08329079A (ja) * 1995-06-05 1996-12-13 Hitachi Ltd 構造化文書差分抽出方法および装置
JPH09245052A (ja) * 1996-03-05 1997-09-19 Mitsubishi Electric Corp 構造化文書処理装置
JP2000010988A (ja) * 1998-06-19 2000-01-14 Nec Corp 構造化文書検索システム、構造化文書検索方法および構造化文書検索用プログラムを記録した記録媒体
JP2000057143A (ja) * 1998-08-10 2000-02-25 Seiko Epson Corp 文章構造解析方法及び文章構造解析装置並びに文章構造解析処理プログラムを記録した記録媒体
JP2002245068A (ja) * 2001-02-09 2002-08-30 Internatl Business Mach Corp <Ibm> 情報処理方法、情報処理システム、プログラムおよび記録媒体

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08329079A (ja) * 1995-06-05 1996-12-13 Hitachi Ltd 構造化文書差分抽出方法および装置
JPH09245052A (ja) * 1996-03-05 1997-09-19 Mitsubishi Electric Corp 構造化文書処理装置
JP2000010988A (ja) * 1998-06-19 2000-01-14 Nec Corp 構造化文書検索システム、構造化文書検索方法および構造化文書検索用プログラムを記録した記録媒体
JP2000057143A (ja) * 1998-08-10 2000-02-25 Seiko Epson Corp 文章構造解析方法及び文章構造解析装置並びに文章構造解析処理プログラムを記録した記録媒体
JP2002245068A (ja) * 2001-02-09 2002-08-30 Internatl Business Mach Corp <Ibm> 情報処理方法、情報処理システム、プログラムおよび記録媒体

Also Published As

Publication number Publication date
JP4932227B2 (ja) 2012-05-16

Similar Documents

Publication Publication Date Title
JP3842573B2 (ja) 構造化文書検索方法、構造化文書管理装置及びプログラム
KR101793222B1 (ko) 어플리케이션 검색들을 가능하게 하기 위해 사용되는 검색 인덱스의 업데이트
US9367588B2 (en) Method and system for assessing relevant properties of work contexts for use by information services
US7055094B2 (en) Virtual tags and the process of virtual tagging utilizing user feedback in transformation rules
US7895595B2 (en) Automatic method and system for formulating and transforming representations of context used by information services
JP3703080B2 (ja) ウェブコンテンツを簡略化するための方法、システムおよび媒体
US20100228738A1 (en) Adaptive document sampling for information extraction
KR20000011423A (ko) 디스플레이스크린및윈도우크기와관련된웹페이지적응시스템
JP2009080624A (ja) 情報表示装置、方法及びプログラム
CN102073725A (zh) 结构化数据的搜索方法和实现该搜索方法的搜索引擎系统
JP2011100403A (ja) 情報処理装置、情報抽出方法、プログラム及び情報処理システム
KR100290731B1 (ko) 3차원 인터넷 검색 엔진의 표시 방법
JP2010140200A (ja) クリックログを用いた検索結果分類装置及び方法
JPWO2003060764A1 (ja) 情報検索システム
CN114117242A (zh) 数据查询方法和装置、计算机设备、存储介质
KR100296500B1 (ko) 지능형 인터넷 쇼핑몰 상품비교검색엔진
JP2008102773A (ja) データを共通のフォーマットに変換する方法
JP2007188134A (ja) 索引ファイルを用いた文書検索の方法
JP4932227B2 (ja) 情報抽出方法
JP2007034464A (ja) 広告コンテンツ提示システム、広告コンテンツ提示プログラム
EP1349083A1 (en) Rule-based data extraction from web pages
JP2004126770A (ja) 構造化文書検索方法、構造化文書検索システム及び構造化文書データベース管理装置
JP5416023B2 (ja) 閲覧端末及び方法
JP2004118543A (ja) 構造化文書検索方法、検索支援方法、検索支援装置および検索支援プログラム
JP2013109514A (ja) 関連ワード表示制御装置、関連ワード表示方法、及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080602

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100921

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101122

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110906

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111024

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120207

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120215

R150 Certificate of patent or registration of utility model

Ref document number: 4932227

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150224

Year of fee payment: 3

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20120312

A072 Dismissal of procedure [no reply to invitation to correct request for examination]

Free format text: JAPANESE INTERMEDIATE CODE: A072

Effective date: 20120710

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees
S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350