JP2007122291A - 情報抽出方法 - Google Patents
情報抽出方法 Download PDFInfo
- Publication number
- JP2007122291A JP2007122291A JP2005312049A JP2005312049A JP2007122291A JP 2007122291 A JP2007122291 A JP 2007122291A JP 2005312049 A JP2005312049 A JP 2005312049A JP 2005312049 A JP2005312049 A JP 2005312049A JP 2007122291 A JP2007122291 A JP 2007122291A
- Authority
- JP
- Japan
- Prior art keywords
- data
- tree structure
- expression tree
- web document
- search
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】サーバ制御部110は、サーバ記憶部150から読み出したWebドキュメントデータから、当該Webドキュメントのレイアウト等の見た目に関与するタグを抽出して、当該Webドキュメントデータの表現木構造を表す表現木構造データを生成する。さらに、サーバ制御部110は、生成した前記表現木構造データの各ノードに含まれる内容データを、当該内容を表すパターン文字列データに変換して、パターン文字列付き表現木構造データとして、前記Webドキュメントデータと関連付けてサーバ記憶部150に記憶する。
【選択図】図4
Description
生成した前記表現木構造データの各ノードに含まれる内容データを、当該内容を表すパターン文字列データに変換し、パターン文字列付き表現木構造データとして、前記Webドキュメントデータと関連付けて記憶部に記憶するパターン文字列付き表現木構造データ記憶ステップと、
前記記憶部に記憶された複数のWebドキュメントデータの中から目的の情報を検索する際に、前記パターン文字列付き表現木構造データが表す表現木構造において、対応するノードのパターン文字列が同一か否かを判断して出力する判断ステップと、を含む情報抽出方法。
検索対象の表現木構造を表す表現木構造データの指定を受け付ける表現木構造データ指定受付ステップを更に含む情報抽出方法。
検索対象のパターン文字列付き表現木構造データの更新比較期間を表す更新比較期間データを受け付ける更新比較期間データ受付ステップを更に含む情報抽出方法。
検索対象のキーワードを表すキーワードデータを受け付けるキーワードデータ受付ステップを更に含む情報抽出方法。
前記表現木構造データが表す表現木構造において、検索対象のノードの指定を表す検索対象指定ノードデータを受け付ける検索対象指定ノードデータ受付ステップを更に含む情報抽出方法。
生成した前記表現木構造データを、前記Webドキュメントデータと関連付けて記憶部に記憶する表現木構造データ記憶ステップと、
前記記憶部に記憶された複数のWebドキュメントデータの中から目的の情報を検索する際に、前記表現木構造データが表す表現木構造において、検索対象のノードの指定を表す検索対象指定ノードデータを含む検索条件データを受け付ける検索条件データ受付ステップと、
受け付けた前記検索条件データに含まれる検索対象指定ノードデータに基づいて目的の情報を検索する検索ステップと、を含む情報抽出方法。
前記検索条件データ受付ステップにおいて、検索対象の表現木構造データの更新比較期間を表す更新比較期間データを更に受け付ける情報抽出方法。
前記検索条件データ受付ステップにおいて、検索対象のキーワードを表すキーワードデータを更に受け付ける情報抽出方法。
図1は、本発明の好適な実施形態の一例に係るコンピュータ演算処理方法を実施するコンピュータシステム1の全体構成を表すブロック図である。サーバ10と端末20a、20b等の1または複数の端末で構成する端末群20は通信ネットワーク30を介して接続されている。
図2は、本発明の好適な実施形態の一例に係る情報抽出方法を実現するサーバ10の構成を示すブロック図である。サーバ制御部110、サーバ表示部120、サーバ入力部130、サーバ通信制御部140、サーバ記憶部150は、サーババス160を介して接続されている。
図3は、本発明に係る端末20a、20bの構成を示すブロック図である。端末制御部210、端末表示部220、端末入力部230、端末通信制御部240、端末記憶部250は、端末バス260を介して接続されている。
図4は、本発明の好適な実施形態の一例に係るサーバによるパターン文字列付き表現木構造データの生成処理を示すフローチャートである。
図10は、本発明の好適な実施形態の一例に係るパターン文字列付き表現木構造データに基づく検索処理を表すフローチャートである。
図13は、本発明の好適な実施形態の別の一例に係るサーバによる表現木構造データの生成処理を示すフローチャートである。
図15は、本発明の好適な実施形態の別の一例に係る表現木構造データに基づく検索処理を表すフローチャートである。
10 サーバ
20a、20b 端末
20 端末群
30 通信ネットワーク
110 サーバ制御部
120 サーバ表示部
130 サーバ入力部
140 サーバ通信制御部
150 サーバ記憶部
160 サーババス
210 端末制御部
220 端末表示部
230 端末入力部
240 端末通信制御部
250 端末記憶部
260 端末バス
Claims (8)
- サーバが、Webドキュメントを表すWebドキュメントデータから、当該Webドキュメントの見た目に関与するタグデータを抽出して、表現木構造データを生成する表現木構造データ生成ステップと、
生成した前記表現木構造データの各ノードに含まれる内容データを、当該内容を表すパターン文字列データに変換し、パターン文字列付き表現木構造データとして、前記Webドキュメントデータと関連付けて記憶部に記憶するパターン文字列付き表現木構造データ記憶ステップと、
前記記憶部に記憶された複数のWebドキュメントデータの中から目的の情報を検索する際に、前記パターン文字列付き表現木構造データが表す表現木構造において、対応するノードのパターン文字列が同一か否かを判断して出力する判断ステップと、を含む情報抽出方法。 - 請求項1に記載の情報抽出方法であって、
検索対象の表現木構造を表す表現木構造データの指定を受け付ける表現木構造データ指定受付ステップを更に含む情報抽出方法。 - 請求項1または請求項2に記載の情報抽出方法であって、
検索対象のパターン文字列付き表現木構造データの更新比較期間を表す更新比較期間データを受け付ける更新比較期間データ受付ステップを更に含む情報抽出方法。 - 請求項1から請求項3のいずれかに記載の情報抽出方法であって、
検索対象のキーワードを表すキーワードデータを受け付けるキーワードデータ受付ステップを更に含む情報抽出方法。 - 請求項1から請求項4のいずれかに記載の情報抽出方法であって、
前記表現木構造データが表す表現木構造において、検索対象のノードの指定を表す検索対象指定ノードデータを受け付ける検索対象指定ノードデータ受付ステップを更に含む情報抽出方法。 - サーバが、Webドキュメントを表すWebドキュメントデータから、当該Webドキュメントの見た目に関与するタグデータを抽出して、表現木構造データを生成する表現木構造データ生成ステップと、
生成した前記表現木構造データを、前記Webドキュメントデータと関連付けて記憶部に記憶する表現木構造データ記憶ステップと、
前記記憶部に記憶された複数のWebドキュメントデータの中から目的の情報を検索する際に、前記表現木構造データが表す表現木構造において、検索対象のノードの指定を表す検索対象指定ノードデータを含む検索条件データを受け付ける検索条件データ受付ステップと、
受け付けた前記検索条件データに含まれる検索対象指定ノードデータに基づいて目的の情報を検索する検索ステップと、を含む情報抽出方法。 - 請求項6に記載の情報抽出方法であって、
前記検索条件データ受付ステップにおいて、検索対象の表現木構造データの更新比較期間を表す更新比較期間データを更に受け付ける情報抽出方法。 - 請求項6または請求項7に記載の情報抽出方法であって、
前記検索条件データ受付ステップにおいて、検索対象のキーワードを表すキーワードデータを更に受け付ける情報抽出方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005312049A JP4932227B2 (ja) | 2005-10-26 | 2005-10-26 | 情報抽出方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005312049A JP4932227B2 (ja) | 2005-10-26 | 2005-10-26 | 情報抽出方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2007122291A true JP2007122291A (ja) | 2007-05-17 |
JP4932227B2 JP4932227B2 (ja) | 2012-05-16 |
Family
ID=38146091
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005312049A Expired - Fee Related JP4932227B2 (ja) | 2005-10-26 | 2005-10-26 | 情報抽出方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4932227B2 (ja) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08329079A (ja) * | 1995-06-05 | 1996-12-13 | Hitachi Ltd | 構造化文書差分抽出方法および装置 |
JPH09245052A (ja) * | 1996-03-05 | 1997-09-19 | Mitsubishi Electric Corp | 構造化文書処理装置 |
JP2000010988A (ja) * | 1998-06-19 | 2000-01-14 | Nec Corp | 構造化文書検索システム、構造化文書検索方法および構造化文書検索用プログラムを記録した記録媒体 |
JP2000057143A (ja) * | 1998-08-10 | 2000-02-25 | Seiko Epson Corp | 文章構造解析方法及び文章構造解析装置並びに文章構造解析処理プログラムを記録した記録媒体 |
JP2002245068A (ja) * | 2001-02-09 | 2002-08-30 | Internatl Business Mach Corp <Ibm> | 情報処理方法、情報処理システム、プログラムおよび記録媒体 |
-
2005
- 2005-10-26 JP JP2005312049A patent/JP4932227B2/ja not_active Expired - Fee Related
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08329079A (ja) * | 1995-06-05 | 1996-12-13 | Hitachi Ltd | 構造化文書差分抽出方法および装置 |
JPH09245052A (ja) * | 1996-03-05 | 1997-09-19 | Mitsubishi Electric Corp | 構造化文書処理装置 |
JP2000010988A (ja) * | 1998-06-19 | 2000-01-14 | Nec Corp | 構造化文書検索システム、構造化文書検索方法および構造化文書検索用プログラムを記録した記録媒体 |
JP2000057143A (ja) * | 1998-08-10 | 2000-02-25 | Seiko Epson Corp | 文章構造解析方法及び文章構造解析装置並びに文章構造解析処理プログラムを記録した記録媒体 |
JP2002245068A (ja) * | 2001-02-09 | 2002-08-30 | Internatl Business Mach Corp <Ibm> | 情報処理方法、情報処理システム、プログラムおよび記録媒体 |
Also Published As
Publication number | Publication date |
---|---|
JP4932227B2 (ja) | 2012-05-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3842573B2 (ja) | 構造化文書検索方法、構造化文書管理装置及びプログラム | |
KR101793222B1 (ko) | 어플리케이션 검색들을 가능하게 하기 위해 사용되는 검색 인덱스의 업데이트 | |
US9367588B2 (en) | Method and system for assessing relevant properties of work contexts for use by information services | |
US7055094B2 (en) | Virtual tags and the process of virtual tagging utilizing user feedback in transformation rules | |
US7895595B2 (en) | Automatic method and system for formulating and transforming representations of context used by information services | |
JP3703080B2 (ja) | ウェブコンテンツを簡略化するための方法、システムおよび媒体 | |
US20100228738A1 (en) | Adaptive document sampling for information extraction | |
KR20000011423A (ko) | 디스플레이스크린및윈도우크기와관련된웹페이지적응시스템 | |
JP2009080624A (ja) | 情報表示装置、方法及びプログラム | |
CN102073725A (zh) | 结构化数据的搜索方法和实现该搜索方法的搜索引擎系统 | |
JP2011100403A (ja) | 情報処理装置、情報抽出方法、プログラム及び情報処理システム | |
KR100290731B1 (ko) | 3차원 인터넷 검색 엔진의 표시 방법 | |
JP2010140200A (ja) | クリックログを用いた検索結果分類装置及び方法 | |
JPWO2003060764A1 (ja) | 情報検索システム | |
CN114117242A (zh) | 数据查询方法和装置、计算机设备、存储介质 | |
KR100296500B1 (ko) | 지능형 인터넷 쇼핑몰 상품비교검색엔진 | |
JP2008102773A (ja) | データを共通のフォーマットに変換する方法 | |
JP2007188134A (ja) | 索引ファイルを用いた文書検索の方法 | |
JP4932227B2 (ja) | 情報抽出方法 | |
JP2007034464A (ja) | 広告コンテンツ提示システム、広告コンテンツ提示プログラム | |
EP1349083A1 (en) | Rule-based data extraction from web pages | |
JP2004126770A (ja) | 構造化文書検索方法、構造化文書検索システム及び構造化文書データベース管理装置 | |
JP5416023B2 (ja) | 閲覧端末及び方法 | |
JP2004118543A (ja) | 構造化文書検索方法、検索支援方法、検索支援装置および検索支援プログラム | |
JP2013109514A (ja) | 関連ワード表示制御装置、関連ワード表示方法、及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080602 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100921 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20101122 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110906 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20111024 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120207 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120215 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4932227 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150224 Year of fee payment: 3 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20120312 |
|
A072 | Dismissal of procedure [no reply to invitation to correct request for examination] |
Free format text: JAPANESE INTERMEDIATE CODE: A072 Effective date: 20120710 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees | ||
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |