WO2011024716A1 - 構造化文書検索式生成装置、その方法及びプログラム、並びに構造化文書検索装置、その方法及びプログラム - Google Patents
構造化文書検索式生成装置、その方法及びプログラム、並びに構造化文書検索装置、その方法及びプログラム Download PDFInfo
- Publication number
- WO2011024716A1 WO2011024716A1 PCT/JP2010/064068 JP2010064068W WO2011024716A1 WO 2011024716 A1 WO2011024716 A1 WO 2011024716A1 JP 2010064068 W JP2010064068 W JP 2010064068W WO 2011024716 A1 WO2011024716 A1 WO 2011024716A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- search
- unit
- screen
- example sentence
- indicating
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/80—Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Document Processing Apparatus (AREA)
Abstract
Description
図1を参照すると、本発明の第1の実施の形態である構造化文書検索式生成システム(構造化文書検索式生成装置)10は、プログラム制御により動作する制御装置11と、記憶装置12と、表示装置13と、通信装置14とから構成されている。
次に、本発明の第2の実施の形態について、図13を参照して詳細に説明する。
次に、本発明の第3の実施の形態について、図14を参照して詳細に説明する。
11 制御装置
12 記憶装置
13 入出力装置
14 通信装置
111 例文収集部
112 要素指定部
113 画面解析部
114 構造解析部
115 検索式合成部
120 検索式生成プログラム
121 例文蓄積部
122 検索式蓄積部
123 検索プログラム
151 画面検索部
152 構造検索部
153 統合検索部
200 検索式生成ブラウザ
300 検索式生成サーバ
400、700 表示イメージ
401、705 検索対象要素
402、403、404、706、707 要素
500、800 目安要素の候補を示す条件
600、900 構造上位置情報
1000 検索式
1200、1300 例文
1400 構造化文書検索システム
Claims (14)
- 検索対象となる構造化文書で構成される複数の例文をその文書種類毎に蓄積する例文蓄積部と、
前記複数の例文における検索対象要素が指定される要素指定部と、
前記要素指定部により指定された前記例文の構造を解析し、前記例文の構造上において前記指定された検索対象要素の構造上の位置を示す検索式を生成する処理を実行する構造解析部と、
前記要素指定部により指定された前記例文の表示イメージを解析し、前記複数の例文の表示イメージ上において共通した相対位置に存在する要素を画面上目安要素として決定する処理を実行する画面解析部と、
前記構造解析部により生成された前記構造上の位置を示す検索式に、前記画面解析部により決定された前記画面上目安要素を条件として追加したものを生成する処理を実行する検索式合成部とを備えたことを特徴とする構造化文書検索式生成装置。 - 前記画面解析部は、複数の例文において順次、前記指定された検索対象要素の相対位置に存在する要素を目安要素候補として列挙し、最初の例文については、すべての前記目安要素候補を画面上目安要素として決定し、前記目安要素を示す検索式を条件として記述し、二番目以降の例文については、各目安要素候補について、既に記述された条件により目安要素候補が選択されない場合は、既に記述された条件のうち、最もよく一致する条件を、前記目安要素候補を選択するように緩和し、前記緩和した条件により前記各例文において一つの要素のみを検索するかを確認し、一つの要素のみを検索する場合には前記緩和した条件を前記既に記述された条件と置き換えることを特徴とする請求項1記載の構造化文書検索式生成装置。
- 前記画面解析部は、前記例文の表示イメージ上における検索対象要素に対して上下左右に重複する要素を目安要素候補として列挙することを特徴とする請求項2記載の構造化文書検索式生成装置。
- 前記画面解析部は、前記例文の表示イメージ上における検索対象要素に近い方から、あらかじめ定めた個数のみ要素を列挙することを特徴とする請求項3記載の構造化文書検索式生成装置。
- 前記構造化文書は、HTMLにより記述されることを特徴とする請求項1記載の構造化文書検索式生成装置。
- 前記構造上の位置を示す検索式は、XPath式により記述し、
前記画面上目安要素は、前記例文の表示イメージ上における検索対象要素との相対位置を示す記号と、前記例文の構造上の位置を示すXPath式とにより記述されることを特徴とする請求項1記載の構造化文書検索式生成装置。 - 前記画面上目安要素は、前記構造上の位置を示すXPath式の述部に記述されることを特徴とする請求項6記載の構造化文書検索式生成装置。
- 検索対象となる構造化文書で構成される複数の例文における検索対象要素をそれぞれ指定する要素指定部と、
ネットワークを介して前記例文を収集し、前記例文の文書種類毎に蓄積する例文収集部と、
前記例文を解析し、前記要素指定部が指定した要素と相対位置に存在する要素を列挙する画面解析部とを備え、
ネットワークを介して前記例文と、前記指定された要素と、前記列挙した要素とをそれぞれ送信することを特徴とした構造化文書検索式生成ブラウザ。 - 検索対象となる構造化文書で構成される複数の例文を蓄積する例文蓄積部と、
前記例文の構造を解析し、前記例文において指定された要素の構造上の位置を示す検索式を生成する構造解析部と、
前記例文における前記指定された要素の構造上の位置を示す検索式と、指定された要素と相対位置に存在する要素を受け取り、受け取った要素のうち複数の例文において共通の位置に存在する要素を、前記構造上の位置を示す検索式に追加する検索式合成部とを備え、
ネットワークを介して、前記指定された要素と、前記指定された要素と相対位置に存在する要素を受け取ることを特徴とした構造化文書検索式生成サーバ。 - 検索対象となる構造化文書で構成される複数の例文をその文書種類毎に蓄積する例文蓄積部と、
前記複数の例文における検索対象要素が指定される要素指定部と、
前記要素指定部により指定された例文の構造を解析し、前記指定された要素の構造上の位置を示す検索式を生成する処理を実行する構造解析部と、
前記要素指定部により指定された例文の表示イメージを解析し、前記複数の例文の表示イメージ上において共通した相対位置に存在する要素を画面上目安要素として決定する処理を実行する画面解析部と、
前記構造解析部により生成された前記構造上の位置を示す検索式に、前記画面解析部により決定された前記画面上目安要素を条件として追加したものを生成する処理を実行する検索式合成部と、
構造化文書と、構造上の位置情報を示す検索式を読み込み、検索対象要素を検索する構造検索部と、
前記構造化文書と、前記検索対象要素と、前記画面上目安要素を示す条件を読み込み、構造化文書の画面イメージを作成し、画面上目安要素を示す条件が合致するかを確認する画面検索部と、
構造化文書と前記検索式を読み込み、検索式のうち構造上の位置を示す検索式を抽出し、前記構造検索部に渡し、検索式のうち画面上目安要素を示す条件を抽出し、前記画面検索部に渡し、すべての条件が合致する要素を検索対象要素として出力する統合検索部とを備えたことを特徴とする構造化文書検索装置。 - 例文蓄積部に、検索対象となる構造化文書で構成される複数の例文をその文書種類毎に蓄積し、
要素指定部が、前記複数の例文における検索対象要素を指定し、
構造解析部が、前記要素指定部により指定された前記例文の構造を解析し、前記例文の構造上において前記指定された要素の構造上の位置を示す検索式を生成する処理を実行し、
画面解析部が、前記要素指定部により指定された前記例文の表示イメージを解析し、前記複数の例文の表示イメージ上において共通した相対位置に存在する要素を画面上目安要素として決定する処理を実行し、
検索式合成部が、前記構造解析部により生成された検索式に、前記画面解析部により決定された画面上目安要素を条件として追加したものを生成することを特徴とする構造化文書検索式生成方法。 - 例文蓄積部に、検索対象となる構造化文書で構成される複数の例文をその文書種類毎に蓄積し、
要素指定部が、前記複数の例文における検索対象要素を指定し、
構造解析部が、前記要素指定部により指定された例文の構造を解析し、前記指定された要素の構造上の位置を示す検索式を生成する処理を実行し、
画面解析部が、前記要素指定部により指定された例文の表示イメージを解析し、前記複数の例文の表示イメージ上において共通した相対位置に存在する要素を画面上目安要素として決定する処理を実行し、
検索式合成部が、前記構造解析部により生成された前記構造上の位置を示す検索式に、前記画面解析部により決定された前記画面上目安要素を条件として追加したものを生成する処理を実行し、
構造検索部が、構造化文書と、構造上の位置情報を示す検索式を読み込み、検索対象要素を検索し、
画面検索部が、前記構造化文書と、前記検索対象要素と、前記画面上目安要素を示す条件を読み込み、構造化文書の画面イメージを作成し、画面上目安要素を示す条件が合致するかを確認し、
統合検索部が、構造化文書と前記検索式を読み込み、検索式のうち構造上の位置を示す検索式を抽出し、前記構造検索部に渡し、検索式のうち画面上目安要素を示す条件を抽出し、前記画面検索部に渡し、すべての条件が合致する要素を検索対象要素として出力することを特徴とする構造化文書検索方法。 - 検索対象となる構造化文書で構成される複数の例文をその文書種類毎に蓄積する例文蓄積部と、
前記複数の例文における検索対象要素が指定される要素指定部と、
前記要素指定部により指定された前記例文の構造を解析し、前記例文の構造上において前記指定された検索対象要素の構造上の位置を示す検索式を生成する処理を実行する構造解析部と、
前記要素指定部により指定された前記例文の表示イメージを解析し、前記複数の例文の表示イメージ上において共通した相対位置に存在する要素を画面上目安要素として決定する処理を実行する画面解析部と、
前記構造解析部により生成された前記構造上の位置を示す検索式に、前記画面解析部により決定された前記画面上目安要素を条件として追加したものを生成する処理を実行する検索式合成部としてコンピュータを機能させるための構造化文書検索式生成プログラム。 - 検索対象となる構造化文書で構成される複数の例文をその文書種類毎に蓄積する例文蓄積部と、
前記複数の例文における検索対象要素が指定される要素指定部と、
前記要素指定部により指定された例文の構造を解析し、前記指定された要素の構造上の位置を示す検索式を生成する処理を実行する構造解析部と、
前記要素指定部により指定された例文の表示イメージを解析し、前記複数の例文の表示イメージ上において共通した相対位置に存在する要素を画面上目安要素として決定する処理を実行する画面解析部と、
前記構造解析部により生成された前記構造上の位置を示す検索式に、前記画面解析部により決定された前記画面上目安要素を条件として追加したものを生成する処理を実行する検索式合成部と、
構造化文書と、構造上の位置情報を示す検索式を読み込み、検索対象要素を検索する構造検索部と、
前記構造化文書と、前記検索対象要素と、前記画面上目安要素を示す条件を読み込み、構造化文書の画面イメージを作成し、画面上目安要素を示す条件が合致するかを確認する画面検索部と、
構造化文書と前記検索式を読み込み、検索式のうち構造上の位置を示す検索式を抽出し、前記構造検索部に渡し、検索式のうち画面上目安要素を示す条件を抽出し、前記画面検索部に渡し、すべての条件が合致する要素を検索対象要素として出力する統合検索部としてコンピュータを機能させるための構造化文書検索プログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011528762A JPWO2011024716A1 (ja) | 2009-08-26 | 2010-08-20 | 構造化文書検索式生成装置、その方法及びプログラム、並びに構造化文書検索装置、その方法及びプログラム |
US13/392,448 US20120259878A1 (en) | 2009-08-26 | 2010-08-20 | Structured text search-expression-generating device, method and process therefor, structured text search device, and method and process therefor |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009195449 | 2009-08-26 | ||
JP2009-195449 | 2009-08-26 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2011024716A1 true WO2011024716A1 (ja) | 2011-03-03 |
Family
ID=43627822
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2010/064068 WO2011024716A1 (ja) | 2009-08-26 | 2010-08-20 | 構造化文書検索式生成装置、その方法及びプログラム、並びに構造化文書検索装置、その方法及びプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US20120259878A1 (ja) |
JP (1) | JPWO2011024716A1 (ja) |
WO (1) | WO2011024716A1 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120101721A1 (en) * | 2010-10-21 | 2012-04-26 | Telenav, Inc. | Navigation system with xpath repetition based field alignment mechanism and method of operation thereof |
CN109074382A (zh) * | 2016-04-12 | 2018-12-21 | 皇家飞利浦有限公司 | 数据库查询创建 |
WO2021019773A1 (ja) * | 2019-08-01 | 2021-02-04 | 日本電信電話株式会社 | 構造化文書処理学習装置、構造化文書処理装置、構造化文書処理学習方法、構造化文書処理方法及びプログラム |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000029902A (ja) * | 1998-07-15 | 2000-01-28 | Nec Corp | 構造化文書分類装置およびこの構造化文書分類装置をコンピュータで実現するプログラムを記録した記録媒体、並びに、構造化文書検索システムおよびこの構造化文書検索システムをコンピュータで実現するプログラムを記録した記録媒体 |
JP2003303091A (ja) * | 2002-04-11 | 2003-10-24 | Canon Inc | 画像通信装置及び画像通信方法 |
JP2005301437A (ja) * | 2004-04-07 | 2005-10-27 | Hitachi Ins Software Ltd | 適応型ウエブページデータ抽出装置および抽出プログラム |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5628008A (en) * | 1994-06-15 | 1997-05-06 | Fuji Xerox Co., Ltd. | Structured document search formula generation assisting system |
JP4909859B2 (ja) * | 2007-09-28 | 2012-04-04 | 株式会社日立ハイテクノロジーズ | 検査装置及び検査方法 |
US20100228738A1 (en) * | 2009-03-04 | 2010-09-09 | Mehta Rupesh R | Adaptive document sampling for information extraction |
JP2010250658A (ja) * | 2009-04-17 | 2010-11-04 | Seiko Epson Corp | 印刷装置、画像処理装置、画像処理方法およびコンピュータープログラム |
-
2010
- 2010-08-20 WO PCT/JP2010/064068 patent/WO2011024716A1/ja active Application Filing
- 2010-08-20 JP JP2011528762A patent/JPWO2011024716A1/ja not_active Withdrawn
- 2010-08-20 US US13/392,448 patent/US20120259878A1/en not_active Abandoned
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000029902A (ja) * | 1998-07-15 | 2000-01-28 | Nec Corp | 構造化文書分類装置およびこの構造化文書分類装置をコンピュータで実現するプログラムを記録した記録媒体、並びに、構造化文書検索システムおよびこの構造化文書検索システムをコンピュータで実現するプログラムを記録した記録媒体 |
JP2003303091A (ja) * | 2002-04-11 | 2003-10-24 | Canon Inc | 画像通信装置及び画像通信方法 |
JP2005301437A (ja) * | 2004-04-07 | 2005-10-27 | Hitachi Ins Software Ltd | 適応型ウエブページデータ抽出装置および抽出プログラム |
Non-Patent Citations (1)
Title |
---|
"Subscribing to Content with Web Slices", 2010, Retrieved from the Internet <URL:http://msdn.microsoft.com/en-us/library/cc196992(VS.85).aspx> [retrieved on 20101025] * |
Also Published As
Publication number | Publication date |
---|---|
US20120259878A1 (en) | 2012-10-11 |
JPWO2011024716A1 (ja) | 2013-01-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3879350B2 (ja) | 構造化文書処理システム及び構造化文書処理方法 | |
US9471670B2 (en) | NLP-based content recommender | |
US20130124953A1 (en) | Producing web page content | |
US20060173682A1 (en) | Information retrieval system, method, and program | |
US9904936B2 (en) | Method and apparatus for identifying elements of a webpage in different viewports of sizes | |
US20090204602A1 (en) | Apparatus and methods for presenting linking abstracts for search results | |
JP5793601B2 (ja) | 自動スクロール実行システムおよび方法 | |
US20070061410A1 (en) | Webpage search | |
US20120005573A1 (en) | Automatically adjusting a webpage | |
JP2008527524A (ja) | 埋め込み型翻訳強化検索 | |
US7725487B2 (en) | Content synchronization system and method of similar web pages | |
WO2011024716A1 (ja) | 構造化文書検索式生成装置、その方法及びプログラム、並びに構造化文書検索装置、その方法及びプログラム | |
JP2009086944A (ja) | 情報処理装置および情報処理プログラム | |
JP2017117021A (ja) | キーワード抽出装置、コンテンツ生成システム、キーワード抽出方法、およびプログラム | |
KR101575113B1 (ko) | 웹 페이지 내의 컨텐츠를 추출하기 위한 방법, 장치 및 컴퓨터로 읽을 수 있는 기록매체 | |
JP4935396B2 (ja) | Webコンテンツ提供装置、Webコンテンツ提供方法およびプログラム | |
EP2521045A1 (en) | Content configuration method | |
JP2007034464A (ja) | 広告コンテンツ提示システム、広告コンテンツ提示プログラム | |
JP4448724B2 (ja) | ウェブブラウザのアクセシビリティ検査プログラム | |
Kaddu et al. | To extract informative content from online web pages by using hybrid approach | |
KR101421819B1 (ko) | 온라인 환경에서의 벌룬을 이용한 키워드 검색 결과 제공 방법 | |
KR20210098813A (ko) | 텍스트 데이터 수집과 분석 장치 및 방법 | |
JP4207992B2 (ja) | 構造化文書処理システム及び構造化文書処理方法 | |
KR100824434B1 (ko) | 콘텐츠를 구성하는 핵심 키워드에 부가정보를 동적으로결합하여 제공하는 방법 및 장치 | |
JP2004038827A (ja) | 情報抽出方法、情報抽出装置および情報抽出プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 10811766 Country of ref document: EP Kind code of ref document: A1 |
|
WWE | Wipo information: entry into national phase |
Ref document number: 2011528762 Country of ref document: JP |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
WWE | Wipo information: entry into national phase |
Ref document number: 13392448 Country of ref document: US |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 10811766 Country of ref document: EP Kind code of ref document: A1 |