JP2007193642A - XPath処理装置、XPath処理方法、XPath処理プログラム、および、記憶媒体 - Google Patents
XPath処理装置、XPath処理方法、XPath処理プログラム、および、記憶媒体 Download PDFInfo
- Publication number
- JP2007193642A JP2007193642A JP2006012202A JP2006012202A JP2007193642A JP 2007193642 A JP2007193642 A JP 2007193642A JP 2006012202 A JP2006012202 A JP 2006012202A JP 2006012202 A JP2006012202 A JP 2006012202A JP 2007193642 A JP2007193642 A JP 2007193642A
- Authority
- JP
- Japan
- Prior art keywords
- summary information
- xpath
- xml
- information
- xml data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】XPath式で記述された問合せに適合するXMLデータにアクセスするXPath処理装置であって、XMLデータの要約情報およびその要約情報の統計情報の組み合わせを複数作成して、記憶手段に格納する要約情報作成手段12と、要約情報ごとに、XMLデータの要約情報に対して問合せの検索処理を行い、その検索処理にマッチする要約情報の統計情報を抽出する問合せ解析手段14と、抽出した各統計情報について、XMLデータへのアクセス量が少なくなるほど高評価とする評価関数により評価し、高評価となる要約情報を、XMLデータへのアクセスのために選択するアクセス選択手段20と、を有する。
【選択図】図2
Description
江田毅晴、鬼塚真、山室雅司、"XMLデータの要約情報を用いた高速なXPath処理方法。In Proc. DEWS2005,2005."、[online]、[平成18年1月4日検索]、インターネット<URL:http://www.digitalcity.gr.jp/satoh/DEWS2005/procs/papers/6B-o4.pdf> Takeharu Eda,Makoto Onizuka、and Masashi Yamamuro著、"Processing XPath Queries with XML Summaries"、In Proc.CIKM,2005.
1.enq(left,right):Qcの最後に(left,right)の範囲ラベルを追加する。
2.enqL(left):Qcの最後に(left,NULL)の範囲ラベルを追加する。
3.enqR(right):Qc中の範囲ラベルの中で、最後にrightがNULLである範囲ラベルのNULLをrightと入れ替える。
1.1回のデータガイド処理
2.2回のDG索引からの、XMLノードヘのアクセス
3.XMLノード列のマージ処理
1.1回のタグ索引からの、XMLノードヘのアクセス
2.1回のデータガイド処理
3.1回のXMLノード列へのフィルタ処理
12 要約情報作成手段
14 問合せ解析手段
16 問合せ処理手段
18 中間要約木列作成手段
20 アクセス選択手段
22 ディスク管理手段
24 イベントシーケンス手段
26 結果生成手段
28 二次記憶装置
Claims (12)
- XPath式で記述された問合せの入力を受け付けて、その問合せに適合するXMLデータにアクセスするXPath処理装置であって、
前記XMLデータの要約情報およびその要約情報の統計情報の組み合わせを複数作成して、記憶手段に格納する要約情報作成手段と、
前記要約情報ごとに、前記XMLデータの前記要約情報に対して問合せの検索処理を行い、その検索処理にマッチする前記要約情報の統計情報を抽出する問合せ解析手段と、
抽出した各統計情報について、前記XMLデータへのアクセス量が少なくなるほど高評価とする評価関数により評価し、高評価となる前記要約情報を、前記XMLデータへのアクセスのために選択するアクセス選択手段と、
を有することを特徴とするXPath処理装置。 - 前記アクセス選択手段が選択した前記要約情報から前記XMLデータにアクセスし、問合せの結果を生成する結果生成手段を有することを特徴とする請求項1に記載のXPath処理装置。
- 前記結果生成手段は、前記要約情報に対応する範囲ラベルを参照して、前記XMLデータにアクセスすることを特徴とする請求項2に記載のXPath処理装置。
- 前記要約情報作成手段は、
前記XMLデータのSAXイベントシーケンスを用いてSAXイベントごとにイベントに対応する情報が前記要約情報中に存在するか判定し、
存在しない場合は、前記要約情報を追加し、さらに前記統計情報を計算し、前記要約情報の対応する部分に追加しながら、SAXイベントシーケンスを最後まで処理することにより、
前記XMLデータに対する一回の走査で前記要約情報およびその統計情報を生成すること
を特徴とする請求項1ないし請求項3のいずれか1項に記載のXPath処理装置。 - 前記要約情報作成手段は、前記要約情報として、ストロングデータガイドを作成することを特徴とする請求項1ないし請求項4のいずれか1項に記載のXPath処理装置。
- 前記要約情報作成手段は、前記要約情報として、タグ情報を作成することを特徴とする請求項1ないし請求項4のいずれか1項に記載のXPath処理装置。
- 前記アクセス選択手段は、前記XPath式に適合する前記要約情報のノード数が少なくなるほど高評価とする前記評価関数を用いることを特徴とする請求項1ないし請求項6のいずれか1項に記載のXPath処理装置。
- 前記アクセス選択手段は、前記XPath式に適合する前記要約情報のノードについて、そのノードに対応するXMLノードの中で、前記XPath式に適合するXMLノードの割合が高くなるほど高評価とする前記評価関数を用いることを特徴とする請求項1ないし請求項6のいずれか1項に記載のXPath処理装置。
- 前記アクセス選択手段は、前記評価関数の評価値の重み付け平均を行うことで、複数の前記評価関数を併せて用いることを特徴とする請求項1ないし請求項6のいずれか1項に記載のXPath処理装置。
- 前記XPath式で記述された問合せの入力を受け付けて、その問合せに適合する前記XMLデータにアクセスするXPath処理方法であって、
コンピュータが、
前記XMLデータの前記要約情報およびその要約情報の統計情報の組み合わせを複数作成して、記憶手段に格納する要約情報作成手順と、
前記要約情報ごとに、前記XMLデータの前記要約情報に対して問合せの検索処理を行い、その検索処理にマッチする前記要約情報の統計情報を抽出する問合せ解析手順と、
抽出した各統計情報について、前記XMLデータへのアクセス量が少なくなるほど高評価とする前記評価関数により評価し、高評価となる前記要約情報を、前記XMLデータへのアクセスのために選択するアクセス選択手順と、
を実行することを特徴とするXPath処理方法。 - 請求項10に記載のXPath処理方法をコンピュータに実行させるためのXPath処理プログラム。
- 請求項11に記載のXPath処理プログラムを格納した記憶媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006012202A JP4649339B2 (ja) | 2006-01-20 | 2006-01-20 | XPath処理装置、XPath処理方法、XPath処理プログラム、および、記憶媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006012202A JP4649339B2 (ja) | 2006-01-20 | 2006-01-20 | XPath処理装置、XPath処理方法、XPath処理プログラム、および、記憶媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2007193642A true JP2007193642A (ja) | 2007-08-02 |
JP4649339B2 JP4649339B2 (ja) | 2011-03-09 |
Family
ID=38449288
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006012202A Expired - Fee Related JP4649339B2 (ja) | 2006-01-20 | 2006-01-20 | XPath処理装置、XPath処理方法、XPath処理プログラム、および、記憶媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4649339B2 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2013038519A1 (ja) * | 2011-09-14 | 2013-03-21 | 株式会社マイニングブラウニー | ウェブページ解析装置およびウェブページ解析用プログラム |
JP2013175053A (ja) * | 2012-02-24 | 2013-09-05 | Hitachi Ltd | Xml文書検索装置及びプログラム |
CN109657121A (zh) * | 2018-12-09 | 2019-04-19 | 佛山市金穗数据服务有限公司 | 一种基于网络爬虫的Web页面信息采集方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07160557A (ja) * | 1993-12-13 | 1995-06-23 | Hitachi Ltd | データベースアクセス処理方法 |
JPH07319888A (ja) * | 1994-05-23 | 1995-12-08 | Nec Corp | 索引検索方式 |
JP2001034618A (ja) * | 1999-07-16 | 2001-02-09 | Fujitsu Ltd | Xmlデータ検索処理方法および検索処理システム |
JP2005209193A (ja) * | 2004-01-20 | 2005-08-04 | Microsoft Corp | ドキュメントインデックスのための低頻度ワードインデックス |
-
2006
- 2006-01-20 JP JP2006012202A patent/JP4649339B2/ja not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07160557A (ja) * | 1993-12-13 | 1995-06-23 | Hitachi Ltd | データベースアクセス処理方法 |
JPH07319888A (ja) * | 1994-05-23 | 1995-12-08 | Nec Corp | 索引検索方式 |
JP2001034618A (ja) * | 1999-07-16 | 2001-02-09 | Fujitsu Ltd | Xmlデータ検索処理方法および検索処理システム |
JP2005209193A (ja) * | 2004-01-20 | 2005-08-04 | Microsoft Corp | ドキュメントインデックスのための低頻度ワードインデックス |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2013038519A1 (ja) * | 2011-09-14 | 2013-03-21 | 株式会社マイニングブラウニー | ウェブページ解析装置およびウェブページ解析用プログラム |
JP2013175053A (ja) * | 2012-02-24 | 2013-09-05 | Hitachi Ltd | Xml文書検索装置及びプログラム |
CN109657121A (zh) * | 2018-12-09 | 2019-04-19 | 佛山市金穗数据服务有限公司 | 一种基于网络爬虫的Web页面信息采集方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
JP4649339B2 (ja) | 2011-03-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11481439B2 (en) | Evaluating XML full text search | |
US8892599B2 (en) | Apparatus and method for securing preliminary information about database fragments for utilization in mapreduce processing | |
US8935267B2 (en) | Apparatus and method for executing different query language queries on tree structured data using pre-computed indices of selective document paths | |
Gou et al. | Efficiently querying large XML data repositories: A survey | |
JP5121146B2 (ja) | 構造化文書管理装置、構造化文書管理プログラムおよび構造化文書管理方法 | |
Polyzotis et al. | Selectivity estimation for XML twigs | |
Ferragina et al. | Compressing and searching XML data via two zips | |
Tahraoui et al. | A survey on tree matching and XML retrieval | |
US20060161525A1 (en) | Method and system for supporting structured aggregation operations on semi-structured data | |
JP2008171181A (ja) | 構造化データ検索装置 | |
US9378301B2 (en) | Apparatus, method, and computer program product for searching structured document | |
KR100899616B1 (ko) | 관계형 데이터베이스를 이용한 메타데이터 관리 방법 및시스템 | |
US20130297657A1 (en) | Apparatus and Method for Forming and Using a Tree Structured Database with Top-Down Trees and Bottom-Up Indices | |
JP4649339B2 (ja) | XPath処理装置、XPath処理方法、XPath処理プログラム、および、記憶媒体 | |
US8171040B2 (en) | Method and system for navigation of a data structure | |
Diewald et al. | Krill: KorAP search and analysis engine | |
US8312030B2 (en) | Efficient evaluation of XQuery and XPath full text extension | |
Ogden et al. | AT-GIS: highly parallel spatial query processing with associative transducers | |
Lu | An Introduction to XML Query Processing and Keyword Search | |
Leela et al. | Schema-conscious XML indexing | |
Huang et al. | Prefiltering techniques for efficient XML document processing | |
JP2013175053A (ja) | Xml文書検索装置及びプログラム | |
JP2006018584A (ja) | 構造化文書管理システム、値索引生成方法及びプログラム | |
Marin-Castro et al. | VR-Tree: A novel tree-based approach for modeling Web Query Interfaces | |
Chen et al. | Subtree Reconstruction, Query Node Intervals and Tree Pattern Query Evaluation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080204 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20100625 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100706 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100903 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20101207 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20101213 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131217 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |