JP5225022B2 - Xmlデータ検索方法及び装置及びプログラム - Google Patents
Xmlデータ検索方法及び装置及びプログラム Download PDFInfo
- Publication number
- JP5225022B2 JP5225022B2 JP2008278883A JP2008278883A JP5225022B2 JP 5225022 B2 JP5225022 B2 JP 5225022B2 JP 2008278883 A JP2008278883 A JP 2008278883A JP 2008278883 A JP2008278883 A JP 2008278883A JP 5225022 B2 JP5225022 B2 JP 5225022B2
- Authority
- JP
- Japan
- Prior art keywords
- node
- path
- search
- information
- xml data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
これは、[/book/chapter/title]パスの値(テキスト)が「惑星とは」と記述されている[/book/chapter]を指している。
XMLデータの構造と記述内容を管理するノード管理手段と、該XMLデータの持つ全てのパスと該パスに指定されるノードを関係付けるインデクスを構築し、保持するパスインデクス手段と、入力された検索クエリに含まれる検索パス及び検索キーワードに基づいて検索を行う検索手段と、を有する装置において、
ノード管理手段が、
取得したXML文書毎に文書IDを付与し、該XMLデータの各節である各ノードにノードIDを付与し、パスを特定し、該ノード間の親子・先祖子孫関係をノード情報としてノード情報記憶手段に格納するノード関係構築ステップ(ステップ1)を行い、
パスインデクス手段が、
ノード管理手段からパス、文書ID、ノード情報を取得し、XMLデータの持つ全てのパスと、該パスに指定されるノードを関係付けるノード関係情報を生成し、該パスが同一データで既出のパスである場合には、該パスに複数出現している旨の複数出現パス情報を付与し、パスインデクス記憶手段に格納するパスインデクス作成ステップ(ステップ2)を行い、
検索手段が、
検索パスに基づいて問い合わせ木を作成し、同一パスで複数出現しない問い合わせノード群を統合し、問い合わせノードを葉とし、親子・先祖子孫関係を示す関係判定ノードからなる実行木を生成する実行木作成ステップ(ステップ3)と、
問い合わせノードに基づいて、パスインデクス記憶手段と、ノード情報記憶手段からノード関係情報及びノード情報を取得するノード情報取得ステップ(ステップ4)と、
同一の文書IDを参照して、前記関係判定ノードの先祖となる問い合わせノードが複数出現パス情報が付与されたパスである場合には、当該先祖となる問い合わせノードの前記ノード情報による親子・先祖子孫関係を判定し、適切な組み合わせを選択し、該問い合わせノードが複数出現パス情報が付与されたパスでない場合は同一データのものを組み合わせる関係判定ステップ(ステップ5)と、を行う。
XMLデータの木構造におけるキストノード及び属性の値に対するインデクスを値インデクス記憶手段に保持しておき、
検索クエリに含まれる同一の検索パスに複数の制約があり、該検索パスが単一出現であれば、値インデクス記憶手段を参照して、該制約を満たすテキストノードを選択する。
取得したXML文書毎に文書IDを付与し、該XMLデータの各節である各ノードにノードIDを付与し、パスを特定し、該ノード間の親子・先祖子孫関係をノード情報としてノード情報記憶手段121に格納するノード管理手段120と、
ノード管理手段120からパス、文書ID、ノード情報を取得し、XMLデータの持つ全てのパスと、該パスに指定されるノードを関係付けるノード関係情報を生成し、該パスが同一データで既出のパスである場合には、該パスに複数出現している旨の複数出現パス情報を付与し、パスインデクス記憶手段111に格納するパスインデクス手段110と、
入力された検索クエリに含まれる検索パス及び検索キーワードに基づいて検索を行う検索手段140と、を有し、
検索手段140は、
検索パスに基づいて問い合わせ木を作成し、同一パスで複数出現しない問い合わせノード群を統合し、問い合わせノードを葉とし、親子・先祖子孫関係を示す関係判定ノードからなる実行木を生成する実行木作成手段141と、
問い合わせノードに基づいて、パスインデクス手段110のパスインデクス記憶手段111と、ノード管理手段120のノード情報記憶手段121からノード関係情報及びノード情報を取得するノード情報取得手段142と、
同一の文書IDを参照して、前記関係判定ノードの先祖となる問い合わせノードが複数出現パス情報が付与されたパスである場合には、当該先祖となる問い合わせノードの前記ノード情報による親子・先祖子孫関係を判定し、適切な組み合わせを選択し、該問い合わせノードが複数出現パス情報が付与されたパスでない場合は同一データのものを組み合わせる関係判定手段143と、を有する。
XMLデータの木構造におけるテキストノード及び属性の値に対するインデクスを値インデクス記憶手段に保持しておき、検索クエリに含まれる同一の検索パスに複数の制約があり、該検索パスが単一出現であれば、値インデクス記憶手段を参照して、該制約を満たすテキストノードを選択する
手段を含む。
(b)単一出現の場合、同一データのものを組み合わせる;
という処理を行う。
/book[date/text()>='2008/01/01' and date/text()<='2008/12/31']
というXPathを処理する場合は、以下のような手順で行う(テキストノードは"text()"と表現する)。
当該格納フェイズでは、与えられたXML文書群から、各種インデクスを作成する。
図13は、本発明の一実施例の検索フェイズのフローを示す。
100 検索装置
110 パスインデクス手段、パスインデクス部
111 パスインデクス記憶手段、パスインデクス記憶部
120 ノード管理手段、ノード管理部
121 ノード情報記憶手段、ノード情報記憶部
130 値インデクス部
131 値インデクス記憶部
140 検索手段、検索部
141 実行木作成手段
142 ノード情報取得手段
143 関係判定手段
Claims (5)
- 構造化データであるXML文書群の検索を行うXMLデータ検索方法であって、
XMLデータの構造と記述内容を管理するノード管理手段と、該XMLデータの持つ全てのパスと、該パスに指定されるノードを関係付けるインデクスを構築し、保持するパスインデクス手段と、入力された検索クエリに含まれる検索パス及び検索キーワードに基づいて検索を行う検索手段と、を有する装置において、
前記ノード管理手段が、取得した前記XML文書毎に文書IDを付与し、該XMLデータの各節である各ノードにノードIDを付与し、パスを特定し、該ノード間の親子・先祖子孫関係をノード情報としてノード情報記憶手段に格納するノード関係構築ステップを行い
前記パスインデクス手段が、前記ノード管理手段から前記パス、前記文書ID、前記ノード情報を取得し、前記XMLデータの持つ全てのパスと、該パスに指定されるノードを関係付けるノード関係情報を生成し、該パスが同一データで既出のパスである場合には、該パスに複数出現している旨の複数出現パス情報を付与し、パスインデクス記憶手段に格納するパスインデクス作成ステップを行い、
前記検索手段が、
前記検索パスに基づいて問い合わせ木を作成し、同一パスで複数出現しない問い合わせノード群を統合し、問い合わせノードを葉とし、親子・先祖子孫関係を示す関係判定ノードからなる実行木を生成する実行木作成ステップと、
前記問い合わせノードに基づいて、前記パスインデクス記憶手段と、前記ノード情報記憶手段から前記ノード関係情報及び前記ノード情報を取得するノード情報取得ステップと、
同一の文書IDを参照して、前記関係判定ノードの先祖となる問い合わせノードが複数出現パス情報が付与されたパスである場合には、当該先祖となる問い合わせノードの前記ノード情報による親子・先祖子孫関係を判定し、適切な組み合わせを選択し、該問い合わせノードが複数出現パス情報が付与されたパスでない場合は同一データのものを組み合わせる関係判定ステップと、
を行うことを特徴とするXMLデータ検索方法。 - 前記関係判定ステップにおいて、
前記XMLデータの木構造におけるテキストノード及び属性の値に対するインデクスを値インデクス記憶手段に保持しておき、
前記検索クエリに含まれる同一の検索パスに複数の制約があり、該検索パスが単一出現であれば、前記値インデクス記憶手段を参照して、該制約を満たすテキストノードを選択する
請求項1記載のXMLデータ検索方法。 - 構造化データであるXML文書群の検索を行うXMLデータ検索装置であって、
取得した前記XML文書毎に文書IDを付与し、該XMLデータの各節である各ノードにノードIDを付与し、パスを特定し、該ノード間の親子・先祖子孫関係をノード情報としてノード情報記憶手段に格納するノード管理手段と、
前記ノード管理手段から前記パス、前記文書ID、前記ノード情報を取得し、前記XMLデータの持つ全てのパスと、該パスに指定されるノードを関係付けるノード関係情報を生成し、該パスが同一データで既出のパスである場合には、該パスに複数出現している旨の複数出現パス情報を付与し、パスインデクス記憶手段に格納するパスインデクス手段と、
入力された検索クエリに含まれる検索パス及び検索キーワードに基づいて検索を行う検索手段と、を有し、
前記検索手段は、
前記検索パスに基づいて問い合わせ木を作成し、同一パスで複数出現しない問い合わせノード群を統合し、問い合わせノードを葉とし、親子・先祖子孫関係を示す関係判定ノードからなる実行木を生成する実行木作成手段と、
前記問い合わせノードに基づいて、前記パスインデクス手段の前記パスインデクス記憶手段と、前記ノード管理手段の前記ノード情報記憶手段から前記ノード関係情報及び前記ノード情報を取得するノード情報取得手段と、
同一の文書IDを参照して、前記関係判定ノードの先祖となる問い合わせノードが複数出現パス情報が付与されたパスである場合には、当該先祖となる問い合わせノードの前記ノード情報による親子・先祖子孫関係を判定し、適切な組み合わせを選択し、該問い合わせノードが複数出現パス情報が付与されたパスでない場合は同一データのものを組み合わせる関係判定手段と、
を有することを特徴とするXMLデータ検索装置。 - 前記実行木作成手段は、
前記XMLデータの木構造におけるテキストノード及び属性の値に対するインデクスを値インデクス記憶手段に保持しておき、前記検索クエリに含まれる同一の検索パスに複数の制約があり、該検索パスが単一出現であれば、前記値インデクス記憶手段を参照して、該制約を満たすテキストノードを選択する
手段を含む
請求項3記載のXMLデータ検索装置。 - 請求項3または、4に記載のXMLデータ検索装置を構成する各手段としてコンピュータを機能させるためのXMLデータ検索プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008278883A JP5225022B2 (ja) | 2008-10-29 | 2008-10-29 | Xmlデータ検索方法及び装置及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008278883A JP5225022B2 (ja) | 2008-10-29 | 2008-10-29 | Xmlデータ検索方法及び装置及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010108192A JP2010108192A (ja) | 2010-05-13 |
JP5225022B2 true JP5225022B2 (ja) | 2013-07-03 |
Family
ID=42297592
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008278883A Expired - Fee Related JP5225022B2 (ja) | 2008-10-29 | 2008-10-29 | Xmlデータ検索方法及び装置及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5225022B2 (ja) |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4562130B2 (ja) * | 2005-02-21 | 2010-10-13 | 日本電信電話株式会社 | Xmlデータ処理装置、xmlデータ処理方法、xmlデータ処理プログラムおよびxmlデータ処理プログラムを記録した記憶媒体 |
JP4374014B2 (ja) * | 2006-11-21 | 2009-12-02 | 株式会社日立製作所 | インデクス生成装置及びそのプログラム |
JP4839195B2 (ja) * | 2006-12-12 | 2011-12-21 | 日本電信電話株式会社 | Xml文書の適合度の算出方法およびそのプログラムと、情報処理装置 |
JP4445509B2 (ja) * | 2007-03-20 | 2010-04-07 | 株式会社東芝 | 構造化文書検索システム及びプログラム |
-
2008
- 2008-10-29 JP JP2008278883A patent/JP5225022B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2010108192A (ja) | 2010-05-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8868620B2 (en) | Techniques for composing data queries | |
US7139746B2 (en) | Extended markup language (XML) indexing method for processing regular path expression queries in a relational database and a data structure thereof | |
US8346813B2 (en) | Using node identifiers in materialized XML views and indexes to directly navigate to and within XML fragments | |
US8001106B2 (en) | Systems and methods for tokenizing and interpreting uniform resource locators | |
US8566343B2 (en) | Searching backward to speed up query | |
US9659001B2 (en) | Query evaluation using ancestor information | |
US20090019015A1 (en) | Mathematical expression structured language object search system and search method | |
KR101254544B1 (ko) | 배열의 생성방법 및 이를 실행하는 컴퓨터 프로그램을 수록한 기록 매체 | |
US8082492B2 (en) | Structured-document management apparatus, search apparatus, storage method, search method and program | |
JP4247135B2 (ja) | 構造化文書記憶方法、構造化文書記憶装置、構造化文書検索方法 | |
JP2006185408A (ja) | データベース構築装置及びデータベース検索装置及びデータベース装置 | |
JP4247108B2 (ja) | 構造化文書検索方法、構造化文書検索装置、及びプログラム | |
Sanz et al. | Fragment-based approximate retrieval in highly heterogeneous XML collections | |
US8171040B2 (en) | Method and system for navigation of a data structure | |
JP4010058B2 (ja) | 文書関連付け装置、文書閲覧装置、文書関連付けプログラムを記録したコンピュータ読み取り可能な記録媒体及び文書閲覧プログラムを記録したコンピュータ読み取り可能な記録媒体 | |
JP5225022B2 (ja) | Xmlデータ検索方法及び装置及びプログラム | |
JP4649339B2 (ja) | XPath処理装置、XPath処理方法、XPath処理プログラム、および、記憶媒体 | |
JP2010267081A (ja) | 情報検索方法及び装置及びプログラム | |
JP5112117B2 (ja) | 協調的分類装置及びプログラム | |
KR100775852B1 (ko) | 응용 프로그램의 자원 검색 시스템 및 방법 | |
Madria et al. | Efficient processing of XPath queries using indexes | |
Marin-Castro et al. | VR-Tree: A novel tree-based approach for modeling Web Query Interfaces | |
JP4334450B2 (ja) | 構造化文書検索装置及び構造化文書検索方法 | |
Pandian et al. | Annotation for Query Result Records based on Domain-Specific Ontology | |
Chen et al. | Efficient processing of XPath queries using indexes |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20110223 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20121108 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20121113 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130107 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130305 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130312 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5225022 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20160322 Year of fee payment: 3 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |