JP2008084113A - 構造化文書検索システム、構造化文書検索方法、検索装置、および文書管理装置 - Google Patents
構造化文書検索システム、構造化文書検索方法、検索装置、および文書管理装置 Download PDFInfo
- Publication number
- JP2008084113A JP2008084113A JP2006264836A JP2006264836A JP2008084113A JP 2008084113 A JP2008084113 A JP 2008084113A JP 2006264836 A JP2006264836 A JP 2006264836A JP 2006264836 A JP2006264836 A JP 2006264836A JP 2008084113 A JP2008084113 A JP 2008084113A
- Authority
- JP
- Japan
- Prior art keywords
- search
- structured document
- plan
- document
- execution plan
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/80—Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML
- G06F16/83—Querying
- G06F16/835—Query processing
Abstract
【解決手段】構造化文書内の構造要素と値に関する統計情報を記憶する構造情報記憶部130と、統計情報の条件と構造要素と値から構成される文字列の表現形式とを対応づけた規則を記憶する規則記憶部140と、検索要求に基づいて実行プランを生成するプラン生成部122と、検索対象となる論理構造に対応する統計情報を構造情報記憶部130から取得する取得部123と、取得した統計情報が満たす条件に対応する表現形式を規則記憶部140から取得して実行プランに対応づける対応づけ部124と、を備えた検索装置100と、検索装置100から受信した実行プランを実行して得られた検索結果を、実行プランに対応づけられた表現形式で表すプラン実行部225と、検索結果を検索装置に送信する結果送信部229と、を備えた文書管理装置200と、を備えた。
【選択図】 図1
Description
構造化文書の検索では、上述のように構造化文書の形式で検索結果を求めるような問合せデータを指定できる。例えば、検索結果のうち報告書のタイトルを「<タイトル>」タグ、ユーザのIDを「<報告者情報>」タグで囲み、全体を「<結果>」タグで囲んだ検索結果を求める問合せデータを指定可能である。このような場合、上記タグの部分は、すべての検索結果について共通構造のデータとなる。このような検索結果の共通構造のデータについては、1回だけデータを作成しておき、各検索結果を作成する際に参照すれば無駄な文字列生成処理を回避できる。
特定の構造要素以下のデータが検索結果になる場合が該当する。例として、XPathを使った検索が挙げられる。このようなパターンのデータについて装置間でデータ転送が発生する場合には、文字列形式でなく、バイナリ形式でデータ転送を行うと、転送サイズを小さくすることができる。
検索結果が複数存在する場合であって、各検索結果で構造化文書内の利用箇所が異なる場合が該当する。例えば、本実施の形態のようにユーザ情報を格納した1つのXML文書(図3)からユーザ情報を検索する場合、問合せデータによっては重複したユーザ情報が検索される場合がある。
110 格納処理部
111 構造抽出部
112 文書送信部
120 検索処理部
121 要求受信部
122 プラン生成部
123 取得部
124 対応づけ部
125 プラン実行部
126 プラン送信部
127 結果受信部
128 結果送信部
130 構造情報記憶部
140 規則記憶部
200 文書管理装置
210 文書格納部
220 検索処理部
221 プラン受信部
225 プラン実行部
229 結果送信部
250 構造化文書記憶部
300 ネットワーク
400 クライアント
Claims (11)
- 階層化された論理構造を有している複数の構造化文書を前記構造化文書ごとに分散して格納する複数の文書管理装置と、前記文書管理装置とネットワークを介して接続され、複数の前記文書管理装置から前記構造化文書を検索する検索装置と、を備えた構造化文書検索システムであって、
前記検索装置は、
前記論理構造ごとに、前記論理構造に対応する前記構造化文書内の構造要素と値に関する統計情報を記憶する構造情報記憶手段と、
前記統計情報に関する条件と、構造要素と値から構成される文字列を表現する表現形式とを対応づけた規則を記憶する規則記憶手段と、
ネットワークに接続されたクライアント端末からの前記構造化文書の検索要求に基づいて、前記構造化文書に対する検索処理の実行プランを生成するプラン生成手段と、
生成した前記実行プランの検索対象となる前記論理構造に対応する前記統計情報を前記構造情報記憶手段から取得する取得手段と、
取得した前記統計情報が満たす前記条件に対応する前記表現形式を前記規則記憶手段から取得して前記実行プランに対応づける対応づけ手段と、
前記表現形式を対応づけた前記実行プランを前記文書管理装置に送信するプラン送信手段と、
前記実行プランの実行結果である検索結果を前記文書管理装置から受信する結果受信手段と、
前記検索結果を前記クライアント端末に送信する第1結果送信手段と、を備え、
前記文書管理装置は、
前記表現形式を対応づけた前記実行プランを前記検索装置から受信するプラン受信手段と、
受信した前記実行プランを実行し、実行して得られた検索結果を、前記実行プランに対応づけられた前記表現形式で出力するプラン実行手段と、
前記表現形式で表された前記検索結果を前記検索装置に送信する第2結果送信手段と、を備えたこと、
を特徴とする構造化文書検索システム。 - 前記規則記憶手段は、前記構造化文書を格納した前記文書管理装置の識別情報と、前記条件と、前記表現形式とを対応づけた前記規則を記憶し、
前記プラン生成手段は、検索対象である前記構造化文書を格納した前記文書管理装置の前記識別情報を含む前記実行プランを生成し、
前記対応づけ手段は、生成した前記実行プランに含まれる前記識別情報と、生成した前記実行プランの検索対象となる前記論理構造の前記統計情報が満たす前記条件と、に対応する前記表現形式を前記規則記憶手段から取得して前記実行プランに対応づけ、
前記プラン送信手段は、前記実行プランに含まれる前記識別情報で識別される前記文書管理装置に、前記表現形式を対応づけた前記実行プランを送信すること、
を特徴とする請求項1に記載の構造化文書検索システム。 - 前記構造情報記憶手段は、前記論理構造ごとに前記文字列の平均文字列長を前記統計情報として記憶し、
前記規則記憶手段は、前記平均文字列長に関する前記条件と、前記表現形式とを対応づけた前記規則を記憶し、
前記対応づけ手段は、検索対象となる前記論理構造に対応する前記平均文字列長が満たす前記条件に対応する前記表現形式を前記規則記憶手段から取得し、前記実行プランに対応づけること、
を特徴とする請求項1に記載の構造化文書検索システム。 - 前記構造情報記憶手段は、前記構造化文書内の前記論理構造の平均数を前記統計情報として記憶し、
前記規則記憶手段は、前記論理構造の平均数に関する前記条件と、前記表現形式とを対応づけた前記規則を記憶し、
前記対応づけ手段は、検索対象となる前記論理構造の平均数が満たす前記条件に対応する前記表現形式を前記規則記憶手段から取得し、前記実行プランに対応づけること、
を特徴とする請求項1に記載の構造化文書検索システム。 - 前記構造情報記憶手段は、前記論理構造ごとに、前記論理構造の下位階層に存在する前記論理構造である下位構造の平均数を前記統計情報として記憶し、
前記規則記憶手段は、前記下位構造の平均数に関する前記条件と、前記表現形式とを対応づけた前記規則を記憶し、
前記対応づけ手段は、検索対象となる前記論理構造に対する前記下位構造の平均数が満たす前記条件に対応する前記表現形式を前記規則記憶手段から取得し、前記実行プランに対応づけること、
を特徴とする請求項1に記載の構造化文書検索システム。 - 前記構造情報記憶手段は、固定長の情報を格納する格納ページ内に前記文字列を格納する格納ページ形式で前記構造化文書を表したときの前記格納ページの平均数を前記統計情報として記憶し、
前記規則記憶手段は、前記格納ページの平均数に関する前記条件と、前記表現形式とを対応づけた規則を記憶し、
前記対応づけ手段は、検索対象となる前記論理構造が含まれる前記構造化文書の前記格納ページの平均数が満たす前記条件に対応する前記表現形式を前記規則記憶手段から取得し、前記実行プランに対応づけること、
を特徴とする請求項1に記載の構造化文書検索システム。 - 前記プラン生成手段は、受信した前記検索結果が検索処理の途中で得られる中間結果である場合に、受信した前記中間結果に基づいてさらに前記実行プランを生成すること、
を特徴とする請求項1に記載の構造化文書検索システム。 - 前記規則記憶手段は、前記中間結果の件数に関する前記条件と、前記表現形式とを対応づけた前記規則をさらに記憶し、
前記対応づけ手段は、前記中間結果の件数が満たす前記条件に対応する前記表現形式を前記規則記憶手段から取得して前記実行プランに対応づけること、
を特徴とする請求項7に記載の構造化文書検索システム。 - 階層化された論理構造を有している複数の構造化文書を前記構造化文書ごとに分散して格納する複数の文書管理装置と、前記文書管理装置とネットワークを介して接続され、複数の前記文書管理装置から前記構造化文書を検索する検索装置と、を備えた構造化文書検索システムにおける構造化文書検索方法であって、
前記検索装置によって、前記構造化文書の検索要求に基づいて、前記構造化文書に対する検索処理の実行プランを生成するプラン生成ステップと、
前記検索装置によって、前記論理構造ごとに前記論理構造に対応する前記構造化文書内の構造要素と値に関する統計情報を記憶する構造情報記憶手段から、生成した前記実行プランの検索対象となる前記論理構造に対応する前記統計情報を取得する取得ステップと、
前記検索装置によって、前記統計情報に関する条件と、構造要素と値から構成される文字列を表現する表現形式とを対応づけた規則を記憶する規則記憶手段から、取得した前記統計情報が満たす前記条件に対応する前記表現形式を取得して前記実行プランに対応づける対応づけステップと、
前記検索装置によって、前記表現形式を対応づけた前記実行プランを前記文書管理装置に送信するプラン送信ステップと、
前記文書管理装置によって、前記表現形式を対応づけた前記実行プランを前記検索装置から受信するプラン受信ステップと、
前記文書管理装置によって、受信した前記実行プランを実行して得られた検索結果を、前記実行プランに対応づけられた前記表現形式で表すプラン実行ステップと、
前記文書管理装置によって、前記表現形式で表された前記検索結果を前記検索装置に送信する結果送信ステップと、
前記検索装置によって、前記実行プランの実行結果である検索結果を前記文書管理装置から受信する結果受信ステップと、
前記検索装置によって、前記検索結果を前記クライアント端末に送信する結果送信ステップと、
を備えたことを特徴とする構造化文書検索方法。 - 階層化された論理構造を有している複数の構造化文書を前記構造化文書ごとに分散して格納する複数の文書管理装置とネットワークを介して接続された検索装置であって、
前記論理構造ごとに、前記論理構造に対応する前記構造化文書内の構造要素と値に関する統計情報を記憶する構造情報記憶手段と、
前記統計情報に関する条件と、構造要素と値から構成される文字列を表現する表現形式とを対応づけた規則を記憶する規則記憶手段と、
ネットワークに接続されたクライアント端末からの前記構造化文書の検索要求に基づいて、前記構造化文書に対する検索処理の実行プランを生成するプラン生成手段と、
生成した前記実行プランの検索対象となる前記論理構造の前記統計情報が満たす前記条件に対応する前記表現形式を前記規則記憶手段から取得し、前記実行プランに対応づける対応づけ手段と、
前記表現形式を対応づけた前記実行プランを前記文書管理装置に送信するプラン送信手段と、
前記実行プランの実行結果である検索結果を前記文書管理装置から受信する結果受信手段と、
前記検索結果を前記クライアント端末に送信する結果送信手段と、を備えたこと、
を特徴とする検索装置。 - 階層化された論理構造を有している複数の構造化文書を検索する検索装置とネットワークを介して接続された文書管理装置であって、
前記構造化文書を前記構造化文書格納する文書格納手段と、
前記構造化文書に対する検索処理を実行するプランであって、構造要素と値から構成される文字列を表現する表現形式が対応づけられた実行プランを前記検索装置から受信するプラン受信手段と、
受信した前記実行プランを実行し、実行して得られた検索結果を、前記実行プランに対応づけられた前記表現形式で出力するプラン実行手段と、
前記表現形式で表された前記検索結果を前記検索装置に送信する結果送信手段と、を備えたこと、
を特徴とする文書管理装置。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006264836A JP4212615B2 (ja) | 2006-09-28 | 2006-09-28 | 構造化文書検索システム、構造化文書検索方法、検索装置、および文書管理装置 |
US11/846,042 US7953761B2 (en) | 2006-09-28 | 2007-08-28 | System, method, and apparatus for retrieving structured document and apparatus for managing structured document |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006264836A JP4212615B2 (ja) | 2006-09-28 | 2006-09-28 | 構造化文書検索システム、構造化文書検索方法、検索装置、および文書管理装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008084113A true JP2008084113A (ja) | 2008-04-10 |
JP4212615B2 JP4212615B2 (ja) | 2009-01-21 |
Family
ID=39262179
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006264836A Expired - Fee Related JP4212615B2 (ja) | 2006-09-28 | 2006-09-28 | 構造化文書検索システム、構造化文書検索方法、検索装置、および文書管理装置 |
Country Status (2)
Country | Link |
---|---|
US (1) | US7953761B2 (ja) |
JP (1) | JP4212615B2 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8914370B2 (en) | 2010-10-29 | 2014-12-16 | International Business Machines Corporation | Generating rules for classifying structured documents |
US9160771B2 (en) | 2009-07-22 | 2015-10-13 | International Business Machines Corporation | Method and apparatus for dynamic destination address control in a computer network |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101571859B (zh) * | 2008-04-28 | 2013-01-02 | 国际商业机器公司 | 用于对文档进行标注的方法和设备 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08305615A (ja) | 1995-05-10 | 1996-11-22 | Oki Electric Ind Co Ltd | データベース問い合わせシステム |
JP3754253B2 (ja) * | 1999-11-19 | 2006-03-08 | 株式会社東芝 | 構造化文書検索方法、構造化文書検索装置及び構造化文書検索システム |
JP2005018672A (ja) | 2003-06-30 | 2005-01-20 | Hitachi Ltd | 構造化文書の圧縮方法 |
KR100803285B1 (ko) * | 2003-10-21 | 2008-02-13 | 한국과학기술원 | 역 산술 부호화와 타입 추론 엔진을 이용한 질의 가능 엑스-엠-엘 압축 방법 |
JP4227033B2 (ja) | 2004-01-20 | 2009-02-18 | 富士通株式会社 | データベース統合参照装置、データベース統合参照方法およびデータベース統合参照プログラム |
JP4247135B2 (ja) * | 2004-02-10 | 2009-04-02 | 株式会社東芝 | 構造化文書記憶方法、構造化文書記憶装置、構造化文書検索方法 |
JP4562130B2 (ja) | 2005-02-21 | 2010-10-13 | 日本電信電話株式会社 | Xmlデータ処理装置、xmlデータ処理方法、xmlデータ処理プログラムおよびxmlデータ処理プログラムを記録した記憶媒体 |
JP4489029B2 (ja) | 2006-02-01 | 2010-06-23 | 株式会社東芝 | 構造化文書検索システムおよび構造化文書検索方法 |
-
2006
- 2006-09-28 JP JP2006264836A patent/JP4212615B2/ja not_active Expired - Fee Related
-
2007
- 2007-08-28 US US11/846,042 patent/US7953761B2/en not_active Expired - Fee Related
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9160771B2 (en) | 2009-07-22 | 2015-10-13 | International Business Machines Corporation | Method and apparatus for dynamic destination address control in a computer network |
US10079894B2 (en) | 2009-07-22 | 2018-09-18 | International Business Machines Corporation | Method and apparatus for dynamic destination address control in a computer network |
US10469596B2 (en) | 2009-07-22 | 2019-11-05 | International Business Machines Corporation | Method and apparatus for dynamic destination address control in a computer network |
US11165869B2 (en) | 2009-07-22 | 2021-11-02 | International Business Machines Corporation | Method and apparatus for dynamic destination address control in a computer network |
US8914370B2 (en) | 2010-10-29 | 2014-12-16 | International Business Machines Corporation | Generating rules for classifying structured documents |
Also Published As
Publication number | Publication date |
---|---|
US20080082478A1 (en) | 2008-04-03 |
JP4212615B2 (ja) | 2009-01-21 |
US7953761B2 (en) | 2011-05-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CA2522309C (en) | Retaining hierarchical information in mapping between xml documents and relational data | |
US7386567B2 (en) | Techniques for changing XML content in a relational database | |
US7024425B2 (en) | Method and apparatus for flexible storage and uniform manipulation of XML data in a relational database system | |
JP5699381B2 (ja) | バイナリにエンコードされたxmlデータの効率的な区分的アップデート | |
US7558791B2 (en) | System and method for ontology-based translation between directory schemas | |
US7181680B2 (en) | Method and mechanism for processing queries for XML documents using an index | |
JP5509596B2 (ja) | データ管理装置 | |
JP4489029B2 (ja) | 構造化文書検索システムおよび構造化文書検索方法 | |
US20100325169A1 (en) | Representing Markup Language Document Data in a Searchable Format in a Database System | |
US20050055343A1 (en) | Storing XML documents efficiently in an RDBMS | |
JP2005182835A (ja) | 異種のデータソースのためのデータサーバを生成する方法 | |
JPH11213014A (ja) | データベースシステム、データベース検索方法及び記録媒体 | |
WO2001033433A1 (en) | Method and apparatus for establishing and using an xml database | |
JP4212615B2 (ja) | 構造化文書検索システム、構造化文書検索方法、検索装置、および文書管理装置 | |
JP4681555B2 (ja) | ノード挿入方法、情報処理装置、および、ノード挿入プログラム | |
JP2001325290A (ja) | 文書ファイル検索システム | |
JP4854542B2 (ja) | 文書検索システム及び文書検索方法 | |
JP4724177B2 (ja) | Xmlデータにアクセスするためのインデックス | |
JP2006031377A (ja) | 構造化文書管理装置、検索装置、記憶方法、検索方法及びプログラム | |
KR100660028B1 (ko) | 데이터베이스 개념 구조에 기반한 xml 트리의 색인 및질의 방법 | |
Spertus et al. | Just-in-time databases and the World-Wide Web | |
Myaeng et al. | A Digital Library System for Easy Creation/Manipulation of New Documents from Existing Resources. | |
JP2004126804A (ja) | 文書管理方法および装置 | |
JP2004348485A (ja) | 構造化文書処理方法及び装置及び構造化文書処理プログラム及び構造化文書処理プログラムを格納した記憶媒体 | |
WO2003042873A1 (en) | Method and system for indexing and searching of semi-structured data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080327 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080729 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080918 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20081021 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20081028 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111107 Year of fee payment: 3 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 4212615 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111107 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111107 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121107 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131107 Year of fee payment: 5 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 Free format text: JAPANESE INTERMEDIATE CODE: R313114 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |