JP2007265248A - 構造化文書管理装置、構造化文書サブ管理装置、プログラムおよび構造化文書の管理方法 - Google Patents
構造化文書管理装置、構造化文書サブ管理装置、プログラムおよび構造化文書の管理方法 Download PDFInfo
- Publication number
- JP2007265248A JP2007265248A JP2006091991A JP2006091991A JP2007265248A JP 2007265248 A JP2007265248 A JP 2007265248A JP 2006091991 A JP2006091991 A JP 2006091991A JP 2006091991 A JP2006091991 A JP 2006091991A JP 2007265248 A JP2007265248 A JP 2007265248A
- Authority
- JP
- Japan
- Prior art keywords
- structured document
- structure information
- structured
- query
- sub
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】構造化文書の特徴となる構造情報に着目して構造化文書を格納する構造化文書サブ管理装置を選択し、選択した構造化文書サブ管理装置に構造化文書を格納する。これにより、構造情報の制約条件が厳密になる程、探索時に無駄な処理を省くことが可能となるので、データ転送や他の構造化文書サブ管理装置の結果待ちを極力少なくすることで効率的な探索処理を行うことができる。
【選択図】 図5
Description
(1)水平分割:ある基準に従って表形式のデータを行単位に分割して配置する。基準によって以下のような種類が存在する。
(ア)レンジ分割:ある連続値を持つ列について、値の範囲に基づいて行単位に分割する手法
(イ)ハッシュ分割:あるハッシュ関数に基づいて行単位に分割する手法
(ウ)リスト分割:離散値を持つ列について、列挙された値に基づいて行単位に分割する手法
(2)垂直分割:表形式のデータを列単位に幾つかのグループに分割して配置する手法。
(1)水平分割:ある基準に従ってXML文書単位に分割して配置する。基準は、条件式を持つXPathによって表現される。
(2)垂直分割:XML文書を構成するノードを幾つかのグループに分割して配置する。グループは、XPathを利用した式により表現される。
図1は、本発明の実施の一形態にかかる分散構成の構造化文書管理システムのシステム構築例を示す模式図である。分散構成の構造化文書管理システムは、図1に示すように、構造化文書管理装置として機能するメインのサーバコンピュータ(以下、メインサーバという)1にLAN(Local Area Network)等のネットワーク2を介して構造化文書サブ管理装置として機能するサブのサーバコンピュータ(以下、サブサーバという)3が複数台接続されたシステムを想定する。メインサーバ1およびサブサーバ3は、一般的なパーソナルコンピュータ等である。
まず、構造化文書格納処理にかかる機能について、分散構成の構造化文書管理システムの機能構成を示すブロック図である図3を参照して説明する
次に、構造化文書検索処理にかかる機能について、分散構成の構造化文書管理システムの機能構成を示すブロック図である図11を参照して説明する
次に、/book/authors/author[1]を取得するために、Traverseオペレータを各計算機で実施する[1,2,3]。
次に、let $x := …を取得するため、[1,2,3]で取得した結果を計算機1に移動し、結果をマージして変数$xに格納する[4,5,6]。
次に、$xは全ての計算機で必要となるためShipオペレータにより各計算機に転送する[7,8]。
次に、/book/authors/author[2]を取得するため[0]の変数を利用してTraverseオペレータを各計算機で実施する[9,10,11]。
次に、[6]と[9,10,11]の結果を各計算機でJoinする[12,13,14]。
次に、author[2]から/book/subtitleに取得するためにTraverseオペレータで各計算機で実行する[15,16,17]。
次に、for $y in …を取得するために、[15,16,17]で取得した結果を計算機1に移動し、結果をマージして変数$yに格納する[18,19,20]。
最後に、出力として$yの値を<サブタイトル一覧>のタグ内に追加して返却する[21]。
3 構造化文書サブ管理装置
11 構造化文書構文解析手段
12 構造化文書構造抽出手段
13 構造情報照合手段
14 構造情報格納部
15 構造化文書配置先選択手段
16 構造情報更新手段
17 固有構造情報取得手段
31 固有構造情報照合手段
32 固有構造情報更新手段
33 固有構造情報格納部
41 問合せ構文解析手段
42 問合せ構造抽出手段
43 問合せ構造照合手段
44 問合せプラン生成手段
45 問合せプラン最適化手段
46 問合せ処理実行手段
Claims (9)
- 構造化文書を複数の構造化文書サブ管理装置に分散させて管理する構造化文書管理装置において、
入力された前記構造化文書を構文解析する構造化文書構文解析手段と、
この構造化文書構文解析手段の構文解析結果から構造情報を抽出する構造化文書構造抽出手段と、
前記構造化文書管理装置で管理している全登録文書に対する構造情報を保持する構造情報格納部と、
この構造情報格納部内の全登録文書に対する構造情報と前記構造化文書構造抽出手段で抽出された構造化文書の構造情報とを比較し、前記構造化文書サブ管理装置が有している装置固有の構造情報に対する構造類似度を計算する構造情報照合手段と、
この構造情報照合手段における計算結果である構造類似度に基づいて、前記入力された構造化文書を格納する前記構造化文書サブ管理装置を決定する構造化文書配置先選択手段と、
を備えることを特徴とする構造化文書管理装置。 - 前記構造化文書構造抽出手段により抽出される構造情報は、前記構造化文書に現れる構造パスに対するその出現数の情報である、
ことを特徴とする請求項1記載の構造化文書管理装置。 - 前記構造化文書サブ管理装置が有している前記装置固有の構造情報の更新情報に基づき、前記構造情報格納部内の全登録文書に対する構造情報を更新する構造情報更新手段を更に備える、
ことを特徴とする請求項1または2記載の構造化文書管理装置。 - 全ての前記構造化文書サブ管理装置が有している前記装置固有の構造情報を取得して前記構造情報格納部に格納する固有構造情報取得手段を更に備える、
ことを特徴とする請求項1ないし3のいずれか一記載の構造化文書管理装置。 - 与えられた問合せクエリを構文解析する問合せ構文解析手段と、
この問合せ構文解析手段の構文解析結果から問合せクエリ内の構造指定部分を抽出する問合せ構造抽出手段と、
この問合せ構造抽出手段で抽出した構造指定部分と前記全登録文書に対する構造情報とを照合し、前記全登録文書に対する構造情報における構造指定部分のIDを獲得する問合せ構造照合手段と、
この問合せ構造照合手段の照合結果に基づいて問合せプランを生成する問合せプラン生成手段と、
この問合せプラン生成手段で作成した問合せプランに対して前記各構造化文書サブ管理装置が有している前記装置固有の構造情報を利用して不要な処理を削除して最適化を実施する問合せプラン最適化手段と、
この問合せプラン最適化手段により最適化された生成プランに従うことにより前記問合せクエリの出力に合致するデータを取得して出力する問合せ処理実行手段と、
を備えることを特徴とする請求項1ないし4のいずれか一記載の構造化文書管理装置。 - 構造化文書管理装置からの指示に従って構造化文書を分散格納する構造化文書サブ管理装置において、
装置固有の構造情報を保持する固有構造情報格納部と、
この固有構造情報格納部内の装置固有の構造情報と前記構造化文書管理装置から送られた前記構造化文書の構造情報とを比較する固有構造情報照合手段と、
この固有構造情報照合手段における照合結果に基づき、前記固有構造情報格納部内の装置固有の構造情報を更新する固有構造情報更新手段と、
を備えることを特徴とする構造化文書サブ管理装置。 - 構造化文書を複数の構造化文書サブ管理装置に分散させて管理する構造化文書管理装置を制御するコンピュータを動作させるプログラムであって、
入力された前記構造化文書を構文解析する構造化文書構文解析機能と、
この構造化文書構文解析機能の構文解析結果から構造情報を抽出する構造化文書構造抽出機能と、
構造情報格納部内に保持されていて前記構造化文書管理装置で管理している全登録文書に対する構造情報と前記構造化文書構造抽出機能で抽出された構造化文書の構造情報とを比較し、前記構造化文書サブ管理装置が有している装置固有の構造情報に対する構造類似度を計算する構造情報照合機能と、
この構造情報照合機能における計算結果である構造類似度に基づいて、前記入力された構造化文書を格納する前記構造化文書サブ管理装置を決定する構造化文書配置先選択機能と、
を前記コンピュータに実行させることを特徴とするプログラム。 - 構造化文書管理装置からの指示に従って構造化文書を分散格納する構造化文書サブ管理装置を制御するコンピュータを動作させるプログラムであって、
装置固有の構造情報を保持する固有構造情報格納部内の装置固有の構造情報と前記構造化文書管理装置から送られた前記構造化文書の構造情報とを比較する固有構造情報照合機能と、
この固有構造情報照合機能における照合結果に基づき、前記固有構造情報格納部内の装置固有の構造情報を更新する固有構造情報更新機能と、
を前記コンピュータに実行させることを特徴とするプログラム。 - 構造化文書を複数の構造化文書サブ管理装置に分散格納して管理する構造化文書管理装置における構造化文書の管理方法であって、
前記構造化文書を分散格納する際に、前記構造化文書の構造情報に着目して前記構造化文書を格納する前記構造化文書サブ管理装置を選択する、
ことを特徴とする構造化文書の管理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006091991A JP4489047B2 (ja) | 2006-03-29 | 2006-03-29 | 構造化文書管理装置、構造化文書管理システムおよびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006091991A JP4489047B2 (ja) | 2006-03-29 | 2006-03-29 | 構造化文書管理装置、構造化文書管理システムおよびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2007265248A true JP2007265248A (ja) | 2007-10-11 |
JP4489047B2 JP4489047B2 (ja) | 2010-06-23 |
Family
ID=38638143
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006091991A Active JP4489047B2 (ja) | 2006-03-29 | 2006-03-29 | 構造化文書管理装置、構造化文書管理システムおよびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4489047B2 (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009211154A (ja) * | 2008-02-29 | 2009-09-17 | Toshiba Corp | データベース処理装置、情報処理方法及びプログラム |
JP2012093829A (ja) * | 2010-10-25 | 2012-05-17 | Toshiba Corp | 検索装置、検索方法および検索プログラム |
JP2013003695A (ja) * | 2011-06-14 | 2013-01-07 | Toshiba Corp | 分散データベース検索装置、分散データベース検索方法、及びプログラム |
CN107607203A (zh) * | 2017-09-08 | 2018-01-19 | 武汉大学 | 基于结构相似度的显著性波段选择方法 |
-
2006
- 2006-03-29 JP JP2006091991A patent/JP4489047B2/ja active Active
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009211154A (ja) * | 2008-02-29 | 2009-09-17 | Toshiba Corp | データベース処理装置、情報処理方法及びプログラム |
JP2012093829A (ja) * | 2010-10-25 | 2012-05-17 | Toshiba Corp | 検索装置、検索方法および検索プログラム |
US9047391B2 (en) | 2010-10-25 | 2015-06-02 | Kabushiki Kaisha Toshiba | Searching apparatus, searching method, and computer program product |
JP2013003695A (ja) * | 2011-06-14 | 2013-01-07 | Toshiba Corp | 分散データベース検索装置、分散データベース検索方法、及びプログラム |
CN107607203A (zh) * | 2017-09-08 | 2018-01-19 | 武汉大学 | 基于结构相似度的显著性波段选择方法 |
CN107607203B (zh) * | 2017-09-08 | 2019-08-06 | 武汉大学 | 基于结构相似度的显著性波段选择方法 |
Also Published As
Publication number | Publication date |
---|---|
JP4489047B2 (ja) | 2010-06-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5121146B2 (ja) | 構造化文書管理装置、構造化文書管理プログラムおよび構造化文書管理方法 | |
US7634498B2 (en) | Indexing XML datatype content system and method | |
JP3842573B2 (ja) | 構造化文書検索方法、構造化文書管理装置及びプログラム | |
JP5710851B2 (ja) | 影響分析のためのシステムおよび方法 | |
US7490078B2 (en) | Stream data processing system and method for avoiding duplication of data process | |
JP2008052662A (ja) | 構造化文書管理システム及びプログラム | |
JP2007034827A (ja) | 構造化文書記憶装置、構造化文書検索装置、構造化文書システム、方法およびプログラム | |
JP4343206B2 (ja) | 構造化文書検索支援装置およびプログラム | |
US8595215B2 (en) | Apparatus, method, and computer program product for processing query | |
JP4489047B2 (ja) | 構造化文書管理装置、構造化文書管理システムおよびプログラム | |
US9378301B2 (en) | Apparatus, method, and computer program product for searching structured document | |
JP5072871B2 (ja) | 構造化文書検索システム、装置、及び方法 | |
JP2006127235A (ja) | 構造化文書管理システム、構造化文書管理方法及びプログラム | |
JP2003281149A (ja) | アクセス権限設定方法および構造化文書管理システム | |
JP2008077285A (ja) | Sql管理システムとsql管理方法およびプログラム | |
JP4649339B2 (ja) | XPath処理装置、XPath処理方法、XPath処理プログラム、および、記憶媒体 | |
JP2008243075A (ja) | 構造化文書管理装置及び方法 | |
JP2002297601A (ja) | 構造化文書管理方法および構造化文書管理装置およびプログラム | |
JP2011154602A (ja) | 文字列管理装置、文字列登録方法、文字列検索方法および文字列管理プログラム | |
JP4393498B2 (ja) | 構造化文書管理システム及びプログラム | |
JP5439606B1 (ja) | 構造化文書管理装置、方法およびプログラム | |
JP3842574B2 (ja) | 情報抽出方法および構造化文書管理装置およびプログラム | |
JP5296128B2 (ja) | 構造化文書管理装置、方法およびプログラム | |
Jota et al. | A physical design strategy on a nosql dbms | |
JP2008234429A (ja) | 部分ライブラリ構築装置、プログラムおよび部分ライブラリ構築方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070926 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090804 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20091005 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100302 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100330 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130409 Year of fee payment: 3 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 4489047 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130409 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140409 Year of fee payment: 4 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 Free format text: JAPANESE INTERMEDIATE CODE: R313114 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |