JP4189416B2 - 構造化文書管理システム及びプログラム - Google Patents
構造化文書管理システム及びプログラム Download PDFInfo
- Publication number
- JP4189416B2 JP4189416B2 JP2006231012A JP2006231012A JP4189416B2 JP 4189416 B2 JP4189416 B2 JP 4189416B2 JP 2006231012 A JP2006231012 A JP 2006231012A JP 2006231012 A JP2006231012 A JP 2006231012A JP 4189416 B2 JP4189416 B2 JP 4189416B2
- Authority
- JP
- Japan
- Prior art keywords
- index
- node
- text
- structured document
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/80—Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML
- G06F16/81—Indexing, e.g. XML tags; Data structures therefor; Storage structures
Description
<住所>
<都道府県>東京都</都道府県>
<市町村>府中市武蔵台</市町村>
<番地>一丁目一番地十五</番地>
</住所>
のようなデータを含むXML文書に対して、「住所に"東京都府中市"が含まれる」という条件で検索する場合を想定する。
文書#1:
<住所>
<都道府県>東京都</都道府県>
<市町村>府中市武蔵台</市町村>
<番地>一丁目一番地十五</番地>
</住所>
文書#2:
<住所>
<都道府県>東京都</都道府県>
<区>港区</区>
<市町村>芝浦</市町村>
<番地>一丁目一番地一</番地>
</住所>
に対して作成される索引を利用したXML文書検索で、東京都に対してのみ<市町村>タグに加えて<区>タグを利用する場合を想定する。具体的には、「住所に"東京都港区芝浦"が含まれる」という条件で検索するものとする。この場合、クエリは「/住所[都道府県/text()="東京都" AND 区/text()="港区"AND[contains(市町村/text(),"芝浦")]」となり、条件の値だけでなくクエリそのものも書き換える必要が生じる。
図1は本発明の一実施形態に係る構造化文書管理システムを含むクライアント−サーバシステムのハードウェア構成を示すブロック図である。クライアント−サーバシステムは、主として、データベースサーバ(データベースサーバコンピュータ)10と、複数のクライアント端末とから構成される。複数のクライアント端末はクライアント端末20を含む。クライアント端末20上では、データベースサーバ10を利用するアプリケーション(アプリケーションプログラム)が動作する。クライアント端末20を含む複数のクライアント端末は、ローカルエリアネットワーク(LAN)のようなネットワーク30を介してデータベースサーバ10と接続されている。なお、図1にはクライアント端末20以外のクライアント端末は省略されている。
まず、索引設定処理について図3のフローチャートを参照して説明する。
今、クライアント端末20上では、当該端末20から構造化文書管理システム50を利用するためのアプリケーションが動作しているものとする。このような状態において、ユーザは構造化文書管理システム50上で複数のテキストノードを跨った検索が必要な場合、クライアント端末20を操作して、当該複数のテキストノードの値をそれぞれ要素の内容として含む要素ノードを下位ノードとするノード(タグ)を指定する。そしてユーザはクライアント端末20を操作して、XML文書(の階層構造)上で、指定されたノード(指定ノード)以下に出現する、例えば全てのテキストノードの値(テキスト)を連結して索引(文字列結合索引)を作成することを指示する索引作成要求をクライアント端末20から発行させる。指定ノードは、テキスト連結による索引作成の起点となると共に、作成された索引が設定(付与)されるノードである。
次に、文書登録処理について図7のフローチャートを参照して説明する。
今、ユーザによるクライアント端末20の操作に従い、当該端末20からデータベースサーバ10に対して新たにXML文書を登録することを指示する文書登録要求(文書登録コマンド)が発行されたものとする(ステップS11)。この登録要求は、データベースサーバ10(構造化文書管理システム50)のコマンド管理部51で受け取られる。
解析された情報が開始タグの場合、ドキュメント管理部52は文字列連結を開始する(ステップS17)。解析された情報がテキストの場合、ドキュメント管理部52は当該テキスト(文字列)を例えばデータベースサーバ10のメモリに確保されている文字列連結領域内で連結する処理を実行する(ステップS18)。解析された情報が終了タグの場合、ドキュメント管理部52は索引管理部54を起動して、その時点において文字列連結領域内で連結されている文字列による索引化を当該索引管理部54に行わせる(ステップS19)。
次に、文書検索処理について図10のフローチャートを参照して説明する。
今、ユーザによるクライアント端末20の操作に従い、当該端末20からデータベースサーバ10に対してXML文書を検索することを指示する検索要求が発行されたものとする(ステップS31)。この検索要求は、データベースサーバ10(構造化文書管理システム50)のコマンド管理部51で受け取られる。
次に、上記実施形態の第1の変形例について説明する。
上記実施形態では、指定ノード(タグ)以下に出現する全てのテキストノード(の値)が連結される。しかし、一部のテキストノードだけを検索条件として利用するような場合、その部分だけを索引化することにより、索引のボリュームが削減され、つまり外部記憶装置40の記憶領域の中で索引格納部422の占める領域が少なくて済み、且つ検索の高速化が期待される。そこで第1の変形例の特徴は、指定ノード以下に出現する全てのテキストノードのうちの一部の複数のテキストノード(の値)だけを連結して索引化する点にある。
次に上記実施形態の第2の変形例について説明する。この第2の変形例の特徴は、クライアント端末20からの索引作成要求により、索引化の対象となるテキストノードの優先順位(連結する順序)が指定されている場合に、その指定された優先順位に基づいて索引化の対象となるテキストノードを順序付けして管理する点にある。
次に、上記実施形態の第3の変形例について説明する。
XML文書によっては、ノードの構造だけでは値の型を特定できないことがある。検索条件で値の型が指定されている場合、このようなXML文書を高速に検索することは難しい。第3の変形例の特徴は、クライアント端末20からの索引作成要求に従う索引作成時に、ノードの値を当該要求で指定された型に変換する点にある。
Claims (5)
- 複数の構造化文書を管理する構造化文書管理システムにおいて、
複数の構造化文書を格納する構造化文書格納手段と、
前記構造化文書格納手段に格納されている構造化文書を検索するのに用いられる索引データを格納する索引格納手段と、
構造化文書上のノードを当該ノードの構造を表すパスにより指定するための指定ノードパス情報を含み、前記指定ノードパス情報によって指定されるノードを有する構造化文書に含まれている当該指定されるノード以下に出現する複数のテキストノードの値が連結された文字列結合索引データを当該指定されるノードに付与される索引として作成することを指示するための外部から与えられる索引作成要求に基づき、前記指定ノードパス情報と作成されるべき索引が文字列結合索引であることを示す索引種別情報とを含む索引設定情報を索引設定情報格納手段に登録する索引設定手段と、
前記構造化文書格納手段に格納される構造化文書から、前記索引設定情報格納手段に登録されている索引設定情報に前記文字列結合索引であることを示す索引種別情報と共に含まれている前記指定ノードパス情報によって指定されるノードを検出する検出手段と、
前記検出手段によって検出されたノードを有する前記構造化文書に含まれている当該検出されたノード以下に出現する複数のテキストノードの値を連結することにより、当該検出されたノードに付与される文字列結合索引データを作成し、当該作成された文字列結合索引データを前記索引格納手段に格納する索引管理手段と
を具備することを特徴とする構造化文書管理システム。 - 外部から与えられる検索要求の示す検索条件を満たす文字列結合索引データを前記索引格納手段から検索する索引検索手段と、
前記索引検索手段によって検索された文字列結合索引データを利用して構造化文書検索を行う構造化文書検索手段と
を更に具備することを特徴とする請求項1記載の構造化文書管理システム。 - 前記索引設定手段は、前記索引作成要求に、前記指定ノードパス情報に加えて、前記指定ノードパス情報によって指定されるノードを有する構造化文書に含まれている当該指定されるノード以下に出現する全てのテキストノードのうち索引化の対象とすべきテキストノードを当該テキストノードの構造を表すパスにより指定するための結合対象パス情報が含まれている場合、前記指定ノードパス情報と作成されるべき索引が文字列結合索引であることを示す索引種別情報とに加えて当該結合対象パス情報を含む索引設定情報を前記索引設定情報格納手段に登録し、
前記索引管理手段は、前記索引設定情報格納手段に登録されている索引設定情報に前記結合対象パス情報が含まれている場合、前記検出手段によって検出されたノードを有する前記構造化文書に含まれている当該ノード以下に出現する全てのテキストノードのうち前記結合対象パス情報によって指定されるテキストノードの値だけを連結することにより、前記検出されたノードに付与される文字列結合索引データを作成することを特徴とする請求項1記載の構造化文書管理システム。 - 前記索引設定手段は、前記索引作成要求に、前記指定ノードパス情報及び前記結合対象パス情報に加えて、前記結合対象パス情報によって指定されるテキストノードの優先順位を指定する情報が含まれている場合、前記指定ノードパス情報と作成されるべき索引が文字列結合索引であることを示す索引種別情報と前記結合対象パス情報とに加えて、前記結合対象パス情報によって指定されるテキストノードの前記優先順位を指定する情報を含む索引設定情報を前記索引設定情報格納手段に登録し、
前記索引管理手段は、前記索引設定情報格納手段に登録されている索引設定情報に、前記指定ノードパス情報及び前記結合対象パス情報に加えて、前記結合対象パス情報によって指定されるテキストノードの前記優先順位を指定する情報が含まれている場合、構造化文書毎に作成されて前記索引格納手段に格納される文字列結合索引データを、当該索引格納手段内で、当該優先順位が高いテキストノードの値を優先させて整列させることを特徴とする請求項3記載の構造化文書管理システム。 - 構造化文書格納手段に格納されている複数の構造化文書、及び前記構造化文書格納手段に格納されている構造化文書を検索するのに用いられ、索引格納手段に格納されている索引データを管理するデータベースサーバに、
構造化文書上のノードを当該ノードの構造を表すパスにより指定するための指定ノードパス情報を含み、前記指定ノードパス情報によって指定されるノードを有する構造化文書に含まれている当該指定されるノード以下に出現する複数のテキストノードの値が連結された文字列結合索引データを当該指定されるノードに付与される索引として作成することを指示するための外部から与えられる索引作成要求を受け付けるステップと、
前記受け付けられた索引作成要求に基づき、前記指定ノードパス情報と作成されるべき索引が文字列結合索引であることを示す索引種別情報とを含む索引設定情報を索引設定情報格納手段に登録するステップと、
前記構造化文書格納手段に格納される構造化文書から、前記索引設定情報格納手段に登録されている索引設定情報に前記文字列結合索引であることを示す索引種別情報と共に含まれている前記指定ノードパス情報によって指定されるノードを検出するステップと、
前記検出されたノードを有する前記構造化文書に含まれている当該検出されたノード以下に出現する複数のテキストノードの値を連結することにより、前記検出されたノードに付与される文字列結合索引データを作成し、当該作成された文字列結合索引データを前記索引格納手段に格納するステップと
実行させるためのプログラム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006231012A JP4189416B2 (ja) | 2006-08-28 | 2006-08-28 | 構造化文書管理システム及びプログラム |
US11/892,781 US20080059417A1 (en) | 2006-08-28 | 2007-08-27 | Structured document management system and method of managing indexes in the same system |
CNB200710147754XA CN100561480C (zh) | 2006-08-28 | 2007-08-28 | 结构化文档管理系统和管理在所述系统中的索引的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006231012A JP4189416B2 (ja) | 2006-08-28 | 2006-08-28 | 構造化文書管理システム及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008052662A JP2008052662A (ja) | 2008-03-06 |
JP4189416B2 true JP4189416B2 (ja) | 2008-12-03 |
Family
ID=39153190
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006231012A Active JP4189416B2 (ja) | 2006-08-28 | 2006-08-28 | 構造化文書管理システム及びプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US20080059417A1 (ja) |
JP (1) | JP4189416B2 (ja) |
CN (1) | CN100561480C (ja) |
Families Citing this family (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080028302A1 (en) * | 2006-07-31 | 2008-01-31 | Steffen Meschkat | Method and apparatus for incrementally updating a web page |
US8126932B2 (en) * | 2008-12-30 | 2012-02-28 | Oracle International Corporation | Indexing strategy with improved DML performance and space usage for node-aware full-text search over XML |
US8219563B2 (en) * | 2008-12-30 | 2012-07-10 | Oracle International Corporation | Indexing mechanism for efficient node-aware full-text search over XML |
US20120130999A1 (en) * | 2009-08-24 | 2012-05-24 | Jin jian ming | Method and Apparatus for Searching Electronic Documents |
US9165086B2 (en) | 2010-01-20 | 2015-10-20 | Oracle International Corporation | Hybrid binary XML storage model for efficient XML processing |
US8346813B2 (en) * | 2010-01-20 | 2013-01-01 | Oracle International Corporation | Using node identifiers in materialized XML views and indexes to directly navigate to and within XML fragments |
US20110264668A1 (en) * | 2010-04-27 | 2011-10-27 | Salesforce.Com, Inc. | Methods and Systems for Providing Secondary Indexing in a Multi-Tenant Database Environment |
US8447785B2 (en) | 2010-06-02 | 2013-05-21 | Oracle International Corporation | Providing context aware search adaptively |
US8566343B2 (en) | 2010-06-02 | 2013-10-22 | Oracle International Corporation | Searching backward to speed up query |
US8442998B2 (en) * | 2011-01-18 | 2013-05-14 | Apple Inc. | Storage of a document using multiple representations |
US8996985B1 (en) | 2011-03-16 | 2015-03-31 | Google Inc. | Online document processing service for displaying comments |
US8266245B1 (en) | 2011-10-17 | 2012-09-11 | Google Inc. | Systems and methods for incremental loading of collaboratively generated presentations |
US8812946B1 (en) | 2011-10-17 | 2014-08-19 | Google Inc. | Systems and methods for rendering documents |
US20150199308A1 (en) | 2011-10-17 | 2015-07-16 | Google Inc. | Systems and methods for controlling the display of online documents |
US8434002B1 (en) * | 2011-10-17 | 2013-04-30 | Google Inc. | Systems and methods for collaborative editing of elements in a presentation document |
US8471871B1 (en) | 2011-10-17 | 2013-06-25 | Google Inc. | Authoritative text size measuring |
US10430388B1 (en) | 2011-10-17 | 2019-10-01 | Google Llc | Systems and methods for incremental loading of collaboratively generated presentations |
US9367522B2 (en) | 2012-04-13 | 2016-06-14 | Google Inc. | Time-based presentation editing |
US9529785B2 (en) | 2012-11-27 | 2016-12-27 | Google Inc. | Detecting relationships between edits and acting on a subset of edits |
US9971752B2 (en) | 2013-08-19 | 2018-05-15 | Google Llc | Systems and methods for resolving privileged edits within suggested edits |
US9348803B2 (en) | 2013-10-22 | 2016-05-24 | Google Inc. | Systems and methods for providing just-in-time preview of suggestion resolutions |
US9940351B2 (en) | 2015-03-11 | 2018-04-10 | International Business Machines Corporation | Creating XML data from a database |
DE102016206046A1 (de) * | 2016-04-12 | 2017-10-12 | Siemens Aktiengesellschaft | Gerät und Verfahren zur Bearbeitung eines binärkodierten Strukturdokuments |
EP3590056A1 (en) * | 2017-03-03 | 2020-01-08 | Perkinelmer Informatics, Inc. | Systems and methods for searching and indexing documents comprising chemical information |
US11657088B1 (en) * | 2017-11-08 | 2023-05-23 | Amazon Technologies, Inc. | Accessible index objects for graph data structures |
CN115203378B (zh) * | 2022-09-09 | 2023-01-24 | 北京澜舟科技有限公司 | 基于预训练语言模型的检索增强方法、系统及存储介质 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3842577B2 (ja) * | 2001-03-30 | 2006-11-08 | 株式会社東芝 | 構造化文書検索方法および構造化文書検索装置およびプログラム |
US7580918B2 (en) * | 2006-03-03 | 2009-08-25 | Adobe Systems Incorporated | System and method of efficiently representing and searching directed acyclic graph structures in databases |
-
2006
- 2006-08-28 JP JP2006231012A patent/JP4189416B2/ja active Active
-
2007
- 2007-08-27 US US11/892,781 patent/US20080059417A1/en not_active Abandoned
- 2007-08-28 CN CNB200710147754XA patent/CN100561480C/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN100561480C (zh) | 2009-11-18 |
JP2008052662A (ja) | 2008-03-06 |
US20080059417A1 (en) | 2008-03-06 |
CN101136033A (zh) | 2008-03-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4189416B2 (ja) | 構造化文書管理システム及びプログラム | |
US7054854B1 (en) | Structured document search method, structured document search apparatus and structured document search system | |
US7975220B2 (en) | Apparatus, program product and method for structured document management | |
US8145668B2 (en) | Associating information related to components in structured documents stored in their native format in a database | |
US7539701B2 (en) | Generic infrastructure for migrating data between applications | |
US7822788B2 (en) | Method, apparatus, and computer program product for searching structured document | |
US8176030B2 (en) | System and method for providing full-text search integration in XQuery | |
JP2008171181A (ja) | 構造化データ検索装置 | |
JP2005227851A (ja) | 構造化データ記憶方法および装置 | |
JPH11328218A (ja) | コンテンツ属性情報正規化方法、情報収集・サービス提供システム、属性情報設定装置並びにプログラム格納記録媒体 | |
JP2005190163A (ja) | 構造化データ検索方法、構造化データ検索装置およびプログラム | |
JP2009544102A (ja) | Xml文書の、意味論を意識した処理 | |
US8171040B2 (en) | Method and system for navigation of a data structure | |
JP3914081B2 (ja) | アクセス権限設定方法および構造化文書管理システム | |
JP2006127235A (ja) | 構造化文書管理システム、構造化文書管理方法及びプログラム | |
JP3632643B2 (ja) | 構造化文書管理装置 | |
JP4866844B2 (ja) | Lobに格納されたxml内容の効率的な抽出 | |
JP2002297662A (ja) | 構造化文書編集方法および構造化文書編集装置および端末装置およびプログラム | |
JP3923961B2 (ja) | Xml異体字検索システムおよびxml異体字検索方法 | |
US7562295B1 (en) | Representing spelling and grammatical error state in an XML document | |
JP3842574B2 (ja) | 情報抽出方法および構造化文書管理装置およびプログラム | |
JP4304226B2 (ja) | 構造化文書管理システム、構造化文書管理方法及びプログラム | |
JP3910901B2 (ja) | 文書構造検索方法、文書構造検索装置および文書構造検索プログラム | |
JP2006018584A (ja) | 構造化文書管理システム、値索引生成方法及びプログラム | |
JP6172447B2 (ja) | 関連性判定システム、方法、およびプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080520 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080718 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20080909 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20080912 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4189416 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110919 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120919 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120919 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130919 Year of fee payment: 5 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |