JP2008243077A - Structured document management device, method, and program - Google Patents
Structured document management device, method, and program Download PDFInfo
- Publication number
- JP2008243077A JP2008243077A JP2007085978A JP2007085978A JP2008243077A JP 2008243077 A JP2008243077 A JP 2008243077A JP 2007085978 A JP2007085978 A JP 2007085978A JP 2007085978 A JP2007085978 A JP 2007085978A JP 2008243077 A JP2008243077 A JP 2008243077A
- Authority
- JP
- Japan
- Prior art keywords
- structured document
- vocabulary
- index
- document management
- structured
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
本発明は、複数の構造化文書を分散して管理する構造化文書管理装置、方法及びシステムに関する。 The present invention relates to a structured document management apparatus, method, and system for managing a plurality of structured documents in a distributed manner.
分散データベースにおける問い合わせ処理では、結合演算を行うためにノード間で中間データを転送しなければならない場合があり、データ転送に要する時間が処理遅延の一要因となっている。分散リレーショナルデータベース(RDB)の場合は、結合演算で用いられるキー(外部キー)は予め定められており、また、キー値でなくともフィールドサイズはテーブル作成時に決まっているので、ノード間で転送するデータ量は分散データベースと比べて小さく、データ転送処理に要する時間も短い。 In query processing in a distributed database, intermediate data may have to be transferred between nodes in order to perform a join operation, and the time required for data transfer is a factor in processing delay. In the case of a distributed relational database (RDB), the key (foreign key) used in the join operation is determined in advance, and the field size is determined at the time of table creation even if it is not a key value, so it is transferred between nodes. The amount of data is small compared to a distributed database, and the time required for data transfer processing is also short.
一方、分散XMLデータベースでは、どの要素の値で結合演算を行うかといった、RDBにおける外部キーに相当するものは定められておらず、また、要素毎に保持する文字列の最大長も定められていない。そのため、結合処理のために長大な文字列をノード間で大量に転送するような場合には、データ転送処理に多大な時間を要するという問題がある。また、構造化文書は、一般に不定長の文字列を多く含むため、その転送処理には比較的大きな時間がかかっており、転送処理時間の短縮が課題となっている。 On the other hand, in the distributed XML database, the value corresponding to the foreign key in RDB such as which element value is used for the join operation is not defined, and the maximum length of the character string held for each element is also defined. Absent. Therefore, when a large character string is transferred between nodes in large quantities for the joining process, there is a problem that a long time is required for the data transfer process. In addition, a structured document generally includes a large number of character strings of indefinite length, so that the transfer process takes a relatively long time, and shortening the transfer process time is an issue.
ところで、分散データベースの分野では、ノード間で転送するデータを圧縮することで、転送するデータ量を削減し、転送処理に要する時間を短縮することが一般に行われている。XMLデータベースの分野においても、転送対象の構造化文書又はその一部分を圧縮し、転送データ量の削減を図ることで、上記転送処理に関する問題の解決を図った技術が提案されている。例えば、特許文献1には、タグを含む文書で構成された文字列ストリームからタグを分離し、タグが分離された文字列ストリームの位置に識別のためにタグ符号を配置した後、この文字列ストリームを符号化して出力する技術が開示されている。 Incidentally, in the field of distributed databases, it is common practice to reduce the amount of data to be transferred and reduce the time required for transfer processing by compressing the data to be transferred between nodes. Also in the field of XML databases, a technique has been proposed in which the structured document to be transferred or a part thereof is compressed to reduce the amount of transferred data, thereby solving the problems related to the transfer process. For example, in Patent Document 1, a tag is separated from a character string stream composed of a document including a tag, a tag code is arranged for identification at the position of the character string stream from which the tag is separated, and then the character string A technique for encoding and outputting a stream is disclosed.
しかしながら、特許文献1の技術では、あらゆる語彙に対応するため、転送対象の構造化文書に含まれる語彙とは無関係に、約13万語の単語を登録した辞書を予め保持する必要があり、符号化処理に係るデータ量が増大化するという問題がある。また、特許文献1の技術のように、辞書式の符号化手法でデータの圧縮を行う場合、転送データ量を小さくできるため転送に要する時間は短縮できるが、辞書中から該当する単語を検索する処理に時間を要するため、結果的に圧縮・解凍に時間を要することになる。そのため、伝送を行うネットワークが比較的高速な場合には、圧縮・転送・解凍を合わせた場合の処理時間と、圧縮を行わずに転送した場合の処理時間とが同等となることがあるため、転送時間の改善とならない可能性がある。 However, since the technique of Patent Document 1 supports all vocabularies, it is necessary to store a dictionary in which approximately 130,000 words are registered in advance regardless of the vocabulary included in the structured document to be transferred. There is a problem that the amount of data related to the digitization process increases. In addition, when data is compressed by a lexicographic encoding method as in the technique of Patent Document 1, the amount of data to be transferred can be reduced, so that the time required for transfer can be shortened, but a corresponding word is searched from the dictionary. Since processing takes time, as a result, time is required for compression / decompression. Therefore, if the network that performs the transmission is relatively fast, the processing time when combining compression, transfer, and decompression may be equivalent to the processing time when transferring without compression, The transfer time may not improve.
本発明は上記に鑑みてなされたものであって、複数の構造化文書を分散して管理する構造化文書管理装置間において、構造化文書の送受信を効率的に行うことが可能な構造化文書管理装置、方法及びシステムを提供することを目的とする。 The present invention has been made in view of the above, and is a structured document capable of efficiently transmitting and receiving structured documents between structured document management apparatuses that manage a plurality of structured documents in a distributed manner. An object is to provide a management apparatus, method, and system.
上述した課題を解決し、目的を達成するために、本発明は、ネットワーク上に接続された他の構造化文書管理装置とともに複数の構造化文書を分散して記憶し、当該他の構造化文書管理装置との間で共通化された前記構造化文書を構成する各要素のタグ構造の種別毎に固有の構造IDと、前記構造化文書を構成する各要素に含まれる語彙毎に固有の語彙IDと、に基づいて前記複数の構造化文書を管理する構造化文書管理装置において、前記構造化文書を記憶する構造化文書記憶手段と、前記構造化文書記憶手段に記憶された構造化文書を構成する各要素のタグ構造と、当該タグ構造の種別毎に固有の前記構造IDと、を対応付けた構造索引を記憶する構造索引記憶手段と、前記構造化文書記憶手段に記憶された構造化文書の各要素に含まれた文字列部分を構成する各語彙と、当該語彙の種別毎に固有の前記語彙IDと、を対応付けた語彙索引を記憶する語彙索引記憶手段と、前記構造索引及び語彙索引に基づいて、前記構造化文書記憶手段に記憶された構造化文書を前記構造ID及び語彙IDの配列に変換した符号化データを生成し、前記他の構造化文書管理装置に送信する符号化手段と、前記他の構造化文書管理装置から符号化データを受信した際に、前記構造索引及び語彙索引に基づいて、当該符号化データを構造化文書に復元する復元手段と、を備える。 In order to solve the above-described problems and achieve the object, the present invention distributes and stores a plurality of structured documents together with other structured document management apparatuses connected on the network, and the other structured documents. A unique structure ID for each type of tag structure of each element constituting the structured document shared with the management apparatus, and a unique vocabulary for each vocabulary included in each element constituting the structured document In a structured document management apparatus for managing the plurality of structured documents based on an ID, structured document storage means for storing the structured document, and structured documents stored in the structured document storage means A structure index storage means for storing a structure index in which a tag structure of each constituent element and a structure ID unique to each tag structure type are associated; and a structure stored in the structured document storage means Contained in each element of the document Vocabulary index storage means for storing a vocabulary index in which each vocabulary constituting a character string portion and the vocabulary ID unique to each vocabulary type are associated, and the structure index based on the structure index and the vocabulary index. Encoding means for generating encoded data obtained by converting the structured document stored in the structured document storage means into an array of the structure ID and the vocabulary ID, and transmitting the encoded data to the other structured document management apparatus; and the other structure When receiving encoded data from the structured document management apparatus, a restoration unit restores the coded data into a structured document based on the structure index and the vocabulary index.
また、本発明は、ネットワーク上に接続された他の構造化文書管理装置とともに複数の構造化文書を分散して記憶し、当該他の構造化文書管理装置との間で共通化された前記構造化文書を構成する各要素のタグ構造の種別毎に固有の構造IDと、前記構造化文書を構成する各要素に含まれる語彙毎に固有の語彙IDと、に基づいて前記複数の構造化文書を管理する構造化文書管理装置の構造化文書管理方法であって、自己の構造化文書管理装置に記憶された構造化文書を構成する各要素のタグ構造と、当該タグ構造の種別毎に固有の前記構造IDと、を対応付けた構造索引を記憶する構造索引、及び、自己の構造化文書管理装置に記憶された構造化文書の各要素に含まれた文字列部分を構成する各語彙と、当該語彙の種別毎に固有の前記語彙IDと、を対応付けた語彙索引に基づいて、自己の構造化文書管理装置に記憶された構造化文書を前記構造ID及び語彙IDの配列に変換した符号化データを生成し、前記他の構造化文書管理装置に送信する符号化工程と、前記他の構造化文書管理装置から符号化データを受信した際に、前記構造索引及び語彙索引に基づいて、当該符号化データを構造化文書に復元する復元工程と、を含む。 In addition, the present invention provides a structure in which a plurality of structured documents are distributed and stored together with other structured document management apparatuses connected on a network, and is shared with the other structured document management apparatuses. The plurality of structured documents based on a unique structure ID for each tag structure type of each element constituting the structured document and a unique vocabulary ID for each vocabulary included in each element constituting the structured document Structured document management method of a structured document management device for managing the tag structure of each element constituting the structured document stored in its own structured document management device, and specific to each tag structure type A structure index that stores a structure index that associates the structure IDs with each other, and each vocabulary that constitutes a character string portion included in each element of the structured document stored in its own structured document management device; Vocabulary unique to each vocabulary type Based on the vocabulary index that associates D with D, the encoded data obtained by converting the structured document stored in its own structured document management device into the structure ID and the vocabulary ID array is generated, and the other structure is generated. An encoding process to be transmitted to the structured document management apparatus, and when the encoded data is received from the other structured document management apparatus, the encoded data is restored to the structured document based on the structure index and the vocabulary index. And a restoring step.
また、本発明は、ネットワーク上に接続された複数の構造化文書管理装置により複数の構造化文書を分散して記憶し、当該複数の構造化文書管理装置間で共通化された前記構造化文書を構成する各要素のタグ構造の種別毎に固有の構造IDと、前記構造化文書を構成する各要素に含まれる語彙毎に固有の語彙IDと、に基づいて前記複数の構造化文書を管理する構造化文書管理システムにおいて、前記構造化文書管理装置は、前記構造化文書を記憶する構造化文書記憶手段と、前記構造化文書記憶手段に記憶された構造化文書を構成する各要素のタグ構造と、当該タグ構造の種別毎に固有の前記構造IDと、を対応付けた構造索引を記憶する構造索引記憶手段と、前記構造化文書記憶手段に記憶された構造化文書の各要素に含まれた文字列部分を構成する各語彙と、当該語彙の種別毎に固有の前記語彙IDと、を対応付けた語彙索引を記憶する語彙索引記憶手段と、前記構造索引及び語彙索引に基づいて、前記構造化文書記憶手段に記憶された構造化文書を前記構造ID及び語彙IDの配列に変換した符号化データを生成し、他の構造化文書管理装置に送信する符号化手段と、前記他の構造化文書管理装置から符号化データを受信した際に、前記構造索引及び語彙索引に基づいて、当該符号化データを構造化文書に復元する復元手段と、を備える。 According to the present invention, the structured document is distributed between a plurality of structured document management apparatuses connected on a network and stored in a shared manner, and the structured document is shared among the plurality of structured document management apparatuses. The plurality of structured documents are managed based on a unique structure ID for each type of tag structure of each element constituting the vocabulary and a unique vocabulary ID for each vocabulary included in each element constituting the structured document. In the structured document management system, the structured document management device includes a structured document storage unit that stores the structured document, and a tag of each element constituting the structured document stored in the structured document storage unit Included in each element of the structured document stored in the structured index storage means for storing the structure index that associates the structure and the structure ID unique to each type of the tag structure, and the structured document storage means String part Vocabulary index storage means for storing a vocabulary index that associates each vocabulary constituting each vocabulary and the vocabulary ID unique to each vocabulary type, and the structured document storage based on the structure index and the vocabulary index. Encoding means for generating encoded data obtained by converting the structured document stored in the means into an array of the structure ID and vocabulary ID, and transmitting the encoded data to another structured document management apparatus; and the other structured document management apparatus And a restoring means for restoring the coded data into a structured document based on the structure index and the vocabulary index when the coded data is received from.
本発明によれば、構造化文書に実際に含まれたタグ構造及び語彙に対応する構造ID及び語彙IDを用いて構造化文書を符号化し、この符号化データを他の構造化文書管理装置との送受信に用いるため、元の構造化文書をそのまま転送する場合に比べて、転送データ量を減少し、転送に要する時間を短縮することができる。また、様々な単語を登録した辞書を予め保持する場合に比べ、符号化処理にかかるデータ量を減少させることができるため、構造化文書の符号化及び復元に要する時間を減少させることができ、構造化文書の送受信を効率的に行うことが可能となる。 According to the present invention, a structured document is encoded using a structure ID and a vocabulary ID corresponding to a tag structure and a vocabulary actually included in the structured document, and this encoded data is transferred to another structured document management apparatus. Therefore, compared with the case where the original structured document is transferred as it is, the amount of transfer data can be reduced and the time required for transfer can be shortened. In addition, since it is possible to reduce the amount of data required for the encoding process compared to the case of storing a dictionary in which various words are registered in advance, the time required for encoding and restoring a structured document can be reduced. It is possible to efficiently send and receive structured documents.
以下に添付図面を参照して、構造化文書管理装置、方法及びシステムの最良な実施形態を詳細に説明する。 Exemplary embodiments of a structured document management apparatus, method, and system will be described below in detail with reference to the accompanying drawings.
[第1の実施形態]
図1は、本実施形態の構造化文書管理システム10の構成を示したブロック図である。図1に示すとおり、構造化文書管理システム10は、複数の構造化文書管理装置11〜14と、クライアント装置40とを有し、各装置間はネットワークNを介して互いに通信可能に接続されている。なお、ネットワークNに接続される構造化文書管理装置及びクライアント装置40の個数は、この図示例に限定されないものとする。
[First Embodiment]
FIG. 1 is a block diagram showing the configuration of the structured
構造化文書管理装置11〜14は、XML(eXtensible Markup Language)等のマークアップ言語で記述された構造化文書の記憶・管理を行う構造化文書DB31(図2参照)を夫々有し、これら構造化文書管理装置11〜14により、構造化文書を分散して管理する構造化文書管理システム10としての機能が実現されている。以下、構造化文書管理システム10を構成する構造化文書管理装置11〜14の夫々を、単にノードともいう。
Each of the structured
構造化文書管理システム10は、ネットワークNを通じてクライアント装置40から入力される検索要求に応じ、当該構造化文書管理システム10が備える構造化文書DB31から、該当する構造化文書の検索し、検索結果として構造化文書をクライアント装置40に提供する。また、構造化文書管理システム10は、ネットワークNを通じてクライアント装置40から入力される構造化文書の登録要求に応じ、構造化文書管理システム10が備える構造化文書DB31に登録対象となった構造化文書を登録する。
In response to a search request input from the
クライアント装置40は、ユーザが操作するPC(Personal Computer)等の端末装置である。ユーザは、クライアント装置40を介して、構造化文書管理システム10に対し、特定の文字列を含んだ構造化文書の検索を要求する検索要求や、構造化文書の新規登録を要求する登録要求を送信することが可能となっている。ここで、クライアント装置40から送信される検索要求には、XQuery等の検索にかかる所定の検索式が含まれているものとする。また、登録要求には登録対象となる構造化文書が含まれているものとする。
The
ここで、クライアント装置40から送信される検索要求又は登録要求は、構造化文書管理システム10を構成する4つのノードのうち、何れか一のノードに受信されるものとする。なお、クライアントからの要求を受け付ける一のノードは、特定のノードに限定してもよいし、ラウンドロビン的に各ノードが順繰りに受け取る態様としてもよい。また、各ノードの負荷を考慮し、最も負荷が小さいノードがクライアント装置40からの要求を受け取る態様としてもよい。
Here, it is assumed that the search request or registration request transmitted from the
また、本実施形態では、クライアント装置40からの要求を各ノードが受け付けることが可能な態様としたが、これに限らず、クライアント装置40からの要求受け付けに特化した要求受付装置(図示せず)を別途備える態様としてもよい。
In this embodiment, each node can receive a request from the
以下、構造化文書管理装置11の構成について説明する。なお、本実施形態では、説明の簡略化のため、構造化文書管理装置11〜14の夫々は同様の構成を備えるものとし、構造化文書管理装置12〜14の構成についての説明は省略する。
Hereinafter, the configuration of the structured
図2は、構造化文書管理装置11のハードウェア構成を示したブロック図である。図2に示したように、構造化文書管理装置11は、CPU(Central Processing Unit)101、操作部102、表示部103、ROM(Read Only Memory)104、RAM(Random Access Memory)105、通信部106及び記憶部107等を備え、各部はバス108により接続されている。
FIG. 2 is a block diagram showing a hardware configuration of the structured
CPU101は、RAM105の所定領域を作業領域として、ROM104又は記憶部107に予め記憶された各種制御プログラムとの協働により各種処理を実行し、構造化文書管理装置11を構成する各部の動作を統括的に制御する。
The
また、CPU101は、ROM104又は記憶部107に予め記憶された所定のプログラムとの協働により、後述する要求受付部20、通信処理部21、検索プラン生成部22、検索プラン処理部23、構造化文書変換部24、構造化文書取得部26、格納処理部27、構造索引部28、語彙索引部29及び構造化文書DB管理部30(図4参照)の各機能部を実現させる。なお、各機能部の詳細については後述する。
In addition, the
操作部102は、各種入力キーを備え、ユーザから操作入力された情報を指示信号として受け付け、その指示信号をCPU101に出力する。
The
表示部103は、LCD(Liquid Crystal Display)等の表示手段により構成され、CPU101からの表示信号に基づいて、各種情報を表示する。なお、表示部103は、操作部102と一体的にタッチパネルを構成する態様としてもよい。
The
ROM104は、構造化文書管理装置11の制御にかかるプログラムや各種設定情報等を書き換え不可能に記憶する。
The
RAM105は、SDRAM等の揮発性記憶手段であって、CPU101の作業エリアとして機能し、バッファ等の役割を果たす。
The
通信部106は、ネットワークNを通じ他のノードやクライアント装置40との間で通信を行うインターフェースである。通信部106は、他のノードやクライアント装置40から送信された各種情報をCPU101に出力し、また、CPU101から出力される各種情報を他のノードやクライアント装置40へと送信する。
The
記憶部107は、磁気的又は光学的に記録可能な記憶媒体を有し、構造化文書管理装置11の制御にかかるプログラムや各種設定情報等を書き換え可能に記憶する。また、記憶部107は、構造化文書を記憶するためのデータベースとしての構造化文書DB31や、後述する構造−構造ID対応データ32、語彙−語彙ID対応データ33を記憶する記憶領域を有している。なお、本実施形態では、一の記憶手段により構造化文書DB31、構造−構造ID対応データ32及び語彙−語彙ID対応データ33を保持する態様としたが、これに限らず、各機能に応じて夫々異なる記憶手段に保持する態様としてもよい。この場合、記憶手段の備えられる位置は、構造化文書管理装置11の内部、外部を問わないものとする。
The
ここで、本実施形態で取り扱う構造化文書の記述形式について説明する。図3は、XMLで記述された構造化文書の一例を示した図である。同図では、特許に関する情報をXML形式で記述した構造化文書の例を示している。XMLでは、文書の構造の表現にタグが用いられる。タグには、開始タグと終了タグが存在し、構造化文書の構成要素を開始タグと終了タグで囲むことにより、文書中の文字列の区切りと、その文字列が構造上何れの構成要素に属するのかを明確に記述することができるようになっている。 Here, the description format of the structured document handled in this embodiment will be described. FIG. 3 is a diagram showing an example of a structured document described in XML. In the figure, an example of a structured document in which information related to a patent is described in an XML format is shown. In XML, tags are used to represent the structure of a document. A tag has a start tag and an end tag. By enclosing the components of a structured document with a start tag and an end tag, the delimiter of the character string in the document and the character string can be assigned to any component in the structure. It is possible to clearly describe whether it belongs.
ここで、開始タグとは要素名称を記号「<」、「>」で閉じた書式で記載され、終了タグとは要素名称を記号「</」と「>」で閉じた書式で記載される。なお、XMLでは、一連の開始タグと終了タグとで定義されたデータが一の要素を意味しており、例えば、<特許>タグと</特許>タグとを含み、両タグで囲まれたデータが一の要素を構成している。 Here, the start tag is described in a format in which the element name is closed with symbols “<” and “>”, and the end tag is described in a format in which the element name is closed with symbols “</” and “>”. . In XML, data defined by a series of start tags and end tags means one element. For example, it includes a <patent> tag and a </ patent> tag, and is surrounded by both tags. Data constitutes one element.
図4は、構造化文書管理装置11の機能構成を示したブロック図である。図3に示したように、構造化文書管理装置11は、要求受付部20、通信処理部21、検索プラン生成部22、検索プラン処理部23、構造化文書変換部24、ディクショナリ25、構造化文書取得部26、格納処理部27、構造索引部28、語彙索引部29及び構造化文書DB管理部30を備えている。
FIG. 4 is a block diagram showing a functional configuration of the structured
要求受付部20は、通信部106介して受信される他のノードやクライアント装置40からの各種要求を受け付ける機能部である。要求受付部20で受け付ける要求としては、クライアント装置40から送信される検索要求や登録要求、他のノードから送信される実行要求等が挙げられる。
The
通信処理部21は、検索要求に対する検索結果や後述する処理結果等を、通信部106を介して他のノードやクライアント装置40に送信する。
The
検索プラン生成部22は、要求受付部20により受け付けられた検索要求に含まれる検索式を構文解析し、処理コストが最小になるようなプラン(検索処理の実行計画)を生成する。
The search plan generation unit 22 parses the search expression included in the search request received by the
検索プラン処理部23は、検索プラン生成部22で生成されたプランに従って実行計画を実行し、構造化文書取得部26を介して構造化文書DB31から最終的に取得した構造化文書を検索結果として、通信処理部21を介しクライアント装置40に送信する。
The search
構造化文書変換部24は、後述する構造−構造ID対応データ32に登録された構造索引321、語彙−語彙ID対応データ33に登録された語彙索引331に基づいて、構造化文書の符号化及び符号化された構造化文書の復元を行う。
The structured
また、構造化文書変換部24は、符号化データに所定の圧縮形式で圧縮処理を施すことで符号化データのデータ量を減少させるとともに、他のノードから入力された符号化データに圧縮処理が施されていると判定した場合には、この圧縮を解凍する。なお、圧縮形式は特に問わないものとするが、例えば、ZIP形式やLZH形式等を用いることができる。
Further, the structured
ディクショナリ25には、構造化文書が登録される格納先ノードを決定するための所定のルールが予め定義されており、新たな構造化文書を構造化文書管理システム10に登録する際には、このディクショナリ25に定義されたルールに基づいて、格納処理部27により格納先ノードが決定される。なお、決定された格納先ノードは、格納処理部27により、登録対象となった構造化文書と対応付けられ、格納先情報としてディクショナリ25に登録される。また、既に登録された構造化文書を読み出す際には、この格納先情報に基づいて、構造化文書が格納されたノードが特定される。
In the
なお、ディクショナリ25に定義されたルール自体は、ROM104又は記憶部107に予め記憶されているものとする。また、ディクショナリ25に登録される格納先情報は、記憶部107の所定の記憶領域に記憶されるものとする。
It is assumed that the rules defined in the
構造化文書取得部26は、検索プラン処理部23により指示された構造化文書を、構造化文書DB管理部30を介し構造化文書DB31から取得する。
The structured document acquisition unit 26 acquires the structured document instructed by the search
格納処理部27は、クライアント装置40から要求受付部20を介して入力された登録要求に含まれる構造化文書の格納先ノードを、ディクショナリ25に定義されたルールに基づいて決定し、この格納先ノードの構造化文書DB管理部30に登録対象の構造化文書を登録させる。
The
また、格納処理部27は、図4に示したとおり、文書解析部271、構造解析部272及び語彙解析部273を有している。文書解析部271は、XMLパーサ等であって、入力された構造化文書を構造解析する。具体的に、文書解析部271は、入力された構造化文書が図3に示したようなXML文書である場合には、開始タグと終了タグとの対応など、この構造化文書がXMLとしての記法に従っているかの確認を行う。この解析処理において、構造化文書が記法に従っていることを確認した後、当該構造化文書を構造解析部272及び語彙解析部273に出力する。
The
構造解析部272は、文書解析部271から入力された構造化文書に含まれるタグの構造位置を示すタグ構造を要素毎に解析し、このタグ構造の種別毎に固有の構造IDを割り当て、当該構造と構造IDとを対応付けた情報を構造索引321として生成する。ここで、要素とは、開始タグと終了タグ及び当該両タグ間に囲まれた文字列部分を意味する。また、割り当てられる構造IDは、数値等の圧縮に適した形式であることが好ましい。
The
また、構造解析部272は、上記した構造索引321の生成時において、構造−構造ID対応データ32に登録された既存の構造索引を参照し、重複するものについては構造IDを割り当てないよう制御する。
In addition, the
また、構造解析部272は、生成した構造索引321を、構造索引部28に出力することで自己の構造−構造ID対応データ32に登録させるとともに、通信処理部21を介して他のノードに送信し、他のノードの構造−構造ID対応データ32に登録させることで、生成した構造索引321を構造化文書管理システム10内で共通化させる。また、構造解析部272は、要求受付部20を介し、他のノードから構造索引321を受け取った場合には、当該構造索引321を構造索引部28に出力することで構造−構造ID対応データ32に登録させる。
In addition, the
図5−1、図5−2は、構造解析部272の動作を説明するための図である。まず、構造解析部272による構造化文書の解析の結果、要素毎のタグ構造が、図5−1の状態であったものとする。この場合、構造解析部272は、図5−2に示したように、タグ構造の種別毎に固有の構造IDを割り当てた構造索引321を生成する。なお、図中「text()」は、この要素の文字列部分の位置を示している。
5A and 5B are diagrams for explaining the operation of the
図4に戻り、語彙解析部273は、文書解析部271から入力された構造化文書に含まれる文字列部分を要素毎に解析し、各文字列部分を所定の文字数からなる語彙単位に分割し、分割した語彙毎に固有の語彙IDを割り当て、当該語彙と語彙IDとを対応付けた情報を語彙索引331として生成する。ここで、文字列部分とは、開始タグと終了タグとで囲まれた文字列部分を意味する。また、割り当てられる語彙IDは、数値等の圧縮に適した形式であることが好ましい。
Returning to FIG. 4, the
また、語彙解析部273は、上記した語彙索引331の生成時において、語彙−語彙ID対応データ33に登録された既存の語彙索引を参照し、重複するものについては語彙IDを割り当てないよう制御する。
In addition, the
また、語彙解析部273は、生成した語彙索引331を、語彙索引部29に出力することで自己の語彙−語彙ID対応データ33に登録させるとともに、通信処理部21を介して他のノードに送信し、他のノードの語彙−語彙ID対応データ33に登録させることで、成した語彙索引331を構造化文書管理システム10内で共通化させる。また、語彙解析部273は、要求受付部20を介し、他のノードから語彙索引331を受け取った場合には、当該語彙索引331を語彙索引部29に出力することで語彙−語彙ID対応データ33に登録させる。
Further, the
図6は、語彙解析部273の動作を説明するための図である。まず、語彙解析部273による構造化文書の解析の結果、図6左図に示したように、構造化文書に含まれる一要素の文字列「並列検索装置」が文字列部分としと抽出されたものとする。この場合、語彙解析部273は、図6中図に示したように、文字列「並列検索装置」を二文字からなる語彙単位に分割する。なお、最後に分割された文字列は、一文字分の「置」となるため、語彙索引部29により末尾に「#」を付与している。次いで、語彙解析部273は、分割した語彙毎に固有の語彙IDを付与し、図6右図に示したように、当該語彙と語彙IDとを対応付けた情報を語彙索引331として生成する。
FIG. 6 is a diagram for explaining the operation of the
構造索引部28は、構造解析部272から入力される構造索引321を、構造−構造ID対応データ32に登録する。また、語彙索引部29は、語彙解析部273から入力される語彙索引331を、語彙−語彙ID対応データ33に登録する。
The
構造化文書DB管理部30は、構造化文書DB31の管理を行う機能部であって、構造化文書取得部26からの指示に応じて、構造化文書DB31から構造化文書の読み出しや、格納処理部27からの指示に応じて、構造化文書DB31に構造化文書の登録等を行う。
The structured document
以下、図7〜図10を参照して、クライアント装置40から、構造化文書の登録を要求する登録要求が構造化文書管理システム10に送信された場合の動作について説明する。
Hereinafter, an operation when a registration request for requesting registration of a structured document is transmitted from the
図7は、登録要求を受け付けたノード(マスタノード)での構造化文書の登録に係る処理(構造化文書登録処理)の手順を示したフローチャートである。 FIG. 7 is a flowchart showing a procedure of a process (structured document registration process) related to registration of a structured document at a node (master node) that has received a registration request.
まず、要求受付部20は、クライアント装置40から登録要求として指示された構造化文書を受け付けると、この構造化文書を格納処理部27へと出力する(ステップS11)。続いて、格納処理部27の文書解析部271は、入力された構造化文書を解析し(ステップS12)、この解析結果を構造解析部272及び語彙解析部273に出力することで、ステップS13の構造−構造IDデータ更新処理、ステップS14の語彙−語彙IDデータ更新処理を順次実行する。
First, when receiving a structured document instructed as a registration request from the
以下、図8を参照して、ステップS13の構造−構造IDデータ更新処理について説明する。図8は、構造−構造IDデータ更新処理の手順を示したフローチャートである。 Hereinafter, the structure-structure ID data update process in step S13 will be described with reference to FIG. FIG. 8 is a flowchart showing the procedure of the structure-structure ID data update process.
まず、構造解析部272は、文書解析部271から入力された構造化文書に基づき、タグの構造位置を示すタグ構造を要素毎に取得する(ステップS131)。
First, the
次いで、構造解析部272は、構造−構造ID対応データ32を参照し、ステップS131で取得したタグ構造と同様のタグ構造が、構造−構造ID対応データ32に既に登録されているか否かを判定する(ステップS132)。ここで、取得した全てのタグ構造が構造−構造ID対応データ32に既に登録されていると判定した場合には(ステップS132;Yes)、本処理を終了し図7のステップS14へと直ちに移行する。
Next, the
一方、ステップS132において、構造−構造ID対応データ32に登録されていないタグ構造があると判定した場合には(ステップS132;No)、構造解析部272は、登録されていないと判定したタグ構造に対し、固有の構造IDを割り当て(ステップS133)、このタグ構造と構造IDとを対応付けた構造索引321を生成する(ステップS134)。
On the other hand, if it is determined in step S132 that there is a tag structure not registered in the structure-structure ID correspondence data 32 (step S132; No), the
続いて、構造解析部272は、生成した構造索引321を、構造索引部28に出力することで自己の構造−構造ID対応データ32に登録させるとともに(ステップS135)、通信処理部21を介して他のノード(スレーブノード)に送信することで、他のノードの構造−構造ID対応データ32に登録させ(ステップS136)、図7のステップS14へと移行する。
Subsequently, the
次に、図9を参照して、ステップS14の語彙−語彙IDデータ更新処理について説明する。図9は、語彙−語彙IDデータ更新処理の手順を示したフローチャートである。 Next, the vocabulary-vocabulary ID data update processing in step S14 will be described with reference to FIG. FIG. 9 is a flowchart showing a vocabulary-vocabulary ID data update process.
まず、語彙解析部273は、文書解析部271から入力された構造化文書に含まれる文字列部分を、要素毎に抽出し(ステップS141)、抽出した各文字列を所定の文字数毎に分割し語彙を取得する(ステップS142)。
First, the
次いで、語彙解析部273は、語彙−語彙ID対応データ33を参照し、ステップS142で取得した各語彙と同様の語彙が、語彙−語彙ID対応データ33に既に登録されているか否かを判定する(ステップS143)。ここで、語彙索引部29は、取得した全ての語彙が語彙−語彙ID対応データ33に既に登録されていると判定した場合には(ステップS143;Yes)、本処理を終了し図7のステップS15へと直ちに移行する。
Next, the
一方、ステップS143において、語彙−語彙ID対応データ33に登録されていない語彙があると判定した場合には(ステップS143;No)、語彙索引部29は、登録されていないと判定した語彙に対し、固有の語彙IDを割り当て(ステップS144)、この語彙と語彙IDとを対応付けた語彙索引331を生成する(ステップS145)。
On the other hand, if it is determined in step S143 that there is a vocabulary that is not registered in the vocabulary-vocabulary ID correspondence data 33 (step S143; No), the
続いて、語彙索引部29は、生成した構造索引321を、語彙索引部29に出力することで自己の語彙−語彙ID対応データ33に登録させるとともに(ステップS146)、通信処理部21を介して他のノード(スレーブノード)に送信することで、他のノードの語彙−語彙ID対応データ33に登録させ(ステップS147)、図7のステップS15へと移行する。
Subsequently, the
図7に戻り、格納処理部27は、ディクショナリ25を参照し、登録対象となった構造化文書の格納先ノードを決定した後(ステップS15)、この格納先ノードが自ノードか否かを判定する(ステップS16)。
Returning to FIG. 7, the
ステップS16において、格納先ノードが自己のノードと判定した場合には(ステップS16;Yes)、登録対象となった構造化文書を、自己のノードが有する構造化文書DB31に登録し(ステップS17)、ステップS19の処理へと移行する。
If it is determined in step S16 that the storage destination node is its own node (step S16; Yes), the structured document to be registered is registered in the structured
一方、ステップS16において、格納先ノードが他のノードと判定した場合には(ステップS16;No)、格納処理部27は、登録対象となった構造化文書を、通信処理部21を介して格納先ノードに送信(転送)することで、格納先ノードの構造化文書DB31に登録させ(ステップS18)、ステップS19の処理へと移行する。
On the other hand, when it is determined in step S16 that the storage destination node is another node (step S16; No), the
続くステップS19では、格納処理部27は、登録対象となった構造化文書と、当該構造化文書の格納先ノードとを対応付けた格納先情報を、ディクショナリ25に登録するとともに(ステップS19)、この格納先情報を、通信処理部21を介して他のノード(スレーブノード)に送信することで、他のノードのディクショナリ25に登録させ(ステップS20)、本処理を終了する。
In subsequent step S19, the
図10は、マスタノードから送信される各種情報を受け付けるノード側(スレーブノード)での、各種情報の登録にかかる処理(他ノード側登録処理)の手順を示したフローチャートである。なお、本処理は、常時又はマスタノードから送信される指示信号に応じて実行されるものとする。 FIG. 10 is a flowchart showing a procedure of processing (registration processing on the other node side) related to registration of various information on the node side (slave node) that receives various information transmitted from the master node. It is assumed that this process is always performed or according to an instruction signal transmitted from the master node.
まず、格納処理部27(構造解析部272)は、要求受付部20を介してマスタノードから構造索引321を受信したか否かを判定する(ステップS21)。ここで、格納処理部27は、構造索引321が受信していないと判定した場合には(ステップS21;No)、ステップS23の処理へと直ちに移行する。
First, the storage processing unit 27 (structure analysis unit 272) determines whether or not the
一方、ステップS21において、マスタノードから構造索引321を受信したと判定した場合(ステップS21;Yes)、構造解析部272は、この構造索引321を構造索引部28に出力することで、自己の構造−構造ID対応データ32に登録させた後(ステップS22)、ステップS23の処理へと移行する。
On the other hand, when it is determined in step S21 that the
続くステップS23では、格納処理部27(語彙解析部273)が、要求受付部20を介してマスタノードから語彙索引331を受信したか否かを判定する(ステップS23)。ここで、格納処理部27は、語彙索引331を受信していないと判定した場合には(ステップS23;No)、ステップS25の処理へと直ちに移行する。
In subsequent step S23, the storage processing unit 27 (vocabulary analyzing unit 273) determines whether or not the
一方、ステップS23において、マスタノードから語彙索引331を受信したと判定した場合(ステップS23;Yes)、語彙解析部273は、この語彙索引331を語彙索引部29に出力することで、自己の語彙−語彙ID対応データ33に登録させた後(ステップS24)、ステップS25の処理へと移行する。
On the other hand, when it is determined in step S23 that the
続くステップS25では、格納処理部27が、要求受付部20を介してマスタノードから登録対象となる構造化文書が転送されてきたか否かを判定する(ステップS25)。ここで、格納処理部27は、構造化文書を受信していないと判定した場合には(ステップS25;No)、ステップS27の処理へと直ちに移行する。
In subsequent step S25, the
一方、ステップS25において、マスタノードから登録対象となる構造化文書を受信したと判定した場合(ステップS25;Yes)、格納処理部27は、この構造化文書を構造化文書DB管理部30に出力することで、構造化文書DB31に登録させた後(ステップS26)、ステップS27の処理へと移行する。
On the other hand, when it is determined in step S25 that the structured document to be registered is received from the master node (step S25; Yes), the
続くステップS27では、格納処理部27が、要求受付部20を介して格納先情報をマスタノードから受信したか否かを判定する(ステップS27)。ここで、格納処理部27は、格納先情報を受信していないと判定した場合には(ステップS27;No)、本処理を直ちに終了する。
In subsequent step S27, the
一方、ステップS27において、マスタノードから格納先情報を受信したと判定した場合には(ステップS27;Yes)、格納処理部27は、この格納先情報をディクショナリ25に登録した後(ステップS28)、本処理を終了する。
On the other hand, if it is determined in step S27 that the storage location information has been received from the master node (step S27; Yes), the
このように、新たに登録した構造化文書に含まれるタグ構造及び語彙を、構造化文書管理システム10を構成する各ノード間で共通の情報とすることができ、また、タグ構造に割り当てた構造ID及び語彙に割り当てた語彙IDを、構造化文書管理システム10を構成する各ノード間で共通の情報とすることができる。
In this way, the tag structure and vocabulary included in the newly registered structured document can be used as common information among the nodes constituting the structured
なお、本実施形態では、マスタノードから受け付けた構造索引321、語彙索引331を、無条件に構造−構造ID対応データ32、語彙−語彙ID対応データ33の夫々に登録する態様としたが、これに限らず、上述した構造−構造IDデータ更新処理(図8参照)、語彙−語彙IDデータ更新処理(図9参照)のように、登録前に重複する索引が存在するか否かを確認する態様としてもよい。
In this embodiment, the
また、本実施形態では、格納先ノードに登録対象となった構造化文書自体を送信する態様としたが、これに限らず、当該構造化文書に含まれるタグ構造(構造ID)及び語彙(語彙ID)を各ノード間で共通化した後には、後述する構造化文書符号化処理(図12参照)を施した符号化データの状態で送信する態様としてもよい。この場合、後述する構造化文書復元処理(図14参照)により、元の構造化文書を復元することができ、元の構造化文書をそのまま転送する場合に比べて、転送データ量を減少し、転送に要する時間を短縮することができる。 In this embodiment, the structured document itself that is the registration target is transmitted to the storage node. However, the present invention is not limited to this, and the tag structure (structure ID) and vocabulary (vocabulary) included in the structured document are not limited thereto. After sharing the ID) between the nodes, it may be transmitted in the state of encoded data subjected to a structured document encoding process (see FIG. 12) described later. In this case, the original structured document can be restored by a structured document restoration process (see FIG. 14), which will be described later, and the transfer data amount is reduced as compared with the case of transferring the original structured document as it is, The time required for transfer can be reduced.
次に、図11〜図16を参照して、クライアント装置40から、構造化文書の検索を要求する検索要求が入力された場合の動作について説明する。
Next, with reference to FIGS. 11 to 16, an operation when a search request for requesting a search for a structured document is input from the
図11は、検索要求を受け付けたノード(マスタノード)での構造化文書の検索に係る処理(構造化文書検索処理)の手順を示したフローチャートである。まず、要求受付部20は、クライアント装置40から検索要求を受け付けると、この検索要求を検索プラン生成部22に出力する(ステップS31)。続いて、検索プラン生成部22は、入力された検索要求に含まれた検索式に基づいて、プラン(検索処理の実行計画)を生成し、検索プラン処理部23に出力する(ステップS32)。
FIG. 11 is a flowchart illustrating a procedure of a process (structured document search process) related to a search for a structured document at a node (master node) that has received a search request. First, when receiving a search request from the
次いで、検索プラン処理部23は、ディクショナリ25を参照し、入力されたプランに他のノードの構造化文書DB31に係る処理が含まれているか否かを判定する(ステップS33)。ここで、検索プラン処理部23は、プランに含まれた各実行計画が自己のノードの構造化文書DB31に登録された構造化文書のみで遂行できると判定した場合には(ステップS33;No)、プランに指示された実行計画を順次実行し(ステップS34)、ステップS40へと移行する。
Next, the search
一方、ステップS33において、他のノードの構造化文書DB31に格納された構造化文書が必要と判定した場合には(ステップS33;Yes)、検索プラン処理部23が、プランに指示された実行計画のうち、他のノードに係る実行計画まで実行した後(ステップS35)、ステップS36の構造化文書符号化処理へと移行する。以下、図12を参照して、ステップS36の構造化文書符号化処理について説明する。
On the other hand, if it is determined in step S33 that a structured document stored in the structured
図12は、構造化文書符号化処理の手順を示したフローチャートである。まず、構造化文書変換部24は、ステップS35の処理で取得された中間データ(構造化文書)に含まれる一の要素を処理対象とする(ステップS361)。
FIG. 12 is a flowchart showing the procedure of the structured document encoding process. First, the structured
次いで、構造化文書変換部24は、構造−構造ID対応データ32に登録された構造索引に基づいて、処理対象要素のタグ構造を構造IDに変換する(ステップS362)。
Next, the structured
続いて、構造化文書変換部24は、語彙−語彙ID対応データ33に登録された構造索引に基づいて、処理対象要素に含まれた文字列を構成する語彙を語彙IDに変換するとともに、当該語彙ID毎に対応する語彙の出現位置を指示するオフセットを付与する(ステップS363)。
Subsequently, the structured
次に、構造化文書変換部24は、中間データに含まれた全ての要素に対し、ステップS362及びステップS363の処理を施したか否かを判定し、未処理の要素が存在すると判定した場合には(ステップS364;No)、ステップS361へと再び戻り、未処理の要素を処理対象とした後、ステップS362及びステップS362の処理を施す。
Next, the structured
一方、ステップS364において、全ての要素に対しステップS362及びステップS363の処理を施したと判定した場合には(ステップS364;Yes)、要素毎に取得した変換後のデータを結合し、符号化データとする(ステップS365)。 On the other hand, if it is determined in step S364 that all the elements have been processed in steps S362 and S363 (step S364; Yes), the converted data acquired for each element is combined and encoded data (Step S365).
次いで、構造化文書変換部24は、符号化データに対し、圧縮処理を施すか否かを判定する(ステップS366)。ここで、圧縮処理を施すか否かの設定は、設定情報として記憶部107に予め記憶されているものとし、構造化文書変換部24は、この設定情報に基づいて、ステップS366の判定を行うものとする。
Next, the structured
ステップS366において、圧縮処理を施さないと判定した場合には(ステップS366;No)、図11のステップS37へと直ちに移行する。また、ステップS366において、圧縮処理を施すと判定した場合には(ステップS366;Yes)、構造化文書変換部24は、符号化データに対し、所定の圧縮形式で圧縮処理を施すことで、データ量を減少させた後(ステップS367)、図11のステップS37へと移行する。
If it is determined in step S366 that compression processing is not performed (step S366; No), the process immediately proceeds to step S37 in FIG. If it is determined in step S366 that compression processing is to be performed (step S366; Yes), the structured
図11に戻り、検索プラン処理部23は、ステップS36で取得された符号化データと、ステップS32で生成されたプランとを含んだ実行要求を、通信処理部21を介して、当該プランの遂行に必要な他のノード(スレーブノード)に送信する(ステップS37)。
Returning to FIG. 11, the search
以下、図13を参照して、マスタノードから送信される実行要求を受け付けるノード(スレーブノード)での、構造化文書の検索にかかる動作を説明する。図13は、スレーブノードで実行される構造化文書の検索にかかる処理(他ノード側構造化検索処理)の手順を示したフローチャートである。 Hereinafter, with reference to FIG. 13, an operation related to the retrieval of the structured document in the node (slave node) that receives the execution request transmitted from the master node will be described. FIG. 13 is a flowchart showing a procedure of a process related to structured document search (another node side structured search process) executed in the slave node.
スレーブノード側では、要求受付部20が実行要求を受け付けると、この実行要求を自己の検索プラン処理部23に出力する(ステップS51)。続いて、検索プラン処理部23は、実行要求に含まれた符号化データを構造化文書変換部24に出力し(ステップS52)、ステップS53の構造化文書復元処理へと移行させる。以下、図14を参照して、ステップS53の構造化運書復元処理について説明する。
On the slave node side, when the
図14は、構造化文書復元処理の手順を示したフローチャートである。まず、検索プラン処理部23は、入力された符号化データの拡張子や、データ構造に基づいて、当該符号化データに圧縮処理が施されているか否かを判定する(ステップS531)。ここで、圧縮処理が施されていないと判定した場合には(ステップS531;No)、ステップS533へと直ちに移行する。
FIG. 14 is a flowchart showing the procedure of the structured document restoration process. First, the search
また、ステップS531において、圧縮処理が施されていると判定した場合には(ステップS531;Yes)、検索プラン処理部23は、この符号化データに解凍処理を施した後(ステップS532)、ステップS533へと移行する。
If it is determined in step S531 that compression processing has been performed (step S531; Yes), the search
続くステップS533において、検索プラン処理部23は、符号化データに含まれた一の要素を処理対象とする(ステップS533)。ここで、要素とは、符号化された一のタグ構造(構造ID)と当該タグ構造の文字列部分(語彙群)を意味する。
In subsequent step S533, the search
ステップS533において、検索プラン処理部23は、構造−構造ID対応データ32に登録された構造索引に基づいて、処理対象要素に含まれた構造IDを、タグ構造に変換する(ステップS534)。
In step S533, the search
続いて、検索プラン処理部23は、語彙−語彙ID対応データ33に登録された語彙索引に基づいて、処理対象要素に含まれた各語彙IDを語彙に変換するとともに、各語彙をオフセットで指示された出現位置に基づいて配置し、文字列部分を復元する(ステップS535)。
Subsequently, the search
次いで、構造化文書変換部24は、符号化データに含まれた全ての要素に対し、ステップS534及びステップS535の処理を施したか否かを判定する(ステップS536)。ここで、未処理の要素が存在すると判定した場合には(ステップS536;No)、ステップS533へと再び戻り、未処理の要素を処理対象とした後、ステップS534及びステップS535の処理を施す。
Next, the structured
また、ステップS536において、全ての要素に対してステップS534及びステップS535の処理を施したと判定した場合には(ステップS536;Yes)、構造化文書変換部24は、全ての要素に対するステップS534及びステップS535の処理結果から元の構造化文書を再構成し(ステップS537)、図13のステップS54の処理へと移行する。
If it is determined in step S536 that all the elements have been processed in steps S534 and S535 (step S536; Yes), the structured
図13に戻り、検索プラン処理部23は、ステップS53の処理で復元された中間データ(構造化文書)を用いて、プランに指示された実行計画のうち、自己のノードにて処理可能な実行計画を実行し(ステップS54)、結果として得られた構造化文書を検索プラン処理部23に出力することで、構造化文書符号化処理を実行させる(ステップS55)。なお、ステップS55の構造化文書符号化処理は、上述したステップS37の構造化文書符号化処理と同様であるため、その説明は省略する。
Returning to FIG. 13, the search
続いて、検索プラン処理部23は、ステップS55により取得された符号化データを、処理結果として実行要求の送信元となったマスタノードに通信処理部21を介して送信し(ステップS56)、スレーブノード側での処理を終了する。
Subsequently, the search
図11に戻り、マスタノード側では、要求受付部20がスレーブノードから処理結果を受け付けると、この処理結果を検索プラン処理部23を介して、構造化文書変換部24に出力する(ステップS38)。
Returning to FIG. 11, on the master node side, when the
構造化文書変換部24では、処理結果として入力された符号化データを復元する構造化文書復元処理を実行し、符号化データから中間データ(構造化文書)を復元する(ステップS39)。ここで、ステップS40の構造化文書複合化処理は、上述したステップS53の構造化文書複合化処理と同様であるため、その説明は省略する。
The structured
続いて、検索プラン処理部23は、ステップS39で復元された中間データを用いて、プランに指示された実行計画を実行する(ステップS40)。なお、処理結果として受け付けた構造化文書が、プランに指示された実行計画の最終結果である場合にはこの限りでない。また、他のノードにおいてさらに処理を要する場合には、処理結果として受け付けた構造化文書又は当該構造化文書に基づいて取得した構造化文書を中間データとして、構造化文書変換部24により符号化した後、スレーブノードに送信する。
Subsequently, the search
次いで、検索プラン処理部23は、プランの実行結果として得られた構造化文書を検索結果として、通信処理部21を介してクライアント装置40に送信し(ステップS41)、本処理を終了する。
Next, the search
なお、本実施形態では、検索結果を構造化文書の状態で送信することとしたが、これに限らず、構造化文書を符号化データに変換した状態で送信する態様としてもよい。 In this embodiment, the search result is transmitted in the state of the structured document. However, the present invention is not limited to this, and a mode in which the structured document is converted into encoded data may be used.
図15−1、図15−2、図15−3は、上記した構造化文書の検索時における、構造化文書変換部24の動作を説明するための図である。同図において、下向きの矢印は、構造化文書の符号化にかかる処理の流れを示しており、上向きの矢印は、符号化された構造化文書の復元にかかる処理の流れを示している。
FIGS. 15A, 15B, and 15C are diagrams for explaining the operation of the structured
まず、構造化文書の符号化時の動作について説明する。上述したステップS361により、図15−1の上段に示した構造化文書の一要素「<発明の名称>並列検索方法および装置</発明の名称>」が処理対象に設定されたものとする。この場合、構造化文書変換部24は、図15−2に示したように、この処理対象要素のタグ構造「<発明の名称>」を、構造−構造ID対応データ32に登録された構造索引321(図16−1参照)に基づいて、当該タグ構造に対応する構造ID「0007」に変換する。
First, the operation at the time of encoding a structured document will be described. It is assumed that the element “<name of invention> parallel search method and device </ name of invention>” of the structured document shown in the upper part of FIG. In this case, as shown in FIG. 15B, the structured
また、構造化文書変換部24は、処理対象要素に含まれた文字列「並列検索方法および装置」を、図15−3の中段に示したように、複数の語彙に分解した後、語彙−語彙ID対応データ33に登録された語彙索引331(図16−2参照)に基づいて、各語彙を対応する語彙IDに夫々変換し、各語彙の出現位置を指示するオフセットを語彙IDに夫々付加する。
In addition, the structured
例えば、図15−3に示したように、語彙「方法」は、語彙−語彙ID対応データ33に登録された語彙索引331に基づいて、当該語彙「方法」に対応する語彙ID「0101」に変換された後、この語彙IDの先頭部分にオフセット「0」が付加される。ここで、オフセット「0」は、先行する語彙「検索」の末尾と、自己の語彙「方法」との間の距離を意味しており、文字間隔を空けることなく連続して配置することを意味している。
For example, as shown in FIG. 15C, the vocabulary “method” is assigned to the vocabulary ID “0101” corresponding to the vocabulary “method” based on the
次に、構造化文書変換部24は、図15−1の中段に示したように、変換した構造IDと各語彙ID+オフセットとを結合した符号化データを生成し、設定内容に応じて圧縮処理を施す。
Next, as shown in the middle part of FIG. 15A, the structured
次に、構造化文書の復元時の動作について説明する。上述したステップS533により、図15−1の中段に示した符号化データが、処理対象の要素として設定されたものとする。この場合、構造化文書変換部24は、図15−2に示したように、構造−構造ID対応データ32に登録された構造索引321(図16−1参照)に基づいて、この処理態様要素に含まれた構造IDをタグ構造に変換(逆変換)する。
Next, the operation at the time of restoring the structured document will be described. Assume that the encoded data shown in the middle part of FIG. 15A is set as an element to be processed in step S533 described above. In this case, as shown in FIG. 15B, the structured
また、構造化文書変換部24は、図15−3に示したように、語彙−語彙ID対応データ33に登録された語彙索引331(図16−2)に基づいて、処理対象要素に含まれた各語彙IDを対応する語彙に夫々変換(逆変換)するとともに、各語彙IDに付加されたオフセットに基づいて語彙を配列することで、元の文字列を再構成する。なお、圧縮された符号化データを受け取った場合には、この解凍処理を施した後、タグ構造及び文字列の復元を行うものとする。
Further, as shown in FIG. 15C, the structured
次に、構造化文書変換部24は、図15−1の上段に示したように、復元したタグ構造と文字列とを結合し、元の構造化文書を復元する。
Next, as shown in the upper part of FIG. 15A, the structured
以上のように、本実施形態によれば、構造化文書に実際に含まれたタグ構造及び語彙に対応する構造ID及び語彙IDを用いて構造化文書を符号化し、この符号化データを他の構造化文書管理装置との送受信に用いるため、元の構造化文書をそのまま転送する場合に比べて、転送データ量を減少し、転送に要する時間を短縮することができる。また、様々な単語を登録した辞書を予め保持する場合に比べ、符号化処理にかかるデータ量を減少させることができるため、構造化文書の符号化及び復元に要する時間を減少させることができ、構造化文書の送受信を効率的に行うことが可能となる。 As described above, according to the present embodiment, the structured document is encoded using the structure ID and the vocabulary ID corresponding to the tag structure and the vocabulary actually included in the structured document, and the encoded data is converted into other encoded data. Since it is used for transmission / reception with the structured document management apparatus, the amount of transfer data can be reduced and the time required for transfer can be shortened as compared with the case where the original structured document is transferred as it is. In addition, since it is possible to reduce the amount of data required for the encoding process compared to the case of storing a dictionary in which various words are registered in advance, the time required for encoding and restoring a structured document can be reduced. It is possible to efficiently send and receive structured documents.
また、タグ構造及び語彙を圧縮形式に適した構造ID及び語彙IDに変換した後、圧縮処理を施して転送することが可能であるため、構造化文書をより効率的に圧縮することができ、転送に要する時間をより短縮することができる。 In addition, since the tag structure and the vocabulary are converted into the structure ID and the vocabulary ID suitable for the compression format, and can be transferred after being compressed, the structured document can be compressed more efficiently. The time required for transfer can be further reduced.
なお、本実施形態では、構造化文書DB31に対する索引として、構造索引321と語彙索引331とを備える態様としたが、この例に限らず、例えば、日付情報等の他の索引を備える態様としてもよい。
In the present embodiment, the
[第2の実施形態]
次に、第2の実施形態の構造化文書管理システム10について説明する。なお、上述した第1の実施形態と同様の構成については、同一の符号を付与し、その説明を省略する。
[Second Embodiment]
Next, the structured
図17は、第2の実施形態における構造化文書管理装置11の機能構成を示したブロック図である。図17に示したように、本実施形態の構造化文書管理装置11は、格納処理部27内に新たに構造解析部274と、語彙解析部275とを備えている。
FIG. 17 is a block diagram showing a functional configuration of the structured
構造解析部274は、上述した構造解析部272の機能に加え、入力される各構造化文書に含まれたタグ構造の個数を種別毎にカウントし、構造履歴情報として記憶部107の所定領域に蓄積する。また、構造解析部274は、構造履歴情報に基づいてタグ構造の種別毎の出現頻度を算出し、この出現頻度に応じて、構造−構造ID対応データ32に登録された構造IDを割り当て直す。
In addition to the functions of the
具体的に、構造解析部274は、出現頻度が高いタグ構造の構造IDほど、圧縮効率がより高くなる数値へと割り当て直す。例えば、「0001」や「1111」等、同じ数値が連続して出現するほど、その圧縮効率は高くなる傾向があるため、構造解析部274は、このような数値を構造IDとして再割り当てを行うものとする。
Specifically, the
また、構造解析部274は、構造IDの再割り当て時に、構造IDに割り当て直した数値と、当該構造IDに対応するタグ構造とを対応付けた情報を構造ID再割当要求として生成し、通信処理部21を介して他のノードに送信することで、当該他のノードの構造−構造ID対応データ32に登録された構造IDを割り当て直させる。
In addition, the
また、構造解析部274は、要求受付部20を介し、他のノードから構造ID再割当要求を受け取った場合には、この構造ID再割当要求の指示内容に基づいて、自己のノードが備える構造−構造ID対応データ32の構造IDを割り当て直す。
In addition, when the
また、語彙解析部275は、上述した語彙解析部273の機能に加え、文字列部分を分割した語彙の個数を種別毎にカウントし、語彙履歴情報として記憶部107の所定領域に蓄積する。また、語彙解析部275は、語彙履歴情報に基づいて語彙の種別毎の出現頻度を算出し、この出現頻度に応じて、語彙−語彙ID対応データ33に登録された語彙IDの数値を、上記構造解析部274と同様に割り当て直す。
In addition to the function of the
また、語彙解析部275は、語彙IDの再割り当て時に、語彙IDに割り当て直した数値と、当該語彙IDに対応する語彙とを対応付けた情報を語彙ID再割当要求として、通信処理部21を介して他のノードに送信し、当該他のノードの語彙−語彙ID対応データ33に登録された語彙IDを割り当て直させる。
Further, the
また、語彙解析部275は、要求受付部20を介し、他のノードから語彙ID再割当要求を受け取った場合には、この語彙ID再割当要求の指示内容に基づいて、自己のノードが備える語彙−語彙ID対応データ33の語彙IDを割り当て直す。
When the
以下、図18、図19を参照して、本実施形態の構造解析部274の動作について説明する。図18は、後述する構造ID再割当要求を生成するノード(マスタノード)で実行される構造IDの再割り当てに係る処理(構造ID再割当処理)の手順を示したフローチャートである。なお、マスタノードにて、構造ID再割当処理が実行されるタイミングは、特に問わないものとし、例えば、所定時間毎や構造索引321が所定量登録される毎に実行する態様としてもよい。
Hereinafter, with reference to FIGS. 18 and 19, the operation of the
まず、構造解析部274は、記憶部107の所定領域に蓄積された構造履歴情報に基づいて、タグ構造毎の出現頻度を算出する(ステップS61)。続いて構造解析部274は、算出したタグ構造毎の出現頻度に応じて、構造−構造ID対応データ32に登録されたタグ構造の構造IDを再割り当てする(ステップS62)。
First, the
次いで、構造解析部274は、ステップS62で再割り当てを行った構造IDと、当該構造IDに対応するタグ構造とを対応付けた情報を構造ID再割当要求として生成し(ステップS63)、生成した構造ID再割当要求を、通信処理部21を介して他のノード(スレーブノード)に送信した後(ステップS64)、本処理を終了する。
Next, the
図19は、構造ID再割当要求を受け付けたノード(スレーブノード)で実行される構造IDの再割り当てに係る処理(他ノード側構造ID再割当処理)の手順を示したフローチャートである。 FIG. 19 is a flowchart showing the procedure of the process related to the structure ID reassignment (another node side structure ID reassignment process) executed by the node (slave node) that has received the structure ID reassignment request.
スレーブノード側では、要求受付部20がID再割当要求を受け付けると、この構造ID再割当要求を、構造解析部274に出力する(ステップS71)。
On the slave node side, when the
続いて、構造解析部274は、構造ID再割当要求として入力された構造IDと、当該構造IDに対応するタグ構造とを対応付けた情報に基づいて、構造−構造ID対応データ32中の該当するタグ構造の構造IDを、指示された値に変更し(ステップS72)、本処理を終了する。
Subsequently, the
なお、語彙解析部275の動作については、上述した構造解析部274と同様の動作を、語彙ID(語彙−語彙ID対応データ33)に対して行うのみであるため、その説明は省略する。
Note that the operation of the
以上のように、本実施形態によれば、出現頻度の高いタグ構造の構造ID及び/又は語彙の語彙IDに、圧縮効率がより高くなる数値を割り当てることができるため、圧縮時における構造化文書のデータ量をより減少させることができ、ノード間においてデータの転送に要する時間を短縮させることができる。 As described above, according to this embodiment, a numerical value with higher compression efficiency can be assigned to a structure ID and / or vocabulary vocabulary ID of a tag structure having a high appearance frequency. The amount of data can be further reduced, and the time required for data transfer between nodes can be shortened.
なお、本実施形態では、構造ID、語彙IDについて個別に再割り当てを行う態様としたが、これに限らず、両IDの再割り当てを同じタイミングで行う態様としてもよいし、何れか一方のIDのみを割り当て直す態様としてもよい。 In the present embodiment, the structure ID and the vocabulary ID are individually reassigned. However, the present invention is not limited to this, and it is possible to reassign both IDs at the same timing. It is good also as an aspect which reassigns only.
[第3の実施形態]
次に、第3の実施形態の構造化文書管理システム10について説明する。なお、上述した第1の実施形態と同様の構成については、同一の符号を付与し、その説明を省略する。
[Third Embodiment]
Next, the structured
図17は、本実施形態におけるクライアント装置40の機能構成を示したブロック図である。同図に示したように、クライアント装置40は、通信処理部41、構造索引部42、語彙索引部43、構造−構造ID対応データ44、語彙−語彙ID対応データ45及び構造化文書復元部46を備えている。なお、通信処理部41、構造索引部42、語彙索引部43及び構造化文書復元部46は、クライアント装置40が備える図示しないCPUと、ROM又は記憶部に予め記憶された所定のプログラムとの協働により実現される機能部である。
FIG. 17 is a block diagram showing a functional configuration of the
また、構造−構造ID対応データ44、語彙−語彙ID対応データ45は、クライアント装置40が備える図示しない記憶部の所定領域に格納されており、上述した構造−構造ID対応データ32、語彙−語彙ID対応データ33と同様、構造索引321、語彙索引331を夫々保持する。
The structure-structure
通信処理部41は、構造化文書管理システム10を構成する各ノードから送信された構造索引321を、ネットワークNを介して受信すると、この構造索引321を構造索引部42に出力することで、当該構造索引部42により構造−構造ID対応データ44に登録させる。
When the
また、通信処理部41は、構造化文書管理システム10から送信された語彙索引331を、ネットワークNを介して受信すると、この語彙索引331を語彙索引部43に出力することで、当該語彙索引部43により語彙−語彙ID対応データ45に登録させる。
In addition, when the
なお、本実施形態では、各ノードから送信される構造索引321及び語彙索引331は、ブロードキャストで送信されるものとするが、これに限らず、例えば、クライアント装置40を含めてユニキャストで送信される態様としてもよいし、マルチキャストで送信される態様としてもよい。
In this embodiment, the
また、通信処理部41は、検索要求に対する検索結果を構造化文書管理システム10から受信すると、この検索結果を構造化文書復元部46に出力する。なお、本実施形態では、構造化文書管理システム10から送信される検索結果は、上述した符号化データの状態で送信されるものとする。
Further, when the
構造索引部42は、通信処理部41から入力される構造索引321を、構造−構造ID対応データ44に登録する。また、語彙索引部43は、通信処理部41から入力される語彙索引331を、語彙−語彙ID対応データ45に登録する。
The
構造化文書復元部46は、構造−構造ID対応データ44に登録された構造索引321及び語彙−語彙ID対応データ45に登録された語彙索引331に基づいて、通信処理部41から入力される検索結果としての符号化データを、構造化文書に復元する。また、構造化文書復元部46は、符号化データに圧縮処理が施されていると判定した場合には、この符号化データに解凍処理を施した後、構造化文書の復元を行う。なお、構造化文書の復元にかかる動作は、上述した構造化文書変換部24における構造化文書の復元にかかる動作と同様であるため、その説明は省略する。
The structured
上記の構成において、クライアント装置40は、構造化文書管理システム10から検索要求に対する検査結果(構造化文書)を、符号化データの状態で取得すると、構造化文書復元部46は、構造−構造ID対応データ44に登録された構造索引321及び語彙−語彙ID対応データ45に登録された語彙索引331に基づいて、元の構造化文書へと復元する。
In the above configuration, when the
以上のように、本実施形態によれば、構造化文書管理システム10を構成するノード−クライアント装置間において、転送する構造化文書を圧縮に適した形式に変換し、圧縮して転送することが可能であるため、元の構造化文書をそのまま転送する場合に比べて、転送データ量を削減し、転送に要する時間を短縮することができる。
As described above, according to the present embodiment, the structured document to be transferred can be converted into a format suitable for compression, and compressed and transferred between the node and the client device constituting the structured
なお、本実施形態では、クライアント装置40が構造索引部42及び語彙索引部43を備える態様としたが、これに限らず、構造索引部42及び語彙索引部43の何れか一方又は両方を備えない態様としてもよい。
In the present embodiment, the
以上、発明の実施の形態について説明したが、本発明はこれに限定されるものではなく、本発明の主旨を逸脱しない範囲での種々の変更、置換、追加などが可能である。 Although the embodiments of the invention have been described above, the present invention is not limited to these embodiments, and various modifications, substitutions, additions, and the like can be made without departing from the spirit of the present invention.
10 構造化文書管理システム
11 構造化文書管理装置
12 構造化文書管理装置
13 構造化文書管理装置
14 構造化文書管理装置
20 要求受付部
21 通信処理部
22 検索プラン生成部
23 検索プラン処理部
24 構造化文書変換部
25 ディクショナリ
26 構造化文書取得部
27 格納処理部
271 文書解析部
272 構造解析部
273 語彙解析部
274 構造解析部
275 語彙解析部
28 構造索引部
29 語彙索引部
30 構造化文書DB管理部
31 構造化文書DB
32 構造−構造ID対応データ
321 構造索引
33 語彙−語彙ID対応データ
331 語彙索引
40 クライアント装置
41 通信処理部
42 構造索引部
43 語彙索引部
44 構造−構造ID対応データ
45 語彙−語彙ID対応データ
46 構造化文書復元部
101 CPU
102 操作部
103 表示部
104 ROM
105 RAM
106 通信部
107 記憶部
108 バス
DESCRIPTION OF
32 Structure-Structure
102
105 RAM
106
Claims (13)
前記構造化文書を記憶する構造化文書記憶手段と、
前記構造化文書記憶手段に記憶された構造化文書を構成する各要素のタグ構造と、当該タグ構造の種別毎に固有の前記構造IDと、を対応付けた構造索引を記憶する構造索引記憶手段と、
前記構造化文書記憶手段に記憶された構造化文書の各要素に含まれた文字列部分を構成する各語彙と、当該語彙の種別毎に固有の前記語彙IDと、を対応付けた語彙索引を記憶する語彙索引記憶手段と、
前記構造索引及び語彙索引に基づいて、前記構造化文書記憶手段に記憶された構造化文書を前記構造ID及び語彙IDの配列に変換した符号化データを生成し、前記他の構造化文書管理装置に送信する符号化手段と、
前記他の構造化文書管理装置から符号化データを受信した際に、前記構造索引及び語彙索引に基づいて、当該符号化データを構造化文書に復元する復元手段と、
を備えたことを特徴とする構造化文書管理装置。 A plurality of structured documents are distributed and stored together with other structured document management apparatuses connected to the network, and each of the structured documents shared with the other structured document management apparatuses is configured. A structured document that manages the plurality of structured documents based on a unique structure ID for each type of tag structure of an element and a unique vocabulary ID for each vocabulary included in each element constituting the structured document In the management device,
Structured document storage means for storing the structured document;
Structure index storage means for storing a structure index in which the tag structure of each element constituting the structured document stored in the structured document storage means is associated with the structure ID unique to each type of the tag structure When,
A vocabulary index that associates each vocabulary constituting a character string portion included in each element of the structured document stored in the structured document storage means with the vocabulary ID unique to each vocabulary type. Vocabulary index storage means for storing;
Based on the structure index and the vocabulary index, the encoded data obtained by converting the structured document stored in the structured document storage means into an array of the structure ID and the vocabulary ID is generated, and the other structured document management apparatus Encoding means for transmitting to
A restoring means for restoring the encoded data to the structured document based on the structure index and the lexical index when the encoded data is received from the other structured document management device;
A structured document management apparatus comprising:
前記復元手段は、前記所定の圧縮形式で圧縮された符号化データを解凍した後、構造化文書に復元することを特徴とする請求項1に記載の構造化文書管理装置。 The encoding means transmits encoded data obtained by compressing the encoded data in a predetermined compression format to the other structured document management apparatus,
2. The structured document management apparatus according to claim 1, wherein the restoration unit decompresses the encoded data compressed in the predetermined compression format, and then restores the structured data to a structured document.
前記新たな構造索引を前記構造索引記憶手段に登録するとともに、前記他の構造化文書管理装置に送信し、当該他の構造化文書管理装置との間で共通化させる構造索引登録手段と、
を更に備えたことを特徴とする請求項1に記載の構造化文書管理装置。 When the structured document is newly stored in the structured document storage unit, a new structure ID that is different from the structure ID is assigned to each tag structure type of each element constituting the structured document. A structure index generating means for generating a simple structure index;
Registering the new structure index in the structure index storage means, transmitting to the other structured document management apparatus, and making the other structured document management apparatus share the structure index registration means,
The structured document management apparatus according to claim 1, further comprising:
前記新たな語彙索引を前記語彙索引記憶手段に登録するとともに、前記他の構造化文書管理装置に送信し、当該他の構造化文書管理装置との間で共通化させる語彙索引登録手段と、
を更に備えたことを特徴とする請求項1に記載の構造化文書管理装置。 When the structured document is newly stored in the structured document storage unit, a new word different from the vocabulary ID is created for each type of vocabulary constituting a character string part included in each element of the structured document. Vocabulary index generating means for generating a new vocabulary index to which a vocabulary ID is assigned;
Registering the new vocabulary index in the vocabulary index storage means, transmitting to the other structured document management apparatus, and sharing the lexical index with the other structured document management apparatus;
The structured document management apparatus according to claim 1, further comprising:
自己の構造化文書管理装置に記憶された構造化文書を構成する各要素のタグ構造と、当該タグ構造の種別毎に固有の前記構造IDと、を対応付けた構造索引を記憶する構造索引、及び、自己の構造化文書管理装置に記憶された構造化文書の各要素に含まれた文字列部分を構成する各語彙と、当該語彙の種別毎に固有の前記語彙IDと、を対応付けた語彙索引に基づいて、自己の構造化文書管理装置に記憶された構造化文書を前記構造ID及び語彙IDの配列に変換した符号化データを生成し、前記他の構造化文書管理装置に送信する符号化工程と、
前記他の構造化文書管理装置から符号化データを受信した際に、前記構造索引及び語彙索引に基づいて、当該符号化データを構造化文書に復元する復元工程と、
を含むことを特徴とする構造化文書管理方法。 A plurality of structured documents are distributed and stored together with other structured document management apparatuses connected to the network, and each of the structured documents shared with the other structured document management apparatuses is configured. A structured document that manages the plurality of structured documents based on a unique structure ID for each type of tag structure of an element and a unique vocabulary ID for each vocabulary included in each element constituting the structured document A structured document management method for a management device, comprising:
A structure index for storing a structure index in which a tag structure of each element constituting a structured document stored in its own structured document management apparatus is associated with the structure ID unique to each type of the tag structure; In addition, each vocabulary constituting the character string portion included in each element of the structured document stored in the structured document management apparatus of the self is associated with the vocabulary ID unique to each vocabulary type. Based on the vocabulary index, encoded data obtained by converting the structured document stored in its own structured document management apparatus into the structure ID and the vocabulary ID array is generated and transmitted to the other structured document management apparatus. Encoding process;
A restoration step of restoring the encoded data into a structured document based on the structure index and the vocabulary index when the encoded data is received from the other structured document management device;
A structured document management method comprising:
前記構造化文書管理装置は、
前記構造化文書を記憶する構造化文書記憶手段と、
前記構造化文書記憶手段に記憶された構造化文書を構成する各要素のタグ構造と、当該タグ構造の種別毎に固有の前記構造IDと、を対応付けた構造索引を記憶する構造索引記憶手段と、
前記構造化文書記憶手段に記憶された構造化文書の各要素に含まれた文字列部分を構成する各語彙と、当該語彙の種別毎に固有の前記語彙IDと、を対応付けた語彙索引を記憶する語彙索引記憶手段と、
前記構造索引及び語彙索引に基づいて、前記構造化文書記憶手段に記憶された構造化文書を前記構造ID及び語彙IDの配列に変換した符号化データを生成し、他の構造化文書管理装置に送信する符号化手段と、
前記他の構造化文書管理装置から符号化データを受信した際に、前記構造索引及び語彙索引に基づいて、当該符号化データを構造化文書に復元する復元手段と、
を備えたことを特徴とする構造化文書管理システム。 A plurality of structured documents are distributed and stored by a plurality of structured document management apparatuses connected on a network, and each element constituting the structured document shared by the plurality of structured document management apparatuses is stored. A structured document management system that manages the plurality of structured documents based on a unique structure ID for each type of tag structure and a unique vocabulary ID for each vocabulary included in each element constituting the structured document In
The structured document management apparatus includes:
Structured document storage means for storing the structured document;
Structure index storage means for storing a structure index in which the tag structure of each element constituting the structured document stored in the structured document storage means is associated with the structure ID unique to each type of the tag structure When,
A vocabulary index that associates each vocabulary constituting a character string portion included in each element of the structured document stored in the structured document storage means with the vocabulary ID unique to each vocabulary type. Vocabulary index storage means for storing;
Based on the structure index and the vocabulary index, it generates encoded data obtained by converting the structured document stored in the structured document storage means into an array of the structure ID and the vocabulary ID. Encoding means for transmitting;
A restoring means for restoring the encoded data to the structured document based on the structure index and the lexical index when the encoded data is received from the other structured document management device;
A structured document management system characterized by comprising:
前記クライアント装置は、
前記構造索引記憶手段と、
前記語彙索引記憶手段と、
前記構造化文書管理装置から前記符号化データを受信した際に、前記構造索引及び語彙索引に基づいて、当該符号化データを構造化文書に復元する構造化文書復元手段と、
を備えたことを特徴とする請求項12に記載の構造化文書管理システム。 A client device capable of communicating with the plurality of structured document management devices;
The client device is
The structure index storage means;
The lexical index storage means;
Structured document restoration means for restoring the coded data to a structured document based on the structure index and the lexical index when the coded data is received from the structured document management device;
The structured document management system according to claim 12, comprising:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007085978A JP2008243077A (en) | 2007-03-28 | 2007-03-28 | Structured document management device, method, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007085978A JP2008243077A (en) | 2007-03-28 | 2007-03-28 | Structured document management device, method, and program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2008243077A true JP2008243077A (en) | 2008-10-09 |
Family
ID=39914296
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007085978A Pending JP2008243077A (en) | 2007-03-28 | 2007-03-28 | Structured document management device, method, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2008243077A (en) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010224883A (en) * | 2009-03-24 | 2010-10-07 | Toshiba Corp | Structured document management apparatus and method |
JP2010287052A (en) * | 2009-06-11 | 2010-12-24 | Fujitsu Ltd | Retrieval system and storage medium |
CN102103621A (en) * | 2009-12-21 | 2011-06-22 | 技嘉科技股份有限公司 | String classification method and string retrieval method |
JP2015072629A (en) * | 2013-10-03 | 2015-04-16 | 富士通株式会社 | Data processing program and data processing method |
-
2007
- 2007-03-28 JP JP2007085978A patent/JP2008243077A/en active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010224883A (en) * | 2009-03-24 | 2010-10-07 | Toshiba Corp | Structured document management apparatus and method |
JP2010287052A (en) * | 2009-06-11 | 2010-12-24 | Fujitsu Ltd | Retrieval system and storage medium |
CN102103621A (en) * | 2009-12-21 | 2011-06-22 | 技嘉科技股份有限公司 | String classification method and string retrieval method |
JP2015072629A (en) * | 2013-10-03 | 2015-04-16 | 富士通株式会社 | Data processing program and data processing method |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR100424130B1 (en) | Data compression apparatus, database system, data communication system, data compression method, storage medium and program transmission apparatus | |
KR101499441B1 (en) | Method and device for compressing, decompressing and querying document | |
CN104040542A (en) | Techniques for maintaining column vectors of relational data within volatile memory | |
US8452093B2 (en) | Efficient histogram storage | |
US20200212932A1 (en) | Reducing storage of blockchain metadata via dictionary-style compression | |
US8037209B2 (en) | Device configuration integration information managing device and device configuration information managing device | |
JP4231261B2 (en) | Identity determination device | |
JP2008243077A (en) | Structured document management device, method, and program | |
Käbisch et al. | Standardized and efficient RDF encoding for constrained embedded networks | |
US20170199849A1 (en) | Encoding method, encoding device, decoding method, decoding device, and computer-readable recording medium | |
JP5789236B2 (en) | Structured document analysis method, structured document analysis program, and structured document analysis system | |
Leighton et al. | TREECHOP: A Tree-based Query-able Compressor for XML | |
Nassiri et al. | Integrating xml and relational data | |
League et al. | Schema-Based Compression of XML Data with Relax NG. | |
Yap | Fast unimodular reduction: Planar integer lattices | |
Natchetoi et al. | EXEM: Efficient XML data exchange management for mobile applications | |
US20050044118A1 (en) | Numerical information retrieving device | |
Bosch et al. | Generic multilevel approach designing domain ontologies based on XML schemas | |
KR100968083B1 (en) | Method and devices for encoding/decoding structured documents, especially xml documents | |
JP6589317B2 (en) | Rewriting device, processing method and program thereof, and information processing device | |
JPWO2005101210A1 (en) | Data analysis apparatus and data analysis program | |
JP2005284903A (en) | Document encoding system, document decoding system, method for encoding document, and method for decoding document | |
KR20060123197A (en) | Method for compressing and decompressing structured documents | |
CN107908785A (en) | Incorporeity class based on SSM frames realizes data page | |
US20180004716A1 (en) | Method for Converting a Binary Data Stream |