JP2010176319A - Structured document-retrieving system, device, and method - Google Patents

Structured document-retrieving system, device, and method Download PDF

Info

Publication number
JP2010176319A
JP2010176319A JP2009017115A JP2009017115A JP2010176319A JP 2010176319 A JP2010176319 A JP 2010176319A JP 2009017115 A JP2009017115 A JP 2009017115A JP 2009017115 A JP2009017115 A JP 2009017115A JP 2010176319 A JP2010176319 A JP 2010176319A
Authority
JP
Japan
Prior art keywords
search
command
unit
executed
search result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2009017115A
Other languages
Japanese (ja)
Other versions
JP5072871B2 (en
Inventor
Minoru Inada
稔 稲田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2009017115A priority Critical patent/JP5072871B2/en
Publication of JP2010176319A publication Critical patent/JP2010176319A/en
Application granted granted Critical
Publication of JP5072871B2 publication Critical patent/JP5072871B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To provide a structured document-retrieving system which generates a retrieval plan which reduces the amount of data to be transferred while restraining influence on registration and updating processing for structured documents: and to provide a device and a method therefor. <P>SOLUTION: A determination part 124 determines whether executed retrieval commands of a retrieval result storage part 130 which stores retrieval result information, which correlates the executed retrieval commands, identification information on a document management device 20 and retrieval result summary information to each other, and accords with retrieval commands. A generation part 126 refers to the identification information and the retrieval result summary information corresponding to the executed retrieval commands to generate a retrieval-requesting retrieval plan when the accordance is determined to exist, while the generation part 126 estimates the identification information and the retrieval result summary information corresponding to the retrieval commands by using the retrieval result information to generate the retrieval-requesting retrieval plan when the accordance is not determined to exist. A history part 140 makes a history with the retrieval commands, the identification information on the document management device, and the number of the retrieval results of the retrieval commands or the amount of data as the executed retrieval commands of the retrieval result storage part, the identification information and the retrieval result summary information, respectively. <P>COPYRIGHT: (C)2010,JPO&INPIT

Description

本発明は、構造化文書検索システム、装置、及び方法に関する。   The present invention relates to a structured document search system, apparatus, and method.

従来から、単一の計算機では管理しきれない大量のデータを、複数の計算機(以下、「ノード」と称する)で分散して管理する分散データベースが知られている。このような分散データベースにおいて、問い合わせ処理時間の短縮、いわゆる問い合わせの最適化を行う場合は、複数のノードで分散してデータを管理しているため、問い合わせ処理での個々の操作の実行時間を短縮することに加え、問い合わせ処理中に発生するデータ転送処理の時間をできる限り削減することが望まれる。   2. Description of the Related Art Conventionally, distributed databases that manage a large amount of data that cannot be managed by a single computer by using a plurality of computers (hereinafter referred to as “nodes”) are known. In such a distributed database, when query processing time is shortened, so-called query optimization, data is distributed and managed by multiple nodes, so the execution time of individual operations in query processing is shortened. In addition, it is desirable to reduce as much as possible the data transfer processing time that occurs during the inquiry processing.

そして、データ転送処理の時間を短縮するためには、ノード間で転送されるデータ量を削減する必要がある。例えば、問い合わせ中で別々のノードが保持しているデータの結合操作が行われるようなものが、ノード間でのデータ転送が発生する問い合わせとなる。   In order to shorten the data transfer processing time, it is necessary to reduce the amount of data transferred between nodes. For example, an inquiry in which a data combining operation held by different nodes is performed during an inquiry is an inquiry that causes data transfer between the nodes.

例えば特許文献1では、データベースで管理されている問い合わせ対象データの種別毎に統計情報と検索計画の最適化手法を用意しておくことにより、検索計画の最適化および最適化計画の追加を容易にすることが開示されている。   For example, in Patent Document 1, it is easy to optimize a search plan and add an optimization plan by preparing statistical information and a search plan optimization method for each type of inquiry target data managed in a database. Is disclosed.

また、例えば特許文献2では、問い合わせ毎にその問い合わせの条件を学習することにより、頻度の高い問い合わせを高速に処理できるようにデータベースのデータ配置を変更することが開示されている。   Further, for example, Patent Document 2 discloses that the data arrangement of the database is changed so that a frequently asked query can be processed at high speed by learning the query condition for each query.

特開平5−81330号公報JP-A-5-81330 特開2007−128542号公報JP 2007-128542 A

しかしながら、特許文献1で開示された手法は、問い合わせ対象データの種別毎に検索計画の最適化手法を用意しなければならないため、RDB(relational database)のリレーションのように、データ構造(スキーマ)が予め定まっているものにしか適用できない。   However, since the method disclosed in Patent Document 1 must prepare a search plan optimization method for each type of data to be queried, the data structure (schema) is similar to a relation of RDB (relational database). Applicable only to pre-determined items.

従って、XML(Extensible Markup Language)文書のような、データ構造が予め定まっていない、構造化文書を検索対象とする分散データベースにこの手法を用いた場合、問い合わせ対象データ(XML文書でのノード)の種類が無数となり、統計情報や最適化手法も無数に用意しなければならないという問題がある。加えて、先に述べた問い合わせ処理中のデータ転送処理を考慮した最適化を行うことはできない。   Therefore, when this method is used for a distributed database in which a structured document is searched, such as an XML (Extensible Markup Language) document, whose data structure is not predetermined, the query target data (node in the XML document) There are a number of types, and there is a problem that countless statistical information and optimization methods must be prepared. In addition, optimization cannot be performed in consideration of the data transfer process during the inquiry process described above.

また、分散データベースで保持するデータは膨大な量になるため、特許文献2で開示された手法を採用するとしても、データ配置を変更することは容易ではない。   In addition, since the amount of data held in the distributed database is enormous, even if the method disclosed in Patent Document 2 is adopted, it is not easy to change the data arrangement.

なお、分散データベースに対する構造化文書の登録更新を、問い合わせを受け付けるノード経由で行い、登録更新ごとに転送データ量を予測するためのデータを抽出する方法なども考えられるが、登録更新処理時に対象の構造化文書を詳細に解析する必要があるため、登録更新処理の性能が悪化する可能性が高い。   It is possible to update the registration of structured documents to the distributed database via a node that accepts inquiries, and to extract data for predicting the amount of transfer data for each registration update. Since it is necessary to analyze the structured document in detail, there is a high possibility that the performance of the registration update process will deteriorate.

本発明は、上記事情に鑑みてなされたものであり、構造化文書の登録更新処理への影響を抑えつつ、転送データ量を少なくする検索計画を作成することができる構造化文書検索システム、装置、及び方法を提供することを目的とする。   The present invention has been made in view of the above circumstances, and a structured document search system and apparatus capable of creating a search plan for reducing the amount of transfer data while suppressing the influence on the registration update processing of the structured document. And to provide a method.

上述した課題を解決し、目的を達成するために、本発明の一態様にかかる構造化文書検索システムは、階層化された論理構造を有する複数の構造化文書を分散して格納する複数の文書管理装置と、複数の前記文書管理装置とネットワークを介して接続され、複数の前記文書管理装置から前記構造化文書を検索する検索装置と、を備える構造化文書検索システムであって、前記検索装置は、ネットワークを介して接続されるクライアント装置から前記構造化文書の検索要求を受信する要求受信部と、前記検索要求を構文解析し、当該検索要求を複数の前記文書管理装置の少なくともいずれかに実行させる検索命令に分解する解析部と、既に実行済みの前記検索命令である実行済検索命令と、当該実行済検索命令による検索が実行された前記文書管理装置の識別情報と、当該実行済検索命令の検索結果の件数又はデータ量を示す検索結果概要情報とを対応付けた検索結果情報を記憶する検索結果記憶部と、前記検索命令が前記検索結果記憶部に記憶されている前記実行済検索命令と一致するか否かを判定する判定部と、一致すると判定された場合、一致した前記実行済検索命令に対応する前記識別情報及び前記検索結果概要情報を参照して前記検索要求の検索計画を作成し、一致すると判定されなかった場合、前記検索結果情報を用いて前記検索命令に対応する前記識別情報及び前記検索結果概要情報を推定し、前記検索要求の検索計画を作成する作成部と、前記検索計画に従って、前記検索命令を複数の前記文書管理装置の少なくともいずれかに送信する命令送信部と、前記検索命令が送信された前記文書管理装置から、前記検索命令の検索結果を受信する検索結果受信部と、前記検索命令、前記検索命令が送信された前記文書管理装置の識別情報、及び受信した前記検索命令の前記検索結果の件数又はデータ量を、それぞれ前記検索結果記憶部の前記実行済検索命令、前記識別情報、及び前記検索結果概要情報として履歴する履歴部と、受信した前記検索命令の検索結果に基づく前記検索要求の検索結果を、前記クライアント装置に送信する検索結果送信部と、を備え、前記文書管理装置は、前記構造化文書を記憶する第1構造化文書記憶部と、前記検索装置から前記検索命令を受信する受信部と、前記検索命令に従って前記第1構造化文書記憶部から前記構造化文書を検索する第1検索部と、前記構造化文書の検索結果を前記検索装置に送信する送信部とを備えることを特徴とする。   In order to solve the above-described problems and achieve the object, a structured document search system according to an aspect of the present invention includes a plurality of documents in which a plurality of structured documents having a hierarchical logical structure are distributed and stored. A structured document search system comprising: a management device; and a search device connected to a plurality of the document management devices via a network and searching the structured document from the plurality of document management devices. A request receiving unit that receives a search request for the structured document from a client device connected via a network, parses the search request, and sends the search request to at least one of the plurality of document management devices. An analysis unit that decomposes into search commands to be executed, an executed search command that is the search command that has already been executed, and the document that has been searched by the executed search command A search result storage unit that stores search result information that associates identification information of a physical device with search result summary information that indicates the number of search results or the amount of data of the executed search command, and the search command includes the search result A determination unit that determines whether or not the executed search command matches the stored search command stored in the storage unit; and, if determined to match, the identification information corresponding to the executed search command that matches and the search result summary Create a search plan for the search request with reference to information, and if it is not determined to match, estimate the identification information and the search result summary information corresponding to the search command using the search result information, A creation unit that creates a search plan for a search request, a command transmission unit that transmits the search command to at least one of the plurality of document management devices according to the search plan, and the search command A search result receiving unit for receiving a search result of the search command from the transmitted document management device, the search command, identification information of the document management device to which the search command has been transmitted, and the received search command The number of search results or the amount of data is based on the search result storage unit storing the executed search command, the identification information, and the search result summary information, and the received search command search result. A search result transmission unit that transmits a search result of the search request to the client device, wherein the document management device includes a first structured document storage unit that stores the structured document, and the search device A receiving unit that receives a search command; a first search unit that searches the structured document from the first structured document storage unit according to the search command; and a search result of the structured document. And a transmission unit for transmitting to the search device.

また、本発明の別の態様にかかる構造化文書検索装置は、階層化された論理構造を有する複数の構造化文書を分散して格納する複数の文書管理装置とネットワークを介して接続され、複数の前記文書管理装置から前記構造化文書を検索する検索装置であって、ネットワークを介して接続されるクライアント装置から前記構造化文書の検索要求を受信する要求受信部と、前記検索要求を構文解析し、当該検索要求を複数の前記文書管理装置の少なくともいずれかに実行させる検索命令に分解する解析部と、既に実行済みの前記検索命令である実行済検索命令と、当該実行済検索命令による検索が実行された前記文書管理装置の識別情報と、当該実行済検索命令の検索結果の件数又はデータ量を示す検索結果概要情報とを対応付けた検索結果情報を記憶する検索結果記憶部と、前記検索命令が前記検索結果記憶部に記憶されている前記実行済検索命令と一致するか否かを判定する判定部と、一致すると判定された場合、一致した前記実行済検索命令に対応する前記識別情報及び前記検索結果概要情報を参照して前記検索要求の検索計画を作成し、一致すると判定されなかった場合、前記検索結果情報を用いて前記検索命令に対応する前記識別情報及び前記検索結果概要情報を推定し、前記検索要求の検索計画を作成する作成部と、前記検索計画に従って、前記検索命令を複数の前記文書管理装置の少なくともいずれかに送信する命令送信部と、前記検索命令が送信された前記文書管理装置から、前記検索命令の検索結果を受信する検索結果受信部と、前記検索命令、前記検索命令が送信された前記文書管理装置の識別情報、及び受信した前記検索命令の前記検索結果の件数又はデータ量を、それぞれ前記検索結果記憶部の前記実行済検索命令、前記識別情報、及び前記検索結果概要情報として履歴する履歴部と、受信した前記検索命令の検索結果に基づく前記検索要求の検索結果を、前記クライアント装置に送信する検索結果送信部と、を備えることを特徴とする。   A structured document search apparatus according to another aspect of the present invention is connected to a plurality of document management apparatuses that distribute and store a plurality of structured documents having a hierarchical logical structure via a network. A retrieval device for retrieving the structured document from the document management device, a request receiving unit for receiving a retrieval request for the structured document from a client device connected via a network, and parsing the retrieval request And an analysis unit that decomposes the search request into a search command that is executed by at least one of the plurality of document management devices, an executed search command that is the search command that has already been executed, and a search based on the executed search command Search result information in which the identification information of the document management apparatus for which the execution is executed is associated with the search result summary information indicating the number of search results or the data amount of the executed search command A search result storage unit for storing; a determination unit for determining whether or not the search command matches the executed search command stored in the search result storage unit; Create a search plan for the search request with reference to the identification information and the search result summary information corresponding to the executed search command, and if the search request is not determined to match, use the search result information to correspond to the search command A creation unit that estimates the identification information and the search result summary information to create a search plan for the search request, and a command that transmits the search command to at least one of the plurality of document management devices according to the search plan A search result receiving unit for receiving a search result of the search command from the document management apparatus to which the search command has been transmitted; and the search command and the search command are transmitted. The identification information of the document management apparatus and the number or data amount of the search results of the received search command are respectively set to the executed search command, the identification information, and the search result summary information of the search result storage unit. And a search result transmitting unit that transmits the search result of the search request based on the received search result of the search command to the client device.

また、本発明の別の態様にかかる構造化文書検索方法は、階層化された論理構造を有する複数の構造化文書を分散して格納する複数の文書管理装置と、複数の前記文書管理装置とネットワークを介して接続され、複数の前記文書管理装置から前記構造化文書を検索する検索装置と、を備える構造化文書検索システムで実行される構造化文書検索方法であって、前記検索装置は、要求受信部が、ネットワークを介して接続されるクライアント装置から前記構造化文書の検索要求を受信する要求受信ステップと、解析部が、前記検索要求を構文解析し、当該検索要求を複数の前記文書管理装置の少なくともいずれかに実行させる検索命令に分解する解析ステップと、判定部が、前記検索命令が、既に実行済みの前記検索命令である実行済検索命令と、当該実行済検索命令による検索が実行された前記文書管理装置の識別情報と、当該実行済検索命令の検索結果の件数又はデータ量を示す検索結果概要情報とを対応付けた検索結果情報を記憶する検索結果記憶部に記憶されている前記実行済検索命令と一致するか否かを判定する判定ステップと、作成部が、一致すると判定された場合、一致した前記実行済検索命令に対応する前記識別情報及び前記検索結果概要情報を参照して前記検索要求の検索計画を作成し、一致すると判定されなかった場合、前記検索結果情報を用いて前記検索命令に対応する前記識別情報及び前記検索結果概要情報を推定し、前記検索要求の検索計画を作成する作成ステップと、命令送信部が、前記検索計画に従って、前記検索命令を複数の前記文書管理装置の少なくともいずれかに送信する命令送信ステップと、検索結果受信部が、前記検索命令が送信された前記文書管理装置から、前記検索命令の検索結果を受信する検索結果受信ステップと、履歴部が、前記検索命令、前記検索命令が送信された前記文書管理装置の識別情報、及び受信した前記検索命令の前記検索結果の件数又はデータ量を、それぞれ前記検索結果記憶部の前記実行済検索命令、前記識別情報、及び前記検索結果概要情報として履歴する履歴ステップと、検索結果送信部が、受信した前記検索命令の検索結果に基づく前記検索要求の検索結果を、前記クライアント装置に送信する検索結果送信ステップと、を含み、前記文書管理装置は、受信部が、前記検索装置から前記検索命令を受信する受信ステップと、第1検索部が、前記検索命令に従って前記構造化文書を記憶する第1構造化文書記憶部から前記構造化文書を検索する第1検索ステップと、送信部が、前記構造化文書の検索結果を前記検索装置に送信する送信ステップと、を含むことを特徴とする。   A structured document search method according to another aspect of the present invention includes a plurality of document management devices that store a plurality of structured documents having a hierarchical logical structure, and a plurality of the document management devices. A structured document search method executed by a structured document search system, comprising: a search device that is connected via a network and searches the structured document from a plurality of the document management devices, wherein the search device includes: A request receiving step in which a request receiving unit receives a search request for the structured document from a client device connected via a network; and an analysis unit parses the search request and sends the search request to the plurality of documents. An analysis step for decomposing the search command to be executed by at least one of the management devices; and a determination unit that has executed the search command, wherein the search command is the search command that has already been executed , Storing the search result information in which the identification information of the document management device for which the search by the executed search command has been executed is associated with the search result summary information indicating the number of search results or the amount of data of the executed search command A determination step for determining whether or not the search result storage unit that is stored in the search result storage unit matches, and if the creation unit is determined to match, the search unit corresponding to the executed search command that matches A search plan of the search request is created with reference to identification information and the search result summary information, and if it is not determined that the search plan matches, the identification information and the search result corresponding to the search command using the search result information A creation step for estimating summary information and creating a search plan for the search request; and a command sending unit that sends the search command to a plurality of document management devices according to the search plan. A command sending step for sending to at least one, a search result receiving unit for receiving a search result for the search command from the document management device to which the search command has been sent, and a history unit, The search command, the identification information of the document management device to which the search command has been transmitted, and the number or data amount of the search results of the received search command, respectively, the executed search command of the search result storage unit, A history step for recording the identification information and the search result summary information, and a search result transmission step for the search result transmission unit to transmit the search result of the search request based on the search result of the received search command to the client device. The document management device includes a receiving step in which a receiving unit receives the search command from the search device, and a first search unit includes the search A first retrieval step for retrieving the structured document from a first structured document storage unit for storing the structured document in accordance with an instruction; and a transmission step for transmitting a search result of the structured document to the retrieval device by a transmission unit. It is characterized by including these.

また、本発明の別の態様にかかる構造化文書検索方法は、階層化された論理構造を有する複数の構造化文書を分散して格納する複数の文書管理装置とネットワークを介して接続され、複数の前記文書管理装置から前記構造化文書を検索する検索装置で実行される構造化文書検索方法であって、前記検索装置は、要求受信部が、ネットワークを介して接続されるクライアント装置から前記構造化文書の検索要求を受信する要求受信ステップと、解析部が、前記検索要求を構文解析し、当該検索要求を複数の前記文書管理装置の少なくともいずれかに実行させる検索命令に分解する解析ステップと、判定部が、前記検索命令が、既に実行済みの前記検索命令である実行済検索命令と、当該実行済検索命令による検索が実行された前記文書管理装置の識別情報と、当該実行済検索命令の検索結果の件数又はデータ量を示す検索結果概要情報とを対応付けた検索結果情報を記憶する検索結果記憶部に記憶されている前記実行済検索命令と一致するか否かを判定する判定ステップと、作成部が、一致すると判定された場合、一致した前記実行済検索命令に対応する前記識別情報及び前記検索結果概要情報を参照して前記検索要求の検索計画を作成し、一致すると判定されなかった場合、前記検索結果情報を用いて前記検索命令に対応する前記識別情報及び前記検索結果概要情報を推定し、前記検索要求の検索計画を作成する作成ステップと、命令送信部が、前記検索計画に従って、前記検索命令を複数の前記文書管理装置の少なくともいずれかに送信する命令送信ステップと、検索結果受信部が、前記検索命令が送信された前記文書管理装置から、前記検索命令の検索結果を受信する検索結果受信ステップと、履歴部が、前記検索命令、前記検索命令が送信された前記文書管理装置の識別情報、及び受信した前記検索命令の前記検索結果の件数又はデータ量を、それぞれ前記検索結果記憶部の前記実行済検索命令、前記識別情報、及び前記検索結果概要情報として履歴する履歴ステップと、検索結果送信部が、受信した前記検索命令の検索結果に基づく前記検索要求の検索結果を、前記クライアント装置に送信する検索結果送信ステップと、を含むことを特徴とする。   According to another aspect of the present invention, there is provided a structured document search method that is connected to a plurality of document management devices that store a plurality of structured documents having a hierarchical logical structure in a distributed manner. A structured document search method executed by a search device for searching the structured document from the document management device, wherein the search device is configured such that a request receiving unit is connected to the structure from a client device connected via a network. A request receiving step for receiving a search request for a document, and an analysis step for parsing the search request into an instruction for causing the search request to be executed by at least one of the plurality of document management devices. The determination unit includes an executed search instruction in which the search instruction is the already-executed search instruction, and the document management apparatus in which the search by the executed search instruction is executed Matches the executed search command stored in the search result storage unit that stores the search result information that associates the identification information with the search result summary information indicating the number of search results or the amount of data of the executed search command. The determination step for determining whether or not to search, and when the creation unit determines that they match, the search request is searched with reference to the identification information and the search result summary information corresponding to the executed search instruction that matches A creation step of creating a search plan and estimating the identification information and the search result summary information corresponding to the search command using the search result information and creating a search plan for the search request when it is not determined that they match A command sending step for sending the search command to at least one of the plurality of document management devices according to the search plan; and a search result receiving unit A search result receiving step for receiving a search result of the search command from the document management device to which the search command has been transmitted, and a history unit identifying the search command and the document management device to which the search command has been transmitted. A history step of storing information and the number or data amount of the search results of the received search command as the executed search command, the identification information, and the search result summary information of the search result storage unit, respectively The result transmission unit includes a search result transmission step of transmitting the search result of the search request based on the search result of the received search command to the client device.

本発明では、既に検索済みの検索命令である実行済検索命令と、当該実行済検索命令による検索が実行された文書管理装置の識別情報と、当該検索命令により文書管理装置から返却される検索結果の件数又はデータ量を示す検索結果概要情報とを対応付けた検索結果情報を記憶している。従って本発明によれば、この検索結果情報を用いることにより、構造化文書の登録更新処理への影響を抑えつつ、転送データ量を少なくする検索計画を作成することができるという効果を奏する。   In the present invention, an executed search command that is a search command that has already been searched, identification information of a document management device that has been searched by the executed search command, and a search result returned from the document management device by the search command The search result information is stored in association with the search result summary information indicating the number of cases or the amount of data. Therefore, according to the present invention, by using this search result information, it is possible to create a search plan that reduces the transfer data amount while suppressing the influence on the registration update processing of the structured document.

図1は、本実施の形態の構造化文書検索システムの概略構成の一例を示すブロック図である。FIG. 1 is a block diagram showing an example of a schematic configuration of the structured document search system according to the present embodiment. 図2は、本実施の形態の構造化文書の一例を示す図である。FIG. 2 is a diagram illustrating an example of a structured document according to the present embodiment. 図3は、本実施の形態の構造化文書の一例を示す図である。FIG. 3 is a diagram illustrating an example of a structured document according to the present embodiment. 図4は、本実施の形態の構造化文書検索装置及び構造化文書管理装置の構成の一例を示すブロック図である。FIG. 4 is a block diagram illustrating an example of the configuration of the structured document search device and the structured document management device according to the present embodiment. 図5は、本実施の形態の構造化文書の検索要求の一例を示す図である。FIG. 5 is a diagram showing an example of a structured document search request according to this embodiment. 図6は、本実施の形態の構造化文書の転送手法の一例を説明するための図である。FIG. 6 is a diagram for explaining an example of the structured document transfer method according to the present embodiment. 図7は、本実施の形態の構造化文書の転送手法の一例を説明するための図である。FIG. 7 is a diagram for explaining an example of a structured document transfer method according to the present embodiment. 図8は、本実施の形態の構造化文書の転送手法の一例を説明するための図である。FIG. 8 is a diagram for explaining an example of a structured document transfer method according to this embodiment. 図9は、本実施の形態の構造化文書の検索計画の作成手法の一例を説明するための図である。FIG. 9 is a diagram for explaining an example of a structured document search plan creation method according to the present embodiment. 図10は、本実施の形態の構造化文書の検索計画の作成手法の一例を説明するための図である。FIG. 10 is a diagram for explaining an example of a method for creating a structured document search plan according to this embodiment. 図11は、本実施の形態の構造化文書検索装置で行われる構造化文書の検索の処理手順の流れの一例を示すフローチャートである。FIG. 11 is a flowchart illustrating an example of a flow of a structured document search process performed by the structured document search apparatus according to the present embodiment. 図12は、本実施の形態の構造化文書検索装置で行われる検索計画作成処理の処理手順の流れの一例を示すフローチャートである。FIG. 12 is a flowchart showing an example of a processing procedure flow of search plan creation processing performed by the structured document search device of the present embodiment. 図13は、本実施の形態の構造化文書管理装置で行われる構造化文書の検索の処理手順の流れの一例を示すフローチャートである。FIG. 13 is a flowchart illustrating an example of a flow of a structured document search process performed by the structured document management apparatus according to the present embodiment. 図14は、変形例の構造化文書検索装置の構成の一例を示すブロック図である。FIG. 14 is a block diagram illustrating an example of a configuration of a structured document search apparatus according to a modification.

以下、添付図面を参照しながら、本発明にかかる構造化文書検索システム、装置、及び方法の最良な実施の形態を詳細に説明する。   DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS Exemplary embodiments of a structured document search system, apparatus, and method according to the present invention will be explained below in detail with reference to the accompanying drawings.

まず、本実施の形態の構造化文書検索システムの構成について説明する。   First, the configuration of the structured document search system of this embodiment will be described.

図1は、本実施の形態の構造化文書検索システムの概略構成の一例を示すブロック図である。図1に示すように、構造化文書検索システム1は、構造化文書を検索する構造化文書検索装置10と、階層化された論理構造を有する複数の構造化文書を分散して管理する複数の構造化文書管理装置20とを備えており、各装置は、ネットワーク30を介して接続されている。   FIG. 1 is a block diagram showing an example of a schematic configuration of the structured document search system according to the present embodiment. As shown in FIG. 1, the structured document search system 1 includes a structured document search apparatus 10 that searches for a structured document and a plurality of structured documents that have a hierarchical logical structure in a distributed manner. A structured document management apparatus 20 is connected to each other via a network 30.

図2及び図3は、本実施の形態の構造化文書の一例を示す図である。図2及び図3に示すように、本実施の形態では、構造化文書はXML(Extensible Markup Language)で記述されているが、SGML(Standard Generalized Markup Language)やHTML(Hyper text Markup Language)などで記述された構造化文書でもよい。   2 and 3 are diagrams illustrating an example of a structured document according to the present embodiment. As shown in FIGS. 2 and 3, in the present embodiment, the structured document is described in XML (Extensible Markup Language), but in SGML (Standard Generalized Markup Language), HTML (Hyper text Markup Language), or the like. It may be a structured document described.

また、ネットワーク30にはクライアント装置2も接続されており、クライアント装置2が構造化文書検索装置10に対して構造化文書の検索を要求することにより、構造化文書検索装置10が複数の構造化文書管理装置20から構造化文書を検索する。   The client device 2 is also connected to the network 30. When the client device 2 requests the structured document search device 10 to search for a structured document, the structured document search device 10 has a plurality of structured documents. A structured document is retrieved from the document management apparatus 20.

なお、ネットワーク30は、有線若しくは無線、またLAN(Local Area Network)や公衆通信回線を問わず、どのようなネットワークであってもよい。また、構造化文書検索装置10と複数の構造化文書管理装置20とを接続するネットワークと、クライアント装置2と構造化文書検索装置10とを接続するネットワークとを、別々のネットワークで構成してもよい。   The network 30 may be any network regardless of wired or wireless, a LAN (Local Area Network), or a public communication line. Further, the network connecting the structured document search apparatus 10 and the plurality of structured document management apparatuses 20 and the network connecting the client apparatus 2 and the structured document search apparatus 10 may be configured as separate networks. Good.

図4は、本実施の形態の構造化文書検索装置10及び構造化文書管理装置20の構成の一例を示すブロック図である。図4に示すように、構造化文書検索装置10は、通信制御部110と、検索指示部120と、検索結果記憶部130と、履歴部140と、格納指示部150とを備える。   FIG. 4 is a block diagram illustrating an example of the configuration of the structured document search apparatus 10 and the structured document management apparatus 20 according to the present embodiment. As shown in FIG. 4, the structured document search apparatus 10 includes a communication control unit 110, a search instruction unit 120, a search result storage unit 130, a history unit 140, and a storage instruction unit 150.

通信制御部110は、クライアント装置2や複数の構造化文書管理装置20との間でのデータの送受信を行うものであり、要求受信部112と、命令送信部114と、検索結果受信部116と、検索結果送信部118とを含む。   The communication control unit 110 transmits / receives data to / from the client device 2 and the plurality of structured document management devices 20, and includes a request reception unit 112, a command transmission unit 114, a search result reception unit 116, and the like. And a search result transmitting unit 118.

要求受信部112は、クライアント装置2から送信される構造化文書の検索要求や格納要求を受信する。   The request receiving unit 112 receives a structured document search request and storage request transmitted from the client device 2.

図5は、クライアント装置2から送信される構造化文書の検索要求の一例を示す図である。図5に示すように、本実施の形態では、クライアント装置2から送信される構造化文書の検索要求は、W3C(World Wide Web Consortium)で標準化されているXMLで記述された構造化文書に対する問い合わせ言語XQuery(An XML Query Language)で記述されている。   FIG. 5 is a diagram illustrating an example of a structured document search request transmitted from the client apparatus 2. As shown in FIG. 5, in this embodiment, a structured document search request transmitted from the client apparatus 2 is an inquiry to a structured document described in XML standardized by the World Wide Web Consortium (W3C). It is described in the language XQuery (An XML Query Language).

図5に示す検索要求のdb(“特許DB”)は、図2に示すような構造の構造化文書群が管理されている構造化文書管理装置20を特定するためのdb関数呼び出しであり、db(“分類コード”)は、図3に示すような構造の構造化文書群が管理されている構造化文書管理装置20を特定するためのdb関数呼び出しであり、db関数は事前に定義されているものとする。   The search request db ("patent DB") shown in FIG. 5 is a db function call for specifying the structured document management apparatus 20 that manages the structured document group having the structure shown in FIG. db (“classification code”) is a db function call for specifying the structured document management apparatus 20 in which a structured document group having a structure as shown in FIG. 3 is managed. The db function is defined in advance. It shall be.

なお、命令送信部114、検索結果受信部116、及び検索結果送信部118の詳細は後述する。   Details of the command transmission unit 114, the search result reception unit 116, and the search result transmission unit 118 will be described later.

検索指示部120は、要求受信部112により受け付けられた検索要求に基づいて、複数の構造化文書管理装置20に対して所定の構造化文書の検索等を指示する。そして、検索指示部120は、解析部122と、判定部124と、作成部126とを含む。   The search instruction unit 120 instructs the plurality of structured document management devices 20 to search for a predetermined structured document based on the search request received by the request reception unit 112. The search instruction unit 120 includes an analysis unit 122, a determination unit 124, and a creation unit 126.

解析部122は、要求受信部112により受け付けられた検索要求の構文解析を行い、当該検索要求を複数の前記文書管理装置20の少なくともいずれかに実行させる検索命令に分解する。   The analysis unit 122 performs syntax analysis of the search request received by the request reception unit 112, and decomposes the search request into a search command that causes at least one of the plurality of document management devices 20 to execute.

図5に示す例の場合、解析部122は、「db(“特許DB”)/特許」のパスを有するデータのうち、「db(“分類コード”)/テーマ/テーマ1」のパスを有するデータと分類コードが一致し、かつ発明の名称に「データベース」の文字列が含まれる「db(“特許DB”)/特許」のパスを有するデータの返却が要求されていることを解析する。   In the case of the example illustrated in FIG. 5, the analysis unit 122 has a path of “db (“ classification code ”) / theme / theme 1” among data having a path of “db (“ patent DB ”) / patent”. It is analyzed that return of data having a path of “db (“ patent DB ”) / patent” in which the data and the classification code match and the name of the invention includes the character string “database” is requested.

このため解析部122は、図5に示す検索要求の場合、「db(“分類コード”)//テーマ1/分類コード」のパスを有するデータと「db(“特許DB”)/特許/分類コード」のパスを有するデータとを結合したデータに該当するデータを検索する検索命令、「db(“特許DB”)/特許/発明の名称」で文字列「データベース」を含むデータを検索する検索命令、「db(“特許DB”)/特許」に該当するデータを検索する検索命令などに分解する。   Therefore, in the case of the search request shown in FIG. 5, the analysis unit 122 and data having a path of “db (“ classification code ”) // theme 1 / classification code” and “db (“ patent DB ”) / patent / classification Search command for searching for data corresponding to data obtained by combining data having a path of “code”, search for searching for data including character string “database” with “db (“ patent DB ”) / patent / invention name” The command is decomposed into a search command for searching for data corresponding to “db (“ patent DB ”) / patent”.

検索結果記憶部130は、構造化文書検索装置10により既に検索済みの検索命令である実行済検索命令と、当該実行済検索命令による検索が実行された文書管理装置20の識別情報と、当該実行済検索命令の検索結果の件数又はデータ量を示す検索結果概要情報とを対応付けた検索結果情報を記憶する。なお、検索結果記憶部130は、例えば、HDD(Hard Disk Drive)、光ディスク、メモリカード、RAM(Random Access Memory)などの既存の記憶媒体により実現できる。   The search result storage unit 130 includes an executed search command that is a search command already searched by the structured document search device 10, identification information of the document management device 20 that has been searched by the executed search command, and the execution Stored is search result information in which search result summary information indicating the number of search results or the amount of data of a completed search command is associated. The search result storage unit 130 can be realized by an existing storage medium such as an HDD (Hard Disk Drive), an optical disk, a memory card, and a RAM (Random Access Memory).

判定部124は、解析部122により分解された検索命令が検索結果記憶部130に記憶されている実行済検索命令と一致するか否かを判定する。   The determination unit 124 determines whether the search command decomposed by the analysis unit 122 matches the executed search command stored in the search result storage unit 130.

作成部126は、解析部122の解析結果や判定部124の判定結果から、各構造化文書管理装置20に実行させる検索命令や、構造化文書管理装置20での検索結果の転送ルートなどの検索計画を作成する。   The creation unit 126 retrieves a search command to be executed by each structured document management device 20 from the analysis result of the analysis unit 122 or the determination result of the determination unit 124, a transfer route of the search result in the structured document management device 20, and the like. Create a plan.

例えば、図6に示すように、複数の構造化文書管理装置が構造化文書管理装置20−1〜20−4で構成され、構造化文書管理装置20−1、20−2は、図3に示す構造の構造化文書群を管理し、構造化文書管理装置20−3、20−4は、図2に示す構造の構造化文書群を管理しているものとする。   For example, as shown in FIG. 6, a plurality of structured document management apparatuses are composed of structured document management apparatuses 20-1 to 20-4, and the structured document management apparatuses 20-1 and 20-2 are shown in FIG. It is assumed that the structured document group having the structure shown is managed, and the structured document management apparatuses 20-3 and 20-4 manage the structured document group having the structure shown in FIG.

この条件の下、作成部126が、図5に示す検索要求の解析結果から検索計画を作成する場合、「db(“分類コード”)//テーマ1/分類コード」のパスを有するデータと「db(“特許DB”)/特許/分類コード」のパスを有するデータとの間での結合処理を行う必要がある。   When the creation unit 126 creates a search plan from the analysis result of the search request shown in FIG. 5 under these conditions, data having a path of “db (“ classification code ”) // theme 1 / classification code” and “ It is necessary to perform a combining process with data having a path of “db (“ patent DB ”) / patent / classification code”.

この場合、図7に示すように、結合に必要な全てのデータを構造化文書検索装置10に集めてから結合処理を行う検索計画1が考えられる。また、図8に示すように、結合に必要な一部のデータを構造化文書管理装置20−1、20−2から構造化文書検索装置10経由で構造化文書管理装置20−3、20−4に転送し、構造化文書管理装置20−3、20−4で結合処理を行い、その結果を構造化文書検索装置10に返却する検索計画2も考えられる。   In this case, as shown in FIG. 7, a search plan 1 in which all data necessary for combining is collected in the structured document search apparatus 10 and the combining process is performed can be considered. Further, as shown in FIG. 8, a part of the data necessary for the combination is transferred from the structured document management devices 20-1 and 20-2 to the structured document search devices 10-3 and 20- via the structured document search device 10. The search plan 2 is also conceivable in which the structured document management apparatuses 20-3 and 20-4 transfer the data to the structured document management apparatus 20-3 and 20-4 and return the result to the structured document search apparatus 10.

ところで、このようなデータ転送を伴う結合処理を行う場合、作成部126は、検索処理時間を短縮するために、一般的にデータ転送量の少ない検索計画を作成することが要求される。このため作成部126は、例えば、「db(“分類コード”)//テーマ1/分類コード」のパスを有するデータと「db(“特許DB”)/特許/分類コード」のパスを有するデータのデータ件数とがほぼ同量であるとわかる場合には、検索計画1を作成する。また例えば、「db(“分類コード”)//テーマ1/分類コード」のパスを有するデータの件数が少なく、「db(“特許DB”)/特許/分類コード」のパスを有するデータのデータ件数が多いとわかる場合には、検索計画2を作成する。   By the way, when performing such a combination process involving data transfer, the creation unit 126 is generally required to create a search plan with a small data transfer amount in order to shorten the search processing time. Therefore, the creation unit 126, for example, data having a path of “db (“ classification code ”) // theme 1 / classification code” and data having a path of “db (“ patent DB ”) / patent / classification code”. If it is found that the number of data items is almost the same, a search plan 1 is created. Further, for example, the number of data having a path of “db (“ classification code ”) // theme 1 / classification code” is small, and data of data having a path of “db (“ patent DB ”) / patent / classification code”. If the number of cases is known to be large, a search plan 2 is created.

つまり、本実施の形態の作成部126は、検索結果記憶部130からIDなどの識別情報や、データの件数、データ量、値の分布、分類コードが合致するデータの件数やデータ量などである検索結果概要情報を参照して最適な検索計画を作成する。   That is, the creation unit 126 of the present embodiment includes identification information such as an ID from the search result storage unit 130, the number of data items, the data amount, the distribution of values, the number of data items that match the classification code, the data amount, and the like. Create an optimal search plan by referring to the search result summary information.

具体的には、作成部126は、判定部124により解析部122により分解された検索命令が検索結果記憶部130に記憶されている実行済検索命令と一致すると判定された場合、当該実行済検索命令に対応する識別情報及び検索結果概要情報を参照して検索要求の検索計画を作成する。   Specifically, when the creation unit 126 determines that the search command decomposed by the analysis unit 122 by the determination unit 124 matches the executed search command stored in the search result storage unit 130, the generated search 126 A search request search plan is created with reference to the identification information and search result summary information corresponding to the command.

図9は、検索結果記憶部130に記憶されている検索結果情報の一例を示す図であり、「db(“分類コード”)//テーマ1/分類コード」のパスを有するデータの実行済検索命令に関する検索結果情報と、「db(“特許DB”)/特許」のパスを有するデータの実行済検索命令に関する検索結果情報が記憶されている。   FIG. 9 is a diagram showing an example of search result information stored in the search result storage unit 130, and an already executed search for data having a path of “db (“ classification code ”) // theme 1 / classification code” Search result information related to an instruction and search result information related to an executed search instruction for data having a path of “db (“ patent DB ”) / patent” are stored.

この場合、作成部126は、「db(“分類コード”)//テーマ1/分類コード」のパスを有するデータの実行済検索命令に対応する識別情報及び検索結果概要情報、具体的には、ノードID1が50件、ノードID2が50件、ノードID3が0件、ノードID4が0件という情報を参照する。   In this case, the creation unit 126 includes identification information and search result summary information corresponding to an executed search command for data having a path of “db (“ classification code ”) // theme 1 / classification code”, specifically, Reference is made to the information that the node ID 1 is 50, the node ID 2 is 50, the node ID 3 is 0, and the node ID 4 is 0.

同様に、作成部126は、「db(“特許DB”)/特許」のパスを有するデータの実行済検索命令に対応する識別情報及び検索結果概要情報、具体的には、ノードID1が0件、ノードID2が0件、ノードID3が2000件、ノードID4が2000件という情報を参照する。   Similarly, the creation unit 126 includes identification information and search result summary information corresponding to an executed search command for data having a path of “db (“ patent DB ”) / patent”, specifically, node ID 1 is 0. Reference is made to the information that the node ID 2 is 0, the node ID 3 is 2000, and the node ID 4 is 2000.

この結果、作成部126は、「db(“分類コード”)//テーマ1/分類コード」のパスを有するデータの件数が、「db(“特許DB”)/特許」のパスを有するデータの件数に比べ極端に少ないため、図8に示すような検索計画2を作成する。   As a result, the creation unit 126 stores the data having the path “db (“ patent DB ”) / patent” in which the number of data having the path “db (“ classification code ”) // theme 1 / classification code”. Since it is extremely smaller than the number of cases, a search plan 2 as shown in FIG. 8 is created.

なお本実施の形態では、ノードID1、2、3、4は、それぞれ構造化文書管理装置20−1、20−2、20−3、20−4の識別情報を示すものとする。また、本実施の形態では検索結果概要情報としてノードIDごとのヒット件数を記憶しているが、これに限らずデータ量などを記憶することにしてもよい。   In the present embodiment, the node IDs 1, 2, 3, and 4 indicate the identification information of the structured document management apparatuses 20-1, 20-2, 20-3, and 20-4, respectively. In this embodiment, the number of hits for each node ID is stored as search result summary information. However, the present invention is not limited to this, and the amount of data may be stored.

また、作成部126は、判定部124により解析部122により分解された検索命令が検索結果記憶部130に記憶されている実行済検索命令と一致すると判定されなかった場合、検索結果情報を用いて当該検索命令に対応する識別情報及び検索結果概要情報を推定し、検索要求の検索計画を作成する。なお、推定手法としては、例えば、パスの先祖、子孫関係や選択条件の包含関係などによる推定がある。   The creation unit 126 uses the search result information when it is not determined that the search command decomposed by the analysis unit 122 by the determination unit 124 matches the executed search command stored in the search result storage unit 130. The identification information and search result summary information corresponding to the search command are estimated, and a search plan for the search request is created. As an estimation method, for example, there is an estimation based on an ancestor / descendant relationship of a path or an inclusion relationship of selection conditions.

図10は、検索結果記憶部130に記憶されている検索結果情報の一例を示す図であり、「db(“特許DB”)/特許/特許請求の範囲/請求項」のパスを有するデータの実行済検索命令に関する検索結果情報と、「db(“特許DB”)/特許//請求項/text()」のパスを有し、文字列「XMLデータ」を含むというデータの実行済検索命令に関する検索結果情報が記憶されている。   FIG. 10 is a diagram showing an example of the search result information stored in the search result storage unit 130. Data having a path of “db (“ patent DB ”) / patent / claims / claims” Search result information related to the executed search command and an executed search command for data having a path of “db (“ patent DB ”) / patent // claim / text ()” and including the character string “XML data” Search result information on is stored.

例えば、「db(“特許DB”)/特許//請求項/text()」のパスを有し、文字列「データベース」を含むデータの検索命令が、検索結果記憶部130に記憶されている実行済検索命令と一致すると判定されなかったものとする。   For example, a search command for data having a path of “db (“ patent DB ”) / patent // claim / text ()” and including the character string “database” is stored in the search result storage unit 130. It is assumed that it has not been determined that it matches the executed search command.

しかし、図10に示す「db(“特許DB”)/特許/特許請求の範囲/請求項」のパスを有するデータは、「db(“特許DB”)/特許//請求項/text()」のパスを有するデータに含まれている。   However, data having a path of “db (“ patent DB ”) / patent / claims / claims” shown in FIG. 10 is “db (“ patent DB ”) / patent // claim / text ()”. ”Is included in the data having the path“ ”.

従って、作成部126は、「db(“特許DB”)/特許/特許請求の範囲/請求項」のパスを有するデータの検索命令に対応する識別情報及び検索結果概要情報、具体的には、ノードID1が0件、ノードID2が0件、ノードID3が1000件、ノードID4が1500件という情報を参照することで、「db(“特許DB”)/特許//請求項/text()」のパスを有するデータは少なくとも2500件は存在すると推定できる。   Therefore, the creation unit 126 includes identification information and search result summary information corresponding to a search command for data having a path of “db (“ patent DB ”) / patent / claims / claims, specifically, By referring to the information that the node ID 1 is 0, the node ID 2 is 0, the node ID 3 is 1000, and the node ID 4 is 1500, “db (“ patent DB ”) / patent // claim / text ()”. It can be estimated that there are at least 2500 pieces of data having the paths.

同様に、図10に示す「db(“特許DB”)/特許//請求項/text()」のパスを有し、文字列「XMLデータ」を含むというデータにおいて、「XMLデータ」の後に「ベース」が続いたとすると、上述の検索命令に含まれる「データベース」と合致する。   Similarly, in the data having a path of “db (“ patent DB ”) / patent // claim / text ()” shown in FIG. 10 and including the character string “XML data”, after “XML data” If “base” continues, it matches the “database” included in the search command described above.

従って、作成部126は、「db(“特許DB”)/特許//請求項/text()」のパスを有し、文字列「XMLデータ」を含むというデータの検索命令に対応する識別情報及び検索結果概要情報、具体的には、ノードID1が0件、ノードID2が0件、ノードID3が200件、ノードID4が100件という情報を参照することで、「db(”特許DB”)/特許//請求項/text()」のパスを有し、文字列「データベース」を含むデータは300件程度は存在する可能性があると推定できる。   Therefore, the creation unit 126 has a path of “db (“ patent DB ”) / patent // claim / text ()” and has identification information corresponding to a data search command including the character string “XML data”. And the search result summary information, specifically, by referring to the information that the node ID 1 is 0, the node ID 2 is 0, the node ID 3 is 200, and the node ID 4 is 100, “db (“ patent DB ”)” / Patent // claim / text () "and it can be estimated that there may be about 300 pieces of data including the character string" database ".

以上より、作成部126は、「db(“特許DB”)/特許//請求項/text()」のパスを有し、文字列「データベース」を含むデータは、「ノードID1が0件、ノードID2が0件、ノードID3が200件から最大1000件以上、ノードID4が100件から最大1500件以上」と推定することができる。そして、作成部126は、この推定結果を参照して検索計画を作成する。   As described above, the creation unit 126 has a path of “db (“ patent DB ”) / patent // claim / text ()”, and data including the character string “database” includes “node ID 1 is 0, It can be estimated that the node ID 2 is 0, the node ID 3 is 200 to a maximum of 1000 or more, and the node ID 4 is 100 to a maximum of 1500 or more. Then, the creation unit 126 creates a search plan with reference to this estimation result.

命令送信部114は、作成部126により作成された検索計画に従って、解析部122により分解された検索命令を複数の文書管理装置20の少なくともいずれかに送信する。また、後述する格納指示部150の格納指示に従って、構造化文書を指定された文書管理装置20の少なくともいずれかに送信する。   The command transmission unit 114 transmits the search command decomposed by the analysis unit 122 to at least one of the plurality of document management apparatuses 20 according to the search plan created by the creation unit 126. Further, the structured document is transmitted to at least one of the designated document management apparatuses 20 in accordance with a storage instruction of a storage instruction unit 150 described later.

検索結果受信部116は、検索命令が送信された文書管理装置20から、命令送信部114により送信された検索命令の検索結果を受信する。   The search result receiving unit 116 receives the search result of the search command transmitted by the command transmission unit 114 from the document management apparatus 20 to which the search command has been transmitted.

履歴部140は、解析部122により分解された検索命令と、当該検索命令が送信された文書管理装置20の識別情報と、検索結果受信部116により受信された検索命令の検索結果の件数又はデータ量を、それぞれ検索結果記憶部130の実行済検索命令、識別情報、及び検索結果概要情報として履歴する。   The history unit 140 includes the search command decomposed by the analysis unit 122, the identification information of the document management apparatus 20 to which the search command is transmitted, and the number or data of search results of the search command received by the search result receiving unit 116. The amount is recorded as an executed search command, identification information, and search result summary information in the search result storage unit 130, respectively.

検索結果送信部118は、検索結果受信部116により受信された検索命令の検索結果に基づく検索要求の検索結果を、クライアント装置2に送信する。   The search result transmission unit 118 transmits the search result of the search request based on the search result of the search command received by the search result receiving unit 116 to the client device 2.

格納指示部150は、要求受信部112により受け付けられた格納要求に基づいて、構造化文書管理装置20に対して所定の構造化文書の格納等を指示する。   The storage instruction unit 150 instructs the structured document management apparatus 20 to store a predetermined structured document based on the storage request received by the request reception unit 112.

図4に示すように、構造化文書管理装置20は、通信制御部210と、第1検索部220と、第1構造化文書記憶部230と、格納部240とを備える。   As shown in FIG. 4, the structured document management apparatus 20 includes a communication control unit 210, a first search unit 220, a first structured document storage unit 230, and a storage unit 240.

通信制御部210は、構造化文書検索装置10との間でのデータの送受信を行うものであり、受信部212と、送信部214とを含む。   The communication control unit 210 transmits / receives data to / from the structured document search apparatus 10 and includes a reception unit 212 and a transmission unit 214.

受信部212は、構造化文書検索装置10から構造化文書の検索命令や格納命令を受信する。   The receiving unit 212 receives a structured document search command and a storage command from the structured document search device 10.

第1構造化文書記憶部230は、図2や図3に示すような構造化文書を記憶するものであり、例えば、HDD(Hard Disk Drive)、光ディスク、メモリカード、RAM(Random Access Memory)などの既存の記憶媒体により実現できる。   The first structured document storage unit 230 stores a structured document as shown in FIGS. 2 and 3, for example, an HDD (Hard Disk Drive), an optical disk, a memory card, a RAM (Random Access Memory), and the like. This can be realized by the existing storage medium.

第1検索部220は、受信部212により受信された検索命令に従って、第1構造化文書記憶部230から構造化文書を検索する。   The first search unit 220 searches for the structured document from the first structured document storage unit 230 in accordance with the search command received by the receiving unit 212.

送信部214は、第1検索部220による構造化文書の検索結果を、構造化文書検索装置10に送信する。   The transmission unit 214 transmits the structured document search result by the first search unit 220 to the structured document search device 10.

格納部240は、受信部212により受信された格納命令に従って、第1構造化文書記憶部230に構造化文書を格納する。   The storage unit 240 stores the structured document in the first structured document storage unit 230 according to the storage instruction received by the receiving unit 212.

次に、本実施の形態の構造化文書検索システムの動作について説明する。   Next, the operation of the structured document search system of this embodiment will be described.

図11は、本実施の形態の構造化文書検索装置10で行われる構造化文書の検索の処理手順の流れの一例を示すフローチャートである。   FIG. 11 is a flowchart illustrating an example of a flow of a structured document search process performed by the structured document search apparatus 10 according to the present embodiment.

まず、要求受信部112は、クライアント装置2から構造化文書の検索要求を受信する(ステップS10)。   First, the request receiving unit 112 receives a structured document search request from the client device 2 (step S10).

続いて、解析部122は、要求受信部112により受信された検索要求の構文解析を行い、当該検索要求を複数の文書管理装置20の少なくともいずれかに実行させる検索命令に分解する(ステップS12)。   Subsequently, the analysis unit 122 performs syntax analysis of the search request received by the request reception unit 112, and decomposes the search request into a search command that causes at least one of the plurality of document management devices 20 to execute (Step S12). .

続いて、作成部124は、解析部122の解析結果から、各構造化文書管理装置20に実行させる検索命令や、構造化文書管理装置20での検索結果の転送ルートなどの検索計画を作成する検索計画作成処理を行う(ステップS14)。なお、検索計画作成処理の詳細は後述する。   Subsequently, the creation unit 124 creates a search plan such as a search command to be executed by each structured document management device 20 and a transfer route of the search result in the structured document management device 20 from the analysis result of the analysis unit 122. A search plan creation process is performed (step S14). Details of the search plan creation process will be described later.

続いて、命令送信部114は、作成部126により作成された検索計画に従って、解析部122により分解された検索命令を複数の文書管理装置20の少なくともいずれかに送信する(ステップS20)。   Subsequently, the command transmission unit 114 transmits the search command decomposed by the analysis unit 122 to at least one of the plurality of document management devices 20 in accordance with the search plan created by the creation unit 126 (step S20).

続いて、検索結果受信部116が、構造化文書管理装置20から検索命令に対する検索結果を受信した場合(ステップS22でYes)、履歴部140は、当該検索命令の検索結果情報が、検索結果記憶部130に既に格納されているか否かを確認する(ステップS24)。   Subsequently, when the search result receiving unit 116 receives a search result for the search command from the structured document management apparatus 20 (Yes in step S22), the history unit 140 stores the search result information of the search command in the search result storage. It is checked whether it is already stored in the unit 130 (step S24).

そして、履歴部140は、検索命令の検索結果情報が検索結果記憶部130に既に格納されている場合には(ステップS24でYes)、当該検索命令の検索結果情報を検索結果受信部116により受信された検索結果で更新する(ステップS26)。   When the search command search result information is already stored in the search result storage unit 130 (Yes in step S24), the history unit 140 receives the search command search result information from the search result receiving unit 116. The updated search result is updated (step S26).

一方、履歴部140は、検索命令の検索結果情報が検索結果記憶部130に格納されていない場合には(ステップS24でNo)、検索結果受信部116により受信された検索結果の検索結果情報を新規に格納する(ステップS28)。   On the other hand, if the search result information of the search command is not stored in the search result storage unit 130 (No in step S24), the history unit 140 displays the search result information of the search result received by the search result receiving unit 116. Newly stored (step S28).

そして、検索結果受信部116が、全ての検索命令に対する検索結果を受信し、検索命令が終了するまで(ステップS30でNo)、ステップS22〜ステップS30の処理が繰り返される。   Then, the search result receiving unit 116 receives the search results for all the search commands, and the processing of step S22 to step S30 is repeated until the search command ends (No in step S30).

検索結果受信部116が、全ての検索命令に対する検索結果を受信し、検索命令が終了した場合には(ステップS30でYes)、検索結果送信部118が、クライアント装置2に対して、検索要求に対する検索結果を送信する(ステップS32)。   When the search result receiving unit 116 receives the search results for all the search commands and the search command is completed (Yes in step S30), the search result transmitting unit 118 responds to the search request to the client device 2. The search result is transmitted (step S32).

図12は、図11のステップS14に示す検索計画作成処理の処理手順の流れの一例を示すフローチャートである。   FIG. 12 is a flowchart illustrating an example of a processing procedure flow of the search plan creation process illustrated in step S14 of FIG.

まず、判定部124は、解析部122により解析された検索命令に合致する実行済検索命令が検索結果記憶部130に格納されているか否かを確認する(ステップS40)。   First, the determination unit 124 checks whether an executed search command that matches the search command analyzed by the analysis unit 122 is stored in the search result storage unit 130 (step S40).

そして、作成部126は、合致する実行済検索命令が検索結果記憶部130に格納されている場合には(ステップS40でYes)、当該実行済検索命令に対応する識別情報及び検索結果概要情報を取得して、検索要求の検索計画を作成する(ステップS42)。   Then, when a matching executed search command is stored in the search result storage unit 130 (Yes in step S40), the creation unit 126 displays the identification information and search result summary information corresponding to the executed search command. The search request is acquired and a search plan for the search request is created (step S42).

一方、作成部126は、合致する実行済検索命令が検索結果記憶部130に格納されていない場合には(ステップS40でNo)、検索結果記憶部130に格納されている検索結果情報を用いて当該検索命令に対応する識別情報及び検索結果概要情報を推定する(ステップS44)。   On the other hand, when the matching executed search command is not stored in the search result storage unit 130 (No in step S40), the creation unit 126 uses the search result information stored in the search result storage unit 130. The identification information and search result summary information corresponding to the search command are estimated (step S44).

そして、作成部126は、当該検索命令に対応する識別情報及び検索結果概要情報の推定に成功した場合には(ステップS46でYes)、当該検索命令の推定結果を取得して、検索要求の検索計画を作成する(ステップS48)。   If the creation unit 126 succeeds in estimating the identification information and search result summary information corresponding to the search command (Yes in step S46), the creation unit 126 acquires the search command estimation result and searches for the search request. A plan is created (step S48).

一方、作成部126は、当該検索命令の検索結果の推定に失敗した場合には(ステップS46でNo)、例えば、予め定められたルールに基づいて検索計画を作成する。   On the other hand, if the creation unit 126 fails to estimate the search result of the search command (No in step S46), the creation unit 126 creates a search plan based on, for example, a predetermined rule.

図13は、本実施の形態の構造化文書管理装置20で行われる構造化文書の検索の処理手順の流れの一例を示すフローチャートである。   FIG. 13 is a flowchart illustrating an example of a flow of a structured document search process performed by the structured document management apparatus 20 according to the present embodiment.

まず、受信部212は、構造化文書検索装置10から検索命令を受信する(ステップS60)。   First, the receiving unit 212 receives a search command from the structured document search device 10 (step S60).

続いて、第1検索部220は、受信部212により受信された検索命令に従って、第1構造化文書記憶部230から検索する(ステップS62)。   Subsequently, the first search unit 220 searches the first structured document storage unit 230 in accordance with the search command received by the receiving unit 212 (step S62).

続いて、送信部214は、第1検索部220の検索結果を構造化文書検索装置10に送信する(ステップS64)。   Subsequently, the transmission unit 214 transmits the search result of the first search unit 220 to the structured document search device 10 (step S64).

このように本実施の形態では、既に検索済みの検索命令である実行済検索命令と、当該実行済検索命令による検索が実行さた文書管理装置の識別情報と、当該検索命令の検索結果の件数又はデータ量を示す検索結果概要情報とを対応付けた検索結果情報を記憶している。従って本実施の形態によれば、この検索結果情報を用いることにより、構造化文書の検索以外の処理への影響を抑えつつ、転送データ量を少なくする検索計画を作成することができ、検索処理時間を短縮することができる。   As described above, in the present embodiment, an executed search instruction that is an already searched search instruction, identification information of a document management apparatus that has been searched by the executed search instruction, and the number of search results of the search instruction. Alternatively, search result information in which search result summary information indicating the data amount is associated is stored. Therefore, according to the present embodiment, by using this search result information, it is possible to create a search plan that reduces the amount of transfer data while suppressing the influence on processes other than structured document search. Time can be shortened.

なお上記実施の形態の構造化文書検索装置10、構造化文書管理装置20、クライアント装置2は、CPU(Central Processing Unit)などの制御装置、ROM(Read Only Memory)やRAM(Random Access Memory)などの記憶装置、液晶ディスプレイなどの表示装置、キーボードやマウスなどの入力装置、ネットワークに接続して通信を行う通信I/F等を備えたハードウェア構成となっている。   Note that the structured document search device 10, the structured document management device 20, and the client device 2 of the above embodiment are a control device such as a CPU (Central Processing Unit), a ROM (Read Only Memory), a RAM (Random Access Memory), and the like. The hardware configuration includes a storage device, a display device such as a liquid crystal display, an input device such as a keyboard and a mouse, and a communication I / F that communicates by connecting to a network.

(変形例)
なお、本発明は、上記実施の形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化することができる。また、上記実施の形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成することができる。例えば、実施の形態に示される全構成要素からいくつかの構成要素を削除してもよい。
(Modification)
It should be noted that the present invention is not limited to the above-described embodiment as it is, and can be embodied by modifying the constituent elements without departing from the scope of the invention in the implementation stage. In addition, various inventions can be formed by appropriately combining a plurality of constituent elements disclosed in the above embodiments. For example, some components may be deleted from all the components shown in the embodiment.

上記実施の形態では、構造化文書管理装置のみが構造化文書を管理する例について説明したが、構造化文書検索装置も構造化文書を管理するようにしてもよい。   In the above embodiment, an example in which only a structured document management apparatus manages structured documents has been described. However, a structured document search apparatus may also manage structured documents.

図14は、変形例の構造化文書検索システムの概略構成の一例を示すブロック図である。なお、以下では、上記実施の形態との相違点の説明を主に行い、上記実施の形態と同様の機能を有する構成要素については、上記実施の形態と同様の名称・符号を付し、その説明を省略する。   FIG. 14 is a block diagram illustrating an example of a schematic configuration of a structured document search system according to a modification. In the following, differences from the above embodiment will be mainly described. Constituent elements having the same functions as those of the above embodiment are given the same names and symbols as those of the above embodiment, and Description is omitted.

変形例の構造化文書検索装置1010は、検索指示部1020が第2検索部1128を含み、第2構造化文書記憶部1160を備える点で、上記実施の形態の構造化文書検索装置10と相違する。また、検索結果送信部1118、及び格納指示部1150が行う処理内容も上記実施の形態と相違する。   The structured document search device 1010 of the modification is different from the structured document search device 10 of the above embodiment in that the search instruction unit 1020 includes a second search unit 1128 and includes a second structured document storage unit 1160. To do. The processing contents performed by the search result transmission unit 1118 and the storage instruction unit 1150 are also different from those in the above embodiment.

第2構造化文書記憶部1160は、図2や図3に示すような構造化文書を記憶するものであり、例えば、HDD(Hard Disk Drive)、光ディスク、メモリカード、RAM(Random Access Memory)などの既存の記憶媒体により実現できる。   The second structured document storage unit 1160 stores a structured document as shown in FIGS. 2 and 3, for example, an HDD (Hard Disk Drive), an optical disk, a memory card, a RAM (Random Access Memory), and the like. This can be realized by the existing storage medium.

第2検索部1128は、作成部126により作成された検索計画に従い、解析部122により分解された検索命令を実行して、第2構造化文書記憶部1160から構造化文書を検索する。   The second search unit 1128 searches the structured document from the second structured document storage unit 1160 by executing the search command decomposed by the analysis unit 122 according to the search plan created by the creation unit 126.

検索結果送信部1118は、検索結果受信部116により受信された検索命令の検索結果及び第2検索部1128の検索結果に基づく検索要求の検索結果を、クライアント装置2に送信する。   The search result transmission unit 1118 transmits the search result of the search command received by the search result receiving unit 116 and the search result of the search request based on the search result of the second search unit 1128 to the client device 2.

格納指示部1150は、要求受信部112により受信された格納命令に従って、第2構造化文書記憶部1160に構造化文書を格納する。   The storage instruction unit 1150 stores the structured document in the second structured document storage unit 1160 in accordance with the storage command received by the request reception unit 112.

1 構造化文書検索システム
2 クライアント装置
10、1010 構造化文書検索装置
20(20−1〜20−4) 構造化文書管理装置
30 ネットワーク
110 通信制御部
112 要求受信部
114 命令送信部
116 検索結果受信部
118、1118 検索結果送信部
120、1120 検索指示部
122 解析部
124 判定部
126 作成部
130 検索結果記憶部
140 履歴部
150、1150 格納指示部
210 通信制御部
212 受信部
214 送信部
220 第1検索部
230 第1構造化文書記憶部
240 格納部
1128 第2検索部
1160 第2構造化文書記憶部
DESCRIPTION OF SYMBOLS 1 Structured document search system 2 Client device 10, 1010 Structured document search device 20 (20-1 to 20-4) Structured document management device 30 Network 110 Communication control unit 112 Request reception unit 114 Command transmission unit 116 Retrieval result reception Unit 118, 1118 Search result transmission unit 120, 1120 Search instruction unit 122 Analysis unit 124 Determination unit 126 Creation unit 130 Search result storage unit 140 History unit 150, 1150 Storage instruction unit 210 Communication control unit 212 Reception unit 214 Transmission unit 220 First Retrieval unit 230 First structured document storage unit 240 Storage unit 1128 Second retrieval unit 1160 Second structured document storage unit

Claims (5)

階層化された論理構造を有する複数の構造化文書を分散して格納する複数の文書管理装置と、複数の前記文書管理装置とネットワークを介して接続され、複数の前記文書管理装置から前記構造化文書を検索する検索装置と、を備える構造化文書検索システムであって、
前記検索装置は、
ネットワークを介して接続されるクライアント装置から前記構造化文書の検索要求を受信する要求受信部と、
前記検索要求を構文解析し、当該検索要求を複数の前記文書管理装置の少なくともいずれかに実行させる検索命令に分解する解析部と、
既に実行済みの前記検索命令である実行済検索命令と、当該実行済検索命令による検索が実行された前記文書管理装置の識別情報と、当該実行済検索命令の検索結果の件数又はデータ量を示す検索結果概要情報とを対応付けた検索結果情報を記憶する検索結果記憶部と、
前記検索命令が前記検索結果記憶部に記憶されている前記実行済検索命令と一致するか否かを判定する判定部と、
一致すると判定された場合、一致した前記実行済検索命令に対応する前記識別情報及び前記検索結果概要情報を参照して前記検索要求の検索計画を作成し、一致すると判定されなかった場合、前記検索結果情報を用いて前記検索命令に対応する前記識別情報及び前記検索結果概要情報を推定し、前記検索要求の検索計画を作成する作成部と、
前記検索計画に従って、前記検索命令を複数の前記文書管理装置の少なくともいずれかに送信する命令送信部と、
前記検索命令が送信された前記文書管理装置から、前記検索命令の検索結果を受信する検索結果受信部と、
前記検索命令、前記検索命令が送信された前記文書管理装置の識別情報、及び受信した前記検索命令の前記検索結果の件数又はデータ量を、それぞれ前記検索結果記憶部の前記実行済検索命令、前記識別情報、及び前記検索結果概要情報として履歴する履歴部と、
受信した前記検索命令の検索結果に基づく前記検索要求の検索結果を、前記クライアント装置に送信する検索結果送信部と、を備え、
前記文書管理装置は、
前記構造化文書を記憶する第1構造化文書記憶部と、
前記検索装置から前記検索命令を受信する受信部と、
前記検索命令に従って前記第1構造化文書記憶部から前記構造化文書を検索する第1検索部と、
前記構造化文書の検索結果を前記検索装置に送信する送信部とを備えることを特徴とする構造化文書検索システム。
A plurality of document management devices that distribute and store a plurality of structured documents having a hierarchical logical structure, and a plurality of the document management devices connected via a network, and the plurality of document management devices from the structured A structured document search system comprising a search device for searching for a document,
The search device includes:
A request receiving unit for receiving a search request for the structured document from a client device connected via a network;
An analysis unit that parses the search request and decomposes the search request into a search command that causes at least one of the plurality of document management devices to execute the search request;
Indicates the executed search command that has already been executed, the identification information of the document management device that has been searched by the executed search command, and the number or data amount of search results of the executed search command A search result storage unit that stores search result information associated with search result summary information;
A determination unit that determines whether or not the search command matches the executed search command stored in the search result storage unit;
When it is determined that they match, the search plan of the search request is created with reference to the identification information and the search result summary information corresponding to the executed search instruction that matches, and when it is not determined that they match, the search Estimating the identification information and the search result summary information corresponding to the search command using result information, and creating a search plan for the search request;
A command transmission unit configured to transmit the search command to at least one of the plurality of document management devices according to the search plan;
A search result receiving unit for receiving a search result of the search command from the document management apparatus to which the search command is transmitted;
The search command, the identification information of the document management device to which the search command has been transmitted, and the number or data amount of the search results of the received search command, respectively, the executed search command of the search result storage unit, A history part that records the identification information and the search result summary information;
A search result transmission unit that transmits the search result of the search request based on the search result of the received search command to the client device,
The document management apparatus includes:
A first structured document storage unit for storing the structured document;
A receiving unit for receiving the search command from the search device;
A first search unit for searching the structured document from the first structured document storage unit according to the search instruction;
A structured document search system comprising: a transmission unit configured to transmit a search result of the structured document to the search device.
前記検索装置は、
前記構造化文書を記憶する第2構造化文書記憶部と、
前記検索計画に従い、前記検索命令を実行して、前記第2構造化文書記憶部から前記構造化文書を検索する第2検索部と、を更に備え、
前記検索結果送信部は、受信した前記検索命令の検索結果及び前記第2検索部の検索結果に基づく前記検索要求の検索結果を、前記クライアント装置に送信することを特徴とする請求項1に記載の構造化文書検索システム。
The search device includes:
A second structured document storage unit for storing the structured document;
A second search unit that executes the search instruction according to the search plan and searches the structured document from the second structured document storage unit,
The search result transmission unit transmits the search result of the search request based on the search result of the received search command and the search result of the second search unit to the client device. Structured document search system.
階層化された論理構造を有する複数の構造化文書を分散して格納する複数の文書管理装置とネットワークを介して接続され、複数の前記文書管理装置から前記構造化文書を検索する検索装置であって、
ネットワークを介して接続されるクライアント装置から前記構造化文書の検索要求を受信する要求受信部と、
前記検索要求を構文解析し、当該検索要求を複数の前記文書管理装置の少なくともいずれかに実行させる検索命令に分解する解析部と、
既に実行済みの前記検索命令である実行済検索命令と、当該実行済検索命令による検索が実行された前記文書管理装置の識別情報と、当該実行済検索命令の検索結果の件数又はデータ量を示す検索結果概要情報とを対応付けた検索結果情報を記憶する検索結果記憶部と、
前記検索命令が前記検索結果記憶部に記憶されている前記実行済検索命令と一致するか否かを判定する判定部と、
一致すると判定された場合、一致した前記実行済検索命令に対応する前記識別情報及び前記検索結果概要情報を参照して前記検索要求の検索計画を作成し、一致すると判定されなかった場合、前記検索結果情報を用いて前記検索命令に対応する前記識別情報及び前記検索結果概要情報を推定し、前記検索要求の検索計画を作成する作成部と、
前記検索計画に従って、前記検索命令を複数の前記文書管理装置の少なくともいずれかに送信する命令送信部と、
前記検索命令が送信された前記文書管理装置から、前記検索命令の検索結果を受信する検索結果受信部と、
前記検索命令、前記検索命令が送信された前記文書管理装置の識別情報、及び受信した前記検索命令の前記検索結果の件数又はデータ量を、それぞれ前記検索結果記憶部の前記実行済検索命令、前記識別情報、及び前記検索結果概要情報として履歴する履歴部と、
受信した前記検索命令の検索結果に基づく前記検索要求の検索結果を、前記クライアント装置に送信する検索結果送信部と、を備えることを特徴とする構造化文書検索装置。
A search device connected via a network to a plurality of document management devices that distribute and store a plurality of structured documents having a hierarchical logical structure, and searches the structured document from the plurality of document management devices. And
A request receiving unit for receiving a search request for the structured document from a client device connected via a network;
An analysis unit that parses the search request and decomposes the search request into a search command that causes at least one of the plurality of document management devices to execute the search request;
Indicates the executed search command that has already been executed, the identification information of the document management device that has been searched by the executed search command, and the number or data amount of search results of the executed search command A search result storage unit that stores search result information associated with search result summary information;
A determination unit that determines whether or not the search command matches the executed search command stored in the search result storage unit;
When it is determined that they match, the search plan of the search request is created with reference to the identification information and the search result summary information corresponding to the executed search instruction that matches, and when it is not determined that they match, the search Estimating the identification information and the search result summary information corresponding to the search command using result information, and creating a search plan for the search request;
A command transmission unit configured to transmit the search command to at least one of the plurality of document management devices according to the search plan;
A search result receiving unit for receiving a search result of the search command from the document management apparatus to which the search command is transmitted;
The search command, the identification information of the document management device to which the search command has been transmitted, and the number or data amount of the search results of the received search command, respectively, the executed search command of the search result storage unit, A history part that records the identification information and the search result summary information;
A structured document search device, comprising: a search result transmission unit that transmits a search result of the search request based on the search result of the received search command to the client device.
階層化された論理構造を有する複数の構造化文書を分散して格納する複数の文書管理装置と、複数の前記文書管理装置とネットワークを介して接続され、複数の前記文書管理装置から前記構造化文書を検索する検索装置と、を備える構造化文書検索システムで実行される構造化文書検索方法であって、
前記検索装置は、
要求受信部が、ネットワークを介して接続されるクライアント装置から前記構造化文書の検索要求を受信する要求受信ステップと、
解析部が、前記検索要求を構文解析し、当該検索要求を複数の前記文書管理装置の少なくともいずれかに実行させる検索命令に分解する解析ステップと、
判定部が、前記検索命令が、既に実行済みの前記検索命令である実行済検索命令と、当該実行済検索命令による検索が実行された前記文書管理装置の識別情報と、当該実行済検索命令の検索結果の件数又はデータ量を示す検索結果概要情報とを対応付けた検索結果情報を記憶する検索結果記憶部に記憶されている前記実行済検索命令と一致するか否かを判定する判定ステップと、
作成部が、一致すると判定された場合、一致した前記実行済検索命令に対応する前記識別情報及び前記検索結果概要情報を参照して前記検索要求の検索計画を作成し、一致すると判定されなかった場合、前記検索結果情報を用いて前記検索命令に対応する前記識別情報及び前記検索結果概要情報を推定し、前記検索要求の検索計画を作成する作成ステップと、
命令送信部が、前記検索計画に従って、前記検索命令を複数の前記文書管理装置の少なくともいずれかに送信する命令送信ステップと、
検索結果受信部が、前記検索命令が送信された前記文書管理装置から、前記検索命令の検索結果を受信する検索結果受信ステップと、
履歴部が、前記検索命令、前記検索命令が送信された前記文書管理装置の識別情報、及び受信した前記検索命令の前記検索結果の件数又はデータ量を、それぞれ前記検索結果記憶部の前記実行済検索命令、前記識別情報、及び前記検索結果概要情報として履歴する履歴ステップと、
検索結果送信部が、受信した前記検索命令の検索結果に基づく前記検索要求の検索結果を、前記クライアント装置に送信する検索結果送信ステップと、を含み、
前記文書管理装置は、
受信部が、前記検索装置から前記検索命令を受信する受信ステップと、
第1検索部が、前記検索命令に従って前記構造化文書を記憶する第1構造化文書記憶部から前記構造化文書を検索する第1検索ステップと、
送信部が、前記構造化文書の検索結果を前記検索装置に送信する送信ステップと、を含むことを特徴とする構造化文書検索方法。
A plurality of document management devices that distribute and store a plurality of structured documents having a hierarchical logical structure, and a plurality of the document management devices connected via a network, and the plurality of document management devices from the structured A structured document search method executed by a structured document search system comprising a search device for searching for a document,
The search device includes:
A request receiving step for receiving a search request for the structured document from a client device connected via a network;
An analysis unit that parses the search request and decomposes the search request into a search instruction that causes at least one of the document management devices to execute the search request;
The determination unit includes an executed search instruction in which the search instruction is the already executed search instruction, identification information of the document management apparatus in which the search by the executed search instruction has been executed, and the executed search instruction A determination step for determining whether or not the search result storage unit stores the search result information associated with the search result summary information indicating the number of search results or the amount of data, and matches the executed search command stored in the search result storage unit; ,
When it is determined that the creation unit matches, the search unit for the search request is created by referring to the identification information and the search result summary information corresponding to the executed search command that matches, and it is not determined that the search unit matches. A search step for estimating the identification information and the search result summary information corresponding to the search command using the search result information, and creating a search plan for the search request;
A command sending step for sending the search command to at least one of the plurality of document management devices according to the search plan;
A search result receiving unit for receiving a search result of the search command from the document management apparatus to which the search command has been transmitted;
The history unit includes the search command, the identification information of the document management apparatus to which the search command is transmitted, and the number or data amount of the search results of the received search command, respectively, in the search result storage unit. A history step of history as a search command, the identification information, and the search result summary information;
A search result transmitting step, wherein the search result transmitting unit transmits a search result of the search request based on the received search result of the search command to the client device,
The document management apparatus includes:
A receiving step for receiving the search command from the search device;
A first search step in which a first search unit searches the structured document from a first structured document storage unit that stores the structured document according to the search command;
A structured document search method, comprising: a transmission step in which a transmission unit transmits a search result of the structured document to the search device.
階層化された論理構造を有する複数の構造化文書を分散して格納する複数の文書管理装置とネットワークを介して接続され、複数の前記文書管理装置から前記構造化文書を検索する検索装置で実行される構造化文書検索方法であって、
前記検索装置は、
要求受信部が、ネットワークを介して接続されるクライアント装置から前記構造化文書の検索要求を受信する要求受信ステップと、
解析部が、前記検索要求を構文解析し、当該検索要求を複数の前記文書管理装置の少なくともいずれかに実行させる検索命令に分解する解析ステップと、
判定部が、前記検索命令が、既に実行済みの前記検索命令である実行済検索命令と、当該実行済検索命令による検索が実行された前記文書管理装置の識別情報と、当該実行済検索命令の検索結果の件数又はデータ量を示す検索結果概要情報とを対応付けた検索結果情報を記憶する検索結果記憶部に記憶されている前記実行済検索命令と一致するか否かを判定する判定ステップと、
作成部が、一致すると判定された場合、一致した前記実行済検索命令に対応する前記識別情報及び前記検索結果概要情報を参照して前記検索要求の検索計画を作成し、一致すると判定されなかった場合、前記検索結果情報を用いて前記検索命令に対応する前記識別情報及び前記検索結果概要情報を推定し、前記検索要求の検索計画を作成する作成ステップと、
命令送信部が、前記検索計画に従って、前記検索命令を複数の前記文書管理装置の少なくともいずれかに送信する命令送信ステップと、
検索結果受信部が、前記検索命令が送信された前記文書管理装置から、前記検索命令の検索結果を受信する検索結果受信ステップと、
履歴部が、前記検索命令、前記検索命令が送信された前記文書管理装置の識別情報、及び受信した前記検索命令の前記検索結果の件数又はデータ量を、それぞれ前記検索結果記憶部の前記実行済検索命令、前記識別情報、及び前記検索結果概要情報として履歴する履歴ステップと、
検索結果送信部が、受信した前記検索命令の検索結果に基づく前記検索要求の検索結果を、前記クライアント装置に送信する検索結果送信ステップと、を含むことを特徴とする構造化文書検索方法。
A plurality of document management devices that distribute and store a plurality of structured documents having a hierarchical logical structure are connected via a network, and executed by a search device that retrieves the structured documents from the plurality of document management devices. A structured document retrieval method, comprising:
The search device includes:
A request receiving step for receiving a search request for the structured document from a client device connected via a network;
An analysis unit that parses the search request and decomposes the search request into a search instruction that causes at least one of the document management devices to execute the search request;
The determination unit includes an executed search instruction in which the search instruction is the already executed search instruction, identification information of the document management apparatus in which the search by the executed search instruction has been executed, and the executed search instruction A determination step for determining whether or not the search result storage unit stores the search result information associated with the search result summary information indicating the number of search results or the amount of data, and matches the executed search command stored in the search result storage unit; ,
If the creation unit determines that they match, the search unit creates a search plan for the search request with reference to the identification information and the search result summary information corresponding to the executed search instruction that matches, and is not determined to match A search step for estimating the identification information and the search result summary information corresponding to the search command using the search result information, and creating a search plan for the search request;
A command sending step for sending the search command to at least one of the plurality of document management devices according to the search plan;
A search result receiving step for receiving a search result of the search command from the document management device to which the search command has been transmitted;
The history unit stores the search command, the identification information of the document management apparatus to which the search command has been transmitted, and the number or data amount of the search results of the received search command, respectively, in the search result storage unit. A history step of history as a search command, the identification information, and the search result summary information;
A structured document retrieval method, comprising: a retrieval result transmission step in which a retrieval result transmission unit transmits a retrieval result of the retrieval request based on the retrieval result of the received retrieval command to the client device.
JP2009017115A 2009-01-28 2009-01-28 Structured document retrieval system, apparatus, and method Active JP5072871B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009017115A JP5072871B2 (en) 2009-01-28 2009-01-28 Structured document retrieval system, apparatus, and method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009017115A JP5072871B2 (en) 2009-01-28 2009-01-28 Structured document retrieval system, apparatus, and method

Publications (2)

Publication Number Publication Date
JP2010176319A true JP2010176319A (en) 2010-08-12
JP5072871B2 JP5072871B2 (en) 2012-11-14

Family

ID=42707253

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009017115A Active JP5072871B2 (en) 2009-01-28 2009-01-28 Structured document retrieval system, apparatus, and method

Country Status (1)

Country Link
JP (1) JP5072871B2 (en)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012093829A (en) * 2010-10-25 2012-05-17 Toshiba Corp Retrieval device, retrieval method, and retrieval program
JP2013003695A (en) * 2011-06-14 2013-01-07 Toshiba Corp Distributed database retrieval device, distributed database retrieval method and program
JP2013182287A (en) * 2012-02-29 2013-09-12 Fujitsu Ltd Data access control device, data access control method and program
JP2014530416A (en) * 2011-09-15 2014-11-17 オラクル・インターナショナル・コーポレイション Query explanation planning in a distributed data management system
JP2015072563A (en) * 2013-10-02 2015-04-16 Necソリューションイノベータ株式会社 Load distribution system, load distribution method, and load distribution program
KR102418298B1 (en) 2022-01-06 2022-07-07 (주) 바우디움 Method for managing a plan of user based on structured document and apparatus using the same

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6258332A (en) * 1985-09-09 1987-03-14 Fujitsu Ltd Optimizing system for partial inquiry of decentralized data base control system
JPH1196055A (en) * 1997-09-19 1999-04-09 Hitachi Ltd Method and device for optimizing connection processing of data base
JP2001331485A (en) * 2000-05-22 2001-11-30 Mitsubishi Electric Corp Distributed data base arithmetic processor
JP2004127125A (en) * 2002-10-04 2004-04-22 Ntt Docomo Inc Retrieval server, retrieval method, program, and recording medium
JP2005018217A (en) * 2003-06-24 2005-01-20 Ntt Docomo Inc Retrieval server device and retrival method
JP2008210272A (en) * 2007-02-27 2008-09-11 Toshiba Corp System and method for retrieving document
JP2008243078A (en) * 2007-03-28 2008-10-09 Toshiba Corp System, device, and method for retrieving information from distributed database

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6258332A (en) * 1985-09-09 1987-03-14 Fujitsu Ltd Optimizing system for partial inquiry of decentralized data base control system
JPH1196055A (en) * 1997-09-19 1999-04-09 Hitachi Ltd Method and device for optimizing connection processing of data base
JP2001331485A (en) * 2000-05-22 2001-11-30 Mitsubishi Electric Corp Distributed data base arithmetic processor
JP2004127125A (en) * 2002-10-04 2004-04-22 Ntt Docomo Inc Retrieval server, retrieval method, program, and recording medium
JP2005018217A (en) * 2003-06-24 2005-01-20 Ntt Docomo Inc Retrieval server device and retrival method
JP2008210272A (en) * 2007-02-27 2008-09-11 Toshiba Corp System and method for retrieving document
JP2008243078A (en) * 2007-03-28 2008-10-09 Toshiba Corp System, device, and method for retrieving information from distributed database

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012093829A (en) * 2010-10-25 2012-05-17 Toshiba Corp Retrieval device, retrieval method, and retrieval program
US9047391B2 (en) 2010-10-25 2015-06-02 Kabushiki Kaisha Toshiba Searching apparatus, searching method, and computer program product
JP2013003695A (en) * 2011-06-14 2013-01-07 Toshiba Corp Distributed database retrieval device, distributed database retrieval method and program
JP2014530416A (en) * 2011-09-15 2014-11-17 オラクル・インターナショナル・コーポレイション Query explanation planning in a distributed data management system
JP2013182287A (en) * 2012-02-29 2013-09-12 Fujitsu Ltd Data access control device, data access control method and program
JP2015072563A (en) * 2013-10-02 2015-04-16 Necソリューションイノベータ株式会社 Load distribution system, load distribution method, and load distribution program
KR102418298B1 (en) 2022-01-06 2022-07-07 (주) 바우디움 Method for managing a plan of user based on structured document and apparatus using the same
WO2023132422A1 (en) * 2022-01-06 2023-07-13 (주) 바우디움 Method for managing user's plan on basis of structured document, and device using same

Also Published As

Publication number Publication date
JP5072871B2 (en) 2012-11-14

Similar Documents

Publication Publication Date Title
US7181680B2 (en) Method and mechanism for processing queries for XML documents using an index
US7499915B2 (en) Index for accessing XML data
US7305414B2 (en) Techniques for efficient integration of text searching with queries over XML data
US7680764B2 (en) Parallel population of an XML index
JP5072871B2 (en) Structured document retrieval system, apparatus, and method
US10242123B2 (en) Method and system for handling non-presence of elements or attributes in semi-structured data
US8694510B2 (en) Indexing XML documents efficiently
US20050055343A1 (en) Storing XML documents efficiently in an RDBMS
US7606827B2 (en) Query optimization using materialized views in database management systems
US7822788B2 (en) Method, apparatus, and computer program product for searching structured document
KR101083563B1 (en) Method and System for Managing Database
US20090240675A1 (en) Query translation method and search device
US20160012097A1 (en) Checking freshness of data for a data integration system, dis
US20070185845A1 (en) System and method for searching in structured documents
JPH11213014A (en) Data base system, data base retrieving method and recording medium
US20120303608A1 (en) Method and system for caching lexical mappings for rdf data
US7991768B2 (en) Global query normalization to improve XML index based rewrites for path subsetted index
US8086561B2 (en) Document searching system and document searching method
CA2561734C (en) Index for accessing xml data
JP2006127235A (en) Structured document management system, structured document management method and program
Khalid et al. Crawling ajax-based web applications: Evolution and state-of-the-art
US8352481B2 (en) Server, data transfer method, and recording medium
JP2008243075A (en) Structured document management device and method
JP4550876B2 (en) Structured document retrieval system and program
EP1244031A1 (en) Management and distribution of electronic media

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100901

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120719

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120724

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120821

R151 Written notification of patent or utility model registration

Ref document number: 5072871

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150831

Year of fee payment: 3

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

Free format text: JAPANESE INTERMEDIATE CODE: R313114

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350