JP7434088B2

JP7434088B2 - 分散処理システム、分散処理装置、データベース管理装置及び方法

Info

Publication number: JP7434088B2
Application number: JP2020117065A
Authority: JP
Inventors: 繁雄廣瀬; 基孝金松
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2020-07-07
Filing date: 2020-07-07
Publication date: 2024-02-20
Anticipated expiration: 2040-07-07
Also published as: JP2022014633A

Description

本発明の実施形態は、分散処理システム、分散処理装置、データベース管理装置及び方法に関する。

近年では、分散された複数のデータベースから一括してデータを取得することが可能な分散処理システム（データベース管理システム）が知られている。

このような分散処理システムにおいて例えば各データベースに格納されている複数のデータ（テーブル）の結合演算結果を取得するためのクエリがクライアント端末から受信された場合、当該分散処理システムは、当該クエリに対する処理の結果（結合演算結果）を当該クライアント端末（を使用するユーザ）に提供することが可能である。

ところで、分散処理システムは例えば分散処理装置及び複数のデータベースの各々を管理する複数のデータベース管理装置（以下、ＤＢ管理装置と表記）を備えており、当該分散処理装置（親ノード）は、上記したクエリに対する処理を当該ＤＢ管理装置（子ノード）の各々にプッシュダウン（分散）することができる。このような分散処理システムによれば、例えば分散処理装置の負荷を軽減することが可能となる。

しかしながら、この場合における各ＤＢ管理装置の処理量は当該ＤＢ管理装置において管理されているデータベースに格納されているデータ量に依存する。このため、例えば他のＤＢ管理装置において管理されているデータベースと比べてデータ量の多いデータベースを管理するＤＢ管理装置が存在する場合には、当該ＤＢ管理装置の処理に時間がかかるため、分散処理システム全体の動作（つまり、クエリに対する処理）が低速となる場合がある。

特許第６２５３７２５号公報

そこで、本発明が解決しようとする課題は、クエリに対する処理を高速化することが可能な分散処理システム、分散処理装置、データベース管理装置及び方法を提供することにある。

実施形態によれば、分散処理装置と、当該分散処理装置と通信可能に接続される第１データベースを管理する第１データベース管理装置及び前記第１データベースとは異なる第２データベースを管理する第２データベース管理装置とを備える分散処理システムが提供される。前記第１データベースは、前記第１データベース管理装置において収集された複数の第１レコードを有する第１テーブルを格納する。前記第２データベースは、前記第２データベース管理装置において収集された複数の第２レコードを有する第２テーブルを格納する。前記第１及び第２レコードは、同一のフィールドから構成される。前記分散処理装置は、格納手段と、受信手段と、計算手段と、作成手段とを含む。前記格納手段は、前記第１及び第２データベース管理装置の各々の演算性能、前記第１テーブルが有する第１レコードの数及び前記第２テーブルが有する第２レコードの数、または前記分散処理装置と前記第１及び第２データベース管理装置との間の第１通信性能を含む管理装置情報を格納する。前記受信手段は、前記第１及び第２テーブルが有する第１及び第２レコードを取得するための第１クエリを受信する。前記計算手段は、前記管理装置情報に基づいて、前記受信された第１クエリに対する前記第１データベース管理装置の第１処理時間及び前記第２データベース管理装置の第２処理時間を計算する。前記作成手段は、前記計算された第２処理時間が前記計算された第１処理時間未満である場合、前記受信された第１クエリに対する前記第１データベース管理装置の第１処理時間と前記第２データベース管理装置の第２処理時間との差が小さくなるように、前記第１テーブルが有する複数の第１レコードの一部を処理するための第２クエリと、前記第１テーブルが有する複数の第１レコードの他部を取得して当該取得された複数の第１レコードの他部と前記第２テーブルが有する複数の第２レコードとを処理するための第３クエリとを作成する。前記第１データベース管理装置は、前記作成された第２クエリに対する処理を実行する第１クエリ実行手段を含む。前記第２データベース管理装置は、前記作成された第３クエリに対する処理を実行する第２クエリ実行手段を含む。

実施形態に係る分散処理システムのネットワーク構成の一例を示す図。分散処理装置のハードウェア構成の一例を示す図。本実施形態の比較例における第１ＤＢ管理装置のテーブルの一例を示す図。本実施形態の比較例における第２ＤＢ管理装置のテーブルの一例を示す図。本実施形態の比較例における第３ＤＢ管理装置のテーブルの一例を示す図。本実施形態の比較例における分散処理装置において実行される処理の概要を説明するための図。本実施形態の比較例における第１ＤＢ管理装置において実行される処理の概要を説明するための図。本実施形態の比較例における第２ＤＢ管理装置において実行される処理の概要を説明するための図。本実施形態の比較例における第３ＤＢ管理装置において実行される処理の概要を説明するための図。本実施形態に係る分散処理システムの動作の概要を示す図。分散処理装置の機能構成の一例を示す図。第１ＤＢ管理装置の機能構成の一例を示す図。演算性能情報のデータ構造の一例を示す図。レコード数情報のデータ構造の一例を示す図。通信性能情報のデータ構造の一例を示す図。分散処理システムの処理手順の一例を示すシーケンスチャート。第１ＤＢ管理装置の処理時間について具体的に説明するための図。第２ＤＢ管理装置の処理時間について具体的に説明するための図。本実施形態に係る分散処理装置とロードバランサとの差異を説明するための図。通信性能情報に基づいて決定されるレコードを取得する経路について説明するための図。第１ＤＢ管理装置への接続情報を用いてレコードを取得する構成の一例を説明するための図。第１ＤＢ管理装置への接続情報を用いてレコードを取得する構成の他の例を説明するための図。第４ＤＢ管理装置に処理を分散する構成を説明するための図。

以下、図面を参照して、実施形態について説明する。
図１は、本実施形態に係る分散処理システムのネットワーク構成の一例を示す。図１に示すように、分散処理システム１は、クライアント端末１０、分散処理装置２０及び第１～第３データベース管理装置（以下、ＤＢ管理装置と表記）３１～３３を備える。

本実施形態において、クライアント端末１０は、分散処理装置２０と互いに通信可能に接続されている。また、分散処理装置２０は、第１～第３ＤＢ管理装置３１～３３の各々と互いに通信可能に接続されている。

クライアント端末１０は、ユーザによって使用される端末装置である。クライアント端末１０においては、ユーザが後述するデータベースに格納されているデータを取得して閲覧するためのアプリケーションプログラム等が動作する。

分散処理装置２０は、分散処理システム１において第１～第３ＤＢ管理装置３１～３３に対する親ノードとして動作するサーバ装置（ＤＢＭＳ）である。分散処理装置２０は、分散処理システム１において実行すべき処理を第１～第３ＤＢ管理装置３１～３３に分散し、当該処理を第１～第３ＤＢ管理装置３１～３３に実行させる機能を有する。

第１～第３ＤＢ管理装置３１～３３は、分散処理システム１において分散処理装置２０に対する子ノードとして動作し、各種データを格納するデータベースを管理するサーバ装置（ＤＢＭＳ）である。

なお、本実施形態において、分散処理装置２０及び第１～第３ＤＢ管理装置３１～３３は、同一のＤＢＭＳであるものとする。

また、図１においては分散処理システム１がクライアント端末１０、分散処理装置２０及び第１～第３ＤＢ管理装置３１～３３を備えるものとして説明したが、分散処理システム１は、分散処理装置２０及び第１～第３ＤＢ管理装置３１～３３を備える（つまり、クライアント端末１０は分散処理システム１の外部に配置される）構成であってもよい。

更に、図１においては、第１～第３ＤＢ管理装置３１～３３が示されているが、分散処理システム１には複数のＤＢ管理装置が備えられていればよい。

図２は、図１に示す分散処理装置２０のハードウェア構成の一例を示す。図２に示すように、分散処理装置２０は、ＣＰＵ２１、不揮発性メモリ２２、主メモリ２３及び通信デバイス２４等を備える。

ＣＰＵ２１は、分散処理装置２０内の各コンポーネントの動作を制御するプロセッサである。ＣＰＵ２１は、ストレージデバイスである不揮発性メモリ２２から主メモリ２３にロードされる様々なプログラムを実行する。このプログラムには、オペレーティングシステム（ＯＳ）及び分散処理装置２０が分散処理システム１において動作するためのプログラム等が含まれる。

通信デバイス２４は、クライアント端末１０及び第１～第３ＤＢ管理装置３１～３３等と有線または無線による通信を実行するように構成されたデバイスである。

図２においては、ＣＰＵ２１、不揮発性メモリ２２、主メモリ２３及び通信デバイス２４のみが示されているが、分散処理装置２０は、例えばＨＤＤ（Hard Disk Drive）及びＳＳＤ（Solid State Drive）のような他の記憶装置等を更に備えていてもよいし、他のデバイスを更に備えていてもよい。

ここでは分散処理装置２０のハードウェア構成について説明したが、第１～第３ＤＢ管理装置３１～３３も同様の構成を有するものとする。

ここで、本実施形態に係る分散処理システム１は、第１～第３ＤＢ管理装置３１～３３の各々において管理されているデータベース（分散されたデータベース）からデータを一括して取得するデータベース管理システム（統合データベース）として動作する。

具体的には、クライアント端末１０を使用するユーザは、当該クライアント端末１０を操作することによってデータベースからデータを取得するためのクエリを指定（入力）することができる。ユーザによって指定されるクエリは、例えばＳＱＬ（Structured Query Language）で記述された命令文（ＳＱＬ文）等である。

このようなクエリがクライアント端末１０から分散処理装置２０に送信された場合、分散処理システム１（分散処理装置２０及び第１～第３ＤＢ管理装置３１～３３）においては、当該クエリに対する処理が実行され、当該処理の結果（データベースから取得されたデータ）がクライアント端末１０に返される。

なお、例えば第１～第３ＤＢ管理装置３１～３３において管理されているデータベースにそれぞれ例えば２種類のデータが格納されている場合には、クエリに対する処理として結合演算（２種類のデータを結合する処理）を実行し、当該結合演算結果をクライアント端末１０に返すことができる。

例えば第１～第３ＤＢ管理装置３１～３３の各々がそれぞれ異なる店舗（例えば、小売店または量販店等）に設けられており、当該第１～第３ＤＢ管理装置３１～３３において管理されているデータベースが当該第１～第３ＤＢ管理装置３１～３３（が設けられている店舗）おいて独立して収集された当該店舗の売り上げに関するデータ（以下、売上データと表記）及び当該店舗で販売されている商品のデータ（以下、商品データと表記）を格納しているものとする。

このような場合において売上データ及び商品データの結合演算結果を取得するためのクエリがユーザによって指定された場合には、第１～第３ＤＢ管理装置３１～３３において管理されているデータベースに格納されている売上データ及び商品データに対して結合演算を実行した結果がクライアント端末１０に返される。

なお、上記した売上データ及び商品データは、テーブル形式のデータであり、複数のレコードを有する。この場合、分散処理装置２０は、第１～第３ＤＢ管理装置３１～３３において管理されているデータベースに格納されている売上データ及び商品データを外部テーブルとして扱うとともに、当該売上データ及び商品データをそれぞれ仮想テーブル化して、クエリに対する処理を実行するものとする。なお、外部テーブルとは、異なるデータソースのテーブルを自身のデータベースのテーブルであるかのように振る舞う機能である。また、仮想テーブル化とは、外部テーブル（の機能）を利用して、複数のデータソースのテーブルを１つのテーブルに仮想化することによって、複数のデータソースからの一括したデータの取得を実現する仕組みである。

ここで、本実施形態に係る分散処理システム１の詳細を説明する前に、本実施形態の比較例に係る分散処理システムにおいて実行されるクエリに対する処理について具体的に説明する。

ここでは、本実施形態の比較例に係る分散処理システムが分散処理装置２０´及び第１～第３ＤＢ管理装置３１´～３３´を備え、当該第１～第３ＤＢ管理装置３１´～３３´において管理されるデータベースの各々には、上記した売上データに相当するテーブルｔ１及び商品データに相当するテーブルｔ２が格納されているものとする。

なお、本実施形態においては、テーブルｔ１が売上データであり、テーブルｔ２が商品データであるものとして説明するが、当該テーブルｔ１及びｔ２は他のデータであってもよい。具体的には、テーブルｔ１及びｔ２は、例えば発電所における発電データ及び当該発電所に設置される各種機器の動作ログ等であってもよい。

以下の説明においては、第１～第３ＤＢ管理装置３１´～３３´において管理されるデータベースの各々に格納されているテーブルｔ１及びｔ２を、便宜的に、第１～第３ＤＢ管理装置３１´～３３´のテーブルｔ１及びｔ２と称する。

まず、図３～図５を参照して、第１～第３ＤＢ管理装置３１´～３３´のテーブルｔ１及びｔ２について説明する。図３は、第１ＤＢ管理装置３１´のテーブルｔ１及びｔ２（のデータ構造）の一例を示している。図４は、第２ＤＢ管理装置３２´のテーブルｔ１及びｔ２（のデータ構造）の一例を示している。図５は、第３ＤＢ管理装置３３´のテーブルｔ１及びｔ２（のデータ構造）の一例を示している。

図３～図５に示すように、第１～第３ＤＢ管理装置３１´～３３´のテーブルｔ１の各々が有するレコードは、それぞれ同一のフィールド（ｉｄ、ｔｉｍｅ及びｖａｌｕｅ）から構成されている。上記したようにテーブルｔ１が売上データに相当する場合、ｉｄは、店舗において販売された商品を識別するための識別情報に相当する。ｔｉｍｅは、ｉｄによって識別される商品が販売された時間に相当する。ｖａｌｕｅは、ｉｄによって識別される商品の金額（つまり、売り上げ）や当該商品を購入した購入者に関する情報（例えば、年齢及び性別等）等の付加情報に相当する。

同様に、第１～第３ＤＢ管理装置３１´～３３´のテーブルｔ２の各々が有するレコードは、それぞれ同一のフィールド（ｉｄ及びｎａｍｅ）から構成されている。上記したようにテーブルｔ２が商品データに相当する場合、ｉｄは、店舗において販売されている商品を識別するための識別情報に相当する。ｎａｍｅは、ｉｄによって識別される商品の名称（つまり、商品名）に相当する。

ここで、上記したテーブルｔ１及びｔ２の結合演算結果を取得するためのクエリがユーザによって指定された場合を想定する。この場合におけるクエリは、例えば「ＳＥＬＥＣＴ＊ＦＲＯＭｔ１，ｔ２ＷＨＥＲＥｔ１．ｉｄ＝ｔ２．ｉｄ」である。このクエリは、テーブルｔ１及びｔ２を、当該テーブルｔ１及びｔ２が有するレコードを構成するｉｄ（のフィールド）に基づいて結合した結果を返すことを意味している。なお、クエリ「ＳＥＬＥＣＴ＊ＦＲＯＭｔ１，ｔ２ＷＨＥＲＥｔ１．ｉｄ＝ｔ２．ｉｄ」中の「ｔ１．ｉｄ＝ｔ２．ｉｄ」は、テーブルｔ１及びｔ２をｉｄに基づいて結合するという条件（式）に相当する。以下の説明においては、この「ｔ１．ｉｄ＝ｔ２．ｉｄ」をクエリの条件式と称する。

この場合、図６に示すように、分散処理装置２０´は、第１～第３ＤＢ管理装置３１´～３３´のテーブルｔ１の各々を当該第１～第３ＤＢ管理装置３１´～３３´から収集し、当該収集されたテーブルｔ１を組み合わせたテーブルＴ１を作成する。

同様に、分散処理装置２０´は、第１～第３ＤＢ管理装置３１´～３３´のテーブルｔ２の各々を当該第１～第３ＤＢ管理装置３１´～３３´から収集し、当該収集されたテーブルｔ２を組み合わせたテーブルＴ２を作成する。

次に、分散処理装置２０´は、テーブルＴ１及びＴ２を上記したクエリの条件式「ｔ１．ｉｄ＝ｔ２．ｉｄ」に基づいて結合する処理（結合演算）を実行する。これにより、分散処理装置２０は、結合演算結果としてテーブルＴ１２を取得する。このテーブルＴ１２は、クエリに対する応答として分散処理装置２０´からクライアント端末１０に対して返される。

上記した図６においては結合演算を分散処理装置２０´（親ノード）で実行する場合を想定しているが、この場合、分散処理装置２０´は、第１～第３ＤＢ管理装置３１´～３３´のテーブルｔ１を組み合わせたテーブルＴ１が有する複数のレコードの各々と、第１～第３ＤＢ管理装置３１´～３３´のテーブルｔ２を組み合わせたテーブルＴ２が有する複数のレコードの各々とが上記したクエリの条件式に基づいて結合可能であるか否かを判定し、結合可能であると判定された場合に当該レコード同士を結合するという処理を実行する必要がある。この場合における分散処理装置２０´の計算量は最大でＮ×Ｍ（ＮはテーブルＴ１が有するレコードの数、ＭはテーブルＴ２が有するレコードの数）の直積となり、テーブルＴ１が有するレコードの数及びテーブルＴ２が有するレコードの数によっては当該分散処理装置２０´の負担が大きくなる。このため、クエリに対する処理に多くの時間が必要となる場合がある。

このため、本実施形態の比較例に係る分散処理システムにおいては、分散処理装置２０´（親ノード）の処理の一部を第１～第３ＤＢ管理装置３１´～３３´（子ノード）にプッシュダウン（分散）し、当該分散処理装置２０´の負荷を軽減することが行われている。

以下、本実施形態の比較例において実行されるクエリに対する処理（結合演算）を第１～第３ＤＢ管理装置３１´～３３´に分散する場合について説明する。

なお、第１～第３ＤＢ管理装置３１´～３３´のテーブルｔ１及びｔ２は上記した図３～図５において説明した通りであり、ユーザによってクエリ「ＳＥＬＥＣＴ＊ＦＲＯＭｔ１，ｔ２ＷＨＥＲＥｔ１．ｉｄ＝ｔ２．ｉｄ」が指定されたものとする。

この場合、分散処理装置２０´は、第１～第３ＤＢ管理装置３１´～３３´のテーブルｔ１及びｔ２のうちの一方（ここでは、テーブルｔ２）を当該第１～第３ＤＢ管理装置３１´～３３´から収集し、テーブルＴ２を作成する。このように作成されたテーブルＴ２は、第１～第３ＤＢ管理装置３１´～３３´に配布される。ユーザによって指定されたクエリに対する処理（結合演算）は、このように分散処理装置２０´から配布されたテーブルＴ２を用いて実行される。これによれば、第１～第３ＤＢ管理装置３１´～３３´の各々においてテーブルｔ１が有するレコードを構成するｉｄと同一のｉｄから構成されるレコードをテーブルｔ２が有していない場合であっても、当該テーブルｔ１が有するレコードを構成するｉｄと同一のｉｄから構成されるレコードをテーブルＴ２が有していれば、当該レコードを適切に結合することができる。

次に、第１～第３ＤＢ管理装置３１´～３３´において実行される処理について説明する。

まず、図７は、第１ＤＢ管理装置３１´において実行される処理の概要を説明するための図である。図７に示すように、第１ＤＢ管理装置３１´は、当該第１ＤＢ管理装置３１´のテーブルｔ１及び分散処理装置２０´から配布されたテーブルＴ２に対して、上記したクエリの条件式「ｔ１．ｉｄ＝ｔ２．ｉｄ」に基づく結合演算を実行する。これによれば、第１ＤＢ管理装置３１´は、結合演算結果として図７に示すテーブルｔ１２を取得する。

また、図８は、第２ＤＢ管理装置３２´において実行される処理の概要を説明するための図である。図８に示すように、第２ＤＢ管理装置３２´は、当該第２ＤＢ管理装置３２´のテーブルｔ１及び分散処理装置２０´から配布されたテーブルＴ２に対して、上記したクエリの条件式「ｔ１．ｉｄ＝ｔ２．ｉｄ」に基づく結合演算を実行する。これによれば、第２ＤＢ管理装置３２´は、結合演算結果として図８に示すテーブルｔ１２を取得する。

更に、図９は、第３ＤＢ管理装置３３´において実行される処理の概要を説明するための図である。図９に示すように、第３ＤＢ管理装置３３´は、当該第３ＤＢ管理装置３３´のテーブルｔ１及び分散処理装置２０´から配布されたテーブルＴ２に対して、上記したクエリの条件式「ｔ１．ｉｄ＝ｔ２．ｉｄ」に基づく結合演算を実行する。これによれば、第３ＤＢ管理装置３３´は、結合演算結果として図９に示すテーブルｔ１２を取得する。

上記したように第１～第３ＤＢ管理装置３１´～３３´によって取得されたテーブルｔ１２は、当該第１～第３ＤＢ管理装置３１´～３３´から分散処理装置２０´に送信される。分散処理装置２０´は、第１～第３ＤＢ管理装置３１´～３３´の各々から送信されたテーブルｔ１２を組み合わせることにより、上記した図６に示すテーブルＴ１２と同一の結合演算結果を取得することができる。

このようにクエリに対する処理（結合演算）を第１～第３ＤＢ管理装置３１´～３３´の各々に分散した場合には、分散処理装置２０´の負荷を軽減することができる。

しかしながら、第１～第３ＤＢ管理装置３１´～３３´の各々における処理量は、テーブルｔ１が有するレコードの数×テーブルＴ２が有するレコードの数の直積であり、当該第１～第３ＤＢ管理装置３１´～３３´の各々のテーブルｔ１が有するレコードの数に依存する。すなわち、第１～第３ＤＢ管理装置３１´～３３´間でテーブルｔ１が有するレコードの数（つまり、データサイズ）に偏りがあると、特定のＤＢ管理装置における処理に極端に時間がかかるような事態が生じる可能性がある。この場合には、分散処理装置２０´及び他のＤＢ管理装置は、特定のＤＢ管理装置の処理が完了するまで待機しなければならず、分散処理システム全体としてクエリに対する処理を高速に実行することができない。

そこで、本実施形態においては、上記したようにクエリに対する処理を第１～第３ＤＢ管理装置３１～３３に分散する場合に、処理量が多いＤＢ管理装置の処理の一部を処理量が少ないＤＢ管理装置に実行させることにより、分散処理システム１全体としてクエリに対する処理を高速化する。

図１０は、本実施形態に係る分散処理システム１の動作の概要を示す。図１０においては、第１ＤＢ管理装置３１のテーブルｔ１が有するレコードの数が例えば第２ＤＢ管理装置３２のテーブルｔ１が有するレコードの数よりも多い場合を想定している。

この場合において、第１ＤＢ管理装置３１が当該第１ＤＢ管理装置３１のテーブルｔ１及び上記したテーブルＴ２に対する結合演算を実行したものとすると、当該第１ＤＢ管理装置３１の処理量は、第２ＤＢ管理装置３２の処理量よりも多くなる。

このため、本実施形態においては、第１ＤＢ管理装置３１のテーブルｔ１が有するレコードの一部を第２ＤＢ管理装置３２に転送し、当該レコードの一部については第２ＤＢ管理装置３２側で処理させる。

これによれば、第１ＤＢ管理装置３１の処理の一部を第２ＤＢ管理装置３２に分散し、第１ＤＢ管理装置３１の処理量を低減することができるため、分散処理システム１全体としての処理を高速化することが可能となる。

なお、図１０においては、第１ＤＢ管理装置３１のテーブルｔ１が有するレコードを第２ＤＢ管理装置３２に転送しているが、当該レコードは、第２及び第３ＤＢ管理装置３２及び３３の両方に転送されてもよいし、第３ＤＢ管理装置３３のみに転送されても構わない。

以下、本実施形態に係る分散処理システム１の構成について詳細に説明する。まず、図１１は、分散処理システム１に備えられる分散処理装置２０の機能構成の一例を示す。

図１１に示すように、分散処理装置２０は、格納部２０１、情報管理部２０２、通信部２０３、クエリ解析部２０４、クエリ作成部２０５、クエリ実行部２０６及び結果集積部２０７を含む。

本実施形態において、格納部２０１は、分散処理装置２０に備えられる不揮発性メモリ２２または他の記憶装置等によって実現される。

また、本実施形態において、情報管理部２０２、通信部２０３、クエリ解析部２０４、クエリ作成部２０５、クエリ実行部２０６及び結果集積部２０７の一部または全ては、分散処理装置２０に備えられるＣＰＵ２１（つまり、分散処理装置２０のコンピュータ）に所定のプログラムを実行させること、すなわち、ソフトウェアによって実現されるものとする。この所定のプログラムは、分散処理装置２０が分散処理システム１において動作するためのプログラムであり、コンピュータ読み取り可能な記憶媒体に予め格納して頒布されてもよいし、ネットワークを介して分散処理装置２０にダウンロードされてもよい。

ここでは、上記した各部２０２～２０７の一部または全てがソフトウェアによって実現されるものとして説明したが、当該各部２０１～２０７の一部または全ては、例えばハードウェアによって実現されてもよいし、ソフトウェア及びハードウェアの組み合わせ構成として実現されてもよい。

格納部２０１は、第１～第３ＤＢ管理装置３１～３３の各々に関する情報（以下、管理装置情報と表記）を格納する。管理装置情報には、第１～第３ＤＢ管理装置３１～３３の各々の演算（計算）性能、第１～第３ＤＢ管理装置３１～３３の各々のテーブル（例えば、テーブルｔ１及びｔ２）が有するレコードの数、または分散処理装置２０と第１～第３ＤＢ管理装置３１～３３の各々との間の通信性能（を示す情報）が含まれる。

以下の説明においては、第１～第３ＤＢ管理装置３１～３３の各々の演算性能を示す情報を演算性能情報、第１～第３ＤＢ管理装置３１～３３の各々のテーブル（例えば、テーブルｔ１及びｔ２）が有するレコードの数を示す情報をレコード数情報、分散処理装置２０と第１～第３ＤＢ管理装置３１～３３の各々との間の通信性能を示す情報を通信性能情報と称する。なお、管理装置情報には、演算性能情報、レコード数情報及び通信性能情報のうちの少なくとも１つが含まれていればよいが、本実施形態においては、管理装置情報は演算性能情報、レコード数情報及び通信性能情報の全てを含むものとして説明する。

情報管理部２０２は、格納部に格納されている管理装置情報を管理するための機能部である。具体的には、情報管理部２０２は、第１～第３ＤＢ管理装置３１～３３から送信される当該第１～第３ＤＢ管理装置３１～３３に関する情報（演算性能情報、レコード数情報及び通信性能情報）を収集し、当該情報を管理装置情報として格納部２０１に格納する。また、情報管理部２０２は、上記した第１～第３ＤＢ管理装置３１～３３に関する情報を定期的に収集し、当該収集された情報に基づいて格納部２０１に格納されている管理装置情報を更新する処理を実行してもよい。

通信部２０３は、クライアント端末１０との通信を実行するための機能部である。通信部２０３は、例えばクライアント端末１０においてユーザによって指定されたクエリを当該クライアント端末１０から受信する。

クエリ解析部２０４は、通信部２０３によって受信されたクエリを解析し、第１～第３ＤＢ管理装置３１～３３において実行されるべき当該クエリに対する処理を判別する。

クエリ作成部２０５は、クエリ解析部２０４によって判別された第１～第３ＤＢ管理装置３１～３３において実行されるべきクエリに対する処理の処理時間（つまり、クエリに対する第１～第３ＤＢ管理装置３１～３３の各々の処理時間の予測値）を計算する。この第１～第３ＤＢ管理装置３１～３３の各々の処理時間は、格納部２０１に格納されている管理装置情報に基づいて計算される。

クエリ作成部２０５は、計算された第１～第３ＤＢ管理装置３１～３３の各々の処理時間に基づいて、当該第１～第３ＤＢ管理装置３１～３３（の各々が管理するデータベース）に対するクエリを作成する。

クエリ実行部２０６は、クエリ作成部２０５によって作成された第１～第３ＤＢ管理装置３１～３３に対するクエリを当該第１～第３ＤＢ管理装置３１～３３の各々に実行させるための機能部である。この場合、クエリ実行部２０６は、第１～第３ＤＢ管理装置３１～３３に対するクエリを当該第１～第３ＤＢ管理装置３１～３３の各々に送信する。

この分散処理装置２０（クエリ作成部２０５）から第１～第３ＤＢ管理装置３１～３３に送信されるクエリによれば、ユーザによって指定されたクエリに対する処理（例えば、結合演算）を実行することが第１～第３ＤＢ管理装置３１～３３に対して指示される。なお、第１～第３ＤＢ管理装置３１～３３のうちの例えば処理時間が短いＤＢ管理装置に対しては、処理時間が長い他のＤＢ管理装置のテーブルが有する複数のレコードの一部を当該他のＤＢ管理装置から取得して結合演算を実行することが指示される。

結果集積部２０７は、分散処理装置２０から第１～第３ＤＢ管理装置３１～３３に送信されたクエリに対する処理が実行された結果を、第１～第３ＤＢ管理装置３１～３３から集積する。このように結果集積部２０７によって集積された結果は、通信部２０３によって受信されたクエリ（ユーザによって指定されたクエリ）に対する処理結果として、通信部２０３を介してクライアント端末１０に送信される。

次に、図１２は、分散処理システム１に備えられる第１ＤＢ管理装置３１の機能構成の一例を示す。

図１２に示すように、第１ＤＢ管理装置３１は、データベース３１１、通信部３１２、クエリ実行部３１３及び情報管理部３１４を含む。

本実施形態において、データベース３１１は、第１ＤＢ管理装置３１に備えられる不揮発性メモリまたは他の記憶装置等によって実現される。

また、本実施形態において、通信部３１２、クエリ実行部３１３及び情報管理部３１４の一部または全ては、第１ＤＢ管理装置３１に備えられるＣＰＵ（つまり、第１ＤＢ管理装置３１のコンピュータ）に所定のプログラムを実行させること、すなわち、ソフトウェアによって実現されるものとする。この所定のプログラムは、第１ＤＢ管理装置３１が分散処理システム１において動作するためのプログラムであり、コンピュータ読み取り可能な記憶媒体に予め格納して頒布されてもよいし、ネットワークを介して第１ＤＢ管理装置３１にダウンロードされてもよい。

ここでは、上記した各部３１２～３１４の一部または全てがソフトウェアによって実現されるものとして説明したが、当該各部３１２～３１４の一部または全ては、例えばハードウェアによって実現されてもよいし、ソフトウェア及びハードウェアの組み合わせ構成として実現されてもよい。

データベース３１１には、上記したようにクライアント端末１０においてユーザによって指定されたクエリに対する処理が実行されることによって当該ユーザに対して提供されるテーブル形式のデータが格納されている。具体的には、データベース３１１には、例えば図３に示すような複数のレコードを有するテーブルｔ１及びｔ２が格納されている。なお、データベースに格納されているテーブルｔ１及びｔ２のデータ構造は上記した図３において説明した通りであるので、ここではその詳しい説明を省略する。

通信部３１２は、分散処理装置２０との通信を実行するための機能部である。通信部３１２は、分散処理装置２０から送信されたクエリ（第１ＤＢ管理装置３１に対するクエリ）を受信する。なお、通信部３１２は、更に他のＤＢ管理装置（第２及び第３ＤＢ管理装置３２及び３３）との通信を実行するように構成されていてもよい。

クエリ実行部３１３は、通信部３１２によって受信されたクエリに対する処理を実行するための機能部である。

上記したように分散処理装置２０（クエリ作成部２０５）によって計算された第１ＤＢ管理装置３１の処理時間が例えば第２ＤＢ管理装置３２の処理時間未満である場合、第１ＤＢ管理装置３１は、第２ＤＢ管理装置３２のテーブル（例えば、テーブルｔ１）が有する複数のレコードの一部を取得するように分散処理装置２０から指示される。このような指示によれば、クエリ実行部３１３は、第２ＤＢ管理装置３２のテーブルが有する複数のレコードの一部を、当該第２ＤＢ管理装置３２から取得する。この場合、クエリ実行部３１３は、データベース３１１に格納されているテーブルが有する複数のレコード及び第２ＤＢ管理装置３２から取得されたレコードを用いて、クエリに対する処理（結合演算）を実行する。

一方、上記したように分散処理装置２０（クエリ作成部２０５）によって計算された第２ＤＢ管理装置３２の処理時間が第１ＤＢ管理装置３１の処理時間未満である場合、データベース３１１に格納されているテーブルが有する複数のレコードの一部は第２ＤＢ管理装置３２に転送される（つまり、第２ＤＢ管理装置３２によって取得される）。この場合、クエリ実行部３１３は、データベース３１１に格納されているテーブルが有する複数のレコードのうち、第２ＤＢ管理装置３２に転送されていないレコードを用いて、クエリに対する処理（結合演算）を実行する。

情報管理部３１４は、第１ＤＢ管理装置３１に関する情報（演算性能情報、レコード数情報及び通信性能情報）を管理する機能部である。なお、第１ＤＢ管理装置３１に関する情報はデータベース３１１に格納されているものとする。情報管理部３１４は、通信部３１２を介して、第１ＤＢ管理装置３１に関する情報を定期的に分散処理装置２０に送信する。なお、第１ＤＢ管理装置３１に関する情報は、例えば第１ＤＢ管理装置３１が分散処理装置２０と接続された際に当該分散処理装置２０に送信されてもよいし、第１ＤＢ管理装置３１の演算性能、データベース３１１に格納されているテーブルが有するレコードの数または分散処理装置２０との間の通信性能に変化が生じた場合に分散処理装置２０に送信されてもよい。

図１２においては第１ＤＢ管理装置３１の機能構成について説明したが、第２及び第３ＤＢ管理装置３２及び３３の機能構成についても第１ＤＢ管理装置３１と同様である。以下、第１ＤＢ管理装置３１だけでなく、第２及び第３ＤＢ管理装置３２及び３３の構成に関しても図１２を用いて説明する。

ここで、図１３～図１５を参照して、上記した図１１に示す分散処理装置２０に含まれる格納部２０１に格納されている管理装置情報のデータ構造の一例について説明する。なお、管理装置情報は、例えば表形式の情報（データ）であり、上記したように演算性能情報、レコード数情報及び通信性能情報を含む。

図１３は、管理装置情報に含まれる演算性能情報のデータ構造の一例を示す。なお、演算性能情報は上記したように第１～第３ＤＢ管理装置３１～３３の演算性能を示す情報であるが、図１３においては、当該第１～第３ＤＢ管理装置３１～３３の演算性能に加えて、分散処理装置２０の演算性能を更に示す演算性能情報のデータ構造が示されている。

図１３に示すように、演算性能情報は、ノードＩＤ及び演算性能値を対応づけて含む。ノードＩＤは、分散処理システム１を構成する各ノード（分散処理装置２０及び第１～第３ＤＢ管理装置３１～３３）を識別するための識別情報である。演算性能値は、ノードＩＤによって識別されるノードの演算性能を表す値であり、例えば１秒当たりに演算（計算）することが可能なレコードの数を示す。本実施形態において、「レコードを演算する」とは、例えば２つのテーブルに対する結合演算を実行する際に、一方のテーブルが有する１つのレコードと他方のテーブルが有する１つのレコードとがクエリの条件式に基づいて結合可能であるか否かを判定し、結合可能であると判定された場合に当該レコード同士を結合することを含む。なお、演算性能値は、各ノードの演算性能を表す値であれば他の値であってもよい。

図１３に示す例において、演算性能情報は、ノード「０１」及び演算性能値「１００」を対応づけて含む。なお、ノード「０１」は、例えば分散処理装置２０を識別するための識別情報である。この演算性能情報によれば、分散処理装置２０が１秒当たりに１００個のレコードを演算することができる演算性能を有していることが示されている。

また、演算性能情報は、ノード「０１１」及び演算性能値「１０」を対応づけて含む。ノード「０１１」は、例えば第１ＤＢ管理装置３１を識別するための識別情報である。この演算性能情報によれば、第１ＤＢ管理装置３１が１秒当たりに１０個のレコードを演算することができる演算性能を有していることが示されている。

更に、演算性能情報は、ノード「０１２」及び演算性能値「２０」を対応づけて含む。ノード「０１２」は、例えば第２ＤＢ管理装置３２を識別するための識別情報である。この演算性能情報によれば、第２ＤＢ管理装置３２が１秒当たりに２０個のレコードを演算することができる演算性能を有していることが示されている。

また、演算性能情報は、ノード「０１３」及び演算性能値「３０」を対応づけて含む。ノード「０１３」は、例えば第３ＤＢ管理装置３３を識別するための識別情報である。この演算性能情報によれば、第３ＤＢ管理装置３３が１秒当たりに３０個のレコードを演算することができる演算性能を有していることが示されている。

図１４は、管理装置情報に含まれるレコード数情報のデータ構造の一例を示す。ここでは、第１～第３ＤＢ管理装置３１～３３の各々のデータベース３１１にテーブルｔ１及びｔ２が格納されているものとして説明する。

図１４に示すように、レコード数情報は、ノードＩＤ、テーブルｔ１及びテーブルｔ２を含む。ノードＩＤは上記した演算性能情報に含まれるノードＩＤと同様であるため、ここではその詳しい説明を省略する。テーブルｔ１は、ノードＩＤによって識別されるノードのデータベース３１１に格納されているテーブルｔ１が有するレコードの数を示す。テーブルｔ２は、ノードＩＤによって識別されるノードのデータベース３１１に格納されているテーブルｔ２が有するレコードの数を示す。

図１４に示す例において、レコード数情報は、ノード「０１１」、テーブルｔ１「１００」及びテーブルｔ２「１０」を対応づけて含む。このレコード数情報によれば、ノードＩＤ「０１１」によって識別される第１ＤＢ管理装置３１のテーブルｔ１が１００個のレコードを有し、テーブルｔ２が１０個のレコードを有していることが示されている。

また、レコード数情報は、ノード「０１２」、テーブルｔ１「１０」及びテーブルｔ２「２０」を対応づけて含む。このレコード数情報によれば、ノードＩＤ「０１１」によって識別される第２ＤＢ管理装置３２のテーブルｔ１が１０個のレコードを有し、テーブルｔ２が２０個のレコードを有していることが示されている。

更に、レコード数情報は、ノード「０１３」、テーブルｔ１「２５」及びテーブルｔ２「１０」を対応づけて含む。このレコード数情報によれば、ノードＩＤ「０１３」によって識別される第３ＤＢ管理装置３３のテーブルｔ１が２５個のレコードを有し、テーブルｔ２が１０個のレコードを有していることが示されている。

図１５は、管理装置情報に含まれる通信性能情報のデータ構造の一例を示す。ここでは、第１ＤＢ管理装置３１の通信性能を示す通信性能情報について説明する。

図１５に示すように、通信性能情報は、ノードＩＤ及び通信性能値を対応づけて含む。ノードＩＤは上記した演算性能情報及びレコード数情報に含まれるノードＩＤと同様であるため、ここではその詳しい説明を省略する。通信性能値は、第１ＤＢ管理装置３１とノードＩＤによって識別されるノードとの間の通信性能を表す値であり、例えば１秒当たりに通信（送信）可能なレコードの数を示す。なお、通信性能値は、第１ＤＢ管理装置３１の通信性能を表す値であれば他の値であってもよい。

図１５に示す例において、通信性能情報は、ノード「０１」及び通信性能値「１００」を対応づけて含む。この通信性能情報によれば、第１ＤＢ管理装置３１が１秒当たりに１００個のレコードをノード「０１」によって識別される分散処理装置２０に送信することができることが示されている。

ここで、本実施形態においては、第１ＤＢ管理装置３１は分散処理装置２０と通信可能に接続されているものとして説明したが、当該第１ＤＢ管理装置３１は、例えばメッシュネットワーク等を介して他のＤＢ管理装置（第２及び第３ＤＢ管理装置３２及び３３）と通信可能に接続されていてもよい。この場合、通信性能情報は、第１ＤＢ管理装置３１と第２及び第３ＤＢ管理装置３２及び３３との間の通信性能を更に示す。

具体的には、通信性能情報は、ノード「０１２」及び通信性能値「２０」を対応づけて含む。この通信性能情報によれば、第１ＤＢ管理装置３１が１秒当たりに２０個のレコードをノード「０１２」によって識別される第２ＤＢ管理装置３２に送信することができることが示されている。

また、通信性能情報は、ノード「０１３」及び通信性能値「２５」を対応づけて含む。この通信性能情報によれば、第１ＤＢ管理装置３１が１秒当たりに２５個のレコードをノード「０１３」によって識別される第３ＤＢ管理装置３３に送信することができることが示されている。

図１５においては第１ＤＢ管理装置３１の通信性能を示す通信性能情報について説明したが、管理装置情報には、分散処理装置２０、第２及び第３ＤＢ管理装置３２及び３３の通信性能を示す通信性能情報も含まれる。なお、分散処理装置２０、第２及び第３ＤＢ管理装置３２及び３３の通信性能を示す通信性能情報のデータ構造は図１５に示す通信性能情報と同様であるため、ここではその詳しい説明を省略する。

なお、図１５に示す例では、例えばノード「０１２」及び通信性能値「２０」が対応づけられているが、第１ＤＢ管理装置３１が第２ＤＢ管理装置３２にレコードを送信する際の当該第１ＤＢ管理装置３１の通信性能（値）と、第２ＤＢ管理装置３２が第１ＤＢ管理装置３１にレコードを送信する際の当該第２ＤＢ管理装置３２の通信性能（値）とは、同じであってもよいし、通信環境等に応じて異なっていてもよい。

上記した図１３～図１５においては演算性能情報、レコード数情報及び通信性能情報のデータ構造について説明したが、当該図１３～図１５に示す数値は一例であり、当該数値は、分散処理システム１の構成等に応じて異なっていてもよい。

次に、図１６のシーケンスチャートを参照して、本実施形態に係る分散処理システム１の処理手順の一例を説明する。

まず、第１～第３ＤＢ管理装置３１～３３のデータベース３１１に格納されているテーブル（データ）を閲覧する場合、ユーザは、クライアント端末１０を操作することによって当該テーブル（が有するレコード）を取得するためのクエリ（ＳＱＬ）を指定する。クライアント端末１０（クライアントアプリケーション）においては、このようにユーザによって指定されたクエリ（以下、対象クエリと表記）が作成される（ステップＳ１）。

ここでは、第１～第３ＤＢ管理装置３１～３３のデータベース３１１にはそれぞれ上記したテーブルｔ１及びｔ２が格納されているものとし、対象クエリは、テーブルｔ１とテーブルｔ２との結合演算結果を取得するためのクエリ（「ＳＥＬＥＣＴ＊ＦＲＯＭｔ１，ｔ２ＷＨＥＲＥｔ１．ｉｄ＝ｔ２．ｉｄ」）であるものとする。

ステップＳ１において作成された対象クエリは、クライアント端末１０から分散処理装置２０に送信される（ステップＳ２）。

ステップＳ２においてクライアント端末１０から送信された対象クエリは、分散処理装置２０の通信部２０３によって受信される。なお、通信部２０３によって受信された対象クエリは、クエリ解析部２０４によって解析される。これにより、クエリ解析部２０４は、対象クエリに基づいて第１～第３ＤＢ管理装置３１～３３において実行されるべき処理を判別することができる。

ここで、本実施形態においては、クエリ解析部２０４による解析結果（判別結果）に基づいて対象クエリに対する処理（つまり、結合演算）を第１～第３ＤＢ管理装置３１～３３に分散する。この場合、分散処理装置２０は、上記したようにテーブルｔ１及びｔ２のうちの一方のテーブルを第１～第３ＤＢ管理装置３１～３３から収集し、当該収集されたテーブルを組み合わせたテーブルを第１～第３ＤＢ管理装置３１～３３に配布（転送）する必要がある。

このため、クエリ解析部２０４は、上記したように第１～第３ＤＢ管理装置３１～３３から収集するテーブル（以下、収集テーブルと表記）を決定する（ステップＳ３）。

ここで、第１～第３ＤＢ管理装置３１～３３からテーブルを収集する（つまり、テーブルが転送される）処理にかかる時間を低減する（つまり、分散処理システム１全体としての動作を高速に行う）ためには、サイズ（容量）が小さいテーブルを第１～第３ＤＢ管理装置３１～３３から収集することが効果的である。このため、ステップＳ３においては、第１～第３ＤＢ管理装置３１～３３のデータベース３１１に格納されているテーブルｔ１及びｔ２のうち、サイズが小さいテーブルを収集テーブルとして決定するものとする。なお、テーブルｔ１及びｔ２のサイズは、例えば格納部２０１に格納されている管理装置情報（に含まれるレコード数情報）に基づいて判別してもよいし、当該管理装置情報とは別に用意されたテーブルｔ１及びｔ２のサイズに関する情報に基づいて判別してもよい。

図１６においては省略されているが、ステップＳ３においてテーブルｔ２が収集テーブルとして決定されたものとすると、分散処理装置２０は、第１～第３ＤＢ管理装置３１～３３の各々からテーブルｔ２を収集し、当該テーブルｔ２を組み合わせたテーブルＴ２を作成する。このように作成されたテーブルＴ２は、第１～第３ＤＢ管理装置３１～３３の各々に配布される。

次に、クエリ作成部２０５は、格納部２０１に格納されている管理装置情報に基づいて、第１～第３ＤＢ管理装置３１～３３の処理時間を計算する（ステップＳ４）。

なお、本実施形態において、第１ＤＢ管理装置３１の処理時間とは、第１ＤＢ管理装置３１のテーブルｔ１及び分散処理装置２０から配布されたテーブルＴ２に対する結合演算を第１ＤＢ管理装置３１において実行し、当該結合演算結果が第１ＤＢ管理装置３１から分散処理装置２０に返される（分散処理装置２０において受信される）までの時間をいう。換言すれば、第１ＤＢ管理装置３１の処理時間には、結合演算を実行するために要する時間（以下、演算時間と表記）及び当該結合演算結果を分散処理装置２０に送信（転送）するために要する時間（以下、送信時間と表記）が含まれる。第２及び第３ＤＢ管理装置３２及び３３の処理時間についても同様である。

以下、ステップＳ４において計算される第１～第３ＤＢ管理装置３１～３３の処理時間について具体的に説明する。

ここでは、１レコード当たりの演算（計算）時間をｃ、１レコード当たりの送信（転送）時間をｔ、テーブルｔ１が有するレコードの数（テーブルｔ１の所持レコード数）をｒ_ｔ１、テーブルＴ２が有するレコードの数（全ノードからテーブルｔ２を収集することによって作成されたテーブルＴ２のレコード数）をＲ_Ｔ２とする。

ここで、テーブルｔ１とテーブルＴ２とを結合する（つまり、テーブルｔ１及びＴ２に対する結合演算を実行する）場合には、当該テーブルＴ１が有するレコードの各々と当該テーブルＴ２が有するレコードの各々との組み合わせ毎に演算を行う必要がある。よって、テーブルｔ１及びＴ２に対する結合演算を実行する際の第１～第３ＤＢ管理装置３１～３３の各々の演算時間はｃ＊ｒ_ｔ１＊Ｒ_Ｔ２となる。

一方、例えば全てのレコードの演算結果を第１～第３ＤＢ管理装置３１～３３から分散処理装置２０に送信する時間は、ｒ_ｔ１＊Ｒ_Ｔ２＊ｔによって表すことができる。しかしながら、第１～第ＤＢ管理装置３１～３３から分散処理装置２０には全てのレコードの演算結果が送信されるわけではなく、結合されたレコードのみが結合演算結果として送信される。この結合演算結果（として生成されるレコードの数）はクエリの条件式によって変化するため、結合演算を実行する前に当該レコードの数を正確に予測することは困難である。そこで、本実施形態においては、テーブルｔ１及びＴ２に対する結合演算おいてレコードがクエリの条件式に一致する（つまり、テーブルｔ１が有するレコードとテーブルＴ２が有するレコードとが結合される）確率をｐとする。この場合、上記した送信時間は、ｒ_ｔ１＊Ｒ_Ｔ２＊ｐ＊ｔとなる。

これにより、第１～第３ＤＢ管理装置３１～３３の各々の処理時間（つまり、演算時間＋送信時間）は、ｃ＊ｒ_ｔ１＊Ｒ_Ｔ２＋ｒ_ｔ１＊Ｒ_Ｔ２＊ｐ＊ｔによって表すことができる。

なお、上記した１レコード当たりの演算時間ｃは、格納部２０１に格納されている演算性能情報（演算性能値）に基づいて得ることができる。また、１レコード当たりの送信時間ｔは、格納部２０１に格納されている通信性能情報（通信性能値）に基づいて得ることができる。また、テーブルｔ１が有するレコードの数ｒ_ｔ１及びテーブルＴ２が有するレコードの数Ｒ_Ｔ２は、格納部２０１に格納されているレコード数情報に基づいて得ることができる。更に、確率ｐは、デフォルトで付与された値であればよいが、例えば統計的に算出された値であってもよいし、ユーザによって指定された値であってもよい。

ここで、図１７及び図１８を参照して、テーブルｔ１及びＴ２に対する結合演算を実行する際の第１及び第２ＤＢ管理装置３１及び３２の処理時間の具体例について説明する。

なお、ここで説明する１レコード当たりの演算時間、テーブルｔ１が有するレコードの数、テーブルｔ２が有するレコードの数及び１レコード当たりの送信時間は、説明の便宜のために例示するものであって、上記した図１３～図１５において説明した演算性能情報、レコード数情報及び通信性能情報に基づく値とは異なる。

まず、図１７を参照して、第１ＤＢ管理装置３１の処理時間について説明する。図１７に示す例では、第１ＤＢ管理装置３１のテーブルｔ１が有するレコードの数ｒ_ｔ１が１０００００であり、分散処理装置２０から第１ＤＢ管理装置３１に配布されたテーブルＴ２が有するレコードの数Ｒ_Ｔ２が１００である場合を想定している。

この場合において、例えば第１ＤＢ管理装置３１の１レコード当たりの演算時間ｃが０．０１、１レコード当たりの送信時間ｔが１００、テーブルｔ１及びＴ２に対する結合演算においてレコードがクエリの条件式に一致する確率ｐが０．００１であるものとすると、第１ＤＢ管理装置３１の処理時間は、０．０１（ｃ）＊１０００００（ｒ_ｔ１）＊１００（Ｒ_Ｔ２）＋１０００００（ｒ_ｔ１）＊１００（Ｒ_Ｔ２）＊０．００１（ｐ）＊１００（ｔ）＝１１０００００となる。

次に、図１８を参照して、第２ＤＢ管理装置３２の処理時間について説明する。図１８に示す例では、第２ＤＢ管理装置３２のテーブルｔ１が有するレコードの数ｒ_ｔ１は１００であり、分散処理装置２０から第２ＤＢ管理装置３２に配布されたテーブルＴ２が有するレコードの数Ｒ_Ｔ２が１００である場合を想定している。

この場合において、例えば第２ＤＢ管理装置３２の１レコード当たりの演算時間ｃが０．０１、１レコード当たりの送信時間ｔが１００、テーブルｔ１及びＴ２に対する結合演算においてレコードがクエリの条件式に一致する確率ｐが０．００１であるものとすると、第２ＤＢ管理装置３２の処理時間は、０．０１（ｃ）＊１００（ｒ_ｔ１）＊１００（Ｒ_Ｔ２）＋１００（ｒ_ｔ１）＊１００（Ｒ_Ｔ２）＊０．００１（ｐ）＊１００（ｔ）＝１１００となる。

なお、ここでは第１及び第２ＤＢ管理装置３１及び３２の処理時間について説明したが、ステップＳ４においては第３ＤＢ管理装置３３の処理時間についても同様に計算される。

ステップＳ４の処理が実行されると、クエリ作成部２０５は、当該ステップＳ４において計算された第１～第３ＤＢ管理装置３１～３３の処理時間に基づいて対象クエリの実行計画を作成し、当該実行計画に従った第１～第３ＤＢ管理装置３１～３３に対するクエリ（当該第１～第３ＤＢ管理装置３１～３３の各々によって実行されるべきクエリ）を作成する（ステップＳ５）。

ここで、ステップＳ４において計算された第１ＤＢ管理装置３１の処理時間が１１０００００であり、第２ＤＢ管理装置３２の処理時間が１１００である場合を想定する。この場合において、上記した本実施形態の比較例と同様に対象クエリに対する処理が実行されると、第２ＤＢ管理装置３２の処理が完了した後も、第１ＤＢ管理装置３１の処理が完了するまで対象クエリに対する応答（つまり、結合演算結果）をクライアント端末１０に返すことができず、分散処理システム１の動作が低速となる。

そこで、例えば第１ＤＢ管理装置３１の処理時間が最大であり、第２ＤＢ管理装置３２の処理時間が最小である（つまり、第２ＤＢ管理装置３２の処理時間が第１ＤＢ管理装置３１の処理時間未満である）場合、当該第１ＤＢ管理装置３１（以下、最大コストノードと表記）から第２ＤＢ管理装置３２（つまり、最小コストノードと表記）にレコードを転送するという実行計画を作成する。

本実施形態においては、このように作成された実行計画に基づき、ノード（ここでは、第１及び第２ＤＢ管理装置３１及び３２）間の処理時間の均等化を図る。

なお、最大コストノードから最小コストノードに転送されるレコードの数は、例えば以下の式（１）を満たす最小のｘとすることができる。
ｃ＊（ｒ１_ｔ１－ｘ）＊ｒ１_Ｔ２＋（ｒ１_ｔ１－ｘ）＊ｒ１_Ｔ２＊ｐ＊ｔ＋ｘ＊ｔ
＞ｃ＊（ｒ２_ｔ１＋ｘ）＊ｒ２_Ｔ２＋（ｒ２_ｔ１＋ｘ）＊ｒ２_Ｔ２＊ｐ＊ｔ＋ｘ＊ｔ
式（１）

ここで、上記した式（１）において、ｒ１_ｔ１は最大コストノードのテーブルｔ１が有するレコードの数、ｒ２_ｔ１は最小コストノードのテーブルｔ１が有するレコードの数を表している。また、ｒ１_Ｔ２は分散処理装置２０から最大コストノードに配布されたテーブルＴ２が有するレコードの数を表しており、ｒ２_Ｔ２は分散処理装置２０から最小コストノードに配布されたテーブルＴ２が有するレコードの数を表している。すなわち、ｒ１_Ｔ２及びｒ２_Ｔ２は、同一の値である。なお、左辺のｃ及びｔは、最大コストノードの１レコード当たりの演算時間及び送信時間である。右辺のｃ及びｔは、最小コストノードの１レコード当たりの演算時間及び送信時間である。ｐは、テーブルｔ１及びＴ２に対する結合演算おいてレコードがクエリの条件式に一致する確率である。

上記した式（１）によれば、左辺は最大コストノードから最小コストノードにｘ個のレコードを転送した場合の最大コストノードの処理時間を表しており、右辺は最大コストノードから最小コストノードにｘ個のレコードを転送した場合の最小コストノードの処理時間を表している。

本実施形態においては、このような式（１）を用いて最小のｘを算出するものとする。このように算出されたｘは、最大コストノードと最小コストノードとで処理時間を同程度とするために転送する必要があるレコードの数に相当する。

例えば最大コストノードが第１ＤＢ管理装置３１であり、最小コストノードが第２ＤＢ管理装置３２であるものとすると、上記した図１７及び図１８において説明した例を式（１）に適用した場合には、ｘ＝３９９９６を算出することができる。これによれば、第１ＤＢ管理装置３１から第２ＤＢ管理装置３２に３９９９６個のレコードを転送するという実行計画が作成される。

この場合、クエリ作成部２０５は、第１ＤＢ管理装置３１に対するクエリとして、例えば「ＳＥＬＥＣＴ＊ＦＲＯＭ（ＳＥＬＥＣＴ＊ＦＲＯＭＬＩＭＩＴ６０００４），ｔ２ＷＨＥＲＥｔ１．ｉｄ＝ｔ２．ｉｄ」を作成する。このクエリは、第１ＤＢ管理装置３１のテーブルｔ１が有する１０００００個のレコードのうち、１番目から６０００４番目のレコードをテーブルＴ２（が有するレコード）と結合することを示している。

一方、クエリ作成部２０５は、第２ＤＢ管理装置３２に対するクエリとして、例えば「ＧＥＴ第１ＤＢ管理装置．ｔ１´ｓｒｅｃｏｒｄ（６０００５－１０００００）」及び「ＳＥＬＥＣＴ＊ＦＲＯＭｔ１，ｔ２ＷＨＥＲＥｔ１．ｉｄ＝ｔ２．ｉｄ」を作成する。このクエリは、第１ＤＢ管理装置３１のテーブルｔ１が有する１０００００個のレコードのうち、６０００５番目から１０００００番目のレコード（つまり、３９９９６個のレコード）を当該第１ＤＢ管理装置３１から取得し、第２ＤＢ管理装置３２のテーブルｔ１が有するレコード及び第１ＤＢ管理装置３１から取得されたレコードをテーブルＴ２（が有するレコード）と結合することを示している。

なお、第３ＤＢ管理装置３３が他のＤＢ管理装置にレコードを転送しないまたは他のＤＢ管理装置からレコードが転送されない場合、当該第３ＤＢ管理装置３３に対するクエリとしては、「ＳＥＬＥＣＴ＊ＦＲＯＭｔ１，ｔ２ＷＨＥＲＥｔ１．ｉｄ＝ｔ２．ｉｄ」が作成される。

ここでは、第１ＤＢ管理装置３１（最大コストノード）から第２ＤＢ管理装置３２（最小コストノード）に転送されるレコードの数が上記した式（１）を用いて算出されるものとして説明したが、当該転送されるレコードの数は他の手法で算出されてもよい。

更に、本実施形態においては、最大コストノードから最小コストノードにレコードを転送するものとして説明するが、レコードの転送元となるノード及びレコードの転送先となるノードは他の手法で決定されてもよい。

また、例えば全てのノードの処理時間が同程度となるように複数のノード間でレコードが転送される構成としても構わない。

ステップＳ５の処理が実行されると、当該ステップＳ５において作成された第１～第３ＤＢ管理装置３１～３３の各々に対するクエリが、当該第１ＤＢ管理装置３１～３３の各々に送信される（ステップＳ６）。

ここで、ステップＳ６において分散処理装置２０（クエリ実行部２０６）から送信されたクエリが第１ＤＢ管理装置３１（通信部３１２）において受信されると、当該第１ＤＢ管理装置３１のクエリ実行部３１３は、当該クエリに対する処理を実行する。

ここで、上記したように第１ＤＢ管理装置３１に対するクエリが「ＳＥＬＥＣＴ＊ＦＲＯＭ（ＳＥＬＥＣＴ＊ＦＲＯＭＬＩＭＩＴ６０００４），ｔ２ＷＨＥＲＥｔ１．ｉｄ＝ｔ２．ｉｄ」であるものとすると、第１ＤＢ管理装置３１のクエリ実行部３１３は、当該第１ＤＢ管理装置３１のデータベース３１１を参照して、第１ＤＢ管理装置３１の１番目から６０００４番目のレコードを有するテーブルｔ１とテーブルＴ２とを結合する結合演算を実行する（ステップＳ７）。

ステップＳ７の処理が実行された結果（結合演算結果）は、第１ＤＢ管理装置３１の通信部３１２を介して第１ＤＢ管理装置３１から分散処理装置２０に送信される（ステップＳ８）。

一方、ステップＳ６において分散処理装置２０（クエリ実行部２０６）から送信されたクエリが第２ＤＢ管理装置３２（通信部３１２）において受信されると、当該第２ＤＢ管理装置３２のクエリ実行部３１３は、当該クエリに対する処理を実行する。

ここで、上記したように第２ＤＢ管理装置３２に対するクエリが「ＧＥＴ第１ＤＢ管理装置３１．ｔ１´ｓｒｅｃｏｒｄ（６０００５－１０００００）」及び「ＳＥＬＥＣＴ＊ＦＲＯＭｔ１，ｔ２ＷＨＥＲＥｔ１．ｉｄ＝ｔ２．ｉｄ」であるものとすると、第２ＤＢ管理装置３２のクエリ実行部３１３は、通信部３１２と協働し、「ＧＥＴ第１ＤＢ管理装置３１．ｔ１´ｓｒｅｃｏｒｄ（６０００５－１０００００）」に基づいて第１ＤＢ管理装置３１（の通信部３１２）との通信を実行する（ステップＳ９）。なお、第１ＤＢ管理装置３１と第２ＤＢ管理装置３２との間の通信は、例えば第１～第３ＤＢ管理装置３１～３３によって構築されるメッシュネットワークを介して実行される。

このステップＳ９の処理が実行された場合、第１ＤＢ管理装置３１のテーブルｔ１の６０００５番目から１０００００番目のレコード（以下、対象レコードと表記）が当該第１ＤＢ管理装置３１から第２ＤＢ管理装置３２に転送される。これにより、第２ＤＢ管理装置３２のクエリ実行部３１３は、通信部３１２を介して対象レコードを取得する（ステップＳ１０）。

次に、第２ＤＢ管理装置３２のクエリ実行部３１３は、当該第２ＤＢ管理装置３２のデータベース３１１を参照して、第２ＤＢ管理装置３２のテーブルｔ１及び第１ＤＢ管理装置３１から取得された対象レコードを有するテーブルを組み合わせたテーブルとテーブルＴ２とを結合する結合演算を実行する（ステップＳ１１）。

ステップＳ１１の処理が実行された結果（結合演算結果）は、第２ＤＢ管理装置３２の通信部３１２を介して第２ＤＢ管理装置３２から分散処理装置２０に送信される（ステップＳ１２）。

更に、ステップＳ６において分散処理装置２０（クエリ実行部２０６）から送信されたクエリが第３ＤＢ管理装置３３（通信部３１２）において受信されると、当該第３ＤＢ管理装置３３のクエリ実行部３１３は、当該クエリに対する処理を実行する。

ここで、上記したように第３ＤＢ管理装置３３に対するクエリが「ＳＥＬＥＣＴ＊ＦＲＯＭｔ１，ｔ２ＷＨＥＲＥｔ１．ｉｄ＝ｔ２．ｉｄ」であるものとすると、第３ＤＢ管理装置３３のクエリ実行部３１３は、当該第３ＤＢ管理装置３３のデータベース３１１を参照して、第３ＤＢ管理装置３３のテーブルｔ１とテーブルＴ２とを結合する結合演算を実行する（ステップＳ１３）。

ステップＳ１３の処理が実行された結果（結合演算結果）は、第３ＤＢ管理装置３３の通信部３１２を介して第３ＤＢ管理装置３３から分散処理装置２０に送信される（ステップＳ１４）。

上記したステップＳ８において第１ＤＢ管理装置３１から送信された結合演算結果、ステップＳ１２において第２ＤＢ管理装置３２から送信された結合演算結果及びステップＳ１４において第３ＤＢ管理装置３３から送信された結合演算結果は、分散処理装置２０（結果集積部２０７）によって集積される（ステップＳ１５）。

ステップＳ１５において集積された結合演算結果は、ステップＳ２においてクライアント端末１０から分散処理装置２０に送信された対象クエリに対する応答として、分散処理装置２０（通信部２０３）からクライアント端末１０（クライアントアプリケーションプログラム）に送信される（ステップＳ１６）。

ステップＳ１６において分散処理装置２０から送信された結合演算結果は、クライアント端末１０において受信され、当該クライアント端末１０（のディスプレイ等）に表示される（ステップＳ１７）。これにより、ユーザは、結合演算結果を閲覧することができる。

なお、図１６においては第１ＤＢ管理装置３１のテーブルｔ１が有する複数のレコードの一部（対象レコード）が第２ＤＢ管理装置３２に転送される（つまり、第２ＤＢ管理装置３２が対象レコードを第１ＤＢ管理装置３１から取得する）ものとして説明したが、当該対象レコードの一部を第２ＤＢ管理装置３２に転送し、当該対象レコードの残りの部分を第３ＤＢ管理装置３３に転送するようにしてもよい。

また、ステップＳ４において計算される処理時間によっては、例えば第２ＤＢ管理装置３２のテーブルｔ１が有する複数のレコードの一部（対象レコード）が第１ＤＢ管理装置３１（または第３ＤＢ管理装置３３）に転送されても構わない。

上記したように本実施形態においては分散処理システム１が第１～第３ＤＢ管理装置３１～３３を備えるものとして説明したが、本実施形態に係る分散処理システム１は、少なくとも２つのＤＢ管理装置を備える構成であればよい。また、分散処理システム１に備えられるＤＢ管理装置の数は４以上であってもよい。

以下、主に分散処理システム１が２つのＤＢ管理装置（第１及び第２ＤＢ管理装置３１及び３２）を備える構成に関して本実施形態の作用効果を説明する。

本実施形態において、第１ＤＢ管理装置３１のデータベース３１１は当該第１ＤＢ管理装置３１において収集された複数のレコード（第１レコード）を有するテーブルｔ１（第１テーブル）を格納し、第２ＤＢ管理装置３２のデータベース３１１は当該第２ＤＢ管理装置３２において収集された複数のレコード（第２レコード）を有するテーブルｔ１（第２テーブル）を格納する。なお、第１ＤＢ管理装置３１のテーブルｔ１が有するレコード及び第２ＤＢ管理装置３２のテーブルｔ１が有するレコードは、同一のフィールドから構成される。

また、本実施形態において、分散処理装置２０は、第１及び第２ＤＢ管理装置３１及び３２の各々の演算性能を示す演算性能情報、テーブルｔ１が有するレコードの数を示すレコード数情報、または分散処理装置２０と第１及び第２ＤＢ管理装置３１及び３２との間の通信性能（第１通信性能）を示す通信性能情報を含む管理装置情報を格納する格納部２０１を含む。また、分散処理装置２０は、テーブルｔ１が有するレコードを取得するためのクエリ（第１クエリ）をクライアント端末１０から受信し、当該クエリに対する第１ＤＢ管理装置３１の処理時間（第１処理時間）及び第２ＤＢ管理装置３２の処理時間（第２処理時間）を計算し、当該計算された処理時間に基づいて第１ＤＢ管理装置３１に対するクエリ（第２クエリ）及び第２ＤＢ管理装置３２に対するクエリ（第３クエリ）を作成する。

更に、本実施形態において、第１ＤＢ管理装置３１は分散処理装置２０において作成されたクエリに対する処理を実行し、第２ＤＢ管理装置３２は分散処理装置２０において作成されたクエリに対する処理を実行する。なお、第１ＤＢ管理装置３１は、第１ＤＢ管理装置３１の処理時間が第２ＤＢ管理装置３２の処理時間未満である場合、第２ＤＢ管理装置３２のテーブルｔ１が有する複数のレコードの一部を第１ＤＢ管理装置３１（のデータベース３１１）から取得してクエリに対する処理を実行する。一方、第２ＤＢ管理装置３２は、第２ＤＢ管理装置３２の処理時間が第１ＤＢ管理装置３１の処理時間未満である場合、第１ＤＢ管理装置３１のテーブルｔ１が有する複数のレコードの一部を第１ＤＢ管理装置３１（のデータベース３１１）から取得してクエリに対する処理を実行する。

本実施形態においては、このような構成により、第１ＤＢ管理装置３１及び３２間において処理時間の均等化を図ることが可能となるため、分散処理システム１全体としてクエリに対する処理を高速化することが可能となる。

ここで、例えば複数の子ノード（子ノードＡ及びＢ）に負荷を分散（分配）するためにロードバランサを配置するようなシステムがあるが、当該ロードバランサは、図１９の左側に示すように、当該子ノードＡ及びＢによってデータが共有されていることを前提とするものである。すなわち、ロードバランサは、子ノードＡ及びＢの各々のデータを読み込む位置を変更する、または共有されているデータを予め当該子ノードＡ及びＢに対して分配しておくことにより処理を分散化する。

これに対して、本実施形態に係る分散処理システム１（統合データベース）においては、図１９の右側に示すように、子ノードＡ及びＢ（例えば、第１及び第２ＤＢ管理装置３１及び３２）の各々が管理（所持）している異なるデータ（テーブル）に対してクエリに対する処理を実行するものであるため、上記したロードバランサのように予めデータを分配しておくことができない。

このため、本実施形態においては、クエリに対する処理を実行する際に処理量が偏ると予想されるノード（例えば、第１ＤＢ管理装置３１）の処理を分散及び最適化する構成を採用することにより、分散処理システム１全体の動作を高速化することができる。

なお、本実施形態においては格納部２０１に格納される管理装置情報が演算性能情報、レコード数情報及び通信性能情報の全てを含むものとして説明したが、当該管理装置情報は、第１及び第２ＤＢ管理装置３１及び３２の処理時間を計算するために用いられる情報であればよく、例えば演算性能情報、レコード数情報及び通信性能情報の少なくとも１つを含むものであればよい。この管理装置情報は、例えば第１及び第２ＤＢ管理装置３１及び３２から収集され、定期的に更新されてもよい。

また、例えば第１ＤＢ管理装置３１のデータベース３１１はテーブルｔ２（第３テーブル）を更に格納し、第２ＤＢ管理装置３２のデータベース３１１はテーブルｔ２（第４テーブル）を更に格納し、当該第１ＤＢ管理装置３１のテーブルｔ２が有するレコード及び第２ＤＢ管理装置３２のテーブルｔ２が有するレコードは同一のフィールドから構成される。また、本実施形態においてクライアント端末１０から分散処理装置２０に送信されるクエリは、テーブルｔ１（第１及び第２テーブル）とテーブルｔ２（第３及び第４テーブル）との結合演算結果を取得するためのクエリを含む。

この場合、第１及び第２ＤＢ管理装置３１及び３２は当該第１及び第２ＤＢ管理装置３１及び３２のテーブルｔ２を組み合わせたテーブルＴ２を用いてクエリに対する処理を実行するが、第１及び第２ＤＢ管理装置３１及び３２のテーブルｔ１の容量は、当該テーブルＴ２の容量よりも大きい。これによれば、第１及び第２ＤＢ管理装置３１及び３２からテーブルｔ１を収集し、当該収集されたテーブルｔ１を組み合わせたテーブルを当該第１及び第２ＤＢ管理装置３１及び３２に配布する構成と比較して、分散処理装置２０と第１及び第２ＤＢ管理装置３１及び３２との間の通信量を削減することができるため、高速な処理を実現することが可能となる。

ここで、本実施形態においては、例えば第２ＤＢ管理装置３２の処理時間が第１ＤＢ管理装置３１の処理時間未満である場合に第２ＤＢ管理装置３２が第１ＤＢ管理装置３１から対象レコードを取得するものとして説明したが、例えば第１ＤＢ管理装置３１の処理時間と第２ＤＢ管理装置３２の処理時間との差分が小さい場合には、少数のレコードが対象レコードとして第１ＤＢ管理装置３１から第２ＤＢ管理装置３２に転送されることになる。一般的には演算処理よりも送信（転送）処理の方が時間を要するため、第１ＤＢ管理装置３１から第２ＤＢ管理装置３２に少数のレコードが転送されただけでは、第１ＤＢ管理装置３１の処理量を十分に低減することができず、更には当該レコードの転送に要する時間が処理の低速化の要因になり得る。

このため、本実施形態においては、第１ＤＢ管理装置３１の処理時間と第２ＤＢ管理装置３２の処理時間との差分が予め定められた値以上である場合に、第２ＤＢ管理装置３２が第１ＤＢ管理装置３１から対象レコードを取得するようにしてもよい。換言すれば、第１ＤＢ管理装置３１の処理時間と第２ＤＢ管理装置３２の処理時間との差分が小さい場合には、対象レコードが転送されない構成とすることができる。この場合、第１及び第２ＤＢ管理装置３１及び３２の各々においては、図７及び図８で説明した結合演算が実行されればよい。

ここでは、第２ＤＢ管理装置３２が第１ＤＢ管理装置３１からレコードを取得する場合について説明したが、第１ＤＢ管理装置３１が第２ＤＢ管理装置３２からレコードを取得するような場合についても同様である。

また、本実施形態においては、図１６において説明したように、例えば第２ＤＢ管理装置３２が第１ＤＢ管理装置３１から直接対象レコードを取得するものとして主に説明したが、当該対象レコードは、分散処理装置２０を介して取得される構成であってもよい。

なお、上記した図１５において説明したように、分散処理装置２０の格納部２０１に格納されている管理装置情報（通信性能情報）が分散処理装置２０と第１及び第２ＤＢ管理装置３１及び３２との間の通信性能に加えて、当該第１及び第２ＤＢ管理装置３１及び３２間の通信性能（第２通信性能）を含む場合、本実施形態においては、当該通信性能情報に基づいてレコードを取得する経路を決定する構成としてもよい。

ここで、例えば第２ＤＢ管理装置３２が第１ＤＢ管理装置３１のテーブルｔ１が有する複数のレコードの一部を対象レコードとして取得するものとすると、当該対象レコードを取得する経路には、第１ＤＢ管理装置３１から直接する第１経路と、分散処理装置２０を介して取得する第２経路とが含まれる。

例えば図２０に示すように、分散処理装置２０と第１及び第２ＤＢ管理装置３１及び３２との間の通信性能（値）が１００、第１及び第２ＤＢ管理装置３１及び３２間の通信性能（値）が２０であるものとすると、分散処理装置２０（クエリ作成部２０５）は、分散処理装置２０を介して取得する第１経路の方が、第１ＤＢ管理装置３１から直接取得する第２経路よりも高速に対象レコードを取得することができると判定することができる。

上記したように例えば第１及び第２ＤＢ管理装置３１及び３２間で低速な通信が実行される場合には、クエリ作成部２０５は、レコードを取得する経路として第１経路を決定し、当該第１経路で対象レコードを取得する実行計画を作成することができる。これによれば、第２ＤＢ管理装置３２は、分散処理装置２０において作成されたクエリに対する処理（結合演算）を実行する際に、対象レコードを第１経路で（つまり、分散処理装置２０を介して）取得することができる。

一方、例えば分散処理装置２０が配置される環境等によっては、分散処理装置２０と第１及び第２ＤＢ管理装置３１及び３２との間の通信性能よりも、当該第１及び第２ＤＢ管理装置３１及び３２間の通信性能の方が高い場合がある。このような場合には、クエリ作成部２０５は、レコードを取得する経路として第２経路を決定し、当該第２経路でレコードを取得する実行計画を作成すればよい。これによれば、第２ＤＢ管理装置３２は、分散処理装置２０において作成されたクエリに対する処理（結合演算）を実行する際に、対象レコードを第２経路で（つまり、メッシュネットワークを介して第１ＤＢ管理装置３１から直接）取得することができる。

なお、第１～第３ＤＢ管理装置３１～３３は例えばメッシュネットワークを介して互いに通信可能に接続されるが、当該第１～第３ＤＢ管理装置３１～３３間は常時接続されていなくてもよい。このような場合において、例えば第２ＤＢ管理装置３２が第１ＤＢ管理装置３１から対象レコードを直接取得するためには、当該第２ＤＢ管理装置３２は、当該第１ＤＢ管理装置３１への接続情報を用いて当該第１ＤＢ管理装置３１に接続する必要がある。この第１ＤＢ管理装置３１への接続情報は、当該第１ＤＢ管理装置３１と通信を行う（当該第１ＤＢ管理装置３１に接続する）ための情報であり、例えばＩＰアドレス及びパスワード等を含む。例えば第３ＤＢ管理装置３３が第１ＤＢ管理装置３１から対象レコードを直接取得する場合も同様に、当該第１ＤＢ管理装置３１への接続情報が必要である。他のＤＢ管理装置間についても同様である。

ここで、例えば分散処理システム１が多数のＤＢ管理装置を備える構成の場合、１つのＤＢ管理装置が他の全てのＤＢ管理装置（全兄弟ノード）への接続情報を保持しておくことは困難である。このため、例えば第２ＤＢ管理装置３２が第１ＤＢ管理装置３１から対象レコードを取得する場合において当該対象レコードを取得する経路として第２経路が決定された場合には、図２１に示すように、当該第１ＤＢ管理装置３１への接続情報を含む実行計画が作成され、当該接続情報が分散処理装置２０から第２ＤＢ管理装置３２に送信されるものとする。これによれば、第２ＤＢ管理装置３２が第１ＤＢ管理装置３１（を含む全てのＤＢ管理装置）への接続情報を予め保持していなくても、分散処理装置２０から送信される接続情報を用いて第１ＤＢ管理装置３１から対象レコードを直接取得することができる。この場合、分散処理システム１に備えられる複数のＤＢ管理装置（第１～第３ＤＢ管理装置３１～３３）への接続情報は、例えば分散処理装置２０（格納部２０１）において管理されていればよい。

ここでは、分散処理装置２０から第２ＤＢ管理装置３２に第１ＤＢ管理装置３１への接続情報が送信されるものとして説明したが、当該接続情報は、例えば図２２に示すように、第２ＤＢ管理装置３２が分散処理装置２０にアクセスすることによって取得されてもよい。

また、本実施形態においては、分散処理システム１がテーブルｔ１及びｔ２を格納するデータベースを管理する第１～第３ＤＢ管理装置３１～３３を備えるものとして説明したが、例えば第３ＤＢ管理装置３３はテーブルｔ１及びｔ２が格納されていないデータベース（第３データベース）を管理するＤＢ管理装置であってもよい。本実施形態においては、このような構成の場合に、例えば第２ＤＢ管理装置３２の代わりに第３ＤＢ管理装置３３が第１ＤＢ管理装置３１から対象レコードを取得し、当該第３ＤＢ管理装置３３において、当該対象レコードを有するテーブルｔ１及び分散処理装置２０から配布されたテーブルＴ２に対する結合演算（つまり、分散処理装置２０において作成される第４クエリに対する処理）が実行される構成とすることができる。すなわち、本実施形態においては、ユーザによって指定されたクエリに関するデータ（テーブルｔ１及びｔ２）を管理していないＤＢ管理装置（子ノード）に当該クエリに対する処理を分散するようにしてもよい。

また、本実施形態においてはクエリに対する処理（結合演算）を複数のＤＢ管理装置に分散するものとして主に説明したが、例えば各ＤＢ管理装置のテーブルｔ１及びｔ２のサイズが小さい（レコードの数が少ない）場合または分散処理装置２０の演算性能が複数のＤＢ管理装置と比較して十分に高いような場合には、分散処理装置２０側で全ての結合演算を実行する構成としてもよい。この場合には、上記した図６において説明したような処理が分散処理装置２０において実行されればよい。

なお、分散処理装置２０側で全ての結合演算を実行するか否かは、当該分散処理装置２０側で全ての結合演算を実行した場合に必要な処理時間を計算し、当該処理時間と例えば図１６に示すステップＳ４において計算される各ＤＢ管理装置の処理時間とを比較することによって判定されてもよい。

更に、本実施形態においては、例えば各ＤＢ管理装置の処理時間に基づいて、複数のＤＢ管理装置のうちの一部のＤＢ管理装置にのみクエリに対する処理を分散し、残りの処理を分散処理装置２０側で実行するような構成とすることも可能である。

本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれると同様に、特許請求の範囲に記載された発明とその均等の範囲に含まれるものである。

１０…クライアント端末、２０…分散処理装置、３１…第１ＤＢ管理装置（第１データベース管理装置）、３２…第２ＤＢ管理装置（第２データベース管理装置）、３３…第３ＤＢ管理装置（第３データベース管理装置）、２１…ＣＰＵ、２２…不揮発性メモリ、２３…主メモリ、２４…通信デバイス、２０１…格納部、２０２…情報管理部、２０３…通信部、２０４…クエリ解析部、２０５…クエリ作成部、２０６…クエリ実行部、２０７…結果集積部、３１１…データベース、３１２…通信部、３１３…クエリ実行部、３１４…情報管理部。

Claims

分散処理装置と、当該分散処理装置と通信可能に接続される第１データベースを管理する第１データベース管理装置及び前記第１データベースとは異なる第２データベースを管理する第２データベース管理装置とを備える分散処理システムにおいて、
前記第１データベースは、前記第１データベース管理装置において収集された複数の第１レコードを有する第１テーブルを格納し、
前記第２データベースは、前記第２データベース管理装置において収集された複数の第２レコードを有する第２テーブルを格納し、
前記第１及び第２レコードは、同一のフィールドから構成され、
前記分散処理装置は、
前記第１及び第２データベース管理装置の各々の演算性能、前記第１テーブルが有する第１レコードの数及び前記第２テーブルが有する第２レコードの数、または前記分散処理装置と前記第１及び第２データベース管理装置との間の第１通信性能を含む管理装置情報を格納する格納手段と、
前記第１及び第２テーブルが有する第１及び第２レコードを取得するための第１クエリを受信する受信手段と、
前記管理装置情報に基づいて、前記受信された第１クエリに対する前記第１データベース管理装置の第１処理時間及び前記第２データベース管理装置の第２処理時間を計算する計算手段と、
前記計算された第２処理時間が前記計算された第１処理時間未満である場合、前記受信された第１クエリに対する前記第１データベース管理装置の第１処理時間と前記第２データベース管理装置の第２処理時間との差が小さくなるように、前記第１テーブルが有する複数の第１レコードの一部を処理するための第２クエリと、前記第１テーブルが有する複数の第１レコードの他部を取得して当該取得された複数の第１レコードの他部と前記第２テーブルが有する複数の第２レコードとを処理するための第３クエリとを作成する作成手段と
を含み、
前記第１データベース管理装置は、前記作成された第２クエリに対する処理を実行する第１クエリ実行手段を含み、
前記第２データベース管理装置は、前記作成された第３クエリに対する処理を実行する第２クエリ実行手段を含む
分散処理システム。
前記格納手段は、前記第１及び第２データベース管理装置から収集された管理装置情報を格納する請求項１記載の分散処理システム。
前記管理装置情報は、定期的に更新される請求項２記載の分散処理システム。
前記第１データベースは、前記第１テーブルとは異なる第３テーブルを更に格納し、
前記第２データベースは、前記第２テーブルとは異なる第４テーブルを更に格納し、
前記第３及び前記第４テーブルの各々が有するレコードは、同一のフィールドから構成され、
前記第１クエリは、前記第１及び第２テーブルと前記第３及び第４テーブルとの結合演算結果を取得するためのクエリを含む
請求項１～３のいずれか一項に記載の分散処理システム。
前記第１及び第２テーブルの容量は、前記第３及び第４テーブルの容量よりも大きい請求項４記載の分散処理システム。
前記第１クエリ実行手段は、前記第３テーブル及び前記第２データベースに格納されている第４テーブルを組み合わせたテーブルを用いて前記第２クエリに対する処理を実行し、
前記第２クエリ実行手段は、前記第１データベースに格納されている第３テーブル及び前記第４テーブルを組み合わせたテーブルを用いて前記第３クエリに対する処理を実行する
請求項４または５記載の分散処理システム。
前記第１及び第２クエリは、前記第２処理時間が前記第１処理時間未満であり、かつ、当該第１処理時間と当該第２処理時間との差分が予め定められた値以上である場合に、作成される請求項１～６のいずれか一項に記載の分散処理システム。
前記格納手段に格納されている管理装置情報は、前記第１データベース管理装置と第２データベース管理装置との間の第２通信性能を更に含み、
前記分散処理装置は、前記管理装置情報に含まれる第１及び第２通信性能に基づいて、前記複数の第１レコードの他部を取得する経路を決定する決定手段を更に含む
請求項１～７のいずれか一項に記載の分散処理システム。
前記経路は、前記複数の第１レコードの他部を前記第１データベース管理装置から直接取得する第１経路と、前記複数の第１レコードの他部を前記分散処理装置を介して取得する第２経路とを含む請求項８記載の分散処理システム。
前記分散処理装置は、前記第１及び第２データベース管理装置間の通信を実行するための接続情報を前記第１または第２データベース管理装置に送信する送信手段を更に含む請求項９記載の分散処理システム。
第１及び第２レコードと同一のフィールドから構成されるレコードを有するテーブルが格納されていない第３データベースを管理する第３データベース管理装置を更に備え、
前記作成手段は、前記第２データベース管理装置の代わりに、前記複数の第１レコードの他部を取得して前記取得された複数の第１レコードの他部を処理するための第４クエリを作成し、
前記第３データベース管理装置は、前記作成された第４クエリに対する処理を実行する第３クエリ実行手段を含む
請求項１記載の分散処理システム。
請求項１記載の分散処理システムに用いられる分散処理装置。
請求項１記載の分散処理システムに用いられるデータベース管理装置。
管理装置情報を格納する格納手段を含む分散処理装置と、複数の第１レコードを有する第１テーブルを格納する第１データベースを管理する第１データベース管理装置及び前記複数の第１レコードと同一のフィールドから構成される複数の第２レコードを有する第２テーブルを格納する第２データベースを管理する第２データベース管理装置とを備える分散処理システムが実行する方法であって、
前記第１及び第２テーブルが有する第１及び第２レコードを取得するための第１クエリを受信するステップと、
前記管理装置情報に基づいて、前記受信された第１クエリに対する前記第１データベース管理装置の第１処理時間及び前記第２データベース管理装置の第２処理時間を計算するステップと、
前記計算された第２処理時間が前記計算された第１処理時間未満である場合、前記受信された第１クエリに対する前記第１データベース管理装置の第１処理時間と前記第２データベース管理装置の第２処理時間との差が小さくなるように、前記第１テーブルが有する複数の第１レコードの一部を処理するための第２クエリと、前記第１テーブルが有する複数の第１レコードの他部を取得して当該取得された複数の第１レコードの他部と前記第２テーブルが有する複数の第２レコードとを処理するための第３クエリとを作成するステップと、
前記作成された第２クエリに対する処理を実行するステップと、
前記作成された第３クエリに対する処理を実行するステップと
を具備し、
前記管理装置情報は、前記第１及び第２データベース管理装置の各々の演算性能、前記第１テーブルが有する第１レコードの数及び前記第２テーブルが有する第２レコードの数、または前記分散処理装置と前記第１及び第２データベース管理装置との間の第１通信性能を含む
方法。