JP7421078B2

JP7421078B2 - 情報処理装置、情報処理システムおよびデータ再配置プログラム

Info

Publication number: JP7421078B2
Application number: JP2020006477A
Authority: JP
Inventors: 厚人廣瀬; 環田中
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2020-01-20
Filing date: 2020-01-20
Publication date: 2024-01-24
Anticipated expiration: 2040-01-20
Also published as: US11436256B2; US20210224292A1; JP2021114130A

Description

本発明は情報処理装置、情報処理システムおよびデータ再配置プログラムに関する。

データベースでは、記憶領域に複数のレコードが記憶される。最初は隙間が生じないように複数のレコードを詰めて記憶することがある。しかし、データベースの運用を継続すると、長さが異なるレコードの追加および削除が繰り返し行われることがあり、長さが変わるようなレコードの更新が行われることがある。これにより、レコード間に断片的空き領域が生じ、新たなレコードを追加可能な連続的空き領域が減少するという、記憶領域の断片化（フラグメンテーション）が発生することがある。

フラグメンテーションを放置すると、記憶領域の使用効率が低下する。例えば、レコードのデータ総量が記憶装置の総容量より十分少ないにもかかわらず、新たなレコードを追加できない断片的空き領域が多いために、実質的な空き容量が不足することがある。そこで、レコードを記憶領域上で再配置して断片的空き領域を減少させるという、断片化解消（デフラグメンテーションまたはデフラグ）を行うことがある。

例えば、ディスク装置に記憶された複数のレコードを再配置するディスク制御システムが提案されている。提案のディスク制御システムは、仮想アドレスが連続している複数のレコードをディスク装置から読み出してバッファにコピーし、バッファにコピーされた複数のレコードを仮想アドレスの順に並び替えながらディスク装置に書き戻す。

また、例えば、不揮発性メモリの断片化を解消する計算機システムが提案されている。提案の計算機システムは、不揮発性メモリに現用ヒープ領域と待機ヒープ領域とを確保する。計算機システムは、待機ヒープ領域の空き容量が少なくなった場合、待機ヒープ領域のデータブロックを詰めて再配置するデフラグを実行する。また、計算機システムは、任意のタイミングで、現用ヒープ領域と待機ヒープ領域の役割を入れ替える。

特開２００１－１８８６５８号公報国際公開第２０１８／１２７９４８号

データベースの可用性を向上させるため、同じレコードを記憶する複数のデータベースを用意して、それら複数のデータベースをクラスタシステムとして運用することがある。クラスタシステムでは、複数のデータベースのデータ再配置を一斉に実行するのではなく、それら複数のデータベースのデータ再配置を交代で実行することで、通常のデータ処理の性能低下を抑制することが考えられる。

しかし、データ再配置のタイミングがデータベース間で異なると、断片化の状況に違いが生じ、レコードの追加に使用可能な空き容量がデータベース間で異なることがある。そのため、あるデータベースにレコードが正常に追加された後、他のデータベースにレコード追加を反映させるデータ同期が、空き容量不足によって失敗してしまう可能性がある。

１つの側面では、本発明は、複数のデータベースのデータ再配置を円滑に行う情報処理装置、情報処理システムおよびデータ再配置プログラムを提供することを目的とする。

１つの態様では、記憶部と処理部とを有する情報処理装置が提供される。記憶部は、同一データを含む複数のデータベースそれぞれに対応付けて、同一データを記憶する記憶領域の断片化の状況に依存する空き容量を示す空き容量情報を記憶する。処理部は、空き容量情報に基づいて、複数のデータベースの中から、第１のデータベースを運用系のデータベースに決定し、第１のデータベースよりも空き容量が大きい第２のデータベースを待機系のデータベースに決定する。処理部は、運用系のデータベースの更新を待機系のデータベースに反映させるデータ同期を停止させ、待機系のデータベースが初期化された後、運用系のデータベースのデータを待機系のデータベースにコピーさせ、データ同期を再開させる、ことを含むデータ再配置処理を、第２のデータベースに対して実行する。処理部は、複数のデータベースの中で、運用系のデータベースおよび待機系のデータベースを変更することで、第２のデータベース以外のデータベースに対してデータ再配置処理が実行されるよう制御する。

また、１つの態様では、第１の情報処理装置と第２の情報処理装置とを含む情報処理システムが提供される。また、１つの態様では、データ再配置プログラムが提供される。

１つの側面では、複数のデータベースのデータ再配置を円滑に行うことができる。

第１の実施の形態の情報処理装置の例を説明する図である。第２の実施の形態の情報処理システムの例を示す図である。データベースサーバのハードウェア例を示すブロック図である。情報処理システムの適用例を示す図である。オンラインシステムの機能例を示すブロック図である。記憶領域の断片化の例を示す図である。空き容量の算出例を示す図である。データベースサーバ間のデータ同期の失敗例を示す図である。レプリケーションにおけるデータ再配置の例を示す図である。２台のサーバのクラスタ制御の例を示す図である。２台のサーバのクラスタ制御の例を示す図（続き１）である。２台のサーバのクラスタ制御の例を示す図（続き２）である。３台のサーバのクラスタ制御の例を示す図である。データベースサーバの機能例を示すブロック図である。レコードの構造例を示す図である。ハートビートメッセージの構造例を示す図である。制御情報の構造例を示す図である。フェイルオーバ制御の手順例を示すフローチャートである。フェイルオーバ制御の手順例を示すフローチャート（続き）である。データ再配置の手順例を示すフローチャートである。レプリケーション制御の手順例を示すフローチャートである。

以下、本実施の形態を図面を参照して説明する。
［第１の実施の形態］
第１の実施の形態を説明する。

図１は、第１の実施の形態の情報処理装置の例を説明する図である。
第１の実施の形態の情報処理装置１０は、冗長化された複数のデータベースのデータ再配置を制御する。情報処理装置１０は、何れか１つのデータベースが配置されたデータベースサーバであってもよい。また、情報処理装置１０は、データベースが配置されたデータベースサーバとは異なる管理サーバまたは管理端末であってもよい。情報処理装置１０を、コンピュータやデータ再配置装置などと言うこともできる。

情報処理装置１０は、記憶部１１および処理部１２を有する。記憶部１１は、ＲＡＭ（Random Access Memory）などの揮発性半導体メモリでもよいし、ＨＤＤ（Hard Disk Drive）やフラッシュメモリなどの不揮発性ストレージでもよい。処理部１２は、例えば、ＣＰＵ（Central Processing Unit）、ＧＰＵ（Graphics Processing Unit）、ＤＳＰ（Digital Signal Processor）などのプロセッサである。ただし、処理部１２は、ＡＳＩＣ（Application Specific Integrated Circuit）やＦＰＧＡ（Field Programmable Gate Array）などの特定用途の電子回路を含んでもよい。プロセッサは、ＲＡＭなどのメモリ（記憶部１１でもよい）に記憶されたプログラムを実行する。複数のプロセッサの集合を「マルチプロセッサ」または単に「プロセッサ」と言うこともある。

記憶部１１は、複数のデータベースそれぞれの空き容量を示す空き容量情報を記憶する。空き容量情報は、それら複数のデータベースの空き容量を監視することで収集される。第１の実施の形態の複数のデータベースは、１つのクラスタを形成する。複数のデータベースが同一データを含むように同期することで、冗長化されている。データは、例えば、複数のレコードを含む。１つのレコードは、例えば、関係テーブルの１つの行に対応する。データベースは、ＨＤＤなどの不揮発性ストレージを用いてデータを保持するオンディスクデータベースであってもよい。また、データベースは、ＲＡＭなどの揮発性メモリを用いてデータを保持するインメモリデータベースであってもよい。

ここで、空き容量は、データを記憶する記憶領域の断片化の状況に依存する。よって、複数のデータベースが同一データを含んでいても、断片化の状況が異なるために、データベースによって空き容量が異なることがある。断片化は、長さの異なるレコードの追加と削除を繰り返すことで発生することがあり、長さが変わるようにレコードを更新することで発生することがある。複数のレコードは、理想的には、レコード間に空き領域が生じないように密に記憶されることが好ましい。しかし、レコードの追加、更新および削除を通じて、レコード間に断片的空き領域が生じることがある。この断片的空き領域は、新たなレコードを挿入するのに十分なサイズがないために、レコード追加に使用されないデッドスペースとなってしまい、空き容量にカウントされないことがある。

一例として、複数のデータベースに、データベース１３とデータベース１４が含まれる。記憶部１１は、データベース１３の空き容量を示す空き容量情報１３ａと、データベース１４の空き容量を示す空き容量情報１４ａとを記憶する。例えば、データベース１３の空き容量が２ギガバイトであり、データベース１４の空き容量が３ギガバイトである。第１の実施の形態では、データベース１３の方が空き容量が小さく、データベース１４の方が空き容量が大きい。例えば、複数のデータベースの中で、データベース１３の空き容量が最も小さく、データベース１４の空き容量が最も大きい。

処理部１２は、記憶部１１に記憶された空き容量情報に基づいて、複数のデータベースの中から運用系データベースと待機系データベースとを決定する。例えば、処理部１２は、空き容量情報１３ａ，１４ａに基づいて、データベース１３，１４の一方を運用系データベースに決定し、他方を待機系データベースに決定する。運用系データベースは、クライアントからの要求を処理する運用系サーバがもつデータベースであり、クライアントからの要求に応答してデータの検索、挿入、更新、削除などのデータ処理が行われる。待機系データベースは、運用系データベースのバックアップとして機能する。通常時には、運用系データベースと待機系データベースとの間で、運用系データベースに対する更新を待機系データベースに反映させるデータ同期が行われる。

運用系データベースと待機系データベースの決定にあたり、処理部１２は、運用系データベースの方が空き容量が小さく、待機系データベースの方が空き容量が大きいことを制約条件とする。例えば、処理部１２は、最も空き容量が小さいデータベースを運用系データベースに決定する。上記のように、第１の実施の形態では、データベース１４の方がデータベース１３よりも空き容量が大きい。そこで、処理部１２は、データベース１３を運用系データベースに決定し、データベース１４を待機系データベースに決定する。

上記の方法で決定される運用系データベースと待機系データベースは、管理者によって指定された当初のシステム設定とは異なる可能性がある。また、空き容量の変化によって、上記の方法で決定される運用系データベースと待機系データベースが変化する可能性がある。その場合、処理部１２は、フェイルオーバによって各データベースの役割を変更する。例えば、現在、データベース１３が待機系データベースであり、データベース１４が運用系データベースである場合、データベース１３，１４の役割を入れ替える。

処理部１２は、上記で決定された待機系データベースを優先的に対象データベースとして、データ再配置処理を実行する。例えば、空き容量が最も大きい待機系データベースを、優先的に対象データベースとする。データ再配置処理では、対象データベースの断片的空き領域を削減して空き容量を増加させるデフラグが実現される。

データ再配置処理では、処理部１２は、運用系データベースであるデータベース１３と待機系データベースであるデータベース１４との間のデータ同期を停止させる。データ同期の停止後、データベース１４が初期化される。例えば、揮発性メモリまたは不揮発性ストレージに記憶されていた複数のレコードが削除される。データベース１４の初期化を、処理部１２が制御するようにしてもよい。データベース１４が初期化された後、処理部１２は、データベース１３のデータをデータベース１４にコピーさせる。

このとき、断片的空き領域がデータベース１３よりも減少するように、データがデータベース１４に格納される。例えば、データベース１３において存在するレコード間の断片的空き領域が、データベース１４では存在しないように、複数のレコードが密にデータベース１４に格納される。データベース１３において複数のレコードが論理番号の順に並んでいない場合、レコードを論理番号の順にソートしてデータベース１４に格納するようにしてもよい。また、データベース１３において１つのレコードが複数の部分に分割されている場合、複数の部分を連結してデータベース１４に格納するようにしてもよい。

データベース１３からデータベース１４へのデータのコピーを通じて、データが再配置されることになり、データベース１４のデフラグが実現される。データのコピー後、処理部１２は、データベース１３とデータベース１４との間のデータ同期を再開させる。

データベース１４を対象とするデータ再配置処理の後、処理部１２は、複数のデータベースの中で、運用系データベースおよび待機系データベースを変更する。そして、処理部１２は、データベース１４以外のデータベースを対象として、上記と同様のデータ再配置処理が実行されるよう制御する。これにより、クラスタを形成する複数のデータベースそれぞれに対して、断片的空き領域を削減するデフラグが行われることになる。

例えば、処理部１２は、運用系データベースと待機系データベースの役割を入れ替え、データベース１３を待機系データベースに変更して、データベース１４を運用系データベースに変更する。そして、処理部１２は、待機系データベースであるデータベース１３を対象として、上記と同様のデータ再配置処理が実行されるよう制御する。なお、データベース１３より空き容量が大きくデータベース１４より空き容量が小さい第３のデータベースが存在する場合、処理部１２は、データベース１３より前に、当該第３のデータベースをデータ再配置処理の対象とするようにしてもよい。その場合、データベース１３が引き続き運用系データベースとして機能する。

第１の実施の形態の情報処理装置１０によれば、冗長化された複数のデータベースが交代で対象データベースとなって、データ同期の停止、初期化、データコピーおよびデータ同期の再開を含むデータ再配置処理が実行される。これにより、複数のデータベースそれぞれにおいて、記憶領域の断片化が軽減され、空き容量を回復することができる。また、データ再配置処理を行っている間も、クライアントからの要求を運用系データベースによって処理することができ、性能低下を抑制することができる。

また、複数のデータベースそれぞれの空き容量が監視され、運用系データベースの方が待機系データベースよりも空き容量が小さくなるように、それら複数のデータベースの役割が制御される。そして、空き容量が大きい方から優先的にデータ再配置処理が行われる。これにより、データ再配置処理のタイミングがデータベースによって異なり、データベース間で空き容量に違いが生じても、運用系データベースの方が空き容量が小さい状態を維持できる。その結果、待機系データベースの容量不足によって、運用系データベースの更新を待機系データベースに反映させるデータ同期が失敗するリスクを低減できる。また、複数のデータベースのうちの一部のデータベースのみデフラグが完了した途中状態においても、データ同期が失敗するリスクを低減することができる。

［第２の実施の形態］
次に、第２の実施の形態を説明する。
図２は、第２の実施の形態の情報処理システムの例を示す図である。

第２の実施の形態の情報処理システムは、冗長化された複数のデータベースを利用してデータを管理するオンラインシステムである。この情報処理システムは、ユーザの預金口座取引を扱う銀行システムや、ユーザの証券口座取引を扱う証券会社システムなど、長時間無停止で稼働するオンラインシステムに好適である。第２の実施の形態の情報処理システムは、ネットワーク３０、クライアント３１、Ｗｅｂサーバ３２、アプリケーションサーバ３３、管理端末３４およびデータベースサーバ１００，１００ａ，１００ｂを含む。データベースサーバ１００ａは、第１の実施の形態の情報処理装置１０に対応する。

ネットワーク３０は、データ通信ネットワークである。ネットワーク３０は、インターネットなどの広域ネットワークを含んでもよく、ＬＡＮ（Local Area Network）などの構内ネットワークを含んでもよい。クライアント３１は、サービス利用者が操作するクライアントコンピュータである。クライアント３１は、Ｗｅｂブラウザを実行する。クライアント３１は、サービス利用者の操作に応じてＷｅｂサーバ３２にアクセスし、Ｗｅｂサーバ３２から画面データを受信してディスプレイに表示する。

Ｗｅｂサーバ３２は、サービス利用者に対して視覚的ユーザインタフェースを提供するサーバコンピュータである。Ｗｅｂサーバ３２は、クライアント３１からアクセスを受け付け、アプリケーションサーバ３３にデータ処理を要求する。Ｗｅｂサーバ３２は、アプリケーションサーバ３３から処理結果データを受信し、処理結果データを用いて画面データを生成し、生成した画面データをクライアント３１に送信する。

アプリケーションサーバ３３は、業務ロジックを実装したアプリケーションプログラムを実行するサーバコンピュータである。アプリケーションサーバ３３は、Ｗｅｂサーバ３２からデータ処理の要求を受け付ける。データ処理の中で、アプリケーションサーバ３３は、データベースを操作するクエリを生成することがある。アプリケーションサーバ３３は、データベースサーバ１００，１００ａ，１００ｂのうち、現用系であるアクティブ状態のデータベースサーバに対してクエリを送信し、クエリの実行結果を受信する。クエリの種類には、データの検索、挿入、更新および削除がある。アプリケーションサーバ３３は、処理結果データをＷｅｂサーバ３２に返信する。

管理端末３４は、オンラインシステムの管理者が操作するクライアントコンピュータである。管理端末３４は、管理者の操作に応じて、データベースを保守するための各種コマンドをデータベースサーバ１００，１００ａ，１００ｂに対して送信する。管理端末３４から送信されるコマンドについては後述する。

データベースサーバ１００，１００ａ，１００ｂは、データベースを管理するサーバコンピュータである。このデータベースは、原則として全てのデータを揮発性メモリに保持するインメモリデータベースである。また、データベースは、例えば、複数のレコードをテーブル形式で管理する関係データベースである。データベースサーバ１００，１００ａ，１００ｂは、１つのクラスタを形成する。クラスタに含まれる各データベースサーバを、ノードと言うことがある。データベースサーバ１００，１００ａ，１００ｂに、同じデータをもつデータベースを配置することで、データが冗長化されて耐故障性が向上する。データ同期の利便性の観点から、データ用記憶領域の総容量は等しいことが好ましい。

データベースサーバ１００，１００ａ，１００ｂのうち、１つが現用系であるアクティブ状態のデータベースサーバであり、残りの２つが待機系であるスタンバイ状態のデータベースサーバである。アクティブ状態のデータベースサーバは、アプリケーションサーバ３３からクエリを受け付け、クエリに応じたデータ処理を実行する。スタンバイ状態のデータベースサーバは、アクティブ状態のデータベースサーバに対するバックアップとして動作する。データ同期により、アクティブ状態のデータベースサーバで生じたデータベースの更新が、スタンバイ状態のデータベースサーバに反映される。

図３は、データベースサーバのハードウェア例を示すブロック図である。
データベースサーバ１００は、ＣＰＵ１０１、ＲＡＭ１０２、ＨＤＤ１０３、画像インタフェース１０４、入力インタフェース１０５、媒体リーダ１０６および通信インタフェース１０７を有する。データベースサーバ１００が有するこれらのユニットは、バスに接続されている。クライアント３１、Ｗｅｂサーバ３２、アプリケーションサーバ３３、管理端末３４およびデータベースサーバ１００ａ，１００ｂも、データベースサーバ１００と同様のハードウェアを用いて実現することができる。

ＣＰＵ１０１は、プログラムの命令を実行するプロセッサである。ＣＰＵ１０１は、ＨＤＤ１０３に記憶されたプログラムやデータの少なくとも一部をＲＡＭ１０２にロードし、プログラムを実行する。ＣＰＵ１０１は複数のプロセッサコアを備えてもよく、データベースサーバ１００は複数のプロセッサを備えてもよい。複数のプロセッサの集合を「マルチプロセッサ」または単に「プロセッサ」と言うことがある。

ＲＡＭ１０２は、ＣＰＵ１０１が実行するプログラムやＣＰＵ１０１が演算に使用するデータを一時的に記憶する揮発性半導体メモリである。データベースサーバ１００は、ＲＡＭ以外の種類のメモリを備えてもよく、複数のメモリを備えてもよい。

ＨＤＤ１０３は、ＯＳ（Operating System）やミドルウェアやアプリケーションソフトウェアなどのソフトウェアのプログラム、および、データを記憶する不揮発性ストレージである。データベースサーバ１００は、フラッシュメモリやＳＳＤ（Solid State Drive）など他の種類のストレージを備えてもよく、複数のストレージを備えてもよい。

画像インタフェース１０４は、ＣＰＵ１０１からの命令に従って、データベースサーバ１００に接続された表示装置１１１に画像を出力する。表示装置１１１として、ＣＲＴ（Cathode Ray Tube）ディスプレイ、液晶ディスプレイ（ＬＣＤ：Liquid Crystal Display）、有機ＥＬ（ＯＥＬ：Organic Electro-Luminescence）ディスプレイ、プロジェクタなど、任意の種類の表示装置を使用することができる。データベースサーバ１００に、プリンタなど表示装置１１１以外の出力デバイスが接続されてもよい。

入力インタフェース１０５は、データベースサーバ１００に接続された入力デバイス１１２から入力信号を受け付ける。入力デバイス１１２として、マウス、タッチパネル、タッチパッド、キーボードなど、任意の種類の入力デバイスを使用することができる。データベースサーバ１００に複数種類の入力デバイスが接続されてもよい。

媒体リーダ１０６は、記録媒体１１３に記録されたプログラムやデータを読み取る読み取り装置である。記録媒体１１３として、フレキシブルディスク（ＦＤ：Flexible Disk）やＨＤＤなどの磁気ディスク、ＣＤ（Compact Disc）やＤＶＤ（Digital Versatile Disc）などの光ディスク、半導体メモリなど、任意の種類の記録媒体を使用することができる。媒体リーダ１０６は、例えば、記録媒体１１３から読み取ったプログラムやデータを、ＲＡＭ１０２やＨＤＤ１０３などの他の記録媒体にコピーする。読み取られたプログラムは、例えば、ＣＰＵ１０１によって実行される。なお、記録媒体１１３は可搬型記録媒体であってもよく、プログラムやデータの配布に用いられることがある。また、記録媒体１１３やＨＤＤ１０３を、コンピュータ読み取り可能な記録媒体と言うことがある。

通信インタフェース１０７は、ネットワーク３０に接続され、ネットワーク３０を介して、アプリケーションサーバ３３、管理端末３４、データベースサーバ１００ａ，１００ｂなどの他の情報処理装置と通信する。通信インタフェース１０７は、例えば、スイッチやルータなどの有線通信装置に接続される有線通信インタフェースである。

ここで、図２に示した第２の実施の形態の情報処理システムは、証券取引システムに適用することが可能である。そこで、情報処理システムの適用例を説明する。
図４は、情報処理システムの適用例を示す図である。

証券取引システムは、株式などの有価証券の売買を仲介する。証券取引システムは、クライアント４４，４５などのクライアント、および、オンラインシステム４６，４７，４８を含む。オンラインシステム４６，４７，４８は、図２のような複数のデータベースサーバを含む情報処理システムを用いて実現することができる。

クライアント４４，４５は、投資家が使用するクライアントコンピュータである。投資家は、証券会社４１，４２などの証券会社に依頼して有価証券を売買する。クライアント４４を使用する投資家は、証券会社４１の会員である。クライアント４４は、売注文または買注文を示す注文メッセージをオンラインシステム４６に送信する。クライアント４５を使用する投資家は、証券会社４２の会員である。クライアント４５は、売注文または買注文を示す注文メッセージをオンラインシステム４７に送信する。

オンラインシステム４６は、証券会社４１が有する情報処理システムである。オンラインシステム４７は、証券会社４２が有する情報処理システムである。証券会社４１，４２は、投資家を代理して、証券取引所４３で有価証券の売買を実行する。オンラインシステム４６，４７は、証券取引所４３が有するオンラインシステム４８に対してはクライアントとして動作し、クライアント４４，４５に対してはサーバとして動作する。

オンラインシステム４６は、クライアント４４から注文メッセージを受け付けるアプリケーションインタフェースを有する。オンラインシステム４６は、クライアント４４から受信した注文メッセージに応じて、オンラインシステム４８に注文メッセージを送信し、成立した売買契約を示す約定通知メッセージをオンラインシステム４８から受信する。オンラインシステム４６は、クライアント４４に約定通知メッセージを送信する。同様に、オンラインシステム４７は、オンラインシステム４８に注文メッセージを送信し、成立した売買契約を示す約定通知メッセージをオンラインシステム４８から受信する。

オンラインシステム４８は、証券取引所４３が有する情報処理システムである。オンラインシステム４８は、オンラインシステム４６，４７から、売注文または買注文を示す注文メッセージを受信する。オンラインシステム４８は、売注文と買注文との間のマッチングを行い、希望条件を満たす売注文と買注文のペアを検出して売買契約を成立させる。オンラインシステム４８は、売買契約が成立した売注文および買注文について、約定通知メッセージをオンラインシステム４６，４７に送信する。

図５は、オンラインシステムの機能例を示すブロック図である。
オンラインシステム４８は、注文受信部５１、注文キュー５２、マッチング部５３、約定キュー５４、約定送信部５５、データベース管理システム５６、注文データベース５７および約定データベース５８を有する。注文キュー５２、約定キュー５４、注文データベース５７および約定データベース５８は、例えば、ＲＡＭの記憶領域を用いて実現される。注文受信部５１、マッチング部５３、約定送信部５５およびデータベース管理システム５６は、例えば、ＣＰＵが実行するプログラムを用いて実現される。

注文受信部５１は、オンラインシステム４６，４７から注文メッセージを受信する。注文受信部５１は、受信した注文メッセージを注文キュー５２に挿入する。注文キュー５２は、未処理の注文メッセージを受信順に記憶するＦＩＦＯ（First In First Out）型のバッファメモリである。注文受信部５１により、最新の注文メッセージが注文キュー５２の末尾に挿入される。マッチング部５３により、未処理の注文メッセージのうち最も古い注文メッセージが注文キュー５２の先頭から取り出される。

マッチング部５３は、売注文と買注文の間のマッチングを行う。具体的には、マッチング部５３は、注文キュー５２の先頭から注文メッセージを１つずつ取り出す。取り出した注文メッセージが売注文を示す場合、マッチング部５３は、今回の売注文と未約定の買注文とを対比する。取り出した注文メッセージが買注文を示す場合、マッチング部５３は、今回の買注文と未約定の売注文とを対比する。希望条件が合う相手注文が存在する場合、マッチング部５３は、売買契約を成立させ、約定した売注文と買注文のペアを示す約定通知メッセージを約定キュー５４に挿入する。希望条件が合う相手注文が存在しない場合、マッチング部５３は、今回の注文を未約定の注文として保存する。

売注文および買注文を管理するため、マッチング部５３はデータベースを利用する。マッチング部５３は、データベースのクエリをデータベース管理システム（ＤＢＭＳ：Database Management System）５６に対して発行し、クエリの実行結果をデータベース管理システム５６から取得する。クエリの種類として、特定条件のレコードを検索する検索クエリ、新規レコードを挿入する挿入クエリ、既存レコードの値を書き換える更新クエリ、および、既存レコードを削除する削除クエリがある。

約定キュー５４は、未送信の約定通知メッセージを生成順に記憶するＦＩＦＯ型のバッファメモリである。マッチング部５３により、最新の約定通知メッセージが約定キュー５４の末尾に挿入される。約定送信部５５により、未送信の約定通知メッセージのうち最も古い約定通知メッセージが約定キュー５４の先頭から取り出される。約定送信部５５は、約定キュー５４の先頭から約定通知メッセージを１つずつ取り出し、約定通知メッセージを適切な証券会社のオンラインシステムに対して送信する。

データベース管理システム５６は、注文データベース５７および約定データベース５８を管理する。データベース管理システム５６は、マッチング部５３からクエリを受け付け、受け付けたクエリに従って注文データベース５７や約定データベース５８のレコードを操作する。データベース管理システム５６は、クエリの実行結果をマッチング部５３に出力する。注文データベース５７には、未約定の売注文を示すレコードおよび未約定の買注文を示すレコードが格納される。約定データベース５８には、約定済み売注文を示すレコードおよび約定済みの買注文を示すレコードが格納される。

次に、データベースの記憶領域の断片化について説明する。
図６は、記憶領域の断片化の例を示す図である。
データベースサーバ１００，１００ａ，１００ｂが備えるＲＡＭのデータ用記憶領域には、複数のレコードが記憶される。１つのレコードは、関係テーブルの１つの行に対応する。記憶領域を効率的に利用するため、これら複数のレコードは、レコード間に隙間が生じないように詰めて記憶されることが好ましい。しかし、データベースサーバ１００，１００ａ，１００ｂを長時間連続的に運用すると、レコードの挿入、更新および削除の繰り返しを通じて、レコード間に断片的空き領域が生じる。断片的空き領域は、新たなレコードを挿入できるほどのサイズをもたないデッドスペースである。

例えば、最初はレコード＃１～＃８の８個のレコードが、順番に詰めて記憶されているとする。初期状態から、レコード＃３が削除される。すると、レコード＃２とレコード＃４との間に空き領域１４１が生じる。ただし、空き領域１４１は、別のレコードを記憶し得るため、断片的空き領域ではない。次に、レコード＃９が挿入される。レコード＃９は、空き領域１４１に挿入される。ただし、レコード＃９はレコード＃３より短いとする。よって、レコード＃９とその後続のレコード＃４との間に空き領域１４２が生じる。空き領域１４２は、サイズが小さく断片的空き領域である。

次に、レコード＃７が更新される。この更新によりレコード＃７が短くなる。例えば、レコード＃７に含まれる可変長文字列の文字数が減る。すると、レコード＃７とその後続のレコード＃８との間に空き領域１４３が生じる。空き領域１４３は、サイズが小さく断片的空き領域である。次に、レコード＃５が更新される。この更新によりレコード＃５が長くなる。例えば、レコード＃５に含まれる可変長文字列の文字数が増える。ただし、レコード＃５とその後続のレコード＃６との間には隙間がなく、そのままレコード＃５を延ばすことはできない。そこで、レコード＃５の管理情報を含むヘッダを元の位置に残し、データ本体を含むボディをレコード＃８の後方に移動させる。レコード＃５が分割されることになる。これにより、レコード＃５のヘッダとレコード＃６との間に空き領域１４４が生じる。空き領域１４４は、サイズが小さく断片的空き領域である。

このように、新たなレコードが挿入されることがない断片的空き領域は、長さの異なるレコードの挿入および削除を繰り返すことで生じ得る。また、断片的空き領域は、レコード長が変わるようにレコードを更新することによって生じ得る。レコード間に存在する断片的空き領域の個数が増えることで、記憶領域の断片化が進行する。

データベースに対しては「空き容量」が算出される。空き容量は、新たなレコードを挿入可能な空き領域の合計サイズとして規定することが可能である。その場合、１以上のレコードを挿入可能な連続的空き領域のサイズが空き容量に算入される一方、レコードが挿入されることのない断片的空き領域のサイズは空き容量に算入されない。よって、断片化の進行によって、データベースの空き容量が減少する。総容量が等しくかつ同一データをもつ複数のデータベースであっても、断片化の状況が異なることで異なる空き容量が算出され得る。ここで、データベースの空き容量の算出方法について説明する。

図７は、空き容量の算出例を示す図である。
データベースサーバ１００，１００ａ，１００ｂでは、ＲＡＭのデータ用記憶領域が、単位記憶領域である「ブロック」に細分化されている。ブロックをページやセグメントなどと言うこともある。１つのブロックのサイズは固定であり、例えば、４０９６バイトである。データベース全体の空き容量は、以下の方法で算出されるブロック毎の空き容量の合計である。状態１５１～１５６は、１つのブロックの状態を示す。

状態１５１は、ブロックに１つのレコードも格納されていない初期状態である。初期状態の空き容量は、ブロックサイズに等しい。よって、状態１５１の空き容量は、４０９６バイトである。状態１５２は、状態１５１から、１２８バイト×１０個のレコードがまとめて書き込まれた状態である。レコードが詰めて書き込まれた場合、書き込まれたレコードのデータ量だけ空き容量が減少する。よって、状態１５２の空き容量は、４０９６バイトから１２８×１０バイトを差し引いて、２８１６バイトと算出される。

状態１５３は、状態１５２から更に、１２８バイト×２２個のレコードがまとめて書き込まれた状態である。これにより、３２個のレコードが隙間なく格納され、ブロックに空き領域が全く存在しないことになる。状態１５３の空き容量は、２８１６バイトから１２８×２２バイトを差し引いて、０バイトと算出される。

状態１５４は、状態１５２から更に、１２８バイト×２１個のレコードと９６バイト×１個のレコードとがまとめて書き込まれた状態である。３２個のレコードが隙間なく格納されているものの、ブロックの末尾に３２バイトの空き領域が残っている。ここで、ブロックの中に空き領域が残っていても、次のレコードが挿入不可となった場合、そのブロックの空き容量が０とみなされる。よって、状態１５４の空き容量は、次のレコードをブロックに挿入できないため、０とみなされる。

状態１５５は、状態１５３から、１２８バイト×１０個のレコードが削除された状態である。レコードが削除された場合、削除されたレコードのデータ量だけ空き容量が増加する。よって、状態１５５の空き容量は、０バイトに１２８×１０バイトを加えて、１２８０バイトと算出される。状態１５６は、状態１５３から、１つのレコードが更新された状態である。更新されたレコードの長さが、１２８バイトから６４バイトに減少している。レコードの更新によって断片的空き領域が生じても、ブロックの空き容量は増加しない。よって、状態１５６の空き容量は、０のまま変わらないとみなされる。レコードの分割によって断片的空き領域が生じた場合も同様である。

断片化を放置した場合、データベースの空き容量が小さくなる。この空き容量は、データ用記憶領域の総容量と記憶されているレコードの総データ量との間の差よりも顕著に小さくなることがある。よって、情報処理システムの設計時に想定した個数のレコードがデータベースに格納できなくなり、容量不足が発生する可能性がある。そこで、レコードを再配置して断片的空き領域を削減するデフラグを実行することが好ましい。デフラグによって、計算上の空き容量が増加することが期待される。

ただし、長時間連続的に稼働することが求められるオンラインシステムは、ユーザにサービスを提供しつつデフラグを実行することになるため、デフラグ方法が問題となる。この点、アクティブ状態のデータベースサーバがデフラグを行うと、サービスの遅延が問題となる。データ用記憶領域に排他ロックをかけて、サービス実行のアクセスとデフラグのアクセスとが衝突しないように排他制御を行うと、サービスが遅延してしまう。また、複数のデータベースサーバが一斉にデフラグを行うのではなく交代でデフラグを行うと、データベースサーバ間で空き容量が大きく異なってしまうことがある。その場合、以下に説明するようなデータ同期失敗のリスクが生じる。

図８は、データベースサーバ間のデータ同期の失敗例を示す図である。
ここでは、データベースサーバ１００がアクティブ状態であり、データベースサーバ１００ａがスタンバイ状態であるとする。また、データベースサーバ１００の断片化が小さく、データベースサーバ１００ａの断片化が大きいとする。よって、データベースサーバ１００の方が空き容量が大きく、データベースサーバ１００ａの方が空き容量が小さい。

データベースサーバ１００は、データベースに３個のレコードを挿入するトランザクションＡをコミットする。すると、データベースサーバ１００は、データベースサーバ１００のデータ用記憶領域にこれら３個のレコードを書き込む。また、データベースサーバ１００は、冗長性確保のため、トランザクションＡの３個のレコードをデータベースサーバ１００ａに転送する。データベースサーバ１００ａは、データベースサーバ１００ａのデータ用記憶領域にこれら３個のレコードを書き込む。

なお、データベースサーバ１００，１００ａの間のデータ同期は、コミット完了後にバックグラウンドで行ってよい。また、アクティブ状態のデータベースサーバは１台であるため、データベースサーバ１００ｂもスタンバイ状態として動作している。よって、データベースサーバ１００のコミットがデータベースサーバ１００ｂにも反映される。データベースサーバ１００ｂには、データベースサーバ１００からレコードが転送されてもよいし、データベースサーバ１００ａからレコードが転送されてもよい。

次に、データベースサーバ１００は、データベースに２個のレコードを挿入するトランザクションＢをコミットする。すると、データベースサーバ１００は、データベースサーバ１００のデータ用記憶領域にこれら２個のレコードを書き込む。データベースサーバ１００の空き容量は足りているため、この書き込みは成功する。一方、データベースサーバ１００は、トランザクションＢの２個のレコードをデータベースサーバ１００ａに転送する。データベースサーバ１００ａは、データベースサーバ１００ａのデータ用記憶領域にこれら２個のレコードを書き込む。データベースサーバ１００ａの空き容量は不足しているため、この書き込みは失敗する。よって、データ同期が失敗してしまう。

このように、複数のデータベースサーバが交代でデフラグを行うと、データベースサーバ間で空き容量に大きな差が生じる可能性がある。このとき、アクティブ状態のデータベースサーバの方がスタンバイ状態のデータベースサーバより空き容量が大きくなると、コミット自体は成功しているにもかかわらず、データ同期が失敗してしまう。その結果、スタンバイ状態のデータベースサーバが故障とみなされてクラスタから切り離される可能性がある。また、データの冗長性が低下する。

そこで、第２の実施の形態のデータベースサーバ１００，１００ａ，１００ｂは、以下に説明する方法で、レコードを再配置して断片的空き領域を削減する。
第２の実施の形態では、データベースサーバ１００，１００ａ，１００ｂの優先順位が空き容量に基づいて決定される。空き容量が最も小さいデータベースサーバが第１位になり、空き容量が最も大きいデータベースサーバが第３位になる。第１位のデータベースサーバがアクティブ状態として動作し、第２位および第３位のデータベースサーバがスタンバイ状態として動作する。そして、優先順位が下位のデータベースサーバから先に、１台ずつ順にクラスタから切り離される。クラスタから切り離されたデータベースサーバは、レコードを全て削除する初期化が行われた上で、クラスタに再び組み込まれる。クラスタに組み込まれたデータベースサーバは、データベースが空であるため、他のデータベースサーバから全てのレコードのコピーを受信する。このとき、レコードが再配置される。

図９は、レプリケーションにおけるデータ再配置の例を示す図である。
ここでは、データベースサーバ１００ａは、空き容量が最も小さく、優先順位が第１位のデータベースサーバである。よって、データベースサーバ１００ａはアクティブ状態である。データベースサーバ１００は、空き容量が最も大きく、優先順位が第３位のデータベースサーバである。よって、データベースサーバ１００は、クラスタから切り離され、データベースが初期化され、クラスタに再び組み込まれる。

データベースサーバ１００がクラスタに組み込まれる際、レプリケーションが行われる。レプリケーションでは、データベースサーバ１００ａに記憶されたレコードがデータベースサーバ１００にコピーされる。ここでは、レコード＃１，＃２，＃４～＃９が、データベースサーバ１００ａからデータベースサーバ１００にコピーされる。レプリケーションの際、データベースサーバ１００では実質的にデフラグが実現されるようにする。

データベースサーバ１００ａは、送信する複数のレコードを、それらレコードに割り当てられた論理番号の昇順にソートする。よって、記憶領域上ではレコード＃９がレコード＃２とレコード＃４の間に配置されているところ、レコード＃９がレコード＃８より後に送信される。また、データベースサーバ１００ａは、ヘッダとボディとが分割されたレコードが存在する場合、ヘッダとボディを連結する。よって、記憶領域上ではレコード＃５が分割されて配置されているところ、一続きのレコードとして組み立てられる。データベースサーバ１００ａは、このようにしてソートし連結した複数のレコードを、論理番号の小さい順にデータベースサーバ１００に送信する。

データベースサーバ１００は、データベースサーバ１００ａから受信するレコードを、論理番号の昇順に、できる限り隙間なく詰めて記憶領域に格納する。よって、データベースサーバ１００は、レコード＃１，＃２，＃４～＃９を受信順に、できる限りレコード間に断片的空き領域が生じないように詰めて書き込む。これにより、データベースサーバ１００の断片的空き領域がデータベースサーバ１００ａよりも減少する。よって、データベースサーバ１００はデフラグが行われた状態となり、空き容量が増加する。また、複数のレコードが論理番号順に並んでいると共に、レコードの分割が解消されている。よって、データベースサーバ１００におけるレコード検索の効率が向上する。

次に、複数台のデータベースサーバのクラスタ制御について説明する。まず、説明を簡単にするため、データベースサーバ１００，１００ａの２台のクラスタを考える。
図１０は、２台のサーバのクラスタ制御の例を示す図である。

管理者のシステム設定によって、データベースサーバ１００の優先順位が第１位に指定され、データベースサーバ１００ａの優先順位が第２位に指定されているとする。すると、データベースサーバ１００がアクティブ状態で動作し、データベースサーバ１００ａがスタンバイ状態で動作する。データベースサーバ１００でコミットが実行され、データベースサーバ１００からデータベースサーバ１００ａへデータ同期が行われる。

次に、データベースサーバ１００がデータベースサーバ１００ａにハートビートメッセージを送信し、データベースサーバ１００ａがデータベースサーバ１００にハートビートメッセージを送信する。ハートビートメッセージは、生存確認のための制御メッセージであり、複数のデータベースサーバの間で定期的に（例えば、３秒毎に）送信される。データベースサーバ１００が送信するハートビートメッセージには、データベースサーバ１００の空き容量の情報が含まれている。データベースサーバ１００ａが送信するハートビートメッセージには、データベースサーバ１００ａの空き容量の情報が含まれている。

ここでは、データベースサーバ１００の空き容量が３ギガバイトであり、データベースサーバ１００ａの空き容量が２ギガバイトであるとする。データベースサーバ１００，１００ａは、ハートビートメッセージを通じて、相手の空き容量を相互に知ることになる。

すると、データベースサーバ１００，１００ａはそれぞれ、クラスタに含まれる各データベースサーバの優先順位を、空き容量の小さい順になるように決定する。ここで決定する優先順位は、管理者のシステム設定とは異なる可能性がある。これにより、データベースサーバ１００ａが第１位となり、データベースサーバ１００が第２位となる。優先順位が第１位のデータベースサーバ１００ａは、自身がアクティブ状態になることをデータベースサーバ１００に対して宣言する。これにより、データベースサーバ１００ａがアクティブ状態に遷移し、データベースサーバ１００がスタンバイ状態に遷移する。すると、データベースサーバ１００ａでコミットが実行され、データベースサーバ１００ａからデータベースサーバ１００へデータ同期が行われるようになる。

次に、アクティブ状態のデータベースサーバ１００ａが、管理端末３４から切り離しコマンドを受信する。切り離しコマンドには、クラスタから切り離すデータベースサーバ１００を示す識別情報が含まれる。データベースサーバ１００ａは、切り離しコマンドに従って、データベースサーバ１００をクラスタから切り離す。切り離しでは、データベースサーバ１００ａは、データベースサーバ１００へのデータ同期を停止し、データベースサーバ１００とのハートビートメッセージの送受信を停止して生存確認を取りやめる。

次に、クラスタ外のデータベースサーバ１００が、管理端末３４から初期化コマンドを受信する。データベースサーバ１００は、初期化コマンドに従ってデータベースを初期化する。初期化では、データベースサーバ１００は、ＲＡＭのデータ用記憶領域に記憶された全てのレコードを削除する。ただし、データベースの管理情報を書き換えることで、レコードを削除する代わりにレコードを認識不可にすることもできる。

図１１は、２台のサーバのクラスタ制御の例を示す図（続き１）である。
次に、アクティブ状態のデータベースサーバ１００ａが、管理端末３４から組み込みコマンドを受信する。組み込みコマンドには、クラスタに組み込むデータベースサーバ１００を示す識別情報が含まれる。データベースサーバ１００ａは、組み込みコマンドに従って、データベースサーバ１００をクラスタに組み込む。なお、データベースサーバ１００ａがアクティブ状態で稼働し続けていることにより、ここでは、データベースサーバ１００ａの空き容量が１．５ギガバイトに低下している。

データベースサーバ１００の組み込みにあたり、データベースサーバ１００ａは、レプリケーションを実行する。前述のようにレプリケーションでは、データベースサーバ１００ａは、ＲＡＭのデータ用記憶領域に記憶された全てのレコードをデータベースサーバ１００にコピーする。データベースサーバ１００は、ＲＡＭのデータ用記憶領域に、できる限り断片的空き領域が生じないように詰めてレコードを書き込む。ここでは、デフラグの効果により、データベースサーバ１００の空き容量が５ギガバイトに回復している。

レプリケーションが完了すると、データベースサーバ１００ａは、データベースサーバ１００のクラスタへの組み込みを完結させる。組み込みでは、データベースサーバ１００ａは、データベースサーバ１００とのハートビートメッセージの送受信を再開して生存確認を再開し、データベースサーバ１００へのデータ同期を再開する。組み込まれたデータベースサーバ１００は、スタンバイ状態で動作する。

次に、データベースサーバ１００，１００ａの一方または両方が、管理端末３４からフェイルオーバコマンドを受信する。フェイルオーバコマンドは、アクティブ状態とスタンバイ状態との強制的な切り替えを意味する。フェイルオーバコマンドには、アクティブ状態になるデータベースサーバの識別情報が含まれてもよく、スタンバイ状態になるデータベースサーバの識別情報が含まれてもよい。フェイルオーバコマンドに従って、データベースサーバ１００がアクティブ状態に遷移し、データベースサーバ１００ａがスタンバイ状態に遷移する。すると、データベースサーバ１００でコミットが実行され、データベースサーバ１００からデータベースサーバ１００ａへデータ同期が行われるようになる。

次に、アクティブ状態のデータベースサーバ１００が、管理端末３４から切り離しコマンドを受信する。データベースサーバ１００は、切り離しコマンドに従って、データベースサーバ１００ａをクラスタから切り離す。切り離しでは、データベースサーバ１００は、データベースサーバ１００ａへのデータ同期を停止し、データベースサーバ１００ａとのハートビートメッセージの送受信を停止して生存確認を取りやめる。

図１２は、２台のサーバのクラスタ制御の例を示す図（続き２）である。
次に、クラスタ外のデータベースサーバ１００ａが、管理端末３４から初期化コマンドを受信する。データベースサーバ１００ａは、初期化コマンドに従ってデータベースを初期化する。初期化では、データベースサーバ１００ａは、ＲＡＭのデータ用記憶領域に記憶された全てのレコードを削除する。次に、アクティブ状態のデータベースサーバ１００が、管理端末３４から組み込みコマンドを受信する。データベースサーバ１００は、組み込みコマンドに従って、データベースサーバ１００ａをクラスタに組み込む。なお、データベースサーバ１００がアクティブ状態で稼働し続けていることにより、ここでは、データベースサーバ１００の空き容量が４．５ギガバイトに低下している。

データベースサーバ１００ａの組み込みにあたり、データベースサーバ１００は、レプリケーションを実行する。レプリケーションでは、データベースサーバ１００は、ＲＡＭのデータ用記憶領域に記憶された全てのレコードをデータベースサーバ１００ａにコピーする。データベースサーバ１００ａは、ＲＡＭのデータ用記憶領域に、できる限り断片的空き領域が生じないように詰めてレコードを書き込む。ここでは、デフラグの効果により、データベースサーバ１００ａの空き容量が５ギガバイトに回復している。

レプリケーションが完了すると、データベースサーバ１００は、データベースサーバ１００ａのクラスタへの組み込みを完結させる。組み込みでは、データベースサーバ１００は、データベースサーバ１００ａとのハートビートメッセージの送受信を再開して生存確認を再開し、データベースサーバ１００ａへのデータ同期を再開する。組み込まれたデータベースサーバ１００ａは、スタンバイ状態で動作する。

次に、データベースサーバ１００，１００ａ，１００ｂの３台のクラスタを考える。
図１３は、３台のサーバのクラスタ制御の例を示す図である。
ここでは、データベースサーバ１００ａの空き容量が２ギガバイト、データベースサーバ１００ｂの空き容量が２．５ギガバイト、データベースサーバ１００の空き容量が３ギガバイトであるとする。よって、データベースサーバ１００ａの優先順位が第１位、データベースサーバ１００ｂの優先順位が第２位、データベースサーバ１００の優先順位が第３位と決定される。データベースサーバ１００ａがアクティブ状態で動作し、データベースサーバ１００，１００ｂがスタンバイ状態で動作する。

最初に、優先順位が最も低いデータベースサーバ１００がデフラグ対象に選択される。切り離し、初期化、レプリケーションおよび組み込みを通じて、データベースサーバ１００の断片的空き領域が削減され、その空き容量が５ギガバイトに回復する。その間、データベースサーバ１００ａの空き容量が１．５ギガバイトに低下し、データベースサーバ１００ｂの空き容量が２ギガバイトに低下する。なお、組み込み直後のデータベースサーバの空き容量が最も大きいため、通常、この時点で優先順位は変化しない。

次に、デフラグ未実行のデータベースの中で優先順位が最も低いデータベースサーバ１００ｂがデフラグ対象に選択される。データベースサーバ１００ｂがクラスタから一時的に切り離されるため、データベースサーバ１００の優先順位が第２位に繰り上がる。切り離し、初期化、レプリケーションおよび組み込みを通じて、データベースサーバ１００ｂの断片的空き領域が削減され、その空き容量が５ギガバイトに回復する。その間、データベースサーバ１００ａの空き容量が１ギガバイトに低下し、データベースサーバ１００の空き容量が４．５ギガバイトに低下する。組み込まれたデータベースサーバ１００ｂの優先順位は第３位となる。結果として、データベースサーバ１００，１００ａ，１００ｂの優先順位が、空き容量の昇順に維持される。

最後に、データベースサーバ１００ａがデフラグ対象に選択される。データベースサーバ１００ａはアクティブ状態であるため、強制的なフェイルオーバによってスタンバイ状態に遷移する。データベースサーバ１００の優先順位が第１位に繰り上がり、データベースサーバ１００ｂの優先順位が第２位に繰り上がる。切り離し、初期化、レプリケーションおよび組み込みを通じて、データベースサーバ１００ａの断片的空き領域が削減され、その空き容量が５ギガバイトに回復する。その間、データベースサーバ１００の空き容量が４ギガバイトに低下し、データベースサーバ１００ｂの空き容量が４．５ギガバイトに低下する。組み込まれたデータベースサーバ１００ａの優先順位は第３位となる。結果として、データベースサーバ１００，１００ａ，１００ｂの優先順位が、空き容量の昇順に維持される。よって、優先順位は変化しない。

このように、クラスタに含まれるデータベースサーバ１００，１００ａ，１００ｂに、空き容量の小さい順の優先順位が付与される。そして、優先順位の低い方、すなわち、空き容量の大きい方から先に１台ずつデフラグが行われる。これにより、上位のデータベースサーバの方が下位のデータベースサーバより空き容量が大きくなる時間を短縮でき、空き容量不足でデータ同期が失敗するリスクを低減することができる。

なお、上記の説明では、管理端末３４が、切り離しコマンドと初期化コマンドと組み込みコマンドを送信している。これら複数のコマンドは、管理者からの個々の入力に応じて１つずつ送信されてもよいし、プログラムに従って連続的に送信されてもよい。また、管理端末３４が所定の契機を判断して、自動的にこれらコマンドを送信し始めるようにしてもよいし、データベースサーバ１００，１００ａ，１００ｂが所定の契機を検出して自動的にデフラグを開始するようにしてもよい。

例えば、クラスタに含まれる複数のデータベースそれぞれについて、データ用記憶領域の総容量に対する空き容量の割合である空き割合を算出し、最小の空き割合が閾値未満（例えば、１０％未満）となったことをデフラグ開始の契機と定義してもよい。また、クラスタに含まれる複数のデータベースそれぞれについて、データ用記憶領域の総容量に対する使用量の割合である使用割合を算出し、最大の使用割合が閾値を超えた（例えば、９０％を超えた）ことをデフラグ開始の契機と定義してもよい。

また、上記の説明では、クラスタに含まれる全てのデータベースサーバのデフラグを連続的に行っている。デフラグ対象を切り替えるためのフェイルオーバコマンドは、管理者からの入力に応じて送信されてもよいし、直前のデフラグ対象のデフラグ完了後にプログラムに従って自動的に送信されてもよい。また、２番目以降のデータベースサーバのデフラグを行うか否かを、管理者が判断するようにしてもよい。

また、管理端末３４が所定の継続条件を判断して、自動的にフェイルオーバコマンドを送信するようにしてもよいし、データベースサーバ１００，１００ａ，１００ｂが所定の継続条件を検出して自動的にデフラグを継続するようにしてもよい。例えば、空き割合が閾値未満のデータベースサーバが残っていることや、使用割合が閾値を超えるデータベースサーバが残っていることを、デフラグ継続の条件と定義してもよい。

次に、データベースサーバ１００，１００ａ，１００ｂの機能について説明する。ここでは代表して、データベースサーバ１００について説明する。データベースサーバ１００ａ，１００ｂも、データベースサーバ１００と同様の機能を有する。

図１４は、データベースサーバの機能例を示すブロック図である。
データベースサーバ１００は、レコード記憶部１２１、制御情報記憶部１２２、クエリ実行部１２３、レプリケーション制御部１２４、クラスタ制御部１２５および通信部１２６を有する。レコード記憶部１２１および制御情報記憶部１２２は、ＲＡＭ１０２の記憶領域を用いて実現される。クエリ実行部１２３、レプリケーション制御部１２４、クラスタ制御部１２５および通信部１２６は、プログラムを用いて実現される。

レコード記憶部１２１は、データベースのレコードを記憶する。レコード記憶部１２１の総容量は予め決まっており、データベースサーバ１００，１００ａ，１００ｂの間で同一であることが好ましい。１つのレコードは、例えば、関係データベースにおけるテーブルの１つの行（タプル）に対応し、複数の列（カラム）の値を含む。レコードの構造については後述する。制御情報記憶部１２２は、クラスタの制御やレコードの管理に用いられる制御情報を記憶する。制御情報の詳細については後述する。

クエリ実行部１２３は、データベースサーバ１００がアクティブ状態のとき、アプリケーションサーバ３３からＳＱＬなどのクエリを受信し、クエリに応じたレコード操作をレコード記憶部１２１に対して実行して実行結果を返信する。検索クエリに対しては、クエリ実行部１２３は、検索条件に該当するレコードをレコード記憶部１２１から読み出す。挿入クエリに対しては、クエリ実行部１２３は、新たなレコードをレコード記憶部１２１に挿入する。更新クエリに対しては、クエリ実行部１２３は、レコード記憶部１２１の中の特定のレコードを書き換える。削除クエリに対しては、クエリ実行部１２３は、レコード記憶部１２１から特定のレコードを削除する。

レプリケーション制御部１２４は、データベースサーバ間のデータ同期を実現する。データベースサーバ１００がアクティブ状態のとき、レプリケーション制御部１２４は、クエリ実行後にレコード記憶部１２１の差分を他のデータベースサーバに送信する。データベースサーバ１００がスタンバイ状態のとき、レプリケーション制御部１２４は、他のデータベースサーバから差分を受信してレコード記憶部１２１を更新する。

また、データベースサーバ１００がアクティブ状態であり、あるデータベースサーバをクラスタに組み込むとき、レプリケーション制御部１２４は、レコード記憶部１２１のレコードを論理番号順にソートして、組み込まれるデータベースサーバにコピーする。また、データベースサーバ１００がクラスタに組み込まれるとき、レプリケーション制御部１２４は、他のデータベースサーバから全てのレコードを受信し、受信したレコードを、断片的空き領域が少なくなるようにレコード記憶部１２１に詰め込む。

クラスタ制御部１２５は、クラスタ内でのデータベースサーバ１００の役割を判定し、データベースサーバ１００の挙動を制御する。クラスタ制御部１２５は、他のデータベースサーバとの間で定期的にハートビートメッセージを送受信し、ハートビートメッセージに含まれる空き容量の情報を制御情報記憶部１２２に記録する。クラスタ制御部１２５は、空き容量に基づいてデータベースサーバ１００の優先順位を決定する。

また、クラスタ制御部１２５は、ハートビートメッセージを送信していないデータベースサーバを故障と判定し、データベースサーバ１００の優先順位を変更する。また、クラスタ制御部１２５は、フェイルオーバコマンドに応じて、データベースサーバ１００の優先順位を変更する。クラスタ制御部１２５は、優先順位に応じて、データベースサーバ１００をアクティブ状態とスタンバイ状態の間で切り替える。また、クラスタ制御部１２５は、クラスタからの切り離しやクラスタへの組み込みを制御する。

通信部１２６は、クラスタの運用管理のため、管理端末３４やデータベースサーバ１００ａ，１００ｂと通信する。通信部１２６は、管理端末３４から各種のコマンドを受信する。また、通信部１２６は、データベースサーバ１００ａ，１００ｂからハートビートメッセージを受信し、データベースサーバ１００ａ，１００ｂにハートビートメッセージを送信する。また、通信部１２６は、データベースサーバ１００ａ，１００ｂからレコードを受信し、データベースサーバ１００ａ，１００ｂにレコードを送信する。

図１５は、レコードの構造例を示す図である。
レコード１３１は、レコード記憶部１２１に記憶される。レコード１３１は、ヘッダおよびボディを含む。ヘッダは、レコード長、分割フラグおよびアドレスを含む。レコード長は、レコード１３１のサイズである。分割フラグは、記憶領域上でヘッダとボディとが分離しているか否かを示すフラグである。分割フラグ＝ＯＦＦは、ヘッダとボディが連続して記憶されていることを示し、分割フラグ＝ＯＮは、ヘッダとボディが分割されて記憶されていることを示す。アドレスは、記憶領域上でのボディの先頭位置を示す物理アドレスである。分割フラグ＝ＯＦＦの場合、ヘッダがアドレスを含まなくてもよい。ボディは、データ本体を含む。データ本体には、複数の列の値が列挙される。

図１６は、ハートビートメッセージの構造例を示す図である。
ハートビートメッセージ１３２は、データベースサーバ１００，１００ａ，１００ｂの間で送信される。ハートビートメッセージ１３２は、種別、メッセージ長、送信元サーバおよび空き容量を含む。種別は、メッセージ種別がハートビートであることを示す。メッセージ長は、ハートビートメッセージ１３２のサイズである。送信元サーバは、ハートビートメッセージ１３２を送信したデータベースサーバの識別情報である。空き容量は、送信元サーバにおいて算出されたデータベースの空き容量である。

図１７は、制御情報の構造例を示す図である。
システム定義ファイル１３３は、制御情報記憶部１２２に記憶される。システム定義ファイル１３３は、管理者によって作成される。システム定義ファイル１３３は、データベースサーバ１００，１００ａ，１００ｂの初期の優先順位を示す。例えば、データベースサーバ１００，１００ａ，１００ｂの識別情報が、優先順位の高い順に列挙される。ただし、第２の実施の形態では、空き容量に応じて自動的に優先順位が変更される。

空き容量テーブル１３４は、制御情報記憶部１２２に記憶される。空き容量テーブル１３４は、サーバ名と空き容量とを対応付ける。空き容量テーブル１３４には、データベースサーバ１００，１００ａ，１００ｂの識別情報が登録され、識別情報と対応付けて、データベースの空き容量が登録される。データベースサーバ１００，１００ａ，１００ｂの空き容量は、ハートビートメッセージによって相互に通知されている。例えば、データベースサーバ１００の空き容量が３ギガバイト、データベースサーバ１００ａの空き容量が２ギガバイト、データベースサーバ１００ｂの空き容量が２．５ギガバイトという情報が、空き容量テーブル１３４に登録される。

論理番号テーブル１３５は、制御情報記憶部１２２に記憶される。論理番号テーブル１３５は、レコードの論理番号と物理アドレスとを対応付ける。論理番号テーブル１３５には、レコード記憶部１２１に記憶されたレコードの論理番号が登録され、論理番号と対応付けて、記憶領域上でのレコードの先頭位置を示す物理アドレスが登録される。ヘッダとボディが分離している場合、物理アドレスはヘッダの先頭位置を示す。論理番号は、例えば、複数のレコードに対して重複なしに割り当てられる非負整数の識別子である。

レプリケーションテーブル１３６は、制御情報記憶部１２２に記憶される。レプリケーションテーブル１３６は、全てのレコードを論理番号順に送信するレプリケーションの際に生成され、レプリケーションの制御に用いられる。レプリケーションテーブル１３６は、レコードの論理番号と状態とを対応付ける。レプリケーションテーブル１３６には、レコードの論理番号が登録され、論理番号と対応付けて、レコードの送信状態が登録される。レコードの送信状態は、「未送信」、「送信中」または「送信済」である。送信状態の初期値は「未送信」である。論理番号が小さいレコードから順に、「未送信」から「送信中」に遷移し、更に「送信中」から「送信済」に遷移する。全てのレコードの送信状態が「送信済」になると、レプリケーションが終了する。

次に、データベースサーバ１００，１００ａ，１００ｂの処理手順について説明する。ここでは代表して、データベースサーバ１００について説明する。データベースサーバ１００ａ，１００ｂも、データベースサーバ１００と同様の処理手順を実行する。

図１８は、フェイルオーバ制御の手順例を示すフローチャートである。
フェイルオーバ制御は、所定周期（例えば、３秒周期）で実行される。
（Ｓ１０）クラスタ制御部１２５は、現時点でクラスタに含まれている他のデータベースサーバ（例えば、データベースサーバ１００ａ，１００ｂ）を確認する。

（Ｓ１１）クラスタ制御部１２５は、データベースサーバ１００のデータベースの空き容量を算出する。空き容量には、断片的空き領域のサイズは算入されない。データベース全体の空き容量は、ブロック毎の空き容量の合計である。

（Ｓ１２）クラスタ制御部１２５は、ステップＳ１１で算出された空き容量の情報と、データベースサーバ１００の識別情報とを含むハートビートメッセージを生成する。
（Ｓ１３）通信部１２６は、ステップＳ１２で生成されたハートビートメッセージを、ステップＳ１０で確認した他のデータベースサーバに送信する。

（Ｓ１４）通信部１２６は、他のデータベースサーバからハートビートメッセージを受信することがある。受信されたハートビートメッセージがある場合、クラスタ制御部１２５は、送信元サーバの識別情報と空き容量の情報を抽出する。

（Ｓ１５）クラスタ制御部１２５は、空き容量テーブル１３４から、ステップＳ１４で抽出された識別情報に対応する空き容量を検索し、ステップＳ１４で抽出された空き容量の情報と比較して、空き容量が変化したか判断する。空き容量が変化している場合はステップＳ１６に進み、変化していない場合はステップＳ１７に進む。

（Ｓ１６）クラスタ制御部１２５は、空き容量テーブル１３４の空き容量を、ハートビートメッセージが示す空き容量に置換して、空き容量テーブル１３４を更新する。
（Ｓ１７）クラスタ制御部１２５は、ステップＳ１０で確認した他のデータベースサーバの全てからハートビートメッセージが受信されたか判断する。受信された場合はステップＳ２１に進み、受信されていない場合はステップＳ１８に進む。

（Ｓ１８）クラスタ制御部１２５は、ハートビートメッセージを送信していない他のデータベースサーバを故障と判定する。クラスタ制御部１２５は、故障したデータベースサーバ以外の正常なデータベースサーバの優先順位を繰り上げる。ここでは、正常なデータベースサーバに、データベースサーバ１００自身も含まれる。

（Ｓ１９）クラスタ制御部１２５は、優先順位の変更によって、データベースサーバ１００の優先順位が第２位以下から第１位に繰り上がったか判断する。第１位になった場合はステップＳ２０に進み、それ以外の場合はステップＳ２１に進む。

（Ｓ２０）クラスタ制御部１２５は、データベースサーバ１００の状態を、スタンバイ状態からアクティブ状態に遷移させる。アクティブ状態になると、データベースサーバ１００は、アプリケーションサーバ３３からクエリを受け付けるようになる。

図１９は、フェイルオーバ制御の手順例を示すフローチャート（続き）である。
（Ｓ２１）クラスタ制御部１２５は、空き容量テーブル１３４を参照して、正常なデータベースサーバを空き容量の小さい順にソートする。

（Ｓ２２）クラスタ制御部１２５は、空き容量が同じデータベースサーバが存在するか判断する。空き容量が同じデータベースサーバが存在する場合はステップＳ２３に進み、存在しない場合はステップＳ２４に進む。なお、クラスタ制御部１２５は、同じ空き容量をもつ他のデータベースサーバが存在しないデータベースサーバについては、空き容量が小さいほど優先順位が高くなるように、優先順位を決定する。

（Ｓ２３）クラスタ制御部１２５は、空き容量が同じデータベースサーバの間の上位下位の関係が、システム定義ファイル１３３に記載された上位下位の関係と同じになるように、空き容量が同じデータベースサーバの優先順位を確定する。

（Ｓ２４）クラスタ制御部１２５は、データベースサーバ１００の優先順位が、第２位以下から第１位に繰り上がったか判断する。第１位になった場合はステップＳ２５に進み、それ以外の場合はステップＳ２６に進む。

（Ｓ２５）クラスタ制御部１２５は、データベースサーバ１００の状態を、スタンバイ状態からアクティブ状態に遷移させる。そして、フェイルオーバ制御が終了する。
（Ｓ２６）クラスタ制御部１２５は、データベースサーバ１００の優先順位が、第１位から第２位以下に繰り下がったか判断する。第２位以下になった場合はステップＳ２７に進み、それ以外の場合はフェイルオーバ制御が終了する。

（Ｓ２７）クラスタ制御部１２５は、データベースサーバ１００の状態を、アクティブ状態からスタンバイ状態に遷移させる。
図２０は、データ再配置の手順例を示すフローチャートである。

ここでは、データベースサーバ１００ａがアクティブ状態であり、データベースサーバ１００がスタンバイ状態かつデータ再配置対象であると仮定する。
（Ｓ３０）データベースサーバ１００ａは、切り離しコマンドを受信する。

（Ｓ３１）データベースサーバ１００ａは、切り離しコマンドで指定されたデータベースサーバ１００をクラスタから除外する。ここでは、データベースサーバ１００ａは、データベースサーバ１００へのデータ同期を停止し、ハートビートメッセージによるデータベースサーバ１００の生存確認を停止する。

（Ｓ３２）データベースサーバ１００は、初期化コマンドを受信する。
（Ｓ３３）データベースサーバ１００は、データベースを初期化して、データベースサーバ１００のＲＡＭ１０２に記憶されているレコードを全て削除する。

（Ｓ３４）データベースサーバ１００ａは、組み込みコマンドを受信する。
（Ｓ３５）データベースサーバ１００ａは、組み込みコマンドで指定されたデータベースサーバ１００に対して、全てのレコードをコピーするレプリケーションを実行する。レプリケーション制御の詳細は後述する。

（Ｓ３６）データベースサーバ１００ａは、組み込みコマンドで指定されたデータベースサーバ１００をクラスタに登録する。ここでは、データベースサーバ１００ａは、ハートビートメッセージによるデータベースサーバ１００の生存確認を再開し、データベースサーバ１００へのデータ同期を再開する。

（Ｓ３７）データベースサーバ１００は、スタンバイ状態に遷移する。データベースサーバ１００ａがデータベースサーバ１００に状態遷移を指示してもよい。
（Ｓ３８）データベースサーバ１００以外のデータベースサーバをデータ再配置対象として、上記のステップＳ３０～Ｓ３７が実行される。例えば、フェイルオーバコマンドによって、アクティブ状態のデータベースサーバが入れ替わる。

図２１は、レプリケーション制御の手順例を示すフローチャートである。
レプリケーション制御は、上記のステップＳ３５に相当する。
（Ｓ４０）レプリケーション制御部１２４は、論理番号テーブル１３５を参照して、存在するレコードの論理番号を確認する。レプリケーション制御部１２４は、論理番号を列挙したレプリケーションテーブル１３６を生成し、状態を「未送信」に初期化する。

（Ｓ４１）レプリケーション制御部１２４は、レプリケーションテーブル１３６から、状態が「未送信」の論理番号を小さいほうから１つ選択する。
（Ｓ４２）レプリケーション制御部１２４は、レプリケーションテーブル１３６において、ステップＳ４１で選択した論理番号の状態を「送信中」に変更する。

（Ｓ４３）レプリケーション制御部１２４は、論理番号テーブル１３５から、ステップＳ４１で選択した論理番号に対応する物理アドレスを辿ってレコードにアクセスし、レコードのヘッダに含まれる分割フラグを確認する。

（Ｓ４４）レプリケーション制御部１２４は、ステップＳ４３で確認した分割フラグがＯＮであるか判断する。分割フラグがＯＮの場合はステップＳ４５に進み、分割フラグがＯＦＦの場合はステップＳ４６に進む。

（Ｓ４５）レプリケーション制御部１２４は、論理番号テーブル１３５の物理アドレスを辿ってヘッダを読み出す。更に、レプリケーション制御部１２４は、ヘッダに含まれる物理アドレスを辿ってボディを読み出す。レプリケーション制御部１２４は、ヘッダとボディを連結して一続きのレコードを再現する。そして、ステップＳ４７に進む。

（Ｓ４６）レプリケーション制御部１２４は、論理番号テーブル１３５の物理アドレスを辿って、一続きのレコード全体を読み出す。
（Ｓ４７）通信部１２６は、ステップＳ４５またはステップＳ４６のレコードを、クラスタに組み込まれるデータベースサーバに送信する。

（Ｓ４８）レプリケーション制御部１２４は、レプリケーションテーブル１３６において、ステップＳ４１で選択した論理番号の状態を「送信済」に変更する。
（Ｓ４９）レプリケーション制御部１２４は、レプリケーションテーブル１３６の全ての論理番号の状態が「送信済」になっているか判断する。全ての論理番号の状態が「送信済」である場合、レプリケーション制御が終了する。状態が「未送信」の論理番号が存在する場合、ステップＳ４１に戻る。

第２の実施の形態の情報処理システムによれば、複数のデータベースサーバを用いてデータベースが冗長化される。よって、データベースの耐故障性が向上する。また、レコードの再配置によって断片的空き領域が削減されて空き容量が回復する。よって、長時間無停止で稼働するオンラインシステムでも、断片化による容量不足を解消できる。また、複数のデータベースサーバに対して交代で、切り離し、初期化、レプリケーションおよび組み込みを行うことで、断片化の解消が実現される。よって、アクティブ状態のデータベースサーバによるクエリ実行の速度低下を抑制することができる。

また、複数のデータベースサーバの空き容量が監視され、アクティブ状態のデータベースサーバの空き容量が小さく、スタンバイ状態のデータベースサーバの空き容量が大きくなるよう、アクティブ状態とスタンバイ状態とが切り替えられる。よって、アクティブ状態のデータベースサーバでコミットが成功した後、スタンバイ状態のデータベースサーバの容量不足によってデータ同期が失敗するリスクを低減できる。その結果、データの冗長性を維持することができる。また、レプリケーションでは、複数のレコードが論理番号の順にソートされると共に、分割されたレコードが連結される。よって、再配置が完了したデータベースサーバではレコード検索が高速化される。

第１および第２の実施の形態を含む実施の形態に関し、更に以下の付記を開示する。
（付記１）同一データを含む複数のデータベースそれぞれに対応付けて、前記同一データを記憶する記憶領域の断片化の状況に依存する空き容量を示す空き容量情報を記憶する記憶部と、
前記空き容量情報に基づいて、前記複数のデータベースの中から、第１のデータベースを運用系のデータベースに決定し、前記第１のデータベースよりも前記空き容量が大きい第２のデータベースを待機系のデータベースに決定し、
前記運用系のデータベースの更新を前記待機系のデータベースに反映させるデータ同期を停止させ、前記待機系のデータベースが初期化された後、前記運用系のデータベースのデータを前記待機系のデータベースにコピーさせ、前記データ同期を再開させる、ことを含むデータ再配置処理を、前記第２のデータベースに対して実行し、
前記複数のデータベースの中で、前記運用系のデータベースおよび前記待機系のデータベースを変更することで、前記第２のデータベース以外のデータベースに対して前記データ再配置処理が実行されるよう制御する処理部と、
を有する情報処理装置。

（付記２）前記複数のデータベースに対応する複数のノードの間で、正常に動作していることを示すハートビートメッセージが継続的に送信されており、前記ハートビートメッセージに前記空き容量情報を挿入することで、前記空き容量が監視される、
付記１記載の情報処理装置。

（付記３）前記第１のデータベースは、前記複数のデータベースのうち前記空き容量が最も小さいデータベースであり、前記第２のデータベースは、前記複数のデータベースのうち前記空き容量が最も大きいデータベースである、
付記１記載の情報処理装置。

（付記４）前記複数のデータベースは、前記空き容量が前記第１のデータベースよりも大きく前記第２のデータベースよりも小さい第３のデータベースを更に含み、
前記処理部は、前記第３のデータベースを前記待機系のデータベースと決定することで、前記第１のデータベースよりも優先的に、前記第３のデータベースに対して前記データ再配置処理が実行されるよう制御する、
付記３記載の情報処理装置。

（付記５）前記運用系のデータベースのデータは、複数のレコードを含み、
前記データ再配置処理では、前記運用系のデータベースにおいて不連続な記憶領域に分散して記憶された前記複数のレコードが、前記待機系のデータベースにおいて連続した記憶領域に記憶されるように、前記複数のレコードがコピーされる、
付記１記載の情報処理装置。

（付記６）前記処理部は、前記第１のデータベースの前記空き容量が閾値未満になった場合に、前記第２のデータベースに対する前記データ再配置処理を開始する、
付記１記載の情報処理装置。

（付記７）同一データを含む複数のデータベースのうちの第１のデータベースが配置されており、前記複数のデータベースそれぞれに対して、前記同一データを記憶する記憶領域の断片化の状況に依存する空き容量を監視する第１の情報処理装置と、
前記複数のデータベースのうちの第２のデータベースが配置された第２の情報処理装置とを有し、
前記第２のデータベースの前記空き容量が前記第１のデータベースよりも大きい場合、前記第１の情報処理装置は、前記第１のデータベースを運用系のデータベースに決定し、前記第２のデータベースを待機系のデータベースに決定し、
前記第１の情報処理装置は、前記運用系のデータベースの更新を前記待機系のデータベースに反映させるデータ同期を停止し、前記待機系のデータベースが初期化された後、前記運用系のデータベースのデータを前記待機系のデータベースにコピーし、前記データ同期を再開する、ことを含むデータ再配置処理を前記第２のデータベースに対して実行し、
前記複数のデータベースの中で、前記運用系のデータベースおよび前記待機系のデータベースを変更することで、前記第２の情報処理装置は、前記第１のデータベースに対して前記データ再配置処理を実行する、
情報処理システム。

（付記８）前記第１の情報処理装置と前記第２の情報処理装置との間で、正常に動作していることを示すハートビートメッセージが継続的に送信されており、前記ハートビートメッセージに前記空き容量の情報を挿入することで、前記空き容量が監視される、
付記７記載の情報処理システム。

（付記９）前記第１のデータベースが、前記複数のデータベースのうち前記空き容量が最も小さいデータベースであり、前記第２のデータベースが、前記複数のデータベースのうち前記空き容量が最も大きいデータベースである場合に、前記第１の情報処理装置は、前記第２のデータベースに対して前記データ再配置処理を実行する、
付記７記載の情報処理システム。

（付記１０）前記空き容量が前記第１のデータベースよりも大きく前記第２のデータベースよりも小さい第３のデータベースが配置された第３の情報処理装置を更に有し、
前記第１の情報処理装置は、前記第２のデータベースに対する前記データ再配置処理の後、前記第１のデータベースに対する前記データ再配置処理よりも前に、前記第３のデータベースに対して前記データ再配置処理を実行する、
付記９記載の情報処理システム。

（付記１１）コンピュータに、
同一データを含む複数のデータベースそれぞれに対して、前記同一データを記憶する記憶領域の断片化の状況に依存する空き容量を監視し、
前記空き容量に基づいて、前記複数のデータベースの中から、第１のデータベースを運用系のデータベースに決定し、前記第１のデータベースよりも前記空き容量が大きい第２のデータベースを待機系のデータベースに決定し、
前記運用系のデータベースの更新を前記待機系のデータベースに反映させるデータ同期を停止させ、前記待機系のデータベースが初期化された後、前記運用系のデータベースのデータを前記待機系のデータベースにコピーさせ、前記データ同期を再開させる、ことを含むデータ再配置処理を、前記第２のデータベースに対して実行し、
前記複数のデータベースの中で、前記運用系のデータベースおよび前記待機系のデータベースを変更することで、前記第２のデータベース以外のデータベースに対して前記データ再配置処理が実行されるよう制御する、
処理を実行させるデータ再配置プログラム。

（付記１２）前記複数のデータベースに対応する複数のノードの間で、正常に動作していることを示すハートビートメッセージが継続的に送信されており、前記ハートビートメッセージに前記空き容量の情報を挿入することで、前記空き容量が監視される、
付記１１記載のデータ再配置プログラム。

（付記１３）前記第１のデータベースは、前記複数のデータベースのうち前記空き容量が最も小さいデータベースであり、前記第２のデータベースは、前記複数のデータベースのうち前記空き容量が最も大きいデータベースである、
付記１１記載のデータ再配置プログラム。

（付記１４）前記複数のデータベースは、前記空き容量が前記第１のデータベースよりも大きく前記第２のデータベースよりも小さい第３のデータベースを更に含み、
前記データ再配置処理の制御では、前記第３のデータベースを前記待機系のデータベースと決定することで、前記第１のデータベースよりも優先的に、前記第３のデータベースに対して前記データ再配置処理が実行されるよう制御する、
付記１３記載のデータ再配置プログラム。

１０情報処理装置
１１記憶部
１２処理部
１３，１４データベース
１３ａ，１４ａ空き容量情報

Claims

同一データを含む複数のデータベースそれぞれに対応付けて、前記同一データを記憶する記憶領域の断片化の状況に依存する空き容量を示す空き容量情報を記憶する記憶部と、
前記複数のデータベースのうち、前記空き容量情報が示す前記空き容量が、第１のデータベースよりも第２のデータベースの方が大きい場合に、前記第１のデータベースを運用系のデータベースに決定し、前記第２のデータベースを待機系のデータベースに決定し、
前記運用系のデータベースの更新を前記待機系のデータベースに反映させるデータ同期を停止させ、前記待機系のデータベースが初期化された後、前記運用系のデータベースのデータを前記待機系のデータベースにコピーさせ、前記データ同期を再開させる、ことを含むデータ再配置処理を、前記第２のデータベースに対して実行し、
前記複数のデータベースの中で、前記運用系のデータベースおよび前記待機系のデータベースを変更することで、前記第２のデータベース以外のデータベースに対して前記データ再配置処理が実行されるよう制御する処理部と、
を有する情報処理装置。
前記第１のデータベースは前記情報処理装置に配置され、前記第２のデータベースは他の情報処理装置に配置されており、
前記処理部は、前記他の情報処理装置から、正常に動作していることを示すメッセージであって前記第２のデータベースの前記空き容量情報が挿入されたハートビートメッセージを継続的に受信し、前記ハートビートメッセージから前記第２のデータベースの前記空き容量情報を取得する、
請求項１記載の情報処理装置。
前記第１のデータベースは、前記複数のデータベースのうち前記空き容量が最も小さいデータベースであり、前記第２のデータベースは、前記複数のデータベースのうち前記空き容量が最も大きいデータベースである、
請求項１記載の情報処理装置。
前記複数のデータベースは、前記空き容量が前記第１のデータベースよりも大きく前記第２のデータベースよりも小さい第３のデータベースを更に含み、
前記処理部は、前記第２のデータベース以外のデータベースに対して前記データ再配置処理が実行されるよう制御する際に、前記第３のデータベースを前記待機系のデータベースと決定することで、前記第１のデータベースよりも優先的に、前記第３のデータベースに対して前記データ再配置処理が実行されるよう制御する、
請求項３記載の情報処理装置。
前記運用系のデータベースのデータは、複数のレコードを含み、
前記データ再配置処理では、前記運用系のデータベースにおいて不連続な記憶領域に分散して記憶された前記複数のレコードが、前記待機系のデータベースにおいて連続した記憶領域に記憶されるように、前記複数のレコードがコピーされる、
請求項１記載の情報処理装置。
前記処理部は、前記第１のデータベースの前記空き容量が閾値未満になった場合に、前記第２のデータベースに対する前記データ再配置処理を開始する、
請求項１記載の情報処理装置。
同一データを含む複数のデータベースのうちの第１のデータベースが配置されており、前記複数のデータベースそれぞれに対して、前記同一データを記憶する記憶領域の断片化の状況に依存する空き容量を監視する第１の情報処理装置と、
前記複数のデータベースのうちの第２のデータベースが配置された第２の情報処理装置とを有し、
前記第２のデータベースの前記空き容量が前記第１のデータベースよりも大きい場合、前記第１の情報処理装置は、前記第１のデータベースを運用系のデータベースに決定し、前記第２のデータベースを待機系のデータベースに決定し、
前記第１の情報処理装置は、前記運用系のデータベースの更新を前記待機系のデータベースに反映させるデータ同期を停止し、前記待機系のデータベースが初期化された後、前記運用系のデータベースのデータを前記待機系のデータベースにコピーし、前記データ同期を再開する、ことを含むデータ再配置処理を前記第２のデータベースに対して実行し、
前記複数のデータベースの中で、前記運用系のデータベースおよび前記待機系のデータベースを変更することで、前記第２の情報処理装置は、前記第１のデータベースに対して前記データ再配置処理を実行する、
情報処理システム。
コンピュータに、
同一データを含む複数のデータベースそれぞれに対して、前記同一データを記憶する記憶領域の断片化の状況に依存する空き容量を監視し、
前記複数のデータベースのうち、前記空き容量が第１のデータベースよりも第２のデータベースの方が大きい場合に、前記第１のデータベースを運用系のデータベースに決定し、前記第２のデータベースを待機系のデータベースに決定し、
前記運用系のデータベースの更新を前記待機系のデータベースに反映させるデータ同期を停止させ、前記待機系のデータベースが初期化された後、前記運用系のデータベースのデータを前記待機系のデータベースにコピーさせ、前記データ同期を再開させる、ことを含むデータ再配置処理を、前記第２のデータベースに対して実行し、
前記複数のデータベースの中で、前記運用系のデータベースおよび前記待機系のデータベースを変更することで、前記第２のデータベース以外のデータベースに対して前記データ再配置処理が実行されるよう制御する、
処理を実行させるデータ再配置プログラム。