JP2017146848A

JP2017146848A - リバランス装置、リバランス方法、及びプログラム

Info

Publication number: JP2017146848A
Application number: JP2016029151A
Authority: JP
Inventors: 篤史外山; Atsushi Toyama
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2016-02-18
Filing date: 2016-02-18
Publication date: 2017-08-24

Abstract

【課題】分散システムにおける複数のノード間での負荷の偏りを是正するリバランスを実施する際に、ノードの負荷量を迅速に取得できるようにする。【解決手段】複数のクライアントマシンからの情報がネットワークを介して振り分けられる複数のノードを有し、各ノードに複数の仮想ノードが従属している分散システムにおいて用いられるリバランス装置において、仮想ノード毎の負荷量を保持する負荷量テーブルを有する記憶手段と、前記負荷量テーブルから取得された仮想ノード毎の負荷量に基づいて、前記複数のノード間の負荷量の偏りを抑制するリバランスを行うリバランス手段とを備える。【選択図】図５

Description

本発明は、分散システムにおいて、複数のノード間での負荷の偏りを是正する技術に関連するものである。

近年、クラウドコンピューティングの隆盛に伴い、多量なデータの処理や保持を効率的に行うことが求められている。そこで、複数のサーバを協調動作させることにより効率的な処理を実現する分散処理技術が発展している。分散処理を行う際には、クラスタを構成して分散システムを構築する各サーバ（以降、ノードともいう）が担当するデータを決定する必要がある。この際、分散システム全体でのデータの処理能力を高めるためには、各ノードが担当するデータ数は平均化されていることが望ましい。

ところで、代表的なデータの管理手法には、各データのｋｅｙ（キー）をハッシュ関数にかけた値（以降、ｈａｓｈ（ｋｅｙ）：ハッシュキーともいう）を、ノード数Ｎで割った余り、即ちｈａｓｈ（ｋｅｙ）ｍｏｄＮを番号として持つノードが、データを管理する手法がある。但し、その際、ノードに事前に０からＮ−１まで番号を割り当てている。このような管理手法を用いた場合、ノードを追加又は離脱すると、Ｎの値が変化し、多くのデータでは担当するノードが変更になるため、担当ノードの再配置が必要になる。

そこで、ノードの追加・離脱に伴い担当するノードが変更になるデータ数を約1/Nに抑える方法として、コンシステント・ハッシュ[Consistent Hashing]（非特許文献１）を用いたデータ管理手法があり、Amazon Dynamo等で用いられている（非特許文献２）。コンシステント・ハッシュ法を用いたデータ管理手法では、例えば図１５に符号５で示す円形状のＩＤ空間において、ノードＡ，Ｂ，Ｃ，Ｄ，Ｅと、○及び●印で示す負荷が異なる負荷データとの双方にＩＤ(identification)を割り当てる。データのＩＤからＩＤ空間５を時計回りに辿り、最初に突き当たったノードが当該データの担当ノードになる。ノードＡ〜Ｅに対するＩＤの与え方の例としては、ＩＰ(Internet Protocol)アドレスをハッシュ関数にかけた値｛これを、ｈａｓｈ（ＩＰアドレス）ともいう｝が挙げられる。

クラスタ構成の分散システムでは、例えば各ノードの性能が等しい場合には、各ノードＡ〜Ｅが担当するデータ量は等しい、即ち、コンシステント・ハッシュ法のＩＤ空間５における、ノード間の距離（以降、ノードの担当領域ともいう）が等しいことが望ましい。

この点を解決するため、各ノードＡ〜Ｅに仮想的に複数のＩＤを持たせる手法が用いられている（非特許文献３）。各ノードＡ〜Ｅが複数の仮想ＩＤを持つことで、仮想ＩＤ毎の担当領域は異なっていても、大数の法則に従い、ノードＡ〜Ｅの担当領域は平均化される。このようなコンシステント・ハッシュ法や仮想ＩＤ等の従来技術により、ノード間で担当するデータ数を均一化し、負荷を分散させることが可能となる。

しかしながら、各ノードＡ〜Ｅの内の特定ノードにて、アクセス頻度の多いデータや、処理時間の長いデータ（高負荷データ)が偏って発生するため、各ノードＡ〜Ｅが担当するデータ数自体は均等であっても、ノード間で負荷の偏りが発生する。

このようなコンシステント・ハッシュ法の分散システムにおける負荷増大に対する対策としては、分散システムに、例えば図１５に示す新たなノードＦを増設して分散システムをスケールアウトさせ、高負荷となったノード（高負荷ノード）、例えば高負荷ノードＤが担当するデータ数を縮小させて負荷を低減する手法がとられている。

また、ノードのコンシステント・ハッシュ上での空間配置変更（これを、リバランスという）を行い適切に負荷が分散されていれば、増設を行うことなく現行のノード台数で対処可能なケースもある。非特許文献４には、スケールアウト／リバランスで対処すべき状況を識別し、更に、リバランスで対処すべき状況においては、コンシステント・ハッシュ空間（ＩＤ空間５）上の隣接ノード間（例えばＥであれば、２つの矢印で示す隣のＡ又はＤ）でリバランスを実行して、ノード間の負荷の偏りを是正する手法が提案されている。また、リバランスについて、非特許文献４以外にも、種々の技術が検討されている。

David Karger(著), "Consistent Hashing and Random Trees: Distributed Caching Protocols for Relieving Hot Spots on the World Wide Web" Giuseppe DeCandia (著), "Dynamo: Amazon's Highly Available Key-value Store" 入江道生他，"コンシステント・ハッシュ法におけるデータの複製を意識した負荷分散手法"，信学技報，IEICE Technical Report，IN2010-77（2010-10）鶴田泰他，「分散サーバシステムにおけるノード負荷分散最適化方式」，電子情報通信学会総合大会講演論文集，Mar．2014，B-7-84

ところで、リバランスは、負荷の偏りを是正するものであるから、リバランスを行うためには、仮想ノード毎の負荷量を算出することが必要である。ここで、従来技術では、仮想ノード（物理ノードでもよい）の属性を、（ＩＤ値, 属性,仮想ノードＩＤ）の３つのパラメータのみで表し、データの属性を、（ＩＤ値, 属性, データの持つ負荷量）の３つのパラメータのみで表している。

例えば、図１６（ａ）に示すＩＤ空間において、４で示される仮想ノードは、（ＩＤ値（id）：１５８１３, 属性（type）：仮想ノード,仮想ノードＩＤ（vnodeId）：４））で表わされ、その隣のデータは、（ＩＤ値：８０９, 属性：負荷, 負荷量（weight）：５．３８）で表わされている。この負荷量は、例えば当該データの処理時間、当該データに対するアクセス頻度等であり、当該データを担当する物理ノードにおいて測定される量である。

上記のような情報の持ち方の場合においては、リバランスを行う際に、仮想ノードの負荷量を必要とする度に、仮想ノードに応じた負荷量計算が必要となる。例えば、図１６（ａ）の例では、４で示される仮想ノードの負荷量が必要な場合、図１６（ｂ）に示すように、当該仮想ノードが担当する各データの負荷量を加算する計算を行わなければならない。このように、仮想ノードの負荷量を、それが必要となる都度計算することは処理速度の低下に繋がり、好ましくない。

本発明は上記の点に鑑みてなされたものであって、分散システムにおける複数のノード間での負荷の偏りを是正するリバランスを実施する際に、ノードの負荷量を迅速に取得できるようにする技術を提供することを目的とする。

本発明の実施形態によれば、複数のクライアントマシンからの情報がネットワークを介して振り分けられる複数のノードを有し、各ノードに複数の仮想ノードが従属している分散システムにおいて用いられるリバランス装置であって、
仮想ノード毎の負荷量を保持する負荷量テーブルを有する記憶手段と、
前記負荷量テーブルから取得された仮想ノード毎の負荷量に基づいて、前記複数のノード間の負荷量の偏りを抑制するリバランスを行うリバランス手段と
を備えることを特徴とするリバランス装置が提供される。

また、本発明の実施形態によれば、複数のクライアントマシンからの情報がネットワークを介して振り分けられる複数のノードを有し、各ノードに複数の仮想ノードが従属している分散システムにおいて用いられるリバランス装置が実行するリバランス方法であって、
前記リバランス装置は、仮想ノード毎の負荷量を保持する負荷量テーブルを有する記憶手段を備え、
前記負荷量テーブルから取得された仮想ノード毎の負荷量に基づいて、前記複数のノード間の負荷量の偏りを抑制するリバランスを行うリバランスステップ
を備えることを特徴とするリバランス方法が提供される。

本発明の実施形態によれば、分散システムにおける複数のノード間での負荷の偏りを是正するリバランスを実施する際に、ノードの負荷量を迅速に取得できるようになる。

本発明の第１実施形態に係る分散システムの構成を示すブロック図である。本実施形態の分散システムにおけるノードの構成を示し、（ａ）は制御部の構成を示すブロック図、（ｂ）は記憶部の情報を示すブロック図である。複数のノードＡ〜Ｅで分割されたハッシュ空間を示す図である。（ａ）ノード識別子管理表の一例を示す図、（ｂ）振分ＩＤ表の一例を示す図である。本実施の形態におけるデータの持ち方を説明するための図である。各テーブルを具体的に説明するための図である。分散システム負荷集計データの一例を示す図である。（ａ）リバランス前の振分ＩＤ表の一例を示す図、（ｂ）リバランス後の振分ＩＤ表の一例を示す図、（ｃ）リバランス後の振分ＩＤ表の他例を示す図である。ノードの複数の仮想ノード及びその担当領域（担当ハッシュ空間）を示す図である。図９に示す各仮想ノードの担当領域における各種負荷データによる負荷量の一覧表を示す図である。各ノードＡ〜Ｃが保持する負荷量の偏差を表す棒グラフである。本実施形態の分散システムの各ノードのリバランスを実行する際の動作を説明するための第１のフローチャートである。本実施形態の分散システムの各ノードのリバランスを実行する際の動作を説明するための第２のフローチャートである。（ａ）リバランス前の振分ＩＤ表の一例を示す図、（ｂ）リバランス後の振分ＩＤ表の一例を示す図である。従来技術を説明するためのハッシュ空間を示す図である。課題を説明するための図である。

以下、図面を参照して本発明の実施形態（本実施形態）を説明する。なお、以下で説明する実施形態は一例に過ぎず、本発明が適用される実施形態は、以下の実施形態に限られるわけではない。

例えば、以下で説明する例では、クラスタを構成するノード自身が、テーブル保持、リバランス実行判定、リバランス設計、リバランス実行（振分ＩＤ表の配付）等を行うこととしているが、テーブル保持、リバランス実行判定、リバランス設計、リバランス実行等を、クラスタを構成するノード以外の装置が実行してもよい。この場合、当該装置が各ノードの負荷情報を収集し、テーブル保持、リバランス実行判定、リバランス設計、振分ＩＤ表の配付等を行う。

なお、テーブル保持、リバランス実行判定、リバランス設計、リバランス実行等を行う主体が、ノード自身の場合、ノード以外の装置の場合のいずれの場合も、当該主体をリバランス装置と称することができる。

また、以下で説明するリバランスの方法は一例である。本発明に係るＩＤ空間情報の持ち方は、以下で説明するリバランスの方法に限らず、他のリバランスの方法にも適用可能である。

ただし、以下で説明するリバランスの方法は、非特許文献４のように隣接ノード間での空間配置変更に限定されず、効率的に負荷の偏りを是正できる優れたリバランスの方法である。

＜第１実施形態＞
（システムの全体構成、ノードの構成）
図１は、本発明の第１実施形態に係る分散システムの構成例を示すブロック図である。

図１に示す分散システム１０は、コンシステント・ハッシュ法を用いた複数のノード１５を利用し、データ管理を行うシステムである。当該分散システム１０では、分散システム１０を構成するノード１５間で負荷の偏りが生じた際に、現行ノード１５の負荷の偏り状況を踏まえて、効率的にリバランスを行い負荷の偏りを是正する。

分散システム１０は、複数のクライアントマシン（単に、クライアントともいう）１１にインターネット等のネットワーク１２を介して接続されたロードバランサ１３と、クラスタ１４を構成する複数のノード１５とを備えて構成されている。

各ノード１５は、コンピュータ等の物理装置や仮想マシン等の論理装置、言い換えれば、物理的又は仮想的なサーバ等である。クライアント１１からのメッセージが、ロードバランサ１３によって各ノード１５に振り分けられる。この振り分けは、単純なラウンドロビン法等により行われる。なお、物理的又は仮想的なサーバ等である各ノード１５を、「物理ノード」と称してもよい。

各ノード１５、リバランス装置は、制御部１８及び記憶部１９を備えて構成されている。但し、制御部１８及び記憶部１９は、ソフトウェア（プログラム）が上記装置（コンピュータ、仮想マシン）によって実行されることにより実現されている。当該プログラムは、ネットワークを介して配信してもよいし、メモリ等の記憶媒体に記憶して配付してもよい。なお、制御部１８及び記憶部１９は、それぞれハードウェア（例：処理ロジックを組み込んだ集積回路）によって構成してもよい。

図２（ａ）に示すように、制御部１８は、ノード識別子管理部１８ａと、振分部１８ｂと、信号処理部１８ｃと、ノード負荷計測部１８ｄと、分散システム負荷リバランス部（単に、リバランス部ともいう）１８ｅと、テーブル生成部１８ｆと、情報アクセス部１８ｇとを備える。

図２（ｂ）に示すように、記憶部１９は、ノード識別子管理表１９ａと、振分ＩＤ表１９ｂと、データ１９ｃと、ノード負荷計測データ１９ｄと、分散システム負荷集計データ１９ｅと、呼制御状態フラグ１９ｆと、テーブルストア１９ｇとを記憶する。なお、ノード識別子管理表１９ａを管理表１９ａともいい、分散システム負荷集計データ１９ｅを集計データ１９ｅ、呼制御状態フラグ１９ｆをフラグ１９ｆともいう。

振分部１８ｂは、クライアント１１からのメッセージを、例えばコンシステント・ハッシュ法等に基づき、メッセージを担当するノード１５に振り分ける。

信号処理部１８ｃは、クライアント１１からのメッセージに応じて、所定の信号処理を行い、クライアント１１にサービスを提供する。つまり、メッセージを担当するノード１５では、信号処理部１８ｃにて所定の信号処理を行ってクライアント１１にサービスを提供する。この振分部１８ｂ及び信号処理部１８ｃの処理動作については後述で更に詳細に説明する。

但し、分散システム１０においては、ロードバランサ１３が存在せず、クライアント１１から任意のノード１５（振分部１８ｂ）にメッセージを送信することも可能である。また、振分部１８ｂと信号処理部１８ｃは、図２のように同じノード１５上に同時に存在させてもよいし、別ノード１５上に存在させてもよい。

制御部１８において、ノード識別子管理部１８ａ（あるいはリバランス部１８ｅ）は、分散システム１０上のノード情報をノード識別子管理表１９ａに蓄積することにより、各ノード１５が担当するＩＤ空間を管理する。このＩＤ空間は、コンシステント・ハッシュ法ではコンシステント・ハッシュ上の空間（ハッシュ空間）である。

このハッシュ空間を、例えば図３に示すように、複数のノードＡ〜Ｅで分割し、各ノードＡ〜Ｅの担当領域を決めて管理する。この際、ノードＡが担当するハッシュ空間は、ノードＥから時計回りにノードＡまでの領域であり、このハッシュ空間に存在するデータを担当ノードＡが保持（もしくは処理）する。他のノードＢ〜Ｅも同様である。なお、ハッシュ空間（担当領域）のサイズが大きい程に、多くのデータを保持（処理）できるようになっている。

図２（ａ）に戻って、振分部１８ｂは、振分ＩＤ表１９ｂに基づき、メッセージ等のデータの振分先の決定に関する処理を行う。

信号処理部１８ｃは、ノード１５における信号処理を行う。この信号処理時のアクセス対象となるデータ１９ｃが記憶部１９に記憶される。

ノード負荷計測部１８ｄは、自ノード１５の負荷を計測し、この計測結果を記憶部１９にノード負荷計測データ１９ｄとして記録すると共に、必要に応じて定められる特権ノード１５（図３に示す例えばノードＢ）に送付する。特権ノード１５は、各ノード１５から収集したノード負荷計測データを記憶する。また、特権ノード１５は、各ノード１５から収集したノード負荷計測データと、自ノードのノード負荷計測データを他の各ノード１５に配付してもよい。

分散システム負荷リバランス部１８ｅは、分散システム１０全体のノード負荷に基づいて、負荷の平均値及び標準偏差等の算出を行い、これらの算出結果である分散システム負荷集計データ１９ｅを記憶部１９に記憶する。更に、リバランス部１８ｅは、その記憶された集計データ１９ｅに基づくリバランスの実行判定、並びにリバランス設計を行って、リバランスを実行する。

また、記憶部１９に記憶される呼制御状態フラグ１９ｆは、新規呼を制御する状態か否かを判別するための情報である。

テーブル生成部１８ｆは、物理ノード毎の仮想ノードＩＤテーブル、スロット負荷量リスト、物理ノード毎のインデックステーブル、物理ノード毎のカウンタを生成し、これらをテーブルストア（テーブル格納領域）１９ｇに格納する。情報アクセス部１８ｇは、物理ノードＩＤを指定した他機能部からの要求に基づいて、テーブル生成部１８ｆにより生成された物理ノード毎の仮想ノードＩＤテーブル、物理ノード毎のインデックステーブル、物理ノード毎のカウンタを利用して、スロット負荷量リストに保持されている負荷量を取得して、他機能部に渡す。

テーブル生成部１８ｆ、データアクセス部１８ｇ、テーブルストアに格納される各テーブルの詳細については後述する。

（振分部１８ｂ及び信号処理部１８ｃにおける処理について）
ここで、前述した図２に示すノード１５の振分部１８ｂ及び信号処理部１８ｃによるメッセージの振分処理及び信号処理について更に詳細に説明する。

振分部１８ｂは、クライアント１１から発呼されるメッセージ内の情報をもとに、信号処理を担当するノード１５を特定し、当該ノード１５にメッセージの振り分けを行う。メッセージは、新規呼（例えば、ＳＩＰ(Session Initiation Protocol)においてはＩｎｉｔｉａｌ−ＩＮＶＩＴＥ等）と後続呼（ＳＩＰにおいてはＢＹＥ等）に分けられる。

新規呼か後続呼かの識別は、呼のメッセージに後述の振分キーが埋め込まれているか否かで判定できる。例えば、ＳＩＰにおいては、Ｔｏ／ＦｒｏｍヘッダのＴａｇ等で判定できる。

振分キーは、"データ識別子（ＳＩＰにおいてはｃａｌｌ−ｉｄ）＋ハッシュ値"で構成されている。ハッシュ値は、データ識別子からハッシュ関数をかけて導出された値である。

一方、上述した新規呼か後続呼かの識別の判定の結果、後続呼の場合、振分部１８ｂにて、振分ＩＤ表１９ｂ上のノード１５毎の担当領域である振分ＩＤ空間{図４（ｂ）に示し後述する}と、振分キー内のハッシュ値とを比較して担当するノード１５を特定する。更に、担当するノード１５のアドレスを、後述の図４（ａ）に示すノード識別子管理表１９ａから特定し、この特定されたノード１５に転送する。

一方、上述した判定の結果、新規呼の場合、振分キーが存在しないため、メッセージからＣａｌｌ−ｉｄ（データ識別子）を抽出し、これをハッシュ関数に導入してハッシュ値を導出する。更に、振分部１８ｂにて、振分ＩＤ表１９ｂ上のノード１５毎の担当領域である振分ＩＤ空間{図４（ｂ）に示し後述する}と、導出したハッシュ値とを比較して担当するノード１５を特定する。更に、担当するノード１５のアドレスを、後述の図４（ａ）に示すノード識別子管理表１９ａから特定し、この特定されたノード１５に転送する。

新規呼を信号処理部１８ｃで受信した場合も、メッセージからＣａｌｌ−ｉｄ（データ識別子）を抽出し、これをハッシュ関数に導入してハッシュ値を導出して、振分キーを生成する。また、信号処理部１８ｃによる信号処理後に、クライアント１１（ＳＩＰにおいてはＵＡＣやＵＡＳ等）に送付するメッセージに振分キーを埋め込んで（ＳＩＰにおいてはＴｏ／ＦｒｏｍヘッダのＴａｇ）送付する。

以降、クライアント１１からの後続呼には本振分キーを埋め込みの上、メッセージを送付し、振分部１８ｂにて本振分キーのハッシュ値を基に振り分けが行われることで、当該呼が処理されたノード１５に後続呼が届くことが可能となる。

上記のメッセージは、本実施の形態において各ノード１５が処理の対象とする「データ」の例である。また、同じデータ識別子（同じＩＤ空間上の位置）のデータ（メッセージ）を処理する頻度は、当該データの負荷量に相当する。

（ノード識別子管理部１８ａについて）
次に、上述したノード識別子管理部１８ａについて、より詳細に説明する。

ノード識別子管理部１８ａは、分散システム１０へのノード１５の追加や離脱が発生した際に、分散システム１０を構成するノード１５の識別子情報（ノード識別子）を更新し、これを、図４（ａ）に示すノード識別子管理表１９ａとして管理する。図４（ａ）の例においては、ノード識別子（又はノードＩＤ）（例えば、「Ｎｏｄｅ１」）に、アドレス（例えば、「１０．４５．０．１」）が対応付けられている。そのノード識別子は、特権ノードのノード識別子管理部１８ａで付与され、全ノード１５へと配信される。

コンシステント・ハッシュ法においては、ノード識別子に、図４（ｂ）に示す仮想ノード識別子（又は仮想ノードＩＤ）が従属している。この仮想ノードＩＤは、振分ＩＤ空間上のＩＤ（ハッシュ値による）である。例えば図４（ａ）に示すノード識別子「Ｎｏｄｅ１」には、図４（ｂ）の振分ＩＤ表１９ｂに示す少なくとも１つ以上の仮想ノードＩＤ「Ｎｏｄｅ１−１」，「Ｎｏｄｅ１−２」が従属している。言い換えれば、ノード１５に１つ以上の仮想ノードが従属している。但し、これは基本構成であって、ノード１５に仮想ノードが従属しない場合もある。

このように、ノード識別子管理部１８ａは、前述のノード識別子管理表１９ａの更新と合わせて、ノード１５が担当する振分ＩＤ空間の担当領域を更新し、これを振分ＩＤ表１９ｂとして管理する。振分ＩＤ表１９ｂには、例えば、仮想ノードＩＤ「Ｎｏｄｅ１−１」に、担当する振分ＩＤ空間の担当領域として「０〜１９９（Ｄ＝２００）」のデータサイズが対応付けられ、仮想ノードＩＤ「Ｎｏｄｅ１−２」に、担当する振分ＩＤ空間の担当領域として「６００〜９９９（Ｄ＝４００）」のデータサイズが対応付けられている。即ち、Ｄ＝２００は、担当領域のサイズが２００であることを示す。他のＤ＝４００等も同じである。また、振分ＩＤ表１９ｂは各ノード１５が生成してもよいし、特定のノード（特権ノード）が生成して、各ノードに配付することとしてもよい。

（ＩＤ空間の情報の持ち方について：テーブルストア１９ｇ、テーブル生成部１８ｆ、情報アクセス部１８ｇ）
次に、本実施の形態における情報の持ち方について説明する。前述したように、従来技術では、負荷量をデータの属性としてしか持たなかったことから、後述するリバランスのを行う際に、仮想ノード毎の負荷量の計算に時間がかかった。本実施の形態では、以下で説明するようなテーブル構造で負荷量等の情報を持たせることとしたので、仮想ノード毎の負荷量を高速に取得することを可能としている。

図５は、本実施の形態における情報の持ち方を説明するための図である。図５において、物理ノードＩＤ、仮想ノードＩＤ等のＩＤは、物理ノード、仮想ノードの識別番号であり、ＩＤ空間上の位置を示すものではない。なお、「物理ノード」は、これまでに説明したノード１５に相当する。

スロットとは、ＩＤ空間上における仮想ノード間の領域であり、図４（ｂ）で説明した各仮想ノードの担当領域に相当する。スロットＩＤは、スロットの識別番号である。

テーブルストア１９ｇには、図５に示すように、物理ノード（pid）毎のカウンタ(vCounter)、物理ノード毎のインデックステーブル(randomIndexTable)、物理ノード毎の仮想ノードＩＤテーブル(vidTable)、スロット負荷量リスト(slotWeightList)が格納される。

物理ノード毎のカウンタは、全物理ノードについての物理ノード毎に、物理ノードに対応する仮想ノードの数をカウントする機能（プログラム等）である。当該カウンタは、仮想ノード数をｎとした場合に、０からｎ−１までの値のリストであってもよい。

物理ノード毎のインデックステーブルは、物理ノード毎に、カウンタ値に対応する仮想ノードＩＤを格納するテーブルであり、より具体的なイメージを図６（ａ）に示す。図６（ａ）の例では、物理ノードＩＤ＝「ノードＡ」の情報が示されている。

物理ノード毎の仮想ノードＩＤテーブルは、物理ノード毎に、仮想ノードＩＤに対応するスロットＩＤを格納するテーブルであり、より具体的なイメージを図６（ｂ）に示す。図６（ｂ）の例では、物理ノードＩＤ＝「ノードＡ」の情報が示されている。

スロット負荷量リストは、スロット毎に、対応する物理ノードＩＤ、スロットの先頭番地（ＩＤ空間におけるｉｄ）、及び負荷量を格納するテーブルであり、より具体的なイメージを図６（ｃ）に示す。

上記の各テーブルは、各ノード１５が生成してもよいし、特権ノードが生成して、各ノード１５に配付することとしてもよい。

上記の各テーブルは、テーブル生成部１８ｆが生成する。一例として、テーブル生成部１８ｆは、ノード識別子管理部１８ａから、物理ノード毎の仮想ノード数、各仮想ノードＩＤ、担当領域（スロット）等の情報を取得し、上記の各テーブルを作成する。

スロット負荷量リストにおける負荷値については、例えば、ノード負荷計測部１８ｄが、自ノードで担当するデータの負荷量（例：データの処理時間、データのアクセス頻度等）を測定するとともに、他の各ノードから、それぞれ担当する各データの負荷量を収集し、これらの負荷量をノード負荷計測データとして記憶部１９に記憶する。

そして、テーブル生成部１８ｆが、データの識別子（ＩＤ空間上の位置）に基づき、データ毎のスロットを判断し、各スロットに含まれる各データの負荷量を合計することで、スロット毎の負荷量を算出し、スロット負荷量リストに記録する。

上記の負荷量の収集、テーブルへの記録は、リバランスとは独立して周期的に行われる。これにより、図５に示すテーブルとその格納情報が常に新しい状態で維持される。

上述した各テーブルがテーブルストア１９ｇに格納されることで、例えば、仮想ノード毎、物理ノード毎の負荷量を高速に取得することができる。ある機能部が、仮想ノードあるいは物理ノードの負荷量を使用する場合には、情報アクセス部１８ｇが使用される。一例として、リバランス部１８ｅが、仮想ノード毎、物理ノード毎の負荷量を取得する場合の動作を説明する。

リバランス部１８ｅは、負荷量を取得する対象の物理ノードのＩＤ（ここでは「物理ノードＡ」とする）を情報アクセス部１８ｇに対して指定する。情報アクセス部１８ｇは、テーブルストア１９ｇを参照し、当該物理ノードＡのカウンタ（０〜ｎ−１）を使用して、まず、物理ノード毎のインデックステーブルを参照して、物理ノードＡの０番の仮想ノードＩＤ（ここでは、「仮想ノード０」とする）を取得する。そして、情報アクセス部１８ｇは、物理ノード毎の仮想ノードＩＤテーブルを参照し、物理ノードＡの仮想ノード０に対応するスロットＩＤを取得し、スロット負荷量リストを参照して、当該スロットにおける負荷量を取得する。

上記の処理をカウンタの値１〜ｎ−１のそれぞれについても同様に行うことで、情報アクセス部１８ｇは、物理ノードＡの各仮想ノードの負荷量を取得し、これらをリバランス部１８ｅに渡す。リバランス部１８ｅは、各仮想ノードの負荷量から、後述する種々の値を計算する。例えば、物理ノードＡの全仮想ノードに負荷量の合計を物理ノードＡの負荷量として求めることができる。

（ノード負荷計測部１８ｄの処理について）
ノード負荷計測部１８ｄは、所定の周期で当該ノード１５（自ノード）の負荷を計測し、これをノード負荷計測データ１９ｄとして記憶部１９に記録して蓄積する。また、ノード負荷計測部１８ｄは、所定の周期で特権ノード（例えば図３に示すノードＢ）に、蓄積したノード負荷計測データ１９ｄを送付する。

また、特権ノードは、各ノード１５から収集した全ノードの負荷データを、全ノード１５へ配信する。各ノード１５は、この負荷データをノード負荷計測データ１９ｄとして記憶部１９に記録することができる。

上述したノード負荷計測部１８ｄにおいて所定周期で計測されるノード１５の負荷として、ＣＰＵ(Central Processing Unit)使用率、メモリ使用率、アクセス頻度等の、ノード１５にて取得可能なあらゆるパラメータを使用することができる。本実施形態では、アクセス頻度を例にとって説明を行っている。

（分散システム負荷リバランス部１８ｅによるリバランスの処理について）
次に、上述した分散システム負荷リバランス部１８ｅによるノード１５の負荷の偏り算出及びリバランス実行の処理について説明する。以下で説明する分散システム負荷リバランス部１８ｅにおけるリバランス実行判断、リバランス設計、実行（振分ＩＤ表配付）の処理は、どのノード１５が行ってもよいが、ここでは、特権ノードが行うことを想定している。

リバランス部１８ｅは、テーブルストア１９ｇに格納されているテーブルの情報に基づき、分散システム１０全体のノード１５の負荷の平均値及び標準偏差、偏差並びに偏差／標準偏差（偏差を標準偏差で除した値）の算出を行う。更に、リバランス部１８ｅは、それらの算出結果を、図７に一例を示すように集計データ１９ｅとして記録し、この記録した集計データ１９ｅに基づき、後述の３つの条件（１）〜（３）の何れか１つを満たす場合、ノード１５間の負荷の偏りを是正するリバランスが必要であると判定する。何れも満たさない場合はリバランスを実行しない。

図７に示す集計データ１９ｅには、収集（集計時）の時刻、ノードＩＤ（ノード識別子）、平均値（アクセス頻度）、標準偏差、実測値（アクセス頻度）、偏差（平均値からの差分）、及び偏差／標準偏差が記録される。なお、平均値及び実測値は、アクセス頻度の平均値及び実測値である。前述したように、図７に示すノード（物理ノード）毎の集計データは以下のようにして取得できる。

リバランス部１８ｅは、情報アクセス部１８ｇに対して各ノードＩＤを指定して、ノード毎に、全仮想ノードの負荷量（アクセス頻度）を取得して、合計を算出することで、ノード毎の実測値を取得する。これを基に、平均値等を計算する。

条件（１）、リバランス部１８ｅは、集計データ１９ｅに基づき、いずれかのノード１５の負荷が、当該ノード１５が許容する負荷の上限値（予め定められた上限値）を超えていないか否かをチェックし、上限値を超えるノードが存在する場合に、リバランスを実行する。

条件（２）、リバランス部１８ｅは、集計データ１９ｅに基づき、ノード１５全体の負荷の標準偏差が所定の閾値（第１閾値）以下であるか否かを確認し、閾値を超えている場合に、リバランスを実行する。

条件（３）、リバランス部１８ｅは、集計データ１９ｅに基づき、ノード１５毎の負荷の偏差／標準偏差が所定の閾値（第２閾値）以下であるか否かを確認し、閾値を超えているノード１５がある場合に、リバランスを実行する。

但し、図７に示す集計データ１９ｅは、各ノード１５が許容する負荷の上限値をアクセス頻度の実測値についての上限値として、これを「９０」｛条件（１）｝とし、標準偏差の閾値を「１５」｛条件（２）｝、偏差／標準偏差の閾値（乖離閾値ともいう）を「１．２」｛条件（３）｝とした際の例である。

この例では、条件（１）、（２）は満たさない。しかし、図７ではノード識別子の「Ｎｏｄｅ１」、「Ｎｏｄｅ３」、「Ｎｏｄｅ４」の偏差／標準偏差が「１．５」であり、閾値「１．２」を超えており、条件（３）を満たしているため、リバランスが実行される。

（分散システム負荷リバランス部１８ｅによるリバランスの設計、及び実行処理について）
リバランス部１８ｅが実行するリバランスの設計、及び実行処理について説明する。

リバランスでは、負荷の高いノード１５の担当領域（担当のＩＤ空間）中の移譲領域（後述）を、負荷の低いノード１５へ移譲することで負荷の偏りを是正する。この時、負荷の乖離を是正するために、担当領域の必要な移譲領域のサイズを推定の上、その移譲領域のみを移譲する。但し、移譲領域は、担当領域の全てであったり、担当領域の１００％未満の割合の領域であったりする。

本実施の形態において、この移譲の方法は、次の（Ｔ１）〜（Ｔ４）のようになる。

（Ｔ１）全てのノード１５の中で最も負荷の高いノード１５の担当領域中の移譲領域を、最も低いノード１５に対して移譲していくものとする。

（Ｔ２）移譲領域の移譲は次の場合に終了するものとする。即ち、上記の条件（１）〜（３）の何れかを満たす要因となった偏差の全てが存在しなくなった場合（Ｔ２−１）、若しくは、その偏差の一部（予め指定の偏差解消割合を満たす偏差）を解消する移譲領域の移譲が決定した場合（Ｔ２−２）、若しくは、移譲領域の移譲を許容可能な移譲先ノード１５が存在しなくなった場合（Ｔ２−３）に終了するものとする。

（Ｔ３）移譲領域の移譲単位は、ノード単位や仮想ノード単位でも構わないし、仮想ノード単位でなく、仮想ノードの担当領域の半分を割譲する単位や、１つのハッシュ値によるデータのみの移譲単位でも構わない。

（Ｔ４）リバランス部１８ｅがリバランスを行う際に事前に実行するリバランス設計は、ノード単位で行ってもよいし、仮想ノード単位で行ってもよいし、データ単位で行ってもよい。どの単位で実行するかで、可能なリバランス設計の粒度が、次に記載するように変わる。なお、ノード単位の負荷量、仮想ノード単位の負荷量は、テーブルストア１９ｇのテーブルから取得／算出できる。また、データ単位の負荷量は、ノード負荷計測部１８ｄにより格納されるデータ毎の負荷量から得ることができる。

即ち、ノード単位の場合、後述のリバランス粒度が粗い場合のみの方式となる。

仮想ノード単位の負荷計測の場合、後述のリバランス粒度が粗い場合及びリバランス粒度が中間（粗いと細かいとの中間）の場合の方式が可能となる。

データ単位の負荷計測の場合、後述のリバランス粒度が粗い場合、中間の場合及び細かい場合の３つ全ての方式が採用可能となる。

まず、リバランス粒度が粗い場合について説明する。

ノード１５全体における負荷の総量を、ノード１５全ての仮想ノードＩＤ数で割った仮想ノード当たりの平均負荷量「Ｌｖ＿ａｖｅ」を算出する。次に、ノード１５間において最も負荷の高いノード１５に着目し、このノード１５について解消すべき負荷量の偏差（この偏差の符号は＋であることから、プラス偏差ともいう）「Ｌｔａｒｇｅｔ」を算出する。この偏差は、例えば、当該ノード１５について、図７で示されているプラスの偏差（実測値の平均値との差分）である。

次に、「Ｌｔａｒｇｅｔ」を「Ｌｖ＿ａｖｅ」で割った値を、解消すべき負荷量を解消するために必要な仮想ノードＩＤ数「Ｖｔａｒｇｅｔ＿ｎｕｍ」と考える。

この最も負荷の高いノード１５の仮想ノードの中から無作為に「Ｖｔａｒｇｅｔ＿ｎｕｍ」の仮想ノードＩＤを抽出する。この時、「Ｖｔａｒｇｅｔ＿ｎｕｍ」に小数が含まれる場合は、上記（Ｔ３）にその概要を記載したように、所定の仮想ノードＩＤの仮想ノードの担当領域を例えば小数に基づき割譲してもよい。これは、例えば「１．５」の場合、仮想ノード１つの担当領域の割譲と、仮想ノード２つ目の担当領域を半分にして割譲することである。更に、小数部分を切り捨てや切り上げ、又は四捨五入する等して整数個の仮想ノードＩＤを抽出してもよい。

上述したように、無作為に抽出された仮想ノードＩＤ「Ｖｔａｒｇｅｔ＿ｎｕｍ」の仮想ノードの担当領域中の移譲領域を移譲する際に、全てのノード１５の中で、最も負荷の低いノード１５から順に移譲していく。この際、移譲によって移譲先のノード１５の負荷が高まりすぎないように、許容可能な担当領域の移譲サイズを求める必要がある。

具体的には、移譲先のノード１５は、負荷量の偏差（この偏差の符号は−であることから、マイナス偏差ともいう）までは受け入れ許容可能である。このため、負荷量のマイナス偏差を平均負荷量「Ｌｖ＿ａｖｅ」で割った値である負荷量解消に必要な仮想ノードＩＤ数「Ｖｇｅｔ＿ｎｕｍ１」が、許容可能な仮想ノードＩＤ数となる。

ここで、移譲先のノード１５の担当領域が許容量を越える場合は、次に負荷の低いノード１５について、同様の手順で許容可能な仮想ノードＩＤ数「Ｖｇｅｔ＿ｎｕｍ２」を求めていき、Ｖｔａｒｇｅｔ＿ｎｕｍ＜Ｖｇｅｔ＿ｎｕｍ１＋Ｖｇｅｔ＿ｎｕｍ２＋…となって、全ての必要な担当領域中の移譲領域の移譲が完了すれば終了となる。

以降同様の処理を、次に負荷の高いノードに対しても実行し、全ての負荷乖離の解消が必要なノード１５において、負荷の乖離を是正する担当領域中の移譲領域の移譲が完了するか、若しくは、移譲領域の移譲が可能なノードが存在しなくなるまで実行する。

次に、リバランス粒度が中間の場合について説明する。

基本的に上述したリバランス粒度が粗い場合と同じであるため、粗い場合との差分のみを説明する。

上述したように、移譲元のノード１５の仮想ノードの中から無作為に仮想ノードを抽出するのではなく、解消すべき負荷量のプラス偏差を発生させている仮想ノードを選択的に抽出し、この抽出した仮想ノードの担当領域中の移譲領域を移譲するものとする。

次に、リバランス粒度が細かい場合について説明する。

上述したように、移譲元のノード１５の仮想ノードの中から無作為に仮想ノードを抽出するのではなく、解消すべき負荷量のプラス偏差を発生させているデータのハッシュ値を選択的に抽出し、そのハッシュ値のみを移譲するものとする。この場合、データ単位で負荷量を扱っているため、計算負荷はリバランス粒度が中間の場合よりも高くなるが、負荷の乖離を是正するための移譲領域の移譲を、より正確に行うことが可能となる。また、移譲の単位も最小化することができる。

リバランス部１８ｅは、リバランスの実行を行うことを決定した後は、負荷の偏りを是正するリバランス設計を、上述した手順で実行し、振分ＩＤ表１９ｂに反映し、全ノード１５に送付する。

例えば、図８（ａ）に示すように、リバランス前の振分ＩＤ表１９ｂは、仮想ノードＩＤ「Ｎｏｄｅ１−１」に、担当する振分ＩＤ空間の担当領域として「０〜１９９（Ｄ＝２００）」のデータサイズが対応付けられ、「Ｎｏｄｅ２−１」に「２００〜３９９（Ｄ＝２００）」、「Ｎｏｄｅ３−１」に「４００〜５９９（Ｄ＝２００）」、「Ｎｏｄｅ１−２」に「６００〜９９９（Ｄ＝４００）」のデータサイズが対応付けられているとする。

ここで、例えば図８（ａ）に示す「Ｎｏｄｅ１−２」の仮想ノードの担当領域「６００〜９９９（Ｄ＝４００）」を全て、他の仮想ノードＩＤ「Ｎｏｄｅ３＿２」の仮想ノードへ移譲するものとする。この場合、図８（ｂ）に示すように、仮想ノードＩＤ「Ｎｏｄｅ３＿２」の仮想ノードの担当領域が「６００〜９９９（Ｄ＝４００）」のサイズとなる。

また、図８（ａ）に示す「Ｎｏｄｅ１−２」の仮想ノードの担当領域「６００〜９９９（Ｄ＝４００）」の半分を、他の仮想ノードＩＤ「Ｎｏｄｅ３＿２」の仮想ノードへ移譲するものとする。この場合、図８（ｃ）に示すように、仮想ノードＩＤ「Ｎｏｄｅ１＿２」の仮想ノードの担当領域が「６００〜７９９（Ｄ＝２００）」のサイズとなり、仮想ノードＩＤ「Ｎｏｄｅ３＿２」の仮想ノードの担当領域が「８００〜９９９（Ｄ＝２００）」のサイズとなる。

（システムの動作）
次に、第１実施形態に係る分散システム１０において、ノード１５間の負荷の偏りを是正するリバランスを実行する際の動作（第１のリバランス動作）を、図９〜図１３を参照して説明する。

まず、リバランスを実行する前提条件について、図９を参照して説明する。図９に示すように、ハッシュ空間を３つのノードＡ〜Ｃの□示す仮想ノードＡ１〜Ａ６，Ｂ１〜Ｂ５，Ｃ１〜Ｃ５で分割し、各仮想ノードＡ１〜Ａ６，Ｂ１〜Ｂ５，Ｃ１〜Ｃ５の担当領域を決めて管理している。但し、Ａ〜ＣはノードＩＤであり、Ａ１〜Ａ６，Ｂ１〜Ｂ５，Ｃ１〜Ｃ５は仮想ノードＩＤであるとする。

例えば、仮想ノードＢ１が担当するハッシュ空間（担当領域）は、仮想ノードＡ６から時計回りに仮想ノードＢ１までの領域となり、この担当領域に存在するデータを担当仮想ノードＢ１が保持している。他の仮想ノードＡ１〜Ａ６，Ｂ２〜Ｂ５，Ｃ１〜Ｃ５においても同様である。

また、各仮想ノードＡ１〜Ａ６，Ｂ１〜Ｂ５，Ｃ１〜Ｃ５は、担当領域に負荷データを保持するが、本例では、○記号で示す負荷量が「１」の低負荷データ、◎記号で示す負荷量が「２」の中負荷データ、●記号で示す負荷量が「３」の高負荷データを、任意数保持するものとする。

例えば、仮想ノードＢ１は、高負荷データ●を３つ保持し、合計「９」の負荷データを保持している。仮想ノードＡ１であれば、高負荷データ●を２つ、中負荷データ◎を１つ保持し、合計「８」の負荷データを保持している。このように、他の仮想ノードＡ２〜Ａ６，Ｂ２〜Ｂ５，Ｃ１〜Ｃ５においても、負荷データを保持している。

このように各仮想ノードＡ１〜Ａ６，Ｂ１〜Ｂ５，Ｃ１〜Ｃ５が保持する負荷データの表を図１０に示す。図１０の負荷データ表は、最上段の行欄にノードＡ，Ｂ，Ｃを示し、最左列に上から順に仮想ノードＩＤの「１」〜「６」を示した。

但し、最上段行欄のノードＡは、担当領域に保持する負荷量が（４０）であり、偏差／標準偏差が「＋１．３９」で閾値「１．２」よりも大きく、高負荷であることを前提条件として示している。ノードＢは、負荷量が（２１）で、偏差／標準偏差が「−０．９３」で閾値「１．２」よりも小さく、中負荷であることを前提条件として示している。ノードＣは、負荷量が（２５）であり、偏差／標準偏差が「−０．４４」で閾値「１．２」よりも小さく、中負荷であることを前提条件として示している。

また、負荷データ表において、ノードＡの「１」の欄には、仮想ノードＡ１の負荷データを示し、本例では、高負荷データ●の負荷量を示す「高（３）」が２つと、中負荷データ◎の負荷量を示す「中（２）」が１つ示してある。この様態は、他のノードＡ〜Ｃの仮想ノードＡ２〜Ａ６，Ｂ１〜Ｂ５，Ｃ１〜Ｃ５の欄においても同様である。

また、図１１は各ノードＡ〜Ｃが保持する負荷量の偏差を表す棒グラフである。この棒グラフに示す各ノードＡ〜Ｃの総負荷量は「８６」、ノードＡ〜Ｃ当たりの平均負荷量は「２８．６」、標準偏差は「８．１７」、乖離閾値は「１．２」、仮想ノード数は「１６」、仮想ノード当たりの平均負荷量は「５．３７５」、ノードＡの偏差は「＋１１．４」、ノードＢの偏差は「−７．６」、ノードＣの偏差は「−３．６」である。

また、各ノードＡ〜Ｃの負荷量は、１つのノード（例えばＡ）の全ての仮想ノードの担当領域の負荷の和と見なすことができる。

このような前提条件において、各ノードＡ〜Ｃのリバランスを実行する際の動作を、図１２及び図１３に示すフローチャートを参照して説明する。

まず、図１２に示すステップＳ１において、所定のノード（Ａ〜Ｃの何れか）の分散システム負荷リバランス部１８ｅは、所定の周期で各ノードＡ〜Ｃから収集したノード負荷計測データ１９ｄに基づき作成されているテーブル（テーブルストア１９ｇ内のテーブル）を参照して、仮想ノード毎の負荷量を取得することで、各ノードＡ〜Ｃの負荷の平均値及び標準偏差、偏差並びに偏差／標準偏差の算出を行う。

次に、ステップＳ２において、リバランス部１８ｅは、上記ステップＳ１での算出結果を集計データ１９ｅ（図６参照）として記憶部１９に記録する。

ステップＳ３において、リバランス部１８ｅは、上記ステップＳ２で記録したデータ１９ｅに基づき、上述した３つの条件（１）〜（３）の何れか１つを満たすか否かを判定する。この結果、満たさなければ（Ｎｏ）、リバランスの処理を終了する。

一方、その判定の結果、例えば、条件（３）のみを満たした（Ｙｅｓ）とする。この場合、ステップＳ４において、リバランス部１８ｅは、各ノードＡ〜Ｃの偏差／標準偏差と乖離閾値「１．２」とを比較することにより、図１１に示すように、ノードＡが高負荷ノード「＋１１．４」、ノードＢ、Ｃが中負荷ノード「−７．６」，「−３．６」であることを検知する。これによって、リバランス部１８ｅは、高負荷ノードＡの担当領域中の移譲領域を他ノードＢ，Ｃに移譲することで負荷の偏りを是正するリバランスの実行準備を行う。

この際、ステップＳ５において、リバランス部１８ｅは、移譲元ノードの担当領域中の移譲領域のサイズ（＝負荷量）を求める。高負荷ノードＡで解消すべき負荷の偏りは、ノードＡの偏差全てとした場合、「＋１１．４」である。この偏差を解消するために必要な仮想ノードの担当領域サイズは、偏差「＋１１．４」÷仮想ノード当たりの平均負荷量「５．３７５」で求めることができる。即ち、１１．４÷５．３７５＝２．１２であり、仮想ノードの２．１２個分の担当領域中の移譲領域を移譲する必要がある。

次に、ステップＳ６において、リバランス部１８ｅは、移譲元ノードＡの担当領域中の移譲領域を移譲するための、移譲先ノードＢ，Ｃの担当領域の許容可能なサイズを求める。移譲先ノードは最も負荷の低いノードＢから移譲を受け入れることとし、この移譲先ノードＢの許容可能な担当領域サイズは、偏差「−７．６」÷仮想ノード当たりの平均負荷量「５．３７５」より、仮想ノードの１．４１個分となる。また、移譲先ノードＢの許容可能な担当領域サイズは、偏差「−３．６」÷仮想ノード当たりの平均負荷量「５．３７５」より、仮想ノードの０．６７個分となる。

次に、図１３に示すステップＳ７において、リバランス部１８ｅは、移譲元ノードＡの移譲対象の担当領域、即ち担当領域中の移譲領域を移譲可能な、移譲先ノードＢ，Ｃが有るか否かを判定する。この判定は、移譲先ノードＢ，Ｃの担当領域の許容可能なサイズが、移譲元ノードＡの担当領域中の移譲領域を移譲可能であるか否かを検知して行う。この結果、移譲可能な移譲先ノードＢ，Ｃが無ければ（Ｎｏ）、リバランスの処理を終了する。

一方、移譲可能な移譲先ノードＢ，Ｃが有れば（Ｙｅｓ）、ステップＳ８において、リバランス部１８ｅは、移譲元ノードＡの担当領域中の移譲領域を、移譲先ノードＢへ移譲する。この移譲では、例えば、１．４１個分の担当領域の空きを有する移譲先ノードＢに、移譲元ノードＡから移譲対象が２．１２個分の担当領域が移譲されるので、２．１２−１．４１＝０．７１個分の仮想ノードが残ることになる。この場合は、仮想ノード単位での移譲である。

これを、図９に示すハッシュ空間においてデータ単位で移譲する場合に置き換えて説明する。例えば、移譲元ノードＡにおける仮想ノードＡ１の「８」の負荷データが、移譲先ノードＢにおける負荷量「２」の低負荷の仮想ノードＢ３へ移譲される。この場合、移譲元ノードＡは、１１．４−８＝３．４の負荷量が残ることになる。

この後、図１３に示すステップＳ９において、リバランス部１８ｅは、移譲元ノードＡの担当領域中の移譲領域の残りが有るか否かを判定する。この結果、残りが無ければ（Ｎｏ）、言い換えれば、移譲対象の担当領域が全て移譲完遂されていれば、リバランスの処理を終了する。

一方、上記ステップＳ９の判定で残り（上記の０．７１個分）が有れば（Ｙｅｓ）、ステップＳ１０において、リバランス部１８ｅは、移譲元ノードＡの残りの移譲領域が移譲可能な、移譲先ノードが有るか否かを判定する。この結果、移譲先ノードが無ければ（Ｎｏ）、リバランスの処理を終了する。

上記ステップＳ１０の判定の結果、残りの移譲領域が移譲可能な移譲先ノードが有れば（Ｙｅｓ）、ステップＳ１１において、リバランス部１８ｅは、移譲元ノードＡの残り（０．７１個分）の移譲領域を、上記ステップＳ９で存在が認められた移譲先ノードＣへ移譲する。この移譲により、移譲元ノードＡには、０．７１−０．６７＝０．０４個分が残る。

この後、上記ステップＳ９に戻って、リバランス部１８ｅは、移譲元ノードＡの担当領域中の移譲領域の残りが有るか否かを判定する。この場合、上記０．０４個分の残りが有るので（Ｙｅｓ）、ステップＳ１０において、リバランス部１８ｅは、移譲元ノードＡの残りの移譲領域が移譲可能な、移譲先ノードが有るか否かを判定する。この場合、ノードＢ，Ｃ以外に、移譲可能なノードは無いので（Ｎｏ）、リバランスの処理を終了する。ここで、リバランス処理は終了となるが、移譲元ノードＡには仮想ノードの０．０４個分の負荷しか残っていないので、ノードＡ〜Ｃ間の負荷の乖離が低減されたことになる。

但し、以上の内容では、移譲元ノードＡの移譲可能な負荷量を、平均負荷量からの差分（例えばノードＡでは「＋１１．４」）としたが、任意に定めてもよい。例えば、移譲可能な負荷量を「＋５」としてもよい。

上記の処理により、リバランス後の振分ＩＤ表１９ｂが作成され、各ノードに配付されることで、リバランス後の振り分け処理が実行され、負荷の偏りが解消される。

＜第２実施形態＞
次に、第２実施形態を説明する。以下では、第１実施形態と異なる点を主に説明する。

第２実施形態の分散システムが、第１実施形態の分散システム１０と異なる点は、分散システム負荷リバランス部１８ｅが行うリバランス処理の違いにある。

第２実施形態の特徴は、リバランス部１８ｅが次の処理を行うようにした。即ち、分散システム１０の各ノード１５のリソースの総量（負荷の総量）が、使用リソース量（使用負荷量）に対して十分であるにも関わらず、使用リソース量に偏りが生じているとする。この際に、リバランス部１８ｅが、第１実施形態のように担当領域中の移譲領域を移譲する対象ノードや、該当ノード１５の適切な移譲サイズを指定することなく、各ノード１５が持つ仮想ノード数を、ノード１５毎の現状の負荷の状況に応じて、ノード１５毎に必要な負荷量とする仮想ノード数に再設定するリバランスを行うようにした。

この際、リバランス部１８ｅは、各ノード１５の仮想ノード数を、負荷の状況に合わせて下式（１）により算出し、この算出された各ノード１５の仮想ノード数に基づきリバランスする。

このリバランスにおいては、算出された仮想ノード数に基づき、各仮想ノードの振分ＩＤ空間の先頭から仮想ノードＩＤと振分ＩＤ空間の再マッピングを行う。再マッピングは、担当領域の総延長（総サイズ）を算出した仮想ノード数で除し、１仮想ノード当たりの振分ＩＤ空間サイズを求め、振分ＩＤ空間の先頭から新たな振分ＩＤ空間サイズ毎に、仮想ノードＩＤ毎の仮想ノード数を再設定していく。

リバランス後の仮想ノード数＝現状の仮想ノード数×(全ノードの負荷の平均値／該当ノードの負荷の実測値) …（式１）
但し、式（１）中の「該当ノードの負荷の実測値」は、現状の仮想ノードを有するノードの負荷の実測値である。また、式（１）はリバランス部１８ｅの図示せぬ記憶部に保持されるものとする。

第２実施形態のリバランス処理について具体的に説明する。

リバランス部１８ｅは、まず、ノード１５が持つ仮想ノード数を再設定する。この再設定の処理を図１４（ａ）及び（ｂ）を参照して説明する。但し、図１４（ａ）及び（ｂ）に示す仮想ノードＩＤ「Ｎｏｄｅ１−１」，「Ｎｏｄｅ１−２」は、ノードＩＤ「Ｎｏｄｅ１」のノード１（図示せず）に従属する仮想ノード１−１，１−２（図示せず）に対応するものとする。他の仮想ノードＩＤにおいても同様であり、例えば、仮想ノードＩＤ「Ｎｏｄｅ５−１」，「Ｎｏｄｅ５−２」，「Ｎｏｄｅ５−３」は、ノードＩＤ「Ｎｏｄｅ５」のノード５（図示せず）に従属する仮想ノード５−１，５−２，５−３（図示せず）に対応するものとする。

図１４（ａ）に示す振分ＩＤ表１９ｂには、仮想ノードＩＤ「Ｎｏｄｅ１−１」に、担当する振分ＩＤ空間の担当領域として「０〜１９９（Ｄ＝２００）」のデータサイズが対応付けられ、「Ｎｏｄｅ１−２」に、「２００〜３９９（Ｄ＝２００）」のデータサイズが対応付けられている。他の仮想ノードＩＤにおいても図示する通りである。

更に、各ノード１〜５の仮想ノード数は、ノード１の仮想ノード数が２個、ノード２の仮想ノード数が１個、ノード３の仮想ノード数が１個、ノード４の仮想ノード数が２個、ノード５の仮想ノード数が２個である。

このような条件において、リバランス部１８ｅは、ノード１〜５が持つ仮想ノード数を現状の負荷の状況に応じて、必要な負荷量に再設定する。以降、この再設定の処理について説明する。

まず、リバランス部１８ｅは、各ノード１〜５の仮想ノード数を変更する。例えば、各ノード１〜５の現状の仮想ノード数は、図１４（ａ）に示すように、ノード１が２個、ノード２が１個、ノード３が１個、ノード４が２個、ノード５が２個の合計８個である。これを、各ノード１〜５の負荷の現状に応じて、図１４（ｂ）に示すように、ノード１が１個、ノード２が２個、ノード３が２個、ノード４が２個、ノード５が３個の合計１０個に変更する。

この仮想ノード数の変更を行う場合に上記式（１）を用いる。仮想ノード数の変更は、例えば図１４（ａ）に示す各ノード１〜５の個数「２個、１個、１個、２個、２個」＝８個を、図１４（ｂ）に示す各ノード１〜５の個数「１個、２個、２個、２個、３個」＝１０個に変更することである。

図１４（ａ）の現状では、全ノード１〜５のハッシュ空間サイズ（担当領域のサイズ）は「０〜１５９９」の１６００であり、仮想ノード数は８個なので、仮想ノード当たりの担当領域のサイズＤは、１６００÷８＝２００である。このＤ＝２００の担当領域のサイズの内、該当ノード１の負荷の実測値は、例えば「８０」や「１５０」のようになる。なお、この実測値は、前述したように、テーブルストア１９ｇに格納されたテーブルを参照することで迅速に求めることができる。このような全ノード１〜５の実測値から、全ノード１〜５の負荷の平均値が求められるので、その平均値及び実測値を上記式（１）に代入する。

例えば、仮想ノードＩＤ＝「Ｎｏｄｅ１−１」の振分ＩＤ空間の担当領域（サイズＤ＝２００）では負荷の実測値が「１４０」、「Ｎｏｄｅ１−２」では負荷の実測値が「１６０」であるとすると、ノード１の負荷の実測値は「３００」である。この際、全ノード１〜５の負荷の平均値が「１５０」とする。この場合、ノード１のリバランス後の仮想ノード数は、２×（１５０／３００）＝１となる。同様に、他のノード２〜５においてもリバランス後の仮想ノード数を求め、各ノード１〜５の仮想ノード数を、その求められた仮想ノード数に変更する。但し、式（１）に当て嵌めた計算結果が、１．６等の小数点を伴う場合、切り上げ、切り捨て、四捨五入とすることを予め決めておく。

次に、リバランス部１８ｅは、仮想ノード当たりのハッシュ空間サイズを変更する。図１４（ａ）に示す現状では、上述したように、仮想ノード当たりのハッシュ空間サイズＤは、１６００÷８＝２００である。

これを、上述した変更後の仮想ノード数＝１０個を用いると、仮想ノード当たりのハッシュ空間サイズは、１６００÷１０＝１６０となる。このハッシュ空間サイズを用いて、図１４（ｂ）に示すように、１個当たりの仮想ノードのハッシュ空間サイズＤを「１６０」とする。

次に、リバランス部１８ｅは、その変更後のハッシュ空間サイズＤ＝「１６０」の仮想ノードを、前述で変更した後の各ノード１〜５の仮想ノード数だけ割り振って行く。即ち、ノード１では変更後の仮想ノードが１個なので、図１４（ｂ）に示すように、ノード１において、変更後のハッシュ空間サイズＤ＝「１６０」の仮想ノード｛仮想ノードＩＤ「Ｎｏｄｅ１−１」｝が１個割り振られる。

同様に、ノード２では変更後の仮想ノードが２個なので、サイズＤ＝「１６０」の仮想ノード｛仮想ノードＩＤ「Ｎｏｄｅ２−１，Ｎｏｄｅ２−２」｝が２個割り振られる。以降、同様に図示するように、ノード３〜５まで変更後の仮想ノード２個〜３個が割り振られる。

（実施の形態のまとめ、効果）
本実施形態では、複数のクライアントマシンからの情報がネットワークを介して振り分けられる複数のノードを有し、各ノードに複数の仮想ノードが従属している分散システムにおいて用いられるリバランス装置であって、仮想ノード毎の負荷量を保持する負荷量テーブルを有する記憶手段と、前記負荷量テーブルから取得された仮想ノード毎の負荷量に基づいて、前記複数のノード間の負荷量の偏りを抑制するリバランスを行うリバランス手段とを備えるリバランス装置が提供される。

前記負荷量テーブルにおける仮想ノード毎の負荷量は、例えば、仮想ノードが担当するコンシステントハッシュにおけるＩＤ空間上の領域の負荷量として保持されている。

前記記憶手段は、ノード毎に、仮想ノードの識別子と前記領域の識別子とを対応付けて保持する第１テーブルと、ノード毎に、カウンタ値と仮想ノードの識別子とを対応付けて保持する第２テーブルとを更に有することとしてもよい。

要求元からあるノードの指定を受けて、前記第２テーブルから、当該ノードに従属する各仮想ノードの識別子を取得し、前記第１テーブルから各仮想ノードの領域の識別子を取得し、前記負荷量テーブルから各領域の負荷量を取得し、取得した各負荷量を前記要求元に返す情報アクセス手段を更に備えてもよい。

以上、説明したように、本実施形態では、ＩＤ空間情報を物理ノード毎の仮想ノードＩＤテーブル、スロット負荷量リスト、物理ノード毎のインデックステーブル、物理ノード毎のカウンタに分割することとした。これにより、再計算を抑え、かつ、データへのアクセスをＯ（１）で実現でき、処理を高速化することができる。

本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において、種々変更・応用が可能である。

１０分散システム
１１クライアントマシン
１２ネットワーク
１３ロードバランサ
１４クラスタ
１５ノード
１８制御部
１８ａノード識別子管理部
１８ｂ振分部
１８ｃ信号処理部
１８ｄノード負荷計測部
１８ｅ分散システム負荷リバランス部
１８ｆテーブル生成部
１８ｇ情報アクセス部
１９記憶部
１９ａノード識別子管理表
１９ｂ振分ＩＤ表
１９ｃデータ
１９ｄノード負荷計測データ
１９ｅ分散システム負荷集計データ
１９ｆ呼制御状態フラグ
１９ｇテーブルストア

Claims

複数のクライアントマシンからの情報がネットワークを介して振り分けられる複数のノードを有し、各ノードに複数の仮想ノードが従属している分散システムにおいて用いられるリバランス装置であって、
仮想ノード毎の負荷量を保持する負荷量テーブルを有する記憶手段と、
前記負荷量テーブルから取得された仮想ノード毎の負荷量に基づいて、前記複数のノード間の負荷量の偏りを抑制するリバランスを行うリバランス手段と
を備えることを特徴とするリバランス装置。
前記負荷量テーブルにおける仮想ノード毎の負荷量は、仮想ノードが担当するコンシステントハッシュにおけるＩＤ空間上の領域の負荷量として保持されている
ことを特徴とする請求項１に記載のリバランス装置。
前記記憶手段は、
ノード毎に、仮想ノードの識別子と前記領域の識別子とを対応付けて保持する第１テーブルと、
ノード毎に、カウンタ値と仮想ノードの識別子とを対応付けて保持する第２テーブルと
を更に有することを特徴とする請求項２に記載のリバランス装置。
要求元からあるノードの指定を受けて、前記第２テーブルから、当該ノードに従属する各仮想ノードの識別子を取得し、前記第１テーブルから各仮想ノードの領域の識別子を取得し、前記負荷量テーブルから各領域の負荷量を取得し、取得した各負荷量を前記要求元に返す情報アクセス手段
を備えることを特徴とする請求項３に記載のリバランス装置。
複数のクライアントマシンからの情報がネットワークを介して振り分けられる複数のノードを有し、各ノードに複数の仮想ノードが従属している分散システムにおいて用いられるリバランス装置が実行するリバランス方法であって、
前記リバランス装置は、仮想ノード毎の負荷量を保持する負荷量テーブルを有する記憶手段を備え、
前記負荷量テーブルから取得された仮想ノード毎の負荷量に基づいて、前記複数のノード間の負荷量の偏りを抑制するリバランスを行うリバランスステップ
を備えることを特徴とするリバランス方法。
前記負荷量テーブルにおける仮想ノード毎の負荷量は、仮想ノードが担当するコンシステントハッシュにおけるＩＤ空間上の領域の負荷量として保持されている
ことを特徴とする請求項５に記載のリバランス方法。
コンピュータを、請求項１ないし４のうちいずれか１項に記載のリバランス装置における各手段として機能させるためのプログラム。