JP2016153929A - 分散システム、負荷分散方法及びプログラム - Google Patents

分散システム、負荷分散方法及びプログラム Download PDF

Info

Publication number
JP2016153929A
JP2016153929A JP2015031180A JP2015031180A JP2016153929A JP 2016153929 A JP2016153929 A JP 2016153929A JP 2015031180 A JP2015031180 A JP 2015031180A JP 2015031180 A JP2015031180 A JP 2015031180A JP 2016153929 A JP2016153929 A JP 2016153929A
Authority
JP
Japan
Prior art keywords
node
nodes
load
virtual
transfer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2015031180A
Other languages
English (en)
Other versions
JP6325995B2 (ja
Inventor
啓介 小西
Keisuke Konishi
啓介 小西
篤史 外山
Atsushi Toyama
篤史 外山
健 福元
Takeshi Fukumoto
健 福元
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2015031180A priority Critical patent/JP6325995B2/ja
Publication of JP2016153929A publication Critical patent/JP2016153929A/ja
Application granted granted Critical
Publication of JP6325995B2 publication Critical patent/JP6325995B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

【課題】分散システムを構成するノード間で負荷の偏りが生じた際に、効率良くリバランスを行う。【解決手段】ノードの分散システム負荷リバランス部18eは、全ノードの負荷量の標準偏差及び偏差/標準偏差を求める。次に、ノードの負荷が予め定められた上限値を超えたことを示す条件、全ノードの負荷の標準偏差が予め定められた第1閾値を超えていることを示す条件、ノード毎の偏差/標準偏差が予め定められた第2閾値を超えていることを示す条件の何れか1つ又は複数の条件を満たすか否かを判断する。満たすと判断された場合に、ノードが負荷を保持可能な担当領域のうち所定の負荷容量の移譲領域を、ノード間の負荷量の乖離が抑制されるように、負荷の高い移譲元ノードから負荷の低い移譲先ノードへ移譲する処理を行う。【選択図】図2

Description

本発明は複数のノード間での負荷の偏りを是正することが可能な分散システム、負荷分散方法及びプログラムに関する。
近年、クラウドコンピューティングの隆盛に伴い、多量なデータの処理や保持を効率的に行うことが求められている。そこで、複数のサーバを協調動作させることにより効率的な処理を実現する分散処理技術が発展している。分散処理を行う際には、クラスタを構成して分散システムを構築する各サーバ(以降、ノードともいう)が担当するデータを決定する必要がある。この際、分散システム全体でのデータの処理能力を高めるためには、各ノードが担当するデータ数は平均化されていることが望ましい。
ところで、代表的なデータの管理手法には、各データのkey(キー)をハッシュ関数にかけた値(以降、hash(key):ハッシュキーともいう)を、ノード数Nで割った余り、即ちhash(key)mod Nを番号として持つノードが、データを管理する手法がある。但し、その際、ノードに事前に0からN−1まで番号を割り当てている。このような管理手法を用いた場合、ノードを追加又は離脱すると、Nの値が変化し、多くのデータでは担当するノードが変更になるため、担当ノードの再配置が必要になる。
また、コンシステント・ハッシュ法を用いたデータ管理手法では、図14に符号5で示す円形状のID空間において、ノードA,B,C,D,Eと、○及び●印で示す負荷が異なる負荷データとの双方にID(identification)を割り当てる。負荷データの担当ノードは、当該担当ノード(例えばB)からID空間5を時計回りに辿り、最初に突き当たったノードCまでの間に配置される負荷データを担当する。ノードA〜Eに対するIDの与え方の例としては、IP(Internet Protocol)アドレスをハッシュ関数にかけた値{これを、hash(IPアドレス)ともいう}が挙げられる。
クラスタ構成の分散システムでは、例えば各ノードの性能が等しい場合には、各ノードA〜Eが担当するデータ量は等しい、即ち、コンシステント・ハッシュ法のID空間5における、ノード間の距離(以降、ノードの担当領域ともいう)が等しいことが望ましい。
この点を解決するため、各ノードA〜Eに仮想的に複数のIDを持たせる手法が用いられている。各ノードA〜Eが複数の仮想IDを持つことで、仮想ID毎の担当領域は異なっていても、大数の法則に従い、ノードA〜Eの担当領域は平均化される。このようなコンシステント・ハッシュ法や仮想ID等の従来技術により、ノード間で担当するデータ数を均一化し、負荷を分散させることが可能となる。
しかしながら、各ノードA〜Eの内の特定ノードにて、アクセス頻度の多いデータや、処理時間の長いデータ(高負荷データ)が偏って発生するため、各ノードA〜Eが担当するデータ数自体は均等であっても、ノード間で負荷の偏りが発生する。
このようなコンシステント・ハッシュ法の分散システムにおける負荷増大に対する対策としては、分散システムに図14に示す新たなノードFを増設して分散システムをスケールアウトさせ、高負荷となったノード(高負荷ノード)、例えば高負荷ノードCが担当するデータ数を縮小させて負荷を低減する手法がとられている。
また、ノード(例えばB)のコンシステント・ハッシュ上での空間配置変更(これを、リバランスという)を行い適切に負荷が分散されていれば、増設を行うことなく現行のノード台数で対処可能なケースもある。非特許文献1には、スケールアウト/リバランスで対処すべき状況を識別し、更に、リバランスで対処すべき状況においては、コンシステント・ハッシュ空間(ID空間5)上の隣接ノード間(例えばEであれば、2つの矢印で示す隣のA又はD)でリバランスを実行して、ノード間の負荷の偏りを是正する手法が提案されている。
鶴田泰他,「分散サーバシステムにおけるノード負荷分散最適化方式」,電子情報通信学会総合大会,Mar.2014,B-7-84
ところで、非特許文献1の手法を用いたとしても、高負荷ノードの隣も負荷の高いノードになっている等、隣接ノードが必ずしもリバランスに適したノードとなっているとは限らない。この場合、他に負荷の低いノードがあっても、そこに直ちに負荷をリバランスさせることができない。しかし、リバランスを繰り返せば、最終的に負荷の偏りを是正することは可能である。しかしながら、この場合、リバランスを繰り返さなければならないので、多くの時間を要する可能性があり実用的でない。言い換えれば、効率良くリバランスを行うことができないという問題がある。
本発明は、このような背景に鑑みてなされたものであり、効率良くリバランスを行うことができる分散システム、負荷分散方法及びプログラムを提供することを課題とする。
前記した課題を解決するため、請求項1に記載の発明は、通信サービスを利用する複数のクライアントマシンからの情報がネットワークを介して振り分けられる複数のノードを有する分散システムであって、前記ノードは、前記ネットワークに接続された前記ネットワークに接続された全ノードの負荷量の標準偏差、及び偏差を標準偏差で除した値を求め、前記ノードの負荷が予め定められた上限値を超えたことを示す第1条件、前記全ノードの負荷の前記標準偏差が予め定められた第1閾値を超えていることを示す第2条件、前記ノード毎の前記偏差を標準偏差で除した値が予め定められた第2閾値を超えていることを示す第3条件の何れか1つ又は何れか複数の条件を満たす場合に、前記ノードが負荷を保持可能な担当領域のうち所定の負荷容量の移譲領域を、前記ノード間の負荷量の乖離が抑制されるように、負荷の高い移譲元ノードから負荷の低い移譲先ノードへ移譲する処理を行うリバランス部を備えることを特徴とする分散システムである。
この構成によれば、上述した第1〜第3条件の何れか1つ又は何れか複数の条件を満たした場合に、ノードの所定の負荷容量の担当領域を、負荷の高いノードから負荷の低いノードへ移譲するので、処理数や処理量を多くかけずに、ノード間の負荷量の乖離(ノード間の負荷量の差)を抑制することができる。従って、効率良くリバランスを行うことができる。
請求項2に係る発明は、前記リバランス部は、前記移譲元ノードの前記移譲領域を移譲可能な負荷容量を有する前記移譲先ノードが有る場合に、当該移譲領域を当該移譲先ノードへ移譲することを特徴とする請求項1に記載の分散システムである。
この構成によれば、移譲元ノードの担当領域を移譲可能な負荷容量を有する移譲先ノードが有る場合にのみ、担当領域を移譲するので、リバランスを実行するか否かの判断を、処理数や処理量を多くかけずに行うことができる。
請求項3に係る発明は、前記リバランス部は、前記移譲元ノードの前記移譲領域を前記移譲先ノードへ移譲する際に、当該移譲領域が全て移譲完遂されるか、当該移譲領域が移譲可能な移譲先ノードが存在しなくなるまで移譲を行うことを特徴とする請求項1又は2に記載の分散システムである。
この構成によれば、ノード間の負荷量の乖離を無くす又は抑制することができる。
請求項4に係る発明は、通信サービスを利用する複数のクライアントマシンからの情報がネットワークを介して振り分けられる複数のノードを有する分散システムであって、前記ノードは、記憶部に以下の数式(1)を記憶しており、
仮想ノード数=現状の仮想ノード数×(全ノードの負荷の平均値/現状の仮想ノードを有するノードの負荷の実測値)…数式(1)
前記ノード毎の負荷の状況に応じて、現状の仮想ノード数、全ノードの負荷の平均値、当該現状の仮想ノードを有するノードの負荷の実測値を求め、これら求めた数値を前記数式(1)に当て嵌めることにより、前記ノード毎に持つ仮想ノード数を算出し、前記現状の仮想ノードの仮想ノード当たりの負荷容量を変更し、この変更後の負荷容量を有する仮想ノードが、前記算出された仮想ノード数だけ存在するように、該当ノードに仮想ノードを割り当てるリバランスを行うリバランス部を備えることを特徴とする分散システムである。
この構成によれば、リバランス部が、担当領域を移譲する対象ノードや、該当ノードの適切な移譲サイズを指定することなく、各ノードが持つ仮想ノード数を、ノード毎の現状の負荷の状況に応じて、必要な負荷量とするための仮想ノード数とすることができる。つまり、自ノードの必要負荷量に適合したリバランスを行うことができる。
請求項5に係る発明は、通信サービスを利用する複数のクライアントマシンからの情報がネットワークを介して振り分けられる複数のノードを有する負荷分散方法であって、前記ノードは、前記ネットワークに接続された前記ネットワークに接続された全ノードの負荷量の標準偏差、及び偏差を標準偏差で除した値を求めるステップと、前記ノードの負荷が予め定められた上限値を超えたことを示す第1条件、前記全ノードの負荷の前記標準偏差が予め定められた第1閾値を超えていることを示す第2条件、前記ノード毎の前記偏差を標準偏差で除した値が予め定められた第2閾値を超えていることを示す第3条件の何れか1つ又は何れか複数の条件を満たすか否かを判定するステップと、前記何れか1つ何れか1つ又は何れか複数の条件の条件を満たす場合に、前記ノードが負荷を保持可能な担当領域のうち所定の負荷容量の移譲領域を、前記ノード間の負荷量の乖離が抑制されるように、負荷の高い移譲元ノードから負荷の低い移譲先ノードへ移譲する処理を行うステップとを実行することを特徴とする負荷分散方法である。
この方法によれば、上述した第1〜第3条件の何れか1つ又は何れか複数の条件を満たした場合に、ノードの所定の負荷容量の担当領域を、負荷の高いノードから負荷の低いノードへ移譲するので、処理数や処理量を多くかけずに、ノード間の負荷量の乖離を低減することができる。従って、効率良くリバランスを行うことができる。
請求項6に係る発明は、通信サービスを利用する複数のクライアントマシンからの情報がネットワークを介して振り分けられる複数のノードを有する負荷分散方法であって、前記ノードは、記憶部に以下の数式(1)を記憶しており、

仮想ノード数=現状の仮想ノード数×(全ノードの負荷の平均値/現状の仮想ノードを有するノードの負荷の実測値)…数式(1)

前記ノード毎の負荷の状況に応じて、現状の仮想ノード数、全ノードの負荷の平均値、当該現状の仮想ノードを有するノードの負荷の実測値を求め、これら求めた数値を前記数式(1)に当て嵌めることにより、前記ノード毎に持つ仮想ノード数を算出するステップと、前記現状の仮想ノードの仮想ノード当たりの負荷容量を変更し、この変更後の負荷容量を有する仮想ノードが、前記算出された仮想ノード数だけ存在するように、該当ノードに仮想ノードを割り当てるリバランスを行うステップとを実行することを特徴とする負荷分散方法である。
この方法によれば、自ノードの必要負荷量に適合したリバランスを行うことができる。
請求項7に係る発明は、通信サービスを利用する複数のクライアントマシンからの情報がネットワークを介して振り分けられる複数のノードを有する分散システムの当該ノードとしてのコンピュータを、前記ネットワークに接続された前記ネットワークに接続された全ノードの負荷量の標準偏差、及び偏差を標準偏差で除した値を求める手段、前記ノードの負荷が予め定められた上限値を超えたことを示す第1条件、前記全ノードの負荷の前記標準偏差が予め定められた第1閾値を超えていることを示す第2条件、前記ノード毎の前記偏差を標準偏差で除した値が予め定められた第2閾値を超えていることを示す第3条件の何れか1つ又は何れか複数の条件を満たすか否かを判定する手段、前記何れか1つ又は何れか複数の条件を満たす場合に、前記ノードが負荷を保持可能な担当領域のうち所定の負荷容量の移譲領域を、前記ノード間の負荷量の乖離が抑制されるように、負荷の高い移譲元ノードから負荷の低い移譲先ノードへ移譲する処理を行う手段として機能させるためのプログラムである。
このプログラムによれば、請求項5と同様の作用効果を得ることができる。
請求項8に係る発明は、通信サービスを利用する複数のクライアントマシンからの情報がネットワークを介して振り分けられる複数のノードを有する分散システムの当該ノードとして記憶部に以下の数式(1)を記憶しているコンピュータを、
仮想ノード数=現状の仮想ノード数×(全ノードの負荷の平均値/現状の仮想ノードを有するノードの負荷の実測値)…数式(1)
前記ノード毎の負荷の状況に応じて、現状の仮想ノード数、全ノードの負荷の平均値、当該現状の仮想ノードを有するノードの負荷の実測値を求め、これら求めた数値を前記数式(1)に当て嵌めることにより、前記ノード毎に持つ仮想ノード数を算出する手段、前記現状の仮想ノードの仮想ノード当たりの負荷容量を変更し、この変更後の負荷容量を有する仮想ノードが、前記算出された仮想ノード数だけ存在するように、該当ノードに仮想ノードを割り当てるリバランスを行う手段として機能させるためのプログラムである。
このプログラムによれば、請求項6と同様の作用効果を得ることができる。
本発明によれば、効率良くリバランスを行うことができる分散システム、負荷分散方法及びプログラムを提供することができる。
本発明の第1実施形態に係る分散システムの構成を示すブロック図である。 本実施形態の分散システムにおけるノードの構成を示し、(a)は制御部の構成を示すブロック図、(b)は記憶部の情報を示すブロック図である。 複数のノードA〜Eで分割されたハッシュ空間を示す図である。 (a)ノード識別子管理表の一例を示す図、(b)振分ID表の一例を示す図である。 (a)ノード負荷計測データ(ノード単位)の一例を示す図、(b)ノード負荷計測データ(仮想ノード単位)の一例を示す図、(c)ノード負荷計測データ(データ単位)の一例を示す図である。 分散システム負荷集計データの一例を示す図である。 (a)リバランス前の振分ID表の一例を示す図、(b)リバランス後の振分ID表の一例を示す図、(c)リバランス後の振分ID表の他例を示す図である。 ノードの複数の仮想ノード及びその担当領域(担当ハッシュ空間)を示す図である。 図8に示す各仮想ノードの担当領域における各種負荷データによる負荷量の一覧表を示す図である。 各ノードA〜Cが保持する負荷量の偏差を表す棒グラフである。 本実施形態の分散システムの各ノードのリバランスを実行する際の動作を説明するための第1のフローチャートである。 本実施形態の分散システムの各ノードのリバランスを実行する際の動作を説明するための第2のフローチャートである。 (a)リバランス前の振分ID表の一例を示す図、(b)リバランス後の振分ID表の一例を示す図である。 従来技術を説明するためのハッシュ空間を示す図である。
以下、本発明の実施形態を、図面を参照して説明する。
<第1実施形態の構成>
図1は、本発明の第1実施形態に係る分散システムの構成を示すブロック図である。
図1に示す分散システム10は、コンシステント・ハッシュ法を用いた複数のノード15を利用し、データ管理を行うシステムである。本発明の特徴は、分散システム10を構成するノード15間で負荷の偏りが生じた際に、現行ノード15数で対処が可能な場合に、現行ノード15の負荷の偏り状況を踏まえて、効率的にリバランスを行い負荷の偏りを是正するものである。
分散システム10は、複数のクライアントマシン(単に、クライアントともいう)11にインターネット等のネットワーク12を介して接続されたロードバランサ13と、クラスタ14を構成する複数のノード15とを備えて構成されている。
各ノード15は、コンピュータ等の物理装置や仮想マシン等の論理装置、言い換えれば、物理的又は仮想的なサーバ等である。クライアント11からのメッセージが、ロードバランサ13によって各ノード15に振り分けられる。この振り分けは、単純なラウンドロビン法等により行われる。
ノード15は、制御部18及び記憶部19を備えて構成されている。但し、制御部18及び記憶部19は、ソフトウェアによって構成されているとする。なお、ハードウェアによって構成してもよい。
図2(a)に示すように、制御部18は、ノード識別子管理部18aと、振分部18bと、信号処理部18cと、ノード負荷計測部18dと、分散システム負荷リバランス部(単に、リバランス部ともいう)18eとを備える。
図2(b)に示すように、記憶部19は、ノード識別子管理表19aと、振分ID表19bと、データ19cと、ノード負荷計測データ19dと、分散システム負荷集計データ19eと、呼制御状態フラグ19fとを記憶する。なお、ノード識別子管理表19aを管理表19aともいい、分散システム負荷集計データ19eを集計データ19e、呼制御状態フラグ19fをフラグ19fともいう。
振分部18bは、クライアント11からのメッセージ(情報)を、例えばコンシステント・ハッシュ法等に基づき、メッセージを担当するノード15に振り分ける。
信号処理部18cは、クライアント11からのメッセージに応じて、所定の信号処理を行い、クライアント11にサービスを提供する。つまり、メッセージを担当するノード15では、信号処理部18cにて所定の信号処理を行ってクライアント11にサービスを提供する。この振分部18b及び信号処理部18cの処理動作については後述で更に詳細に説明する。
但し、分散システム10においては、ロードバランサ13が存在せず、クライアント11から任意のノード15(振分部18b)にメッセージを送信することも可能である。また、振分部18bと信号処理部18cは、図1のように同じノード15上に同時に存在させてもよいし、別ノード15上に存在させてもよい。
制御部18において、ノード識別子管理部18aは、分散システム10上のノード情報をノード識別子管理表19aに蓄積することにより、ノード15が担当するID空間を管理する。このID空間は、コンシステント・ハッシュ法ではコンシステント・ハッシュ上の空間(ハッシュ空間)である。
このハッシュ空間を、例えば図3に示すように、複数のノードA〜Eで分割し、各ノードA〜Eの担当領域を決めて管理する。この際、ノードAが担当するハッシュ空間は、ノードAから時計回りにノードBまでの領域であり、このハッシュ空間に存在するデータを担当ノードAが保持する。他のノードB〜Eも同様である。なお、ハッシュ空間(担当領域)のサイズが大きい程に、多くのデータを保持できるようになっている。
図2(a)に戻って、振分部18bは、分散システム10においてメッセージ等のデータの振分先の決定に関する処理を行い、この処理により得られるデータの振分先情報を振分ID表19bとして管理する。
信号処理部18cは、ノード15における信号処理を行う。この信号処理時のアクセス対象となるデータ19cが記憶部19に記憶される。
ノード負荷計測部18dは、ノード15の負荷を計測し、この計測結果を記憶部19にノード負荷計測データ19dとして記録すると共に、必要に応じて定められる特権ノード15(図3に示す例えばノードB)に送付する。
分散システム負荷リバランス部18eは、分散システム10全体のノード負荷を収集し、この収集した負荷の平均値及び標準偏差の算出を行い、これらの算出結果である分散システム負荷集計データ19eを記憶部19に記憶する。更に、リバランス部18eは、その記憶された集計データ19eに基づくリバランスの実行判定、並びにリバランス設計を行ってリバランスを実行する。
また、記憶部19に記憶される呼制御状態フラグ19fは、新規呼を制御する状態か否かを判別するための情報である。
ここで、前述した図1に示すノード15の振分部18b及び信号処理部18cによるメッセージの振分処理及び信号処理について更に詳細に説明する。
振分部18bは、クライアント11から発呼されるメッセージ内の情報をもとに、信号処理を担当するノード15を特定し、当該する他のノード15にメッセージの振り分けを行う。メッセージは、新規呼(例えば、SIP(Session Initiation Protocol)においてはInitial−INVITE等)と後続呼(SIPにおいてはBYE等)に分けられる。
新規呼か後続呼かの識別は、呼に後述の振分キーが埋め込まれているか否かで判定できる。例えば、SIPにおいては、To/FromヘッダのTag等で判定できる。
振分キーは、ノード識別子(SIPにおいてはcall−id)又はハッシュ値による仮想ノードIDで構成されている。ハッシュ値は、元になるデータから一定の計算手順により求められた規則性のない固定長の値なので、仮想ノードIDやノード識別子をハッシュ値で構成するのが好ましい。
一方、上述した新規呼か後続呼かの識別の判定の結果、後続呼の場合、振分部18bにて、振分ID表19b上のノード15毎の担当領域である振分ID空間{図4(b)に示し後述する}と、振分キー内のハッシュ値とを比較して担当するノード15を特定する。更に、担当するノード15のアドレスを、後述の図4(a)に示すノード識別子管理表19aから特定し、この特定されたノード15に転送する。
一方、上述した判定の結果、新規呼の場合、振分キーが存在しないため、メッセージからCall−id(ノード識別子)を抽出し、これをハッシュ関数に導入してハッシュ値を導出する。更に、振分部18bにて、振分ID表19b上のノード15毎の担当領域である振分ID空間{図4(b)に示し後述する}と、導出したハッシュ値とを比較して担当するノード15を特定する。更に、担当するノード15のアドレスを、後述の図4(a)に示すノード識別子管理表19aから特定し、この特定されたノード15に転送する。
新規呼を信号処理部18cで受信した場合も、メッセージからCall−id(ノード識別子)を抽出し、これをハッシュ関数に導入してハッシュ値を導出して、振分キーを生成する。また、信号処理部18cによる信号処理後に、クライアント11に送付するメッセージに振分キーを埋め込んで(SIPにおいてはTo/FromヘッダのTag)送付する。
以降、クライアント11からの後続呼には本振分キーを埋め込みの上、メッセージを送付し、振分部18bにて本振分キーのハッシュ値を基に振り分けが行われることで、当該呼が処理されたノード15に後続呼が届くことが可能となる。
次に、上述したノード識別子管理部18aについて、より詳細に説明する。
ノード識別子管理部18aは、分散システム10へのノード15の追加や離脱が発生した際に、分散システム10を構成するノード15の識別子情報(ノード識別子)を更新し、これを、図4(a)に示すノード識別子管理表19aとして管理する。図4(a)の例においては、ノード識別子(又はノードID)(例えば、「Node1」)に、アドレス(例えば、「10.45.0.1」)が対応付けられている。そのノード識別子は、特権ノードのノード識別子管理部18aで付与され、全ノード15へと配信される。
コンシステント・ハッシュ法においては、ノード識別子に、図4(b)に示す仮想ノード識別子(又は仮想ノードID)が従属している。この仮想ノードIDは、振分ID空間の任意のID(ハッシュ値による)である。例えば図4(a)に示すノード識別子「Node1」には、図4(b)の振分ID表19bに示す少なくとも1つ以上の仮想ノードID「Node1−1」,「Node1−2」が従属している。言い換えれば、ノード15に1つ以上の仮想ノードが従属している。但し、これは基本構成であって、ノード15に仮想ノードが従属しない場合もある。
このように、前述のノード識別子管理表19aの更新と合わせて、ノード15が担当する振分ID空間の担当領域を更新し、これを振分ID表19bとして管理する。振分ID表19bには、例えば、仮想ノードID「Node1−1」に、担当する振分ID空間の担当領域として「0〜199(D=200)」のデータサイズが対応付けられ、仮想ノードID「Node1−2」に、担当する振分ID空間の担当領域として「600〜999(D=400)」のデータサイズが対応付けられている。即ち、D=200は、担当領域のデータサイズが200であることを示す。他のD=400等も同じである。
次に、上述したノード負荷計測部18dにより計測される負荷の情報収集と、この収集された負荷の特権ノードへの送付について説明する。
ノード負荷計測部18dは、所定の周期で当該ノード15の負荷を計測し、これをノード負荷計測データ19dとして記憶部19に記録して蓄積する。また、ノード負荷計測部18dは、所定の周期で特権ノード(例えば図3に示すノードB)に蓄積したノード負荷計測データ19dを送付する。
但し、上述したノード負荷計測部18dにおいて所定周期で計測されるノード15の負荷は、CPU(Central Processing Unit)使用率、メモリ使用率、アクセス頻度等の、ノード15にて取得可能なあらゆるパラメータが使用される。また、どの数値がボトルネックとなるか、更に、どの程度の値であればリバランスすべき閾値となるかは、分散システムのシステム特性に応じて異なり、複数のパラメータの組み合わせにより判断するケースもある。従って、特定のパラメータ種別に限定せず利用可能とする。
また、ノード負荷計測部18dによる負荷の計測単位は、図5の(a)ノードIDによるノード単位、(b)仮想ノードIDによる仮想ノードID単位、(c)データ単位の内、どの単位で計測しても構わない。また、図5(b)の仮想ノード単位で負荷を計測する場合、それを集計して(a)のノード単位を算出可能であり、(c)のデータ単位で負荷を計測する場合、それを集計して(b)の仮想ノード単位や(a)のノード単位の負荷を算出可能である。なお、図5においては、ノード負荷計測部18dにより計測される負荷は、アクセス頻度(アクセス回数)を例に示してある。
このような図5(a)〜(c)の表は、2つのノード15で構成される分散システム10におけるものであり、次のような構成となっている。
図5(a)に示す1つのノード15(例えばノードID=Node1)において、図5(b)に示す2つの仮想ノードID(Node1_1,Node1_2)による2つの仮想ノードを保持する。更に、図5(c)に示す1つの仮想ノードID(例えばNode1_1)による仮想ノード当り2つのデータ(data1,data2)を保有する場合を想定してある。他のノードも同様である。
この場合に、負荷の計測単位を図5(b)に示すように仮想ノード単位とし、収集する負荷としてのアクセス頻度(回数)を、10秒周期(10:15:00→10:15:10→10:15:20)で収集して、蓄積するケースを想定してある。
次に、上述した分散システム負荷リバランス部18eによるノード15の負荷の偏り算出及びリバランス実行判断の処理について説明する。
リバランス部18eは、所定の周期で各ノード15から収集したノード負荷計測データ19dに基づき、分散システム10全体のノード15の負荷の平均値及び標準偏差、偏差並びに偏差/標準偏差(偏差を標準偏差で除した値)の算出を行う。更に、リバランス部18eは、それらの算出結果を、図6に一例を示すように集計データ19eに記録し、この記録した集計データ19eに基づき、後述の3つの条件(1)〜(3)の何れか1つを満たす場合、ノード15間の負荷の偏りを是正するリバランスを実行する。何れも満たさない場合はリバランスは実行しない。なお、条件(1)は請求項記載の第1条件、条件(2)は請求項記載の第2条件、条件(3)は請求項記載の第3条件である。
図6に示す集計データ19eには、収集時の時刻、ノードID(ノード識別子)、平均値(アクセス頻度)、標準偏差、実測値(アクセス頻度)、偏差、及び偏差/標準偏差が記録される。なお、平均値及び実測値は、アクセス頻度の平均値及び実測値である。
条件(1)、リバランス部18eは、集計データ19eに基づき、ノード15の負荷が、当該ノード15が許容する負荷の上限値(予め定められた上限値)を超えていないか否かをチェックし、上限値を超えるノードが存在する場合に、リバランスを実行する。
条件(2)、リバランス部18eは、集計データ19eに基づき、ノード15全体の負荷の標準偏差が所定の閾値(第1閾値)以下であるか否かを確認し、閾値を超えている場合に、リバランスを実行する。
条件(3)、リバランス部18eは、集計データ19eに基づき、ノード15毎の負荷の偏差/標準偏差が所定の閾値(第2閾値)以下であるか否かを確認し、閾値を超えている場合に、リバランスを実行する。
但し、図6に示す集計データ19eにおいては、負荷の計測単位を図5(a)に示すノード単位(仮想ノード単位の場合もある)とし、負荷の平均値及び実測値をアクセス頻度とする。更に、平均値や標準偏差を算出する際の時間間隔を20秒間(例えば、10:14:40〜10:15:00)とする。図6の例は、10:15:00の時刻における上記算出値等である。また、ノード15が許容する負荷の上限値をアクセス頻度の実測値「90」{条件(1)}とし、標準偏差の閾値を「15」{条件(2)}、偏差/標準偏差の閾値(乖離閾値ともいう)を「1.2」{条件(3)}とした際の例である。
この例では、条件(1)、(2)は満たさない。しかし、図6ではノード識別子の「Node1」、「Node3」、「Node4」の偏差/標準偏差が「1.5」であり、閾値「1.2」を超えており、条件(3)を満たしているため、リバランス実行となる。
ここで、リバランス部18eが実行するリバランスについて説明する。
リバランスは、負荷の高いノード15の担当領域(担当のID空間)中の移譲領域(後述)を、負荷の低いノード15へ移譲することで負荷の偏りを是正する。この時、負荷の乖離を是正するために、担当領域の必要な移譲領域のサイズを推定の上、その移譲領域のみを移譲する。但し、移譲領域は、担当領域の全てであったり、担当領域の100%未満の割合の領域であったりする。
この移譲の方法は、次の(T1)〜(T4)のようになる。
(T1)全てのノード15の中で最も負荷の高いノード15の担当領域中の移譲領域を、最も低いノード15に対して移譲していくものとする。
(T2)移譲領域の移譲は次の場合に終了するものとする。即ち、上記の条件(1)〜(3)の何れかを満たす要因となった偏差の全てが存在しなくなった場合(T2−1)、若しくは、その偏差の一部(予め指定の偏差解消割合を満たす偏差)を解消する移譲領域の移譲が決定した場合(T2−2)、若しくは、移譲領域の移譲を許容可能な移譲先ノード15が存在しなくなった場合(T2−3)に終了するものとする。
(T3)移譲領域の移譲単位は、ノード単位や仮想ノード単位でも構わないし、仮想ノード単位でなく、仮想ノードの担当領域の半分を割譲する単位や、1つのハッシュ値によるデータのみの移譲単位でも構わない。
(T4)リバランス部18eがリバランスを行う際に事前に実行するリバランス設計は、負荷の計測単位を上述したノード単位、仮想ノード単位及びデータ単位の内、どの単位で実行していたかで、可能なリバランス設計の粒度が、次に記載するように変わる。
即ち、ノード単位の負荷計測の場合、後述のリバランス粒度が粗い場合のみの方式となる。
仮想ノード単位の負荷計測の場合、後述のリバランス粒度が粗い場合及びリバランス粒度が中間(粗いと細かいとの中間)の場合の方式が可能となる。
データ単位の負荷計測の場合、後述のリバランス粒度が粗い場合、中間の場合及び細かい場合の3つ全ての方式が採用可能となる。
まず、リバランス粒度が粗い場合について説明する。
ノード15全体における負荷の総量を、ノード15全ての仮想ノードID数で割った仮想ノード当たりの平均負荷量「Lv_ave」を算出する。次に、ノード15内において最も負荷の高いノード15に着目し、このノード15について解消すべき負荷量の偏差(この偏差の符号は+であることから、プラス偏差ともいう)「Ltarget」を算出する。次に、「Ltarget」を「Lv_ave」で割った値を、解消すべき負荷量を解消するために必要な仮想ノードID数「Vtarget_num」と考える。
このノード15の仮想ノードの中から無作為に「Vtarget_num」の仮想ノードIDを抽出する。この時、「Vtarget_num」に小数が含まれる場合は、上記(T3)にその概要を記載したように、所定の仮想ノードIDの仮想ノードの担当領域を例えば小数に基づき割譲してもよい。これは、例えば「1.5」の場合、仮想ノード1つの担当領域の割譲と、仮想ノード2つ目の担当領域を半分にして割譲することである。更に、小数部分を切り捨てや切り上げ、又は四捨五入する等して整数個の仮想ノードIDを抽出してもよい。
上述したように、無作為に抽出された仮想ノードID「Vtarget_num」の仮想ノードの担当領域中の移譲領域を移譲する際に、全てのノード15の中で、最も負荷の低いノード15から順に移譲していく。この際、移譲によって移譲先のノード15の負荷が高まりすぎないように、許容可能な担当領域の移譲サイズを求める必要がある。
具体的には、移譲先のノード15は、負荷量の偏差(この偏差の符号は−であることから、マイナス偏差ともいう)までは許容可能である。このため、負荷量のマイナス偏差を平均負荷量「Lv_ave」で割った値である負荷量解消に必要な仮想ノードID数「Vget_num1」が、許容可能な仮想ノードID数となる。
ここで、移譲先のノード15の担当領域が許容量を越える場合は、次に負荷の低いノード15について、同様の手順で許容可能な仮想ノードID数「Vget_num2」を求めていき、Vtarget_num<Vget_num1+Vget_num2+…となって、全ての必要な担当領域中の移譲領域の移譲が完了すれば終了となる。
以降同様の処理を、次に負荷の高いノードに対しても実行し、全ての負荷乖離の解消が必要なノード15において、負荷の乖離を是正する担当領域中の移譲領域の移譲が完了するか、若しくは、移譲領域の移譲が可能なノードが存在しなくなるまで実行する。
次に、リバランス粒度が中間の場合について説明する。
基本的に上述したリバランス粒度が粗い場合と同じであるため、粗い場合との差分のみを説明する。
上述したようにノード15の仮想ノードの中から無作為に仮想ノードを抽出するのではなく、解消すべき負荷量のプラス偏差を発生させている仮想ノードを選択的に抽出し、この抽出した仮想ノードの担当領域中の移譲領域を移譲するものとする。この場合、仮想ノード単位で負荷量を計測しているため、計測負荷は粒度が粗い場合よりも高くなるが、負荷の乖離を是正するための移譲領域の移譲を、より正確に行うことが可能となる。
次に、リバランス粒度が細かい場合について説明する。
基本的に上述したリバランス粒度が粗い場合と同じであるため、粗い場合との差分のみを説明する。
上述したようにノード15の仮想ノードの中から無作為に仮想ノードを抽出するのではなく、解消すべき負荷量のプラス偏差を発生させているデータのハッシュ値を選択的に抽出し、そのハッシュ値のみを移譲するものとする。この場合、データ単位で負荷量を計測しているため、計測負荷はリバランス粒度が中間の場合よりも高くなるが、負荷の乖離を是正するための移譲領域の移譲を、より正確に行うことが可能となる。また、移譲の単位も最小化することができる。
リバランス部18eは、リバランスの実行を行うことを決定した後は、負荷の偏りを是正するリバランス設計を考え、振分ID表19bに反映し、全ノード15に送付する。
例えば、図7(a)に示すように、リバランス前の振分ID表19bは、仮想ノードID「Node1−1」に、担当する振分ID空間の担当領域として「0〜199(D=200)」のデータサイズが対応付けられ、「Node2−1」に「200〜399(D=200)」、「Node3−1」に「400〜599(D=200)」、「Node1−2」に「600〜999(D=400)」のデータサイズが対応付けられているとする。
ここで、例えば図7(a)に示す「Node1−2」の仮想ノードの担当領域「600〜999(D=400)」を全て、他の仮想ノードID「Node3_2」の仮想ノードへ移譲するものとする。この場合、図7(b)に示すように、仮想ノードID「Node3_2」の仮想ノードの担当領域が「600〜999(D=400)」のサイズとなる。
また、図7(a)に示す「Node1−2」の仮想ノードの担当領域「600〜999(D=400)」の半分を、他の仮想ノードID「Node3_2」の仮想ノードへ移譲するものとする。この場合、図7(c)に示すように、仮想ノードID「Node1_2」の仮想ノードの担当領域が「600〜799(D=200)」のサイズとなり、仮想ノードID「Node3_2」の仮想ノードの担当領域が「800〜999(D=200)」のサイズとなる。
<第1実施形態の動作>
次に、第1実施形態に係る分散システム10において、ノード15間の負荷の偏りを是正するリバランスを実行する際の動作(第1のリバランス動作)を、図8〜図12を参照して説明する。
まず、リバランスを実行する前提条件について、図8を参照して説明する。図8に示すように、ハッシュ空間を3つのノードA〜Cの□示す仮想ノードA1〜A6,B1〜B5,C1〜C5で分割し、各仮想ノードA1〜A6,B1〜B5,C1〜C5の担当領域を決めて管理している。但し、A〜CはノードIDであり、A1〜A6,B1〜B5,C1〜C5は仮想ノードIDであるとする。
例えば、仮想ノードB1が担当するハッシュ空間(担当領域)は、仮想ノードB1から時計回りに仮想ノードA1までの領域となり、この担当領域に存在するデータを担当仮想ノードB1が保持している。他の仮想ノードA1〜A6,B2〜B5,C1〜C5においても同様である。
また、各仮想ノードA1〜A6,B1〜B5,C1〜C5は、担当領域に負荷データを保持するが、本例では、○記号で示す負荷量が「1」の低負荷データ、◎記号で示す負荷量が「2」の中負荷データ、●記号で示す負荷量が「3」の高負荷データを、任意数保持するものとする。
例えば、仮想ノードB1は、高負荷データ●を3つ保持し、合計「9」の負荷データを保持している。仮想ノードA1であれば、高負荷データ●を2つ、中負荷データ◎を1つ保持し、合計「8」の負荷データを保持している。このように、他の仮想ノードA2〜A6,B2〜B5,C1〜C5においても、負荷データを保持している。
このように各仮想ノードA1〜A6,B1〜B5,C1〜C5が保持する負荷データの表を図9に示す。図9の負荷データ表は、最上段の行欄にノードA,B,Cを示し、最左列に上から順に仮想ノードIDの「1」〜「6」を示した。
但し、最上段行欄のノードAは、担当領域に保持する負荷量が(40)であり、偏差/標準偏差が「+1.39」で閾値「1.2」よりも大きく、高負荷であることを前提条件として示している。ノードBは、負荷量が(21)で、偏差/標準偏差が「−0.93」で閾値「1.2」よりも小さく、中負荷であることを前提条件として示している。ノードCは、負荷量が(25)であり、偏差/標準偏差が「−0.44」で閾値「1.2」よりも小さく、中負荷であることを前提条件として示している。
また、負荷データ表において、ノードAの「1」の欄には、仮想ノードA1の負荷データを示し、本例では、高負荷データ●の負荷量を示す「高(3)」が2つと、中負荷データ◎の負荷量を示す「中(2)」が1つ示してある。この様態は、他のノードA〜Cの仮想ノードA2〜A6,B1〜B5,C1〜C5の欄においても同様である。
また、図10は各ノードA〜Cが保持する負荷量の偏差を表す棒グラフである。この棒グラフに示す各ノードA〜Cの総負荷量は「86」、ノードA〜C当たりの平均負荷量は「28.6」、標準偏差は「8.17」、乖離閾値は「1.2」、仮想ノード数は「16」、仮想ノード当たりの平均負荷量は「5.375」、ノードAの偏差は「+11.4」、ノードBの偏差は「−7.6」、ノードCの偏差は「−3.6」である。
また、各ノードA〜Cの負荷量は、1つのノード(例えばA)の全ての仮想ノードの担当領域の負荷の和と見なすことができる。
このような前提条件において、各ノードA〜Cのリバランスを実行する際の動作を、図11及び図12に示すフローチャートを参照して説明する。
まず、図11に示すステップS1において、所定のノード(A〜Cの何れか)の分散システム負荷リバランス部18eは、所定の周期で各ノードA〜Cから収集したノード負荷計測データ19dに基づき、各ノードA〜Cの負荷の平均値及び標準偏差、偏差並びに偏差/標準偏差の算出を行う。
次に、ステップS2において、リバランス部18eは、上記ステップS1での算出結果を集計データ19e(図6参照)として記憶部19に記録する。
ステップS3において、リバランス部18eは、上記ステップS2で記録したデータ19eに基づき、上述した3つの条件(1)〜(3)の何れか1つを満たすか否かを判定する。この結果、満たさなければ(No)、リバランスの処理を終了する。
一方、その判定の結果、例えば、条件(3)のみを満たした(Yes)とする。この場合、ステップS4において、リバランス部18eは、各ノードA〜Cの偏差/標準偏差と乖離閾値「1.2」とを比較することにより、図10に示すように、ノードAが高負荷ノード「+11.4」、ノードB、Cが中負荷ノード「−7.6」,「−3.6」であることを検知する。これによって、リバランス部18eは、高負荷ノードAの担当領域中の移譲領域を他ノードB,Cに移譲することで負荷の偏りを是正するリバランスの実行準備を行う。
この際、ステップS5において、リバランス部18eは、移譲元ノードの担当領域中の移譲領域のサイズ(=負荷量)を求める。高負荷ノードAで解消すべき負荷の偏りは、ノードAの偏差全てとした場合、「+11.4」である。この偏差を解消するために必要な仮想ノードの担当領域サイズは、偏差「+11.4」÷仮想ノード当たりの平均負荷量「5.375」で求めることができる。即ち、11.4÷5.375=2.12であり、仮想ノードの2.12個分の担当領域中の移譲領域を移譲する必要がある。
次に、ステップS6において、リバランス部18eは、移譲元ノードAの担当領域中の移譲領域を移譲するための、移譲先ノードB,Cの担当領域の許容可能なサイズを求める。移譲先ノードは最も負荷の低いノードBから移譲を受け入れることとし、この移譲先ノードBの許容可能な担当領域サイズは、偏差「−7.6」÷仮想ノード当たりの平均負荷量「5.375」より、仮想ノードの1.41個分となる。また、移譲先ノードBの許容可能な担当領域サイズは、偏差「−3.6」÷仮想ノード当たりの平均負荷量「5.375」より、仮想ノードの0.67個分となる。
次に、図12に示すステップS7において、リバランス部18eは、移譲元ノードAの移譲対象の担当領域、即ち担当領域中の移譲領域を移譲可能な、移譲先ノードB,Cが有るか否かを判定する。この判定は、移譲先ノードB,Cの担当領域の許容可能なサイズが、移譲元ノードAの担当領域中の移譲領域を移譲可能であるか否かを検知して行う。この結果、移譲可能な移譲先ノードB,Cが無ければ(No)、リバランスの処理を終了する。
一方、移譲可能な移譲先ノードB,Cが有れば(Yes)、ステップS8において、リバランス部18eは、移譲元ノードAの担当領域中の移譲領域を、移譲先ノードBへ移譲する。この移譲では、例えば、1.41個分の担当領域の空きを有する移譲先ノードBに、移譲元ノードAから移譲対象が2.12個分の担当領域が移譲されるので、2.12−1.41=0.71個分の仮想ノードが残ることになる。この場合は、仮想ノード単位での移譲である。
これを、図8に示すハッシュ空間においてデータ単位で移譲する場合に置き換えて説明する。例えば、移譲元ノードAにおける仮想ノードA1の「8」の負荷データが、移譲先ノードBにおける負荷量「2」の低負荷の仮想ノードB3へ移譲される。この場合、移譲元ノードAは、11.4−8=3.4の負荷量が残ることになる。
この後、図12に示すステップS9において、リバランス部18eは、移譲元ノードAの担当領域中の移譲領域の残りが有るか否かを判定する。この結果、残りが無ければ(No)、言い換えれば、移譲対象の担当領域が全て移譲完遂されていれば、リバランスの処理を終了する。
一方、上記ステップS9の判定で残り(上記の0.71個分)が有れば(Yes)、ステップS10において、リバランス部18eは、移譲元ノードAの残りの移譲領域が移譲可能な、移譲先ノードが有るか否かを判定する。この結果、移譲先ノードが無ければ(No)、リバランスの処理を終了する。
上記ステップS10の判定の結果、残りの移譲領域が移譲可能な移譲先ノードが有れば(Yes)、ステップS11において、リバランス部18eは、移譲元ノードAの残り(0.71個分)の移譲領域を、上記ステップS9で存在が認められた移譲先ノードCへ移譲する。この移譲により、移譲元ノードAには、0.71−0.67=0.04個分が残る。
この後、上記ステップS9に戻って、リバランス部18eは、移譲元ノードAの担当領域中の移譲領域の残りが有るか否かを判定する。この場合、上記0.04個分の残りが有るので(Yes)、ステップS10において、リバランス部18eは、移譲元ノードAの残りの移譲領域が移譲可能な、移譲先ノードが有るか否かを判定する。この場合、ノードB,C以外に、移譲可能なノードは無いので(No)、リバランスの処理を終了する。ここで、リバランス処理は終了となるが、移譲元ノードAには仮想ノードの0.04個分の負荷しか残っていないので、ノードA〜C間の負荷の乖離が低減されたことになる。
但し、以上の内容では、移譲元ノードAの移譲可能な負荷量を、平均負荷量からの差分(例えばノードAでは「+11.4」)としたが、任意に定めてもよい。例えば、移譲可能な負荷量を「+5」としてもよい。
<第1実施形態の効果>
以上説明した第1実施形態の分散システム10は、通信サービスを利用する複数のクライアントマシン11にネットワーク12を介して接続されたロードバランサ13によりクライアント11からの情報が振り分けられる複数のノード15を有して構成されている。
第1実施形態の特徴は、ノード15にリバランス部18eを備えたことである。このリバランス部18eは、全ノード15の負荷量の標準偏差、及び偏差/標準偏差を求める。次に、リバランス部18eは、ノード15の負荷が予め定められた上限値を超えたことを示す条件(1)、全ノード15の負荷の標準偏差が予め定められた第1閾値を超えていることを示す条件(2)、ノード毎の偏差/標準偏差が予め定められた第2閾値を超えていることを示す条件(3)の何れか1つの条件を満たすか否かを判断する。満たすと判断された場合に、リバランス部18eは、ノード15が負荷を保持可能な担当領域のうち所定の負荷容量の移譲領域を、ノード15間の負荷量の乖離が抑制されるように、負荷の高い移譲元ノード(例えばノードA)から負荷の低い移譲先ノード(例えばノードB)へ移譲する処理を行うようにした。なお、リバランスの条件として、上記の他、条件(1)〜(3)の内、何れか複数を満たすことを条件としてもよい。
これによって、上述した条件(1)〜(3)の何れか1つ又は何れか複数の条件を満たした場合に、ノードの担当領域中の所定の負荷容量の移譲領域を、負荷の高いノードから負荷の低いノードへ移譲するので、手間を掛けずに、ノード間の負荷量の乖離を低減することができる。従って、効率良くリバランスを行うことができる。
また、リバランス部18eは、移譲元ノードAの担当領域の移譲領域を移譲可能な負荷容量を有する移譲先ノードBが有る場合に、当該担当領域を移譲先ノードBへ移譲するようにした。
これによって、その移譲領域を移譲可能な負荷容量を有する移譲先ノードBが有る場合にのみ、担当領域を移譲するので、リバランスを実行するか否かの判断を、手間を掛けずに行うことができる。
リバランス部18eは、移譲元ノードAの担当領域の移譲領域を移譲先ノードBへ移譲する際に、当該移譲領域が全て移譲完遂されるか、当該移譲領域が移譲可能な移譲先ノードbが存在しなくなるまで移譲を行うようにした。
これによって、ノード15間の負荷量の乖離を無くす、又は低減することができる。
<第2実施形態の構成>
本発明の第2実施形態に係る分散システムについて説明する。第2実施形態の分散システムが、第1実施形態の分散システム10と異なる点は、分散システム負荷リバランス部18eが行うリバランス処理の違いにある。
第2実施形態の特徴は、リバランス部18eが次の処理を行うようにした。即ち、分散システム10の各ノード15のリソースの総量(負荷の総量)が、使用リソース量(使用負荷量)に対して十分であるにも関わらず、使用リソース量に偏りが生じているとする。この際に、リバランス部18eが、第1実施形態のように担当領域中の移譲領域を移譲する対象ノードや、該当ノード15の適切な移譲サイズを指定することなく、各ノード15が持つ仮想ノード数を、ノード15毎の現状の負荷の状況に応じて、ノード15毎に必要な負荷量とする仮想ノード数に再設定するリバランスを行うようにした。
この際、リバランス部18eは、各ノード15の仮想ノード数を、負荷の状況に合わせて下式(1)により算出し、この算出された各ノード15の仮想ノード数に基づきリバランスする。
このリバランスにおいては、算出された仮想ノード数に基づき、各仮想ノードの振分ID空間の先頭から仮想ノードIDと振分ID空間の再マッピングを行う。再マッピングは、担当領域の総延長(総サイズ)を算出した仮想ノード数で除し、1仮想ノード当たりの振分ID空間サイズを求め、振分ID空間の先頭から新たな振分ID空間サイズ毎に、仮想ノードID毎の仮想ノード数を再設定していく。
リバランス後の仮想ノード数=現状の仮想ノード数×(全ノードの負荷の平均値/該当ノードの負荷の実測値) …(式1)
但し、式(1)中の「該当ノードの負荷の実測値」は、現状の仮想ノードを有するノードの負荷の実測値である。また、式(1)はリバランス部18eの図示せぬ記憶部に保持されるものとする。
第2実施形態のリバランス処理について具体的に説明する。
リバランス部18eは、まず、自ノード15が持つ仮想ノード数を再設定する。この再設定の処理を図13(a)及び(b)を参照して説明する。但し、図13(a)及び(b)に示す仮想ノードID「Node1−1」,「Node1−2」は、ノードID「Node1」のノード1(図示せず)に従属する仮想ノード1−1,1−2(図示せず)に対応するものとする。他の仮想ノードIDにおいても同様であり、例えば、仮想ノードID「Node5−1」,「Node5−2」,「Node5−3」は、ノードID「Node5」のノード5(図示せず)に従属する仮想ノード5−1,5−2,5−3(図示せず)に対応するものとする。
図13(a)に示す振分ID表19bには、仮想ノードID「Node1−1」に、担当する振分ID空間の担当領域として「0〜199(D=200)」のデータサイズが対応付けられ、「Node1−2」に、「200〜399(D=200)」のデータサイズが対応付けられている。他の仮想ノードIDにおいても図示する通りである。
更に、各ノード1〜5の仮想ノード数は、ノード1の仮想ノード数が2個、ノード2の仮想ノード数が1個、ノード3の仮想ノード数が1個、ノード4の仮想ノード数が2個、ノード5の仮想ノード数が2個である。
このような条件において、リバランス部18eは、自ノード1〜5が持つ仮想ノード数を現状の負荷の状況に応じて、必要な負荷量に再設定する。以降、この再設定の処理について説明する。
まず、リバランス部18eは、各ノード1〜5の仮想ノード数を変更する。例えば、各ノード1〜5の現状の仮想ノード数は、図13(a)に示すように、ノード1が2個、ノード2が1個、ノード3が1個、ノード4が2個、ノード5が2個の合計8個である。これを、各ノード1〜5の負荷の現状に応じて、図13(b)に示すように、ノード1が1個、ノード2が2個、ノード3が2個、ノード4が2個、ノード5が3個の合計10個に変更する。
この仮想ノード数の変更を行う場合に上記式(1)を用いる。仮想ノード数の変更は、例えば図13(a)に示す各ノード1〜5の個数「2個、1個、1個、2個、2個」=8個を、図13(b)に示す各ノード1〜5の個数「1個、2個、2個、2個、3個」=10個に変更することである。
図13(a)の現状では、全ノード1〜5のハッシュ空間サイズ(担当領域のサイズ)は「0〜1599」の1600であり、仮想ノード数は8個なので、仮想ノード当たりの担当領域のサイズDは、1600÷8=200である。このD=200の担当領域のサイズの内、該当ノード1の負荷の実測値は、例えば「80」や「150」のようになる。このような全ノード1〜5の実測値から、全ノード1〜5の負荷の平均値が求められるので、その平均値及び実測値を上記式(1)に代入する。
例えば、仮想ノードID=「Node1−1」の振分ID空間の担当領域(サイズD=200)では負荷の実測値が「140」、「Node1−2」では負荷の実測値が「160」であるとすると、ノード1の負荷の実測値は「300」である。この際、全ノード1〜5の負荷の平均値が「150」とする。この場合、ノード1のリバランス後の仮想ノード数は、2×(150/300)=1となる。同様に、他のノード2〜5においてもリバランス後の仮想ノード数を求め、各ノード1〜5の仮想ノード数を、その求められた仮想ノード数に変更する。但し、式(1)に当て嵌めた計算結果が、1.6等の小数点を伴う場合、切り上げ、切り捨て、四捨五入とすることを予め決めておく。
次に、リバランス部18eは、仮想ノード当たりのハッシュ空間サイズを変更する。図13(a)に示す現状では、上述したように、仮想ノード当たりのハッシュ空間サイズDは、1600÷8=200である。
これを、上述した変更後の仮想ノード数=10個を用いると、仮想ノード当たりのハッシュ空間サイズは、1600÷10=160となる。このハッシュ空間サイズを用いて、図13(b)に示すように、1個当たりの仮想ノードのハッシュ空間サイズDを「160」とする。
次に、リバランス部18eは、その変更後のハッシュ空間サイズD=「160」の仮想ノードを、前述で変更した後の各ノード1〜5の仮想ノード数だけ割り振って行く。即ち、ノード1では変更後の仮想ノードが1個なので、図13(b)に示すように、ノード1において、変更後のハッシュ空間サイズD=「160」の仮想ノード{仮想ノードID「Node1−1」}が1個割り振られる。
同様に、ノード2では変更後の仮想ノードが2個なので、サイズD=「160」の仮想ノード{仮想ノードID「Node2−1,Node2−2」}が2個割り振られる。以降、同様に図示するように、ノード3〜5まで変更後の仮想ノード2個〜3個が割り振られる。
<第2実施形態の効果>
以上説明した第2実施形態の分散システムの特徴は、ノード15のリバランス部18eが、上述した式(1)を保持する。更に、リバランス部18eは、ノード15毎の負荷の状況に応じた、現状の仮想ノード数、全ノード15の負荷の平均値、当該現状の仮想ノードを有するノード15の負荷の実測値を求め、これら求めた数値を式(1)に当て嵌めることにより、ノード15毎に持つ仮想ノード数を算出する。そして、リバランス部18eは、現状の仮想ノードの仮想ノード当たりの負荷容量を変更し、この変更後の負荷容量を有する仮想ノードが、算出された仮想ノード数だけ存在するように、該当ノード15に割り当てるリバランスを行うようにした。
これによって、リバランス部18eが、担当領域中の移譲領域を移譲する対象ノード15や、該当ノード15の適切な移譲サイズを指定することなく、各ノード15が持つ仮想ノード数を、ノード15毎の現状の負荷の状況に応じて、必要な負荷量とするための仮想ノード数とすることができる。つまり、自ノード15の必要負荷量に適合したリバランスを行うことができる。
その他、具体的な構成について、本発明の主旨を逸脱しない範囲で適宜変更が可能である。
10 分散システム
11 クライアントマシン
12 ネットワーク
13 ロードバランサ
14 クラスタ
15 ノード
18 制御部
18a ノード識別子管理部
18b 振分部
18c 信号処理部
18d ノード負荷計測部
18e 分散システム負荷リバランス部
19 記憶部
19a ノード識別子管理表
19b 振分ID表
19c データ
19d ノード負荷計測データ
19e 分散システム負荷集計データ
19f 呼制御状態フラグ

Claims (8)

  1. 通信サービスを利用する複数のクライアントマシンからの情報がネットワークを介して振り分けられる複数のノードを有する分散システムであって、
    前記ノードは、
    前記ネットワークに接続された前記ネットワークに接続された全ノードの負荷量の標準偏差、及び偏差を標準偏差で除した値を求め、
    前記ノードの負荷が予め定められた上限値を超えたことを示す第1条件、前記全ノードの負荷の前記標準偏差が予め定められた第1閾値を超えていることを示す第2条件、前記ノード毎の前記偏差を標準偏差で除した値が予め定められた第2閾値を超えていることを示す第3条件の何れか1つ又は何れか複数の条件を満たす場合に、
    前記ノードが負荷を保持可能な担当領域のうち所定の負荷容量の移譲領域を、前記ノード間の負荷量の乖離が抑制されるように、負荷の高い移譲元ノードから負荷の低い移譲先ノードへ移譲する処理を行うリバランス部
    を備えることを特徴とする分散システム。
  2. 前記リバランス部は、前記移譲元ノードの前記移譲領域を移譲可能な負荷容量を有する前記移譲先ノードが有る場合に、当該移譲領域を当該移譲先ノードへ移譲する
    ことを特徴とする請求項1に記載の分散システム。
  3. 前記リバランス部は、前記移譲元ノードの前記移譲領域を前記移譲先ノードへ移譲する際に、当該移譲領域が全て移譲完遂されるか、当該移譲領域が移譲可能な移譲先ノードが存在しなくなるまで移譲を行う
    ことを特徴とする請求項1又は2に記載の分散システム。
  4. 通信サービスを利用する複数のクライアントマシンからの情報がネットワークを介して振り分けられる複数のノードを有する分散システムであって、
    前記ノードは、記憶部に以下の数式(1)を記憶しており、

    仮想ノード数=現状の仮想ノード数×(全ノードの負荷の平均値/現状の仮想ノードを有するノードの負荷の実測値)…数式(1)

    前記ノード毎の負荷の状況に応じて、現状の仮想ノード数、全ノードの負荷の平均値、当該現状の仮想ノードを有するノードの負荷の実測値を求め、これら求めた数値を前記数式(1)に当て嵌めることにより、前記ノード毎に持つ仮想ノード数を算出し、
    前記現状の仮想ノードの仮想ノード当たりの負荷容量を変更し、この変更後の負荷容量を有する仮想ノードが、前記算出された仮想ノード数だけ存在するように、該当ノードに仮想ノードを割り当てるリバランスを行うリバランス部
    を備えることを特徴とする分散システム。
  5. 通信サービスを利用する複数のクライアントマシンからの情報がネットワークを介して振り分けられる複数のノードを有する負荷分散方法であって、
    前記ノードは、
    前記ネットワークに接続された前記ネットワークに接続された全ノードの負荷量の標準偏差、及び偏差を標準偏差で除した値を求めるステップと、
    前記ノードの負荷が予め定められた上限値を超えたことを示す第1条件、前記全ノードの負荷の前記標準偏差が予め定められた第1閾値を超えていることを示す第2条件、前記ノード毎の前記偏差を標準偏差で除した値が予め定められた第2閾値を超えていることを示す第3条件の何れか1つ又は何れか複数の条件を満たすか否かを判定するステップと、
    前記何れか1つ又は何れか複数の条件を満たす場合に、前記ノードが負荷を保持可能な担当領域のうち所定の負荷容量の移譲領域を、前記ノード間の負荷量の乖離が抑制されるように、負荷の高い移譲元ノードから負荷の低い移譲先ノードへ移譲する処理を行うステップと
    を実行することを特徴とする負荷分散方法。
  6. 通信サービスを利用する複数のクライアントマシンからの情報がネットワークを介して振り分けられる複数のノードを有する負荷分散方法であって、
    前記ノードは、
    記憶部に以下の数式(1)を記憶しており、

    仮想ノード数=現状の仮想ノード数×(全ノードの負荷の平均値/現状の仮想ノードを有するノードの負荷の実測値)…数式(1)

    前記ノード毎の負荷の状況に応じて、現状の仮想ノード数、全ノードの負荷の平均値、当該現状の仮想ノードを有するノードの負荷の実測値を求め、これら求めた数値を前記数式(1)に当て嵌めることにより、前記ノード毎に持つ仮想ノード数を算出するステップと、
    前記現状の仮想ノードの仮想ノード当たりの負荷容量を変更し、この変更後の負荷容量を有する仮想ノードが、前記算出された仮想ノード数だけ存在するように、該当ノードに仮想ノードを割り当てるリバランスを行うステップと
    を実行することを特徴とする負荷分散方法。
  7. 通信サービスを利用する複数のクライアントマシンからの情報がネットワークを介して振り分けられる複数のノードを有する分散システムの当該ノードとしてのコンピュータを、
    前記ネットワークに接続された前記ネットワークに接続された全ノードの負荷量の標準偏差、及び偏差を標準偏差で除した値を求める手段、
    前記ノードの負荷が予め定められた上限値を超えたことを示す第1条件、前記全ノードの負荷の前記標準偏差が予め定められた第1閾値を超えていることを示す第2条件、前記ノード毎の前記偏差を標準偏差で除した値が予め定められた第2閾値を超えていることを示す第3条件の何れか1つ又は何れか複数の条件を満たすか否かを判定する手段、
    前記何れか1つ又は何れか複数の条件を満たす場合に、前記ノードが負荷を保持可能な担当領域のうち所定の負荷容量の移譲領域を、前記ノード間の負荷量の乖離が抑制されるように、負荷の高い移譲元ノードから負荷の低い移譲先ノードへ移譲する処理を行う手段
    として機能させるためのプログラム。
  8. 通信サービスを利用する複数のクライアントマシンからの情報がネットワークを介して振り分けられる複数のノードを有する分散システムの当該ノードとして記憶部に以下の数式(1)を記憶しているコンピュータを、

    仮想ノード数=現状の仮想ノード数×(全ノードの負荷の平均値/現状の仮想ノードを有するノードの負荷の実測値)…数式(1)

    前記ノード毎の負荷の状況に応じて、現状の仮想ノード数、全ノードの負荷の平均値、当該現状の仮想ノードを有するノードの負荷の実測値を求め、これら求めた数値を前記数式(1)に当て嵌めることにより、前記ノード毎に持つ仮想ノード数を算出する手段、
    前記現状の仮想ノードの仮想ノード当たりの負荷容量を変更し、この変更後の負荷容量を有する仮想ノードが、前記算出された仮想ノード数だけ存在するように、該当ノードに仮想ノードを割り当てるリバランスを行う手段
    として機能させるためのプログラム。
JP2015031180A 2015-02-20 2015-02-20 分散システム、負荷分散方法及びプログラム Active JP6325995B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015031180A JP6325995B2 (ja) 2015-02-20 2015-02-20 分散システム、負荷分散方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015031180A JP6325995B2 (ja) 2015-02-20 2015-02-20 分散システム、負荷分散方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2016153929A true JP2016153929A (ja) 2016-08-25
JP6325995B2 JP6325995B2 (ja) 2018-05-16

Family

ID=56761208

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015031180A Active JP6325995B2 (ja) 2015-02-20 2015-02-20 分散システム、負荷分散方法及びプログラム

Country Status (1)

Country Link
JP (1) JP6325995B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020071840A (ja) * 2018-11-02 2020-05-07 日本電信電話株式会社 負荷平準化装置、負荷平準化方法および負荷平準化プログラム
CN115695434A (zh) * 2022-09-28 2023-02-03 聚好看科技股份有限公司 一种负载均衡方法、装置和电子设备

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10283330A (ja) * 1997-04-04 1998-10-23 Hitachi Ltd 並列計算機の負荷分散制御方法
JP2002351853A (ja) * 2001-05-28 2002-12-06 Fujitsu Ltd ロード・バランス方式
US20070192382A1 (en) * 2006-02-15 2007-08-16 Sony Computer Entertainment America Inc. Systems and methods for server management
JP2009527056A (ja) * 2006-02-15 2009-07-23 ソニー・コンピュータ・エンタテインメント・アメリカ・インク サーバ管理システムおよび方法
JP2011150472A (ja) * 2010-01-20 2011-08-04 Nec Software Chubu Ltd ウェブサービスシステム、サーバ選択基準決定装置、サーバ選択基準決定方法およびプログラム
JP2012123544A (ja) * 2010-12-07 2012-06-28 Nippon Hoso Kyokai <Nhk> 負荷分散装置及びプログラム
JP2014032578A (ja) * 2012-08-06 2014-02-20 Nec Corp 分散ストレージシステム、分散ストレージデータ配置制御方法及び分散ストレージデータ配置制御用プログラム
JP2014164554A (ja) * 2013-02-26 2014-09-08 Nippon Telegr & Teleph Corp <Ntt> 負荷分散判定システム
JP2014186364A (ja) * 2013-03-21 2014-10-02 Kddi Corp 分散システム

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10283330A (ja) * 1997-04-04 1998-10-23 Hitachi Ltd 並列計算機の負荷分散制御方法
JP2002351853A (ja) * 2001-05-28 2002-12-06 Fujitsu Ltd ロード・バランス方式
US20070192382A1 (en) * 2006-02-15 2007-08-16 Sony Computer Entertainment America Inc. Systems and methods for server management
JP2009527056A (ja) * 2006-02-15 2009-07-23 ソニー・コンピュータ・エンタテインメント・アメリカ・インク サーバ管理システムおよび方法
JP2011150472A (ja) * 2010-01-20 2011-08-04 Nec Software Chubu Ltd ウェブサービスシステム、サーバ選択基準決定装置、サーバ選択基準決定方法およびプログラム
JP2012123544A (ja) * 2010-12-07 2012-06-28 Nippon Hoso Kyokai <Nhk> 負荷分散装置及びプログラム
JP2014032578A (ja) * 2012-08-06 2014-02-20 Nec Corp 分散ストレージシステム、分散ストレージデータ配置制御方法及び分散ストレージデータ配置制御用プログラム
JP2014164554A (ja) * 2013-02-26 2014-09-08 Nippon Telegr & Teleph Corp <Ntt> 負荷分散判定システム
JP2014186364A (ja) * 2013-03-21 2014-10-02 Kddi Corp 分散システム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
鶴田泰、樫本義文、岡本光浩: "「分散サーバシステムにおけるノード負荷分散最適化方式」", 電子情報通信学会2014年総合大会講演論文集 通信2, JPN6018004316, 4 March 2014 (2014-03-04), JP, pages 259, ISSN: 0003735001 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020071840A (ja) * 2018-11-02 2020-05-07 日本電信電話株式会社 負荷平準化装置、負荷平準化方法および負荷平準化プログラム
WO2020090777A1 (ja) * 2018-11-02 2020-05-07 日本電信電話株式会社 負荷平準化装置、負荷平準化方法および負荷平準化プログラム
JP7014130B2 (ja) 2018-11-02 2022-02-01 日本電信電話株式会社 負荷平準化装置、負荷平準化方法および負荷平準化プログラム
CN115695434A (zh) * 2022-09-28 2023-02-03 聚好看科技股份有限公司 一种负载均衡方法、装置和电子设备

Also Published As

Publication number Publication date
JP6325995B2 (ja) 2018-05-16

Similar Documents

Publication Publication Date Title
US20230379381A1 (en) Load balanced network file accesses
US9294408B1 (en) One-to-many stateless load balancing
JP5514041B2 (ja) 識別子割当て方法及びプログラム
JP6428012B2 (ja) 分散処理プログラム、分散処理管理装置及び分散処理方法
US20130332608A1 (en) Load balancing for distributed key-value store
US8713125B2 (en) Method and system for scaling usage of a social based application on an online social network
US20180241843A1 (en) Adjusting cloud-based execution environment by neural network
CN107026907A (zh) 一种负载均衡方法、负载均衡器及负载均衡系统
KR20170029263A (ko) 부하 분산 장치 및 방법
JP2012079242A (ja) 複合イベント分散装置、複合イベント分散方法および複合イベント分散プログラム
CN105515977B (zh) 获取网络中传输路径的方法、装置和系统
JPWO2018220708A1 (ja) 資源割当システム、管理装置、方法およびプログラム
US11128698B2 (en) Producer system registration
US9369518B2 (en) Producer system partitioning among leasing agent systems
JP2014186364A (ja) 分散システム
CN102932271A (zh) 负载均衡的实现方法和装置
JP6116102B2 (ja) クラスタシステム、および、負荷分散方法
JP6325995B2 (ja) 分散システム、負荷分散方法及びプログラム
JP5154313B2 (ja) Sipメッセージ振分方法およびsipメッセージ振分装置
CN106878356B (zh) 一种调度方法及计算节点
CN108200185B (zh) 一种实现负载均衡的方法及装置
JP2017146848A (ja) リバランス装置、リバランス方法、及びプログラム
JP6383336B2 (ja) サーバ管理装置およびサーバ管理方法
JP6259408B2 (ja) 分散処理システム
JP5526748B2 (ja) パケット処理装置、パケット振り分け装置、制御プログラム及びパケット分散方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170224

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20171208

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180206

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180316

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180410

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180413

R150 Certificate of patent or registration of utility model

Ref document number: 6325995

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150