JP5711771B2 - ノード離脱処理システム - Google Patents

ノード離脱処理システム Download PDF

Info

Publication number
JP5711771B2
JP5711771B2 JP2013014030A JP2013014030A JP5711771B2 JP 5711771 B2 JP5711771 B2 JP 5711771B2 JP 2013014030 A JP2013014030 A JP 2013014030A JP 2013014030 A JP2013014030 A JP 2013014030A JP 5711771 B2 JP5711771 B2 JP 5711771B2
Authority
JP
Japan
Prior art keywords
node
data
data migration
processing
identifier
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2013014030A
Other languages
English (en)
Other versions
JP2014146151A (ja
Inventor
絵里子 岩佐
絵里子 岩佐
道生 入江
道生 入江
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2013014030A priority Critical patent/JP5711771B2/ja
Publication of JP2014146151A publication Critical patent/JP2014146151A/ja
Application granted granted Critical
Publication of JP5711771B2 publication Critical patent/JP5711771B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、ネットワーク上に分散配置されるノードをクラスタ化してデータを格納する分散処理システムにおいて、その分散処理システムを構成するノードを離脱させる際に、データの一貫性を保証するノード離脱処理システムに関する。
近年、クラウドコンピューティングの隆盛に伴い、多量のデータの処理や保持を効率的に行うことが求められている。そこで、複数のサーバを協調動作させることにより効率的な処理を実現する分散処理技術が発展している。
分散処理を行う際には、クラスタを構成する各サーバ(以下、「ノード」または「クラスタメンバ」と称する。)が担当するデータを決定する必要がある。このとき、クラスタ全体での処理能力を高めるためには、各ノードが担当するデータ数(データ量)は平均化されていることが望ましい。
代表的なデータの管理手法として、各データのkeyをハッシュ関数にかけた値(以下、「hash(key)」と称する。)をノード数Nで割った余り、すなわち「hash(key) mod N」を番号として持つノードがデータを管理する手法がある。この場合、各ノードに事前に「0」から「N−1」までの番号を割り当てていることが前提となる。このような管理手法を用いた場合、ノードを追加・離脱すると、Nの値が変化して、多くのデータについて、そのデータの保存を担当するノードが変更になるため、担当するデータを再配置することが必要になる。
そこで、ノードの追加・離脱に伴い担当するクラスタメンバが変更になるデータ数を約1/Nに抑える方法として、コンシステントハッシュ(Consistent Hashing)法(非特許文献1参照)を用いた管理手法がある。このコンシステントハッシュ法は、Amazon Dynamo(非特許文献2参照)等で用いられる。
このコンシステントハッシュ法を用いたデータ管理手法では、ノードとデータの双方にID(IDentifier)を割り当てる。そして、データのIDから閉じたID空間を時計回りに辿った場合に最初に出合ったノードをそのデータの担当とする。ノードに対するIDの与え方の例としては、IPアドレスをハッシュ関数にかけた値(hash(IPアドレス))が挙げられる。
クラスタ構成の分散処理システムでは、各ノードの処理性能が等しい場合には、各ノードが担当するデータ量を等しくする、すなわち、コンシステントハッシュ法のID空間における、ノード間の距離(以下、「ノードの担当領域」と称する。)を等しくすることが望ましい。この点を解決するため、各ノードに仮想的に複数のIDを持たせる手法が用いられている(非特許文献1参照)。各ノードが複数の仮想IDを持つことで、仮想ID毎の担当領域は異なっていても、大数の法則に従いノードの担当領域は平均化される。
多数のデータ管理をクラスタ構成の分散処理システムで実行する場合、あるノードに障害が発生した場合でも他のノードで処理が継続できるように、データの複製を保持することでデータの冗長化を実現している。コンシステントハッシュ法によるデータ管理手法を用いた分散処理システムにおいても、データの冗長化が必要であり、図11に示すような複製データの配置方式をとるものがある。なお、以下に示す本発明の実施形態では、図11に示す複製データの配置方式を用いた場合を一例として説明している。
図11に示すように、コンシステントハッシュ法では、ノード(ノード「1」〜「4」)とデータ(データA〜D。黒丸(●)で表示)の双方にIDを割り当て、データのIDからID空間を時計回りに辿り最初に出合ったノードをそのデータの担当として決定する。そして、担当するノードのさらに右隣(時計回りに次)のノードに複製データを担当させる。
例えば、図11において、データAについては、ID空間上を時計回りに辿り最初に出合ったノード「1」が担当となり、その複製データについては、ID空間上でノード「1」の右隣にあたるノード「2」に担当させることとなる。このように原本データ・複製データを担当するノードを決定することで、ノードが離脱した場合でも複製データを所持しているノードが新しくデータを担当するノードとなることにより処理を継続できるという利点がある。なお、複製データを複数個とる場合には、複製データを担当するノードのさらに右隣のノードに複製データを担当させるようにする。また、原本データを格納し管理するノードを、以下、「所有者ノード」と称することがあり、複製データを格納し管理するノードを、以下、「複製ノード」または「バディ」と称することがある。
David karger et al.,"Consistent Hashing and Random Trees:Distributed Caching Protocols for Relieving Hot Spots on the World Wide Web",[online],1997,ACM,[平成25年1月11日検索],インターネット<URL:http://www.akamai.com/dl/technical_publications/ConsistenHashingandRandomTreesDistributedCachingprotocolsforrelievingHotSpotsontheworldwideweb.pdf> Giuseppe DeCandia,et al.,"Dynamo: Amazon’s Highly Available Key-value Store," SOSP’07, October 14-17, 2007, Stevenson, Washington, USA,[online]、[平成25年1月11日検索]、インターネット<URL:http://www.allthingsdistributed.com/files/amazon-dynamo-sosp2007.pdf>
コンシステントハッシュ法によるデータ管理手法は、クラスタを構成するノードの追加や離脱に伴うデータの移行が全データに対する一部のデータに限られるため、クラスタ構成の動的な変更(ノードの追加・離脱)が頻繁に起こるシステムに対して有効である。この特性を活かし、トラヒック変化や管理するデータ量の変化に対して、ノードの追加や離脱を柔軟に行いリソースの利用効率を上げることが可能である。
ここで、コンシステントハッシュ法によるデータ管理手法を用い、図11に示すような複製データの配置方式を採用する分散システムにおいて、サービス運用者等が保守的な観点からノードを離脱させるケースを考える。なお、保守的な観点とは、分散システムにおいて処理するトラヒックの減少等に伴い余裕が生まれた処理能力を削減する場合やメンテナンス等によりノードを離脱させる場合等である。
従来、分散システムを構成するノードを離脱させる場合においては、システム上に存在するデータ(原本データおよび複製データ)の一貫性を厳密に保証することは現実的に困難であり、データの一貫性が崩れるタイミングを避けることはできないという問題がある。すなわち、ノードの障害発生時と同様に冗長管理された複製データを利用してサービスを継続させることを考えると、ノード離脱後にデータの一貫性が保証できず、処理が失敗するケースが起こる可能性がある。
図12は、クラスタを構成するノードが離脱する場合において、データの一貫性が保証されないケースを説明するための図である。図12(a)に示す場合には、ノード「A」でデータXの更新処理が完了し、その後更新されたデータXをノード「B」に複製した後、ノード「A」がクラスタを離脱している。この場合、その後のデータXに関するリクエストは、更新されたデータXを保存するノード「B」により処理されるため、データの一貫性が保たれる。
これに対し、図12(b)に示す場合は、ノード「A」の離脱が、データXの更新前に実行されることを示す。クラスタを構成するノードの離脱のタイミングには制限がないため、このようなケースが発生し得る。この場合、ノード「A」が更新されたデータをノード「B」に複製する前にノード「A」が離脱したため、その後にデータXに関するリクエストがノード「B」において処理されるときに、ノード「B」には更新前のデータXしか存在しないため、データの一貫性が保証されない。
このような背景を鑑みて本発明がなされたのであり、本発明は、クラスタを構成するノードを、そのクラスタ内におけるデータの一貫性を保証した上で離脱させることができるノード離脱処理システムを提供することを課題とする。
前記した課題を解決するため、請求項1に記載の発明は、1つ以上の振り分け装置が振り分けたメッセージを受信する複数のノードにより構成されるクラスタと、前記クラスタを構成する複数のノードの中から離脱対象のノードを決定し、前記クラスタから離脱させる制御を行うシステム保守手段とを備えるノード離脱処理システムであって、前記複数のノードのそれぞれは、クライアントにサービスを提供するためのデータを原本データとして記憶する所有者ノード、または、前記データの複製データを記憶する複製ノードとして機能することにより前記クラスタを構成しており、前記システム保守手段が、前記離脱対象のノードを決定して、前記離脱対象のノードに固有な識別子であるノード識別子を含むノード離脱開始メッセージを生成し、前記決定した離脱対象のノードが離脱したと仮定した場合の新たな前記所有者ノードおよび前記複製ノードに前記データを移行させる処理を要求するデータ移行要求を生成する、ノード離脱制御部を備え、前記複数のノードそれぞれが、前記ノードに固有な識別子であるノード識別子を、前記データと前記所有者ノードおよび前記複製ノードとに対応付ける共に、前記ノード識別子に示されるノードが離脱対象のノードであるか否かを示すフラグを設けたノード識別子管理情報が記憶される記憶部と、前記原本データを記憶する前記所有者ノードのノード識別子および前記複製データを記憶する前記複製ノードのノード識別子を、前記原本データおよび前記複製データそれぞれに、ノード情報として付与するノード情報付与部と、前記システム保守手段から、前記ノード離脱開始メッセージを受信した場合に、前記離脱対象のノードのノード識別子に基づき、前記ノード識別子管理情報における前記離脱対象のノードについての前記フラグを設定する第1のノード識別子管理部と、前記システム保守手段から、前記データ移行要求を受信した場合に、自身が記憶している原本データを、データ移行が必要か否かの判定対象となる判定対象データとして抽出するデータ抽出部と、前記抽出した判定対象データについて、前記フラグが設定されたノード識別子管理情報に基づき、前記離脱対象のノードが離脱されたものとして、前記所有者ノードおよび前記複製ノードを特定し、前記特定した所有者ノードおよび複製ノードそれぞれのノード識別子が、前記ノード情報と比較して一致しない場合に、当該抽出した判定対象データを、前記データ移行が必要なデータを示すデータ移行対象データとして検出し、前記検出したデータ移行対象データを、前記特定した所有者ノードおよび複製ノードに移行するデータ移行処理部と、を備えることを特徴とするノード離脱処理システムとした。
このように、ノード離脱処理システム内の複数のノードそれぞれが備えるノード識別子管理テーブルに、そのノードが離脱対象のノードであるか否かを示すフラグを設ける。そして、クラスタを構成する各ノードは、システム保守手段から、ノード離脱開始メッセージを受信すると、離脱対象のノードについてフラグを設定する。各ノードは、システム保守手段からデータ移行要求を受信し、フラグが設定されたノード識別子管理テーブルを参照して、離脱対象のノードが離脱されたものとして移行対象となるデータ(データ移行対象データ)を検出し、データ移行を実行する。
このようにすることで、ノード離脱処理システムは、クラスタを構成する複数のノードのうちのいずれかを、故障等での離脱ではなくサービス運用者等が保守契機で離脱させる際に、ノード離脱後の適切なデータ配置にデータ(データ移行対象データ)を移行させた後に、離脱対象のノードを離脱させる。よって、クラスタを構成する各ノードおけるデータの一貫性を保証した上で、離脱対象のノードを離脱させることができる。
請求項2に記載の発明は、前記複数のノードそれぞれが、前記データ移行処理部が前記検出したデータ移行対象データを前記特定した所有者ノードおよび複製ノードに移行する、データ移行処理の実行中において、前記クライアントから前記メッセージを受信した場合に、前記メッセージの対象となるデータが前記データ移行対象データか否かを、当該データに付された前記ノード情報を参照して判定し、当該データが前記データ移行対象データであるときに、当該データの前記データ移行処理を実行するメッセージ処理部を、さらに備えることを特徴とする請求項1に記載のノード離脱処理システムとした。
このようにすることで、ノード離脱処理システムの複数のノードそれぞれは、メッセージを受信したことにより、それ以降も利用可能性が高いと予測されるデータについて、そのデータに関するメッセージ処理を実行すると共に、データ移行処理を行い、データの適正な配置を迅速に達成することができる。
請求項に記載の発明は、前記ノード離脱処理システムは、さらに前記1つ以上の振り分け装置を備えており、前記振り分け装置が、前記ノード識別子管理情報が記憶される記憶部と、前記システム保守手段から、前記ノード離脱開始メッセージを受信した場合に、前記離脱対象のノードのノード識別子に基づき、前記ノード識別子管理情報における前記離脱対象のノードについての前記フラグを設定する第2のノード識別子管理部と、前記フラグが設定された前記ノード識別子管理情報に基づき、前記離脱対象のノードが離脱されたものとして、前記メッセージの振り分け先となる前記ノードを決定し、前記クライアントから受信した前記メッセージを前記決定したノードに振り分ける振り分け処理部と、を備えることを特徴とする請求項1または請求項2に記載のノード離脱処理システムとした。
このようにすることで、ノード離脱処理システムは、クラスタを構成する複数のノードのうちのいずれかを、サービス運用者等が保守契機で離脱させる際に、離脱対象のノードに向けてのクライアントからのメッセージの振り分けを、離脱対象のノードの離脱前に停止することができる。よって、離脱対象のノードにおいて、データが更新されることがないため、クラスタを構成する各ノードおけるデータ一貫性を保証した上で、離脱対象のノードを離脱させることができる。
請求項に記載の発明は、前記複数のノードそれぞれの前記データ移行処理部が、前記データ移行による前記ノード自身の処理負荷を抑制するように設定されたパラメータに基づく所定のタイミングのときに、前記データ移行対象データの検出処理を実行し、前記パラメータが、前記データ移行を並列で実行できる最大スレッド数を示すデータ移行処理スレッド数、前記データ移行を実行した後の待機時間を示すデータ移行処理実行間隔、前記データ移行対象データの検出処理を連続で実行する個数を示すシミュレーション最大個数、の少なくとも1つであることを特徴とする請求項1ないし請求項3のいずれか1項に記載のノード離脱処理システムとした。
このようにすることで、各ノードは、所定のタイミングでデータ移行処理の対象となるデータ(データ移行対象データ)を検出するための処理を実行し、そこで検出されたデータについて、データ移行処理を実行する。よって、ノードの負荷を抑えながらデータを徐々に移行させることができる。
本発明によれば、クラスタを構成するノードを、そのクラスタ内におけるデータの一貫性を保証した上で離脱させるノード離脱処理システムを提供することができる。
本実施形態に係るノード離脱処理システムを含む分散処理システムの全体構成を示す図である。 本実施形態に係るロードバランサの構成例を示す機能ブロック図である。 本実施形態に係る振り分け装置の構成例を示す機能ブロック図である。 本実施形態に係るノード識別子管理テーブル(ノード識別子管理情報)のデータ構成例を示す図である。 本実施形態に係るノードの構成例を示す機能ブロック図である。 本実施形態に係るシステム保守手段を備えるノードの構成例を示す機能ブロック図である。 本実施形態に係る分散処理システムにおけるノード離脱処理の全体の流れを示すフローチャートである。 本実施形態に係る分散処理システムのノード離脱処理における、システム内の各装置の状況を説明するための図である。 本実施形態に係るノードのデータ移行処理部が行うデータ移行対象データの検出処理の流れを示すフローチャートである。 本実施形態に係るノードのデータ移行パラメータ管理部により設定されるデータ移行処理の所定のタイミングを説明するための図である。 コンシステントハッシュ法によるデータ管理手法を説明するための図である。 クラスタを構成するノードが離脱する場合において、データの一貫性が保証されないケースを説明するための図である。
次に、本発明を実施するための形態(以下、「本実施形態」と称する。)におけるノード離脱処理システム100について説明する。
<分散処理システムの全体構成>
まず、本実施形態に係るノード離脱処理システム100を含む分散処理システム1000の全体構成について説明する。
図1は、本実施形態に係るノード離脱処理システム100を含む分散処理システム1000の全体構成を示す図である。
この分散処理システム1000は、各クライアント2からのメッセージを受け付けるロードバランサ3と、振り分け装置4と、クラスタを構成する複数のノード1とを含んで構成される。ロードバランサ3は、クライアント2からのメッセージを単純なラウンドロビン法等により各振り分け装置4に振り分ける。振り分け装置4は、受信したメッセージを、例えば、コンシステントハッシュ法等に基づき、各ノード1に振り分ける。各ノード1では、メッセージ処理を行い、クライアント2にサービスを提供する。
なお、本実施形態においては、少なくもと1つの振り分け装置4とクラスタを構成する複数のノード1とを含む構成を、ノード離脱処理システム100として説明する。
図1においては、振り分け装置4とノード1とを別装置として記載したが、同一サーバ上で別々の機能として動作させることも可能である。また、振り分け装置4も、図1に示すように、クラスタ構成をとることができる。さらに、ロードバランサ3が存在せず、クライアント2から任意の振り分け装置4にメッセージを送信することも可能である。
本実施形態では、分散処理システム1000のデータ管理手法として、ノード1の離脱時時の影響が少ない、コンシステントハッシュ法によるデータ管理手法を例として説明する。ただし、コンシステントハッシュ法に限定されるものではない。また、図11に示した複製データの配置方式により、コンシステントハッシュ法のID空間上で右隣(時計回りに次)のノード1に複製データを担当させることとする。
<処理概要>
本実施形態に係るノード離脱処理システム100は、そのノード離脱処理システム100を構成する複数のノード1のうちのいずれかを、サービス運用者等が保守契機で離脱させる際に、ノード離脱後の適切なデータ配置に該当データ(後記する「データ移行対象データ」)を移行させた後に、離脱対象のノード1を離脱させる。
具体的には、ノード離脱処理システム100内の振り分け装置4およびノード1が備えるノード識別子管理テーブル400(後記する図4参照)に、そのノード1が離脱対象のノードであるか否かを示すフラグ403を設定する。そして、振り分け装置4は、このフラグ403を参照し、離脱対象として設定されたノード1に対しては、メッセージの振り分けを行わない。また、クラスタを構成する各ノード1は、フラグ403が設定されたノード識別子管理テーブル400を参照して、離脱対象のノード1の離脱後の適切なデータ配置に、該当データ(データ移行対象データ)を移行する処理を実行し、データ移行が終了した後に、離脱対象のノード1を実際に離脱させる。
このようにすることで、本実施形態に係るノード離脱処理システム100は、クラスタを構成する各ノード1おけるデータの一貫性を保証した上で、離脱対象のノード1を離脱させることができる。
<各装置の構成>
次に、本実施形態に係る分散処理システム1000を構成する、ロードバランサ3、振り分け装置4およびノード1について、具体的に説明する。
≪ロードバランサ≫
図2は、本実施形態に係るロードバランサ3の構成例を示す機能ブロック図である。
ロードバランサ3は、クライアント2からのメッセージを各振り分け装置4に振り分ける。また、ロードバランサ3は、各振り分け装置4から受信した情報(データ)をクライアント2に送信する。
このロードバランサ3は、情報の入出力を行う入出力部、制御部、記憶部を備える(図示省略)。そして、記憶部には、各振り分け装置4のIPアドレスや、各クライアント2のIPアドレス等のアドレス情報が記憶される。
また、制御部は、図2に示す、振り分け装置情報管理部31および振り分け部32を含んで構成される。振り分け装置情報管理部31は、記憶部に記憶された振り分け装置4のアドレス情報(IPアドレス等)を管理する。振り分け部32は、単純なラウンドロビン法により振り分け装置情報管理部31で管理している振り分け装置4に対して、クライアントからのメッセージを振り分ける。
≪振り分け装置≫
図3は、本実施形態に係る振り分け装置4の構成例を示す機能ブロック図である。
振り分け装置4は、受信したメッセージを、例えば、コンシステントハッシュ法等に基づき、各ノード1に振り分ける。また、各ノード1から受信した情報(データ)を、ロードバランサ3に送信する。なお、以下の説明においては、図1に示したように、複数の振り分け装置4を備えるものとするが、本実施形態に係るノード離脱処理システム100は、少なくとも1つの振り分け装置4を備えていればよい。
この振り分け装置4は、情報の入出力を行う入出力部、制御部、記憶部を備える(図示省略)。そして、制御部は、図3に示す、ノード識別子管理部41および振り分け処理部42を含んで構成される。また、記憶部には、ノード識別子管理テーブル400(図3、図4参照)が記憶される。
ノード識別子管理部41(第2のノード識別子管理部)は、クラスタを構成する各ノード1に関する識別情報をノード識別子管理テーブル400(ノード識別子管理情報)として管理する。ノード識別子管理部41は、クラスタへのノード1の追加や離脱が発生した際に、クラスタを構成するノード1に関するノード識別子管理テーブル400の情報を更新する。
図4は、本実施形態に係るノード識別子管理テーブル400(ノード識別子管理情報)のデータ構成例を示す図である。図4に示すように、ノード識別子管理テーブル400は、クラスタを構成する各ノード1のノード識別子401、アドレス402およびフラグ403を含んで構成される。
このノード識別子401は、コンシステントハッシュ法のID空間上でのノードIDに対応する。また、コンシステントハッシュ法において仮想IDを用いる場合には、ノード識別子401は、仮想ID毎に割り当てられ、ノード識別子管理テーブル400に登録される。そして、このノード識別子管理テーブル400では、例えば、ノード識別子401を昇順に並べることにより、コンシステントハッシュ法のID空間におけるID(または仮想ID)を昇順に並べて管理することができる。つまり、ノード識別子管理テーブル400において、ノード識別子を昇順に並べたときの次のノード1が、ID空間上での右隣(時計回りに次)のノード1となる。
例えば、図4においては、コンシステントハッシュ法のID空間に基づくデータ識別子が「0」から「56」であるデータについては、同図の第1行目に指すノード(ノード識別子「56」、アドレス「192.168.0.24」であるノード)が「所有者ノード」として担当し、次の第2行目が指すノード(ノード識別子「172」、アドレス「192.168.1.25」)がバディとして担当することを示す。同様に、データ識別子が「56」に1を加えた「57」から「172」であるデータについては、第2行目に指すノードが「所有者ノード」として担当し、次の第3行目が指すノードがバディとして担当することを示す。
このようにして、このノード識別子管理テーブル400に基づき、データとその所有者ノードとバディとが対応付けられる。
なお、このノード識別子401は、ノード識別子管理部41が各ノード1に対して付与することもできるし、他のノード1(後記する「システム保守手段50を備えるノード1A」)や外部装置(例えば、ネットワーク管理装置等)が生成したノード識別子管理テーブル400を受信して格納することも可能である。ただし、ノード離脱処理システム100を構成する各振り分け装置4および各ノード1は、他のノード1(システム保守手段50を備えるノード1A)や外部装置(ネットワーク管理装置等)との間で、ノード1の離脱や追加等の情報を送受信することにより、常に、同一内容のノード識別子管理テーブル400を備えるようにする。
また、このノード識別子管理テーブル400には、ノード識別子401毎に、そのノード1が離脱対象のノードであるか否かを示すフラグ403が設けられる(図4参照)。ノード識別子管理部41は、他のノード1(システム保守手段50を備えるノード1A(図6参照))等から、クラスタから離脱させるノード1(離脱対象のノード1)の識別情報を含むノード離脱開始メッセージを受信した場合に、その離脱対象のノード1のフラグ403を「0」から「1」に変更する。
なお、このフラグ403についても、ノード識別子管理部41が各ノード1に対して付与することもできるし、他のノード1(システム保守手段50を備えるノード1A)や外部装置(ネットワーク管理装置等)で生成されたフラグ403が付されたノード識別子管理テーブル400を受信して格納することも可能である。
また、このノード識別子管理部101は、他のノード1(システム保守手段50を備えるノード1A)や外部装置(ネットワーク管理装置等)から、離脱させるノード1の識別情報(例えば、ノード識別子401)を含むノード離脱要求を受信した場合に、ノード識別子管理テーブル400(図4参照)において、その離脱させるノード1の情報(ノード識別子401、アドレス402およびフラグ403)を含むレコードを削除する。
図3に戻り、振り分け処理部42は、ロードバランサ3等より受信したメッセージから、そのメッセージの処理対象となるデータのkey(データkey)を抽出する。そして、振り分け処理部42は、その抽出したデータkeyを用いて、ノード識別子管理テーブル400を参照し、コンシステントハッシュ法に従い、そのメッセージをノード1に振り分ける。
ただし、振り分け処理部42は、コンシステントハッシュ法に従い振り分け先を決定したノード1が、ノード識別子管理テーブル400のフラグ403が「1」の場合、そのノード1へはメッセージの振り分けを行わない。この場合、振り分け処理部42は、ノード識別子401を昇順に並べた次のノード1のフラグ403を順に確認し、つまり、コンシステントハッシュ法のID空間上での右隣のノード1の状態を確認し、フラグ403が「0」のノード1が見つかった時点で、そのノード1に対してメッセージの振り分けを行う。
このようにすることにより、離脱対象のノード1に向けての、クライアント2からの新たなメッセージの送信を行わないようにすることができる。
≪ノード≫
次に、本実施形態に係るノード離脱処理システム100を構成するノード1の構成例について、具体的に説明する。
図5は、本実施形態に係るノード1の構成例を示す機能ブロック図である。
ノード1は、図1に示したように、各振り分け装置4と通信可能に接続されると共に、クラスタを構成する自身以外の他のノード1とも通信可能に接続される。そして、クライアント2からのメッセージを受信し、サービスを提供する。また、このノード1は、クラスタを構成するいずれかのノード1を離脱させる際に、そのノード1が備えるデータのうち、移行が必要なデータを抽出して、データ移行処理を実行する。
このノード1は、図5に示すように、制御部10と、入出力部11と、メモリ部12と、記憶部13とを含んで構成される。
入出力部11は、振り分け装置4や、自身以外の他のノード1との間の情報の入出力を行う。また、この入出力部11は、通信回線を介して情報の送受信を行う通信インタフェースと、不図示のキーボード等の入力手段やモニタ等の出力手段等との間で入出力を行う入出力インタフェースとから構成される。
制御部10は、ノード1全体の制御を司り、ノード識別子管理部101(第1のノード識別子管理部)、メッセージ処理部102、ノード情報付与部103、データ抽出部104、データ移行処理部105およびデータ移行パラメータ管理部106を含んで構成される。なお、この制御部10は、例えば、記憶部13に格納されたプログラムをCPU(Central Processing Unit)がメモリ部12であるRAM(Random Access Memory)に展開し実行することで実現される。
なお、ノード識別子管理部101(第1のノード識別子管理部)は、図3の振り分け装置4で説明したノード識別子管理部41(第2のノード識別子管理部)と同様の処理を実行する機能を備えるため、ここでの説明を省略する。
メッセージ処理部102は、振り分け装置4から振り分けられたメッセージを受信し、そのメッセージの処理を実行し、処理結果をクライアント2に返信することにより、サービスを提供する。同時に、メッセージ処理部102は、他のノード1、ここでは、ノード識別子401(図4参照)を昇順に並べたときの次のノード1(ID空間での右隣のノード)にデータの複製を行うことにより、データの冗長化を実現する。また、メッセージ処理部102は、複製データを複数持つ場合には、さらに他のノード1、ここでは、ノード識別子401を昇順に並べたときのさらに次のノード1(ID空間での2つ右隣のノード)に、データの複製を行う。ただし、メッセージ処理部102は、ノード識別子管理テーブル400(図4参照)のフラグ403が「1」のノード1(離脱対象のノード1)に対してはデータの複製を行わず、ノード識別子401を昇順に並べたときの当該ノード1の次のノード1をデータの複製先とする。また、メッセージ処理部102は、メッセージの処理に必要なデータをそのノード1自身が保持していなかった場合には、他のノード1に要求すること等により、そのデータを取得することが可能である。
なお、メッセージ処理部102は、離脱対象のノード1に関するデータの移行処理が実行される以前に、そのデータ移行の対象となるデータ(後記する「データ移行対象データ」)に関するメッセージを受信したときには、そのメッセージの処理を実行すると共に、そのデータのデータ移行処理を実行する。
ノード情報付与部103は、各データに、各データのデータ識別子に対応づけてノード情報を付与する。なお、ノード情報とは、原本データを保持しているノード1(所有者ノード)のノード識別子と複製データを保持しているノード1(バディ:複製ノード)のノード識別子の情報である。ノード情報付与部103は、データ移行処理部105が、データ移行処理を実行する際に、ノード情報を確認し、ノード1の離脱等が発生してノード情報に変更が必要な場合には、新たなノード情報をそのデータに付与する。よって、ノード情報付与部103は、新規にデータを登録する際と、ノード1の離脱等によりデータ移行処理を実行する際に、対象となるデータに対しノード情報を付与する。
データ抽出部104は、他のノード1(システム保守手段50を備えるノード1A)や外部装置(ネットワーク管理装置等)等から保守観点のノード離脱に伴うデータ移行要求(後記する「データ移行開始コマンド」)を受け付けると、そのノード1自身が原本として管理しているデータ(原本データ)を、データ移行処理が必要か否かの判定対象となるデータ(以下、「判定対象データ」と称する。)として抽出し、その抽出したデータのデータ識別子を、抽出データ管理テーブル200に格納する。
データ移行処理部105は、データ移行パラメータ管理部106により設定されるパラメータに基づく所定のタイミングで、データ抽出部104により抽出され抽出データ管理テーブル200に格納された判定対象データについて、ノード識別子管理テーブル400(フラグ403に「1」が設定された、つまり、離脱対象のノード1が設定された情報を含むノード識別子管理テーブル400)に基づき、コンシステントハッシュ法等の予め定められたデータ管理手法に従った場合の所有者ノードとバディとを特定する(以下、この処理を「シミュレーション」と称す。)。そして、データ移行処理部105は、このシミュレーション結果や、このシミュレーション結果と各データ(判定対象データ)に付与されているノード情報と比較することにより、所有者ノードの識別子およびバディの識別子が一致(完全一致)しないデータを、データ移行処理の対象となるデータ(以下、「データ移行対象データ」と称する。)として検出し、データ移行処理を実行する。なお、データ移行対象データの検出処理については、後記する図9において詳細に説明する。
また、データ移行処理部105は、データ移行の負荷が一度に集中して通常の処理の妨げになり、サービス品質の低下を招かないように、負荷を調整しながらデータ移行処理を実行する。具体的には、データ移行パラメータ管理部106により負荷調整のためのパラメータが設定され、データ移行処理部105は、そのパラメータに設定された値に従い、データ移行処理を実行する。
データ移行パラメータ管理部106は、データ移行処理部105がデータ移行処理を実行する所定のタイミングを、1つ以上のパラメータを用いて設定する。このデータ移行パラメータ管理部106により、データ移行処理の実行タイミングが調整されることで、データ移行処理の負荷が一度に集中して通常の処理を妨げサービス品質の低下を招かないように負荷を調整しながら、データ移行処理を実行できる。
このデータ移行パラメータ管理部106に設定されるパラメータは、例えば、データ移行処理スレッド数、データ移行処理実行間隔、シミュレーション最大個数である。
データ移行処理スレッド数とは、データ移行処理を並列で実行できる最大スレッド数である。このデータ移行処理スレッド数に大きな値を設定すると、データ移行処理にかかる時間を短縮することができるが、ノード1の処理負荷は大きくなる。これに対し、データ移行処理スレッド数に小さな値を設定すると、データ移行処理にかかる時間は増加するが、ノード1の処理負荷は小さくなる。
データ移行処理実行間隔とは、各スレッドで、データ移行処理部105がデータ移行対象データの検出処理(図9参照)を実行した結果、データ移行対象データが検出され、データ移行処理部105が、そのデータ移行処理を実行した後に待機する時間を指す。
シミュレーション最大個数とは、各スレッドが前記したシミュレーション(フラグ403に「1」が設定された、つまり、離脱対象のノード1が設定されたノード識別子管理テーブル400(図4参照)に基づく、所有者ノードとバディの特定)を含むデータ移行対象データの検出処理を連続で実行する個数を指す。データ移行処理部105は、データ移行対象データの検出処理を連続で実行した後に、所定の時間待機し、その後、再びシミュレーションを含むデータ移行対象データの検出処理を開始する。
このシミュレーション最大個数を少なく設定する、または、データ移行処理実行間隔を長く設定することで、ノード1は、処理負荷を抑えながら徐々にデータ移行処理を実行することが可能となる。
なお、このデータ移行処理スレッド数、データ移行処理実行間隔、シミュレーション最大個数の各パラメータは、データ移行パラメータ管理部106により、すべて設定されてもよいし、いずれか1つでもよいし、各パラメータを任意に組み合わせて設定されてもよい。
また、このデータ移行パラメータ管理部106により設定されたパラメータにより調整される所定のタイミングでのデータ移行処理の詳細については、図10を参照して後記する。
なお、本実施形態に係るノード1の変形例として、制御部10にノード負荷監視部を備えるようにしてもよい。ノード負荷監視部は、ノード1自身の処理負荷(例えば、CPU使用率、メモリ使用率等)を監視し、その処理負荷に対し予め設定された所定値を超えた場合に、データ移行処理部105に処理中断情報を出力することにより、データ移行処理部105によるデータ移行処理を中断させる。
このようにすることで、データ移行パラメータ管理部106で設定されたパラメータに基づき、所定のタイミングでデータ移行処理部105がデータ移行処理を実行している場合であっても、何らかの理由(例えば、クライアント2から大量のメッセージを受信した場合等)で、ノード1の処理負荷が所定値を超えた場合にデータ移行処理を中断し、ノード1の処理負荷を抑制することができる。
また、ノード1の制御部10が、データ移行パラメータ管理部106を備えず、ノード負荷監視部を備える構成にしてもよい。この場合、データ移行処理部105は、抽出データ管理テーブル200に格納された判定対象データについて、直ちに、データ移行対象データの検出処理(図9参照)を実行し、データ移行対象データが検出された場合には、そのデータのデータ移行処理を実行する。
そして、ノード負荷監視部は、ノード1自身の処理負荷(例えば、CPU使用率、メモリ使用率等)を監視し、その処理負荷に対し予め設定された所定値を超えた場合に、データ移行処理部105に処理中断情報を出力することにより、データ移行処理部105によるデータ移行処理を中断させる。
このようにすることで、ノード1は、自身の処理負荷が所定値を超えた場合に、データ移行処理を中断する。よって、ノード1は、自身の処理負荷を直接的に監視し、処理負荷が所定値以上にならないように抑制した上で、データ移行処理を実行することができる。
図5に戻り、メモリ部12は、RAM等の一次記憶装置からなり、制御部10によるデータ処理に必要な情報を一時的に記憶している。なお、このメモリ部12には、データ抽出部104が抽出した判定対象データのデータ識別子を格納する前記した抽出データ管理テーブル200が記憶される。
記憶部13は、ハードディスクやフラッシュメモリ等の記憶装置からなり、サービスの対象となる原本データや複製データを含むデータ300や、前記したノード識別子管理テーブル400(図4参照)等が記憶される。このノード識別子管理テーブル400は、図3に示した振り分け装置4に記憶されるノード識別子管理テーブル400と同様の情報を記憶するため、その説明を省略する。また、この記憶部13には、データ移行パラメータ管理部106により設定される各パラメータの値(不図示)等が記憶される。
なお、データ300の各データには、そのデータのデータ識別子、所有者ノードのノード識別子および、バディのノード識別子が含まれる。
≪システム保守手段を備えるノード≫
次に、本実施形態に係るシステム保守手段50を備えるノード1Aについて説明する。
以下においては、クラスタを構成する複数のノード1の中から選定されたあるノード1(前記した他のノード1)に、システム保守手段50の機能が組み入れられた例として説明する。しかしながら、このシステム保守手段50は、外部装置(例えば、ネットワーク管理装置等)に組み入れられてもよく、ネットワーク内にシステム保守手段50を含む独立した装置(システム保守装置)として設定されてもよい。
なお、クラスタを構成する複数のノード1の中から、このシステム保守手段50を備えるノード1Aを選定する処理は、例えば、ノード識別子管理テーブル400(図4参照)のノード識別子401を昇順に並べた場合の値の小さい順でもよいし、ランダム等でもよい。
図6は、本実施形態に係るシステム保守手段50を備えるノード1Aの構成例を示す機能ブロック図である。システム保守手段50以外の構成は、図5に示したノード1と同様であるので、その説明を省略する。
システム保守手段50は、サービス運用者等が保守契機でクラスタ内のノード1を離脱させる際に、ノード離脱処理システム100内の各振り分け装置4及び各ノード1が実行するノード離脱の処理に関する全体的な制御を司る。このシステム保守手段50は、ノード離脱制御部51を備える。
ノード離脱制御部51は、各ノード1の処理負荷やネットワーク内のトラヒック量等の減少に基づき、保守的な観点からノード1を離脱させる必要が発生した場合に、離脱対象となるノード1を決定する。この決定は、例えば、各ノード1の処理能力が同等な場合、ランダムに離脱対象となるノード1を決定する。また、メンテナンス等によりノード1を離脱させる場合に、所定の時期や各ノード1について予め決められた順番で、離脱対象となるノード1を決定する。さらに、ノード離脱制御部51は、ノード1Aの入出力部11から、サービス運用者等が指定した離脱対象となるノード1の情報を取得して、決定するようにしてもよい。
そして、ノード離脱制御部51は、離脱対象となるノード1の識別情報(例えば、ノード識別子401)が付されたノード離脱開始メッセージを生成し、各振り分け装置4および各ノード1に送信する。なお、各振り分け装置4のノード識別子管理部41および各ノード1のノード識別子管理部101は、このノード離脱開始メッセージを受信して、自身が記憶するノード識別子管理テーブル400(図4参照)の該当するノード1のフラグ403を「0」から「1」に変更する。
また、ノード離脱制御部51は、各振り分け装置4および各ノード1のすべてから、ノード識別子管理テーブル400のフラグ403の変更が完了した旨の応答メッセージを受信すると、各ノード1に対して、データ移行開始メッセージ(データ移行要求)を送信する。これにより、各ノード1のデータ抽出部104が、判定対象データの抽出処理を開始する。
そして、ノード離脱制御部51は、クラスタを構成するすべてのノード1からデータ移行完了メッセージを受信すると、離脱させるノード1の識別情報(例えば、ノード識別子401)を含むノード離脱要求を生成し、各振り分け装置4および各ノード1に送信する。
このシステム保守手段50は、さらに、振り分け装置離脱制御部(不図示)を備えるようにしてもよい。振り分け装置離脱制御部は、保守的な観点から振り分け装置4を離脱させる必要が発生した場合や、前記した離脱対象となるノード1を決定した場合等に、離脱対象となる振り分け装置4を決定する。この決定は、離脱対象となるノード1の決定の場合と同様に、処理性能が同等の場合はランダムでもよいし、メンテナンス順、サービス運用者等による指定等により行われる。振り分け装置離脱制御部は、離脱対象となる振り分け装置4の識別情報が付された振り分け装置削除要求を生成し、ロードバランサ3に送信する。
このようにすることにより、保守的な観点からノード1を離脱させたい場合に、併せて、振り分け装置4も離脱させることができる。
<処理の流れ>
次に、本実施形態に係るノード離脱処理システム100を含む分散処理システム1000における、処理の流れについて説明する。
≪ノード離脱処理の全体の流れ≫
図7は、本実施形態に係る分散処理システム1000におけるノード離脱処理の全体の流れを示すフローチャートである。
また、図8は、本実施形態に係る分散処理システム1000のノード離脱処理における、システム内の各装置の状況を説明するための図である。
なお、本実施形態に係る分散処理システム1000においては、トラヒック等が減少し、保守的な観点からノード1を離脱させる場合、振り分け装置4についても同様にリソースに余裕が生じている状況が想定されることから、以下に説明する処理においては、ノード離脱と同時に振り分け装置4も離脱させるものとして説明する。ただし、本発明において、振り分け装置4の離脱は必須の処理ではない。
また、クラスタを構成するノード1のうちの1つがシステム保守手段50を備えるノード1Aであるものとして説明する。
まず、システム保守手段50を備えるノード1Aが、離脱対象となる振り分け装置4およびノード1を決定する(ステップS10)。なお、図8(a)は、振り分け装置4のうちの1つと、ノード1のうちの1つとが離脱対象として決定されたことを示している。
次に、ロードバランサ3において、メッセージの振り分け対象から、離脱させる振り分け装置4を削除する(ステップS11)。具体的には、システム保守手段50を備えるノード1Aが、離脱させる振り分け装置4の識別情報を含む振り分け装置削除要求を、振り分け装置4を介してロードバランサ3に送信する。振り分け装置削除要求を受信したロードバランサ3の振り分け装置情報管理部31は、その振り分け装置削除要求に付された離脱させる振り分け装置4の識別情報に基づき、その振り分け装置4のアドレス情報(IPアドレス等)を削除する。こうすることにより、ロードバランサ3から、離脱される振り分け装置4へのメッセージの振り分けが停止される(図8(b)参照)。
続いて、各振り分け装置4および各ノード1は、システム保守手段50を備えるノード1Aから、ステップS10で決定した離脱対象となるノード1の識別情報が付されたノード離脱開始メッセージを受信する。そして、各振り分け装置4のノード識別子管理部41は、自身の記憶部に記憶されたノード識別子管理テーブル400の離脱対象となるノード1のフラグ403を、「0」から「1」に変更する。また、各ノード1のノード識別子管理部101は、自身の記憶部13に記憶されたノード識別子管理テーブル400の離脱対象となるノード1のフラグ403を、「0」から「1」に変更する(ステップS12)。なお、各振り分け装置4および各ノード1は、自身のノード識別子管理テーブル400のフラグ403の変更が完了した旨の応答メッセージを、システム保守手段50を備えるノード1Aに返信する。
このステップS12の処理により、各振り分け装置4のメッセージの振り分け先から、離脱対象となるノード1が外れ(図8(c)参照)、さらに、各ノード1のデータの複製先からも、離脱対象となるノード1が外れることとなる。
振り分け装置4およびノード1のすべてから応答メッセージを受信すると、システム保守手段50を備えるノード1Aは、各ノード1に対して、データ移行開始メッセージ(データ移行要求)を送信する。
各ノード1は、データ移行開始メッセージを受信すると、データ抽出部104が、そのノード1自身が原本として管理しているデータ(原本データ)を、データ移行処理が必要か否かの判定対象となるデータ(判定対象データ)として抽出し、その抽出したデータのデータ識別子を、抽出データ管理テーブル200に格納する(ステップS13)。
次に、各ノード1のデータ移行処理部105は、データ移行パラメータ管理部106により設定された、所定のタイミングであるか否かを判定する(ステップS14)。データ移行処理部105は、所定のタイミングであれば(ステップS14→Yes)、次のステップS15に進み、所定のタイミングでなければ(ステップS14→No)、所定のタイミングになるまで待機する。
なお、データ移行パラメータ管理部106により設定される所定のタイミングについては、図10において説明する。
ステップS15において、データ移行処理部105は、抽出データ管理テーブル200を参照し、判定対象データ(具体的には判定対象データのデータ識別子)を1つ抽出する。
次に、データ移行処理部105は、ステップS15で抽出した判定対象データが、データ移行処理の対象となるデータ(データ移行対象データ)か否かを検出する処理(データ移行対象データの検出処理)を実行する(ステップS16)。なお、このデータ移行対象データの検出処理の詳細は、図9において説明する。
続いて、データ移行処理部105は、ステップS16により、データ移行対象データが検出されたか否かを判定する(ステップS17)。ここで、データ移行処理部105は、データ移行対象データが検出された場合には(ステップS17→Yes)、ステップS18に進み、検出されなかった場合には(ステップS17→No)、ステップS19に進む。
ステップS18において、データ移行処理部105は、データ移行処理を実行する。なお、このデータ移行処理部105によるデータ移行処理は、ノード情報付与部103が、移行するデータに付与されたノード情報を、ステップS16のデータ移行対象データの検出処理でシミュレーション(フラグ403が変更されたノード識別子管理テーブル400(図4参照)に基づく、所有者ノードとバディの特定)した所有者ノードの識別子とバディの識別子とに変更してから実行される。図8(d)は、離脱対象となるノード1に記憶された原本データおよび複製データがデータ移行の処理中であることを示している。
次に、ステップS19において、データ移行処理部105は、抽出データ管理テーブル200に格納されたすべての判定対象データ(データ識別子)を処理したか否かを判定する。ここで、データ移行処理部105は、抽出データ管理テーブル200に、まだ処理していない判定対象データ(データ識別子)が格納されている場合には(ステップS19→No)、ステップS14に戻り処理を続ける。一方、データ移行処理部105は、抽出データ管理テーブル200に格納されたすべての判定対象データ(データ識別子)の処理を終えている場合には(ステップS19→Yes)、データ移行処理が完了したことを示すデータ移行完了メッセージを生成し、システム保守手段50を備えるノード1Aに送信する(ステップS20)。
システム保守手段50を備えるノード1Aは、すべてのノード1からデータ移行完了メッセージを受信すると、離脱させるノード1の識別情報を含むノード離脱要求を、各振り分け装置4および各ノード1に送信する。振り分け装置4のノード識別子管理部41は、ノード離脱要求を受信すると、自身の記憶部に記憶されたノード識別子管理テーブル400において、離脱させるノード1の情報(レコード)を削除する。また、ノード1のノード識別子管理部101は、自身の記憶部13にされたノード識別子管理テーブル400において、離脱させるノード1の情報(レコード)を削除する。この処理により離脱対象となるノード1を離脱させる(ステップS21)。
なお、図8(e)は、データの移行処理が終了し、離脱対象のノード1がクラスタから離脱された状況を示している。
なお、ノード1のデータ移行処理部105が、この図7のステップS14〜S21によるデータ移行処理を徐々に実行している間においても、そのノード1はクライアント2からメッセージを受信し、メッセージ処理部102がそのメッセージに対する処理を実行している。メッセージ処理部102は、受信したメッセージについての処理を実行すると共に、そのメッセージの対象となるデータが、データ移行対象データか否かを、そのデータに付されたノード情報を参照して判定する。具体的には、そのノード情報中の所有者ノードとバディのいずれかが、各々自ノード、ID空間上の右隣ノードと異なれば、データ移行対象データと判定する。そして、メッセージ処理部102は、当該データがデータ移行対象データである場合には、そのデータのデータ移行処理を実行する。
このようにすることで、ノード1は、メッセージを受信したことにより、それ以降も利用可能性が高いと予測されるデータについては、そのデータに関するメッセージ処理を実行すると共に、データ移行処理を行い、データの適正な配置を迅速に達成することができる。
≪データ移行対象データの検出処理≫
次に、図7のステップS16において、ノード1のデータ移行処理部105が実行するデータ移行対象データの検出処理について詳細に説明する。
図9は、本実施形態に係るノード1のデータ移行処理部105が行うデータ移行対象データの検出処理の流れを示すフローチャートである。
まず、ノード1のデータ移行処理部105は、抽出データ管理テーブル200から抽出した判定対象データ(そのノード1自身が原本として管理しているデータ)について、シミュレーション(図9において、「A処理」と記載)を実行する(ステップS30)。具体的には、データ移行処理部105は、抽出した判定対象データについて、フラグ403が変更されたノード識別子管理テーブル400に基づき、コンシステントハッシュ法等の予め定められたデータ管理手法に従った場合の所有者ノードとバディとを特定する。
次に、データ移行処理部105は、抽出データ管理テーブル200から抽出した判定対象データに付されたノード情報(所有者ノードの識別子とバディの識別子)を抽出(図9において、「B処理」と記載)する(ステップS31)。
続いて、シミュレーション(A処理)の結果、自ノードが所有者ノードか否かを判定する(ステップS32)。ここで、シミュレーション(A処理)の結果、自ノードが所有者ノードである場合には(ステップS32→Yes)、次のステップS33に進み、一方、自ノードが所有者ノードでない場合には(ステップS32→No)、そのデータ(判定対象データ)を、データ移行処理の対象となるデータ(データ移行対象データ)として決定する(図9において、「移行対象」と記載)。
ステップS33において、データ移行処理部105は、シミュレーション(A処理)の結果とノード情報抽出(B処理)の結果とでバディが一致するか否かを判定する。ここで、バディが一致する場合には(ステップS33→Yes)、そのデータ(判定対象データ)は、データ移行の必要のないデータとなる(図9において、「移行対象外」と記載)。一方、バディが一致しない場合には(ステップS33→No)、そのデータ(判定対象データ)を、データ移行処理の対象となるデータ(データ移行対象データ)として決定する。つまり、所有者ノードが一致していても、バディが一致していないため、データ移行対象データとなる。
このようにすることで、データ移行処理部105は、抽出データ管理テーブル200に抽出された判定対象データそれぞれについて、データ移行処理を実行すべきか否かを判定し、データ移行対象データを検出することができる。
≪所定のタイミングでのデータ移行処理≫
次に、図10を参照して、データ移行パラメータ管理部106により設定されるパラメータに基づく、データ移行処理の所定のタイミングについて説明する。
図10においては、データ移行パラメータ管理部106に設定されるパラメータの例として、データ移行処理スレッド数、データ移行処理実行間隔、および、シミュレーション最大個数が設定されている例を示す。
図10は、データ移行処理スレッド数(符号P1)が「3」に設定されている例を示している。
また、各スレッドにおいて、データ移行処理部105が、抽出データ管理テーブル200から判定対象データを取得すると(ステップS40)、データ移行対象データの検出処理(図9参照)を実行し(ステップS41)、データ移行対象データが検出された場合には、そのままデータ移行処理を実行する(ステップS42)。
ここで、データ移行対象データについて、ステップS42において、データ移行処理を実行した後、データ移行処理部105は、データ移行処理実行間隔(符号P2)が設定されているため、所定の時間、次の判定対象データの取得処理(ステップS40)を行わずに待機する。
また、図10のスレッド「1」に示すように、シミュレーション最大個数(符号P3)のパラメータが「5」に設定されている場合には、データ移行処理部105は、抽出データ管理テーブル200から判定対象データを取得し、データ移行対象データの検出処理を5回連続して実行する。そして、データ移行処理部105は、シミュレーション最大個数(ここでは「5」回)のデータ移行対象データの検出処理を行っても、データ移行対象データが検出されなかったときには、所定の時間待機する。
このようにすることで、各パラメータにより設定された所定のタイミングでデータ移行対象データの検出処理を実行し、データ移行対象データが検出された場合に、データ移行処理を実行することができる。よって、クラスタを構成するノード1が離脱した直後において、他の既存のノード1は、データ移行処理を一時に実行しないため、ノード1が処理負荷を抑えながら徐々にデータ移行処理を実行することができる。
以上説明したように、本実施形態に係るノード離脱処理システム100によれば、クラスタを構成する複数のノード1のうちのいずれかを、保守契機で離脱させる際に、ノード離脱後の適切なデータ配置に該当データの移行させた後に、離脱対象のノード1を離脱させる。よって、本実施形態に係るノード離脱処理システム100は、各ノード1おけるデータの一貫性を保証した上で、離脱対象のノード1を離脱させることができる。
1 ノード
1A システム保守手段を備えるノード
2 クライアント
3 ロードバランサ
4 振り分け装置
10 制御部
11 入出力部
12 メモリ部
13 記憶部
31 振り分け装置情報管理部
32 振り分け部
41 ノード識別子管理部(第2のノード識別子管理部)
42 振り分け処理部
50 システム保守手段
51 ノード離脱制御部
100 ノード離脱処理システム
101 ノード識別子管理部(第1のノード識別子管理部)
102 メッセージ処理部
103 ノード情報付与部
104 データ抽出部
105 データ移行処理部
106 データ移行パラメータ管理部
200 抽出データ管理テーブル
300 データ(サービス対象データ)
400 ノード識別子管理テーブル(ノード識別子管理情報)
1000 分散処理システム

Claims (4)

  1. 1つ以上の振り分け装置が振り分けたメッセージを受信する複数のノードにより構成されるクラスタと、前記クラスタを構成する複数のノードの中から離脱対象のノードを決定し、前記クラスタから離脱させる制御を行うシステム保守手段とを備えるノード離脱処理システムであって、
    前記複数のノードのそれぞれは、クライアントにサービスを提供するためのデータを原本データとして記憶する所有者ノード、または、前記データの複製データを記憶する複製ノードとして機能することにより前記クラスタを構成しており、
    前記システム保守手段は、
    前記離脱対象のノードを決定して、前記離脱対象のノードに固有な識別子であるノード識別子を含むノード離脱開始メッセージを生成し、
    前記決定した離脱対象のノードが離脱したと仮定した場合の新たな前記所有者ノードおよび前記複製ノードに前記データを移行させる処理を要求するデータ移行要求を生成する、 ノード離脱制御部を備え、
    前記複数のノードそれぞれは、
    前記ノードに固有な識別子であるノード識別子を、前記データと前記所有者ノードおよび前記複製ノードとに対応付ける共に、前記ノード識別子に示されるノードが離脱対象のノードであるか否かを示すフラグを設けたノード識別子管理情報が記憶される記憶部と、
    前記原本データを記憶する前記所有者ノードのノード識別子および前記複製データを記憶する前記複製ノードのノード識別子を、前記原本データおよび前記複製データそれぞれに、ノード情報として付与するノード情報付与部と、
    前記システム保守手段から、前記ノード離脱開始メッセージを受信した場合に、前記離脱対象のノードのノード識別子に基づき、前記ノード識別子管理情報における前記離脱対象のノードについての前記フラグを設定する第1のノード識別子管理部と、
    前記システム保守手段から、前記データ移行要求を受信した場合に、自身が記憶している原本データを、データ移行が必要か否かの判定対象となる判定対象データとして抽出するデータ抽出部と、
    前記抽出した判定対象データについて、前記フラグが設定されたノード識別子管理情報に基づき、前記離脱対象のノードが離脱されたものとして、前記所有者ノードおよび前記複製ノードを特定し、前記特定した所有者ノードおよび複製ノードそれぞれのノード識別子が、前記ノード情報と比較して一致しない場合に、当該抽出した判定対象データを、前記データ移行が必要なデータを示すデータ移行対象データとして検出し、前記検出したデータ移行対象データを、前記特定した所有者ノードおよび複製ノードに移行するデータ移行処理部と、を備えること
    を特徴とするノード離脱処理システム。
  2. 前記複数のノードそれぞれは、
    前記データ移行処理部が前記検出したデータ移行対象データを前記特定した所有者ノードおよび複製ノードに移行する、データ移行処理の実行中において、前記クライアントから前記メッセージを受信した場合に、前記メッセージの対象となるデータが前記データ移行対象データか否かを、当該データに付された前記ノード情報を参照して判定し、当該データが前記データ移行対象データであるときに、当該データの前記データ移行処理を実行するメッセージ処理部を、さらに備えること
    を特徴とする請求項1に記載のノード離脱処理システム。
  3. 前記ノード離脱処理システムは、さらに前記1つ以上の振り分け装置を備えており、
    前記振り分け装置は、
    前記ノード識別子管理情報が記憶される記憶部と、
    前記システム保守手段から、前記ノード離脱開始メッセージを受信した場合に、前記離脱対象のノードのノード識別子に基づき、前記ノード識別子管理情報における前記離脱対象のノードについての前記フラグを設定する第2のノード識別子管理部と、
    前記フラグが設定された前記ノード識別子管理情報に基づき、前記離脱対象のノードが離脱されたものとして、前記メッセージの振り分け先となる前記ノードを決定し、前記クライアントから受信した前記メッセージを前記決定したノードに振り分ける振り分け処理部と、を備えること
    を特徴とする請求項1または請求項2に記載のノード離脱処理システム。
  4. 前記複数のノードそれぞれの前記データ移行処理部は、
    前記データ移行による前記ノード自身の処理負荷を抑制するように設定されたパラメータに基づく所定のタイミングのときに、前記データ移行対象データの検出処理を実行し、
    前記パラメータは、
    前記データ移行を並列で実行できる最大スレッド数を示すデータ移行処理スレッド数、前記データ移行を実行した後の待機時間を示すデータ移行処理実行間隔、前記データ移行対象データの検出処理を連続で実行する個数を示すシミュレーション最大個数、の少なくとも1つであること
    を特徴とする請求項1ないし請求項3のいずれか1項に記載のノード離脱処理システム。
JP2013014030A 2013-01-29 2013-01-29 ノード離脱処理システム Active JP5711771B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013014030A JP5711771B2 (ja) 2013-01-29 2013-01-29 ノード離脱処理システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013014030A JP5711771B2 (ja) 2013-01-29 2013-01-29 ノード離脱処理システム

Publications (2)

Publication Number Publication Date
JP2014146151A JP2014146151A (ja) 2014-08-14
JP5711771B2 true JP5711771B2 (ja) 2015-05-07

Family

ID=51426373

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013014030A Active JP5711771B2 (ja) 2013-01-29 2013-01-29 ノード離脱処理システム

Country Status (1)

Country Link
JP (1) JP5711771B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6564349B2 (ja) * 2016-06-09 2019-08-21 日本電信電話株式会社 保守減設システム、ノードおよび保守減設方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5272927B2 (ja) * 2009-06-29 2013-08-28 ブラザー工業株式会社 ノード装置、プログラム及び分散保存方法
JP2012221419A (ja) * 2011-04-13 2012-11-12 Hitachi Ltd 情報記憶システム及びそのデータ複製方法

Also Published As

Publication number Publication date
JP2014146151A (ja) 2014-08-14

Similar Documents

Publication Publication Date Title
CN106453564B (zh) 弹性云分布式海量请求处理的方法、装置及系统
JP5969315B2 (ja) データ移行処理システムおよびデータ移行処理方法
US20090157776A1 (en) Repartitioning live data
CN107005596A (zh) 用于在集群重新配置后的工作负载平衡的复制型数据库分配
JP6215481B2 (ja) クラウド環境におけるitインフラ管理のための方法とその装置
US10652100B2 (en) Computer system and method for dynamically adapting a software-defined network
JP6582445B2 (ja) シンクライアントシステム、接続管理装置、仮想マシン稼働装置、方法、および、プログラム
JP2017037492A (ja) 分散処理プログラム、分散処理方法および分散処理装置
JP5723309B2 (ja) サーバおよびプログラム
JP5711771B2 (ja) ノード離脱処理システム
JP2016177324A (ja) 情報処理装置、情報処理システム、情報処理方法、及びプログラム
JP5918802B2 (ja) ノードおよびプログラム
JP6063882B2 (ja) 仮想マシン配置システム及び方法
US20240176762A1 (en) Geographically dispersed hybrid cloud cluster
JP5690296B2 (ja) 負荷分散プログラムおよび負荷分散装置
JP6714547B2 (ja) 負荷分散装置、負荷分散方法、および、負荷分散プログラム
JP5745445B2 (ja) 管理装置およびプログラム
JP6506156B2 (ja) ノードおよびグラビテーション抑止方法
JP6093320B2 (ja) 分散処理システム
JP5723330B2 (ja) 分散処理システムおよび分散処理方法
JP5845298B2 (ja) ノードおよびプログラム
JP5815000B2 (ja) ノードおよびプログラム
KR102377726B1 (ko) 분산 파일 시스템에서의 파일 복제 제어 장치 및 방법
JP6473425B2 (ja) ノードおよびデータ配置方法
JP6127005B2 (ja) クラスタシステムのサーバ装置およびプログラム

Legal Events

Date Code Title Description
RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20140502

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20140529

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20141211

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20141216

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150213

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150303

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150306

R150 Certificate of patent or registration of utility model

Ref document number: 5711771

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150