JP2012190378A - サーバシステム - Google Patents
サーバシステム Download PDFInfo
- Publication number
- JP2012190378A JP2012190378A JP2011055017A JP2011055017A JP2012190378A JP 2012190378 A JP2012190378 A JP 2012190378A JP 2011055017 A JP2011055017 A JP 2011055017A JP 2011055017 A JP2011055017 A JP 2011055017A JP 2012190378 A JP2012190378 A JP 2012190378A
- Authority
- JP
- Japan
- Prior art keywords
- control
- node
- parameter
- unit
- server system
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Hardware Redundancy (AREA)
- Computer And Data Communications (AREA)
Abstract
【解決手段】複数のノード20を有してネットワークを構成するサーバシステムにおいて、前記ネットワークに対して前記ノードの稼働状態を管理し制御する監視ノード10を設置し、監視ノード10は、各ノードから稼働状態に関連するパラメータを定期的に取得するノードパラメータ受信部11と、各パラメータの値に応じてノードやシステムを対象とした制御の有無を判断する要制御パラメータ判断部13と、予め記憶された制御リストに応じて各パラメータに対応するノード制御やシステム制御を決定するパラメータ実施制御決定部14と、制御が必要なノードやシステムへ制御信号を送信する制御送信部15を備える。
【選択図】図2
Description
非特許文献1に示されたGfarmは、広域ネットワーク上で、大容量、大規模データ処理の要求に応えるスケーラブルな分散ファイルシステムプラットフォームであり、広域なネットワーク上での効率的なファイル共有に適した分散プラットフォームである。
一方、非特許文献2に示されたHadoopは、1つのディスクで保存できない大量のデータを並列化することで高速かつ効率良く処理できるものであり、比較的大きなサイズかつ基本的に更新されることのないファイルのI/Oに適した分散プラットフォームである。
すなわち、分散サーバシステムの制御において、特定のノードがダウンするとシステム全体へ影響するような重要なノードに対しては、予備系統を用意し故障時に切り替えることでシステムとして継続可能になるよう制御するシステムが存在する。その一方、ダウンしてもシステムの動作へ影響しないノードに関しては、予備系統を用意せず故障時にシステムから切り離すことが行われるが、ノードの稼働数が減ることによりシステム能力低下への影響が懸念される。また、規模の増大による故障台数の増加に伴い定型業務を含む故障対応が煩雑になる。
したがって、既存の分散サーバシステムでは、処理やデータの分散を行いかつ可用性を高めるために複数台のノードが稼働する場合に、システムを構成するノードが過少とならないよう過剰に稼働させることが行われていた。
すなわち、請求項1の発明は、複数のノードを分散配置してネットワークを構成するサーバシステムにおいて、前記ネットワークに対して前記ノードの稼働状態を管理し制御する監視ノードを設置し、前記監視ノードは、次の構成を含むことを特徴としている。
ノードパラメータ受信部。このノードパラメータ受信部は、前記各ノードから稼働状態に関連するパラメータを定期的に取得する。
要制御パラメータ判断部。この要制御パラメータ判断部は、各パラメータの値に応じて前記ノードや前記システムを対象とした制御の有無を判断する。
パラメータ実施制御決定部。このパラメータ実施制御決定部は、予め記憶された制御リストに応じて各パラメータに対応するノード制御やシステム制御を決定する。
制御送信部。この制御送信部は、制御が必要なノードやシステムへ制御信号を送信する。
分散サーバシステム1は、図1に示すように、複数のノード20から構成された各ネットワーク2と、システム全体を管理する一つの管理サーバ3と、分散サーバシステム1外に設置された監視ノード10により構成されている。管理サーバ3は、複数のノード20を備えている。
各ネットワーク2に配置された複数のノード20は、記憶部(ストレージ)を有するファイルサーバであり、このファイルサーバを広域な範囲に分散配置させることで構成されている。この分散サーバシステム1では、各ネットワーク2の各ノード20に対して管理サーバ3を介してユーザがアクセスすることで、複数のユーザによるファイル書込み要求及びファイル読込み要求が行われ、各ノード20を意識せず全体が単一のサーバとしてユーザに提供するシステムを構成している。
分散サーバシステム1外に設置された監視ノード10は、各ノード20の状態の監視および制御を行うものであり、制御対象となるノード20(各ネットワーク2及び管理サーバ3を構成するノード)は全て同等に扱われる。
監視ノード10は、ノードパラメータ受信部11と、全ノードパラメータ集計部12と、要制御パラメータ判断部13と、パラメータ実施制御決定部14と、制御送信部15と、制御結果受信部16と、制御履歴記憶部17とを備えて構成され、ノード単体やシステム全体のパラメータを取得し、パラメータに制御が必要か判断し、制御が必要な場合には制御しその結果を受信する。
一方、ノード20は、パラメータ収集部21と、パラメータ送信部22と、制御受信部23と、制御実行部24と、制御結果収集部25と、制御結果送信部26を備え、監視ノード10へのパラメータ送信及び制御結果の送信を行う。
ノードパラメータ受信部11は、各ノード20のパラメータ送信部22から送信されたパラメータを定期的に受信して取得する。ノード20に関するパラメータは、ノードの稼働状態に関連する情報であり、例えば、ノード20に関してはCPU使用率、メモリ使用率、ネットワーク疎通である。
全ノードパラメータ集計部12では、各ノード20のパラメータを収集し、システム全体としてのパラメータ値を算出する。システムに関するパラメータしては、例えばロードアベレージとディスク使用率がある。
要制御パラメータ判断部13は、ノードパラメータ受信部11で得た各ノード20の各パラメータ、及び、全ノードパラメータ集計部12で得たシステム(全ノード)の各パラメータを受信し、各パラメータに対して制御が必要か判断する。具体的には、各パラメータの値が予め設定された閾値(後述する制御基準値)との比較によりノード20やシステムを対象とした制御の有無を判断する。
制御送信部15は、パラメータ実施制御決定部14で決定した制御方法(復旧処理)について、制御が必要なノードやシステムへ制御信号を送信する。
制御結果受信部16では、ノード20に対して行った制御結果を受信する。制御履歴記憶部17では、制御が必要だと判断したパラメータに対してどのような制御を行い、成功したか失敗したかの履歴を格納する。
パラメータ収集部21では、ノード20内部のパラメータを定期的に収集する。
パラメータ送信部22では、収集したパラメータを監視ノード10へ送信する。
制御受信部23では、監視ノード10からの制御指示を受信する。
制御実行部24では、監視ノード10から受信した制御指示の内容を実行することにより、当該ノード20について自動的な復旧処理が行われる。
制御結果収集部25では、制御実行部24で実行した制御によってパラメータが復旧したかの情報を収集する。
制御結果送信部26では、制御結果収集部25で収集した制御結果を監視ノード10へ送信する。
先ず、ノードパラメータ受信部11において、ネットワーク2及び管理サーバ3を構成する各ノード20から稼働状態に関連するパラメータを収集する(ステップ31)。
次に、取得したパラメータの値から各パラメータに対して制御が必要な値かを判断し(ステップ32)、制御が必要な場合は、パラメータ実施制御決定部14において、各パラメータの制御方法リストの中から最適な制御を選択する(ステップ33)。
最後に、制御が成功した場合または、他にノードに対して実施する制御が存在しない場合は、制御終了と判断し(ステップ37)、必要に応じてシステムの制御を実施する(ステップ38)。
制御が失敗した場合は、再度制御を選択し、制御リストの制御を全て実施するまで若しくは制御が成功するまで処理を繰り返す。
パラメータ実施制御決定部14において、制御リストから制御が必要なパラメータに対する制御方法を取得する(ステップ41)。
次に、同一制御フローで選択した制御方法を取り除き(ステップ42)、制御成功回数(復旧回数)を制御実施回数で割った値(復旧割合)が最も大きい制御方法を選択する(ステップ43)。そこで、復旧割合が同じ制御が複数ある場合は(ステップ44)、復旧回数が最も多い制御方法を選択する(ステップ45)。
さらに、復旧回数も同一の制御方法が存在する場合は(ステップ46)、制御実施時刻を比較し、より最近に行った制御方法を選択する(ステップ47)。復旧割合または復旧回数の選択肢で、1つに絞れた場合はその制御方法を選択する。
最後に、選択した制御を実施する(ステップ48)。
CPU使用率については、100%を制御基準値とした。ここでの100%とは、特定のCPUまたはコアでの使用率が100%になった場合を指す。
メモリ使用率についても、100%を制御基準値とした。
ネットワーク疎通に関しては、疎通不可を制御判断値とする。ネットワーク疎通に関しては、取り得る値が疎通可と疎通不可の2値しかないため、疎通不可としている。
ロードアベレージに関しては、3以上の値を取るノードが全体の80%を超える場合にノードの追加を行い、0.1以下のノードが存在する場合にはノードを停止する。
ロードアベレージとは、1つのCPUで処理可能な量を1とした場合のCPUリソースの要求量である。例えば、1分間に1つのプロセスが1つのCPUを占有する場合は「1」となり、2つのプロセスの場合は「2」となる。
CPU使用率に対しては、(1)最もCPU使用率が高いプロセスの優先順位を下げる、(2)最も使用率が高いプロセスを停止する、の2種類の対処(制御)の仕方がある。
メモリ使用率に関しては、(1)swap領域を増やす、(2)最も使用率が高いプロセスを再起動する、(3)最も使用率が高いプロセスを停止する、の3種類の対処(制御)の仕方がある。
ネットワーク疎通に関しては、インタフェースの再起動を行う。設定の不備が存在する場合は設定の修正を行う。
ディスク使用率に関しては、容量の増加でのみ対処可能であるため、サーバ(ノード)を新たに起動する制御のみが行われる。
一つのパラメータに対して複数の対処法(制御方法)がある場合には、上述したように、パラメータ実施制御決定部14において、過去の制御履歴における復旧割合等を考慮して一の制御方法が決定される。
これに対して上述のシステムによれば、使用状況に応じて稼働するノード数を増減することが可能となるため、よりシステムの稼働状況に最適化したノード数を稼働させることが可能となる。
Claims (4)
- 複数のノードを有してネットワークを構成するサーバシステムにおいて、
前記ネットワークに対して前記ノードの稼働状態を管理し制御する監視ノードを設置し、
前記監視ノードは、
前記各ノードから稼働状態に関連するパラメータを定期的に取得するノードパラメータ受信部と、
各パラメータの値に応じて前記ノードや前記システムを対象とした制御の有無を判断する要制御パラメータ判断部と、
予め記憶された制御リストに応じて各パラメータに対応するノード制御やシステム制御を決定するパラメータ実施制御決定部と、
制御が必要なノードやシステムへ制御信号を送信する制御送信部と
を備えることを特徴とするサーバシステム。 - 前記制御リストは、一つのパラメータに対して複数の制御方法が設定される請求項1に記載のサーバシステム。
- 前記各ノードは、前記監視ノードからの制御信号に応じて実行された制御結果を記録する制御結果収集部と、制御結果を前記監視ノードに送信する制御結果送信部と備えるとともに、
前記監視ノードは、前記制御結果送信部から送信される制御結果を受信する制御結果受信部を備え、前記パラメータ実施制御決定部は、前記制御結果を受けてノード制御やシステム制御を決定する請求項2に記載のサーバシステム。 - 前記パラメータ実施制御決定部は、一つのパラメータに対して複数の制御方法が存在する場合に、前記制御結果受信部で受信した制御結果に基づき、制御実施により復旧した割合が高い制御方法を選択する請求項3に記載のサーバシステム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011055017A JP2012190378A (ja) | 2011-03-14 | 2011-03-14 | サーバシステム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011055017A JP2012190378A (ja) | 2011-03-14 | 2011-03-14 | サーバシステム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2012190378A true JP2012190378A (ja) | 2012-10-04 |
Family
ID=47083429
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011055017A Pending JP2012190378A (ja) | 2011-03-14 | 2011-03-14 | サーバシステム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2012190378A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103825753A (zh) * | 2012-11-19 | 2014-05-28 | 英业达科技有限公司 | 服务器系统 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002082926A (ja) * | 2000-09-06 | 2002-03-22 | Nippon Telegr & Teleph Corp <Ntt> | 分散アプリケーション試験・運用管理システム |
JP2007267352A (ja) * | 2006-03-02 | 2007-10-11 | Alaxala Networks Corp | 障害回復システム及びサーバ |
WO2008007442A1 (fr) * | 2006-07-14 | 2008-01-17 | Fujitsu Limited | Programme de gestion de système, dispositif de gestion de système et procédé de gestion de système |
WO2008012903A1 (fr) * | 2006-07-27 | 2008-01-31 | Fujitsu Limited | Programme de gestion de système, dispositif de gestion de gestion de système, et procédé de gestion de système |
WO2010032701A1 (ja) * | 2008-09-18 | 2010-03-25 | 日本電気株式会社 | 運用管理装置、運用管理方法、および運用管理プログラム |
JP2010092395A (ja) * | 2008-10-10 | 2010-04-22 | Nec Corp | サーバ管理システム,サーバ管理方法及びサーバ管理用プログラム |
JP2010134645A (ja) * | 2008-12-03 | 2010-06-17 | Ricoh Co Ltd | 遠隔管理システム、遠隔管理装置、機器管理装置、監視間隔制御方法、監視間隔制御プログラム、及びそのプログラムを記録した記録媒体 |
JP2010164245A (ja) * | 2009-01-15 | 2010-07-29 | Daikin Ind Ltd | 機器管理システムおよび機器管理プログラム |
JP2010198414A (ja) * | 2009-02-26 | 2010-09-09 | Nec Corp | 監視システム、監視装置、監視方法、および、プログラム |
-
2011
- 2011-03-14 JP JP2011055017A patent/JP2012190378A/ja active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002082926A (ja) * | 2000-09-06 | 2002-03-22 | Nippon Telegr & Teleph Corp <Ntt> | 分散アプリケーション試験・運用管理システム |
JP2007267352A (ja) * | 2006-03-02 | 2007-10-11 | Alaxala Networks Corp | 障害回復システム及びサーバ |
WO2008007442A1 (fr) * | 2006-07-14 | 2008-01-17 | Fujitsu Limited | Programme de gestion de système, dispositif de gestion de système et procédé de gestion de système |
WO2008012903A1 (fr) * | 2006-07-27 | 2008-01-31 | Fujitsu Limited | Programme de gestion de système, dispositif de gestion de gestion de système, et procédé de gestion de système |
WO2010032701A1 (ja) * | 2008-09-18 | 2010-03-25 | 日本電気株式会社 | 運用管理装置、運用管理方法、および運用管理プログラム |
JP2010092395A (ja) * | 2008-10-10 | 2010-04-22 | Nec Corp | サーバ管理システム,サーバ管理方法及びサーバ管理用プログラム |
JP2010134645A (ja) * | 2008-12-03 | 2010-06-17 | Ricoh Co Ltd | 遠隔管理システム、遠隔管理装置、機器管理装置、監視間隔制御方法、監視間隔制御プログラム、及びそのプログラムを記録した記録媒体 |
JP2010164245A (ja) * | 2009-01-15 | 2010-07-29 | Daikin Ind Ltd | 機器管理システムおよび機器管理プログラム |
JP2010198414A (ja) * | 2009-02-26 | 2010-09-09 | Nec Corp | 監視システム、監視装置、監視方法、および、プログラム |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103825753A (zh) * | 2012-11-19 | 2014-05-28 | 英业达科技有限公司 | 服务器系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE102004052270B4 (de) | Verarbeitungsvorrichtungs-Managementsystem | |
US10609159B2 (en) | Providing higher workload resiliency in clustered systems based on health heuristics | |
CN111818159B (zh) | 数据处理节点的管理方法、装置、设备及存储介质 | |
EP2972746B1 (en) | Storage unit selection for virtualized storage units | |
EP3129903B1 (en) | Systems and methods for fault tolerant communications | |
JP5035011B2 (ja) | 仮想サーバ管理装置および仮想サーバ管理方法 | |
CN106575247B (zh) | 计算集群的容错联盟 | |
WO2012056596A1 (ja) | 計算機システム及び処理制御方法 | |
US8065560B1 (en) | Method and apparatus for achieving high availability for applications and optimizing power consumption within a datacenter | |
US8898520B1 (en) | Method of assessing restart approach to minimize recovery time | |
JP2015522876A (ja) | クラウドベースアプリケーションの単一障害点の排除のための、方法および装置 | |
JP2010204876A (ja) | 分散システム | |
CN103019889A (zh) | 分布式文件系统及其故障处理方法 | |
CN103534687A (zh) | 聚簇数据格网中的可扩展集中动态资源分配 | |
US20160344582A1 (en) | Call home cluster | |
WO2019056771A1 (zh) | 分布式存储系统升级管理的方法、装置及分布式存储系统 | |
JP2008152618A (ja) | ジョブ割当プログラム、方法及び装置 | |
JP2007164264A (ja) | 負荷分散プログラム、負荷分散装置、サービスシステム | |
CN110912972A (zh) | 一种业务处理方法、系统、电子设备及可读存储介质 | |
EP2642388B1 (en) | Standby system device, control method, and program thereof | |
CN107508700B (zh) | 容灾方法、装置、设备及存储介质 | |
US10216593B2 (en) | Distributed processing system for use in application migration | |
JP6295856B2 (ja) | 管理支援方法,管理支援装置及び管理支援プログラム | |
JP4796086B2 (ja) | クラスタシステム及び同システムにおいてマスタノードを選択する方法 | |
JP2012190378A (ja) | サーバシステム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20130823 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140806 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20141006 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20150225 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20150624 |