JP5858144B2 - 情報処理システム、障害検知方法および情報処理装置 - Google Patents
情報処理システム、障害検知方法および情報処理装置 Download PDFInfo
- Publication number
- JP5858144B2 JP5858144B2 JP2014507300A JP2014507300A JP5858144B2 JP 5858144 B2 JP5858144 B2 JP 5858144B2 JP 2014507300 A JP2014507300 A JP 2014507300A JP 2014507300 A JP2014507300 A JP 2014507300A JP 5858144 B2 JP5858144 B2 JP 5858144B2
- Authority
- JP
- Japan
- Prior art keywords
- information processing
- processing apparatus
- nic
- beat
- notification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/08—Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
- H04L43/0805—Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/04—Network management architectures or arrangements
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/06—Management of faults, events, alarms or notifications
- H04L41/0677—Localisation of faults
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/10—Active monitoring, e.g. heartbeat, ping or trace-route
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L49/00—Packet switching elements
- H04L49/30—Peripheral units, e.g. input or output ports
Description
図1は、実施例1に係るシステムの全体構成例を示す図である。図1に示すように、このシステムは、マスタサーバ50と複数のラック5とをL2スイッチ(レイヤ2スイッチ)を有し、ネットワークを介して相互に通信可能に接続される。このシステムは、Hadoopを用いた分散処理システムである。
次に、スレーブサーバ10とマスタサーバ50のハードウェア構成を説明する。各サーバは、同様の構成を有するので、ここでは、サーバ100として説明する。図3は、ハードウェア構成例を示す図である。
図4は、スレーブサーバの構成を示す機能ブロック図である。図4に示すように、スレーブサーバ10は、Hadoop11、省電力処理デーモン12、OS13、ドライバ14、NIC15を有する。
図8は、マスタサーバの構成を示す機能ブロック図である。図8に示すように、マスタサーバ50は、Hadoop51、状態監視デーモン52、OS53、ドライバ54、NIC55を有する。
次に、スレーブサーバ10が、ハートビートからNICビートを生成してマスタサーバ50に送信し、マスタサーバ50が、NICビートからスレーブサーバの状態を把握する一連の流れを説明する。ここでは、正常時、OS異常時、省電力モード移行時、ネットワーク異常時の各々について説明する。
図10は、正常時のシーケンスを示す図である。スレーブサーバ10のHadoop11は、OS13やドライバ14を介してNICビート装置17に、3秒ごとにハートビートを送信する(S101とS102)。すると、NICビート装置17のハートビート判定部17aは、3秒ごとにハートビートを受信して状態管理部17cを更新する(S103)。
図11は、OS異常時のシーケンスを示す図である。スレーブサーバ10のHadoop11は、OS13やドライバ14を介してNICビート装置17に送信するハートビートの送信タイミングが不規則になる(S201とS202)。すると、NICビート装置17のハートビート判定部17a、省電力モードがOFFかつハートビートが不定期であることに基づいてOS13が異常であると判定し、状態管理部17cを更新する(S203)。
図12は、省電力移行時のシーケンスを示す図である。図12に示すように、スレーブサーバ10の省電力処理デーモン12は、OS13等で実行されるジョブやタスクがないことを検出すると(S301)、スレーブサーバ10を省電力モードに移行させる(S302)。続いて、省電力処理デーモン12は、移行したことをNICビート装置17に通知する(S303とS304)。
図13は、ネットワーク異常時のシーケンスを示す図である。図13に示すように、スレーブサーバ10のHadoop11は、正常時と同様、OS13やドライバ14を介してNICビート装置17に、3秒ごとにハートビートを送信する(S401とS402)。すると、NICビート装置17のハートビート判定部17aは、3秒ごとにハートビートを受信して状態管理部17cを更新する(S403)。
次に、スレーブサーバ10が実行するNICビート送信処理の流れを説明する。図14は、スレーブサーバが実行するNICビート送信処理の流れを示すフローチャートである。
次に、マスタサーバ50が実行するNICビート受信処理の流れと状態監視処理の流れとを説明する。
図15は、マスタサーバが実行するNICビート受信処理の流れを示すフローチャートである。マスタサーバ50のNICビート受信部57aは、スレーブサーバ10からNICビートを受信すると(S601)、現在の時刻をスレーブサーバ管理部57bに通知する(S602)。すなわち、スレーブサーバ管理部57bは、該当するスレーブサーバ10のレコードにおける「NICビート受信時刻」に、通知された現在の時刻を格納する。
図16は、マスタサーバが実行する状態監視処理の流れを示すフローチャートである。図16に示すように、マスタサーバ50の状態監視デーモン52は、スレーブサーバ管理部57bを参照し、NICビート受信時刻から3分以上が経過しているスレーブサーバ10が存在するか否かを判定する(S701)。つまり、状態監視デーモン52は、スレーブサーバ管理部57bが管理するNICビート受信時刻が3分以上更新されないスレーブサーバ10が存在するか否かを判定する。
実施例1では、OS状態ビット、省電力モード、OS異常ビットをNICビートで送信する例を説明したが、これに限定されるものではなく、いずれか1つを送信するようにしてもよい。また、任意の組み合わせで送信してもよい。
実施例1では、ハートビートが3秒間隔で送信され、NICビートが1分間隔で送信される例を説明したが、これに限定されるものではなく、いずれの送信間隔も任意に設定変更することができる。ただし、マスタサーバ50の負荷を軽減するために、NICビートの送信間隔は、ハートビートの送信間隔よりも長いことが好ましい。
また、本実施例において説明した各処理のうち、自動的におこなわれるものとして説明した処理の全部または一部を手動的におこなうこともできる。あるいは、手動的におこなわれるものとして説明した処理の全部または一部を公知の方法で自動的におこなうこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。
11 Hadoop
12 省電力処理デーモン
13 OS
14 ドライバ
15 NIC
16 コントローラ
16a 送信処理部
16b 受信処理部
17 NICビート装置
17a ハートビート判定部
17b 省電力モード処理部
17c 状態管理部
17d NICビート生成部
17e NICビート送信部
50 マスタサーバ
51 Hadoop
52 状態監視デーモン
53 OS
54 ドライバ
55 NIC
56 コントローラ
56a 送信処理部
56b 受信処理部
57 NICビート装置
57a NICビート受信部
57b スレーブサーバ管理部
57c 通知部
Claims (9)
- 第1の情報処理装置と、前記第1の情報処理装置を監視する第2の情報処理装置とを含む情報処理システムであって、
前記第1の情報処理装置は、
第1の入出力装置と、
オペレーティングシステムが動作するプロセッサと、
前記第2の情報処理装置と通信可能であって、オペレーティングシステムからの通知が得られない場合であっても、前記第1の入出力装置から送信する通知信号を前記第2の情報処理装置に送信する第1の入出力部と、を有し、
前記第2の情報処理装置は、
第2の入出力装置と、
前記第2の入出力装置が、前記第1の入出力装置から前記通知信号を受信しなかった場合に、前記第1の情報処理装置と前記第2の情報処理装置とを接続するネットワークに障害が発生したと検知する障害検知部と、
を有することを特徴とする情報処理システム。 - 前記第1の入出力部は、オペレーティングシステムからの通知に応じて該オペレーティングシステムの状態情報を生成する生成部を有し、
前記第1の入出力部は、該生成部が生成した該状態情報を、前記通知信号に含めて前記第2の情報処理装置に送信する、
ことを特徴とする請求項1に記載の情報処理システム。 - 前記第1の情報処理装置の生成部は、
前記オペレーティングシステムからの通知の発生周期が不規則になった場合、または、前記オペレーティングシステムからの通知を受信できなくなった場合に、前記第1の情報処理装置で異常が発生したことを示す異常通知情報を生成し、
前記第1の入出力部は、前記生成部が生成した前記異常通知情報を、前記通知信号に含めて前記第2の情報処理装置に送信し、
前記第2の情報処理装置の障害検知部は、
前記第1の情報処理装置から受信した通知信号に、前記異常通知情報が含まれている場合には、前記第1の情報処理装置で障害が発生したと検知することを特徴とする請求項2に記載の情報処理システム。 - 前記第1の情報処理装置の生成部は、
前記第1の情報処理装置が実行対象とするジョブが存在しなくなった場合に、電力消費を抑制する省電力モードに移行することを示す移行通知情報を生成し、
前記第1の入出力部は、前記生成部が生成した前記移行通知情報を、前記通知信号に含めて前記第2の情報処理装置に送信し、
前記第2の情報処理装置の障害検知部は、
前記第1の情報処理装置から受信した通知信号に、前記移行通知情報が含まれている場合には、前記第1の情報処理装置を監視対象から除外することを特徴とする請求項2に記載の情報処理システム。 - 前記第1の情報処理装置の第1の入出力部は、前記移行通知情報を含む前記通知信号が前記第2の情報処理装置に送信された後、前記省電力モードが解除されるまで、前記通知信号の送信を抑制することを特徴とする請求項4に記載の情報処理システム。
- 前記第1の情報処理装置の生成部は、
前記第1の情報処理装置に前記ジョブが発生した場合に、前記省電力モードを解除することを示す解除通知情報を生成し、
前記第1の入出力部は、前記生成部が生成した前記解除通知情報を、前記通知信号に含めて前記第2の情報処理装置に送信し、
前記第2の情報処理装置の障害検知部は、
前記第1の情報処理装置から受信した通知信号に、前記解除通知情報が含まれている場合には、前記第1の情報処理装置を監視対象に戻すことを特徴とする請求項5に記載の情報処理システム。 - 第1の情報処理装置と、前記第1の情報処理装置を監視する第2の情報処理装置とを含む情報処理システムに適した障害検知方法において、
前記第1の情報処理装置が、
前記第2の情報処理装置と通信可能であって、プロセッサが動作させるオペレーティングシステムからの通知が得られない場合であっても、第1の入出力装置から送信する通知信号を前記第2の情報処理装置に送信し、
前記第2の情報処理装置が、
第2の入出力装置が、前記第1の入出力装置から前記通知信号を受信しなかった場合に、前記第1の情報処理装置と前記第2の情報処理装置とを接続するネットワークに障害が発生したと検知する、
を実行することを特徴とする障害検知方法。 - 情報処理装置と、前記情報処理装置を監視する監視装置とを含む情報処理システムの前記情報処理装置において、
第1の入出力装置と、
オペレーティングシステムが動作するプロセッサと、
前記第1の入出力装置から送信される通知信号を受信しなかった場合に前記情報処理装置と前記監視装置とを接続するネットワークに障害が発生したと検知する前記監視装置に、前記監視装置と通信可能であってオペレーティングシステムからの通知が得られない場合であっても前記通知信号を送信する第1の入出力部と、
を有することを特徴とする情報処理装置。 - 監視対象の装置と、前記監視対象の装置を監視する情報処理装置とを含む情報処理システムの前記情報処理装置において、
第2の入出力装置と、
前記情報処理装置と通信可能であってプロセッサが動作させるオペレーティングシステムからの通知が得られない場合であっても前記監視対象の装置が送信する通知信号を、前記第2の入出力装置が前記監視対象の装置から受信しなかった場合に、前記監視対象の装置と自装置との間のネットワークに障害が発生したと検知する障害検知部と、
を有することを特徴とする情報処理装置。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2012/058754 WO2013145325A1 (ja) | 2012-03-30 | 2012-03-30 | 情報処理システム、障害検知方法および情報処理装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2013145325A1 JPWO2013145325A1 (ja) | 2015-08-03 |
JP5858144B2 true JP5858144B2 (ja) | 2016-02-10 |
Family
ID=49258687
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014507300A Expired - Fee Related JP5858144B2 (ja) | 2012-03-30 | 2012-03-30 | 情報処理システム、障害検知方法および情報処理装置 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20150019671A1 (ja) |
JP (1) | JP5858144B2 (ja) |
WO (1) | WO2013145325A1 (ja) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5687173B2 (ja) * | 2011-11-15 | 2015-03-18 | 株式会社日立製作所 | 通信システム及び方法、ハートビート代行サーバ |
US9712380B2 (en) * | 2013-08-30 | 2017-07-18 | Shimadzu Corporation | Analytical device control system |
US9819563B2 (en) * | 2014-12-19 | 2017-11-14 | Verizon Patent And Licensing Inc. | Failure management for electronic transactions |
CN107294799B (zh) * | 2016-03-31 | 2020-09-01 | 阿里巴巴集团控股有限公司 | 一种分布式系统中节点的处理方法和装置 |
JP6662185B2 (ja) * | 2016-04-28 | 2020-03-11 | 横河電機株式会社 | 処理装置、代替処理装置、中継装置、処理システム及び処理方法 |
US10191794B2 (en) | 2016-09-28 | 2019-01-29 | Mcafee, Llc | Monitoring and analyzing watchdog messages in an internet of things network environment |
CN106603301B (zh) * | 2016-12-29 | 2019-09-06 | 杭州宏杉科技股份有限公司 | 一种基于存储集群多节点对的仲裁者实现方法及装置 |
CN110933142A (zh) * | 2019-11-07 | 2020-03-27 | 浪潮电子信息产业股份有限公司 | 一种icfs集群网卡监控方法、装置和设备及介质 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07262148A (ja) * | 1994-03-22 | 1995-10-13 | Nec Corp | コンピュータシステム |
JP4657800B2 (ja) * | 2005-05-16 | 2011-03-23 | 本田技研工業株式会社 | 航空機用ガスタービン・エンジンの制御装置 |
-
2012
- 2012-03-30 JP JP2014507300A patent/JP5858144B2/ja not_active Expired - Fee Related
- 2012-03-30 WO PCT/JP2012/058754 patent/WO2013145325A1/ja active Application Filing
-
2014
- 2014-09-29 US US14/499,607 patent/US20150019671A1/en not_active Abandoned
Also Published As
Publication number | Publication date |
---|---|
JPWO2013145325A1 (ja) | 2015-08-03 |
US20150019671A1 (en) | 2015-01-15 |
WO2013145325A1 (ja) | 2013-10-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5858144B2 (ja) | 情報処理システム、障害検知方法および情報処理装置 | |
JP5910811B2 (ja) | スイッチ装置の制御システム、その構成制御装置および構成制御方法 | |
US8332506B2 (en) | Network monitor program executed in a computer of cluster system, information processing method and computer | |
CN106330475B (zh) | 一种通信系统中管理主备节点的方法和装置及高可用集群 | |
US20140095925A1 (en) | Client for controlling automatic failover from a primary to a standby server | |
US9208124B2 (en) | Reset of processing core in multi-core processing system | |
JP6179101B2 (ja) | 管理装置、管理方法、および管理プログラム | |
JP2008015722A (ja) | データ処理システム | |
EP3291487B1 (en) | Method for processing virtual machine cluster and computer system | |
EP2637102A1 (en) | Cluster system with network node failover | |
WO2016165157A1 (zh) | 家庭服务系统的故障处理方法及家电设备、服务器 | |
JPWO2015104841A1 (ja) | 多重系システムおよび多重系システム管理方法 | |
CN107071189B (zh) | 一种通讯设备物理接口的连接方法 | |
US20140129865A1 (en) | System controller, power control method, and electronic system | |
JP6253956B2 (ja) | ネットワーク管理サーバおよび復旧方法 | |
KR102131863B1 (ko) | 라우팅 처리기의 동작 모드 천이 방법 | |
JP2010244463A (ja) | イベント検出制御方法及びシステム | |
JP2010092395A (ja) | サーバ管理システム,サーバ管理方法及びサーバ管理用プログラム | |
JP5613119B2 (ja) | マスター/スレーブシステム、制御装置、マスター/スレーブ切替方法、および、マスター/スレーブ切替プログラム | |
JP2014048933A (ja) | プラント監視システム、プラント監視方法およびプラント監視プログラム | |
CN110213364B (zh) | 快递柜监控方法、系统、存储介质和设备 | |
JP2011065469A (ja) | 分散ファイルシステム及び分散ファイルシステムにおけるノード起動方法 | |
JP2016100659A (ja) | 周期型データ共有システム及び方法 | |
JP4863984B2 (ja) | 監視処理プログラム、方法及び装置 | |
WO2014010021A1 (ja) | 情報処理装置、情報処理システム、情報処理装置制御方法及び情報処理装置制御プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20150825 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20151023 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20151117 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20151130 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5858144 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |