JP2009037575A - 分散システム - Google Patents
分散システム Download PDFInfo
- Publication number
- JP2009037575A JP2009037575A JP2007203755A JP2007203755A JP2009037575A JP 2009037575 A JP2009037575 A JP 2009037575A JP 2007203755 A JP2007203755 A JP 2007203755A JP 2007203755 A JP2007203755 A JP 2007203755A JP 2009037575 A JP2009037575 A JP 2009037575A
- Authority
- JP
- Japan
- Prior art keywords
- node
- failure
- counter
- nodes
- synchronization
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/0706—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
- G06F11/0709—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a distributed system consisting of a plurality of standalone computer nodes, e.g. clusters, client-server systems
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B23/00—Testing or monitoring of control systems or parts thereof
- G05B23/02—Electric testing or monitoring
- G05B23/0205—Electric testing or monitoring by means of a monitoring system capable of detecting and responding to faults
- G05B23/0218—Electric testing or monitoring by means of a monitoring system capable of detecting and responding to faults characterised by the fault detection method dealing with either existing or incipient faults
- G05B23/0224—Process history based detection method, e.g. whereby history implies the availability of large amounts of data
- G05B23/0227—Qualitative history assessment, whereby the type of data acted upon, e.g. waveforms, images or patterns, is not relevant, e.g. rule based assessment; if-then decisions
- G05B23/0237—Qualitative history assessment, whereby the type of data acted upon, e.g. waveforms, images or patterns, is not relevant, e.g. rule based assessment; if-then decisions based on parallel systems, e.g. comparing signals produced at the same time by same type systems and detect faulty ones by noticing differences among their responses
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/0706—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
- G06F11/0736—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in functional embedded systems, i.e. in a data processing system designed as a combination of hardware and software dedicated to performing a certain function
- G06F11/0739—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in functional embedded systems, i.e. in a data processing system designed as a combination of hardware and software dedicated to performing a certain function in a data processing system embedded in automotive or aircraft systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/0751—Error or fault detection not based on redundancy
- G06F11/0754—Error or fault detection not based on redundancy by exceeding limits
- G06F11/076—Error or fault detection not based on redundancy by exceeding limits by exceeding a count or rate limit, e.g. word- or bit count limit
Abstract
分散制御システムでは障害を特定し、障害発生状況に応じて、ノード間で足並みを揃えて状態遷移することがシステムの安全性を保つために重要である。ノード間相互監視を行うことで、障害発生数を管理するエラーカウンタの値はノード間で一致するが、障害発生状況に応じては、カウンタ値がノード間でずれてしまう。この為、ノード間でエラーカウンタ同期の実施が必要となる。
【解決手段】
複数ノードがネットワークを介して接続される分散システムにおいて、複数ノードの各々は、他ノードに対する障害監視を行う障害監視部と、ネットワークを介して他ノードの障害を検知するデータを送受信し、障害監視結果を交換する送受信部と、交換された障害監視結果に基づいて、ノード障害を特定する障害特定部と、障害があると特定されたノードのエラーの数をカウントするカウンタ部と、エラーカウンタ値をノード間で交換し同期を取るカウンタ同期部を備える。
【選択図】図1
Description
(1)カウンタ値が0
(2)リセットフラグが有効(ビットが立っている)
カウンタリセット状態になるのは、ノードが自己診断や相互監視により自ノードに異常があるのを発見し、自ノードをリセットすることにより、カウンタがクリアされる場合などがある。カウンタリセット状態であればステップ360へ、そうでなければステップ370へ進む。
11 CPU
12 メインメモリ
13 I/F
14 記憶装置
100 ネットワーク
Claims (7)
- 複数のノードがネットワークを介して接続される分散システムにおいて、
前記複数のノードの各々は、
他ノードに対する障害監視を行う障害監視部と、
前記ネットワークを介して、他ノードの障害を検知するためのデータを送受信し、障害監視結果を交換する送受信部と、
交換された前記障害監視結果に基づいて、どのノードに障害があるかを特定する障害特定部と、
障害があると特定されたノードのエラーの数をカウントするカウンタ部と、
エラーカウンタ値をノード間で交換し、エラーカウンタ同期条件が成立するときに同期を取るカウンタ同期部を備えることを特徴とする分散システム。 - 請求項1のエラーカウンタ同期条件は、
受信したエラーカウンタ値が、自ノードのカウンタ値と比較して差が指定範囲内にあることを特徴とする分散システム。 - 請求項2の分散システムは、
交換するエラーカウンタ値の対象ノードを障害特定のサイクルに合わせてローテーションすることを特徴とする分散システム。 - 請求項1の分散システムは、
エラーカウンタがリセット状態のときに、エラーカウンタ同期条件が不成立であっても、エラーカウンタを仮同期し、その後、エラーカウンタ同期条件が指定回数連続して成功すれば同期を確定することを特徴とする分散システム。 - 請求項1の分散システムは、
エラーカウンタ同期条件が指定回数連続して不成立となる場合には、エラーカウンタをリセット状態にすることを特徴とする分散システム。 - 請求項1の分散システムは、
エラーカウンタを同期させる値として受信するカウンタ値の多数決結果とし、エラーカウンタ同期条件として前記多数決が成立することを特徴とする分散システム。 - 請求項1の分散システムは、
前記カウンタ同期部の交換するカウンタ値が、前記障害特定結果ではなく、前記障害監
視結果を反映したエラーカウンタ値であることを特徴とする分散システム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007203755A JP4512621B2 (ja) | 2007-08-06 | 2007-08-06 | 分散システム |
US12/184,447 US20090040934A1 (en) | 2007-08-06 | 2008-08-01 | Distributed System |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007203755A JP4512621B2 (ja) | 2007-08-06 | 2007-08-06 | 分散システム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2009037575A true JP2009037575A (ja) | 2009-02-19 |
JP4512621B2 JP4512621B2 (ja) | 2010-07-28 |
Family
ID=40346415
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007203755A Active JP4512621B2 (ja) | 2007-08-06 | 2007-08-06 | 分散システム |
Country Status (2)
Country | Link |
---|---|
US (1) | US20090040934A1 (ja) |
JP (1) | JP4512621B2 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013130977A (ja) * | 2011-12-20 | 2013-07-04 | Fujitsu Ltd | 情報処理装置及び動作状態監視方法 |
CN113704026A (zh) * | 2021-10-28 | 2021-11-26 | 北京时代正邦科技股份有限公司 | 一种分布式金融内存数据库安全同步方法、装置、介质 |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5421152B2 (ja) * | 2010-03-08 | 2014-02-19 | ルネサスエレクトロニクス株式会社 | 半導体集積回路 |
JP2012257122A (ja) * | 2011-06-09 | 2012-12-27 | Hitachi Automotive Systems Ltd | 車両制御装置、車両制御システム |
US10063439B2 (en) | 2014-09-09 | 2018-08-28 | Belkin International Inc. | Coordinated and device-distributed detection of abnormal network device operation |
US9026841B1 (en) * | 2014-09-09 | 2015-05-05 | Belkin International, Inc. | Coordinated and device-distributed detection of abnormal network device operation |
CN106571852A (zh) * | 2016-11-03 | 2017-04-19 | 国网辽宁省电力有限公司检修分公司 | 与时钟系统无关的直流输电监控系统数据链路通断判定法 |
US11604440B2 (en) * | 2017-03-29 | 2023-03-14 | Hitachi, Ltd. | Control switching device for abnormality prevention in multiple terminals |
CN109461078B (zh) * | 2018-10-22 | 2020-09-11 | 中信网络科技股份有限公司 | 一种基于资金交易网络的异常交易识别方法及系统 |
EP3898373A4 (en) * | 2018-12-19 | 2023-01-11 | Zoox, Inc. | SAFE SYSTEM OPERATION USING LATENCY DETERMINATIONS AND CPU UTILIZATION DETERMINATIONS |
JP7221070B2 (ja) * | 2019-02-07 | 2023-02-13 | 日立Astemo株式会社 | 電子制御装置、制御方法 |
CN111475386B (zh) * | 2020-06-05 | 2024-01-23 | 中国银行股份有限公司 | 一种故障预警方法及相关装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05216854A (ja) * | 1992-02-05 | 1993-08-27 | Nec Corp | ホストコンピュータ装置 |
JPH08305611A (ja) * | 1995-04-28 | 1996-11-22 | Nec Home Electron Ltd | Cpu監視方法及びcpu監視装置 |
JP2004326775A (ja) * | 2003-04-28 | 2004-11-18 | Internatl Business Mach Corp <Ibm> | 分散ノード環境におけるfru障害分離のための機構 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005306124A (ja) * | 2004-04-20 | 2005-11-04 | Hitachi Ltd | 車両制御装置 |
EP2177413B1 (en) * | 2004-07-15 | 2015-02-25 | Hitachi, Ltd. | Vehicle control system |
JP4871687B2 (ja) * | 2005-10-03 | 2012-02-08 | 日立オートモティブシステムズ株式会社 | 車両制御システム |
-
2007
- 2007-08-06 JP JP2007203755A patent/JP4512621B2/ja active Active
-
2008
- 2008-08-01 US US12/184,447 patent/US20090040934A1/en not_active Abandoned
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05216854A (ja) * | 1992-02-05 | 1993-08-27 | Nec Corp | ホストコンピュータ装置 |
JPH08305611A (ja) * | 1995-04-28 | 1996-11-22 | Nec Home Electron Ltd | Cpu監視方法及びcpu監視装置 |
JP2004326775A (ja) * | 2003-04-28 | 2004-11-18 | Internatl Business Mach Corp <Ibm> | 分散ノード環境におけるfru障害分離のための機構 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013130977A (ja) * | 2011-12-20 | 2013-07-04 | Fujitsu Ltd | 情報処理装置及び動作状態監視方法 |
CN113704026A (zh) * | 2021-10-28 | 2021-11-26 | 北京时代正邦科技股份有限公司 | 一种分布式金融内存数据库安全同步方法、装置、介质 |
Also Published As
Publication number | Publication date |
---|---|
JP4512621B2 (ja) | 2010-07-28 |
US20090040934A1 (en) | 2009-02-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4512621B2 (ja) | 分散システム | |
JP4871687B2 (ja) | 車両制御システム | |
JP2009009557A (ja) | 分散システム | |
US9256489B2 (en) | Synchronized debug information generation | |
Keroglou et al. | Distributed fault diagnosis in discrete event systems via set intersection refinements | |
JP2010011093A (ja) | 分散システム | |
US8041993B2 (en) | Distributed control system | |
AU2021286376A1 (en) | Detecting path faults in parallel redundancy protocol communications | |
CN108388108B (zh) | 一种多重冗余控制系统中同步数据的方法及装置 | |
JP2012080181A (ja) | 障害情報管理方法および障害情報管理プログラム | |
CN104488227A (zh) | 用于在大型数据处理系统中进行孤立异常检测的方法 | |
CN113965494A (zh) | 用于冗余进程网络中的故障检测和角色选择的方法 | |
US10860400B2 (en) | Intelligent monitoring and diagnostics for application support | |
Keroglou et al. | Distributed diagnosis using predetermined synchronization strategies in the presence of communication constraints | |
JP2011023983A (ja) | ネットワークノード | |
JP2019079263A (ja) | 冗長系ストレージシステム及び冗長系ストレージシステムにおける障害復旧方法 | |
de Moraes Rossetto et al. | A failure detector that gives information on the degree of confidence in the system | |
CN117155938B (zh) | 集群节点故障上报方法、装置、设备及存储介质 | |
WO2017099062A1 (ja) | 診断装置、診断方法、及び、診断プログラムが記録された記録媒体 | |
JP6492885B2 (ja) | 診断装置 | |
JP7298412B2 (ja) | 異常判定装置、異常判定方法およびプログラム | |
WO2023276350A1 (ja) | 通信装置、通信制御方法、および通信制御プログラム | |
WO2009017407A2 (en) | Restarting networks | |
Jiang et al. | A Novel Equivalence Proof of Clock and Network Synchronization Model Towards Distributed Clouds | |
JP3663571B2 (ja) | 監視システム及び監視装置及び監視方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20090526 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090915 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20091116 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100420 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100510 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130514 Year of fee payment: 3 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 4512621 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130514 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130514 Year of fee payment: 3 |