JP2009009557A - 分散システム - Google Patents

分散システム Download PDF

Info

Publication number
JP2009009557A
JP2009009557A JP2008140264A JP2008140264A JP2009009557A JP 2009009557 A JP2009009557 A JP 2009009557A JP 2008140264 A JP2008140264 A JP 2008140264A JP 2008140264 A JP2008140264 A JP 2008140264A JP 2009009557 A JP2009009557 A JP 2009009557A
Authority
JP
Japan
Prior art keywords
failure
node
nodes
abnormality
monitoring
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2008140264A
Other languages
English (en)
Inventor
Masahiro Matsubara
正裕 松原
Kohei Sakurai
康平 櫻井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2008140264A priority Critical patent/JP2009009557A/ja
Priority to US12/128,934 priority patent/US20080298256A1/en
Publication of JP2009009557A publication Critical patent/JP2009009557A/ja
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0736Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in functional embedded systems, i.e. in a data processing system designed as a combination of hardware and software dedicated to performing a certain function
    • G06F11/0739Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in functional embedded systems, i.e. in a data processing system designed as a combination of hardware and software dedicated to performing a certain function in a data processing system embedded in automotive or aircraft systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0709Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a distributed system consisting of a plurality of standalone computer nodes, e.g. clusters, client-server systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • G06F11/0754Error or fault detection not based on redundancy by exceeding limits
    • G06F11/076Error or fault detection not based on redundancy by exceeding limits by exceeding a count or rate limit, e.g. word- or bit count limit
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0805Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability
    • H04L43/0817Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability by checking functioning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0823Errors, e.g. transmission errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/18Error detection or correction of the data by redundancy in hardware using passive fault-masking of the redundant circuits
    • G06F11/182Error detection or correction of the data by redundancy in hardware using passive fault-masking of the redundant circuits based on mutual exchange of the output between redundant processing components

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Environmental & Geological Engineering (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computer Hardware Design (AREA)
  • Debugging And Monitoring (AREA)
  • Computer And Data Communications (AREA)
  • Hardware Redundancy (AREA)

Abstract

【課題】
分散システムでは、障害を高信頼に特定し、また障害発生状況に関する認識をノード間で一致させるために、ノード間での相互監視を用いて、障害特定条件を2つ設定し、多数決型の障害特定方法を採用する。しかしながら、当該障害特定方法では、障害特定条件によらず、エラー数をカウントすることになるため、制御アプリケーションには正確かつ詳細な障害発生状況が分からず、障害発生時の対処が画一的になってしまう。
【解決手段】
複数のノードがネットワークを介して接続される分散システムは、複数のノードの各々は、他ノードに対する障害監視を行う障害監視部と、ネットワークを介して、他ノードの障害を検知するためのデータを送受信する送受信部と、データに基づいて、どのノードに障害があるかを特定する障害特定部と、障害があると特定されたノードのエラーの数を、障害特定条件毎にカウントするカウンタ部を備える。
【選択図】図1

Description

本発明は、ネットワークにより結合された複数の装置が協調動作して、高信頼な制御を行うシステムに関する。
近年、自動車の運転快適性や安全性の向上を目指して、機械的な結合ではなく、電子制御により、運転者のアクセル,ステアリング,ブレーキなどの操作を車両の駆動力,操舵力,制動力発生機構などに反映させる車両制御システムの開発が行われている。このようなシステムでは、自動車内に分散した複数の電子制御装置(ECU:Electronic Control
Unit)がネットワークを介してデータをやり取りして協調動作を行う。この際、同一ネットワーク内のあるECUに障害が発生した際に、残りの正常なECUが、どのECUに障害が発生したかを正確に特定し、障害箇所に応じた適切なバックアップ制御を行うことが、フェールセーフ上必要不可欠となる。上記課題を解決するために、システムを構成する各ノード(ECUなどの処理主体)がネットワーク内の他ノードの状態を監視する技術がある(特許文献1参照)。
特開2000−47894号公報
特許文献1によれば、データベースアプリケーションの稼動状態などに関する監視情報を各ノードで相互に共有するための特別なノード(共有ディスク)が必要になり、この共有ディスクが故障するとシステム内の障害ノード監視を継続することができなくなってしまう。また、共有ディスクを設けることにより、システムのコストが増加することが懸念される。その課題を解決するために、以下のような方法が考えられる。例えば、あるノードのある項目について、各ノードが単独で障害を検出するための監視を行い、その障害監視結果を、ネットワークを通してノード間で交換し、各ノードにて障害監視結果を集約し、最終的な障害の特定を行う。より具体的には、あるノードjについての各ノードによる障害監視結果から障害特定するとき、各ノードは、障害を検出したノード数が、「<障害特定条件1>閾値以上ならば、ノードjに障害ありと判断」し、「<障害特定条件2>閾値未満ならば、障害を検出したノードに障害ありと判断」する。尚、障害ありと判断されなかったノードについては障害なしと判断する。
しかし、上記のような構成とした場合、障害特定条件1に該当するときも、障害特定条件2に該当するときも、障害特定条件に関係なく、1つのカウンタでエラー発生数を管理することになる。そのため、異なる障害発生状況がアプリケーションにとっては同じに見えていた。条件1に該当する場合には送信側に異常のあることが多く、障害特定条件2では受信側に異常のあることが多いが、上記の構成では、それらを異なる障害発生状況と捕らえることができない、という課題がある。
そこで、本発明の目的は、障害の種別に応じて、障害があるノードを特定することができる分散システムを提供することにある。
複数のノードがネットワークを介して接続される分散システムは、複数のノードの各々は、他ノードに対する障害監視を行う障害監視部と、ネットワークを介して、他ノードの障害を検知するためのデータを送受信する送受信部と、データに基づいて、どのノードに障害があるかを特定する障害特定部と、障害があると特定されたノードのエラーの数を、障害特定条件毎にカウントするカウンタ部を備える。
本発明によれば、障害の種別に応じて、障害があるノードを特定することができる分散システムを提供することができる。
以下、実施例について説明する。
図1は、分散システムの構成図である。
分散システムは、複数のノード10(10−1,10−2,…,10−n)からなり、これらは、ネットワーク100を介して接続される。ここで、ノードとは、ネットワークを介して情報通信可能な処理装置であり、CPUを含む各種の電子制御装置,アクチュエータとそのドライバ,センサ等が含まれる。ネットワーク100は多重通信可能な通信ネットワークであり、あるノードから当該ネットワークに接続された他の全てのノードに対して、同一内容を同時に送信するブロードキャスト送信が可能である。
各ノードi(iはノード番号,i=1〜n)は、CPU11−i,主メモリ12−i,I/F13−i、及び、記憶装置14−iとからなり、これらは内部通信線等により接続されている。又、I/F13−iは、ネットワーク100と接続されている。
記憶装置14−iは、障害監視部141−i,送受信処理部142−i,障害特定部143−i、及び、カウンタ部144−i等のプログラム、並びに、障害特定結果145−iを格納する。障害特定結果145−iは、後述の監視結果集約表,多数派異常表,少数派異常表等を含む。
CPU11−iは、これらのプログラムを主メモリ12−iに読み込み、実行することにより、処理を行う。本稿で説明するプログラムやデータは、予め記憶装置に格納しておいてもよいし、CD−ROM等の記憶媒体から入力してもよいし、ネットワーク経由で他の装置からダウンロードしてもよい。又、当該プログラムにより実現される機能を、専用のハードウェアにより実現してもよい。以下では、プログラムを主体として記載するが、実際の主体はCPUであることはいうまでもない。
障害監視部141−iは、他ノードに対する障害監視(MON)を行う。送受信処理部142−iは、ネットワーク100を介して、他ノードの障害を検知するためのデータを送受信する。障害特定部143−iは、他ノードの障害を検知するためのデータに基づいて、どのノードに障害があるかの障害特定(ID)を行う。カウンタ部144−iは、障害があると特定されたノードのエラーの数を、障害特定条件毎にカウントする。
図2は、ノード間相互監視による障害特定処理のフロー図を示す。これらの処理は、各ノードが、ネットワーク100を介して互いに通信しながら同期を取ることにより行う。
まず、障害監視部141−iは、他ノードに対する障害監視を行い、受信データや受信時の状況から、送信ノードについての障害有無を、自ノード単独で判断する(ステップ21)。障害監視の対象項目(以下、障害監視項目)は、複数設定してもよい。例えば「受信異常」という項目では、未受信や誤り検出符号による誤り検出を発見するなど、データ受信関係でエラーのあるときに、異常ありとする。「通番異常」という項目では、送信ノードはアプリケーションが通信サイクル毎にインクリメントする通番を送受信データに付加し、受信ノードが通番のインクリメントを確認し、インクリメントされていないときに異常ありとする。通番は送信ノードのアプリケーション異常を確認するための番号である。「自己診断異常」という項目では、各ノードが自ノードの異常有無について自ら診断した結果(以下、自己診断結果)を、他ノードに対して送信し、受信ノードが自己診断結果から、送信ノードについての異常を検知する。「自己診断異常」と「通番異常」を合せて一つの障害監視項目とし、どちらかの項目で異常があれば、統合した障害監視項目でも「異常あり」としてもよい。
次に、送受信処理部142−iは、ステップ21で得られた障害監視結果を、各ノード間で交換する(ステップ22)。各ノードは自ノード分を含む全ノードからの障害監視結果を保持することになる。
次に、障害特定部143−iは、ステップ22で各ノードに集約された障害監視結果から、各ノード・各障害監視項目について、異常有無の多数決を取り、あるノードに対して「異常あり」が過半数であれば、当該ノードに障害があることを特定する(ステップ23)。障害特定方法として、多数決の他、閾値を指定し、「異常あり」とするノード数がその閾値以上であるかを見てもよい。
次に、カウンタ部144−iは、ステップ23で「異常あり」と判定された場合、障害特定の対象ノード・監視項目に対応するエラー数をインクリメントする。逆に「異常なし」と判定された場合、該当エラー数をデクリメントする(ステップ24)。尚、デクリメントに限らず、リセットしてもよいし、何もしなくてもよい。デクリメントにするか、リセットにするか、何もしないか、の選択は、事前に設定しておく。
そして、カウンタ部144−iは、エラー数が指定の閾値以上となった場合、障害発生の事実を制御アプリケーションに通知する(ステップ25)。通知手段の1つには、障害特定の対象ノード・監視項目に対応するノード障害フラグを立てる方法がある。アプリケーションはノード障害フラグを参照することにより、障害発生状況を知ることができる。また、ノード障害フラグを立てた後、制御アプリケーションに対して割込みを掛けたり、コールバック関数を呼ぶことにより、通知が即座になされるようにしてもよい。
このような多数決型の障害特定方法では、「異常あり」と判断する条件には上記に挙げた2つの障害特定条件がある。障害特定条件毎にエラー数をカウントし、障害特定条件に対応するエラー数をインクリメントする。どの障害特定条件にも合致しないとき、各条件に対応するエラー数を、設定に応じてデクリメントする。ノード障害フラグは、ノード番号,障害監視項目の他に、障害特定条件で分ける。
図3は、障害特定条件に応じたエラー数のカウントの一例を示す。
監視結果集約表31は、ある障害監視項目について、障害監視結果交換(EXD)にて各ノードから集められた障害監視結果が入っている。このデータは、ノードk(k=1〜n)がノードj(j=1〜n)について、データ受信時に自ノード単独で判断した異常有無である。但し、自ノードについての判断は除外されている。○は「異常なし」を、×は「異常あり」を表している。このような監視結果集約表31は、各ノードが、障害監視項目毎に持っている。
また、エラー数を格納するテーブルとして、上記の障害特定条件1に合致したときにインクリメントされる多数派異常表32と、上記の障害特定条件2に合致したときにインクリメントされる少数派異常表33とに分かれている。これらのテーブルも、各ノードが、障害監視項目毎に持っている。
各ノードにおける障害特定では、監視結果集約表31を用いて、障害有無を特定する。例えばノード1に対する判定では、「異常あり」としているノードが過半数である。このため障害特定条件1に合致し、多数派異常表32のノード1に対応する値が0から1にインクリメントされている。
また、ノード3に対する判定では、「異常なし」としているノードが過半数であるのに、ノード2だけが「異常あり」としている。このため障害特定条件2に合致し、少数派異常表33のノード2に対応する値が0から1にインクリメントされている。
ノード3,4,5については、どの障害特定条件にも合致しない。このため、ノード3については、多数派異常表32も少数派異常表33も、もともと0なので、0のままとなっている。ノード4については、多数派異常表32が1から0にデクリメントされている。少数派異常表33は0のままである。ノード5については、少数派異常表33が1から0にデクリメントされている。多数派異常表32は0のままである。
多数派異常表が閾値以上になることでノード障害フラグが立つ状態を、以下では便宜的に「多数派異常」という。同様に、少数派異常カウンタが閾値以上になることでノード障害フラグが立つ状態を、「少数派異常」という。
図4は、障害特定条件に応じたエラー数のカウントの一例を示す。
監視結果集約表41、及び、多数派異常表42は、それぞれ、図3の監視結果集約表31、及び、多数派異常表32と同じである。一方、少数派異常表43は、図3のものと異なり、障害特定条件2にノードkが合致したとき、ノードkが障害監視にて「異常あり」と判定したのがどのノードかによって、つまりノードkの障害監視対象ノードjのノード番号j毎に、エラー数を分けている(以下、障害特定条件2に合致時の障害監視対象ノードを「少数派異常対応ノード」という)。但し、少数派異常表43では、少数派異常対応ノードとして自ノードは除いている。
少数派異常表43の値について、ノード1に関しては、障害特定条件1に合致するものの障害特定条件2には合致しないので、全ての少数派異常対応ノードに対して、エラー数は0のままである。ノード2に関しては、少数派異常対応ノードをノード3として障害特定条件2に合致するので、少数派異常対応ノードのノード3に対して、エラー数が0から1にインクリメントされている。ノード3,4に関しては、どの障害特定条件にも合致しないので、全ての少数派異常対応ノードに対して、エラー数は0のままである。ノード5に関しては、どの障害特定条件にも合致しないので、少数派異常対応ノードのノード1に対して、エラー数が2から1にデクリメントされ、少数派異常対応ノードのノード3に対して、エラー数が1から0にデクリメントされ、その他の少数派異常対応ノードに対しては、エラー数は0のままである。
以上の処理を繰り返すことで、障害発生を高信頼に特定し、障害発生状況に関する認識をノード間で一致化させることができる。更に、エラー数のカウントやノード障害フラグ立てを障害特定条件に応じて行うことで、アプリケーションは障害発生状況をより正確に、より詳細に知ることができる。
図5は、ノード間相互監視処理の動作例を示す。
ここでは、障害監視項目として上記の「通番異常」と「受信異常」を選定している。尚、障害監視処理と障害特定処理は、各ノードの送受信終了後、通信サイクルの最後に行われるものとする。
通信サイクルiでは、ノード1〜4は順にスロット1〜4にて、前サイクル分の障害監視結果を送信し(501−1〜504−1、4進数表示)、他ノードが受信して保持する(521−1〜524−1、4進数表示)。送信データは、1つの監視対象ノードについて、通番異常を示すビット(E1),受信異常を示すビット(E2)からなり、それがノード1からノード4までについて並んでいる。但し、自ノード分の領域には、自ノードについての診断結果が入っている。
このとき、ノード3はスロット1にて受信障害を起こしており、ノード1からの障害監視結果を受け取れていない(523−1)。これにより、ノード3はノード1について、通信サイクルi分の障害監視結果として、「受信異常」と判定している(513−1、データ表記法は送信データと同じ)。受信異常により通番のインクリメントが確認されないので、「通番異常」も判定されている。ノード1,2,4は、通信サイクルi分の障害監視では異常を検出していない(511−1,512−1,514−1)。
通信サイクルi分の障害特定処理では、集約した障害監視結果(521−1〜524−1)に過半数を超える異常検出項目がないので、エラー数は0のままであり(531−1〜534−1)、ノード障害フラグも立たない(541−1〜544−1)。尚、ノード障害フラグは、1ノードについて、障害特定条件1による通番異常を示すビット,障害特定条件1による受信異常を示すビット,障害特定条件2による通番異常を示すビット,障害特定条件2による受信異常を示すビットの4ビット1桁によって表され、それがノード1〜4まで順に並んでいるものとする。
また、エラー数は、ノードnについての障害監視結果のエラービットEm(m=1,2)に対応する障害発生数を計数するために、障害特定条件1に合致した場合には多数派異常表としてEm_nを、障害特定条件2に合致した場合には少数派異常表としてFm_nを設定してある。
通信サイクルi+1では、各ノードは前サイクルの障害監視結果を送信するため、ノード3の送信データでは、ノード1についてのエラービットE1,E2が立っている(503−2)。ノード1,2,4の送信データでは、どのエラービットも立っていない(501−2,502−2,504−2)。ここでもやはりノード3はスロット1にて受信障害を起こし、ノード1からの障害監視結果を受け取れていない(523−2)。これにより、ノード3はノード1について、通信サイクルi+1分の障害監視結果として、「通番異常」と「受信異常」を判定している(513−2)。
通信サイクルi+1における通信サイクルi分の障害特定処理では、集約した障害監視結果(521−2〜524−2)から、ノード3がノード1を少数派異常対応ノードとして、「通番異常」と「受信異常」のそれぞれで障害特定条件2に合致し、対応するエラー数がインクリメントされる(531−2〜534−2のうち、F1_3とF2_3)。ノード障害フラグはまだ立たない(541−2〜544−2)。
以上の処理が繰り返され、また通信サイクルi+2においてもノード3はスロット1にて受信障害を起こしているため、通信サイクルi+3の障害特定(ID)処理後には、エラー数F1_3とF2_3は3にまで増加する(531−4〜534−4)。エラー数の閾値を3にしている場合、F1_3とF2_3は閾値以上となるので、ノード3について障害特定条件2による「通番異常」と「受信異常」を示すノード障害フラグが立つ(541−4〜544−4)。
以上により、受信障害が少数派異常として把握され、対応するノード障害フラグによりアプリケーションに通知されることが分かる。上記では少数派異常、即ち障害特定条件2での障害発生状況の把握を扱ったが、障害特定条件1による多数派異常についても同様である。
図6は、ノード間相互監視による障害特定処理のフロー図を示す。
ステップ22の後、障害特定部143−iは、相互監視に参加しているノードのうち、自ノード以外の1つを自ノードが障害特定の責任を持つノードとして、障害特定を行う(ステップ61)。対象とするノードは、各ノードで重複がないようにし、通信サイクル毎にローテーションする。これにより、障害特定処理の負荷をノード間で分散して低減する。
次に、送受信処理部142−iは、各ノード間で、ステップ61で得られた1ノードについての障害特定結果を交換する(ステップ62)。各ノードは、自ノード分を含む全ノードについての障害特定結果を保持することになる。その後の処理は、図2と同様である。尚、障害特定条件2による判定は、ステップ62の後に各ノードにて、全ノードを対象に行ってもよい。
図7は、ノード間相互監視処理の動作例を示す。障害監視項目と、データ交換以外の処理を通信サイクルの最後に行うことは、図5と同じである。
通信サイクルiでは、ノード1〜4は順にスロット1〜4にて、前サイクル分の障害監視結果を送信し(701−1〜704−1)、他ノードが受信して保持する(721−1〜724−1、送信データのうち障害監視結果のみ)。また、送信データには、図5と同じ構造の障害監視結果に加え、前サイクルにて行った前々サイクル分の障害特定結果も入っている。障害特定結果は、対象ノードについて障害特定条件1による判定結果と、障害特定条件2による判定結果とが、それぞれE1,E2に対応する2ビットにて表されている。
このとき、ノード3はスロット1にて受信障害を起こしており、ノード1からの障害監視結果を受け取れていない(723−1)。これにより、ノード3はノード1について、通信サイクルi分の障害監視結果として、「通番異常」と「受信異常」とを判定している(713−1)。ノード1,2,4は、通信サイクルi分の障害監視では異常を検出していない(711−1,712−1,714−1)。
通信サイクルiにおける障害特定処理では、集約した障害監視結果(721−1〜724−1)に過半数を超える異常検出項目がないので、全ノード・全監視項目で「異常なし」とする(731−1〜734−1、送信データの障害特定結果と同じ構造)。
また、通信サイクルiにおける障害特定処理では、集約した前々サイクル分の障害特定結果に「異常あり」がないので、エラー数は0のままであり(741−1〜744−1)、ノード障害フラグも立たない(751−1〜754−1)。
通信サイクルi+1における通信サイクルi分の障害特定処理では、ノード1がノード3を、ノード2がノード4を、ノード3がノード1を、ノード4がノード2を対象にしているとする。ノード1は、集約した障害監視結果(721−2〜724−2)から、ノード3がノード1を少数派異常対応ノードとして、「通番異常」と「受信異常」のそれぞれで障害特定条件2に合致していると判定する(731−2)。他ノードでは、障害が特定されない(732−2,733−2,734−2)。
また、通信サイクルi+1における障害特定処理では、集約した前々サイクル分の障害特定結果に「異常あり」がないので、エラー数は0のままであり(741−2〜744−2)、ノード障害フラグも立たない(751−2〜754−2)。
通信サイクルi+2では、前サイクルにて得られた障害特定結果が、各ノードから障害監視結果と共に送信される(701−3〜704−3)。これにより、各ノードにて、前々通信サイクルにおいてノード3がノード1を少数派異常対応ノードとして、「通番異常」と「受信異常」のそれぞれで障害特定条件2に合致していることを知り、対応するエラー数をインクリメントする(741−3〜744−3のうち、F1_3とF2_3)。ノード障害フラグはまだ立たない(751−3〜754−3)。
通信サイクルi+2の障害特定では、通信サイクルi+1でもノード3がスロット1にて受信障害を起こしていることにより、通信サイクルi+1と同様の判定がなされる(731−3〜734−3)。但し、対象ノードは、ノード1がノード4を、ノード2がノード1を、ノード3がノード2を、ノード4がノード3を、というようにローテーションする。
以上の処理が繰り返され、また通信サイクルi+2においてもノード3はスロット1にて受信障害を起こしているため、通信サイクルi+3の障害特定処理後には、エラー数F1_3とF2_3は2にまで増加する(741−4〜744−4)。エラー数の閾値を2にしている場合、F1_3とF2_3は閾値以上となるので、ノード3について障害特定条件2による「通番異常」と「受信異常」を示すノード障害フラグが立つ(751−4〜754−4)。
以上により、受信障害が少数派異常として把握され、対応するノード障害フラグによりアプリケーションに通知されることが分かる。上記では少数派異常、即ち障害特定条件2での障害発生状況の把握を扱ったが、障害特定条件1による多数派異常についても同様である。
以下では、ノード間相互監視による障害発生状況の通知を、制御アプリケーションが具体的にどのように利用するかについて、制御アプリケーションとしてBBW(Brake By Wire)を例に説明する。
この例では、障害監視項目として、上記の「通番異常」と「受信異常」を扱うこととする。ノード間相互監視の処理フローは、図2でも図6でもよい。エラー数は図3のものを利用する。但し、エラー数の閾値は2段階にして、対応するノード障害フラグも2種類設定する。エラー数が1段目の閾値H1(>0)以上になると、障害レベル1として、対応するノード障害レベル1フラグが立つ。2段目の閾値H2(H1)以上になると、障害レベル2として、対応するノード障害レベル2フラグが立つ。
BBWのシステム構成は次の通りとする。ネットワーク100の通信プロトコルとしてFlexRayが用いられ、ノードとしてECU1〜5がFlexRayネットワークにより結合している。ECU1〜4は各車輪付近に配置され、各車輪のブレーキパッドを操作してブレーキ力を出すモータの電流制御を、インバータを用いて行う。ECU1が右前輪、ECU2が左前輪、ECU3が右後輪、ECU4が左後輪を担当する。ECU5はブレーキペダルの踏み込み量やヨーレート等のセンサ値から各車輪の目標ブレーキ力を計算し、FlexRayネットワーク経由でECU1〜4に送信し、ECU1〜4はその目標ブレーキ力と実際のブレーキ力が等しくなるように、ブレーキ用モータを制御する。
ブレーキペダルの踏み込み量は、別のECUからFlexRayネットワークに周期的に送信されている。ヨーレート等のセンサ計測値は、CAN(Controller Area Network)経由でECU5に送信されている。
以下に、障害発生状況に応じた各ノードの制御アプリケーションの判断例を示す。
[ケース1]
ECU5の通番異常に関する多数派異常の障害レベル1が各ノードの制御アプリケーションに通知されたら、即ちノード障害レベル1フラグが立ったら、ECU5の制御アプリケーションに異常があるということであり、これは致命的な障害であるとして、当該監視項目の障害レベル2を待たず、ECU1〜4はバックアップ制御に移行する。ECU5は、可能であればシャットダウンする。
バックアップ制御は、ECU1〜4がブレーキペダル踏み込み量をネットワークから取り込み、ペダル踏み込み量から単純な比例計算で目標ブレーキ力を求め、その目標ブレーキ力に従って自ECUのブレーキ用モータを制御するものである。
[ケース2]
ECU5の通番異常に関する少数派異常の障害レベル1が通知されたときには、ECU5のみが他ECUの制御アプリケーション異常を検出している状態である。このときは、各ノードは制御上の影響はないものとして、通常制御を継続する。但し、障害発生時には必ず、時機や種類などの内容が、ログとして残されるものとする。このログは、後で障害の原因をエンジニアが診断する際に利用できる。
更にその後、同障害項目の障害レベル2が通知されたときには、障害が重大なものとして、ECU1〜4はバックアップ制御に移行し、ECU5はシャットダウンする。
[ケース3]
ECU1〜4のいずれかの通番異常に関する多数派異常の障害レベル1が通知されたら、異常のある(ノード障害フラグの立った)ECUのブレーキ力はあてにならないと判断し、残りのECUは3輪ブレーキ制御に移行する。これは3輪のブレーキ用モータのみでブレーキ制御を行うものであり、ECU5は3輪で安定的にブレーキを掛けられるよう、力の配分を考慮し、ECU1〜4のうち残りの正常なECUに対して目標ブレーキ力を指令する。異常のあるECUの目標ブレーキ力は0とする。例えば右後輪に異常が発生した場合、前両輪の目標ブレーキ力を通常より強めにする。異常のあるECUは、できればシャットダウンする。
[ケース4]
ECU1〜4のいずれかの通番異常に関する少数派異常の障害レベル1が通知されたときには、各ノードは制御上の影響はないものとして、通常制御を継続する。
更にその後、同障害項目の障害レベル2が通知されたときには、3輪ブレーキ制御に移行する。異常のあるECUは、できればシャットダウンする。
[ケース5]
ECU5の受信異常に関する多数派異常の障害レベル1が通知されたら、ECU1〜4がECU5からの目標ブレーキ力指令を受信できていないということなので、ECU1〜4はバックアップ制御に移行する。ECU5はできればシャットダウンする。
[ケース6]
ECU5の受信異常に関する少数派異常の障害レベル1が通知されたら、ECU5だけECU1〜4の一部から受信できていないということである。これが制御上問題ない仕様となっていれば、各ノードは通常制御を継続する判断を取る。
もし制御上問題あるときには、障害レベル1もしくは障害レベル2が通知された際に、ECU1〜4は自律的にバックアップ制御に移行する。もしくは、ECU5はECU1〜4に対して宣言した上で、シャットダウンしてもよい。シャットダウンの宣言は、ECU5の送信データ内にそのことを示すフラグ領域を設けることで実現する。
ECU1〜4は、ECU5からのシャットダウン宣言を受信し、更にECU5がシャットダウンすることでECU5の通番異常と受信異常の多数派異常表のエラー数がインクリメントされることから、シャットダウン宣言と障害特定の両者を合せてECU5のシャットダウンを確認し、ECU5の多数派異常表のエラー数が閾値以上となるのを待たず、バックアップ制御に移行する。
[ケース7]
ECU1〜4のいずれかの受信異常に関する多数派異常の障害レベル1が通知されたら、他ECUは異常のあるECUからのデータを受信できていないということである。これが制御上問題のない仕様であれば、各ノードは通常制御を継続する判断を取る。
もし制御上問題のあるときには、障害レベル1もしくは障害レベル2が通知された際に、各ノードは3輪ブレーキ制御に移行し、異常のあるECUはできればシャットダウンする。
[ケース8]
ECU1〜4のいずれかの受信異常に関する少数派異常の障害レベル1が通知されたら、異常のあるECUのみが、他ECUからのデータを受信できていないということである。このとき、少数派異常対応ノードがECU5か、ECU1〜4のうちの他ECUかで、各ノードの取るべき対応も異なってくる。ECU5からの目標ブレーキ力を受信できていないのは致命的なのに対し、ECU1〜4のうち他ECUから受信できていないのは、制御上問題のない仕様となっているかもしれない、といったように、ECU毎にその送信データの重要度が異なるからである。
この問題に対応するため、少数派異常カウンタを、少数派異常対応ノードとしてECU5と、ECU1〜4(の自ノード以外)と、2つに分けて設定してもよい。1通信サイクルにてECU1〜4の1ノード以上を少数派異常対応ノードとする障害が1つ以上特定された場合には、後者のエラー数をカウントする。
この少数派異常表を用いる場合、ECU5を少数派異常対応ノードとして少数派異常が通知された場合には、正常な残りのノードは3輪ブレーキ制御に移行し、異常のあるノードはシャットダウンする。一方、ECU1〜4が少数派異常対応ノードである場合には、通常制御を継続するという判断もありうる。
以上のように、ノード間相互監視を制御アプリケーションが利用することで、障害発生時に制御アプリケーションが取る対処の選択肢が広がり、またその対処をより適切に選択することができ、システムの信頼性を高く維持しつつ、可用性を高めることができる。
しかしながら前記までの実施例では、次のような課題がある。障害特定条件1に合致する場合、その判定はノード間の認識(障害監視結果)の多数決であり、ノード間で判定結果が一致する。しかし障害特定条件2に合致する場合、その判定は各ノードが単独で行うものであり、ノード間で多数決が取られておらず、必ずしも判定結果が一致しない恐れがある。
例えば、ノード1〜4があり各ノードに障害がなく、各ノードは他ノードに対して障害を検出していない状況において、ノード2が送信する障害監視結果が、ノード4に受信される際にソフトエラーにより変化し、ノード2はノード1について本来「異常なし」と判定しているにも関わらず、ノード4はノード2がノード1について「異常あり」と判定していると誤認識した場合、障害特定処理において、ノード1〜3はノード2について障害なしと判定するが、ノード4は障害特定条件2により、ノード2に障害ありと判定し、ノード間で障害特定結果が一致しない。
この問題の解決には、障害特定条件2に合致した場合、障害が特定されたとしてエラーカウンタを操作するのではなく、障害検出結果としてノード間で交換し、再度多数決処理を行うことで、障害特定条件2に合致したという認識をノード間で一致化させることができる。以下では便宜上、1回目の多数決処理で障害特定条件1に合致して特定した障害を「送信側障害」と呼び、2回目の多数決処理で特定される障害を「受信側障害」と呼ぶ。
図8は、上記の問題を解決するための、ノード間相互監視による障害特定処理のフロー図を示す。
ステップ22の後、障害特定部143−iは、ステップ22で交換した障害監視結果のうち、「受信側異常」以外の障害監視項目について、多数決処理により障害特定を行う(ステップ81)。この際、障害特定条件1に合致した場合のみを障害ありと判定する。これは「送信側障害」を特定していることになる。次のステップ24aとステップ25aはそれぞれステップ24,ステップ25と同様であるが、送信側異常のみを対象とする。つまり、エラーカウンタ操作やノード障害通知は、送信側異常と受信側異常とを区別して扱う。
次に、障害監視部141−iは、ステップ22で交換した障害監視結果のうち、「受信側異常」以外の障害監視項目について、障害特定条件2に合致した場合、当該ノード・障害監視項目について、「受信側障害」を検出したとする(ステップ82)。
次に、送受信処理部142−iは、ステップ82で検出した受信側異常の検出結果を、ノード間で送受信して交換する(ステップ83)。この際、受信側異常以外の障害監視項目、すなわち送信側障害に属する障害監視項目とはデータ領域を分けて送受信する。
次に、障害特定部143−iは、ステップ83で交換した障害監視結果のうち、「受信側異常」に属する障害監視項目について、多数決処理により障害特定を行う(ステップ84)。次のステップ24bとステップ25bはそれぞれステップ24,ステップ25と同様であるが、受信側異常のみを対象とする。
また、図6の処理フローと同様に、ステップ81やステップ84における障害特定対象ノードを1ノードに限定し、障害特定結果を他ノードに送信してもよい。
図9は、4ノードのシステムにおける、図8の処理フローに基づいたノード間相互監視による障害特定の並列処理の一例である。図9では、送信側異常の検出処理を障害監視(MON1),送信側異常の検出結果交換を障害監視結果交換(EXD1),送信側異常の特定を障害特定(ID1),受信側異常の検出処理を障害監視(MON2),受信側異常の検出結果交換を障害監視結果交換(EXD2),受信側異常の特定処理を障害特定(ID2)と表現している。
各ノードは障害特定ラウンド1として、通信サイクルiで障害監視(MON1)を行い、障害監視結果交換(EXD1)と障害特定(ID1)および障害監視(MON2)は通信サイクルi+1で、障害監視結果交換(EXD2)と障害特定(ID2)は通信サイクルi+2で実施している。
各ノードは障害特定ラウンド1を実施する一方で、障害特定ラウンド2を実施している。通信サイクルi+1では、障害特定ラウンド1の障害監視結果交換(EXD1)を実施すると同時に、障害監視結果交換(EXD1)の受信データ内容やデータ受信状況から、障害特定ラウンド2の障害監視(MON1)を実施している。通信サイクルi+2では、障害特定ラウンド1の障害監視結果交換(EXD2)の送受信と合わせて、障害特定ラウンド2の障害監視結果交換(EXD1)を行う。同時に、障害特定ラウンド3の障害監視(MON1)を行う。また障害特定ラウンド1の障害特定(ID2)のほか、障害特定ラウンド2の障害特定(ID1)と障害監視(MON2)も行う。通信サイクルi+3では、特定ラウンド2の障害監視結果交換(EXD2)と障害特定ラウンド3の障害監視結果交換(EXD1)、および障害特定ラウンド4の障害監視(MON1)を行っている。また、障害特定ラウンド2の障害特定(ID2)と障害特定ラウンド3の障害特定(ID1)および障害監視(MON2)も行う。
以下同様に、このような処理を繰り返す。これにより障害特定(ID1)および障害特定(ID2)が毎通信サイクルにて実施可能となる。
図10は、図8の処理フローに基づくノード間相互監視処理の動作例を示す。
ここでは、障害監視項目を何らかの異常を示す1項目とし、その1項目を送信側異常と受信側異常とに分けている。また、ノード障害フラグの通知閾値は2とする。
通信サイクルiでは、ノード1〜4は順にスロット1〜4にて、前サイクル分の障害監視(MON1,MON2)結果を送信し(1001−0〜1004−0、4進数表示)、他ノードが受信して保持する(1021−0〜1024−0、4進数表示)。送信データは、1監視対象ノードについて、送信側異常を示すビット(ES),受信側異常を示すビット(ER)からなり、それがノード1からノード4までについて並んでいる。但し、自ノード分の領域には、自ノードについての診断結果が入っている。
このとき、ノード4はスロット1にて受信障害を起こしており、ノード1からの障害監視結果を受け取れていない(1024−0)。これにより、ノード4はノード1について、障害監視(MON1)結果として、「送信側異常」と判定している(1014−0、データ表記法は送信データと同じ)。ノード1〜3は、障害監視(MON1)では異常を検出していない(1011−0〜1013−0)。
障害特定(ID1,ID2)処理では、集約した障害監視結果(1021−0〜1024−0)に過半数を超える異常検出項目がないので、どのノードについても送信側異常も受信側異常も特定されず(1031−0〜1034−0)、エラー数は0のままであり(1041−0〜1044−0)、ノード障害フラグも立たない(1051−0〜1054−0)。また、障害監視(MON2)でも受信側異常はどのノードについても検出されない。
尚、ノード障害フラグは、1ノードについて、送信側異常を示すビット,受信側異常を示すビットの2ビット1桁によって表され、それがノード1〜4まで順に並んでいるものとする。また、エラー数は、ノードnについての障害監視結果のエラービットES,ERに対応する障害発生数を計数するために、送信側異常に対しては多数派異常表ES_nを、受信側異常に対しては少数派異常表ER_nを設定してある。
通信サイクルi+1では、各ノードは前サイクルの障害監視(MON1,MON2)結果を送信するため、ノード4の送信データでは、ノード1についてのエラービットESが立っている(1004−1)。ノード1〜3の送信データでは、どのエラービットも立っていない(1001−1〜1003−0)。ここでもやはりノード4はスロット1にて受信障害を起こし、ノード1からの障害監視結果を受け取れていない(1024−1)。これにより、ノード4はノード1について、障害監視(MON1)結果として「送信側異常」と判定している(1014−1)。
障害特定(ID1,ID2)処理および障害監視(MON2)処理では、集約した障害監視結果(1021−1〜1024−1)から、ノード4に受信側異常を検出する(1011−1〜1014−1)。しかし、どのノードについても送信側異常も受信側異常も特定されない(1031−1〜1034−1)ため、エラーカウンタ(1041−1〜1044−1)もノード障害フラグ(1051−1〜1054−1)も不変である。
通信サイクルi+2では、ノード4の送信データでは、ノード1についてのESと自ノードについてのERが立っている(1004−2)。ノード1〜3の送信データでは、ノード4のERのみが立っている(1001−2〜1003−2)。障害監視(MON1)処理では、どのノードについても送信側異常は検出されない(1011−2〜1014−2)。
障害特定(ID1,ID2)処理では、集約した障害監視結果(1021−2〜1024−2)から、ノード4の受信側異常が半数以上のノードから検出されており確定する(1031−2〜1034−2)。また障害監視(MON2)では、通信サイクルi+1と同様、ノード4の受信側異常が検出される(1011−2〜1014−2)。
各ノードのエラーカウンタは、ノード4の受信側異常に関してインクリメントされ0から1となる(1041−2〜1044−2)。ノード障害フラグは、エラーカウンタ値が通知閾値に達していないため、不変である(1051−2〜1054−2)。
通信サイクルi+3では、ノード1〜4の送信データで、ノード4のERが立っている(1001−3〜1003−3)。障害監視(MON1)処理では、どのノードについても送信側異常は検出されない(1011−3〜1014−3)。
障害特定(ID1,ID2)処理では、集約した障害監視結果(1021−3〜1024−3)から、通信サイクルi+2と同様、ノード4の受信側異常が確定する(1031−3〜1034−3)。障害監視(MON2)では、受信側異常は検出されない(1011−3〜1014−3)。
各ノードのエラーカウンタは、ノード4の受信側異常に関してインクリメントされ1から2となる(1041−3〜1044−3)。これを受けて、ノード4の受信側異常に対するエラーカウンタ値が通知閾値の2に達するため、ノード4の受信側異常を示すノード障害フラグが立ち、制御アプリケーションに通知される(1051−3〜1054−3)。
以上により、受信側異常が送信側異常と同等の高い信頼性で特定され、制御アプリケーションに通知されることがわかる。
分散システムを応用した制御システムは、自動車や建機,FA(Factory Automation)などの幅広い工業分野で活用されており、それらの分散型制御システムに上記実施形態を適用することで、システムの信頼性を高く維持しつつ、可用性を高めることができる。また、上記実施形態は特別な装置の追加を行うことなく、低コストに実施できる。
分散システムの構成図。 ノード間相互監視による障害特定処理のフロー図。 障害特定条件に応じたエラー数のカウントの一例。 障害特定条件に応じたエラー数のカウントの一例。 ノード間相互監視処理の動作例。 ノード間相互監視による障害特定処理のフロー図。 ノード間相互監視処理の動作例。 ノード間相互監視による障害特定処理のフロー図。 複数の監視ラウンドの並列実行例。 ノード間相互監視処理の動作例。
符号の説明
10 ノード
11 CPU
12 主メモリ
13 I/F
14 記憶装置
100 ネットワーク

Claims (3)

  1. 複数のノードがネットワークを介して接続される分散システムにおいて、
    前記複数のノードの各々は、
    他ノードに対する障害監視を行う障害監視部と、
    前記ネットワークを介して、ノード間で障害監視結果を交換するためのデータを送受信する送受信部と、
    前記データに基づき各ノードの障害有無を特定する障害特定部と、
    障害ありと特定されたノードのエラー数を、前記障害特定部の障害特定条件毎にカウントするカウンタ部を備える、分散システム。
  2. 前記障害特定条件は、複数のノードのうち障害特定対象とする1ノードについて、
    前記データにて障害を検出したとするノード数が閾値以上であれば前記障害特定対象ノードに障害ありと判定する第1の障害特定条件と、
    前記データにて障害を検出したとするノード数が閾値未満であれば、障害を検出したとするノードに障害ありと判定する第2の障害特定条件を含む、請求項1記載の分散システム。
  3. 前記障害を非受信側異常と呼び、前記データにて障害特定対象とする1ノードに対し前記非受信側異常を検出したとするノード数が閾値未満であれば、障害を検出したとするノードについて受信側異常ありと判定し、それ以外の条件で検出する障害を受信側異常以外と判定し、
    前記送受信部は前記データにて、1障害検出項目の領域を受信側異常と受信側異常以外に分離しており、
    前記障害特定条件は、複数のノードのうちの障害特定対象とする1ノードについて、
    前記データにて障害を検出したとするノード数が閾値以上であれば前記障害特定対象ノードに障害ありと判定することを、受信側異常に対して規定する障害特定条件と、受信側異常以外に対して規定する障害特定条件を含む、請求項1記載の分散システム。
JP2008140264A 2007-05-30 2008-05-29 分散システム Withdrawn JP2009009557A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2008140264A JP2009009557A (ja) 2007-05-30 2008-05-29 分散システム
US12/128,934 US20080298256A1 (en) 2007-05-30 2008-05-29 Distributed System

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2007142758 2007-05-30
JP2008140264A JP2009009557A (ja) 2007-05-30 2008-05-29 分散システム

Publications (1)

Publication Number Publication Date
JP2009009557A true JP2009009557A (ja) 2009-01-15

Family

ID=39925017

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008140264A Withdrawn JP2009009557A (ja) 2007-05-30 2008-05-29 分散システム

Country Status (2)

Country Link
EP (1) EP2015182A3 (ja)
JP (1) JP2009009557A (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011248865A (ja) * 2010-04-26 2011-12-08 Panasonic Corp 改ざん監視システム、管理装置及び管理方法
JP2012011824A (ja) * 2010-06-29 2012-01-19 Hitachi Automotive Systems Ltd 電気自動車、ハイブリッド自動車、自動車、自動車ブレーキネットワークシステム、車載ネットワークシステム、電子制御ネットワークシステム
JP2012168755A (ja) * 2011-02-15 2012-09-06 Internatl Business Mach Corp <Ibm> 異常検知システム、異常検知装置、異常検知方法、プログラムおよび記録媒体
JP2015011642A (ja) * 2013-07-02 2015-01-19 日本電信電話株式会社 サーバ/クライアントシステム
US9064110B2 (en) 2011-02-14 2015-06-23 International Business Machines Corporation Anomaly detection to implement security protection of a control system
CN110134000A (zh) * 2018-02-09 2019-08-16 横河电机株式会社 控制系统、诊断装置、诊断方法、以及存储有诊断程序的计算机可读介质
US10678911B2 (en) 2011-02-04 2020-06-09 International Business Machines Corporation Increasing availability of an industrial control system

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102902597B (zh) * 2011-07-29 2016-01-13 国民技术股份有限公司 一种提高芯片安全性的方法及芯片
KR102481113B1 (ko) 2019-02-11 2022-12-26 주식회사 엘지에너지솔루션 슬레이브 bms 점검 시스템 및 방법
CN111176871B (zh) * 2019-08-01 2022-02-08 腾讯科技(深圳)有限公司 目标应用的处理方法和装置、存储介质及电子装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4356546A (en) * 1980-02-05 1982-10-26 The Bendix Corporation Fault-tolerant multi-computer system
JP3062155B2 (ja) 1998-07-31 2000-07-10 三菱電機株式会社 計算機システム
DE10328059A1 (de) * 2003-06-23 2005-01-13 Robert Bosch Gmbh Verfahren und Vorrichtung zur Überwachung eines verteilten Systems

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011248865A (ja) * 2010-04-26 2011-12-08 Panasonic Corp 改ざん監視システム、管理装置及び管理方法
JP2012011824A (ja) * 2010-06-29 2012-01-19 Hitachi Automotive Systems Ltd 電気自動車、ハイブリッド自動車、自動車、自動車ブレーキネットワークシステム、車載ネットワークシステム、電子制御ネットワークシステム
US10678911B2 (en) 2011-02-04 2020-06-09 International Business Machines Corporation Increasing availability of an industrial control system
US9064110B2 (en) 2011-02-14 2015-06-23 International Business Machines Corporation Anomaly detection to implement security protection of a control system
JP2012168755A (ja) * 2011-02-15 2012-09-06 Internatl Business Mach Corp <Ibm> 異常検知システム、異常検知装置、異常検知方法、プログラムおよび記録媒体
US9075410B2 (en) 2011-02-15 2015-07-07 International Business Machines Corporation Abnormality detection for isolating a control system
US9354625B2 (en) 2011-02-15 2016-05-31 International Business Machines Corporation Abnormality detection for isolating a control system
JP2015011642A (ja) * 2013-07-02 2015-01-19 日本電信電話株式会社 サーバ/クライアントシステム
CN110134000A (zh) * 2018-02-09 2019-08-16 横河电机株式会社 控制系统、诊断装置、诊断方法、以及存储有诊断程序的计算机可读介质
JP2019139490A (ja) * 2018-02-09 2019-08-22 横河電機株式会社 制御システム、診断装置、診断方法、および診断プログラム
US11181896B2 (en) 2018-02-09 2021-11-23 Yokogawa Electric Corporation Diagnosing apparatus, diagnosing method, and computer readable medium storing diagnosing program

Also Published As

Publication number Publication date
EP2015182A3 (en) 2010-03-24
EP2015182A2 (en) 2009-01-14

Similar Documents

Publication Publication Date Title
JP2009009557A (ja) 分散システム
US20080298256A1 (en) Distributed System
JP5319534B2 (ja) 障害管理方法、および障害管理のための装置
US20090040934A1 (en) Distributed System
CN101884196B (zh) 提供故障检测功能的系统和方法
JP2010061939A (ja) 多セル電池システム、及び管理番号符番方法
JP2017507432A (ja) 複数のセンサを有する測定システム
US9231779B2 (en) Redundant automation system
WO2014039031A1 (en) Method and apparatus for isolating a fault in a controller area network
US8041993B2 (en) Distributed control system
US20150195124A1 (en) Method for error diagnosis of can communication
JP5518810B2 (ja) 車両制御装置、車両制御システム
KR101241945B1 (ko) 차량 내 네트워크 고장 진단 모니터링 시스템 및 그 방법
CN105849702A (zh) 集群系统,服务器设备,集群系统管理方法和计算机可读记录介质
US20100162269A1 (en) Controllable interaction between multiple event monitoring subsystems for computing environments
CN102006190A (zh) 一种高可用集群备份系统及其备份方法
JP6134720B2 (ja) 接続方法
US20230195552A1 (en) Retrieving diagnostic information from a pci express endpoint
CN103026308A (zh) 通信装置
JP2009110218A (ja) 仮想化スイッチおよびそれを用いたコンピュータシステム
Rooks et al. Duo duplex drive-by-wire computer system
US7894949B2 (en) Fault tracing in the data bus system of a vehicle
JP2011253285A (ja) 診断システム、診断装置及び診断プログラム
KR20140062288A (ko) 로봇 컴포넌트 오류 처리 장치 및 그 방법
JP2005250577A (ja) コンピュータシステム及び演算処理モジュールの健全性判定方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100325

A761 Written withdrawal of application

Free format text: JAPANESE INTERMEDIATE CODE: A761

Effective date: 20100824