JP5822783B2 - Failure detection device - Google Patents
Failure detection device Download PDFInfo
- Publication number
- JP5822783B2 JP5822783B2 JP2012108377A JP2012108377A JP5822783B2 JP 5822783 B2 JP5822783 B2 JP 5822783B2 JP 2012108377 A JP2012108377 A JP 2012108377A JP 2012108377 A JP2012108377 A JP 2012108377A JP 5822783 B2 JP5822783 B2 JP 5822783B2
- Authority
- JP
- Japan
- Prior art keywords
- output
- ecu
- failure
- input
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims description 60
- 238000012546 transfer Methods 0.000 claims description 38
- 238000012544 monitoring process Methods 0.000 description 17
- 230000006870 function Effects 0.000 description 15
- 238000000034 method Methods 0.000 description 15
- 230000008569 process Effects 0.000 description 11
- 238000010586 diagram Methods 0.000 description 6
- 239000000284 extract Substances 0.000 description 4
- 238000007796 conventional method Methods 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 230000005856 abnormality Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
Images
Landscapes
- Computer And Data Communications (AREA)
Description
本発明は、同一機能を実現可能な複数のノードをグループ化し、グループ内ノードが相互に入出力データを交換して比較を行うことで機能の冗長化を行う分散システムにおいて、動的な故障検出を行う故障検出装置に関するものである。 The present invention groups a plurality of nodes capable of realizing the same function, and dynamically detects a failure in a distributed system in which nodes within the group exchange input / output data with each other and perform comparison for comparison. It is related with the failure detection apparatus which performs.
現在の自動車では、複数のノード間でデータをやり取りすることにより、様々な機能を実現している。そのため、故障発生時により細かな制御を実現するためには、システム内の正常なノード間で故障ノードに関する認識を一致させることが重要となる。 In current automobiles, various functions are realized by exchanging data between a plurality of nodes. Therefore, in order to realize finer control when a failure occurs, it is important to make the recognition about the failed node coincide between normal nodes in the system.
従来の故障検出及び故障情報共有技術は、監視の対象となるノード(以下、監視対象ノード)のデータに対して任意数のノードで監視を行うことで(以下、監視ノード)、監視対象ノードの故障を検出する。そして、各監視ノードはサイクル毎に各々の監視結果である故障情報を他の監視ノードと交換し、収集した結果を基に多数決等の事前に定められた方法によって、故障情報の共有を図っていた(例えば、特許文献1参照)。 The conventional failure detection and failure information sharing technology performs monitoring on an arbitrary number of nodes (hereinafter referred to as monitoring nodes) with respect to data of nodes to be monitored (hereinafter referred to as monitoring target nodes). Detect failure. Each monitoring node exchanges failure information, which is each monitoring result, with other monitoring nodes for each cycle, and shares failure information by a predetermined method such as majority decision based on the collected results. (For example, see Patent Document 1).
しかしながら、従来手法では、故障の確認を行うための制御情報と、情報共有のための故障情報を別々に送信するため、あるノードに対して複数ノードで監視を行う場合は、故障検出の信頼性は高くなるが、バス負荷への影響が大きくなるという問題があった。一方、監視ノード数を少数とした場合は、バス負荷への影響は小さくなるが、監視ノードの故障等により対象の監視が出来なくなる可能性がある。監視ノードの故障を検出し、監視ノードを切り替えることも出来るが、切り替え先が故障している場合の対応等の複雑な設定を考慮する必要がある。 However, in the conventional method, since the control information for confirming the failure and the failure information for information sharing are transmitted separately, when monitoring a certain node with multiple nodes, the reliability of failure detection However, there is a problem that the influence on the bus load becomes large. On the other hand, when the number of monitoring nodes is small, the influence on the bus load is small, but there is a possibility that the target cannot be monitored due to a failure of the monitoring node. Although it is possible to detect a failure of the monitoring node and switch the monitoring node, it is necessary to consider complicated settings such as a response when the switching destination is out of order.
このように、従来の故障情報の共有方法は、監視ノードの故障に対する耐性を高めるためにはバス負荷への影響が大きく、バス負荷への影響を小さくするために監視ノードを少なくすると、対象ノードの監視が出来なくなる恐れがあった。 As described above, the conventional failure information sharing method has a large influence on the bus load in order to increase the resistance against the failure of the monitoring node, and reduces the number of monitoring nodes to reduce the influence on the bus load. There was a risk that it could not be monitored.
また、情報共有時のデータの選択手段によって、故障ノードが増えた場合に従来では誤った判定をしてしまうことも考えられる。例えば、多数決による故障ノードの特定では、過半数が故障した場合に誤った結果が出力される可能性があった。 In addition, when the number of failed nodes is increased by the data selection means at the time of information sharing, it is possible to make an erroneous determination conventionally. For example, in the case of identifying a failure node by majority vote, there is a possibility that an erroneous result is output when a majority of the failure occurs.
この発明は上記のような課題を解決するためになされたもので、故障情報共有のためのネットワーク負荷の増加を抑制しつつ、機能の冗長化、動的な故障検出機能の追加、正常ノード間での故障ノードに対する認識の一致を実現することのでき、かつ、信頼性の高い故障検出を行うことのできる故障検出装置を得ることを目的とする。 The present invention has been made to solve the above-described problems. While suppressing an increase in network load for sharing fault information, function redundancy, addition of a dynamic fault detection function, and between normal nodes are performed. It is an object of the present invention to obtain a failure detection apparatus that can realize the coincidence of recognition for a failure node and can perform failure detection with high reliability.
この発明に係る故障検出装置は、ネットワークに接続された複数のノードをグループ化し、グループ内で相互に入出力データを周期的に交換する分散システムにおいて、ノードの故障検出を行う故障検出装置であって、各ノードは、入力データに対する演算を行い、演算結果を出力する演算部と、演算結果である出力データと入力データと組にした入出力組をグループ内の他のノードに対して転送すると共に、他のノードから入出力組を受信した場合に入力データを取り出す転送部と、入出力組における出力データと演算結果とを比較し、演算結果が入出力組のいずれかの出力データと一致した場合はその値を出力すると共に、いずれかの出力データと一致し、かつ、一致しない出力データを含む場合、一致しない出力データのノードを故障と判定し、一方、演算結果が入出力組の全ての出力データと一致しない場合は、入出力組の全ての出力データに演算結果を追加して新たな入出力組とする比較部と、比較部が判定したノードの故障をグループ内の他のノードに対して通知する故障検出部とを備え、各ノードは、一つの周期で複数のノードから同一のノードに対する故障通知を受けた場合、次の周期以降、故障通知を受けたノードからの故障通知を無視するようにしたものである。 The failure detection device according to the present invention is a failure detection device that detects a failure of a node in a distributed system in which a plurality of nodes connected to a network are grouped and input / output data is periodically exchanged between the groups. Each node performs an operation on input data, and outputs an operation result to the other node in the group, and an operation unit that outputs the operation result and an input / output set that is a combination of the output data and the input data as the operation result. In addition, when the input / output group is received from another node, the transfer unit that extracts the input data is compared with the output data in the input / output group and the operation result, and the operation result matches one of the output data in the input / output group. If this happens, the value is output, and if any output data matches and does not match, the output data node that does not match fails. On the other hand, if the calculation result does not match all the output data of the input / output group, a comparison unit that adds the calculation result to all the output data of the input / output group and creates a new input / output group, and a comparison unit And a failure detection unit for notifying other nodes in the group of the failure of the node determined by each node. When each node receives a failure notification for the same node from a plurality of nodes in one cycle, After the period, the failure notification from the node that has received the failure notification is ignored.
この発明の故障検出装置は、一致しない出力データを含む場合はその出力データのノードを故障と判定して他のノードに通知し、かつ、一つの周期で複数のノードから同一のノードに対する故障通知を受けた場合、次の周期以降は故障通知を受けたノードからの故障通知は無視するようにしたので、故障情報共有のためのネットワーク負荷の増加を抑制しつつ、機能の冗長化、動的な故障検出機能の追加、正常ノード間での故障ノードに対する認識の一致を実現することができる。また、信頼性の高い故障検出を行うことができる。 The failure detection apparatus according to the present invention determines that the node of the output data is faulty when it includes output data that does not match, and notifies other nodes of the failure, and also notifies failure to the same node from a plurality of nodes in one cycle. Since the failure notification from the node that received the failure notification is ignored after the next cycle, the function redundancy and dynamics are suppressed while suppressing an increase in the network load for failure information sharing. Thus, it is possible to realize a failure detection function and a recognition of failure nodes among normal nodes. Further, it is possible to perform failure detection with high reliability.
実施の形態1.
実施の形態1では、ネットワークに接続された複数のノードの例としてECU(電子制御ユニット:Electrical Control Unit)の場合を説明する。実施の形態1では、同一機能を実現可能な複数のECUをグループ化し、グループ内ECUが相互に入出力データを交換して比較を行うことで機能の冗長化、及び動的な故障検出能力の追加を実現し、且つ故障検出時に故障情報の共有を行う。
In the first embodiment, a case of an ECU (Electronic Control Unit) will be described as an example of a plurality of nodes connected to a network. In the first embodiment, a plurality of ECUs capable of realizing the same function are grouped, and in-group ECUs exchange input / output data with each other for comparison, thereby making the functions redundant and dynamic failure detection capability. Addition is realized and failure information is shared when a failure is detected.
ここで、同一機能を実現可能とは、該当ECUが同じ演算機能を持ち、ある入力に対して全く同じ演算結果が得られることを意味する。動的な故障検出能力とは、故障の発生状況に応じて故障を検出するECUが自動的に切り替わることを意味する。 Here, being able to realize the same function means that the corresponding ECU has the same calculation function, and the same calculation result can be obtained for a certain input. The dynamic failure detection capability means that the ECU that detects a failure automatically switches according to the occurrence state of the failure.
本発明は、1周期内に2つのECUが同時に故障しないことを想定している。この想定は、1周期内に2つのノードが同時に故障し、且つ両者が同時に同じ誤りをする場合のみ問題となるが、その確率は十分に小さいと考えられることから妥当である。 The present invention assumes that two ECUs do not fail simultaneously within one cycle. This assumption is only a problem when two nodes fail at the same time within one period and both make the same error at the same time, but is reasonable because the probability is considered to be sufficiently small.
各ECUは、入力データを取得し、それを基に演算を行い出力データを得る。その後、入力データと出力データのペア(以下、入出力組)をグループ内のECUに送信する。入出力組を受信したECUは、入力データを基に演算を行い、出力データを得て、受信した出力データ集合と比較を行う。ここで、入出力組を受信したECUは、送信したECUと同じ機能を持つため、正常であれば同じ入力データに対しては同じ出力データが得られる。演算した出力データと受信した出力データ集合のいずれかが一致すれば、その値を出力する。一方、演算した出力データが受信した出力データ集合のいずれとも一致しなければ、入出力組の最後に自らの演算結果を追加し、グループ内の他のECUに送信する。出力データが一致しない場合のデータの転送は、アプリケーションに要求される応答時間(以下、デッドラインという)を満足する間行う。これにより、システム内に正常なECUが2つ存在すれば、正しい結果が出力される。この結果、機能が冗長化される。デッドラインを違反するまで一致する出力が見つからない場合には、前回値やデフォルト値を出力することで応答時間も満足できる。 Each ECU acquires input data and performs an operation based on it to obtain output data. Thereafter, a pair of input data and output data (hereinafter referred to as an input / output group) is transmitted to the ECUs in the group. The ECU that has received the input / output set performs an operation based on the input data, obtains output data, and compares it with the received output data set. Here, since the ECU that has received the input / output set has the same function as the transmitted ECU, if it is normal, the same output data can be obtained for the same input data. If any of the calculated output data matches the received output data set, the value is output. On the other hand, if the calculated output data does not match any of the received output data sets, the calculation result is added to the end of the input / output set and transmitted to other ECUs in the group. Data transfer when the output data does not match is performed while satisfying a response time required for the application (hereinafter referred to as a deadline). Thus, if there are two normal ECUs in the system, a correct result is output. As a result, the function is made redundant. If no matching output is found until the deadline is violated, the response time can be satisfied by outputting the previous value or default value.
また、出力データが出力データ集合のいずれかに一致して出力される際には、一致しない出力データを追加したECUが故障していることが判断できる。上記手順では、出力パスに故障ECUを含む正常な2つのECUが故障ECUを判断することが可能となる。 Further, when the output data is output in accordance with one of the output data sets, it can be determined that the ECU to which the output data that does not match is added is out of order. In the above procedure, two normal ECUs including a faulty ECU in the output path can determine the faulty ECU.
一方、出力パスに故障ECUを含まないECUは、故障ECUを認識することができない。そのため、正常ECU間で故障ECUに関する認識を一致させるためには、故障ECUを検出したECUが、グループ内の全ECUに故障ECUに関する通知を行う必要がある。本発明では正常な2つのECUが故障ECUを認識することが可能であるため、各ECUは故障通知を2つ以上受信した場合に、通知されたECUを故障ECUとしてマークし、以降のサイクルでは故障ECUからの故障通知を無視する。これにより、故障ECUが正常なECUに対する故障通知を行ったとしても無視され、正常なECUが故障と判断されることを防ぐことが出来る。
以下、このような分散システムにおける故障検出装置の実施の形態について説明する。
On the other hand, an ECU that does not include a faulty ECU in the output path cannot recognize the faulty ECU. Therefore, in order to make the recognition about the failure ECU coincide between the normal ECUs, the ECU that detects the failure ECU needs to notify all the ECUs in the group about the failure ECU. In the present invention, since two normal ECUs can recognize a faulty ECU, when each ECU receives two or more fault notifications, each ECU is marked as a faulty ECU, and in subsequent cycles Ignore the failure notification from the failure ECU. As a result, even if the failure ECU gives a failure notification to the normal ECU, it is ignored and it is possible to prevent the normal ECU from being determined as a failure.
Hereinafter, an embodiment of a failure detection apparatus in such a distributed system will be described.
図1は、この発明の実施の形態1による故障検出装置を備えたECUの構成図である。
図1に示すECU1は、入力部11、演算部12、転送部13、比較部14、出力部15、故障検出部16を備えており、車載LAN100に接続されている。
また、図2は、本発明の対象として想定する分散システムの構成図である。図1で示したECU1と同一構成のECUが同一のネットワークに複数接続されている。ここでは、複数のECU1、ECU2、・・・、ECUn(nは任意の整数)が、それぞれ図1のECU1の構成を持つ。以下では、各ECUの機能について説明する。
FIG. 1 is a configuration diagram of an ECU provided with a failure detection apparatus according to
The
FIG. 2 is a configuration diagram of a distributed system assumed as an object of the present invention. A plurality of ECUs having the same configuration as the
入力部11は、センサ等を用いて制御に必要となるデータを取得する機能部である。演算部12は、入力部11あるいは転送部13が取得した入力データを基にアプリケーションに応じた演算を行う機能部である。転送部13は、入力データと演算部12から得た演算値を組にして(以下、入出力組という)、グループ内のECUにメッセージを送信する機能部である。入出力組は、以下に示す構成となる。
{入力データ:出力データ1:出力データ2:・・・:出力データn}
ここで、nは任意の整数であり、転送を行う毎に該当ECUの出力データ(演算値)を追加する。そのため、各実施の形態中では入出力組の演算値を出力データ集合と称する。入出力組を受信した場合、転送部13は、入出力組の入力データを取り出し、演算部12を用いて計算を行う。
The
{Input data: output data 1: output data 2: ...: output data n}
Here, n is an arbitrary integer, and the output data (calculated value) of the corresponding ECU is added every time transfer is performed. Therefore, in each embodiment, the operation value of the input / output group is referred to as an output data set. When the input / output group is received, the
比較部14は、受信した入出力組の入力データに対する演算部12の演算値と、受信した入出力組の出力データ集合とを比較する機能部である。比較の結果、結果が一致するものがあれば、これを出力部15に渡し、出力データ集合に一致するデータが存在しなければ、自らの演算結果(演算部12の演算結果)を出力データ集合に追加して転送部13に送る。また、不一致の出力が含まれていた場合はその不一致のECUを故障と判定してその判定結果を故障検出部16に出力する。出力部15は、比較部14が一致したと判定した演算値を出力する機能部である。
故障検出部16は、各ECUにおいて故障情報の共有を実現する機能部であり、比較部14において故障と判定したECUの情報をグループ内の全てのECUに対して通知する。また、1周期内に同一のECUに対して複数のECUから故障通知を受信した場合は、そのECUを故障としてマークし、以降の周期ではそのECUからの情報を無視するよう構成されている。
車載LAN100は、図2等に示すように、複数のECU1,2,・・・,nを通信接続するためのネットワークである。
The
The
The in-
尚、各ECU1,2,・・・,nは、それぞれコンピュータで構成され、入力部11〜故障検出部16におけるそれぞれの処理は、各処理に対応するソフトウェアと、これらのソフトウェアを実行するためのCPUやメモリといったハードウェアによって実現されている。あるいはいずれかの機能部を専用のハードウェアで構成してもよい。
The
図3は、図2におけるECU1とECU2の比較処理を抜粋した動作を示す説明図である。
ECU1は、入力部11を用いて入力データを取得し、演算部12を用いて出力データとして演算値を得る。そして、転送部13を用いて入力データと演算値を組にして(以下、入出力組という)、グループ内ECU(ここではECU2)に送信する。ECU2は入出力組を受信すると、入出力組から入力データを抽出してそれを演算部12に提供する。比較部14は、演算部12から出力されたデータと、受信した入出力組に含まれる出力データ集合とを比較する。演算部12から得られた演算値が出力データ集合のいずれかに一致した場合、一致した演算値を出力部15を用いて出力する。図3では、出力データが一致する場合の流れを太線としている。図3は2つのECU1,2で一致しているため不一致の結果が含まれていないが、出力データ集合に一致しない結果が含まれていれば、その結果を出力したECUを故障として、故障検出部16に通知する。
FIG. 3 is an explanatory diagram showing an operation extracted from the comparison process between the
The
図4に示す4つのECU(ECU1、ECU2、ECU3、ECU4)で構成されるシステムにおいて、全てのECUが正常な場合と、ECU2が故障した場合に関して、ECU1を開始ノードとして着目した動作をそれぞれ図6、図7に示す。図5は、図4のECU間のデータの流れを示している。 In the system configured by four ECUs (ECU1, ECU2, ECU3, ECU4) shown in FIG. 4, the operation focusing on the ECU1 as a start node is illustrated for all the ECUs being normal and when the ECU2 has failed. 6 and FIG. FIG. 5 shows a data flow between the ECUs in FIG.
図6では、ECU1は入力部11を用いて入力データ(5)を得、それに対して演算部12を用いて演算を行い、出力データ(10)を得る。ここで、()内の値はデータを表し、正常なECUは入力データを2倍した結果が得られるものとする。そして、転送部13を用いて入出力組{5:10}を送信する。ECU2は、入出力組{5:10}を受信し、入力データ(5)に対して演算部12を用いて演算を行い、演算結果(10)を得る。比較部14は、演算部12の出力データ(10)と受信した出力データ集合{10}の比較を行い、値が(10)で一致するため出力部15を用いて(10)を出力する。
In FIG. 6, the
図7では、ECU1は入力部11を用いて入力データ(5)を得、それに対して演算部12を用いて演算を行い、出力データ(10)を得る。そして、転送部13を用いて入出力組{5:10}を送信する。ECU2は、入出力組{5:10}を受信し、入力データ(5)に対して演算部12を用いて演算を行い、演算結果(11)を得る。ECU2は故障しているため正しい結果が得られず出力データが(11)となっている。従って、受信した出力データ集合と一致せず、比較部14は不一致という結果を出力する。この時点では、データが2つのみのため、いずれのデータが正しいかが判断できないため、故障ECUの特定は出来ない。転送部13は、比較結果が不一致であるため、入出力組の最後に演算部12が出力した値(11)を追加し、入出力組{5:10:11}をグループ内ECU3に転送する。ECU3は、入出力組{5:10:11}を受信し、入力データ(5)に対して演算部12を用いて演算を行い、演算結果(10)を得る。比較部14は、演算部12が出力した値(10)と受信した出力データ集合{10:11}を比較し、出力(10)が一致するため、出力部15を用いて(10)を出力する。比較部14は、比較が完了した時点で誤った出力データ(11)を付加したECU2が故障していると判断でき、故障検出部16を用いてグループ内の全ECUに故障通知を行う。図10は、ECU3によるECU2に対する故障通知である。
In FIG. 7, the
図8は、全てのECUが正常な場合のシステム全体の動作である。全てのECUは、図6で述べたECU1の動作と同様に2つのECUの比較で結果が一致し、処理が終了する。
FIG. 8 shows the operation of the entire system when all the ECUs are normal. All the ECUs agree with each other in the comparison of the two ECUs as in the operation of the
図9は、ECU2が故障している場合のシステム全体の動作である。ECU1から開始される比較処理の動作は、図7で述べた通りである。
ECU2から開始される比較処理の動作は、以下の通りである。ECU2は入力部11を用いて入力データ(1)を得、それに対して演算部12を用いて演算を行い、出力データ(3)を得る。ECU2は故障しているため、正しい結果(2)が得られていない。そして、転送部13を用いて入出力組{1:3}を送信する。ECU3は、入出力組{1:3}を受信し、入力データ(1)に対して演算部12を用いて演算を行い、演算結果(2)を得る。ECU2が故障しているため、出力データ集合の値{3}はECU3の出力データ(2)と一致せず、比較部14は不一致という結果を出力する。転送部13は、比較結果が不一致であるため、入出力組の最後に演算部12が出力した値(2)を追加し、入出力組{1:3:2}をグループ内ECU4に転送する。ECU4は、入出力組{1:3:2}を受信し、入力データ(1)に対して演算部12を用いて演算を行い、演算結果(2)を得る。比較部14は、演算部12が出力した値(2)と受信した出力データ集合{3:2}を比較し、出力(2)が一致するため、出力部15を用いて(2)を出力する。ECU4は、この時点で比較部14によって一致しない出力を行ったECU2が故障であることを判断でき、故障検出部16を用いてグループ内の全ECUに故障通知を行う。図11は、ECU4によるECU2に対する故障通知である。
FIG. 9 shows the operation of the entire system when the
The operation of the comparison process started from the
ECU3から開始される比較処理の動作は、以下の通りである。ECU3は入力部11を用いて入力データ(3)を得、それに対して演算部12を用いて演算を行い、出力データ(6)を得る。そして、転送部13を用いて入出力組{3:6}を送信する。ECU4は、入出力組{3:6}を受信し、入力データ(3)に対して演算部12を用いて演算を行い、演算結果(6)を得る。比較部14は、演算部12の出力データ(6)と受信した出力データ集合{6}の比較を行い、値が(6)で一致するため出力部15を用いて(6)を出力する。ECU3から開始される比較処理は、ECU3、ECU4共に正常であるため、2つ目のECU4の比較処理でデータが一致し出力が行われ、余計な計算やメッセージの転送が行われない。また、出力までのパスに故障ECUが含まれないため、故障ECUも検出しない。
The operation of the comparison process started from the
ECU4から開始される比較処理の動作は、以下の通りである。ECU4は入力部11を用いて入力データ(4)を得、それに対して演算部12を用いて演算を行い、出力データ(8)を得る。そして、転送部13を用いて入出力組{4:8}を送信する。ECU1は、入出力組{4:8}を受信し、入力データ(4)に対して演算部12を用いて演算を行い、演算結果(8)を得る。比較部14は、演算部12の出力データ(8)と受信した出力データ集合{8}の比較を行い、値が(8)で一致するため出力部15を用いて(8)を出力する。ECU4から開始される比較処理は、ECU4、ECU1共に正常であるため、2つ目のECU1の比較処理でデータが一致し出力が行われ、余計な計算やメッセージの転送が行われない。また、出力までのパスに故障ECUが含まれないため、故障ECUも検出しない。
The operation of the comparison process started from the
従って、この時点ではシステム内の正常なECU間で故障ECUに関する認識は一致していない。即ち、ECU3、4はECU2が故障しているのを認識しているのに対し、ECU1はECU2の故障を認識できない。そのため、システム内の故障ECUに関する認識を一致させるために、故障通知が必要となる。
Therefore, at this point in time, the recognition regarding the faulty ECU does not match between normal ECUs in the system. That is, while the
本発明の手順では、本例のように常に2つの正常ECUが故障ECUを特定可能であるため、2つの故障通知のみで故障ECU情報を共有することが出来る。故障を特定したECUは故障通知を行い、1周期内に同じECUに対して2つの故障通知を受け取ったECUは、該当ECUを故障としてマークする。以降は、そのECUからの故障通知を無視する。 In the procedure of the present invention, since two normal ECUs can always identify a faulty ECU as in this example, faulty ECU information can be shared by only two fault notifications. The ECU that has identified the failure gives a failure notification, and the ECU that has received two failure notifications for the same ECU within one cycle marks the corresponding ECU as a failure. Thereafter, the failure notification from the ECU is ignored.
図12は、入力装置から入力データを取得し、入出力組の転送を開始するECUの動作を示すフローチャートである。ここでは、当該ECUを開始ノードと表す。開始ノードは、周期毎に入力部11から入力データを取得し(ステップST100)、演算部12を用いて入力データに対して演算を行い、出力データを得る(ステップST101)。そして、転送部13を用いて入力データと出力データの組み合わせ入出力組)をグループ内のECUに転送する(ステップST102、ST103)。
FIG. 12 is a flowchart showing the operation of the ECU that acquires input data from the input device and starts transferring the input / output set. Here, the ECU is represented as a start node. The start node obtains input data from the
図13は、グループ内ECUから入出力組を受信したECUの動作を示すフローチャートである。入出力組を受信したECUは(ステップST120)、転送部13を用いて入力データを抽出し、演算部12を用いて演算を行い、出力データを得る(ステップST121)。そして、得られた出力データと入出力組の出力データ集合のいずれかが一致するかを比較部14を用いて比較する(ステップST122、ST123)。一致するデータがあれば、出力部15を用いてそのデータを出力する(ステップST124)。更に、一致したデータ以外を出力したECUがあれば、そのECUを故障していると判断する(ステップST125、ST126)。この故障ECUに関する情報は、故障検出部16を用いてグループ内の全てのECUに通知する(ステップST127)。演算した出力データが、出力データ集合のいずれのデータにも一致しなかった場合には、転送部13を用いて入出力組の最後に自らの演算した出力データを付加して(ステップST128)、グループ内の次のECUに転送する(ステップST129)。
FIG. 13 is a flowchart showing the operation of the ECU that has received the input / output set from the in-group ECU. The ECU that has received the input / output set (step ST120) extracts input data using the
図14は、故障検出部16において故障通知を受信した際のフローチャートである。故障通知が、故障と特定されたECUからのものであれば、無視する(ステップST200)。他ECUからの故障通知を最初に受信した場合には(ステップST201)、通知されたECUに関する故障通知数を1とし、この時点では通知されたECUを故障としてマークしない(ステップST203)。これによって、故障ECUが正常ECUに対して故障通知を行った場合に、正常なECUが誤って故障と判断されることを防ぐ事が出来る。ステップST201において該当ECUに対する故障通知数が2つ以上となった場合、該当ECUを故障ECUとしてマークし(ステップST202)、以降は故障ECUからの情報を無視する。尚、周期毎に故障通知数をクリアする。
FIG. 14 is a flowchart when the
図15は、故障ECU2が正常なECU1を故障として通知した場合の例である。この場合は、他の正常なECUは正常なECU1に対する故障通知は行わないため、ECU1に対する故障通知が2つ以上となることはなく、正常なECU1が誤って故障と判断されることは無い。
FIG. 15 is an example when the
一方、図16、図17はあるサイクルにおいて2つの故障ECU(ECU2、ECU3)が正常なECU1に対して故障通知を行った場合である。本発明では、1サイクルに2つのECUが同時に故障しないことを想定しているため、一方は既に故障ECUとしてマークされており、そのECUからの故障通知は無視される。従って、ECU1に対する故障通知は1つのみとなり、正常なECU1が誤って故障と判断されることは無い。
On the other hand, FIGS. 16 and 17 show the case where two failure ECUs (ECU2, ECU3) give a failure notification to the normal ECU1 in a certain cycle. In the present invention, since it is assumed that two ECUs do not fail at the same time in one cycle, one of them is already marked as a failed ECU, and the failure notification from that ECU is ignored. Therefore, there is only one failure notification to the
実施の形態1におけるネットワーク負荷向上の抑制に関しては、例えば従来手法において4つのノードで、あるノードに対する監視を行う場合、周期毎に4つの監視結果を多数決することで故障ノードを決定していた。そのため、従来手法では、毎周期監視のためのメッセージが4つ送られることとなり、バス負荷が増加する。一方、本実施の形態では4つのノードの場合においても、メッセージ(入出力組)を送ったECUが故障していなければ出力が一致し、故障通知は行われずバス負荷への影響はない。但し、各ECUは自らの入力に対する演算と、他ノードの入力に対する演算を行う必要がありCPU負荷が2倍となるため、CPU負荷が半分以下のシステムにのみ適当可能となる。本実施の形態では、任意の故障ノードに対して監視ノードが動的に切り替わるため、故障への耐性がある。また、故障ノードを故障としてマークするため、故障ノードが過半数となっても、正しいノードが誤って故障と判断されることはなく、正常なノード間の認識が一致する。 Regarding the suppression of network load improvement in the first embodiment, for example, when monitoring a certain node with four nodes in the conventional method, the failure node is determined by deciding a large number of four monitoring results for each period. Therefore, in the conventional method, four messages for monitoring each cycle are sent, and the bus load increases. On the other hand, in the present embodiment, even in the case of four nodes, if the ECU that sent the message (input / output group) has not failed, the outputs will match, no failure notification will be made, and the bus load will not be affected. However, each ECU needs to perform an operation on its own input and an operation on the input of another node, and the CPU load is doubled. Therefore, the ECU can be applied only to a system with a CPU load of half or less. In this embodiment, since the monitoring node is dynamically switched with respect to an arbitrary failure node, there is resistance to failure. Further, since the failed node is marked as failed, even if the majority of the failed nodes are detected, the correct nodes are not erroneously determined to be failed, and the recognition between the normal nodes is consistent.
以上説明したように実施の形態1の故障検出装置によれば、ネットワークに接続された複数のノードをグループ化し、グループ内で相互に入出力データを周期的に交換する分散システムにおいて、ノードの故障検出を行う故障検出装置であって、各ノードは、入力データに対する演算を行い、演算結果を出力する演算部と、演算結果である出力データと入力データと組にした入出力組をグループ内の他のノードに対して転送すると共に、他のノードから入出力組を受信した場合に入力データを取り出す転送部と、入出力組における出力データと演算結果とを比較し、演算結果が入出力組のいずれかの出力データと一致した場合はその値を出力すると共に、いずれかの出力データと一致し、かつ、一致しない出力データを含む場合、一致しない出力データのノードを故障と判定し、一方、演算結果が入出力組の全ての出力データと一致しない場合は、入出力組の全ての出力データに演算結果を追加して新たな入出力組とする比較部と、比較部が判定したノードの故障をグループ内の他のノードに対して通知する故障検出部とを備え、各ノードは、一つの周期で複数のノードから同一のノードに対する故障通知を受けた場合、次の周期以降、故障通知を受けたノードからの故障通知を無視するようにしたので、故障情報共有のためのネットワーク負荷の増加を抑制しつつ、機能の冗長化、動的な故障検出機能の追加、正常ノード間での故障ノードに対する認識の一致を実現することができ、また、正常なノードが誤って故障と判定されることがなく、信頼性の高い故障検出を行うことができる。 As described above, according to the failure detection apparatus of the first embodiment, in a distributed system in which a plurality of nodes connected to a network are grouped and input / output data is periodically exchanged within the group, the failure of the node A failure detection device that performs detection, each node performs an operation on input data, outputs an operation result, and an input / output set that is a combination of the output data and the input data as the operation result Transfers to other nodes and compares the output data in the input / output set with the transfer result to retrieve the input data when the input / output set is received from the other node. If the output data matches any of the output data, the value is output, and if it matches any output data and includes output data that does not match, it does not match If the node of the force data is determined to be faulty and the operation result does not match all the output data of the input / output group, the operation result is added to all the output data of the input / output group and a new input / output group is created. And a failure detection unit for notifying other nodes in the group of the failure of the node determined by the comparison unit, each node notifying a failure from the plurality of nodes to the same node in one cycle Since the failure notification from the node that received the failure notification is ignored after the next cycle, the function redundancy and dynamics are suppressed while suppressing an increase in the network load for failure information sharing. New failure detection function, recognition of failure nodes among normal nodes can be realized, and normal nodes are not mistakenly determined as failure, and reliable failure detection is performed. Can Kill.
実施の形態2.
実施の形態2は、データに更なる信頼性が求められるシステムに適用する故障検出装置に関するものである。なお、これ以降の実施の形態では、図面上の構成は実施の形態1と同様であるため、図1や図3の構成を用いて説明する。
The second embodiment relates to a failure detection apparatus applied to a system where further reliability is required for data. In the following embodiments, the configuration on the drawing is the same as that of the first embodiment, and therefore, description will be made using the configuration of FIG. 1 and FIG.
実施の形態2は、システムに必要とされる安全度に応じて任意のn個のデータが一致するまでデータの転送を行うことにより、データの信頼性を向上させるようにしたものである。実施の形態2の動作例を図18に示す。実施の形態2は、3つのデータが一致した場合に出力をする例であり、ECU1、ECU2でデータは一致しているがECU3まで入出力組を転送部13によって転送し、ECU3で3つのデータが一致して出力部15から出力が行われる。3つの出力データ一致での出力では、故障ECU通知は3つのECUから行われる。この場合も、実施の形態2の動作は実施の形態1から変更する必要は無く、故障を検出したECUの故障検出部16が故障通知を行い、各ECUは2つ以上のECUからの故障通知によって、通知されたECUを故障としてマークする。
In the second embodiment, data reliability is improved by transferring data until any n pieces of data match according to the degree of safety required for the system. FIG. 18 shows an operation example of the second embodiment. The second embodiment is an example in which output is performed when three pieces of data coincide with each other. The data is identical between the
実施の形態3.
実施の形態3は、データが一致しない場合の転送をデッドラインではなく、転送回数で規定する例である。動作例を図19に示す。図19は、最大転送回数は5としている。本例では、ECU6までの出力データは全て一致していないため、転送部13によってECU6まで転送が行われている。図19は、出力データ集合の一つにECU6の出力データが一致したため出力部15から出力が行われているが、最大転送回数を満了したECU6の出力データが出力データ集合のいずれかに一致しなければ、前回値やデフォルト値を出力する。実施の形態3でも、一致しなかった結果を出力したECUが故障と判断でき、故障を検出したECUの故障検出部16が故障を通知する。各ECUは2つ以上のECUからの故障通知によって、通知されたECUを故障としてマークする。
The third embodiment is an example in which the transfer when the data does not match is defined not by the deadline but by the number of transfers. An example of the operation is shown in FIG. In FIG. 19, the maximum number of transfers is 5. In this example, since the output data up to the
実施の形態4.
実施の形態4は、データの一致・不一致にかかわらず、所定回数転送するものである。所定回数転送後は、得られた結果に対して比較部14で比較を行い、最も一致する数が多いデータを出力部15から出力する。動作例を図20に示す。図20は、転送回数は5であり、ECU5の時点で出力データ集合として{10:11:10:9:10}が得られており、その中で最も数が多い{10}を出力する。実施の形態4でも、出力を行うECUが一致しない結果を出力したECUを故障と判断でき、故障を検出したECUの故障検出部16が故障を通知する。各ECUは2つ以上のECUからの故障通知によって、通知されたECUを故障としてマークする。
In the fourth embodiment, data is transferred a predetermined number of times regardless of data coincidence / non-coincidence. After the predetermined number of transfers, the comparison result is compared with the obtained result, and the data with the largest number of matches is output from the
実施の形態5
実施の形態5は、データの一致・不一致に関わらず、デッドラインまで転送を繰り返すものである。得られた結果に対して比較部14によって多数決を行い、結果を出力部15より出力する。動作例を図21に示す。図21は、デッドラインの直前で出力データ集合{10:9:10:10}が得られており、多数決の結果である{10}を出力する。ここでも、出力を行うECUが、一致しない結果を出力したECUを故障と判断でき、故障を検出したECUの故障検出部16が故障を通知する。各ECUは2つ以上のECUからの故障通知によって、通知されたECUを故障としてマークする。
In the fifth embodiment, transfer is repeated up to the deadline regardless of data coincidence / mismatch. A majority decision is made by the
なお、本願発明はその発明の範囲内において、各実施の形態の自由な組み合わせ、あるいは各実施の形態の任意の構成要素の変形、もしくは各実施の形態において任意の構成要素の省略が可能である。 In the present invention, within the scope of the invention, any combination of the embodiments, or any modification of any component in each embodiment, or omission of any component in each embodiment is possible. .
1,2,3,4,…,n ECU、11 入力部、12 演算部、13 転送部、14 比較部、15 出力部、16 故障検出部。 1, 2, 3, 4,..., N ECU, 11 input unit, 12 calculation unit, 13 transfer unit, 14 comparison unit, 15 output unit, 16 failure detection unit.
Claims (1)
前記各ノードは、
入力データに対する演算を行い、演算結果を出力する演算部と、
前記演算結果である出力データと前記入力データと組にした入出力組を前記グループ内の他のノードに対して転送すると共に、前記他のノードから前記入出力組を受信した場合に前記入力データを取り出す転送部と、
前記入出力組における出力データと前記演算結果とを比較し、当該演算結果が前記入出力組のいずれかの出力データと一致した場合はその値を出力すると共に、当該いずれかの出力データと一致し、かつ、一致しない出力データを含む場合、当該一致しない出力データのノードを故障と判定し、一方、前記演算結果が前記入出力組の全ての出力データと一致しない場合は、前記入出力組の全ての出力データに前記演算結果を追加して新たな入出力組とする比較部と、
前記比較部が判定したノードの故障を前記グループ内の他のノードに対して通知する故障検出部とを備え、
前記各ノードは、一つの周期で複数のノードから同一のノードに対する故障通知を受けた場合、次の周期以降、前記故障通知を受けたノードからの故障通知を無視することを特徴とする故障検出装置。 In a distributed system that groups a plurality of nodes connected to a network and periodically exchanges input / output data with each other in the group, a failure detection device that detects a failure of the node,
Each of the nodes
An arithmetic unit that performs an operation on input data and outputs an operation result;
When the input / output set which is a set of the output data and the input data which is the calculation result is transferred to another node in the group, and the input / output set is received from the other node, the input data A transfer unit for taking out
The output data in the input / output group is compared with the calculation result, and when the calculation result matches any output data in the input / output group, the value is output, and the output data is identical to the output data. If the output data does not match, the node of the output data that does not match is determined to be faulty. On the other hand, if the calculation result does not match all the output data of the input / output set, A comparison unit that adds the calculation result to all the output data to form a new input / output set;
A failure detection unit for notifying other nodes in the group of the failure of the node determined by the comparison unit;
When each node receives a failure notification for the same node from a plurality of nodes in one cycle, the failure detection from the node receiving the failure notification is ignored after the next cycle. apparatus.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012108377A JP5822783B2 (en) | 2012-05-10 | 2012-05-10 | Failure detection device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012108377A JP5822783B2 (en) | 2012-05-10 | 2012-05-10 | Failure detection device |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013235481A JP2013235481A (en) | 2013-11-21 |
JP5822783B2 true JP5822783B2 (en) | 2015-11-24 |
Family
ID=49761547
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012108377A Active JP5822783B2 (en) | 2012-05-10 | 2012-05-10 | Failure detection device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5822783B2 (en) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101641823B1 (en) * | 2015-03-06 | 2016-07-21 | 주식회사 와이즈오토모티브 | Detecting device of failure node for vehicle network and method for detecting using thereof |
CN109245910B (en) * | 2017-07-10 | 2023-03-24 | 中兴通讯股份有限公司 | Method and device for identifying fault type |
JP7210943B2 (en) * | 2017-09-27 | 2023-01-24 | 株式会社デンソー | electronic controller |
JP7307617B2 (en) * | 2019-07-17 | 2023-07-12 | 株式会社京三製作所 | Mobile IP system and home agent redundancy control method |
CN111077880B (en) * | 2019-12-24 | 2021-02-09 | 国汽(北京)智能网联汽车研究院有限公司 | Vehicle fault diagnosis system and method |
-
2012
- 2012-05-10 JP JP2012108377A patent/JP5822783B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2013235481A (en) | 2013-11-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5822783B2 (en) | Failure detection device | |
US10491671B2 (en) | Method and apparatus for switching between servers in server cluster | |
CN107229221A (en) | Fault-tolerant mode and handoff protocol for multiple hot and cold standby redundancies | |
JP5436721B2 (en) | Redundant device | |
CN109101196A (en) | Host node switching method, device, electronic equipment and computer storage medium | |
CN107508694B (en) | Node management method and node equipment in cluster | |
JP2006209593A (en) | Information processor and information processing method | |
KR101560497B1 (en) | Method for controlling reset of lockstep replicated processor cores and lockstep system using the same | |
US8041993B2 (en) | Distributed control system | |
WO2022088861A1 (en) | Database fault handling method and apparatus | |
US9952919B2 (en) | Semantic deduplication | |
JP6083480B1 (en) | Monitoring device, fault tolerant system and method | |
US10409666B2 (en) | Method and device for generating an output data stream | |
CN107038095B (en) | Method for redundantly processing data | |
US9047250B2 (en) | Failover processing | |
JP6365876B2 (en) | node | |
JP2003345620A (en) | Process monitoring method for multi-node cluster system | |
JP5342395B2 (en) | Computer system and method | |
JPH04299429A (en) | Fault monitoring system for multiporcessor system | |
CN109491236B (en) | Method for operating a high-availability automation system | |
JP3652232B2 (en) | Microcomputer error detection method, error detection circuit, and microcomputer system | |
JP2010055509A (en) | System, method, and program for fault recovery, and cluster system | |
JP6271103B1 (en) | Control apparatus and control method | |
JP6653250B2 (en) | Computer system | |
JP2010266935A (en) | Node monitoring method and cluster system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20141015 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20150826 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20150908 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20151006 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5822783 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |