JP2017045168A - Fault processing device, system, fault management device, method and program - Google Patents

Fault processing device, system, fault management device, method and program Download PDF

Info

Publication number
JP2017045168A
JP2017045168A JP2015165608A JP2015165608A JP2017045168A JP 2017045168 A JP2017045168 A JP 2017045168A JP 2015165608 A JP2015165608 A JP 2015165608A JP 2015165608 A JP2015165608 A JP 2015165608A JP 2017045168 A JP2017045168 A JP 2017045168A
Authority
JP
Japan
Prior art keywords
failure
time
interrupt
fault
occurrence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2015165608A
Other languages
Japanese (ja)
Other versions
JP6567923B2 (en
Inventor
修平 中島
Shuhei Nakajima
修平 中島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Platforms Ltd
Original Assignee
NEC Platforms Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Platforms Ltd filed Critical NEC Platforms Ltd
Priority to JP2015165608A priority Critical patent/JP6567923B2/en
Publication of JP2017045168A publication Critical patent/JP2017045168A/en
Application granted granted Critical
Publication of JP6567923B2 publication Critical patent/JP6567923B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

PROBLEM TO BE SOLVED: To collect fault information necessary for fault analysis and to allow the processing amount and traffic for fault processing to be restrained.SOLUTION: A fault processing device detects fault interruption indicating the occurrence of a fault and timer interruption indicating the expiration of a time set to a timer, sets a mask time corresponding to an elapsed time from first occurrence clock time of a fault to occurrence clock time this time to the timer by masking the fault interruption when detecting the fault interruption, and cancels the mask of the fault interruption when detecting the timer interruption.SELECTED DRAWING: Figure 1

Description

本発明は、演算処理装置の障害処理を行う、障害処理装置、システム、障害管理装置、方法およびプログラムに関する。   The present invention relates to a failure processing device, a system, a failure management device, a method, and a program for performing failure processing of an arithmetic processing device.

演算処理装置では、訂正可能なエラーの発生等、演算処理を継続して実行可能である程度の軽障害を監視する。この軽障害の監視により、演算処理を継続できないような重障害が発生する前に予防的に部品を交換することや、収集した障害情報の統計データから障害の傾向や発生メカニズムを分析することを可能にしている。   The arithmetic processing device monitors a certain minor fault that can be continuously executed for arithmetic processing, such as occurrence of a correctable error. By monitoring this minor failure, parts can be replaced proactively before a major failure occurs that prevents continued processing, and failure trends and occurrence mechanisms can be analyzed from the collected failure information statistical data. It is possible.

軽障害の監視には、軽障害の発生を検知して、障害の詳細情報を収集したり、障害管理装置へ障害情報を送信したりすることが考えられる。これらの障害処理を、軽障害が発生する都度行うと、軽障害が頻繁に発生した場合に、障害処理の処理量が多くなり、他の演算処理に影響を及ぼす可能性がある。また、複数の演算処理装置の障害情報を演算管理装置で集中管理する場合、演算処理装置から障害管理装置への通信量が多くなる可能性がある。   For monitoring a minor fault, it is conceivable to detect the occurrence of a minor fault, collect detailed fault information, or send fault information to a fault management device. If these fault processes are performed each time a minor fault occurs, the processing amount of the fault process increases when minor faults occur frequently, which may affect other arithmetic processes. Further, when the failure information of a plurality of arithmetic processing devices is centrally managed by the arithmetic management device, the amount of communication from the arithmetic processing device to the failure management device may increase.

これに対し、たとえば、特許文献1に記載の方法では、一定の間隔であらかじめ定められた時間だけ通知ゲートを開き、通知ゲートが開いているときにだけ障害通知信号が割り込み発生回路に入力されるようにしている。これにより、障害が発生したことを通知する障害割り込みの発生が一定の間隔になるようにしている。このように、障害割り込みの発生を一定の間隔とすることで、障害が頻繁に発生した場合でも、障害処理の処理量や障害管理装置への通信量を低く抑えることが可能になる。   On the other hand, for example, in the method described in Patent Document 1, the notification gate is opened at a predetermined interval for a predetermined time, and the failure notification signal is input to the interrupt generation circuit only when the notification gate is open. I am doing so. As a result, the occurrence of a fault interrupt for notifying that a fault has occurred is set at regular intervals. As described above, by setting the occurrence of the failure interrupt at a constant interval, it is possible to reduce the processing amount of the failure processing and the communication amount to the failure management device even when the failure frequently occurs.

特開平10-247148号公報Japanese Patent Laid-Open No. 10-247148

しかし、特許文献1のように障害割り込みの発生を一定間隔とすると、この間隔が長いとき、短時間で軽障害から重障害に発展した場合に、軽障害の情報収集回数が少なくなり、障害分析に十分な障害情報が得られない。逆に間隔を短くすると、障害処理の処理量や障害管理装置への通信量が増加してしまう。   However, if the occurrence of a fault interrupt is set at a fixed interval as in Patent Document 1, when this interval is long, the number of times of information collection of light faults will be reduced and the fault analysis will be reduced when a light fault progresses to a heavy fault in a short time. Insufficient failure information is available. Conversely, if the interval is shortened, the processing amount of fault processing and the communication amount to the fault management device increase.

本発明の目的は、障害分析に必要な障害情報を収集し、かつ、障害処理の処理量や通信量を抑制することを可能とする、障害処理装置、システム、障害管理装置、方法およびプログラムを提供することにある。   An object of the present invention is to provide a fault processing apparatus, system, fault management apparatus, method, and program capable of collecting fault information necessary for fault analysis and suppressing the processing amount and communication amount of fault processing. It is to provide.

上述の問題を解決するために、本発明の障害処理装置は、障害の発生を示す障害割り込みと、タイマーにセットされた時間が経過したことを示すタイマー割り込みとを検出する割込検出部と、前記障害割り込みを検出したとき、前記障害割り込みをマスクし、前記タイマー割り込みを検出したとき、前記障害割り込みのマスクを解除する割込制御部と、前記障害割り込みを検出したとき、前記障害の初回発生時刻から今回の発生時刻までの経過時間に対応するマスク時間をタイマーにセットするタイマー制御部とを備えることを特徴とする。   In order to solve the above-described problem, the failure processing apparatus of the present invention includes a failure interrupt that indicates the occurrence of a failure, and an interrupt detection unit that detects a timer interrupt that indicates that a time set in the timer has elapsed, When the fault interrupt is detected, the fault interrupt is masked, and when the timer interrupt is detected, an interrupt control unit for canceling the mask of the fault interrupt, and when the fault interrupt is detected, the first occurrence of the fault A timer control unit that sets a mask time corresponding to an elapsed time from the time to the current occurrence time in a timer.

また、本発明の障害管理装置は、障害の今回の発生時刻の受信に対して、前記障害の発生が初回でない場合には、前記障害の初回発生時刻を送信し、前記障害の発生が初回の場合には、前記初回発生時刻として前記今回の発生時刻を障害記憶部に記憶させ、前記障害の前記初回発生時刻を送信する通信部を備えることを特徴とする。   In addition, the failure management apparatus of the present invention transmits the first occurrence time of the failure when the occurrence of the failure is not the first time in response to reception of the current occurrence time of the failure, and the occurrence of the failure is the first time. In this case, the present invention includes a communication unit that stores the current occurrence time in the failure storage unit as the first occurrence time and transmits the first occurrence time of the failure.

また、本発明の障害処理方法は、障害の発生を示す障害割り込みと、タイマーにセットされた時間が経過したことを示すタイマー割り込みとを検出し、前記障害割り込みを検出したとき、前記障害割り込みをマスクして前記障害の初回発生時刻から今回の発生時刻までの経過時間に対応するマスク時間をタイマーにセットし、前記タイマー割り込みを検出したとき、前記障害割り込みのマスクを解除することを特徴とする。   The fault processing method of the present invention detects a fault interrupt indicating the occurrence of a fault and a timer interrupt indicating that the time set in the timer has elapsed, and when the fault interrupt is detected, the fault interrupt is detected. A mask time corresponding to an elapsed time from the first occurrence time of the failure to the current occurrence time is set in a timer, and the mask of the failure interrupt is canceled when the timer interrupt is detected. .

また、本発明の障害管理方法は、障害の今回の発生時刻の受信に対して、前記障害の発生が初回でない場合には、前記障害の初回発生時刻を送信し、前記障害の発生が初回の場合には、前記初回発生時刻として前記今回の発生時刻を障害記憶部に記憶させ、前記障害の前記初回発生時刻を送信することを特徴とする。   In addition, the failure management method of the present invention transmits the first occurrence time of the failure when the occurrence of the failure is not the first time in response to reception of the current occurrence time of the failure, and the occurrence of the failure is the first time. In this case, the current occurrence time is stored in a failure storage unit as the first occurrence time, and the first occurrence time of the failure is transmitted.

また、本発明の障害処理プログラムは、コンピュータに、障害の発生を示す障害割り込みと、タイマーにセットされた時間が経過したことを示すタイマー割り込みとを検出する割込検出機能と、前記障害割り込みを検出したとき、前記障害割り込みをマスクし、前記タイマー割り込みを検出したとき、前記障害割り込みのマスクを解除する割込制御機能と、前記障害割り込みを検出したとき、前記障害の初回発生時刻から今回の発生時刻までの経過時間に対応するマスク時間をタイマーにセットするタイマー制御機能とを実現させることを特徴とする。   In addition, the fault processing program of the present invention provides a computer with an interrupt detection function for detecting a fault interrupt indicating the occurrence of a fault and a timer interrupt indicating that a time set in the timer has elapsed, and the fault interrupt. When detected, the fault interrupt is masked, and when the timer interrupt is detected, the interrupt control function for canceling the mask of the fault interrupt, and when the fault interrupt is detected, the current interrupt time is detected from the first occurrence time of the fault. And a timer control function for setting a mask time corresponding to an elapsed time until the occurrence time in a timer.

本発明の障害処理装置、システム、障害管理装置、方法およびプログラムにより、障害分析に必要な障害情報を収集し、かつ、障害処理の処理量や通信量を抑制することが可能になる。   The fault processing apparatus, system, fault management apparatus, method, and program of the present invention can collect fault information necessary for fault analysis and suppress the processing amount and communication amount of fault processing.

本発明の第一の実施形態の障害処理装置の構成例を示す図である。It is a figure which shows the structural example of the failure processing apparatus of 1st embodiment of this invention. 本発明の第一の実施形態の障害処理装置の動作例を示す図である。It is a figure which shows the operation example of the failure processing apparatus of 1st embodiment of this invention. 本発明の第二の実施形態の障害処理装置の構成例を示す図である。It is a figure which shows the structural example of the failure processing apparatus of 2nd embodiment of this invention. 本発明の第二の実施形態の障害処理装置の構成例を示す図である。It is a figure which shows the structural example of the failure processing apparatus of 2nd embodiment of this invention. 本発明の第二の実施形態の主記憶部の動作例を示す図である。It is a figure which shows the operation example of the main memory part of 2nd embodiment of this invention. 本発明の第二の実施形態の主記憶部の動作例を示す図である。It is a figure which shows the operation example of the main memory part of 2nd embodiment of this invention. 本発明の第二の実施形態の障害処理装置の動作例を示す図である。It is a figure which shows the operation example of the failure processing apparatus of 2nd embodiment of this invention. 本発明の第二の実施形態のテーブル記憶部の記憶内容の具体例を示す図である。It is a figure which shows the specific example of the memory content of the table memory | storage part of 2nd embodiment of this invention. 本発明の第二の実施形態の障害割り込みの発生間隔の具体例を示す図である。It is a figure which shows the specific example of the generation | occurrence | production interval of the failure interrupt of 2nd embodiment of this invention. 本発明の第三の実施形態の障害処理装置の構成例を示す図である。It is a figure which shows the structural example of the failure processing apparatus of 3rd embodiment of this invention. 本発明の第三の実施形態の障害処理装置の構成例を示す図である。It is a figure which shows the structural example of the failure processing apparatus of 3rd embodiment of this invention. 本発明の第三の実施形態の障害管理装置の構成例を示す図である。It is a figure which shows the structural example of the failure management apparatus of 3rd embodiment of this invention. 本発明の第三の実施形態の障害管理装置の構成例を示す図である。It is a figure which shows the structural example of the failure management apparatus of 3rd embodiment of this invention. 本発明の第三の実施形態の障害処理装置の動作例を示す図である。It is a figure which shows the operation example of the failure processing apparatus of 3rd embodiment of this invention. 本発明の第三の実施形態の障害管理装置の動作例を示す図である。It is a figure which shows the operation example of the failure management apparatus of 3rd embodiment of this invention. 本発明の第三の実施形態の障害管理装置の動作例を示す図である。It is a figure which shows the operation example of the failure management apparatus of 3rd embodiment of this invention. 本発明の第四の実施形態の障害処理装置の構成例を示す図である。It is a figure which shows the structural example of the failure processing apparatus of 4th embodiment of this invention. 本発明の第四の実施形態の障害管理装置の構成例を示す図である。It is a figure which shows the structural example of the failure management apparatus of 4th embodiment of this invention. 本発明の第四の実施形態の障害処理装置の動作例を示す図である。It is a figure which shows the operation example of the failure processing apparatus of 4th embodiment of this invention. 本発明の第四の実施形態の障害管理装置の動作例を示す図である。It is a figure which shows the operation example of the failure management apparatus of 4th embodiment of this invention.

[第一の実施形態]
本発明の第一の実施の形態について説明する。
[First embodiment]
A first embodiment of the present invention will be described.

図1に本実施形態の障害処理装置10の構成例を示す。   FIG. 1 shows a configuration example of the failure processing apparatus 10 of the present embodiment.

障害処理装置10は、割込検出部11、割込制御部12およびタイマー制御部13により構成される。   The failure processing device 10 includes an interrupt detection unit 11, an interrupt control unit 12, and a timer control unit 13.

割込検出部11は、障害の発生を示す障害割り込みと、タイマーにセットされた時間が経過したことを示すタイマー割り込みを検出する部分である。   The interrupt detection unit 11 is a part that detects a fault interrupt indicating the occurrence of a fault and a timer interrupt indicating that the time set in the timer has elapsed.

割込制御部12は、障害割り込みを検出したとき、障害割り込みをマスクし、タイマー割り込みを検出したとき、障害割り込みのマスクを解除する部分である。   The interrupt control unit 12 is a part that masks a fault interrupt when a fault interrupt is detected, and cancels the mask of the fault interrupt when a timer interrupt is detected.

タイマー制御部13は、障害割り込みを検出したとき、障害の初回発生時刻から今回の発生時刻までの経過時間に対応するマスク時間をタイマーにセットする部分である。   The timer control unit 13 is a part that sets a mask time corresponding to an elapsed time from the first occurrence time of the failure to the current occurrence time in the timer when a failure interrupt is detected.

このように障害処理装置10を構成することによって、障害分析に必要な障害情報を収集し、かつ、障害処理の処理量や通信量を抑制することが可能になる。   By configuring the failure processing apparatus 10 in this way, it is possible to collect failure information necessary for failure analysis and to suppress the processing amount and communication amount of failure processing.

次に、図2に本実施形態の障害処理装置10の動作の例を示す。   Next, FIG. 2 shows an example of the operation of the failure processing apparatus 10 of the present embodiment.

まず、障害処理装置10の割込検出部11は、障害割り込みとタイマー割り込みを検出する。   First, the interrupt detection unit 11 of the failure processing apparatus 10 detects a failure interrupt and a timer interrupt.

そして、割込検出部11が障害割り込みを検出したとき(ステップS101)、割込制御部12は障害割り込みをマスクする(ステップS102)。また、タイマー制御部13は、障害の初回発生時刻から今回の発生時刻までの経過時間に対応するマスク時間をタイマーにセットする(ステップS103)。   When the interrupt detection unit 11 detects a fault interrupt (step S101), the interrupt control unit 12 masks the fault interrupt (step S102). Further, the timer control unit 13 sets a mask time corresponding to the elapsed time from the first occurrence time of the failure to the current occurrence time in the timer (step S103).

割込検出部11がタイマー割り込みを検出したとき(ステップS104)、割込制御部12は障害割り込みのマスクを解除する(ステップS105)。   When the interrupt detection unit 11 detects a timer interrupt (step S104), the interrupt control unit 12 cancels the masking of the fault interrupt (step S105).

このように障害処理装置10を動作させることによって、障害分析に必要な障害情報を収集し、かつ、障害処理の処理量や通信量を抑制することが可能になる。   By operating the failure processing apparatus 10 in this way, it is possible to collect failure information necessary for failure analysis and to suppress the processing amount and communication amount of failure processing.

以上で説明したように、本発明の第一の実施形態では、障害の初回発生時刻から今回の発生時刻までの経過時間に対応するマスク時間をタイマーにセットする。これにより、障害割り込みの発生間隔が障害の初回発生時刻からの経過時間により変更可能となる。マスク時間を経過時間により変更することで、より多くの障害情報を収集したい経過時間はマスク時間を短くし、処理量や通信量を抑えたい経過時間はマスク時間を長くすることが可能になる。そのため、障害分析に必要な障害情報を収集し、かつ、障害処理の処理量や通信量を抑制することが可能になる。   As described above, in the first embodiment of the present invention, the mask time corresponding to the elapsed time from the first occurrence time of the failure to the current occurrence time is set in the timer. As a result, the occurrence interval of the failure interrupt can be changed according to the elapsed time from the first occurrence time of the failure. By changing the mask time according to the elapsed time, it is possible to shorten the mask time for the elapsed time for which more fault information is to be collected, and to increase the mask time for the elapsed time for suppressing the processing amount and the communication amount. For this reason, it is possible to collect failure information necessary for failure analysis, and to suppress the amount of processing and the amount of communication for failure processing.

[第二の実施形態]
次に、本発明の第二の実施の形態について説明する。
[Second Embodiment]
Next, a second embodiment of the present invention will be described.

本実施形態は、障害処理装置内に、障害の初回発生時刻と、初回発生時刻から今回の発生時刻までの経過時間とマスク時間との対応関係とを記憶させる形態である。   In the present embodiment, the failure first-time occurrence time and the correspondence between the elapsed time from the first occurrence time to the current occurrence time and the mask time are stored in the failure processing apparatus.

図3に本実施形態の障害処理装置20の構成例を示す。障害処理装置20は、割込検出部11、割込制御部12、タイマー制御部13、テーブル記憶部25および障害記憶部26により構成される。障害処理装置10に対して、テーブル記憶部25と障害記憶部26を追加している。   FIG. 3 shows a configuration example of the failure processing apparatus 20 of the present embodiment. The failure processing device 20 includes an interrupt detection unit 11, an interrupt control unit 12, a timer control unit 13, a table storage unit 25, and a failure storage unit 26. A table storage unit 25 and a failure storage unit 26 are added to the failure processing apparatus 10.

割込検出部11は、監視対象50からの障害割り込みとタイマー14からのタイマー割り込みを検出する部分である。監視対象50は一つ以上存在可能であるため、割込検出部11では、どの監視対象50からの障害割り込みかを判別する。   The interrupt detection unit 11 is a part that detects a failure interrupt from the monitoring target 50 and a timer interrupt from the timer 14. Since one or more monitoring targets 50 can exist, the interrupt detection unit 11 determines which monitoring target 50 is the fault interrupt.

割込制御部12は、障害割り込みを検出したとき、障害割り込みを出力した監視対象50の障害割り込みをマスクし、タイマー14からのタイマー割り込みを検出したとき、障害割り込みのマスクを解除する部分である。   The interrupt control unit 12 masks the fault interrupt of the monitoring target 50 that has output the fault interrupt when a fault interrupt is detected, and cancels the mask of the fault interrupt when a timer interrupt from the timer 14 is detected. .

タイマー制御部13は、障害割り込みを検出したとき、障害の初回発生時刻から今回の発生時刻までの経過時間に対応するマスク時間をタイマーにセットする部分である。   The timer control unit 13 is a part that sets a mask time corresponding to an elapsed time from the first occurrence time of the failure to the current occurrence time in the timer when a failure interrupt is detected.

テーブル記憶部25は、障害の初回発生時刻から今回の発生時刻までの経過時間と、障害割り込みをマスクするマスク時間との対応関係を記憶する部分である。   The table storage unit 25 is a part that stores a correspondence relationship between the elapsed time from the first occurrence time of the failure to the current occurrence time and the mask time for masking the failure interrupt.

障害記憶部26は、障害割り込みの初回発生時刻やその他の障害情報を記憶する部分である。   The failure storage unit 26 is a part that stores the first occurrence time of a failure interrupt and other failure information.

図4に本実施形態の障害処理装置20を演算処理装置100に適用した場合の構成例を示す。演算処理装置100は、DGP(Diagnostic Processor:診断プロセッサ)101、演算部102および主記憶部103により構成される。演算部102および主記憶部103は演算処理装置100に一つ以上存在する。   FIG. 4 shows a configuration example when the failure processing apparatus 20 of the present embodiment is applied to the arithmetic processing apparatus 100. The arithmetic processing apparatus 100 includes a DGP (Diagnostic Processor) 101, an arithmetic unit 102, and a main storage unit 103. One or more arithmetic units 102 and main storage units 103 exist in the arithmetic processing unit 100.

DGP101は図3の障害処理装置10に該当する。また、演算部102および主記憶部103は監視対象50に該当する。DGP101では、監視対象である演算部102および主記憶部103からの軽障害割り込みを受け取る。また、監視対象である演算部102および主記憶部103に対して軽障害割り込みのマスク制御を行う。   The DGP 101 corresponds to the failure processing apparatus 10 in FIG. The calculation unit 102 and the main storage unit 103 correspond to the monitoring target 50. The DGP 101 receives a light failure interrupt from the computing unit 102 and the main storage unit 103 that are monitoring targets. In addition, a light failure interrupt mask control is performed on the monitoring unit 102 and the main storage unit 103.

このように障害処理装置20を構成することによって、障害分析に必要な障害情報を収集し、かつ、障害処理の処理量や通信量を抑制することが可能になる。   By configuring the failure processing device 20 in this way, it is possible to collect failure information necessary for failure analysis and to reduce the processing amount and communication amount of failure processing.

次に、監視対象50の動作の例として、主記憶部103の動作の例について説明する。監視対象50は、障害を検知して障害割り込みを障害処理装置20へ出力する。以下の主記憶部103の動作例は、この障害割り込みの出力方法の例であり、監視対象50の障害検知方法や割り込み出力方法等を限定するものではない。   Next, an example of the operation of the main storage unit 103 will be described as an example of the operation of the monitoring target 50. The monitoring target 50 detects a failure and outputs a failure interrupt to the failure processing apparatus 20. The following operation example of the main storage unit 103 is an example of the failure interrupt output method, and does not limit the failure detection method, interrupt output method, and the like of the monitoring target 50.

図5および図6に主記憶部103の動作の例を示す。図5(A)は書き込み時の動作の例、図5(B)は読み出し時の動作の例、図6は割り込み出力動作の例である。   5 and 6 show an example of the operation of the main storage unit 103. FIG. 5A shows an example of the operation at the time of writing, FIG. 5B shows an example of the operation at the time of reading, and FIG. 6 shows an example of the interrupt output operation.

演算部102からの書き込み時、まず、主記憶部103は書き込みデータに対してチェックビットを生成する(図5のステップS201)。そして、書き込みデータとチェックビットをメモリに書き込む(ステップS202)。   When writing from the calculation unit 102, first, the main storage unit 103 generates a check bit for the write data (step S201 in FIG. 5). Then, write data and check bits are written into the memory (step S202).

演算部102からの読み出し時は、まず、主記憶部103はメモリからチェックビットを含むデータを読み出す(ステップS203)。そして、読み出したデータとチェックビットからシンドロームを生成し、誤り検出を行う(ステップS204)。誤りがある場合(ステップS205)、データの誤りを訂正する(ステップS206)。そして、障害の詳細情報、たとえば、障害の発生時刻や障害の原因(読み出しデータに誤りがあったこと、等)等を記憶する(ステップS207)。   When reading from the computing unit 102, first, the main storage unit 103 reads data including check bits from the memory (step S203). Then, a syndrome is generated from the read data and check bits, and error detection is performed (step S204). If there is an error (step S205), the data error is corrected (step S206). Then, detailed information on the failure, for example, the occurrence time of the failure, the cause of the failure (the read data has an error, etc.), etc. are stored (step S207).

次に、誤りが軽障害か重障害かを判断する(ステップS208)。たとえば、誤り訂正可能なデータ誤りの場合には軽障害、誤り訂正不能な場合には重障害とする。軽障害のときは軽障害フラグをセットし(ステップS209)、重障害のときは重障害フラグをセットする(ステップS210)。   Next, it is determined whether the error is minor or serious (step S208). For example, a light failure is assumed when the data error can be corrected, and a serious failure is found when the error cannot be corrected. If the fault is minor, a minor fault flag is set (step S209). If the fault is serious, the major fault flag is set (step S210).

図6の障害割り込み出力動作の例は、軽障害の場合と重障害の場合で共通である。軽障害(重障害)フラグがセットされたとき、主記憶部103は、軽障害(重障害)割り込みのマスクが解除されている場合(図6のステップS301)、軽障害(重障害)割り込みを出力する(ステップS302)。   The example of the fault interrupt output operation in FIG. 6 is common to the case of a minor fault and the case of a major fault. When the light failure (serious failure) flag is set, the main storage unit 103 issues a light failure (serious failure) interrupt when the mask of the light failure (serious failure) interrupt is released (step S301 in FIG. 6). Output (step S302).

また、軽障害(重障害)割り込みのマスクが解除されたとき、軽障害(重障害)フラグがセットされていれば(ステップS303)、軽障害(重障害)割り込みを出力する(ステップS304)。   When the light failure (serious failure) interrupt mask is released, if the light failure (serious failure) flag is set (step S303), a light failure (serious failure) interrupt is output (step S304).

以上で主記憶部103の動作の例について説明したが、監視対象50が出力する障害割り込みは、誤り検出によるもの以外の障害についても可能である。また、監視対象50は主記憶部103に限られず、障害処理装置20内の各部や、障害処理装置20以外の装置を監視対象とすることも可能である。   Although the example of the operation of the main storage unit 103 has been described above, the failure interrupt output from the monitoring target 50 can be caused by a failure other than that caused by error detection. Further, the monitoring target 50 is not limited to the main storage unit 103, and each unit in the failure processing apparatus 20 and devices other than the failure processing apparatus 20 can be set as monitoring targets.

次に、図7を用いて本実施形態の障害処理装置20の動作の例について説明する。   Next, an example of the operation of the failure processing apparatus 20 of this embodiment will be described with reference to FIG.

本実施形態では、割込検出部11において、監視対象50の障害割り込みとタイマー割り込みを検出する。たとえば、前述の主記憶部103が監視対象50の場合には、軽障害割り込みについては割り込み間隔を制御し、重障害割り込みについては発生の都度割り込みを出力することが考えられる。この場合には、軽障害割り込みが図7の障害割り込みに該当する。   In the present embodiment, the interrupt detection unit 11 detects a fault interrupt and a timer interrupt of the monitoring target 50. For example, when the main storage unit 103 is the monitoring target 50, it is conceivable that the interrupt interval is controlled for a light fault interrupt, and an interrupt is output whenever a heavy fault interrupt occurs. In this case, the light fault interrupt corresponds to the fault interrupt of FIG.

まず、割込検出部11は、障害割り込みとタイマー割り込みを検出する。そして、割込検出部11が障害割り込みを検出した場合(ステップS401)、割込制御部12は障害割り込みをマスクする(ステップS402)。より具体的には、障害割り込みを出力した監視対象50に対して、障害割り込みの出力を禁止する設定(マスク)を行う。   First, the interrupt detection unit 11 detects a failure interrupt and a timer interrupt. If the interrupt detection unit 11 detects a fault interrupt (step S401), the interrupt control unit 12 masks the fault interrupt (step S402). More specifically, a setting (mask) for prohibiting the output of the fault interrupt is performed on the monitoring target 50 that has output the fault interrupt.

複数の監視対象50があるとき、割込検出部11は、障害割り込みの検出時に、検出した障害割り込みがどの監視対象50からの障害割り込みなのかを特定しておく。各監視対象50からの障害割り込みが独立した割り込み入力端子に入力されている場合には、どの入力端子に割り込みが入力されたかによって割り込みを出力した監視対象50を特定可能である。複数の監視対象50の障害割り込みが一つの入力端子に入力されている場合には、たとえば、監視対象50の障害フラグを読み出し、フラグがセットされていればその割り込みが出力されていると判断する、等の方法で特定可能である。前述の主記憶部103の例の場合、軽(重)障害フラグを読み出し、フラグがセットされていれば軽(重)障害が発生していると判断することが可能である。なお、マスクが設定されている監視対象50の障害割り込みについては、検出対象外とする。   When there are a plurality of monitoring targets 50, the interrupt detection unit 11 specifies from which monitoring target 50 the detected fault interrupt is the fault interrupt when the fault interrupt is detected. When a fault interrupt from each monitoring target 50 is input to an independent interrupt input terminal, it is possible to identify the monitoring target 50 that has output the interrupt depending on which input terminal the interrupt is input to. When fault interrupts of a plurality of monitoring targets 50 are input to one input terminal, for example, the fault flag of the monitoring target 50 is read, and if the flag is set, it is determined that the interrupt is output. , Etc. can be specified. In the case of the above-described example of the main storage unit 103, it is possible to read a light (heavy) trouble flag and determine that a light (heavy) trouble has occurred if the flag is set. Note that the fault interrupt of the monitoring target 50 for which the mask is set is not detected.

次に、割込検出部11は、障害割り込みを出力した監視対象50から、障害分析等に必要となる障害の詳細情報を取得する(ステップS403)。たとえば、主記憶部103がステップS207で記憶した詳細情報を読み取る。そして、取得した詳細情報を障害記憶部26に記憶する。また、主記憶部103の軽障害フラグと記憶した詳細情報をクリアする。   Next, the interrupt detection unit 11 acquires detailed information on a failure necessary for failure analysis or the like from the monitoring target 50 that has output the failure interrupt (step S403). For example, the main storage unit 103 reads the detailed information stored in step S207. The acquired detailed information is stored in the failure storage unit 26. Further, the light failure flag and the detailed information stored in the main storage unit 103 are cleared.

本実施形態では、少なくとも、各監視対象50について、障害が初めて発生した時刻を障害記憶部26に記憶する。発生時刻は、監視対象50から取得しても良いし、割込検出部11が障害割り込みを検出した時刻としても良い。また、初回発生時刻は、さらに、それぞれの障害の原因(訂正可能誤りなど)に対して記憶するようにしても良い。   In the present embodiment, at least for each monitoring target 50, the time when the failure first occurred is stored in the failure storage unit 26. The occurrence time may be acquired from the monitoring target 50, or may be the time when the interrupt detection unit 11 detects a failure interrupt. Further, the first occurrence time may be stored for each cause of failure (correctable error or the like).

次に、タイマー制御部13は、障害割り込みを出力した監視対象50について、障害の初回発生時刻を障害記憶部26から取得する(ステップS404)。初回発生時刻を各障害原因に対して記憶している場合には、今回の障害内容について、初回発生時刻を取得する。   Next, the timer control unit 13 acquires the first occurrence time of the failure from the failure storage unit 26 for the monitoring target 50 that has output the failure interrupt (step S404). When the first occurrence time is stored for each cause of failure, the first occurrence time is acquired for the current failure content.

そして、タイマー制御部13は、初回発生時刻から今回の障害の発生時刻までの経過時間を計算する(ステップS405)。今回の障害が初めての場合には、経過時間は0とする。   Then, the timer control unit 13 calculates the elapsed time from the first occurrence time to the current failure occurrence time (step S405). If this is the first time, the elapsed time is zero.

次に、タイマー制御部13は、経過時間に対応する、障害割り込みをマスクするマスク時間をテーブル記憶部25から取得する。テーブル記憶部25には経過時間に対応するマスク時間を記憶しておく。   Next, the timer control unit 13 acquires from the table storage unit 25 the mask time corresponding to the elapsed time for masking the failure interrupt. The table storage unit 25 stores a mask time corresponding to the elapsed time.

図8に、経過時間とマスク時間との対応関係の例を示す。この例では、障害の初回発生時刻からの経過時間が長くなるほど、マスク時間を長くする設定としている。   FIG. 8 shows an example of the correspondence relationship between the elapsed time and the mask time. In this example, the mask time is set longer as the elapsed time from the first occurrence time of the failure becomes longer.

図9に、経過時間とマスク時間の対応関係が図8の場合の、障害割り込みの発生間隔を示す。初回発生時刻からの経過時間が長くなるほどマスク時間を長くすることによって、障害分析に重要な障害発生初期については短い間隔で障害情報を取得し、時間の経過に伴い、障害情報取得の間隔を長くして障害処理負荷を低減することが可能になる。   FIG. 9 shows the occurrence intervals of fault interrupts when the correspondence between the elapsed time and the mask time is that shown in FIG. By increasing the mask time as the elapsed time from the first occurrence time becomes longer, failure information is acquired at a short interval in the early stage of failure occurrence, which is important for failure analysis, and the failure information acquisition interval is increased with time. Thus, it is possible to reduce the fault handling load.

そして、タイマー制御部13は、テーブル記憶部25から取得したマスク時間をタイマー14にセットする(ステップS406)。タイマーはセットされたマスク時間が経過した時、割込検出部11へタイマー割り込みを出力する。   Then, the timer control unit 13 sets the mask time acquired from the table storage unit 25 in the timer 14 (step S406). The timer outputs a timer interrupt to the interrupt detection unit 11 when the set mask time has elapsed.

割込検出部11がタイマー割り込みを検出すると(ステップS407)、割込制御部12は、タイマー割り込みに対応する監視対象50の障害割り込みマスクを解除する(ステップS408)。   When the interrupt detection unit 11 detects a timer interrupt (step S407), the interrupt control unit 12 cancels the fault interrupt mask of the monitoring target 50 corresponding to the timer interrupt (step S408).

このように障害処理装置20を動作させることによって、障害分析に必要な障害情報を収集し、かつ、障害処理の処理量や通信量を抑制することが可能になる。   By operating the failure processing apparatus 20 in this way, it is possible to collect failure information necessary for failure analysis, and to suppress the processing amount and communication amount of failure processing.

以上で説明したように、本発明の第二の実施形態では、第一の実施形態と同様に、障害の初回発生時刻から今回の発生時刻までの経過時間に対応するマスク時間をタイマーにセットする。これにより、障害割り込みの発生間隔が障害の初回発生時刻からの経過時間により変更可能となる。マスク時間を経過時間により変更することで、より多くの障害情報を収集したい経過時間はマスク時間を短くし、処理量や通信量を抑えたい経過時間はマスク時間を長くすることが可能になる。そのため、障害分析に必要な障害情報を収集し、かつ、障害処理の処理量や通信量を抑制することが可能になる。   As described above, in the second embodiment of the present invention, as in the first embodiment, the mask time corresponding to the elapsed time from the first occurrence time of the failure to the current occurrence time is set in the timer. . As a result, the occurrence interval of the failure interrupt can be changed according to the elapsed time from the first occurrence time of the failure. By changing the mask time according to the elapsed time, it is possible to shorten the mask time for the elapsed time for which more fault information is to be collected, and to increase the mask time for the elapsed time for suppressing the processing amount and the communication amount. For this reason, it is possible to collect failure information necessary for failure analysis, and to suppress the amount of processing and the amount of communication for failure processing.

また、経過時間が長いほどマスク時間を長くすることによって、障害分析に重要な障害発生初期については短い間隔で障害情報を取得し、時間の経過に伴い、障害情報取得の間隔を長くして障害処理負荷を低減することが可能になる。   In addition, the longer the elapsed time, the longer the mask time, so that failure information is acquired at short intervals in the early stage of failure occurrence, which is important for failure analysis, and the failure information acquisition interval increases with time. It becomes possible to reduce processing load.

[第三の実施形態]
次に、本発明の第三の実施の形態について説明する。
[Third embodiment]
Next, a third embodiment of the present invention will be described.

本実施形態では、障害の初回発生時刻を障害管理装置で管理する場合の例について説明する。   In this embodiment, an example in which the failure occurrence time is managed by the failure management apparatus will be described.

図10に本実施形態の障害処理装置30の構成例を示す。障害処理装置20に対し、障害記憶部26を削除し、通信部37を追加している。   FIG. 10 shows a configuration example of the failure processing apparatus 30 of the present embodiment. For the failure processing apparatus 20, the failure storage unit 26 is deleted and a communication unit 37 is added.

通信部37は、障害管理装置70と通信を行う部分である。障害の詳細情報を障害管理装置70へ送信し、障害の初回発生時刻あるいは経過時間を障害管理装置70から受信する。詳細情報としては、すくなくとも、障害が発生した監視対象50を特定する情報と、障害の発生時刻を送信する。また、障害の原因や、障害の分析に必要となる情報を送信する。   The communication unit 37 is a part that communicates with the failure management apparatus 70. Detailed information on the failure is transmitted to the failure management device 70, and the first occurrence time or elapsed time of the failure is received from the failure management device 70. As the detailed information, at least the information for specifying the monitoring target 50 in which the failure has occurred and the time at which the failure has occurred are transmitted. Also, the cause of failure and information necessary for failure analysis are transmitted.

タイマー制御部13では、障害管理装置70から初回発生時刻を受信した場合には、初回発生時刻と今回の発生時刻とから経過時間を計算する。   When receiving the first occurrence time from the failure management device 70, the timer control unit 13 calculates the elapsed time from the first occurrence time and the current occurrence time.

図11に、本実施形態の障害処理装置30を演算処理装置に適用した場合の構成例を示す。演算処理装置100A、100Xの構成例は、図4の演算処理装置100と同様である。DGP101は障害処理装置30に該当する。また、演算部102および主記憶部103は監視対象50に該当する。   FIG. 11 shows a configuration example when the failure processing apparatus 30 of the present embodiment is applied to an arithmetic processing apparatus. A configuration example of the arithmetic processing devices 100A and 100X is the same as that of the arithmetic processing device 100 in FIG. The DGP 101 corresponds to the failure processing apparatus 30. The calculation unit 102 and the main storage unit 103 correspond to the monitoring target 50.

SVP(Service Processor)200は障害管理装置70に該当する。SVP200では、一つ以上のDGP101からの障害情報をまとめて管理する。   The SVP (Service Processor) 200 corresponds to the failure management device 70. In the SVP 200, fault information from one or more DGPs 101 is collectively managed.

図12に障害管理装置70の構成例を示す。障害管理装置70は障害記憶部71と通信部72から構成される。通信部72は障害処理装置30と通信を行う部分である。障害処理装置30から障害の詳細情報や発生時刻を受信し、障害記憶部71に記憶する。また、障害の初回発生時刻を障害処理装置30へ送信する。   FIG. 12 shows a configuration example of the failure management device 70. The failure management device 70 includes a failure storage unit 71 and a communication unit 72. The communication unit 72 is a part that communicates with the failure processing apparatus 30. Detailed information and occurrence time of the failure are received from the failure processing device 30 and stored in the failure storage unit 71. In addition, the first occurrence time of the failure is transmitted to the failure processing apparatus 30.

障害管理装置は、図13の障害管理装置80のように構成することも可能である。図12の障害管理装置70に対して、計算部83を追加している。計算部83は、障害の初回発生時刻から今回の障害の発生時刻までの経過時間を計算する部分である。   The failure management apparatus can be configured as the failure management apparatus 80 in FIG. A calculation unit 83 is added to the failure management apparatus 70 of FIG. The calculation unit 83 is a part that calculates the elapsed time from the first occurrence time of the failure to the current failure occurrence time.

このように障害処理装置30および障害管理装置70(80)を構成することによって、障害分析に必要な障害情報を収集し、かつ、障害処理の処理量や通信量を抑制することが可能になる。   By configuring the failure processing device 30 and the failure management device 70 (80) in this way, it is possible to collect failure information necessary for failure analysis and to reduce the amount of processing and communication of failure processing. .

次に、図14から図16を用いて、本実施形態の障害処理装置30および障害管理装置70(80)の動作例について説明する。   Next, operation examples of the failure processing device 30 and the failure management device 70 (80) of this embodiment will be described with reference to FIGS.

まず、割込検出部11は障害割り込みを検出し(図14のステップS501)、障害割り込みを出力した監視対象50の障害割り込みをマスクする(ステップS502)。また、監視対象50から障害の詳細情報を取得する(ステップS503)。   First, the interrupt detection unit 11 detects a fault interrupt (step S501 in FIG. 14), and masks the fault interrupt of the monitoring target 50 that has output the fault interrupt (step S502). Further, the detailed information on the failure is acquired from the monitoring target 50 (step S503).

次に、通信部37は障害の詳細情報と発生時刻を障害管理装置70(80)に送信する。障害管理装置70(80)は、障害の発生時刻を受信し(図15のステップS601、図16のステップS701)、障害の発生が初回のときは発生時刻を記憶する。また、障害管理装置が障害管理装置70の場合、障害管理装置70は、障害記憶部71から障害の初回発生時刻を取得し、障害処理装置30へ送信する(ステップS602)。障害管理装置が障害管理装置80の場合には、障害管理装置80の計算部83が、障害の初回発生時刻から今回の障害の発生時刻までの経過時間を計算し(ステップS702)、経過時間を障害処理装置30へ送信する(ステップS703)。そして、通信部37は、障害管理装置(70または80)から初回発生時刻または経過時間を取得する。(ステップS504)
次に、タイマー制御部13は、経過時間に対応するマスク時間をテーブル記憶部25より取得し、タイマー14へセットする(ステップS505)。障害管理装置70から初回発生時刻を受信した場合には、タイマー制御部13で経過時間を計算する。
Next, the communication unit 37 transmits the detailed information and the occurrence time of the failure to the failure management device 70 (80). The failure management device 70 (80) receives the failure occurrence time (step S601 in FIG. 15 and step S701 in FIG. 16), and stores the occurrence time when the failure occurs for the first time. When the failure management device is the failure management device 70, the failure management device 70 acquires the first occurrence time of the failure from the failure storage unit 71 and transmits it to the failure processing device 30 (step S602). When the failure management device is the failure management device 80, the calculation unit 83 of the failure management device 80 calculates the elapsed time from the failure first occurrence time to the current failure occurrence time (step S702), and calculates the elapsed time. It transmits to the failure processing apparatus 30 (step S703). Then, the communication unit 37 acquires the first occurrence time or elapsed time from the failure management device (70 or 80). (Step S504)
Next, the timer control unit 13 acquires a mask time corresponding to the elapsed time from the table storage unit 25 and sets it in the timer 14 (step S505). When the first occurrence time is received from the failure management device 70, the timer control unit 13 calculates the elapsed time.

タイマー14は、マスク時間が経過した時、タイマー割り込みを割込検出部11へ出力し、割込検出部11ではタイマー割り込みを検出する(ステップS506)。   When the mask time has elapsed, the timer 14 outputs a timer interrupt to the interrupt detection unit 11, and the interrupt detection unit 11 detects the timer interrupt (step S506).

そして、割込制御部12は障害割り込みのマスクを解除する(ステップS507)。   Then, the interrupt control unit 12 cancels the masking of the fault interrupt (Step S507).

このように障害処理装置30および障害管理装置70(80)を動作させることによって、障害分析に必要な障害情報を収集し、かつ、障害処理の処理量や通信量を抑制することが可能になる。   By operating the failure processing device 30 and the failure management device 70 (80) in this way, it is possible to collect failure information necessary for failure analysis and to suppress the processing amount and communication amount of failure processing. .

以上で説明したように、本発明の第三の実施形態では、第一、第二の実施形態と同様に、障害の初回発生時刻から今回の発生時刻までの経過時間に対応するマスク時間をタイマーにセットする。これにより、障害割り込みの発生間隔が障害の初回発生時刻からの経過時間により変更可能となる。マスク時間を経過時間により変更することで、より多くの障害情報を収集したい経過時間はマスク時間を短くし、処理量や通信量を抑えたい経過時間はマスク時間を長くすることが可能になる。そのため、障害分析に必要な障害情報を収集し、かつ、障害処理の処理量や通信量を抑制することが可能になる。   As described above, in the third embodiment of the present invention, as in the first and second embodiments, the mask time corresponding to the elapsed time from the first occurrence time of the failure to the current occurrence time is set to the timer. Set to. As a result, the occurrence interval of the failure interrupt can be changed according to the elapsed time from the first occurrence time of the failure. By changing the mask time according to the elapsed time, it is possible to shorten the mask time for the elapsed time for which more fault information is to be collected, and to increase the mask time for the elapsed time for suppressing the processing amount and the communication amount. For this reason, it is possible to collect failure information necessary for failure analysis, and to suppress the amount of processing and the amount of communication for failure processing.

また、経過時間が長いほどマスク時間を長くすることによって、障害分析に重要な障害発生初期については短い間隔で障害情報を取得し、時間の経過に伴い、障害情報取得の間隔を長くして障害処理負荷を低減することが可能になる。   In addition, the longer the elapsed time, the longer the mask time, so that failure information is acquired at short intervals in the early stage of failure occurrence, which is important for failure analysis, and the failure information acquisition interval increases with time. It becomes possible to reduce processing load.

さらに、本実施形態では、障害情報の管理を障害管理装置で行うため、障害処理装置への障害情報の記憶が不要となり、障害処理装置を小さくすることが可能になる。   Furthermore, in the present embodiment, since the failure information is managed by the failure management device, it is not necessary to store the failure information in the failure processing device, and the failure processing device can be made smaller.

[第四の実施形態]
次に、本発明の第四の実施の形態について説明する。
[Fourth embodiment]
Next, a fourth embodiment of the present invention will be described.

本実施形態では、障害の初回発生時刻を障害管理装置で管理し、障害の初回発生時刻からの経過時間とマスク時間との対応関係を障害管理装置に記憶させる場合の例について説明する。   In the present embodiment, an example will be described in which the failure management device manages the first occurrence time of a failure and stores the correspondence between the elapsed time from the failure first occurrence time and the mask time in the failure management device.

図17に本実施形態の障害処理装置40の構成例を示す。障害処理装置30からテーブル記憶部25を削除している。通信部37では、障害の今回の発生時刻を障害管理装置90へ送信し、障害管理装置90からマスク時間を取得する。タイマー制御部13では、障害管理装置90から受信したマスク時間をタイマーにセットする。   FIG. 17 shows a configuration example of the failure processing apparatus 40 of the present embodiment. The table storage unit 25 is deleted from the failure processing apparatus 30. The communication unit 37 transmits the current occurrence time of the failure to the failure management device 90 and acquires the mask time from the failure management device 90. The timer control unit 13 sets the mask time received from the failure management device 90 in the timer.

また、図18に本実施形態の障害管理装置90の構成例を示す。障害管理装置80にテーブル記憶部94を追加している。テーブル記憶部94は、障害の初回発生時刻からの経過時間とマスク時間との対応関係を記憶する部分である。なお、この対応関係は、監視対象50ごとに異なるものとすることが可能である。   FIG. 18 shows a configuration example of the failure management apparatus 90 of this embodiment. A table storage unit 94 is added to the failure management device 80. The table storage unit 94 is a part that stores the correspondence between the elapsed time from the first occurrence time of the failure and the mask time. Note that this correspondence can be different for each monitoring target 50.

計算部83では障害の初回発生時刻から今回の発生時刻までの経過時間を計算し、経過時間に対応するマスク時間をテーブル記憶部94から取得する。通信部72はマスク時間を障害管理装置90へ送信する。   The calculation unit 83 calculates the elapsed time from the first occurrence time of the failure to the current occurrence time, and acquires the mask time corresponding to the elapsed time from the table storage unit 94. The communication unit 72 transmits the mask time to the failure management apparatus 90.

このように障害処理装置40および障害管理装置90を構成することによって、障害分析に必要な障害情報を収集し、かつ、障害処理の処理量や通信量を抑制することが可能になる。   By configuring the failure processing device 40 and the failure management device 90 in this way, it is possible to collect failure information necessary for failure analysis and to suppress the processing amount and communication amount of failure processing.

次に、図19および図20を用いて、本実施形態の障害処理装置40および障害管理装置90の動作例について説明する。   Next, operation examples of the failure processing device 40 and the failure management device 90 of this embodiment will be described with reference to FIGS. 19 and 20.

まず、割込検出部11は障害割り込みを検出し(ステップS801)、障害割り込みを出力した監視対象50の障害割り込みをマスクする(ステップS802)。また、監視対象50から障害の詳細情報を取得する(ステップS803)。   First, the interrupt detection unit 11 detects a fault interrupt (step S801), and masks the fault interrupt of the monitoring target 50 that has output the fault interrupt (step S802). Also, detailed information on the failure is acquired from the monitoring target 50 (step S803).

次に、通信部37は障害の発生時刻を障害管理装置90に送信する。障害管理装置90では、障害の発生時刻を受信し(ステップS901)、障害の発生が初回の場合には、障害記憶部71に初回発生時刻を記憶させる。そして、障害記憶部71から初回発生時刻を取得し、初回発生時刻から今回の発生時刻までの経過時間を計算する(ステップS902)。また、経過時間に対応するマスク時間をテーブル記憶部94から取得する。通信部72ではマスク時間を障害処理装置40へ送信する(ステップS903)。そして、障害処理装置40の通信部37では、障害管理装置90からマスク時間を受信する(ステップS804)。   Next, the communication unit 37 transmits a failure occurrence time to the failure management apparatus 90. The failure management device 90 receives the failure occurrence time (step S901), and stores the first occurrence time in the failure storage unit 71 when the failure occurs for the first time. Then, the first occurrence time is acquired from the failure storage unit 71, and the elapsed time from the first occurrence time to the current occurrence time is calculated (step S902). Further, the mask time corresponding to the elapsed time is acquired from the table storage unit 94. The communication unit 72 transmits the mask time to the failure processing apparatus 40 (step S903). Then, the communication unit 37 of the failure processing device 40 receives the mask time from the failure management device 90 (step S804).

次に、タイマー制御部13は、受信したマスク時間をタイマー14へセットする(ステップS805)。   Next, the timer control unit 13 sets the received mask time in the timer 14 (step S805).

タイマー14は、マスク時間が経過した時、タイマー割り込みを割込検出部11へ出力し、割込検出部11ではタイマー割り込みを検出する(ステップS806)。   When the mask time has elapsed, the timer 14 outputs a timer interrupt to the interrupt detection unit 11, and the interrupt detection unit 11 detects the timer interrupt (step S806).

そして、割込制御部12は障害割り込みのマスクを解除する(ステップS807)。   Then, the interrupt control unit 12 cancels the masking of the failure interrupt (Step S807).

このように障害処理装置40および障害管理装置90を動作させることによって、障害分析に必要な障害情報を収集し、かつ、障害処理の処理量や通信量を抑制することが可能になる。   By operating the failure processing device 40 and the failure management device 90 in this way, it is possible to collect failure information necessary for failure analysis and to suppress the processing amount and communication amount of failure processing.

以上で説明したように、本発明の第四の実施形態では、第一から第三の実施形態と同様に、障害の初回発生時刻から今回の発生時刻までの経過時間に対応するマスク時間をタイマーにセットする。これにより、障害割り込みの発生間隔が障害の初回発生時刻からの経過時間により変更可能となる。マスク時間を経過時間により変更することで、より多くの障害情報を収集したい経過時間はマスク時間を短くし、処理量や通信量を抑えたい経過時間はマスク時間を長くすることが可能になる。そのため、障害分析に必要な障害情報を収集し、かつ、障害処理の処理量や通信量を抑制することが可能になる。   As described above, in the fourth embodiment of the present invention, as in the first to third embodiments, the mask time corresponding to the elapsed time from the first occurrence time of the failure to the current occurrence time is set to the timer. Set to. As a result, the occurrence interval of the failure interrupt can be changed according to the elapsed time from the first occurrence time of the failure. By changing the mask time according to the elapsed time, it is possible to shorten the mask time for the elapsed time for which more fault information is to be collected, and to increase the mask time for the elapsed time for suppressing the processing amount and the communication amount. For this reason, it is possible to collect failure information necessary for failure analysis, and to suppress the amount of processing and the amount of communication for failure processing.

また、経過時間が長いほどマスク時間を長くすることによって、障害分析に重要な障害発生初期については短い間隔で障害情報を取得し、時間の経過に伴い、障害情報取得の間隔を長くして障害処理負荷を低減することが可能になる。   In addition, the longer the elapsed time, the longer the mask time, so that failure information is acquired at short intervals in the early stage of failure occurrence, which is important for failure analysis, and the failure information acquisition interval increases with time. It becomes possible to reduce processing load.

さらに、本実施形態では、障害情報の管理を障害管理装置で行うため、障害処理装置への障害情報の記憶が不要となり、障害処理装置を小さくすることが可能になる。   Furthermore, in the present embodiment, since the failure information is managed by the failure management device, it is not necessary to store the failure information in the failure processing device, and the failure processing device can be made smaller.

なお、上述する各実施の形態は、本発明の好適な実施の形態であり、本発明の要旨を逸脱しない範囲内において種々変更実施が可能である。   Each of the above-described embodiments is a preferred embodiment of the present invention, and various modifications can be made without departing from the scope of the present invention.

上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。   A part or all of the above-described embodiment can be described as in the following supplementary notes, but is not limited thereto.

(付記1)
障害の発生を示す障害割り込みと、タイマーにセットされた時間が経過したことを示すタイマー割り込みとを検出する割込検出部と、
前記障害割り込みを検出したとき、前記障害割り込みをマスクし、前記タイマー割り込みを検出したとき、前記障害割り込みのマスクを解除する割込制御部と、
前記障害割り込みを検出したとき、前記障害の初回発生時刻から今回の発生時刻までの経過時間に対応するマスク時間をタイマーにセットするタイマー制御部と
を備えることを特徴とする障害処理装置。
(Appendix 1)
An interrupt detection unit for detecting a fault interrupt indicating the occurrence of a fault and a timer interrupt indicating that the time set in the timer has elapsed;
An interrupt control unit that masks the fault interrupt when detecting the fault interrupt, and cancels the mask of the fault interrupt when the timer interrupt is detected;
A failure processing apparatus comprising: a timer control unit that sets a mask time corresponding to an elapsed time from an initial occurrence time of the failure to a current occurrence time when the failure interrupt is detected.

(付記2)
前記タイマー制御部は、前記経過時間が長いほど前記マスク時間を長くする
ことを特徴とする付記1に記載の障害処理装置。
(Appendix 2)
The failure processing apparatus according to appendix 1, wherein the timer control unit increases the mask time as the elapsed time is longer.

(付記3)
前記割り込み検出部は、前記障害の障害原因を取得し、
前記初回発生時刻は、前記障害原因の前記障害が初回に発生した時刻である
ことを特徴とする付記1あるいは付記2に記載の障害処理装置。
(Appendix 3)
The interrupt detection unit acquires a cause of the failure,
The failure processing apparatus according to appendix 1 or appendix 2, wherein the first occurrence time is a time when the failure causing the failure is generated for the first time.

(付記4)
前記タイマー制御部は、前記経過時間と前記マスク時間との対応関係を記憶するテーブル記憶部の前記対応関係から、前記経過時間に対応する前記マスク時間を取得する
ことを特徴とする付記1から付記3のいずれかに記載の障害処理装置。
(Appendix 4)
The timer control unit acquires the mask time corresponding to the elapsed time from the correspondence relationship of the table storage unit that stores the correspondence relationship between the elapsed time and the mask time. 4. The failure processing apparatus according to any one of 3.

(付記5)
前記割込検出部は、前記障害の前記初回発生時刻を障害記憶部に記憶させ、
前記タイマー制御部は、前記障害記憶部から取得した前記初回発生時刻と前記今回の発生時刻とから前記経過時間を計算する
ことを特徴とする付記4に記載の障害処理装置。
(Appendix 5)
The interrupt detection unit stores the first occurrence time of the failure in a failure storage unit,
The failure processing apparatus according to appendix 4, wherein the timer control unit calculates the elapsed time from the first occurrence time acquired from the failure storage unit and the current occurrence time.

(付記6)
前記障害割り込みを検出したとき、前記今回の発生時刻を送信し、前記初回発生時刻を受信する通信部
を備え、
前記タイマー制御部は、前記初回発生時刻と前記今回の発生時刻とから前記経過時間を計算する
ことを特徴とする付記4に記載の障害処理装置。
(Appendix 6)
A communication unit for transmitting the current occurrence time and receiving the first occurrence time when detecting the failure interrupt;
The failure processing apparatus according to appendix 4, wherein the timer control unit calculates the elapsed time from the first occurrence time and the current occurrence time.

(付記7)
前記障害割り込みを検出したとき、前記今回の発生時刻を送信し、前記経過時間を受信する通信部
を備えることを特徴とする付記4に記載の障害処理装置。
(Appendix 7)
The fault processing apparatus according to appendix 4, further comprising: a communication unit that transmits the current occurrence time and receives the elapsed time when the fault interrupt is detected.

(付記8)
前記障害割り込みを検出したとき、前記今回の発生時刻を送信し、前記マスク時間を受信する通信部
を備えることを特徴とする付記1から付記3のいずれかに記載の障害処理装置。
(Appendix 8)
The failure processing apparatus according to any one of appendix 1 to appendix 3, further comprising: a communication unit that transmits the current occurrence time and receives the mask time when the failure interrupt is detected.

(付記9)
障害の今回の発生時刻の受信に対して、前記障害の発生が初回でない場合には、前記障害の初回発生時刻を送信し、前記障害の発生が初回の場合には、前記初回発生時刻として前記今回の発生時刻を障害記憶部に記憶させ、前記障害の前記初回発生時刻を送信する通信部
を備えることを特徴とする障害管理装置。
(Appendix 9)
In response to reception of the current occurrence time of the failure, if the occurrence of the failure is not the first time, the first occurrence time of the failure is transmitted, and if the occurrence of the failure is the first time, the first occurrence time is A failure management apparatus comprising: a communication unit that stores a current occurrence time in a failure storage unit and transmits the first occurrence time of the failure.

(付記10)
前記通信部は、さらに、前記障害の障害原因を受信し、
前記初回発生時刻は、前記障害原因の前記障害が初回に発生した時刻である
ことを特徴とする付記9に記載の障害管理装置。
(Appendix 10)
The communication unit further receives the cause of the failure,
The failure management apparatus according to appendix 9, wherein the first occurrence time is a time at which the failure causing the failure occurs for the first time.

(付記11)
障害の今回の発生時刻の受信に対して、前記障害の発生が初回でない場合には、前記障害の初回発生時刻から前記今回の発生時刻までの経過時間を送信し、前記障害の発生が初回の場合には、前記初回発生時刻として前記今回の発生時刻を障害記憶部に記憶させ、前記経過時間を送信する通信部と、
前記経過時間を計算する計算部と
を備えることを特徴とする障害管理装置。
(Appendix 11)
If the occurrence of the failure is not the first time in response to reception of the current occurrence time of the failure, an elapsed time from the first occurrence time of the failure to the current occurrence time is transmitted, and the occurrence of the failure is the first time. In this case, the current occurrence time is stored in the failure storage unit as the first occurrence time, and the communication unit transmits the elapsed time;
A failure management apparatus comprising: a calculation unit that calculates the elapsed time.

(付記12)
前記通信部は、さらに、前記障害の障害原因を受信し、
前記初回発生時刻は、前記障害原因の前記障害が初回に発生した時刻である
ことを特徴とする付記11に記載の障害管理装置。
(Appendix 12)
The communication unit further receives the cause of the failure,
The failure management apparatus according to appendix 11, wherein the first occurrence time is a time when the failure causing the failure occurs for the first time.

(付記13)
障害の今回の発生時刻の受信に対して、前記障害の発生が初回でない場合には、前記障害の発生を示す障害割り込みをマスクするマスク時間を送信し、前記障害の発生が初回の場合には、初回発生時刻として前記今回の発生時刻を障害記憶部に記憶させ、前記マスク時間を送信する通信部と、
前記障害の前記初回発生時刻から前記今回の発生時刻までの経過時間を計算し、前記経過時間と前記マスク時間との対応関係を記憶したテーブル記憶部から前記経過時間に対応する前記マスク時間を取得する計算部と
を備えることを特徴とする障害管理装置。
(Appendix 13)
When the occurrence of the failure is not the first time with respect to reception of the current occurrence time of the failure, a mask time for masking the failure interrupt indicating the occurrence of the failure is transmitted, and when the occurrence of the failure is the first time A communication unit that stores the current occurrence time in the failure storage unit as the first occurrence time, and transmits the mask time;
The elapsed time from the first occurrence time of the failure to the current occurrence time is calculated, and the mask time corresponding to the elapsed time is obtained from a table storage unit that stores the correspondence between the elapsed time and the mask time. A failure management device comprising:

(付記14)
前記通信部は、さらに、前記障害の障害原因を受信し、
前記初回発生時刻は、前記障害原因の前記障害が初回に発生した時刻である
ことを特徴とする付記13に記載の障害管理装置。
(Appendix 14)
The communication unit further receives the cause of the failure,
The failure management apparatus according to appendix 13, wherein the first occurrence time is a time at which the failure causing the failure occurs for the first time.

(付記15)
付記6に記載の障害処理装置と、
付記9あるいは付記10に記載の障害管理装置と
を備え、
前記障害処理装置の前記通信部は、前記障害管理装置の前記通信部へ前記今回の発生時刻を送信し、前記障害管理装置の前記通信部から前記初回発生時刻を受信する
ことを特徴とする障害処理システム。
(Appendix 15)
The fault handling apparatus according to appendix 6,
The failure management device according to appendix 9 or appendix 10, and
The failure is characterized in that the communication unit of the failure processing device transmits the current occurrence time to the communication unit of the failure management device and receives the first occurrence time from the communication unit of the failure management device. Processing system.

(付記16)
付記7に記載の障害処理装置と、
付記11あるいは付記12に記載の障害管理装置と
を備え、
前記障害処理装置の前記通信部は、前記障害管理装置の前記通信部へ前記今回の発生時刻を送信し、前記障害管理装置の前記通信部から前記経過時間を受信する
ことを特徴とする障害処理システム。
(Appendix 16)
The fault handling apparatus according to appendix 7,
The failure management device according to appendix 11 or appendix 12, and
The failure processing device, wherein the communication unit of the failure processing device transmits the current occurrence time to the communication unit of the failure management device and receives the elapsed time from the communication unit of the failure management device. system.

(付記17)
付記8に記載の障害処理装置と、
付記13あるいは付記14に記載の障害管理装置と
を備え、
前記障害処理装置の前記通信部は、前記障害管理装置の前記通信部へ前記今回の発生時刻を送信し、前記障害管理装置の前記通信部から前記マスク時間を受信する
ことを特徴とする障害処理システム。
(Appendix 17)
The failure handling apparatus according to appendix 8,
The failure management device according to appendix 13 or appendix 14, and
The failure processing device, wherein the communication unit of the failure processing device transmits the current occurrence time to the communication unit of the failure management device and receives the mask time from the communication unit of the failure management device. system.

(付記18)
障害の発生を示す障害割り込みと、タイマーにセットされた時間が経過したことを示すタイマー割り込みとを検出し、前記障害割り込みを検出したとき、前記障害割り込みをマスクして前記障害の初回発生時刻から今回の発生時刻までの経過時間に対応するマスク時間をタイマーにセットし、前記タイマー割り込みを検出したとき、前記障害割り込みのマスクを解除する
ことを特徴とする障害処理方法。
(Appendix 18)
A fault interrupt indicating the occurrence of a fault and a timer interrupt indicating that the time set in the timer has elapsed are detected. When the fault interrupt is detected, the fault interrupt is masked and the fault is first generated. A failure processing method, wherein a mask time corresponding to an elapsed time up to the current occurrence time is set in a timer, and the mask of the failure interrupt is canceled when the timer interrupt is detected.

(付記19)
前記経過時間が長いほど前記マスク時間を長くする
ことを特徴とする付記18に記載の障害処理方法。
(Appendix 19)
The failure processing method according to appendix 18, wherein the mask time is lengthened as the elapsed time is longer.

(付記20)
前記障害処理方法は、前記障害の障害原因を取得し、
前記初回発生時刻は、前記障害原因の前記障害が初回に発生した時刻である
ことを特徴とする付記18あるいは付記19に記載の障害処理方法。
(Appendix 20)
The failure processing method acquires a failure cause of the failure,
The failure processing method according to appendix 18 or appendix 19, wherein the first occurrence time is a time when the failure causing the failure is first generated.

(付記21)
前記経過時間と前記マスク時間との対応関係を記憶するテーブル記憶部に記憶された前記対応関係から、前記経過時間に対応する前記マスク時間を取得する
ことを特徴とする付記18から付記20のいずれかに記載の障害処理方法。
(Appendix 21)
Any one of appendix 18 to appendix 20, wherein the mask time corresponding to the elapsed time is acquired from the correspondence stored in a table storage unit that stores the correspondence between the elapsed time and the mask time. The fault processing method according to the above.

(付記22)
前記初回発生時刻を障害記憶部に記憶させ、前記障害記憶部から取得した前記初回発生時刻と前記今回の発生時刻とから前記経過時間を計算する
ことを特徴とする付記21に記載の障害処理方法。
(Appendix 22)
The failure processing method according to appendix 21, wherein the first occurrence time is stored in a failure storage unit, and the elapsed time is calculated from the first occurrence time acquired from the failure storage unit and the current occurrence time. .

(付記23)
前記障害割り込みを検出したとき、前記今回の発生時刻を送信し、前記初回発生時刻を受信し、前記初回発生時刻と前記今回の発生時刻とから前記経過時間を計算する
ことを特徴とする付記21に記載の障害処理方法。
(Appendix 23)
When the failure interrupt is detected, the current occurrence time is transmitted, the first occurrence time is received, and the elapsed time is calculated from the first occurrence time and the current occurrence time. The failure handling method described in 1.

(付記24)
前記障害割り込みを検出したとき、前記今回の発生時刻を送信し、前記経過時間を受信する
ことを特徴とする付記21に記載の障害処理方法。
(Appendix 24)
The failure processing method according to appendix 21, wherein when the failure interrupt is detected, the current occurrence time is transmitted and the elapsed time is received.

(付記25)
前記障害割り込みを検出したとき、前記今回の発生時刻を送信し、前記マスク時間を受信する
ことを特徴とする付記18から付記20のいずれかに記載の障害処理方法。
(Appendix 25)
The fault processing method according to any one of appendix 18 to appendix 20, wherein when the fault interrupt is detected, the current occurrence time is transmitted and the mask time is received.

(付記26)
障害の今回の発生時刻の受信に対して、前記障害の発生が初回でない場合には、前記障害の初回発生時刻を送信し、前記障害の発生が初回の場合には、前記初回発生時刻として前記今回の発生時刻を障害記憶部に記憶させ、前記障害の前記初回発生時刻を送信する
ことを特徴とする障害管理方法。
(Appendix 26)
In response to reception of the current occurrence time of the failure, if the occurrence of the failure is not the first time, the first occurrence time of the failure is transmitted, and if the occurrence of the failure is the first time, the first occurrence time is A failure management method comprising storing a current occurrence time in a failure storage unit and transmitting the first occurrence time of the failure.

(付記27)
前記障害管理方法は、前記障害の障害原因を受信し、
前記初回発生時刻は、前記障害原因の前記障害が初回に発生した時刻である
ことを特徴とする付記26に記載の障害管理方法。
(Appendix 27)
The failure management method receives a failure cause of the failure,
27. The failure management method according to appendix 26, wherein the first occurrence time is a time when the failure causing the failure occurs for the first time.

(付記28)
障害の今回の発生時刻の受信に対して、前記障害の発生が初回でない場合には、前記障害の初回発生時刻から前記今回の発生時刻までの経過時間を計算して前記経過時間を送信し、前記障害の発生が初回の場合には、前記初回発生時刻として前記今回の発生時刻を障害記憶部に記憶させ、前記経過時間を計算して前記経過時間を送信する
ことを特徴とする障害管理方法。
(Appendix 28)
For the reception of the current occurrence time of the failure, if the occurrence of the failure is not the first time, calculate the elapsed time from the first occurrence time of the failure to the current occurrence time, and transmit the elapsed time, When the failure occurs for the first time, the failure occurrence method is characterized in that the current occurrence time is stored in a failure storage unit as the first occurrence time, the elapsed time is calculated and the elapsed time is transmitted. .

(付記29)
前記障害管理方法は、前記障害の障害原因を受信し、
前記初回発生時刻は、前記障害原因の前記障害が初回に発生した時刻である
ことを特徴とする付記28に記載の障害管理方法。
(Appendix 29)
The failure management method receives a failure cause of the failure,
29. The failure management method according to appendix 28, wherein the first occurrence time is a time when the failure causing the failure occurs for the first time.

(付記30)
障害の今回の発生時刻の受信に対して、前記障害の発生が初回でない場合には、前記障害の初回発生時刻から前記今回の発生時刻までの経過時間を計算し、前記経過時間と前記マスク時間との対応関係を記憶したテーブル記憶部から前記経過時間に対応する前記障害の発生を示す障害割り込みをマスクするマスク時間を取得して前記マスク時間を送信し、前記障害の発生が初回の場合には、前記初回発生時刻として前記今回の発生時刻を障害記憶部に記憶させ、前記経過時間を計算し、前記テーブル記憶部から前記経過時間に対応する前記マスク時間を取得して前記マスク時間を送信する
ことを特徴とする障害管理方法。
(Appendix 30)
If the occurrence of the failure is not the first time with respect to reception of the current occurrence time of the failure, an elapsed time from the initial occurrence time of the failure to the current occurrence time is calculated, and the elapsed time and the mask time When the occurrence of the failure is the first time, the mask time for masking the failure interrupt indicating the occurrence of the failure corresponding to the elapsed time is acquired from the table storage unit storing the correspondence relationship with Stores the current occurrence time in the failure storage unit as the first occurrence time, calculates the elapsed time, obtains the mask time corresponding to the elapsed time from the table storage unit, and transmits the mask time A failure management method characterized by:

(付記31)
前記障害管理方法は、前記障害の障害原因を受信し、
前記初回発生時刻は、前記障害原因の前記障害が初回に発生した時刻である
ことを特徴とする付記30に記載の障害管理方法。
(Appendix 31)
The failure management method receives a failure cause of the failure,
The failure management method according to appendix 30, wherein the first occurrence time is a time at which the failure causing the failure occurs for the first time.

(付記32)
コンピュータに、
障害の発生を示す障害割り込みと、タイマーにセットされた時間が経過したことを示すタイマー割り込みとを検出する割込検出機能と、
前記障害割り込みを検出したとき、前記障害割り込みをマスクし、前記タイマー割り込みを検出したとき、前記障害割り込みのマスクを解除する割込制御機能と、
前記障害割り込みを検出したとき、前記障害の初回発生時刻から今回の発生時刻までの経過時間に対応するマスク時間をタイマーにセットするタイマー制御機能と
を実現させることを特徴とする障害処理プログラム。
(Appendix 32)
On the computer,
An interrupt detection function for detecting a fault interrupt indicating the occurrence of a fault and a timer interrupt indicating that the time set in the timer has elapsed;
An interrupt control function for masking the fault interrupt when detecting the fault interrupt, and canceling the mask of the fault interrupt when detecting the timer interrupt;
And a timer control function for setting, in a timer, a mask time corresponding to an elapsed time from the first occurrence time of the failure to the current occurrence time when the failure interrupt is detected.

(付記33)
前記タイマー制御機能は、前記経過時間が長いほど前記マスク時間を長くする
ことを特徴とする付記32に記載の障害処理プログラム。
(Appendix 33)
The failure processing program according to appendix 32, wherein the timer control function increases the mask time as the elapsed time increases.

(付記34)
前記割り込み検出機能は、前記障害の障害原因を取得し、
前記初回発生時刻は、前記障害原因の前記障害が初回に発生した時刻である
ことを特徴とする付記32あるいは付記33に記載の障害処理プログラム。
(Appendix 34)
The interrupt detection function acquires the cause of the failure,
The failure processing program according to appendix 32 or appendix 33, wherein the first occurrence time is a time when the failure causing the failure occurs for the first time.

(付記35)
前記タイマー制御機能は、前記経過時間と前記マスク時間との対応関係を記憶するテーブル記憶部の前記対応関係から、前記経過時間に対応する前記マスク時間を取得する
ことを特徴とする付記32から付記34のいずれかに記載の障害処理プログラム。
(Appendix 35)
From the supplementary note 32, the timer control function acquires the mask time corresponding to the elapsed time from the correspondence relation of a table storage unit that stores the correspondence relation between the elapsed time and the mask time. 34. The failure processing program according to any one of 34.

(付記36)
前記タイマー制御機能は、前記初回発生時刻を記憶する障害記憶部から取得した前記初回発生時刻と前記今回の発生時刻とから前記経過時間を計算する
ことを特徴とする付記35に記載の障害処理プログラム。
(Appendix 36)
The failure processing program according to appendix 35, wherein the timer control function calculates the elapsed time from the first occurrence time acquired from the failure storage unit that stores the first occurrence time and the current occurrence time. .

(付記37)
コンピュータに、さらに、
前記障害割り込みを検出したとき、前記今回の発生時刻を送信し、前記初回発生時刻を受信する通信機能
を実現させ、
前記タイマー制御機能は、前記初回発生時刻と前記今回の発生時刻とから前記経過時間を計算する
ことを特徴とする付記35に記載の障害処理プログラム。
(Appendix 37)
To the computer,
When the failure interrupt is detected, a communication function for transmitting the current occurrence time and receiving the first occurrence time is realized,
The failure processing program according to appendix 35, wherein the timer control function calculates the elapsed time from the first occurrence time and the current occurrence time.

(付記38)
コンピュータに、さらに、
前記障害割り込みを検出したとき、前記今回の発生時刻を送信し、前記経過時間を受信する通信機能
を実現させることを特徴とする付記35に記載の障害処理プログラム。
(Appendix 38)
To the computer,
36. The fault processing program according to appendix 35, wherein when the fault interrupt is detected, a communication function for transmitting the current occurrence time and receiving the elapsed time is realized.

(付記39)
コンピュータに、さらに、
前記障害割り込みを検出したとき、前記今回の発生時刻を送信し、前記マスク時間を受信する通信機能
を実現させることを特徴とする付記32から付記34のいずれかに記載の障害処理プログラム。
(Appendix 39)
To the computer,
The failure processing program according to any one of appendix 32 to appendix 34, wherein when the fault interrupt is detected, a communication function for transmitting the current occurrence time and receiving the mask time is realized.

(付記40)
コンピュータに、
障害の今回の発生時刻の受信に対して、前記障害の発生が初回でない場合には、前記障害の初回発生時刻を送信し、前記障害の発生が初回の場合には、前記初回発生時刻として前記今回の発生時刻を障害記憶部に記憶させ、前記障害の前記初回発生時刻を送信する通信機能
を実現させることを特徴とする障害管理プログラム。
(Appendix 40)
On the computer,
In response to reception of the current occurrence time of the failure, if the occurrence of the failure is not the first time, the first occurrence time of the failure is transmitted, and if the occurrence of the failure is the first time, the first occurrence time is A failure management program for storing a current occurrence time in a failure storage unit and realizing a communication function for transmitting the first occurrence time of the failure.

(付記41)
前記通信機能は、さらに、前記障害の障害原因を受信し、
前記初回発生時刻は、前記障害原因の前記障害が初回に発生した時刻である
ことを特徴とする付記40に記載の障害管理プログラム。
(Appendix 41)
The communication function further receives the cause of the failure,
The failure management program according to appendix 40, wherein the first occurrence time is a time at which the failure causing the failure occurs for the first time.

(付記42)
コンピュータに、
障害の今回の発生時刻の受信に対して、前記障害の発生が初回でない場合には、前記障害の初回発生時刻から前記今回の発生時刻までの経過時間を送信し、前記障害の発生が初回の場合には、前記初回発生時刻として前記今回の発生時刻を障害記憶部に記憶させ、前記経過時間を送信する通信機能と、
前記経過時間を計算する計算機能と
を実現させることを特徴とする障害管理プログラム。
(Appendix 42)
On the computer,
If the occurrence of the failure is not the first time in response to reception of the current occurrence time of the failure, an elapsed time from the first occurrence time of the failure to the current occurrence time is transmitted, and the occurrence of the failure is the first time. In this case, the communication function for storing the current occurrence time in the failure storage unit as the first occurrence time and transmitting the elapsed time;
A failure management program that realizes a calculation function for calculating the elapsed time.

(付記43)
前記通信機能は、さらに、前記障害の障害原因を受信し、
前記初回発生時刻は、前記障害原因の前記障害が初回に発生した時刻である
ことを特徴とする付記42に記載の障害管理プログラム。
(Appendix 43)
The communication function further receives the cause of the failure,
The failure management program according to appendix 42, wherein the first occurrence time is a time at which the failure causing the failure is first generated.

(付記44)
コンピュータに、
障害の今回の発生時刻の受信に対して、前記障害の発生が初回でない場合には、前記障害の発生を示す障害割り込みをマスクするマスク時間を送信し、前記障害の発生が初回の場合には、初回発生時刻として前記今回の発生時刻を障害記憶部に記憶させ、前記マスク時間を送信する通信機能と、
前記障害の前記初回発生時刻から前記今回の発生時刻までの経過時間を計算し、前記経過時間と前記マスク時間との対応関係を記憶したテーブル記憶部から前記経過時間に対応する前記マスク時間を取得する計算機能と
を実現させることを特徴とする障害管理プログラム。
(Appendix 44)
On the computer,
When the occurrence of the failure is not the first time with respect to reception of the current occurrence time of the failure, a mask time for masking the failure interrupt indicating the occurrence of the failure is transmitted, and when the occurrence of the failure is the first time A communication function for storing the current occurrence time as a first occurrence time in a failure storage unit and transmitting the mask time;
The elapsed time from the first occurrence time of the failure to the current occurrence time is calculated, and the mask time corresponding to the elapsed time is obtained from a table storage unit that stores the correspondence between the elapsed time and the mask time. A fault management program characterized by realizing a calculation function.

(付記45)
前記通信機能は、さらに、前記障害の障害原因を受信し、
前記初回発生時刻は、前記障害原因の前記障害が初回に発生した時刻である
ことを特徴とする付記44に記載の障害管理プログラム。
(Appendix 45)
The communication function further receives the cause of the failure,
45. The failure management program according to appendix 44, wherein the first occurrence time is a time at which the failure causing the failure is first generated.

10、20、30、40 障害処理装置
11 割込検出部
12 割込制御部
13 タイマー制御部
14 タイマー
25 テーブル記憶部
26 障害記憶部
37 通信部
50 監視対象
70、80、90 障害管理装置
71 障害記憶部
72 通信部
83 計算部
94 テーブル記憶部
10, 20, 30, 40 Fault processing device 11 Interrupt detection unit 12 Interrupt control unit 13 Timer control unit 14 Timer 25 Table storage unit 26 Fault storage unit 37 Communication unit 50 Monitoring target 70, 80, 90 Fault management device 71 Fault Storage unit 72 Communication unit 83 Calculation unit 94 Table storage unit

Claims (10)

障害の発生を示す障害割り込みと、タイマーにセットされた時間が経過したことを示すタイマー割り込みとを検出する割込検出部と、
前記障害割り込みを検出したとき、前記障害割り込みをマスクし、前記タイマー割り込みを検出したとき、前記障害割り込みのマスクを解除する割込制御部と、
前記障害割り込みを検出したとき、前記障害の初回発生時刻から今回の発生時刻までの経過時間に対応するマスク時間をタイマーにセットするタイマー制御部と
を備えることを特徴とする障害処理装置。
An interrupt detection unit for detecting a fault interrupt indicating the occurrence of a fault and a timer interrupt indicating that the time set in the timer has elapsed;
An interrupt control unit that masks the fault interrupt when detecting the fault interrupt, and cancels the mask of the fault interrupt when the timer interrupt is detected;
A failure processing apparatus comprising: a timer control unit that sets a mask time corresponding to an elapsed time from an initial occurrence time of the failure to a current occurrence time when the failure interrupt is detected.
前記タイマー制御部は、前記経過時間が長いほど前記マスク時間を長くする
ことを特徴とする請求項1に記載の障害処理装置。
The failure processing apparatus according to claim 1, wherein the timer control unit increases the mask time as the elapsed time is longer.
前記タイマー制御部は、前記経過時間と前記マスク時間との対応関係を記憶するテーブル記憶部の前記対応関係から、前記経過時間に対応する前記マスク時間を取得する
ことを特徴とする請求項1あるいは請求項2に記載の障害処理装置。
The said timer control part acquires the said mask time corresponding to the said elapsed time from the said correspondence of the table memory | storage part which memorize | stores the correspondence between the said elapsed time and the said mask time. The failure processing apparatus according to claim 2.
前記割込検出部は、前記初回発生時刻を障害記憶部に記憶させ、
前記タイマー制御部は、前記障害記憶部から取得した前記初回発生時刻と前記今回の発生時刻とから前記経過時間を計算する
ことを特徴とする請求項3に記載の障害処理装置。
The interrupt detection unit stores the first occurrence time in a failure storage unit,
The failure processing apparatus according to claim 3, wherein the timer control unit calculates the elapsed time from the first occurrence time acquired from the failure storage unit and the current occurrence time.
前記障害割り込みを検出したとき、前記今回の発生時刻を送信し、前記初回発生時刻を受信する通信部
を備え、
前記タイマー制御部は、前記初回発生時刻と前記今回の発生時刻とから前記経過時間を計算する
ことを特徴とする請求項3に記載の障害処理装置。
A communication unit for transmitting the current occurrence time and receiving the first occurrence time when detecting the failure interrupt;
The failure processing apparatus according to claim 3, wherein the timer control unit calculates the elapsed time from the first occurrence time and the current occurrence time.
障害の今回の発生時刻の受信に対して、前記障害の発生が初回でない場合には、前記障害の初回発生時刻を送信し、前記障害の発生が初回の場合には、前記初回発生時刻として前記今回の発生時刻を障害記憶部に記憶させ、前記障害の前記初回発生時刻を送信する通信部
を備えることを特徴とする障害管理装置。
In response to reception of the current occurrence time of the failure, if the occurrence of the failure is not the first time, the first occurrence time of the failure is transmitted, and if the occurrence of the failure is the first time, the first occurrence time is A failure management apparatus comprising: a communication unit that stores a current occurrence time in a failure storage unit and transmits the first occurrence time of the failure.
請求項5に記載の障害処理装置と、
請求項6に記載の障害管理装置と
を備え、
前記障害処理装置の前記通信部は、前記障害管理装置の前記通信部へ前記今回の発生時刻を送信し、前記障害管理装置の前記通信部から前記初回発生時刻を受信する
ことを特徴とする障害処理システム。
A fault handling apparatus according to claim 5;
The failure management device according to claim 6,
The failure is characterized in that the communication unit of the failure processing device transmits the current occurrence time to the communication unit of the failure management device and receives the first occurrence time from the communication unit of the failure management device. Processing system.
障害の発生を示す障害割り込みと、タイマーにセットされた時間が経過したことを示すタイマー割り込みとを検出し、前記障害割り込みを検出したとき、前記障害割り込みをマスクして前記障害の初回発生時刻から今回の発生時刻までの経過時間に対応するマスク時間をタイマーにセットし、前記タイマー割り込みを検出したとき、前記障害割り込みのマスクを解除する
ことを特徴とする障害処理方法。
A fault interrupt indicating the occurrence of a fault and a timer interrupt indicating that the time set in the timer has elapsed are detected. When the fault interrupt is detected, the fault interrupt is masked and the fault is first generated. A failure processing method, wherein a mask time corresponding to an elapsed time up to the current occurrence time is set in a timer, and the mask of the failure interrupt is canceled when the timer interrupt is detected.
障害の今回の発生時刻の受信に対して、前記障害の発生が初回でない場合には、前記障害の初回発生時刻を送信し、前記障害の発生が初回の場合には、前記初回発生時刻として前記今回の発生時刻を障害記憶部に記憶させ、前記障害の前記初回発生時刻を送信する
ことを特徴とする障害管理方法。
In response to reception of the current occurrence time of the failure, if the occurrence of the failure is not the first time, the first occurrence time of the failure is transmitted, and if the occurrence of the failure is the first time, the first occurrence time is A failure management method comprising storing a current occurrence time in a failure storage unit and transmitting the first occurrence time of the failure.
コンピュータに、
障害の発生を示す障害割り込みと、タイマーにセットされた時間が経過したことを示すタイマー割り込みとを検出する割込検出機能と、
前記障害割り込みを検出したとき、前記障害割り込みをマスクし、前記タイマー割り込みを検出したとき、前記障害割り込みのマスクを解除する割込制御機能と、
前記障害割り込みを検出したとき、前記障害の初回発生時刻から今回の発生時刻までの経過時間に対応するマスク時間をタイマーにセットするタイマー制御機能と
を実現させることを特徴とする障害処理プログラム。
On the computer,
An interrupt detection function for detecting a fault interrupt indicating the occurrence of a fault and a timer interrupt indicating that the time set in the timer has elapsed;
An interrupt control function for masking the fault interrupt when detecting the fault interrupt, and canceling the mask of the fault interrupt when detecting the timer interrupt;
And a timer control function for setting, in a timer, a mask time corresponding to an elapsed time from the first occurrence time of the failure to the current occurrence time when the failure interrupt is detected.
JP2015165608A 2015-08-25 2015-08-25 Fault processing apparatus, system, fault management apparatus, method and program Active JP6567923B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015165608A JP6567923B2 (en) 2015-08-25 2015-08-25 Fault processing apparatus, system, fault management apparatus, method and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015165608A JP6567923B2 (en) 2015-08-25 2015-08-25 Fault processing apparatus, system, fault management apparatus, method and program

Publications (2)

Publication Number Publication Date
JP2017045168A true JP2017045168A (en) 2017-03-02
JP6567923B2 JP6567923B2 (en) 2019-08-28

Family

ID=58211468

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015165608A Active JP6567923B2 (en) 2015-08-25 2015-08-25 Fault processing apparatus, system, fault management apparatus, method and program

Country Status (1)

Country Link
JP (1) JP6567923B2 (en)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01158849A (en) * 1987-12-15 1989-06-21 Nec Corp Line fault processing system for packet switchboard
JPH03265950A (en) * 1990-03-15 1991-11-27 Nec Corp 1-bit error processing system for control storage
JPH03290741A (en) * 1990-04-06 1991-12-20 Fujitsu Ltd Error logging method
JPH10271113A (en) * 1997-03-21 1998-10-09 Mitsubishi Electric Corp Fault tracing method and fault tracing device for realizing the method
JP2010170462A (en) * 2009-01-26 2010-08-05 Nec Computertechno Ltd Fault handling device and method
JP2011043957A (en) * 2009-08-20 2011-03-03 Renesas Electronics Corp Fault monitoring circuit, semiconductor integrated circuit, and faulty part locating method

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01158849A (en) * 1987-12-15 1989-06-21 Nec Corp Line fault processing system for packet switchboard
JPH03265950A (en) * 1990-03-15 1991-11-27 Nec Corp 1-bit error processing system for control storage
JPH03290741A (en) * 1990-04-06 1991-12-20 Fujitsu Ltd Error logging method
JPH10271113A (en) * 1997-03-21 1998-10-09 Mitsubishi Electric Corp Fault tracing method and fault tracing device for realizing the method
JP2010170462A (en) * 2009-01-26 2010-08-05 Nec Computertechno Ltd Fault handling device and method
JP2011043957A (en) * 2009-08-20 2011-03-03 Renesas Electronics Corp Fault monitoring circuit, semiconductor integrated circuit, and faulty part locating method

Also Published As

Publication number Publication date
JP6567923B2 (en) 2019-08-28

Similar Documents

Publication Publication Date Title
US8589763B2 (en) Cache memory system
US8862944B2 (en) Isolation of faulty links in a transmission medium
JP2012113466A (en) Memory controller and information processing system
US20170185055A1 (en) Process control system
US10019301B2 (en) Information processing device, and control method and storage medium
JP2018010421A (en) Computer system, computer, and data filtering method
US20190141059A1 (en) Intrusion detection apparatus and computer readable medium
JP5451087B2 (en) Fault processing apparatus and method
US9069629B2 (en) Bidirectional counting of dual outcome events
JP6567923B2 (en) Fault processing apparatus, system, fault management apparatus, method and program
KR20150007913A (en) Failure Prediction Device
JP2007249663A (en) Transaction device, delay failure detection device and method, and program
CN111209129A (en) Memory optimization method and device based on AMD platform
CN111221775A (en) Processor, cache processing method and electronic equipment
CN112804115B (en) Method, device and equipment for detecting abnormity of virtual network function
JP4985720B2 (en) Log management system, log management method, log collection unit, and program
US10837990B2 (en) Semiconductor device
US11138512B2 (en) Management of building energy systems through quantification of reliability
JP2010198460A (en) Plant monitoring system and plant monitoring method
JP2013114311A (en) Memory controller, memory diagnostic method, and processor system
WO2017163302A1 (en) Control apparatus
JP2013186524A (en) Data processing system, data processing method, data processing program, and transaction measuring circuit
JP2016066273A (en) Controller
CN104268029A (en) Nesting exception processing circuit and method for embedded PowerPC (performance optimization with enhanced RISC (reduced instruction set computer)-performance computing) processor
JP2014048785A (en) Failure trace device, failure trace system, failure trace method, and failure trace program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180713

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190315

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190402

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190530

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190709

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190801

R150 Certificate of patent or registration of utility model

Ref document number: 6567923

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150