JP2017045168A - Fault processing device, system, fault management device, method and program - Google Patents
Fault processing device, system, fault management device, method and program Download PDFInfo
- Publication number
- JP2017045168A JP2017045168A JP2015165608A JP2015165608A JP2017045168A JP 2017045168 A JP2017045168 A JP 2017045168A JP 2015165608 A JP2015165608 A JP 2015165608A JP 2015165608 A JP2015165608 A JP 2015165608A JP 2017045168 A JP2017045168 A JP 2017045168A
- Authority
- JP
- Japan
- Prior art keywords
- failure
- time
- interrupt
- fault
- occurrence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
Description
本発明は、演算処理装置の障害処理を行う、障害処理装置、システム、障害管理装置、方法およびプログラムに関する。 The present invention relates to a failure processing device, a system, a failure management device, a method, and a program for performing failure processing of an arithmetic processing device.
演算処理装置では、訂正可能なエラーの発生等、演算処理を継続して実行可能である程度の軽障害を監視する。この軽障害の監視により、演算処理を継続できないような重障害が発生する前に予防的に部品を交換することや、収集した障害情報の統計データから障害の傾向や発生メカニズムを分析することを可能にしている。 The arithmetic processing device monitors a certain minor fault that can be continuously executed for arithmetic processing, such as occurrence of a correctable error. By monitoring this minor failure, parts can be replaced proactively before a major failure occurs that prevents continued processing, and failure trends and occurrence mechanisms can be analyzed from the collected failure information statistical data. It is possible.
軽障害の監視には、軽障害の発生を検知して、障害の詳細情報を収集したり、障害管理装置へ障害情報を送信したりすることが考えられる。これらの障害処理を、軽障害が発生する都度行うと、軽障害が頻繁に発生した場合に、障害処理の処理量が多くなり、他の演算処理に影響を及ぼす可能性がある。また、複数の演算処理装置の障害情報を演算管理装置で集中管理する場合、演算処理装置から障害管理装置への通信量が多くなる可能性がある。 For monitoring a minor fault, it is conceivable to detect the occurrence of a minor fault, collect detailed fault information, or send fault information to a fault management device. If these fault processes are performed each time a minor fault occurs, the processing amount of the fault process increases when minor faults occur frequently, which may affect other arithmetic processes. Further, when the failure information of a plurality of arithmetic processing devices is centrally managed by the arithmetic management device, the amount of communication from the arithmetic processing device to the failure management device may increase.
これに対し、たとえば、特許文献1に記載の方法では、一定の間隔であらかじめ定められた時間だけ通知ゲートを開き、通知ゲートが開いているときにだけ障害通知信号が割り込み発生回路に入力されるようにしている。これにより、障害が発生したことを通知する障害割り込みの発生が一定の間隔になるようにしている。このように、障害割り込みの発生を一定の間隔とすることで、障害が頻繁に発生した場合でも、障害処理の処理量や障害管理装置への通信量を低く抑えることが可能になる。 On the other hand, for example, in the method described in Patent Document 1, the notification gate is opened at a predetermined interval for a predetermined time, and the failure notification signal is input to the interrupt generation circuit only when the notification gate is open. I am doing so. As a result, the occurrence of a fault interrupt for notifying that a fault has occurred is set at regular intervals. As described above, by setting the occurrence of the failure interrupt at a constant interval, it is possible to reduce the processing amount of the failure processing and the communication amount to the failure management device even when the failure frequently occurs.
しかし、特許文献1のように障害割り込みの発生を一定間隔とすると、この間隔が長いとき、短時間で軽障害から重障害に発展した場合に、軽障害の情報収集回数が少なくなり、障害分析に十分な障害情報が得られない。逆に間隔を短くすると、障害処理の処理量や障害管理装置への通信量が増加してしまう。 However, if the occurrence of a fault interrupt is set at a fixed interval as in Patent Document 1, when this interval is long, the number of times of information collection of light faults will be reduced and the fault analysis will be reduced when a light fault progresses to a heavy fault in a short time. Insufficient failure information is available. Conversely, if the interval is shortened, the processing amount of fault processing and the communication amount to the fault management device increase.
本発明の目的は、障害分析に必要な障害情報を収集し、かつ、障害処理の処理量や通信量を抑制することを可能とする、障害処理装置、システム、障害管理装置、方法およびプログラムを提供することにある。 An object of the present invention is to provide a fault processing apparatus, system, fault management apparatus, method, and program capable of collecting fault information necessary for fault analysis and suppressing the processing amount and communication amount of fault processing. It is to provide.
上述の問題を解決するために、本発明の障害処理装置は、障害の発生を示す障害割り込みと、タイマーにセットされた時間が経過したことを示すタイマー割り込みとを検出する割込検出部と、前記障害割り込みを検出したとき、前記障害割り込みをマスクし、前記タイマー割り込みを検出したとき、前記障害割り込みのマスクを解除する割込制御部と、前記障害割り込みを検出したとき、前記障害の初回発生時刻から今回の発生時刻までの経過時間に対応するマスク時間をタイマーにセットするタイマー制御部とを備えることを特徴とする。 In order to solve the above-described problem, the failure processing apparatus of the present invention includes a failure interrupt that indicates the occurrence of a failure, and an interrupt detection unit that detects a timer interrupt that indicates that a time set in the timer has elapsed, When the fault interrupt is detected, the fault interrupt is masked, and when the timer interrupt is detected, an interrupt control unit for canceling the mask of the fault interrupt, and when the fault interrupt is detected, the first occurrence of the fault A timer control unit that sets a mask time corresponding to an elapsed time from the time to the current occurrence time in a timer.
また、本発明の障害管理装置は、障害の今回の発生時刻の受信に対して、前記障害の発生が初回でない場合には、前記障害の初回発生時刻を送信し、前記障害の発生が初回の場合には、前記初回発生時刻として前記今回の発生時刻を障害記憶部に記憶させ、前記障害の前記初回発生時刻を送信する通信部を備えることを特徴とする。 In addition, the failure management apparatus of the present invention transmits the first occurrence time of the failure when the occurrence of the failure is not the first time in response to reception of the current occurrence time of the failure, and the occurrence of the failure is the first time. In this case, the present invention includes a communication unit that stores the current occurrence time in the failure storage unit as the first occurrence time and transmits the first occurrence time of the failure.
また、本発明の障害処理方法は、障害の発生を示す障害割り込みと、タイマーにセットされた時間が経過したことを示すタイマー割り込みとを検出し、前記障害割り込みを検出したとき、前記障害割り込みをマスクして前記障害の初回発生時刻から今回の発生時刻までの経過時間に対応するマスク時間をタイマーにセットし、前記タイマー割り込みを検出したとき、前記障害割り込みのマスクを解除することを特徴とする。 The fault processing method of the present invention detects a fault interrupt indicating the occurrence of a fault and a timer interrupt indicating that the time set in the timer has elapsed, and when the fault interrupt is detected, the fault interrupt is detected. A mask time corresponding to an elapsed time from the first occurrence time of the failure to the current occurrence time is set in a timer, and the mask of the failure interrupt is canceled when the timer interrupt is detected. .
また、本発明の障害管理方法は、障害の今回の発生時刻の受信に対して、前記障害の発生が初回でない場合には、前記障害の初回発生時刻を送信し、前記障害の発生が初回の場合には、前記初回発生時刻として前記今回の発生時刻を障害記憶部に記憶させ、前記障害の前記初回発生時刻を送信することを特徴とする。 In addition, the failure management method of the present invention transmits the first occurrence time of the failure when the occurrence of the failure is not the first time in response to reception of the current occurrence time of the failure, and the occurrence of the failure is the first time. In this case, the current occurrence time is stored in a failure storage unit as the first occurrence time, and the first occurrence time of the failure is transmitted.
また、本発明の障害処理プログラムは、コンピュータに、障害の発生を示す障害割り込みと、タイマーにセットされた時間が経過したことを示すタイマー割り込みとを検出する割込検出機能と、前記障害割り込みを検出したとき、前記障害割り込みをマスクし、前記タイマー割り込みを検出したとき、前記障害割り込みのマスクを解除する割込制御機能と、前記障害割り込みを検出したとき、前記障害の初回発生時刻から今回の発生時刻までの経過時間に対応するマスク時間をタイマーにセットするタイマー制御機能とを実現させることを特徴とする。 In addition, the fault processing program of the present invention provides a computer with an interrupt detection function for detecting a fault interrupt indicating the occurrence of a fault and a timer interrupt indicating that a time set in the timer has elapsed, and the fault interrupt. When detected, the fault interrupt is masked, and when the timer interrupt is detected, the interrupt control function for canceling the mask of the fault interrupt, and when the fault interrupt is detected, the current interrupt time is detected from the first occurrence time of the fault. And a timer control function for setting a mask time corresponding to an elapsed time until the occurrence time in a timer.
本発明の障害処理装置、システム、障害管理装置、方法およびプログラムにより、障害分析に必要な障害情報を収集し、かつ、障害処理の処理量や通信量を抑制することが可能になる。 The fault processing apparatus, system, fault management apparatus, method, and program of the present invention can collect fault information necessary for fault analysis and suppress the processing amount and communication amount of fault processing.
[第一の実施形態]
本発明の第一の実施の形態について説明する。
[First embodiment]
A first embodiment of the present invention will be described.
図1に本実施形態の障害処理装置10の構成例を示す。
FIG. 1 shows a configuration example of the
障害処理装置10は、割込検出部11、割込制御部12およびタイマー制御部13により構成される。
The
割込検出部11は、障害の発生を示す障害割り込みと、タイマーにセットされた時間が経過したことを示すタイマー割り込みを検出する部分である。
The
割込制御部12は、障害割り込みを検出したとき、障害割り込みをマスクし、タイマー割り込みを検出したとき、障害割り込みのマスクを解除する部分である。
The
タイマー制御部13は、障害割り込みを検出したとき、障害の初回発生時刻から今回の発生時刻までの経過時間に対応するマスク時間をタイマーにセットする部分である。
The
このように障害処理装置10を構成することによって、障害分析に必要な障害情報を収集し、かつ、障害処理の処理量や通信量を抑制することが可能になる。
By configuring the
次に、図2に本実施形態の障害処理装置10の動作の例を示す。
Next, FIG. 2 shows an example of the operation of the
まず、障害処理装置10の割込検出部11は、障害割り込みとタイマー割り込みを検出する。
First, the
そして、割込検出部11が障害割り込みを検出したとき(ステップS101)、割込制御部12は障害割り込みをマスクする(ステップS102)。また、タイマー制御部13は、障害の初回発生時刻から今回の発生時刻までの経過時間に対応するマスク時間をタイマーにセットする(ステップS103)。
When the
割込検出部11がタイマー割り込みを検出したとき(ステップS104)、割込制御部12は障害割り込みのマスクを解除する(ステップS105)。
When the
このように障害処理装置10を動作させることによって、障害分析に必要な障害情報を収集し、かつ、障害処理の処理量や通信量を抑制することが可能になる。
By operating the
以上で説明したように、本発明の第一の実施形態では、障害の初回発生時刻から今回の発生時刻までの経過時間に対応するマスク時間をタイマーにセットする。これにより、障害割り込みの発生間隔が障害の初回発生時刻からの経過時間により変更可能となる。マスク時間を経過時間により変更することで、より多くの障害情報を収集したい経過時間はマスク時間を短くし、処理量や通信量を抑えたい経過時間はマスク時間を長くすることが可能になる。そのため、障害分析に必要な障害情報を収集し、かつ、障害処理の処理量や通信量を抑制することが可能になる。 As described above, in the first embodiment of the present invention, the mask time corresponding to the elapsed time from the first occurrence time of the failure to the current occurrence time is set in the timer. As a result, the occurrence interval of the failure interrupt can be changed according to the elapsed time from the first occurrence time of the failure. By changing the mask time according to the elapsed time, it is possible to shorten the mask time for the elapsed time for which more fault information is to be collected, and to increase the mask time for the elapsed time for suppressing the processing amount and the communication amount. For this reason, it is possible to collect failure information necessary for failure analysis, and to suppress the amount of processing and the amount of communication for failure processing.
[第二の実施形態]
次に、本発明の第二の実施の形態について説明する。
[Second Embodiment]
Next, a second embodiment of the present invention will be described.
本実施形態は、障害処理装置内に、障害の初回発生時刻と、初回発生時刻から今回の発生時刻までの経過時間とマスク時間との対応関係とを記憶させる形態である。 In the present embodiment, the failure first-time occurrence time and the correspondence between the elapsed time from the first occurrence time to the current occurrence time and the mask time are stored in the failure processing apparatus.
図3に本実施形態の障害処理装置20の構成例を示す。障害処理装置20は、割込検出部11、割込制御部12、タイマー制御部13、テーブル記憶部25および障害記憶部26により構成される。障害処理装置10に対して、テーブル記憶部25と障害記憶部26を追加している。
FIG. 3 shows a configuration example of the
割込検出部11は、監視対象50からの障害割り込みとタイマー14からのタイマー割り込みを検出する部分である。監視対象50は一つ以上存在可能であるため、割込検出部11では、どの監視対象50からの障害割り込みかを判別する。
The interrupt
割込制御部12は、障害割り込みを検出したとき、障害割り込みを出力した監視対象50の障害割り込みをマスクし、タイマー14からのタイマー割り込みを検出したとき、障害割り込みのマスクを解除する部分である。
The interrupt
タイマー制御部13は、障害割り込みを検出したとき、障害の初回発生時刻から今回の発生時刻までの経過時間に対応するマスク時間をタイマーにセットする部分である。
The
テーブル記憶部25は、障害の初回発生時刻から今回の発生時刻までの経過時間と、障害割り込みをマスクするマスク時間との対応関係を記憶する部分である。
The
障害記憶部26は、障害割り込みの初回発生時刻やその他の障害情報を記憶する部分である。
The
図4に本実施形態の障害処理装置20を演算処理装置100に適用した場合の構成例を示す。演算処理装置100は、DGP(Diagnostic Processor:診断プロセッサ)101、演算部102および主記憶部103により構成される。演算部102および主記憶部103は演算処理装置100に一つ以上存在する。
FIG. 4 shows a configuration example when the
DGP101は図3の障害処理装置10に該当する。また、演算部102および主記憶部103は監視対象50に該当する。DGP101では、監視対象である演算部102および主記憶部103からの軽障害割り込みを受け取る。また、監視対象である演算部102および主記憶部103に対して軽障害割り込みのマスク制御を行う。
The
このように障害処理装置20を構成することによって、障害分析に必要な障害情報を収集し、かつ、障害処理の処理量や通信量を抑制することが可能になる。
By configuring the
次に、監視対象50の動作の例として、主記憶部103の動作の例について説明する。監視対象50は、障害を検知して障害割り込みを障害処理装置20へ出力する。以下の主記憶部103の動作例は、この障害割り込みの出力方法の例であり、監視対象50の障害検知方法や割り込み出力方法等を限定するものではない。
Next, an example of the operation of the main storage unit 103 will be described as an example of the operation of the
図5および図6に主記憶部103の動作の例を示す。図5(A)は書き込み時の動作の例、図5(B)は読み出し時の動作の例、図6は割り込み出力動作の例である。 5 and 6 show an example of the operation of the main storage unit 103. FIG. 5A shows an example of the operation at the time of writing, FIG. 5B shows an example of the operation at the time of reading, and FIG. 6 shows an example of the interrupt output operation.
演算部102からの書き込み時、まず、主記憶部103は書き込みデータに対してチェックビットを生成する(図5のステップS201)。そして、書き込みデータとチェックビットをメモリに書き込む(ステップS202)。 When writing from the calculation unit 102, first, the main storage unit 103 generates a check bit for the write data (step S201 in FIG. 5). Then, write data and check bits are written into the memory (step S202).
演算部102からの読み出し時は、まず、主記憶部103はメモリからチェックビットを含むデータを読み出す(ステップS203)。そして、読み出したデータとチェックビットからシンドロームを生成し、誤り検出を行う(ステップS204)。誤りがある場合(ステップS205)、データの誤りを訂正する(ステップS206)。そして、障害の詳細情報、たとえば、障害の発生時刻や障害の原因(読み出しデータに誤りがあったこと、等)等を記憶する(ステップS207)。 When reading from the computing unit 102, first, the main storage unit 103 reads data including check bits from the memory (step S203). Then, a syndrome is generated from the read data and check bits, and error detection is performed (step S204). If there is an error (step S205), the data error is corrected (step S206). Then, detailed information on the failure, for example, the occurrence time of the failure, the cause of the failure (the read data has an error, etc.), etc. are stored (step S207).
次に、誤りが軽障害か重障害かを判断する(ステップS208)。たとえば、誤り訂正可能なデータ誤りの場合には軽障害、誤り訂正不能な場合には重障害とする。軽障害のときは軽障害フラグをセットし(ステップS209)、重障害のときは重障害フラグをセットする(ステップS210)。 Next, it is determined whether the error is minor or serious (step S208). For example, a light failure is assumed when the data error can be corrected, and a serious failure is found when the error cannot be corrected. If the fault is minor, a minor fault flag is set (step S209). If the fault is serious, the major fault flag is set (step S210).
図6の障害割り込み出力動作の例は、軽障害の場合と重障害の場合で共通である。軽障害(重障害)フラグがセットされたとき、主記憶部103は、軽障害(重障害)割り込みのマスクが解除されている場合(図6のステップS301)、軽障害(重障害)割り込みを出力する(ステップS302)。 The example of the fault interrupt output operation in FIG. 6 is common to the case of a minor fault and the case of a major fault. When the light failure (serious failure) flag is set, the main storage unit 103 issues a light failure (serious failure) interrupt when the mask of the light failure (serious failure) interrupt is released (step S301 in FIG. 6). Output (step S302).
また、軽障害(重障害)割り込みのマスクが解除されたとき、軽障害(重障害)フラグがセットされていれば(ステップS303)、軽障害(重障害)割り込みを出力する(ステップS304)。 When the light failure (serious failure) interrupt mask is released, if the light failure (serious failure) flag is set (step S303), a light failure (serious failure) interrupt is output (step S304).
以上で主記憶部103の動作の例について説明したが、監視対象50が出力する障害割り込みは、誤り検出によるもの以外の障害についても可能である。また、監視対象50は主記憶部103に限られず、障害処理装置20内の各部や、障害処理装置20以外の装置を監視対象とすることも可能である。
Although the example of the operation of the main storage unit 103 has been described above, the failure interrupt output from the
次に、図7を用いて本実施形態の障害処理装置20の動作の例について説明する。
Next, an example of the operation of the
本実施形態では、割込検出部11において、監視対象50の障害割り込みとタイマー割り込みを検出する。たとえば、前述の主記憶部103が監視対象50の場合には、軽障害割り込みについては割り込み間隔を制御し、重障害割り込みについては発生の都度割り込みを出力することが考えられる。この場合には、軽障害割り込みが図7の障害割り込みに該当する。
In the present embodiment, the interrupt
まず、割込検出部11は、障害割り込みとタイマー割り込みを検出する。そして、割込検出部11が障害割り込みを検出した場合(ステップS401)、割込制御部12は障害割り込みをマスクする(ステップS402)。より具体的には、障害割り込みを出力した監視対象50に対して、障害割り込みの出力を禁止する設定(マスク)を行う。
First, the interrupt
複数の監視対象50があるとき、割込検出部11は、障害割り込みの検出時に、検出した障害割り込みがどの監視対象50からの障害割り込みなのかを特定しておく。各監視対象50からの障害割り込みが独立した割り込み入力端子に入力されている場合には、どの入力端子に割り込みが入力されたかによって割り込みを出力した監視対象50を特定可能である。複数の監視対象50の障害割り込みが一つの入力端子に入力されている場合には、たとえば、監視対象50の障害フラグを読み出し、フラグがセットされていればその割り込みが出力されていると判断する、等の方法で特定可能である。前述の主記憶部103の例の場合、軽(重)障害フラグを読み出し、フラグがセットされていれば軽(重)障害が発生していると判断することが可能である。なお、マスクが設定されている監視対象50の障害割り込みについては、検出対象外とする。
When there are a plurality of
次に、割込検出部11は、障害割り込みを出力した監視対象50から、障害分析等に必要となる障害の詳細情報を取得する(ステップS403)。たとえば、主記憶部103がステップS207で記憶した詳細情報を読み取る。そして、取得した詳細情報を障害記憶部26に記憶する。また、主記憶部103の軽障害フラグと記憶した詳細情報をクリアする。
Next, the interrupt
本実施形態では、少なくとも、各監視対象50について、障害が初めて発生した時刻を障害記憶部26に記憶する。発生時刻は、監視対象50から取得しても良いし、割込検出部11が障害割り込みを検出した時刻としても良い。また、初回発生時刻は、さらに、それぞれの障害の原因(訂正可能誤りなど)に対して記憶するようにしても良い。
In the present embodiment, at least for each
次に、タイマー制御部13は、障害割り込みを出力した監視対象50について、障害の初回発生時刻を障害記憶部26から取得する(ステップS404)。初回発生時刻を各障害原因に対して記憶している場合には、今回の障害内容について、初回発生時刻を取得する。
Next, the
そして、タイマー制御部13は、初回発生時刻から今回の障害の発生時刻までの経過時間を計算する(ステップS405)。今回の障害が初めての場合には、経過時間は0とする。
Then, the
次に、タイマー制御部13は、経過時間に対応する、障害割り込みをマスクするマスク時間をテーブル記憶部25から取得する。テーブル記憶部25には経過時間に対応するマスク時間を記憶しておく。
Next, the
図8に、経過時間とマスク時間との対応関係の例を示す。この例では、障害の初回発生時刻からの経過時間が長くなるほど、マスク時間を長くする設定としている。 FIG. 8 shows an example of the correspondence relationship between the elapsed time and the mask time. In this example, the mask time is set longer as the elapsed time from the first occurrence time of the failure becomes longer.
図9に、経過時間とマスク時間の対応関係が図8の場合の、障害割り込みの発生間隔を示す。初回発生時刻からの経過時間が長くなるほどマスク時間を長くすることによって、障害分析に重要な障害発生初期については短い間隔で障害情報を取得し、時間の経過に伴い、障害情報取得の間隔を長くして障害処理負荷を低減することが可能になる。 FIG. 9 shows the occurrence intervals of fault interrupts when the correspondence between the elapsed time and the mask time is that shown in FIG. By increasing the mask time as the elapsed time from the first occurrence time becomes longer, failure information is acquired at a short interval in the early stage of failure occurrence, which is important for failure analysis, and the failure information acquisition interval is increased with time. Thus, it is possible to reduce the fault handling load.
そして、タイマー制御部13は、テーブル記憶部25から取得したマスク時間をタイマー14にセットする(ステップS406)。タイマーはセットされたマスク時間が経過した時、割込検出部11へタイマー割り込みを出力する。
Then, the
割込検出部11がタイマー割り込みを検出すると(ステップS407)、割込制御部12は、タイマー割り込みに対応する監視対象50の障害割り込みマスクを解除する(ステップS408)。
When the interrupt
このように障害処理装置20を動作させることによって、障害分析に必要な障害情報を収集し、かつ、障害処理の処理量や通信量を抑制することが可能になる。
By operating the
以上で説明したように、本発明の第二の実施形態では、第一の実施形態と同様に、障害の初回発生時刻から今回の発生時刻までの経過時間に対応するマスク時間をタイマーにセットする。これにより、障害割り込みの発生間隔が障害の初回発生時刻からの経過時間により変更可能となる。マスク時間を経過時間により変更することで、より多くの障害情報を収集したい経過時間はマスク時間を短くし、処理量や通信量を抑えたい経過時間はマスク時間を長くすることが可能になる。そのため、障害分析に必要な障害情報を収集し、かつ、障害処理の処理量や通信量を抑制することが可能になる。 As described above, in the second embodiment of the present invention, as in the first embodiment, the mask time corresponding to the elapsed time from the first occurrence time of the failure to the current occurrence time is set in the timer. . As a result, the occurrence interval of the failure interrupt can be changed according to the elapsed time from the first occurrence time of the failure. By changing the mask time according to the elapsed time, it is possible to shorten the mask time for the elapsed time for which more fault information is to be collected, and to increase the mask time for the elapsed time for suppressing the processing amount and the communication amount. For this reason, it is possible to collect failure information necessary for failure analysis, and to suppress the amount of processing and the amount of communication for failure processing.
また、経過時間が長いほどマスク時間を長くすることによって、障害分析に重要な障害発生初期については短い間隔で障害情報を取得し、時間の経過に伴い、障害情報取得の間隔を長くして障害処理負荷を低減することが可能になる。 In addition, the longer the elapsed time, the longer the mask time, so that failure information is acquired at short intervals in the early stage of failure occurrence, which is important for failure analysis, and the failure information acquisition interval increases with time. It becomes possible to reduce processing load.
[第三の実施形態]
次に、本発明の第三の実施の形態について説明する。
[Third embodiment]
Next, a third embodiment of the present invention will be described.
本実施形態では、障害の初回発生時刻を障害管理装置で管理する場合の例について説明する。 In this embodiment, an example in which the failure occurrence time is managed by the failure management apparatus will be described.
図10に本実施形態の障害処理装置30の構成例を示す。障害処理装置20に対し、障害記憶部26を削除し、通信部37を追加している。
FIG. 10 shows a configuration example of the
通信部37は、障害管理装置70と通信を行う部分である。障害の詳細情報を障害管理装置70へ送信し、障害の初回発生時刻あるいは経過時間を障害管理装置70から受信する。詳細情報としては、すくなくとも、障害が発生した監視対象50を特定する情報と、障害の発生時刻を送信する。また、障害の原因や、障害の分析に必要となる情報を送信する。
The
タイマー制御部13では、障害管理装置70から初回発生時刻を受信した場合には、初回発生時刻と今回の発生時刻とから経過時間を計算する。
When receiving the first occurrence time from the
図11に、本実施形態の障害処理装置30を演算処理装置に適用した場合の構成例を示す。演算処理装置100A、100Xの構成例は、図4の演算処理装置100と同様である。DGP101は障害処理装置30に該当する。また、演算部102および主記憶部103は監視対象50に該当する。
FIG. 11 shows a configuration example when the
SVP(Service Processor)200は障害管理装置70に該当する。SVP200では、一つ以上のDGP101からの障害情報をまとめて管理する。
The SVP (Service Processor) 200 corresponds to the
図12に障害管理装置70の構成例を示す。障害管理装置70は障害記憶部71と通信部72から構成される。通信部72は障害処理装置30と通信を行う部分である。障害処理装置30から障害の詳細情報や発生時刻を受信し、障害記憶部71に記憶する。また、障害の初回発生時刻を障害処理装置30へ送信する。
FIG. 12 shows a configuration example of the
障害管理装置は、図13の障害管理装置80のように構成することも可能である。図12の障害管理装置70に対して、計算部83を追加している。計算部83は、障害の初回発生時刻から今回の障害の発生時刻までの経過時間を計算する部分である。
The failure management apparatus can be configured as the
このように障害処理装置30および障害管理装置70(80)を構成することによって、障害分析に必要な障害情報を収集し、かつ、障害処理の処理量や通信量を抑制することが可能になる。
By configuring the
次に、図14から図16を用いて、本実施形態の障害処理装置30および障害管理装置70(80)の動作例について説明する。
Next, operation examples of the
まず、割込検出部11は障害割り込みを検出し(図14のステップS501)、障害割り込みを出力した監視対象50の障害割り込みをマスクする(ステップS502)。また、監視対象50から障害の詳細情報を取得する(ステップS503)。
First, the interrupt
次に、通信部37は障害の詳細情報と発生時刻を障害管理装置70(80)に送信する。障害管理装置70(80)は、障害の発生時刻を受信し(図15のステップS601、図16のステップS701)、障害の発生が初回のときは発生時刻を記憶する。また、障害管理装置が障害管理装置70の場合、障害管理装置70は、障害記憶部71から障害の初回発生時刻を取得し、障害処理装置30へ送信する(ステップS602)。障害管理装置が障害管理装置80の場合には、障害管理装置80の計算部83が、障害の初回発生時刻から今回の障害の発生時刻までの経過時間を計算し(ステップS702)、経過時間を障害処理装置30へ送信する(ステップS703)。そして、通信部37は、障害管理装置(70または80)から初回発生時刻または経過時間を取得する。(ステップS504)
次に、タイマー制御部13は、経過時間に対応するマスク時間をテーブル記憶部25より取得し、タイマー14へセットする(ステップS505)。障害管理装置70から初回発生時刻を受信した場合には、タイマー制御部13で経過時間を計算する。
Next, the
Next, the
タイマー14は、マスク時間が経過した時、タイマー割り込みを割込検出部11へ出力し、割込検出部11ではタイマー割り込みを検出する(ステップS506)。
When the mask time has elapsed, the
そして、割込制御部12は障害割り込みのマスクを解除する(ステップS507)。
Then, the interrupt
このように障害処理装置30および障害管理装置70(80)を動作させることによって、障害分析に必要な障害情報を収集し、かつ、障害処理の処理量や通信量を抑制することが可能になる。
By operating the
以上で説明したように、本発明の第三の実施形態では、第一、第二の実施形態と同様に、障害の初回発生時刻から今回の発生時刻までの経過時間に対応するマスク時間をタイマーにセットする。これにより、障害割り込みの発生間隔が障害の初回発生時刻からの経過時間により変更可能となる。マスク時間を経過時間により変更することで、より多くの障害情報を収集したい経過時間はマスク時間を短くし、処理量や通信量を抑えたい経過時間はマスク時間を長くすることが可能になる。そのため、障害分析に必要な障害情報を収集し、かつ、障害処理の処理量や通信量を抑制することが可能になる。 As described above, in the third embodiment of the present invention, as in the first and second embodiments, the mask time corresponding to the elapsed time from the first occurrence time of the failure to the current occurrence time is set to the timer. Set to. As a result, the occurrence interval of the failure interrupt can be changed according to the elapsed time from the first occurrence time of the failure. By changing the mask time according to the elapsed time, it is possible to shorten the mask time for the elapsed time for which more fault information is to be collected, and to increase the mask time for the elapsed time for suppressing the processing amount and the communication amount. For this reason, it is possible to collect failure information necessary for failure analysis, and to suppress the amount of processing and the amount of communication for failure processing.
また、経過時間が長いほどマスク時間を長くすることによって、障害分析に重要な障害発生初期については短い間隔で障害情報を取得し、時間の経過に伴い、障害情報取得の間隔を長くして障害処理負荷を低減することが可能になる。 In addition, the longer the elapsed time, the longer the mask time, so that failure information is acquired at short intervals in the early stage of failure occurrence, which is important for failure analysis, and the failure information acquisition interval increases with time. It becomes possible to reduce processing load.
さらに、本実施形態では、障害情報の管理を障害管理装置で行うため、障害処理装置への障害情報の記憶が不要となり、障害処理装置を小さくすることが可能になる。 Furthermore, in the present embodiment, since the failure information is managed by the failure management device, it is not necessary to store the failure information in the failure processing device, and the failure processing device can be made smaller.
[第四の実施形態]
次に、本発明の第四の実施の形態について説明する。
[Fourth embodiment]
Next, a fourth embodiment of the present invention will be described.
本実施形態では、障害の初回発生時刻を障害管理装置で管理し、障害の初回発生時刻からの経過時間とマスク時間との対応関係を障害管理装置に記憶させる場合の例について説明する。 In the present embodiment, an example will be described in which the failure management device manages the first occurrence time of a failure and stores the correspondence between the elapsed time from the failure first occurrence time and the mask time in the failure management device.
図17に本実施形態の障害処理装置40の構成例を示す。障害処理装置30からテーブル記憶部25を削除している。通信部37では、障害の今回の発生時刻を障害管理装置90へ送信し、障害管理装置90からマスク時間を取得する。タイマー制御部13では、障害管理装置90から受信したマスク時間をタイマーにセットする。
FIG. 17 shows a configuration example of the
また、図18に本実施形態の障害管理装置90の構成例を示す。障害管理装置80にテーブル記憶部94を追加している。テーブル記憶部94は、障害の初回発生時刻からの経過時間とマスク時間との対応関係を記憶する部分である。なお、この対応関係は、監視対象50ごとに異なるものとすることが可能である。
FIG. 18 shows a configuration example of the
計算部83では障害の初回発生時刻から今回の発生時刻までの経過時間を計算し、経過時間に対応するマスク時間をテーブル記憶部94から取得する。通信部72はマスク時間を障害管理装置90へ送信する。
The
このように障害処理装置40および障害管理装置90を構成することによって、障害分析に必要な障害情報を収集し、かつ、障害処理の処理量や通信量を抑制することが可能になる。
By configuring the
次に、図19および図20を用いて、本実施形態の障害処理装置40および障害管理装置90の動作例について説明する。
Next, operation examples of the
まず、割込検出部11は障害割り込みを検出し(ステップS801)、障害割り込みを出力した監視対象50の障害割り込みをマスクする(ステップS802)。また、監視対象50から障害の詳細情報を取得する(ステップS803)。
First, the interrupt
次に、通信部37は障害の発生時刻を障害管理装置90に送信する。障害管理装置90では、障害の発生時刻を受信し(ステップS901)、障害の発生が初回の場合には、障害記憶部71に初回発生時刻を記憶させる。そして、障害記憶部71から初回発生時刻を取得し、初回発生時刻から今回の発生時刻までの経過時間を計算する(ステップS902)。また、経過時間に対応するマスク時間をテーブル記憶部94から取得する。通信部72ではマスク時間を障害処理装置40へ送信する(ステップS903)。そして、障害処理装置40の通信部37では、障害管理装置90からマスク時間を受信する(ステップS804)。
Next, the
次に、タイマー制御部13は、受信したマスク時間をタイマー14へセットする(ステップS805)。
Next, the
タイマー14は、マスク時間が経過した時、タイマー割り込みを割込検出部11へ出力し、割込検出部11ではタイマー割り込みを検出する(ステップS806)。
When the mask time has elapsed, the
そして、割込制御部12は障害割り込みのマスクを解除する(ステップS807)。
Then, the interrupt
このように障害処理装置40および障害管理装置90を動作させることによって、障害分析に必要な障害情報を収集し、かつ、障害処理の処理量や通信量を抑制することが可能になる。
By operating the
以上で説明したように、本発明の第四の実施形態では、第一から第三の実施形態と同様に、障害の初回発生時刻から今回の発生時刻までの経過時間に対応するマスク時間をタイマーにセットする。これにより、障害割り込みの発生間隔が障害の初回発生時刻からの経過時間により変更可能となる。マスク時間を経過時間により変更することで、より多くの障害情報を収集したい経過時間はマスク時間を短くし、処理量や通信量を抑えたい経過時間はマスク時間を長くすることが可能になる。そのため、障害分析に必要な障害情報を収集し、かつ、障害処理の処理量や通信量を抑制することが可能になる。 As described above, in the fourth embodiment of the present invention, as in the first to third embodiments, the mask time corresponding to the elapsed time from the first occurrence time of the failure to the current occurrence time is set to the timer. Set to. As a result, the occurrence interval of the failure interrupt can be changed according to the elapsed time from the first occurrence time of the failure. By changing the mask time according to the elapsed time, it is possible to shorten the mask time for the elapsed time for which more fault information is to be collected, and to increase the mask time for the elapsed time for suppressing the processing amount and the communication amount. For this reason, it is possible to collect failure information necessary for failure analysis, and to suppress the amount of processing and the amount of communication for failure processing.
また、経過時間が長いほどマスク時間を長くすることによって、障害分析に重要な障害発生初期については短い間隔で障害情報を取得し、時間の経過に伴い、障害情報取得の間隔を長くして障害処理負荷を低減することが可能になる。 In addition, the longer the elapsed time, the longer the mask time, so that failure information is acquired at short intervals in the early stage of failure occurrence, which is important for failure analysis, and the failure information acquisition interval increases with time. It becomes possible to reduce processing load.
さらに、本実施形態では、障害情報の管理を障害管理装置で行うため、障害処理装置への障害情報の記憶が不要となり、障害処理装置を小さくすることが可能になる。 Furthermore, in the present embodiment, since the failure information is managed by the failure management device, it is not necessary to store the failure information in the failure processing device, and the failure processing device can be made smaller.
なお、上述する各実施の形態は、本発明の好適な実施の形態であり、本発明の要旨を逸脱しない範囲内において種々変更実施が可能である。 Each of the above-described embodiments is a preferred embodiment of the present invention, and various modifications can be made without departing from the scope of the present invention.
上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。 A part or all of the above-described embodiment can be described as in the following supplementary notes, but is not limited thereto.
(付記1)
障害の発生を示す障害割り込みと、タイマーにセットされた時間が経過したことを示すタイマー割り込みとを検出する割込検出部と、
前記障害割り込みを検出したとき、前記障害割り込みをマスクし、前記タイマー割り込みを検出したとき、前記障害割り込みのマスクを解除する割込制御部と、
前記障害割り込みを検出したとき、前記障害の初回発生時刻から今回の発生時刻までの経過時間に対応するマスク時間をタイマーにセットするタイマー制御部と
を備えることを特徴とする障害処理装置。
(Appendix 1)
An interrupt detection unit for detecting a fault interrupt indicating the occurrence of a fault and a timer interrupt indicating that the time set in the timer has elapsed;
An interrupt control unit that masks the fault interrupt when detecting the fault interrupt, and cancels the mask of the fault interrupt when the timer interrupt is detected;
A failure processing apparatus comprising: a timer control unit that sets a mask time corresponding to an elapsed time from an initial occurrence time of the failure to a current occurrence time when the failure interrupt is detected.
(付記2)
前記タイマー制御部は、前記経過時間が長いほど前記マスク時間を長くする
ことを特徴とする付記1に記載の障害処理装置。
(Appendix 2)
The failure processing apparatus according to appendix 1, wherein the timer control unit increases the mask time as the elapsed time is longer.
(付記3)
前記割り込み検出部は、前記障害の障害原因を取得し、
前記初回発生時刻は、前記障害原因の前記障害が初回に発生した時刻である
ことを特徴とする付記1あるいは付記2に記載の障害処理装置。
(Appendix 3)
The interrupt detection unit acquires a cause of the failure,
The failure processing apparatus according to appendix 1 or appendix 2, wherein the first occurrence time is a time when the failure causing the failure is generated for the first time.
(付記4)
前記タイマー制御部は、前記経過時間と前記マスク時間との対応関係を記憶するテーブル記憶部の前記対応関係から、前記経過時間に対応する前記マスク時間を取得する
ことを特徴とする付記1から付記3のいずれかに記載の障害処理装置。
(Appendix 4)
The timer control unit acquires the mask time corresponding to the elapsed time from the correspondence relationship of the table storage unit that stores the correspondence relationship between the elapsed time and the mask time. 4. The failure processing apparatus according to any one of 3.
(付記5)
前記割込検出部は、前記障害の前記初回発生時刻を障害記憶部に記憶させ、
前記タイマー制御部は、前記障害記憶部から取得した前記初回発生時刻と前記今回の発生時刻とから前記経過時間を計算する
ことを特徴とする付記4に記載の障害処理装置。
(Appendix 5)
The interrupt detection unit stores the first occurrence time of the failure in a failure storage unit,
The failure processing apparatus according to appendix 4, wherein the timer control unit calculates the elapsed time from the first occurrence time acquired from the failure storage unit and the current occurrence time.
(付記6)
前記障害割り込みを検出したとき、前記今回の発生時刻を送信し、前記初回発生時刻を受信する通信部
を備え、
前記タイマー制御部は、前記初回発生時刻と前記今回の発生時刻とから前記経過時間を計算する
ことを特徴とする付記4に記載の障害処理装置。
(Appendix 6)
A communication unit for transmitting the current occurrence time and receiving the first occurrence time when detecting the failure interrupt;
The failure processing apparatus according to appendix 4, wherein the timer control unit calculates the elapsed time from the first occurrence time and the current occurrence time.
(付記7)
前記障害割り込みを検出したとき、前記今回の発生時刻を送信し、前記経過時間を受信する通信部
を備えることを特徴とする付記4に記載の障害処理装置。
(Appendix 7)
The fault processing apparatus according to appendix 4, further comprising: a communication unit that transmits the current occurrence time and receives the elapsed time when the fault interrupt is detected.
(付記8)
前記障害割り込みを検出したとき、前記今回の発生時刻を送信し、前記マスク時間を受信する通信部
を備えることを特徴とする付記1から付記3のいずれかに記載の障害処理装置。
(Appendix 8)
The failure processing apparatus according to any one of appendix 1 to appendix 3, further comprising: a communication unit that transmits the current occurrence time and receives the mask time when the failure interrupt is detected.
(付記9)
障害の今回の発生時刻の受信に対して、前記障害の発生が初回でない場合には、前記障害の初回発生時刻を送信し、前記障害の発生が初回の場合には、前記初回発生時刻として前記今回の発生時刻を障害記憶部に記憶させ、前記障害の前記初回発生時刻を送信する通信部
を備えることを特徴とする障害管理装置。
(Appendix 9)
In response to reception of the current occurrence time of the failure, if the occurrence of the failure is not the first time, the first occurrence time of the failure is transmitted, and if the occurrence of the failure is the first time, the first occurrence time is A failure management apparatus comprising: a communication unit that stores a current occurrence time in a failure storage unit and transmits the first occurrence time of the failure.
(付記10)
前記通信部は、さらに、前記障害の障害原因を受信し、
前記初回発生時刻は、前記障害原因の前記障害が初回に発生した時刻である
ことを特徴とする付記9に記載の障害管理装置。
(Appendix 10)
The communication unit further receives the cause of the failure,
The failure management apparatus according to appendix 9, wherein the first occurrence time is a time at which the failure causing the failure occurs for the first time.
(付記11)
障害の今回の発生時刻の受信に対して、前記障害の発生が初回でない場合には、前記障害の初回発生時刻から前記今回の発生時刻までの経過時間を送信し、前記障害の発生が初回の場合には、前記初回発生時刻として前記今回の発生時刻を障害記憶部に記憶させ、前記経過時間を送信する通信部と、
前記経過時間を計算する計算部と
を備えることを特徴とする障害管理装置。
(Appendix 11)
If the occurrence of the failure is not the first time in response to reception of the current occurrence time of the failure, an elapsed time from the first occurrence time of the failure to the current occurrence time is transmitted, and the occurrence of the failure is the first time. In this case, the current occurrence time is stored in the failure storage unit as the first occurrence time, and the communication unit transmits the elapsed time;
A failure management apparatus comprising: a calculation unit that calculates the elapsed time.
(付記12)
前記通信部は、さらに、前記障害の障害原因を受信し、
前記初回発生時刻は、前記障害原因の前記障害が初回に発生した時刻である
ことを特徴とする付記11に記載の障害管理装置。
(Appendix 12)
The communication unit further receives the cause of the failure,
The failure management apparatus according to
(付記13)
障害の今回の発生時刻の受信に対して、前記障害の発生が初回でない場合には、前記障害の発生を示す障害割り込みをマスクするマスク時間を送信し、前記障害の発生が初回の場合には、初回発生時刻として前記今回の発生時刻を障害記憶部に記憶させ、前記マスク時間を送信する通信部と、
前記障害の前記初回発生時刻から前記今回の発生時刻までの経過時間を計算し、前記経過時間と前記マスク時間との対応関係を記憶したテーブル記憶部から前記経過時間に対応する前記マスク時間を取得する計算部と
を備えることを特徴とする障害管理装置。
(Appendix 13)
When the occurrence of the failure is not the first time with respect to reception of the current occurrence time of the failure, a mask time for masking the failure interrupt indicating the occurrence of the failure is transmitted, and when the occurrence of the failure is the first time A communication unit that stores the current occurrence time in the failure storage unit as the first occurrence time, and transmits the mask time;
The elapsed time from the first occurrence time of the failure to the current occurrence time is calculated, and the mask time corresponding to the elapsed time is obtained from a table storage unit that stores the correspondence between the elapsed time and the mask time. A failure management device comprising:
(付記14)
前記通信部は、さらに、前記障害の障害原因を受信し、
前記初回発生時刻は、前記障害原因の前記障害が初回に発生した時刻である
ことを特徴とする付記13に記載の障害管理装置。
(Appendix 14)
The communication unit further receives the cause of the failure,
The failure management apparatus according to
(付記15)
付記6に記載の障害処理装置と、
付記9あるいは付記10に記載の障害管理装置と
を備え、
前記障害処理装置の前記通信部は、前記障害管理装置の前記通信部へ前記今回の発生時刻を送信し、前記障害管理装置の前記通信部から前記初回発生時刻を受信する
ことを特徴とする障害処理システム。
(Appendix 15)
The fault handling apparatus according to appendix 6,
The failure management device according to appendix 9 or
The failure is characterized in that the communication unit of the failure processing device transmits the current occurrence time to the communication unit of the failure management device and receives the first occurrence time from the communication unit of the failure management device. Processing system.
(付記16)
付記7に記載の障害処理装置と、
付記11あるいは付記12に記載の障害管理装置と
を備え、
前記障害処理装置の前記通信部は、前記障害管理装置の前記通信部へ前記今回の発生時刻を送信し、前記障害管理装置の前記通信部から前記経過時間を受信する
ことを特徴とする障害処理システム。
(Appendix 16)
The fault handling apparatus according to appendix 7,
The failure management device according to
The failure processing device, wherein the communication unit of the failure processing device transmits the current occurrence time to the communication unit of the failure management device and receives the elapsed time from the communication unit of the failure management device. system.
(付記17)
付記8に記載の障害処理装置と、
付記13あるいは付記14に記載の障害管理装置と
を備え、
前記障害処理装置の前記通信部は、前記障害管理装置の前記通信部へ前記今回の発生時刻を送信し、前記障害管理装置の前記通信部から前記マスク時間を受信する
ことを特徴とする障害処理システム。
(Appendix 17)
The failure handling apparatus according to appendix 8,
The failure management device according to
The failure processing device, wherein the communication unit of the failure processing device transmits the current occurrence time to the communication unit of the failure management device and receives the mask time from the communication unit of the failure management device. system.
(付記18)
障害の発生を示す障害割り込みと、タイマーにセットされた時間が経過したことを示すタイマー割り込みとを検出し、前記障害割り込みを検出したとき、前記障害割り込みをマスクして前記障害の初回発生時刻から今回の発生時刻までの経過時間に対応するマスク時間をタイマーにセットし、前記タイマー割り込みを検出したとき、前記障害割り込みのマスクを解除する
ことを特徴とする障害処理方法。
(Appendix 18)
A fault interrupt indicating the occurrence of a fault and a timer interrupt indicating that the time set in the timer has elapsed are detected. When the fault interrupt is detected, the fault interrupt is masked and the fault is first generated. A failure processing method, wherein a mask time corresponding to an elapsed time up to the current occurrence time is set in a timer, and the mask of the failure interrupt is canceled when the timer interrupt is detected.
(付記19)
前記経過時間が長いほど前記マスク時間を長くする
ことを特徴とする付記18に記載の障害処理方法。
(Appendix 19)
The failure processing method according to appendix 18, wherein the mask time is lengthened as the elapsed time is longer.
(付記20)
前記障害処理方法は、前記障害の障害原因を取得し、
前記初回発生時刻は、前記障害原因の前記障害が初回に発生した時刻である
ことを特徴とする付記18あるいは付記19に記載の障害処理方法。
(Appendix 20)
The failure processing method acquires a failure cause of the failure,
The failure processing method according to appendix 18 or appendix 19, wherein the first occurrence time is a time when the failure causing the failure is first generated.
(付記21)
前記経過時間と前記マスク時間との対応関係を記憶するテーブル記憶部に記憶された前記対応関係から、前記経過時間に対応する前記マスク時間を取得する
ことを特徴とする付記18から付記20のいずれかに記載の障害処理方法。
(Appendix 21)
Any one of appendix 18 to appendix 20, wherein the mask time corresponding to the elapsed time is acquired from the correspondence stored in a table storage unit that stores the correspondence between the elapsed time and the mask time. The fault processing method according to the above.
(付記22)
前記初回発生時刻を障害記憶部に記憶させ、前記障害記憶部から取得した前記初回発生時刻と前記今回の発生時刻とから前記経過時間を計算する
ことを特徴とする付記21に記載の障害処理方法。
(Appendix 22)
The failure processing method according to appendix 21, wherein the first occurrence time is stored in a failure storage unit, and the elapsed time is calculated from the first occurrence time acquired from the failure storage unit and the current occurrence time. .
(付記23)
前記障害割り込みを検出したとき、前記今回の発生時刻を送信し、前記初回発生時刻を受信し、前記初回発生時刻と前記今回の発生時刻とから前記経過時間を計算する
ことを特徴とする付記21に記載の障害処理方法。
(Appendix 23)
When the failure interrupt is detected, the current occurrence time is transmitted, the first occurrence time is received, and the elapsed time is calculated from the first occurrence time and the current occurrence time. The failure handling method described in 1.
(付記24)
前記障害割り込みを検出したとき、前記今回の発生時刻を送信し、前記経過時間を受信する
ことを特徴とする付記21に記載の障害処理方法。
(Appendix 24)
The failure processing method according to appendix 21, wherein when the failure interrupt is detected, the current occurrence time is transmitted and the elapsed time is received.
(付記25)
前記障害割り込みを検出したとき、前記今回の発生時刻を送信し、前記マスク時間を受信する
ことを特徴とする付記18から付記20のいずれかに記載の障害処理方法。
(Appendix 25)
The fault processing method according to any one of appendix 18 to appendix 20, wherein when the fault interrupt is detected, the current occurrence time is transmitted and the mask time is received.
(付記26)
障害の今回の発生時刻の受信に対して、前記障害の発生が初回でない場合には、前記障害の初回発生時刻を送信し、前記障害の発生が初回の場合には、前記初回発生時刻として前記今回の発生時刻を障害記憶部に記憶させ、前記障害の前記初回発生時刻を送信する
ことを特徴とする障害管理方法。
(Appendix 26)
In response to reception of the current occurrence time of the failure, if the occurrence of the failure is not the first time, the first occurrence time of the failure is transmitted, and if the occurrence of the failure is the first time, the first occurrence time is A failure management method comprising storing a current occurrence time in a failure storage unit and transmitting the first occurrence time of the failure.
(付記27)
前記障害管理方法は、前記障害の障害原因を受信し、
前記初回発生時刻は、前記障害原因の前記障害が初回に発生した時刻である
ことを特徴とする付記26に記載の障害管理方法。
(Appendix 27)
The failure management method receives a failure cause of the failure,
27. The failure management method according to
(付記28)
障害の今回の発生時刻の受信に対して、前記障害の発生が初回でない場合には、前記障害の初回発生時刻から前記今回の発生時刻までの経過時間を計算して前記経過時間を送信し、前記障害の発生が初回の場合には、前記初回発生時刻として前記今回の発生時刻を障害記憶部に記憶させ、前記経過時間を計算して前記経過時間を送信する
ことを特徴とする障害管理方法。
(Appendix 28)
For the reception of the current occurrence time of the failure, if the occurrence of the failure is not the first time, calculate the elapsed time from the first occurrence time of the failure to the current occurrence time, and transmit the elapsed time, When the failure occurs for the first time, the failure occurrence method is characterized in that the current occurrence time is stored in a failure storage unit as the first occurrence time, the elapsed time is calculated and the elapsed time is transmitted. .
(付記29)
前記障害管理方法は、前記障害の障害原因を受信し、
前記初回発生時刻は、前記障害原因の前記障害が初回に発生した時刻である
ことを特徴とする付記28に記載の障害管理方法。
(Appendix 29)
The failure management method receives a failure cause of the failure,
29. The failure management method according to appendix 28, wherein the first occurrence time is a time when the failure causing the failure occurs for the first time.
(付記30)
障害の今回の発生時刻の受信に対して、前記障害の発生が初回でない場合には、前記障害の初回発生時刻から前記今回の発生時刻までの経過時間を計算し、前記経過時間と前記マスク時間との対応関係を記憶したテーブル記憶部から前記経過時間に対応する前記障害の発生を示す障害割り込みをマスクするマスク時間を取得して前記マスク時間を送信し、前記障害の発生が初回の場合には、前記初回発生時刻として前記今回の発生時刻を障害記憶部に記憶させ、前記経過時間を計算し、前記テーブル記憶部から前記経過時間に対応する前記マスク時間を取得して前記マスク時間を送信する
ことを特徴とする障害管理方法。
(Appendix 30)
If the occurrence of the failure is not the first time with respect to reception of the current occurrence time of the failure, an elapsed time from the initial occurrence time of the failure to the current occurrence time is calculated, and the elapsed time and the mask time When the occurrence of the failure is the first time, the mask time for masking the failure interrupt indicating the occurrence of the failure corresponding to the elapsed time is acquired from the table storage unit storing the correspondence relationship with Stores the current occurrence time in the failure storage unit as the first occurrence time, calculates the elapsed time, obtains the mask time corresponding to the elapsed time from the table storage unit, and transmits the mask time A failure management method characterized by:
(付記31)
前記障害管理方法は、前記障害の障害原因を受信し、
前記初回発生時刻は、前記障害原因の前記障害が初回に発生した時刻である
ことを特徴とする付記30に記載の障害管理方法。
(Appendix 31)
The failure management method receives a failure cause of the failure,
The failure management method according to
(付記32)
コンピュータに、
障害の発生を示す障害割り込みと、タイマーにセットされた時間が経過したことを示すタイマー割り込みとを検出する割込検出機能と、
前記障害割り込みを検出したとき、前記障害割り込みをマスクし、前記タイマー割り込みを検出したとき、前記障害割り込みのマスクを解除する割込制御機能と、
前記障害割り込みを検出したとき、前記障害の初回発生時刻から今回の発生時刻までの経過時間に対応するマスク時間をタイマーにセットするタイマー制御機能と
を実現させることを特徴とする障害処理プログラム。
(Appendix 32)
On the computer,
An interrupt detection function for detecting a fault interrupt indicating the occurrence of a fault and a timer interrupt indicating that the time set in the timer has elapsed;
An interrupt control function for masking the fault interrupt when detecting the fault interrupt, and canceling the mask of the fault interrupt when detecting the timer interrupt;
And a timer control function for setting, in a timer, a mask time corresponding to an elapsed time from the first occurrence time of the failure to the current occurrence time when the failure interrupt is detected.
(付記33)
前記タイマー制御機能は、前記経過時間が長いほど前記マスク時間を長くする
ことを特徴とする付記32に記載の障害処理プログラム。
(Appendix 33)
The failure processing program according to appendix 32, wherein the timer control function increases the mask time as the elapsed time increases.
(付記34)
前記割り込み検出機能は、前記障害の障害原因を取得し、
前記初回発生時刻は、前記障害原因の前記障害が初回に発生した時刻である
ことを特徴とする付記32あるいは付記33に記載の障害処理プログラム。
(Appendix 34)
The interrupt detection function acquires the cause of the failure,
The failure processing program according to appendix 32 or appendix 33, wherein the first occurrence time is a time when the failure causing the failure occurs for the first time.
(付記35)
前記タイマー制御機能は、前記経過時間と前記マスク時間との対応関係を記憶するテーブル記憶部の前記対応関係から、前記経過時間に対応する前記マスク時間を取得する
ことを特徴とする付記32から付記34のいずれかに記載の障害処理プログラム。
(Appendix 35)
From the supplementary note 32, the timer control function acquires the mask time corresponding to the elapsed time from the correspondence relation of a table storage unit that stores the correspondence relation between the elapsed time and the mask time. 34. The failure processing program according to any one of 34.
(付記36)
前記タイマー制御機能は、前記初回発生時刻を記憶する障害記憶部から取得した前記初回発生時刻と前記今回の発生時刻とから前記経過時間を計算する
ことを特徴とする付記35に記載の障害処理プログラム。
(Appendix 36)
The failure processing program according to appendix 35, wherein the timer control function calculates the elapsed time from the first occurrence time acquired from the failure storage unit that stores the first occurrence time and the current occurrence time. .
(付記37)
コンピュータに、さらに、
前記障害割り込みを検出したとき、前記今回の発生時刻を送信し、前記初回発生時刻を受信する通信機能
を実現させ、
前記タイマー制御機能は、前記初回発生時刻と前記今回の発生時刻とから前記経過時間を計算する
ことを特徴とする付記35に記載の障害処理プログラム。
(Appendix 37)
To the computer,
When the failure interrupt is detected, a communication function for transmitting the current occurrence time and receiving the first occurrence time is realized,
The failure processing program according to appendix 35, wherein the timer control function calculates the elapsed time from the first occurrence time and the current occurrence time.
(付記38)
コンピュータに、さらに、
前記障害割り込みを検出したとき、前記今回の発生時刻を送信し、前記経過時間を受信する通信機能
を実現させることを特徴とする付記35に記載の障害処理プログラム。
(Appendix 38)
To the computer,
36. The fault processing program according to appendix 35, wherein when the fault interrupt is detected, a communication function for transmitting the current occurrence time and receiving the elapsed time is realized.
(付記39)
コンピュータに、さらに、
前記障害割り込みを検出したとき、前記今回の発生時刻を送信し、前記マスク時間を受信する通信機能
を実現させることを特徴とする付記32から付記34のいずれかに記載の障害処理プログラム。
(Appendix 39)
To the computer,
The failure processing program according to any one of appendix 32 to appendix 34, wherein when the fault interrupt is detected, a communication function for transmitting the current occurrence time and receiving the mask time is realized.
(付記40)
コンピュータに、
障害の今回の発生時刻の受信に対して、前記障害の発生が初回でない場合には、前記障害の初回発生時刻を送信し、前記障害の発生が初回の場合には、前記初回発生時刻として前記今回の発生時刻を障害記憶部に記憶させ、前記障害の前記初回発生時刻を送信する通信機能
を実現させることを特徴とする障害管理プログラム。
(Appendix 40)
On the computer,
In response to reception of the current occurrence time of the failure, if the occurrence of the failure is not the first time, the first occurrence time of the failure is transmitted, and if the occurrence of the failure is the first time, the first occurrence time is A failure management program for storing a current occurrence time in a failure storage unit and realizing a communication function for transmitting the first occurrence time of the failure.
(付記41)
前記通信機能は、さらに、前記障害の障害原因を受信し、
前記初回発生時刻は、前記障害原因の前記障害が初回に発生した時刻である
ことを特徴とする付記40に記載の障害管理プログラム。
(Appendix 41)
The communication function further receives the cause of the failure,
The failure management program according to
(付記42)
コンピュータに、
障害の今回の発生時刻の受信に対して、前記障害の発生が初回でない場合には、前記障害の初回発生時刻から前記今回の発生時刻までの経過時間を送信し、前記障害の発生が初回の場合には、前記初回発生時刻として前記今回の発生時刻を障害記憶部に記憶させ、前記経過時間を送信する通信機能と、
前記経過時間を計算する計算機能と
を実現させることを特徴とする障害管理プログラム。
(Appendix 42)
On the computer,
If the occurrence of the failure is not the first time in response to reception of the current occurrence time of the failure, an elapsed time from the first occurrence time of the failure to the current occurrence time is transmitted, and the occurrence of the failure is the first time. In this case, the communication function for storing the current occurrence time in the failure storage unit as the first occurrence time and transmitting the elapsed time;
A failure management program that realizes a calculation function for calculating the elapsed time.
(付記43)
前記通信機能は、さらに、前記障害の障害原因を受信し、
前記初回発生時刻は、前記障害原因の前記障害が初回に発生した時刻である
ことを特徴とする付記42に記載の障害管理プログラム。
(Appendix 43)
The communication function further receives the cause of the failure,
The failure management program according to appendix 42, wherein the first occurrence time is a time at which the failure causing the failure is first generated.
(付記44)
コンピュータに、
障害の今回の発生時刻の受信に対して、前記障害の発生が初回でない場合には、前記障害の発生を示す障害割り込みをマスクするマスク時間を送信し、前記障害の発生が初回の場合には、初回発生時刻として前記今回の発生時刻を障害記憶部に記憶させ、前記マスク時間を送信する通信機能と、
前記障害の前記初回発生時刻から前記今回の発生時刻までの経過時間を計算し、前記経過時間と前記マスク時間との対応関係を記憶したテーブル記憶部から前記経過時間に対応する前記マスク時間を取得する計算機能と
を実現させることを特徴とする障害管理プログラム。
(Appendix 44)
On the computer,
When the occurrence of the failure is not the first time with respect to reception of the current occurrence time of the failure, a mask time for masking the failure interrupt indicating the occurrence of the failure is transmitted, and when the occurrence of the failure is the first time A communication function for storing the current occurrence time as a first occurrence time in a failure storage unit and transmitting the mask time;
The elapsed time from the first occurrence time of the failure to the current occurrence time is calculated, and the mask time corresponding to the elapsed time is obtained from a table storage unit that stores the correspondence between the elapsed time and the mask time. A fault management program characterized by realizing a calculation function.
(付記45)
前記通信機能は、さらに、前記障害の障害原因を受信し、
前記初回発生時刻は、前記障害原因の前記障害が初回に発生した時刻である
ことを特徴とする付記44に記載の障害管理プログラム。
(Appendix 45)
The communication function further receives the cause of the failure,
45. The failure management program according to appendix 44, wherein the first occurrence time is a time at which the failure causing the failure is first generated.
10、20、30、40 障害処理装置
11 割込検出部
12 割込制御部
13 タイマー制御部
14 タイマー
25 テーブル記憶部
26 障害記憶部
37 通信部
50 監視対象
70、80、90 障害管理装置
71 障害記憶部
72 通信部
83 計算部
94 テーブル記憶部
10, 20, 30, 40
Claims (10)
前記障害割り込みを検出したとき、前記障害割り込みをマスクし、前記タイマー割り込みを検出したとき、前記障害割り込みのマスクを解除する割込制御部と、
前記障害割り込みを検出したとき、前記障害の初回発生時刻から今回の発生時刻までの経過時間に対応するマスク時間をタイマーにセットするタイマー制御部と
を備えることを特徴とする障害処理装置。 An interrupt detection unit for detecting a fault interrupt indicating the occurrence of a fault and a timer interrupt indicating that the time set in the timer has elapsed;
An interrupt control unit that masks the fault interrupt when detecting the fault interrupt, and cancels the mask of the fault interrupt when the timer interrupt is detected;
A failure processing apparatus comprising: a timer control unit that sets a mask time corresponding to an elapsed time from an initial occurrence time of the failure to a current occurrence time when the failure interrupt is detected.
ことを特徴とする請求項1に記載の障害処理装置。 The failure processing apparatus according to claim 1, wherein the timer control unit increases the mask time as the elapsed time is longer.
ことを特徴とする請求項1あるいは請求項2に記載の障害処理装置。 The said timer control part acquires the said mask time corresponding to the said elapsed time from the said correspondence of the table memory | storage part which memorize | stores the correspondence between the said elapsed time and the said mask time. The failure processing apparatus according to claim 2.
前記タイマー制御部は、前記障害記憶部から取得した前記初回発生時刻と前記今回の発生時刻とから前記経過時間を計算する
ことを特徴とする請求項3に記載の障害処理装置。 The interrupt detection unit stores the first occurrence time in a failure storage unit,
The failure processing apparatus according to claim 3, wherein the timer control unit calculates the elapsed time from the first occurrence time acquired from the failure storage unit and the current occurrence time.
を備え、
前記タイマー制御部は、前記初回発生時刻と前記今回の発生時刻とから前記経過時間を計算する
ことを特徴とする請求項3に記載の障害処理装置。 A communication unit for transmitting the current occurrence time and receiving the first occurrence time when detecting the failure interrupt;
The failure processing apparatus according to claim 3, wherein the timer control unit calculates the elapsed time from the first occurrence time and the current occurrence time.
を備えることを特徴とする障害管理装置。 In response to reception of the current occurrence time of the failure, if the occurrence of the failure is not the first time, the first occurrence time of the failure is transmitted, and if the occurrence of the failure is the first time, the first occurrence time is A failure management apparatus comprising: a communication unit that stores a current occurrence time in a failure storage unit and transmits the first occurrence time of the failure.
請求項6に記載の障害管理装置と
を備え、
前記障害処理装置の前記通信部は、前記障害管理装置の前記通信部へ前記今回の発生時刻を送信し、前記障害管理装置の前記通信部から前記初回発生時刻を受信する
ことを特徴とする障害処理システム。 A fault handling apparatus according to claim 5;
The failure management device according to claim 6,
The failure is characterized in that the communication unit of the failure processing device transmits the current occurrence time to the communication unit of the failure management device and receives the first occurrence time from the communication unit of the failure management device. Processing system.
ことを特徴とする障害処理方法。 A fault interrupt indicating the occurrence of a fault and a timer interrupt indicating that the time set in the timer has elapsed are detected. When the fault interrupt is detected, the fault interrupt is masked and the fault is first generated. A failure processing method, wherein a mask time corresponding to an elapsed time up to the current occurrence time is set in a timer, and the mask of the failure interrupt is canceled when the timer interrupt is detected.
ことを特徴とする障害管理方法。 In response to reception of the current occurrence time of the failure, if the occurrence of the failure is not the first time, the first occurrence time of the failure is transmitted, and if the occurrence of the failure is the first time, the first occurrence time is A failure management method comprising storing a current occurrence time in a failure storage unit and transmitting the first occurrence time of the failure.
障害の発生を示す障害割り込みと、タイマーにセットされた時間が経過したことを示すタイマー割り込みとを検出する割込検出機能と、
前記障害割り込みを検出したとき、前記障害割り込みをマスクし、前記タイマー割り込みを検出したとき、前記障害割り込みのマスクを解除する割込制御機能と、
前記障害割り込みを検出したとき、前記障害の初回発生時刻から今回の発生時刻までの経過時間に対応するマスク時間をタイマーにセットするタイマー制御機能と
を実現させることを特徴とする障害処理プログラム。 On the computer,
An interrupt detection function for detecting a fault interrupt indicating the occurrence of a fault and a timer interrupt indicating that the time set in the timer has elapsed;
An interrupt control function for masking the fault interrupt when detecting the fault interrupt, and canceling the mask of the fault interrupt when detecting the timer interrupt;
And a timer control function for setting, in a timer, a mask time corresponding to an elapsed time from the first occurrence time of the failure to the current occurrence time when the failure interrupt is detected.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015165608A JP6567923B2 (en) | 2015-08-25 | 2015-08-25 | Fault processing apparatus, system, fault management apparatus, method and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015165608A JP6567923B2 (en) | 2015-08-25 | 2015-08-25 | Fault processing apparatus, system, fault management apparatus, method and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2017045168A true JP2017045168A (en) | 2017-03-02 |
JP6567923B2 JP6567923B2 (en) | 2019-08-28 |
Family
ID=58211468
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015165608A Active JP6567923B2 (en) | 2015-08-25 | 2015-08-25 | Fault processing apparatus, system, fault management apparatus, method and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6567923B2 (en) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH01158849A (en) * | 1987-12-15 | 1989-06-21 | Nec Corp | Line fault processing system for packet switchboard |
JPH03265950A (en) * | 1990-03-15 | 1991-11-27 | Nec Corp | 1-bit error processing system for control storage |
JPH03290741A (en) * | 1990-04-06 | 1991-12-20 | Fujitsu Ltd | Error logging method |
JPH10271113A (en) * | 1997-03-21 | 1998-10-09 | Mitsubishi Electric Corp | Fault tracing method and fault tracing device for realizing the method |
JP2010170462A (en) * | 2009-01-26 | 2010-08-05 | Nec Computertechno Ltd | Fault handling device and method |
JP2011043957A (en) * | 2009-08-20 | 2011-03-03 | Renesas Electronics Corp | Fault monitoring circuit, semiconductor integrated circuit, and faulty part locating method |
-
2015
- 2015-08-25 JP JP2015165608A patent/JP6567923B2/en active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH01158849A (en) * | 1987-12-15 | 1989-06-21 | Nec Corp | Line fault processing system for packet switchboard |
JPH03265950A (en) * | 1990-03-15 | 1991-11-27 | Nec Corp | 1-bit error processing system for control storage |
JPH03290741A (en) * | 1990-04-06 | 1991-12-20 | Fujitsu Ltd | Error logging method |
JPH10271113A (en) * | 1997-03-21 | 1998-10-09 | Mitsubishi Electric Corp | Fault tracing method and fault tracing device for realizing the method |
JP2010170462A (en) * | 2009-01-26 | 2010-08-05 | Nec Computertechno Ltd | Fault handling device and method |
JP2011043957A (en) * | 2009-08-20 | 2011-03-03 | Renesas Electronics Corp | Fault monitoring circuit, semiconductor integrated circuit, and faulty part locating method |
Also Published As
Publication number | Publication date |
---|---|
JP6567923B2 (en) | 2019-08-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8589763B2 (en) | Cache memory system | |
US8862944B2 (en) | Isolation of faulty links in a transmission medium | |
JP2012113466A (en) | Memory controller and information processing system | |
US20170185055A1 (en) | Process control system | |
US10019301B2 (en) | Information processing device, and control method and storage medium | |
JP2018010421A (en) | Computer system, computer, and data filtering method | |
US20190141059A1 (en) | Intrusion detection apparatus and computer readable medium | |
JP5451087B2 (en) | Fault processing apparatus and method | |
US9069629B2 (en) | Bidirectional counting of dual outcome events | |
JP6567923B2 (en) | Fault processing apparatus, system, fault management apparatus, method and program | |
KR20150007913A (en) | Failure Prediction Device | |
JP2007249663A (en) | Transaction device, delay failure detection device and method, and program | |
CN111209129A (en) | Memory optimization method and device based on AMD platform | |
CN111221775A (en) | Processor, cache processing method and electronic equipment | |
CN112804115B (en) | Method, device and equipment for detecting abnormity of virtual network function | |
JP4985720B2 (en) | Log management system, log management method, log collection unit, and program | |
US10837990B2 (en) | Semiconductor device | |
US11138512B2 (en) | Management of building energy systems through quantification of reliability | |
JP2010198460A (en) | Plant monitoring system and plant monitoring method | |
JP2013114311A (en) | Memory controller, memory diagnostic method, and processor system | |
WO2017163302A1 (en) | Control apparatus | |
JP2013186524A (en) | Data processing system, data processing method, data processing program, and transaction measuring circuit | |
JP2016066273A (en) | Controller | |
CN104268029A (en) | Nesting exception processing circuit and method for embedded PowerPC (performance optimization with enhanced RISC (reduced instruction set computer)-performance computing) processor | |
JP2014048785A (en) | Failure trace device, failure trace system, failure trace method, and failure trace program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180713 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20190315 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20190402 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190530 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190709 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190801 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6567923 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |