JP2007257395A - Fault monitoring method for application - Google Patents

Fault monitoring method for application Download PDF

Info

Publication number
JP2007257395A
JP2007257395A JP2006082053A JP2006082053A JP2007257395A JP 2007257395 A JP2007257395 A JP 2007257395A JP 2006082053 A JP2006082053 A JP 2006082053A JP 2006082053 A JP2006082053 A JP 2006082053A JP 2007257395 A JP2007257395 A JP 2007257395A
Authority
JP
Japan
Prior art keywords
application
counter
computer system
counters
count values
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2006082053A
Other languages
Japanese (ja)
Inventor
Eiji Mikawa
英治 三川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Meidensha Corp
Meidensha Electric Manufacturing Co Ltd
Original Assignee
Meidensha Corp
Meidensha Electric Manufacturing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Meidensha Corp, Meidensha Electric Manufacturing Co Ltd filed Critical Meidensha Corp
Priority to JP2006082053A priority Critical patent/JP2007257395A/en
Publication of JP2007257395A publication Critical patent/JP2007257395A/en
Pending legal-status Critical Current

Links

Images

Abstract

<P>PROBLEM TO BE SOLVED: To ensure and facilitate a fault monitoring for an application in a computer system without a WDT function. <P>SOLUTION: The computer system is provided with a plurality of counters 2<SB>1</SB>to 2<SB>N</SB>corresponding to a plurality of applications 1<SB>1</SB>to 1<SB>N</SB>to be monitored and a monitoring task 3 to read and write count values for each counter. Each application increments the corresponding counter at a constant cycle during normal processing or at preset termination of a process. The monitoring task reads the count value of each counter at a constant cycle, sets all counters to "0" when all of each count values are within a defined range and carries out an abnormality alarm or a system reset for the application when even one of each count values is out of the range. <P>COPYRIGHT: (C)2008,JPO&INPIT

Description

本発明は、ウオッチドッグタイマー(WDT)機能をもたないコンピュータシステムにおいて、アプリケーションの異常を監視する方法に関する。   The present invention relates to a method of monitoring an application abnormality in a computer system that does not have a watchdog timer (WDT) function.

コンピュータとそのアプリケーションを搭載して各種の情報処理機能や制御機能を確立するコンピュータシステム(図3に一般的なハードウェア構成を示す)において、ハードウェアまたはソフトウェア上で予期されないデータ破壊やプログラムミスが存在したときにシステムまたはアプリケーションの暴走となることがある。   In a computer system (a general hardware configuration is shown in FIG. 3) in which various information processing functions and control functions are established by installing a computer and its application, unexpected data destruction or program error on hardware or software. When present, it can cause system or application runaway.

この暴走対策として、一般には、ハードウェア構成のWDT機能を設け、CPUから一定時間内にWDTにリセット出力があるか否かにより、正常/異常の警報発生、あるいはシステムリセットをかけるようにしている(例えば、特許文献1参照)。   As a measure against this runaway, generally, a WDT function having a hardware configuration is provided, and a normal / abnormal alarm is generated or a system reset is performed depending on whether or not a reset output is output from the CPU within a predetermined time. (For example, refer to Patent Document 1).

このWDT機能による監視は、システムおよびプライオリティの高いアプリケーションが暴走した場合に警報あるいはシステムリセットをかけるようにしている。
特開2005−250524号公報
In the monitoring by the WDT function, when a system and a high priority application run away, an alarm or a system reset is applied.
JP 2005-250524 A

WDT機能を持たないコンピュータシステムでは、アプリケーションが暴走などを起こした場合にシステムリセットをかけることができない。   In a computer system that does not have a WDT function, a system reset cannot be performed when an application runs away.

また、WDT機能をもつコンピュータシステムにおいても、暴走したアプリケーションのプライオリティが低ければ,CPU負荷の問題にならないので、システムリセットがかからない。   Even in a computer system having a WDT function, if the priority of a runaway application is low, the CPU load does not become a problem, so that the system is not reset.

また、WDT機能では、どのアプリケーションが暴走したかの判別ができないため、その後のシステム修復が難しくなる。   Further, in the WDT function, it is impossible to determine which application has runaway, so that subsequent system repair becomes difficult.

本発明の目的は、WDT機能をもたないコンピュータシステムにおけるアプリケーションの異常監視を確実、容易にしたアプリケーションの異常監視方法を提供することにある。   An object of the present invention is to provide an application abnormality monitoring method that reliably and easily monitors application abnormality in a computer system having no WDT function.

本発明は、前記の課題を解決するため、各アプリケーションに計測用メモリ(以下、カウンタと略す)を割り当て、各アプリケーションは一定周期で対応つけたカウンタをインクリメントする機能を設け、各カウンタのカウント値を監視タスクが一定周期でそれぞれ読み取り、それらが定義された範囲内にあるか否かによりアプリケーションの正常/異常の判定を得るようにしたもので、以下の方法を特徴とする。   In order to solve the above-described problems, the present invention assigns a measurement memory (hereinafter abbreviated as a counter) to each application, and each application has a function of incrementing a counter associated with a certain period, and the count value of each counter The monitoring tasks are respectively read at regular intervals, and whether the application is normal or abnormal is determined based on whether or not they are within a defined range.

(1)ウオッチドッグタイマー機能をもたないコンピュータシステムにおけるアプリケーションの異常監視方法であって、
コンピュータシステムは、前記アプリケーションのうち、異常監視対象とする複数のアプリケーションに対応つけた複数のカウンタと、この各カウンタのカウント値を読み書き可能な監視タスクを設け、
前記複数のアプリケーションは、その正常処理中に一定周期または予め設定された処理の終了で対応つけられた前記カウンタをインクリメントする処理ステップを設け、
前記監視タスクは、前記各カウンタのカウント値を一定周期で読み取り、各カウント値の全てが定義された範囲内にあるときに各カウンタの全てを「0」にセットし、各カウント値の1つでも範囲外にあるときにアプリケーションの異常警報あるいはシステムリセットを行う処理ステップを設けたことを特徴とする。
(1) An application abnormality monitoring method in a computer system having no watchdog timer function,
The computer system includes a plurality of counters associated with a plurality of applications to be monitored for abnormality among the applications, and a monitoring task capable of reading and writing the count value of each counter,
The plurality of applications are provided with a processing step for incrementing the counter associated with the end of a predetermined cycle or preset processing during the normal processing,
The monitoring task reads the count value of each counter at a constant period, sets all of the counters to “0” when all of the count values are within a defined range, and sets one of the count values. However, it is characterized in that a processing step for performing an application alarm or system reset when it is out of range is provided.

以上のとおり、本発明によれば、各アプリケーションに対応つけてカウンタを設け、各アプリケーションは一定周期で対応つけたカウンタをインクリメントする機能を設け、各カウンタのカウント値を監視タスクが一定周期でそれぞれ読み取り、それらが定義された範囲内にあるか否かによりアプリケーションの正常/異常の判定を得るようにしたため、ハードウェアにWDT機能をもたないコンピュータシステムにおけるアプリケーションの異常監視が確実、容易になる。   As described above, according to the present invention, a counter is provided in association with each application, each application is provided with a function of incrementing a counter associated with a fixed period, and the monitoring task determines the count value of each counter at a fixed period. Since the normality / abnormality of the application is obtained by reading and whether or not they are within the defined range, it is possible to reliably and easily monitor the abnormality of the application in a computer system having no hardware WDT function. .

すなわち、異常監視機能は、複数のカウンタと1つの監視タスクの追加、およびアプリケーションにカウンタのインクリメント機能を追加するのみで容易に実現でき、しかもアプリケーションの処理の実行を直接にカウンタのカウント値として監視することで確実な監視ができる。   In other words, the abnormality monitoring function can be easily realized by simply adding a plurality of counters and one monitoring task, and adding the counter increment function to the application, and directly monitoring the execution of the application process as the count value of the counter. By doing so, reliable monitoring can be performed.

さらに、異常発生したアプリケーションの識別も可能になり、その修復作業を容易にする。   Furthermore, it becomes possible to identify an application in which an abnormality has occurred, and facilitate the repair work.

また、WDT機能を有するコンピュータシステムにおいても、プライオリティの低いアプリケーションが暴走した場合に、システムリセットが可能となる。   Further, even in a computer system having a WDT function, a system reset is possible when an application with a low priority runs away.

図1は、本発明の実施形態を示す異常監視方法の機能構成図である。コンピュータシステムは、それに搭載する各アプリケーションのうち、異常監視対象とする複数のアプリケーション(APL)11〜1Nに対応つけた複数のカウンタ21〜2Nと、この各カウンタのカウント値を読み書き可能な監視タスク3の構成をとる。 FIG. 1 is a functional configuration diagram of an abnormality monitoring method showing an embodiment of the present invention. The computer system reads and writes a plurality of counters 2 1 to 2 N associated with a plurality of applications (APL) 1 1 to 1 N to be monitored for anomalies among the applications installed therein, and the count value of each counter A possible monitoring task 3 configuration is taken.

異常監視対象とする各アプリケーション11〜1Nは、その正常処理中に一定周期または予め設定された処理の終了でカウンタをインクリメントする命令を発生する機能を設けておく。なお、インクリメント命令を発生する機能は、コンピュータシステムに搭載する全てのアプリケーションに設ける場合と、暴走を起こす可能性の高い複雑なソフトウェア構成になるアプリケーションやプライオリティの高いアプリケーションに限ることでもよい。 Each of the applications 1 1 to 1 N to be monitored for abnormality is provided with a function for generating a command for incrementing the counter at a constant cycle or at the end of a preset process during the normal process. It should be noted that the function for generating the increment command may be limited to a case where it is provided in all applications installed in the computer system, and an application having a complicated software configuration with a high possibility of causing a runaway or a high priority application.

カウンタ21〜2Nは、インクリメント命令を発生する機能をもつアプリケーションに対応させて、例えばコンピュータシステムの共有メモリ上に設けられ、対応するアプリケーション11〜1Nによるインクリメント動作および他のタスクからもそのカウント値の読み取りを可能とする。 The counters 2 1 to 2 N are provided, for example, on a shared memory of the computer system in correspondence with an application having a function of generating an increment instruction, and from the increment operation by the corresponding applications 1 1 to 1 N and other tasks. The count value can be read.

コンピュータシステムは、監視タスク内のローカルメモリに、表1に例を示すように、カウンタのカウント値の正常範囲を示す上限値、下限値の組をカウンタ1〜カウンタNに対応し具備する。   The computer system includes, in the local memory in the monitoring task, a pair of an upper limit value and a lower limit value indicating the normal range of the count value of the counter corresponding to counter 1 to counter N as shown in Table 1.

Figure 2007257395
Figure 2007257395

監視タスク3は、各アプリケーションによるインクリメント命令発生周期よりも十分に長い一定周期で、カウンタ21〜2Nのカウント値を読み取り、各カウント値の全てが表1で定められた上限値及び下限値の範囲内であれば、カウンタ21〜2Nの全てを「0」にセットするカウンタリセット命令を発行する機能をもつ。また、カウンタ21〜2Nのうち、1つでも定義された上限値及び下限値の範囲外のものがあれば、監視タスク3は警報あるいはシステムリセット(ソフトウェアリセット)を行う。 Monitoring task 3, a sufficiently long predetermined period than increment instruction generation period by each application, the counter 2 1 to 2 reads the count value of N, the upper and lower limits that all the count values have been established in Table 1 within the scope of, and has a function of issuing a counter reset instruction to set all the counters 2 1 to 2 N to "0". If any one of the counters 21 to 2N is out of the range of the upper limit value and the lower limit value defined, the monitoring task 3 performs an alarm or system reset (software reset).

図2は、アプリケーションと監視タスクに設けた処理フローを示す。各アプリケーション11〜1Nは、それぞれが本来からもつ処理(一般処理)を実行し(S1)、必要に応じて一定時間を待つ(S2)。この一定時間は、上記のように、一定周期または予め設定された処理の終了とする。この一定時間後、対応付けられたカウンタの値をインクリメントし(S3)、アプリケーション処理の終了でなければ処理S1に戻って次の処理に移る(S4)。 FIG. 2 shows a processing flow provided for the application and the monitoring task. Each of the applications 1 1 to 1 N executes a process (general process) inherent to each application (S1), and waits for a certain time as necessary (S2). As described above, this fixed time is a fixed period or the end of a preset process. After this fixed time, the associated counter value is incremented (S3), and if the application process is not finished, the process returns to process S1 and proceeds to the next process (S4).

監視タスク3では、まず、カウンタリセット命令を発行し、カウンタ21〜2Nの全てのカウント値を「0」にセットし(S11)、一定時間を待つ(S12)。この一定時間は、上記のように、各アプリケーションによるインクリメントコマンド発生周期よりも十分に長い時間とする。この一定時間後に、カウンタ21〜2Nの各カウント値をチェックし(S13)、これらカウント値が表1で定められた上限値及び下限値の範囲内か否かを判定する(S14)。カウント値が全て表1で定められた上限値及び下限値の範囲内の場合には処理S11に戻ってカウンタ21〜2Nの全てのカウント値を「0」にセットする。また、カウント値の1つでも表1で定められた上限値及び下限値定義された範囲外の場合はアプリケーション異常の発生として警報あるいはシステムリセットを行う(S15)。 In the monitoring task 3, first, a counter reset command is issued, all count values of the counters 2 1 to 2 N are set to “0” (S11), and a predetermined time is waited (S12). As described above, this fixed time is sufficiently longer than the increment command generation cycle by each application. After this fixed time, the count values of the counters 2 1 to 2 N are checked (S13), and it is determined whether or not these count values are within the upper limit value and the lower limit value defined in Table 1 (S14). When all the count values are within the range of the upper limit value and the lower limit value defined in Table 1, the process returns to step S11 and all the count values of the counters 2 1 to 2 N are set to “0”. If even one of the count values is outside the range defined by the upper limit value and the lower limit value defined in Table 1, an alarm or system reset is performed as an application error (S15).

なお、表1の上限値及び下限値に定義された値は、同じものとするに限らず、アプリケーション毎に異なる値とすることもできる。この場合、アプリケーションの違いによるインクリメント発生周期の違いに対応可能になる。   Note that the values defined for the upper limit value and the lower limit value in Table 1 are not limited to the same value, and may be different values for each application. In this case, it becomes possible to cope with a difference in increment generation cycle due to a difference in application.

また、監視タスクは、警報を発生する場合に、表1で定められた上限値及び下限値の範囲外になるカウンタに対応つけたアプリケーションの識別情報を不揮発性メモリに書き込んでおくことで、その後の異常原因解析を容易にすることができる。   In addition, when an alarm is generated, the monitoring task writes application identification information associated with a counter that falls outside the range of the upper limit value and the lower limit value defined in Table 1 to the non-volatile memory. It is possible to easily analyze the cause of abnormalities.

本発明の実施形態を示す異常監視方法の機能構成図。The function block diagram of the abnormality monitoring method which shows embodiment of this invention. 実施形態におけるアプリケーションと監視タスクの処理フロー。The processing flow of the application and the monitoring task in the embodiment. コンピュータシステムの構成図。The block diagram of a computer system.

符号の説明Explanation of symbols

1〜1N アプリケーション
1〜2N カウンタ
3 監視タスク
1 1 to 1 N application 2 1 to 2 N counter 3 Monitoring task

Claims (1)

ウオッチドッグタイマー機能をもたないコンピュータシステムにおけるアプリケーションの異常監視方法であって、
コンピュータシステムは、前記アプリケーションのうち、異常監視対象とする複数のアプリケーションに対応つけた複数のカウンタと、この各カウンタのカウント値を読み書き可能な監視タスクを設け、
前記複数のアプリケーションは、その正常処理中に一定周期または予め設定された処理の終了で対応つけられた前記カウンタをインクリメントする処理ステップを設け、
前記監視タスクは、前記各カウンタのカウント値を一定周期で読み取り、各カウント値の全てが定義された範囲内にあるときに各カウンタの全てを「0」にセットし、各カウント値の1つでも範囲外にあるときにアプリケーションの異常警報あるいはシステムリセットを行う処理ステップを設けたことを特徴とするアプリケーションの異常監視方法。
An application abnormality monitoring method in a computer system that does not have a watchdog timer function,
The computer system includes a plurality of counters associated with a plurality of applications to be monitored for abnormality among the applications, and a monitoring task capable of reading and writing the count value of each counter,
The plurality of applications are provided with a processing step for incrementing the counter associated with the end of a predetermined cycle or preset processing during the normal processing,
The monitoring task reads the count value of each counter at a constant period, sets all of the counters to “0” when all of the count values are within a defined range, and sets one of the count values. However, an application abnormality monitoring method characterized by providing a processing step for performing an application abnormality alarm or system resetting when out of range.
JP2006082053A 2006-03-24 2006-03-24 Fault monitoring method for application Pending JP2007257395A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006082053A JP2007257395A (en) 2006-03-24 2006-03-24 Fault monitoring method for application

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006082053A JP2007257395A (en) 2006-03-24 2006-03-24 Fault monitoring method for application

Publications (1)

Publication Number Publication Date
JP2007257395A true JP2007257395A (en) 2007-10-04

Family

ID=38631561

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006082053A Pending JP2007257395A (en) 2006-03-24 2006-03-24 Fault monitoring method for application

Country Status (1)

Country Link
JP (1) JP2007257395A (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012089073A (en) * 2010-10-22 2012-05-10 Denso Corp Electronic control unit and motor-driven power steering device using the same
JP2013073456A (en) * 2011-09-28 2013-04-22 Mitsubishi Electric Corp Application monitoring optimizing device

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012089073A (en) * 2010-10-22 2012-05-10 Denso Corp Electronic control unit and motor-driven power steering device using the same
JP2013073456A (en) * 2011-09-28 2013-04-22 Mitsubishi Electric Corp Application monitoring optimizing device

Similar Documents

Publication Publication Date Title
TWI229796B (en) Method and system to implement a system event log for system manageability
US8291379B2 (en) Runtime analysis of a computer program to identify improper memory accesses that cause further problems
US8418005B2 (en) Methods, apparatus and articles of manufacture to diagnose temperature-induced memory errors
US20080276129A1 (en) Software tracing
JP2011108201A (en) Information processing apparatus, method and program of diagnosis
CN112256507B (en) Chip fault diagnosis method and device, readable storage medium and electronic equipment
US8489938B2 (en) Diagnostic data capture in a computing environment
JP5464128B2 (en) RAM failure diagnosis apparatus and program thereof
JP5623557B2 (en) Method, apparatus, and computer program in a multi-threaded computing environment for collecting diagnostic data
JP2006338445A (en) Abnormality information storage apparatus
JP2010009296A (en) Software operation monitoring device and method
JP2007257395A (en) Fault monitoring method for application
US9009671B2 (en) Crash notification between debuggers
JP2009205208A (en) Operation management device, method and program
JP5133649B2 (en) Electronic device and memory management program
JP2012150661A (en) Processor operation inspection system and its inspection method
TWI609324B (en) Microprocessors
JP5627414B2 (en) Action log collection system and program
WO2020246095A1 (en) Control system, programmable logic controller, and information processing method
JPWO2016204070A1 (en) CPU monitoring device
JP2010072995A (en) Method, apparatus and program for maintenance management of information processing apparatus
JP2017045303A (en) Controller that can detect causes of abnormalities in functions of personal computer
JP2007034864A (en) Diagnostic method for i/o device
JP2009123108A (en) Information processor
JP5768434B2 (en) Mutual monitoring system