JP2004302731A - Information processor and method for trouble diagnosis - Google Patents

Information processor and method for trouble diagnosis Download PDF

Info

Publication number
JP2004302731A
JP2004302731A JP2003093171A JP2003093171A JP2004302731A JP 2004302731 A JP2004302731 A JP 2004302731A JP 2003093171 A JP2003093171 A JP 2003093171A JP 2003093171 A JP2003093171 A JP 2003093171A JP 2004302731 A JP2004302731 A JP 2004302731A
Authority
JP
Japan
Prior art keywords
task
cpu
failure
executed
monitoring data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2003093171A
Other languages
Japanese (ja)
Inventor
Yuji Fujiwara
勇治 藤原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2003093171A priority Critical patent/JP2004302731A/en
Publication of JP2004302731A publication Critical patent/JP2004302731A/en
Pending legal-status Critical Current

Links

Images

Abstract

<P>PROBLEM TO BE SOLVED: To perform trouble diagnosis action for a multiprocessor system without requiring any special hardware for trouble diagnosis. <P>SOLUTION: A POST process task table for trouble diagnosis is loaded into a memory 5 and the CPU of one of a group of processors 1 performs tasks serially while referring to the task table. Further, a command format table is loaded into the memory 5, and the group of processors 1 updates and refers to the table serially to determine whether or not the execution of each task of the POST can be completed. <P>COPYRIGHT: (C)2005,JPO&NCIPI

Description

【0001】
【発明の属する技術分野】
本発明は、複数のプロセッサを使用した情報処理装置に関し、特に障害発生時に自動的に復旧する機能を有するPCサーバ装置に関する。
【0002】
【従来の技術】
従来よりPCサーバ装置では、その信頼性を向上させるため、ハードディスク装置の障害や、ネットワーク障害などの障害発生時に障害内容を診断して、自動的に復旧させる機能(以下POST(Power On Self Test)と称する)が具備されている。
【0003】
POSTを実行する際は、システムのBIOSに保持されているタスクテーブルに従って、その複数のタスクを順に実行していく。通常のBIOSでは、タスク実行前にそのタスク番号を特定の入出力ポートに出力して、どのタスクを実行中であるかを外部に示す。例えば、外部から各タスクに対応して付与されたタスク番号を、LEDなどにのI/Oポートに接続しておくことにより、LEDの点滅内容で、タスクの内容が判別できるようにしている。従って、システムがハングアップした場合には、LEDをみることが、どのタスクを実行中にハングアップしたのかが分かる。
【0004】
最近のPCサーバBIOSでは、IPMI(Intelligent Management Platform)と呼ばれる特定のコマンドを使用して、BMC(Baseband Management Controller)と呼ばれるプロセッサにタスク番号を通知するようにしている。同時にBMCのタイマーを(設定した時間が経過してもリセットされない場合は、リブートするように)セットする。POST途中でハングアップしてしまった場合は、設定した時間経過後リブートしてシステムを復旧する。BMCはリブート時のタスク番号を保持しているので、これをログデータとして記録する。
【0005】
【特許文献1】
特開平10−143387号公報 (図1)
【0006】
【発明が解決しようとする課題】
このように、従来の障害診断方式では、必ずBMCのような専用のプロセッサが必要であった。BMCが存在しないシステムも存在するが、この場合は、システムハングアップした時にリブートすることは可能であるが、どのタスク番号でハングしたのか記録できないなど機能が制限されていた。
【0007】
そこで、本発明では、BMCなどの特定のプロセッサを具備しなくともPOSTの起動障害を監視可能なPCサーバを提供することを目的とする。
【0008】
【課題を解決するための手段】
本発明は、上述した課題を解決するため、複数のプロセッサを有する情報処理装置において、障害診断用の複数のタスクを順次実行していく第1のCPUと、前記第1のCPUが実行しているタスクの実行状況を監視する第2のCPUと、前記順次実行されるタスクの内容と、このタスクに対応する監視用データをロードするメモリとを有し、前記第1のCPUは、実行しているタスク毎に、監視用データを更新し、前記第2のCPUは前記監視用データの更新状況を参照して、障害の有無を判別するものである。
【0009】
また本発明は、上述した課題を解決するため、前記監視用データは、前記タスク処理内容を特定するためのタスク番号と、このタスク番号に応じたタイムアウト値と、タスクの実行状況を示す状況データとを含むものである。
【0010】
また本発明は、上述した課題を解決するため、前記第2のCPUは、前記タイムアウト値を参照して、前記第1のCPUにより前記タイムアウト値に示す時間内に前記状況データを更新されていない場合、障害が発生したと判断するものである。
【0011】
また本発明は上述した課題を解決するため、障害診断用の複数のタスクを順次実行していく第1のCPUと、前記第1のCPUが実行しているタスクの実行状況を監視する第2のCPUと、前記順次実行されるタスクの内容と、このタスクに対応する監視用データをロードするメモリとを有する情報処理装置における障害診断方法において、前記第1のCPUは、実行しているタスク毎に、監視用データを更新し、前記第2のCPUは前記監視用データの更新状況を参照して、障害の有無を判別すものである。
【0012】
【発明の実施の形態】
以下、図面を用いて、本発明の実施形態を説明する。
図1は、本発明の一実施形態であるPCサーバのシステム構成を示すブロック図である。
本実施形態のPCサーバは、複数のプロセッサ群1を有する。プロセッサ群1は、CPU0〜mのM個のCPUからなり、CPU0は、システムの起動処理を実行するBSP(Boot StrapProcessor)であり、CPU1〜CPUmは、システム起動後のアプリケーションプログラムを実行するAP(Application Processor)である。
【0013】
これらプロセッサ群1は、ホストバス2を介して、ノースブリッジ3に接続されており、メモリバス4を介して接続されるメモリ5や、PCIバス5を介して接続される各種I/Oデバイス群6の動作制御を実行する。また、メモリ5には、図2に示すようなPOST処理用のタスクテーブルがロードされており、プロセッサ群1のうち1つのCPUがこのタスクテーブルを参照しながら各タスクを順次実行する。
【0014】
さらに、メモリ5には、図3に示すようなコマンドフォーマットテーブルがロードされており、このテーブルをプロセッサ群1が逐次更新、参照することによりPOSTの各タスクの実行完了の可否を判断する。
【0015】
メモリ5は具体的にはDIMM(Dual Inline Memory Module)である。デバイス群6のデバイスには、アプリケーションプログラムを格納したハードディスク装置や、BIOSプログラムを格納したROMなどが含まれる。
【0016】
サウスブリッジ7は、その他ISAバス(図示せず)やSMバス8を介して接続されるI/Oデバイスをプロセッサ群1が動作制御するためのブリッジ回路である。
次に、図2のタスクテーブルの内容について説明する。
タスクテーブルは、タスク毎にその処理内容を記したリストであり、システム起動開始後に、タスク1から順番に実行していき、システムの障害状況を診断する。例えば、最初のタスク1は、チップセットの初期化処理であり、初期化が正常に完了されれば、次のタスク処理に移行する。
【0017】
そして、各タスクが問題なく実施された場合には、最後にBIOSセットアップを実施(タスクN−1)して、OSの起動処理(タスクN)に入り、POST動作が完了する。
【0018】
本実施形態では、タスクテーブルに書かれた各タスクをCPU0が順次実行していく。そして、CPU0のタスク処理の実行が成功したか否かを図3のコマンドフォーマットを利用してCPU1が監視する。
【0019】
このタスク処理の実行と監視用に、図3に示すコマンドフォーマットが利用される。このコマンドフォーマットの内容について説明する。
コマンドフォーマットは、オフセット番号、コマンドサイズ、データフィールドが対応付けられたコマンドテーブルリストとなっている。
オフセット番号は、リスト番号として利用されるものである。サイズは、データフィールドの書き込まれるデータのデータサイズである。データフィールドは、各タスク毎に更新されていくデータであり、オフセット1には、実行中のタスク番号が書き込まれる。オフセット2には、タイムアウト値が書き込まれ各タスクをCPU0が実行したとき、そのタスク実行が所定時間内に完了しなかったことを検出するための時間情報である。このタイムアウト値は、タスク毎にその時間が異なっており、100ms単位でそれぞれのタスクに応じたタイムアウト値が書き込まれる。
【0020】
オフセット3には、タスクの実行が完了したか否かを検出するための参照データであり、CPU0が実行中のタスクを正常に完了すると、ビッド1(1b)が書き込まれる。一方、タスク実行中またはタスクの実行を正常完了できないときは、ビット0(0b)が書き込まれた状態となっている。このオフセット3をCPU1が監視することにより、現在のタスクが完了したか、或いはまだ実行中であるかを判別することができる。そして、CPU1は、オフセット2の書かれたタイムアウト値を参照し、このタイムアウト値の時間内に、オフセット3のデータ更新されていない場合には、このタスクが正常に完了しなかったと判断して、図4のオフセット4に示すような、タイムアウトアクションを実行して、障害復旧処理を実行していく。具体的にはNo Action(復旧処理せずに動作停止維持)、Hard Reset(強制リセット)、Power Down(シャットダウン処理)、Power Cycle(再起動処理)のいずれかであり、各タスク毎にCPU0がメモリ5にロードされたコマンドフォーマットに書き込んでいく。
【0021】
以上のように、図3に示すこのコマンドフォーマットは、CPU0のからの書き込み指示によりタスク毎に順次更新されていく。即ち、図2に示すタスクテーブルのタスク1からCPU0が順次タスクを実行していき、1つのタスクの実行が完了すると次のタスクに関するデータに変更される。
【0022】
このような構成において、本実施形態の動作を説明する。
まず、デバイス群6から読み出されたBIOSは、CPU0から図2に示す最初のタスク番号1を特定のポートに送信するのと同じタイミングで、以下の処理を行う。
【0023】
(1)CPU1をwake(CPU1に駆動開始のためのwake割り込み発行)。
(2)CPU1へタスク番号を通知
(3)CPU1へタイムアウト時間を通知。
((2)〜(3)の通知は、CPU1が、メモリ5に書き込まれたコマンドフォーマットを参照することで実行される。CPU0は、メモリ5の特定のアドレスに図3に示すコマンドフォーマットを書き込み、CPU1がそのコマンドフォーマットに従った動作を実行するものである)。
【0024】
(4)CPU1へタイマー開始を指示し、CPU1がCPU0のタスク実行の完了状況に関する時間監視をする。
この(4)の動作において、CPU1では、コマンドフォーマットのオフセット1に書き込まれた時間内に、stopまたはstart/restartコマンドを受信しない場合に、図4に示すタイムアクション処理を実行する。また後で、障害解析ができるように、フラッシュメモリなどの不揮発性メモリにタイムアウトしたときのタスク番号を記録しておく。
【0025】
そして、タスク番号2以降のタスクを順次実行していくがその際は、以下のようにタスク番号の通知のみを行う。
(5)CPUへタスク番号を通知。
(6)CPU1へタイムアウト時間を通知。
(7)CPU1へタイマー開始を指示。
(この(5)〜(7)の動作は(2)〜(4)と同様の具体的な動作で実行される)
そして、図2に示された最後のタスクであるOS起動直前には、以下の処理を実行する。
(8)CPU1にタイマー計測の停止を指示。
(9)CPU1をHLT State(動作停止状態)に移行。
このように、(9)の動作まで完了した場合には、障害がなかったとして、OSが開始され、PCサーバのアプリケーションプログラムの稼働が開始される。
以上説明したように、本実施形態によれば、障害診断用に特別なハードウェアを必要とすることなく、マルチプロセッサシステムでの障害診断動作を実行することができるものである。
【0026】
【発明の効果】
本発明によれば、障害診断用に特別なハードウェアを必要とすることなく、マルチプロセッサシステムでの障害診断動作を実行することができる。
【図面の簡単な説明】
【図1】本発明の一実施形態におけるPCサーバのシステム構成を示すブロック図である。
【図2】同実施形態におけるタスクテーブルの内容を示す図である。
【図3】同実施形態におれるタスク実行中のコマンドフォーマットを説明するための図である。
【図4】同実施形態における、障害発生時の復旧動作を示すコマンドフォーマットを説明するための図である。
【符号の説明】
1…プロセッサ群、2…ホストバス、3…ノースブリッジ、4…メモリバス、5…メモリ、6…デバイス群、7…サウスブリッジ。
[0001]
TECHNICAL FIELD OF THE INVENTION
The present invention relates to an information processing apparatus using a plurality of processors, and more particularly, to a PC server apparatus having a function of automatically recovering from a failure.
[0002]
[Prior art]
2. Description of the Related Art Conventionally, in order to improve the reliability of a PC server device, when a failure such as a hard disk device failure or a network failure occurs, a function of diagnosing the failure content and automatically recovering the failure (hereinafter referred to as POST (Power On Self Test)) ).
[0003]
When executing POST, the plurality of tasks are sequentially executed according to a task table held in the BIOS of the system. In a normal BIOS, the task number is output to a specific input / output port before the task is executed, to indicate to the outside which task is being executed. For example, by connecting a task number externally assigned to each task to an I / O port of an LED or the like, the content of the task can be determined from the blinking content of the LED. Thus, if the system hangs up, looking at the LEDs tells which task was hung during execution.
[0004]
Recent PC server BIOS uses a specific command called IPMI (Intelligent Management Platform) to notify a processor called BMC (Baseband Management Controller) of a task number. At the same time, the timer of the BMC is set (if it is not reset even after the set time has elapsed, it is rebooted). If the system hangs up during POST, the system is rebooted and the system is restored after the lapse of the set time. Since the BMC holds the task number at the time of reboot, this is recorded as log data.
[0005]
[Patent Document 1]
Japanese Patent Application Laid-Open No. H10-14387 (FIG. 1)
[0006]
[Problems to be solved by the invention]
As described above, the conventional fault diagnosis method always requires a dedicated processor such as a BMC. Some systems do not have a BMC. In this case, it is possible to reboot when the system hangs up, but the functions are limited, such as not being able to record which task number hung.
[0007]
Accordingly, an object of the present invention is to provide a PC server that can monitor a POST startup failure without having a specific processor such as a BMC.
[0008]
[Means for Solving the Problems]
SUMMARY OF THE INVENTION In order to solve the above-described problems, the present invention provides, in an information processing apparatus having a plurality of processors, a first CPU that sequentially executes a plurality of failure diagnosis tasks, and a first CPU that executes the first tasks. A second CPU for monitoring the execution status of the task being executed, a content of the task to be sequentially executed, and a memory for loading monitoring data corresponding to the task, and the first CPU executes The monitoring data is updated for each task that is being performed, and the second CPU determines the presence or absence of a failure by referring to the monitoring data update status.
[0009]
According to the present invention, in order to solve the above-described problem, the monitoring data includes a task number for specifying the task processing content, a timeout value corresponding to the task number, and status data indicating a task execution status. And
[0010]
According to the present invention, in order to solve the above-described problem, the second CPU does not refer to the timeout value and update the status data within the time indicated by the timeout value by the first CPU. In this case, it is determined that a failure has occurred.
[0011]
According to another aspect of the present invention, there is provided a first CPU that sequentially executes a plurality of failure diagnosis tasks and a second CPU that monitors an execution status of the task being executed by the first CPU. In a failure diagnosis method for an information processing device having a CPU, a content of the task to be sequentially executed, and a memory for loading monitoring data corresponding to the task, the first CPU executes Every time, the monitoring data is updated, and the second CPU determines the presence or absence of a failure by referring to the update status of the monitoring data.
[0012]
BEST MODE FOR CARRYING OUT THE INVENTION
Hereinafter, embodiments of the present invention will be described with reference to the drawings.
FIG. 1 is a block diagram showing a system configuration of a PC server according to an embodiment of the present invention.
The PC server according to the present embodiment has a plurality of processor groups 1. The processor group 1 includes M CPUs CPU0 to m, the CPU0 is a BSP (Boot StrapProcessor) that executes a system startup process, and the CPU1 to the CPUm are APs (APs) that execute application programs after the system is started. Application Processor).
[0013]
The processor group 1 is connected to a north bridge 3 via a host bus 2, and a memory 5 connected via a memory bus 4 and various I / O device groups connected via a PCI bus 5 Operation control 6 is executed. A task table for POST processing as shown in FIG. 2 is loaded in the memory 5, and one CPU of the processor group 1 sequentially executes each task while referring to the task table.
[0014]
Further, a command format table as shown in FIG. 3 is loaded into the memory 5, and the processor group 1 sequentially updates and refers to this table to determine whether or not the execution of each task of POST is completed.
[0015]
The memory 5 is specifically a DIMM (Dual Inline Memory Module). The devices of the device group 6 include a hard disk device storing an application program, a ROM storing a BIOS program, and the like.
[0016]
The south bridge 7 is a bridge circuit for the processor group 1 to control the operation of other I / O devices connected via an ISA bus (not shown) or the SM bus 8.
Next, the contents of the task table of FIG. 2 will be described.
The task table is a list in which the processing contents are described for each task. After starting the system, the task table is sequentially executed from task 1 to diagnose a system failure state. For example, the first task 1 is a process of initializing the chipset, and if the initialization is completed normally, the process proceeds to the next task process.
[0017]
Then, when each task is performed without any problem, the BIOS is finally set up (task N-1), and the OS starts (task N), and the POST operation is completed.
[0018]
In this embodiment, the CPU 0 sequentially executes each task written in the task table. Then, the CPU 1 monitors whether or not the execution of the task processing of the CPU 0 is successful, using the command format of FIG.
[0019]
The command format shown in FIG. 3 is used for executing and monitoring the task processing. The contents of this command format will be described.
The command format is a command table list in which offset numbers, command sizes, and data fields are associated.
The offset number is used as a list number. The size is the data size of the data to be written in the data field. The data field is data that is updated for each task, and the number of the task being executed is written in offset 1. A time-out value is written in the offset 2 and is time information for detecting that the task execution has not been completed within a predetermined time when the CPU 0 executes each task. The time-out value differs for each task, and a time-out value corresponding to each task is written in units of 100 ms.
[0020]
The offset 3 is reference data for detecting whether or not the execution of the task has been completed. When the CPU 0 normally completes the task being executed, the bit 1 (1b) is written. On the other hand, when the task is being executed or when the execution of the task cannot be completed normally, bit 0 (0b) has been written. By monitoring the offset 3 by the CPU 1, it is possible to determine whether the current task has been completed or is still being executed. Then, the CPU 1 refers to the timeout value in which the offset 2 is written. If the data of the offset 3 is not updated within the time of the timeout value, the CPU 1 determines that this task has not been completed normally. A time-out action is executed as shown at offset 4 in FIG. 4 to execute the failure recovery processing. Specifically, it is one of No Action (maintaining operation stop without performing recovery processing), Hard Reset (forced reset), Power Down (shutdown processing), and Power Cycle (restart processing). The data is written into the command format loaded in the memory 5.
[0021]
As described above, the command format shown in FIG. 3 is sequentially updated for each task according to the write instruction from the CPU 0. That is, the tasks are sequentially executed from the task 1 to the CPU 0 in the task table shown in FIG. 2, and when the execution of one task is completed, the data is changed to data on the next task.
[0022]
The operation of the present embodiment in such a configuration will be described.
First, the BIOS read from the device group 6 performs the following processing at the same timing as when the first task number 1 shown in FIG. 2 is transmitted from the CPU 0 to a specific port.
[0023]
(1) Wake the CPU 1 (issue a wake interrupt to the CPU 1 to start driving).
(2) Notifying the CPU 1 of the task number (3) Notifying the CPU 1 of the timeout time.
((2) to (3) are executed by the CPU 1 referring to the command format written in the memory 5. The CPU 0 writes the command format shown in FIG. , CPU 1 executes an operation according to the command format).
[0024]
(4) Instruct the CPU 1 to start a timer, and the CPU 1 monitors the time related to the completion status of the task execution of the CPU 0.
In the operation (4), when the CPU 1 does not receive the stop or start / restart command within the time written in the offset 1 of the command format, the CPU 1 executes the time action processing shown in FIG. Further, the task number at the time of timeout is recorded in a nonvolatile memory such as a flash memory so that a failure analysis can be performed later.
[0025]
Then, the tasks subsequent to the task number 2 are sequentially executed. In this case, only the task number is notified as follows.
(5) Notify the CPU of the task number.
(6) Notify the CPU 1 of the timeout time.
(7) Instruct the CPU 1 to start the timer.
(The operations (5) to (7) are executed by the same specific operations as (2) to (4))
Then, the following processing is executed immediately before OS startup, which is the last task shown in FIG.
(8) Instruct CPU 1 to stop timer measurement.
(9) CPU1 shifts to HLT State (operation stop state).
As described above, when the operation of (9) is completed, it is determined that there is no failure, the OS is started, and the operation of the application program of the PC server is started.
As described above, according to the present embodiment, it is possible to execute a fault diagnosis operation in a multiprocessor system without requiring special hardware for fault diagnosis.
[0026]
【The invention's effect】
According to the present invention, a fault diagnosis operation can be performed in a multiprocessor system without requiring special hardware for fault diagnosis.
[Brief description of the drawings]
FIG. 1 is a block diagram illustrating a system configuration of a PC server according to an embodiment of the present invention.
FIG. 2 is a diagram showing contents of a task table in the embodiment.
FIG. 3 is a diagram illustrating a command format during execution of a task according to the embodiment;
FIG. 4 is a diagram illustrating a command format indicating a recovery operation when a failure occurs in the embodiment.
[Explanation of symbols]
DESCRIPTION OF SYMBOLS 1 ... Processor group, 2 ... Host bus, 3 ... North bridge, 4 ... Memory bus, 5 ... Memory, 6 ... Device group, 7 ... South bridge.

Claims (6)

複数のプロセッサを有する情報処理装置において、
障害診断用の複数のタスクを順次実行していく第1のCPUと、
前記第1のCPUが実行しているタスクの実行状況を監視する第2のCPUと、
前記順次実行されるタスクの内容と、このタスクに対応する監視用データをロードするメモリとを有し、
前記第1のCPUは、実行しているタスク毎に監視用データを更新し、前記第2のCPUは前記監視用データの更新状況を参照して、障害の有無を判別することを特徴とする情報処理装置。
In an information processing apparatus having a plurality of processors,
A first CPU for sequentially executing a plurality of tasks for fault diagnosis,
A second CPU for monitoring an execution status of a task executed by the first CPU;
The content of the task to be sequentially executed, and a memory for loading monitoring data corresponding to the task,
The first CPU updates monitoring data for each task being executed, and the second CPU determines the presence or absence of a failure by referring to the update status of the monitoring data. Information processing device.
前記監視用データは、前記タスク処理内容を特定するためのタスク番号と、このタスク番号に応じたタイムアウト値と、タスクの実行状況を示す状況データとを含むことを特徴とする請求項1記載の情報処理装置。2. The monitoring data according to claim 1, wherein the monitoring data includes a task number for specifying the task processing content, a timeout value according to the task number, and status data indicating a task execution status. Information processing device. 前記第2のCPUは、前記タイムアウト値を参照して、前記第1のCPUにより前記タイムアウト値に示す時間内に前記状況データを更新されていない場合、障害が発生したと判断することを特徴とする請求項2記載の情報処理装置。The second CPU refers to the timeout value, and determines that a failure has occurred if the status data has not been updated by the first CPU within the time indicated by the timeout value. 3. The information processing apparatus according to claim 2, wherein 障害診断用の複数のタスクを順次実行していく第1のCPUと、前記第1のCPUが実行しているタスクの実行状況を監視する第2のCPUと、前記順次実行されるタスクの内容と、このタスクに対応する監視用データをロードするメモリとを有する情報処理装置における障害診断方法において、
前記第1のCPUは、実行しているタスク毎に、監視用データを更新し、前記第2のCPUは前記監視用データの更新状況を参照して、障害の有無を判別することを特徴とする障害診断方法。
A first CPU for sequentially executing a plurality of tasks for failure diagnosis, a second CPU for monitoring the execution status of the task being executed by the first CPU, and contents of the task to be sequentially executed And a failure diagnosis method in an information processing apparatus having a memory for loading monitoring data corresponding to the task,
The first CPU updates monitoring data for each task being executed, and the second CPU determines the presence or absence of a failure by referring to an update status of the monitoring data. Failure diagnosis method.
前記監視用データは、前記タスク内容を特定するためのタスク番号と、このタスク番号に応じたタイムアウト値と、タスクの実行状況を示す状況データとを含むことを特徴とする請求項4記載の障害診断方法。The fault according to claim 4, wherein the monitoring data includes a task number for specifying the task content, a timeout value corresponding to the task number, and status data indicating a task execution status. Diagnostic method. 前記第2のCPUは、前記タイムアウト値を参照して、前記第1のCPUにより前記タイムアウト値に示す時間内に前記状況データを更新されていない場合、障害が発生したと判断することを特徴とする請求項5記載の障害診断方法。The second CPU refers to the timeout value, and determines that a failure has occurred if the status data has not been updated by the first CPU within the time indicated by the timeout value. The fault diagnosis method according to claim 5, wherein
JP2003093171A 2003-03-31 2003-03-31 Information processor and method for trouble diagnosis Pending JP2004302731A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003093171A JP2004302731A (en) 2003-03-31 2003-03-31 Information processor and method for trouble diagnosis

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003093171A JP2004302731A (en) 2003-03-31 2003-03-31 Information processor and method for trouble diagnosis

Publications (1)

Publication Number Publication Date
JP2004302731A true JP2004302731A (en) 2004-10-28

Family

ID=33406030

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003093171A Pending JP2004302731A (en) 2003-03-31 2003-03-31 Information processor and method for trouble diagnosis

Country Status (1)

Country Link
JP (1) JP2004302731A (en)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008140072A (en) * 2006-11-30 2008-06-19 Toshiba Tec Corp Electronic device
JP2009110110A (en) * 2007-10-26 2009-05-21 Nec Computertechno Ltd Monitoring control system, monitoring control method and monitoring control program
JP2009193492A (en) * 2008-02-18 2009-08-27 Nec Computertechno Ltd Computer system, information processing method, and program
JP2009251829A (en) * 2008-04-03 2009-10-29 Hagiwara Denki Kk Power source control circuit, computer provided therewith, and power source control method
KR101018373B1 (en) 2008-10-03 2011-03-02 후지쯔 가부시끼가이샤 Computer apparatus, processor diagnostic method, and storage medium storing processor diagnostic control program
JP2013125533A (en) * 2011-12-16 2013-06-24 Nec Corp Information processing device, information processing method, and program
JP2014524627A (en) * 2011-08-24 2014-09-22 マイクロソフト コーポレーション Adaptive detection for early device startup
JP2015064633A (en) * 2013-09-24 2015-04-09 日本電気株式会社 Information processing device, information processing method, and program
JP2020154705A (en) * 2019-03-20 2020-09-24 Necプラットフォームズ株式会社 Information processing device, failure monitoring method, and failure monitoring computer program
CN111791886A (en) * 2019-04-01 2020-10-20 通用汽车环球科技运作有限责任公司 Real-time control system for vehicle and method for performing vehicle control via real-time control system

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008140072A (en) * 2006-11-30 2008-06-19 Toshiba Tec Corp Electronic device
JP2009110110A (en) * 2007-10-26 2009-05-21 Nec Computertechno Ltd Monitoring control system, monitoring control method and monitoring control program
JP2009193492A (en) * 2008-02-18 2009-08-27 Nec Computertechno Ltd Computer system, information processing method, and program
JP2009251829A (en) * 2008-04-03 2009-10-29 Hagiwara Denki Kk Power source control circuit, computer provided therewith, and power source control method
KR101018373B1 (en) 2008-10-03 2011-03-02 후지쯔 가부시끼가이샤 Computer apparatus, processor diagnostic method, and storage medium storing processor diagnostic control program
JP2014524627A (en) * 2011-08-24 2014-09-22 マイクロソフト コーポレーション Adaptive detection for early device startup
JP2013125533A (en) * 2011-12-16 2013-06-24 Nec Corp Information processing device, information processing method, and program
JP2015064633A (en) * 2013-09-24 2015-04-09 日本電気株式会社 Information processing device, information processing method, and program
JP2020154705A (en) * 2019-03-20 2020-09-24 Necプラットフォームズ株式会社 Information processing device, failure monitoring method, and failure monitoring computer program
JP7001236B2 (en) 2019-03-20 2022-01-19 Necプラットフォームズ株式会社 Information processing equipment, fault monitoring method, and fault monitoring computer program
CN111791886A (en) * 2019-04-01 2020-10-20 通用汽车环球科技运作有限责任公司 Real-time control system for vehicle and method for performing vehicle control via real-time control system
CN111791886B (en) * 2019-04-01 2023-10-10 通用汽车环球科技运作有限责任公司 Real-time control system for vehicle and method for performing vehicle control via real-time control system

Similar Documents

Publication Publication Date Title
CN107122321B (en) Hardware repair method, hardware repair system, and computer-readable storage device
TWI446161B (en) Apparatus and method for handling a failed processor of a multiprocessor information handling system
US8250412B2 (en) Method and apparatus for monitoring and resetting a co-processor
US7594144B2 (en) Handling fatal computer hardware errors
JP4222370B2 (en) Program for causing a computer to execute a debugging support apparatus and a debugging processing method
US7007192B2 (en) Information processing system, and method and program for controlling the same
US6763456B1 (en) Self correcting server with automatic error handling
US7984219B2 (en) Enhanced CPU RASUM feature in ISS servers
US10896087B2 (en) System for configurable error handling
US20040181708A1 (en) Policy-based response to system errors occuring during os runtime
US6725396B2 (en) Identifying field replaceable units responsible for faults detected with processor timeouts utilizing IPL boot progress indicator status
US10474517B2 (en) Techniques of storing operational states of processes at particular memory locations of an embedded-system device
CN113672250A (en) Interface and warm reset path for memory device firmware upgrade
CN111708662B (en) Debugging method and device
JP2004302731A (en) Information processor and method for trouble diagnosis
US20050033952A1 (en) Dynamic scheduling of diagnostic tests to be performed during a system boot process
JP2008225929A (en) Information processor
JP4558376B2 (en) controller
US10802901B2 (en) Obtaining state information of threads of a device
JP2015130023A (en) Information recording device, information processor, information recording method and information recording program
CN116627702A (en) Method and device for restarting virtual machine in downtime
US9342359B2 (en) Information processing system and information processing method
JP2001350643A (en) Control method and abnormality monitoring device for microcomputer
JP2009110110A (en) Monitoring control system, monitoring control method and monitoring control program
JPS62212865A (en) Multiprocessor control system

Legal Events

Date Code Title Description
RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20050415

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20050606