JP2013225217A - Multiprocessor system - Google Patents

Multiprocessor system Download PDF

Info

Publication number
JP2013225217A
JP2013225217A JP2012097056A JP2012097056A JP2013225217A JP 2013225217 A JP2013225217 A JP 2013225217A JP 2012097056 A JP2012097056 A JP 2012097056A JP 2012097056 A JP2012097056 A JP 2012097056A JP 2013225217 A JP2013225217 A JP 2013225217A
Authority
JP
Japan
Prior art keywords
failure
data
processor
file system
stored
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2012097056A
Other languages
Japanese (ja)
Other versions
JP5929465B2 (en
Inventor
Hiroki Konno
廣毅 今野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2012097056A priority Critical patent/JP5929465B2/en
Publication of JP2013225217A publication Critical patent/JP2013225217A/en
Application granted granted Critical
Publication of JP5929465B2 publication Critical patent/JP5929465B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

PROBLEM TO BE SOLVED: To provide a multiprocessor system capable of making fault analysis more efficient.SOLUTION: If a fault occurs in a CPU, a fault handling part determines how serious the fault is, collects fault data and analytic data according to the seriousness, and reports the fault to a fault processing part. The fault processing part checks whether a file system is available at the local processor or another processor, and then determines whether the collected data can be stored when the file system is available. When the data cannot be stored, an accessible file server is selected, a virtual file system is mounted, and the collected data is transmitted. After the collected data is stored, a CPU is reset.

Description

以下の実施形態は、マルチプロセッサシステムに関する。   The following embodiments relate to a multiprocessor system.

通常、ルータなどの通信装置は、シェルフに、プロセッサなどを搭載した基板を搭載することによって構成される。このような基板は、シェルフに搭載する構成としては1単位となるので、以下においては、基板Unitと呼ぶ。   Usually, a communication device such as a router is configured by mounting a substrate on which a processor or the like is mounted on a shelf. Since such a substrate is one unit as a configuration to be mounted on the shelf, it is hereinafter referred to as a substrate Unit.

従来の基板Unit上は、機能分散したマルチプロセッサ構成となっている。ところで、基板Unitにおいて、障害が発生した場合には、障害の分析を行い、対策を施すことが要求される。そのためには、障害を解析するためのデータ(障害データ、解析データ等)を取得する必要がある。   The conventional board Unit has a multiprocessor configuration with distributed functions. Incidentally, when a failure occurs in the board unit, it is required to analyze the failure and take measures. For this purpose, it is necessary to acquire data (failure data, analysis data, etc.) for analyzing the failure.

メインプロセッサまたはサブプロセッサ(便宜的にメインとサブのプロセッサに分けて考えるが、機能的に差異があるわけではない)にてWDT(Watch Dog Timeout)など、障害種別が基板Unitにとって深刻なレベルの障害が発生したとする。障害データを収集する際、障害が発生したプロセッサに具備されている、ファイルシステムや不揮発性メモリの障害データ収集用に準備した領域に障害データ、解析データ等が格納される。当該領域が、収集データに対して予め十分な容量を確保できない場合、障害データは最低限のものだけを選択して収集するようにしていた。   WDT (Watch Dog Timeout) and other fault types are serious for the board unit in the main processor or sub-processor (conveniently divided into main and sub-processors for convenience, but not functionally different) Suppose a failure occurs. When fault data is collected, fault data, analysis data, and the like are stored in an area prepared for fault data collection in the file system or nonvolatile memory provided in the processor in which the fault has occurred. When the area cannot secure a sufficient capacity for the collected data in advance, only the minimum trouble data is selected and collected.

サブプロセッサにてWDTなど、障害種別が基板Unitにとって深刻なレベルの障害が発生し、サブプロセッサにファイルシステムが具備されていない場合、障害データを破棄するか、ファイルシステムを持ったプロセッサ(メインプロセッサまたは他のサブプロセッサ)に収集してもらっていた。実際、組み込みシステムでは、コストの関係で全てのプロセッサにファイルシステムを実装しないケースが多い。   If the sub-processor has a serious failure such as WDT, and the sub-processor does not have a file system, discard the fault data or use a processor with a file system (main processor Or other sub-processors). In fact, in embedded systems, there are many cases where a file system is not mounted on all processors due to cost.

従来技術には、ネットワークサーバに障害再現、障害検出及び状態確認を行うためのハードウェアの内容を保存するものがある。   In the prior art, there is one that stores the contents of hardware for performing fault reproduction, fault detection, and status confirmation in a network server.

特開平11−65898号公報Japanese Patent Laid-Open No. 11-65898

従来の技術では以下の問題に対応できない。
(1)プロセッサに具備されたファイルシステムの容量が小さいために、必要最低限のデータだけを収集する場合、からなずしも解析に有効なデータが全て揃っていない事がありうる。
(2)サブプロセッサにファイルシステムが具備されておらず、障害データを破棄してしまう場合、障害解析が困難になる。
(3)サブプロセッサにファイルシステムが具備されておらず、障害データはファイルシステムを持ったプロセッサが収集する場合、ファイルシステムを持ったプロセッサ側のファイルシステムの条件によって収集データのデータ量が左右されてしまい、(1)で記載した問題となってしまう。
Conventional technology cannot cope with the following problems.
(1) Since the capacity of the file system provided in the processor is small, when collecting only the minimum necessary data, it is possible that not all data effective for analysis is available.
(2) If the sub processor does not have a file system and the failure data is discarded, failure analysis becomes difficult.
(3) If the sub-processor does not have a file system and failure data is collected by a processor with a file system, the amount of collected data depends on the conditions of the file system on the processor side with the file system. It becomes the problem described in (1).

以下の実施形態では、障害解析の効率化を促進できるマルチプロセッサシステムを提供する。   In the following embodiments, a multiprocessor system capable of promoting the efficiency of failure analysis is provided.

以下の実施形態の一側面におけるマルチプロセッサシステムは、プロセッサが複数設けられたマルチプロセッサシステムであって、該プロセッサは、発生した障害の深刻度に応じて、障害に関するデータを収集する障害ハンドリング部と、外部のファイルサーバにアクセスするファイルサーバアクセス部と、自プロセッサあるいは前記マルチプロセッサ内の他プロセッサにファイルシステムが搭載されている場合に、該障害に関するデータを格納可能か判断し、格納可能な場合には、該ファイルシステムに該障害に関するデータを格納し、格納不可能な場合には、該ファイルサーバに該障害に関するデータを格納する障害処理部とを備える。   A multiprocessor system according to an aspect of the following embodiment is a multiprocessor system including a plurality of processors, and the processor includes a fault handling unit that collects data related to a fault according to the severity of the fault that has occurred. When the file server access unit for accessing an external file server and the file system is mounted on the own processor or another processor in the multiprocessor, it is determined whether or not data relating to the failure can be stored. Includes a failure processing unit that stores data related to the failure in the file system, and stores data related to the failure in the file server when the data cannot be stored.

以下の実施形態によれば、障害解析の効率化を促進できるマルチプロセッサシステムを提供することができる。   According to the following embodiments, it is possible to provide a multiprocessor system that can promote efficiency of failure analysis.

本実施形態の第1の構成例を説明する図(その1)である。It is FIG. (1) explaining the 1st structural example of this embodiment. 本実施形態の第1の構成例を説明する図(その2)である。It is FIG. (2) explaining the 1st structural example of this embodiment. 本実施形態の第1の構成例を説明する図(その3)である。It is FIG. (3) explaining the 1st structural example of this embodiment. 本実施形態の第1の構成例を説明する図(その4)である。It is FIG. (4) explaining the 1st structural example of this embodiment. 本実施形態の第1の構成例を説明する図(その5)である。It is FIG. (5) explaining the 1st structural example of this embodiment. 本実施形態の第1の構成例を説明する図(その6)である。It is FIG. (6) explaining the 1st structural example of this embodiment. 本実施形態の第1の構成例を説明する図(その7)である。It is FIG. (7) explaining the 1st structural example of this embodiment. 本実施形態の第1の構成例を説明する図(その8)である。It is FIG. (8) explaining the 1st structural example of this embodiment. 本実施形態の第1の構成例を説明する図(その9)である。It is FIG. (9) explaining the 1st structural example of this embodiment. 本実施形態の第1の構成例を説明する図(その10)である。It is FIG. (10) explaining the 1st structural example of this embodiment. 本実施形態の第1の構成例を説明する図(その11)である。It is FIG. (11) explaining the 1st structural example of this embodiment. 本実施形態の第1の構成例を説明する図(その12)である。It is FIG. (12) explaining the 1st structural example of this embodiment. 本実施形態の第1の構成例を説明する図(その13)である。It is FIG. (13) explaining the 1st structural example of this embodiment. 本実施形態の第1の構成例を説明する図(その14)である。It is FIG. (14) explaining the 1st structural example of this embodiment. 本実施形態の第1の構成例を説明する図(その15)である。It is FIG. (15) explaining the 1st structural example of this embodiment. 本実施形態の第1の構成例を説明する図(その16)である。It is FIG. (16) explaining the 1st structural example of this embodiment. 本実施形態の第1の構成例を説明する図(その17)である。It is FIG. (17) explaining the 1st structural example of this embodiment. 本実施形態の第1の構成例を説明する図(その18)である。It is FIG. (18) explaining the 1st structural example of this embodiment. 本実施形態の第2の構成例を説明する図(その1)である。It is FIG. (1) explaining the 2nd structural example of this embodiment. 本実施形態の第2の構成例を説明する図(その2)である。It is FIG. (2) explaining the 2nd structural example of this embodiment. 本実施形態の第2の構成例を説明する図(その3)である。It is FIG. (The 3) explaining the 2nd structural example of this embodiment. 本実施形態の第3の構成例を説明する図(その1)である。It is FIG. (1) explaining the 3rd structural example of this embodiment. 本実施形態の第3の構成例を説明する図(その2)である。It is FIG. (2) explaining the 3rd structural example of this embodiment. 本実施形態の第3の構成例を説明する図(その3)である。It is FIG. (3) explaining the 3rd structural example of this embodiment. 本実施形態を具体的な構成に適用した場合を説明する図(その1)である。It is FIG. (1) explaining the case where this embodiment is applied to a concrete structure. 本実施形態を具体的な構成に適用した場合を説明する図(その2)である。It is FIG. (2) explaining the case where this embodiment is applied to a concrete structure. 本実施形態を具体的な構成に適用した場合を説明する図(その3)である。It is FIG. (3) explaining the case where this embodiment is applied to a concrete structure. 本実施形態を具体的な構成に適用した場合を説明する図(その4)である。It is FIG. (The 4) explaining the case where this embodiment is applied to a concrete structure. 本実施形態を具体的な構成に適用した場合を説明する図(その5)である。It is FIG. (5) explaining the case where this embodiment is applied to a concrete structure.

本実施形態では、障害ハンドリング部で障害解析を行った結果、障害種別が基板Unitにとって深刻なレベル(Watch Dog Timeout(WDTと記載)や命令例外やメモリ例外といったCPUコアのリセットを必要とする深刻なレベル)の障害で、かつ、大量の障害データを必要とする場合の障害データ収集に関して述べる。   In this embodiment, as a result of failure analysis in the failure handling unit, the failure type is a serious level that requires a reset of the CPU core such as Watch Dog Timeout (WDT), instruction exception, and memory exception. The failure data collection when a large amount of failure data is required is described.

基板UNITは、CPUやメモリが搭載された基板の事であり、要求機能ごとに基板の機能が違うためUnitとしている。この基板Unitが機能分散したマルチプロセッサ構成となっているとする。   The board UNIT is a board on which a CPU and a memory are mounted. The board function is different for each required function. It is assumed that the board unit has a multiprocessor configuration in which functions are distributed.

メインプロセッサまたはサブプロセッサにて障害が発生した時、障害ハンドリング部で障害解析を行う。そして、障害種別が基板Unitにとって深刻なレベル(WDTや命令例外やメモリ例外といったCPUコアのリセットを必要とする深刻な障害)であるか否かを自動判断する。そして、深刻なレベルの場合に障害データと解析データを詳細に収集し、軽微な場合は状況に合わせて収集を行なわないことなどする。障害種別が深刻なレベルであったと判断できた場合、障害種別毎に異なる障害データを自動的に選択し、障害種別毎に異なる障害解析に必要なデータ(レジスタ情報、メモリ情報、呼処理情報)を自動的に選択する。その全ての障害データ、解析データ等を収集してからCPUのリセットを行なう。そして、障害データと解析データを収集する際、収集すべき情報のサイズが基板UNIT内の不揮発性メモリ(自プロセッサ配下及び他プロセッサ配下の不揮発性メモリ)に格納しきれるのかをプロセッサ間通信により自動判定する。格納しきれない場合のみ、サブプロセッサ自身が構成可能な仮想ファイルシステムのリストからファイルシステムを選択して、外部のファイルサーバに接続し、障害データを収集保存させる。   When a failure occurs in the main processor or sub processor, the failure handling unit performs failure analysis. Then, it is automatically determined whether or not the failure type is a serious level for the board unit (a serious failure that requires resetting the CPU core such as a WDT, an instruction exception, or a memory exception). Then, failure data and analysis data are collected in detail in the case of a serious level, and collection is not performed according to the situation in a minor case. When it can be determined that the failure type is a serious level, different failure data is automatically selected for each failure type, and data required for failure analysis that differs for each failure type (register information, memory information, call processing information) Is automatically selected. After collecting all the failure data and analysis data, reset the CPU. When collecting fault data and analysis data, whether the size of the information to be collected can be stored in the non-volatile memory in the board UNIT (non-volatile memory under its own processor and other processors) is automatically determined by inter-processor communication. judge. Only when the data cannot be stored, the sub processor selects a file system from the list of virtual file systems that can be configured, connects to an external file server, and collects and stores failure data.

以上により、具備されているファイルシステムや不揮発性メモリ容量の制限に依存することなく、障害データと解析データを収集することができるようになる。   As described above, the failure data and the analysis data can be collected without depending on the limitation of the file system provided and the nonvolatile memory capacity.

したがって、障害種別に対応した、より多くの、障害情報を障害データとして残す事が可能となる。   Therefore, it is possible to leave more failure information corresponding to the failure type as failure data.

これにより、より多くの情報を障害ログとして残す事が可能となり、障害解析がより実施しやすくなり、システムの平均修理時間(MTTR;Mean Time To Repair)を短縮できる。   This makes it possible to leave more information as a failure log, making it easier to perform failure analysis and shortening the mean time to repair (MTTR) of the system.

図1〜図18は、本実施形態の第1の構成例を説明する図である。
第1の構成例では、メインプロセッサ以外のサブプロセッサにて障害が発生し、サブプロセッサにファイルシステム(または不揮発性メモリ)が具備されておらず、メインプロセッサに具備されているが、メインプロセッサ側のファイルシステムの残量が少ない場合を示す。
1 to 18 are diagrams illustrating a first configuration example of the present embodiment.
In the first configuration example, a failure occurs in a sub processor other than the main processor, and the file system (or nonvolatile memory) is not provided in the sub processor, but is provided in the main processor. Indicates the case where the remaining file system is low.

図1においては、基板Unit9は、サブプロセッサ10とメインプロセッサ11からなっているとする。メインプロセッサ11とサブプロセッサ10との区別は便宜的なものであって、同じプロセッサであってよい。ここでは、サブプロセッサ10において障害が発生するとする。サブプロセッサ10のCPU12において、CPUコアが障害を検出すると、これがシステム障害割り込み部12に通知される。システム障害割り込み部12は、割り込み命令を発行するが、障害ハンドリング部14にこれが通知され、障害ハンドリング部14が起動され、後述するような障害分析処理が行われる。なお、障害ハンドリング部14は、CPUが実効する、基板Unitの機能を実現するためのプログラムの実行において障害が発生した場合も起動される。図1のCall処理部22は、メインプログラムのサブルーチンなどの呼び出し処理を行うもので、呼び出し処理において異常が発生した場合に、障害ハンドリング部14を起動する。障害ハンドリング部14の障害分析結果は、障害処理部15に通知される。障害処理部15は、サブプロセッサ10にファイルシステムが無いので、メインプロセッサ11のファイルシステム残量チェック部19に、メインプロセッサ11のファイルシステム20の残量を問い合わせる。ファイルシステム20の残量が少なくて障害データ等を格納できない場合、障害処理部15は、仮想ファイルシステムプロトコル処理部16に、ファイルサーバ21のファイルシステムへのアクセスを要求する。仮想ファイルシステムプロトコル処理部16は、NFS(Network File System)やVFS(Virtual File System)といったプロトコルの処理をする。仮想ファイルシステムプロトコル処理部16でプロトコル処理されたアクセス要求は、ETH(Ethernet)ドライバ17、物理インタフェースPHY18を介して、ファイルサーバ21に通知される。これにより、障害データ等は、ファイルサーバ21のファイルシステムに格納される。障害データ等の格納後、障害処理部15は、CPU12をリセットする。   In FIG. 1, the board Unit 9 is composed of a sub processor 10 and a main processor 11. The distinction between the main processor 11 and the sub-processor 10 is convenient and may be the same processor. Here, it is assumed that a failure occurs in the sub processor 10. In the CPU 12 of the sub-processor 10, when the CPU core detects a failure, this is notified to the system failure interrupt unit 12. The system fault interrupt unit 12 issues an interrupt command, which is notified to the fault handling unit 14, the fault handling unit 14 is activated, and a fault analysis process as described later is performed. The failure handling unit 14 is also activated when a failure occurs in the execution of the program for realizing the function of the board unit, which is executed by the CPU. The Call processing unit 22 in FIG. 1 performs a calling process such as a subroutine of the main program, and activates the failure handling unit 14 when an abnormality occurs in the calling process. The failure analysis result of the failure handling unit 14 is notified to the failure processing unit 15. Since the sub processor 10 does not have a file system, the failure processing unit 15 inquires of the file system remaining amount check unit 19 of the main processor 11 about the remaining amount of the file system 20 of the main processor 11. When the remaining amount of the file system 20 is small and failure data cannot be stored, the failure processing unit 15 requests the virtual file system protocol processing unit 16 to access the file system of the file server 21. The virtual file system protocol processing unit 16 processes protocols such as NFS (Network File System) and VFS (Virtual File System). The access request processed by the virtual file system protocol processing unit 16 is notified to the file server 21 via the ETH (Ethernet) driver 17 and the physical interface PHY18. Thereby, the failure data and the like are stored in the file system of the file server 21. After storing the failure data or the like, the failure processing unit 15 resets the CPU 12.

システム障害割り込み部13は、障害ハンドリング部14を起動する。障害ハンドリング部14は、障害分析を実施し、CPUのリセットを必要とするような深刻な障害の判断を行う深刻度を自動判断する。また、深刻なレベルならデータ収集し、深刻でない場合はデータ収集を実施しないことにする。さらに、深刻なレベルの障害要因によって(WDTや命令例外やメモリ例外などの要因によって)、それぞれに有効な障害データを自動選択し、深刻なレベルの障害要因によって、それぞれの解析に必要なデータ(レジスタ情報、メモリ情報、呼処理情報)を自動選択する。そして、障害ハンドリング部14は、障害処理部を起動する。   The system failure interrupt unit 13 activates the failure handling unit 14. The fault handling unit 14 performs a fault analysis and automatically determines a seriousness degree for determining a serious fault that requires a CPU reset. Data is collected if it is a serious level, and data is not collected if it is not serious. Furthermore, depending on the serious level of failure factor (by factors such as WDT, instruction exception, memory exception, etc.), the effective failure data is automatically selected for each, and the data required for each analysis by the serious level of failure factor ( Register information, memory information, call processing information). Then, the failure handling unit 14 activates the failure processing unit.

図2は、システム障害割り込み部と障害ハンドリング部の動作を示すフローチャートである。   FIG. 2 is a flowchart showing the operations of the system fault interrupt unit and the fault handling unit.

CPUで障害が検出されると、システム障害割り込み部は、障害割り込み番号によって、起動するプログラムをVector Table化して保持しているので、ステップS11で、障害の種別が分かるindex値を用いて障害ハンドリング部を起動する。また、システム障害割り込み部からの起動とは別に、Call処理において障害が発生した場合にも、障害ハンドリング部が起動される。ステップS12において、Call処理において異常を検出した際には、障害種別が分かるindex値を用いて、障害ハンドリング部を起動する。   When a failure is detected in the CPU, the system failure interrupt unit stores the program to be activated as a vector table based on the failure interrupt number. In step S11, the failure handling is performed using an index value that indicates the type of failure. Start the department. In addition to the activation from the system failure interrupt unit, the failure handling unit is also activated when a failure occurs in the call processing. In step S12, when an abnormality is detected in the call process, the fault handling unit is activated using an index value that indicates the fault type.

障害ハンドリング部では、ステップS13において、障害の深刻度を自動判定する。ステップS14で障害の深刻度に応じて、障害データを収集するか否かを判断する。深刻度が大きければデータを収集し、深刻度が小さければデータ収集しないとする。ここで、システム障害割り込み部からの障害ハンドリング部の起動は深刻な障害と判断し、Call処理部からの起動は軽微な障害と判断する。そして、深刻な障害と軽微な障害の双方について、深刻度を調べ、データを収集するか判断する。ステップS14で、障害データを収集しないと判断された場合には、ステップS17に進む。ステップS14で、障害データを収集すると判断された場合には、ステップS15において、収集障害データ自動選択処理を行い、ステップS16において、収集解析データ自動選択処理を行い、ステップS17に進む。ステップS17では、データ収集の有無、障害データ種別、解析データ種別とともに、障害通知を障害処理部に行う。なお、ステップS13、S15、S16の詳細は以下に述べる。   In step S13, the fault handling unit automatically determines the severity of the fault. In step S14, it is determined whether or not to collect failure data according to the severity of the failure. Data is collected if the severity is high, and data is not collected if the severity is low. Here, activation of the fault handling unit from the system fault interrupt unit is determined as a serious failure, and activation from the Call processing unit is determined as a minor failure. Then, for both serious and minor obstacles, the severity is examined to determine whether data is collected. If it is determined in step S14 that failure data is not collected, the process proceeds to step S17. If it is determined in step S14 that failure data is to be collected, collection failure data automatic selection processing is performed in step S15, collection analysis data automatic selection processing is performed in step S16, and the process proceeds to step S17. In step S17, failure notification is sent to the failure processing unit together with the presence / absence of data collection, failure data type, and analysis data type. Details of steps S13, S15, and S16 will be described below.

図3及び図4は、深刻度自動判定処理を説明する図である。
図4は、深刻度判定テーブルの例を説明する図である。
3 and 4 are diagrams illustrating the automatic severity determination process.
FIG. 4 is a diagram illustrating an example of the severity determination table.

障害が発生すると、障害ハンドリング部に障害番号が通知されるが、この障害番号と起動するプログラムの格納されているアドレスとが対応付けられており、このアドレスをVectorアドレスと呼ぶ。深刻度判定テーブルは、システム障害用と軽微な障害用とが設けられる。(1)のシステム障害用深刻度判定テーブルでは、Vectorアドレスをインデックスとして、障害データを収集するか否かを示すフラグと、障害深刻度を示す数値が予め格納されている。(2)の軽微な障害用深刻度判定テーブルにおいては、障害種別をインデックスとして、障害データを収集するか否かを示すフラグと、障害深刻度を示す数値が予め格納されている。   When a failure occurs, a failure number is notified to the failure handling unit. This failure number is associated with an address where a program to be started is stored, and this address is called a vector address. The seriousness determination table is provided for system failures and minor failures. In the system failure severity determination table (1), a flag indicating whether or not failure data is collected and a numerical value indicating the failure severity are stored in advance using the vector address as an index. In the minor failure severity determination table (2), a failure type is used as an index, and a flag indicating whether or not failure data is collected and a numerical value indicating the failure severity are stored in advance.

図3のフローチャートにおいて、ステップS20で、発生した障害がシステム障害割り込み部からの例外割り込みなどのシステム障害か、Call処理部からの障害かを判断する。Call処理部からの障害は、軽微な障害と判断する。   In the flowchart of FIG. 3, in step S20, it is determined whether the failure that has occurred is a system failure such as an exception interrupt from the system failure interrupt unit or a failure from the Call processing unit. A failure from the call processing unit is determined to be a minor failure.

ステップS20で、例外割り込みなどのシステム障害と判断された場合には、ステップS21で、システム障害用深刻度判定テーブル(図4の(1))を、受け取ったVectorアドレスをインデックスとして参照する。ステップS22において、障害データ収集フラグがONか否かを判断する。ステップS22の判断で、当該フラグがONと判断された場合には、ステップS23において、障害深刻度のデータを返り値として返して、処理を終了する。ステップS22の判断で、当該フラグがOFFであると判断された場合には、ステップS24で、障害深刻度のデータを0として、返り値として返して、処理を終了する。   If it is determined in step S20 that there is a system failure such as an exception interrupt, in step S21, the system failure severity determination table ((1) in FIG. 4) is referred to using the received vector address as an index. In step S22, it is determined whether the failure data collection flag is ON. If it is determined in step S22 that the flag is ON, failure severity data is returned as a return value in step S23, and the process ends. If it is determined in step S22 that the flag is OFF, the failure severity data is set to 0 and returned as a return value in step S24, and the process ends.

ステップS20において、障害が軽微な障害であると判断された場合には、ステップS25において、軽微な障害用深刻度判定テーブル(図4の(2))を、障害種別をインデックスとして参照する。ステップS26において、障害データ収集フラグがONか否かを判断する。ステップS26で、当該フラグがONと判断された場合には、ステップS27において、深刻度データを返り値として返して、処理を終了する。ステップS26で、当該フラグがOFFと判断された場合には、ステップS28において、深刻度データを0として、返り値として返して、処理を終了する。   If it is determined in step S20 that the failure is a minor failure, in step S25, the minor failure seriousness determination table ((2) in FIG. 4) is referenced using the failure type as an index. In step S26, it is determined whether the failure data collection flag is ON. If it is determined in step S26 that the flag is ON, the severity data is returned as a return value in step S27, and the process ends. If it is determined in step S26 that the flag is OFF, in step S28, the severity data is set to 0 and returned as a return value, and the process ends.

図5及び図6は、収集障害データ自動選択処理を説明する図である。
図6は、システム障害用収集障害データテーブルの例を説明する図である。ここでは、2次テーブル構造のテーブルの例を示すが、1次構造であってもよい。(1)のテーブルは、深刻度データをインデックスとして、(2)のテーブルのインデックスを示すVectorアドレスと、そのアドレスの有効ビットを格納する。アドレスの有効ビットは、登録されているVectorアドレスが有効なものであるか否かを示す。(2)のテーブルは、(1)のテーブルで得られるVectorアドレスをインデックスとして、障害データとその有効ビットが格納される。障害データは、発生した障害の内容を示すデータである。
5 and 6 are diagrams for explaining the collection failure data automatic selection process.
FIG. 6 is a diagram illustrating an example of a system failure collection failure data table. Here, an example of a table having a secondary table structure is shown, but a primary structure may be used. The table of (1) stores the vector address indicating the index of the table of (2) and the valid bit of the address using the severity data as an index. The valid bit of the address indicates whether or not the registered vector address is valid. The table (2) stores failure data and its valid bits using the vector address obtained in the table (1) as an index. The failure data is data indicating the content of the failure that has occurred.

図5のフローチャートにおいて、ステップS30では、障害がシステム障害か軽微な障害かを判断する。ステップS30で、システム障害と判断された場合には、ステップS31において、図6(1)と(2)のシステム障害用収集障害データテーブルを深刻度データとVectorアドレスをインデックスとして参照する。ステップS30において、軽微な障害と判断された場合には、ステップS32において、軽微な障害用収集障害データテーブルを深刻度データと障害種別をインデックスとして参照する。図6には、システム障害用収集障害データテーブルしか示していないが、軽微な障害用収集障害データテーブルにおいては、図6の(1)のテーブルが深刻度データをインデックスとして、障害種別を格納するものとなる。また、同様に、図6の(2)のテーブルが、障害種別をインデックスとして、障害データを格納するものとなる。ステップS33では、収集障害データの情報を返り値として返して処理を終了する。   In the flowchart of FIG. 5, in step S30, it is determined whether the failure is a system failure or a minor failure. If it is determined in step S30 that a system failure has occurred, in step S31, the system failure collection failure data table shown in FIGS. 6A and 6B is referred to using the severity data and the vector address as indexes. If it is determined in step S30 that the fault is minor, in step S32, the minor fault collected fault data table is referenced using the severity data and the fault type as an index. FIG. 6 shows only the system failure collection failure data table, but in the case of a minor failure collection failure data table, the table (1) in FIG. 6 stores the failure type with the severity data as an index. It will be a thing. Similarly, the table of (2) in FIG. 6 stores failure data using the failure type as an index. In step S33, the collection failure data information is returned as a return value, and the process is terminated.

図7及び図8は、解析データ自動選択処理を説明する図である。
図8は、システム障害用解析データテーブルの例を説明する図である。ここでは、2次テーブル構造のテーブルを示しているが、1次構造のものであっても良い。図8の(1)のテーブルは、深刻度データをインデックスとして、図8の(2)のテーブルのインデックスであるVectorアドレスと、そのアドレスの有効ビットを格納する。アドレスの有効ビットは、登録されているVectorアドレスが有効なものであるか否かを示す。図8の(2)のテーブルは、図8の(1)のテーブルで得られるVectorアドレスをインデックスとして、解析データとその有効ビットを格納する。解析データは、発生した障害において、どのようなハードウェアの動作が行われていたかを示すデータである。解析データは、障害の解析に用いられる。
7 and 8 are diagrams for explaining the analysis data automatic selection process.
FIG. 8 is a diagram illustrating an example of a system failure analysis data table. Here, a table having a secondary table structure is shown, but a table having a primary structure may be used. The table of (1) in FIG. 8 stores the vector address which is the index of the table of (2) in FIG. 8 and the valid bit of the address, using the severity data as an index. The valid bit of the address indicates whether or not the registered vector address is valid. The table of (2) in FIG. 8 stores analysis data and its valid bits using the vector address obtained in the table of (1) of FIG. 8 as an index. The analysis data is data indicating what kind of hardware operation was performed in the failure that occurred. The analysis data is used for failure analysis.

図7において、ステップS35で、障害がシステム障害か軽微な障害かを判断する。ステップS35の判断で、システム障害と判断された場合には、ステップS36において、システム障害用解析データテーブルを深刻度データとVectorアドレスをインデックスとして参照する。ステップS35の判断で、軽微な障害と判断された場合には、ステップS37で、軽微な障害用解析データテーブルを深刻度データと障害種別をインデックスとして参照する。図8には、システム障害用解析データテーブルしか示していないが、軽微な障害用解析データテーブルにおいては、図8の(1)のテーブルが深刻度データをインデックスとして、障害種別を格納するものとなる。また、同様に、図8の(2)のテーブルが、障害種別をインデックスとして、解析データを格納するものとなる。ステップS38において、解析データを返り値として返して、処理を終了する。   In FIG. 7, it is determined in step S35 whether the failure is a system failure or a minor failure. If it is determined in step S35 that there is a system failure, in step S36, the system failure analysis data table is referenced using the severity data and the vector address as an index. If it is determined in step S35 that the failure is minor, in step S37, the minor failure analysis data table is referred to using the severity data and the failure type as an index. FIG. 8 shows only the system failure analysis data table, but in the case of a minor failure analysis data table, the table (1) in FIG. 8 stores the failure type using the severity data as an index. Become. Similarly, the table of (2) in FIG. 8 stores analysis data using the failure type as an index. In step S38, the analysis data is returned as a return value, and the process ends.

障害処理部は、障害ハンドリング部から渡された情報から収集データサイズを計算する。また、自プロセッサ配下にファイルシステムが存在するかを判断し、存在する際は、その残量によってデータが収集可能か否かを判断する。自プロセッサ配下にファイルシステムが存在しない場合、他のプロセッサ配下にファイルシステムが存在するかを判断し、存在する際はデータが収集可能か否かを判断する。他のプロセッサ配下にファイルシステムが存在する場合、他プロセッサのファイルシステムの残量がデータを格納可能なだけ存在するか判断するために、プロセッサ間通信にて他のプロセッサ配下のファイルシステムの残量をチェックする。チェックの結果を返り値として返し、データが収集可能か否を判断する。仮想ファイルシステムを接続する先のリストデータから優先度の高いものからファイルシステムを選択する。また、システムCallを使用し、仮想ファイルシステムのプロトコル(NFSやVFS)経由でLANから先のファイルサーバ上のファイルシステムをマウントする。障害要因と障害データを、自プロセッサ配下の不揮発性メモリ/他プロセッサ配下の不揮発性メモリ/仮想ファイルシステムのいずれかに出力する。障害要因と障害データの出力が完了するまで待って、CPUにリセット信号を出し、リセットする。   The failure processing unit calculates the collected data size from the information passed from the failure handling unit. In addition, it is determined whether a file system exists under its own processor, and if it exists, it is determined whether data can be collected based on the remaining amount. If the file system does not exist under its own processor, it is determined whether the file system exists under another processor, and if it exists, it is determined whether data can be collected. When there is a file system under another processor, the remaining amount of the file system under the other processor is determined by inter-processor communication in order to determine whether the remaining amount of the file system of the other processor is large enough to store data. Check. The check result is returned as a return value, and it is determined whether data can be collected. A file system is selected from the list data to which the virtual file system is connected from the list data with the highest priority. In addition, the system Call is used to mount the file system on the file server ahead of the LAN via the virtual file system protocol (NFS or VFS). The failure factor and the failure data are output to any one of the non-volatile memory under the own processor / non-volatile memory under the other processor / virtual file system. Wait until the cause of the failure and the output of the failure data are complete, then issue a reset signal to the CPU to reset it.

図9は、障害処理部の処理の流れを示すフローチャートである。
障害ハンドリング部から障害処理部が起動されると、ステップS40において、障害ハンドリング部から渡された情報から、収集データサイズを計算する。ステップS41において、自プロセッサ、あるいは、他プロセッサの不揮発性メモリに格納可能か問い合わせる。他プロセッサのファイルシステムの格納領域の残量は、プロセッサ間通信で問い合わせる。
FIG. 9 is a flowchart showing the flow of processing of the failure processing unit.
When the failure processing unit is activated from the failure handling unit, the collected data size is calculated from the information passed from the failure handling unit in step S40. In step S41, an inquiry is made as to whether data can be stored in the non-volatile memory of its own processor or another processor. The remaining amount of the storage area of the file system of another processor is inquired by inter-processor communication.

ステップS42において、データの収集が不可能と判断された場合には、ステップS43において、仮想ファイルシステムを接続する先のファイルサーバ接続先リストからファイルサーバを選択し、ステップS44において、仮想ファイルシステムをマウントする。ステップS45において、仮想ファイルシステムに障害要因、障害データ、障害解析用データを出力し、ステップS46に進む。   If it is determined in step S42 that data cannot be collected, a file server is selected from the file server connection destination list to which the virtual file system is connected in step S43, and the virtual file system is selected in step S44. Mount. In step S45, the failure factor, failure data, and failure analysis data are output to the virtual file system, and the process proceeds to step S46.

ステップS42において、データ収集可能と判断された場合には、ステップS48において、収集先が自プロセッサか他プロセッサかを判断する。ステップS48の判断で、自プロセッサに格納する場合には、ステップS49において、自プロセッサの不揮発性メモリに障害要因、障害データ、障害解析用データを出力する。ステップS48の判断で、他プロセッサに格納する場合には、ステップS50において、他プロセッサの不揮発性メモリに、障害要因、障害データ、障害解析用データを出力する。なお、ステップS48で自プロセッサ、他プロセッサのいずれを選ぶかは次の図10で説明する処理の結果による。   If it is determined in step S42 that data can be collected, it is determined in step S48 whether the collection destination is the local processor or another processor. If it is determined in step S48 that the data is to be stored in its own processor, in step S49, the failure factor, failure data, and failure analysis data are output to the nonvolatile memory of the own processor. If it is determined in step S48 that the data is stored in another processor, in step S50, the failure factor, the failure data, and the failure analysis data are output to the non-volatile memory of the other processor. Whether to select the own processor or another processor in step S48 depends on the result of the process described in FIG.

ステップS46において、障害要因、障害データ、障害解析用データの出力が完了するのを待ち、ステップS47において、CPUをリセットする。   In step S46, it waits for the output of the failure factor, failure data, and failure analysis data to be completed, and in step S47, the CPU is reset.

図10は、自プロセッサ/他プロセッサ不揮発性メモリ格納可能選択処理のフローチャートである。   FIG. 10 is a flowchart of the self-processor / other processor non-volatile memory storable selection process.

ステップS55において、自プロセッサにファイルシステムがあるか否かを判断する。ステップS55で、無いと判断された場合には、ステップS56において、他プロセッサにファイルシステムがあるか否かを判断する。ステップS56の判断で、有りとなった場合には、ステップS57において、他プロセッサのファイルシステムの残量をプロセッサ間通信でチェックする。ステップS58において、残量があるか否かを判断する。ステップS58の判断で、無いと判断された場合には、ステップS59において、データ収集不可能という判断を返り値として返して処理を終了する。ステップS58の判断で、有りと判断された場合には、ステップS60において、他プロセッサでデータ収集可能という判断を返り値として返して処理を終了する。   In step S55, it is determined whether or not the own processor has a file system. If it is determined in step S55 that there is no file, it is determined in step S56 whether the other processor has a file system. If YES in step S56, the remaining file system remaining capacity of other processors is checked by inter-processor communication in step S57. In step S58, it is determined whether there is a remaining amount. If it is determined in step S58 that there is no data, in step S59, a determination that data collection is impossible is returned as a return value, and the process is terminated. If it is determined in step S58 that the data is present, in step S60, a determination that data can be collected by another processor is returned as a return value, and the process ends.

ステップS56の判断で、他プロセッサにファイルシステムがないと判断された場合には、ステップS61において、データ収集不可能という判断を返り値として返して処理を終了する。   If it is determined in step S56 that there is no file system in another processor, in step S61, a determination that data collection is impossible is returned as a return value, and the process is terminated.

ステップS55の判断で、自プロセッサにファイルシステムがあると判断された場合には、ステップS62において、入力されたファイルのサイズと自プロセッサのファイルシステムの残量とを比較する。ステップS63において、残量が十分か否かを判断する。ステップS63の判断で、残量が不十分となった場合には、ステップS64において、データ収集不可能という判断を返り値として返して処理を終了する。ステップS63の判断で、残量が十分となった場合には、ステップS65で、自プロセッサでデータを収集可能という判断を返り値として返して処理を終了する。   If it is determined in step S55 that the processor has a file system, the input file size is compared with the remaining amount of the file system of the processor in step S62. In step S63, it is determined whether the remaining amount is sufficient. If it is determined in step S63 that the remaining amount is insufficient, a determination that data collection is impossible is returned as a return value in step S64, and the process ends. If it is determined in step S63 that the remaining amount is sufficient, in step S65, a determination that data can be collected by the own processor is returned as a return value, and the process ends.

図11は、他プロセッサファイルシステム残量チェック処理(図9のステップS41)のフローチャートである。   FIG. 11 is a flowchart of the remaining processor file system remaining amount check process (step S41 in FIG. 9).

ステップS70において、要求元の自プロセッサから要求先の他プロセッサに、プロセッサ間通信で、ファイルシステムの残量のチェックリクエストを送信する。ステップS71において、他プロセッサでは、ファイルシステムの残量のチェックリクエストを受信する。ステップS72において、必要なファイルサイズをチェックする。ステップS73において、他プロセッサは、チェック結果をプロセッサ間通信で自プロセッサに通知する。ステップS74において、自プロセッサは、プロセッサ間通信で結果を受信し、ステップS75において、結果を返り値として返して処理を終了する。   In step S70, a request for checking the remaining capacity of the file system is transmitted from the requesting processor to the requesting other processor through inter-processor communication. In step S71, the other processor receives a request for checking the remaining capacity of the file system. In step S72, the necessary file size is checked. In step S73, the other processor notifies the self processor of the check result through inter-processor communication. In step S74, the processor itself receives the result through inter-processor communication, and returns the result as a return value in step S75, and ends the process.

図12及び図13は、仮想ファイルシステムの選択処理(図9のステップS43)を説明する図である。   12 and 13 are diagrams for explaining the virtual file system selection process (step S43 in FIG. 9).

図13は、仮想ファイルシステムの接続先ファイルサーバリストの例を示す図である。接続先のファイルサーバのIPアドレスと優先度を対にしてリストに登録する。これらの仮想ファイルシステムを接続する先のファイルサーバのリストはCPUのプログラムが参照可能なリスト形式のデータでRAMに格納される。リスト内の接続先のうち数個はデフォルト接続先としてシステム固定で準備する。このデータは、システムが立ち上がった際、RAM上にロードする。   FIG. 13 is a diagram illustrating an example of the connection destination file server list of the virtual file system. Register the IP address and priority of the file server to connect to the list. A list of file servers to which these virtual file systems are connected is stored in the RAM in list format data that can be referred to by the CPU program. Several of the connection destinations in the list are prepared as system defaults. This data is loaded onto the RAM when the system is started up.

優先度は以下の考え方で決定する。
・デフォルトのシステム固定データ(ROMプログラム内のデータで用意する)の時点で0-10の優先度をつけておく(数字が小さいほど優先度が高い)。
・システムが立ち上がった際、RAM上にロードして、リスト形式のデータを形成する。その後、リストの先頭のIPアドレスからpingを送信し、hop数の少ないものが近いサーバとして、「優先度×hop数の値」が小さいものからリストの並べ替えを行い、リストの先頭ほど優先度が高くなるようにする。次に優先度の高いものの選択はリストデータの先頭からデータを検索することで選択できる。
The priority is determined based on the following concept.
-At the time of default system fixed data (prepared by data in ROM program), give a priority of 0-10 (the smaller the number, the higher the priority).
When the system starts up, it is loaded onto the RAM to form list format data. Then, ping is sent from the IP address at the top of the list, and the server with the smaller number of hops is the closest server, and the list is rearranged from the one with the smaller “priority x hop number”. To be higher. The next highest priority can be selected by searching for data from the top of the list data.

図12において、ステップS80では、仮想ファイルサーバの接続先ファイルサーバリストテーブルを検索し、ステップS81で、仮想ファイルサーバ接続先ファイルサーバリストテーブルの先頭からIPアドレスを取り出す。ステップS82において、取得したIPアドレスにpingを送信し、返信を得ることができるかチェックする。ステップS83で、pingの送信がOKならば、ステップS84において、当該IPアドレスの仮想ファイルサーバを接続対象とする。ステップS83において、pingの送信がNGならば、ステップS80に戻る。   12, in step S80, the connection destination file server list table of the virtual file server is searched, and in step S81, the IP address is extracted from the head of the virtual file server connection destination file server list table. In step S82, a ping is sent to the acquired IP address to check whether a reply can be obtained. If the ping transmission is OK in step S83, the virtual file server with the IP address is set as the connection target in step S84. If the ping transmission is NG in step S83, the process returns to step S80.

図14〜図16は、仮想ファイルサーバの接続先ファイルサーバリストテーブルの生成方法を説明する図である。   14 to 16 are diagrams for explaining a method of generating a connection destination file server list table of the virtual file server.

図16は、デフォルトのファイルサーバのIPアドレスの固定データの例を示す。図16においては、接続先ファイルサーバのIPアドレスがリストアップされ、仮の優先度が高いものが、リストの上のほうに登録されている。これは、デフォルトのリストであるため、システムの設計時に予め作成しておくもので、ROMなどに格納される。   FIG. 16 shows an example of fixed data of the IP address of the default file server. In FIG. 16, the IP address of the connection destination file server is listed, and the one with a high temporary priority is registered at the top of the list. Since this is a default list, it is created in advance at the time of designing the system, and is stored in a ROM or the like.

図14のフローチャートにおいて、ステップS89では、デフォルトのファイルサーバリストのIPアドレスの固定データを読み込む。ステップS90において、デフォルトのファイルサーバのIPアドレスの固定データを先頭から1つ読み出す。ステップS91において、読み出したIPアドレス宛にpingを送信し、ステップS92で、正常に返信が得られるか判断する。ステップS92で、正常に返信が得られない場合には、ステップS89に戻る。ステップS92で、正常に返信が得られる場合には、ステップS93において、pingの結果受け取ったhop数を取得する。ステップS94において、(データのインデックス値(仮優先度))×(hop数の値)=(本優先度)として、当該IPアドレスをワークエリアに格納し、ステップS89に戻る。ステップS89からステップS94の処理を、デフォルトリストの全ての固定データにあるIPアドレスについて行ったら、ステップS95において、ワークエリアの情報を、本優先度の順番で並び替えながら、仮想ファイルサーバの接続先ファイルサーバリストテーブルを生成する。   In the flowchart of FIG. 14, in step S89, the fixed data of the IP address of the default file server list is read. In step S90, one fixed data of the default file server IP address is read from the head. In step S91, a ping is transmitted to the read IP address. In step S92, it is determined whether a reply can be normally obtained. If a reply cannot be obtained normally in step S92, the process returns to step S89. If a reply is normally obtained in step S92, the number of hops received as a result of the ping is acquired in step S93. In step S94, (data index value (temporary priority)) × (hop number value) = (main priority) is stored in the work area, and the process returns to step S89. When the processing from step S89 to step S94 is performed for the IP addresses in all the fixed data in the default list, in step S95, the virtual file server connection destinations are rearranged while rearranging the work area information in this priority order. Generate a file server list table.

図15のオペレーション処理は、ユーザからの操作を受け付ける処理という意味である。図15において、ステップS96では、ユーザからの操作により、追加変更したい仮想ファイルシステムの接続先を受け付ける。ステップS97において、受け付けたIPアドレスに対し、pingを送信する。ステップS98において、pingの返信が正常に受け取れたか否かを判断する。pingの返信を正常に受け取れた場合には、ステップS99において、pingの結果からhop数を取得する。ステップS100において、(データのインデックス値(仮優先度))×(hop数の値)=(本優先度)として、当該IPアドレスをワークエリアに格納し、ステップS102に進む。ステップS98で、pingの返信が正常に受け取れなかった場合には、ステップS101において、当該IPアドレスは、追加、変更できない旨をユーザに通知して(表示して)ステップS102に進む。ステップS102では、ワークエリアの情報を本優先度の順番で並び替えながら、仮想ファイルサーバの接続先ファイルサーバリストテーブルを生成して、処理を終了する。   The operation process of FIG. 15 means a process of accepting an operation from the user. In FIG. 15, in step S96, the connection destination of the virtual file system to be added or changed is received by an operation from the user. In step S97, ping is transmitted to the accepted IP address. In step S98, it is determined whether a ping reply has been received normally. If the ping reply can be received normally, the number of hops is acquired from the ping result in step S99. In step S100, the IP address is stored in the work area as (data index value (temporary priority)) × (value of hop number) = (main priority), and the process proceeds to step S102. In step S98, if the ping reply cannot be received normally, in step S101, the user is notified (displayed) that the IP address cannot be added or changed, and the process proceeds to step S102. In step S102, the virtual file server connection destination file server list table is generated while the work area information is rearranged in the order of the priorities, and the process ends.

図17は、第1の構成例の全体動作を示す図である。
まず、CPUで障害が発生するとする(1)。すると、システム障害割り込み部を介して、障害ハンドリング部にシステム障害が通知される(2)。障害ハンドリング部では、障害の深刻度自動判定部、収集障害データ自動選択部、収集解析データ自動選択部の処理を行い、障害処理部に障害通知を行う。障害処理部では(3)、障害データの収集サイズの計算を行う。そして、自プロセッサにファイルシステムがあるか、および、他プロセッサにファイルシステムがあるかを判断する。他プロセッサ(例えば、メインプロセッサ)にファイルシステムがある場合には、他プロセッサのファイルシステムの残量を、プロセッサ間通信でチェックする。今、他プロセッサのファイルシステムに残量が十分ないと判断されたとする。すると、つぎに、接続先ファイルサーバリストデータを参照して、リストから接続先のファイルサーバを選択する。そして、仮想ファイルシステムをマウントして、仮想ファイルシステムに、障害要因、障害データ、障害解析用データを出力する。データの出力完了を待って、CPUをリセットする。
FIG. 17 is a diagram illustrating the overall operation of the first configuration example.
First, assume that a failure occurs in the CPU (1). Then, a system fault is notified to the fault handling unit via the system fault interrupt unit (2). The fault handling unit performs processing of a fault severity automatic determination unit, a collected fault data automatic selection unit, and a collected analysis data automatic selection unit, and notifies the fault processing unit of faults. In the failure processing unit (3), the collection size of failure data is calculated. Then, it is determined whether the own processor has a file system and whether another processor has a file system. When there is a file system in another processor (for example, main processor), the remaining amount of the file system of the other processor is checked by inter-processor communication. Assume that it is determined that there is not enough remaining capacity in the file system of another processor. Then, referring to the connection destination file server list data, the connection destination file server is selected from the list. Then, the virtual file system is mounted, and the failure factor, failure data, and failure analysis data are output to the virtual file system. Wait for the data output to complete and reset the CPU.

図18は、第1の構成例の一連の処理の流れを示すシーケンス図である。
CPUで障害検出が起こると、障害ハンドリング部では、障害解析、障害深刻度自動判定、収集障害データ自動選択、収集解析データ自動選択を行い、障害通知を障害処理部に行う。なお、収集障害データ自動選択と収集解析データ自動選択は、深刻度にしたがって、処理を分岐して、異なる処理を行う。
FIG. 18 is a sequence diagram illustrating a flow of a series of processes in the first configuration example.
When failure detection occurs in the CPU, the failure handling unit performs failure analysis, automatic determination of failure severity, automatic collection failure data selection, automatic collection analysis data selection, and sends failure notification to the failure processing unit. Note that the collection failure data automatic selection and the collection analysis data automatic selection branch different processes according to the severity and perform different processes.

障害処理部では、障害通知を受け付けると、自プロセッサ/他プロセッサの不揮発性メモリに障害データや解析データが格納可能か否かを問い合わせる。自プロセッサ/他プロセッサ不揮発性メモリ格納可能判断部では、自プロセッサにファイルシステムがあるか、及び、他プロセッサにファイルシステムがあるかを判断する。今の場合、他プロセッサにファイルシステムがあるとする。すると、ファイルシステム残量チェック部が、プロセッサ間通信で他プロセッサ(メインプロセッサ)にファイルシステムの残量のチェックを依頼する。メインプロセッサのファイルシステム残量チェック部では、残量チェック依頼を受け、必要ファイルサイズをチェックし、不揮発性メモリにアクセスして残量を取得し、結果を自プロセッサ(サブプロセッサ)に通知する。サブプロセッサの自プロセッサ/他プロセッサ不揮発性メモリ格納可能判断部は、残量が十分あるか判断する。今の場合、残量が不十分であるとする。すると、障害処理部にデータを収集しきれない旨の通知が行われる。障害処理部では、接続先ファイルサーバリストデータを参照し、リストからファイルサーバを選択し、仮想ファイルシステムをマウントし、ファイルサーバのファイルシステムにアクセスする。そして、障害要因、障害データ及び解析データをファイルサーバのファイルシステムに出力し、CPUをリセットする。   When receiving a failure notification, the failure processing unit inquires whether failure data or analysis data can be stored in the non-volatile memory of its own processor / other processor. The own processor / other processor non-volatile memory storage possibility determination unit determines whether the own processor has a file system and whether the other processor has a file system. In this case, assume that another processor has a file system. Then, the file system remaining amount check unit requests another processor (main processor) to check the remaining amount of the file system through inter-processor communication. The file system remaining amount check unit of the main processor receives the remaining amount check request, checks the necessary file size, obtains the remaining amount by accessing the nonvolatile memory, and notifies the own processor (sub processor) of the result. The sub processor's own processor / other processor non-volatile memory storage possibility determination unit determines whether the remaining amount is sufficient. In this case, it is assumed that the remaining amount is insufficient. Then, the failure processing unit is notified that the data cannot be collected. The failure processing unit refers to the connection destination file server list data, selects a file server from the list, mounts the virtual file system, and accesses the file system of the file server. Then, the failure factor, failure data, and analysis data are output to the file system of the file server, and the CPU is reset.

図19〜図21は、本実施形態の第2の構成例を説明する図である。
第2の構成例では、メインプロセッサまたはサブプロセッサにて障害が発生し、自プロセッサにファイルシステム(または不揮発性メモリ)が具備されているが、残量が少なく、仮想ファイルシステムにアクセスする場合を説明する。
19 to 21 are diagrams illustrating a second configuration example of the present embodiment.
In the second configuration example, when a failure occurs in the main processor or sub processor and the own processor has a file system (or non-volatile memory), the remaining amount is small and the virtual file system is accessed. explain.

図19において、図1と同様の構成要素には同様の参照符号を付し、それらの説明を省略する。   19, the same components as those in FIG. 1 are denoted by the same reference numerals, and the description thereof is omitted.

図19において、自プロセッサは、メインプロセッサあるいはサブプロセッサである。
CPU12の障害をシステム障害割り込み部13で受けて、障害ハンドリング部14を起動する。障害ハンドリング部14で障害分析を行い、その情報を基に障害処理部15を起動する。自プロセッサには、ファイルシステム30が設けられているが、残量が少ないとしている。そこで、ファイルサーバの選択をし、障害要因、障害データ・障害解析データ格納を行い、CPUをリセットする。
In FIG. 19, the own processor is a main processor or a sub processor.
The system failure interrupt unit 13 receives the failure of the CPU 12 and activates the failure handling unit 14. The failure handling unit 14 performs failure analysis, and the failure processing unit 15 is activated based on the information. The own processor is provided with the file system 30, but the remaining amount is assumed to be small. Therefore, the file server is selected, the failure factor, failure data / failure analysis data are stored, and the CPU is reset.

図20は、第2の構成例の全体の流れを示す図である。
まず、CPUで障害が発生するとする(1)。すると、システム障害割り込み部を介して、障害ハンドリング部にシステム障害が通知される(2)。障害ハンドリング部では、障害の深刻度自動判定部、収集障害データ自動選択部、収集解析データ自動選択部の処理を行い、障害処理部に障害通知を行う。障害処理部では(3)、障害データの収集サイズの計算を行う。そして、自プロセッサにファイルシステムがあるかを判断する。自プロセッサにファイルシステムがある場合には、自プロセッサのファイルシステムの残量をチェックする。今、自プロセッサのファイルシステムに残量がないと判断されたとする。すると、つぎに、接続先ファイルサーバリストデータを参照して、リストから接続先のファイルサーバを選択する。そして、仮想ファイルシステムをマウントして、仮想ファイルシステムに、障害要因、障害データ、障害解析用データを出力する。データの出力完了を待って、CPUをリセットする。
FIG. 20 is a diagram illustrating an overall flow of the second configuration example.
First, assume that a failure occurs in the CPU (1). Then, a system fault is notified to the fault handling unit via the system fault interrupt unit (2). The fault handling unit performs processing of a fault severity automatic determination unit, a collected fault data automatic selection unit, and a collected analysis data automatic selection unit, and notifies the fault processing unit of faults. In the failure processing unit (3), the collection size of failure data is calculated. Then, it is determined whether the processor has a file system. If the own processor has a file system, the remaining amount of the file system of the own processor is checked. Assume that it is determined that there is no remaining capacity in the file system of its own processor. Then, referring to the connection destination file server list data, the connection destination file server is selected from the list. Then, the virtual file system is mounted, and the failure factor, failure data, and failure analysis data are output to the virtual file system. Wait for the data output to complete and reset the CPU.

図21は、第2の構成例の一連の処理の流れを示すシーケンス図である。
CPUで障害検出が起こると、障害ハンドリング部では、障害解析、障害深刻度自動判定を行い、収集障害データ自動選択、収集解析データ自動選択(収集データの自動選択)を行い、障害通知を障害処理部に行う。なお、収集データの自動選択は、深刻度にしたがって、処理を分岐して、異なる処理を行う。
FIG. 21 is a sequence diagram illustrating a flow of a series of processes in the second configuration example.
When a failure is detected in the CPU, the failure handling unit performs failure analysis, automatic determination of failure severity, automatic collection failure data selection, collection analysis data automatic selection (collection data automatic selection), and failure notification failure processing To the department. Note that the automatic selection of collected data branches different processes according to the severity and performs different processes.

障害処理部では、障害通知を受け付けると、自プロセッサの不揮発性メモリに障害データや解析データ等が格納可能か否かを問い合わせる。ファイルシステム残量チェック部が、自プロセッサにファイルシステムの残量チェックを依頼する。自プロセッサのファイルシステム残量チェック部では、残量チェック依頼を受け、ファイルシステムの残量を取得し、結果を障害処理部に通知する。障害処理部は、残量が十分あるか判断する。今の場合、残量が不十分であるとする。障害処理部では、接続先ファイルサーバリストデータを参照し、リストからファイルサーバを選択し、仮想ファイルシステムをマウントし、ファイルサーバのファイルシステムにアクセスする。そして、障害要因、障害データ及び解析データをファイルサーバのファイルシステムに出力し、CPUをリセットする。   When receiving the failure notification, the failure processing unit inquires whether failure data, analysis data, or the like can be stored in the nonvolatile memory of the own processor. The file system remaining amount check unit requests its own processor to check the remaining amount of the file system. The file system remaining amount check unit of the own processor receives the remaining amount check request, acquires the remaining amount of the file system, and notifies the failure processing unit of the result. The failure processing unit determines whether the remaining amount is sufficient. In this case, it is assumed that the remaining amount is insufficient. The failure processing unit refers to the connection destination file server list data, selects a file server from the list, mounts the virtual file system, and accesses the file system of the file server. Then, the failure factor, failure data, and analysis data are output to the file system of the file server, and the CPU is reset.

図22〜図24は、本実施形態の第3の構成例を説明する図である。
図22において、図19と同様の構成要素には同様の参照符号を付し、それらの説明を省略する。
22 to 24 are diagrams illustrating a third configuration example of the present embodiment.
In FIG. 22, the same components as those in FIG. 19 are denoted by the same reference numerals, and description thereof will be omitted.

第3の構成例では、メインプロセッサまたはサブプロセッサにて障害が発生し、自プロセッサ及び他プロセッサにファイルシステム(または不揮発性メモリ)が具備されてない場合を示す。   The third configuration example shows a case where a failure occurs in the main processor or sub processor, and the file system (or non-volatile memory) is not provided in the own processor and other processors.

CPU12の障害をシステム障害割り込み部13で受けて、障害ハンドリング部14を起動する。障害ハンドリング部14で障害分析を行い、その情報を基に障害処理部15を起動する。ファイルサーバの選択をし、障害要因、障害データ、障害解析データ格納を行い、CPUをリセットする。   The system failure interrupt unit 13 receives the failure of the CPU 12 and activates the failure handling unit 14. The failure handling unit 14 performs failure analysis, and the failure processing unit 15 is activated based on the information. Select the file server, store the cause of failure, failure data, failure analysis data, and reset the CPU.

図23は、第3の構成例の全体の流れを示す図である。
まず、CPUで障害が発生するとする(1)。すると、システム障害割り込み部を介して、障害ハンドリング部にシステム障害が通知される(2)。障害ハンドリング部では、障害の深刻度自動判定部、収集障害データ自動選択部、収集解析データ自動選択部の処理を行い、障害処理部に障害通知を行う。障害処理部では(3)、障害データの収集サイズの計算を行う。そして、自プロセッサ及び他プロセッサにファイルシステムがあるかを判断する。今、自プロセッサ及び他プロセッサにファイルシステムがないと判断されたとする。すると、つぎに、接続先ファイルサーバリストデータを参照して、リストから接続先のファイルサーバを選択する。そして、仮想ファイルシステムをマウントして、仮想ファイルシステムに、障害要因、障害データ、障害解析用データを出力する。データの出力完了を待って、CPUをリセットする。
FIG. 23 is a diagram illustrating an overall flow of the third configuration example.
First, assume that a failure occurs in the CPU (1). Then, a system fault is notified to the fault handling unit via the system fault interrupt unit (2). The fault handling unit performs processing of a fault severity automatic determination unit, a collected fault data automatic selection unit, and a collected analysis data automatic selection unit, and notifies the fault processing unit of faults. In the failure processing unit (3), the collection size of failure data is calculated. Then, it is determined whether the own processor and the other processor have a file system. Assume that it is determined that there is no file system in the own processor and other processors. Then, referring to the connection destination file server list data, the connection destination file server is selected from the list. Then, the virtual file system is mounted, and the failure factor, failure data, and failure analysis data are output to the virtual file system. Wait for the data output to complete and reset the CPU.

図24は、第3の構成例の一連の処理の流れを示すシーケンス図である。
CPUで障害検出が起こると、障害ハンドリング部では、障害解析、障害深刻度自動判定を行い、収集障害データ自動選択、収集解析データ自動選択(収集データの自動選択)を行い、障害通知を障害処理部に行う。なお、収集データの自動選択は、深刻度にしたがって、処理を分岐して、異なる処理を行う。
FIG. 24 is a sequence diagram illustrating a flow of a series of processes of the third configuration example.
When a failure is detected in the CPU, the failure handling unit performs failure analysis, automatic determination of failure severity, automatic collection failure data selection, collection analysis data automatic selection (collection data automatic selection), and failure notification failure processing To the department. Note that the automatic selection of collected data branches different processes according to the severity and performs different processes.

障害処理部では、障害通知を受け付けると、自プロセッサあるいは他プロセッサにファイルシステムがあるか否かを判断する。今の場合、自プロセッサにも他プロセッサにもファイルシステムが無いとする。障害処理部では、接続先ファイルサーバリストデータを参照し、リストからファイルサーバを選択し、仮想ファイルシステムをマウントし、ファイルサーバのファイルシステムにアクセスする。そして、障害要因、障害データ及び解析データをファイルサーバのファイルシステムに出力し、CPUをリセットする。   When receiving the failure notification, the failure processing unit determines whether the own processor or another processor has a file system. In this case, it is assumed that neither the own processor nor another processor has a file system. The failure processing unit refers to the connection destination file server list data, selects a file server from the list, mounts the virtual file system, and accesses the file system of the file server. Then, the failure factor, failure data, and analysis data are output to the file system of the file server, and the CPU is reset.

図25〜図29は、本実施形態を具体的な構成に適用した場合を説明する図である。
図25〜図27を参照して、サブプロセッサでWDTが発生した際、サブプロセッサにファイルシステムが具備されていない場合、かつ、メインプロセッサに十分な容量のファイルシステムが存在する場合を説明する。
25 to 29 are diagrams for explaining a case where the present embodiment is applied to a specific configuration.
With reference to FIG. 25 to FIG. 27, a description will be given of a case where a file system is not provided in the sub processor when a WDT occurs in the sub processor and a file system having a sufficient capacity exists in the main processor.

図25で、WDTドライバ40は、サブプロセッサ10でWDTが発生した際、WDTの発生を示す割り込みを発生させる。また、障害種別の解析と障害収集データの自動判断を実施する。OS(Operating System)41は、WDTドライバ40からの割り込みを、割り込みハンドラ経由でデータ収集処理部42に通知する。データ収集処理部42は、OS41から割り込みハンドラ経由で起動され、以下の処理を順次行なう。
(1)割り込み要求を受け付ける
(2)メインプロセッサ11のファイルシステム残量をチェックするためのプロセッサ間通信を行い、障害データを保存できるだけのサイズがあるかをチェックする。
(3)仮想ファイルシステムを接続する接続先ファイルサーバリストデータから優先度の高いものを選択する。
(4)システムCallを使用し、仮想ファイルシステムのプロトコル(NFSやVFS)経由でLANから先のファイルサーバ上のファイルシステムをマウントする。
(5)WDT要因や障害データを全て仮想ファイルシステム上にセーブする
(6)CPUをリセットする。
In FIG. 25, when the WDT is generated in the sub processor 10, the WDT driver 40 generates an interrupt indicating the generation of the WDT. Also, failure type analysis and failure collection data automatic judgment are performed. An OS (Operating System) 41 notifies an interrupt from the WDT driver 40 to the data collection processing unit 42 via an interrupt handler. The data collection processing unit 42 is activated from the OS 41 via an interrupt handler and sequentially performs the following processing.
(1) Accepting an interrupt request (2) Inter-processor communication for checking the remaining file system of the main processor 11 is performed to check whether there is enough size to store the failure data.
(3) Select a high priority file server list data to which the virtual file system is connected.
(4) Mount the file system on the file server ahead of the LAN via the virtual file system protocol (NFS or VFS) using the system call.
(5) Save all WDT factors and failure data on the virtual file system. (6) Reset the CPU.

通信用ドライバ43は、メインプロセッサ11と通信するためのドライバ(PCI(Peripheral Component Interconnect)バスドライバ、割り込みドライバ等)である。メインプロセッサ側のサイズチェック処理部44は、問い合わせがあった場合、ファイルシステムの使用可能サイズをチェックし、結果をサブプロセッサ10に知らせる処理を行う。仮想ファイルシステムプロトコル45は、NFS(Network File System)やVFS(Virtual File System)といったプロトコルである。ETHER NETドライバ(ETHドライバ)46は、イーサネット(登録商標)による通信を行うためのドライバであり、PHY47を制御し、仮想ファイルシステムプロトコルから制御されるドライバである。PHY47は、LAN経由でサーバに接続する物理的なデバイスである。LAN48は、ファイルサーバ49と基板Unit9とを接続する。ファイルサーバ49は、基板Unit9と仮想的に接続されるサーバである。   The communication driver 43 is a driver (such as a PCI (Peripheral Component Interconnect) bus driver, an interrupt driver) for communicating with the main processor 11. When there is an inquiry, the size check processing unit 44 on the main processor side checks the usable size of the file system and performs processing for notifying the sub processor 10 of the result. The virtual file system protocol 45 is a protocol such as NFS (Network File System) or VFS (Virtual File System). The ETHER NET driver (ETH driver) 46 is a driver for performing communication by Ethernet (registered trademark), and is a driver that controls the PHY 47 and is controlled by the virtual file system protocol. The PHY 47 is a physical device that connects to a server via a LAN. The LAN 48 connects the file server 49 and the board unit 9. The file server 49 is a server virtually connected to the board unit 9.

サブプロセッサにおいてWDTが発生し、ハングアップ通知(WDT割り込み)をWDTドライバで検出する。WDTドライバは プロセッサでWDTが発生した際、WDT発生の意味を持つUser割り込みを発生させる。OSの処理はWDTドライバからのUser割り込みを、割り込みハンドラ経由でデータ収集処理部に通知することである。データ収集処理部は割り込み要求を受け付ける。   A WDT is generated in the sub processor, and a hangup notification (WDT interrupt) is detected by the WDT driver. When a WDT occurs in the processor, the WDT driver generates a User interrupt that has the meaning of generating a WDT. The OS processing is to notify the data collection processing unit of a User interrupt from the WDT driver via an interrupt handler. The data collection processing unit accepts an interrupt request.

データ収集処理部は、図26及び図27のPCI通信処理により、メインプロセッサと通信する。もし、メインプロセッサのファイルシステムに障害データを保存できるだけのサイズが残っていれば、サブプロセッサ側のWDT要因や障害データを全てメインプロセッサ配下のファイルシステムにPCI通信にて送信格納する。そして、CPUリセットしてサブプロセッサを立ち上げなおす。   The data collection processing unit communicates with the main processor by the PCI communication processing of FIGS. If there is still enough size to save the failure data in the file system of the main processor, all the WDT factors and failure data on the sub processor side are transmitted and stored by PCI communication to the file system under the main processor. Then, reset the CPU and restart the sub processor.

図26は、ファイルシステムの残量チェックのためのPCI通信処理を説明する図である。   FIG. 26 is a diagram for explaining PCI communication processing for checking the remaining amount of the file system.

ステップS110において、サブプロセッサ(ここで障害が発生したとする)は、PCI通信を開始し、ステップS111において、PCI空間の通信種別をレジスタに書き込む。ここでは、ファイルサイズチェックを書き込む。ステップS116において、PCI空間の通信トリガをPCI送信A->B方向のレジスタに書き込む。メインプロセッサでは、ステップS112において、通信領域をポーリングしておき、ステップS113において、通信トリガを認識する。ステップS114において、通信要求を認識し、PCI割り込みを発生させる。ステップS123において、通信リクエストを読み取り、ステップS115において、ファイルシステムの残量をチェックする。ステップS118において、PCI空間の通信結果をレジスタに書き込み、ステップS119で、PCI空間の通信トリガをPCI送信B->A方向のレジスタに書き込む。ここでは、結果は、データの収集が可能という旨のデータである。サブプロセッサでは、ステップS117において、通信領域のポーリングを開始し、ステップS120において、メインプロセッサからの通信トリガを認識する。ステップS121において、通信要求を認識して、PCI割り込みを発生する。ステップS122において、PCI通信結果を読み取り、処理を終了する。   In step S110, the sub processor (assuming that a failure has occurred) starts PCI communication, and in step S111, the communication type of the PCI space is written in the register. Here, a file size check is written. In step S116, a communication trigger for the PCI space is written to a register in the PCI transmission A-> B direction. The main processor polls the communication area in step S112, and recognizes the communication trigger in step S113. In step S114, the communication request is recognized and a PCI interrupt is generated. In step S123, the communication request is read. In step S115, the remaining amount of the file system is checked. In step S118, the PCI space communication result is written in the register, and in step S119, the PCI space communication trigger is written in the PCI transmission B-> A direction register. Here, the result is data indicating that data can be collected. The sub processor starts polling of the communication area in step S117, and recognizes a communication trigger from the main processor in step S120. In step S121, the communication request is recognized and a PCI interrupt is generated. In step S122, the PCI communication result is read, and the process ends.

図27は、WDT要因や障害データ等を書き込む際のPCI通信を説明する図である。
サブプロセッサは、ステップS130において、PCI通信を開始し、ステップS131において、PCI空間の通信種別をレジスタに書き込む。ここでは、ファイルを書き込む旨の書き込みを行う。ステップS132において、PCI空間の通信トリガをPCI送信A->B方向のレジスタに書き込む。ステップS133で、PCI空間の送信レジスタにファイルサイズとファイルを書き出す。メインプロセッサでは、ステップS134において、通信領域のポーリングを行っており、ステップS135において、通信トリガを認識する。ステップS136において、通信要求を認識し、PCI割り込みを発生する。ステップS137において、通信リクエストを読み取り、ステップS138において、ファイルサイズ分のファイルの内容を読み出し、自ファイルシステムに書き出す。ステップS139において、PCI空間の通信結果をレジスタに書き込み、ステップS140で、PCI空間の通信トリガをPCI送信B->A方向のレジスタに書き込む。サブプロセッサでは、ステップS141において、通信領域のポーリングを始めており、ステップS142において、通信トリガを認識する。ステップS143において、通信要求を認識し、PCI割り込みを発生する。ステップS144において、PCI通信結果を読み取り、処理を終了する。
FIG. 27 is a diagram for explaining PCI communication when writing WDT factors, failure data, and the like.
In step S130, the sub processor starts PCI communication. In step S131, the sub processor writes the communication type of the PCI space in the register. Here, writing to write the file is performed. In step S132, a PCI space communication trigger is written to a PCI transmission A-> B direction register. In step S133, the file size and the file are written to the PCI space transmission register. The main processor polls the communication area in step S134, and recognizes a communication trigger in step S135. In step S136, the communication request is recognized and a PCI interrupt is generated. In step S137, the communication request is read. In step S138, the contents of the file corresponding to the file size are read and written to the own file system. In step S139, the PCI space communication result is written to the register, and in step S140, the PCI space communication trigger is written to the PCI transmission B-> A direction register. In step S141, the sub-processor starts polling the communication area, and recognizes a communication trigger in step S142. In step S143, the communication request is recognized and a PCI interrupt is generated. In step S144, the PCI communication result is read, and the process ends.

次に、サブプロセッサでWDTが発生した際、サブプロセッサにファイルシステムが具備されていない場合、かつ、メインプロセッサに十分な容量のファイルシステムが存在しない場合を説明する。   Next, a description will be given of a case where a file system is not provided in the sub processor and a file system having a sufficient capacity does not exist in the main processor when a WDT occurs in the sub processor.

サブプロセッサでWDTが発生し、ハングアップ通知(WDT T.O 割り込み)をWDTドライバで検出する。WDTドライバは プロセッサでWDTが発生した際、WDT発生の意味を持つUser割り込みを発生させる。OSの処理はWDTドライバからのUser割り込みを、割り込みハンドラ経由でデータ収集処理部に通知することである。データ収集処理部は割り込み要求を受け付ける。データ収集処理部は、図28のPCI通信処理により、メインプロセッサと通信する。もし、障害データを保存できるだけのサイズが残ってなければ、仮想ファイルシステムを接続する先のリストデータから優先度の高いものから選択する。次に、システムCallを使用し、仮想ファイルシステムのプロトコル(NFSやVFS)経由でLANから先のファイルサーバ上のファイルシステムをマウントする。システムCallの戻り値が正常で、マウントに成功したら、そのファイルシステムに、WDT要因や障害データを全てセーブする。CPUリセットを行い、仮想ファイルのマウントも同時に解除される。   The WDT is generated in the sub processor and the hangup notification (WDT T.O interrupt) is detected by the WDT driver. When a WDT occurs in the processor, the WDT driver generates a User interrupt that has the meaning of generating a WDT. The OS processing is to notify the data collection processing unit of a User interrupt from the WDT driver via an interrupt handler. The data collection processing unit accepts an interrupt request. The data collection processing unit communicates with the main processor by the PCI communication process of FIG. If there is not enough size to store the failure data, the list data to which the virtual file system is connected is selected from the list data with higher priority. Next, the system Call is used to mount the file system on the file server ahead of the LAN via the virtual file system protocol (NFS or VFS). If the return value of the system call is normal and the mount is successful, save all WDT factors and failure data in the file system. The CPU is reset and the virtual file is unmounted at the same time.

図28は、ファイル残量問い合わせの際のPCI通信を説明する図である。図28は、図26と同様であり、同様のステップには同様のステップ番号を付し、それらの説明を省略する。   FIG. 28 is a diagram for explaining PCI communication when a file remaining amount inquiry is made. FIG. 28 is the same as FIG. 26, and the same steps are denoted by the same step numbers and the description thereof is omitted.

図28では、ステップS115のファイルシステムの残量チェックの結果、残量が十分でないことが判明する場合であり、通信結果として、データの収集が不可である旨がレジスタに書き込まれる。   In FIG. 28, the result of checking the remaining amount of the file system in step S115 indicates that the remaining amount is not sufficient, and the fact that data cannot be collected is written in the register as a communication result.

次に、メインプロセッサでWDTが発生した際、メインプロセッサに具備されているファイルシステムが収集データに対して十分な容量を確保できない場合を図29で説明する。   Next, a case where a file system provided in the main processor cannot secure a sufficient capacity for collected data when a WDT occurs in the main processor will be described with reference to FIG.

図29において、図25と同様な構成要素には同様な参照符号を付し、それらの説明を省略する。   In FIG. 29, the same components as those in FIG. 25 are denoted by the same reference numerals, and the description thereof will be omitted.

データ収集処理部42は、OSから割り込みハンドラ経由で起動され、自身のファイルシステムの残量をチェックし、障害データを保存できるだけのサイズがあるかをチェックする。十分な保存容量がない場合には、仮想ファイルシステムを接続する先のファイルサーバリストデータから優先度の高いものから選択し、システムCallを使用し、仮想ファイルシステムのプロトコル(NFSやVFS)経由でLANから先のファイルサーバ上のファイルシステムをマウントする。そして、WDT要因や障害データ等を全て仮想ファイルシステム上にセーブし、CPUをリセットする。   The data collection processing unit 42 is started from the OS via an interrupt handler, checks the remaining capacity of its own file system, and checks whether there is enough size to store the failure data. If there is not enough storage space, select the file server list data to which the virtual file system is connected from the one with higher priority, use the system call, and via the virtual file system protocol (NFS or VFS) Mount the file system on the destination file server from the LAN. Then save all WDT factors and failure data on the virtual file system and reset the CPU.

メインプロセッサでWDTが発生し、ハングアップ通知(WDT T.O 割り込み)をWDTドライバで検出する。WDTドライバは プロセッサでWDTが発生した際、WDT発生の意味を持つUser割り込みを発生させる。OSはWDTドライバからのUser割り込みを、割り込みハンドラ経由でデータ収集処理部に通知する。データ収集処理部は割り込み要求を受け付ける。その後、自身のファイルシステム残量をチェックし、障害データを保存できるだけのサイズがあるかをチェックする。もし、障害データを保存できるだけのサイズが残っていれば、障害データを自プロセッサ配下のファイルシステムに格納し、CPUのリセットを行なう。もし、障害データを保存できるだけのサイズが残ってなければ、仮想ファイルシステムを接続する先のファイルサーバリストデータから優先度の高いものを選択する。   A WDT occurs in the main processor, and a hangup notification (WDT T.O interrupt) is detected by the WDT driver. When a WDT occurs in the processor, the WDT driver generates a User interrupt that has the meaning of generating a WDT. The OS notifies a user interrupt from the WDT driver to the data collection processing unit via an interrupt handler. The data collection processing unit accepts an interrupt request. After that, it checks its own file system remaining capacity and checks whether there is enough size to store the failure data. If there is still enough size to store the fault data, store the fault data in the file system under its own processor and reset the CPU. If there is not enough size to store the failure data, the one with higher priority is selected from the file server list data to which the virtual file system is connected.

次に、システムCallを使用し、仮想ファイルシステムのプロトコル(NFSやVFS)経由でLANから先のファイルサーバ上のファイルシステムをマウントする。システムCallの戻り値が正常で、マウントに成功したら、そのファイルシステムに、WDT要因や障害データを全てセーブし、CPUをリセットする。CPUリセットにより、仮想ファイルのマウントも解除される。   Next, the system Call is used to mount the file system on the file server ahead of the LAN via the virtual file system protocol (NFS or VFS). If the return value of the system call is normal and the mount is successful, save all WDT causes and failure data to the file system and reset the CPU. The virtual file is also unmounted by CPU reset.

10 サブプロセッサ
11 メインプロセッサ
12 CPU
13 システム障害割り込み部
14 障害ハンドリング部
15 障害処理部
16、45 仮想ファイルシステムプロトコル処理部
17、46 ETHドライバ
18、47 PHY
19 ファイルシステム残量チェック部
20、30 ファイルシステム
21、49 ファイルサーバ
22 Call処理部
40 WDTドライバ
41 OS
42 データ収集処理部
43 通信用ドライバ
44 サイズチェック処理部
48 LAN
10 Sub-processor 11 Main processor 12 CPU
13 System fault interrupt unit 14 Fault handling unit 15 Fault processing unit 16, 45 Virtual file system protocol processing unit 17, 46 ETH driver 18, 47 PHY
19 File system remaining amount check unit 20, 30 File system 21, 49 File server 22 Call processing unit 40 WDT driver 41 OS
42 Data Collection Processing Unit 43 Communication Driver 44 Size Check Processing Unit 48 LAN

Claims (9)

プロセッサが複数設けられたマルチプロセッサシステムであって、
該プロセッサは、
発生した障害の深刻度に応じて、障害に関するデータを収集する障害ハンドリング部と、
外部のファイルサーバにアクセスするファイルサーバアクセス部と、
自プロセッサあるいは前記マルチプロセッサシステム内の他プロセッサにファイルシステムが搭載されている場合に、該障害に関するデータを格納可能か判断し、格納可能な場合には、該ファイルシステムに該障害に関するデータを格納し、格納不可能な場合には、該ファイルサーバに該障害に関するデータを格納する障害処理部と、
を備えることを特徴とするマルチプロセッサシステム。
A multiprocessor system having a plurality of processors,
The processor
Depending on the severity of the failure that occurred, a failure handling unit that collects data about the failure,
A file server access unit for accessing an external file server;
When a file system is mounted on the own processor or another processor in the multiprocessor system, it is determined whether data relating to the failure can be stored. If the data can be stored, the data relating to the failure is stored in the file system. If the data cannot be stored, a failure processing unit that stores data related to the failure in the file server;
A multiprocessor system comprising:
前記障害に関するデータを収集する深刻度の障害は、CPUのリセットを必要とする障害であることを特徴とする請求項1に記載のマルチプロセッサシステム。   The multiprocessor system according to claim 1, wherein the failure having a severity level for collecting data related to the failure is a failure that requires a CPU reset. 前記CPUのリセットは、前記障害処理部が前記障害に関するデータを、前記ファイルシステムあるいは前記ファイルサーバに格納後に行うことを特長とする請求項2に記載のマルチプロセッサシステム。   The multiprocessor system according to claim 2, wherein the CPU is reset after the failure processing unit stores data related to the failure in the file system or the file server. 前記障害処理部は、前記ファイルシステムが自プロセッサにも他プロセッサにも搭載されていない場合には、前記障害に関するデータを前記ファイルサーバに格納することを特徴とする請求項1に記載のマルチプロセッサシステム。   2. The multiprocessor according to claim 1, wherein the failure processing unit stores data relating to the failure in the file server when the file system is not installed in a local processor or another processor. 3. system. 前記障害処理部は、プロセッサ間通信を用いて、前記他プロセッサに前記障害に関するデータを格納するための容量があるか否かを問い合わせることを特徴とする請求項1に記載のマルチプロセッサシステム。   The multiprocessor system according to claim 1, wherein the failure processing unit inquires whether or not the other processor has a capacity for storing data related to the failure using inter-processor communication. 前記障害に関するデータは、障害要因、障害種別に応じた障害データ、障害解析に用いられる解析データを含むことを特徴とする請求項1に記載のマルチプロセッサシステム。   The multiprocessor system according to claim 1, wherein the data relating to the failure includes failure data according to a failure factor, a failure type, and analysis data used for failure analysis. 前記ファイルシステムは、前記プロセッサに搭載される不揮発性メモリに設けられていることを特徴とする請求項1に記載のマルチプロセッサシステム。   The multiprocessor system according to claim 1, wherein the file system is provided in a nonvolatile memory mounted on the processor. 外部のファイルサーバにアクセスするファイルサーバアクセス部を備えたプロセッサが複数設けられたマルチプロセッサシステムにおける障害情報格納方法であって、
該プロセッサは、
発生した障害の深刻度に応じて、障害に関するデータを収集し、
自プロセッサあるいは前記マルチプロセッサシステム内の他プロセッサにファイルシステムが搭載されている場合に、該障害に関するデータを格納可能か判断し、格納可能な場合には、該ファイルシステムに該障害に関するデータを格納し、格納不可能な場合には、該ファイルサーバに該障害に関するデータを格納する、
ことを特徴とする障害情報格納方法。
A failure information storage method in a multiprocessor system provided with a plurality of processors each having a file server access unit for accessing an external file server,
The processor
Depending on the severity of the failure that occurred, collect data about the failure,
When a file system is mounted on the own processor or another processor in the multiprocessor system, it is determined whether data relating to the failure can be stored. If the data can be stored, the data relating to the failure is stored in the file system. If the data cannot be stored, the data related to the failure is stored in the file server.
A failure information storage method characterized by the above.
前記ファイルシステムが自プロセッサにも前記他プロセッサにも搭載されていない場合には、前記障害に関するデータを前記ファイルサーバに格納することを特徴とする請求項9に記載の障害情報格納方法。   10. The failure information storage method according to claim 9, wherein when the file system is not installed in the own processor or the other processor, the data relating to the failure is stored in the file server.
JP2012097056A 2012-04-20 2012-04-20 Multiprocessor system Expired - Fee Related JP5929465B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012097056A JP5929465B2 (en) 2012-04-20 2012-04-20 Multiprocessor system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012097056A JP5929465B2 (en) 2012-04-20 2012-04-20 Multiprocessor system

Publications (2)

Publication Number Publication Date
JP2013225217A true JP2013225217A (en) 2013-10-31
JP5929465B2 JP5929465B2 (en) 2016-06-08

Family

ID=49595233

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012097056A Expired - Fee Related JP5929465B2 (en) 2012-04-20 2012-04-20 Multiprocessor system

Country Status (1)

Country Link
JP (1) JP5929465B2 (en)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0695927A (en) * 1992-09-17 1994-04-08 Fujitsu Ltd Fault information recording method
JPH08328912A (en) * 1995-05-29 1996-12-13 Mitsubishi Electric Corp Core file generating method for diskless computer
WO2008035766A1 (en) * 2006-09-21 2008-03-27 Autonetworks Technologies, Ltd. Electronic control system and electronic control device
JP2010056752A (en) * 2008-08-27 2010-03-11 Kyocera Mita Corp Electronic appliance
JP2010176345A (en) * 2009-01-29 2010-08-12 Nec Corp Multi-node system, node, memory dump processing method, and program

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0695927A (en) * 1992-09-17 1994-04-08 Fujitsu Ltd Fault information recording method
JPH08328912A (en) * 1995-05-29 1996-12-13 Mitsubishi Electric Corp Core file generating method for diskless computer
WO2008035766A1 (en) * 2006-09-21 2008-03-27 Autonetworks Technologies, Ltd. Electronic control system and electronic control device
JP2010056752A (en) * 2008-08-27 2010-03-11 Kyocera Mita Corp Electronic appliance
JP2010176345A (en) * 2009-01-29 2010-08-12 Nec Corp Multi-node system, node, memory dump processing method, and program

Also Published As

Publication number Publication date
JP5929465B2 (en) 2016-06-08

Similar Documents

Publication Publication Date Title
CN110311831B (en) Container cloud-based system resource monitoring method and related equipment
WO2017140131A1 (en) Data writing and reading method and apparatus, and cloud storage system
TWI344090B (en) Management of a scalable computer system
US11157373B2 (en) Prioritized transfer of failure event log data
US20070168201A1 (en) Formula for automatic prioritization of the business impact based on a failure on a service in a loosely coupled application
JP4596889B2 (en) Storage system management method
JP6477266B2 (en) Dump management apparatus, dump management program, and dump management method
WO2021077742A1 (en) Method, system, and device for service processing, and readable storage medium
US7281163B2 (en) Management device configured to perform a data dump
JP5754440B2 (en) Configuration information management server, configuration information management method, and configuration information management program
US9317355B2 (en) Dynamically determining an external systems management application to report system errors
WO2021232651A1 (en) Method and apparatus for upgrading multi-level management system, and device and medium
CN111614701B (en) Distributed cluster and container state switching method and device
CN109062580B (en) Virtual environment deployment method and deployment device
JP5929465B2 (en) Multiprocessor system
US20120246509A1 (en) Global detection of resource leaks in a multi-node computer system
CN113626139B (en) High-availability virtual machine storage method and device
JP2006285453A (en) Information processor, information processing method, and information processing program
CN110704244B (en) Disk offline processing method, device and equipment and readable storage medium
JP6724583B2 (en) Information processing apparatus, information processing method, program, and information processing system
JP6112205B2 (en) Information processing system, apparatus, method, and program
US7937613B2 (en) Central processing apparatus
CN114466067B (en) Data migration method and device and electronic equipment
JP2006115260A (en) Communication control method, communication repeater, and communication control program
CN114281882A (en) Database connection processing method, device, equipment and storage medium

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150203

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150924

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150925

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20151119

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160405

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160418

R150 Certificate of patent or registration of utility model

Ref document number: 5929465

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees