JPS62198943A - Fault information collecting and analyzing system for electronic computer system - Google Patents

Fault information collecting and analyzing system for electronic computer system

Info

Publication number
JPS62198943A
JPS62198943A JP61042191A JP4219186A JPS62198943A JP S62198943 A JPS62198943 A JP S62198943A JP 61042191 A JP61042191 A JP 61042191A JP 4219186 A JP4219186 A JP 4219186A JP S62198943 A JPS62198943 A JP S62198943A
Authority
JP
Japan
Prior art keywords
fault information
collection
analysis
fault
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP61042191A
Other languages
Japanese (ja)
Inventor
Fujio Sekiya
関谷 冨士男
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP61042191A priority Critical patent/JPS62198943A/en
Publication of JPS62198943A publication Critical patent/JPS62198943A/en
Pending legal-status Critical Current

Links

Landscapes

  • Debugging And Monitoring (AREA)

Abstract

PURPOSE:To improve to overall reliability and the continuation of actions for the titles system by starting the analysis of the collected and unanalyzed fault information according to the prescribed priority based on the fault codes or the before-afater relation of information collection. CONSTITUTION:A fault information collection/analysis control part 11 receives a request for collection of fault information received from one of processors 21-2n and shift the control to a fault information collecting part 12 to start collection of the fault information. Thus the part 12 collects the fault information via interfaces 41-4n and adds the collection identification codes to these collected information to store them in a fault information store part 14 and also to store a list of collection identification codes or fault codes in a code store part 15. Then the part 11 reads out the contents of the part 15 and decides the fault information to be analyzed next based on the prescribed priority. The the part 11 delivers the control to a fault information analyzing part 13 while designating the the fault information to be analyzed and reads otu the designated fault information to inform it to an operator after analysis.

Description

【発明の詳細な説明】 発明の目的 産業上の利用分野 本発明は、電子計算機システムで使用される障害情報の
収集・解析方式に関するものである。
DETAILED DESCRIPTION OF THE INVENTION Field of the Invention The present invention relates to a fault information collection and analysis method used in electronic computer systems.

従来の技術 電子計算機システムは、中央処理装置の他、入出力制御
装置や周辺制御装置など多数の処理装置の組合せから構
成されている。また、電子計算機システムは、一つの処
理装置に障害が発生してもシステム全体の動作を停止さ
せないよう、各処理装置が二重化されると共に、システ
ム全体の動作と並行して障害診断を実行するサーと・プ
ロセッサなどと称されるシステム診断装置が付加される
ようになっている。
A conventional electronic computer system is composed of a combination of a large number of processing devices such as a central processing unit, an input/output control device, and peripheral control devices. In addition, in computer systems, each processing unit is duplicated so that the operation of the entire system does not stop even if a failure occurs in one processing unit, and a server that performs failure diagnosis in parallel with the operation of the entire system. A system diagnostic device called a processor is now being added.

従来、上述のようなシステム診断装置では、ある処理装
置に障害が発生すると、その処理装置から障害情報を収
集し、この収集が済み次第直ちに障害情報の解析に移り
、障害箇所の指摘などを解析結果として出力している。
Conventionally, in the system diagnostic equipment described above, when a failure occurs in a certain processing device, failure information is collected from that processing device, and as soon as this collection is completed, the system immediately moves to analyze the failure information to identify the location of the failure. It is output as a result.

発明が解決しようとする問題点 1記従来のシステム診断装置では、障害情報の収集と解
析とが一連の連続動作として実行されるので、ある処理
装置の障害発生に伴ってその障害情報の収集が開始され
た直後に他の処理装置で障害が発生しても、当該他の処
理装置についての障害情報の収集と解析は、直前の障害
発生処理装置についての解析が終了するまで無条件に待
たされることになる。
Problems to be Solved by the Invention 1: In conventional system diagnostic devices, the collection and analysis of fault information are performed as a series of continuous operations, so when a fault occurs in a certain processing device, the collection of fault information is stopped. Even if a failure occurs in another processing unit immediately after starting, the collection and analysis of failure information for the other processing unit will be unconditionally delayed until the analysis of the immediately preceding failure processing unit is completed. It turns out.

従って、後発の障害が先発の障害よりも緊急の診断を要
する重大な障害であったとしても、先発のより軽微な障
害についての診断が終了するまで待たされてしまうこと
になり、システム全体の信頼性、動作のmVt性上問題
がある。
Therefore, even if the subsequent failure is a serious failure that requires more urgent diagnosis than the earlier failure, the system will have to wait until diagnosis of the earlier minor failure has been completed, which will reduce the reliability of the entire system. There are problems in terms of performance and mVt characteristics of operation.

発明の構成 問題点を解決するための手段 上記従来技術の問題点を解決する本発明の障害情報収集
・解析方式は、各処理装置からの障害情報の収集をその
解析の開始に優先して行い、各収集済み障害情報を収集
の先後関係を表示しつつ保存すると共に、保存中の未解
析障害情報が複数存在する場合にはそれぞれに含まれる
障害の種類や範囲に関する障害コードと収集の先後関係
から決定される所定の優先順位に従って解析を開始する
ことにより、システム全体の信頼性と動作の継続性を高
めるように構成されている。
Means for Solving the Constituent Problems of the Invention The fault information collection/analysis method of the present invention that solves the problems of the prior art described above prioritizes collection of fault information from each processing device before starting its analysis. , saves each collected failure information while displaying the collection relationship, and if there is multiple unanalyzed failure information being saved, the failure code and the collection relationship regarding the type and scope of the failure included in each. The system is configured to increase the reliability and continuity of operation of the entire system by starting analysis according to a predetermined priority determined from the following.

以下、本発明の作用を実施例と共に詳細に説明する。Hereinafter, the operation of the present invention will be explained in detail together with examples.

実施例 第1図は本発明の一実施例に係わる障害情報の収集・解
析方式を適用する電子計算機システムの構成を示すブロ
ック図である。
Embodiment FIG. 1 is a block diagram showing the configuration of a computer system to which a fault information collection/analysis method according to an embodiment of the present invention is applied.

この電子計算機システムは、それぞれが中央処理装置、
入出力制御装置、周辺制御装置などから成る複数の処理
装置21,22・・・2nと、これら処理装置のうち障
害が発生したものから障害情報を収集、解析し、障害箇
所の指摘などの解析結果を出力するシステム診断装置1
0から構成されている。
This electronic computer system has a central processing unit,
Collects and analyzes fault information from multiple processing devices 21, 22...2n consisting of input/output control devices, peripheral control devices, etc. and the one in which a fault has occurred among these processing devices, and identifies fault locations. System diagnostic device 1 that outputs results
Consists of 0.

システム診断装置10は、障害情報収集・解析制御部1
1と、障害情報収集部12と、障害情報解析部13と、
障害情報格納部14と、コード格納部15とを備えてい
る。
The system diagnostic device 10 includes a fault information collection/analysis control section 1
1, a failure information collection unit 12, a failure information analysis unit 13,
It includes a fault information storage section 14 and a code storage section 15.

障害情報収集・解析制御部11は、運転中のシステムの
各処理装置21〜2nのいずれかから信号線31〜3n
を介して障害発生に伴う障害情報収集の要求を受けると
、障害情報収集部12に制御を渡して障害情報の収集を
開始させる。制御を渡された障害情報収集部12は、診
断インタフェース41〜4nを介して対応の障害発生処
理装置から障害情報を収集し、これに収集の先後関係を
表示する収集識別コードを付加して障害情報格納部14
に格納すると共に、収集識別コードや収集済み障害情報
に含まれる障害コードの一覧をコード格納部15に格納
する。
The failure information collection/analysis control unit 11 connects signal lines 31 to 3n from any of the processing devices 21 to 2n of the system in operation.
When receiving a request to collect failure information due to the occurrence of a failure via the failure information collection unit 12, control is passed to the failure information collection unit 12 to start collecting failure information. The fault information collection unit 12 to which control has been passed collects fault information from the corresponding fault occurrence processing device via the diagnostic interfaces 41 to 4n, adds a collection identification code indicating the collection relationship, and identifies the fault. Information storage section 14
At the same time, a list of the collected identification codes and fault codes included in the collected fault information is stored in the code storage unit 15.

障害情報収集・解析制御部11は、障害情報の収集の要
求が存在しない時期を見計らって、コード格納部15の
内容を読出して所定の優先順位に従って次に解析の対象
とする障害情報を決定し、これを指定しつつ障害情報解
析部13に制御を渡す。制御を渡された障害解析部13
は、指定された障害情報を障害情報格納部14から読出
して解析し、障害箇所の指摘などからなる解析結果をシ
ステムのオペレーターに通知する。
The failure information collection/analysis control unit 11 reads the contents of the code storage unit 15 and determines the failure information to be analyzed next in accordance with a predetermined priority order, at a time when there is no request to collect failure information. , and passes control to the failure information analysis unit 13 while specifying this. Failure analysis unit 13 to which control has been handed over
reads out the designated failure information from the failure information storage unit 14, analyzes it, and notifies the system operator of the analysis result, which includes pointing out the failure location.

第2図、第3図及び第4図は、それぞれ上記システム診
断袋W10内の障害情報収集・解析制御部l・1、障害
情報収集部12及び障害情報解析部13による制御手順
の一例を示すフローチャートである。
FIG. 2, FIG. 3, and FIG. 4 respectively show an example of the control procedure by the fault information collection/analysis control unit 1, the fault information collection unit 12, and the fault information analysis unit 13 in the system diagnosis bag W10. It is a flowchart.

障害情報収集・解析制御部11は、処理を開始すると、
第2図の最初のステップllaにおいて、要求信号線3
1〜3nを走査することにより障害情報の収集要求の有
無を検査する。障害情報収集・解析制御部11は、障害
情報の収集要求が存在すればステップllbに進み、障
害情報収集部12を起動して収集対象を通知したのち、
ステップ11cに進み、障害情報収集部12からの収集
終了通知の待ち状態に移行する。
When the failure information collection/analysis control unit 11 starts processing,
In the first step lla of FIG.
By scanning 1 to 3n, the presence or absence of a failure information collection request is checked. If there is a fault information collection request, the fault information collection/analysis control unit 11 proceeds to step llb, starts the fault information collection unit 12, notifies the collection target, and then
Proceeding to step 11c, the process transitions to a waiting state for a collection completion notification from the failure information collection unit 12.

障害情報収集・解析制御部11から起動された障害情報
収集部12は、第3図の最初のステップ12aに進み、
指定されている障害情報を該当の処f’!!装置21〜
2nの一つから収集する。この障害情報の収集は、障害
の種類や範囲を表示する障害コードの読取りに加えて、
公知のシフトアウト手法に基づく障害発生時点の各種デ
ータの収集から成る。すなわち、該当の処理装置に内蔵
されており正常動作時には並列データを保持する所定の
レジスタの所定のビット位置を連ねるように直列転送路
を形成し、システムクロックに同期して診断装置内のシ
フトレジスタ内に読出すという、シフトアウト動作が行
われる。
The fault information collection unit 12 started by the fault information collection/analysis control unit 11 proceeds to the first step 12a in FIG.
The specified failure information is sent to the corresponding location f'! ! Device 21~
Collect from one of 2n. This collection of fault information includes reading fault codes that display the type and scope of the fault.
It consists of collecting various data at the time of failure based on the known shift-out method. In other words, a serial transfer path is formed so as to connect predetermined bit positions of a predetermined register that is built into the relevant processing device and holds parallel data during normal operation, and a shift register in the diagnostic device is connected in synchronization with the system clock. A shift-out operation is performed in which the data is read within the memory.

障害情報収集部12は、指定された障害情報の収集が終
了すると、次のステップ12bに進み、収集済み障害情
報に通し番号などの収集識別コードと障害発生処理装置
の識別コードを付加して障害情報格納部14に格納する
。これらの識別コードが付加された障害情報は、第5図
に例示するように、障害の種類や障害の範囲を表示する
障害コードと、上述のシフトアウト動作によって収集さ
れた詳細情報から構成されている。
When the failure information collection unit 12 finishes collecting the specified failure information, it proceeds to the next step 12b, and adds a collection identification code such as a serial number and an identification code of the failure processing device to the collected failure information to create failure information. It is stored in the storage unit 14. The fault information to which these identification codes are attached, as illustrated in Figure 5, consists of a fault code that displays the type of fault and the range of the fault, and detailed information collected by the shift-out operation described above. There is.

障害情報収集部12は、障害情報格納部14への格納が
終了すると、次のステップ12cに進み収集済み障害情
報の収集識別コード、処理装置の識別コード及び障害コ
ードの組をコード格納部15に格納する。障害情報収集
部12は、最後のステップ12dで障害情報の収集の終
了を障害情報収集・解析制御部11に通知して処理を終
了する。
When the fault information collection unit 12 finishes storing the collected fault information in the fault information storage unit 14, it proceeds to the next step 12c and stores the collection identification code of the collected fault information, the identification code of the processing device, and the fault code in the code storage unit 15. Store. In the final step 12d, the failure information collection unit 12 notifies the failure information collection/analysis control unit 11 of the end of failure information collection, and ends the process.

この障害情報の収集終了の通知を受けた障害情報収集・
解析制御部11は、第2図のステップ11cから同図の
ステップllaに戻り、新たな障害情報についての収集
要求の有無を検査し、これが存在すればステップ11b
とllcにおいて、上述の動作を繰り返す。
Failure information collection/receiver notification of completion of failure information collection
The analysis control unit 11 returns from step 11c in FIG. 2 to step lla in the same figure, checks whether there is a request to collect new failure information, and if it exists, returns to step 11b.
and llc, repeat the above operations.

新たな障害情報についての収集要求が存在しない場合に
は、障害情報収集・解析制御部11の処理はステップl
laからステップlidに移行する。障害情報収集・解
析制御部11は、ステップlidにおいて、コード格納
部15に格納されている収集識別コードの有無を検査し
、これが存在しなければステップllaに戻る。障害情
報収集・解析制御部11は、格納中の収集識別コードの
存在を検出するとステップlieに進み、コード格納部
15から全てのコードを読出して所定の優先順位に従っ
て最先に解析を開始する障害情報を一つ選択し、障害情
報解析部13を起動する。
If there is no request to collect new fault information, the processing of the fault information collection/analysis control unit 11 proceeds to step l.
Move from la to step lid. In step lid, the failure information collection/analysis control unit 11 checks whether there is a collection identification code stored in the code storage unit 15, and if it does not exist, the process returns to step lla. When the fault information collection/analysis control unit 11 detects the existence of the collection identification code being stored, it proceeds to step lie, reads all the codes from the code storage unit 15, and starts analyzing the fault information first according to a predetermined priority order. Select one piece of information and start the fault information analysis section 13.

この解析開始の優先順位は、障害コードの内容と収集の
先後関係を表示する収集識別コードに基づいて行われる
。すなわち、障害識別コードによって表示される障害の
種類(間歇故障、固定故障、ビットエラー等)や範囲(
処理装置全体、処理装置の一部等)に基づき、最も重大
な障害についての障害情報が一つ選択される。障害の重
大性が同等のものが複数存在する場合には、収集識別コ
ードに基づき、最先に収集された障害情報が一つ選択さ
れる。障害情報が一つだけのときは、無条件にその障害
情報が解析対象となる。
The priority order for starting this analysis is determined based on the content of the failure code and the collection identification code that indicates the relationship between collection. In other words, the type of failure (intermittent failure, fixed failure, bit error, etc.) and range (
(the entire processing device, a part of the processing device, etc.), one piece of fault information about the most serious fault is selected. If there are multiple failures with the same severity, the first piece of failure information collected is selected based on the collection identification code. When there is only one piece of fault information, that fault information is unconditionally targeted for analysis.

障害情報収集・解析制御部11は、障害情報解析部13
を起動して解析対象の障害情報の収集識別コードを通知
すると、ステップ11fに進み、障害情報解析部13か
らの解析終了通知の待ち状態に移行する。
The failure information collection/analysis control unit 11 includes a failure information analysis unit 13
When the system starts up and notifies the collection identification code of the failure information to be analyzed, the process advances to step 11f and shifts to a waiting state for an analysis completion notification from the failure information analysis unit 13.

起動された障害情報解析部13は、最初のステップ13
aにおいて、指定された収集識別コードに該当する障害
情報を障害情報格納部14から読出して解析し、障害箇
所の指摘などから成る解析結果をオペレーターに通知す
る。障害情報解析部13は、この解析が終了するとステ
ップ13bで解析の終了を障害情報収集・解析制御部1
1に通知したのち、全処理を終了する。
The activated failure information analysis unit 13 performs the first step 13.
In step a, the failure information corresponding to the designated collection identification code is read from the failure information storage unit 14, analyzed, and the operator is notified of the analysis result, which includes pointing out the failure location. When this analysis is completed, the failure information analysis unit 13 instructs the failure information collection/analysis control unit 1 to terminate the analysis in step 13b.
After notifying 1, all processing ends.

障害情報収集・解析制御部IIは、障害gR@解析部1
3から解析終了の通知を受けると、ステップl1gに進
み、処理の終了指令の有無を判定し、これがない場合に
は、ステップllaに戻って上述の制御を繰り返す。
The fault information collection/analysis control unit II is the fault gR@analysis unit 1.
When the notification of the end of the analysis is received from step 3, the process proceeds to step 11g, where it is determined whether or not there is a command to end the process, and if there is no command, the process returns to step 11a and the above-described control is repeated.

以上、障害情報の解析の開始後はこれが終了するまで後
発の障害情報についての収集要求を受付けない構成を説
明したが、そのような後発の障害情報の収集要求を割込
みなどで受付け、先発の障害情報の解析を中断して収集
を済ませ、後発の障害が解析中の障害よりも重大な場合
には、先発の障害情報の解析を後°回しにして後発の障
害情報の解析を開始する構成とすることもできる。
Above, we have explained the configuration in which after the analysis of failure information starts, requests for collection of subsequent failure information are not accepted until the analysis is finished. The configuration is such that the analysis of the information is interrupted and the collection is completed, and if the subsequent failure is more serious than the failure being analyzed, the analysis of the earlier failure information is postponed and the analysis of the subsequent failure information is started. You can also.

発明の効果 以上詳細に説明したように、本発明に係わる障害情報の
収集・解析方式は、各処理装置からの障害情報の収集を
その解析の開始に優先して行うと共に、未解析の収集済
み障害情報を障害コードや収集の先後関係に基づく所定
の優先順位に従って解析を開始する構成であるから、緊
急性の高い順に障害情報の解析が終了することになり、
システム全体の信頼性と動作のwlVt性が大幅に向上
するという効果が奏される。
Effects of the Invention As explained in detail above, the failure information collection and analysis method according to the present invention prioritizes the collection of failure information from each processing device before starting its analysis, and collects unanalyzed collected information with priority. Since the configuration starts analysis of failure information according to a predetermined priority order based on the failure code and the relationship between collection priority, analysis of failure information is completed in order of urgency.
The effect is that the reliability of the entire system and the wlVt performance of the operation are greatly improved.

【図面の簡単な説明】[Brief explanation of drawings]

第1図は本発明の一実施例に係わる障害情報の収集・解
析方式を適用する電子計算機システムの構成を示すブロ
ック図、第2図乃至第4図はそれぞれ第1図の診゛断装
置10の障害情報収集・解析制御部11、障害情報収集
部12及び障害情報解析部13の動作を説明するフロー
チャート、第5図は第1図の診断装置10内の障害情報
格納部14に格納される障害情報の構成を示すフォーマ
ット図である。 10・・システム診断装置、11・・障害情報収集・解
析制御部、12・・障害情報収集部、13・・障害情報
解析部、14・・障害情報格納部、15・・コード格納
部。
FIG. 1 is a block diagram showing the configuration of a computer system to which a fault information collection/analysis method according to an embodiment of the present invention is applied, and FIGS. 2 to 4 respectively show the diagnosis device 10 of FIG. A flowchart illustrating the operations of the fault information collection/analysis control section 11, the fault information collection section 12, and the fault information analysis section 13 in FIG. FIG. 3 is a format diagram showing the structure of failure information. DESCRIPTION OF SYMBOLS 10: System diagnostic device, 11: Failure information collection/analysis control unit, 12: Failure information collection unit, 13: Failure information analysis unit, 14: Failure information storage unit, 15: Code storage unit.

Claims (1)

【特許請求の範囲】 電子計算機システムを構成する複数の処理装置から障害
情報を収集して解析する電子計算機システムの障害情報
収集・解析方式において、 各処理装置からの障害情報の収集をその解析の開始に優
先して行い、各収集済み障害情報を収集の先後関係を表
示しつつ保存すると共に、保存中の未解析障害情報が複
数存在する場合にはそれぞれに含まれる障害の種類や範
囲に関する障害コードと収集の先後関係から決定される
所定の優先順位に従って解析を開始することを特徴とす
る電子計算機システムの障害情報収集・解析方式。
[Claims] In a fault information collection/analysis method for a computer system that collects and analyzes fault information from a plurality of processing devices constituting the computer system, collection of fault information from each processing device is performed in the analysis. Priority is given to the start of the process, and each collected failure information is saved while displaying the relationship between collections, and if there is multiple unanalyzed failure information being saved, failure information related to the type and range of failure included in each is saved. A fault information collection/analysis method for a computer system, characterized in that analysis is started according to a predetermined priority determined from a code and a collection sequence.
JP61042191A 1986-02-26 1986-02-26 Fault information collecting and analyzing system for electronic computer system Pending JPS62198943A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP61042191A JPS62198943A (en) 1986-02-26 1986-02-26 Fault information collecting and analyzing system for electronic computer system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP61042191A JPS62198943A (en) 1986-02-26 1986-02-26 Fault information collecting and analyzing system for electronic computer system

Publications (1)

Publication Number Publication Date
JPS62198943A true JPS62198943A (en) 1987-09-02

Family

ID=12629114

Family Applications (1)

Application Number Title Priority Date Filing Date
JP61042191A Pending JPS62198943A (en) 1986-02-26 1986-02-26 Fault information collecting and analyzing system for electronic computer system

Country Status (1)

Country Link
JP (1) JPS62198943A (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001031450A1 (en) * 1999-10-28 2001-05-03 General Electric Company Apparatus and method for performance and fault data analysis
US6651034B1 (en) 1999-10-28 2003-11-18 General Electric Company Apparatus and method for performance and fault data analysis

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001031450A1 (en) * 1999-10-28 2001-05-03 General Electric Company Apparatus and method for performance and fault data analysis
US6651034B1 (en) 1999-10-28 2003-11-18 General Electric Company Apparatus and method for performance and fault data analysis
US7013239B2 (en) 1999-10-28 2006-03-14 General Electric Company Apparatus and method for performance and fault data analysis

Similar Documents

Publication Publication Date Title
JPH0950424A (en) Dump sampling device and dump sampling method
JPS62198943A (en) Fault information collecting and analyzing system for electronic computer system
JP3526031B2 (en) Data transfer device
KR970003139B1 (en) Full electronic switching system
CA1143026A (en) Computer system
JP3381756B2 (en) Parallel processor system
JP2570995B2 (en) Disk controller
JP2688368B2 (en) Error address collection method
JP2979553B2 (en) Fault diagnosis method
JPH05114035A (en) Response information processing system
JPH0255816B2 (en)
JPS5832422B2 (en) Micro Shindan Houshiki
JPH011041A (en) Early failure detection method
JP2000112907A (en) Multi-processor device and operation recording method
JPH02212948A (en) Fault information collector for central processing unit
JPS5848299A (en) Fault diagnosing device of memory
JPS5896326A (en) Input and output control method
JPH086909A (en) Parallel computer system
JPH0683714A (en) Expanded storage control device
JPS63195725A (en) File processor
JPH07262053A (en) Information processor
JPH05197692A (en) System for storing inter-cpu communication data history
JPH0573359A (en) Maintenance information reading system
JPH0426500B2 (en)
JPH05250194A (en) Service processor