JPH04172537A - Failure analysis method for information processor - Google Patents

Failure analysis method for information processor

Info

Publication number
JPH04172537A
JPH04172537A JP2299716A JP29971690A JPH04172537A JP H04172537 A JPH04172537 A JP H04172537A JP 2299716 A JP2299716 A JP 2299716A JP 29971690 A JP29971690 A JP 29971690A JP H04172537 A JPH04172537 A JP H04172537A
Authority
JP
Japan
Prior art keywords
fault
information
failure
detection circuit
fault detection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2299716A
Other languages
Japanese (ja)
Inventor
Yoichi Tsufuku
津布久 陽一
Hirohisa Nishine
西根 裕久
Hiroshi Shiga
博 志賀
Mamoru Kaneko
守 金子
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Hitachi Electronics Services Co Ltd
Original Assignee
Hitachi Ltd
Hitachi Electronics Services Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd, Hitachi Electronics Services Co Ltd filed Critical Hitachi Ltd
Priority to JP2299716A priority Critical patent/JPH04172537A/en
Publication of JPH04172537A publication Critical patent/JPH04172537A/en
Pending legal-status Critical Current

Links

Abstract

PURPOSE:To enhance indicated resolution and precision of a defective part when the defect occurs by referring to a failure dictionary for parts including components of the processor, and by indicating a processor component part group included in a limited cover area as defective parts. CONSTITUTION:A failure dictionary 20 is prepared on the basis of a result of extracting in advance a cover area for total failure detecting circuit, and consists of a failure detecting circuit, processor components, and correspondence information for selector signals, cover for failure defecting circuit, information of connecting between logical elements included in the area, and so on. Failure analysis section 100 recognizes a leading light failure detecting circuit (FD) from a detected state of failure information 10, obtains bus selecting information from information 10 and the corresponding information of selector signals stored in dictionary 20, analyses the bus selecting information, and specifies a data transfer bus in the case of the occurrence of a failure. Failure analysis section 200 extracts a cover area from the content of the register of information 10 and inter-register connecting information. Failure analysis section 300 extracts a cover area for the case where a plurality of FDs exist. With this, a cover area is limited, thereby enhancing the indicated resolution and its accuracy.

Description

【発明の詳細な説明】 〔産業上の利用分野〕 本発明は、情報処理装置の稼動中に発生する障害を解析
して故障部品を指摘する障害解析方式に関し、特に障害
検出回路のカバー領域を限定すること、すなわち故障部
品の指摘分解能iよび指摘精度向上に好適な障害解析方
式に関する。
[Detailed Description of the Invention] [Industrial Application Field] The present invention relates to a fault analysis method that analyzes faults that occur during the operation of an information processing device and points out faulty parts, and particularly relates to a fault analysis method that identifies faulty parts by analyzing faults that occur during the operation of an information processing device. In other words, the present invention relates to a failure analysis method suitable for improving the pointing resolution i and the pointing accuracy of faulty parts.

〔従来の技術〕[Conventional technology]

一般に、情報処理装置においては、動作中に並行して検
査を行うことができ、また再現性のない間歇的な障害に
対しても診断できるように、コンカレントエラーチエツ
ク診断方式が用いられている。このフンカレントエラー
チエツク診断方式では、装置内部に動作中に発生する障
害を検出するための障害検出回路が組み込まれており、
障害発生時にこれら障害検出回路の検出状態を解析して
最初に点灯した障害検出回路を求め、あらかじめ作用さ
れた故障辞書を参照することにより、故障保守交換単位
を指摘する。この故障交換単位を交換することによって
障害修復処理が行なわれる。
Generally, a concurrent error check diagnosis method is used in information processing devices so that tests can be performed in parallel during operation and even intermittent failures that are not reproducible can be diagnosed. In this current error check diagnostic method, a fault detection circuit is built into the device to detect faults that occur during operation.
When a fault occurs, the detection states of these fault detection circuits are analyzed to find the fault detection circuit that lights up first, and by referring to the fault dictionary that has been activated in advance, the fault maintenance/replacement unit is pointed out. Fault repair processing is performed by replacing this faulty replacement unit.

ところで、上記故障辞書には各障害検出回路に対応して
、その障害検出回路を点灯させる原因となった故障を含
む保守交換単位を指摘する対応表が記載されているもの
であり、その精度はコンカレントエラーチエツク診断方
式の性能である分解能(故障位置の指摘能力)と連中率
(故障部品の指摘精度)を左右する。したがって、障害
発生時の原因究明を容易とし速やかな修復を可能とする
ためには、精度の良い故障辞書を作成することが重要で
ある。
By the way, the above-mentioned fault dictionary contains a correspondence table for each fault detection circuit that points out the maintenance/replacement unit that includes the fault that caused the fault detection circuit to turn on, and its accuracy is This affects the performance of the concurrent error check diagnosis method, namely resolution (ability to pinpoint fault location) and success rate (accuracy in pinpointing faulty parts). Therefore, it is important to create a highly accurate fault dictionary in order to facilitate investigation of the cause and enable prompt repair when a fault occurs.

しかしながら、この故障辞書の作成には特殊な設計知識
が必要であり、熟練した専門家による人手作業に依存す
る度合いが強く、今後の部品の高集積化に伴う計算機の
論理規模の飛躍的な拡大に対して、辞書の作成工数の急
増及び辞書の品質の低下が懸念されていた。
However, creating this fault dictionary requires special design knowledge and is highly dependent on manual labor by skilled experts, and the logical scale of computers will expand dramatically in the future as parts become more highly integrated. However, there were concerns about a rapid increase in the number of man-hours required to create dictionaries and a decline in the quality of dictionaries.

特開昭63−8836号広報に記載されている故障診断
辞書作成方式は、このような背景から。
It is against this background that the fault diagnosis dictionary creation method described in Japanese Patent Application Laid-open Publication No. 8836/1983 was developed.

論理設計情報から障害検出回路に対応した障害の発生が
予想される交換部品を抽出することにより、故障辞書作
成の自動化を目的としたものである。
The purpose is to automate the creation of a fault dictionary by extracting replacement parts that are expected to cause a fault corresponding to the fault detection circuit from logic design information.

これにより、作成工数の低減だけでなく、人手作業のミ
スに伴う指摘漏れや誤指摘を防止し、辞書の品質向上を
可能とする。
This not only reduces the number of man-hours required to create a dictionary, but also prevents omissions or incorrect indications due to manual errors, and improves the quality of the dictionary.

また、特開昭63−10244号公報には、論理シミュ
レーションを利用して故障伝播不能領域を除去すること
により、故障辞書の分解能を向上させるための故障辞書
作成方法が記載されており、特開平2−10440号公
報には、指摘交換単位に優先順位を付加することにより
、故障辞書の指摘精度を向上させるための故障辞書作成
方式が記載されている。これらはいずれも、故障辞書の
精度向上を目的としており、保守効率の向上を可能とす
る。
Furthermore, JP-A-63-10244 describes a fault dictionary creation method for improving the resolution of a fault dictionary by removing areas where fault propagation is not possible using logic simulation. Publication No. 2-10440 describes a fault dictionary creation method for improving the pointing accuracy of a fault dictionary by adding a priority order to each pointing exchange unit. All of these are aimed at improving the accuracy of failure dictionaries, making it possible to improve maintenance efficiency.

(発明が解決しようとする課題〕 上記従来技術は、計算機稼動以前にあらかじめ論理設計
情報を用いて故障辞書を作成するものであるため、障害
時に実際に動作した論理部分に故障箇所を限定すること
ができず、故障部品の指摘精度が不十分であることが問
題であった。
(Problems to be Solved by the Invention) Since the above-mentioned conventional technology creates a fault dictionary using logical design information in advance before the computer starts operating, it is difficult to limit the fault location to the logical part that actually operated at the time of the fault. The problem was that the accuracy of identifying faulty parts was insufficient.

また、近年、素子の高集積化、実装の高密度化などのハ
ードウェア技術の進歩により、装置を構成する保守交換
単位が大規模化するとともに、その個数が減少してきて
いる。上記従来技術によって作成される故障辞書は、情
報処理装置を取り巻くこのような環境に対する配慮がな
く、保守段階で使用される巳とを前提としているため、
大規模な保守交換単位上に搭載されている故障部品(L
SI)の指摘分解能が不十分であるという問題があった
Furthermore, in recent years, due to advances in hardware technology such as higher integration of elements and higher density packaging, the maintenance/replacement units that constitute devices have become larger and their number has been decreasing. The failure dictionary created by the above-mentioned conventional technology does not take into consideration the environment surrounding the information processing device, and is premised on being used in the maintenance stage.
Failure parts (L) installed on large-scale maintenance and replacement units
There was a problem that the pointing resolution of SI) was insufficient.

さらに、コンカレントエラーチエツク診断方式を用いて
保守現場で交換された保守交換単位から。
Additionally, from maintenance replacement units replaced at the maintenance site using the concurrent error check diagnostic method.

障害の原因となった故障部品を絞り込む場合、ハードウ
ェアテスタや診断プログラムによる障害再現テストの実
施結果をもとに、原因の究明がなされる。ところがこの
再現テストでは、障害が再現するまでに長い時間を要す
る場合が多く、再現しない場合にはそのまま高価な故障
交換単位を廃棄してしまうことが少なくない。このこと
は間歇障害に対して無力であることを意味しており、工
場においても障害の種類に依存しない解析方式が切望さ
れている。
When narrowing down the faulty parts that are the cause of a failure, the cause is investigated based on the results of a failure reproduction test using a hardware tester or diagnostic program. However, in this reproduction test, it often takes a long time for the failure to be reproduced, and if the failure cannot be reproduced, the expensive failed replacement unit is often discarded. This means that they are powerless against intermittent failures, and there is a strong need for an analysis method that does not depend on the type of failure, even in factories.

加えて、熟練した専門家の不足が修復効率の低下を招い
ている。
In addition, the lack of skilled professionals has led to a decline in repair efficiency.

本発明の目的は、専門家の知識に基づいて組織的な標準
処理を実施することにより、高度な技術知識を必ずしも
前提とせずに障害発生時の故障部品の指摘分解能および
指摘精度を向上させる障害解析方式を提供することにあ
る。
The purpose of the present invention is to improve the resolution and accuracy of pointing out faulty parts when a fault occurs, without necessarily assuming advanced technical knowledge, by implementing systematic standard processing based on the knowledge of experts. The objective is to provide an analysis method.

〔課題を解決するための手段〕[Means to solve the problem]

本発明は上記目的を達成するために、障害発生時に保守
支援装置によって収集された障害検出回路の検出状態を
示す障害情報に基づいて、最初に点灯した障害検出回路
を先頭点灯障害検出回路と定義し、前記障害情報に基づ
いて認識された先頭点灯障害検出回路に関する障害時の
パス選択情報が存在する場合には、該パス選択情報に従
って障害時のデータ転送パスを特定して回路トレースを
実施することにより、実際の動作とは無関係な論理を排
除した先頭点灯障害検出回路のカバー領域(障害検出可
能領域)を柚比する手段と、前記障害情報に基づいて認
識された先頭点灯障害検出回路に関する全てのレジスタ
に対してパリティチェックを実施し、該先頭点灯障害検
出回路を点灯させる原因となった障害データ、すなわち
パリティエラー情報が残存するエラーレジスタが存在す
る場合には、レジスタ間接続情報をもとに最初に該障害
データをセットしたエラーレジスタを特定して、該エラ
ーレジスタを起点として回路トレースを実施することに
より、先頭点灯障害検出回路のカバー領域を絞り込んで
抽出する手段と、前記障害情報に基づいて認識された先
頭点灯障害検出回路が、同時に障害検出したため複数個
存在する場合には、各先頭点灯障害検出回路のカバー領
域の共通領域を抽出して、該共通領域を各先頭点灯障害
検出回路を点灯させる原因となった障害の存在する最も
疑わしい部分として指摘する手段とを有し、装置構成部
品情報を含む故障辞書を参照することにより、前記限定
されたカバー領域に含まれる装置構成部品群を故障部品
として指摘するようにしたものである。
In order to achieve the above object, the present invention defines the first lighting fault detection circuit as the first lighting fault detection circuit based on fault information indicating the detection state of the fault detection circuit collected by a maintenance support device when a fault occurs. However, if there is path selection information at the time of failure regarding the leading lighting failure detection circuit recognized based on the failure information, a data transfer path at the time of failure is identified according to the path selection information and circuit tracing is performed. Accordingly, there is provided a means for increasing the cover area (fault detectable area) of a leading lighting fault detection circuit that eliminates logic unrelated to actual operation, and a leading lighting fault detecting circuit recognized based on the fault information. A parity check is performed on all registers, and if there is an error register in which the fault data that caused the first lighting fault detection circuit to turn on, that is, parity error information remains, the inter-register connection information is also checked. means for narrowing down and extracting the cover area of the leading lighting fault detection circuit by first identifying the error register in which the fault data is set and performing circuit tracing using the error register as a starting point; If there are multiple leading lighting fault detection circuits recognized based on the fault detection circuits at the same time, a common area of the cover area of each leading lighting fault detection circuit is extracted, and the common area is used for each leading lighting fault detection circuit. and a means for pointing out as the most suspicious part where the fault that caused the detection circuit to turn on is present, and by referring to a fault dictionary containing device component information, the device configuration included in the limited coverage area is detected. This system is designed to point out a group of parts as a failed part.

〔作用〕[Effect]

本発明においては、障害時に凍結された障害情報に基づ
いて障害検出回路のカバー領域を絞り込むため、実際に
動作した論理部分に故障箇所を限定することが可能とな
り、故障部品の指摘分解能と指摘精度が向上する、また
、障害情報に基づいているため、障害の種類の区別なく
解析を実施することが可能となり、保守現場においては
保守交換単位での故障の指摘を、さらに情報処理装置の
生産工場においては再現テストの必要がなくなり、故障
保守交換単位上の故障部品(LSI)を指摘する。加え
て、処理を標準化したことにより、高度な技術知識を必
ずしも前提としない保守、修理を可能とした。
In the present invention, since the coverage area of the fault detection circuit is narrowed down based on the fault information frozen at the time of a fault, it is possible to limit the fault location to the logic part that actually operated, and the fault detection resolution and fault detection accuracy are improved. In addition, since it is based on fault information, it is possible to perform analysis regardless of the type of fault, and it is possible to identify faults at the maintenance site and at the factory where information processing equipment is produced. In this case, there is no need for a reproduction test, and the faulty part (LSI) on the fault maintenance/replacement unit is pointed out. Additionally, by standardizing the process, maintenance and repairs can be performed without necessarily requiring advanced technical knowledge.

〔実施例〕〔Example〕

以下、本発明の動作原理と一実施例を図を用いて説明す
る。
Hereinafter, the operating principle and one embodiment of the present invention will be explained using the drawings.

まず、本発明の動作原理を説明する。First, the operating principle of the present invention will be explained.

障害検出回路が1点灯時にその原因となる故障を含む領
域を、障害検出回路のカバー領域(障害検出可能領域)
と呼ぶ、コンカレントエラーチエツク診断方式において
利用される故障辞書の基本情報は、このような障害検出
回路とそのカバー領域内に含まれる部品との対応情報で
ある。
The area including the fault that causes the fault detection circuit to turn on when 1 is lit is the coverage area of the fault detection circuit (fault detectable area).
The basic information of the fault dictionary used in the concurrent error check diagnostic method called ``Fault Detection Circuit'' is the correspondence information between such a fault detection circuit and the components included within its coverage area.

故障辞書を作成する場合、従来のカバー領域認識方法で
は、論理設計情報から自動的に障害検出回路のカバー領
域を認識しており、各障害検出回路を開始点として、論
理の流れとは逆方向にトレース(バックトレース)し、
その障害検出回路に対応したパリティ・ジェネレート対
象レジスタとその障害検出回路以外の障害検出回路に対
応したパリティ・チエツク対象レジスタとを停止点とす
ることにより、その障害検出回路のカバー領域を認識し
ている(第5図(a)参照)。
When creating a fault dictionary, conventional coverage area recognition methods automatically recognize the coverage area of fault detection circuits from logic design information, and start from each fault detection circuit in the opposite direction to the logic flow. Trace (backtrace) to
By setting the parity generation target register corresponding to the fault detection circuit and the parity check target register corresponding to the fault detection circuit other than the fault detection circuit as stopping points, the coverage area of the fault detection circuit is recognized. (See Figure 5(a)).

本発明では、障害時に収集された障害情報に含まれる点
灯している障害検出回路に関するパス選択情報、障害デ
ータを保持しているレジスタ情報をもとに、トレースの
開始点、停止点を明確に設定した後、カバー領域抽出ト
レースを実施することにより、障害の原因となった故障
を含む可能性が最も疑わしい領域を極力絞り込むことが
可能となる。
In the present invention, the starting point and stopping point of a trace are clearly determined based on the path selection information regarding the fault detection circuit that is lit and the register information that holds the fault data, which is included in the fault information collected at the time of a fault. After setting, by performing a cover area extraction trace, it becomes possible to narrow down as much as possible the areas most likely to include the failure that caused the failure.

第1図は、本発明の一実施例である情報処理装置障害解
析方式1の構成を示す概略図である。入力情報は障害情
報10と故障辞書20である。障害情報10は、装置内
に組み込まれた障害検出回路の検出状態を示す情報、セ
レクタ信号のセット/リセット状態を示す情報、トレー
サ信号のセット/リセット状態を示す情報、凍結時のレ
ジスタの内容を示す情報、障害マシンサイクル数などか
らなる。故障辞書20は、あらかじめ全障害検出回路の
カバー領域を抽出した結果をもとに作成されたもので、
障害検出回路と装置構成部品との対応情報、障害検出回
路とセレクタ信号との対応情報、障害検出回路のカバー
領域内に含まれるゲートやレジスタ等の論理要素間の接
続関係情報などからなる。出力情報は、故障部品指摘リ
スト3゜である。故障部品指摘リスト30は、先頭点灯
障害検出回路名と被疑故障部品名及びその実装位置情報
を含み、デイスプレィ装置上に表示されても良いし、プ
リンタによって印刷出力されても良い。
FIG. 1 is a schematic diagram showing the configuration of an information processing apparatus failure analysis method 1, which is an embodiment of the present invention. The input information is fault information 10 and fault dictionary 20. The fault information 10 includes information indicating the detection state of a fault detection circuit built into the device, information indicating the set/reset state of the selector signal, information indicating the set/reset state of the tracer signal, and the contents of the register at the time of freezing. It consists of information such as the number of faulty machine cycles, etc. The fault dictionary 20 is created based on the results of previously extracting the coverage areas of all fault detection circuits.
It consists of correspondence information between the failure detection circuit and device components, correspondence information between the failure detection circuit and selector signals, and connection relationship information between logical elements such as gates and registers included within the coverage area of the failure detection circuit. The output information is a failed parts indication list 3°. The faulty parts indication list 30 includes the name of the leading lighting fault detection circuit, the name of the suspected faulty part, and its mounting position information, and may be displayed on a display device or printed out by a printer.

障害解析方式1は、パス選択情報による障害解析部10
0とエラーレジスタ情報による障害解析部2.OQと共
通カバー領域情報による障害解析部300とで構成され
る。上記3つの解析部は、対象論理の種別に応じて実施
されるものであり、選択的に個別に実施されても良いし
、組み合わされて実施されても良い。
Failure analysis method 1 is a failure analysis unit 10 based on path selection information.
Failure analysis unit based on 0 and error register information 2. It is composed of a failure analysis unit 300 based on OQ and common coverage area information. The above three analysis units are implemented depending on the type of target logic, and may be selectively implemented individually or in combination.

以下に、各解析部の詳細を説明する。The details of each analysis section will be explained below.

第2図は、パス選択情報による障害解析部100の処理
手順を示すフローチャートである。
FIG. 2 is a flowchart showing the processing procedure of the failure analysis unit 100 based on path selection information.

ステップ110において、障害情報10に含まれる障害
検出回路の検出状態を示す情報から、最初に障害を検出
したために点灯した障害検出回路を認識し、先頭点灯障
害検出回路と定義する。この先頭点灯障害検出回路の認
識は、従来から障害検出回路相互の従属関係情報、ある
いはハードウェアの機能として装置に組み込まれた識別
用カウンタ回路などを用いて容易に実現されている。こ
のとき、障害情報10に含まれるセレクタ信号のセット
/リセット状態を示す情報と、故障辞書2゜、に含まれ
る障害検出回路とセレクタ信号との対応情報とから、先
頭点灯障害検出回路に対応したセレクタが存在するか否
かを確認し、存在する場合には、障害検出時に凍結され
たパス選択情報を求める(120)、次にステップ13
0において、パス選択情報を解析して障害時のデータ転
送パスを特定する。パス選択情報が凍結されている保証
がない場合、トレーサ信号をもとに障害時の動作状態を
分析し、選択情報の補正を行うことも可能である。デー
タ転送パスが特定したならば、従来のカバー領域認識方
法と同様に、先頭点灯障害検出回路を開始点としてバッ
クトレースし、他の障害検出回路のパリティ・チエツク
対象レジスタなどの停止点までをカバー領域として抽出
する(140)、このとき、トレース中にセレクタに到
達した場合には、特定されたデータ転送パスを除いて、
トレースを停止しているため、従来方法よりカバー領域
が絞り込まれる。カバー領域ノ抽出が終了した時点で、
領域内の装置構成部品を故障部品として指摘する(15
0)。
In step 110, from the information indicating the detection state of the fault detection circuit included in the fault information 10, the fault detection circuit that is turned on due to the first detection of a fault is recognized and defined as the first lighting fault detection circuit. Recognition of the leading lighting failure detection circuit has conventionally been easily realized using information on the mutual dependency of the failure detection circuits or an identification counter circuit built into the device as a hardware function. At this time, based on the information indicating the set/reset state of the selector signal included in the fault information 10 and the correspondence information between the fault detection circuit and the selector signal included in the fault dictionary 2, Check whether a selector exists or not, and if so, obtain the path selection information frozen at the time of failure detection (120), then step 13
0, the path selection information is analyzed to identify the data transfer path at the time of failure. If there is no guarantee that the path selection information is frozen, it is also possible to correct the selection information by analyzing the operating state at the time of the failure based on the tracer signal. Once the data transfer path has been identified, similar to the conventional coverage area recognition method, backtrace is performed starting from the first lighting fault detection circuit, and covers up to the stopping point of the parity check target register of other fault detection circuits. Extract as an area (140). At this time, if a selector is reached during tracing, excluding the specified data transfer path,
Since tracing is stopped, the covered area is narrowed down compared to conventional methods. When the extraction of the cover area is completed,
Point out equipment components within the area as faulty parts (15
0).

第3図は、エラーレジスタ情報による障害解析部200
の処理手順を示すフローチャートである。
FIG. 3 shows a failure analysis unit 200 based on error register information.
2 is a flowchart showing a processing procedure.

ステップ210において、障害情報10をもとに先頭点
灯障害検出回路を認識し、障害情報10に含まれる凍結
時のレジスタの内容を示す情報と、故障辞書20に含ま
れる障害検出回路のカバー領域内しジスタ間接続情報と
から、先頭点灯障害検出回路に関する全レジスタのパリ
ティチェックを実施する(220)。先頭点灯障害検出
回路を点灯させる原因となったパリティエラー情報(障
害データ)が残っているエラーレジスタが存在する場合
には(230)、レジスタ間接続情報をもとに、そのエ
ラーレジスタの中から最初に障害データをセットしたエ
ラーレジスタを特定し、それをカバー領域抽出の開始点
とする(240)、先頭点灯障害検出回路のカバー領域
抽出は、この開始点からバックトレースが実施される(
250)。
In step 210, the leading lighting fault detection circuit is recognized based on the fault information 10, and information indicating the contents of the register at the time of freezing included in the fault information 10 and within the coverage area of the fault detection circuit included in the fault dictionary 20 are detected. A parity check is performed on all registers related to the leading lighting failure detection circuit based on the inter-register connection information (220). If there is an error register in which parity error information (failure data) that caused the leading lighting failure detection circuit to turn on remains (230), the error register is selected based on the connection information between registers. First, identify the error register in which the fault data is set and use it as the starting point for extracting the cover area (240). To extract the cover area of the leading lighting fault detection circuit, a backtrace is performed from this starting point (240).
250).

このとき、この最初のエラーレジスタと先頭点灯障害検
出回路の間をカバー領域外として排除することができる
。カバー領域の抽出が終了した時点で、領域内の装置構
成部品を故障部品として指摘する(260)。
At this time, the area between this first error register and the leading lighting failure detection circuit can be excluded as outside the coverage area. When the extraction of the cover area is completed, the device components within the area are pointed out as failed parts (260).

第4図は、共通カバー領域情報による障害解析部300
の処理手順を示すフローチャートである。
FIG. 4 shows a failure analysis unit 300 based on common coverage area information.
2 is a flowchart showing a processing procedure.

ステップ310において、障害情報10をもとに先頭点
灯障害検出回路を認識する。通常、先頭点灯障害検出回
路は唯一つ存在するが、まれに同時に複数の障害検出回
路で検出したために、先頭点灯障害検出回路が複数個存
在することがある。そこで、先頭点灯障害検出回路が複
数個存在するか否かを確認する必要がある(320)。
In step 310, the leading lighting failure detection circuit is recognized based on the failure information 10. Normally, there is only one leading lighting fault detection circuit, but in rare cases, multiple leading lighting fault detection circuits may exist because multiple fault detection circuits detect the fault at the same time. Therefore, it is necessary to check whether there are a plurality of leading lighting failure detection circuits (320).

複数個存在する場合には、各先頭点灯障害検出回路のカ
バー領域を抽出し、その共通領域を認識する(330)
。ステップ340では、唯一つの先頭点灯障害検出回路
に対してカバー領域の抽出が実施される。ステ)プ33
0〜340におけるカバー領域の抽出は、上記パス選択
情報による障害解析部100、エラーレジスタ情報によ
る障害解析部200の処理手続きに従ったものでも良い
し。
If there are more than one, extract the cover area of each leading lighting failure detection circuit and recognize the common area (330)
. In step 340, a coverage area is extracted for the only leading lighting failure detection circuit. Step 33
The extraction of the cover area in 0 to 340 may be performed according to the processing procedure of the failure analysis unit 100 based on the path selection information and the failure analysis unit 200 based on the error register information.

従来方法によるものでも良い。求められたカバー領域の
共通領域内に含まれる装置構成部品を故障部品として指
摘する(350)。
A conventional method may be used. Device components included within the common area of the obtained coverage areas are pointed out as faulty parts (350).

本実施例による効果を第5図、第6図を用いて説明する
。第5図において、510〜513は障害検出回路、5
20〜528はレジスタである。
The effects of this embodiment will be explained using FIGS. 5 and 6. In FIG. 5, 510 to 513 are failure detection circuits;
20 to 528 are registers.

530はセレクタ信号(XXSELA)であり、論理値
11011の場合、データ転送パス540を選択し、“
1”の場合、541を選択する。531(XXSELB
)も同様である。このような回路構成のもとで、障害検
出回路510(ACK)が最初に点灯したとする。第5
図(cL)は、従来方法による先頭点灯障害検出回路5
10のカバー領域560を示し、その指摘故障部品は、
LSII(550)、LSI2 (551)、LSI3
 (552)、LSI4 (553)である。第5図(
b)は、セレクタ信号530が論理値゛″1”にセット
した場合に、パス選択情報による障害解析100を実施
した結果、カバー領域561が抽出されたことを示す。
530 is a selector signal (XXSELA), and when the logical value is 11011, it selects the data transfer path 540 and “
1”, select 541. 531 (XXSELB
) is also similar. Assume that under such a circuit configuration, the failure detection circuit 510 (ACK) lights up first. Fifth
Figure (cL) shows a leading lighting failure detection circuit 5 using a conventional method.
10 coverage areas 560 are shown, and the identified failed parts are:
LSII (550), LSI2 (551), LSI3
(552), LSI4 (553). Figure 5 (
b) indicates that when the selector signal 530 is set to the logical value "1", the cover area 561 has been extracted as a result of the failure analysis 100 based on the path selection information.

指摘故障部品は、LSII(550)。The indicated failed part is LSII (550).

LSI3 (552)、LSI4 (553)である。They are LSI3 (552) and LSI4 (553).

第5図(c)は、レジスタ521が最初に障害データを
セットした場合に、エラーレジスタ情報による障害解析
200を実施した結果、カバー領域562が抽出された
ことを示す。ここで注意しなければならないことは、障
害検出回路510に関連するレジスタは520〜525
であるが、レジスタ520は障害検出回路510のパリ
ティ・チエツク対象レジスタであるため、それ以外のレ
ジスタから最初に障害データをセットしたレジスタを探
索することである。これは、レジスタ間の論理的接続関
係などにより容易に実現する。ここで指摘故障部品は、
LSI2 (551)、LSI3(552)である。
FIG. 5(c) shows that when the register 521 first sets fault data, a cover area 562 is extracted as a result of fault analysis 200 based on error register information. What must be noted here is that the registers related to the failure detection circuit 510 are 520 to 525.
However, since the register 520 is the target register for the parity check of the failure detection circuit 510, the register in which the failure data is set first is searched from among the other registers. This can be easily achieved using logical connection relationships between registers. The faulty parts pointed out here are
They are LSI2 (551) and LSI3 (552).

第6図において、障害検出回路610(CHKl)、6
20 (CHK2)は、ともに先頭点灯障害検出回路で
ある。共通カバー領域情報による障害解析300を実施
した結果、斜線で示す共通領域が抽出されたことを示す
。この共通領域により、故障交換単位630 (FRU
I)が唯一つ指摘されるだけでなく、交換単位630上
に搭載されている部品も指摘される。
In FIG. 6, a fault detection circuit 610 (CHKl), 6
20 (CHK2) are both leading lighting failure detection circuits. As a result of performing failure analysis 300 using common coverage area information, a common area indicated by diagonal lines is extracted. This common area allows 630 failed replacement units (FRU
I) is not only pointed out, but also the parts mounted on the replacement unit 630 are pointed out.

上記いずれの障害解析によっても、従来方法に比べてカ
バー領域が限定されて抽出されるため、故障部品指摘の
分解能と精度の向上が可能となる。
In any of the above failure analyzes, the coverage area is limited and extracted compared to conventional methods, so it is possible to improve the resolution and accuracy of pointing out failed parts.

さらには、処理を標準化したことにより、効率の良い保
守、修理が可能となる。
Furthermore, by standardizing the processing, efficient maintenance and repair becomes possible.

本発明は、以上の実施例に限定されるものでないことは
明らかである。
It is clear that the invention is not limited to the above embodiments.

〔発明の効果〕〔Effect of the invention〕

本発明によれば、障害時に凍結された障害情報に基づい
て障害検出回路のカバー領域を絞り込むため、実祭に動
作した論理部分に故障箇所を限定することが可能であり
、故障部品の指摘分解能と指摘精度の向上に効果がある
According to the present invention, since the coverage area of the fault detection circuit is narrowed down based on the fault information frozen at the time of the fault, it is possible to limit the fault location to the logic part that actually operated, and the resolution of faulty parts is improved. This is effective in improving pointing accuracy.

また、障害情報に基づいているため、固定障害や間歇障
害といった障害の種類の区別なく解析を実施することが
可能であり、保守現場においては保守交換単位での故障
の指摘を、情報処理装置の生産工場においては再現テス
トの必要がなくなり。
In addition, since it is based on fault information, it is possible to perform analysis regardless of the type of fault, such as fixed faults or intermittent faults, and at maintenance sites, it is possible to point out faults in units of maintenance replacements, and to use information processing equipment. There is no need for reproduction tests at the production factory.

故障保守交換単位上の故障部品を指摘できるので、障害
回復処理の作業時間が短縮するという効果がある。加え
て、処理の標準化により、高度な専門知識を前提としな
い保守、修理が可能である。
Since it is possible to point out a failed component on a failure maintenance replacement unit, it has the effect of shortening the work time for failure recovery processing. In addition, standardization of processing allows maintenance and repairs that do not require advanced specialized knowledge.

【図面の簡単な説明】[Brief explanation of the drawing]

第1図は本発明の一実施例である情報処理装置障害解析
方式の構成概略図、第2図は第1図に含まれるパス選択
情報による障害解析部の処理手順を示す図、第3図は第
1図に含まれるエラーレジスタ情報による障害解析部の
処理手順を示す図。 第4図は第1図に含まれる共通カバー領域情報による障
害解析部の処理手順を示す図、第5図(α)(b)(Q
)はモデル回路を用いた障害検出回路とカバー領域の概
念図、第6図は共通カバー領域の概念図である。 1・・・情報処理装置障害解析方式 %式% 30・・・故障部品指摘リスト 100〜150・・・パス選択情報による障害解析処理
200〜260・・・エラーレジスタ情報による障害解
析処理 300〜350・・・共通カバー領域情報による障害解
析処理 510〜513・・・障害検出回路 520〜528・・・レジスタ 530〜531・・・セレクタ信号 540〜543・・・データ転送バスルート550〜5
53・・・装置構成部品(LSI)560〜562・・
・カバー領域 610〜620・・・障害検出回路 611〜621・・・カバー領域 630〜630・・・保守交換単位単位纂 I 図 纂 2 図 v:)3  図 稟仝凹 稟5図 (α) 栴5図 (b) 第 5図 (C) 皐ろ図
FIG. 1 is a schematic diagram of the configuration of an information processing device failure analysis method that is an embodiment of the present invention, FIG. 2 is a diagram showing the processing procedure of the failure analysis unit based on the path selection information included in FIG. 1, and FIG. 2 is a diagram showing a processing procedure of a failure analysis unit based on error register information included in FIG. 1. FIG. Figure 4 is a diagram showing the processing procedure of the failure analysis unit based on the common coverage area information included in Figure 1, and Figures 5 (α), (b), and
) is a conceptual diagram of a fault detection circuit using a model circuit and a cover area, and FIG. 6 is a conceptual diagram of a common cover area. 1... Information processing device failure analysis method % formula % 30... Failure parts indication list 100-150... Failure analysis processing using path selection information 200-260... Failure analysis processing using error register information 300-350 ... Fault analysis processing based on common coverage area information 510-513 ... Fault detection circuits 520-528 ... Registers 530-531 ... Selector signals 540-543 ... Data transfer bus routes 550-5
53...Device components (LSI) 560-562...
・Cover area 610-620...Failure detection circuit 611-621...Cover area 630-630...Maintenance/replacement unit unit collection Figure 5 (b) Figure 5 (C) Figure 5

Claims (1)

【特許請求の範囲】 1、情報処理装置の稼動中に発生する障害を検出するた
めに、装置内に組み込まれた障害検出回路の検出状態を
示す情報を含む装置の障害発生時の障害情報と、装置構
成部品情報を含む故障辞書とに基づいて、障害発生時に
障害を検出したために最初に点灯する障害検出回路を先
頭点灯障害検出回路と定義し、該先頭点灯障害検出回路
が障害検出の対象とする論理(障害検出可能領域または
カバー領域)に含まれる装置構成部品群を故障部品とし
て指摘する障害解析方式であって、 前記障害情報に基づいて認識された先頭点灯障害検出回
路に関する障害時のパス選択情報が存在する場合には、
全ての該パス選択情報に従って障害時のデータ転送パス
を特定して回路トレースを実施することにより、実際の
動作とは無関係な論理を排除した先頭点灯障害検出回路
のカバー領域を抽出する手段と、 前記障害情報に基づいて認識された先頭点灯障害検出回
路に関する全てのレジスタに対してパリテイチェックを
実施し、該先頭点灯障害検出回路を点灯させる原因とな
った障害データ、すなわちパリテイエラー情報が残存す
るエラーレジスタが存在する場合には、レジスタ間接続
情報をもとに最初に該障害データをセットしたエラーレ
ジスタを特定して、該エラーレジスタを起点として回路
トレースを実施することにより、先頭点灯障害検出回路
のカバー領域を絞り込んで抽出する手段と、 前記障害情報に基づいて認識された先頭点灯障害検出回
路が、同時に障害検出したため複数個存在する場合には
、各先頭点灯障害検出回路のカバー領域の共通領域を抽
出して、該共通領域を各先頭点灯障害検出回路を点灯さ
せる原因となった障害の存在する最も疑わしい部分とし
て指摘する手段と、 を有することを特徴とした情報処理装置障害解析方式。
[Scope of Claims] 1. Fault information when a fault occurs in the device, including information indicating the detection state of a fault detection circuit built into the device, in order to detect a fault that occurs during the operation of the information processing device. , a fault detection circuit that lights up first because a fault has been detected when a fault occurs is defined as the first lighting fault detection circuit, and the first lighting fault detection circuit is the target of fault detection. A fault analysis method that points out a group of equipment component parts included in the logic (fault detectable area or coverage area) as a faulty part, and in the event of a fault related to the first lighting fault detection circuit recognized based on the fault information. If path selection information exists,
means for extracting a cover area of a leading lighting failure detection circuit that excludes logic unrelated to actual operation by identifying a data transfer path at the time of failure according to all of the path selection information and performing circuit tracing; A parity check is performed on all registers related to the leading lighting fault detection circuit recognized based on the fault information, and the fault data that caused the leading lighting fault detection circuit to turn on, that is, parity error information, is determined. If there are remaining error registers, the error register in which the fault data was first set is identified based on the connection information between the registers, and circuit tracing is performed using the error register as a starting point, so that the first light is turned on. a means for narrowing down and extracting a coverage area of a fault detection circuit; and a means for narrowing down and extracting a cover area of a first lighting fault detection circuit; and if a plurality of leading lighting fault detection circuits recognized based on the fault information detect faults at the same time; An information processing device failure characterized by comprising: means for extracting a common area of the areas and pointing out the common area as the most suspicious part where the failure that caused each head lighting failure detection circuit to turn on is present. Analysis method.
JP2299716A 1990-11-07 1990-11-07 Failure analysis method for information processor Pending JPH04172537A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2299716A JPH04172537A (en) 1990-11-07 1990-11-07 Failure analysis method for information processor

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2299716A JPH04172537A (en) 1990-11-07 1990-11-07 Failure analysis method for information processor

Publications (1)

Publication Number Publication Date
JPH04172537A true JPH04172537A (en) 1992-06-19

Family

ID=17876110

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2299716A Pending JPH04172537A (en) 1990-11-07 1990-11-07 Failure analysis method for information processor

Country Status (1)

Country Link
JP (1) JPH04172537A (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6757638B2 (en) 2002-01-28 2004-06-29 Xerox Corporation Component fault detection
US7200781B2 (en) 2003-05-14 2007-04-03 Hewlett-Packard Development Company, L.P. Detecting and diagnosing a malfunctioning host coupled to a communications bus
US7676621B2 (en) 2003-09-12 2010-03-09 Hewlett-Packard Development Company, L.P. Communications bus transceiver

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6757638B2 (en) 2002-01-28 2004-06-29 Xerox Corporation Component fault detection
US7200781B2 (en) 2003-05-14 2007-04-03 Hewlett-Packard Development Company, L.P. Detecting and diagnosing a malfunctioning host coupled to a communications bus
US7676621B2 (en) 2003-09-12 2010-03-09 Hewlett-Packard Development Company, L.P. Communications bus transceiver

Similar Documents

Publication Publication Date Title
CN101169465B (en) Iterative test generation and diagnostic method based on modeled and unmodeled faults
US8560904B2 (en) Scan chain fault diagnosis
US7765444B2 (en) Failure diagnosis for logic circuits
JP4636989B2 (en) Delay analysis apparatus, delay analysis method, delay analysis program, and recording medium
US20080263489A1 (en) Method to identify and generate critical timing path test vectors
JPH04172537A (en) Failure analysis method for information processor
US5898705A (en) Method for detecting bus shorts in semiconductor devices
Zhang et al. Board-level fault diagnosis using an error-flow dictionary
US20040233767A1 (en) Method and system of fault patterns oriented defect diagnosis for memories
US20050159925A1 (en) Cache testing for a processor design
US6728938B2 (en) Knowledge-based intelligent full scan dump processing methodology
EP0032895A1 (en) Testor for microprocessor-based systems
JP2004101203A (en) Failure analysis system for logic lsi and failure analysis method
Davidson Understanding NTF components from the field
JP2000304820A (en) Device and method for fault diagnosing as well as semiconductor integrated circuit
JPH0391846A (en) Production of correlation diagram for fault detecting circuit
JPH09264938A (en) Device and method for testing integrated circuit and device and method for designing integrated circuit
JP2000304829A (en) Semiconductor inspection method
JPH10199953A (en) Method and apparatus for analyzing yield
JP2000088925A (en) Method and apparatus for specifying fault position of semiconductor device
Nandakumar et al. Improved Chain Diagnosis Methodology for Clock and Control Signal Defect Identification
JPH05100857A (en) Information processor fault analysis system
CA1079860A (en) Automatic fault-probing method and apparatus for checking electrical circuits and the like
JPH1115518A (en) Fault diagnosis system for electronic circuit substrate/ device
JP2008116332A (en) Method for diagnosing failure of a plurality of logic circuit