JP5023086B2 - Computer system - Google Patents
Computer system Download PDFInfo
- Publication number
- JP5023086B2 JP5023086B2 JP2009019314A JP2009019314A JP5023086B2 JP 5023086 B2 JP5023086 B2 JP 5023086B2 JP 2009019314 A JP2009019314 A JP 2009019314A JP 2009019314 A JP2009019314 A JP 2009019314A JP 5023086 B2 JP5023086 B2 JP 5023086B2
- Authority
- JP
- Japan
- Prior art keywords
- information
- failure
- storage device
- hardware
- register
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Debugging And Monitoring (AREA)
Description
本発明は、計算機システムにおけるシステム障害発生時の要因解析に関する。 The present invention relates to factor analysis when a system failure occurs in a computer system.
従来の計算機システムにおいては、システム障害によってOS(オペレーティングシステム)が正常に動作できない状態になった場合、要因解析のための障害情報を採取するためのダンプ処理手段が動作する。ダンプ処理とは、システム障害発生時のメモリ等の主記憶装置上のデータを取得し、ハードディスク等の補助記憶装置にダンプファイルとして保存するものである。ダンプ処理手段により保存されたダンプファイルは、主に解析担当者が障害解析を行なうために用いられる。 In a conventional computer system, when an OS (operating system) cannot operate normally due to a system failure, dump processing means for collecting failure information for factor analysis operates. The dump processing is to acquire data on a main storage device such as a memory when a system failure occurs and save it as a dump file in an auxiliary storage device such as a hard disk. The dump file saved by the dump processing means is mainly used by a person in charge of analysis for failure analysis.
ところで、一般に、ハードウェアの故障によりシステム障害となった場合は、故障情報がメモリ上ではなく、各ハードウェアに備えられハードウェア状態を格納する状態レジスタに記録される。このため、ダンプファイルの解析では故障したハードウェアを特定することができず、一つ一つハードウェアの動作を調べることで特定することしかできなかった。 By the way, generally, when a system failure occurs due to a hardware failure, failure information is recorded not in the memory but in a status register that is provided in each hardware and stores the hardware status. For this reason, the analysis of the dump file cannot identify the failed hardware, and can only identify it by examining the operation of the hardware one by one.
計算機システムは、メモリ、複数のハードディスク、演算処理装置、入力装置、表示装置、DVDドライブ、複数のPCI接続機器等からなる多数のハードウェアから構成されているため、スキルのある解析担当者でも一つ一つハードウェアの動作を調べる作業には時間がかかり、システムを復旧させるまでには多大な時間を要していた。 Since the computer system is composed of a large number of hardware including a memory, a plurality of hard disks, an arithmetic processing unit, an input device, a display device, a DVD drive, a plurality of PCI devices, etc., even a skilled analyst can It took a long time to check the hardware operation one by one, and it took a lot of time to restore the system.
また、ダンプファイルはバイナリデータとして書き込まれており、ユーザがダンプファイル中の障害情報を直接認識できない状態となっている。したがって、ユーザがダンプファイル中のデータを参照するには、特殊なソフトウェアと障害解析に関する専門的な知識が必要であり、一般的なユーザはシステム保守担当者等に障害解析を依頼せざるをえなかった。 The dump file is written as binary data, and the user cannot directly recognize the failure information in the dump file. Therefore, in order for the user to refer to the data in the dump file, special software and specialized knowledge about failure analysis are required, and general users have to ask a system maintenance person etc. to perform failure analysis. There wasn't.
本発明が解決しようとする課題は、ハードウェア故障によるシステム障害発生時に故障したハードウェアを自動で特定してユーザに通知することができる計算機システムを提供することにある。 The problem to be solved by the present invention is to provide a computer system that can automatically identify and notify a user of hardware that has failed when a system failure occurs due to a hardware failure.
上記課題を解決するため、本発明は、主記憶装置と補助記憶装置を含む複数のハードウェアを備え、それら複数のハードウェアはそれぞれ当該ハードウェアの状態を格納する状態レジスタを有してなる計算機システムにおいて、システム障害発生時に、状態レジスタからレジスタ情報を取得し、そのレジスタ情報から故障しているハードウェアを特定して故障情報を生成し、その故障情報を格納する主記憶装置上での位置を特定するための識別情報を付してその識別情報とともに故障情報を主記憶装置に格納してからダンプ処理手段によりダンプファイルを生成し、システム障害解析時に、ダンプファイルを検索して識別情報が記録されている主記憶装置上の領域に付して記録されている故障情報を読み出して出力するシステム障害処理手段を設けてなることを特徴とする。 In order to solve the above problems, the present invention includes a plurality of hardware including a main storage device and an auxiliary storage device, and each of the plurality of hardware includes a status register for storing the status of the hardware. In the system, when a system failure occurs, the register information is acquired from the status register, the faulty hardware is identified from the register information, the failure information is generated, and the location on the main storage device for storing the failure information a dump file by dump processing unit denoted by the identification information together with the identification information failure information from and stored in the main storage device for identifying the a system failure analysis, identification information by searching the dump file system failure processing means reads and outputs failure information subjected in the region of the main memory that is recorded is recorded Characterized by comprising providing.
本発明によれば、故障情報を生成して主記憶装置に格納した後にダンプ処理手段によりダンプファイルを生成しているので、システム障害解析時に、ダンプファイルを検索することで故障したハードウェアを自動で特定してユーザに通知し、システム復旧までの時間を短縮することができる。 According to the present invention, after the failure information is generated and stored in the main storage device, the dump file is generated by the dump processing means. Therefore, when the system failure is analyzed, the failed hardware is automatically detected by searching the dump file. The user can be identified and notified and the time to system recovery can be shortened.
また、システム障害発生時に、状態レジスタからレジスタ情報を取得し、そのレジスタ情報を格納する主記憶装置上での位置を特定するための識別情報を付してその識別情報とともにレジスタ情報を主記憶装置に格納してからダンプ処理手段によりダンプファイルを生成し、システム障害解析時に、ダンプファイルを検索して識別情報が記録されている主記憶装置上の領域に付して記録されているレジスタ情報を読み出し、そのレジスタ情報から故障しているハードウェアを特定して故障情報を出力するシステム障害処理手段を設けるように構成して、故障情報を生成する場所を変えてもよい。 Also, when a system failure occurs, register information is acquired from the status register , and identification information for specifying the position on the main storage device for storing the register information is attached, and the register information is stored together with the identification information in the main storage device. A dump file is generated by the dump processing means after being stored in the file, and when the system failure is analyzed, the dump file is searched and the register information recorded in the area on the main storage where the identification information is recorded is recorded. It may be configured to provide system failure processing means for reading out and identifying the hardware that has failed from the register information and outputting the failure information, and the location where the failure information is generated may be changed.
本発明によれば、ハードウェア故障によるシステム障害発生時に故障したハードウェアを自動で特定してユーザに通知することができる。 ADVANTAGE OF THE INVENTION According to this invention, the hardware which failed at the time of the system failure generation | occurrence | production by hardware failure can be identified automatically, and a user can be notified.
以下、本発明の計算機システムの実施例を図面を参照して説明する。 Embodiments of the computer system of the present invention will be described below with reference to the drawings.
本発明の実施例1を、図1乃至4を参照して説明する。図1は本実施例の計算機システムの構成図である。図1に示すように、本実施例の計算機システムは、メモリ2とハードディスク4及び、図示していない演算処理装置、入力装置、表示装置、DVDドライブ、複数のPCI接続機器等からなる複数のハードウェアで構成されており、それぞれのハードウェアは、そのハードウェアの状態を示すレジスタ情報6を格納する状態レジスタを有している。
A first embodiment of the present invention will be described with reference to FIGS. FIG. 1 is a configuration diagram of a computer system according to this embodiment. As shown in FIG. 1, the computer system according to the present embodiment includes a
また、本実施例の計算機システムのOS10は、OS10が動作停止に陥るようなシステム障害が発生した時に動作するシステム障害処理部12と、メモリ2に格納されているデータからダンプファイル41を生成してハードディスク4に格納するためのダンプ処理部14とを備えている。
Further, the
さらに、OS10上には、障害情報管理機能18と、故障箇所自動通知機能16とが設けられており、障害情報管理機能18はシステム障害発生時に、故障箇所自動通知機能16はシステム起動時に動作するようになっている。
Furthermore, a failure
また、障害情報管理機能18は、レジスタ情報取得部20と、故障箇所解析部24と、識別情報付加部26とを備えている。
The failure
このように構成される本実施例の計算機システムのシステム障害発生時における故障箇所情報自動通知の手順を図2乃至4を用いて説明する。図2は本実施例のシステム障害発生時におけるOS10の処理の流れを示すフローチャートである。
A procedure for automatic notification of failure location information when a system failure occurs in the computer system of this embodiment configured as described above will be described with reference to FIGS. FIG. 2 is a flowchart showing the processing flow of the
ハードウェア故障によるシステム障害が発生した場合、OS10の一部であるシステム障害処理部12が処理を開始する(S11)。システム障害処理部12は、後述する障害情報管理機能18を呼び出し(S12)、障害情報管理機能18の処理の終了を待つ(S13)。障害情報管理機能18の処理が終了すると、ダンプ処理部14が処理を開始し、メモリ2に格納されているデータからダンプファイル41を生成してハードディスク4に格納する(S14)。ダンプファイル41の格納が終了すると、OS10は再起動を行なう(S15)。
When a system failure occurs due to a hardware failure, the system
図3は障害情報管理機能18の処理の流れを示すフローチャートである。システ障害発生時に、OS10のシステム障害処理部12により呼び出された障害情報管理機能18は、レジスタ情報取得部20の処理を開始する。レジスタ情報取得部20は、システム障害発生時のハードウェアの正常/異常を示すレジスタ情報6を各ハードウェアが有する状態レジスタから取得する(S21)。
FIG. 3 is a flowchart showing a processing flow of the failure
その後、故障箇所解析部24で、取得したレジスタ情報6の中から異常を示す値となっているものを見つけ、故障したハードウェアを特定できるデータ、例えば、ハードウェア名称の文字列を故障箇所情報21として生成する(S22)。識別情報付加部26は、故障箇所情報21にメモリ2上での位置を特定するための識別情報23を付加する(S23)。この時、付加する識別情報23は、ダンプファイル41内の検索おいて、他に同一の値が見つからないような固有値、例えば固有名詞等とする。
Thereafter, the failure
次に、ダンプ処理部14がデータを取得するメモリ2上の領域に、故障箇所情報21と識別情報23とを格納する(S24)。識別情報付加部26の処理が終了すると、OS10のシステム障害処理部12に処理が戻り、メモリ2に格納した故障箇所情報21と識別情報23とが、ダンプ処理部14により生成されるダンプファイル41に記録された状態で残る。
Next, the
図4は故障箇所自動通知機能16の処理の流れを示すフローチャートである。図2の(S15)のOS10の再起動により故障箇所自動通知機能16が処理を開始すると、まずダンプファイル41から識別情報23を検索し、識別情報23が記録されていなかった場合は処理を終了する(S31)。識別情報23が記録されていた場合は、識別情報23が記録されている領域に付して記録されている故障箇所情報21を読み取る(S32)。読み取った故障箇所情報21をログ等に記録、又は表示装置に出力する(S23)。ユーザは出力された故障箇所情報21を確認してシステム復旧のために対応する。
FIG. 4 is a flowchart showing a process flow of the failure location
以上説明したように本実施例によれば、故障箇所情報21を生成してメモリ2に格納した後にダンプ処理部14によりダンプファイル41を生成しているので、システム障害解析時に、ダンプファイル41を検索することで故障したハードウェアを自動で特定してユーザに通知することができ、システム復旧までの時間を短縮することができる。
As described above, according to the present embodiment, since the
次に、本発明の実施例2を、図5乃至7を参照して説明する。図5は、故障箇所の特定をOS10の再起動後に行なう場合の計算機システムの構成図である。本実施例は実施例1の構成のうち、障害情報管理機能18の故障箇所解析部24を故障箇所自動通知機能16に移動したものであり、その他の構成は実施例1と同様である。また、本実施例でのOS10の処理の流れは図2と同様であるため、障害情報管理機能18と故障箇所自動通知機能16の処理の流れを図6,7を用いて説明する。
Next, a second embodiment of the present invention will be described with reference to FIGS. FIG. 5 is a configuration diagram of the computer system in the case where the fault location is specified after the
図6は障害情報管理機能18の処理の流れを示すフローチャートである。システム障害発生時にOS10のシステム障害処理部12により障害情報管理機能18が呼び出されると、障害情報管理機能18はレジスタ情報取得部20の処理を開始する。レジスタ情報取得部20はシステム障害発生時のハードウェアの正常/異常を示すレジスタ情報6を状態レジスタから取得する(S41)。
FIG. 6 is a flowchart showing a processing flow of the failure
次に、識別情報付加部26は、レジスタ情報6にメモリ2上での位置を特定するための識別情報23を付加する(S42)。その後、ダンプ処理部14がデータを取得するメモリ2上の領域に、レジスタ情報6と識別情報23を格納する(S43)。識別情報付加部26の処理が終了すると、OS10のシステム障害処理部12に処理が戻され、メモリ2に格納したレジスタ情報6と識別情報23が、ダンプファイル41に記録された状態で残る。
Next, the identification
図7は故障箇所自動通知機能16の処理の流れを示すフローチャートである。OS10の再起動により故障箇所自動通知機能16が開始されると、まずダンプファイル41から識別情報23を検索し、識別情報23が記録されていなかった場合は処理を終了する(S51)。識別情報23が記録されていた場合は、識別情報23が記録されている領域に付して記録されているレジスタ情報6を読み取る(S52)。故障箇所解析部24では、読み取ったレジスタ情報6の中から異常を示す値となっているものを見つけ、故障箇所を特定する(S53)。その後、特定した故障箇所をログ等に記録、又は表示装置に出力する(S54)。本実施例でも、実施例1と同様の効果を得ることができる。
FIG. 7 is a flowchart showing a processing flow of the failure location
以上、実施例1,2について説明したが、本発明は、これらに限らず適宜構成を変更して適用することができる。例えば、複数の計算機システムがネットワークで接続されており、1つの計算機システムにシステム障害が発生しネットワークに異常がない場合に、別の計算機システムにネットワークを介して故障箇所情報を出力できるように構成することもできる。 As described above, the first and second embodiments have been described. However, the present invention is not limited to these and can be applied by appropriately changing the configuration. For example, when multiple computer systems are connected via a network, when a system failure occurs in one computer system and there is no abnormality in the network, the fault location information can be output to another computer system via the network. You can also
2 メモリ
4 ハードディスク
6 レジスタ情報
10 OS
12 システム障害処理部
14 ダンプ処理部
16 故障箇所自動通知機能
18 障害情報管理機能
20 レジスタ情報取得部
21 故障箇所情報
23 識別情報
24 故障箇所解析部
26 識別情報付加部
41 ダンプファイル
2 Memory 4
12 System
Claims (2)
システム障害発生時に、前記状態レジスタからレジスタ情報を取得し、該レジスタ情報から故障しているハードウェアを特定して故障情報を生成し、該故障情報を格納する前記主記憶装置上での位置を特定するための識別情報を付して該識別情報とともに故障情報を前記主記憶装置に格納してから前記ダンプ処理手段によりダンプファイルを生成し、システム障害解析時に、前記ダンプファイルを検索して前記識別情報が記録されている前記主記憶装置上の領域に付して記録されている故障情報を読み出して出力するシステム障害処理手段を設けてなることを特徴とする計算機システム。 A plurality of hardware including a main storage device and an auxiliary storage device, and a dump processing means for generating a dump file from information stored in the main storage device when a system failure occurs and storing the dump file in the auxiliary storage device, In the computer system, each of the plurality of hardware has a status register for storing the status of the hardware,
When a system failure occurs, register information is acquired from the status register, the hardware that has failed is identified from the register information, failure information is generated, and the location on the main storage device that stores the failure information is determined. Attaching identification information for identification and storing the failure information together with the identification information in the main storage device, generating a dump file by the dump processing means, and searching for the dump file when analyzing a system failure A computer system comprising: system failure processing means for reading out and outputting failure information recorded in an area on the main storage device in which identification information is recorded .
システム障害発生時に、前記状態レジスタからレジスタ情報を取得し、該レジスタ情報を格納する前記主記憶装置上での位置を特定するための識別情報を付して該識別情報とともにレジスタ情報を前記主記憶装置に格納してから前記ダンプ処理手段によりダンプファイルを生成し、システム障害解析時に、前記ダンプファイルを検索して前記識別情報が記録されている前記主記憶装置上の領域に付して記録されているレジスタ情報を読み出し、該レジスタ情報から故障しているハードウェアを特定して故障情報を出力するシステム障害処理手段を設けてなることを特徴とする計算機システム。 A plurality of hardware including a main storage device and an auxiliary storage device, and a dump processing means for generating a dump file from information stored in the main storage device when a system failure occurs and storing the dump file in the auxiliary storage device, In the computer system, each of the plurality of hardware has a status register for storing the status of the hardware,
When a system failure occurs, register information is acquired from the status register, and identification information for specifying a position on the main storage device for storing the register information is attached, and the register information is stored together with the identification information in the main memory. A dump file is generated by the dump processing means after being stored in a device, and when the system failure is analyzed, the dump file is searched and recorded in the area on the main storage device where the identification information is recorded. reads and has register information, the computer system characterized by comprising providing a system failure processing means for outputting failure information identifies hardware that failed from the register information.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009019314A JP5023086B2 (en) | 2009-01-30 | 2009-01-30 | Computer system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009019314A JP5023086B2 (en) | 2009-01-30 | 2009-01-30 | Computer system |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010176464A JP2010176464A (en) | 2010-08-12 |
JP5023086B2 true JP5023086B2 (en) | 2012-09-12 |
Family
ID=42707364
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009019314A Expired - Fee Related JP5023086B2 (en) | 2009-01-30 | 2009-01-30 | Computer system |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5023086B2 (en) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6427979B2 (en) * | 2014-06-19 | 2018-11-28 | 富士通株式会社 | Cause identification method, cause identification program, information processing system |
CN105260278A (en) * | 2015-11-04 | 2016-01-20 | 四川效率源信息安全技术股份有限公司 | Detecting and repairing method for respond loss of Seagate hard disk caused by data area sequential access |
CN111813588B (en) * | 2020-06-01 | 2024-03-19 | 北京百卓网络技术有限公司 | Computer hard disk fault positioning method, device, equipment and storage medium |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09223046A (en) * | 1996-02-20 | 1997-08-26 | Nec Software Ltd | Computer system having damp collecting function |
JP2002149448A (en) * | 2000-11-10 | 2002-05-24 | Mitsubishi Electric Corp | Memory damp device |
-
2009
- 2009-01-30 JP JP2009019314A patent/JP5023086B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2010176464A (en) | 2010-08-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6048038B2 (en) | Information processing apparatus, program, and information processing method | |
JP4489802B2 (en) | Multi-CPU computer and system restart method | |
CN110659256B (en) | Multi-computer room synchronization method, computing device and computer storage medium | |
US8930761B2 (en) | Test case result processing | |
US8538925B2 (en) | System and method for backing up test data | |
US7574621B2 (en) | Method and system for identifying and recovering a file damaged by a hard drive failure | |
JP5495310B2 (en) | Information processing apparatus, failure analysis method, and failure analysis program | |
US10922162B2 (en) | Capturing video data and serial data during an information handling system failure | |
JP2013206147A (en) | Logging device, logging method, and program | |
JP5023086B2 (en) | Computer system | |
JP2007207014A (en) | Electronic device and collection method for maintenance information | |
JP2006338445A (en) | Abnormality information storage apparatus | |
JP6880961B2 (en) | Information processing device and log recording method | |
JP6528381B2 (en) | Log management device, log management program, and log management method | |
JP6802484B2 (en) | Storage controller, storage control program and storage control method | |
EP2312443A2 (en) | Information processing apparatus, method of controlling information processing apparatus and control program | |
US8977892B2 (en) | Disk control apparatus, method of detecting failure of disk apparatus, and recording medium for disk diagnosis program | |
JP2010066801A (en) | Log recording system, module monitoring means, trace log managing means, recording method, program, and storage medium | |
JP5427814B2 (en) | Failure analysis information collection device | |
CN112988442B (en) | Method and equipment for transmitting fault information in server operation stage | |
JP4897359B2 (en) | MEMORY MANAGEMENT DEVICE, MEMORY MANAGEMENT METHOD, AND PROGRAM | |
JP2007199968A (en) | Log collection system for information processor | |
JP5696492B2 (en) | Failure detection apparatus, failure detection method, and failure detection program | |
Head et al. | Towards self-assisted troubleshooting for the deployment of private clouds | |
JP6287055B2 (en) | Information processing apparatus, information collection method, and information collection program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20101217 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110818 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120124 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120314 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120522 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120618 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150622 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |