JP2012084069A - Computer system and failure information collection method - Google Patents

Computer system and failure information collection method Download PDF

Info

Publication number
JP2012084069A
JP2012084069A JP2010231683A JP2010231683A JP2012084069A JP 2012084069 A JP2012084069 A JP 2012084069A JP 2010231683 A JP2010231683 A JP 2010231683A JP 2010231683 A JP2010231683 A JP 2010231683A JP 2012084069 A JP2012084069 A JP 2012084069A
Authority
JP
Grant status
Application
Patent type
Prior art keywords
process
information
area
memory
recorded
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2010231683A
Other languages
Japanese (ja)
Inventor
Hideki Fujii
Takahiro Ohira
Naoyuki Takeda
崇博 大平
直之 武田
秀樹 藤井
Original Assignee
Hitachi Ltd
株式会社日立製作所
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date

Links

Images

Abstract

PROBLEM TO BE SOLVED: To completely store a core file which is useful information for identifying a cause of a failure and allow a restoration from the failure of process before finishing storage processing of the core file.SOLUTION: A computer system includes an at-failure process termination means 1100 which, when a failure occurs in a process, creates an area 1020 for storing core dump management information in a memory 1050, records memory management information location information 1012 holding location information on the memory area used by the process as core file storage data location information 1022 in the area where the core dump management information is stored, and performs termination processing of the process, and a core file storage means which records a part or all of the information on the memory area used by the process as core file 1061 in a secondary storage device 1060 by referring to the core file storage data location information 1022 recorded in the area where the core dump management information is stored, and deletes the information on the memory area used by the process, the area where the core dump management information is stored and the information in the area.

Description

本発明は、計算機システム及び障害情報収集方法に係り、特に、計算機システム内で動作していたプロセスまたはアプリケーションが障害発生によりその動作を終了したとき、プロセスまたはアプリケーションが使用していたメモリ領域内の障害情報を収集する計算機システム及び障害情報収集方法に関する。 The present invention relates to a computer system, a fault information collecting method, in particular, computer when the process or application that was running in the system has completed its operation due to a fault occurs, the process or application in the memory area used about computer system and fault information collecting method for collecting fault information.

一般に、計算機システムの多くは、プロセスまたはアプリケーション(以下、本発明の実施形態の説明も含めて、プロセスまたはアプリケーションを纏めてプロセスという)を実行中にプロセスの実行継続が不可能となるような障害が発生すると、そのプロセスが使用しているメモリ領域の内容やレジスタの値を記憶装置に保存する機能を有している。 In general, many of the computer system, a process or application (hereinafter, embodiments of the description be included, that processes collectively process or application of the present invention) becomes impossible continue execution of the process during execution of such disorders There to occur, and has a function to store the value of the contents or registers of the memory area in which the process is using the storage device. この機能によって保存されたデータは、一般にコアファイルと呼ばれている。 Data stored by this function is generally referred to as core file. 以下では、このコアファイルを保存する機能を「コアダンプ機能」と呼ぶこととする。 In the following, the ability to save the core file will be referred to as a "core dump function".

コアファイルには、障害が発生したときのプロセスのメモリ状態が記録されているため、コアファイルの内容は、障害の原因を解析するために有用である。 The core file, because the memory state of the process when a failure occurs is recorded, the contents of the core files are useful for analyzing the cause of the failure.

コアファイルを保存するためには、コアファイルの保存を完了するまでの間、プロセスが使用していた情報を削除せずに残しておく必要がある。 In order to save the core file, until the completion of the preservation of the core file, it is necessary to leave without deleting the information that the process was using. このため、一般に、コアファイル保存処理は、プロセス終了処理の一部に組み込まれ、コアファイルの保存が完了してからプロセスのメモリを解放するようにされている。 Therefore, in general, core file storing process, an integral part of the process termination process, are the complete preservation of the core files to release the memory for the process. これによって、他のプロセスは、そのプロセスが異常終了したことを知り、例えば、障害となったプロセスの再起動を行わせる等の障害からの回復処理を行うことができる。 Thus, other processes, know that the process terminates abnormally, for example, it is possible to perform the recovery process from a disorder such as to perform the restarting of the process is an obstacle.

近年、計算機に搭載される一時記憶装置(以下、メモリという)は、大容量化しており、これに伴い、多くのメモリを使用するプロセスの実行が可能となっている。 Recently, a temporary storage device mounted on a computer (hereinafter, referred to as memory) is to increase the capacity, along with this, which enables execution of the process to use a lot of memory. そして、プロセスに障害が発生した場合に保存するコアファイルのサイズは、一般にそのプロセスが使用するメモリの量に比例する。 The size of the core files to be saved if a failure occurs in the process is generally proportional to the amount of memory used by the process. このため、多くのメモリを使用するプロセスに障害が発生して動作を停止する場合、保存するメモリ領域の容量が大きく、保存処理に時間がかかり、その間、障害回復処理、プロセスの再起動を行うことができないことになる。 Therefore, when stopping the operation is a failure in the process to use a lot of memory occurs, the capacity of the memory area is large for saving, it takes time to save processing, during which performs failure recovery processing, the restart process it will be not be able to.

また、障害の発生したプロセスのコアファイルを保存するためには、そのプロセスの管理情報とそのプロセスに関連付けられたメモリ領域を、コアファイルの保存が完了するまでの間、参照可能としておく必要がある。 Further, in order to save the core file of the generated process disorders, memory region associated with the management information of the process and in the process, until the storage core file is complete, it is necessary to be referred is there.

前述のような問題を解決しようとする技術が、例えば、非特許文献1等に記載されて知られている。 Technique to solve the problems as described above, for example, is known as described in Non-Patent Document 1 or the like. この技術は、コアファイルの保存が完了してからプロセスの管理情報とそのプロセスに関連付けられたメモリを解放するというものである。 This technique is that freeing the memory associated with the management information of the process after saving the core file is complete and the process.

しかし、前述の技術は、プロセスの使用メモリ量が多くコアファイルの保存に長い時間を要する場合に、プロセスに障害が発生してからそのプロセスの管理情報の解放を完了し、他のプロセスに通知されるまでに多くの時間がかかり、それまでの間、障害からの回復処理を開始することができないという問題点を生じさせている。 However, the aforementioned techniques, when it takes a long time to store many used memory capacity of the process the core file, the process fails to complete the release of the management information for the process from the occurrence, notify other processes takes more time to be, it is causing a problem that the meantime, it is impossible to start the recovery process from the failure.

前述したような問題点を解決することが可能な従来技術として、例えば、非特許文献2等に記載された技術が知られている。 As a conventional technique capable of solving the problems as described above, for example, the technique is known described in Non-Patent Document 2 and the like. この従来技術は、障害情報をコアファイルとして保存するメモリ領域を限定し、メモリ領域の一部をコアファイルへの保存対象から除外するというものであり、これにより、コアファイルに保存するデータ量を少なくして、保存にかかる時間を短縮することができるようにしたものである。 This prior art, limits the memory area for storing fault information as core file, is intended to exclude a portion of a memory area from the storage object to the core file, thereby, the amount of data stored in the core file by reducing, in which to be able to shorten the time required for storage.

しかし、前述した従来技術は、全てのメモリ領域の内容が障害の原因となり得る場合、保存データ量を少なくすることができず、保存に要する時間を短縮することができないという問題点を有している。 However, the prior art described above, when the contents of all the memory areas can be a cause of the failure, it is impossible to reduce the amount of stored data, a problem that it is impossible to reduce the time taken to store there. また、前述した従来技術は、障害の原因となり得るメモリ領域のサイズが大きい場合に、メモリ領域の一部をコアファイルへの保存対象から除外しても、保存するデータ量が依然大きく、やはり、保存に要する時間を短縮することができないという問題点を生じてしまう。 Further, the prior art described above, when the size of the memory area that can cause failure is large, be excluded a part of the memory area from the storage object to the core files, amount of data still largely be saved again, It arises a problem that it is not possible to shorten the time required for the save.

本発明の目的は、前述した従来技術の問題点を解決し、障害の原因を特定するための有用な情報であるコアファイルを完全に保存し、かつ、コアファイルの保存処理が終了する前にプロセスの障害からの回復を可能とする計算機システム及び障害情報収集方法を提供することにある。 An object of the present invention is to solve the problems of the prior art described above, and completely preserved core files useful information for specifying the cause of the failure, and, before the process of storing the core file is completed It is to provide a computer system and fault information collecting method to enable recovery from process failures.

本発明によれば前記目的は、プロセス情報及びプロセスに関わる情報を記録する一次記憶装置と、情報を記録する二次記憶装置とを備え、プロセスの制御処理を実行している計算機システムにおいて、プロセスに障害が発生したときに前記一次記憶装置内に障害となったプロセスが使用していたメモリ領域の内容、レジスタの値を含む情報を格納する領域を作成し、作成した前記情報を格納する領域に前記プロセスが使用していたメモリ領域の情報を記録した後、前記プロセスの終了処理を行う障害時プロセス終了手段と、前記障害となったプロセスが使用していたメモリ領域の内容、レジスタの値を含む情報を格納する領域に記録された情報を参照し前記プロセスが使用するメモリ領域の情報の一部または全てを前記二次記憶装置に前記障 The object according to the present invention, a primary storage apparatus for recording information relating to process information and process, and a secondary storage apparatus for recording information in a computer system running a control process of the process, the process to create an area for storing information including contents of the memory space the process became an obstacle to the primary storage device is in use when a failure occurs, the value of the register, and stores the information created region after the process has recorded information in the memory area used, a failure at the end of the process means for performing termination processing of the process, the contents of the memory space the process became the problem has been used, the register value wherein the secondary storage device some or all of the information in the memory area referring to the information recorded in the area for storing the information used by the process comprising disabilities となったプロセスが使用していたメモリ領域の内容を示すファイルとして記録した後、前記プロセスが使用していたメモリ領域の情報及び前記障害となったプロセスが使用していたメモリ領域の内容、レジスタの値を含む情報を格納する領域に記録された情報を削除するファイル保存手段とを備えることにより達成される。 And after became process is recorded as a file indicating the content of the memory area used, the content of the information in the memory area in which the process was using and memory space the process became the problem has been used, the register is achieved by the and a file storage means for deleting the information recorded in the area for storing the information including the value.

本発明によれば、ファイルの保存が完了する前に障害となったプロセスの終了処理を行うことが可能となり、また、他のプロセスがファイルの保存が完了する前に実行されたプロセス終了処理の報告を受けることにより、障害となったプロセスの回復処理を行うことができる。 According to the present invention, it is possible to perform the end processing of the process that is an obstacle before saving the file is complete, also, the other process is a process termination processing executed before saving the file is complete by receiving the report, it is possible to perform the recovery process of the process that has become an obstacle.

本発明の一実施形態による計算機システムの機能構成例を示すブロック図である。 It is a block diagram illustrating a functional configuration example of a computer system according to an embodiment of the present invention. 障害時プロセス終了手段が障害が発生したプロセスを終了させる障害時プロセス終了処理の動作を説明するフローチャートである。 Failure at the end of the process means is a flow chart for explaining the operation of the fault at the end of the process process to terminate the process failed. コアファイル保存手段がコアファイルを保存するコアファイル保存処理の動作を説明するフローチャートである。 Core file storage means is a flowchart for explaining the operation of the core file saving process of saving the core file. 本発明の実施形態でのプロセス障害発生からコアファイル作成完了までの動作を時系列的に示すタイミングチャートである。 Is a timing chart showing chronological operation from the process failure to the core file creation completed in the embodiment of the present invention.

以下、本発明による計算機システム及び障害情報収集方法の実施形態を図面により詳細に説明する。 Hereinafter, detailed description of the embodiment of the computer system and fault information collecting method according to the invention by the accompanying drawings.

図1は本発明の一実施形態による計算機システムの機能構成例を示すブロック図である。 Figure 1 is a block diagram illustrating a functional configuration example of a computer system according to an embodiment of the present invention. 本発明の一実施形態による計算機システムは、情報処理装置等としてよく知られているように、CPU、HDD等による記憶装置、主メモリ、表示装置、キーボード、マウス等の入力装置を、ハードウェアとして備えて構成されている。 The computer system according to an embodiment of the present invention, as is well known as an information processing apparatus or the like, CPU, memory device according to an HDD or the like, a main memory, a display device, a keyboard, an input device such as a mouse, as hardware equipped and are configured. そして、図1には、本発明の実施形態で必要とするハードウェアと、機能構成のみを示している。 Then, in FIG. 1, the hardware needed in the embodiment of the present invention, and shows only functional configuration.

図1に示すように、本発明の一実施形態による計算機システムは、主記憶装置としての一次記憶装置(メモリ)1050と、HDD等の二次記憶装置1060とを含んで構成されており、プロセスまたはアプリケーションの制御処理を実行するものである。 As shown in FIG. 1, the computer system according to an embodiment of the present invention includes a primary storage device (memory) 1050 serving as a main storage device is configured to include a secondary storage device 1060 such as an HDD, the process or executes control processing of the application.

そして、一次記憶装置1050には、プロセス管理情報1010と、コアダンプ管理情報1020と、メモリ管理情報1030と、プロセスメモリ領域1040とが記録される。 Then, the primary storage device 1050, the process management information 1010, a core dump management information 1020, and the memory management information 1030, and the process memory area 1040 is recorded. なお、図示していないが、プロセス管理情報1010、メモリ管理情報1030及びプロセスメモリ領域1040は、プロセス毎に用意される。 Although not shown, the process management information 1010, the memory management information 1030 and the process memory area 1040 is prepared for each process.

また、一次記憶装置1050には、プロセスの障害発生時にそのプロセスの処理情報の収集を行う処理プログラムにより構成される障害時プロセス終了手段1100と、コアファイル保存手段1200とが格納される。 Further, the primary storage device 1050, a failure at the end of the process means 1100 constituted by the processing program at process failure to collect the process information of the process, and a core file storage unit 1200 stores. 障害時プロセス終了手段1100と、コアファイル保存手段1200とを構成するプログラムは、二次記憶装置1060に格納されていて、一時記憶装置1050にロードされた後、CPUに実行されることにより、本発明の実施形態で必要とする機能を構築する。 An obstacle at the end of the process unit 1100, a program constituting the core file storage unit 1200 is stored in the secondary storage device 1060, a temporary memory 1050 after being loaded and executed by the CPU, the constructing a function required by the embodiment of the invention.

前述において、1つのプロセスは、プロセス管理情報1010によって表される。 In the foregoing, one process is represented by the process management information 1010. このプロセス管理情報1010は、プロセス情報1011とメモリ管理情報位置情報1012とにより構成され、メモリ管理情報位置情報1012は、プロセスが使用するメモリ領域を管理するメモリ管理情報1030の位置を表す。 The process management information 1010 is composed of the process information 1011 and the memory management information location information 1012, the memory management information location information 1012 indicates the position of the memory management information 1030 for managing a memory area used by a process.

メモリ管理情報1030には、プロセスが使用する各種のメモリ領域の位置を指し示すそれぞれの位置情報が記録される。 The memory management information 1030, each of the position information process indicates a position various memory areas to be used is recorded. 図1には、一般的なメモリ領域の位置情報の例として、共有メモリ位置情報1031、ヒープ位置情報1032、DATAセクション位置情報1033、BSSセクション位置情報3034、TEXTセクション位置情報1035を示しているが、計算機システムの構成に応じた各種の情報が持たせられる場合、それらの情報の位置情報が記録される。 1 shows, as an example of the position information of the common memory area, while indicating the shared memory location 1031, the heap location information 1032, DATA section position information 1033, BSS section position information 3034, TEXT section position information 1035 , if the various information according to the configuration of the computer system is to have the location information of the information is recorded. また、一種類の情報を複数の領域に分けて持たせられてもよく、その場合、それぞれの位置情報がメモリ管理情報1030に記録される。 Also, it may be provided to have divided the one kind of information in a plurality of regions, in which case the respective position information is recorded in the memory management information 1030.

プロセスメモリ領域1040は、プロセスが使用するメモリ領域の実体が格納される領域であり、メモリ管理情報1030内の各位置情報により指し示される情報が格納され、各複数の各プロセスが必要とする情報が格納される共有メモリ領域1041、プロセスから要求があったときに確保されるヒープ領域1042、初期値等のデータが格納されるDATAセクション領域1043、データが格納されるBSSセクション領域1044、プログラムコードが格納されるTEXTセクション領域1045が格納される。 Process memory area 1040 is an area in which the entity of the memory area used by a process is stored, the information pointed to by each location in the memory management information 1030 is stored, which requires the each of the plurality of process information shared memory area 1041, the heap area 1042 is reserved upon request from the process, dATA section area 1043 in which the data of the initial value and the like are stored, BSS section area 1044 in which data is stored but stored, the program code There TEXT section area 1045 is stored to be stored.

コアダンプ管理情報1020は、コアファイルの保存のために必要な情報を記録するものであり、コアファイル保存プロセス情報1021と、コアファイル保存データ位置情報1022とにより構成される。 Core dump management information 1020 is for recording information required for the storage of core files, and core file save process information 1021 composed of a core file stored data location information 1022. コアファイル保存プロセス情報1021には、コアファイルに記録するプロセスの情報が記録される。 The core file save process information 1021, information of the process to be recorded in the core file is recorded. コアファイル保存データ位置情報1022には、コアファイルに保存するプロセスメモリ記憶領域1040を指し示すメモリ管理情報1030の位置が記録される。 The core file store data location information 1022, the position of the memory management information 1030 that indicates the process memory storage area 1040 stores the core file is recorded. なお、図示していないが、同時に複数のプロセスのコアファイル保存要求が発生する場合に備え、コアファイル保存プロセス情報1021とコアファイル保存データ位置情報1022との組を複数保存できるように構成することも可能である。 Although not shown, in case the core file storage request of the plurality of processes are simultaneously generated, constituting a set of the core file save process information 1021 and core file storage data location information 1022 to allow multiple store possible it is also possible.

二次記憶装置1060は、コアファイル1061を保存するための記憶装置である。 The secondary storage device 1060 is a storage device for storing the core file 1061. コアファイル1061には、プロセスメモリ領域1040の内容が保存される。 The core file 1061, the contents of the process memory area 1040 is stored. また、保存したプロセスメモリ領域1040と関連するプロセス情報1011の内容の一部または全部を保存するようにしてもよい。 It is also possible to save some or all of the contents of the process information 1011 associated with the process memory area 1040 saved.

障害時プロセス終了手段1100は、プロセスに障害が発生した場合に、そのプロセスのプロセス情報1011の内容の一部または全部をコアファイル保存プロセス情報1021に記録し、また、そのプロセスのメモリ管理情報1030の位置情報をコアファイル保存データ位置情報1022に記録する。 Failure at the end of the process section 1100, if the process fails to record some or all of the contents of the process information 1011 of the process the core file saving process information 1021, In addition, the memory management information 1030 of the process the position information recorded in the core file stored data location information 1022.

コアファイル保存手段1200は、二次記憶装置1060にコアファイル1061を作成し、そこにコアファイル保存プロセス情報1021の内容と、コアファイル保存データ位置情報1022からメモリ管理情報1030を辿って得られるプロセスメモリ領域1040の各領域1041〜1045の内容を書き出す。 Core file storage unit 1200 creates a core file 1061 in the secondary storage device 1060, and there the contents of the core file save process information 1021, the process from the core file storage data position information 1022 is obtained by following the memory management information 1030 write the contents of each region from 1041 to 1045 in the memory area 1040.

なお、図1には、凡例として、実線及び点線の種類と矢印の種類とで情報がどのような条件で保持または移動させられるかを示している。 In FIG. 1, a legend shows how information in the type of solid and dotted type and arrow is caused to hold or move in any conditions.

図2は障害時プロセス終了手段1100が障害が発生したプロセスを終了させる障害時プロセス終了処理2000の動作を説明するフローチャートであり、次に、これについて説明する。 Figure 2 is a flow chart for explaining the operation of the fault at the end of the process the process 2000 a failure at the end of the process unit 1100 to terminate the process failed, which will be described below.

(1)障害時プロセス終了手段1100は、処理を開始すると、まず、コアダンプ管理情報1020を格納する領域を一次記憶装置1050内に確保する(ステップ2001)。 (1) Failure at the end of the process unit 1100 starts the processing, first, an area for storing a core dump management information 1020 to secure the primary storage device 1050 (step 2001).

(2)次に、ステップ2001の処理で確保したコアダンプ管理情報1020を格納する領域の中のコアファイル保存プロセス情報1021の領域に、障害が発生したプロセスのプロセス管理情報1010の中にあるプロセス情報1011の内容をコピーする。 (2) Next, the process information in the region of the core file save process information 1021 in the area for storing the core dump management information 1020 secured in the process of step 2001, in the process management information 1010 of failed processes 1011 to copy the contents of. このとき、プロセス情報1011の全てをコピーする必要はなく、コアファイル1061に保存する情報を選択してコピーしてもよい。 In this case, there is no need to copy all of the process information 1011, may select and copy the information stored in the core file 1061. また、プロセス情報1011の中にコアファイル1061に保存すべき情報が含まれていない場合は、ここでの処理を省略してもよい(ステップ2002)。 Also, if the information to be stored in the core file 1061 into the process information 1011 is not included, may be omitted processing here (step 2002).

(3)次に、ステップ2001の処理で確保したコアダンプ管理情報1020を格納する領域の中のコアファイル保存データ位置情報1022の領域に、障害が発生したプロセスのメモリ管理情報位置情報1012が指し示すメモリ管理情報1030の位置情報を記録する(ステップ2003)。 (3) Next, memory area of ​​the core files saved data position information 1022 in the area for storing the core dump management information 1020 secured in the process of step 2001, the memory management information location information 1012 of the failed processes indicated the position information of the management information 1030 is recorded (step 2003).

(4)次に、計算機システムが定めるプロセス終了処理を行う。 (4) Next, a process termination processing computer system stipulated. 例えば、一般的なUNIX(登録商標)システムの場合、例えば、終了するプロセスの親プロセスにシグナルを送り、プロセスが終了することを知らせる。 For example, if a typical UNIX (registered trademark) system, for example, it sends a signal to the parent of the process to be terminated, indicating that the process is completed. ここでの処理をもって、計算機システムは、プロセスの障害からの復旧処理等を開始することができる。 With the process herein, the computer system may initiate a recovery process or the like from a process failure.

(5)次に、障害時プロセス終了手段1100は、プロセス管理情報1010を削除する。 (5) Next, the failure at the end of the process unit 1100 deletes the process management information 1010. プロセス管理情報1010の削除を実際にここで行う必要はなく、プロセス管理情報1010を削除する何らかの手段に要求を出してもよい。 It is not necessary to perform the deletion process management information 1010 actually here, it may submit a request for some means to remove the process management information 1010. 一般的なUNIXシステムの場合、このタイミングではプロセス管理情報1010の削除を行わず、代りに障害が発生したプロセスの親プロセスに、障害が発生したプロセスが終了することを通知し、この通知を受けた親プロセスがプロセス管理情報1010の削除を行う構成をとるのが一般的である(ステップ2005)。 In a typical UNIX systems, the timing is not performed the deletion process management information 1010, the parent process of the process instead fails to notify that the process of failure is completed, receiving the notification it is common parent process takes a configuration in which the deletion of the process management information 1010 (step 2005).

(6)その後、障害時プロセス終了手段1100は、コアファイル保存手段1200にコアファイルの保存を要求し、ここでの処理を終了する。 (6) Thereafter, failure at the end of the process unit 1100 requests the storage core file core file storage unit 1200, the process ends here. なお、この処理を省略し、コアファイル保存手段1200が例えばポーリング等の手段を用いて、前記コアダンプ管理情報を自発的に検索し、コアダンプ管理情報が存在した場合に、自発的に前記コアファイルとしての記録と情報の削除とを実行する動作を行うように構成してもよい(ステップ2006)。 Incidentally, skip this process, by using a means such as polling core file storage unit 1200, for example, the core dump management information spontaneously search, when the core dump management information exists, as spontaneously said core file It may be configured to perform operations to perform recording and information deletion (step 2006).

図3はコアファイル保存手段1200がコアファイルを保存するコアファイル保存処理3000の動作を説明するフローチャートであり、次に、これについて説明する。 Figure 3 is a flow chart for explaining the operation of the core file saving process 3000 core file storage unit 1200 stores the core file, which will be described below.

(1)コアファイル保存手段1200は、処理を開始すると、まず、二次記憶装置1060内に、新たにコアファイル1061の格納領域を作成する(ステップ3001)。 (1) a core file storage unit 1200 starts the processing, first, the secondary storage device 1060 newly creates a storage area of ​​the core file 1061 (step 3001).

(2)次に、コアダンプ管理情報1020を参照し、その中にあるコアファイル保存プロセス情報1021を読み出し、その情報をステップ3001の処理で作成したコアファイル1061の格納領域に書き出す(ステップ3002)。 (2) Next, with reference to core dump management information 1020, reads out the core file save process information 1021 in it, write the information in the storage area of ​​the core file 1061 created by the processing in step 3001 (step 3002).

(3)次に、コアダンプ管理情報1020を参照し、その中にあるコアファイル保存データ位置情報1022が指し示すメモリ管理情報1030を参照し、その中にある各種の位置情報1031〜1035が指し示すプロセスメモリ領域1040の中の各領域1041〜1045に格納されている内容を、ステップ3001の処理で作成したコアファイル1061の格納領域に書き出す(ステップ3003)。 (3) Next, the process refers to the core dump management information 1020, refers to the memory management information 1030 core file store data location information 1022 indicates that in it, indicated by the various position information 1031-1035 in it memory the contents stored in the area from 1041 to 1045 in the region 1040, writes in the storage area of ​​the core file 1061 created by the processing in step 3001 (step 3003).

(4)次に、プロセスメモリ領域1040内の全ての各領域1041〜1045を解放する(ステップ3004)。 (4) Next, to release all of the regions 1041 to 1045 in the process memory area 1040 (step 3004).

(5)その後、コアファイル保存手段1200は、メモリ管理情報1030とその中にある全ての位置情報1031〜1035を削除する(ステップ3005)。 (5) Then, a core file storage unit 1200 deletes all the location information 1031 to 1035 in the memory management information 1030 therein (Step 3005).

(6)次に、コアダンプ管理情報1020とその中にあるコアファイル保存プロセス情報1021とコアファイル保存データ位置情報1022とを削除して、ここでの処理を終了する(ステップ3006)。 (6) Next, remove the core dump management information 1020 and core file save process information 1021 and core file storage data position information 1022 in it, this processing is ended (step 3006).

図4は本発明の実施形態でのプロセス障害発生からコアファイル作成完了までの動作を時系列的に示すタイミングチャートであり、次に、これについて説明する。 Figure 4 is a timing chart showing chronological operation from the process failure to the core file creation completed in the embodiment of the present invention, which will be described below.

(1)いま、時刻4001で、プロセスに障害が発生したものとする。 (1) Now, at the time 4001, it is assumed that the process has failed. すると、障害時プロセス終了手段1100が障害時プロセス終了処理2000を開始する。 Then, the failure at the end of the process means 1100 to start a fault at the end of the process processing 2000.

(2)次の時刻4002において、コアダンプ管理情報1020と、その構成要素であるコアファイル保存プロセス情報1021及びコアファイル保存データ位置情報1022とを保存する領域を一次記憶装置1050内に確保する。 (2) at the next time 4002, a core dump management information 1020, the area for storing the core file save process information 1021 and core file storage data location information 1022 which is a component to secure the primary storage device 1050.

(3)次の時刻4003において、プロセス情報1011の内容をコアファイル保存プロセス情報1021を保存する領域にコピーする。 (3) at the next time 4003, copy the contents of the process information 1011 in a region for storing the core file save process information 1021.

(4)次の時刻4004において、メモリ管理情報位置情報1012が有している位置情報を、コアファイル保存データ位置情報1022に書き出す。 (4) In the next time 4004, the position information memory management information location information 1012 has, writes the core file stored data location information 1022. この時点で、プロセス管理情報1010に含まれる情報のうち、コアファイル1061に保存すべき情報は全てコアダンプ管理情報1020にコピーされたことになる。 At this point, among the information included in the process management information 1010, the information to be stored in the core file 1061 will be copied to all core dump management information 1020.

(5)次の時刻4005において、プロセス終了処理2004を行う。 (5) In the next time 4005, carry out the process end processing 2004. ここでプロセスは終了したとみなすことができる。 Where the process can be regarded as finished.

(6)次の時刻4006において、不要となったプロセス管理情報1010と、その構成要素であるプロセス情報1011とメモリ管理情報位置情報1012とを削除する。 (6) In the subsequent time 4006, the process management information 1010 which becomes unnecessary, and deletes the process information 1011 and the memory management information location information 1012 which is a component.

(7)次の時刻4007において、コアファイル保存手段1200がコアファイル保存処理3000を開始し、二次記憶装置1060内にコアファイル1061を作成する。 (7) In the next time 4007, core file storage unit 1200 starts the core file storage processing 3000, to create a core file 1061 in the secondary storage device 1060.

(8)次の時刻4008において、コアファイル保存プロセス情報1021の内容をコアファイル1061に書き出す。 (8) in the next time 4008, writes the contents of the core file save process information 1021 to the core file 1061.

(9)次の時刻4009において、コアファイル保存データ位置情報1022から位置情報を辿ってプロセスメモリ領域1040の内容を取得し、コアファイル1061に書き出す。 (9) In the next time 4009, it obtains the contents of the process memory area 1040 by following the positional information from the core file storage data location information 1022, writes the core file 1061. この時点で、コアファイル1061には必要な全ての情報が書き出されたことになる。 At this point, all the necessary information has been written in the core file 1061.

(10)そして、最後となる時刻4010において、メモリ管理情報1030と、プロセスメモリ情報1040と、コアダンプ管理情報1020、その構成要素であるコアファイル保存プロセス情報1021及びコアファイル保存データ位置情報1022を削除する。 (10) Then, at time 4010 as the end, remove the memory management information 1030, a process memory information 1040, the core dump management information 1020, the core file save process information 1021 and core file storage data location information 1022, which is a component of to.

なお、図4には、凡例として、図内の○が生成を意味すること、×が削除を意味すること、矢印付きの実線がコピーを意味することであることを示している。 Incidentally, in FIG. 4, as a legend, that ○ in FIG meaning the product, it × means the deletion, it is shown that the solid line with arrows is to mean a copy.

前述した本発明の実施形態は、プロセス管理情報1010とメモリ管理情報1030とを分けて管理しており、障害発生時にメモリ管理情報1030の位置だけをコアファイル保存データ位置情報1022に記録しているが、メモリ管理情報1030の中にある各種位置情報1031〜1035をコアファイル保存データ位置情報1022に直接記録し、この時点でメモリ管理情報1030を削除してもよい。 Embodiments of the present invention described above, the process management information 1010 and manages to separate the memory management information 1030, records the only position of the memory management information 1030 to the core file storage data position information 1022 in the event of a failure but various location information 1031 to 1035 that are in the memory management information 1030 directly recorded in a core file store data location information 1022, may be deleted memory management information 1030 at this point. このような方法は、プロセス管理情報1010とメモリ管理情報1030とを分離することなく1つのデータ構造として扱っている場合に実装しやすい方法である。 Such methods are easy method to implement if you are treated as a single data structure without separating the process management information 1010 and the memory management information 1030.

1010 プロセス管理情報 1011 プロセス情報 1012 メモリ管理情報位置情報 1020 コアダンプ管理情報 1020 コアファイル保存プロセス情報 1022 コアファイル保存データ位置情報 1030 メモリ管理情報 1031 共有メモリ位置情報 1032 ヒープ位置情報 1033 DATAセクション位置情報 1034 BSSセクション位置情報 1035 TEXTセクション位置情報 1040 プロセスメモリ領域 1041 共有メモリ領域 1042 ヒープ領域 1043 DATAセクション領域 1044 BSSセクション領域 1045 TEXTセクション領域 1050 一次記憶装置 1060 二次記憶装置 1061 コアファイル 1100 システム時プロセス終了手段 1200 コアファイル保存手段 1010 Process management information 1011 processes information 1012 memory management information location information 1020 core dump management information 1020 core file save process information 1022 core file stored data location information 1030 memory management information 1031 shared memory location 1032 heap position information 1033 DATA section position information 1034 BSS section position information 1035 TEXT section position information 1040 processes memory area 1041 shared memory area 1042 heap area 1043 dATA section area 1044 BSS section area 1045 TEXT section area 1050 primary storage device 1060 secondary storage device 1061 core file 1100 system at the end of the process unit 1200 core file storage means

Claims (6)

  1. プロセス情報及びプロセスに関わる情報を記録する一次記憶装置と、情報を記録する二次記憶装置とを備え、プロセスの制御処理を実行している計算機システムにおいて、 A primary storage apparatus for recording information relating to process information and process, and a secondary storage apparatus for recording information in a computer system running a control process of the process,
    プロセスに障害が発生したときに前記一次記憶装置内に障害となったプロセスが使用していたメモリ領域の内容、レジスタの値を含む情報を格納する領域を作成し、作成した前記情報を格納する領域に前記プロセスが使用していたメモリ領域の情報を記録した後、前記プロセスの終了処理を行う障害時プロセス終了手段と、 Create an area for storing contents, the information including the value of the register of the memory space the process became an obstacle in the primary storage device is in use when a failure occurs in the process, to store the information generated after the process has recorded information in the memory area used in the region, the fault at the end of the process means for performing termination processing of said process,
    前記障害となったプロセスが使用していたメモリ領域の内容、レジスタの値を含む情報を格納する領域に記録された情報を参照し前記プロセスが使用するメモリ領域の情報の一部または全てを前記二次記憶装置に前記障害となったプロセスが使用していたメモリ領域の内容を示すファイルとして記録した後、前記プロセスが使用していたメモリ領域の情報及び前記障害となったプロセスが使用していたメモリ領域の内容、レジスタの値を含む情報を格納する領域に記録された情報を削除するファイル保存手段とを備えることを特徴とする計算機システム。 The contents of the memory space the process became the problem has been used, the some or all of the information in the memory area in which the process refers to the information recorded in the area for storing the information including the value of the register is used after the fault and became process is recorded as a file indicating the content of the memory area used in the secondary storage device, the process of the process becomes information and the failure of the memory area used is using computer system, characterized in that it comprises contents of the memory area, and file storage means for deleting the information recorded in the area for storing the information including the value of the register is.
  2. 前記障害時プロセス終了手段は、障害が発生したプロセスのプロセス情報の一部または全てを前記作成した前記情報を格納する領域に記録する機能を有し、前記ファイル保存手段は、前記記録したプロセス情報を前記ファイルに保存する機能を有することを特徴とする請求項1記載の計算機システム。 The failure at the end of the process unit has a function of recording the area for storing the information part or all of the created process information in the process failed, the file storage unit, the recorded process information the computer system of claim 1, wherein it has a function of storing the file.
  3. 前記障害時プロセス終了手段は、プロセス終了処理を行った後に、前記ファイル保存手段に対してファイル保存処理の実行を要求することを特徴とする請求項1記載の計算機システム。 The failure at the end of the process means, after performing the process termination processing computer system according to claim 1, wherein the requesting the execution of a file storage process to the file storage means.
  4. 前記ファイル保存手段は、前記作成した前記情報を格納する領域に格納された前記プロセスが使用していたメモリ領域の情報を自発的に検索し、情報が存在した場合に、自発的に前記ファイルとしての記録と情報の削除とを実行すること特徴とする請求項1記載の計算機システム。 It said file storage means, the information of the memory region in which the process is stored in the area for storing the information in the created was using spontaneously search, when information is present, as voluntarily the file the computer system of claim 1, wherein executing the recording information of deletion and.
  5. プロセス情報及びプロセスに関わる情報を記録する一次記憶装置と、情報を記録する二次記憶装置とを備え、プロセスの制御処理を実行している計算機システムにおいて、 A primary storage apparatus for recording information relating to process information and process, and a secondary storage apparatus for recording information in a computer system running a control process of the process,
    プロセスに障害が発生したときに前記一次記憶装置内に障害となったプロセスが使用していたメモリ領域の内容、レジスタの値を含む情報を格納する領域を作成し、作成した前記情報を格納する領域に前記プロセスが使用していたメモリ領域の情報の一部または全てを記録した後、前記プロセスの終了処理を行う障害時プロセス終了手段と、 Create an area for storing contents, the information including the value of the register of the memory space the process became an obstacle in the primary storage device is in use when a failure occurs in the process, to store the information generated after the process has recorded some or all of the information in the memory area used in the region, the fault at the end of the process means for performing termination processing of said process,
    前記障害となったプロセスが使用していたメモリ領域の内容、レジスタの値を含む情報を格納する領域に記録された情報を参照し前記プロセスが使用するメモリ領域の情報の一部または全てを前記二次記憶装置に前記障害となったプロセスが使用していたメモリ領域の内容を示すファイルとして記録した後、前記プロセスが使用していたメモリ領域の情報及び前記障害となったプロセスが使用していたメモリ領域の内容、レジスタの値を含む情報を格納する領域に記録された情報を削除するファイル保存手段とを備えることを特徴とする計算機システム。 The contents of the memory space the process became the problem has been used, the some or all of the information in the memory area in which the process refers to the information recorded in the area for storing the information including the value of the register is used after the fault and became process is recorded as a file indicating the content of the memory area used in the secondary storage device, the process of the process becomes information and the failure of the memory area used is using computer system, characterized in that it comprises contents of the memory area, and file storage means for deleting the information recorded in the area for storing the information including the value of the register is.
  6. プロセス情報及びプロセスに関わる情報を記録する一次記憶装置と、情報を記録する二次記憶装置とを備え、プロセスの制御処理を実行している計算機システムの障害情報収集方法において、 A primary storage apparatus for recording information relating to process information and process, and a secondary storage device for recording information, in the fault information collecting method of a computer system running a control process of the process,
    プロセスに障害が発生したときに前記一次記憶装置内に障害となったプロセスが使用していたメモリ領域の内容、レジスタの値を含む情報を格納する領域を作成し、作成した前記情報を格納する領域に前記プロセスが使用していたメモリ領域の情報を記録した後、前記プロセスの終了処理を行い、 Create an area for storing contents, the information including the value of the register of the memory space the process became an obstacle in the primary storage device is in use when a failure occurs in the process, to store the information generated after the process has recorded information in the memory area used in the region, a termination process is performed in the process,
    前記障害となったプロセスが使用していたメモリ領域の内容、レジスタの値を含む情報を格納する領域に記録された情報を参照し前記プロセスが使用するメモリ領域の情報の一部または全てを前記二次記憶装置に前記障害となったプロセスが使用していたメモリ領域の内容を示すファイルとして記録した後、前記プロセスが使用していたメモリ領域の情報及び前記障害となったプロセスが使用していたメモリ領域の内容、レジスタの値を含む情報を格納する領域に記録された情報を削除することを特徴とする障害情報収集方法。 The contents of the memory space the process became the problem has been used, the some or all of the information in the memory area in which the process refers to the information recorded in the area for storing the information including the value of the register is used after the fault and became process is recorded as a file indicating the content of the memory area used in the secondary storage device, the process of the process becomes information and the failure of the memory area used is using contents of the memory area, fault information collection method characterized by deleting the recorded information in the area for storing the information including the value of the register.
JP2010231683A 2010-10-14 2010-10-14 Computer system and failure information collection method Pending JP2012084069A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010231683A JP2012084069A (en) 2010-10-14 2010-10-14 Computer system and failure information collection method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010231683A JP2012084069A (en) 2010-10-14 2010-10-14 Computer system and failure information collection method

Publications (1)

Publication Number Publication Date
JP2012084069A true true JP2012084069A (en) 2012-04-26

Family

ID=46242843

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010231683A Pending JP2012084069A (en) 2010-10-14 2010-10-14 Computer system and failure information collection method

Country Status (1)

Country Link
JP (1) JP2012084069A (en)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007529827A (en) * 2004-03-17 2007-10-25 リヴァーストーン ネットワークス インコーポレーテッド Management of the process state information in the operating system environment
JP2008027232A (en) * 2006-07-21 2008-02-07 Nippon Telegr & Teleph Corp <Ntt> Dumping method and dumping device

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007529827A (en) * 2004-03-17 2007-10-25 リヴァーストーン ネットワークス インコーポレーテッド Management of the process state information in the operating system environment
JP2008027232A (en) * 2006-07-21 2008-02-07 Nippon Telegr & Teleph Corp <Ntt> Dumping method and dumping device

Similar Documents

Publication Publication Date Title
US20120204060A1 (en) Providing restartable file systems within computing devices
US20030028723A1 (en) Efficient data backup using a single side file
US20050283673A1 (en) Information processing apparatus, information processing method, and program
US6230246B1 (en) Non-intrusive crash consistent copying in distributed storage systems without client cooperation
US20080104441A1 (en) Data processing system and method
US20080209423A1 (en) Job management device, cluster system, and computer-readable medium storing job management program
CN102646064A (en) Incremental virtual machine backup supporting migration
US20110289291A1 (en) Cascade ordering
US20110225124A1 (en) Creating a buffer point-in-time copy relationship for a point-in-time copy function executed to create a point-in-time copy relationship
JPH11134117A (en) Computer system
CN102622426A (en) Database writing system and database writing method
US20140052691A1 (en) Efficiently storing and retrieving data and metadata
US9372743B1 (en) System and method for storage management
US20110202903A1 (en) Apparatus and method for debugging a shared library
US20090089628A1 (en) File system error detection and recovery framework
JP2007133544A (en) Failure information analysis method and its implementation device
US8190946B2 (en) Fault detecting method and information processing apparatus
US20090235126A1 (en) Batch processing apparatus and method
KR20020097344A (en) Restoration Method of data on Hard Disk Drive
US20110225380A1 (en) Multiple backup processes
CN101251814A (en) Method for implementing credible recovery system in operating system
US20150154085A1 (en) Flash copy for disaster recovery (dr) testing
US8954408B2 (en) Allowing writes to complete without obtaining a write lock to a file
US20110239231A1 (en) Migrating electronic document version contents and version metadata as a collection with a single operation
JP2000082004A (en) Data duplex system

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130115

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20131127

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20131203

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20140401