JP2009252006A - Log management system and method in computer system - Google Patents
Log management system and method in computer system Download PDFInfo
- Publication number
- JP2009252006A JP2009252006A JP2008100202A JP2008100202A JP2009252006A JP 2009252006 A JP2009252006 A JP 2009252006A JP 2008100202 A JP2008100202 A JP 2008100202A JP 2008100202 A JP2008100202 A JP 2008100202A JP 2009252006 A JP2009252006 A JP 2009252006A
- Authority
- JP
- Japan
- Prior art keywords
- failure
- cell node
- log
- log data
- computer system
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Debugging And Monitoring (AREA)
Abstract
Description
本発明は、複数のセルノードから構成されるコンピュータシステムにおける障害ログを収集し管理する装置、方法およびプログラムに関する。 The present invention relates to an apparatus, a method, and a program for collecting and managing a failure log in a computer system composed of a plurality of cell nodes.
マイクロプロセッサ、メモリ、I/Oデバイス、インタコネクトコントローラ等のハードウェア部品及びそれらハードウェア部品を管理・制御する管理コントローラを搭載したセルノードと呼ぶ集合体を基本単位とし、このセルノードを単一或いは複数個統合して1つのコンピュータシステムを形成できる拡張性に優れたコンピュータサーバがある。このようなコンピュータサーバの運用管理においては、何れかのセルノードにおいて発生した障害を検知し、その要因を迅速に特定する必要が生じる。 The basic unit is an assembly called a cell node equipped with hardware components such as a microprocessor, a memory, an I / O device, and an interconnect controller, and a management controller that manages and controls these hardware components. There is a computer server with excellent expandability that can be integrated to form one computer system. In operation management of such a computer server, it is necessary to detect a failure occurring in any cell node and quickly identify the cause.
このようなコンピュータサーバにおいて、複数セルノードでコンピュータシステムを形成している場合、該コンピュータシステム内で致命障害が発生すると、該コンピュータシステムを形成している各セルノード内の管理コントローラは、互いに独立して、自セルノードに搭載されているハードウェア部品状態(ログ)を収集・保持する。しかし、互いに独立して収集・保持された複数セルノードのログを、それ単一で解析しても障害原因を特定できない障害がある。例えば、コンピュータシステムがストールした障害や、各セルノード間を接続しているインタフェースの障害等の場合である。 In such a computer server, when a computer system is formed by a plurality of cell nodes, if a fatal failure occurs in the computer system, the management controllers in the cell nodes forming the computer system are independent of each other. Collects and holds the status (log) of hardware components mounted on its own cell node. However, there is a failure in which the cause of the failure cannot be identified even if the logs of a plurality of cell nodes collected and held independently of each other are analyzed alone. For example, there is a case where the computer system is stalled or the interface connecting each cell node is faulty.
尚、本書においてコンピュータシステムとは、1つのオペレーティングシステム(OS)で動作する集合体のことと定義し、コンピュータサーバとは、物理的に相互接続されたセルノード全体の集合体と定義する。即ち、1つのコンピュータサーバ内に複数のコンピュータシステムを形成することもできる。 In this document, a computer system is defined as an aggregate that operates on one operating system (OS), and a computer server is defined as an aggregate of the entire cell nodes that are physically interconnected. That is, a plurality of computer systems can be formed in one computer server.
このようなコンピュータサーバの一形態として、ブレードサーバと呼ばれるものがある。ブレードサーバの一例とコンピュータシステムとの関連を図9に記載する。 One form of such a computer server is called a blade server. The relationship between an example of a blade server and a computer system is described in FIG.
ブレードサーバ300は、プロセッサ、メモリ、I/Oデバイス等のハードウェア部品及びそれらハードウェア部品を管理・制御する管理コントローラを搭載したブレード301ー1〜301ー4と呼ぶ集合体を基本単位とし、このブレードを複数個まとめたコンピュータサーバである。
The
また、特開2005−28452号公報(特許文献1)、特開平02−2749号公報(特許文献2)および特開平11−143738号公報(特許文献3)には、複数のプロセッサあるいは計算機間での障害情報を一元管理しあるいは同時監視する技術が開示されている。 In addition, Japanese Patent Laid-Open No. 2005-28452 (Patent Document 1), Japanese Patent Laid-Open No. 02-2749 (Patent Document 2) and Japanese Patent Laid-Open No. 11-143738 (Patent Document 3) include a plurality of processors or computers. Discloses a technique for centrally managing or simultaneously monitoring the failure information.
しかしながらブレードサーバは、単一ブレードでコンピュータシステムを形成し、複数ブレードを統合して1つのコンピュータシステムを形成しないので、コンピュータシステム内で致命障害が発生した場合、単一ブレードのログを収集するのみであり、複数ブレードでログを収集する必要がない。また、各ブレードで収集されたログは、異なる障害を契機に収集されたログでありそれらログに関連性はない。 However, since a blade server forms a computer system with a single blade and does not consolidate multiple blades into a single computer system, only a single blade log is collected if a fatal failure occurs in the computer system. It is not necessary to collect logs with multiple blades. In addition, the logs collected by each blade are collected when different failures occur, and these logs are not related.
また、上記特許文献に開示の技術においては、複数のプロセッサにおける障害情報を一元管理することが示されているものの、具体的な障害の種類に応じてこれを分類管理するような機能は示されておらず、従って、複数のセルノードで構成されるコンピュータシステム内の問題箇所を迅速に特定し、適切な処置を施すことは依然として困難を伴う。 In addition, although the technique disclosed in the above-mentioned patent document indicates that the failure information in a plurality of processors is centrally managed, the function for classifying and managing the failure information according to the specific failure type is shown. Therefore, it is still difficult to quickly identify a problem location in a computer system composed of a plurality of cell nodes and take appropriate measures.
本発明の目的は、上述した問題点に鑑みてなされたものであり、このようなコンピュータサーバにおいて、コンピュータシステム内の単一障害に起因して複数セルノードで収集・保持されたログを1つのログとして統合的に管理可能なログ管理システム、ログ管理方法を提供することにある。 The object of the present invention has been made in view of the above-mentioned problems. In such a computer server, logs collected and held in a plurality of cell nodes due to a single failure in the computer system are stored in one log. To provide a log management system and a log management method that can be managed in an integrated manner.
本発明によるログ管理システムは、複数のセルノードを有するコンピュータシステム内で障害が発生した場合のログデータを管理するログ管理システムであって、各セルノード内の構成部品における障害を検知する手段と、何れかのセルノードにおける構成部品において障害が検知された場合に、該障害の検知を当該セルノード内の管理コントローラに通知する手段と、障害の検知が管理コントローラに通知された場合に、障害の検知をコンピュータシステム内の他のセルノードに転送する手段と、各セルノードにおいて、自セルノード内で検知された障害並びに他のセルノードから転送された障害の検知をローカルログデータとしてローカルメモリ内に保持する手段と、各セルノードのローカルメモリに保持されるローカルログデータを、コンピュータシステム内の統括管理コントローラに転送する手段を備え、統括管理コントローラが、各セルノードから転送されたローカルログデータに基づいて、以降、各セルノードから転送されるローカルログデータにおける障害の要因を推定する手段と、障害要因の推定に従ってローカルログデータを集計してグローバルログデータとしてメモリ内に保持する手段とを含む。 A log management system according to the present invention is a log management system for managing log data when a failure occurs in a computer system having a plurality of cell nodes, and means for detecting a failure in a component in each cell node, When a failure is detected in a component in the cell node, a means for notifying the management controller in the cell node of the detection of the failure, and when a failure detection is notified to the management controller, the failure detection is performed by a computer. Means for transferring to other cell nodes in the system, and means for holding in each cell node a failure detected in the own cell node and a failure transferred from the other cell node in the local memory as local log data; Local log data held in the local memory of the cell node Means for transferring to the central management controller in the computer system, and the central management controller estimates the cause of failure in the local log data transferred from each cell node based on the local log data transferred from each cell node. And means for aggregating the local log data according to the estimation of the failure factor and holding the result in the memory as global log data.
本発明によるログ管理方法は、複数のセルノードを有するコンピュータシステム内で障害が発生した場合のログデータを管理するログ管理方法であって、各セルノード内の構成部品における障害を検知するステップと、何れかのセルノードにおける構成部品において障害が検知された場合に、該障害の検知を当該セルノード内の管理コントローラに通知するステップと、障害の検知が管理コントローラに通知された場合に、障害の検知をコンピュータシステム内の他のセルノードに転送するステップと、各セルノードにおいて、自セルノード内で検知された障害並びに他のセルノードから転送された障害の検知をローカルログデータとしてローカルメモリ内に保持するステップと、各セルノードのローカルメモリに保持されるローカルログデータを、コンピュータシステム内の統括管理コントローラに転送するステップを含み、統括管理コントローラにおいて、各セルノードから転送されたローカルログデータに基づいて、以降、各セルノードから転送されるローカルログデータにおける障害の要因を推定するステップと、障害要因の推定に従ってローカルログデータを集計してグローバルログデータとしてメモリ内に保持するステップを含む。 A log management method according to the present invention is a log management method for managing log data when a failure occurs in a computer system having a plurality of cell nodes, the step of detecting a failure in a component in each cell node, When a failure is detected in a component in the cell node, the step of notifying the management controller in the cell node of the detection of the failure, and the detection of the failure when the detection of the failure is notified to the management controller A step of transferring to other cell nodes in the system, and a step of holding in each cell node a failure detected in the own cell node and a failure transferred from the other cell node in the local memory as local log data; Local log data stored in the local memory of the cell node Of transferring the data to the central management controller in the computer system, and based on the local log data transferred from each cell node in the central management controller, the cause of failure in the local log data transferred from each cell node thereafter And a step of aggregating local log data according to the estimation of the failure factor and holding it in the memory as global log data.
本発明は、複数のセルノードから構成されるコンピュータシステムにおいて、今まで障害原因を特定できなかった障害に対しても障害原因を高精度に特定できるようになる。 According to the present invention, in a computer system composed of a plurality of cell nodes, a failure cause can be identified with high accuracy even for a failure that could not be identified until now.
その理由は、何れかのセルノードにおいて障害が発生すると、各セルノードにおいて記録保持されるローカルログデータが統括管理コントローラに転送され、そこで同種の障害レベルにあるログデータは、一つの要因に基づく障害であると推定され、その状態で記録保持されることになり、その結果、コンピュータシステムの保守管理において障害原因の特定が極めて容易になるからである。 The reason is that when a failure occurs in any of the cell nodes, the local log data recorded and held in each cell node is transferred to the central management controller, where the log data at the same failure level is a failure based on one factor. This is because it is presumed that there is a record and is kept in that state, and as a result, it is very easy to identify the cause of the failure in the maintenance management of the computer system.
以下本発明を実施するための最良の形態を、図を参照して説明する。 The best mode for carrying out the present invention will be described below with reference to the drawings.
(実施の形態の構成)
図1を参照すると、本発明の実施の形態によるコンピュータサーバの一実施例とコンピュータシステムの一実施例とそれらの相関が示されている。
(Configuration of the embodiment)
Referring to FIG. 1, an example of a computer server according to an embodiment of the present invention, an example of a computer system, and their correlation are shown.
コンピュータサーバ100は、4つのセルノード101−1〜101−4から構成されている。これら4つのセルノード101−nは、セルノードを跨いだプロセッサ間、I/Oデバイス間、プロセッサとI/Oデバイス間のデータ送受信を行なう場合、伝送路150を介して行なう。また、セルノードを跨いだ管理コントローラ間の通信を行なう場合、伝送路151を介して行なう。
The
コンピュータサーバ100は、コンピュータシステムAとコンピュータシステムBに分割されている。コンピュータシステムAは、3つのセルノード101−1,101−2,101−3から形成され、コンピュータシステムBは、1つのセルノード101−4から形成されている。コンピュータシステムを跨いだプロセッサ間、I/Oデバイス間、プロセッサとI/Oデバイス間のデータ送受信は行なわれないので、セルノード101−4は、伝送路150を介して他セルノードとデータ送受信を行なわない。
The
コンピュータシステムAは3つのセルノード101−1,101−2,101−3から形成されているため、コンピュータシステムA全体を統括管理する管理コントローラを1つ決める必要がある。本実施例では、セルノード101−1内の管理コントローラ111−1を、コンピュータシステムAの統括管理コントローラとしている。 Since the computer system A is formed of three cell nodes 101-1, 101-2, and 101-3, it is necessary to determine one management controller that performs overall management of the entire computer system A. In this embodiment, the management controller 111-1 in the cell node 101-1 is used as the overall management controller of the computer system A.
図2を参照すると、本発明に係るコンピュータサーバの主要部品であるセルノードの一実施例が示されている。 Referring to FIG. 2, there is shown an embodiment of a cell node which is a main part of a computer server according to the present invention.
プロセッサ200−n、メモリ201−n、I/Oデバイス202−nは、コンピュータの主要部品である。これら部品において障害を検知した場合、伝送路260−nを介して管理コントローラ111に障害検知通知が発行される。この障害検知通知には、障害レベルが含まれる。障害レベルとは、障害がコンピュータシステムに与える影響度である。障害レベル区分の一実施例を下記に記載する。
The processor 200-n, the memory 201-n, and the I / O device 202-n are main components of the computer. When a failure is detected in these components, a failure detection notification is issued to the
[致命障害] コンピュータシステムダウンとなる障害。該障害レベルはコンピュータシステム全体に影響が及ぶため、コンピュータシステム全体のログ収集が必要である。
[警告障害] ハードウェア部品の一部が異常状態であるが、コンピュータシステムは運用継続可能な障害レベル。障害検知セルノードのみのログ収集が必要である。
[訂正可能障害] メモリ1ビットエラー等の訂正可能な障害レベル。障害検知セルノードのみのログ収集が必要である。
[Fatal failure] A failure that causes the computer system to go down. Since the failure level affects the entire computer system, it is necessary to collect logs of the entire computer system.
[Warning failure] A failure level at which some hardware components are in an abnormal state, but the computer system can continue to operate. It is necessary to collect logs only for failure detection cell nodes.
[Correctable fault] A correctable fault level such as a memory 1-bit error. It is necessary to collect logs only for failure detection cell nodes.
インタコネクトコントローラ110は、同一セルノード内のプロセッサ200−n間、I/Oデバイス202−n間及びプロセッサ200−nとI/Oデバイス202−n間のデータ送受信の制御や、同一コンピュータシステム内のセルノード間のデータ送受信の制御を司る。また、インタコネクトコントローラ110において障害検知した場合、伝送路260−5を介して管理コントローラに障害検知通知を発行する。この障害検知通知には、障害レベルが含まれる。
The
管理コントローラ111は、本発明を実現するための主要部品である。管理コントローラ111は、自セルノード内のハードウェア部品の管理・制御を司る。そのため、プロセッサ200−n、メモリ201−n、I/Oデバイス202−n、インタコネクトコントローラ110等のセルノード内ハードウェア部品と伝送路260−nで接続されている。
The
また、自セルノード内のログを保持する不揮発性メモリ204や、自セルノードの環境(温度、電源等)を監視する環境監視デバイス203に接続している。さらに、コンピュータシステムを統括管理するために、他セルノード内管理コントローラと伝送路151で接続されている。
Further, it is connected to a
管理コントローラ111は、プロセッサ200−n、メモリ201−n、I/Oデバイス202−n、インタコネクトコントローラ110等のセルノード内ハードウェア部品から伝送路260−nを介して障害検知通知を受け取ると、該障害検知通知の障害レベルが致命障害であったならば、同一コンピュータシステム内の全セルノード内管理コントローラへ伝送路151を介して該障害検知通知を転送する。
When the
また、管理コントローラ111は、自セルノード内ハードウェア部品或いは他セルノードから障害検知通知を受け取ると、自セルノード内のハードウェア部品のログを収集し、不揮発性メモリ204に保持する。このときログを識別するローカルログIDとログ収集時間と受け取った障害検知通知内に埋め込まれている障害レベルもセットで不揮発性メモリに保持する。尚、不揮発性メモリ204に保持するログ構造体の一実施例が図3に示されている。この詳細については後述する。
When the
さらに、管理コントローラ111は、自セルノード内のハードウェア部品のログを不揮発性メモリ204に保持した後、ローカルログIDとログ収集時間と障害レベルを添えて、統括管理コントローラ111へログ収集通知を発行する。
Furthermore, the
統括管理コントローラとなっている管理コントローラ111は、同一コンピュータシステム内のある管理コントローラ111から障害レベルが致命障害であるログ収集通知を付け取ると、その後一定時間以内の間に同一コンピュータシステム内の他管理コントローラ111から受け取る障害レベルが致命障害であるログ収集通知を、同一障害に起因したログであると判断し、それら異なる管理コントローラから通知された複数のログ収集通知を1まとまりとして管理する。
When the
尚、管理方法の一実施例が図4に示されている。統括管理コントローラとなっている管理コントローラ111は、図4に示すような自コンピュータシステム内で収集・保持されているハードウェア部品ログを一元管理できるログ管理テーブルを持つ。
An embodiment of the management method is shown in FIG. The
図4に示されているグローバルログID=3は、同一致命障害に起因して収集・保持されたログが、セルノード101−1内不揮発性メモリ204内のローカルログID=2、セルノード101−2内不揮発性メモリ204内のローカルログID=1とセルノード101−3内不揮発性メモリ204内のローカルログID=0であることを示している。
The global log ID = 3 shown in FIG. 4 indicates that the log collected and retained due to the coincidence failure is the local log ID = 2 in the
(実施の形態の動作)
以下、本実施例の動作について、図5〜8並びに図3、4を用いて説明する。
(Operation of the embodiment)
Hereinafter, the operation of the present embodiment will be described with reference to FIGS.
図5は、本発明の分散ログ管理方法における、致命障害発生から分散収集・保持されたログを管理するまでの処理フローチャートであり、図6と図7は、その動作を表したものである。本実施例では、セルノード101−3内のメモリ201−1において致命障害を検知した場合の動作について説明する。 FIG. 5 is a processing flowchart from the occurrence of a fatal failure to the management of logs collected and held in the distributed log management method of the present invention, and FIGS. 6 and 7 show the operation. In this embodiment, an operation when a fatal fault is detected in the memory 201-1 in the cell node 101-3 will be described.
セルノード101−3内のメモリ201−1は、致命障害を検知すると(図5におけるステップS501)、障害レベルを致命障害として自セルノード内の管理コントローラ111−3へ伝送路260−1を介して障害検知通知を発行する(ステップS502、図7における1)。 When the memory 201-1 in the cell node 101-3 detects a fatal failure (step S 501 in FIG. 5), the failure level is assumed to be a fatal failure and the failure is transmitted to the management controller 111-3 in the own cell node via the transmission line 260-1. A detection notification is issued (step S502, 1 in FIG. 7).
セルノード101−3内の管理コントローラ111−3は、障害レベルが致命障害である障害通知を受け取ると、同一コンピュータシステム内である他セルノードの管理コントローラ111−1と111−2へ該障害検知通知を転送する(ステップS503、図7における2)。尚、障害レベルが警告障害或いは訂正可能障害である場合は、他セルノードの管理コントローラへ障害通知を転送しない。なぜならば、障害レベルが警告障害或いは訂正可能障害の場合、障害検知セルノード内のログだけで十分障害箇所を特定できるからである。 When the management controller 111-3 in the cell node 101-3 receives a failure notification whose failure level is a fatal failure, the management controller 111-3 sends the failure detection notification to the management controllers 111-1 and 111-2 of other cell nodes in the same computer system. Transfer (step S503, 2 in FIG. 7). When the failure level is a warning failure or a correctable failure, the failure notification is not transferred to the management controller of another cell node. This is because, when the failure level is a warning failure or a correctable failure, the failure location can be sufficiently identified only by the log in the failure detection cell node.
セルノード101−3内の管理コントローラ111−3は、障害検知通知を受け取ると、自セルノード内のハードウェア部品のログを収集し、自管理コントローラ配下の不揮発性メモリ204に保持する(ステップS504−1、図6における3)。
Upon receiving the failure detection notification, the management controller 111-3 in the cell node 101-3 collects hardware component logs in the own cell node and holds them in the
これと並行して、コンピュータシステムA内の他の全てのセルノードにおける管理コントローラ111−1、111−2も、同様に、障害検知通知を受け取ると、自セルノード内のハードウェア部品のログを収集し、自管理コントローラ配下の不揮発性メモリ204に保持する(ステップS504−2、図6における3)。この際、各管理コントローラ111−nは、自セルノード内でユニークなローカルセルIDとログ収集した時間と障害検知通知に埋め込まれて来た障害レベル(致命障害)も一緒に保持する。
In parallel with this, the management controllers 111-1 and 111-2 in all the other cell nodes in the computer system A similarly collect the log of the hardware parts in the own cell node when receiving the failure detection notification. And stored in the
図3に、この時点で各セルノードの不揮発性メモリ204に保持されている情報の一例を示す。セルノード101−1では、今までに2つのログがローカルログID=0と1に保持されているため、セルノード101−3内のメモリ201−1が検知した致命障害に起因して収集・保持されたログは、ローカルログID=2に保持される。
FIG. 3 shows an example of information held in the
セルノード101−2では、今までに1つのログがローカルログID=0に保持されているため、セルノード101−3内のメモリ201−1が検知した致命障害に起因して収集・保持されたログは、ローカルログID=1に保持される。セルノード101−3では、今までに保持されたログが無いので、セルノード101−3内のメモリ201−1が検知した致命障害に起因して収集・保持されたログは、ローカルログID=0に保持される。 In the cell node 101-2, since one log has been held at the local log ID = 0 so far, logs collected and held due to a fatal failure detected by the memory 201-1 in the cell node 101-3 Is held at local log ID = 1. In the cell node 101-3, since there is no log held so far, the log collected and held due to the fatal failure detected by the memory 201-1 in the cell node 101-3 is set to local log ID = 0. Retained.
セルノード101−3内の管理コントローラ111−3は、自セルノード内のログ収集・保持が完了すると、統括管理コントローラである管理コントローラ111−1へ、ローカルログIDとログ収集時間と障害レベルを添えてログ収集通知を伝送路151を介して発行する(ステップS505−1、図6における4)。 The management controller 111-3 in the cell node 101-3, when the log collection / retention in the own cell node is completed, adds the local log ID, the log collection time, and the failure level to the management controller 111-1 as the overall management controller. A log collection notification is issued via the transmission path 151 (step S505-1, 4 in FIG. 6).
これと並行して、コンピュータシステムA内の他の全てのコンピュータシステムA内の他の全てのセルノードにおける管理コントローラ111−1、111−2も、同様に、自セルノード内のログ収集・保持が完了すると、統括管理コントローラである管理コントローラ111−1へ、ローカルログIDとログ収集時間と障害レベルを添えてログ収集通知を伝送路151を介して発行する(ステップS505−2、図6における4)。
In parallel with this, the management controllers 111-1 and 111-2 in all other cell nodes in the computer system A in the computer system A also complete the log collection / retention in their own cell nodes. Then, a log collection notification is issued via the
すなわち、セルノード101−1の管理コントローラ111−1はローカルログID=2を報告し、セルノード101−2の管理コントローラ111−2はローカルログID=1を報告し、セルノード101−3の管理コントローラ111−3はローカルログID=0を報告する。
That is, the management controller 111-1 of the cell node 101-1 reports local log ID = 2, the management controller 111-2 of the cell node 101-2 reports local log ID = 1, and the
統括管理コントローラである管理コントローラ111−1は、コンピュータシステムA内の何れかのセルノードから障害レベルが致命障害であるログ収集通知を受け取ると、タイマーをスタートさせる。このタイマーはある一定時間経過するとタイムアウトする。統括管理コントローラは、タイマーがタイムアウトするより前に受け取った障害レベルが致命障害である複数のログ収集通知を、セルノード101−3内のメモリ201−1が検知した致命障害に起因して収集・保持されたログであると判断する(ステップS506、図6における5)。 When the management controller 111-1, which is the overall management controller, receives a log collection notification whose failure level is fatal from any cell node in the computer system A, it starts a timer. This timer times out after a certain time. The overall management controller collects and holds a plurality of log collection notifications whose failure level is fatal failure received before the timer times out due to the fatal failure detected by the memory 201-1 in the cell node 101-3. It is determined that the log has been recorded (step S506, 5 in FIG. 6).
統括管理コントローラである管理コントローラ111−1は、図4に示すログ管理テーブルを保持しており、ステップS506で判断した結果を格納する(ステップS507、図6における6)。図4におけるグローバルログID=3のログが、セルノード101−3内のメモリ201−1が検知した致命障害に起因して収集・保持されたログであることを示す。 The management controller 111-1, which is the overall management controller, holds the log management table shown in FIG. 4, and stores the result determined in step S506 (step S507, 6 in FIG. 6). 4 indicates that the log with the global log ID = 3 is a log collected and held due to a fatal failure detected by the memory 201-1 in the cell node 101-3.
統括管理コントローラが保持するログ管理テーブルと各セルノードが不揮発性メモリ204に保持するログの対応方法を図8に示す。グローバルログID=0は、セルノード101−2が保持するローカルログID=0に対応し、グローバルログID=1は、セルノード101−1が保持するローカルログID=0に対応し、グローバルログID=2は、セルノード101−1が保持するローカルログID=1に対応し、グローバルログID=3は、セルノード101−1が保持するローカルID=2とセルノード101−2が保持するローカルログID=1とセルノード101−3が保持するローカルログID=0に対応している。即ち、統括管理コントローラが保持するログ管理テーブルは、障害検知毎に新たなグローバルIDが付加され、その障害検知に起因して収集・保持されたログがどこに存在するどれなのかが判る。
FIG. 8 shows a correspondence method between the log management table held by the overall management controller and the log held in the
以上により、何れかのセルノード内での障害の発生からログの登録までの一連の処理が完了する。 As described above, a series of processes from occurrence of a failure in any cell node to log registration is completed.
(実施の形態の効果)
以上説明したように、本実施の形態によれば、コンピュータシステム内の単一障害に起因して複数セルノードで収集・保持されたログを1つのログとして管理できるため、これら複数セルノードで収集されたログを横断的に解析することができるようになり、その結果、今まで障害原因を特定できなかった障害に対しても障害原因が特定できるようになるという効果を有する。
(Effect of embodiment)
As described above, according to the present embodiment, logs collected and held in a plurality of cell nodes due to a single failure in the computer system can be managed as one log. As a result, it becomes possible to analyze the logs across the logs, and as a result, it is possible to identify the cause of the failure even for the failure that could not be identified until now.
本発明の実施の形態による各セルノードの管理コントローラについては、ハードウェア的に実現することは勿論として、その機能を提供するログ管理プログラムを、ハードディスク装置やROM等の補助記憶部に格納し、そのプログラムをプロセッサで実行することにより、ソフトウェア的に実現することも可能である。 The management controller of each cell node according to the embodiment of the present invention is not only realized in hardware, but also stores a log management program providing its function in an auxiliary storage unit such as a hard disk device or ROM, and It can also be realized in software by executing the program with a processor.
以上好ましい実施の形態をあげて本発明を説明したが、本発明は必ずしも、上記実施の形態に限定されるものではなく、その技術的思想の範囲内において様々に変形して実施することが出来る。 Although the present invention has been described with reference to the preferred embodiments, the present invention is not necessarily limited to the above embodiments, and various modifications can be made within the scope of the technical idea. .
例えば、上記実施の形態では、統括管理コントローラを選択された一つのセルノードにおける管理コントローラとして利用したが、これをセルノードの外にある管理コントローラ上で実現するようにしてもよい。 For example, in the above embodiment, the overall management controller is used as a management controller in one selected cell node, but this may be realized on a management controller outside the cell node.
また、上記管理コントローラにおける機能を、インタコネクトコントローラに持たせるようにしてもよい。一般的に管理コントローラ間におけるデータ伝送よりも、インタコネクトコントローラ間におけるデータ伝送のほうが高速であるので、各セルノード間におけるログデータの転送時間差を小さくするためには、この例のほうが好ましい。 Further, the interconnect controller may have the function of the management controller. Since data transmission between interconnect controllers is generally faster than data transmission between management controllers, this example is preferable in order to reduce the difference in log data transfer time between cell nodes.
100:コンピュータサーバ
101−n:セルノード
110−n:インタコネクトコントローラ
111−n:管理コントローラ
111−1:統括管理コントローラ
150:伝送路
151:伝送路
200−n:プロセッサ
201−n:メモリ
202−n:I/Oデバイス
203:環境監視デバイス
204:不揮発性メモリ
260−n:伝送路
DESCRIPTION OF SYMBOLS 100: Computer server 101-n: Cell node 110-n: Interconnect controller 111-n: Management controller 111-1: General management controller 150: Transmission path 151: Transmission path 200-n: Processor 201-n: Memory 202-n : I / O device 203: Environmental monitoring device 204: Non-volatile memory 260-n: Transmission path
Claims (16)
各セルノード内の構成部品における障害を検知する手段と、
何れかのセルノードにおける構成部品において障害が検知された場合に、該障害の検知を当該セルノード内の管理コントローラに通知する手段と、
前記障害の検知が前記管理コントローラに通知された場合に、前記障害の検知をコンピュータシステム内の他のセルノードに転送する手段と、
前記各セルノードにおいて、自セルノード内で検知された障害並びに前記他のセルノードから転送された障害の検知をローカルログデータとしてローカルメモリ内に保持する手段と、
前記各セルノードのローカルメモリに保持されるローカルログデータを、コンピュータシステム内の統括管理コントローラに転送する手段を備え、
前記統括管理コントローラが、
前記各セルノードから転送されたローカルログデータに基づいて、以降、各セルノードから転送されるローカルログデータにおける障害の要因を推定する手段と、
前記障害要因の推定に従って前記ローカルログデータを集計してグローバルログデータとしてメモリ内に保持する手段と、
を備えたことを特徴とするコンピュータシステムにおけるログ管理システム。 A log management system for managing log data when a failure occurs in a computer system having a plurality of cell nodes,
Means for detecting a failure in a component in each cell node;
Means for notifying the detection of the failure to the management controller in the cell node when a failure is detected in a component in any of the cell nodes;
Means for transferring the failure detection to another cell node in the computer system when the failure detection is notified to the management controller;
In each cell node, means for holding in a local memory as a local log data detection of a failure detected in the own cell node and a failure transferred from the other cell node;
Means for transferring local log data held in a local memory of each cell node to a general management controller in a computer system;
The overall management controller is
Means for estimating the cause of failure in the local log data transferred from each cell node based on the local log data transferred from each cell node;
Means for aggregating the local log data according to the estimation of the failure factor and holding it in memory as global log data;
A log management system in a computer system, comprising:
障害の発生した構成部品を特定する情報、およびその障害のレベルを特定する情報を管理コントローラに通知することを特徴とする請求項1に記載のログ管理システム。 Means for notifying the management controller in the cell node of the detection of the failure,
2. The log management system according to claim 1, wherein the management controller is notified of information for identifying a component in which a failure has occurred and information for identifying the level of the failure.
少なくともその障害が、当該コンピュータシステム全体に影響を及ぼす致命的な障害であるか否かの種別を示す情報を含むことを特徴とする請求項2に記載のログ管理システム。 Information identifying the level of failure is
3. The log management system according to claim 2, wherein at least the failure includes information indicating a type of whether or not the failure is a fatal failure affecting the entire computer system.
前記障害のレベルを特定する情報が、致命的な障害であることを示すものである場合にのみ、前記障害の検知をコンピュータシステム内の他のセルノードに転送することを特徴とする請求項2又は請求項3に記載のログ管理システム。 Means for forwarding the failure detection to another cell node in the computer system;
The detection of the failure is transferred to another cell node in the computer system only when the information specifying the level of the failure indicates a fatal failure. The log management system according to claim 3.
各障害ごとに、固有のログID、ログデータの収集時間、および障害のレベルを特定する情報を保持することを特徴とする請求項1から請求項4の何れかに記載のログ管理システム。 Means for holding the failure in the local memory as local log data,
5. The log management system according to claim 1, wherein the log management system retains information specifying a unique log ID, a log data collection time, and a failure level for each failure.
最初のローカルログデータにおける障害のレベルが致命的な障害である場合に、その転送から所定時間内に転送される致命的な障害のレベルにあるローカルログデータを、最初の障害と同一の要因によるものと推定することを特徴とする請求項1から請求項5の何れかに記載のログ管理システム。 Means for estimating the cause of failure in local log data transferred from each cell node of the overall management controller,
When the failure level in the first local log data is a fatal failure, the local log data at the fatal failure level transferred within a predetermined time from the transfer is caused by the same factor as the first failure. The log management system according to any one of claims 1 to 5, wherein the log management system is estimated.
各セルノード内の構成部品における障害を検知するステップと、
何れかのセルノードにおける構成部品において障害が検知された場合に、該障害の検知を当該セルノード内の管理コントローラに通知するステップと、
前記障害の検知が前記管理コントローラに通知された場合に、前記障害の検知をコンピュータシステム内の他のセルノードに転送するステップと、
前記各セルノードにおいて、自セルノード内で検知された障害並びに前記他のセルノードから転送された障害の検知をローカルログデータとしてローカルメモリ内に保持するステップと、
前記各セルノードのローカルメモリに保持されるローカルログデータを、コンピュータシステム内の統括管理コントローラに転送するステップを含み、
前記統括管理コントローラにおいて、
前記各セルノードから転送されたローカルログデータに基づいて、以降、各セルノードから転送されるローカルログデータにおける障害の要因を推定するステップと、
前記障害要因の推定に従って前記ローカルログデータを集計してグローバルログデータとしてメモリ内に保持するステップを含むことを特徴とするコンピュータシステムにおけるログ管理方法。 A log management method for managing log data when a failure occurs in a computer system having a plurality of cell nodes,
Detecting a failure in a component in each cell node;
A step of notifying the detection of the failure to a management controller in the cell node when a failure is detected in a component in any of the cell nodes;
Transferring the failure detection to another cell node in the computer system when the failure detection is notified to the management controller;
In each cell node, holding a failure detected in its own cell node and a failure transferred from the other cell node in local memory as local log data; and
Transferring local log data held in a local memory of each cell node to a general management controller in a computer system;
In the overall management controller,
Based on the local log data transferred from each cell node, and thereafter estimating the cause of failure in the local log data transferred from each cell node;
A log management method in a computer system, comprising the step of aggregating the local log data in accordance with the failure factor estimation and holding it in a memory as global log data.
障害の発生した構成部品を特定する情報、およびその障害のレベルを特定する情報を管理コントローラに通知することを特徴とする請求項9に記載のログ管理方法。 Informing the management controller in the cell node of the detection of the failure,
The log management method according to claim 9, wherein the management controller is notified of information for identifying a failed component and information for identifying the level of the failure.
少なくともその障害が、当該コンピュータシステム全体に影響を及ぼす致命的な障害であるか否かの種別を示す情報を含むことを特徴とする請求項10に記載のログ管理方法。 Information identifying the level of failure is
The log management method according to claim 10, comprising at least information indicating whether the failure is a fatal failure affecting the entire computer system.
前記障害のレベルを特定する情報が、致命的な障害であることを示すものである場合にのみ、前記障害の検知をコンピュータシステム内の他のセルノードに転送することを特徴とする請求項10又は請求項11に記載のログ管理方法。 Transferring the detection of the failure to another cell node in the computer system;
The detection of the failure is transferred to another cell node in the computer system only when the information specifying the level of the failure indicates a fatal failure. The log management method according to claim 11.
各障害ごとに、固有のログID、ログデータの収集時間、および障害のレベルを特定する情報を保持することを特徴とする請求項9から請求項12の何れかに記載のログ管理方法。 Holding the failure as local log data in local memory;
The log management method according to any one of claims 9 to 12, wherein information specifying a unique log ID, a log data collection time, and a failure level is held for each failure.
最初のローカルログデータにおける障害のレベルが致命的な障害である場合に、その転送から所定時間内に転送される致命的な障害のレベルにあるローカルログデータを、最初の障害と同一の要因によるものと推定することを特徴とする請求項9から請求項13の何れかに記載のログ管理方法。 In the step of estimating the cause of failure in local log data transferred from each cell node of the overall management controller,
When the failure level in the first local log data is a fatal failure, the local log data at the fatal failure level transferred within a predetermined time from the transfer is caused by the same factor as the first failure. The log management method according to any one of claims 9 to 13, wherein the log management method is estimated.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008100202A JP2009252006A (en) | 2008-04-08 | 2008-04-08 | Log management system and method in computer system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008100202A JP2009252006A (en) | 2008-04-08 | 2008-04-08 | Log management system and method in computer system |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2009252006A true JP2009252006A (en) | 2009-10-29 |
Family
ID=41312644
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008100202A Pending JP2009252006A (en) | 2008-04-08 | 2008-04-08 | Log management system and method in computer system |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2009252006A (en) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012198667A (en) * | 2011-03-18 | 2012-10-18 | Mizuho Information & Research Institute Inc | Connection management system |
WO2014010021A1 (en) * | 2012-07-09 | 2014-01-16 | 富士通株式会社 | Information processing device, information processing system, method for controlling information processing device, and program for controlling information processing device |
JP2014182720A (en) * | 2013-03-21 | 2014-09-29 | Fujitsu Ltd | Information processing system, information processing devices, and failure processing method |
JP2015215869A (en) * | 2014-04-25 | 2015-12-03 | 京セラドキュメントソリューションズ株式会社 | Information processing device |
JPWO2021059400A1 (en) * | 2019-09-25 | 2021-04-01 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH03225536A (en) * | 1990-01-31 | 1991-10-04 | Nec Corp | Method and device for log data collection |
JPH07212462A (en) * | 1994-01-17 | 1995-08-11 | Fujitsu Ltd | Fault data gathering system |
JPH07262048A (en) * | 1994-03-17 | 1995-10-13 | Fujitsu Ltd | Notifying device of flag code |
JPH10301815A (en) * | 1997-04-24 | 1998-11-13 | Mitsubishi Electric Corp | Fault information logging device |
JP2004062535A (en) * | 2002-07-29 | 2004-02-26 | Nec Corp | Method of dealing with failure for multiprocessor system, multiprocessor system and node |
JP2004086278A (en) * | 2002-08-23 | 2004-03-18 | Hitachi Kokusai Electric Inc | Method and system for monitoring device fault |
JP2004348335A (en) * | 2003-05-21 | 2004-12-09 | Nec System Technologies Ltd | Fault detection method and information processing system |
-
2008
- 2008-04-08 JP JP2008100202A patent/JP2009252006A/en active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH03225536A (en) * | 1990-01-31 | 1991-10-04 | Nec Corp | Method and device for log data collection |
JPH07212462A (en) * | 1994-01-17 | 1995-08-11 | Fujitsu Ltd | Fault data gathering system |
JPH07262048A (en) * | 1994-03-17 | 1995-10-13 | Fujitsu Ltd | Notifying device of flag code |
JPH10301815A (en) * | 1997-04-24 | 1998-11-13 | Mitsubishi Electric Corp | Fault information logging device |
JP2004062535A (en) * | 2002-07-29 | 2004-02-26 | Nec Corp | Method of dealing with failure for multiprocessor system, multiprocessor system and node |
JP2004086278A (en) * | 2002-08-23 | 2004-03-18 | Hitachi Kokusai Electric Inc | Method and system for monitoring device fault |
JP2004348335A (en) * | 2003-05-21 | 2004-12-09 | Nec System Technologies Ltd | Fault detection method and information processing system |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012198667A (en) * | 2011-03-18 | 2012-10-18 | Mizuho Information & Research Institute Inc | Connection management system |
WO2014010021A1 (en) * | 2012-07-09 | 2014-01-16 | 富士通株式会社 | Information processing device, information processing system, method for controlling information processing device, and program for controlling information processing device |
JP2014182720A (en) * | 2013-03-21 | 2014-09-29 | Fujitsu Ltd | Information processing system, information processing devices, and failure processing method |
JP2015215869A (en) * | 2014-04-25 | 2015-12-03 | 京セラドキュメントソリューションズ株式会社 | Information processing device |
JPWO2021059400A1 (en) * | 2019-09-25 | 2021-04-01 | ||
WO2021059400A1 (en) * | 2019-09-25 | 2021-04-01 | 日本電信電話株式会社 | Abnormal part estimation device, method, and program |
JP7322958B2 (en) | 2019-09-25 | 2023-08-08 | 日本電信電話株式会社 | Abnormal location estimation device, method and program |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106789306B (en) | Method and system for detecting, collecting and recovering software fault of communication equipment | |
US7165192B1 (en) | Fault isolation in large networks | |
US8713350B2 (en) | Handling errors in a data processing system | |
US8839032B2 (en) | Managing errors in a data processing system | |
US8996924B2 (en) | Monitoring device, monitoring system and monitoring method | |
CN101589370B (en) | A parallel computer system and fault recovery method therefor | |
EP3142011B1 (en) | Anomaly recovery method for virtual machine in distributed environment | |
KR100827027B1 (en) | Device diagnostic system | |
WO2021027481A1 (en) | Fault processing method, apparatus, computer device, storage medium and storage system | |
CN103354503A (en) | Cloud storage system capable of automatically detecting and replacing failure nodes and method thereof | |
CN104268061A (en) | Storage state monitoring mechanism for virtual machine | |
JP2009252006A (en) | Log management system and method in computer system | |
TW201635142A (en) | Fault tolerant method and system for multiple servers | |
CN112601216B (en) | Zigbee-based trusted platform alarm method and system | |
WO2013101082A1 (en) | Reset of processing core in multi-core processing system | |
CN108769170A (en) | A kind of cluster network fault self-checking system and method | |
CN114124655A (en) | Network monitoring method, system, device, computer equipment and storage medium | |
CN112631820A (en) | Fault recovery method and device of software system | |
WO2016101596A1 (en) | Power fail safeguard method, device and system thereof | |
JP2007299213A (en) | Raid controller and fault monitoring method | |
US8451019B2 (en) | Method of detecting failure and monitoring apparatus | |
CN103995759B (en) | High-availability computer system failure handling method and device based on core internal-external synergy | |
CN115220937A (en) | Method, electronic device and program product for storage management | |
JP2007028118A (en) | Failure judging method of node device | |
CN110321261B (en) | Monitoring system and monitoring method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110120 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110829 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20111017 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20111101 |