JP2009205208A - Operation management device, method and program - Google Patents
Operation management device, method and program Download PDFInfo
- Publication number
- JP2009205208A JP2009205208A JP2008043858A JP2008043858A JP2009205208A JP 2009205208 A JP2009205208 A JP 2009205208A JP 2008043858 A JP2008043858 A JP 2008043858A JP 2008043858 A JP2008043858 A JP 2008043858A JP 2009205208 A JP2009205208 A JP 2009205208A
- Authority
- JP
- Japan
- Prior art keywords
- information
- performance
- abnormality
- computer
- performance information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Debugging And Monitoring (AREA)
Abstract
Description
本発明は、仮想計算機(VM;Virtual Machine)を利用する運用管理装置に関する。 The present invention relates to an operation management apparatus that uses a virtual machine (VM).
仮想計算機(VM)を利用することにより、システムを構成するサーバをソフトウェア的に制御することが可能な運用管理装置が開発されている。従来の運用管理装置では、ハードウェア上の制約を超えて、サーバの作製や複製、稼動場所の移動や動的な処理性能の変更といったことが容易に行えるため、環境変化に追随した柔軟なサービス提供を実現できるものとして期待されている。 An operation management apparatus capable of controlling a server constituting a system by software by using a virtual machine (VM) has been developed. With conventional operation management devices, it is easy to create and replicate servers, move operating locations, and dynamically change processing performance beyond hardware limitations, so flexible services that follow changes in the environment Expected to be able to deliver.
しかし、従来の運用管理装置では、VMで構成されたサーバ(ゲスト計算機)の監視エージェントから収集した性能情報のみで障害判定を行う。このため、ホスト計算機上で動的に行われた資源割り当ての変更を把握できず、ゲストの性能異常を正確に検出できなくなる。このことから、障害の誤検知や検知漏れが発生し、運用管理作業の効率が大幅に低下してしまうという問題があった。 However, in the conventional operation management apparatus, the failure is determined only by the performance information collected from the monitoring agent of the server (guest computer) configured with the VM. For this reason, the resource allocation change dynamically performed on the host computer cannot be grasped, and the guest performance abnormality cannot be detected accurately. For this reason, there is a problem that erroneous detection of a failure or omission of detection occurs, and the efficiency of operation management work is greatly reduced.
ここで、運用管理に関連する技術について紹介する。 Here, we introduce technologies related to operation management.
特開2006−65430号公報には、仮想計算機性能変更方法が記載されている(特許文献1)。仮想計算機性能変更方法は、仮想計算機の命令実行部分に含まれるダミーサイクルの値を仮想計算機の負荷の変動に応じて変更させることで仮想計算機のCPU性能を動的に変更することを特徴としている。 Japanese Unexamined Patent Application Publication No. 2006-65430 describes a virtual machine performance changing method (Patent Document 1). The virtual machine performance changing method is characterized in that the CPU performance of the virtual machine is dynamically changed by changing the value of the dummy cycle included in the instruction execution part of the virtual machine according to the change in the load of the virtual machine. .
特開2002−32244号公報には、仮想計算機が記載されている(特許文献2)。仮想計算機は、障害情報の採取手段を有する複数のゲストオペレーティングシステムを制御する仮想計算機制御手段を備えている。仮想計算機は、仮想計算機制御手段が自身の障害によって、ゲストオペレーティングシステムを制御できなくなったとき、仮想計算機制御手段自身が動作中のゲストオペレーティングシステムの動作メモリ領域をロックし、動作メモリ領域のメモリイメージを外部記憶に退避した後、自身をアボートする手段を更に備えることを特徴としている。 Japanese Patent Laid-Open No. 2002-32244 describes a virtual computer (Patent Document 2). The virtual computer includes virtual computer control means for controlling a plurality of guest operating systems having failure information collection means. When the virtual machine control unit becomes unable to control the guest operating system due to its own failure, the virtual machine locks the operating memory area of the guest operating system in which the virtual machine control unit itself is operating, and the memory image of the operating memory area Is further provided with means for aborting itself after saving to the external storage.
特開2005−115751号公報には、車載用電子機器が記載されている(特許文献3)。計算機システムは、第1のOSと、該第1のOS上で動作し通常の業務処理を行うサービスアプリケーションと、第1のOSとは異なる第2のOSと、該第2のOS上で動作する解析予測アプリケーションとを備えている。第1のOSは、自OSの状態情報と動作記録情報とを保持し、解析予測アプリケーションは、第1のOSが保持する情報の内容を解析して障害の兆候を検知することを特徴としている。 Japanese Patent Laid-Open No. 2005-115751 describes an in-vehicle electronic device (Patent Document 3). The computer system operates on the first OS, a service application that operates on the first OS and performs normal business processing, a second OS that is different from the first OS, and the second OS And an analysis prediction application. The first OS holds the status information and operation record information of the own OS, and the analysis prediction application analyzes the contents of the information held by the first OS and detects a failure sign. .
特開2006−39763号公報には、ゲストOSデバッグ支援方法が記載されている(特許文献4)。ゲストOSデバッグ支援方法は、仮想計算機マネージャによって提供される仮想計算機実行環境で動作するゲストOSのデバッグを支援するものである。ゲストOSデバッグ支援方法は、第1のゲストOSが動作する第1の仮想計算機実行環境とは異なる第2の仮想計算機実行環境を仮想計算機マネージャが構築するステップと、仮想計算機マネージャが、第1のゲストOSを、当該第1のゲストOSの実行状態及び当該第1のゲストOSが使用するメモリの状態を含めて、第2の仮想計算機実行環境にコピーすることにより、第1のゲストOSのコピーである第2のゲストOSを第2の仮想計算機実行環境に生成するステップと、第2の仮想計算機実行環境に生成された第2のゲストOSを停止状態にして当該第2のゲストOSの状態を保存するステップと、を具備することを特徴としている。 Japanese Patent Application Laid-Open No. 2006-39763 describes a guest OS debugging support method (Patent Document 4). The guest OS debugging support method supports debugging of a guest OS that operates in a virtual machine execution environment provided by a virtual machine manager. The guest OS debugging support method includes a step in which a virtual machine manager constructs a second virtual machine execution environment different from the first virtual machine execution environment in which the first guest OS operates, By copying the guest OS to the second virtual machine execution environment, including the execution state of the first guest OS and the state of the memory used by the first guest OS, the copy of the first guest OS A second guest OS that is generated in the second virtual machine execution environment, and the second guest OS generated in the second virtual machine execution environment is stopped and the state of the second guest OS And a step of storing.
特開2006−344025号公報には、稼動性能データ取得方法が記載されている(特許文献5)。稼動性能データ取得方法は、コンピューティングシステムを用いて、稼動性能データ取得するものである。コンピューティングシステムは、各種のプログラムを実行する複数の計算機と、プログラムを計算機に割り当て、割り当てた計算機にプログラムの実行を要求する業務サーバと、プログラムの実行環境に関連する稼動性能データを計算機から収集し、稼動性能データに基づいて計算機の性能を監視する性能監視サーバとを含んでいる。稼動性能データ取得方法は、業務サーバが、割り当てられた当該プログラムを示す業務情報と、そのプログラムを実行する計算機を識別する計算機識別情報とを含み、当該プログラムの収集命令を生成するステップと、性能監視サーバが、収集命令に含まれる業務情報に対応する収集項目をメモリから読み出して、計算機識別情報を有する計算機に配布するステップと、計算機が、配布された収集項目に関する稼動性能データを収集するステップと、性能監視サーバが、収集項目を配布したことによりその収集項目に関する稼動性能データを収集した計算機から、当該収集項目に関する稼動性能データを取得するステップと、を有することを特徴としている。 Japanese Patent Application Laid-Open No. 2006-344025 describes an operation performance data acquisition method (Patent Document 5). The operation performance data acquisition method acquires operation performance data using a computing system. A computing system collects from a computer a plurality of computers that execute various programs, a business server that assigns the programs to the computers, and requests the assigned computers to execute the programs, and operational performance data related to the execution environment of the programs. And a performance monitoring server that monitors the performance of the computer based on the operation performance data. The operational performance data acquisition method includes a step in which a business server includes business information indicating the assigned program and computer identification information for identifying a computer that executes the program, and generates a collection instruction for the program, A step in which the monitoring server reads a collection item corresponding to the business information included in the collection command from the memory and distributes it to a computer having computer identification information; and a step in which the computer collects operational performance data related to the distributed collection item And the performance monitoring server has a step of acquiring operation performance data relating to the collection item from a computer that has collected the operation performance data relating to the collection item by distributing the collection item.
従来の運用管理装置では、次のような問題点が挙げられる。 The conventional operation management apparatus has the following problems.
第1の問題点として、ホスト計算機上で資源割り当てを変更するとゲスト計算機上の負荷の変動幅が変化してしまう性能情報の場合、従来の運用管理装置では、このような資源割り当ての変更によって予期せぬ閾値越え(障害の誤検知)が発生してしまうという問題があった。また、動的に変動幅が変化させられる性能情報に対して適切な監視閾値を設定できないという問題があった。 As a first problem, in the case of performance information in which the fluctuation range of the load on the guest computer changes when the resource allocation is changed on the host computer, the conventional operation management apparatus expects the change of the resource allocation. There was a problem that an unexpected threshold exceeded (error detection of failure) occurred. In addition, there is a problem that an appropriate monitoring threshold cannot be set for performance information whose fluctuation range is dynamically changed.
第2の問題点として、従来の運用管理装置では、ゲスト計算機上の負荷をホスト計算機上で検出するため、ゲスト計算機に割り当てられた資源の利用率は正確に検出できるものの、実際にゲスト計算機上でどう検出されているかがわからないため、ゲスト計算機上のAPなど他の要素との相関分析が正確に行えないという問題があった。 As a second problem, in the conventional operation management apparatus, since the load on the guest computer is detected on the host computer, the utilization rate of the resources allocated to the guest computer can be detected accurately, but actually on the guest computer. In other words, it is difficult to accurately perform correlation analysis with other elements such as AP on the guest computer.
例えば、CPU負荷は、一般的に検出時間間隔の平均値として算出される。ホスト計算機上はすべての処理時間を元に正確に値が検出できるが、ゲスト計算機にCPU資源が割り当てられない状態では、ゲスト計算機上ではカウントする時間情報自体がホスト計算機と異なる(間引かれた時間情報になる)。このため、ゲスト計算機上でAPがインターバル時間に基づく割り込み処理等を行っている場合、ホスト計算機上で検出できる計測できる負荷の異常状態と、ゲスト計算機上で検出可能な負荷に従って処理したAPの処理メッセージを比較しても、正確な障害判定が行えない場合がある。 For example, the CPU load is generally calculated as an average value of detection time intervals. On the host computer, the value can be detected accurately based on all processing times. However, when CPU resources are not allocated to the guest computer, the time information counted on the guest computer is different from the host computer (thinned out). Time information). For this reason, when the AP performs interrupt processing based on the interval time on the guest computer, the abnormal state of the load that can be detected that can be detected on the host computer and the processing of the AP that is processed according to the load that can be detected on the guest computer Even if the messages are compared, it may not be possible to accurately determine the failure.
本発明の課題は、上記の問題点を解決することができる運用管理装置を提供することにある。 The subject of this invention is providing the operation management apparatus which can solve said problem.
本発明の運用管理装置は、性能情報収集部と、性能異常分析部と、資源情報収集部と、資源割当分析部と、を具備している。性能情報収集部は、ホスト計算機上で仮想的に実現されるゲスト計算機の負荷性能を値で表す情報を収集し、性能情報として出力する。性能異常分析部は、性能情報を受け取って、性能情報が表す値と閾値とを比較し、ゲスト計算機上の負荷に異常があると判定した場合、その旨を表す異常メッセージを出力する。資源情報収集部は、ホスト計算機上でゲスト計算機に割り当てられた資源の数を表す情報を収集し、資源情報として出力する。資源割当分析部は、資源情報と性能情報とを受け取り、自然数と調整倍率とを複数対応付ける調整データを参照して、複数の調整倍率の中から、資源情報が表す数に対応する選択調整倍率を選択し、性能情報が表す値を選択調整倍率に応じて調整し、性能情報として性能異常分析部に出力する。 The operation management apparatus of the present invention includes a performance information collection unit, a performance abnormality analysis unit, a resource information collection unit, and a resource allocation analysis unit. The performance information collection unit collects information representing the load performance of the guest computer virtually realized on the host computer as a value, and outputs it as performance information. The performance abnormality analysis unit receives the performance information, compares the value represented by the performance information with a threshold value, and determines that the load on the guest computer is abnormal, outputs an abnormality message indicating that fact. The resource information collection unit collects information indicating the number of resources allocated to the guest computer on the host computer and outputs it as resource information. The resource allocation analysis unit receives resource information and performance information, refers to adjustment data that associates a plurality of natural numbers and adjustment factors, and selects a selection adjustment factor corresponding to the number represented by the resource information from the plurality of adjustment factors. The value represented by the performance information is adjusted according to the selection adjustment magnification, and is output to the performance abnormality analysis unit as performance information.
従来の運用管理装置では、このような資源割り当ての変更が把握できないため、障害を誤検知することになる。本発明の運用管理装置では、資源割り当ての変更が把握できるため、このような誤検知が抑制され、正確な障害判定を行うことができる。また、割り当ての変化によらず、一定の閾値で判定することができるため、閾値設定が容易になる。このことから、第1の問題点を解決できる。 Since the conventional operation management apparatus cannot grasp such a change in resource allocation, a fault is erroneously detected. In the operation management apparatus of the present invention, since a change in resource allocation can be grasped, such erroneous detection is suppressed, and accurate failure determination can be performed. In addition, the threshold can be easily set because the determination can be made with a certain threshold regardless of the change in allocation. From this, the first problem can be solved.
また、本発明の運用管理装置では、ゲスト計算機上で検出された性能情報に基づいて調整された情報から異常判定を行うため、ゲスト計算機上で検出可能な状態に従って他の要素の異常状態と適切に相関分析を行うことができる。このことから、第2の問題点を解決できる。 Further, in the operation management apparatus of the present invention, since abnormality determination is performed from information adjusted based on the performance information detected on the guest computer, abnormal states of other elements are appropriately determined according to a state that can be detected on the guest computer. Correlation analysis can be performed. From this, the second problem can be solved.
以下に添付図面を参照して、本発明の実施形態による運用管理装置について詳細に説明する。 Hereinafter, an operation management apparatus according to an embodiment of the present invention will be described in detail with reference to the accompanying drawings.
(第1実施形態)
[構成]
図1は、本発明の実施形態による運用管理装置の構成を説明するための図である。図2は、本発明の実施形態による運用管理装置の構成を示すブロック図である。
(First embodiment)
[Constitution]
FIG. 1 is a diagram for explaining the configuration of an operation management apparatus according to an embodiment of the present invention. FIG. 2 is a block diagram showing the configuration of the operation management apparatus according to the embodiment of the present invention.
図1に示されるように、本発明の実施形態による運用管理装置は、性能情報収集部1、性能異常分析部2、障害分析部3、管理者対話部4を具備している。
As shown in FIG. 1, the operation management apparatus according to the embodiment of the present invention includes a performance
性能異常分析部2、障害分析部3、管理者対話部4は、コンピュータである管理マネージャ200に設けられ、そのコンピュータに実行されるコンピュータプログラムである。性能情報収集部1は、コンピュータであるホスト計算機100上で仮想的に実現されるゲスト計算機110に設けられ、そのコンピュータに実行されるコンピュータプログラムである。ゲスト計算機110は、ソフトウェア的に生成されている。
The performance
性能情報収集部1は、ゲスト計算機110の負荷性能を値で表す情報を収集し、性能情報として出力する。性能異常分析部2は、性能情報収集部1から性能情報を受け取って、以下に示す異常判定を行う第1機能を有している。性能異常分析部2(第1機能)は、性能情報を受け取って、性能情報が表す値と閾値とを比較し、比較の結果に基づいて、ゲスト計算機110上の負荷に異常があるか否かを分析する。ここで、性能情報が表す値が閾値を超えている場合(閾値超過である場合)、性能異常分析部2は、ゲスト計算機110上の負荷に異常があると判定し、その旨を表す異常メッセージを出力する(異常判定)。障害分析部3は、異常メッセージの発生順序や組み合わせによってシステム全体に障害があるか否かを分析し、システム全体に障害があると判定した場合、その旨を表す障害状態情報を生成する(障害判定)。この場合、障害状態情報を、管理者対話部4を介して管理者に通知する。管理者対話部4は、障害状態情報を管理者に提示するとともに管理者の指示を受け取る。
The performance
図2に示されるように、本発明の実施形態による運用管理装置は、は、更に、資源情報収集部5、資源割当分析部6を具備している。資源情報収集部5は、ホスト計算機100に設けられ、コンピュータ(ホスト計算機100)に実行されるコンピュータプログラムである。資源割当分析部6は、管理マネージャ200に設けられ、コンピュータ(管理マネージャ200)に実行されるコンピュータプログラムである。
As shown in FIG. 2, the operation management apparatus according to the embodiment of the present invention further includes a resource
資源情報収集部5は、ホスト計算機100上でゲスト計算機110に割り当てられた資源の数を表す情報を収集し、資源情報として出力する。資源割当分析部6は、自然数と調整倍率とを複数対応付ける調整データ(図5参照)を保持している。資源割当分析部6は、資源情報と性能情報とを受け取る。このとき、資源割当分析部6は、調整データを参照して、複数の調整倍率の中から、資源情報が表す数に対応する調整倍率(選択調整倍率とする)を選択し、性能情報が表す値を選択調整倍率に応じて調整し、上記の性能情報として性能異常分析部2に出力する。
The resource
性能異常分析部2は、第1機能に加えて、資源割当分析部6からの性能情報を受け取って、上述の異常判定を行う第2機能を更に有している。即ち、性能異常分析部2は、資源割当分析部6からの性能情報を受け取ったとき、性能情報が表す値と閾値とを比較する。このとき、性能情報が表す値が閾値超過である場合、ゲスト計算機110に異常があると判定し、その旨を表す異常メッセージを出力する(異常判定)。
In addition to the first function, the performance
性能情報収集部1、性能異常分析部2、障害分析部3、管理者対話部4、資源情報収集部5、資源割当分析部6は、コンピュータ(運用管理装置)に実行されるコンピュータプログラムであってもよい。
The performance
[動作]
図2〜図6を参照して、ホスト計算機100上の資源割り当ての変更で、ゲスト計算機110上の負荷が変動する場合の動作について説明する。
[Operation]
With reference to FIG. 2 to FIG. 6, an operation when the load on the
図3は、本発明の実施形態による運用管理装置の動作を示すフローチャートである。図4は、資源割当分析部6の動作(調整後の性能情報の生成)を説明するための図である。図5は、上述の調整データを示し、自然数と調整倍率との関係を示している。図6は、図3の障害判定処理を示している。 FIG. 3 is a flowchart showing the operation of the operation management apparatus according to the embodiment of the present invention. FIG. 4 is a diagram for explaining the operation of the resource allocation analysis unit 6 (generation of adjusted performance information). FIG. 5 shows the adjustment data described above, and shows the relationship between the natural number and the adjustment magnification. FIG. 6 shows the failure determination process of FIG.
以下では、性能情報としてゲスト計算機110上のCPU(Central Processing Unit)負荷を用い、資源情報としてホスト計算機100上で実行されるゲスト計算機数{仮想計算機(VM;Virtual Machine)の数}を用いて説明するが、その例に限定されるものではない。
Hereinafter, CPU (Central Processing Unit) load on the
資源割当分析部6は、資源情報収集部5から資源情報として、ホスト計算機100上のVMの数(図4の下段)を受け取る(図3のステップ901)。ホスト計算機100上でVM数が増加すると、各ゲスト計算機110に割り当てられるCPU資源は減少する。例えば、VMの数が2の場合は、ホスト計算機100上での資源を2分の1ずつ割り当て、VMの数が3の場合は、3分の1ずつ割り当てる。例えば、図4では時刻t1から時刻t2の間、VMの数が2から3に増えているため、ゲスト計算機110では、同時刻の間は一定量の資源減少が発生することになる。
The resource
また、資源割当分析部6は、性能情報収集部1から性能情報として、ゲスト計算機110上のCPU負荷の値(図4の中段)を受け取る(ステップ902)。ゲスト計算機110では、時刻t1から時刻t2の間、トータルのCPU資源が減少しているため、他の時刻と同様な処理を行うための負荷の%値が増加している。
Further, the resource
資源割当分析部6は、このVM数によるトータル資源減少に従って、CPU負荷の値を時刻t1から時刻t2の間だけ一定割合減少させた調整後のCPU負荷(図4の上段)を生成する(ステップ903)。この場合、VM数に応じて調整される性能情報の倍率はホスト計算機100の能力によって異なる。図5に示される調整データは、このような調整倍率の一例であり、例えば、ホスト計算機100のCPUが複数ある場合、一定のVM数までは高い処理能力があるが、それ以上数が増えるに従って急激に低下することになる。ここでは、VM数が2の場合の調整倍率(この場合の選択調整倍率)とVM数が3の場合の調整倍率(この場合の選択調整倍率)の違いを考慮して、調整後のCPU負荷が生成される。
The resource
性能異常分析部2は、予め与えられた閾値に従って、CPU負荷が異常かどうかを判定する(ステップ904)。図6を参照すると、障害判定処理904は、例えば、設定された閾値によって異常を判定(ステップ951)し、閾値超過があった場合(ステップ952−YES)には、異常メッセージを生成する(ステップ953)。閾値超過がない場合(ステップ952−NO)には、ステップ953の処理をスキップする。障害分析部3は、例えばAPから直接出力される異常メッセージなど、性能値以外の異常メッセージとの組み合わせを分析して、システム全体の異常を判定する(ステップ954)。
The performance
障害分析部3は、システム全体に障害があると判定した場合(ステップ905−YES)、その旨を表す障害状態情報を生成し、管理者対話部4を介して管理者に通知する(ステップ906)。その後、ステップ901の処理に戻る。システム全体に障害がないと判定した場合(ステップ905−NO)、ステップ906の処理をスキップし、ステップ901の処理に戻る。
If the
図7は、本発明の実施形態による運用管理装置の性能異常分析部2の動作(閾値判定)を説明するための図である。
FIG. 7 is a diagram for explaining the operation (threshold determination) of the performance
図7に示されるように、例えば、上限となる閾値を設定し、それを超えた場合に過負荷と判定して異常メッセージを生成する。従来の運用管理装置では資源割当によって変動したCPU負荷(図7の下段)を用いて異常判定を行うため、CPU資源が減少した時刻t1から時刻t2の間で閾値越えが発生している。これに対して、本発明の実施形態による運用管理装置では、調整後のCPU負荷(図7の上段)は、割り当て資源量に応じてCPU負荷が調整されており、閾値越えが発生していない。 As shown in FIG. 7, for example, an upper threshold value is set, and when the threshold value is exceeded, an overload is determined and an abnormal message is generated. In the conventional operation management apparatus, since the abnormality determination is performed using the CPU load (lower part in FIG. 7) that has fluctuated due to the resource allocation, the threshold is exceeded between the time t1 and the time t2 when the CPU resource is reduced. On the other hand, in the operation management apparatus according to the embodiment of the present invention, the CPU load after adjustment (upper part of FIG. 7) is adjusted according to the allocated resource amount, and the threshold is not exceeded. .
このようなCPU資源の割り当て変更では、ゲスト計算機110上で実際に行われている処理にはなんら変化が無く、検出された値の尺度が変化したものである。また、この負荷の増加は、ホスト計算機100上での割り当て制御により正常に戻ることになるため、この期間の負荷増加を障害として管理者に提示する必要はないものである。
In such a CPU resource allocation change, the processing actually performed on the
従来の運用管理装置では、このような資源割り当ての変更が把握できないため、障害を誤検知することになる。本発明の実施形態による運用管理装置では、資源割り当ての変更が把握できるため、このような誤検知が抑制され、正確な障害判定を行うことができる。また、割り当ての変化によらず、一定の閾値で判定することができるため、閾値設定が容易になる。このことから、第1の問題点を解決できる。 Since the conventional operation management apparatus cannot grasp such a change in resource allocation, a fault is erroneously detected. In the operation management apparatus according to the embodiment of the present invention, since a change in resource allocation can be grasped, such erroneous detection can be suppressed and accurate failure determination can be performed. In addition, the threshold can be easily set because the determination can be made with a certain threshold regardless of the change in allocation. From this, the first problem can be solved.
また、本発明の実施形態による運用管理装置では、ゲスト計算機110上で検出された性能情報に基づいて調整された情報から異常判定を行うため、ゲスト計算機110上で検出可能な状態に従って他の要素の異常状態と適切に相関分析を行うことができる。このことから、第2の問題点を解決できる。
Further, in the operation management apparatus according to the embodiment of the present invention, since abnormality determination is performed from information adjusted based on the performance information detected on the
(第2実施形態)
第2実施形態では、第1実施形態と重複する説明を省略する。
(Second Embodiment)
In the second embodiment, descriptions overlapping with those in the first embodiment are omitted.
前述の第1及び第2の問題点に続く第3の問題点として、ホスト計算機上で資源割り当てを変更してもゲスト計算機上ではその変更が検知できない性能情報の場合、従来の運用管理装置では、ホスト計算機上の負荷増大等によって、ゲスト計算機に必要となる資源が割り当てられない状態になっても、ゲスト計算機上では性能異常ではないため、障害の検知漏れとなってしまうという問題がある。 As a third problem following the first and second problems described above, in the case of performance information that cannot be detected on the guest computer even if the resource allocation is changed on the host computer, Even if the resources required for the guest computer are not allocated due to an increase in the load on the host computer or the like, there is a problem that a failure is not detected because the performance is not abnormal on the guest computer.
上記の問題点と本実施形態とを併せて説明するために、図8、図9を参照して、ホスト計算機100上の資源割り当ての変更で、ゲスト計算機110上の負荷が影響を受けない場合の動作について説明する。
In order to explain the above problem and this embodiment together, referring to FIGS. 8 and 9, when the resource allocation on the
図8は、資源割当分析部6の動作(調整後の性能情報の生成)を説明するための図である。図9は、性能異常分析部2の動作(閾値判定)を説明するための図である。
FIG. 8 is a diagram for explaining the operation of the resource allocation analysis unit 6 (generation of adjusted performance information). FIG. 9 is a diagram for explaining the operation (threshold value determination) of the performance
図8、図9を用いて説明した動作と同様に、資源割当分析部6は、資源情報としてVM数(図8の下段)と、性能情報としてCPU負荷(図8の中段)を受け取り、調整後のCPU負荷(図8の上段)を生成する。この場合、時刻t3から時刻t4の間、VM数が2から4に増加しているが、ゲスト計算機110上のCPU負荷のピーク値には特に変化が見られない。これは、CPU資源の制御にCPUクロック数を用いる場合などであり、ゲスト計算機110上では、与えられたCPU資源のトータルは変化していないように見えるが、CPUが割り当てられる時間が減少していることになる。実際にゲスト計算機110上で行われる処理は、CPU時間が割り当てられていないため遅れているが、ゲスト計算機110上の性能情報収集部1では、そのことを検知することができない。
Similar to the operation described with reference to FIGS. 8 and 9, the resource
図9に示されるように、従来の運用管理装置の異常判定(図9の下段)では、負荷のピーク量に変化がみられないため、異常を検出することができない。本発明における調整後のCPU負荷による異常判定(図9の上段)では、時刻t3から時刻t4の間の処理量が低下していることが検知できる。例えば、ピーク負荷の下限閾値を設けることで、資源割り当て不足による処理不良といった障害を管理者に提示することができる。このことから、第3の問題点を解決できる。 As shown in FIG. 9, in the abnormality determination of the conventional operation management apparatus (lower part of FIG. 9), no change is observed in the peak amount of the load, so that the abnormality cannot be detected. In the abnormality determination by the CPU load after adjustment in the present invention (upper part of FIG. 9), it can be detected that the processing amount from time t3 to time t4 is reduced. For example, by providing a lower limit threshold value for peak load, a failure such as processing failure due to insufficient resource allocation can be presented to the administrator. From this, the third problem can be solved.
即ち、第1実施形態において、性能異常分析部2(第1、2機能)は、性能情報が表す値が、閾値(上限閾値)を超えている場合、ゲスト計算機110上の負荷に異常があると判定し、その旨を表す異常メッセージを出力する第1、2機能を有している。これに対して、第2実施形態において、性能異常分析部2は、性能情報が表す値が、上限閾値よりも低い下限閾値に満たない場合、ゲスト計算機110上の負荷に異常があると判定し、その旨を表す異常メッセージを出力する第3機能を更に有している。これにより、第3の問題点を解決できる。
That is, in the first embodiment, the performance abnormality analysis unit 2 (first and second functions) has an abnormality in the load on the
また、ホスト計算機100上のVM数の代わりに、各ゲストOSに割り当てられたCPUリソースの割合を元に、ゲストOSのCPU負荷を補正することも出来る。この場合、通常は動的に変化することが無いため、監視対象としていない実CPUクロックを監視することで、実現が可能である。
Further, the CPU load of the guest OS can be corrected based on the ratio of the CPU resources allocated to each guest OS instead of the number of VMs on the
また、CPU負荷以外にも、ゲスト計算機110上のあらゆるリソースに対する性能情報監視に対してしても本発明を適用することが可能である。
In addition to the CPU load, the present invention can also be applied to performance information monitoring for all resources on the
以上、本発明の第1、第2実施形態による運用管理装置について、ソフトウェア的にゲスト計算機110が生成されている場合に従って説明したが、他の実施形態として、図10に示されるように、ハードウェア的に機能部品を組み替えられるIO仮想化計算機400であっても良い。IO仮想化計算機400は、上述のホスト計算機100に対応する。このIO仮想化計算機400(ホスト計算機)は、上述のゲスト計算機110に対応する処理部310と、メモリ320と、HDD330と、処理部310、メモリ320及びHDD330に接続されたIO割当制御部300と、を備えている。この場合、ホスト計算機には容易に資源情報収集部5を組み込むことができないため、監視マネージャ200上でIO割当制御部300を介して処理部310、メモリ320、HDD330を遠隔から監視する資源情報収集部5を有することで、本発明が実現できる。
The operation management apparatus according to the first and second embodiments of the present invention has been described according to the case where the
1 性能情報収集部、
2 性能異常分析部、
3 障害分析部、
4 管理者対話部、
5 資源情報収集部、
6 資源割当分析部、
100 ホスト計算機、
110 ゲスト計算機、
200 監視マネージャ、
1 Performance information collection unit,
2 Performance abnormality analysis part,
3 Failure analysis department,
4 Administrator Dialogue Department,
5 Resource Information Collection Department,
6 Resource Allocation Analysis Department,
100 host computer,
110 guest computers,
200 monitoring manager,
Claims (14)
前記性能情報を受け取って、前記性能情報が表す値と閾値とを比較し、比較の結果に基づいて、前記ゲスト計算機上の負荷に異常があるか否かを分析し、前記ゲスト計算機上の負荷に異常があると判定した場合、その旨を表す異常メッセージを出力する性能異常分析部と、
前記ホスト計算機上で前記ゲスト計算機に割り当てられた資源の数を表す情報を収集し、資源情報として出力する資源情報収集部と、
前記資源情報と前記性能情報とを受け取り、自然数と調整倍率とを複数対応付ける調整データを参照して、前記複数の調整倍率の中から、前記資源情報が表す数に対応する選択調整倍率を選択し、前記性能情報が表す値を前記選択調整倍率に応じて調整し、前記性能情報として前記性能異常分析部に出力する資源割当分析部と、
を具備する運用管理装置。 A performance information collection unit that collects information representing the load performance of the guest computer virtually realized on the host computer, and outputs it as performance information;
The performance information is received, the value represented by the performance information is compared with a threshold value, and based on the comparison result, it is analyzed whether there is an abnormality in the load on the guest computer, and the load on the guest computer If it is determined that there is an abnormality in the performance abnormality analysis unit that outputs an abnormality message to that effect,
A resource information collection unit that collects information indicating the number of resources allocated to the guest computer on the host computer and outputs the information as resource information;
Receiving the resource information and the performance information, referring to adjustment data associating a plurality of natural numbers and adjustment factors, a selection adjustment factor corresponding to the number represented by the resource information is selected from the plurality of adjustment factors. A resource allocation analysis unit that adjusts the value represented by the performance information according to the selection adjustment magnification and outputs the performance information to the performance abnormality analysis unit;
An operation management apparatus comprising:
前記性能情報が表す値が、前記閾値を超えている場合、前記ゲスト計算機上の負荷に異常があると判定し、その旨を表す前記異常メッセージを出力する、
請求項1に記載の運用管理装置。 The performance abnormality analysis unit is
When the value represented by the performance information exceeds the threshold, it is determined that there is an abnormality in the load on the guest computer, and the abnormality message indicating that is output.
The operation management apparatus according to claim 1.
前記性能情報が表す値が、前記閾値である上限閾値よりも低い下限閾値に満たない場合、前記ゲスト計算機上の負荷に異常があると判定し、その旨を表す前記異常メッセージを出力する、
請求項2に記載の運用管理装置。 The performance abnormality analysis unit is
When the value represented by the performance information is less than the lower threshold lower than the upper threshold that is the threshold, it is determined that there is an abnormality in the load on the guest computer, and the abnormality message indicating that is output.
The operation management apparatus according to claim 2.
前記障害状態情報を管理者に提示する管理者対話部と、
を更に具備する請求項1〜3のいずれかに記載の運用管理装置。 Analyzing whether or not there is a failure in the entire system according to the occurrence order or combination of the abnormal messages, and when determining that there is a failure in the entire system, a failure analysis unit that generates failure state information indicating that,
An administrator dialogue unit for presenting the failure state information to an administrator;
The operation management apparatus according to claim 1, further comprising:
請求項1〜4のいずれかに記載の運用管理装置。 The guest computer is generated by software,
The operation management apparatus according to claim 1.
請求項1〜4のいずれかに記載の運用管理装置。 The guest computer is configured in hardware.
The operation management apparatus according to claim 1.
前記性能情報を受け取って、前記性能情報が表す値と閾値とを比較し、比較の結果に基づいて、前記ゲスト計算機上の負荷に異常があるか否かを分析し、前記ゲスト計算機上の負荷に異常があると判定した場合、その旨を表す異常メッセージを出力するステップと、
前記ホスト計算機上で前記ゲスト計算機に割り当てられた資源の数を表す情報を収集し、資源情報として出力するステップと、
前記資源情報と前記性能情報とを受け取り、自然数と調整倍率とを複数対応付ける調整データを参照して、前記複数の調整倍率の中から、前記資源情報が表す数に対応する選択調整倍率を選択し、前記性能情報が表す値を前記選択調整倍率に応じて調整し、前記性能情報として出力するステップと、
を具備する運用管理方法。 Collecting information representing the load performance of the guest computer virtually realized on the host computer as a value and outputting it as performance information;
The performance information is received, the value represented by the performance information is compared with a threshold value, and based on the comparison result, it is analyzed whether there is an abnormality in the load on the guest computer, and the load on the guest computer If it is determined that there is an abnormality, a step of outputting an abnormality message to that effect;
Collecting information representing the number of resources allocated to the guest computer on the host computer and outputting as resource information;
Receiving the resource information and the performance information, referring to adjustment data associating a plurality of natural numbers and adjustment factors, a selection adjustment factor corresponding to the number represented by the resource information is selected from the plurality of adjustment factors. Adjusting the value represented by the performance information according to the selection adjustment magnification, and outputting as the performance information;
An operation management method comprising:
前記性能情報が表す値が、前記閾値を超えている場合、前記ゲスト計算機上の負荷に異常があると判定し、その旨を表す前記異常メッセージを出力するステップ、
を含む請求項7に記載の運用管理方法。 The step of outputting the abnormal message includes:
When the value represented by the performance information exceeds the threshold, determining that there is an abnormality in the load on the guest computer, and outputting the abnormality message indicating that,
The operation management method according to claim 7 including:
前記性能情報が表す値が、前記閾値である上限閾値よりも低い下限閾値に満たない場合、前記ゲスト計算機上の負荷に異常があると判定し、その旨を表す前記異常メッセージを出力するステップ、
を更に含む請求項8に記載の運用管理方法。 The step of outputting the abnormal message includes:
When the value represented by the performance information is less than a lower threshold that is lower than the upper threshold that is the threshold, determining that there is an abnormality in the load on the guest computer, and outputting the abnormality message indicating that,
The operation management method according to claim 8, further comprising:
前記障害状態情報を管理者に提示するステップと、
を更に具備する請求項7〜9のいずれかに記載の運用管理方法。 Analyzing whether or not there is a failure in the entire system according to the occurrence order and combination of the abnormal messages, and when determining that there is a failure in the entire system, generating failure state information indicating that,
Presenting the fault state information to an administrator;
The operation management method according to claim 7, further comprising:
前記ホスト計算機上で前記ゲスト計算機に割り当てられた資源の数を表す資源情報と、前記性能情報とを受け取り、自然数と調整倍率とを複数対応付ける調整データを参照して、前記複数の調整倍率の中から、前記資源情報が表す数に対応する選択調整倍率を選択し、前記性能情報が表す値を前記選択調整倍率に応じて調整し、前記性能情報として出力するステップと、
の各ステップをコンピュータに実行させるコンピュータプログラム。 The performance information representing the load performance of the guest computer virtually realized on the host computer is received, and the value represented by the performance information is compared with a threshold value. Based on the comparison result, the performance information on the guest computer is compared. Analyzing whether there is an abnormality in the load, and when determining that there is an abnormality in the load on the guest computer, outputting an abnormality message indicating that;
The resource information representing the number of resources allocated to the guest computer on the host computer and the performance information are received, and the adjustment data that associates a plurality of natural numbers with the adjustment factors is referred to. And selecting a selection adjustment magnification corresponding to the number represented by the resource information, adjusting a value represented by the performance information according to the selection adjustment magnification, and outputting as the performance information;
A computer program that causes a computer to execute each step of.
前記性能情報が表す値が、前記閾値を超えている場合、前記ゲスト計算機上の負荷に異常があると判定し、その旨を表す前記異常メッセージを出力するステップ、
を含む請求項11に記載のコンピュータプログラム。 The step of outputting the abnormal message includes:
When the value represented by the performance information exceeds the threshold, determining that there is an abnormality in the load on the guest computer, and outputting the abnormality message indicating that,
The computer program according to claim 11, comprising:
前記性能情報が表す値が、前記閾値である上限閾値よりも低い下限閾値に満たない場合、前記ゲスト計算機上の負荷に異常があると判定し、その旨を表す前記異常メッセージを出力するステップ、
を更に含む請求項12に記載のコンピュータプログラム。 The step of outputting the abnormal message includes:
When the value represented by the performance information is less than a lower threshold that is lower than the upper threshold that is the threshold, determining that there is an abnormality in the load on the guest computer, and outputting the abnormality message indicating that,
The computer program according to claim 12, further comprising:
前記障害状態情報を管理者に提示するステップと、
の各ステップを更に前記コンピュータに実行させる請求項11〜13のいずれかに記載のコンピュータプログラム。 Analyzing whether or not there is a failure in the entire system according to the occurrence order and combination of the abnormal messages, and when determining that there is a failure in the entire system, generating failure state information indicating that,
Presenting the fault state information to an administrator;
The computer program according to claim 11, further causing the computer to execute each of the steps.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008043858A JP4761229B2 (en) | 2008-02-26 | 2008-02-26 | Operation management apparatus, operation management method and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008043858A JP4761229B2 (en) | 2008-02-26 | 2008-02-26 | Operation management apparatus, operation management method and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2009205208A true JP2009205208A (en) | 2009-09-10 |
JP4761229B2 JP4761229B2 (en) | 2011-08-31 |
Family
ID=41147439
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008043858A Active JP4761229B2 (en) | 2008-02-26 | 2008-02-26 | Operation management apparatus, operation management method and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4761229B2 (en) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011070522A (en) * | 2009-09-28 | 2011-04-07 | Nec Corp | Virtual computer management system, virtual computer management method and program |
JP2011198262A (en) * | 2010-03-23 | 2011-10-06 | Hitachi Ltd | System control method in computer system, and control system |
WO2013069138A1 (en) * | 2011-11-10 | 2013-05-16 | 株式会社日立製作所 | Operation information prediction computer, operation information prediction method and program |
JP2015114770A (en) * | 2013-12-10 | 2015-06-22 | 三菱電機ビルテクノサービス株式会社 | Equipment state determination device and program |
CN115150460A (en) * | 2022-06-30 | 2022-10-04 | 济南浪潮数据技术有限公司 | Node secure registration method, device, equipment and readable storage medium |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003263342A (en) * | 2002-03-07 | 2003-09-19 | Telecommunication Advancement Organization Of Japan | Monitoring device and monitoring method and program for information processor |
JP2006301852A (en) * | 2005-04-19 | 2006-11-02 | Nec Corp | Computing resource operation management device and system |
WO2007148371A1 (en) * | 2006-06-19 | 2007-12-27 | Nec Corporation | Performance management system and performance management method for virtual machine |
JP2008293117A (en) * | 2007-05-22 | 2008-12-04 | Hitachi Ltd | Method for monitoring performance of virtual computer, and device using the method |
-
2008
- 2008-02-26 JP JP2008043858A patent/JP4761229B2/en active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003263342A (en) * | 2002-03-07 | 2003-09-19 | Telecommunication Advancement Organization Of Japan | Monitoring device and monitoring method and program for information processor |
JP2006301852A (en) * | 2005-04-19 | 2006-11-02 | Nec Corp | Computing resource operation management device and system |
WO2007148371A1 (en) * | 2006-06-19 | 2007-12-27 | Nec Corporation | Performance management system and performance management method for virtual machine |
JP2008293117A (en) * | 2007-05-22 | 2008-12-04 | Hitachi Ltd | Method for monitoring performance of virtual computer, and device using the method |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011070522A (en) * | 2009-09-28 | 2011-04-07 | Nec Corp | Virtual computer management system, virtual computer management method and program |
JP2011198262A (en) * | 2010-03-23 | 2011-10-06 | Hitachi Ltd | System control method in computer system, and control system |
WO2013069138A1 (en) * | 2011-11-10 | 2013-05-16 | 株式会社日立製作所 | Operation information prediction computer, operation information prediction method and program |
JP2015114770A (en) * | 2013-12-10 | 2015-06-22 | 三菱電機ビルテクノサービス株式会社 | Equipment state determination device and program |
CN115150460A (en) * | 2022-06-30 | 2022-10-04 | 济南浪潮数据技术有限公司 | Node secure registration method, device, equipment and readable storage medium |
Also Published As
Publication number | Publication date |
---|---|
JP4761229B2 (en) | 2011-08-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5851503B2 (en) | Providing high availability for applications in highly available virtual machine environments | |
US9335998B2 (en) | Multi-core processor system, monitoring control method, and computer product | |
US7865782B2 (en) | I/O device fault processing method for use in virtual computer system | |
KR101438990B1 (en) | System testing method | |
US20100043004A1 (en) | Method and system for computer system diagnostic scheduling using service level objectives | |
US9519869B2 (en) | Predictive computer system resource monitoring | |
EP3591485B1 (en) | Method and device for monitoring for equipment failure | |
JP4761229B2 (en) | Operation management apparatus, operation management method and program | |
US10379931B2 (en) | Computer system | |
JP2010079811A (en) | Computer system, method of detecting predictor of failure of computer system, and program | |
JP2008234520A (en) | Software behavior monitoring device, software behavior monitoring system and its program | |
JP2011108201A (en) | Information processing apparatus, method and program of diagnosis | |
JP2010086364A (en) | Information processing device, operation state monitoring device and method | |
US8332069B2 (en) | Fault tolerance method and apparatus for robot software component | |
JP2010134557A (en) | Virtual machine operation management system, operation management method therefor and program | |
JP4992740B2 (en) | Multiprocessor system, failure detection method, and failure detection program | |
US20050033952A1 (en) | Dynamic scheduling of diagnostic tests to be performed during a system boot process | |
JP5014179B2 (en) | OS priority changing device and OS priority changing program | |
JP2011243012A (en) | Memory dump acquisition method for virtual computer system | |
TWI469573B (en) | Method for processing system failure and server system using the same | |
Volk et al. | Towards intelligent management of very large computing systems | |
JP2009032052A (en) | Information processor, information processing method and program | |
JP6555131B2 (en) | Parallel processing device, job monitoring method, and job monitoring program | |
Sun et al. | Towards a fault-aware computing environment | |
JP7552280B2 (en) | Information processing device, arrangement method, and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20100820 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100825 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20101022 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20101111 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110105 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20110125 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110419 |
|
A911 | Transfer of reconsideration by examiner before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20110422 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110513 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110526 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140617 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4761229 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |