JP2013073389A - Fault analysis device, fault analysis method and program - Google Patents
Fault analysis device, fault analysis method and program Download PDFInfo
- Publication number
- JP2013073389A JP2013073389A JP2011211411A JP2011211411A JP2013073389A JP 2013073389 A JP2013073389 A JP 2013073389A JP 2011211411 A JP2011211411 A JP 2011211411A JP 2011211411 A JP2011211411 A JP 2011211411A JP 2013073389 A JP2013073389 A JP 2013073389A
- Authority
- JP
- Japan
- Prior art keywords
- error
- host
- unit
- logical
- occurred
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Debugging And Monitoring (AREA)
Abstract
Description
本発明は、仮想化技術により大量の仮想サーバを一元管理するデータセンタなどの運用管理に用いられる、障害分析装置、障害分析方法、およびプログラムに関する。 The present invention relates to a failure analysis apparatus, a failure analysis method, and a program used for operation management of a data center or the like that centrally manages a large number of virtual servers using virtualization technology.
近年、仮想化技術を利用したコンピュータシステムが運用されている。このようなシステムでは、たとえば、1台のサーバコンピュータ上で複数の仮想マシンを稼働させる(たとえば、特許文献1参照)。特許文献1に記載の仮想コンピュータシステムは、複数の物理デバイス上で論理デバイスを用いて仮想デバイスを設定し、当該仮想デバイスにより仮想マシンを動作させる。
In recent years, computer systems using virtualization technology have been operated. In such a system, for example, a plurality of virtual machines are operated on one server computer (see, for example, Patent Document 1). The virtual computer system described in
また、当該仮想コンピュータシステムは、仮想化環境運用支援システムを有している。仮想化環境運用支援システムは、障害が発生した物理デバイスと該物理デバイスが影響を及ぼす論理デバイスを特定した第1関連情報と、障害が発生した論理デバイスと当該論理デバイスが影響を及ぼす仮想デバイスを特定した第2関連情報と、障害が発生した仮想デバイスと当該仮想デバイスが影響を及ぼす仮想マシンを特定した第3関連情報と、を格納する、影響範囲特定テーブル部を備えている。 The virtual computer system has a virtual environment operation support system. The virtualization environment operation support system includes first related information that identifies a physical device in which a failure has occurred and a logical device that the physical device affects, a logical device in which a failure has occurred, and a virtual device that has an influence on the logical device. An influence range specifying table unit is provided that stores the specified second related information, and the third related information specifying the virtual device in which the failure has occurred and the virtual machine affected by the virtual device.
また、前記仮想化環境運用支援システムは、制御部を備えている。制御部は、仮想コンピュータシステムから障害が発生した物理デバイス、論理デバイス又は仮想デバイスを特定する障害発生部位情報を受信し、当該障害発生部位情報を基に前記影響範囲特定テーブル部を参照して前記障害が及ぼす仮想マシンを特定する。また、制御部は、障害発生部位情報が仮想デバイスのとき、当該仮想デバイスが影響を及ぼす仮想マシンを、前記第3関連情報を参照して特定する。 The virtual environment operation support system includes a control unit. The control unit receives failure occurrence site information that identifies a physical device, logical device, or virtual device in which a failure has occurred from the virtual computer system, and refers to the influence range identification table unit based on the failure occurrence site information. Identify the virtual machine affected by the failure. In addition, when the failure occurrence site information is a virtual device, the control unit identifies a virtual machine that is affected by the virtual device with reference to the third related information.
ところで、VMWare(登録商標)に代表される仮想化技術を多用するサーバコンピュータ(クラウドシステム)の障害監視を行う場合、障害発生時に、本来、原因が一つであるにも拘らず、複数の障害が同時期に発生したように見えてしまう場合が多々ある。そのような場合、どの障害から対処したらよいかが判らず、障害原因および影響範囲の特定に時間がかかってしまう。また、仮想環境下では、頻繁に利用リソース変更があり、影響範囲の特定が困難である。 By the way, when performing failure monitoring of a server computer (cloud system) that makes heavy use of virtualization technology represented by VMWare (registered trademark), when a failure occurs, a plurality of failures may be detected despite originally having one cause. Often appear to have occurred at the same time. In such a case, it is not known from which trouble to deal with, and it takes time to identify the cause of the trouble and the affected range. Also, in a virtual environment, there are frequent changes in usage resources, and it is difficult to identify the affected range.
特許文献1に記載の構成では、仮想マシンに生じた障害の影響範囲を特定する処理を行う前提条件として、障害イベントから、原因となるデバイスを特定できるようにしておく必要がある。すなわち、予め、障害イベントと、原因となるデバイスとの関係とを登録してあることが必要である。よって、事前に登録されていない障害の原因分析を行うことができない。
In the configuration described in
本発明の目的の一例は、エラー内容と、エラー原因との関係を予め特定できていなくても、障害原因を分析することができ得る、障害分析装置、障害分析方法、およびプログラムを提供することにある。 An example of an object of the present invention is to provide a failure analysis apparatus, a failure analysis method, and a program capable of analyzing a failure cause even if the relationship between the error content and the error cause cannot be specified in advance. It is in.
上記目的を達成するため、本発明の一側面における、障害分析装置は、仮想ホストを含む複数のホストのそれぞれが利用する物理デバイスおよび論理デバイスを特定する情報を入手する入手部と、
複数の前記ホストのうちエラーが発生したエラー発生ホストのホスト名と、前記入手部で入手した前記情報とから、前記エラー発生ホストが利用している前記物理デバイスおよび前記論理デバイスを特定し、かつ、特定された前記物理デバイスおよび前記論理デバイスを共用する他の前記ホストでエラーが発生しているか否かを判定するエラー有無判定部と、
を備えていることを特徴とする。
In order to achieve the above object, in one aspect of the present invention, a failure analysis apparatus includes an acquisition unit that acquires information for specifying a physical device and a logical device used by each of a plurality of hosts including a virtual host;
Identifying the physical device and the logical device used by the error-occurring host from the host name of the error-occurring host among the plurality of hosts and the information obtained by the obtaining unit; and An error presence / absence determining unit that determines whether an error has occurred in another host that shares the identified physical device and the logical device;
It is characterized by having.
また、上記目的を達成するため、本発明の一側面における、障害分析方法は、
(a)仮想ホストを含む複数のホストのそれぞれが利用する物理デバイスおよび論理デバイスを特定する情報を入手するステップと、
(b)複数の前記ホストのうちエラーが発生したエラー発生ホストのホスト名と、前記入手部で入手した前記情報とから、前記エラー発生ホストが利用している前記物理デバイスおよび前記論理デバイスを特定するステップと、
(c)特定された前記物理デバイスおよび前記論理デバイスを共用する他の前記ホストでエラーが発生しているか否かを判定するステップと、
を含むことを特徴とする。
In order to achieve the above object, a failure analysis method according to one aspect of the present invention includes:
(A) obtaining information for specifying a physical device and a logical device used by each of a plurality of hosts including a virtual host;
(B) Identifying the physical device and the logical device used by the error-occurring host from the host name of the error-occurring host among the plurality of hosts and the information obtained by the obtaining unit And steps to
(C) determining whether an error has occurred in another host that shares the identified physical device and logical device;
It is characterized by including.
更に、上記目的を達成するため、本発明の一側面におけるプログラムは、仮想ホストを含む複数のホストで発生する障害をコンピュータによって分析するためのプログラムであって、前記コンピュータに、
(a)前記仮想ホストを含む複数の前記ホストのそれぞれが利用する物理デバイスおよび論理デバイスを特定する情報を入手するステップと、
(b)複数の前記ホストのうちエラーが発生したエラー発生ホストのホスト名と、前記入手部で入手した前記情報とから、前記エラー発生ホストが利用している前記物理デバイスおよび前記論理デバイスを特定するステップと、
(c)特定された前記物理デバイスおよび前記論理デバイスを共用する他の前記ホストでエラーが発生しているか否かを判定するステップと、
を実行させることを特徴とする。
Furthermore, in order to achieve the above object, a program according to one aspect of the present invention is a program for analyzing failures occurring in a plurality of hosts including a virtual host by a computer,
(A) obtaining information for identifying a physical device and a logical device used by each of the plurality of hosts including the virtual host;
(B) Identifying the physical device and the logical device used by the error-occurring host from the host name of the error-occurring host among the plurality of hosts and the information obtained by the obtaining unit And steps to
(C) determining whether an error has occurred in another host that shares the identified physical device and logical device;
Is executed.
以上のように、本発明によれば、エラー内容と、エラー原因との関係を予め特定できていなくても、障害原因を分析することができ得る。 As described above, according to the present invention, it is possible to analyze the cause of a failure even if the relationship between the error content and the cause of the error cannot be specified in advance.
以下、本発明の実施の形態における、障害分析装置について、図面を参照しながら説明する。 Hereinafter, a failure analysis apparatus according to an embodiment of the present invention will be described with reference to the drawings.
[装置構成]
図1は本発明の実施の形態に係る障害分析装置100を含む、障害分析システム1の概略構成を示すブロック図である。本実施の形態では、障害分析システム1は、障害分析装置100と、監視対象サーバ200と、オペレータが操作する監視端末300と、を備えている。
[Device configuration]
FIG. 1 is a block diagram showing a schematic configuration of a
障害分析装置100は、後述するように、たとえば、サーバコンピュータによって構築することができる。監視対象サーバ200は、たとえば、サーバコンピュータによって構築することができる。監視対象サーバ200は、ハードディスクなどの物理デバイスと、論理デバイスと、をそれぞれ複数有している。また、監視対象サーバ200は、これら物理デバイスおよび論理デバイスを利用する、複数のホストを有している。当該複数のホストは、物理OS(Operating System)、ハイパバイザ、および仮想OSを含む。
The
監視端末300には、コンピュータが含まれる。障害分析装置100と、監視対象サーバ200とは、ネットワーク400を介して接続されている。また、障害分析装置100と、監視端末300とは、ネットワーク400を介して接続されている。
The
障害分析装置100は、入手部131と、エラー有無判定部153と、を含んでいる。入手部131は、監視対象サーバ200の各ホストのそれぞれが利用する物理デバイスの情報および論理デバイスを特定する情報(デバイス情報)を、監視対象サーバ200から入手する。
The
エラー有無判定部153は、監視対象サーバ200の複数のホストのうち、エラーが発生したエラー発生ホストのホスト名と、入手部131で入手したデバイス情報とから、エラー発生ホストが利用している物理デバイスおよび論理デバイスを特定する。エラー有無判定部153は、さらに、特定された物理デバイスおよび論理デバイスを共用する他のホストで、エラーが発生しているか否かを判定する。
The error presence / absence determination unit 153 uses the host name of the error-occurring host in which an error has occurred among the plurality of hosts of the
以上説明したように、本実施の形態では、エラー内容と、エラー原因との関係を予め障害分析装置100で特定できていなくても、障害原因を分析することが可能である。より具体的には、エラー発生ホストと、物理デバイスおよび論理デバイスの少なくとも一方を共用する他のホストにもエラーが生じている場合には、当該共用するデバイスがエラー原因であると分析することができる。一方、エラー発生ホストにはエラーが発生しているにも拘らず、上記他のホストにはエラーが生じていない場合には、エラー発生ホスト自身がエラー原因であると分析することができる。その結果、オペレータは、エラー発生原因を正確に知ることができ、エラー解消作業に迅速にとりかかることができる。
As described above, in the present embodiment, it is possible to analyze the cause of the failure even if the relationship between the error content and the cause of the error cannot be specified in advance by the
以上が、障害分析装置100の概略説明である。次に、障害原因箇所絞込みシステム1の、より具体的な構成を、図1に加え、図2〜図6を用いて説明する。
The above is a schematic description of the
図1に示すように、本実施の形態では、監視対象サーバ200は、構成情報取得部201と、イベント蓄積部210とを含んでいる。構成情報取得部201は、監視対象サーバ200を構成するハードウェアの構成情報、およびソフトウェアの構成情報を、常時監視しており、これらの構成情報を、構成変更情報を含め取得する。なお、一般的に物理OS(Operating System)およびハイパバイザは、自身が利用している物理デバイス情報、および論理デバイス情報を管理している。構成情報の具体的な取得方法の一例としては、監視対象サーバ200側で提供しているAPI(Application Program Interface)を利用すること、または、エージェントプログラムを稼動させて、構成情報を取得すること、を挙げることができる。本実施の形態では、構成情報取得部201が取得した構成情報は、データ分析部132およびテーブル更新部133を介して、構成情報蓄積部140に格納される。また、本実施の形態では、監視対象サーバ200のイベント蓄積部210は、監視対象サーバ200で発生したイベント情報を格納する。
As shown in FIG. 1, in the present embodiment, the
本実施の形態では、監視端末300は、オペレータによって操作される。監視端末300は、メッセージ検索部301と、要求部310と、表示制御部313と、表示部314と、を含んでいる。
In the present embodiment, monitoring
本実施の形態では、メッセージ検索部301は、オペレータの操作に応じて、後述するメッセージ蓄積部110に蓄積されているメッセージから、たとえば、1つのメッセージを検索する。
In the present embodiment, the message search unit 301 searches, for example, one message from the messages stored in the
本実施の形態では、要求部310は、原因絞込み要求部311と、メッセージ一覧要求部312と、を含んでいる。本実施の形態では、原因絞込み要求部311は、メッセージ検索部301によって検索されたメッセージを見たオペレータによって操作される。原因絞込み要求部311は、エラーメッセージが生じた原因を絞り込む指令を、障害分析装置100へ与える。また、本実施の形態では、メッセージ一覧要求部312は、原因絞込み要求部311の操作に対して障害分析装置100から返された原因絞込みの結果を見たオペレータによって、操作される。メッセージ一覧要求部312は、エラーメッセージを検索した結果の一覧を作成する要求を、障害分析装置100へ与える。
In the present embodiment,
本実施の形態では、表示制御部313は、与えられたデータに基づく画像を、液晶ディスプレイ等の表示部314の表示画面に表示させる。 In the present embodiment, the display control unit 313 displays an image based on given data on the display screen of the display unit 314 such as a liquid crystal display.
本実施の形態では、障害分析装置100は、メッセージ監視部101と、メッセージ蓄積部110と、デバイス情報整理部120と、処理部130と、結果出力部111と、を含んでいる。
In the present embodiment, the
本実施の形態では、メッセージ監視部101は、監視対象サーバ200のイベント蓄積部201に格納されるイベントを監視し、当該イベントをメッセージとして取得し、取得したメッセージを、メッセージ蓄積部110に格納する。
In the present embodiment, the
本実施の形態では、デバイス情報整理部120は、入手部131と、データ分析部132と、テーブル更新部133と、構成情報蓄積部140と、を含んでいる。
In the present embodiment, the device
本実施の形態では、構成情報監視部131は、監視対象サーバ200を構成するハードウェア情報、およびソフトウェア情報などの構成情報を、構成情報取得部201から取得する。
In the present embodiment, the configuration information monitoring unit 131 acquires configuration information such as hardware information and software information configuring the
本実施の形態では、構成情報監視部131で得られた情報は、データ分析部132で情報毎にまとめられ、分析および分類される。当該分析されたデータは、テーブル更新部133によって、構成情報蓄積部140に登録される。
In the present embodiment, the information obtained by the configuration information monitoring unit 131 is collected for each information by the data analysis unit 132 and analyzed and classified. The analyzed data is registered in the configuration
図2は、構成情報蓄積部140に含まれる、本実施形態における動作に必要なデータテーブル141〜145を示す図である。図2に示すように、本実施の形態では、構成情報蓄積部140は、物理デバイスおよび論理デバイスとホストとの関係などを示すテーブルを格納している。より具体的には、構成情報蓄積部140は、ホスト管理テーブル141と、物理ディスク管理テーブル142と、論理ディスク管理テーブル143と、NIC(Network Interface Card )管理テーブル144と、リソース割り当てテーブル145と、を格納している。
FIG. 2 is a diagram illustrating data tables 141 to 145 included in the configuration
図3は、ホスト管理テーブル141を示す図である。図3に示すように、本実施の形態では、ホスト管理テーブル141は、全ホスト名を管理するテ−ブル1411と、ハイパバイザであるホスト名を管理するテーブル1412と、ハイパバイザ上に構成された仮想ホスト名を管理するテーブル1413と、を含んでいる。これらのテーブル1411、1412、1413の情報は、互いに関係付けられている。 FIG. 3 is a diagram showing the host management table 141. As shown in FIG. 3, in this embodiment, the host management table 141 includes a table 1411 for managing all host names, a table 1412 for managing host names that are hypervisors, and a virtual configured on the hypervisor. And a table 1413 for managing host names. Information in these tables 1411, 1412, and 1413 is related to each other.
本実施の形態では、テーブル1411は、ホストIDと、当該ホストIDに対応するホスト名とを格納している。テーブル1411は、たとえば、ホストID1のホスト名をVM1として格納し、ホストD2のホスト名をGuest2として格納している。さらに、テーブル1411は、ホストID3,4,5,6,…のホスト名を、それぞれ、Guest2,VM2,Guest3,host1,…として格納している。また、テーブル1412は、ハイパバイザIDと、当該ハイパバイザIDに対応するホスト名とを格納している。テーブル1412は、たとえば、ハイパバイザID1のホスト名をVM1として格納している。また、テーブル1413は、仮想ホストIDと、当該ホストIDに対応するホスト名とを格納している。テーブル1413は、たとえば、仮想ホストID1のホスト名をGuest1として格納し、仮想ホストID2のホスト名をGuest2として格納している。
In this embodiment, the table 1411 stores a host ID and a host name corresponding to the host ID. The table 1411 stores, for example, the host name of the
図4は、物理ディスク管理テーブル142、論理ディスク管理テーブル143、およびNIC管理テーブル144を示す図である。図4に示すように、ディスク管理テーブル142は、全監視対象の物理ディスクを管理するテーブル1421と、物理ディスク毎に利用ホストを管理するテーブル1422と、を含んでおり、ホスト名から、利用している物理ディスクを特定する。 FIG. 4 is a diagram showing the physical disk management table 142, the logical disk management table 143, and the NIC management table 144. As shown in FIG. 4, the disk management table 142 includes a table 1421 for managing all the physical disks to be monitored and a table 1422 for managing the use host for each physical disk. Identify the physical disk
本実施の形態では、テーブル1421は、物理ディスクIDと、当該物理ディスクIDに対応するディスク名とを格納している。テーブル1421は、たとえば、物理ディスクID1のディスク名をDiskAとして格納し、物理ディスクID2のディスク名をDiskBとして格納し、物理ディスクID3のディスク名をDiskCとして格納している。また、本実施の形態では、テーブル1422は、物理DiskAを利用するホストIDと、当該ホストIDに対応するホスト名とを格納している。テーブル1422は、たとえば、物理DiskAにおけるホストID1のホスト名をVM1として格納し、物理DiskAにおけるホストID4のホスト名をVM2として格納している。なお、図4では、物理ディスクAに対応するホストIDおよびホスト名を図示しているが、テーブル1422は、物理ディスクB、C、…、の各物理ディスクに対応するホストIDおよびホスト名も格納している。
In this embodiment, the table 1421 stores a physical disk ID and a disk name corresponding to the physical disk ID. The table 1421 stores, for example, the disk name of the physical disk ID1 as DiskA, the disk name of the physical disk ID2 as DiskB, and the disk name of the physical disk ID3 as DiskC. In this embodiment, the table 1422 stores a host ID that uses the physical Disk A and a host name corresponding to the host ID. For example, the table 1422 stores the host name of the
本実施の形態では、論理ディスク管理テーブル143は、物理ディスク管理テーブル1421の各物理ディスクと対応する論理ディスク名を格納したテーブル1431を含んでいる。このテーブル1431には、論理ディスクを利用しているホスト名を格納したテーブル1432が紐づいている。これにより、ホスト名から、利用している論理ディスクを特定することが可能となっている。なお、本実施の形態では、テーブル1431は、論理ディスクIDと、当該論理ディスクIDに対応する論理ディスク名とを格納している。テーブル1431は、たとえば、論理ディスクID1の論理ディスク名を論理Aとして格納し、論理ディスクID2の論理ディスク名を論理Bとして格納し、論理ディスクID3の論理ディスク名を論理Cとして格納している。なお、図4では、物理ディスクAに対応する論理ディスクについて、テーブル1431で図示しているが、テーブル1431は、物理ディスクB、C、…、の各物理ディスクに対応する論理ディスクの情報も格納している。
In this embodiment, the logical disk management table 143 includes a table 1431 that stores logical disk names corresponding to the physical disks in the physical disk management table 1421. This table 1431 is linked to a table 1432 that stores the names of hosts using logical disks. This makes it possible to specify the logical disk being used from the host name. In this embodiment, the table 1431 stores a logical disk ID and a logical disk name corresponding to the logical disk ID. For example, the table 1431 stores the logical disk name of the
本実施の形態では、NIC管理テーブル144は、全監視対象の物理NICを管理するテーブルであり、テーブル1441と、NIC毎に利用ホストを管理するテーブル1442と、を含んでいる、これにより、ホスト名から、利用しているNICを特定することが可能となっている。本実施の形態では、テーブル1441は、NICIDと、当該NICIDに対応するMAC(Media Access Control)アドレス名とを格納している。テーブル1441は、たとえば、NICID1のMACアドレスをMAC1として格納し、NICID2のMACアドレスをMAC2として格納し、NICID3のMACアドレスをMAC3として格納している。図4では、MAC1に対するホストIDおよびホスト名について図示しているが、テーブル1442は、MAC2、MAC3の各MACアドレスに対応するホストの情報も格納している。 In the present embodiment, the NIC management table 144 is a table for managing all the physical NICs to be monitored, and includes a table 1441 and a table 1442 for managing the use host for each NIC. It is possible to identify the NIC being used from the name. In this embodiment, the table 1441 stores NICIDs and MAC (Media Access Control) address names corresponding to the NICIDs. For example, the table 1441 stores the MAC address of NICID1 as MAC1, stores the MAC address of NICID2 as MAC2, and stores the MAC address of NICID3 as MAC3. Although FIG. 4 illustrates the host ID and host name for MAC1, the table 1442 also stores host information corresponding to the MAC addresses of MAC2 and MAC3.
図5は、リソース割り当てテーブル145を示す図である。本実施の形態では、図5に示すように、リソース割り当てテーブル145は、ハイパバイザテーブル1451と、NICテーブル1452と、論理ディスクテーブル1453と、仮想ホストテーブル1454と、を含んでいる。 FIG. 5 is a diagram showing the resource allocation table 145. In the present embodiment, as shown in FIG. 5, the resource allocation table 145 includes a hypervisor table 1451, a NIC table 1452, a logical disk table 1453, and a virtual host table 1454.
本実施の形態では、ハイパバイザテーブル1451は、ハイパバイザIDと、当該ハイパバイザIDに対応するホスト名とを格納している。ハイパバイザテーブル1451は、たとえば、ハイパバイザID1のホスト名をVM1として格納している。また、本実施の形態では、NICテーブル1452は、NICIDと、当該NICIDに対応するMACアドレスとを格納している。NICテーブル1452は、たとえば、NICID1、NICID2、NICID3のMACアドレス名、それぞれ、をMAC1、MAC2、MAC3として格納している。また、本実施の形態では、論理ディスクテーブル1453は、論理ディスクIDと、当該論理ディスクIDに対応する論理ディスク名とを格納している。論理ディスクテーブル1453は、たとえば、論理ディスクID1、ID2、ID3の論理ディスク名を、それぞれ、論理A、論理B、論理Cとして格納している。また、本実施の形態では、仮想ホストテーブル1454は、仮想ホストIDと、当該仮想ホストIDに対応するホスト名とを格納している。仮想ホストテーブル1454は、たとえば、仮想ホストIDのホスト名をGuest1として格納している。 In the present embodiment, the hypervisor table 1451 stores a hypervisor ID and a host name corresponding to the hypervisor ID. The hypervisor table 1451 stores, for example, the host name of the hypervisor ID1 as VM1. In the present embodiment, the NIC table 1452 stores NICID and a MAC address corresponding to the NICID. The NIC table 1452 stores, for example, MACID names of NICID1, NICID2, and NICID3 as MAC1, MAC2, and MAC3, respectively. In this embodiment, the logical disk table 1453 stores a logical disk ID and a logical disk name corresponding to the logical disk ID. The logical disk table 1453 stores, for example, logical disk names of logical disks ID1, ID2, and ID3 as logical A, logical B, and logical C, respectively. In this embodiment, the virtual host table 1454 stores a virtual host ID and a host name corresponding to the virtual host ID. The virtual host table 1454 stores, for example, the host name of the virtual host ID as Guest1.
本実施の形態では、リソース割り当てテーブル145において、ハイパバイザが各仮想ホストに割り当てるリソース情報を含む仮想ホストテーブル1454と、NICテーブル1452と、論理ディスクテーブル1453と、が関係づけられている。これにより、仮想ホスト名から、割り当てられたデバイス情報を特定することが可能となる。なお、NICテーブル1452および論理ディスクテーブル1453は、それぞれ、ハイパバイザテーブル1451と関係づけられている。これにより、ホスト名から、当該ホストが利用するハイパバイザを特定することができる。 In the present embodiment, in the resource allocation table 145, a virtual host table 1454 including resource information allocated to each virtual host by the hypervisor, a NIC table 1452, and a logical disk table 1453 are associated with each other. Thereby, it is possible to specify the assigned device information from the virtual host name. Each of the NIC table 1452 and the logical disk table 1453 is related to the hypervisor table 1451. Thereby, the hypervisor used by the host can be specified from the host name.
次に、図1に示すように、本実施形態における原因絞込みを実施する処理部130について説明する。本実施の形態では、処理部130は、発生ノード判定部151と、メッセージ抽出範囲算出部152と、エラー有無判定部153と、被疑対象絞込み部154と、ソート処理部155と、を含んでいる。本実施の形態では、処理部130は、構成情報蓄積部140およびメッセージ蓄積部110のそれぞれと接続されている。
Next, as illustrated in FIG. 1, a
本実施の形態では、発生ノード判定部151は、メッセージ発生源が仮想ホストであるか否かを判定する。メッセージ検索範囲算出部152は、オペレータによって選択されたエラーの発生時を基準に、当該事象発生前後のどれくらいの期間のメッセージを検索対象とするが決定する。エラー有無判定部153は、抽出した期間内に発生ノードなどでエラーメッセージが発生していたか否かを判定する。本実施の形態では、被疑対象絞込み部154は、エラーメッセージが出ているホスト数の割合から被疑対象デバイスを絞り込む。ソート処理部155は、被疑対象絞込み部154からの出力データを並び替える。
In the present embodiment, the generation node determination unit 151 determines whether or not the message generation source is a virtual host. The message search
本実施の形態では、処理部150は、ソート処理部155でソートされたデータは、結果出力部111によって、ネットワーク400を通じて、監視端末300の表示制御部313へ出力される。表示制御部313は、受けたデータを、監視端末300の表示部314に表示する。これにより、障害分析装置100は、監視端末300を利用するオペレータに、要求部310の操作に対する結果を返す。本実施の形態では、原因絞込み要求部311からの要求により、発生ノード判定部151、メッセージ抽出範囲算出部152、エラー有無判定部153、被疑対象絞込み部154、およびソート処理部155の処理が実行される。原因絞込み要求部311の要求は、発生ノード判定部151へ与えられる。
In the present embodiment, the processing unit 150 outputs the data sorted by the sort processing unit 155 to the display control unit 313 of the
また、本実施の形態では、処理部130は、要求対象判定部161と、メッセージ検索部162と、を更に含んでいる。要求対象判定部161は、メッセージ要求対象ホストを特定する。メッセージ検索部162は、特定のホストについてのメッセージをメッセージ蓄積部110内から検索する。ソート処理部155は、検索されたメッセージを所定のルールに従って並び替える。本実施の形態では、当該メッセージに関する処理は、メッセージ一覧要求部312からの要求により実行される。メッセージ一覧要求部312の要求は、要求対象判定部161へ与えられる。
In the present embodiment, the
前述したように、監視端末300は、メッセージ検索部301を含んでいる。メッセージ検索部301は、ネットワーク400を介してメッセージ蓄積部110に接続されている。メッセージ検索部301は、メッセージ蓄積部110に保存されているメッセージに対して検索を行うことで、任意のメッセージを参照することができる。なお、メッセージ蓄積部110に蓄積されているメッセージの構造例は、図6に示すとおりである。
As described above, the
図6は、メッセージの構造例を示す図である。本実施の形態では、メッセージ蓄積部110に蓄積されるメッセージは、発生ノード1101、メッセージID1102、メッセージ内容1103、アラートレベル1104、発生日1105、および発生時間1106を含んでいる。
FIG. 6 is a diagram illustrating an example of a message structure. In the present embodiment, the message stored in the
発生ノード1101には、イベントが発生したホスト名が示されている。メッセージ内容1103には、具体的なイベント内容(エラー内容)が示されている。アラートレベル1104には、エラーが生じたイベントについて、”Error”が示されている。発生日1105には、イベントの発生日が示されている。発生時間1106には、イベントが発生した時刻が示されている。
The generation node 1101 indicates the name of the host where the event has occurred. The message content 1103 indicates specific event content (error content). The
[本実施の形態における動作の説明]
[動作の概要]
図1に示すように、本実施の形態では、監視対象サーバ200にエラーが発生した場合、オペレータは、監視端末300の原因絞込み要求部311を操作することで、エラーに関連すると判断したメッセージを1つ選択する。これに基づき、障害分析装置100は、そのメッセージを発生したエラー発生ホストと、デバイス情報とを関連づける。そして、障害分析装置100は、エラーメッセージを発生したホストと、デバイスを共用している1または複数のホストを抽出する。
[Description of operation in this embodiment]
[Overview of operation]
As shown in FIG. 1, in the present embodiment, when an error occurs in the
さらに、障害分析装置100は、上記エラー発生時近辺に、上記共用のホストにエラーが発生しているか判定する。そして、障害分析装置100は、エラーの発生の有無を判定した判定結果に基づき、エラーの発生原因として疑われる被疑対象デバイス、および被疑対象デバイスを利用するホストの一覧を作成する。そして、障害分析装置100は、作成したホストの一覧を監視端末300に返す。被疑対象デバイス、および被疑対象デバイスを利用するホストに関して、メッセージ一覧要求部312の操作に基づいて、メッセージ一覧の要求がある場合、障害分析装置100は、メッセージ蓄積部110内を検索する。そして、障害分析装置100は、被疑対象デバイスまたは当該デバイスを利用するホストのメッセージを検索し、監視端末300へ検索結果を出力する。
Furthermore, the
[本実施の形態における動作の詳細な説明]
次に、本実施の形態における障害分析装置100の動作の詳細について、図7〜図12を用いて説明する。図7は、エラー原因絞込みの処理の流れを説明するためのフローチャートである。また、以下の説明においては、適宜、図1〜図6を参照する。また、本実施の形態では、障害分析装置100を動作させることによって、障害分析方法が実施される。よって、本実施の形態における、障害分析方法の説明は、以下の障害分析装置100の動作説明に代える。
[Detailed description of operation in this embodiment]
Next, details of the operation of the
図7に示すように、本実施の形態では、障害分析装置100は、任意のエラーメッセージ1件に対して、原因絞込み要求があるか否かを判定する(ステップS1)。たとえば、オペレータが原因絞込み要求部311を操作することにより、任意のエラーメッセージ1件に関する原因絞込み要求が発せられると(ステップS1でYES)、発生ノード判定部151が処理を行う(ステップS2)。次に、メッセージ検索範囲算出部152が処理を行い(ステップS3)、以後、順に、エラー有無判定部153、被疑対象絞込み部154、ソート処理部155が処理を行う(ステップS4、S5、S6)。ソート処理部155でソートされた、障害原因の被疑対象の推定結果は、結果出力部111が、ネットワーク400を介して監視端末300の表示制御部313へ出力する(ステップS7)。これにより、上記被疑対象の推定結果は、表示部314に表示される。
As shown in FIG. 7, in the present embodiment, the
次に、被疑対象デバイスの推定結果を見たオペレータによって、メッセージ一覧要求部312が操作されることにより、上記被疑対象に対する検索要求が障害分析装置100へ発せられると(ステップS8でYES)、要求対象判定部161、メッセージ検索部162、およびソート処理部155が、順に処理を行う(ステップS9、S10、S11)。ソート処理部155でソートされた、被疑対象に関するメッセージの一覧は、結果出力部111がネットワーク400を介して、監視端末300の表示制御部313へ出力する(ステップS12)。これにより、当該メッセージ一覧は、表示部314に表示される。
Next, when a search request for the suspected object is issued to the
上記したように、本実施の形態において、障害原因絞込みの処理は大きく分けて2段階ある。1段階目の処理は、1件のエラーメッセージから、原因と考えられるデバイス、および関連するホスト名を列挙する処理(ステップS2〜S6)である。2段階目の処理は、列挙された対象についてメッセージ検索を行う処理(ステップS9〜S11)である。まず、前者の処理(ステップS2〜S6)について、図8〜図11を用いて説明する。 As described above, in the present embodiment, failure cause narrowing-down processing is roughly divided into two stages. The first-stage process is a process (steps S2 to S6) for enumerating a possible device and a related host name from one error message. The second stage process is a process (steps S9 to S11) for performing a message search for the listed objects. First, the former process (steps S2 to S6) will be described with reference to FIGS.
図8(a)は、発生ノード判定部151が行う処理について説明するためのフローチャートであり、図7のステップS2の処理の詳細を示している。図8(b)は、メッセージ検索範囲算出部152が行う処理について説明するためのフローチャートであり、図7のステップS3の処理の詳細を示している。図9は、エラー有無判定部153が行う処理について説明するためのフローチャートであり、図7のステップS4の処理の詳細を示している。
FIG. 8A is a flowchart for explaining the process performed by the generation node determination unit 151, and shows details of the process in step S2 of FIG. FIG. 8B is a flowchart for explaining the process performed by the message search
図7に示すように、たとえば、オペレータが、監視端末300の原因絞込み要求部311を操作することにより、原因絞込み要求部311から、あるエラーメッセージ1件について、障害分析装置100に処理を行う要求が発せられると、図8(a)に示すように、発生ノード判定部151は、メッセージ蓄積部110に蓄積されている指定されたメッセージの発生ノード1101のホスト名と、構成情報蓄積部140中のホスト管理テーブル141とを照合し、発生ノード1101のホスト名と一致するホスト名を取得する(ステップS101)。次に、発生ノード判定部151は、取得したホスト名に仮想ホストテーブル1413のホスト名が含まれるか否か判定する(ステップS102)。取得したホスト名に仮想ホストIDが含まれている場合(ステップS102でYES)、発生ノード判定部151は、メッセージ発生ノードが仮想ホストであると判定する(ステップS103)。一方、取得したホスト名に仮想ホストIDが含まれていない場合(ステップS102でNO)、メッセージ発生ノードは、物理ホスト、またはハイパバイザであると判定する(ステップS104)。
As illustrated in FIG. 7, for example, when the operator operates the cause narrowing request unit 311 of the
図8(b)に示すように、メッセージ検索範囲算出部152は、原因絞込み要求のあったエラーメッセージ中の発生日1105、および発生時間1106を中心に、すなわち、エラー発生状況に基づいて、エラー有無判定部153でエラーの判定対象とするメッセージ取得範囲を算出する(ステップS201)。メッセージ取得範囲の指定方法については特に限定されないが、本実施の形態では、原因絞込みを行っているエラーメッセージの発生時刻を基準として前後数秒または数十秒の期間に発生したメッセージを検索範囲対象とする。なお、メッセージ取得範囲の指定方法として、上記エラーメッセージの発生時刻の前後に発生した数十件のメッセージを検索対象範囲としてもよい。
As shown in FIG. 8B, the message search
次に、図9に示すように、エラー有無判定部153は、構成情報蓄積部140を検索することにより、指定された発生ノード1101のホストが利用しているデバイス情報を抽出する(ステップS301)。
Next, as shown in FIG. 9, the error presence / absence determination unit 153 searches the configuration
次に、エラー有無判定部153は、指定された発生ノード1101のホストと論理デバイスを共用している全てのホストを抽出する(ステップS302)。次に、エラー有無判定部153は、指定された発生ノード1101のホストが利用する論理デバイスに紐づく全てのホストについて、ステップS201で算出されたメッセージ検索範囲に該当するメッセージを、メッセージ蓄積部110から検索する。そして、エラー有無判定部153は、当該期間にエラーが発生しているか否か、すなわち、アラートレベル1104がErrorであるメッセージが発生しているか否かを判定する(ステップS303)。
Next, the error presence / absence determination unit 153 extracts all the hosts that share the logical device with the host of the designated generation node 1101 (step S302). Next, the error presence / absence determination unit 153 sends messages corresponding to the message search range calculated in step S201 to the
次に、エラー有無判定部153は、ステップS304、およびステップS305の処理を行う。ステップS304およびステップS305の処理は、論理デバイスについての検索処理(ステップS302、S303)と同様の処理であり、物理デバイスについての検索処理を行う。 Next, the error presence / absence determining unit 153 performs the processes of steps S304 and S305. The processes in step S304 and step S305 are the same as the search process for logical devices (steps S302 and S303), and the search process for physical devices is performed.
具体的には、エラー有無判定部153は、指定された発生ノード1101のホストと物理バイスを共用している全てのホストを抽出する(ステップS304)。次に、エラー有無判定部153は、指定された発生ノード1101のホストが利用する物理デバイスに紐づく全てのホストについて、ステップS201で算出されたメッセージ検索範囲に該当するメッセージを、メッセージ蓄積部110から検索する。そして、エラー有無判定部153は、当該期間にエラーが発生しているか否か、すなわち、アラートレベル1104がErrorであるメッセージが発生しているか否かを判定する(ステップS305)。
Specifically, the error presence / absence determination unit 153 extracts all the hosts that share the physical device with the host of the designated generation node 1101 (step S304). Next, the error presence / absence determination unit 153 sends messages corresponding to the message search range calculated in step S201 for all hosts associated with the physical device used by the host of the specified generation node 1101 to the
次に、エラー有無判定部153は、指定された発生ノード1101のホストが、仮想ホストであるか否かを確認する(ステップS306)。なお、発生ノード1101が仮想ホストであるか否かの判定は、予め発生ノード判定部151においてされているものである。エラー有無判定部153は、発生ノード1101が仮想ホストであると確認した場合(ステップS306でYES)、ステップS307に進む。ステップS307では、エラー有無判定部153は、仮想ホストの基盤となるハイパバイザを構成情報蓄積部140より特定し、ハイパバイザをエラー発生ノードと見立てる。次に、エラー有無判定部153は、ステップS301での処理と同様に、構成情報蓄積部140を検索することで、ハイパバイザが利用しているデバイス情報を抽出する(ステップS308)。次に、エラー有無判定部153は、ステップS309〜S312の処理を行うことで、エラー発生状況を判定する。
Next, the error presence / absence determination unit 153 confirms whether or not the host of the specified generation node 1101 is a virtual host (step S306). Whether or not the generation node 1101 is a virtual host is determined in advance in the generation node determination unit 151. If the error presence / absence determination unit 153 confirms that the generation node 1101 is a virtual host (YES in step S306), the process proceeds to step S307. In step S307, the error presence / absence determination unit 153 identifies the hypervisor serving as the base of the virtual host from the configuration
なお、ステップS309およびステップS310の処理は、それぞれ、ステップS302およびステップS303の処理と同様である。また、ステップS311およびステップS312の処理は、それぞれ、ステップS302およびステップS303の処理と同様である。 Note that the processes in steps S309 and S310 are the same as the processes in steps S302 and S303, respectively. Further, the processes in steps S311 and S312 are the same as the processes in steps S302 and S303, respectively.
具体的には、エラー有無判定部153は、仮想ホストの基盤となるハイパバイザと論理デバイスを共用している全てのホストを抽出する(ステップS309)。次に、エラー有無判定部153は、上記ハイパバイザが利用する論理デバイスに紐づく全てのホストについて、ステップS201で算出されたメッセージ検索範囲に該当するメッセージを、メッセージ蓄積部110から検索する。そして、エラー有無判定部153は、当該期間にエラーが発生しているか否か、すなわち、アラートレベル1104がErrorであるメッセージが発生しているか否かを判定する(ステップS310)。
Specifically, the error presence / absence determination unit 153 extracts all the hosts that share the logical device with the hypervisor that is the basis of the virtual host (step S309). Next, the error presence / absence determination unit 153 searches the
次に、エラー有無判定部153は、上記ハイパバイザと物理デバイスを共用している全てのホストを抽出する(ステップS311)。次に、エラー有無判定部153は、上記ハイパバイザが利用する物理デバイスに紐づく全てのホストについて、ステップS201で算出されたメッセージ検索範囲に該当するメッセージを、メッセージ蓄積部110から検索する。そして、エラー有無判定部153は、当該期間にエラーが発生しているか否か、すなわち、アラートレベル1104がErrorであるメッセージが発生しているか否かを判定する(ステップS312)。
Next, the error presence / absence determination unit 153 extracts all hosts sharing the physical device with the hypervisor (step S311). Next, the error presence / absence determination unit 153 searches the
次に、図10に示すステップS301〜S303についての詳細な処理の流れを説明する。図10は、図9のステップS301〜S303についての詳細な処理の流れを説明するためのフローチャートである。 Next, a detailed processing flow for steps S301 to S303 illustrated in FIG. 10 will be described. FIG. 10 is a flowchart for explaining the detailed processing flow of steps S301 to S303 in FIG.
ステップS3001は、ステップS301と同一の処理であり、エラー有無判定部153は、構成情報蓄積部140を検索することにより、指定された発生ノード1101のホストが利用している論理デバイスおよび物理デバイスの構成情報を抽出する。次に、ステップS3002では、エラー有無判定部153は、ステップS3001で取得した、指定された発生ノード1101のホストが利用している論理デバイス一覧と紐づくホストがあるか否かを、構成情報蓄積部140を参照して判定する(ステップS3002)。
Step S3001 is the same process as step S301, and the error presence / absence determination unit 153 searches the configuration
指定された発生ノード1101のホスト以外に論理デバイスを利用しているホストが存在しない場合(ステップS3002でNO)、エラー有無判定部153は、ステップS3008に進む。一方、発生ノード1101のホスト以外に論理デバイスを利用しているホストが存在する場合(ステップS3002でYES)、エラー有無判定部153は、指定された発生ノード110のホストと論理デバイスを共用する全てのホストを抽出する(ステップS3003)。次に、エラー有無判定部153は、抽出した中の一のホストについて、ステップS201で算出したメッセージ検索対象期間に該当するメッセージを、メッセージ蓄積部110内から検索する(ステップS3004)。次に、エラー有無判定部153は、検索したメッセージのうち、アラートレベル1104が”Error”となっているものが1件以上存在するか否かを判定する(ステップS3005)。アラートレベル1104が”Error”となっているものが1件以上存在する場合(ステップS3005でYES)、エラー有無判定部153は、カウント値を1つ加算する(ステップS3006)。一方、アラートレベル1104が”Error”となっているものが無い場合(ステップS305でNO)、エラー有無判定部153は、カウント値を加算しない。
If there is no host that uses a logical device other than the host of the specified generation node 1101 (NO in step S3002), the error presence / absence determination unit 153 proceeds to step S3008. On the other hand, when there is a host using a logical device other than the host of the generation node 1101 (YES in step S3002), the error presence / absence determination unit 153 shares all the logical devices with the specified host of the
次に、エラー有無判定部153は、指定された発生ノード1101のホストと論理デバイスを共用するホストのうち、ステップS3004〜S3006の処理が行われていないホストが存在しているか否かを判定する(ステップS3007)。指定された発生ノード1101のホストと論理デバイスを共用しているホストのうち、ステップS3004〜S3006の処理が行われていないホストが存在している場合(ステップS3007でYES)、エラー有無判定部153は、メッセージ検索対象のホストを当該ホストへシフトする(ステップS3008)。そして、エラー有無判定部153は、当該ホストについて、ステップS3004〜S3006の処理を繰り返す。 Next, the error presence / absence determination unit 153 determines whether there is a host that has not been subjected to the processing of steps S3004 to S3006 among the hosts that share the logical device with the host of the specified generation node 1101. (Step S3007). Of the hosts sharing the logical device with the host of the specified generation node 1101, if there is a host that has not been subjected to the processing of steps S3004 to S3006 (YES in step S3007), an error presence determination unit 153 Shifts the message search target host to the host (step S3008). Then, the error presence / absence determination unit 153 repeats the processing of steps S3004 to S3006 for the host.
一方、指定された発生ノード1101のホストと論理デバイスを共用しているホストの全てについて、ステップS3004〜S3006の処理が行われた場合(ステップS3007でNO)、エラー有無判定部153は、ステップS3009に進む。 On the other hand, when the processing of steps S3004 to S3006 has been performed for all of the hosts that share the logical device with the host of the specified generation node 1101 (NO in step S3007), the error presence / absence determination unit 153 determines whether or not step S3009 Proceed to
ステップS3009では、エラー有無判定部153は、指定された発生ノード1101のホストと、当該ホストと論理デバイスを共用する他のホストとを合わせた、当該論理デバイス上の全ホスト数に対する、ステップS3006カウント値(エラー発生ホスト数)の割合をエラー発生割合として算出する。例えば、ステップS3003で抽出されたホスト数が3、ステップS3006で加算されたカウント値が3であった場合、ステップS3009での算出値は、3/4≒0.8となる。上記の割合算出後、エラー有無判定部153は、ステップS3010に進む。ステップS3010では、エラー有無判定部153は、ステップS3001で抽出された論理デバイスのうち、ステップS3002〜S3009の処理定が行われていない論理デバイスがあるか否かを判定する。 In step S3009, the error presence / absence determination unit 153 counts step S3006 for the total number of hosts on the logical device including the host of the specified generation node 1101 and the other host sharing the logical device with the host. The ratio of the value (number of error-occurring hosts) is calculated as the error occurrence ratio. For example, if the number of hosts extracted in step S3003 is 3, and the count value added in step S3006 is 3, the calculated value in step S3009 is 3 / 4≈0.8. After the above ratio calculation, the error presence / absence determination unit 153 proceeds to step S3010. In step S3010, the error presence / absence determination unit 153 determines whether there is a logical device that has not been processed in steps S3002 to S3009 among the logical devices extracted in step S3001.
ステップS3002〜S3009の処理が行われていない論理デバイスがある場合には、エラー有無判定部153は、上記の処理が行われていない他の論理デバイスを処理対象にシフトし(ステップS3011)、ステップS3002〜S3009の処理を繰り返し行う。一方、ステップS3002〜S3009の処理が行われていない論理デバイスが無い場合(ステップS3010でNO)、エラー有無判定部153は、処理を終了する。 If there is a logical device for which the processes in steps S3002 to S3009 have not been performed, the error presence / absence determination unit 153 shifts another logical device for which the above process has not been performed to a processing target (step S3011), The processes of S3002 to S3009 are repeated. On the other hand, when there is no logical device for which the processes of steps S3002 to S3009 are not performed (NO in step S3010), the error presence / absence determining unit 153 ends the process.
なお、図9に示すステップS304〜305の処理は、図10に示すステップS3002〜S3011の処理における「論理デバイス」を、「物理デバイス」に置き換えた場合と同一の処理となるので、詳細な説明は省略する。 The processing in steps S304 to S305 shown in FIG. 9 is the same as that in the case where “logical device” in the processing in steps S3002 to S3011 shown in FIG. 10 is replaced with “physical device”. Is omitted.
また、図9に示すステップS308〜S310の処理は、図10に示すステップS30001〜S3011の処理における「発生ノード1101のホスト」を「ハイパバイザ」に置き換えた場合と同一の処理となるので、詳細な説明は省略する。さらに、図9に示すステップS311〜S312の処理は、図10に示すステップS3002〜S3011の処理における「発生ノード1101のホスト」を「ハイパバイザ」に置き換え、かつ、「論理デバイス」を「物理デバイス」に置き換えた場合と同一の処理となるので、詳細な説明は省略する。 Further, the processing of steps S308 to S310 shown in FIG. 9 is the same as the processing when “host of the generation node 1101” in the processing of steps S30001 to S3011 shown in FIG. 10 is replaced with “hypervisor”. Description is omitted. Further, in the processing of steps S311 to S312 shown in FIG. 9, “host of the generation node 1101” in the processing of steps S3002 to S3011 shown in FIG. 10 is replaced with “hypervisor”, and “logical device” is replaced with “physical device”. Since the processing is the same as that in the case of replacing with, detailed description is omitted.
次に、図11(a)および図11(b)に示す、被疑対象絞込み部154、およびソート処理部155での処理の流れを説明する。図11(a)は、被疑対象絞込み部154が行う処理の流れを示すフローチャートであり、図11(b)は、ソート処理部155が行う処理の流れを示すフローチャートである。
Next, the flow of processing in the suspicious
図11(a)に示すように、被疑対象絞込み部154は、ステップS3009(図10参照)で算出された、各論理デバイスおよび各物理デバイスのそれぞれにおける、エラー発生割合を基に、エラー原因として疑われる被疑デバイスを絞り込む基準を決定する(ステップS401)。本実施の形態では、絞込み基準は、たとえば、各論理デバイスおよび各物理デバイスのそれぞれにおいて、エラー発生割合の値が高いもの上位5件を被疑デバイスとすること、または、エラー発生割合が50%を超えるものは全て被疑対象デバイスとすることなどが考えられる。
As shown in FIG. 11A, the suspicious
被疑対象絞込み部154は、絞り込む基準を決定した後、各論理デバイスおよび各物理デバイスのそれぞれについて、エラー発生割合と絞込み基準とを照合する。そして、被疑対象絞込み部154は、基準を満たすデバイスを被疑対象デバイスとして抽出する(ステップS402)。その後、被疑対象絞込み部154は、被疑対象デバイスを利用する全ホスト名の一覧、構成情報蓄積部140を検索することで取得し(ステップS403)、処理を終える。
After determining the criteria for narrowing down, the suspected subject narrowing-down
次に、図11(b)に示すように、ソート処理部155では、被疑対象絞込み部154で得られた、被疑対象デバイスの全ホスト名の情報を、監視端末300を利用するオペレータに返すために、情報の整理を行う(ステップS501)。監視端末300に返す情報は、被疑対象デバイス、被疑デバイスの全ホスト名、および、各被疑対象デバイスのエラー発生割合である。ソート処理部155は、これらの情報をソートする。その後ソートされた結果は、図7に示すように、結果出力部111へ出力される。結果出力部111は、これらの情報を、ネットワークを介して監視端末300の表示制御部313へ出力する(ステップS7)。これにより、上記の情報は、表示部314に表示され、表示内容をオペレータが確認可能となる。
Next, as shown in FIG. 11B, the sort processing unit 155 returns the information on all the host names of the suspected device obtained by the suspected
次に、ステップS8〜S12のフロー、すなわち、エラー原因として推定される被疑対象デバイスが抽出された後の処理について、図12を用いて説明する。図12は、ステップS9〜S12について説明するためのフローチャートである。 Next, the flow after steps S8 to S12, that is, the process after the suspected target device estimated as the cause of the error is extracted will be described with reference to FIG. FIG. 12 is a flowchart for explaining steps S9 to S12.
図7に示すように、監視端末300の表示部314に表示された情報に基づいて、オペレータが、メッセージ一覧要求部312を操作することで、メッセージ検索要求が出された場合(ステップS8でYES)、図12に示すように、要求対象判定部161におけるステップS601が開始される。具体的には、要求対象判定部161は、メッセージ検索要求の対象がデバイス名であるか、またはホスト名であるかを判定する。メッセージ検索要求の対象の指定は、たとえば、オペレータがメッセージ一覧要求部312を操作することにより行われる。
As shown in FIG. 7, when a message search request is issued by the operator operating the message
被疑デバイスに対してメッセージ検索の要求があった場合(ステップS601で被疑デバイス)、メッセージ検索部162は、被疑対象デバイスを共用する全ホストについてメッセージ蓄積部110を検索し、該当するメッセージを抽出し、ステップS801に進む。
If there is a message search request for the suspect device (the suspect device in step S601), the message search unit 162 searches the
一方、オペレータによるメッセージ一覧要求部312の操作による、メッセージ検索要求の対象がホストであった場合(ステップS601でホスト)、メッセージ検索部162は、メッセージ蓄積部110を検索し、該当するメッセージを抽出し、ステップS801に進む。
On the other hand, when the target of the message search request by the operator's operation of the message
ステップS801では、ソート処理部155は、ステップS701、またはS702で得られたメッセージを、それぞれ、発生ノード毎に並べる。なお、ステップS601は、図7のステップS9に相当し、ステップS701、S702は、図7のステップS10に相当し、ステップS801は、図7のステップS11に相当する。 In step S801, the sort processing unit 155 arranges the messages obtained in step S701 or S702 for each occurrence node. Note that step S601 corresponds to step S9 in FIG. 7, steps S701 and S702 correspond to step S10 in FIG. 7, and step S801 corresponds to step S11 in FIG.
ソート処理部155の処理に次いで、図7に示すステップS12が実行される。すなわち、ステップS801でソートされたメッセージ一覧が、結果表示部111へ出力され、結果出力部111は、メッセージ一覧を、ネットワーク400を介して、表示制御部313へ出力する(ステップS12)。これにより、監視端末300を利用するオペレータは、表示制御部313が表示部314に表示するメッセージ一覧を確認することができる。
Subsequent to the processing of the sort processing unit 155, step S12 shown in FIG. 7 is executed. That is, the message list sorted in step S801 is output to the
本発明の実施の形態におけるプログラムは、コンピュータに、図7〜図12に示すステップS1〜S12、S101〜S104、S201、S301〜S312、S3001〜S3011、S401〜S403、S501、S601、S701、S702、およびS801を実行させるプログラムであればよい。このプログラムをコンピュータにインストールし、実行することによって、本実施の形態における障害分析装置100を実現することができる。この場合、コンピュータのCPU(Central Processing Unit)は、メッセージ監視部101、結果出力部111、入手部131、データ分析部132、テーブル更新部133、発生ノード判定部151、メッセージ抽出範囲算出部152、エラー有無判定部153、被疑対象絞込み部154、ソート処理部155、要求対象判定部161、およびメッセージ検索部162として機能し、処理を行なう。
The program according to the embodiment of the present invention is stored in the computer in steps S1 to S12, S101 to S104, S201, S301 to S312, S3001 to S3011, S401 to S403, S501, S601, S701, and S702 shown in FIGS. , And any program that executes S801. By installing and executing this program on a computer, the
また、本実施の形態では、メッセージ蓄積部110および構成情報蓄積部140は、コンピュータに備えられたハードディスク等の記憶装置に、これらを構成するデータファイルを格納することによって実現できる。また、メッセージ蓄積部110および構成情報蓄積部140は、別のコンピュータによって構築されてもよい。
Further, in the present embodiment, the
以上のように本実施の形態によれば、エラー内容と、エラー原因との関係を予め障害分析装置100で特定できていなくても、障害原因を分析することができ得る。具体的には、障害分析装置100は、監視対象サーバ200からエラーメッセージなどのメッセージを収集しており、障害分析装置100のデバイス情報整理部120は、ホスト(物理OS、ハイパバイザ、仮想OS)が利用するデバイス情報を管理している。そして、障害分析装置100は、任意に選択した1つのエラーメッセージについて、エラーメッセージを発生するホストと、デバイス情報とを関連づけることで、エラー発生ホストとデバイスを共用している複数のホストを抽出する。さらに、障害分析装置100は、着目したエラー発生時近辺に上記デバイスを共用する複数のホストでエラーが発生しているか判定する。そして、当該複数のホストでのエラーの発生割合などに基づいて、エラー原因を分析し、被疑対象デバイスを特定する。これにより、デバイス障害観点からのエラー原因の絞込みを可能にしている。
As described above, according to the present embodiment, the cause of the failure can be analyzed even if the relationship between the error content and the cause of the error cannot be specified in advance by the
このような本実施の形態の構成により、仮想化環境のソフトウェアと物理デバイスとが複雑に構成されているシステムにおいて、エラーイベント発生原因の追及を容易にすることができる。より具体的には、ホストが利用する物理デバイス、論理デバイスの構成情報を用いて、特定のエラーイベントに含まれるホスト名から、利用しているデバイスを割り出す。そして、当該デバイスを共用する他のホストで同時期に障害が発生している割合を判定する。これにより、特定のデバイスに基づく連鎖障害であるか、または、ホスト自身で発生している障害であるか絞り込むことができる。 With such a configuration of the present embodiment, it is possible to easily pursue the cause of the occurrence of an error event in a system in which software and physical devices in a virtual environment are configured in a complex manner. More specifically, the device being used is determined from the host name included in the specific error event using the configuration information of the physical device and logical device used by the host. Then, the rate at which a failure occurs at the same time in another host sharing the device is determined. Thereby, it is possible to narrow down whether it is a chain fault based on a specific device or a fault occurring in the host itself.
また、本実施の形態では、エラー有無判定部153は、監視端末300で選択されたエラーを基準として、当該基準から所定の範囲内で、エラー発生ノードのホストとデバイスを共用する他のホストでエラーが発生しているか否かを判定する。これにより、監視端末300で選択されたエラーと同時期に発生した他のエラーを特定することができるので、エラー発生原因に適した分析材料を得ることができ、より正確にエラー原因を分析することができる。
Further, in this embodiment, the error presence / absence determination unit 153 is based on the error selected by the
また、本実施の形態では、エラー発生ホストが仮想ホストである場合には、エラー発生ホストのハイパバイザが利用している物理デバイスおよび論理デバイスを共用する他のホストを特定し、当該特定されたホストのエラーを抽出する。これにより、エラー発生ホストが仮想ホストである場合でも、エラーの原因をより正確に特定することができる。 In this embodiment, when the error occurrence host is a virtual host, the other host sharing the physical device and the logical device used by the hypervisor of the error occurrence host is specified, and the specified host is specified. Extract errors. Thereby, even when the error occurrence host is a virtual host, the cause of the error can be specified more accurately.
また、本実施の形態では、被疑対象絞込み部154は、エラー発生ホストとデバイスを共用する他のホストのうち、エラーが発生しているホストの数が所定の基準を超えている場合に、エラー発生ホストが利用しているデバイスにエラーが生じていると判定する。これにより、エラーを生じているデバイスを、より正確に分析することができる。
In the present embodiment, the suspicious
(変形例)
上記実施の形態では、構成情報蓄積部140が管理するデバイスとして、監視対象サーバ200の物理ディスク、論理ディスクおよび物理NICを例示している。そして、これらのデバイスとホスト名とを関連付けることにより、エラー原因を絞り込む構成としているが、これに限定されない。たとえば、ディスクとNIC以外にも、監視対象サーバ200の構成情報取得部210がAPIで提供可能な物理、論理デバイスであり、且つ複数のホストで共用する(部分的なリソース割り当てが可能な)デバイスがあれば、構成情報蓄積部140で管理することができる。
(Modification)
In the above embodiment, the physical disk, logical disk, and physical NIC of the
また、図8(b)のステップS201において、エラーメッセージの検索範囲は、監視端末300を操作することで設定できてもよいし、障害分析装置100に算出範囲決定パターンを設定する装置を設けることで、適宜設定されてもよい。
8B, the error message search range may be set by operating the
また、図11のステップS401において、被疑対象デバイス決定の絞り込みの基準は、監視端末300を操作することで設定されてもよいし、障害分析装置100に絞り込み基準パターンを設定すする装置を設けることで、適宜設定されてもよい。
Further, in step S401 of FIG. 11, the narrowing criteria for determining the suspected device may be set by operating the
上述した実施の形態の一部又は全部は、以下に記載する(付記1)〜(付記12)によって表現することができるが、以下の記載に限定されるものではない。 Part or all of the above-described embodiments can be expressed by (Appendix 1) to (Appendix 12) described below, but is not limited to the following description.
(付記1)
仮想ホストを含む複数のホストのそれぞれが利用する物理デバイスおよび論理デバイスを特定する情報を入手する入手部と、
複数の前記ホストのうちエラーが発生したエラー発生ホストのホスト名と、前記入手部で入手した前記情報とから、前記エラー発生ホストが利用している前記物理デバイスおよび前記論理デバイスを特定し、かつ、特定された前記物理デバイスおよび前記論理デバイスを共用する他の前記ホストでエラーが発生しているか否かを判定するエラー有無判定部と、
を備えていることを特徴とする、障害分析装置。
(Appendix 1)
An obtaining unit for obtaining information for identifying a physical device and a logical device used by each of a plurality of hosts including a virtual host;
Identifying the physical device and the logical device used by the error-occurring host from the host name of the error-occurring host among the plurality of hosts and the information obtained by the obtaining unit; and An error presence / absence determining unit that determines whether an error has occurred in another host that shares the identified physical device and the logical device;
A failure analysis apparatus comprising:
(付記2)
前記エラー有無判定部は、前記エラー発生ホストで発生した前記エラーの発生状況に基づいて、他の前記ホストでエラーが発生しているか否かを判定する、付記1に記載の障害分析装置。
(Appendix 2)
The failure analysis device according to
(付記3)
前記エラー有無判定部は、前記エラー発生ホストが前記仮想ホストである場合には、前記エラー発生ホストのハイパバイザが利用している前記物理デバイスおよび前記論理デバイスを共用する他の前記ホストを特定し、当該特定されたホストのエラーを抽出する、付記1または付記2に記載の障害分析装置。
(Appendix 3)
When the error occurrence host is the virtual host, the error presence / absence determination unit identifies the other physical host that shares the physical device and the logical device used by the hypervisor of the error occurrence host, and The failure analysis apparatus according to
(付記4)
エラーが生じている前記物理デバイスおよび前記論理デバイスを絞込む被疑対象絞込み部をさらに備え、
前記被疑対象絞込み部は、前記エラー発生ホストおよび他の前記ホストのなかで、エラーが発生しているホストの数が所定の基準を超えている場合に、前記エラー発生ホストが利用している前記物理デバイスおよび前記論理デバイスの少なくとも一方に障害が生じていると判定する、付記1〜付記3のいずれかに記載の障害分析装置。
(Appendix 4)
A suspicious object narrowing section for narrowing down the physical device and the logical device in which an error has occurred;
The suspected object narrowing unit is used by the error-occurring host when the number of hosts in which the error has occurred exceeds a predetermined standard among the error-occurring host and the other hosts. The failure analysis apparatus according to any one of
(付記5)
(a)仮想ホストを含む複数のホストのそれぞれが利用する物理デバイスおよび論理デバイスを特定する情報を入手するステップと、
(b)複数の前記ホストのうちエラーが発生したエラー発生ホストのホスト名と、前記入手部で入手した前記情報とから、前記エラー発生ホストが利用している前記物理デバイスおよび前記論理デバイスを特定するステップと、
(c)特定された前記物理デバイスおよび前記論理デバイスを共用する他の前記ホストでエラーが発生しているか否かを判定するステップと、
を含むことを特徴とする、障害分析方法。
(Appendix 5)
(A) obtaining information for specifying a physical device and a logical device used by each of a plurality of hosts including a virtual host;
(B) Identifying the physical device and the logical device used by the error-occurring host from the host name of the error-occurring host among the plurality of hosts and the information obtained by the obtaining unit And steps to
(C) determining whether an error has occurred in another host that shares the identified physical device and logical device;
A failure analysis method comprising:
(付記6)
前記エラーが発生しているか否かを判定するステップでは、前記エラー発生ホストで発生した前記エラーの発生状況に基づいて、他の前記ホストでエラーが発生しているか否かを判定する、付記5に記載の障害分析方法。
(Appendix 6)
In the step of determining whether or not the error has occurred, it is determined whether or not an error has occurred in another host based on the occurrence state of the error that has occurred in the error-occurring host. Failure analysis method described in 1.
(付記7)
前記エラーが発生しているか否かを判定するステップでは、前記エラー発生ホストが前記仮想ホストである場合には、前記エラー発生ホストのハイパバイザが利用している前記物理デバイスおよび前記論理デバイスを共用する他の前記ホストを特定し、当該特定されたホストのエラーを抽出する、付記5または付記6に記載の障害分析方法。
(Appendix 7)
In the step of determining whether or not the error has occurred, if the error-occurring host is the virtual host, the physical device and the logical device used by the hypervisor of the error-occurring host are shared. The failure analysis method according to
(付記8)
エラーが生じている前記物理デバイスおよび前記論理デバイスを絞込むステップをさらに備え、
前記絞込むステップでは、前記エラー発生ホストおよび他の前記ホストのなかで、エラーが発生しているホストの数が所定の基準を超えている場合に、前記エラー発生ホストが利用している前記物理デバイスおよび前記論理デバイスの少なくとも一方に障害が生じていると判定する、付記5〜付記7のいずれかに記載の障害分析方法。
(Appendix 8)
Further comprising the step of narrowing down the physical device and the logical device in which an error has occurred,
In the narrowing-down step, the physical number used by the error-occurring host when the number of hosts in which an error has occurred exceeds a predetermined standard among the error-occurring host and other hosts. The failure analysis method according to any one of
(付記9)
仮想ホストを含む複数のホストで発生する障害をコンピュータによって分析するためのプログラムであって、前記コンピュータに、
(a)仮想ホストを含む複数のホストのそれぞれが利用する物理デバイスおよび論理デバイスを特定する情報を入手するステップと、
(b)複数の前記ホストのうちエラーが発生したエラー発生ホストのホスト名と、前記入手部で入手した前記情報とから、前記エラー発生ホストが利用している前記物理デバイスおよび前記論理デバイスを特定するステップと、
(c)特定された前記物理デバイスおよび前記論理デバイスを共用する他の前記ホストでエラーが発生しているか否かを判定するステップと、
を実行させる、プログラム。
(Appendix 9)
A program for analyzing failures occurring in a plurality of hosts including a virtual host by a computer,
(A) obtaining information for specifying a physical device and a logical device used by each of a plurality of hosts including a virtual host;
(B) Identifying the physical device and the logical device used by the error-occurring host from the host name of the error-occurring host among the plurality of hosts and the information obtained by the obtaining unit And steps to
(C) determining whether an error has occurred in another host that shares the identified physical device and logical device;
A program that executes
(付記10)
前記エラーが発生しているか否かを判定するステップでは、前記エラー発生ホストで発生した前記エラーの発生状況に基づいて、他の前記ホストでエラーが発生しているか否かを判定する、付記9に記載のプログラム。
(Appendix 10)
In the step of determining whether or not the error has occurred, it is determined whether or not an error has occurred in another host based on the occurrence status of the error that has occurred in the error-occurring host. The program described in.
(付記11)
前記エラーが発生しているか否かを判定するステップでは、前記エラー発生ホストが前記仮想ホストである場合には、前記エラー発生ホストのハイパバイザが利用している前記物理デバイスおよび前記論理デバイスを共用する他の前記ホストを特定し、当該特定されたホストのエラーを抽出する、付記9または付記10に記載のプログラム。
(Appendix 11)
In the step of determining whether or not the error has occurred, if the error-occurring host is the virtual host, the physical device and the logical device used by the hypervisor of the error-occurring host are shared. The program according to
(付記12)
エラーが生じている前記物理デバイスおよび前記論理デバイスを絞込むステップをさらに備え、
前記絞込むステップでは、前記エラー発生ホストおよび他の前記ホストのなかで、エラーが発生しているホストの数が所定の基準を超えている場合に、前記エラー発生ホストが利用している前記物理デバイスおよび前記論理デバイスの少なくとも一方に障害が生じていると判定する、付記9〜付記11のいずれかに記載のプログラム。
(Appendix 12)
Further comprising the step of narrowing down the physical device and the logical device in which an error has occurred,
In the narrowing-down step, the physical number used by the error-occurring host when the number of hosts in which an error has occurred exceeds a predetermined standard among the error-occurring host and other hosts. The program according to any one of
本発明は、仮想化技術により大量の仮想サーバを一元管理するデータセンタなどの運用管理に用いられる、障害分析装置、障害分析方法、およびプログラムに適用することができる。 The present invention can be applied to a failure analysis apparatus, a failure analysis method, and a program used for operation management of a data center or the like that centrally manages a large number of virtual servers using a virtualization technique.
100 障害分析装置
131 入手部
153 エラー有無判定部
154 被疑対象絞込み部
100 Failure Analyzer 131 Obtaining Unit 153 Error
Claims (6)
複数の前記ホストのうちエラーが発生したエラー発生ホストのホスト名と、前記入手部で入手した前記情報とから、前記エラー発生ホストが利用している前記物理デバイスおよび前記論理デバイスを特定し、かつ、特定された前記物理デバイスおよび前記論理デバイスを共用する他の前記ホストでエラーが発生しているか否かを判定するエラー有無判定部と、
を備えていることを特徴とする、障害分析装置。 An obtaining unit for obtaining information for identifying a physical device and a logical device used by each of a plurality of hosts including a virtual host;
Identifying the physical device and the logical device used by the error-occurring host from the host name of the error-occurring host among the plurality of hosts and the information obtained by the obtaining unit; and An error presence / absence determining unit that determines whether an error has occurred in another host that shares the identified physical device and the logical device;
A failure analysis apparatus comprising:
前記被疑対象絞込み部は、前記エラー発生ホストおよび他の前記ホストのなかで、エラーが発生しているホストの数が所定の基準を超えている場合に、前記エラー発生ホストが利用している前記物理デバイスおよび前記論理デバイスの少なくとも一方に障害が生じていると判定する、請求項1〜請求項3のいずれかに記載の障害分析装置。 A suspicious object narrowing section for narrowing down the physical device and the logical device in which an error has occurred;
The suspected object narrowing unit is used by the error-occurring host when the number of hosts in which the error has occurred exceeds a predetermined standard among the error-occurring host and the other hosts. The failure analysis apparatus according to claim 1, wherein it is determined that a failure has occurred in at least one of the physical device and the logical device.
(b)複数の前記ホストのうちエラーが発生したエラー発生ホストのホスト名と、前記入手部で入手した前記情報とから、前記エラー発生ホストが利用している前記物理デバイスおよび前記論理デバイスを特定するステップと、
(c)特定された前記物理デバイスおよび前記論理デバイスを共用する他の前記ホストでエラーが発生しているか否かを判定するステップと、
を含むことを特徴とする、障害分析方法。 (A) obtaining information for specifying a physical device and a logical device used by each of a plurality of hosts including a virtual host;
(B) Identifying the physical device and the logical device used by the error-occurring host from the host name of the error-occurring host among the plurality of hosts and the information obtained by the obtaining unit And steps to
(C) determining whether an error has occurred in another host that shares the identified physical device and logical device;
A failure analysis method comprising:
前記コンピュータに、
(a)前記仮想ホストを含む複数の前記ホストのそれぞれが利用する物理デバイスおよび論理デバイスを特定する情報を入手するステップと、
(b)複数の前記ホストのうちエラーが発生したエラー発生ホストのホスト名と、前記入手部で入手した前記情報とから、前記エラー発生ホストが利用している前記物理デバイスおよび前記論理デバイスを特定するステップと、
(c)特定された前記物理デバイスおよび前記論理デバイスを共用する他の前記ホストでエラーが発生しているか否かを判定するステップと、
を実行させる、プログラム。 A program for analyzing failures occurring in a plurality of hosts including a virtual host by a computer,
In the computer,
(A) obtaining information for identifying a physical device and a logical device used by each of the plurality of hosts including the virtual host;
(B) Identifying the physical device and the logical device used by the error-occurring host from the host name of the error-occurring host among the plurality of hosts and the information obtained by the obtaining unit And steps to
(C) determining whether an error has occurred in another host that shares the identified physical device and logical device;
A program that executes
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011211411A JP5747765B2 (en) | 2011-09-27 | 2011-09-27 | Failure analysis apparatus, failure analysis method, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011211411A JP5747765B2 (en) | 2011-09-27 | 2011-09-27 | Failure analysis apparatus, failure analysis method, and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013073389A true JP2013073389A (en) | 2013-04-22 |
JP5747765B2 JP5747765B2 (en) | 2015-07-15 |
Family
ID=48477849
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011211411A Expired - Fee Related JP5747765B2 (en) | 2011-09-27 | 2011-09-27 | Failure analysis apparatus, failure analysis method, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5747765B2 (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020138176A1 (en) * | 2018-12-28 | 2020-07-02 | 京セラドキュメントソリューションズ株式会社 | Monitoring system, monitoring method, and monitoring program |
CN113568769A (en) * | 2020-04-28 | 2021-10-29 | 北京达佳互联信息技术有限公司 | Exception handling method, exception handling device, server and storage medium |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005025483A (en) * | 2003-07-02 | 2005-01-27 | Hitachi Ltd | Failure information management method and management server in network equipped with storage device |
JP2005062941A (en) * | 2003-08-12 | 2005-03-10 | Hitachi Ltd | Method for analyzing performance information |
JP2006133983A (en) * | 2004-11-04 | 2006-05-25 | Hitachi Ltd | Information processor, method for controlling information processor and program |
JP2011113122A (en) * | 2009-11-24 | 2011-06-09 | Mitsubishi Electric Corp | Failure influence analysis device, application system, and failure influence analysis method |
-
2011
- 2011-09-27 JP JP2011211411A patent/JP5747765B2/en not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005025483A (en) * | 2003-07-02 | 2005-01-27 | Hitachi Ltd | Failure information management method and management server in network equipped with storage device |
JP2005062941A (en) * | 2003-08-12 | 2005-03-10 | Hitachi Ltd | Method for analyzing performance information |
JP2006133983A (en) * | 2004-11-04 | 2006-05-25 | Hitachi Ltd | Information processor, method for controlling information processor and program |
JP2011113122A (en) * | 2009-11-24 | 2011-06-09 | Mitsubishi Electric Corp | Failure influence analysis device, application system, and failure influence analysis method |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020138176A1 (en) * | 2018-12-28 | 2020-07-02 | 京セラドキュメントソリューションズ株式会社 | Monitoring system, monitoring method, and monitoring program |
CN113260984A (en) * | 2018-12-28 | 2021-08-13 | 京瓷办公信息系统株式会社 | Monitoring system, monitoring method, and monitoring program |
US11635923B2 (en) | 2018-12-28 | 2023-04-25 | Kyocera Document Solutions Inc. | Monitoring system, monitoring method, and monitoring program |
CN113568769A (en) * | 2020-04-28 | 2021-10-29 | 北京达佳互联信息技术有限公司 | Exception handling method, exception handling device, server and storage medium |
CN113568769B (en) * | 2020-04-28 | 2023-10-31 | 北京达佳互联信息技术有限公司 | Exception handling method, device, server and storage medium |
Also Published As
Publication number | Publication date |
---|---|
JP5747765B2 (en) | 2015-07-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101971013B1 (en) | Cloud infra real time analysis system based on big date and the providing method thereof | |
EP3149591B1 (en) | Tracking application deployment errors via cloud logs | |
US20180232225A1 (en) | Applying update to snapshots of virtual machine | |
US9973439B2 (en) | Internet protocol address management (IPAM) integration with a plurality of virtualization tiers in the virtual cloud using infrastructure metadata | |
US9124633B1 (en) | IP address and domain name automation of virtual infrastructure | |
JP5239075B2 (en) | Computer system, method and computer program for managing a service process including a plurality of service steps | |
US9116874B2 (en) | Virtual machine test system, virtual machine test method | |
CN107533503B (en) | Method and data center for selecting virtualized environment during deployment | |
US20090249340A1 (en) | Managing the Progress of a Plurality of Tasks | |
CN108139965B (en) | Management server and management method using the same | |
US20090288082A1 (en) | System and method for performing designated service image processing functions in a service image warehouse | |
US8336099B2 (en) | Methods, hardware products, and computer program products for implementing introspection data comparison utilizing hypervisor guest introspection data | |
CN103902878A (en) | License authentication method and device under virtual environment | |
US9929969B1 (en) | Tenant-based management system and method for distributed computing environments | |
JP2010009552A (en) | Computer system for backing up software constituent elements, method therefor, and computer program | |
JP2017201470A (en) | Setting support program, setting support method, and setting support device | |
CN107450962B (en) | Exception handling method, device and system in virtualized operation environment | |
WO2013061213A1 (en) | Passive monitoring of virtual systems using extensible indexing | |
JP4918668B2 (en) | Virtualization environment operation support system and virtualization environment operation support program | |
US10360614B1 (en) | Assessing and rating deployments of resources | |
US9405902B1 (en) | Anti-malware service in multi-tenant cloud computing environments | |
JP2009075877A (en) | Information processing system and monitoring method | |
JP5740338B2 (en) | Virtual environment operation support system | |
US9021078B2 (en) | Management method and management system | |
JP5747765B2 (en) | Failure analysis apparatus, failure analysis method, and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20140811 |
|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7421 Effective date: 20150123 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20150319 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20150414 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20150427 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5747765 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |