JP5747765B2 - Failure analysis apparatus, failure analysis method, and program - Google Patents

Failure analysis apparatus, failure analysis method, and program Download PDF

Info

Publication number
JP5747765B2
JP5747765B2 JP2011211411A JP2011211411A JP5747765B2 JP 5747765 B2 JP5747765 B2 JP 5747765B2 JP 2011211411 A JP2011211411 A JP 2011211411A JP 2011211411 A JP2011211411 A JP 2011211411A JP 5747765 B2 JP5747765 B2 JP 5747765B2
Authority
JP
Japan
Prior art keywords
error
host
unit
occurred
message
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2011211411A
Other languages
Japanese (ja)
Other versions
JP2013073389A (en
Inventor
尾崎 哲也
哲也 尾崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2011211411A priority Critical patent/JP5747765B2/en
Publication of JP2013073389A publication Critical patent/JP2013073389A/en
Application granted granted Critical
Publication of JP5747765B2 publication Critical patent/JP5747765B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Debugging And Monitoring (AREA)

Description

本発明は、仮想化技術により大量の仮想サーバを一元管理するデータセンタなどの運用管理に用いられる、障害分析装置、障害分析方法、およびプログラムに関する。   The present invention relates to a failure analysis apparatus, a failure analysis method, and a program used for operation management of a data center or the like that centrally manages a large number of virtual servers using virtualization technology.

近年、仮想化技術を利用したコンピュータシステムが運用されている。このようなシステムでは、たとえば、1台のサーバコンピュータ上で複数の仮想マシンを稼働させる(たとえば、特許文献1参照)。特許文献1に記載の仮想コンピュータシステムは、複数の物理デバイス上で論理デバイスを用いて仮想デバイスを設定し、当該仮想デバイスにより仮想マシンを動作させる。   In recent years, computer systems using virtualization technology have been operated. In such a system, for example, a plurality of virtual machines are operated on one server computer (see, for example, Patent Document 1). The virtual computer system described in Patent Literature 1 sets a virtual device using a logical device on a plurality of physical devices, and operates a virtual machine using the virtual device.

また、当該仮想コンピュータシステムは、仮想化環境運用支援システムを有している。仮想化環境運用支援システムは、障害が発生した物理デバイスと該物理デバイスが影響を及ぼす論理デバイスを特定した第1関連情報と、障害が発生した論理デバイスと当該論理デバイスが影響を及ぼす仮想デバイスを特定した第2関連情報と、障害が発生した仮想デバイスと当該仮想デバイスが影響を及ぼす仮想マシンを特定した第3関連情報と、を格納する、影響範囲特定テーブル部を備えている。   The virtual computer system has a virtual environment operation support system. The virtualization environment operation support system includes first related information that identifies a physical device in which a failure has occurred and a logical device that the physical device affects, a logical device in which a failure has occurred, and a virtual device that has an influence on the logical device. An influence range specifying table unit is provided that stores the specified second related information, and the third related information specifying the virtual device in which the failure has occurred and the virtual machine affected by the virtual device.

また、前記仮想化環境運用支援システムは、制御部を備えている。制御部は、仮想コンピュータシステムから障害が発生した物理デバイス、論理デバイス又は仮想デバイスを特定する障害発生部位情報を受信し、当該障害発生部位情報を基に前記影響範囲特定テーブル部を参照して前記障害が及ぼす仮想マシンを特定する。また、制御部は、障害発生部位情報が仮想デバイスのとき、当該仮想デバイスが影響を及ぼす仮想マシンを、前記第3関連情報を参照して特定する。   The virtual environment operation support system includes a control unit. The control unit receives failure occurrence site information that identifies a physical device, logical device, or virtual device in which a failure has occurred from the virtual computer system, and refers to the influence range identification table unit based on the failure occurrence site information. Identify the virtual machine affected by the failure. In addition, when the failure occurrence site information is a virtual device, the control unit identifies a virtual machine that is affected by the virtual device with reference to the third related information.

特開2010−009411号公報(要約、請求項1)JP 2010-009411 A (summary, claim 1)

ところで、VMWare(登録商標)に代表される仮想化技術を多用するサーバコンピュータ(クラウドシステム)の障害監視を行う場合、障害発生時に、本来、原因が一つであるにも拘らず、複数の障害が同時期に発生したように見えてしまう場合が多々ある。そのような場合、どの障害から対処したらよいかが判らず、障害原因および影響範囲の特定に時間がかかってしまう。また、仮想環境下では、頻繁に利用リソース変更があり、影響範囲の特定が困難である。   By the way, when performing failure monitoring of a server computer (cloud system) that makes heavy use of virtualization technology represented by VMWare (registered trademark), when a failure occurs, a plurality of failures may be detected despite originally having one cause. Often appear to have occurred at the same time. In such a case, it is not known from which trouble to deal with, and it takes time to identify the cause of the trouble and the affected range. Also, in a virtual environment, there are frequent changes in usage resources, and it is difficult to identify the affected range.

特許文献1に記載の構成では、仮想マシンに生じた障害の影響範囲を特定する処理を行う前提条件として、障害イベントから、原因となるデバイスを特定できるようにしておく必要がある。すなわち、予め、障害イベントと、原因となるデバイスとの関係とを登録してあることが必要である。よって、事前に登録されていない障害の原因分析を行うことができない。   In the configuration described in Patent Document 1, it is necessary to be able to identify the cause device from the failure event as a precondition for performing the process of identifying the affected range of the failure that has occurred in the virtual machine. That is, it is necessary to register in advance the failure event and the relationship with the causative device. Therefore, it is not possible to analyze the cause of a failure that has not been registered in advance.

本発明の目的の一例は、エラー内容と、エラー原因との関係を予め特定できていなくても、障害原因を分析することができ得る、障害分析装置、障害分析方法、およびプログラムを提供することにある。   An example of an object of the present invention is to provide a failure analysis apparatus, a failure analysis method, and a program capable of analyzing a failure cause even if the relationship between the error content and the error cause cannot be specified in advance. It is in.

上記目的を達成するため、本発明の一側面における、障害分析装置は、仮想ホストを含む複数のホストのそれぞれが利用する物理デバイスおよび論理デバイスを特定する情報を入手する入手部と、
複数の前記ホストのうちエラーが発生したエラー発生ホストのホスト名と、前記入手部で入手した前記情報とから、前記エラー発生ホストが利用している前記物理デバイスおよび前記論理デバイスを特定し、かつ、特定された前記物理デバイスおよび前記論理デバイスを共用する他の前記ホストでエラーが発生しているか否かを判定するエラー有無判定部と、
を備えていることを特徴とする。
In order to achieve the above object, in one aspect of the present invention, a failure analysis apparatus includes:
Identifying the physical device and the logical device used by the error-occurring host from the host name of the error-occurring host among the plurality of hosts and the information obtained by the obtaining unit; and An error presence / absence determining unit that determines whether an error has occurred in another host that shares the identified physical device and the logical device;
It is characterized by having.

また、上記目的を達成するため、本発明の一側面における、障害分析方法は、
(a)仮想ホストを含む複数のホストのそれぞれが利用する物理デバイスおよび論理デバイスを特定する情報を入手するステップと、
(b)複数の前記ホストのうちエラーが発生したエラー発生ホストのホスト名と、前記入手部で入手した前記情報とから、前記エラー発生ホストが利用している前記物理デバイスおよび前記論理デバイスを特定するステップと、
(c)特定された前記物理デバイスおよび前記論理デバイスを共用する他の前記ホストでエラーが発生しているか否かを判定するステップと、
を含むことを特徴とする。
In order to achieve the above object, a failure analysis method according to one aspect of the present invention includes:
(A) obtaining information for specifying a physical device and a logical device used by each of a plurality of hosts including a virtual host;
(B) Identifying the physical device and the logical device used by the error-occurring host from the host name of the error-occurring host among the plurality of hosts and the information obtained by the obtaining unit And steps to
(C) determining whether an error has occurred in another host that shares the identified physical device and logical device;
It is characterized by including.

更に、上記目的を達成するため、本発明の一側面におけるプログラムは、仮想ホストを含む複数のホストで発生する障害をコンピュータによって分析するためのプログラムであって、前記コンピュータに、
(a)前記仮想ホストを含む複数の前記ホストのそれぞれが利用する物理デバイスおよび論理デバイスを特定する情報を入手するステップと、
(b)複数の前記ホストのうちエラーが発生したエラー発生ホストのホスト名と、前記入手部で入手した前記情報とから、前記エラー発生ホストが利用している前記物理デバイスおよび前記論理デバイスを特定するステップと、
(c)特定された前記物理デバイスおよび前記論理デバイスを共用する他の前記ホストでエラーが発生しているか否かを判定するステップと、
を実行させることを特徴とする。
Furthermore, in order to achieve the above object, a program according to one aspect of the present invention is a program for analyzing failures occurring in a plurality of hosts including a virtual host by a computer,
(A) obtaining information for identifying a physical device and a logical device used by each of the plurality of hosts including the virtual host;
(B) Identifying the physical device and the logical device used by the error-occurring host from the host name of the error-occurring host among the plurality of hosts and the information obtained by the obtaining unit And steps to
(C) determining whether an error has occurred in another host that shares the identified physical device and logical device;
Is executed.

以上のように、本発明によれば、エラー内容と、エラー原因との関係を予め特定できていなくても、障害原因を分析することができ得る。   As described above, according to the present invention, it is possible to analyze the cause of a failure even if the relationship between the error content and the cause of the error cannot be specified in advance.

図1は、本発明の実施の形態の障害分析装置を含む、障害分析システムの概略構成を示すブロック図である。FIG. 1 is a block diagram showing a schematic configuration of a failure analysis system including a failure analysis apparatus according to an embodiment of the present invention. 図2は、構成情報蓄積部に含まれる、本実施の形態における動作に必要なデータテーブルを示す図である。FIG. 2 is a diagram showing a data table included in the configuration information storage unit and necessary for the operation in the present embodiment. 図3は、ホスト管理テーブルを示す図である。FIG. 3 shows a host management table. 図4は、物理ディスク管理テーブル、論理ディスク管理テーブル、およびNIC管理テーブルを示す図である。FIG. 4 is a diagram showing a physical disk management table, a logical disk management table, and a NIC management table. 図5は、リソース割り当てテーブルを示す図である。FIG. 5 is a diagram showing a resource allocation table. 図6は、メッセージの構造例を示す図である。FIG. 6 is a diagram illustrating an example of a message structure. 図7は、エラー原因絞込みの処理の流れを説明するためのフローチャートである。FIG. 7 is a flowchart for explaining the flow of processing for narrowing down the cause of error. 図8(a)は、発生ノード判定部が行う処理について説明するためのフローチャートであり、図7のステップS2の処理の詳細を示している。図8(b)は、メッセージ検索範囲算出部が行う処理について説明するためのフローチャートであり、図7のステップS3の処理の詳細を示している。FIG. 8A is a flowchart for explaining the process performed by the generation node determination unit, and shows details of the process in step S2 of FIG. FIG. 8B is a flowchart for explaining the process performed by the message search range calculation unit, and shows details of the process in step S3 in FIG. 図9は、エラー有無判定部が行う処理について説明するためのフローチャートであり、図7のステップS4の処理の詳細を示している。FIG. 9 is a flowchart for explaining the process performed by the error presence / absence determination unit, and shows details of the process in step S4 of FIG. 図10は、図9のステップS301〜S303についての詳細な処理の流れを説明するためのフローチャートである。FIG. 10 is a flowchart for explaining the detailed processing flow of steps S301 to S303 in FIG. 図11(a)は、被疑対象絞込み部が行う処理の流れを示すフローチャートであり、図11(b)は、ソート処理部が行う処理の流れを示すフローチャートである。FIG. 11A is a flowchart showing the flow of processing performed by the suspicious object narrowing unit, and FIG. 11B is a flowchart showing the flow of processing performed by the sort processing unit. 図12は、ステップS9〜S12について説明するためのフローチャートである。FIG. 12 is a flowchart for explaining steps S9 to S12.

以下、本発明の実施の形態における、障害分析装置について、図面を参照しながら説明する。   Hereinafter, a failure analysis apparatus according to an embodiment of the present invention will be described with reference to the drawings.

[装置構成]
図1は本発明の実施の形態に係る障害分析装置100を含む、障害分析システム1の概略構成を示すブロック図である。本実施の形態では、障害分析システム1は、障害分析装置100と、監視対象サーバ200と、オペレータが操作する監視端末300と、を備えている。
[Device configuration]
FIG. 1 is a block diagram showing a schematic configuration of a failure analysis system 1 including a failure analysis apparatus 100 according to an embodiment of the present invention. In the present embodiment, the failure analysis system 1 includes a failure analysis device 100, a monitoring target server 200, and a monitoring terminal 300 operated by an operator.

障害分析装置100は、後述するように、たとえば、サーバコンピュータによって構築することができる。監視対象サーバ200は、たとえば、サーバコンピュータによって構築することができる。監視対象サーバ200は、ハードディスクなどの物理デバイスと、論理デバイスと、をそれぞれ複数有している。また、監視対象サーバ200は、これら物理デバイスおよび論理デバイスを利用する、複数のホストを有している。当該複数のホストは、物理OS(Operating System)、ハイパバイザ、および仮想OSを含む。   The failure analysis device 100 can be constructed by, for example, a server computer, as will be described later. The monitoring target server 200 can be constructed by a server computer, for example. The monitoring target server 200 has a plurality of physical devices such as hard disks and logical devices. Moreover, the monitoring target server 200 has a plurality of hosts that use these physical devices and logical devices. The plurality of hosts includes a physical OS (Operating System), a hypervisor, and a virtual OS.

監視端末300には、コンピュータが含まれる。障害分析装置100と、監視対象サーバ200とは、ネットワーク400を介して接続されている。また、障害分析装置100と、監視端末300とは、ネットワーク400を介して接続されている。   The monitoring terminal 300 includes a computer. The failure analysis apparatus 100 and the monitoring target server 200 are connected via a network 400. In addition, the failure analysis apparatus 100 and the monitoring terminal 300 are connected via a network 400.

障害分析装置100は、入手部131と、エラー有無判定部153と、を含んでいる。入手部131は、監視対象サーバ200の各ホストのそれぞれが利用する物理デバイスの情報および論理デバイスを特定する情報(デバイス情報)を、監視対象サーバ200から入手する。   The failure analysis apparatus 100 includes an acquisition unit 131 and an error presence / absence determination unit 153. The obtaining unit 131 obtains, from the monitoring target server 200, information on the physical devices used by each host of the monitoring target server 200 and information (device information) for specifying a logical device.

エラー有無判定部153は、監視対象サーバ200の複数のホストのうち、エラーが発生したエラー発生ホストのホスト名と、入手部131で入手したデバイス情報とから、エラー発生ホストが利用している物理デバイスおよび論理デバイスを特定する。エラー有無判定部153は、さらに、特定された物理デバイスおよび論理デバイスを共用する他のホストで、エラーが発生しているか否かを判定する。   The error presence / absence determination unit 153 uses the host name of the error-occurring host in which an error has occurred among the plurality of hosts of the monitoring target server 200 and the device used by the error-occurring host from the device information obtained by the obtaining unit 131. Identify devices and logical devices. The error presence / absence determination unit 153 further determines whether an error has occurred in another host that shares the specified physical device and logical device.

以上説明したように、本実施の形態では、エラー内容と、エラー原因との関係を予め障害分析装置100で特定できていなくても、障害原因を分析することが可能である。より具体的には、エラー発生ホストと、物理デバイスおよび論理デバイスの少なくとも一方を共用する他のホストにもエラーが生じている場合には、当該共用するデバイスがエラー原因であると分析することができる。一方、エラー発生ホストにはエラーが発生しているにも拘らず、上記他のホストにはエラーが生じていない場合には、エラー発生ホスト自身がエラー原因であると分析することができる。その結果、オペレータは、エラー発生原因を正確に知ることができ、エラー解消作業に迅速にとりかかることができる。   As described above, in the present embodiment, it is possible to analyze the cause of the failure even if the relationship between the error content and the cause of the error cannot be specified in advance by the failure analysis apparatus 100. More specifically, if an error has occurred in the host where the error occurred and another host that shares at least one of the physical device and the logical device, the shared device may be analyzed as the cause of the error. it can. On the other hand, when an error has occurred in the host in which the error occurred, but no error has occurred in the other host, it can be analyzed that the error host itself is the cause of the error. As a result, the operator can know the cause of the error accurately, and can quickly start the error elimination work.

以上が、障害分析装置100の概略説明である。次に、障害原因箇所絞込みシステム1の、より具体的な構成を、図1に加え、図2〜図6を用いて説明する。   The above is a schematic description of the failure analysis apparatus 100. Next, a more specific configuration of the failure cause location narrowing system 1 will be described with reference to FIGS. 2 to 6 in addition to FIG.

図1に示すように、本実施の形態では、監視対象サーバ200は、構成情報取得部201と、イベント蓄積部210とを含んでいる。構成情報取得部201は、監視対象サーバ200を構成するハードウェアの構成情報、およびソフトウェアの構成情報を、常時監視しており、これらの構成情報を、構成変更情報を含め取得する。なお、一般的に物理OS(Operating System)およびハイパバイザは、自身が利用している物理デバイス情報、および論理デバイス情報を管理している。構成情報の具体的な取得方法の一例としては、監視対象サーバ200側で提供しているAPI(Application Program Interface)を利用すること、または、エージェントプログラムを稼動させて、構成情報を取得すること、を挙げることができる。本実施の形態では、構成情報取得部201が取得した構成情報は、データ分析部132およびテーブル更新部133を介して、構成情報蓄積部140に格納される。また、本実施の形態では、監視対象サーバ200のイベント蓄積部210は、監視対象サーバ200で発生したイベント情報を格納する。   As shown in FIG. 1, in the present embodiment, the monitoring target server 200 includes a configuration information acquisition unit 201 and an event storage unit 210. The configuration information acquisition unit 201 constantly monitors hardware configuration information and software configuration information configuring the monitoring target server 200, and acquires the configuration information including configuration change information. In general, a physical OS (Operating System) and a hypervisor manage physical device information and logical device information used by the physical OS. As an example of a specific method for acquiring the configuration information, using the API (Application Program Interface) provided on the monitoring target server 200 side, or operating the agent program to acquire the configuration information, Can be mentioned. In the present embodiment, the configuration information acquired by the configuration information acquisition unit 201 is stored in the configuration information storage unit 140 via the data analysis unit 132 and the table update unit 133. In the present embodiment, the event accumulation unit 210 of the monitoring target server 200 stores event information generated in the monitoring target server 200.

本実施の形態では、監視端末300は、オペレータによって操作される。監視端末300は、メッセージ検索部301と、要求部310と、表示制御部313と、表示部314と、を含んでいる。   In the present embodiment, monitoring terminal 300 is operated by an operator. The monitoring terminal 300 includes a message search unit 301, a request unit 310, a display control unit 313, and a display unit 314.

本実施の形態では、メッセージ検索部301は、オペレータの操作に応じて、後述するメッセージ蓄積部110に蓄積されているメッセージから、たとえば、1つのメッセージを検索する。   In the present embodiment, the message search unit 301 searches, for example, one message from the messages stored in the message storage unit 110 described later according to the operation of the operator.

本実施の形態では、要求部310は、原因絞込み要求部311と、メッセージ一覧要求部312と、を含んでいる。本実施の形態では、原因絞込み要求部311は、メッセージ検索部301によって検索されたメッセージを見たオペレータによって操作される。原因絞込み要求部311は、エラーメッセージが生じた原因を絞り込む指令を、障害分析装置100へ与える。また、本実施の形態では、メッセージ一覧要求部312は、原因絞込み要求部311の操作に対して障害分析装置100から返された原因絞込みの結果を見たオペレータによって、操作される。メッセージ一覧要求部312は、エラーメッセージを検索した結果の一覧を作成する要求を、障害分析装置100へ与える。   In the present embodiment, request unit 310 includes a cause narrowing request unit 311 and a message list request unit 312. In the present embodiment, the cause narrowing request unit 311 is operated by an operator who viewed the message searched by the message search unit 301. The cause narrowing request unit 311 gives an instruction to narrow down the cause of the error message to the failure analysis apparatus 100. In the present embodiment, the message list request unit 312 is operated by an operator who has seen the result of the cause narrowing returned from the failure analysis apparatus 100 in response to the operation of the cause narrowing request unit 311. The message list request unit 312 gives the failure analysis apparatus 100 a request to create a list of results of searching for error messages.

本実施の形態では、表示制御部313は、与えられたデータに基づく画像を、液晶ディスプレイ等の表示部314の表示画面に表示させる。   In the present embodiment, the display control unit 313 displays an image based on given data on the display screen of the display unit 314 such as a liquid crystal display.

本実施の形態では、障害分析装置100は、メッセージ監視部101と、メッセージ蓄積部110と、デバイス情報整理部120と、処理部130と、結果出力部111と、を含んでいる。   In the present embodiment, the failure analysis apparatus 100 includes a message monitoring unit 101, a message storage unit 110, a device information organizing unit 120, a processing unit 130, and a result output unit 111.

本実施の形態では、メッセージ監視部101は、監視対象サーバ200のイベント蓄積部201に格納されるイベントを監視し、当該イベントをメッセージとして取得し、取得したメッセージを、メッセージ蓄積部110に格納する。   In the present embodiment, the message monitoring unit 101 monitors an event stored in the event storage unit 201 of the monitoring target server 200, acquires the event as a message, and stores the acquired message in the message storage unit 110. .

本実施の形態では、デバイス情報整理部120は、入手部131と、データ分析部132と、テーブル更新部133と、構成情報蓄積部140と、を含んでいる。   In the present embodiment, the device information organizing unit 120 includes an obtaining unit 131, a data analyzing unit 132, a table updating unit 133, and a configuration information accumulating unit 140.

本実施の形態では、構成情報監視部131は、監視対象サーバ200を構成するハードウェア情報、およびソフトウェア情報などの構成情報を、構成情報取得部201から取得する。   In the present embodiment, the configuration information monitoring unit 131 acquires configuration information such as hardware information and software information configuring the monitoring target server 200 from the configuration information acquisition unit 201.

本実施の形態では、構成情報監視部131で得られた情報は、データ分析部132で情報毎にまとめられ、分析および分類される。当該分析されたデータは、テーブル更新部133によって、構成情報蓄積部140に登録される。   In the present embodiment, the information obtained by the configuration information monitoring unit 131 is collected for each information by the data analysis unit 132 and analyzed and classified. The analyzed data is registered in the configuration information storage unit 140 by the table update unit 133.

図2は、構成情報蓄積部140に含まれる、本実施形態における動作に必要なデータテーブル141〜145を示す図である。図2に示すように、本実施の形態では、構成情報蓄積部140は、物理デバイスおよび論理デバイスとホストとの関係などを示すテーブルを格納している。より具体的には、構成情報蓄積部140は、ホスト管理テーブル141と、物理ディスク管理テーブル142と、論理ディスク管理テーブル143と、NIC(Network Interface Card )管理テーブル144と、リソース割り当てテーブル145と、を格納している。   FIG. 2 is a diagram illustrating data tables 141 to 145 included in the configuration information storage unit 140 and necessary for operations in the present embodiment. As shown in FIG. 2, in the present embodiment, the configuration information storage unit 140 stores a table indicating the relationship between physical devices, logical devices, and hosts. More specifically, the configuration information storage unit 140 includes a host management table 141, a physical disk management table 142, a logical disk management table 143, a NIC (Network Interface Card) management table 144, a resource allocation table 145, Is stored.

図3は、ホスト管理テーブル141を示す図である。図3に示すように、本実施の形態では、ホスト管理テーブル141は、全ホスト名を管理するテ−ブル1411と、ハイパバイザであるホスト名を管理するテーブル1412と、ハイパバイザ上に構成された仮想ホスト名を管理するテーブル1413と、を含んでいる。これらのテーブル1411、1412、1413の情報は、互いに関係付けられている。   FIG. 3 is a diagram showing the host management table 141. As shown in FIG. 3, in this embodiment, the host management table 141 includes a table 1411 for managing all host names, a table 1412 for managing host names that are hypervisors, and a virtual configured on the hypervisor. And a table 1413 for managing host names. Information in these tables 1411, 1412, and 1413 is related to each other.

本実施の形態では、テーブル1411は、ホストIDと、当該ホストIDに対応するホスト名とを格納している。テーブル1411は、たとえば、ホストID1のホスト名をVM1として格納し、ホストD2のホスト名をGuest2として格納している。さらに、テーブル1411は、ホストID3,4,5,6,…のホスト名を、それぞれ、Guest2,VM2,Guest3,host1,…として格納している。また、テーブル1412は、ハイパバイザIDと、当該ハイパバイザIDに対応するホスト名とを格納している。テーブル1412は、たとえば、ハイパバイザID1のホスト名をVM1として格納している。また、テーブル1413は、仮想ホストIDと、当該ホストIDに対応するホスト名とを格納している。テーブル1413は、たとえば、仮想ホストID1のホスト名をGuest1として格納し、仮想ホストID2のホスト名をGuest2として格納している。   In this embodiment, the table 1411 stores a host ID and a host name corresponding to the host ID. The table 1411 stores, for example, the host name of the host ID 1 as VM1 and the host name of the host D2 as Guest2. Further, the table 1411 stores host names of host IDs 3, 4, 5, 6,... As Guest 2, VM 2, Guest 3, host 1,. The table 1412 stores a hypervisor ID and a host name corresponding to the hypervisor ID. The table 1412 stores, for example, the host name of the hypervisor ID 1 as VM1. The table 1413 stores a virtual host ID and a host name corresponding to the host ID. For example, the table 1413 stores the host name of the virtual host ID 1 as Guest 1 and stores the host name of the virtual host ID 2 as Guest 2.

図4は、物理ディスク管理テーブル142、論理ディスク管理テーブル143、およびNIC管理テーブル144を示す図である。図4に示すように、ディスク管理テーブル142は、全監視対象の物理ディスクを管理するテーブル1421と、物理ディスク毎に利用ホストを管理するテーブル1422と、を含んでおり、ホスト名から、利用している物理ディスクを特定する。   FIG. 4 is a diagram showing the physical disk management table 142, the logical disk management table 143, and the NIC management table 144. As shown in FIG. 4, the disk management table 142 includes a table 1421 for managing all the physical disks to be monitored and a table 1422 for managing the use host for each physical disk. Identify the physical disk

本実施の形態では、テーブル1421は、物理ディスクIDと、当該物理ディスクIDに対応するディスク名とを格納している。テーブル1421は、たとえば、物理ディスクID1のディスク名をDiskAとして格納し、物理ディスクID2のディスク名をDiskBとして格納し、物理ディスクID3のディスク名をDiskCとして格納している。また、本実施の形態では、テーブル1422は、物理DiskAを利用するホストIDと、当該ホストIDに対応するホスト名とを格納している。テーブル1422は、たとえば、物理DiskAにおけるホストID1のホスト名をVM1として格納し、物理DiskAにおけるホストID4のホスト名をVM2として格納している。なお、図4では、物理ディスクAに対応するホストIDおよびホスト名を図示しているが、テーブル1422は、物理ディスクB、C、…、の各物理ディスクに対応するホストIDおよびホスト名も格納している。   In this embodiment, the table 1421 stores a physical disk ID and a disk name corresponding to the physical disk ID. The table 1421 stores, for example, the disk name of the physical disk ID1 as DiskA, the disk name of the physical disk ID2 as DiskB, and the disk name of the physical disk ID3 as DiskC. In this embodiment, the table 1422 stores a host ID that uses the physical Disk A and a host name corresponding to the host ID. For example, the table 1422 stores the host name of the host ID 1 in the physical disk A as VM1 and stores the host name of the host ID 4 in the physical disk A as VM2. 4 illustrates the host ID and host name corresponding to the physical disk A, the table 1422 also stores the host ID and host name corresponding to each of the physical disks B, C,. doing.

本実施の形態では、論理ディスク管理テーブル143は、物理ディスク管理テーブル1421の各物理ディスクと対応する論理ディスク名を格納したテーブル1431を含んでいる。このテーブル1431には、論理ディスクを利用しているホスト名を格納したテーブル1432が紐づいている。これにより、ホスト名から、利用している論理ディスクを特定することが可能となっている。なお、本実施の形態では、テーブル1431は、論理ディスクIDと、当該論理ディスクIDに対応する論理ディスク名とを格納している。テーブル1431は、たとえば、論理ディスクID1の論理ディスク名を論理Aとして格納し、論理ディスクID2の論理ディスク名を論理Bとして格納し、論理ディスクID3の論理ディスク名を論理Cとして格納している。なお、図4では、物理ディスクAに対応する論理ディスクについて、テーブル1431で図示しているが、テーブル1431は、物理ディスクB、C、…、の各物理ディスクに対応する論理ディスクの情報も格納している。   In this embodiment, the logical disk management table 143 includes a table 1431 that stores logical disk names corresponding to the physical disks in the physical disk management table 1421. This table 1431 is linked to a table 1432 that stores the names of hosts using logical disks. This makes it possible to specify the logical disk being used from the host name. In this embodiment, the table 1431 stores a logical disk ID and a logical disk name corresponding to the logical disk ID. For example, the table 1431 stores the logical disk name of the logical disk ID 1 as logical A, stores the logical disk name of the logical disk ID 2 as logical B, and stores the logical disk name of the logical disk ID 3 as logical C. In FIG. 4, the logical disk corresponding to the physical disk A is shown as a table 1431. However, the table 1431 also stores information on the logical disks corresponding to the physical disks B, C,. doing.

本実施の形態では、NIC管理テーブル144は、全監視対象の物理NICを管理するテーブルであり、テーブル1441と、NIC毎に利用ホストを管理するテーブル1442と、を含んでいる、これにより、ホスト名から、利用しているNICを特定することが可能となっている。本実施の形態では、テーブル1441は、NICIDと、当該NICIDに対応するMAC(Media Access Control)アドレス名とを格納している。テーブル1441は、たとえば、NICID1のMACアドレスをMAC1として格納し、NICID2のMACアドレスをMAC2として格納し、NICID3のMACアドレスをMAC3として格納している。図4では、MAC1に対するホストIDおよびホスト名について図示しているが、テーブル1442は、MAC2、MAC3の各MACアドレスに対応するホストの情報も格納している。   In the present embodiment, the NIC management table 144 is a table for managing all the physical NICs to be monitored, and includes a table 1441 and a table 1442 for managing the use host for each NIC. It is possible to identify the NIC being used from the name. In this embodiment, the table 1441 stores NICIDs and MAC (Media Access Control) address names corresponding to the NICIDs. For example, the table 1441 stores the MAC address of NICID1 as MAC1, stores the MAC address of NICID2 as MAC2, and stores the MAC address of NICID3 as MAC3. Although FIG. 4 illustrates the host ID and host name for MAC1, the table 1442 also stores host information corresponding to the MAC addresses of MAC2 and MAC3.

図5は、リソース割り当てテーブル145を示す図である。本実施の形態では、図5に示すように、リソース割り当てテーブル145は、ハイパバイザテーブル1451と、NICテーブル1452と、論理ディスクテーブル1453と、仮想ホストテーブル1454と、を含んでいる。   FIG. 5 is a diagram showing the resource allocation table 145. In the present embodiment, as shown in FIG. 5, the resource allocation table 145 includes a hypervisor table 1451, a NIC table 1452, a logical disk table 1453, and a virtual host table 1454.

本実施の形態では、ハイパバイザテーブル1451は、ハイパバイザIDと、当該ハイパバイザIDに対応するホスト名とを格納している。ハイパバイザテーブル1451は、たとえば、ハイパバイザID1のホスト名をVM1として格納している。また、本実施の形態では、NICテーブル1452は、NICIDと、当該NICIDに対応するMACアドレスとを格納している。NICテーブル1452は、たとえば、NICID1、NICID2、NICID3のMACアドレス名、それぞれ、をMAC1、MAC2、MAC3として格納している。また、本実施の形態では、論理ディスクテーブル1453は、論理ディスクIDと、当該論理ディスクIDに対応する論理ディスク名とを格納している。論理ディスクテーブル1453は、たとえば、論理ディスクID1、ID2、ID3の論理ディスク名を、それぞれ、論理A、論理B、論理Cとして格納している。また、本実施の形態では、仮想ホストテーブル1454は、仮想ホストIDと、当該仮想ホストIDに対応するホスト名とを格納している。仮想ホストテーブル1454は、たとえば、仮想ホストIDのホスト名をGuest1として格納している。   In the present embodiment, the hypervisor table 1451 stores a hypervisor ID and a host name corresponding to the hypervisor ID. The hypervisor table 1451 stores, for example, the host name of the hypervisor ID1 as VM1. In the present embodiment, the NIC table 1452 stores NICID and a MAC address corresponding to the NICID. The NIC table 1452 stores, for example, MACID names of NICID1, NICID2, and NICID3 as MAC1, MAC2, and MAC3, respectively. In this embodiment, the logical disk table 1453 stores a logical disk ID and a logical disk name corresponding to the logical disk ID. The logical disk table 1453 stores, for example, logical disk names of logical disks ID1, ID2, and ID3 as logical A, logical B, and logical C, respectively. In this embodiment, the virtual host table 1454 stores a virtual host ID and a host name corresponding to the virtual host ID. The virtual host table 1454 stores, for example, the host name of the virtual host ID as Guest1.

本実施の形態では、リソース割り当てテーブル145において、ハイパバイザが各仮想ホストに割り当てるリソース情報を含む仮想ホストテーブル1454と、NICテーブル1452と、論理ディスクテーブル1453と、が関係づけられている。これにより、仮想ホスト名から、割り当てられたデバイス情報を特定することが可能となる。なお、NICテーブル1452および論理ディスクテーブル1453は、それぞれ、ハイパバイザテーブル1451と関係づけられている。これにより、ホスト名から、当該ホストが利用するハイパバイザを特定することができる。   In the present embodiment, in the resource allocation table 145, a virtual host table 1454 including resource information allocated to each virtual host by the hypervisor, a NIC table 1452, and a logical disk table 1453 are associated with each other. Thereby, it is possible to specify the assigned device information from the virtual host name. Each of the NIC table 1452 and the logical disk table 1453 is related to the hypervisor table 1451. Thereby, the hypervisor used by the host can be specified from the host name.

次に、図1に示すように、本実施形態における原因絞込みを実施する処理部130について説明する。本実施の形態では、処理部130は、発生ノード判定部151と、メッセージ抽出範囲算出部152と、エラー有無判定部153と、被疑対象絞込み部154と、ソート処理部155と、を含んでいる。本実施の形態では、処理部130は、構成情報蓄積部140およびメッセージ蓄積部110のそれぞれと接続されている。   Next, as illustrated in FIG. 1, a processing unit 130 that performs cause narrowing in this embodiment will be described. In the present embodiment, the processing unit 130 includes a generation node determination unit 151, a message extraction range calculation unit 152, an error presence / absence determination unit 153, a suspicious object narrowing unit 154, and a sort processing unit 155. . In the present embodiment, processing unit 130 is connected to each of configuration information storage unit 140 and message storage unit 110.

本実施の形態では、発生ノード判定部151は、メッセージ発生源が仮想ホストであるか否かを判定する。メッセージ検索範囲算出部152は、オペレータによって選択されたエラーの発生時を基準に、当該事象発生前後のどれくらいの期間のメッセージを検索対象とするが決定する。エラー有無判定部153は、抽出した期間内に発生ノードなどでエラーメッセージが発生していたか否かを判定する。本実施の形態では、被疑対象絞込み部154は、エラーメッセージが出ているホスト数の割合から被疑対象デバイスを絞り込む。ソート処理部155は、被疑対象絞込み部154からの出力データを並び替える。   In the present embodiment, the generation node determination unit 151 determines whether or not the message generation source is a virtual host. The message search range calculation unit 152 determines, based on the time of occurrence of the error selected by the operator, how long a message before and after the event occurs is to be searched. The error presence / absence determination unit 153 determines whether or not an error message has occurred in the generation node or the like within the extracted period. In the present embodiment, the suspected object narrowing unit 154 narrows down suspected devices from the ratio of the number of hosts that have issued error messages. The sort processing unit 155 rearranges the output data from the suspected object narrowing unit 154.

本実施の形態では、処理部150は、ソート処理部155でソートされたデータは、結果出力部111によって、ネットワーク400を通じて、監視端末300の表示制御部313へ出力される。表示制御部313は、受けたデータを、監視端末300の表示部314に表示する。これにより、障害分析装置100は、監視端末300を利用するオペレータに、要求部310の操作に対する結果を返す。本実施の形態では、原因絞込み要求部311からの要求により、発生ノード判定部151、メッセージ抽出範囲算出部152、エラー有無判定部153、被疑対象絞込み部154、およびソート処理部155の処理が実行される。原因絞込み要求部311の要求は、発生ノード判定部151へ与えられる。   In the present embodiment, the processing unit 150 outputs the data sorted by the sort processing unit 155 to the display control unit 313 of the monitoring terminal 300 via the network 400 by the result output unit 111. The display control unit 313 displays the received data on the display unit 314 of the monitoring terminal 300. As a result, the failure analysis apparatus 100 returns the result of the operation of the request unit 310 to the operator who uses the monitoring terminal 300. In the present embodiment, in response to a request from the cause narrowing request unit 311, processing of the occurrence node determination unit 151, the message extraction range calculation unit 152, the error presence / absence determination unit 153, the suspected target narrowing unit 154, and the sort processing unit 155 is executed. Is done. The request of the cause narrowing request unit 311 is given to the generation node determination unit 151.

また、本実施の形態では、処理部130は、要求対象判定部161と、メッセージ検索部162と、を更に含んでいる。要求対象判定部161は、メッセージ要求対象ホストを特定する。メッセージ検索部162は、特定のホストについてのメッセージをメッセージ蓄積部110内から検索する。ソート処理部155は、検索されたメッセージを所定のルールに従って並び替える。本実施の形態では、当該メッセージに関する処理は、メッセージ一覧要求部312からの要求により実行される。メッセージ一覧要求部312の要求は、要求対象判定部161へ与えられる。   In the present embodiment, the processing unit 130 further includes a request target determination unit 161 and a message search unit 162. The request target determination unit 161 specifies a message request target host. The message search unit 162 searches the message storage unit 110 for a message about a specific host. The sort processing unit 155 sorts the retrieved messages according to a predetermined rule. In the present embodiment, processing related to the message is executed by a request from the message list request unit 312. The request from the message list request unit 312 is given to the request target determination unit 161.

前述したように、監視端末300は、メッセージ検索部301を含んでいる。メッセージ検索部301は、ネットワーク400を介してメッセージ蓄積部110に接続されている。メッセージ検索部301は、メッセージ蓄積部110に保存されているメッセージに対して検索を行うことで、任意のメッセージを参照することができる。なお、メッセージ蓄積部110に蓄積されているメッセージの構造例は、図6に示すとおりである。   As described above, the monitoring terminal 300 includes the message search unit 301. The message search unit 301 is connected to the message storage unit 110 via the network 400. The message search unit 301 can refer to an arbitrary message by searching for a message stored in the message storage unit 110. An example of the structure of messages stored in the message storage unit 110 is as shown in FIG.

図6は、メッセージの構造例を示す図である。本実施の形態では、メッセージ蓄積部110に蓄積されるメッセージは、発生ノード1101、メッセージID1102、メッセージ内容1103、アラートレベル1104、発生日1105、および発生時間1106を含んでいる。   FIG. 6 is a diagram illustrating an example of a message structure. In the present embodiment, the message stored in the message storage unit 110 includes the generation node 1101, the message ID 1102, the message content 1103, the alert level 1104, the generation date 1105, and the generation time 1106.

発生ノード1101には、イベントが発生したホスト名が示されている。メッセージ内容1103には、具体的なイベント内容(エラー内容)が示されている。アラートレベル1104には、エラーが生じたイベントについて、”Error”が示されている。発生日1105には、イベントの発生日が示されている。発生時間1106には、イベントが発生した時刻が示されている。   The generation node 1101 indicates the name of the host where the event has occurred. The message content 1103 indicates specific event content (error content). The alert level 1104 indicates “Error” for an event in which an error has occurred. The occurrence date 1105 indicates the date of occurrence of the event. The occurrence time 1106 indicates the time when the event occurred.

[本実施の形態における動作の説明]
[動作の概要]
図1に示すように、本実施の形態では、監視対象サーバ200にエラーが発生した場合、オペレータは、監視端末300の原因絞込み要求部311を操作することで、エラーに関連すると判断したメッセージを1つ選択する。これに基づき、障害分析装置100は、そのメッセージを発生したエラー発生ホストと、デバイス情報とを関連づける。そして、障害分析装置100は、エラーメッセージを発生したホストと、デバイスを共用している1または複数のホストを抽出する。
[Description of operation in this embodiment]
[Overview of operation]
As shown in FIG. 1, in the present embodiment, when an error occurs in the monitoring target server 200, the operator operates the cause narrowing request unit 311 of the monitoring terminal 300 to display a message that is determined to be related to the error. Select one. Based on this, the failure analysis apparatus 100 associates the error occurrence host that generated the message with the device information. Then, the failure analysis apparatus 100 extracts one or a plurality of hosts sharing the device with the host that has generated the error message.

さらに、障害分析装置100は、上記エラー発生時近辺に、上記共用のホストにエラーが発生しているか判定する。そして、障害分析装置100は、エラーの発生の有無を判定した判定結果に基づき、エラーの発生原因として疑われる被疑対象デバイス、および被疑対象デバイスを利用するホストの一覧を作成する。そして、障害分析装置100は、作成したホストの一覧を監視端末300に返す。被疑対象デバイス、および被疑対象デバイスを利用するホストに関して、メッセージ一覧要求部312の操作に基づいて、メッセージ一覧の要求がある場合、障害分析装置100は、メッセージ蓄積部110内を検索する。そして、障害分析装置100は、被疑対象デバイスまたは当該デバイスを利用するホストのメッセージを検索し、監視端末300へ検索結果を出力する。   Furthermore, the failure analysis apparatus 100 determines whether an error has occurred in the shared host near the time of the error occurrence. Then, the failure analysis apparatus 100 creates a list of suspected devices suspected of causing the error and hosts that use the suspected device based on the determination result of determining whether or not an error has occurred. Then, the failure analysis apparatus 100 returns the created host list to the monitoring terminal 300. When there is a message list request for the suspected device and the host using the suspected device, based on the operation of the message list requesting unit 312, the failure analysis apparatus 100 searches the message storage unit 110. Then, the failure analysis apparatus 100 searches for a suspected device or a message of a host that uses the device, and outputs the search result to the monitoring terminal 300.

[本実施の形態における動作の詳細な説明]
次に、本実施の形態における障害分析装置100の動作の詳細について、図7〜図12を用いて説明する。図7は、エラー原因絞込みの処理の流れを説明するためのフローチャートである。また、以下の説明においては、適宜、図1〜図6を参照する。また、本実施の形態では、障害分析装置100を動作させることによって、障害分析方法が実施される。よって、本実施の形態における、障害分析方法の説明は、以下の障害分析装置100の動作説明に代える。
[Detailed description of operation in this embodiment]
Next, details of the operation of the failure analysis apparatus 100 according to the present embodiment will be described with reference to FIGS. FIG. 7 is a flowchart for explaining the flow of processing for narrowing down the cause of error. Moreover, in the following description, FIGS. 1-6 is suitably referred. In the present embodiment, the failure analysis method is performed by operating the failure analysis apparatus 100. Therefore, the description of the failure analysis method in the present embodiment is replaced with the following description of the operation of the failure analysis apparatus 100.

図7に示すように、本実施の形態では、障害分析装置100は、任意のエラーメッセージ1件に対して、原因絞込み要求があるか否かを判定する(ステップS1)。たとえば、オペレータが原因絞込み要求部311を操作することにより、任意のエラーメッセージ1件に関する原因絞込み要求が発せられると(ステップS1でYES)、発生ノード判定部151が処理を行う(ステップS2)。次に、メッセージ検索範囲算出部152が処理を行い(ステップS3)、以後、順に、エラー有無判定部153、被疑対象絞込み部154、ソート処理部155が処理を行う(ステップS4、S5、S6)。ソート処理部155でソートされた、障害原因の被疑対象の推定結果は、結果出力部111が、ネットワーク400を介して監視端末300の表示制御部313へ出力する(ステップS7)。これにより、上記被疑対象の推定結果は、表示部314に表示される。   As shown in FIG. 7, in the present embodiment, the failure analysis apparatus 100 determines whether there is a cause narrowing request for one arbitrary error message (step S1). For example, when a cause narrowing request for one arbitrary error message is issued by operating the cause narrowing request unit 311 (YES in step S1), the occurrence node determination unit 151 performs processing (step S2). Next, the message search range calculation unit 152 performs processing (step S3), and thereafter, the error presence / absence determination unit 153, the suspicious object narrowing unit 154, and the sort processing unit 155 perform processing in order (steps S4, S5, and S6). . The result output unit 111 outputs the estimation result of the suspected cause of failure sorted by the sort processing unit 155 to the display control unit 313 of the monitoring terminal 300 via the network 400 (step S7). Thereby, the estimation result of the suspected object is displayed on the display unit 314.

次に、被疑対象デバイスの推定結果を見たオペレータによって、メッセージ一覧要求部312が操作されることにより、上記被疑対象に対する検索要求が障害分析装置100へ発せられると(ステップS8でYES)、要求対象判定部161、メッセージ検索部162、およびソート処理部155が、順に処理を行う(ステップS9、S10、S11)。ソート処理部155でソートされた、被疑対象に関するメッセージの一覧は、結果出力部111がネットワーク400を介して、監視端末300の表示制御部313へ出力する(ステップS12)。これにより、当該メッセージ一覧は、表示部314に表示される。   Next, when a search request for the suspected object is issued to the failure analysis apparatus 100 by operating the message list request unit 312 by the operator who has seen the estimation result of the suspected object device (YES in step S8), the request is made. The object determination unit 161, the message search unit 162, and the sort processing unit 155 perform processing in order (steps S9, S10, and S11). The result output unit 111 outputs the list of messages related to the suspected object sorted by the sort processing unit 155 to the display control unit 313 of the monitoring terminal 300 via the network 400 (step S12). Thereby, the message list is displayed on the display unit 314.

上記したように、本実施の形態において、障害原因絞込みの処理は大きく分けて2段階ある。1段階目の処理は、1件のエラーメッセージから、原因と考えられるデバイス、および関連するホスト名を列挙する処理(ステップS2〜S6)である。2段階目の処理は、列挙された対象についてメッセージ検索を行う処理(ステップS9〜S11)である。まず、前者の処理(ステップS2〜S6)について、図8〜図11を用いて説明する。   As described above, in the present embodiment, failure cause narrowing-down processing is roughly divided into two stages. The first-stage process is a process (steps S2 to S6) for enumerating a possible device and a related host name from one error message. The second stage process is a process (steps S9 to S11) for performing a message search for the listed objects. First, the former process (steps S2 to S6) will be described with reference to FIGS.

図8(a)は、発生ノード判定部151が行う処理について説明するためのフローチャートであり、図7のステップS2の処理の詳細を示している。図8(b)は、メッセージ検索範囲算出部152が行う処理について説明するためのフローチャートであり、図7のステップS3の処理の詳細を示している。図9は、エラー有無判定部153が行う処理について説明するためのフローチャートであり、図7のステップS4の処理の詳細を示している。   FIG. 8A is a flowchart for explaining the process performed by the generation node determination unit 151, and shows details of the process in step S2 of FIG. FIG. 8B is a flowchart for explaining the process performed by the message search range calculation unit 152, and shows details of the process in step S3 of FIG. FIG. 9 is a flowchart for explaining the process performed by the error presence / absence determination unit 153, and shows details of the process in step S4 of FIG.

図7に示すように、たとえば、オペレータが、監視端末300の原因絞込み要求部311を操作することにより、原因絞込み要求部311から、あるエラーメッセージ1件について、障害分析装置100に処理を行う要求が発せられると、図8(a)に示すように、発生ノード判定部151は、メッセージ蓄積部110に蓄積されている指定されたメッセージの発生ノード1101のホスト名と、構成情報蓄積部140中のホスト管理テーブル141とを照合し、発生ノード1101のホスト名と一致するホスト名を取得する(ステップS101)。次に、発生ノード判定部151は、取得したホスト名に仮想ホストテーブル1413のホスト名が含まれるか否か判定する(ステップS102)。取得したホスト名に仮想ホストIDが含まれている場合(ステップS102でYES)、発生ノード判定部151は、メッセージ発生ノードが仮想ホストであると判定する(ステップS103)。一方、取得したホスト名に仮想ホストIDが含まれていない場合(ステップS102でNO)、メッセージ発生ノードは、物理ホスト、またはハイパバイザであると判定する(ステップS104)。   As illustrated in FIG. 7, for example, when the operator operates the cause narrowing request unit 311 of the monitoring terminal 300, the request from the cause narrowing request unit 311 to the fault analysis apparatus 100 to process one error message. 8a, as shown in FIG. 8A, the generation node determination unit 151 includes the host name of the generation node 1101 of the designated message stored in the message storage unit 110, and the configuration information storage unit 140. The host management table 141 is checked to obtain a host name that matches the host name of the source node 1101 (step S101). Next, the generation node determination unit 151 determines whether or not the acquired host name includes the host name of the virtual host table 1413 (step S102). When the acquired host name includes a virtual host ID (YES in step S102), the generation node determination unit 151 determines that the message generation node is a virtual host (step S103). On the other hand, if the acquired host name does not include a virtual host ID (NO in step S102), it is determined that the message generation node is a physical host or a hypervisor (step S104).

図8(b)に示すように、メッセージ検索範囲算出部152は、原因絞込み要求のあったエラーメッセージ中の発生日1105、および発生時間1106を中心に、すなわち、エラー発生状況に基づいて、エラー有無判定部153でエラーの判定対象とするメッセージ取得範囲を算出する(ステップS201)。メッセージ取得範囲の指定方法については特に限定されないが、本実施の形態では、原因絞込みを行っているエラーメッセージの発生時刻を基準として前後数秒または数十秒の期間に発生したメッセージを検索範囲対象とする。なお、メッセージ取得範囲の指定方法として、上記エラーメッセージの発生時刻の前後に発生した数十件のメッセージを検索対象範囲としてもよい。   As shown in FIG. 8B, the message search range calculation unit 152 sets the error based on the occurrence date 1105 and the occurrence time 1106 in the error message for which the cause narrowing request is made, that is, based on the error occurrence status. The presence / absence determination unit 153 calculates a message acquisition range as an error determination target (step S201). Although the method for specifying the message acquisition range is not particularly limited, in this embodiment, messages that occur within a period of several seconds or several tens of seconds before and after the occurrence time of the error message that is narrowing down the cause are targeted for the search range. To do. As a method for specifying the message acquisition range, dozens of messages generated before and after the error message generation time may be set as the search target range.

次に、図9に示すように、エラー有無判定部153は、構成情報蓄積部140を検索することにより、指定された発生ノード1101のホストが利用しているデバイス情報を抽出する(ステップS301)。   Next, as shown in FIG. 9, the error presence / absence determination unit 153 searches the configuration information storage unit 140 to extract device information used by the host of the specified generation node 1101 (step S301). .

次に、エラー有無判定部153は、指定された発生ノード1101のホストと論理デバイスを共用している全てのホストを抽出する(ステップS302)。次に、エラー有無判定部153は、指定された発生ノード1101のホストが利用する論理デバイスに紐づく全てのホストについて、ステップS201で算出されたメッセージ検索範囲に該当するメッセージを、メッセージ蓄積部110から検索する。そして、エラー有無判定部153は、当該期間にエラーが発生しているか否か、すなわち、アラートレベル1104がErrorであるメッセージが発生しているか否かを判定する(ステップS303)。   Next, the error presence / absence determination unit 153 extracts all the hosts that share the logical device with the host of the designated generation node 1101 (step S302). Next, the error presence / absence determination unit 153 sends messages corresponding to the message search range calculated in step S201 to the message storage unit 110 for all hosts associated with the logical device used by the host of the specified generation node 1101. Search from. Then, the error presence / absence determination unit 153 determines whether or not an error has occurred during the period, that is, whether or not a message with an alert level 1104 has occurred (step S303).

次に、エラー有無判定部153は、ステップS304、およびステップS305の処理を行う。ステップS304およびステップS305の処理は、論理デバイスについての検索処理(ステップS302、S303)と同様の処理であり、物理デバイスについての検索処理を行う。   Next, the error presence / absence determining unit 153 performs the processes of steps S304 and S305. The processes in step S304 and step S305 are the same as the search process for logical devices (steps S302 and S303), and the search process for physical devices is performed.

具体的には、エラー有無判定部153は、指定された発生ノード1101のホストと物理バイスを共用している全てのホストを抽出する(ステップS304)。次に、エラー有無判定部153は、指定された発生ノード1101のホストが利用する物理デバイスに紐づく全てのホストについて、ステップS201で算出されたメッセージ検索範囲に該当するメッセージを、メッセージ蓄積部110から検索する。そして、エラー有無判定部153は、当該期間にエラーが発生しているか否か、すなわち、アラートレベル1104がErrorであるメッセージが発生しているか否かを判定する(ステップS305)。   Specifically, the error presence / absence determination unit 153 extracts all the hosts that share the physical device with the host of the designated generation node 1101 (step S304). Next, the error presence / absence determination unit 153 sends messages corresponding to the message search range calculated in step S201 for all hosts associated with the physical device used by the host of the specified generation node 1101 to the message storage unit 110. Search from. Then, the error presence / absence determination unit 153 determines whether or not an error has occurred during the period, that is, whether or not a message with an alert level 1104 has occurred (step S305).

次に、エラー有無判定部153は、指定された発生ノード1101のホストが、仮想ホストであるか否かを確認する(ステップS306)。なお、発生ノード1101が仮想ホストであるか否かの判定は、予め発生ノード判定部151においてされているものである。エラー有無判定部153は、発生ノード1101が仮想ホストであると確認した場合(ステップS306でYES)、ステップS307に進む。ステップS307では、エラー有無判定部153は、仮想ホストの基盤となるハイパバイザを構成情報蓄積部140より特定し、ハイパバイザをエラー発生ノードと見立てる。次に、エラー有無判定部153は、ステップS301での処理と同様に、構成情報蓄積部140を検索することで、ハイパバイザが利用しているデバイス情報を抽出する(ステップS308)。次に、エラー有無判定部153は、ステップS309〜S312の処理を行うことで、エラー発生状況を判定する。   Next, the error presence / absence determination unit 153 confirms whether or not the host of the specified generation node 1101 is a virtual host (step S306). Whether or not the generation node 1101 is a virtual host is determined in advance in the generation node determination unit 151. If the error presence / absence determination unit 153 confirms that the generation node 1101 is a virtual host (YES in step S306), the process proceeds to step S307. In step S307, the error presence / absence determination unit 153 identifies the hypervisor serving as the base of the virtual host from the configuration information storage unit 140, and regards the hypervisor as an error occurrence node. Next, the error presence / absence determination unit 153 extracts the device information used by the hypervisor by searching the configuration information storage unit 140 in the same manner as the processing in step S301 (step S308). Next, the error presence / absence determination unit 153 determines the error occurrence status by performing the processing of steps S309 to S312.

なお、ステップS309およびステップS310の処理は、それぞれ、ステップS302およびステップS303の処理と同様である。また、ステップS311およびステップS312の処理は、それぞれ、ステップS302およびステップS303の処理と同様である。   Note that the processes in steps S309 and S310 are the same as the processes in steps S302 and S303, respectively. Further, the processes in steps S311 and S312 are the same as the processes in steps S302 and S303, respectively.

具体的には、エラー有無判定部153は、仮想ホストの基盤となるハイパバイザと論理デバイスを共用している全てのホストを抽出する(ステップS309)。次に、エラー有無判定部153は、上記ハイパバイザが利用する論理デバイスに紐づく全てのホストについて、ステップS201で算出されたメッセージ検索範囲に該当するメッセージを、メッセージ蓄積部110から検索する。そして、エラー有無判定部153は、当該期間にエラーが発生しているか否か、すなわち、アラートレベル1104がErrorであるメッセージが発生しているか否かを判定する(ステップS310)。   Specifically, the error presence / absence determination unit 153 extracts all the hosts that share the logical device with the hypervisor that is the basis of the virtual host (step S309). Next, the error presence / absence determination unit 153 searches the message storage unit 110 for messages corresponding to the message search range calculated in step S201 for all the hosts associated with the logical devices used by the hypervisor. Then, the error presence / absence determination unit 153 determines whether or not an error has occurred during the period, that is, whether or not a message with an alert level 1104 has occurred (step S310).

次に、エラー有無判定部153は、上記ハイパバイザと物理デバイスを共用している全てのホストを抽出する(ステップS311)。次に、エラー有無判定部153は、上記ハイパバイザが利用する物理デバイスに紐づく全てのホストについて、ステップS201で算出されたメッセージ検索範囲に該当するメッセージを、メッセージ蓄積部110から検索する。そして、エラー有無判定部153は、当該期間にエラーが発生しているか否か、すなわち、アラートレベル1104がErrorであるメッセージが発生しているか否かを判定する(ステップS312)。   Next, the error presence / absence determination unit 153 extracts all hosts sharing the physical device with the hypervisor (step S311). Next, the error presence / absence determination unit 153 searches the message storage unit 110 for messages corresponding to the message search range calculated in step S201 for all hosts associated with the physical device used by the hypervisor. Then, the error presence / absence determination unit 153 determines whether or not an error has occurred during the period, that is, whether or not a message having an alert level 1104 is generated (step S312).

次に、図10に示すステップS301〜S303についての詳細な処理の流れを説明する。図10は、図9のステップS301〜S303についての詳細な処理の流れを説明するためのフローチャートである。   Next, a detailed processing flow for steps S301 to S303 illustrated in FIG. 10 will be described. FIG. 10 is a flowchart for explaining the detailed processing flow of steps S301 to S303 in FIG.

ステップS3001は、ステップS301と同一の処理であり、エラー有無判定部153は、構成情報蓄積部140を検索することにより、指定された発生ノード1101のホストが利用している論理デバイスおよび物理デバイスの構成情報を抽出する。次に、ステップS3002では、エラー有無判定部153は、ステップS3001で取得した、指定された発生ノード1101のホストが利用している論理デバイス一覧と紐づくホストがあるか否かを、構成情報蓄積部140を参照して判定する(ステップS3002)。   Step S3001 is the same process as step S301, and the error presence / absence determination unit 153 searches the configuration information storage unit 140 to search for the logical device and physical device used by the host of the specified generation node 1101. Extract configuration information. Next, in step S3002, the error presence / absence determination unit 153 stores configuration information as to whether there is a host associated with the list of logical devices used by the host of the designated generation node 1101 acquired in step S3001. The determination is made with reference to the unit 140 (step S3002).

指定された発生ノード1101のホスト以外に論理デバイスを利用しているホストが存在しない場合(ステップS3002でNO)、エラー有無判定部153は、ステップS3008に進む。一方、発生ノード1101のホスト以外に論理デバイスを利用しているホストが存在する場合(ステップS3002でYES)、エラー有無判定部153は、指定された発生ノード110のホストと論理デバイスを共用する全てのホストを抽出する(ステップS3003)。次に、エラー有無判定部153は、抽出した中の一のホストについて、ステップS201で算出したメッセージ検索対象期間に該当するメッセージを、メッセージ蓄積部110内から検索する(ステップS3004)。次に、エラー有無判定部153は、検索したメッセージのうち、アラートレベル1104が”Error”となっているものが1件以上存在するか否かを判定する(ステップS3005)。アラートレベル1104が”Error”となっているものが1件以上存在する場合(ステップS3005でYES)、エラー有無判定部153は、カウント値を1つ加算する(ステップS3006)。一方、アラートレベル1104が”Error”となっているものが無い場合(ステップS305でNO)、エラー有無判定部153は、カウント値を加算しない。   If there is no host that uses a logical device other than the host of the specified generation node 1101 (NO in step S3002), the error presence / absence determination unit 153 proceeds to step S3008. On the other hand, when there is a host using a logical device other than the host of the generation node 1101 (YES in step S3002), the error presence / absence determination unit 153 shares all the logical devices with the specified host of the generation node 110. Are extracted (step S3003). Next, the error presence / absence determination unit 153 searches the message storage unit 110 for a message corresponding to the message search target period calculated in step S201 for one of the extracted hosts (step S3004). Next, the error presence / absence determination unit 153 determines whether or not one or more of the retrieved messages whose alert level 1104 is “Error” exist (step S3005). If one or more alert levels 1104 are “Error” (YES in step S3005), the error presence / absence determination unit 153 adds one count value (step S3006). On the other hand, when there is no alert level 1104 with “Error” (NO in step S305), the error presence / absence determination unit 153 does not add the count value.

次に、エラー有無判定部153は、指定された発生ノード1101のホストと論理デバイスを共用するホストのうち、ステップS3004〜S3006の処理が行われていないホストが存在しているか否かを判定する(ステップS3007)。指定された発生ノード1101のホストと論理デバイスを共用しているホストのうち、ステップS3004〜S3006の処理が行われていないホストが存在している場合(ステップS3007でYES)、エラー有無判定部153は、メッセージ検索対象のホストを当該ホストへシフトする(ステップS3008)。そして、エラー有無判定部153は、当該ホストについて、ステップS3004〜S3006の処理を繰り返す。   Next, the error presence / absence determination unit 153 determines whether there is a host that has not been subjected to the processing of steps S3004 to S3006 among the hosts that share the logical device with the host of the specified generation node 1101. (Step S3007). Of the hosts sharing the logical device with the host of the specified generation node 1101, if there is a host that has not been subjected to the processing of steps S3004 to S3006 (YES in step S3007), an error presence determination unit 153 Shifts the message search target host to the host (step S3008). Then, the error presence / absence determination unit 153 repeats the processing of steps S3004 to S3006 for the host.

一方、指定された発生ノード1101のホストと論理デバイスを共用しているホストの全てについて、ステップS3004〜S3006の処理が行われた場合(ステップS3007でNO)、エラー有無判定部153は、ステップS3009に進む。   On the other hand, when the processing of steps S3004 to S3006 has been performed for all of the hosts that share the logical device with the host of the specified generation node 1101 (NO in step S3007), the error presence / absence determination unit 153 determines whether or not step S3009 Proceed to

ステップS3009では、エラー有無判定部153は、指定された発生ノード1101のホストと、当該ホストと論理デバイスを共用する他のホストとを合わせた、当該論理デバイス上の全ホスト数に対する、ステップS3006カウント値(エラー発生ホスト数)の割合をエラー発生割合として算出する。例えば、ステップS3003で抽出されたホスト数が3、ステップS3006で加算されたカウント値が3であった場合、ステップS3009での算出値は、3/4≒0.8となる。上記の割合算出後、エラー有無判定部153は、ステップS3010に進む。ステップS3010では、エラー有無判定部153は、ステップS3001で抽出された論理デバイスのうち、ステップS3002〜S3009の処理定が行われていない論理デバイスがあるか否かを判定する。   In step S3009, the error presence / absence determination unit 153 counts step S3006 for the total number of hosts on the logical device including the host of the specified generation node 1101 and the other host sharing the logical device with the host. The ratio of the value (number of error-occurring hosts) is calculated as the error occurrence ratio. For example, if the number of hosts extracted in step S3003 is 3, and the count value added in step S3006 is 3, the calculated value in step S3009 is 3 / 4≈0.8. After the above ratio calculation, the error presence / absence determination unit 153 proceeds to step S3010. In step S3010, the error presence / absence determination unit 153 determines whether there is a logical device that has not been processed in steps S3002 to S3009 among the logical devices extracted in step S3001.

ステップS3002〜S3009の処理が行われていない論理デバイスがある場合には、エラー有無判定部153は、上記の処理が行われていない他の論理デバイスを処理対象にシフトし(ステップS3011)、ステップS3002〜S3009の処理を繰り返し行う。一方、ステップS3002〜S3009の処理が行われていない論理デバイスが無い場合(ステップS3010でNO)、エラー有無判定部153は、処理を終了する。   If there is a logical device for which the processes in steps S3002 to S3009 have not been performed, the error presence / absence determination unit 153 shifts another logical device for which the above process has not been performed to a processing target (step S3011), The processes of S3002 to S3009 are repeated. On the other hand, when there is no logical device for which the processes of steps S3002 to S3009 are not performed (NO in step S3010), the error presence / absence determining unit 153 ends the process.

なお、図9に示すステップS304〜305の処理は、図10に示すステップS3002〜S3011の処理における「論理デバイス」を、「物理デバイス」に置き換えた場合と同一の処理となるので、詳細な説明は省略する。   The processing in steps S304 to S305 shown in FIG. 9 is the same as that in the case where “logical device” in the processing in steps S3002 to S3011 shown in FIG. 10 is replaced with “physical device”. Is omitted.

また、図9に示すステップS308〜S310の処理は、図10に示すステップS30001〜S3011の処理における「発生ノード1101のホスト」を「ハイパバイザ」に置き換えた場合と同一の処理となるので、詳細な説明は省略する。さらに、図9に示すステップS311〜S312の処理は、図10に示すステップS3002〜S3011の処理における「発生ノード1101のホスト」を「ハイパバイザ」に置き換え、かつ、「論理デバイス」を「物理デバイス」に置き換えた場合と同一の処理となるので、詳細な説明は省略する。   Further, the processing of steps S308 to S310 shown in FIG. 9 is the same as the processing when “host of the generation node 1101” in the processing of steps S30001 to S3011 shown in FIG. 10 is replaced with “hypervisor”. Description is omitted. Further, in the processing of steps S311 to S312 shown in FIG. 9, “host of the generation node 1101” in the processing of steps S3002 to S3011 shown in FIG. 10 is replaced with “hypervisor”, and “logical device” is replaced with “physical device”. Since the processing is the same as that in the case of replacing with, detailed description is omitted.

次に、図11(a)および図11(b)に示す、被疑対象絞込み部154、およびソート処理部155での処理の流れを説明する。図11(a)は、被疑対象絞込み部154が行う処理の流れを示すフローチャートであり、図11(b)は、ソート処理部155が行う処理の流れを示すフローチャートである。   Next, the flow of processing in the suspicious object narrowing unit 154 and the sort processing unit 155 shown in FIGS. 11A and 11B will be described. FIG. 11A is a flowchart illustrating a flow of processing performed by the suspicious object narrowing unit 154, and FIG. 11B is a flowchart illustrating a flow of processing performed by the sort processing unit 155.

図11(a)に示すように、被疑対象絞込み部154は、ステップS3009(図10参照)で算出された、各論理デバイスおよび各物理デバイスのそれぞれにおける、エラー発生割合を基に、エラー原因として疑われる被疑デバイスを絞り込む基準を決定する(ステップS401)。本実施の形態では、絞込み基準は、たとえば、各論理デバイスおよび各物理デバイスのそれぞれにおいて、エラー発生割合の値が高いもの上位5件を被疑デバイスとすること、または、エラー発生割合が50%を超えるものは全て被疑対象デバイスとすることなどが考えられる。   As shown in FIG. 11A, the suspicious object narrowing unit 154 determines the error cause based on the error occurrence ratio in each logical device and each physical device calculated in step S3009 (see FIG. 10). A criterion for narrowing down the suspected device is determined (step S401). In the present embodiment, the narrowing criteria is, for example, that each of the logical device and each physical device has the highest error occurrence ratio value as the top five cases, or the error occurrence ratio is 50%. Anything beyond that could be considered a suspected device.

被疑対象絞込み部154は、絞り込む基準を決定した後、各論理デバイスおよび各物理デバイスのそれぞれについて、エラー発生割合と絞込み基準とを照合する。そして、被疑対象絞込み部154は、基準を満たすデバイスを被疑対象デバイスとして抽出する(ステップS402)。その後、被疑対象絞込み部154は、被疑対象デバイスを利用する全ホスト名の一覧、構成情報蓄積部140を検索することで取得し(ステップS403)、処理を終える。   After determining the criteria for narrowing down, the suspected subject narrowing-down unit 154 collates the error occurrence rate and the narrowing-down criteria for each logical device and each physical device. Then, the suspected object narrowing unit 154 extracts devices that satisfy the criteria as suspected devices (step S402). Thereafter, the suspected object narrowing unit 154 obtains a list of all host names that use the suspected device by searching the configuration information accumulating unit 140 (step S403), and ends the process.

次に、図11(b)に示すように、ソート処理部155では、被疑対象絞込み部154で得られた、被疑対象デバイスの全ホスト名の情報を、監視端末300を利用するオペレータに返すために、情報の整理を行う(ステップS501)。監視端末300に返す情報は、被疑対象デバイス、被疑デバイスの全ホスト名、および、各被疑対象デバイスのエラー発生割合である。ソート処理部155は、これらの情報をソートする。その後ソートされた結果は、図7に示すように、結果出力部111へ出力される。結果出力部111は、これらの情報を、ネットワークを介して監視端末300の表示制御部313へ出力する(ステップS7)。これにより、上記の情報は、表示部314に表示され、表示内容をオペレータが確認可能となる。   Next, as shown in FIG. 11B, the sort processing unit 155 returns the information on all the host names of the suspected device obtained by the suspected target narrowing unit 154 to the operator who uses the monitoring terminal 300. Then, the information is organized (step S501). The information returned to the monitoring terminal 300 is the suspected device, all host names of the suspected device, and the error occurrence rate of each suspected device. The sort processing unit 155 sorts these pieces of information. The sorted results are output to the result output unit 111 as shown in FIG. The result output unit 111 outputs these pieces of information to the display control unit 313 of the monitoring terminal 300 via the network (step S7). Thus, the above information is displayed on the display unit 314, and the operator can confirm the display contents.

次に、ステップS8〜S12のフロー、すなわち、エラー原因として推定される被疑対象デバイスが抽出された後の処理について、図12を用いて説明する。図12は、ステップS9〜S12について説明するためのフローチャートである。   Next, the flow after steps S8 to S12, that is, the process after the suspected target device estimated as the cause of error is extracted will be described with reference to FIG. FIG. 12 is a flowchart for explaining steps S9 to S12.

図7に示すように、監視端末300の表示部314に表示された情報に基づいて、オペレータが、メッセージ一覧要求部312を操作することで、メッセージ検索要求が出された場合(ステップS8でYES)、図12に示すように、要求対象判定部161におけるステップS601が開始される。具体的には、要求対象判定部161は、メッセージ検索要求の対象がデバイス名であるか、またはホスト名であるかを判定する。メッセージ検索要求の対象の指定は、たとえば、オペレータがメッセージ一覧要求部312を操作することにより行われる。   As shown in FIG. 7, when a message search request is issued by the operator operating the message list request unit 312 based on the information displayed on the display unit 314 of the monitoring terminal 300 (YES in step S8). ), Step S601 in the request target determination unit 161 is started as shown in FIG. Specifically, the request target determination unit 161 determines whether the target of the message search request is a device name or a host name. The target of the message search request is specified, for example, when the operator operates the message list request unit 312.

被疑デバイスに対してメッセージ検索の要求があった場合(ステップS601で被疑デバイス)、メッセージ検索部162は、被疑対象デバイスを共用する全ホストについてメッセージ蓄積部110を検索し、該当するメッセージを抽出し、ステップS801に進む。   If there is a message search request for the suspect device (the suspect device in step S601), the message search unit 162 searches the message storage unit 110 for all hosts sharing the suspect device, and extracts the corresponding message. The process proceeds to step S801.

一方、オペレータによるメッセージ一覧要求部312の操作による、メッセージ検索要求の対象がホストであった場合(ステップS601でホスト)、メッセージ検索部162は、メッセージ蓄積部110を検索し、該当するメッセージを抽出し、ステップS801に進む。   On the other hand, when the target of the message search request by the operator's operation of the message list request unit 312 is a host (host in step S601), the message search unit 162 searches the message storage unit 110 and extracts the corresponding message. Then, the process proceeds to step S801.

ステップS801では、ソート処理部155は、ステップS701、またはS702で得られたメッセージを、それぞれ、発生ノード毎に並べる。なお、ステップS601は、図7のステップS9に相当し、ステップS701、S702は、図7のステップS10に相当し、ステップS801は、図7のステップS11に相当する。   In step S801, the sort processing unit 155 arranges the messages obtained in step S701 or S702 for each occurrence node. Note that step S601 corresponds to step S9 in FIG. 7, steps S701 and S702 correspond to step S10 in FIG. 7, and step S801 corresponds to step S11 in FIG.

ソート処理部155の処理に次いで、図7に示すステップS12が実行される。すなわち、ステップS801でソートされたメッセージ一覧が、結果表示部111へ出力され、結果出力部111は、メッセージ一覧を、ネットワーク400を介して、表示制御部313へ出力する(ステップS12)。これにより、監視端末300を利用するオペレータは、表示制御部313が表示部314に表示するメッセージ一覧を確認することができる。   Subsequent to the processing of the sort processing unit 155, step S12 shown in FIG. 7 is executed. That is, the message list sorted in step S801 is output to the result display unit 111, and the result output unit 111 outputs the message list to the display control unit 313 via the network 400 (step S12). Thereby, the operator using the monitoring terminal 300 can check the message list displayed on the display unit 314 by the display control unit 313.

本発明の実施の形態におけるプログラムは、コンピュータに、図7〜図12に示すステップS1〜S12、S101〜S104、S201、S301〜S312、S3001〜S3011、S401〜S403、S501、S601、S701、S702、およびS801を実行させるプログラムであればよい。このプログラムをコンピュータにインストールし、実行することによって、本実施の形態における障害分析装置100を実現することができる。この場合、コンピュータのCPU(Central Processing Unit)は、メッセージ監視部101、結果出力部111、入手部131、データ分析部132、テーブル更新部133、発生ノード判定部151、メッセージ抽出範囲算出部152、エラー有無判定部153、被疑対象絞込み部154、ソート処理部155、要求対象判定部161、およびメッセージ検索部162として機能し、処理を行なう。   The program according to the embodiment of the present invention is stored in the computer in steps S1 to S12, S101 to S104, S201, S301 to S312, S3001 to S3011, S401 to S403, S501, S601, S701, and S702 shown in FIGS. , And any program that executes S801. By installing and executing this program on a computer, the failure analysis apparatus 100 according to the present embodiment can be realized. In this case, the CPU (Central Processing Unit) of the computer includes a message monitoring unit 101, a result output unit 111, an acquisition unit 131, a data analysis unit 132, a table update unit 133, a generation node determination unit 151, a message extraction range calculation unit 152, It functions as an error presence / absence determination unit 153, a suspicious object narrowing unit 154, a sort processing unit 155, a request target determination unit 161, and a message search unit 162 to perform processing.

また、本実施の形態では、メッセージ蓄積部110および構成情報蓄積部140は、コンピュータに備えられたハードディスク等の記憶装置に、これらを構成するデータファイルを格納することによって実現できる。また、メッセージ蓄積部110および構成情報蓄積部140は、別のコンピュータによって構築されてもよい。   Further, in the present embodiment, the message storage unit 110 and the configuration information storage unit 140 can be realized by storing data files constituting them in a storage device such as a hard disk provided in the computer. Further, the message storage unit 110 and the configuration information storage unit 140 may be constructed by different computers.

以上のように本実施の形態によれば、エラー内容と、エラー原因との関係を予め障害分析装置100で特定できていなくても、障害原因を分析することができ得る。具体的には、障害分析装置100は、監視対象サーバ200からエラーメッセージなどのメッセージを収集しており、障害分析装置100のデバイス情報整理部120は、ホスト(物理OS、ハイパバイザ、仮想OS)が利用するデバイス情報を管理している。そして、障害分析装置100は、任意に選択した1つのエラーメッセージについて、エラーメッセージを発生するホストと、デバイス情報とを関連づけることで、エラー発生ホストとデバイスを共用している複数のホストを抽出する。さらに、障害分析装置100は、着目したエラー発生時近辺に上記デバイスを共用する複数のホストでエラーが発生しているか判定する。そして、当該複数のホストでのエラーの発生割合などに基づいて、エラー原因を分析し、被疑対象デバイスを特定する。これにより、デバイス障害観点からのエラー原因の絞込みを可能にしている。   As described above, according to the present embodiment, the cause of the failure can be analyzed even if the relationship between the error content and the cause of the error cannot be specified in advance by the failure analysis apparatus 100. Specifically, the failure analysis apparatus 100 collects messages such as error messages from the monitoring target server 200, and the device information organizing unit 120 of the failure analysis apparatus 100 has a host (physical OS, hypervisor, virtual OS). Manages device information to be used. Then, the failure analysis apparatus 100 extracts a plurality of hosts sharing the device with the error-occurring host by associating the error-generating host with the device information for one arbitrarily selected error message. . Further, the failure analysis apparatus 100 determines whether an error has occurred in a plurality of hosts sharing the device near the time of occurrence of the focused error. Then, the cause of the error is analyzed based on the error occurrence rate in the plurality of hosts, and the suspected device is specified. This makes it possible to narrow down the cause of errors from the viewpoint of device failure.

このような本実施の形態の構成により、仮想化環境のソフトウェアと物理デバイスとが複雑に構成されているシステムにおいて、エラーイベント発生原因の追及を容易にすることができる。より具体的には、ホストが利用する物理デバイス、論理デバイスの構成情報を用いて、特定のエラーイベントに含まれるホスト名から、利用しているデバイスを割り出す。そして、当該デバイスを共用する他のホストで同時期に障害が発生している割合を判定する。これにより、特定のデバイスに基づく連鎖障害であるか、または、ホスト自身で発生している障害であるか絞り込むことができる。   With such a configuration of the present embodiment, it is possible to easily pursue the cause of the occurrence of an error event in a system in which software and physical devices in a virtual environment are configured in a complex manner. More specifically, the device being used is determined from the host name included in the specific error event using the configuration information of the physical device and logical device used by the host. Then, the rate at which a failure occurs at the same time in another host sharing the device is determined. Thereby, it is possible to narrow down whether it is a chain fault based on a specific device or a fault occurring in the host itself.

また、本実施の形態では、エラー有無判定部153は、監視端末300で選択されたエラーを基準として、当該基準から所定の範囲内で、エラー発生ノードのホストとデバイスを共用する他のホストでエラーが発生しているか否かを判定する。これにより、監視端末300で選択されたエラーと同時期に発生した他のエラーを特定することができるので、エラー発生原因に適した分析材料を得ることができ、より正確にエラー原因を分析することができる。   Further, in this embodiment, the error presence / absence determination unit 153 is based on the error selected by the monitoring terminal 300, and the other host sharing the device with the host of the error occurrence node within a predetermined range from the reference. It is determined whether an error has occurred. As a result, it is possible to identify other errors that have occurred at the same time as the error selected by the monitoring terminal 300, so that an analysis material suitable for the cause of the error can be obtained, and the cause of the error can be analyzed more accurately. be able to.

また、本実施の形態では、エラー発生ホストが仮想ホストである場合には、エラー発生ホストのハイパバイザが利用している物理デバイスおよび論理デバイスを共用する他のホストを特定し、当該特定されたホストのエラーを抽出する。これにより、エラー発生ホストが仮想ホストである場合でも、エラーの原因をより正確に特定することができる。   In this embodiment, when the error occurrence host is a virtual host, the other host sharing the physical device and the logical device used by the hypervisor of the error occurrence host is specified, and the specified host is specified. Extract errors. Thereby, even when the error occurrence host is a virtual host, the cause of the error can be specified more accurately.

また、本実施の形態では、被疑対象絞込み部154は、エラー発生ホストとデバイスを共用する他のホストのうち、エラーが発生しているホストの数が所定の基準を超えている場合に、エラー発生ホストが利用しているデバイスにエラーが生じていると判定する。これにより、エラーを生じているデバイスを、より正確に分析することができる。   In the present embodiment, the suspicious object narrowing unit 154 determines that an error occurs when the number of hosts in which an error has occurred among other hosts sharing the device with the error-occurring host exceeds a predetermined standard. It is determined that an error has occurred in the device used by the generating host. As a result, the device causing the error can be analyzed more accurately.

(変形例)
上記実施の形態では、構成情報蓄積部140が管理するデバイスとして、監視対象サーバ200の物理ディスク、論理ディスクおよび物理NICを例示している。そして、これらのデバイスとホスト名とを関連付けることにより、エラー原因を絞り込む構成としているが、これに限定されない。たとえば、ディスクとNIC以外にも、監視対象サーバ200の構成情報取得部210がAPIで提供可能な物理、論理デバイスであり、且つ複数のホストで共用する(部分的なリソース割り当てが可能な)デバイスがあれば、構成情報蓄積部140で管理することができる。
(Modification)
In the above embodiment, the physical disk, logical disk, and physical NIC of the monitoring target server 200 are illustrated as devices managed by the configuration information storage unit 140. And although it is set as the structure which narrows down the cause of an error by correlating these devices and a host name, it is not limited to this. For example, in addition to the disk and NIC, the configuration information acquisition unit 210 of the monitoring target server 200 is a physical or logical device that can be provided by an API, and is a device shared by a plurality of hosts (partial resource allocation is possible) Can be managed by the configuration information storage unit 140.

また、図8(b)のステップS201において、エラーメッセージの検索範囲は、監視端末300を操作することで設定できてもよいし、障害分析装置100に算出範囲決定パターンを設定する装置を設けることで、適宜設定されてもよい。   8B, the error message search range may be set by operating the monitoring terminal 300, or the failure analysis apparatus 100 is provided with a device for setting the calculation range determination pattern. Therefore, it may be set as appropriate.

また、図11のステップS401において、被疑対象デバイス決定の絞り込みの基準は、監視端末300を操作することで設定されてもよいし、障害分析装置100に絞り込み基準パターンを設定すする装置を設けることで、適宜設定されてもよい。   Further, in step S401 of FIG. 11, the narrowing criteria for determining the suspected device may be set by operating the monitoring terminal 300, or a device for setting the narrowing criteria pattern is provided in the failure analysis apparatus 100. Therefore, it may be set as appropriate.

上述した実施の形態の一部又は全部は、以下に記載する(付記1)〜(付記12)によって表現することができるが、以下の記載に限定されるものではない。   Part or all of the above-described embodiments can be expressed by (Appendix 1) to (Appendix 12) described below, but is not limited to the following description.

(付記1)
仮想ホストを含む複数のホストのそれぞれが利用する物理デバイスおよび論理デバイスを特定する情報を入手する入手部と、
複数の前記ホストのうちエラーが発生したエラー発生ホストのホスト名と、前記入手部で入手した前記情報とから、前記エラー発生ホストが利用している前記物理デバイスおよび前記論理デバイスを特定し、かつ、特定された前記物理デバイスおよび前記論理デバイスを共用する他の前記ホストでエラーが発生しているか否かを判定するエラー有無判定部と、
を備えていることを特徴とする、障害分析装置。
(Appendix 1)
An obtaining unit for obtaining information for identifying a physical device and a logical device used by each of a plurality of hosts including a virtual host;
Identifying the physical device and the logical device used by the error-occurring host from the host name of the error-occurring host among the plurality of hosts and the information obtained by the obtaining unit; and An error presence / absence determining unit that determines whether an error has occurred in another host that shares the identified physical device and the logical device;
A failure analysis apparatus comprising:

(付記2)
前記エラー有無判定部は、前記エラー発生ホストで発生した前記エラーの発生状況に基づいて、他の前記ホストでエラーが発生しているか否かを判定する、付記1に記載の障害分析装置。
(Appendix 2)
The failure analysis device according to appendix 1, wherein the error presence / absence determination unit determines whether an error has occurred in another host based on the occurrence state of the error that has occurred in the error-occurring host.

(付記3)
前記エラー有無判定部は、前記エラー発生ホストが前記仮想ホストである場合には、前記エラー発生ホストのハイパバイザが利用している前記物理デバイスおよび前記論理デバイスを共用する他の前記ホストを特定し、当該特定されたホストのエラーを抽出する、付記1または付記2に記載の障害分析装置。
(Appendix 3)
When the error occurrence host is the virtual host, the error presence / absence determination unit identifies the other physical host that shares the physical device and the logical device used by the hypervisor of the error occurrence host, and The failure analysis apparatus according to appendix 1 or appendix 2, which extracts an error of the identified host.

(付記4)
エラーが生じている前記物理デバイスおよび前記論理デバイスを絞込む被疑対象絞込み部をさらに備え、
前記被疑対象絞込み部は、前記エラー発生ホストおよび他の前記ホストのなかで、エラーが発生しているホストの数が所定の基準を超えている場合に、前記エラー発生ホストが利用している前記物理デバイスおよび前記論理デバイスの少なくとも一方に障害が生じていると判定する、付記1〜付記3のいずれかに記載の障害分析装置。
(Appendix 4)
A suspicious object narrowing section for narrowing down the physical device and the logical device in which an error has occurred;
The suspected object narrowing unit is used by the error-occurring host when the number of hosts in which the error has occurred exceeds a predetermined standard among the error-occurring host and the other hosts. The failure analysis apparatus according to any one of appendix 1 to appendix 3, wherein it is determined that a failure has occurred in at least one of the physical device and the logical device.

(付記5)
(a)仮想ホストを含む複数のホストのそれぞれが利用する物理デバイスおよび論理デバイスを特定する情報を入手するステップと、
(b)複数の前記ホストのうちエラーが発生したエラー発生ホストのホスト名と、前記入手部で入手した前記情報とから、前記エラー発生ホストが利用している前記物理デバイスおよび前記論理デバイスを特定するステップと、
(c)特定された前記物理デバイスおよび前記論理デバイスを共用する他の前記ホストでエラーが発生しているか否かを判定するステップと、
を含むことを特徴とする、障害分析方法。
(Appendix 5)
(A) obtaining information for specifying a physical device and a logical device used by each of a plurality of hosts including a virtual host;
(B) Identifying the physical device and the logical device used by the error-occurring host from the host name of the error-occurring host among the plurality of hosts and the information obtained by the obtaining unit And steps to
(C) determining whether an error has occurred in another host that shares the identified physical device and logical device;
A failure analysis method comprising:

(付記6)
前記エラーが発生しているか否かを判定するステップでは、前記エラー発生ホストで発生した前記エラーの発生状況に基づいて、他の前記ホストでエラーが発生しているか否かを判定する、付記5に記載の障害分析方法。
(Appendix 6)
In the step of determining whether or not the error has occurred, it is determined whether or not an error has occurred in another host based on the occurrence state of the error that has occurred in the error-occurring host. Failure analysis method described in 1.

(付記7)
前記エラーが発生しているか否かを判定するステップでは、前記エラー発生ホストが前記仮想ホストである場合には、前記エラー発生ホストのハイパバイザが利用している前記物理デバイスおよび前記論理デバイスを共用する他の前記ホストを特定し、当該特定されたホストのエラーを抽出する、付記5または付記6に記載の障害分析方法。
(Appendix 7)
In the step of determining whether or not the error has occurred, if the error-occurring host is the virtual host, the physical device and the logical device used by the hypervisor of the error-occurring host are shared. The failure analysis method according to appendix 5 or appendix 6, wherein the other host is identified and an error of the identified host is extracted.

(付記8)
エラーが生じている前記物理デバイスおよび前記論理デバイスを絞込むステップをさらに備え、
前記絞込むステップでは、前記エラー発生ホストおよび他の前記ホストのなかで、エラーが発生しているホストの数が所定の基準を超えている場合に、前記エラー発生ホストが利用している前記物理デバイスおよび前記論理デバイスの少なくとも一方に障害が生じていると判定する、付記5〜付記7のいずれかに記載の障害分析方法。
(Appendix 8)
Further comprising the step of narrowing down the physical device and the logical device in which an error has occurred,
In the narrowing-down step, the physical number used by the error-occurring host when the number of hosts in which an error has occurred exceeds a predetermined standard among the error-occurring host and other hosts. The failure analysis method according to any one of appendix 5 to appendix 7, wherein it is determined that a fault has occurred in at least one of the device and the logical device.

(付記9)
仮想ホストを含む複数のホストで発生する障害をコンピュータによって分析するためのプログラムであって、前記コンピュータに、
(a)仮想ホストを含む複数のホストのそれぞれが利用する物理デバイスおよび論理デバイスを特定する情報を入手するステップと、
(b)複数の前記ホストのうちエラーが発生したエラー発生ホストのホスト名と、前記入手部で入手した前記情報とから、前記エラー発生ホストが利用している前記物理デバイスおよび前記論理デバイスを特定するステップと、
(c)特定された前記物理デバイスおよび前記論理デバイスを共用する他の前記ホストでエラーが発生しているか否かを判定するステップと、
を実行させる、プログラム。
(Appendix 9)
A program for analyzing failures occurring in a plurality of hosts including a virtual host by a computer,
(A) obtaining information for specifying a physical device and a logical device used by each of a plurality of hosts including a virtual host;
(B) Identifying the physical device and the logical device used by the error-occurring host from the host name of the error-occurring host among the plurality of hosts and the information obtained by the obtaining unit And steps to
(C) determining whether an error has occurred in another host that shares the identified physical device and logical device;
A program that executes

(付記10)
前記エラーが発生しているか否かを判定するステップでは、前記エラー発生ホストで発生した前記エラーの発生状況に基づいて、他の前記ホストでエラーが発生しているか否かを判定する、付記9に記載のプログラム。
(Appendix 10)
In the step of determining whether or not the error has occurred, it is determined whether or not an error has occurred in another host based on the occurrence status of the error that has occurred in the error-occurring host. The program described in.

(付記11)
前記エラーが発生しているか否かを判定するステップでは、前記エラー発生ホストが前記仮想ホストである場合には、前記エラー発生ホストのハイパバイザが利用している前記物理デバイスおよび前記論理デバイスを共用する他の前記ホストを特定し、当該特定されたホストのエラーを抽出する、付記9または付記10に記載のプログラム。
(Appendix 11)
In the step of determining whether or not the error has occurred, if the error-occurring host is the virtual host, the physical device and the logical device used by the hypervisor of the error-occurring host are shared. The program according to appendix 9 or appendix 10, which identifies another host and extracts an error of the identified host.

(付記12)
エラーが生じている前記物理デバイスおよび前記論理デバイスを絞込むステップをさらに備え、
前記絞込むステップでは、前記エラー発生ホストおよび他の前記ホストのなかで、エラーが発生しているホストの数が所定の基準を超えている場合に、前記エラー発生ホストが利用している前記物理デバイスおよび前記論理デバイスの少なくとも一方に障害が生じていると判定する、付記9〜付記11のいずれかに記載のプログラム。
(Appendix 12)
Further comprising the step of narrowing down the physical device and the logical device in which an error has occurred,
In the narrowing-down step, the physical number used by the error-occurring host when the number of hosts in which an error has occurred exceeds a predetermined standard among the error-occurring host and other hosts. The program according to any one of appendix 9 to appendix 11, which determines that a failure has occurred in at least one of a device and the logical device.

本発明は、仮想化技術により大量の仮想サーバを一元管理するデータセンタなどの運用管理に用いられる、障害分析装置、障害分析方法、およびプログラムに適用することができる。   The present invention can be applied to a failure analysis apparatus, a failure analysis method, and a program used for operation management of a data center or the like that centrally manages a large number of virtual servers using a virtualization technique.

100 障害分析装置
131 入手部
153 エラー有無判定部
154 被疑対象絞込み部
100 Failure Analyzer 131 Obtaining Unit 153 Error Presence Determination Unit 154 Suspicious Target Narrowing Unit

Claims (6)

仮想ホストを含む複数のホストのそれぞれが利用する物理デバイスおよび論理デバイスを特定する情報を入手する入手部と、
複数の前記ホストのうちエラーが発生したエラー発生ホストのホスト名と、前記入手部で入手した前記情報とから、前記エラー発生ホストが利用している前記物理デバイスおよび前記論理デバイスを特定し、かつ、特定された前記物理デバイスおよび前記論理デバイスを共用する他の前記ホストでエラーが発生しているか否かを判定するエラー有無判定部と、
を備えていることを特徴とする、障害分析装置。
An obtaining unit for obtaining information for identifying a physical device and a logical device used by each of a plurality of hosts including a virtual host;
Identifying the physical device and the logical device used by the error-occurring host from the host name of the error-occurring host among the plurality of hosts and the information obtained by the obtaining unit; and An error presence / absence determining unit that determines whether an error has occurred in another host that shares the identified physical device and the logical device;
A failure analysis apparatus comprising:
前記エラー有無判定部は、前記エラー発生ホストで発生した前記エラーの発生状況に基づいて、他の前記ホストでエラーが発生しているか否かを判定する、請求項1に記載の障害分析装置。   The failure analysis apparatus according to claim 1, wherein the error presence / absence determination unit determines whether an error has occurred in another host based on the occurrence state of the error that has occurred in the error-occurring host. 前記エラー有無判定部は、前記エラー発生ホストが前記仮想ホストである場合には、前記エラー発生ホストのハイパバイザが利用している前記物理デバイスおよび前記論理デバイスを共用する他の前記ホストを特定し、当該特定されたホストのエラーを抽出する、請求項1または請求項2に記載の障害分析装置。   When the error occurrence host is the virtual host, the error presence / absence determination unit identifies the other physical host that shares the physical device and the logical device used by the hypervisor of the error occurrence host, and The failure analysis apparatus according to claim 1, wherein an error of the identified host is extracted. エラーが生じている前記物理デバイスおよび前記論理デバイスを絞込む被疑対象絞込み部をさらに備え、
前記被疑対象絞込み部は、前記エラー発生ホストおよび他の前記ホストのなかで、エラーが発生しているホストの数が所定の基準を超えている場合に、前記エラー発生ホストが利用している前記物理デバイスおよび前記論理デバイスの少なくとも一方に障害が生じていると判定する、請求項1〜請求項3のいずれかに記載の障害分析装置。
A suspicious object narrowing section for narrowing down the physical device and the logical device in which an error has occurred;
The suspected object narrowing unit is used by the error-occurring host when the number of hosts in which the error has occurred exceeds a predetermined standard among the error-occurring host and the other hosts. The failure analysis apparatus according to claim 1, wherein it is determined that a failure has occurred in at least one of the physical device and the logical device.
(a)仮想ホストを含む複数のホストのそれぞれが利用する物理デバイスおよび論理デバイスを特定する情報を入手するステップと、
(b)複数の前記ホストのうちエラーが発生したエラー発生ホストのホスト名と、前記入手部で入手した前記情報とから、前記エラー発生ホストが利用している前記物理デバイスおよび前記論理デバイスを特定するステップと、
(c)特定された前記物理デバイスおよび前記論理デバイスを共用する他の前記ホストでエラーが発生しているか否かを判定するステップと、
を含むことを特徴とする、障害分析方法。
(A) obtaining information for specifying a physical device and a logical device used by each of a plurality of hosts including a virtual host;
(B) Identifying the physical device and the logical device used by the error-occurring host from the host name of the error-occurring host among the plurality of hosts and the information obtained by the obtaining unit And steps to
(C) determining whether an error has occurred in another host that shares the identified physical device and logical device;
A failure analysis method comprising:
仮想ホストを含む複数のホストで発生する障害をコンピュータによって分析するためのプログラムであって、
前記コンピュータに、
(a)前記仮想ホストを含む複数の前記ホストのそれぞれが利用する物理デバイスおよび論理デバイスを特定する情報を入手するステップと、
(b)複数の前記ホストのうちエラーが発生したエラー発生ホストのホスト名と、前記入手部で入手した前記情報とから、前記エラー発生ホストが利用している前記物理デバイスおよび前記論理デバイスを特定するステップと、
(c)特定された前記物理デバイスおよび前記論理デバイスを共用する他の前記ホストでエラーが発生しているか否かを判定するステップと、
を実行させる、プログラム。
A program for analyzing failures occurring in a plurality of hosts including a virtual host by a computer,
In the computer,
(A) obtaining information for identifying a physical device and a logical device used by each of the plurality of hosts including the virtual host;
(B) Identifying the physical device and the logical device used by the error-occurring host from the host name of the error-occurring host among the plurality of hosts and the information obtained by the obtaining unit And steps to
(C) determining whether an error has occurred in another host that shares the identified physical device and logical device;
A program that executes
JP2011211411A 2011-09-27 2011-09-27 Failure analysis apparatus, failure analysis method, and program Expired - Fee Related JP5747765B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011211411A JP5747765B2 (en) 2011-09-27 2011-09-27 Failure analysis apparatus, failure analysis method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011211411A JP5747765B2 (en) 2011-09-27 2011-09-27 Failure analysis apparatus, failure analysis method, and program

Publications (2)

Publication Number Publication Date
JP2013073389A JP2013073389A (en) 2013-04-22
JP5747765B2 true JP5747765B2 (en) 2015-07-15

Family

ID=48477849

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011211411A Expired - Fee Related JP5747765B2 (en) 2011-09-27 2011-09-27 Failure analysis apparatus, failure analysis method, and program

Country Status (1)

Country Link
JP (1) JP5747765B2 (en)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113260984A (en) * 2018-12-28 2021-08-13 京瓷办公信息系统株式会社 Monitoring system, monitoring method, and monitoring program
CN113568769B (en) * 2020-04-28 2023-10-31 北京达佳互联信息技术有限公司 Exception handling method, device, server and storage medium

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4130615B2 (en) * 2003-07-02 2008-08-06 株式会社日立製作所 Fault information management method and management server in a network having a storage device
JP4421230B2 (en) * 2003-08-12 2010-02-24 株式会社日立製作所 Performance information analysis method
JP4260723B2 (en) * 2004-11-04 2009-04-30 株式会社日立製作所 Information processing apparatus, information processing apparatus control method, and program
JP2011113122A (en) * 2009-11-24 2011-06-09 Mitsubishi Electric Corp Failure influence analysis device, application system, and failure influence analysis method

Also Published As

Publication number Publication date
JP2013073389A (en) 2013-04-22

Similar Documents

Publication Publication Date Title
EP3149591B1 (en) Tracking application deployment errors via cloud logs
US10083022B2 (en) Applying update to snapshots of virtual machine
US8572607B2 (en) System and method for performing designated service image processing functions in a service image warehouse
US9973439B2 (en) Internet protocol address management (IPAM) integration with a plurality of virtualization tiers in the virtual cloud using infrastructure metadata
JP5239075B2 (en) Computer system, method and computer program for managing a service process including a plurality of service steps
KR20180068002A (en) Cloud infra real time analysis system based on big date and the providing method thereof
US9116874B2 (en) Virtual machine test system, virtual machine test method
CN107533503B (en) Method and data center for selecting virtualized environment during deployment
CN108139965B (en) Management server and management method using the same
US8336099B2 (en) Methods, hardware products, and computer program products for implementing introspection data comparison utilizing hypervisor guest introspection data
JP5754440B2 (en) Configuration information management server, configuration information management method, and configuration information management program
JP2009282714A (en) Virtual machine computer system, and fail-safe method for the same
JP4918668B2 (en) Virtualization environment operation support system and virtualization environment operation support program
US9405902B1 (en) Anti-malware service in multi-tenant cloud computing environments
JP6116524B2 (en) Program analysis apparatus, program analysis method, and program analysis system
JP2009075877A (en) Information processing system and monitoring method
JP5740338B2 (en) Virtual environment operation support system
JP5747765B2 (en) Failure analysis apparatus, failure analysis method, and program
JP2012208752A (en) License management device, license management method, and program
JP6722345B2 (en) Sign detection device and sign detection method
JP2014002798A (en) Computer system and program
US20180196689A1 (en) Management system and management method which manage computer system
US9830349B2 (en) Maintaining storage profile consistency in a cluster having local and shared storage
KR20170071825A (en) Application Failure Trace Support Method for IT Service and Management System applying the same
JP2017010289A (en) Asset management device, asset management system, and program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140811

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20150123

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150319

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150414

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150427

R150 Certificate of patent or registration of utility model

Ref document number: 5747765

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees